ฉันรู้ว่าฉันสามารถแยกตัวอักษรและตัวเลขภาษาอังกฤษได้โดยใช้ A-Za-z0-9
regex
ฉันจะแยกคำจากภาษาอื่น เช่น ภาษาอาหรับ และอนุญาตให้ใช้เฉพาะตัวอักษรและตัวเลขในสคริปต์ได้อย่างไร และไม่มีอะไรอื่นอีก
วิธีหนึ่งที่ฉันใช้คือการกรองทุกสิ่งที่ฉันไม่ต้องการออกจากข้อความ จากนั้นฉันก็เหลือเพียงคำเดียว แต่วิธีนี้ใช้เวลา CPU มากและไม่มีประสิทธิภาพกับแอปพลิเคชันขนาดใหญ่
ตอนนี้ฉันสงสัยว่ามีวิธีอื่นใดที่ใช้อยู่หรือมีคนรู้ว่าสามารถใช้วิเคราะห์ข้อความของภาษาอื่นได้
จะสามารถแยกคำจากภาษาต่างๆ เช่น จีน ญี่ปุ่น ฯลฯ ที่ไม่มีการเว้นวรรคระหว่างคำได้อย่างไร วิธีหนึ่งที่ฉันใช้เพื่อแยกความแตกต่างระหว่างคำต่างๆ คือการดูสไตล์และการขึ้นบรรทัดใหม่เป็นวิธีการหนึ่งในการตระหนักว่าคำเหล่านั้นต้องทำงานต่างกัน แต่แนวทางนี้อาจไม่น่าเชื่อถือในบางครั้ง เมื่อผู้คนไม่ได้ใช้การขึ้นบรรทัดใหม่หรือการจัดรูปแบบมากนักเพื่อแยกคำต่างๆ คำ.
สรุปแล้วภาษาอื่นสามารถวิเคราะห์โดยใช้ regex ได้อย่างไร