KHỬ BỎNHẬPNHẰNGTRONGBÀITOÁNTÁCHTỪTIẾNG LÀO
A DISAMBIGUATION METHOD FOR THE DOCUMENT
SEGMENTATION OF THE LAO LANGUAGE
Vilavong Souksan; Phan Huy Khánh
Trường Đại học Bách Khoa; Dai hoc Champasak Lao
phkhanh@dut.udn.vn; ssuchedu@yahoo.com
TÓM TẮT
Trong xử lý tự nhiên (XLNNTN), thường gặp bàitoántáchtừtrong phân loại văn bản tự động, hay
phân tích, dịch thuật văn bản… Do cách viết tiếngLào không dùng dấu cách, hay ký hiệu phân biệt các
từ trong câu, việc xác định ranh giới giữa các từ, cụm từ trở nên khó khăn hơn so với các ngôn ngữ có
dấu cách từ rõ ràng như tiếng Anh, tiếng Việt… Hơn nữa, hiện tượng nhập nhằng, đa nghĩa trong các
ngôn ngữ nói chung, tiếngLào nói riêng, cũng đặt ra những vấn đề cần giải quyết. Trên cơ sở đánh giá
các phương pháp táchtừtrong xử lý Tin học tiếng Lào, nội dung bài báo trình bày kết quả tìm hiểu các
hiện tượng nhập nhằngtrongtiếng Lào, bằng cách đối sánh với các hiện tượng nhập nhằngtrong tiếng
Việt, từ đó bài báo đề xuất giải pháp khửbỏnhậpnhằngtrong tiến trình táchtừtiếngLào để đạt được
kết quả có độ chính xác tốt hơn so với các phương pháp táchtừtiếngLào đã đề xuất trước đây.
Từ khóa: nhập nhằng; phân loại văn bản; tách từ; xử lý ngôn ngữ tự nhiên; xử lý tiếng Lào
ABSTRACT
In the field of natural language processing (NLP), there is a problem of words segmentation in a
sentence that is often applied to the automatic classification of documents, or in the analysis, the
translation of the text As the writing of the Lao language does not use spaces or separation symbols
of words, the determination of boundaries between words in the sentences is more difficult than other
languages such as English, Vietnamese language Moreover, the phenomenon of ambiguity in natural
language in general, especially in Laos language, also poses problems that need to be solved. At present,
on the basis of the research status estimation of information technology applications in Lao and
evaluation methods generally used for separating from texts in the application of natural language
processing, the process of segmentation in the Lao language is particularly used by processing in the
informatics language. In this study, the authors will present the findings of ambiguous phenomena in
Lao comparing to the phenomena of ambiguity in Vietnamese and then propose solutions to eliminating
ambiguity in the process of segmentation in the Lao language to achieve results with better accuracy
than the Lao segmentation method proposed in the previous study.
Keywords: ambiguous; documents classification; segmentation; natural language processing; Lao
language processing
. sánh với các hiện tượng nhập nhằng trong tiếng
Việt, từ đó bài báo đề xuất giải pháp khử bỏ nhập nhằng trong tiến trình tách từ tiếng Lào để đạt được
kết quả.
KHỬ BỎ NHẬP NHẰNG TRONG BÀI TOÁN TÁCH TỪ TIẾNG LÀO
A DISAMBIGUATION METHOD FOR THE DOCUMENT
SEGMENTATION OF THE LAO