Tài liệu KHỬ BỎ NHẬP NHẰNG TRONG BÀI TOÁN TÁCH TỪ TIẾNG LÀO doc

1 367 0
Tài liệu KHỬ BỎ NHẬP NHẰNG TRONG BÀI TOÁN TÁCH TỪ TIẾNG LÀO doc

Đang tải... (xem toàn văn)

Thông tin tài liệu

KHỬ BỎ NHẬP NHẰNG TRONG BÀI TOÁN TÁCH TỪ TIẾNG LÀO A DISAMBIGUATION METHOD FOR THE DOCUMENT SEGMENTATION OF THE LAO LANGUAGE Vilavong Souksan; Phan Huy Khánh Trường Đại học Bách Khoa; Dai hoc Champasak Lao phkhanh@dut.udn.vn; ssuchedu@yahoo.com TÓM TẮT Trong xử lý tự nhiên (XLNNTN), thường gặp bài toán tách từ trong phân loại văn bản tự động, hay phân tích, dịch thuật văn bản… Do cách viết tiếng Lào không dùng dấu cách, hay ký hiệu phân biệt các từ trong câu, việc xác định ranh giới giữa các từ, cụm từ trở nên khó khăn hơn so với các ngôn ngữ có dấu cách từ rõ ràng như tiếng Anh, tiếng Việt… Hơn nữa, hiện tượng nhập nhằng, đa nghĩa trong các ngôn ngữ nói chung, tiếng Lào nói riêng, cũng đặt ra những vấn đề cần giải quyết. Trên cơ sở đánh giá các phương pháp tách từ trong xử lý Tin học tiếng Lào, nội dung bài báo trình bày kết quả tìm hiểu các hiện tượng nhập nhằng trong tiếng Lào, bằng cách đối sánh với các hiện tượng nhập nhằng trong tiếng Việt, từ đó bài báo đề xuất giải pháp khử bỏ nhập nhằng trong tiến trình tách từ tiếng Lào để đạt được kết quả có độ chính xác tốt hơn so với các phương pháp tách từ tiếng Lào đã đề xuất trước đây. Từ khóa: nhập nhằng; phân loại văn bản; tách từ; xử lý ngôn ngữ tự nhiên; xử lý tiếng Lào ABSTRACT In the field of natural language processing (NLP), there is a problem of words segmentation in a sentence that is often applied to the automatic classification of documents, or in the analysis, the translation of the text As the writing of the Lao language does not use spaces or separation symbols of words, the determination of boundaries between words in the sentences is more difficult than other languages such as English, Vietnamese language Moreover, the phenomenon of ambiguity in natural language in general, especially in Laos language, also poses problems that need to be solved. At present, on the basis of the research status estimation of information technology applications in Lao and evaluation methods generally used for separating from texts in the application of natural language processing, the process of segmentation in the Lao language is particularly used by processing in the informatics language. In this study, the authors will present the findings of ambiguous phenomena in Lao comparing to the phenomena of ambiguity in Vietnamese and then propose solutions to eliminating ambiguity in the process of segmentation in the Lao language to achieve results with better accuracy than the Lao segmentation method proposed in the previous study. Keywords: ambiguous; documents classification; segmentation; natural language processing; Lao language processing . sánh với các hiện tượng nhập nhằng trong tiếng Việt, từ đó bài báo đề xuất giải pháp khử bỏ nhập nhằng trong tiến trình tách từ tiếng Lào để đạt được kết quả. KHỬ BỎ NHẬP NHẰNG TRONG BÀI TOÁN TÁCH TỪ TIẾNG LÀO A DISAMBIGUATION METHOD FOR THE DOCUMENT SEGMENTATION OF THE LAO

Ngày đăng: 26/02/2014, 05:20

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan