Bài toán tách từ tiếng việt

Một phần của tài liệu Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc (Trang 32 - 34)

Một trong các vấn đề nền tảng của việc phân tích văn bản là chia văn bản thành

đơn vị cơ sở nhỏ nhất đó chính là từ. Trong tiếng Anh việc tách từ trở nên đơn giản vì về mặt ngữ nghĩa mỗi từđều mang trong nó ngữ nghĩa riêng. Nên chúng ta có thể tách từ dựa vào khoảng trắng. N hưn g t r o n g c á c ngôn ngữ châu Á như tiếng Hoa, tiếng Nhật, tiếng Hàn và cả tiếng Việt đó là một thách thức vô cùng to lớn vì sự

phức tạp tồn tại trong nó. Mặc dù được viết bằng các ký tự La tinh mở rộng, tiếng Việt cũng có những đặc tính chung với các ngôn ngữ phonographic Đông Nam

Á khác như khó xác định ranh giới giữa các từ và có các điểm khác biệt về

phonetic, văn phạm và ngữ nghĩa so với các ngôn ngữ Ấn Âu. Do đó, rất khó có thể áp dụng các kỹ thuật và hướng tiếp cận đã được nghiên cứu và thử nghiệm thành công trên các ngôn ngữ Ấn Âu cho tiếng Việt nếu không xây dựng thành công giải pháp cho việc tách từ trong văn bản tiếng Việt[20].

Theo Yang và Xin [29] và các kết quả khảo sát của Nguyễn Thanh Hùng[20], hầu hết các phương pháp phân loại văn bản tiếng Việt hiệu quả nhất hiện nay như: Support Vector Machine, Linear Least Squares Fit, mạng nơ ron … đều cần thông tin xác suất hay thống kê hay trọng số của từ. Sau khi khảo sát và đánh giá các phương pháp này trong việc phân loại văn bản tiếng Việt, đề tài được xác định việc tách từ là bước đầu tiên hết sức quan trọng cần phải được giải quyết

Đơn vị cơ bản trong tiếng Việt là tiếng, không phải là từ. Trong tài liệu “Từ tiếng Việt” của tác giảĐinh Điền được đăng trong hội thảo Proceeding of ICMLC2002 ở

Beijing, vào tháng 11 năm 2002 đã nêu ra một sốđặc tính chính của từ trong tiếng Việt như sau:

- Từở dạng nguyên thể, hình thức và ý nghĩa của từđộc lập với cú pháp - Từđược cấu trúc từ “tiếng”

- Từ bao gồm từđơn (từ một tiếng) và từ phức (n- tiếng, với n < 5), bao gồm từ

láy và từ ghép.

Do đặc điểm của tiếng Việt nên việc xây dựng bộ lexicon hay ngữ liệu này cần rất nhiều thời gian, công sức và chi phí. Đây chính là vấn đề đáng lo nhất trong bài toán phân loại văn bản tiếng Việt, xử lý ngôn ngữ tự nhiên và tìm kiếm thông tin tiếng Việt.

Bài toán có thể mô tả như sau : Xét văn bản t gồm n tiếng t=s1s2…sn. Mục tiêu của p hư ơn g p h á p tách từ là xác định những cách tách hợp lý nhất văn bản t thành m đọan t=w1w2…wm với wk=si…sj (1 ≤ km, 1≤ i, jn) có thể là từ đơn hay từ phức.

Hay : Cho một câu tiếng Việt bất kỳ, hãy tách câu đó thành những đơn vị từ

vựng (từ) có nghĩa.

phức tạp, đặc biệt là không có ngữ liệu kiểm chứng đã được tách từ thủ công.

Một phần của tài liệu Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc (Trang 32 - 34)