[TL14] Xác định từ loại chính xác cho các từ trong văn bản tiếng Việt là vấn đề rất quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên.Việc xác định này sẽ hỗ trợ cho việc phân tích cú pháp các văn bản, góp phần giải quyết tính đa nghĩa của từ, và trợ giúp các hệ thống rút trích thơng tin hướng đến ngữ nghĩa, v.v… Đối với vấn đề stop words, xác định từ loại có vai trị quan trọng trong việc khu biệt phạm vi hoạt động của chúng, tuy nhiên vì tính đặc thù của vấn đề này, nên chúng tôi không quá đi sâu vào việc phân loại quá chi tiết từ loại.
1.2.2. Quan niệm từ loại trong xử lý ngôn ngữ tự nhiên
Đối với các văn bản Việt ngữ, việc gán nhãn từ loại có nhiều khó khăn, đặc biệt là bản thân việc phân loại từ tiếng Việt cho đến nay vẫn là một vấn đề cịn nhiều tranh cãi, chưa có một chuẩn mực thống nhất.
Qua khảo sát các nghiên cứu gần đây của tiếng Việt cho bài toán gán nhãn từ loại có thể thấy có hai dạng tập nhãn từ loại thường được sử dụng cho các công cụ gán nhãn từ loại tiếng Việt:
Dạng thứ nhất: xuất phát từ tập gồm 8 nhãn từ loại tiếng Việt thông dụng được các nhà nghiên cứu ngôn ngữ học công nhận nhiều nhất (bao gồm: danh từ, động từ, tính từ, đại từ, phụ từ, kết từ, trợ từ, cảm từ) để xây dựng tập nhãn “mịn” hơn bằng cách phân nhỏ mỗi từ loại trên thành các tiểu từ loại. Việc phân nhỏ này dựa trên nền tảng là các tiểu loại từ được nêu ra trong cuốn Ngữ pháp tiếng Việt của Ủy ban khoa học xã hội Việt Nam, xuất bản năm 1993, có bổ sung thêm một số nhãn từ loại để tránh trường hợp một từ mang cùng một lúc nhiều nhãn từ loại (chẳng hạn động từ ngoại động chỉ cảm nghĩ hay động từ nội động chỉ cảm nghĩ). Tùy thuộc vào từng loại ứng dụng xem cần thông tin cú pháp và từ vựng ở mức nào mà việc xây dựng, xác định tập nhãn từ loại sẽ dừng ở mức thô hay mịn khác nhau. Hiện nay, ở Việt Nam chúng ta đã có một số tập nhãn từ loại được xây dựng, chủ yếu ở mức thơ, tiêu biểu có thể kể đến bộ nhãn VnPOStag của tác giả Trần Thị Oanh gồm 14 nhãn, 01 nhãn không xác định và các nhãn ký hiệu đặc biệt khác; bộ VietTreeBank gồm 16 nhãn và 01 nhãn cho từ không phân loại được,… Bộ nhãn gồm nhiều nhãn nhất hiện nay được xây dựng bởi nhóm tác giả Nguyễn Thị Minh Huyền sử dụng cho công cụ VnQtag gồm 48 nhãn và 01 nhãn không xác định.
Dạng thứ hai: tập nhãn tiếng Việt được xây dựng thông qua việc xây dựng kho ngữ liệu song ngữ Anh-Việt mà trong đó các câu tiếng Việt đã được gán nhãn từ loại chính xác nhờ kết quả liên kết từ Anh-Việt và phép chiếu từ loại từ Anh sang Việt. Tiêu biểu cho dạng tập nhãn từ loại này là tập nhãn được sử dụng trong nghiên cứu “Gán nhãn từ loại tự động cho Tiếng Việt” của nhóm tác giả Đinh Điền, tập nhãn này được xây dựng bằng cách quy chiếu từ tập nhãn tiếng Anh là Brown Corpus. Hiện nay, bài toán gán nhãn từ loại cho tiếng Anh đã được giải quyết khá tốt, đạt độ chính xác cao (khoảng hơn 97% ), bên cạnh việc hoàn thiện hơn nữa các phươngpháp gán nhãn, việc xây dựng bộ nhãn mịn hơn và có khả năng ứng dụng thực tế cao cũng đang rất được quan tâm. Có thể nói rằng kết quả đạt được của bài toán gán nhãn từ loại cho tiếng Anh đã ngày càng tiến gần tới mức tối ưu. Tuy nhiên, đối với các ngôn ngữ khác, đặc biệt là các ngơn ngữ tượng hình (như tiếng Trung Quốc, Nhật, Hàn Quốc …), các ngôn ngữ của Nga, Ấn Độ, A Rập, Thái
Lan… cũng như đối với tiếng Việt thì bài tốn gán nhãn từ loại vẫn là một thách thức lớn. Các phương pháp và công cụ đã được xây dựng gần như hoàn thiện cho Tiếng Anh khi đem áp dụng cho các ngôn ngữ khác loại trên thường đưa lại kết quả thấp hoặc chưa đáp ứng được nhu cầu ứng dụng. Như vậy, yêu cầu đặt ra với từng ngôn ngữ là phải kế thừa, tận dụng được các phương pháp sẵn có, tiến hành hiệu chỉnh hoặc đề xuất ra các hướng tiếp cận mới sao cho phù hợp với đặc điểm riêng của từng ngôn ngữ. [TL 57]5
1.2.3. Bảng phân loại từ loại trong xử lý ngôn ngữ tự nhiên
Dựa vào những quan niệm và kết quả của việc phân loại và gán nhãn từ loại như trên, chúng tôi xin đưa ra những nhãn từ loại thường hay được dùng trong việc xử lý ngôn ngữ tự nhiên:
Nhãn từ loại trong từ điển VCL
POS
Stt idPOS vnPOS enPOS
1 N danh từ Noun 2 V động từ Verb 3 A tính từ adjective 4 P đại từ pronoun 5 M số từ numeral 6 D định từ (những, các, vài...) determiner 7 R phụ từ adverb 8 E giới từ preposition 9 C liên từ conjunction 10 I trợ từ auxiliary word 11 O cảm từ emotivity word
12 Z yếu tố cấu tạo từ (bất, vô…) component stem
13 X không (hoặc chưa) xác định undetermined
5 Xem thêm: “Sử dụng bộ gán nhãn từ loại xác suất Qtag cho văn bản tiếng Việt”- Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương, kỷ yếu Hội thảo ICT.rda’03, Việt Nam, Hà Nội, 02/2003.
SubPOS
Stt idPOS idSubPOS vnPOS enPOS
1 N Np danh từ riêng proper noun
2 N Nt danh từ đơn thể countable noun
3 N Ng danh từ tổng thể collective Noun
4 N Na danh từ trừu tượng abstract noun
5 N Nc danh từ chỉ loại classifier noun
6 N Nl danh từ vị trí locative noun
7 N Nu danh từ đơn vị unit noun
8 V Vi động từ nội động intransitive verb
9 V Vt động từ ngoại động transitive verb
10 V Vs động từ trạng thái state verb
11 V Vm động từ tình thái modal verb
12 A Ap tính từ tính chất property adjective
13 A Ar tính từ quan hệ relative adjective
14 A Ao tính từ tượng thanh onomatopoetic adjective
15 A Ai tính từ tượng hình pictographic adjective
16 P Pp đại từ xưng hô personal pronoun
17 P Pd đại từ chỉ định demonstrative pronoun
18 P Pq đại từ số lượng quality pronoun
19 P Pi đại từ nghi vấn interrogative pronoun
20 M Mc số từ số lượng cardinal numeral
21 M Mo số từ thứ tự ordinal numeral 22 D D định từ determiner 23 R R phụ từ adverb 24 E E giới từ preposition 25 C C liên từ conjunction 26 I I trợ từ auxiliary word 27 O O cảm từ emotivity word
28 Z Z yếu tố cấu tạo từ component stem
29 X X không/chưa xác định undetermined