Giải thích cho các luật chuyển mẫu ở trên nhƣ sau:
Đối với luật mẫu: “A→B word C @ [- 1 ]” có nghĩa là chuyển từ nhãn của từ
hiện tại từ nhãn A sang nhãn B nếu nhƣ từ phía trƣớc của nó là C.
Đối với luật mẫu: “A→B word C @ [ 1 ]” có nghĩa là chuyển từ nhãn của từ
hiện tại từ nhãn A sang nhãn B nếu nhƣ từ kế tiếp của nó là C.
Đối với luật mẫu: “A→B word C @ [ -2 ] & word D @ [ -1 ]” có nghĩa là chuyển từ nhãn của từ hiện tại từ nhãn A sang nhãn B nếu nhƣ hai từ đứng đằng trƣớc từ hiện tại lần lƣợt là C và D.
Đối với luật mẫu: “A→B word C @ [ -1 ] & word D @ [ 1 ]” có nghĩa là chuyển từ nhãn của từ hiện tại từ nhãn A sang nhãn B nếu nhƣ từ đứng đằng trƣớc từ hiện tại là C và từ đứng đằng sau từ hiện tại là D.
Đối với luật mẫu: “A→B word C @ [ 1 ] & word D @ [ 2 ]” có nghĩa là chuyển
từ nhãn của từ hiện tại từ nhãn A sang nhãn B nếu nhƣ hai từ đứng đằng sau (kế tiếp) từ hiện tại lần lƣợt là C và D.
CHƢƠNG IV. THỰC NGHIỆM
Trong chƣơng này, chúng tôi đề cập đến cách xây dựng kho ngữ liệu cho 10 từ đa nghĩa trong tiếng Việt. Dựa trên kho ngữ liệu này, chúng tôi tiến hành so sánh và đánh giá độ chính xác của phƣơng pháp mà chúng tôi đề xuất với các phƣơng pháp NB, SVM, TBL.
4.1. Chuẩn bị kho ngữ liệu
Đối với ngôn ngữ tiếng Anh, hầu hết các nghiên cứu đã sử dụng các kho ngữ liệu nhƣ Senseval-1, Senseval-2, Senseval-3, v...v. Theo hiểu biết của chúng tôi, kho ngữ liệu chuẩn cho tiếng Việt không có nên cần thiết phải xây dựng một kho ngữ liệu phục vụ cho việc đánh giá hiệu quả của các phƣơng pháp khử nhập nhằng nghĩa của từ. Công việc thực hiện xây dựng kho ngữ liệu nhƣ sau:
Thứ nhất, chúng tôi lựa chọn 10 từ đa nghĩa trong tiếng Việt gồm có: Bạc - Danh từ, Bạc - Tính Từ, Cất - Động Từ, Câu - Danh Từ, Câu - Động Từ, Cầu - Danh Từ, Khai - Động Từ, Pha - Động Từ, Phát - Động Từ, Sắc - Danh Từ. Những từ đa nghĩa đã đƣợc lựa chọn này là các từ có nhiều nghĩa trong từ điển.
Thứ hai, chúng tôi thu thập 1.2 GB dữ liệu (khoảng 120.000 bài báo từ các trang tin của việt nam nhƣ vnexpress.net, dantri.com.vn, ...) bằng cách sử dụng phần mềm mã nguồn mở Vietspider. Sau đó chúng tôi tiến hành trích rút ngữ cảnh cho 10 từ nhập nhằng. Ngữ cảnh ở đây đƣợc chúng tôi chọn là một số câu quanh từ nhập nhằng. Ví dụ, ngữ cảnh cho từ nhập nhằng "bạc" nhƣ sau:
Trọng tâm của tháng là sự hòa hợp trong gia đình, khi các thành viên đồng thuận về con đƣờng sự nghiệp của bạn. Giữa tháng 3, tình hình tài chính của bạn cải thiện rất nhiều. Tiền "bạc" vẫn đổ dồn về, nhƣng phải luôn biết cách chi tiêu hợp lý. Đây cũng là khoảng thời gian thích hợp để bạn đầu tƣ vào các tài sản cố định. Nếu may mắn, bạn sẽ thu về một khoản tiền lớn.
Hình 4.3. Một ví dụ về ngữ cảnh của từ đa nghĩa "bạc"
Sau đó, những ngữ cảnh cho 10 từ nhập nhằng đƣợc tiến hành gán nhãn bằng
tay để tạo ra kho ngữ liệu labeled corpus. Bảng 4.1 mô tả chi tiết về số lƣợng mẫu và
Bảng 4.1. Bảng thống kê trên các dữ liệu đƣợc gán nhãn
No Word Part of speech Senses Examples
1 Bạc Noun 4 1224 2 Bạc Adj 4 552 3 Cất Verb 8 1203 4 Câu Noun 2 3142 5 Câu Verb 3 295 6 Cầu Noun 2 1174 7 Khai Verb 4 3459 8 Pha Verb 2 592 9 Phát Verb 8 2151 10 Sắc Noun 4 2000
Để tiến hành thực nghiệm hệ thống mà chúng tôi đề xuất, chúng tôi tiến hành xây dựng một số kho ngữ liệu nhƣ sau:
Thứ nhất, từ kho ngữ liệu đƣợc gán nhãn bằng tay labeled corpus, chúng tôi chia kho ngữ liệu này thành hai phần theo tỉ lệ 3:1, thu đƣợc hai kho ngữ liệu gọi là
data-corpus 1 và data-corpus 2 tƣơng ứng. Kho ngữ liệu data-corpus 1 đƣợc sử dụng
cho giai đoạn huấn luyện còn kho ngữ liệu data-corpus 2 đƣợc sử dụng cho giai đoạn
kiểm tra trong các mô hình phân lớp nhƣ NB, TBL, SVM và mô hình chúng tôi đề xuất.
Thứ hai, kho ngữ liệu data-corpus 1 đƣợc sử dụng cho mục đích xây dựng các
luật chuyển (TBL rules). Vì vậy, chúng tôi chia ngẫu nhiên kho ngữ liệu này N lần thành hai phần theo tỉ lệ 3:1. Kho ngữ liệu training-corpus-i đƣợc sử dụng cho giai
đoạn huấn luyện lên mô hình học máy Naive Bayes và kho ngữ liệu developing-
corpus-i đƣợc sử dụng cho việc sinh tập luật để xửa lỗi sai của mô hình học máy Naive
Bayes. Lý do chia kho ngữ liệu data-corpus 1 thành N lần nhƣ vậy là với mục đích thu
đƣợc một tập các luật chuyển có chất lƣợng nhiều nhất có thể. Số N này đƣợc chúng tôi xác định bằng thực nghiệm. Khi số lần chia kho ngữ liệu lớn hơn N mà tập luật chuyển sau khi kết hợp không làm tăng độ chính xác của hệ thống so với từng tập luật chuyển riêng lẻ và thậm chí còn làm giảm độ chính xác của hệ thống thì có thể chọn số lần chia kho ngữ liệu là N.
Để thấy đƣợc việc phân chia tập mẫu thành các phần, hãy xem Bảng 4.2 mô tả chi tiết số lƣợng các tập dùng cho huấn luyện, phát triển và kiểm tra tƣơng ứng.
Bảng 4.2. Thống kê trên tập mẫu đƣợc phân chia
No Word
Part of speech
Corpus 1 Corpus 2
Training Developing Test
1 Bạc Noun 687 230 307 2 Bạc Adj 308 105 139 3 Cất Verb 673 229 301 4 Câu Noun 1767 589 786 5 Câu Verb 163 57 75 6 Cầu Noun 659 220 295 7 Khai Verb 1944 650 865 8 Pha Verb 331 112 149 9 Phát Verb 1205 408 538 10 Sắc Noun 1124 376 500 4.2. Kết quả thực nghiệm
Trong phần này, chúng tôi sẽ trình bày kết quả thực nghiệm thu đƣợc trên 4 mô hình phân lớp khác nhau: Mô hình Naive Bayes, mô hình TBL, mô hình SVM, và mô hình chúng tôi đề xuất (nó là sự kết hợp của hai mô hình Naive Bayes và TBL). Từ những dữ liệu đã chuẩn bị ở trên, chúng tôi tiến hành đánh giá độ chính xác của các mô hình nhƣ sau:
Thứ nhất, chúng tôi tiến hành đánh giá độ chính xác đối với mô hình phân lớp Naive Bayes và thu đƣợc kết quả cho tiết trong bảng 4.3. Độ chính xác trung bình thu đƣợc là vào khoảng 86.5%.
Bảng 4.3. Kết quả của mô hình Naive Bayes
No Word POS Training Test Accuracy(%)
1 Bạc Noun 917 307 81.8 2 Bạc Adj 413 139 85.6 3 Cất Verb 902 301 84.4 4 Câu Noun 2356 786 97.6 5 Câu Verb 220 75 85.3 6 Cầu Noun 879 295 95.6 7 Khai Verb 2594 865 90.4 8 Pha Verb 443 149 79.2 9 Phát Verb 1613 538 73.6 10 Sắc Noun 1500 500 91.6 Trung bình 1328 444 86.5
Thứ hai, với mỗi từ nhập nhằng, sử dụng giải thuật huấn luyện đã đề xuất trong mục 3.1.1., chúng tôi thu đƣợc danh sách các luật chuyển. Nhƣ đã đê cập trong mục
4.1 về số N là số lần chia kho ngữ liệu data-corpus 1 thành hai kho ngữ liệu training-
corpus và developing-corpus, bằng thực nghiệm chúng tôi đã xác định đƣợc giá trị N=10. Bởi vì khi chúng tôi tăng giá trị N lớn hơn 10, danh sách các luật chuyển có thể thu đƣợc nhiều hơn nhƣng độ chính xác của hệ thống sẽ bị giảm.
Thực hiện quá trình huấn luyện theo mô hình mà chúng tôi đề xuất ứng với N = 10 cho từ đa nghĩa "bạc" (từ loại là tính từ), chúng tôi thu đƣợc 10 danh sách luật chuyển tƣơng ứng (Xem chi tiết trong Bảng 4.4). Ngoài ra một số luật chuyển đối với từ đa nghĩa "bạc" có thể xem trong hình 4.1.
4→2 word vàng @ [-1] 2→4 word sới@ [-1]
2→1word cao @ [1] & word cấp @[2] 2→3 word tiền@ [1]
2→3 word mấy@ [-2] & word triệu@[-1] 3→2 word tờ@ [-1]
4→1 word két @ [-1]