•Dữ liệu Wikipedia:
– 99.679 bài viết trên Wikipedia Tiếng Việt (23/10/2009)
– Download tại địa chỉ: http://download.wikimedia.org/viwiki/20091023
•Dữ liệu từ điển:
– Từđiển đồng nghĩa: gồm 2393 nhóm từđồng nghĩa được phát triển dựa trên “Từđiển đồng nghĩa” của Nguyễn Văn Tu, NXB Đại học và Trung học chuyên nghiệp, 1985.
•Dữ liệu đánh giá độ đo tương đồng ngữ nghĩa câu:
– Sử dụng 20 cụm: mỗi cụm gồm 3-5 cặp câu, được đánh giá bằng tay theo thứ tự về độ tương đồng về mặt ngữ nghĩa (Thứ tự càng thấp độ tương đồng càng cao).
Ví dụ:
Số thứ tự Câu thứ nhất Câu thứ hai Xếp hàng bằng tay
1 Tôi thích Hà Nội Anh yêu Hồ Gươm 1
44
3 Tôi thích Hà Nội Cô ấy ngắm nhìn Tháp rùa 3
4 Tôi thích Hà Nội Bạn ấy thích Hà Giang 4
Bảng 5.6. Một cụm dữ liệu dùng đểđánh giá độ tương đồng ngữ nghĩa
Trong thực nghiệm này, các độđo tương đồng được đánh giá nêu trong bảng 4.2. Các bước thực nghiệm:
- Tính độ đo tương đồng giữa các cặp câu bằng các độ đo khác nhau, sắp xếp theo thứ tự càng gần về mặt ngữ nghĩa thì thứ tự càng thấp.
- Độ chính xác được tính bằng số lượng các câu giữ đúng thứ tự xếp hạng bằng tay đã được gán cho tập dữ liệu thực nghiệm.
Số thứ tự của câu Cos EntG Wiki Hidden All_1 All_2
1 3 2 2 2 2 1
2 2 3 1 1 1 2
3 3 4 4 4 3 3
4 1 1 3 3 4 4
Bảng 5.7. Kết quảđánh giá các độđo trên cụm dữ liệu ở bảng 5.2
Trong việc đánh giá trên 10 cụm tiếng Anh, tác giả chỉ sử dụng hai độđo tương đồng là Cosine và đồ thị quan hệ thực đểđánh giá.
Ngôn ngữ Cos Hidden Wiki EntG All_1 All_2
Tiếng Việt 56% 72% 76% 69% 81% 89%
Tiếng Anh 68% ~ ~ 83% ~ ~
Bảng 5.8. Độ chính xác đánh giá trên 20 cụm dữ liệu tiếng Việt và 10 cụm tiếng Anh Kết quả thực nghiệm cho thấy việc độ đo tương đồng ngữ nghĩa All_2 cho kết quả tốt hơn các độ đo khác. Trong các thực nghiệm tiếp theo, tác giả sử dụng All_2 làm đô đo tương đồng ngữ nghĩa chính.
45