Chương 5: Kết luận - phân cụm từ đồng nghĩa- 123docz.net

Một từ không thể xác định chính xác nghĩa khi đứng đơn lẻ mà phải được xác định trong một văn cảnh cụ thể nào đó, vì vậy việc xác định nghĩa của một từ đi đôi với việc phân tích văn cảnh sử dụng từ tương ứng. Vì vậy bài toán cần giải quyết ở đây là mô hình hóa từ và văn cảnh của nó như thế nào để có thể xác định các từ đồng nghĩa với nhau. Sử dụng phương pháp của Dekang Lin (1998) chúng ta có một mô hình để giải quyết bài toán này bằng cách xem các bộ ba như là văn cảnh sử dụng từ và các từ lại được mô tả thông qua chính các bộ ba chứa nó.

Theo đánh giá dựa trên các tài nguyên và công cụ mà chúng tôi có thể sử dụng, độ chính xác (precision) khoảng 50%. Đây là kết quả có thể chấp nhận được theo nghĩa hệ thống có thể được sử dụng hỗ trợ người làm từ điển. Chúng tôi tin rằng với dữ liệu lớn hơn và các công cụ tốt hơn, chúng tôi có thể xây dựng một từ điển thesaurus cho tiếng Việt hoàn toàn tự động.

Qua đề tài này, chúng tôi thấy có một số hướng có thể phát triển trong tương lai. Vấn đề thứ nhất, khá dễ thấy, là phân tích sự ảnh hưởng của chất lượng phân tích cú pháp đến hiệu quả của chương trình phát hiện từ đồng nghĩa. Theo đánh giá của nhóm tác giả Lê Anh Cường và cộng sự (2009), F-score của hệ phân tích cú pháp tiếng Việt trên dữ liệu chuẩn treebank tiếng Việt (Nguyễn Phương Thái và cộng sự, 2009) mới chỉ đạt xấp xỉ 80%, như vậy có khả năng ảnh hưởng đến hệ thống của chúng tôi. Vấn đề thứ hai là làm sao để hệ thống có thể phân biệt được nhiều loại tương tự về nghĩa: đồng nghĩa (có thể dùng thay thế cho nhau), trái nghĩa, nghĩa cụ thể-nghĩa trừu tượng, v.v..