Hướng tiếp cận dựa trên tri thức

Một phần của tài liệu Phát hiện kế thừa văn bản tiếng Việt dựa trên từ vựng và từ điển đồng nghĩa (Trang 28 - 29)

Như đã giới thiệu ở trên, việc sử dụng tri thức thế giới trong những hệ thống phát hiện kế thừa văn bản giúp dễ dàng nhận ra các mối quan hệ kế thừa khi mà từ vựng hay tri thức ngữ nghĩa không đủđểđưa ra mối quan hệ kế thừa chính xác.

Trong các hội nghị RTE gần đây, các hệ thống tham gia đòi hỏi phải có một tri thức miền nhằm đưa ra phán quyết kế thừa chính xác hơn. Do đó, tác dụng của các tri thức miền có thể nhận thấy rõ ràng trong việc làm tăng độ chính xác của hệ thống. Trong hai hội nghị RTE 4 và RTE5, có ba nguồn tài nguyên tri thức được sử dụng rộng rãi là [18]:

• WordNet4 và phần mở rộng của nó: Chúng được sử dụng để tìm từđồng nghĩa, quan hệ tổng thể - bộ phận (hyponyms) và những thuật ngữ liên quan tới từ vựng khác.

• VerbOcean5 và DIRT: Hai tài nguyên này thường được sử dụng để phát hiện các mối quan hệ giữa các động từ hoặc vị từ trong câu.

• Wikipedia6 và các gazetteers (danh sách tên các thực thể): sử dụng để nhận dạng và giải quyết vấn đề tên thực thể.

WordNet một trong những từđiển tiếng Anh được sử dụng rộng rãi trong hầu hết các hệ thống RTE. WordNet dùng phổ biến trong việc tính trọng số tương đồng của hai từ sử dụng những liên kết ngữ nghĩa như: từ đồng nghĩa, quan hệ tổng thể - bộ phận (hyponyms). Galanis và cộng sự (2009) đã tiến hành thực nghiệm với một danh sách các độ đo tương tự, bao gồm cả độ đo Cosine, khoảng cách Oclit, khoảng cách Levenshtein, …Clack và Harrison (2009) sử dụng WordNet để cải tiến độ mạnh cho

4

http://wordnet.princeton.edu/

5 http://demo.patrickpantel.com/demos/verbocean/

17

các suy luận logic cho độ chính xác tăng 4-6%. Tuy nhiên, theo thống kê, trong 19 hệ thống tham gia trong RTE5 sử dụng từ điển WordNet thì chỉ có 9 hệ thống tăng độ chính xác, 7 hệ thống thấy giảm độ chính xác và 3 hệ thống quan sát thấy không có hiệu quả. Tóm lại, hệ thống muốn sử dụng một tài nguyên phù hợp đòi hỏi phải có sự khảo sát và kiểm tra dữ liệu trước khi tiến hành thực nghiệm [18].

Balahur và cộng sự (2009) sử dụng VerbOcean và VerbNet7để bắt những mối quan hệ giữa các động từ. Hai động từ liên quan tới nhau nếu chúng thuộc về cùng một lớp trong VerbNet hoặc thuộc lớp con của chúng. Ngoài ra, chúng có thể có một mối quan hệ trong VerbOcean. Tương tự như vậy, Mehad cũng sử dụng VerbOcean trong hệ thống của mình. Điểm khác biệt là tác giả biến đổi mối quan hệ giữa các động từ dưới dạng luật và gán trọng số khác nhau cho luật dựa trên mô hình khoảng cách chuyển đổi.

Shnarch (2008) tạo ra một tài nguyên mở rộng của những luật kế thừa từ Wikipedia, sử dụng một số phương pháp trích rút. Tài nguyên này chứa tám triệu luật được xây dựng một cách chính xác. BarHaim đã tích hợp những luật này vào trong hệ thống của họ. Li và cộng sự (2009) sử dụng Wikipedia để nhận dạng tên thực thể trong trường hợp có những tham chiếu khác nhau tới cùng một tên thực thể. Các tác giả kết hợp thông tin từ wikipedia với đầu ra của một modun khác và xây dựng đồ thị thực thể và mối quan hệ cho quá trình xử lý tiếp theo. Mehdad coi wikipedia như một nguồn thay thế độ đo tương tự từ vựng (trước đó tác giả sử dụng mô hình chỉnh sửa và phương pháp dựa trên hàm nhân). Một trong những hệ thống RTE hàng đầu của Iftene và cộng sự (2009) [11] tích hợp tất cả các nguồn tài nguyên trên và xác định đóng góp của nó trong hệ thống thông qua việc bớt sử dụng một trong số chúng trong quá trình thực nghiệm. Bên cạnh đó, một số tác giả định nghĩa độ đo tương tự dựa trên FrameNet.

Ngoài việc kiểm tra các hệ thống tham gia, Mirkin nghiên cứu các phương pháp đánh giá hiệu quả của việc sử dụng nguồn tài nguyên từ vựng – ngữ nghĩa trong hội nghị RTE. Các tác giả đề xuất hệ thống - ứng dụng – sự ước lượng độc lập và phân tích phương pháp luận cho hiệu năng sử dụng nguồn tài nguyên và ứng dụng một cách có hệ thống lên 7 tài nguyên nổi bật, trong đó có WordNet và Wikipedia. Sựđánh giá và phân tích của tác giả cung cấp một sựước lược so sánh số lượng của những tiện ích riêng biệt trong phạm vi những tài nguyên nổi bật cho các luật kế thừa [18].

Một phần của tài liệu Phát hiện kế thừa văn bản tiếng Việt dựa trên từ vựng và từ điển đồng nghĩa (Trang 28 - 29)