Phần này chúng tôi trình bày các thí nghiệm và đánh giá phương pháp NOW, thực hiện phân giải nhập nhằng dựa trên ontology của KIM được làm giàu bởi Wikipedia. Tập dữ
liệu dùng cho các thí nghiệm được trình bày trong Phần 4.2. Trong ontology của KIM (phiên bản miễn phí) không có thực thể nào có tên là “John McCarthy” hoặc “John Williams”. Do vậy, chúng tôi chỉ thực hiện thí nghiệm trên các thực thể có tên là “Georgia” hoặc “Columbia”. Bảng 4.7 trình bày các thông tin về số ứng viên tương ứng với các tên “Georgia” và “Columbia”, số lần xuất hiện của các thực thể có tên “Georgia” hoặc “Columbia” được đề cập đến trong tập tài liệu thí nghiệm, và số ánh xạ được thực hiện bởi NOW trên tập tài liệu.
Bảng 4.7: Thông tin về số lần xuất hiện của các tên đề cập đến các thực thể có một trong hai tên “Georgia”, hoặc “Columbia” và số lượng ánh xạ được thực hiện bởi phương pháp NOW.
Tên # ứng viên # lần xuất hiện # ánh xạ
Georgia 7 468 463
Columbia 10 207 205
Tổng số 675 668
Lưu ý rằng, mục tiêu của chúng tôi là xem xét các giá trị rút trích từ Wikipedia có
đóng góp như thế nào vào việc nâng cao hiệu quả phân giải nhập nhằng dựa trên ontology
được làm giàu. Tuy nhiên, có một thực tế là Wikipedia có thể không chứa một số thực thể
công ty Zentt, trong khi đó thực thể David McCarthy (tính đến ngày 31 tháng 10 năm 2009) trong Wikipedia là nhà cựu vô địch chạy 400 mét người Ailen. Việc xác định một thực thể trong một cơ sở tri thức hoặc trong một ontology có tồn tại trong Wikipedia không hoặc ngược lại, nằm ngoài mục tiêu của các thí nghiệm trong phần này.
Với các đặc trưng trích từ văn bản, chúng tôi chọn kết hợp tốt nhất EN+LW+CW+ID nhưđã thí nghiệm ở Phần 4.2. Trong đó ID bao gồm định danh của các thực thể đã được xác định theo một quá trình lặp cải thiện dần. Mỗi thực thểđược xác định tại mỗi bước lặp,
định danh của nó sẽđược sử dụng để mở rộng ngữ cảnh cho việc xác định các thực thể còn lại. Chúng tôi xem các đặc trưng trích từ ontology là các đặc trưng cơ bản, gọi là OF. Các
đặc trưng trích từ Wikipedia để làm giàu thông tin về các thực thể trong ontology là ET+RT+CL+OL. Bảng 4.8 trình bày lần lượt độ chính xác và độ đầy đủ ánh xạ cho các thực thể có tên “Georgia” và “Columbia”, khi thực thi Giải thuật 4.2 trên tập dữ liệu De2 sử
dụng ontology của KIM được làm giàu bởi Wikipedia. Kết quả cho thấy việc làm giàu on- tology bằng các đặc trưng có chọn lọc từ Wikipedia cải thiện đáng kể hiệu quả phân giải nhập nhằng các thực thể có tên.
Bảng 4.8: Kết quả thực hiện phân giải nhập nhằng của NOW trên tập dữ liệu với “Geor- gia” và “Columbia”.
Tên từ ontology Đặc trưđượng trích c làm giàu # ánh xạđúng MP (%) MR (%)
Georgia OF 310 66,95 66,23 OF + ET + RT + CL + OL 436 94,16 93,16 Columbia OF 171 83,41 82,60 OF + ET + RT + CL + OL 183 89,26 88,40 Trung bình OF 481 72,00 71,25 OF + ET + RT + CL + OL 619 92,66 91,70 4.5 Kết luận
Chương này trình bày một mô hình phân hạng các ứng viên dựa trên thống kê áp dụng để
phân giải nhập nhằng. Chúng tôi áp dụng mô hình này để khai phá các đặc trưng trên văn bản và trong Wikipedia, bằng cách kết hợp chúng theo nhiều cách khác nhau. Kết quả cho thấy rằng các kết hợp EN+LW+CW+ID, và ET+RT+CL+OL đạt hiệu quả phân giải nhập nhằng tốt nhất. Các đặc trưng mới so với các nghiên cứu khác là các từ xuất hiện xung
quanh các tên đồng tham chiếu với tên đang xét, và định danh của các thực thểđã được xác
định trong văn bản.
Sau khi khai phá, đánh giá và chọn lựa các đặc trưng tốt nhất trong Wikipedia, chúng tôi phát triển một giải thuật để làm giàu nội dung thông tin mô tả các thực thể trong một ontology. Việc làm giàu như vậy giúp bổ khuyết các thông tin còn thiếu của các thực thể
trong một ontology. Hơn nữa, các thông tin được làm giàu có thể chứa các tính chất còn thiếu của các thực thể trong ontology. Một mô hình phân giải nhập nhằng dựa trên thống kê được đề xuất để phân giải nhập nhằng dựa trên ontology đã được làm giàu. Quá trình phân giải nhâp nhằng cũng là một quá trình lặp cải thiện dần. Quá trình đó được đề xuất cho cả việc đánh giá kết hợp các đặc trưng được rút trích từ văn bản và Wikipedia khi xét
đến định danh của các thực thể như là các đặc trưng, và phân giải nhập nhằng dựa trên một ontology được làm giàu. Các kết quả thí nghiệm cho thấy việc làm giàu như vậy thật sự cải thiện hiệu quả phân giải nhập nhằng so với chỉ sử dụng riêng các đặc trưng của ontology gốc.
113
Chương 5
PHÂN GIẢI NHẬP NHẰNG
DỰA TRÊN WIKIPEDIA
5.1 Giới thiệu
Trong Chương 3 và Chương 4, chúng tôi đã lần lượt trình bày các phương pháp Onto- NEON, và NOW. Mỗi phương pháp đều phân giải nhập nhằng theo một quá trình lặp cải thiện dần để khai thác định danh của các thực thểđã được xác định. OntoNEON phân hạng mỗi ứng viên bằng cách khai thác quan hệ ngữ nghĩa của nó với các thực thểđã được xác
định sử dụng một ontology. NOW phân hạng các ứng viên dựa trên một mô hình thống kê, sử dụng một ontology đã được làm giàu bởi Wikipedia. Cả hai phương pháp đều khai thác nguồn tri thức là các ontology “đóng”, được xây dựng bởi một nhóm nhỏ các chuyên gia, là đích đến của các ánh xạ.
Nhưđã phân tích, các ontology đóng như thế có nội dung thông tin với độ tin cậy cao nhưng kích thước giới hạn, và mức độ cập nhật cũng như mức độ bao phủ các chủđề thông tin không cao. Do đó, các ontology đó có thể không chứa đủ thông tin của nhiều thực thể. Hơn nữa, các ontology đóng thiết lập cố định số lượng các tính chất của các thực thể, nhưng thực tế lại cho thấy rằng, tính chất của các thực thể trong thế giới thực là rất đa dạng. Do vậy, một tính chất nào đó có thể vốn dĩ là của một thực thể trong thực tế, nhưng một ontology đóng có thể không chứa tính chất đó. Ví dụ, trong PROTON ontology (Ter- ziev và CS, 2005) một thực thể thuộc lớp protont:person (lớp con người) chỉ có bốn
nghề nghiệp), protont:hasRelative (có họ hàng) và protont:isBossOf (là chủ
của). Như vậy còn thiếu các tính chất thông dụng khác của một con người như ngày sinh, nơi sinh, sở thích, bằng cấp, dân tộc, . . . Để vượt qua một số giới hạn của một ontology
đóng, chúng ta cần một nguồn tri thức khác, có kích thước lớn hơn, đa dạng hơn về thể
loại, giàu thông tin mô tả về các thực thể, có tốc độ cập nhật nhanh hơn so với các ontolo- gy đóng, nhưng chất lượng về thông tin vẫn đảm bảo. Wikipedia là một nguồn tri thức đáp
ứng được các yêu cầu đó.
Chúng tôi chọn Wikipedia là nguồn tri thức thay thế cho các ontology đóng là bởi vì các lý do sau:
• Đó là từ điển bách khoa lớn nhất hiện nay trên Internet, và đang phát triển nhanh chóng cả số lượng lẫn chất lượng. Wikipedia có thểđược xem như là một ontology “mở” (Hepp và CS, 2006; Syed và CS, 2008; Medelyan và CS, 2009).
• Nhiều nghiên cứu cho thấy rằng nội dung thông tin trên Wikipedia có chất lượng ở
mức độ chấp nhận được (Giles, 2005). Các nguồn thông tin trên Wikipedia mà chúng tôi dựđịnh khai thác cho việc phân giải nhập nhằng đã được chứng tỏ có độ
tin cậy cao (Weaver và CS, 2006).
• Wikipedia đã xác lập một mức độ tin cậy nhất định đối với cộng đồng học giả trong các lĩnh vực xử lý ngôn ngữ tự nhiên, rút trích thông tin, và truy hồi thông tin. Bằng chứng là có hàng trăm công trình nghiên cứu trong các lĩnh vực vừa nêu sử dụng Wikipedia (Medelyan và CS, 2009).
• Thông tin mô tả về một thực thể có tên trong Wikipedia rất đa dạng. Thông tin đó có thể chứa hầu hết các tính chất của một thực thể, và không bị giới hạn bởi một số
lượng nhất định các tính chất được định nghĩa cố định như trong các ontology
đóng. Các tính chất của một thực thể có thể được xác định thông qua các liên kết vào, các liên kết ra, và thể loại của thực thểđó.
• Hệ thống tổ chức và phân loại thông tin của Wikipedia được đánh giá là đạt chuẩn ngang bằng với các từđiển bách khoa truyền thống (Emigh và Herring, 2005). • Mối quan hệ nhiều-nhiều giữa tên và thực thể trong Wikipedia có thể dễ dàng xác
nhằng dành cho các tên được dùng đểđề cập đến nhiều hơn một thực thểđược mô tả trong Wikipedia.
• Wikipedia miễn phí, có phiên bản cho 269 ngôn ngữ tính đến thời điểm hiện tại, ai cũng có thể truy cập và sử dụng.
Trong Chương 4 chúng tôi đã khai phá và đánh giá các đặc trưng dùng để biểu diễn các thực thể. Các đặc trưng trích từ văn bản và Wikipedia được kết hợp theo nhiều cách khác nhau. Kết quả thí nghiệm cho thấy các kết hợp các đặc trưng trên văn bản EN+LW+ CW+ID, và kết hợp ET+RT+CL+OL của các đặc trưng trích từ Wikipedia đạt kết quả
phân giải nhập nhằng tốt nhất.
Chương này chúng tôi trình bày phương pháp phân giải nhập nhằng thứ ba trong luận án này, được đặt tên là WIN (WIkipedia-based Named entity disambiguation). Đây là một phương pháp lai, kết hợp việc sử dụng một số heuristic và một mô hình thống kê. Phương pháp này có những điểm mới so với các phương pháp đã được đề xuất trước nó như sau:
• Kết hợp một số heuristic và một mô hình thống kê thể hiện trong hai giai đoạn. Một giai đoạn áp dụng một số heuristic để thu giảm các ứng viên cho mỗi tên và chọn
ứng viên phù hợp nếu có thể. Giai đoạn thứ hai triển khai một mô hình thống kê cho mỗi trường hợp còn lại để phân giải nhập nhằng. Cả hai giai đoạn đều thực hiện việc phân giải nhập nhằng theo một quá trình lặp cải thiện dần.
• WIN kế thừa từ OntoNEON và NOW nên nó cũng khai thác các đặc trưng mới mà các phương pháp được đề xuất trước nó chưa khai thác, đó là các từ xuất hiện xung quanh các tên đồng tham chiếu với tên đang xét, và định danh của các thực thể, trong một quá trình lặp cải thiện dần. Vị trí xuất hiện, chiều dài của các tên, tên thường dùng của một thực thể cũng được khai thác.
Phần còn lại của chương được trình bày như sau. Phần 5.2 trình bày phương pháp WIN, trong đó thể hiện chi tiết hai giai đoạn phân giải nhập nhằng, và quá trình lặp cải thiện dần tại mỗi giai đoạn. Phần 5.3 trình bày các thí nghiệm và các kết quả đánh giá phương pháp WIN. Phần cuối cùng là tổng kết chương.
5.2 Phương pháp lai
Phương pháp WIN kết hợp các heuristic và một mô hình thống kê để thực hiện việc phân giải nhập nhằng. WIN thực hiện ánh xạ các tên xuất hiện trong một văn bản vào Wikipedia. Mặc dù vậy, phương pháp này cũng có thể áp dụng cho các cơ sở tri thức hoặc ontology khác nhau. Quá trình phân giải nhập nhằng của WIN là lặp cải thiện dần, và bao gồm hai giai đoạn. Giai đoạn thứ nhất sử dụng các heuristicđể thực hiện thu giảm các ứng viên và thực hiện ánh xạ nếu có thể. Giai đoạn thứ hai áp dụng mô hình phân hạng dựa trên thống kê để chọn ứng viên tốt nhất. Một khía cạnh đáng chú ý của phương pháp này là không những phân giải nhập nhằng cho các thực thể được tìm thấy trong Wikipedia, mà cho cả các thực thể nằm ngoài Wikipedia. Hơn nữa, bên cạnh việc phân giải nhập nhằng các thực thể có tên, WIN có thể khám phá ra các bí danh chưa tồn tại trong Wikipedia của một thực thể.
Sau đây là các đặc trưng trong văn bản và Wikipedia được sử dụng trong WIN:
• Đặc trưng trong văn bản. Chúng tôi khai thác tên và định danh của các thực thể đồng xuất hiện, các từ cục bộ và các từđồng tham chiếu. Có một sự khác biệt so với các đặc trưng trình bày trong Phần 4.2 của Chương 4 là chúng tôi khai thác các
đặc trưng mới là các từ khóa trong văn bản trùng với phần văn bản phân giải nhập nhằng xuất hiện trong nhan đề của các trang thực thể và trang đổi hướng trong Wikipedia. Cửa sổ ngữ cảnh để rút trích các từ khóa là ±5 từ xung quanh tên đang xét. Garbin và Mani (2005) và Volz và CS (2007) đã cho thấy rằng trích các từ
khóa trong các cửa sổ ngữ cảnh ±5 từ xung quanh tên đang xét là hiệu quảđối với phân giải nhập nhằng các vùng địa lý.
• Đặc trưng trong Wikipedia. Chúng tôi khai thác nhan đề trang thực thể (ET), nhan
đề đổi hướng (RT), nhãn thể loại (CL) và nhãn liên kết ra (OL). Lý do không sử
dụng nhãn liên kết vào (IL) đã được trình bày trong Chương 4.
Hình 5.1 cho thấy journalist xuất hiện trong các câu S0, và S1là từ khóa mà chúng tôi quan tâm. Các thực thểđồng xuất hiện được gạch dưới trong Hình 5.1. Tên cần được phân giải nhập nhằng là “John McCarthy”. Các từ cục bộ xuất hiện xung quanh “John McCarthy” trong câu S1 được trích. Các từđồng tham chiếu là các từ xuất hiện xung quanh
“McCarthy” trong câu S5. Ngữ cảnh xuất hiện “John McCarthy” trong văn bản Hình 5.1 cho thấy chính từ khóa journalist là yếu tố quan trọng giúp xác định “John McCarthy” ở đây đề cập đến thực thểJohn McCarthy (journalist) trong Wikipedia, bởi vì nó chính là phần văn bản phân giải nhập nhằng của thực thể John McCarthy
(journalist).
(S0) 1986: British journalistMcCarthy kidnapped
(S1) John McCarthy, a British TV journalist, has been abducted on his way to the airport
in the war-torn capital of Lebanon, Beirut.
(S2) Mr McCarthy, aged 30, was employed by World Wide Television News (WWTN)
based in London.
(S3) The British ambassador, John Gray, wrote to British citizens in Beirut three days ago, urging them to leave but Mr McCarthy had waited till he heard from his employers. (S4) He was on his way to the airport when he was kidnapped. An armed guard and an es-
corting car were unable to stop his abduction.
(S5) Vice-president of WWTN Robert Burke told the Guardian newspaper: "A car blocked the road near the airport. Four gun-wielding men emerged from the car, comman- deered Mr McCarthy's car and drove off with him to an unknown destination." […]
Hình 5.1: Minh họa các đặc trưng rút trích được từ một đoạn văn bản mẫu
Chi tiết của hai giai đoạn phân giải nhập nhằng như sau.
Giai đoạn 1 (dựa trên heuristic)
Giai đoạn này được chia làm hai bước chính là truy hồi các ứng viên và thu giảm các ứng viên. Trong bước thứ nhất, với mỗi lần xuất hiện một tên trong văn bản, chúng tôi sử
dụng tên đó như là một truy vấn đến Wikipedia để truy hồi các ứng viên. Tập ứng viên thu
được có thể rỗng, có thể chứa một ứng viên, hoặc chứa nhiều hơn một ứng viên. Ngay cả
khi tập kết quả chỉ chứa một ứng viên, chúng tôi vẫn chưa quyết định được đây đúng là thực thể mà tên đang được xem xét đề cập đến, bởi vì tên của thực thểđược đề cập đến có thể nằm ngoài Wikipedia nhưng tên của nó trùng với tên của một thực thể trong Wikipedia. Cũng như vậy, khi tập kết quả là rỗng chúng tôi vẫn chưa kết luận được tên đang được xem xét đề cập đến một thực thể không tồn tại trong Wikipedia, bởi vì Wikipedia có thể
không chứa đầy đủ hết tất cả các bí danh của thực thểđược đề cập đến nếu nó tồn tại trong Wikipedia. Do vậy, sau khi có tập các ứng viên từ bước truy hồi ứng viên, bước được thực hiện tiếp theo là thu giảm các ứng viên. Đối với các trường hợp mà tập ứng viên là rỗng, việc thu giảm các ứng viên không xảy ra. Tuy nhiên, các trường hợp đó có thểđược phân