Giới thiệu 113

Trong Chương 3 và Chương 4, chúng tôi đã lần lượt trình bày các phương pháp Onto- NEON, và NOW. Mỗi phương pháp đều phân giải nhập nhằng theo một quá trình lặp cải thiện dần để khai thác định danh của các thực thểđã được xác định. OntoNEON phân hạng mỗi ứng viên bằng cách khai thác quan hệ ngữ nghĩa của nó với các thực thểđã được xác

định sử dụng một ontology. NOW phân hạng các ứng viên dựa trên một mô hình thống kê, sử dụng một ontology đã được làm giàu bởi Wikipedia. Cả hai phương pháp đều khai thác nguồn tri thức là các ontology “đóng”, được xây dựng bởi một nhóm nhỏ các chuyên gia, là đích đến của các ánh xạ.

Nhưđã phân tích, các ontology đóng như thế có nội dung thông tin với độ tin cậy cao nhưng kích thước giới hạn, và mức độ cập nhật cũng như mức độ bao phủ các chủđề thông tin không cao. Do đó, các ontology đó có thể không chứa đủ thông tin của nhiều thực thể. Hơn nữa, các ontology đóng thiết lập cố định số lượng các tính chất của các thực thể, nhưng thực tế lại cho thấy rằng, tính chất của các thực thể trong thế giới thực là rất đa dạng. Do vậy, một tính chất nào đó có thể vốn dĩ là của một thực thể trong thực tế, nhưng một ontology đóng có thể không chứa tính chất đó. Ví dụ, trong PROTON ontology (Ter- ziev và CS, 2005) một thực thể thuộc lớp protont:person (lớp con người) chỉ có bốn

nghề nghiệp), protont:hasRelative (có họ hàng) và protont:isBossOf (là chủ

của). Như vậy còn thiếu các tính chất thông dụng khác của một con người như ngày sinh, nơi sinh, sở thích, bằng cấp, dân tộc, . . . Để vượt qua một số giới hạn của một ontology

đóng, chúng ta cần một nguồn tri thức khác, có kích thước lớn hơn, đa dạng hơn về thể

loại, giàu thông tin mô tả về các thực thể, có tốc độ cập nhật nhanh hơn so với các ontology đóng, nhưng chất lượng về thông tin vẫn đảm bảo. Wikipedia là một nguồn tri thức đáp

ứng được các yêu cầu đó.

Chúng tôi chọn Wikipedia là nguồn tri thức thay thế cho các ontology đóng là bởi vì các lý do sau:

• Đó là từ điển bách khoa lớn nhất hiện nay trên Internet, và đang phát triển nhanh chóng cả số lượng lẫn chất lượng. Wikipedia có thểđược xem như là một ontology “mở” (Hepp và CS, 2006; Syed và CS, 2008; Medelyan và CS, 2009).

• Nhiều nghiên cứu cho thấy rằng nội dung thông tin trên Wikipedia có chất lượng ở

mức độ chấp nhận được (Giles, 2005). Các nguồn thông tin trên Wikipedia mà chúng tôi dựđịnh khai thác cho việc phân giải nhập nhằng đã được chứng tỏ có độ

tin cậy cao (Weaver và CS, 2006).

• Wikipedia đã xác lập một mức độ tin cậy nhất định đối với cộng đồng học giả trong các lĩnh vực xử lý ngôn ngữ tự nhiên, rút trích thông tin, và truy hồi thông tin. Bằng chứng là có hàng trăm công trình nghiên cứu trong các lĩnh vực vừa nêu sử dụng Wikipedia (Medelyan và CS, 2009).

• Thông tin mô tả về một thực thể có tên trong Wikipedia rất đa dạng. Thông tin đó có thể chứa hầu hết các tính chất của một thực thể, và không bị giới hạn bởi một số

lượng nhất định các tính chất được định nghĩa cố định như trong các ontology

đóng. Các tính chất của một thực thể có thể được xác định thông qua các liên kết vào, các liên kết ra, và thể loại của thực thểđó.

• Hệ thống tổ chức và phân loại thông tin của Wikipedia được đánh giá là đạt chuẩn ngang bằng với các từđiển bách khoa truyền thống (Emigh và Herring, 2005). • Mối quan hệ nhiều-nhiều giữa tên và thực thể trong Wikipedia có thể dễ dàng xác

nhằng dành cho các tên được dùng đểđề cập đến nhiều hơn một thực thểđược mô tả trong Wikipedia.

• Wikipedia miễn phí, có phiên bản cho 269 ngôn ngữ tính đến thời điểm hiện tại, ai cũng có thể truy cập và sử dụng.

Trong Chương 4 chúng tôi đã khai phá và đánh giá các đặc trưng dùng để biểu diễn các thực thể. Các đặc trưng trích từ văn bản và Wikipedia được kết hợp theo nhiều cách khác nhau. Kết quả thí nghiệm cho thấy các kết hợp các đặc trưng trên văn bản EN+LW+ CW+ID, và kết hợp ET+RT+CL+OL của các đặc trưng trích từ Wikipedia đạt kết quả

phân giải nhập nhằng tốt nhất.

Chương này chúng tôi trình bày phương pháp phân giải nhập nhằng thứ ba trong luận án này, được đặt tên là WIN (WIkipedia-based Named entity disambiguation). Đây là một phương pháp lai, kết hợp việc sử dụng một số heuristic và một mô hình thống kê. Phương pháp này có những điểm mới so với các phương pháp đã được đề xuất trước nó như sau:

• Kết hợp một số heuristic và một mô hình thống kê thể hiện trong hai giai đoạn. Một giai đoạn áp dụng một số heuristic để thu giảm các ứng viên cho mỗi tên và chọn

ứng viên phù hợp nếu có thể. Giai đoạn thứ hai triển khai một mô hình thống kê cho mỗi trường hợp còn lại để phân giải nhập nhằng. Cả hai giai đoạn đều thực hiện việc phân giải nhập nhằng theo một quá trình lặp cải thiện dần.

• WIN kế thừa từ OntoNEON và NOW nên nó cũng khai thác các đặc trưng mới mà các phương pháp được đề xuất trước nó chưa khai thác, đó là các từ xuất hiện xung quanh các tên đồng tham chiếu với tên đang xét, và định danh của các thực thể, trong một quá trình lặp cải thiện dần. Vị trí xuất hiện, chiều dài của các tên, tên thường dùng của một thực thể cũng được khai thác.

Phần còn lại của chương được trình bày như sau. Phần 5.2 trình bày phương pháp WIN, trong đó thể hiện chi tiết hai giai đoạn phân giải nhập nhằng, và quá trình lặp cải thiện dần tại mỗi giai đoạn. Phần 5.3 trình bày các thí nghiệm và các kết quả đánh giá phương pháp WIN. Phần cuối cùng là tổng kết chương.

5.2 Phương pháp lai

Phương pháp WIN kết hợp các heuristic và một mô hình thống kê để thực hiện việc phân giải nhập nhằng. WIN thực hiện ánh xạ các tên xuất hiện trong một văn bản vào Wikipedia. Mặc dù vậy, phương pháp này cũng có thể áp dụng cho các cơ sở tri thức hoặc ontology khác nhau. Quá trình phân giải nhập nhằng của WIN là lặp cải thiện dần, và bao gồm hai giai đoạn. Giai đoạn thứ nhất sử dụng các heuristicđể thực hiện thu giảm các ứng viên và thực hiện ánh xạ nếu có thể. Giai đoạn thứ hai áp dụng mô hình phân hạng dựa trên thống kê để chọn ứng viên tốt nhất. Một khía cạnh đáng chú ý của phương pháp này là không những phân giải nhập nhằng cho các thực thể được tìm thấy trong Wikipedia, mà cho cả các thực thể nằm ngoài Wikipedia. Hơn nữa, bên cạnh việc phân giải nhập nhằng các thực thể có tên, WIN có thể khám phá ra các bí danh chưa tồn tại trong Wikipedia của một thực thể.

Sau đây là các đặc trưng trong văn bản và Wikipedia được sử dụng trong WIN:

• Đặc trưng trong văn bản. Chúng tôi khai thác tên và định danh của các thực thể đồng xuất hiện, các từ cục bộ và các từđồng tham chiếu. Có một sự khác biệt so với các đặc trưng trình bày trong Phần 4.2 của Chương 4 là chúng tôi khai thác các

đặc trưng mới là các từ khóa trong văn bản trùng với phần văn bản phân giải nhập nhằng xuất hiện trong nhan đề của các trang thực thể và trang đổi hướng trong Wikipedia. Cửa sổ ngữ cảnh để rút trích các từ khóa là ±5 từ xung quanh tên đang xét. Garbin và Mani (2005) và Volz và CS (2007) đã cho thấy rằng trích các từ

khóa trong các cửa sổ ngữ cảnh ±5 từ xung quanh tên đang xét là hiệu quảđối với phân giải nhập nhằng các vùng địa lý.

• Đặc trưng trong Wikipedia. Chúng tôi khai thác nhan đề trang thực thể (ET), nhan

đề đổi hướng (RT), nhãn thể loại (CL) và nhãn liên kết ra (OL). Lý do không sử

dụng nhãn liên kết vào (IL) đã được trình bày trong Chương 4.

Hình 5.1 cho thấy journalist xuất hiện trong các câu S0, và S1là từ khóa mà chúng tôi quan tâm. Các thực thểđồng xuất hiện được gạch dưới trong Hình 5.1. Tên cần được phân giải nhập nhằng là “John McCarthy”. Các từ cục bộ xuất hiện xung quanh “John McCarthy” trong câu S1 được trích. Các từđồng tham chiếu là các từ xuất hiện xung quanh

“McCarthy” trong câu S5. Ngữ cảnh xuất hiện “John McCarthy” trong văn bản Hình 5.1 cho thấy chính từ khóa journalist là yếu tố quan trọng giúp xác định “John McCarthy” ở đây đề cập đến thực thểJohn McCarthy (journalist) trong Wikipedia, bởi vì nó chính là phần văn bản phân giải nhập nhằng của thực thể John McCarthy

(journalist).

(S0) 1986: British journalistMcCarthy kidnapped

(S1) John McCarthy, a British TV journalist, has been abducted on his way to the airport

in the war-torn capital of Lebanon, Beirut.

(S2) Mr McCarthy, aged 30, was employed by World Wide Television News (WWTN)

based in London.

(S3) The British ambassador, John Gray, wrote to British citizens in Beirut three days ago, urging them to leave but Mr McCarthy had waited till he heard from his employers. (S4) He was on his way to the airport when he was kidnapped. An armed guard and an es-

corting car were unable to stop his abduction.

(S5) Vice-president of WWTN Robert Burke told the Guardian newspaper: "A car blocked the road near the airport. Four gun-wielding men emerged from the car, comman- deered Mr McCarthy's car and drove off with him to an unknown destination." […]

Hình 5.1: Minh họa các đặc trưng rút trích được từ một đoạn văn bản mẫu

Chi tiết của hai giai đoạn phân giải nhập nhằng như sau.

Giai đoạn 1 (dựa trên heuristic)

Giai đoạn này được chia làm hai bước chính là truy hồi các ứng viên và thu giảm các ứng viên. Trong bước thứ nhất, với mỗi lần xuất hiện một tên trong văn bản, chúng tôi sử

dụng tên đó như là một truy vấn đến Wikipedia để truy hồi các ứng viên. Tập ứng viên thu

được có thể rỗng, có thể chứa một ứng viên, hoặc chứa nhiều hơn một ứng viên. Ngay cả

khi tập kết quả chỉ chứa một ứng viên, chúng tôi vẫn chưa quyết định được đây đúng là thực thể mà tên đang được xem xét đề cập đến, bởi vì tên của thực thểđược đề cập đến có thể nằm ngoài Wikipedia nhưng tên của nó trùng với tên của một thực thể trong Wikipedia. Cũng như vậy, khi tập kết quả là rỗng chúng tôi vẫn chưa kết luận được tên đang được xem xét đề cập đến một thực thể không tồn tại trong Wikipedia, bởi vì Wikipedia có thể

không chứa đầy đủ hết tất cả các bí danh của thực thểđược đề cập đến nếu nó tồn tại trong Wikipedia. Do vậy, sau khi có tập các ứng viên từ bước truy hồi ứng viên, bước được thực hiện tiếp theo là thu giảm các ứng viên. Đối với các trường hợp mà tập ứng viên là rỗng, việc thu giảm các ứng viên không xảy ra. Tuy nhiên, các trường hợp đó có thểđược phân giải nhập nhằng dựa vào mối quan hệđồng tham chiếu giữa các tên.

Cụ thể là, bước thu giảm các ứng viên sử dụng một số heuristic như trình bày sau đây

để thu giảm các ứng viên, và nếu có thể chọn đúng ứng viên mà tên đang được xem xét đề

cập đến, dựa vào các từ khóa xuất hiện quanh nó, và định danh của các thực thể đã được xác định trong cùng văn bản. Việc phân giải nhập nhằng trong bước này là một quá trình lặp cải thiện dần. Sự lặp cải thiện dần thể hiện ở chỗ, mỗi vòng lặp thực hiện phân giải nhập nhằng cho một hoặc một vài trường hợp; định danh của các thực thể ngay sau khi

được phân giải nhập nhằng trong một vòng lặp sẽđược sử dụng để phân giải nhập nhằng cho các trường hợp khác trong các vòng lặp tiếp theo. Vì kết quả phân giải nhập nhằng cho một trường hợp sẽ được sử dụng để phân giải nhập nhằng cho các trường hợp tiếp theo, nên hiệu quả phân giải nhập nhằng cho một trường hợp sẽ phụ thuộc vào các kết quả phân giải nhập nhằng trước đó. Do đó, ở bước này việc thực hiện phân giải nhập nhằng phải bảo

đảm rằng, trường hợp được phân giải nhập nhằng càng sớm, độ chính xác của nó càng phải cao.

Sau Giai đoạn 1, định danh của các thực thể được đề cập đến trong văn bản đã được xác định chính xác sẽ được sử dụng để mở rộng văn bản. Việc mở rộng văn bản bằng các

định danh của các thực thểđã được xác định như vậy sẽ tạo điều kiện để khai thác các đặc trưng là các định danh của các thực thểđã được xác định dùng cho một mô hình phân giải nhập nhằng dựa trên thống kê ở Giai đoạn 2.

Giai đoạn 2 (dựa trên thống kê)

Sau giai đoạn một, các lần xuất hiện của các tên đã được thu giảm ứng viên, hoặc chưa

được thực hiện phân giải nhập nhằng, sẽ được phân giải nhập nhằng ở Giai đoạn 2. Các

ứng viên của mỗi lần xuất hiện của một tên cần được phân giải nhập nhằng sẽđược phân hạng dựa trên một mô hình thống kê, trong đó độ tương tựcosine sẽđược sử dụng để cho

điểm các ứng viên, và ứng viên có điểm số cao nhất sẽ được chọn. Lưu ý là, WIN thực hiện phân giải nhập nhằng cho từng trường hợp một, và xây dựng từng mô hình thống kê riêng biệt cho mỗi trường hợp, không thực hiện phân giải đồng thời cho tất cả các trường

hợp cùng lúc để tránh giải quyết bài toán NP-khó bằng các chiến lược tối ưu như Cucerzan (2007) hay Kulkarni và CS (2009).

Các heuristic

Bên cạnh việc sử dụng một số heuristic nhưđã được trình bày trong Chương 3, chúng tôi đề xuất một số heuristic mới dùng trong Giai đoạn 1 nêu trên trong phần này. Trước khi trình bày các heuristic chúng tôi nhắc lại rằng, trong Wikipedia, mỗi thực thể có nhiều nhan đề, bao gồm nhan đề trang thực thể (nhan đề chính) và các nhan đề đổi hướng. Như đã được trình bày trong Phần 2.4, chúng tôi gọi phần văn bản xuất hiện bên cạnh các tên trong các nhan đề của các trang thực thể và các trang đổi hướng là phần văn bản phân giải nhập nhằng. Do mỗi thực thể trong Wikipedia có thể có nhiều nhan đềđổi hướng bên cạnh nhan đề chính, nên sẽ có thể có nhiều phần văn bản phân giải nhập nhằng. Ví dụ, một số

nhan đề đổi hướng của thực thể Atlanta, Georgia là “The A-T-L”, “Atlanta georgia”, “Atlanta, GA”, “Standing Peachtree”, “Hotlanta”, “Terminus, GA”, “Atlanta ga”, “Terminus, Georgia”, “The ATL”, “Marthasville, GA”, “The Big Peach”, “History of At- lanta”, “Atlanta, GA”, “Atlanta (GA)”, “Atlanta”. Từ các nhan đề của thực thểAtlanta, Georgia chúng tôi trích các phần văn bản phân giải nhập nhằng của nó là “Georgia” và “GA”. Khi trình bày các heuristic, nếu chúng tôi nói đến khai thác phần văn bản phân giải nhằng của mỗi ứng viên, nghĩa là tất cả các phần văn bản phân giải nhập nhằng xuất hiện trong nhan đề trang thực thể và các trang đổi hướng của mỗi ứng viên sẽđược xem xét. Ví dụ với Atlanta,Georgia chúng tôi xét cả “Georgia” và “GA”. Sau đây chúng tôi trình bày chi tiết các heuristic mới.

H5. Văn bản phân giải nhập nhằng của một thực thể xuất hiện trong cửa sổ ngữ cảnh chứa tên của thực thểđó

Gọi n là tên thực thể cần được phân giải nhập nhằng. Ứng viên nào có phần văn bản phân giải nhập nhằng xuất hiện trong một cửa sổ ngữ cảnh của n hoặc của các tên đồng tham chiếu với n sẽđược chọn.

Ví dụ 5.1 và ví dụ 5.2 minh họa các trường hợp phân giải nhập nhằng sử dụng H5.

Ví dụ 5.1: Hình 5.1 trình bày một phần trang phân giải nhập nhằng cho các thực thể

có tên Atlanta. Trong hình chúng ta thấy có rất nhiều các thực thể nằm rải rác ở các tiểu bang của nước Mỹ, và một số quốc gia khác như Canada và Nicaragua. Nếu trong một văn

bản có xuất hiện tên “Atlanta” và xung quanh nó xuất hiện “Texas”, như ví dụ “Atlanta,

Mô hình không gian véctơ 45

Nhận dạng thực thể có tên 46