Kết luận 91

Chương này trình bày một phương pháp phân giải nhập nhằng thực thể dựa trên một ontology, đặt tên là OntoNEON. Ý tưởng là dựa vào các thực thể đã được xác định để phân hạng các ứng viên cho một trường hợp nhập nhằng. Hạng của một ứng viên được tính toán sử dụng các mối quan hệ ngữ nghĩa của ứng viên đó với các thực thể đã được xác định trong văn bản. Các thực thể được phân giải nhập nhằng bằng một quá trình lặp cải thiện dần.

Chúng tôi cũng trình bày các độ đo mới đểđánh giá các phương pháp phân giải nhập nhằng. Các độ đo mới này có thể đánh giá cho các trường hợp khi mà các tên trong văn bản được nhận ra bán phần, và các thực thểđược đề cập trong văn bản có thể không tồn tại

trong nguồn tri thức được sử dụng. Các độđo mới này được chúng tôi sử dụng đểđánh giá hiệu quả phân giải nhập nhằng của tất cả các phương pháp được đề xuất trong luận án này. Chúng tôi xây dựng tập dữ liệu để tiến hành thí nghiệm đánh giá phương pháp On- toNEON. Một tập dữ liệu tiếng Anh và một tập dữ liệu tiếng Việt. Chúng tôi thực hiện thí nghiệm OntoNEON trên tập dữ liệu tiếng Anh sử dụng ontology của KIM. Kết quả cho thấy phương pháp này đạt được hiệu quả ánh xạ cao hơn nhiều so với hệ thống KIM. Chúng tôi thí nghiệm OntoNEON trên tập dữ liệu tiếng Việt sử dụng ontology của VN- KIM. Kết quả thí nghiệm cũng cho thấy hiệu quả phân giải nhập nhằng khá cao. Chúng tôi cũng tiến hành thực thi môđun nhận dạng thực thể có tên của VN-KIM và môđun nhận dạng thực thể có tên của VN-KIM kết hợp với OntoNEON, kết quả cho thấy OntoNEON cải thiện hiệu quả nhận dạng thực thể có tên (tức là xác định lớp thực thể) của hệ thống VN-KIM.

93 Chương 4 PHÂN GIẢI NHẬP NHẰNG DỰA TRÊN ONTOLOGY ĐƯỢC LÀM GIÀU 4.1 Giới thiệu

Trong phần 3.2 chúng tôi đã trình bày phương pháp phân giải nhập nhằng thực thể có tên,

đặt tên là OntoNEON, dựa trên ontology. Với một tên nhập nhằng, có nhiều ứng viên, On- toNEON khai thác mối quan hệ ngữ nghĩa, dựa trên ontology, giữa mỗi ứng viên với các thực thểđã được xác định xung quanh. Ứng viên có càng nhiều các mối quan hệ như thế

càng được phân hạng cao. Ứng viên có hạng cao nhất sẽ được chọn. Quá trình phân giải nhập nhằng là một quá trình lặp cải thiện dần, và bao gồm một số vòng lặp. Một thực thể

sau khi được xác định ở một vòng lặp sẽ được sử dụng để xác định các thực thể còn lại. Mối quan hệđồng tham chiếu giữa các tên, và độưu tiên của một ứng viên này so với một

ứng viên khác cũng được khai thác để phân giải nhập nhằng. Các kết quả thí nghiệm cho thấy, phương pháp của chúng tôi đạt hiệu quả khá tốt. Tuy vậy, nó vẫn có một số nhược

điểm nhưđược trình bày dưới đây.

Thứ nhất, một ontology được xây dựng bởi một nhóm nhỏ các chuyên gia, trong đó các tính chất của các thực thểđã được thiết lập cốđịnh, sẽ không chứa đủ các thông tin mô tả về các thực thể, điều này làm ảnh hưởng đến hiệu quả phân giải nhập nhằng. Ví dụ, trong cơ sở tri thức của KIM, một thực thể là con người được biểu diễn bởi các thông tin:

các tên khác nhau của cùng thực thể, nghề nghiệp, tổ chức nơi người đó làm việc. Tuy nhiên, trong thực tế một người có thể có nhiều mối quan hệ với các thực thể khác, như

quan hệ với người khác (ví dụ: Hillary Clinton, vợ của Bill Clinton), hoặc các sản phẩm mà người đó là tác giả (ví dụ: John McCarthy, người phát minh ngôn ngữ LISP). Vấn đề

cũng phát sinh tương tựđối với các thực thể thuộc các lớp nơi chốn và tổ chức.

Thứ hai, với mỗi tên nhập nhằng, OntoNEON chỉ khai thác mối quan hệ dựa trên ontology giữa mỗi ứng viên với các thực thểđã được xác định, điều này dẫn đến hoặc là thực thể có mối quan hệ với ứng viên không xuất hiện trong văn bản, hoặc là thực thểđó xuất hiện trong văn bản nhưng không tìm thấy mối quan hệ với ứng viên trong ontology vì ontology không chứa đủ thông tin mô tả ứng viên đó. Hệ quả là thiếu cơ sởđể OntoNEON chọn đúng thực thể mà tên đang xét đề cập đến, mặc dù nó tồn tại trong ontology. Hơn nữa, trực quan cho thấy rằng các từ xuất hiện xung quanh các tên cũng có thể giúp ích cho việc phân giải nhập nhằng. Tuy nhiên, OntoNEON bỏ qua các thông tin hữu ích đó. Nói một cách khác là, OntoNEON chưa khai thác hết các đặc trưng hữu ích trên văn bản để

phân giải nhập nhằng.

Chúng tôi đề xuất một phương pháp phân giải nhập nhằng thứ hai, được đặt tên là NOW (Named entity disambiguation using an Ontology enriched by Wikipedia). Nội dung của chương này dựa trên (Nguyen và Cao, 2008a; Nguyen và Cao, 2010a, 2010b; Nguyễn Thanh Hiên và Cao Hoàng Trụ, 2010). Phương pháp này cải thiện OntoNEON ở hai điểm sau:

• Với mỗi trường hợp cần phân giải nhập nhằng, NOW khai thác các từ xuất hiện xung quanh tên đang xét, các từ xuất hiện xung quanh các tên đồng tham chiếu với tên đó, và các tên xuất hiện trong toàn bộ văn bản, bên cạnh việc khai thác các thực thể đã được xác định như OntoNEON. Hơn nữa, với việc mở rộng các đặc trưng như vậy, phương pháp phân hạng của OntoNEON không còn phù hợp nữa. Vì vậy chúng tôi đề xuất một mô hình phân hạng mới, đó là phân hạng dựa trên thống kê. • Trước khi phân giải nhập nhằng, NOW thực hiện một quá trình làm giàu ontology

bằng các thông tin rút trích từ Wikipedia, và sau đó thực hiện phân giải nhập nhằng dựa trên ontology đã được làm giàu. Theo cách đó, một số thông tin về một thực thể nào đó có thể tồn tại trong thực tế nhưng không được thể hiện trong ontology có thể được bổ khuyết bằng các thông tin rút trích từ Wikipedia. Việc làm giàu như

vậy cũng tạo điều kiện để triển khai một mô hình phân giải nhập nhằng dựa trên thống kê.

So với các phương pháp thống kê trước đây, NOW có những điểm mới như sau: • Khai thác các đặc trưng chưa được khai thác trước đó, đó là các từ xuất hiện xung

quanh các tên đồng tham chiếu với tên đang xét chứ không chỉ là các từ xuất hiện xung quanh tên đang xét, và định danh của các thực thểđã được xác định trong văn bản.

• Khai phá và đánh giá các đặc trưng trích từ văn bản và từ Wikipedia, kết hợp chúng theo nhiều cách khác nhau, và trình bày kết quả cho thấy các kết hợp nào cho hiệu quả phân giải nhập nhằng tốt nhất.

• Phân giải nhập nhằng dựa trên một quá trình lặp cải thiện dần. Thực thể sau khi

được xác định, định danh của nó sẽ được sử dụng để mở rộng ngữ cảnh của các thực thể chưa được xác định.

Phần còn lại của chương này được tổ chức như sau. Phần 4.2 trình bày một mô hình phân hạng các ứng viên dựa trên thống kê. Phần 4.3 trình bày quá trình làm giàu một ontology bằng các thông tin rút trích từ Wikipedia. Phần 4.4 trình bày tập dữ liệu, các kết quả

thí nghiệm đánh giá phương pháp NOW. Phần cuối cùng là tổng kết chương.

4.2 Mô hình phân hạng ứng viên dựa trên thống kê

Mục tiêu của các phương pháp được đề xuất trong luận án là ánh xạ một tên trên một văn bản vào đúng thực thể mà tên đó đề cập đến trong một cơ sở tri thức cho trước. Trong phần này, chúng tôi trình bày một mô hình phân hạng các ứng viên dựa trên thống kê để phân giải nhập nhằng các thực thể có tên. Chúng tôi dựa trên mô hình không gian véctơđể triển khai mô hình phân hạng này, trong đó mỗi thực thểđược biểu diễn bởi một véctơ dựa trên các đặc trưng của nó. Có nhiều cách để xây dựng véctơ, nhưng cách đơn giản, hiệu quả và

được sử dụng rộng rãi là xem tập các đặc trưng của mỗi thực thể như là một tập hợp từ hay “túi từ” (bag-of-word). Các đặc trưng nào sẽ được rút trích để biểu diễn các thực thể phụ

khai phá các đặc trưng để biểu diễn các thực thể, mô hình phân hạng các ứng viên dựa trên thống kê sử dụng nguồn cơ sở tri thức là Wikipedia.

Để có thể khai phá và đánh giá các đặc trưng của mỗi thực thể trong Wikipedia, trước tiên chúng tôi thực hiện rút trích các đặc trưng để biểu diễn mỗi tên nhập nhằng trên văn bản, và rút trích các đặc trưng để biểu diễn các thực thể trong Wikipedia. Sau đó tập các

đặc trưng được rút trích cho mỗi tên nhập nhằng hoặc thực thể sẽ được chuyển thành các túi từ. Tiếp theo chúng tôi xây dựng các véctơđặc trưng dựa trên các túi từ, và cuối cùng các ứng viên của mỗi tên nhập nhằng trên văn bản sẽđược phân hạng dựa trên độ tương tự

giữa véctơđặc trưng của tên nhập nhằng và mỗi véctơđặc trưng của mỗi ứng viên.

Sau đây chúng tôi lần lượt trình bày các đặc trưng rút trích từ văn bản và từ

Wikipedia, phương pháp gán trọng số cho các từ trong mỗi túi từ, và mô hình phân hạng các ứng viên dựa trên thống kê bằng cách tính toán độ tương tự giữa các véctơđặc trưng của mỗi tên nhập nhằng và các véctơđặc trưng giữa các thực thểứng viên.

Đặc trưng trích từ văn bản

Để xây dựng véctơ đặc trưng cho một tên nhập nhằng trong một văn bản, phương pháp của chúng tôi rút trích các thông tin sau:

• Tên thực thể đồng xuất hiện (Entity Name - EN): Chúng tôi trích tất cả các xuất hiện khác nhau của các tên trong toàn bộ văn bản. Để tránh trùng lắp các đặc trưng, với các tên xuất hiện nhiều lần trong cùng văn bản, chúng tôi chỉ giữ lại một. Ví dụ, nếu “U.S” xuất hiện hai lần trong một văn bản và cùng đề cập đến nước Mỹ, chúng tôi loại đi một.

• Từ cục bộ (Local Word - LW): Tất cả các từ xuất hiện xung quanh tên nhập nhằng

đang được xem xét để phân giải nhập nhằng sẽ được rút trích. Phạm vi để rút trích các từ là một cửa sổ ngữ cảnh gồm 55 từ trong đó tên đang xét nằm ở chính giữa (± 22 từ xuất hiện xung quanh tên đang xét, với tên đang xét được xem là một đơn vị

từ). Các từđược rút trích không bao gồm các kí hiệu đặc biệt như $, #, ?, . . . Chúng tôi chọn cửa sổ ngữ cảnh 55 từ, tương tự như phương pháp của Bunescu và Paşca (2006). Lưu ý là các từ là một phần của các tên xuất hiện trong cửa sổ ngữ cảnh gồm 55 từ như trên sẽ không được tính để tránh trùng lắp các đặc trưng rút trích

• Từ đồng tham chiếu (Coreferential Word - CW): Tất cả các từ xuất hiện xung quanh các tên là đồng tham chiếu với tên đang được xem xét để phân giải nhập nhằng. Phạm vi rút trích các từ cũng là cửa sổ ngữ cảnh gồm 55 từ như trên sẽđược rút trích. Khi xảy ra trường hợp các cửa sổ ngữ cảnh của các tên đồng tham chiếu với tên đang được xem xét trùng lắp một phần, các từ nằm trong vùng trùng lắp chỉ được rút trích một lần.

• Định danh của thực thể (Identifier - ID). Khi phân giải nhập nhằng cho một trường hợp, định danh của các thực thểđã được xác định trong văn bản cũng được xem là các đặc trưng. Định danh của các thực thể đó được xem như là phần mở rộng của văn bản đang xét.

Đặc trưng trích từ Wikipedia

Với mỗi thực thể trong Wikipedia, được xem là một ứng viên của một tên nhập nhằng trong văn bản, phương pháp của chúng tôi rút trích các thông tin sau để xây dựng véctơ đặc trưng cho thực thểđó.

• Nhan đề trang thực thể (Title of Entity page - ET): Mỗi trang thực thể trong Wikipedia có một nhan đề, và nhan đề này đồng thời cũng là định danh của thực thể. Ví dụ, “John McCarthy (computer scientist)” là nhan đề của trang thực thể mô tả Giáo sư John McCarthy, cha đẻ ngôn ngữ lập trình LISP. Phương pháp của chúng tôi xem “John McCarthy (computer scientist)” là đặc trưng của thực thể John McCarthy ở trên.

• Nhan đề trang đổi hướng (Title of Redirect page - RT): Mỗi thực thể trong Wikipedia có nhiều trang đổi hướng mà nhan đề của nó chứa các tên khác (bí danh khác), hoặc cách viết khác của tên xuất hiện trong ET, của thực thể đó. Để minh họa, từ các trang đổi hướng của thực thể John Williams (nhà soạn nhạc nổi tiếng người Mỹ) trong Wikipedia, chúng tôi rút trích được nhan đề của một số trang

đổi hướng như sau: Williams, John Towner; John Towner Williams; Johnny

Williams; Williams, John; John Williams (composer).

• Nhãn thể loại (Category Label - CL): Mỗi thực thể trong Wikipedia thuộc một hoặc nhiều thể loại. Chúng tôi trích nhãn của tất các thể loại của nó. Ví dụ, từ các thể

Wikipedia, chúng tôi trích được một số thông tin sau: Turing Award laureates, Computer pioneers, Stanford University faculty, Lisp programming language, Artificial intelligence researchers.

• Nhãn liên kết ra (Outgoing link label - OL): Trong mỗi trang thực thể có nhiều liên kết trỏđến các thực thể khác trong Wkipedia. Chúng tôi xem nhãn của các liên kết này như là các đặc trưng của mỗi thực thể tương ứng.

• Nhãn liên kết vào (Ingoing link label - IL): Mỗi thực thể trong Wikipedia có một số

liên kết từ thực thể khác trỏ đến nó. Chúng tôi cũng xem nhãn của các liên kết đó như là các đặc trưng của thực thể.

Chuẩn hóa

Sau khi trích các đặc trưng trên văn bản để biểu diễn các tên nhập nhằng và các đặc trưng từ Wikipedia để biểu diễn các thực thể trong đó, chúng tôi chuyển tập các đặc trưng trích được của mỗi thực thể thành một túi từ. Sau đó các túi từ sẽđược chuẩn hóa như sau: (i) loại bỏ các kí tự đặc biệt trong một số từ, ví dụ như chuẩn hóa “U.S.” thành “US”, “D.C” (như trong “Washington D.C”) thành “DC”; (ii) loại bỏ các kí hiệu đặc biệt như dấu chấm, dấu phẩy, chấm phẩy, @, . . .; (iii) loại bỏ các liên từ hoặc những từ không có ý nghĩa, ví dụ như “và”, “hoặc”, “nhưng” trong tiếng Việt hay “a”, “an”, “the” trong tiếng Anh; và (iv) đối với tiếng Anh các từ sẽđược đưa về dạng gốc như “reading” được biến

đổi thành “read”.

Gán trọng số từ và tính toán độ tương tự giữa các véctơ

Với một tên trong một văn bản, giả sử tồn tại Nứng viên trong Wikipedia mà tên đó có thểđề cập đến. Phương pháp tf.idfđược sử dụng để gán trọng số cho các từ trong các túi từ sau khi đã được chuẩn hóa. Trong đó, mỗi túi từđược xem như là một tài liệu, và được chuyển thành một véctơđặc trưng. Gọi S1 và S2 là hai véctơđặc trưng cho hai túi từ. Độ

tương tự giữa hai túi từđược tính toán như sau:

Sim(S1, S2) = ∑ j t word common j j w w1 * 2 (4.1)

Trong đó tj là từ đại diện cho cả hai S1 và S2, w1jlà trọng số của tj trong S1 và w2jlà trọng số của tj trong S2. Với trọng số của tj trong Siđược tính toán:

wij= log(tfj+1).log(N/dfj)/ si21+si22+...+siN2 (4.2) Trong đó tfj là tần suất xuất hiện của tj trong véctơSi, dfj là số túi từ biểu diễn các ứng viên có chứa tj, sij = log(tfj+1).log(N/dfj). Phương pháp gán trọng số cho các từ vừa được trình bày là của Cohen và CS (2003) và Bilenko và CS (2003).

Giải thuật

Gọi n là tên đang xét, Г là tập các ứng viên trong Wikipedia. Chúng tôi xem bài toán phân giải nhập nhằng như là bài toán phân hạng thực thể với giả sử rằng tồn tại một hàm cho điểm phù hợp đểđánh giá độ tương tự giữa các các véctơđặc trưng của mỗi ứng viên γ

∈ Г và véctơđặc trưng của n. Chúng tôi xây dựng một hàm phân hạng nhận đầu vào là một tập các véctơđặc trưng của các thực thể trong Г và véctơđặc trưng của n. Sau đó dựa trên

Mô hình không gian véctơ 45

Nhận dạng thực thể có tên 46