Phân hạng ứng viên dựa trên ontology 75

Phần này trình bày phương pháp phân hạng các ứng viên dựa trên mối quan hệ ngữ nghĩa của chúng với ngữ cảnh xung quanh. Với mỗi tên nhập nhằng, chúng tôi áp dụng các heuristic sau để phân hạng các thực thểứng viên, và chọn ứng viên phù hợp.

H1. Phân hạng dựa trên ontology

Nếu một ứng viên có nhiều mối quan hệ ngữ nghĩa nhất với các thực thểđã được xác định trong toàn bộ văn bản, thì ứng viên đó được xem là đúng thực thể mà tên đang xét đề cập đến.

Ý tưởng là, với một tên cần phân giải nhập nhằng trong một văn bản, giả sử có hai thực thểứng viên, ứng viên được chọn là ứng viên có tổng số thực thểđã được xác định có mối quan hệ ngữ nghĩa với ứng viên đó nhiều hơn so với tổng số thực thểđã được xác định có mối quan hệ với ứng viên còn lại. Mối quan hệ ngữ nghĩa giữa các thực thể được xác

định dựa vào một ontology. Nói cách khác là chúng tôi dựa trên mức độ trùng lắp các thực thểđã được xác định trong văn bản và các thực thể có mối quan hệ với một ứng viên trong ontology để thực hiện việc phân giải nhập nhằng. Ví dụ, giả sử có một con đường ở Hà Nội và một con đường ở Tp. HCM có cùng tên là “Trần Hưng Đạo”. Trong một ontology có chứa thông tin về cả hai con đường này, một có mối quan hệ với Tp. HCM, và một có mối quan hệ với Hà Nội, ngoài ra hai con đường đó không có mối quan hệ nào khác với các thực thể trong cùng ontology. Nếu trong một văn bản mà “Trần Hưng Đạo” xuất hiện cùng với “Tp. HCM”, dựa trên heuristic trên, giải thuật của chúng tôi xác định đây là một con

Heuristic H1 sử dụng một hàm cho điểm các thực thể ứng viên, và dựa trên hàm cho

điểm này để phân hạng các ứng viên. Hàm cho điểm đó đếm số thực thểđã được xác định mà có quan hệ ngữ nghĩa với ứng viên đang xét, với mỗi quan hệ được tìm thấy tổng số điểm của ứng viên sẽ tăng lên một đơn vị. Gọi Г là tập các ứng viên của một tên nhập nhằng đang được xem xét, E là tập các thực thểđã được xác định trong toàn bộ văn bản. Mối quan hệ ngữ nghĩa giữa hai thực thể nào đó được biểu diễn bởi hàm f : Г × E → {0, 1}, với f(γ, e) = 1 (γ ∈ Г, e ∈ E) nếu và chỉ nếu tồn tại mối quan hệ trong ontology giữa γ

và e; ngược lại f(γ, e) = 0. Hai thực thểx và y trong một ontology được gọi là có mối quan hệ với nhau nếu x có quan hệ với y (y là giá trị của một tính chất của x), hoặc y có quan hệ

với x (x là giá trị của một tính chất của y). Tổng sốđiểm của một ứng viên γ ∈ Г sẽ được tính toán dựa trên f nhưđược trình bày trong công thức (3.1).

score(γ) = ∑ ( )

∈E

e f γ,e (3.1)

Một ứng viên γ ∈ Г có càng nhiều mối quan hệ ngữ nghĩa với các thực thểe ∈ E trong văn bản sẽ được phân hạng càng cao. Tập các ứng viên có hạng cao nhất sẽ được chọn. Trường hợp chỉ có một ứng viên có hạng cao nhất, ứng viên đó sẽ được xem như là thực thể đúng, việc phân giải nhập nhằng cho tên đang được xem xét coi như kết thúc; ngược lại, khi mà có từ hai ứng viên trở lên có hạng bằng nhau, heuristic H2 sau đây sẽ được áp dụng.

H2. Ưu tiên mối quan hệ với các thực thể gần

Nếu hai thực thể ứng viên có cùng hạng, mối quan hệ ngữ nghĩa của các ứng viên với các thực thểđã được xác định trong phạm vị hẹp hơn sẽđược xét, thay vì toàn văn bản. Phạm vi hẹp có thể hiểu là một câu, một đoạn, hoặc một cửa sổ ngữ cảnh chứa tên nhập nhằng đang xét.

H3. Quan hệđồng tham chiếu

Gọi r là một tên trên văn bản đã được phân giải nhập nhằng và u là tên đang được xem xét. Nếu r và u là đồng tham chiếu thì u được xác định là đề cập đến cùng thực thể như r đề cập đến.

Ý tưởng của heuristic này là dựa vào các tên đã được phân giải nhập nhằng trong mỗi chuỗi đồng tham chiếu trong văn bản để phân giải nhập nhằng cho các tên khác trong chuỗi đồng tham chiếu đó. Ví dụ, giả sử rằng “George W. Bush” và “Bush” cùng xuất hiện trong một văn bản và được xác định là đồng tham chiếu, nếu “George W. Bush” được xác

định là đề cập đến tổng thống thứ 43 của nước Mỹ, thì phương pháp của chúng tôi kết luận “Bush” cũng đề cập đến vị tổng thống này.

Vấn đềđặt ra là một khi trong một chuỗi đồng tham chiếu có hai (hoặc nhiều hơn) các tên đã được phân giải nhập nhằng và được xác định là đề cập đến hai thực thể khác nhau thì trường hợp nào được xem là đúng. Với những trường hợp như vừa trình bày, chúng tôi

đề xuất lấy tên dài nhất trong chuỗi. Ví dụ, giả sử nếu “George W. Bush” và “George Bush” cùng xuất hiện trong một văn bản và được xác định là đồng tham chiếu, tuy nhiên “George Bush” được xác định là đề cập đến một thực thểA nào đó, và “George W. Bush”

được xác định là đề cập đến một thực thểB nào đó trong một ontology, dựa vào mối quan hệ đồng tham chiếu giữa “George W. Bush” và “George Bush”, phương pháp của chúng tôi kết luận “George Bush” cũng đề cập đến thực thểB.

Chúng tôi chọn tên dài nhất xuất phát từ việc quan sát cách mà các tên xuất hiện trong các văn bản, sao cho lần đầu tiên được giới thiệu, thực thểđược giới thiệu phải được hiểu

đúng, do đó tên của nó phải được sử dụng theo cách không nhập nhằng. Thông thường thì tên thường dùng hoặc tên dài nhất của các thực thể được viết trước trong bản tin (không tính các tên trong phần tiêu đề) để tránh nhập nhằng. Nói tóm lại, khi lan truyền kết quả

phân giải nhập nhằng của một tên trong một chuỗi đồng tham chiếu đến các tên khác trong cùng chuỗi, tên được chọn phải xuất hiện trước tất cả các tên khác và là tên dài nhất trong chuỗi đó.

Trong trường hợp có nhiều tên có độ dài bằng nhau, thì tên thường dùng (bí danh chính) của thực thểđược chọn. Tên thường dùng của một thực thể được xác định dựa vào nguồn tri thức sử dụng. Ví dụ, trong ontology của KIM, tên thường dùng của một thực thể được xác định dựa vào thuộc tính hasMainAlias của thực thể đó. Trong Wikipedia, tên thường dùng của một thực thể là tên xuất hiện trong nhan đề của trang thực thể. Ví dụ, “United States” là tên thường dùng (bí danh chính) của thực thểUnited States trong Wikipedia phiên bản tiếng Anh, bởi vì “United States” được sử dụng trong nhan đề của trang thực thể mô tả về nước Mỹ.

Lưu ý là heuristic H3 cũng được áp dụng để xác định một tên có đề cập đến một thực thể nằm ngoài nguồn tri thức sử dụng hay không.

H4. Phân hạng dựa trên lớp thực thể

Sau khi áp dụng cácheuristic H1 và H2, và H3, với hai thực thểứng viên có hạng bằng nhau, một ứng viên được chọn nếu lớp của nó được gán trọng số cao hơn trọng sốđược gán cho lớp của ứng viên còn lại.

Heuristic này dựa trên ý tưởng của Volz và CS (2007), trong đó mỗi lớp trong ontology được gán một trọng số thể hiện sự phổ biến của các thực thể thuộc lớp đó. Một lớp thực thể phổ biến hơn các lớp khác sẽđược gán trọng số cao hơn. Ví dụ, khi “Athens” xuất hiện trong một văn bản thuộc lĩnh vực tin tức, “Athens” thường đề cập đến thủđô của Hy Lạp hơn là một thành phố nhỏ thuộc tiểu bang Georgia của Mỹ, bởi vì thủđô của một quốc gia thường xuất hiện trong các bản tin hơn là một thành phố nhỏ.

Giải thuật

Quá trình phân giải nhập nhằng là một quá trình lặp cải thiện dần. Lưu ý rằng, khi phân giải nhập nhằng, phương pháp của chúng tôi thực hiện phân giải lần lượt các tên theo thứ tự xuất hiện từ trên xuống dưới và từ trái qua phải tính từđoạn đầu tiên của văn bản.

Phương pháp này áp dụng các heuristic H1, H2, H3, và H4để phân giải nhập nhằng các thực thể có tên. Quá trình phân giải bao gồm một số vòng lặp, mỗi vòng lặp thực hiện việc phân hạng các ứng viên của một tên nhập nhằng và các tên đồng tham chiếu với nó như

sau: với mỗi ứng viên, phương pháp sử dụng H1 để cho điểm ứng viên đó; nếu chỉ có một

ứng viên có hạng cao nhất, H3 được áp dụng để phân giải nhập nhằng cho các tên khác trong cùng chuỗi đồng tham chiếu với tên đang xét; nếu hai hoặc nhiều hơn các ứng viên có hạng cao nhất và bằng nhau, H2 sẽ được áp dụng. Sau khi áp dụng H2 nếu chỉ có một

ứng viên có hạng cao nhất H3 lại được áp dụng tương tự như trên, ngược lại thì H4 sẽđược áp dụng. Trường hợp sau khi áp dụng H4 mà vẫn chưa phân giải được nhập nhằng, phương pháp của chúng tôi giữ lại các ứng viên có hạng cao nhất và bằng nhau.

Sau mỗi vòng lặp, các thực thể được phân giải nhập nhằng sẽđược bổ sung vào danh sách các thực thểđã được xác định, phục vụ cho việc phân giải nhập nhằng các trường hợp còn lại. Giải thuật phân giải nhập nhằng lặp đi lặp lại cho đến khi tất cả các tên xuất hiện

trong văn bản đã được thực hiện ánh xạ hoặc giữa hai vòng lặp không có bất kì một trường hợp nào mới được phân giải nhập nhằng.

Giải thuật 3.1: Phân giải nhập nhằng dựa trên ontology (OntoNEON)

Đầu vào: Tập các tên , các thông tin bổ trợ về các tên trong văn bản (quan hệđồng tham chiếu),và nguồn tri thức được sử dụng.

Đầu ra: Ánh xạ các tên vào các thực thể trong nguồn tri thức. 1: E← tập các hạt giống

2: flag← false

3 : loop until rỗng hoặc flag = true

4: ’← 5 : foreachn ∈ ’ do 6: Г← tập các ứng viên của n 7: ifГ không rỗng then 8: ← ⎪⎭ ⎪ ⎬ ⎫ ⎪⎩ ⎪ ⎨ ⎧ ) ( ∑ = ∈ E j j Γ γ e γ f 1 , max arg [H1, và H2]

9: if sizeof( ) > 1 then áp dụng H4 cho các thực thể trong 10: if sizeof( ) = 1 then /* sau khi áp dụng H4, có thể thay đổi */

11: gọi γ* là thực thểđược chọn 12: ánh xạn vào γ* 13: E←revised(E ∪{<n →γ*>}) /*áp dụng H3*/ 14: xóa n khỏi 15: end if 16: end if 17: end for

18: if tập E không thay đổi so với vòng lặp trước then flag = true

Giải thuật 3.1 hiện thực phương pháp OntoNEON. Hàm sizeof(.) trong giải thuật trả về

lực lượng của một tập hợp. Các kết hợp giữa ứng viên là duy nhất đối với một số tên và chính các tên đó sẽđược chọn làm các hạt giống cho tập E khởi động (Dòng 1). Dòng 8 áp dụng heuristic H1, nếu tập M thu được có nhiều hơn một ứng viên có hạng bằng nhau, thì

H2 được áp dụng. Nếu tập M chỉ chứa một ứng viên duy nhất, kết hợp giữa tên và ứng viên

đó sẽ được thêm vào tập E. Sau khi chọn được ứng viên phù hợp cho một tên, H3 sẽ được áp dụng để lan truyền kết quả đến các tên khác trong cùng chuỗi đồng tham chiếu (dòng 13). Vòng lặp dòng 3 lặp cho đến khi tất cả các tên đã được thực hiện ánh xạ hoặc tại một vòng lặp không có bất kì thực thể mới nào được xác định so với vòng lặp trước. Do đó giải thuật chắc chắn dừng. Lưu ý là, mỗi lần lặp của phát biểu lặp loop until tại dòng 3 sẽ hoặc là có thêm ít nhất một tên được ánh xạ hoặc là E không thay đổi. Do vậy, độ phức tạp của giải thuật OntoNEON trong trường hợp xấu nhất là O(N2), với N là số tên trong tập .

Phân hạng ứng viên dựa trên ontology 75

Mô hình không gian véctơ 45

Nhận dạng thực thể có tên 46