Mô hình phân hạng ứng viên dựa trên thống kê 95- 123docz.net

Mục tiêu của các phương pháp được đề xuất trong luận án là ánh xạ một tên trên một văn bản vào đúng thực thể mà tên đó đề cập đến trong một cơ sở tri thức cho trước. Trong phần này, chúng tôi trình bày một mô hình phân hạng các ứng viên dựa trên thống kê để phân giải nhập nhằng các thực thể có tên. Chúng tôi dựa trên mô hình không gian véctơđể triển khai mô hình phân hạng này, trong đó mỗi thực thểđược biểu diễn bởi một véctơ dựa trên các đặc trưng của nó. Có nhiều cách để xây dựng véctơ, nhưng cách đơn giản, hiệu quả và

được sử dụng rộng rãi là xem tập các đặc trưng của mỗi thực thể như là một tập hợp từ hay “túi từ” (bag-of-word). Các đặc trưng nào sẽ được rút trích để biểu diễn các thực thể phụ

khai phá các đặc trưng để biểu diễn các thực thể, mô hình phân hạng các ứng viên dựa trên thống kê sử dụng nguồn cơ sở tri thức là Wikipedia.

Để có thể khai phá và đánh giá các đặc trưng của mỗi thực thể trong Wikipedia, trước tiên chúng tôi thực hiện rút trích các đặc trưng để biểu diễn mỗi tên nhập nhằng trên văn bản, và rút trích các đặc trưng để biểu diễn các thực thể trong Wikipedia. Sau đó tập các

đặc trưng được rút trích cho mỗi tên nhập nhằng hoặc thực thể sẽ được chuyển thành các túi từ. Tiếp theo chúng tôi xây dựng các véctơđặc trưng dựa trên các túi từ, và cuối cùng các ứng viên của mỗi tên nhập nhằng trên văn bản sẽđược phân hạng dựa trên độ tương tự

giữa véctơđặc trưng của tên nhập nhằng và mỗi véctơđặc trưng của mỗi ứng viên.

Sau đây chúng tôi lần lượt trình bày các đặc trưng rút trích từ văn bản và từ

Wikipedia, phương pháp gán trọng số cho các từ trong mỗi túi từ, và mô hình phân hạng các ứng viên dựa trên thống kê bằng cách tính toán độ tương tự giữa các véctơđặc trưng của mỗi tên nhập nhằng và các véctơđặc trưng giữa các thực thểứng viên.

Đặc trưng trích từ văn bản

Để xây dựng véctơ đặc trưng cho một tên nhập nhằng trong một văn bản, phương pháp của chúng tôi rút trích các thông tin sau:

• Tên thực thể đồng xuất hiện (Entity Name - EN): Chúng tôi trích tất cả các xuất hiện khác nhau của các tên trong toàn bộ văn bản. Để tránh trùng lắp các đặc trưng, với các tên xuất hiện nhiều lần trong cùng văn bản, chúng tôi chỉ giữ lại một. Ví dụ, nếu “U.S” xuất hiện hai lần trong một văn bản và cùng đề cập đến nước Mỹ, chúng tôi loại đi một.

• Từ cục bộ (Local Word - LW): Tất cả các từ xuất hiện xung quanh tên nhập nhằng

đang được xem xét để phân giải nhập nhằng sẽ được rút trích. Phạm vi để rút trích các từ là một cửa sổ ngữ cảnh gồm 55 từ trong đó tên đang xét nằm ở chính giữa (± 22 từ xuất hiện xung quanh tên đang xét, với tên đang xét được xem là một đơn vị

từ). Các từđược rút trích không bao gồm các kí hiệu đặc biệt như $, #, ?, . . . Chúng tôi chọn cửa sổ ngữ cảnh 55 từ, tương tự như phương pháp của Bunescu và Paşca (2006). Lưu ý là các từ là một phần của các tên xuất hiện trong cửa sổ ngữ cảnh gồm 55 từ như trên sẽ không được tính để tránh trùng lắp các đặc trưng rút trích

• Từ đồng tham chiếu (Coreferential Word - CW): Tất cả các từ xuất hiện xung quanh các tên là đồng tham chiếu với tên đang được xem xét để phân giải nhập nhằng. Phạm vi rút trích các từ cũng là cửa sổ ngữ cảnh gồm 55 từ như trên sẽđược rút trích. Khi xảy ra trường hợp các cửa sổ ngữ cảnh của các tên đồng tham chiếu với tên đang được xem xét trùng lắp một phần, các từ nằm trong vùng trùng lắp chỉ được rút trích một lần.

• Định danh của thực thể (Identifier - ID). Khi phân giải nhập nhằng cho một trường hợp, định danh của các thực thểđã được xác định trong văn bản cũng được xem là các đặc trưng. Định danh của các thực thể đó được xem như là phần mở rộng của văn bản đang xét.

Đặc trưng trích từ Wikipedia

Với mỗi thực thể trong Wikipedia, được xem là một ứng viên của một tên nhập nhằng trong văn bản, phương pháp của chúng tôi rút trích các thông tin sau để xây dựng véctơ đặc trưng cho thực thểđó.

• Nhan đề trang thực thể (Title of Entity page - ET): Mỗi trang thực thể trong Wikipedia có một nhan đề, và nhan đề này đồng thời cũng là định danh của thực thể. Ví dụ, “John McCarthy (computer scientist)” là nhan đề của trang thực thể mô tả Giáo sư John McCarthy, cha đẻ ngôn ngữ lập trình LISP. Phương pháp của chúng tôi xem “John McCarthy (computer scientist)” là đặc trưng của thực thể John McCarthy ở trên.

• Nhan đề trang đổi hướng (Title of Redirect page - RT): Mỗi thực thể trong Wikipedia có nhiều trang đổi hướng mà nhan đề của nó chứa các tên khác (bí danh khác), hoặc cách viết khác của tên xuất hiện trong ET, của thực thể đó. Để minh họa, từ các trang đổi hướng của thực thể John Williams (nhà soạn nhạc nổi tiếng người Mỹ) trong Wikipedia, chúng tôi rút trích được nhan đề của một số trang

đổi hướng như sau: Williams, John Towner; John Towner Williams; Johnny

Williams; Williams, John; John Williams (composer).

• Nhãn thể loại (Category Label - CL): Mỗi thực thể trong Wikipedia thuộc một hoặc nhiều thể loại. Chúng tôi trích nhãn của tất các thể loại của nó. Ví dụ, từ các thể

Wikipedia, chúng tôi trích được một số thông tin sau: Turing Award laureates, Computer pioneers, Stanford University faculty, Lisp programming language, Artificial intelligence researchers.

• Nhãn liên kết ra (Outgoing link label - OL): Trong mỗi trang thực thể có nhiều liên kết trỏđến các thực thể khác trong Wkipedia. Chúng tôi xem nhãn của các liên kết này như là các đặc trưng của mỗi thực thể tương ứng.

• Nhãn liên kết vào (Ingoing link label - IL): Mỗi thực thể trong Wikipedia có một số

liên kết từ thực thể khác trỏ đến nó. Chúng tôi cũng xem nhãn của các liên kết đó như là các đặc trưng của thực thể.

Chuẩn hóa

Sau khi trích các đặc trưng trên văn bản để biểu diễn các tên nhập nhằng và các đặc trưng từ Wikipedia để biểu diễn các thực thể trong đó, chúng tôi chuyển tập các đặc trưng trích được của mỗi thực thể thành một túi từ. Sau đó các túi từ sẽđược chuẩn hóa như sau: (i) loại bỏ các kí tự đặc biệt trong một số từ, ví dụ như chuẩn hóa “U.S.” thành “US”, “D.C” (như trong “Washington D.C”) thành “DC”; (ii) loại bỏ các kí hiệu đặc biệt như dấu chấm, dấu phẩy, chấm phẩy, @, . . .; (iii) loại bỏ các liên từ hoặc những từ không có ý nghĩa, ví dụ như “và”, “hoặc”, “nhưng” trong tiếng Việt hay “a”, “an”, “the” trong tiếng Anh; và (iv) đối với tiếng Anh các từ sẽđược đưa về dạng gốc như “reading” được biến

đổi thành “read”.

Gán trọng số từ và tính toán độ tương tự giữa các véctơ

Với một tên trong một văn bản, giả sử tồn tại Nứng viên trong Wikipedia mà tên đó có thểđề cập đến. Phương pháp tf.idfđược sử dụng để gán trọng số cho các từ trong các túi từ sau khi đã được chuẩn hóa. Trong đó, mỗi túi từđược xem như là một tài liệu, và được chuyển thành một véctơđặc trưng. Gọi S1 và S2 là hai véctơđặc trưng cho hai túi từ. Độ

tương tự giữa hai túi từđược tính toán như sau:

Sim(S1, S2) = ∑ j t word common j j w w1 * 2 (4.1)

Trong đó tj là từ đại diện cho cả hai S1 và S2, w1jlà trọng số của tj trong S1 và w2jlà trọng số của tj trong S2. Với trọng số của tj trong Siđược tính toán:

wij= log(tfj+1).log(N/dfj)/ si21+si22+...+siN2 (4.2) Trong đó tfj là tần suất xuất hiện của tj trong véctơSi, dfj là số túi từ biểu diễn các ứng viên có chứa tj, sij = log(tfj+1).log(N/dfj). Phương pháp gán trọng số cho các từ vừa được trình bày là của Cohen và CS (2003) và Bilenko và CS (2003).

Giải thuật

Gọi n là tên đang xét, Г là tập các ứng viên trong Wikipedia. Chúng tôi xem bài toán phân giải nhập nhằng như là bài toán phân hạng thực thể với giả sử rằng tồn tại một hàm cho điểm phù hợp đểđánh giá độ tương tự giữa các các véctơđặc trưng của mỗi ứng viên γ

∈ Г và véctơđặc trưng của n. Chúng tôi xây dựng một hàm phân hạng nhận đầu vào là một tập các véctơđặc trưng của các thực thể trong Г và véctơđặc trưng của n. Sau đó dựa trên hàm cho điểm để phân hạng và trả vềứng viên γ ∈ Г có điểm cao nhất. Chúng tôi sử dụng

Sim trong phương trình (4.1) là hàm cho điểm các ứng viên. Ý tưởng phân hạng các ứng viên dựa trên thống kê được thể hiện trong Giải thuật 4.1. Trong đó, FeatureVector (.) là hàm tính toán và trả về véctơđặc trưng.

Giải thuật 4.1:Phân hạng ứng viên dựa trên thống kê

Đầu vào: véctơđặc trưng của tên cần phân giải nhập nhằng n, và tập các véctơ đặc trưng của các ứng viênГ của n.

Đầu ra: ứng viên được chọn. 1: for eachứng viên γdo

2: score[γ] ← Sim(FeatureVector(γ), FeatureVector (n)) 3: end for 4: γ* ← [ ] ∈Γ i γ γ score max arg i 5: returnγ*

Đểđánh giá mô hình phân hạng ứng viên dựa trên thống kê, và khai phá các đặc trưng, chúng tôi áp dụng Giải thuật 4.1 cho mỗi tên trong văn bản. Để thực hiện phân giải nhập nhằng lặp cải thiện dần dựa trên thống kê, chúng tôi đề xuất Giải thuật 4.2. Giải thuật 4.2 phân hạng các ứng viên của mỗi tên trong văn bản bằng cách thực thi Giải thuật 4.1. Tại

dòng 8 của Giải thuật 4.2 véctơđặc trưng của tên n bao gồm định danh của các thực thểđã

được xác định trong E. Trong các thí nghiệm của chương này, khi không sử dụng định danh của các thực thể như là các đặc trưng, chúng tôi áp dụng Giải thuật 4.1 cho mỗi tên trong văn bản, và khi sử dụng định danh của các thực thể như là các đặc trưng chúng tôi áp dụng NOW (Giải thuật 4.2), tập hạt giống E khởi đầu là một tập rỗng.

Giải thuật 4.2:Phân giải nhập nhằng lặp cải thiện dần dựa trên thống kê (NOW)

Đầu vào: Tập các tên , các thông tin bổ trợ về các tên trong văn bản (các từ xung quanh, quan hệđồng tham chiếu),và nguồn tri thức được sử dụng.

Đầu ra: Ánh xạ các tên vào các thực thể trong nguồn tri thức. 1: E← ∅

2: flag←flase

3: loop until rỗng hoặc flag = true

4: ’←

5: for eachn ∈ ’do

6: Г← tập các ứng viên của n

7: ifГ không rỗng then

8: γ* ← kết quả thực thi Giải thuật 4.1 cho tên n

9: ánh xạn vào γ* 10: E←revised(E ∪{<n →γ*>}) 11: xóa n khỏi 12: end if 13: end for

14: if tập E không thay đổi so với vòng lặp trước then flag = true

15: end loop

Tương tự như với giải thuật OntoNEON, giải thuật NOW chắc chắn dừng và độ phức tạp của nó trong trường hợp xấu nhất là O(N2), với N là số tên trong tập .

Các thí nghiệm và kết quả

Mục tiêu của phần này là thử nghiệm mô hình phân hạng các thực thể dựa trên thống kê và khai phá các đặc trưng nhằm xác định các đặc trưng nào có tác động đến hiệu quả

• Đánh giá hiệu quả phân giải nhập nhằng của mô hình phân hạng các thực thể dựa trên thống kê.

• Khai phá các đặc trưng trên văn bản và trong Wikipedia, bằng cách kết hợp các đặc trưng theo nhiều cách khác nhau, nhằm thẩm định xem các kết hợp nào cho kết quả

phân giải nhập nhằng tốt nhất, cũng như là đánh giá sự tác động của các đặc trưng vào hiệu quả phân giải nhập nhằng.

Bảng 4.1: Thông tin về thực thể trong Wikipedia có một trong các tên “John McCarthy”,

“John Williams”, “Georgia”, hoặc “Columbia” và số lần được đề cập đến trong tập dữ liệu

De2.

Thực thể trong Wikipedia # lần xuất hiện

John "Hot Rod" Williams 23

John Williams (actor) 2

John Williams (guitarist) 60

John Williams (composer) 154

John McCarthy (computer scientist) 30

John McCarthy (journalist) 79

John McCarthy (linguist) 16

John McCarthy (referee) 47

Georgia (country) 318

Georgia (U.S. state) 90

South Georgia and the South Sandwich Islands 59

British Columbia 34

Columbia Sportswear Company 65

Columbia University 13

Columbia, South Carolina 15

Space Shuttle Columbia 80

District of Columbia 1

Tổng số 1.086

Để thực hiện các thí nghiệm, chúng tôi quan tâm thu thập các tài liệu có chứa các tên

được dùng để đề cập đến ít nhất hai thực thể trong Wikipedia. Cụ thể chúng tôi thu thập các tài liệu trong đó có xuất hiện bốn tên như sau: “John McCarthy”, “John Williams”, “Georgia”, hoặc “Columbia” để tạo tập dữ liệu thí nghiệm, được đặt tên là De2. Có tổng cộng 270 tài liệu trong tập dữ liệu. Bảng 4.1 trình bày thông tin cho thấy các thực thể nào trong Wikipedia (cột thứ nhất của Bảng 4.1) được đề cập trong tập dữ liệu và số lần xuất

hiện các tên của các thực thểđó trong tập dữ liệu (cột thứ hai của bảng 4.1). Lưu ý là trước khi thực hiện phân giải nhập nhằng và định danh các thực thể có tên, hệ thống của chúng tôi thực hiện một số các công việc tiền xử lý, là nhận dạng các thực thể có tên và phân giải

đồng tham chiếu tên riêng của GATE.

Phiên bản Wikipedia chúng tôi sử dụng cho các thí nghiệm có 6 người có tên “John McCarthy”, 41 người có tên “John Williams”, 17 thực thể thuộc các thể loại (hoặc lớp) khác nhau và có tên “Georgia”, 78 thực thể thuộc các thể loại khác nhau và có tên “Co- lumbia”. Theo chúng tôi việc sử dụng 4 tên nhập nhằng là đủ để thí nghiệm và đánh giá các đặc trưng; Chen và Martin (2007) cũng thí nghiệm với cùng số lượng.

Bảng 4.2 cho thấy sốứng viên (trong cột thứ hai) của mỗi tên tương ứng trong cột thứ

nhất. Cột thứ ba của Bảng 4.2 cho thấy số lần xuất hiện của các tên đề cập đến các thực thể

có một trong bốn tên “John McCarthy”, “John Williams”, “Georgia”, hoặc “Columbia”. Cột thứ tư của Bảng 4.2 cho thấy số ánh xạ được thực hiện cho các thực thể có tên tương

ứng trong cột thứ nhất của Bảng 4.2 bởi phương pháp của chúng tôi.

Bảng 4.2: Thông tin về số lần xuất hiện của các tên đề cập đến các thực thể có một trong bốn tên “John McCarthy”, “John Williams”, “Georgia”, hoặc “Columbia” và số lượng ánh xạđược thực hiện bởi phương pháp của chúng tôi.

Tên # ứng viên # lần xuất hiện # ánh xạ John McCarthy 6 172 170 John Williams 41 239 242 Georgia 17 468 453 Columbia 78 207 203 Tổng số 1.086 1.068

Lưu ý rằng có một số tên xuất hiện trong tập dữ liệu thí nghiệm mà đề cập đến các thực thể được liệt kê trong cột thứ nhất của Bảng 4.1 không có nhập nhằng. Ví dụ, “Co- lumbia Sportswear” là không có nhập nhằng, bởi vì khi sử dụng “Columbia Sportswear” như là một truy vấn để truy hồi các thực thể trong Wikipedia có cùng tên này, chúng tôi nhận được kết quả có một ứng viên duy nhất, Columbia Sportswear Company, và

đúng là thực thể mà “Columbia Sportswear” đề cập. Do mục tiêu là đánh giá sự tác động của các đặc trưng vào hiệu quả phân giải nhập nhằng, đối với những trường hợp tương tự

ứng viên. Ví dụ, khi “South Georgia” xuất hiện trong một văn bản, “South Georgia” sẽ được thu giảm về “Georgia” và việc phân giải được thực hiện cho “Georgia”. Theo cách

đó, trong các thí nghiệm của phần này, phương pháp của chúng tôi phải xử lý các lần xuất hiện của các tên là nhập nhằng thật sự.

Bảng 4.3:Độ chính xác và độđầy đủ ánh xạđược tính toán cho các tên “John McCarthy”

và “John Williams”. Tên Đặtc trừ vưăn bng tríchản Đặtừc tr Wikipedia ưng trích # ánh xđúng ạ (%) MP MR (%)

Mô hình phân hạng ứng viên dựa trên thống kê 95

Mô hình không gian véctơ 45

Nhận dạng thực thể có tên 46