Phân giải đồng tham chiếu trong một văn bả n 51- 123docz.net

Phân giải đồng tham chiếu trong một văn bản là xác định liệu hai term trong một tài liệu có cùng đề cập đến một thực thể hay không (Soon và CS, 2001), và gom cụm các term này thành các chuỗi đồng tham chiếu, mỗi chuỗi chứa các term cùng đề cập đến một thực thể.

(S1) Ms. Washington1's candidacy is being championed by several powerful lawmakers

including her1 boss, Chairman John Dingell (D., Mich.) of the House Energy and Com- merce Committee.

(S2) She2 so currently is a counsel to the committee. Ms. Washington2 and Mr. Dingell have been considered allies of the securities exchanges, while banks and futures exchanges have often fought with them.

Hình 2.13 trình bày một ví dụ cho thấy phương pháp của Soon và CS tạo ra một chuỗi

đồng tham chiếu được in đậm Ms. Washington1 – her1 – She2 – Ms. Washington2. Được xem là một bài toán quan trọng của IE, phân giải đồng tham chiếu bên trong một văn bản

đã được định nghĩa và đánh giá trong MUC-6 (1995), MUC-7 (Douthat, 1998), ACE (Doddington và CS, 2004). Cho đến nay, có nhiều hướng tiếp cận đối với vấn đề phân giải

đồng tham chiếu bên trong một văn bản, từ những tiếp cận khai thác sâu tri thức về ngôn ngữ (Carbonell và Brown, 1988; Carter, 1987), đến các tiếp cận dùng ít tri thức, bao gồm

heuristic (Baldwin, 1997; Bontcheva và CS, 2002; Dimitrov và CS, 2002) và học máy (Ng và Cardie, 2002; Soon và CS, 2001; Yang và CS, 2003).

Có nhiều kiểu đồng tham chiếu khác nhau giữa các term trong một văn bản. Zhou và CS (2004) chia quan hệ đồng tham chiếu giữa các term thành các loại sau (các cụm được gạch dưới trong mỗi ví dụ bên dưới là đồng tham chiếu):

• Đồng tham chiếu tên riêng. Ví dụ: “John Dingell” và “Dingell” trong Hình 2.13 là

đồng tham chiếu tên riêng.

• Đồng tham chiếu giữa các đồng vị. Ví dụ: The alleged shooter, Maj. Nidal Malik Hasan, a psychiatrist who worked in a hospital at Fort Hood, is blamed for the deaths of 12 soldiers and one civilian, military officials said.

• Đồng tham chiếu chủ vị. Ví dụ: John David Dingell, Jr. (born July 8, 1926) is a Democratic United States Representative from Michigan.

• Đồng tham chiếu đại từ. Ví dụ: Obama said he met Friday morning with FBI Direc- tor Robert Mueller.

• Đồng tham chiếu cụm danh từ xác định. Ví dụ: Computational linguistics from dif- ferent countries attended the tutorial. The participants took extensive note. (Zhou và CS, 2004).

• Đồng tham chiếu cụm danh từ chỉđịnh (ví dụ: Boorda wants to limit the total num- ber of sailors on the arsenal ship to between 50 and 60. Currently, this ship has about 90 sailors. (Zhou và CS, 2004);

• Đồng tham chiếu cụm danh từ nguyên mẫu. Ví dụ: The price of aluminium siding has steadily increased, as the market for aluminium reacts to the strike in Chile. (Zhou và CS, 2004).

Chúng tôi xử lý các thực thể có tên, nên chỉ quan tâm đồng tham chiếu tên riêng. Phân giải đồng tham chiếu tên riêng là nhằm xác định hai tên riêng xuất hiện trong cùng một văn bản có cùng đề cập đến một thực thể hay không.

Đểđánh giá hiệu quả của các phương pháp phân giải đồng tham chiếu, chúng ta có thể

áp dụng giải thuật của MUC (Vilain và CS, 1995) để tính toán giá trị cho các độđo là: độ

chính xác, độ đầy đủ và độ F. Các độ đo này được tính toán như trong các phương trình (2.1), (2.2), và (2.4), trong đó key và response là các cặp đồng tham chiếu (ví dụ, “John Dingell” và “Dingell” trong Hình 2.13 là một cặp đồng tham chiếu), thay vì các chú thích. Một chuỗi đồng tham chiếu có N phần tử sẽ có N(N-1)/2 cặp đồng tham chiếu. Một cách

đánh giá khác cũng phổ biến đó là sử dụng giải thuật B-CUBED của Bagga và Baldwin (1998a).

Trong luận án này, khi thực hiện các thí nghiệm trên các tập dữ liệu tiếng Anh, chúng tôi sử dụng phương pháp phân giải đồng tham chiếu tên riêng của Bontcheva và CS (2002). Phương pháp của Bontcheva và CS (2002) đạt độ chính xác và độđầy đủ lần lượt là 98% và 93%. Các luật so trùng tên được các tác giảđề xuất như sau:

• Các luật áp dụng cho tên của tất cả các loại thực thể

Chính xác: hai tên giống nhau thì đồng tham chiếu;

Bí danh: hai tên khác nhau của cùng một NE; ví dụ: “IBM” và “The Big Blue”;

Sở hữu cách: ví dụ: “New York” và “New York’s”; • Các luật áp dụng cho tổ chức và con người

So trùng token: tất cả các token đều giống nhau là đồng tham chiếu; ví dụ: “Kalina Bontcheva”và “Bontcheva, Kalina”;

So trùng token đầu tiên: token đầu tiên trùng nhau là đồng tham chiếu; ví dụ: “Peter Smith”và “Peter”;

Viết tắt: một tên là viết tắt của tên kia; ví dụ: “International Business Ma- chines” và “IBM”;

Token cuối cùng: token cuối cùng trùng nhau là đồng tham chiếu; ví dụ: “John Smith” và “Smith”;

Cụm giới từ: ví dụ: “University of Sheffield” và “Sheffield University”;

Dạng tỉnh lược: chỉ dùng cho tổ chức; ví dụ: “Pan American” và “Pan Am”;

So trùng nhiều từ: ví dụ: “Second Force Recon Company” và “Force Recon Company”.

Đồng tham chiếu là quan hệ có tính truyền, tức là nếu A so trùng với B, B so trùng với

C, thì A so trùng với C. Chính vì thế, nếu hai thực thể cùng tên đồng xuất hiện trong tài liệu thì việc so trùng sẽ dẫn đến kết quả sai. Ví dụ: “BBC News” đồng tham chiếu với “News”, và “News” đồng tham chiếu với “ITV News” theo luật “Token cuối cùng”, từđó suy diễn sai ra “BBC News” và “ITV News” là hai tên của cùng một thực thể. Để khắc phục trường hợp vừa nêu các tác giả thiết lập một cờ trạng thái cho mỗi luật. Cờ trạng thái

được thiết lập cho một luật là tín hiệu cho phép hoặc không cho phép suy diễn bắc cầu dựa trên kết quả áp dụng luật đó với một cặp tên.

Nguyễn Thanh Hiên (2005) đã phát triển các luật so trùng tên áp dụng cho tiếng Việt dựa vào các đặc thù về tên tiếng Việt. Phân giải đồng tham chiếu tên riêng tiếng Việt là một việc khó, bởi vì cách dùng xen kẽ giữa tên tiếng Anh và tên tiếng Việt là rất phổ biến trong tiếng Việt, như “Ngân hàng Công Thương” và “InComBank”. Bên cạnh đó, chính cách viết tắt tên trong các văn bản tiếng Việt đã làm tăng độ phức tạp của vấn đề vì không có chuẩn chung cho cách viết tắt tên tiếng Việt. Hơn nữa, một phần trong tên của các tổ

chức là tên của một nơi chốn, nên tổ hợp cách viết đầy đủ và viết tắt giữa phần tên nơi chốn và phần còn lại sẽ tạo ra nhiều biến thể khác nhau. Ví dụ, với tên “Đại học Bách Khoa Thành phố Hồ Chí Minh”, tổ hợp cách viết đầy đủ và viết tắt giữa “Đại học Bách Khoa” và “Thành phố Hồ Chí Minh” sẽ tạo ra rất nhiều biến thể khác nhau, như “ĐHBK TP Hồ Chí Minh”, “ĐHBK TP HCM”, . . .

Các tính chất của tên tiếng Việt

Sau khi xem xét nhiều cách đặt tên tiếng Việt khác nhau tác giảđã rút ra các dạng tên tổng quát. Các dạng tổng quát này là cơ sở để tác giả đề xuất phương pháp đồng tham chiếu tên riêng dựa trên luật. Mỗi thành phần trong các tên có thể được viết tắt, và các phần đặt trong dấu ngoặc vuông có thể có hoặc không.

• Đối với tên người

[Tiền tố] + [Họ] + [ Tên lót] + Tên

Ví du: TS Mai Liêm Trực Tiền tố: TS

Họ: Mai Tên lót: Liêm Tên: Trực

• Tên của một tổ chức nói chung

[Tiền tố] + [Loại hình] + [Loại hình kinh doanh] + Tên + [Nơi chốn] Ví dụ 1: Công ty TNHH TM&DV Hewlett Packard Việt Nam Tiền tố: Công ty

Loại hình: TNHH

Loại hình kinh doanh: TM&DV Tên: Hewlett Packard

Nơi chốn: Việt Nam Ví dụ 2: Trường Đại học Bách Khoa Tp HCM Tiền tố: Trường Loại hình: Đại học Tên: Bách Khoa Nơi chốn: Tp HCM • Tên của một nơi chốn [Tiền tố] + Tên Ví dụ: Tp Hồ Chí Minh Tiền tố: Tp Tên: Hồ Chí Minh

Các luật so trùng tên tiếng Việt xét tên của một thực thể bao gồm tất cả các thành phần

đã nêu. Riêng với tên người, phần tiền tố sẽ được loại bỏ trước khi so trùng. Ví dụ: “Sở

GTCC TP HCM”, “Công ty TNHH Hewlett Packard Việt Nam” là các tên, với “TS Mai

tên, các luật so trùng trình bày bên dưới được đề xuất để xác định N1 và N2 có đồng tham chiếu hay không.

Các luật so trùng tên

Với N1 và N2 là các tên, không mất tính tổng quát, giả sửN1 dài hơn N2. Để xác định

N1 và N2 có đồng tham chiếu hay không, các luật so trùng được đề xuất như sau. Các luật trong Bontcheva và CS (2002) áp dụng cho tiếng Việt:

Luật 1: Hai tên giống nhau.

Luật 2: Một tên là một phần của tên còn lại; ví dụ: “Mai Liêm Trực” và “Trực”.

Luật 3: Một tên là bí danh của tên khác; ví dụ: “Sài Gòn” và “TP Hồ Chí Minh”.

Luật 4: Một tên là viết tắt của tên khác; ví dụ: “TP HCM” và “Thành phố Hồ Chí Minh”. Các luật điều chỉnh từ Bontcheva và CS (2002):

Luật 5: k chữđầu và m chữ cuối của hai tên giống nhau, với điều kiện k+m là số chữ của

N2; ví dụ: “Công ty Cổ phần Đại An” và “Công ty Đại An”.

Luật 6: Ngoại trừ phần tiền tố, tất cả các chữ của N2đều xuất hiện trong N1 và phần tiền tố

của N2 hoặc là giống phần tiền tố của N1 hoặc là viết tắt của phần tiền tố của N1; ví dụ: “Công ty TNHH Apave Việt Nam”, “Cty Apave Việt Nam”, “Công ty Apave” cùng là tên của một công ty.

Các luật phát triển mới:

Luật 7: Một tên là phần cuối của tên còn lại; ví dụ: “Trịnh Chân Trân” và “Chân Trân”.

Luật 8: Phần cuối của một tên là viết tắt kí tựđầu của các chữ trong phần cuối của tên kia, phần còn lại của hai tên giống nhau; ví dụ: với “Bộ Giáo dục và Đào tạo” và “Bộ

GD&ĐT” thì “GD & ĐT” là viết tắt kí tựđầu của “Giáo dục và Đào tạo”.

Luật 9: k chữ cuối của hai tên giống nhau, phần đầu của N2 là viết tắt phần đầu của N1, với

điều kiện N2 có k+1 chữ; ví dụ: “Công ty HP VN” và “Cty HP VN”.

Luật 10: Các chữ viết tắt của N2 đều là viết tắt các cụm từ trong N1 và các chữ còn lại trong N2đều xuất hiện trong N1; ví dụ: “Công ty TNHH Hewlett Packard Việt Nam”, “Cty HP VN”, “HP VN”, “HP Việt Nam” và “Công ty HP Việt Nam” đều là tên của cùng một thực thể.

Luật 11: Hai tên xuất hiện liên tiếp trong văn bản theo dạng N1(N2), với điều kiện N2 chỉ

có một chữ và thực thể tương ứng thuộc lớp tổ chức; ví dụ: “Phòng Thương Mại và Công nghiệp Việt Nam (VCCI)”, hoặc “Liên Đoàn Bóng Đá Việt Nam (VFF)”, hoặc “Tổng công ty Cao su VN (Geruco)”.

Trong số các luật nêu trên, luật 5 tổng quát hơn luật 1; luật 7 tổng quát hơn luật 2 và luật 1; luật 6 tổng quát hơn luật 7 và luật 5; luật 10 tổng quát hơn luật 9, luật 8, luật 4 và luật 1. Tuy nhiên, kết quả trả về bởi các luật chi tiết hơn có độ tin cậy và độ ưu tiên cao hơn, nên sẽđược áp dụng trước.

Giải thuật phân giải đồng tham chiếu tên tiếng Việt

Ý tưởng phân giải đồng tham chiếu đã được hiện thực trong hệ thống VN-KIM. Do

đó, giải thuật được trình bày lại ở đây được diễn giải trong ngữ cảnh của hệ thống VN- KIM. Trong đó, môđun nhận dạng thực thể có tên của VN-KIM là phần tiền xử lý của môđun phân giải đồng tham chiếu tên riêng tiếng Việt. Sau khi nhận dạng các thực thể có tên trong một văn bản tiếng Việt, dựa trên ontology của VN-KIM, mỗi thực thể có tên trong đó sẽ được nhận dạng và được tạo một chú thích ngữ nghĩa tương ứng. Như vậy, môđun phân giải đồng tham chiếu nhận đầu vào là danh sách các chú thích ngữ nghĩa.

Giải thuật 2.1: Phân giải đồng tham chiếu tên tiếng Việt

Đầu vào: một cặp chú thích ngữ nghĩa

Đầu ra: true hoặc false cho biết cặp tên tương ứng có đồng tham chiếu hay không 1: if (id1 = null) or (id2 = null) then

2: if (c1=c2) or (c1⊂c2) or (c2⊂c1) or ((t1=Unknown) xor (t2= Unknown)) then

3: ifmatch(pn1, pn2) thenreturntrue;

4: end if

5: else if (id1 = id2) thenreturntrue;

6: else returnfalse;

Các chú thích ngữ nghĩa sẽđược xét theo từng cặp để xác định cặp tên tương ứng có

đồng tham chiếu hay không. Với mỗi cặp chú thích a1 = (pn1,c1, id1, t1) và a2 = (pn2,c2, id2,

t2) trong đó pni,ci, idi, tilần lượt là: tên riêng, lớp của thực thể, định danh của thực thể, kiểu của chú thích ngữ nghĩa, ai(i = 1, 2). Kiểu của chú thích là ba lớp ở mức cao Con người, Tổ chức, và Nơi chốn. Trường hợp không xác định được thực thể thuộc lớp nào, thì kiểu là

Unknown – cho biết chưa xác định được kiểu của thực thể. Lớp và định danh có thể không

được xác định trong các chú thích. Giải thuật 2.1 kiểm tra a1 và a2có đồng tham chiếu hay không, trong đó match(pn1, pn2) sử dụng các luật so trùng được trình bày ở trên.

Để tránh tính bắc cầu của quan hệđồng tham chiếu tạo ra các chuỗi đồng tham chiếu không đúng, định danh của các thực thể chứa trong các chú thích được so sánh, nếu chúng khác rỗng (null) và không bằng nhau thì không thể đồng tham chiếu. Trường hợp một trong hai định danh là rỗng, các luật so trùng được áp dụng cho cặp tên tương ứng. Trong Giải thuật 2.1, c ⊂ c'biểu diễn cho c là lớp con của lớp c'.

Đểđánh giá hiệu quả của phương pháp phân giải đồng tham chiếu tên riêng tiếng Việt, tác giả rút 200 trang web tin tức thuộc nhiều thể loại khác nhau từ các báo điện tử Vnex- press21, Tuổi Trẻ22, Thanh Niên23, và đặt tên là tập dữ liệu COREF. COREF chứa 3.666 tên, trong đó có 3.369 cặp tên (thống kê thủ công) có quan hệ đồng tham chiếu. Lưu ý là khi thống kê, nếu hai tên cùng đề cập đến một thực thể thì được đếm là một cặp đồng tham chiếu. Việc đánh giá hiệu quả phân giải đồng tham chiếu dựa trên các cặp đồng tham chiếu

được nhận ra bởi máy tính sau khi thực thi giải thuật phân giải đồng tham chiếu so với các cặp đồng tham chiếu được xác định thủ công bởi con người. Gọi A là số cặp đồng tham chiếu đúng và R là số cặp đồng tham chiếu nhận ra bởi máy tính.

Khi thực hiện thí nghiệm đểđánh giá các phương pháp phân giải nhập nhằng thực thể

có tên trên các tập dữ liệu tiếng Việt, chúng tôi sử dụng phương pháp phân giải đồng tham chiếu tên riêng tiếng Việt vừa nêu cho phần tiền xử lý.

21 http://www.vnexpress.net/ 22 http://www.tuoitre.com.vn/ 23 http://www.thanhnien.com.vn

Độ chính xác và độđầy đủđược định nghĩa như sau: Độ chính xác (P) = A A R∩ (2.5) Độđầy đủ (R) = R A R∩ (2.6) Sau khi thực thi giải thuật phân giải đồng tham chiếu (Giải thuật 2.1), số cặp đồng

tham chiếu được nhận ra bởi máy là 3.272, trong đó có 3.202 cặp được nhận ra chính xác. Bảng 2.3 trình bày kết quả phân giải đồng tham chiếu.

Bảng 2.3: Kết quả phân giải đồng tham chiếu tên riêng tiếng Việt

R A R∩A P R

3.369 3.272 3.202 97,8% 95%

Phân giải đồng tham chiếu trong một văn bả n 51

Mô hình không gian véctơ 45

Nhận dạng thực thể có tên 46