Các lượt sàng trong tiếng Anh

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu xác định đồng sở chỉ và ứng dụng cho tiếng việt (Trang 35 - 39)

3 Ứng dụng cho tiếng Việt

2.1 Các lượt sàng trong tiếng Anh

Thứ tự Mơ tả

Lượt 1 Xác định người nói Lượt 2 So khớp chuỗi chặt Lượt 3 So khớp chuỗi nới lỏng

Lượt 4 Một số trường hợp có độ chính xác cao Lượt 5-7 So khớp từ chính chặt chẽ

Lượt 8 Xác định tham chiếu của cho các danh từ riêng Lượt 9 So khớp cụm với từ chính gần giống nhau Lượt 10 Xác định đồng sở chỉ cho các đại từ

biết và chắc chắn đúng (có độ chính xác cao) nhưng lại chỉ là một số trường hợp đặc biệt nên chỉ là một phần nhỏ của tập kết quả (độ bao phủ thấp). Việc bổ sung thêm các lượt sàng có độ chính xác thấp hơn tuy làm giảm độ chính xác đi (tìm ra nhiều trường hợp sai) nhưng sẽ tăng độ bao phủ lên (tìm thêm được nhiều kết quả đúng hơn). Ngồi ra, như đã trình bày ở phần trước, sau mỗi lượt sàng, các cụm kết quả ở bước trước sẽ được gộm nhóm lại. Có thêm các phần tử, thơng tin về một cụm sẽ được bổ sung thêm, giúp cho các lượt sau sẽ có nhiều thơng tin hơn.

2.3.1 Xác định người nói

Các cụm danh từ được xét tới trong lượt này là các trường hợp văn bản dạng đoạn hội thoại hoặc các đoạn trích dẫn. Trong các đoạn hội thoại, người nói đã được cung cấp sẵn trong văn bản, người nghe là người nói trước đó.

Ví dụ:

Toto: - I running for student association. Titi: - I will vote for you.

Khi xét câu thứ 1, người nói sẽ là Toto. Khi xét câu thứ 2, người nói là Titi, người nghe sẽ là Toto.

Trong các đoạn trích dẫn, chúng ta có thể xác định người nói dựa theo dấu hiệu là các động từ có nghĩa thơng báo (ví dụ: say, talk). Chúng ta có thể cần căn cứ vào các dạng câu (chủ động, bị động), các vai nghĩa để xác định người nói và người nghe.

Sau khi đã xác định được người nói và người nghe, một quy tắc đơn giản để xác định đồng sở chỉ trong trường hợp này là:

• <I>s được gán cho người nói.

• <You>s được gán cho người nghe.

Ví dụ: [Tom] talks to [me]: "[I] will vote for [you].";

Tom và I là đồng sở chỉ, me và you là một cặp đồng sở chỉ.

2.3.2 So khớp chuỗi chặt

Từ lượt sàng này cho đến lượt sàng thứ chín, chúng ta khơng xét đến các cụm danh từ là đại từ mà chỉ xét các cụm có từ chính là một danh từ. Ở lượt này, các cụm danh từ giống hệt nhau sẽ được xác định là đồng sở chỉ. Ví dụ: [the Shahab 3 ground-ground missile] and [the Shahab 3 ground-ground missile]

2.3.3 So khớp chuỗi nới lỏng

Trong lượt này, hai cụm danh từ được xác định là đồng sở chỉ nếu nếu hai chuỗi sau khi bỏ đi phần văn bản theo sau từ chính (ví dụ như các mệnh đề quan hệ và các động tính từ làm bổ nghĩa sau) giống nhau.

Ví dụ: [Clinton] và [Clinton, whose term ends in January]).

2.3.4 Một số trường hợp chính xác cao

Trong lượt này, hai đề cập được xác định là đồng sở chỉ nếu chúng thỏa mãn một trong các điều kiện sau:

• Ngữ đồng vị: [Israel’s Deputy Defense Minister], [Ephraim Sneh] , said...

• Vị ngữ chỉ định: [The New York-based College Board] is [a nonprofit orga- nization that administers the SATs and promotes higher education]

• Đại từ quan hệ: [the finance street [which] has already formed in the Waitan district])

• Từ viết tắt: [Agence France Presse] . . . [AFP]

2.3.5 So khớp từ chính chặt

Trong lượt này, một đề cập đang xét sẽ được kết nối tới một tiền đề nếu:

• Có cùng từ chính với một trong các thực thể đang xét.

• Quan hệ bao hàm từ: Tất cả các từ không phải từ dừng trong đề cập đang xét đều thuộc danh sách các từ không phải từ dừng của thực thể.

• Sự phù hợp của các bổ ngữ: Tất cả các bổ ngữ của đề cập đều có trong danh sách bổ ngữ của tiền đề.

• Khơng chứa nhau: đề cập này không bao gồm đề cập kia

2.3.6 So khớp từ chính biến thể

Lượt sàng thứ 6, 7 là sự nới lỏng của lượt 5. Lượt 6 bỏ đi yêu cầu về sự phù hợp của bổ ngữ, lượt 7 bỏ đi ràng buộc về quan hệ bao hàm từ.

2.3.7 So khớp từ chính là danh từ riêng

Trong lượt nay, hai đề cập có từ chính là danh từ riêng được xác định là đồng sở chỉ nế chung có chung từ chính và thỏa mãn các ràng buộc:

• Khơng chứa nhau;

• Khơng có sự khơng khớp về địa danh: bổ ngữ của hai đề cập không thể chứa các thực thể tên địa danh khác nhau, các danh từ khác hoặc các bổ ngữ khơng gian. Ví dụ: [Lebanon] and [southern Lebanon] are not coreferent.

• Khơng có sự khơng khớp về số lượng: đề cập thứ hai khơng thể có một số lượng mà không xuất hiện trong tiền đề.

2.3.8 So khớp từ chính nới lỏng

Trong lượt nay, từ chính của đề cập đang xét chỉ cần khớp với bất kì từ nào của tiền đề.

2.3.9 Xác định đồng sở chỉ cho các đại từ

Ngoại trừ lượt một, tất cả các lượt từ hai đến chín, các mơ hình xác định đồng sở chỉ đều tập trung vào xác định đồng sở chỉ cho các cụm danh từ. Việc xác định đồng sở chỉ cho các cụm danh từ ở các bước này sẽ đem lại các thông tin tốt hơn cho việc xác định đồng sở chỉ cho các đại từ ở lượt này. Việc các cụm danh từ được nhóm lại sẽ đem lại nhiều thông tin hơn bằng cơ chế chia sẻ thông tin giữa các đề cập trong cùng một nhóm.

Các ràng buộc được sử dụng để xác định đồng sở chỉ cho các đại từ là:

• Số (số ít/ số nhiều): thơng tin này được xác định từ danh sách các đại từ, các nhãn thực thể tên (NER - Named Entity Recognition), các nhãn POS: NN*S là các danh từ số nhiều và NN* là các danh từ số ít, một từ điển cố định

• Giống: xác định bằng từ điển cố định

• Chỉ người

• Animacy: xác định theo một danh sách cố định, các nhãn NER, và một từ điển

• Nhãn NER: xác định từ cơng cụ Stanford NER.

• Khoảng cách: khoảng cách về câu giữ đại từ và tiền đề của nó khơng được quá 3.

2.4 Kết quả cho tiếng Anh

Hệ thống xác định cho tiếng Anh được tiến hành trên nhiều bộ dữ liệu, trong đó có bộ dữ liệu ACE2004-Culotta-Test, ACE2004-nwire, MUC-6.

2.4.1 Ngữ liệu2.4.2 Kết quả 2.4.2 Kết quả

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu xác định đồng sở chỉ và ứng dụng cho tiếng việt (Trang 35 - 39)

Tải bản đầy đủ (PDF)

(61 trang)