Đây là một hướng tiếp cận mới được bởi hai tác giả Thomas Finly và Thorsten Joachims đề xuất năm 2005 [7]. Năm 2009, Rahman và Ng. [17] cải tiến và giới thiệu ba mô hình giải quyết bài toán đồng tham chiếu trong văn bản sử dụng bộ phân lớp SVM. Trong khóa luận này chỉ giới thiệu mô hình theo cặp (mention-pair model).
Tư tưởng chính của hướng tiếp cận này là sử dụng bộ phân lớp để xác định xem một cụm từmk có đồng tham chiếu với một tiền ngữứng viên mj hay không.
Mỗi một thể hiện hoặc ví dụ i(mj, mk) biểu diễn mối liên hệ giữa mj và mk bao gồm 39 đặc trưng được đề cập các bảng dưới đây. Các đặc trưng này được chia làm 4 phần: Bảng 2 và bảng 3 bao gồm các đặc trưng miêu tả thuộc tính của mj và mk tương
18
tiến hành học kết hợp trên cả các ví dụ âm (negative) và dương (positive) tưng ứng với việc mj và mk có đồng tham chiếu với nhau hay không. Cụ thể:
• Đặc trưng mô tả mj - ứng viên tiền ngữ
Bảng 2: Đặc trưng mô tảứng viên tiền ngữ
PRONOUN_1 Y nếu mj là một đại từ, ngược lại N SUBJECT_1 Y nếu mj là chủ ngữ, ngược lại N
NESTED_1 Y nếu mj là một cụm ngữ danh từ lồng nhau; ngược lại N
• Đặc trưng mô tả mk – cụm từđang xét
Bảng 3: Đặc trưng mô tả cụm từđang xét NUMBER_2 SINGULAR hoặc PLURAL xác định bởi từ vựng GENDER_2
MALE, FEMALE, NEUTER hoặc UNKNOW xác định bởi danh sách các tên đầu thường gặp
PRONOUN_2 Y nếu mk là một đại từ, ngược lại N
NESTED_2 Y nếu mk là một cụm ngữ danh từ lồng nhau; ngược lại N
SEMCLASS_2
PERSON, LOCATION, ORGANIZATION, DATE, TIME,
PERCENT, OBJECT, OTHERS xác định bởi từ điển WordNet và bộ nhận dạng thực thểNER
ANIMACY_2
Y nếu mk được xác định là HUMAN hoặc ANIMAL bởi WordNet và bộ nhận dạng thực thể NER (Name entity recognition); ngược lại N
PRO_TYPE_2 Dạng nguyên thể của mk nếu là đại từ; ngược lại NA
Đặc trưng mô tả mối qua hệ giữa mj và mk
Bảng 4: Đặc trưng mô tả mối quan hệ giữa tiền ngữứng viên và cụm từ đang xét
HEAD_MATCH C nếu hai cụm từ có cùng danh từ chính; ngược lại I
STR_MATCH C nếu hai cụm từ giống nhau; ngược lại I
SUBSTR_MATCH C nếu cụm từ này là một bộ phận của cụm từ kia;
19
PRO_STR_MATCH C nếu cả hai cụm từ cùng là một đại từ; ngược lại I PN_STR_MATCH C nếu cả hai cụm từ cùng là một tên riêng; ngược
lại I NONPRO_STR_MATC
H
C nếu cả hai cụm từ giống nhau nhưng không phải là đại từ; ngược lại I
MODIFIER_MATCH C nếu cả hai cụm từ có cùng modifiers
2 ; NA nếu ít nhất 1 cụm từ không có modifier ; còn lại I PRO_TYPE_MATCH C nếu cả hai cụm từđều là đại từ và chỉ khác nhau ở một vài kí tự; NA nếu ít nhất 1 cụm từ không phải là đại từ; còn lại là I NUMBER
C nếu hai cụm từ xác định số lượng giống nhau; I
nếu không; NA nếu ít nhất một cụm từ không thể xác định số lượng GENDER C nếu hai cụm từ xác định giới tính giống nhau; I nếu không; NA nếu ít nhất một cụm từ không thể xác định giới tính
AGREEMENT C nếu cả hai cụm xác định số lượng và giới tính
giống nhau; I nếu không giống nhau; còn lại NA ANIMACY
C nếu cả hai cụm từ được xác định là cùng loại thực thể trong từ điển Wornet; I nếu không; NA
nếu ít nhất một cụm từ không thể xác địnhloại.
BOTH_PRONOUNS C nếu cả hai cụm từ là đại từ; I nếu cả hai đều
không phải đại từ; còn lại NA BOTH_PROPER_NOU
NS
C nếu cả hai cụm từ là danh từ riêng; I nếu cả hai
đều không phải danh từ riêng; còn lại NA
MAXIMALNP C nếu cả hai cụm từ không có cùng một cụm ngữ
danh từ bao hàm; ngược lại I
SPAN C nếu cụm từ này không là mở rộng của cụm từ
kia; còn lại I
INDEFINITE C nếu mk là một ngữ danh từ không xác định,
không có mối quan hệđồng vị ngữ; còn lại I
APPOSITIVE C nếu các cụm từ có mối quan hệđồng vị ngữ; còn
lại I
COPULAR C nếu các cụm tồn tại trong một cấu trúc liên từ;
ngược lại I
SEMCLASS C nếu các cụm từ cùng lớp ngữ nghĩa; I nếu
20
không; NA nếu không xác định được
ALIAS C nếu một cụm từ là từ viết tắt của cụm từ kia;
ngược lại I
DISTANCE Số câu giữa hai cụm từ. • Các đặc trưng thêm mô tả mối quan hệ giữa mj và mk:
Bảng 5: Đặc trưng thêm mô tả mối quan hệ giữa tiền ngữứng viên và cụm từđang xét
NUMBER’ Tổng giá trịđặc trưng NUMBER_2 của mj và mk GENDER’ Tổng giá trịđặc trưng GENDER_2 của mj và mk PRONOUN’ Tổng giá trịđặc trưng PRONOUN_2 của mj và mk NESTED’ Tổng giá trịđặc trưng NESTED_2 của mj và mk SEMCLASS’ Tổng giá trịđặc trưng SEMCLASS_2 của mj và mk ANIMACY’ Tổng giá trịđặc trưng ANIMACY_2 của mj và mk PRO_TYPE’ Tổng giá trịđặc trưng PRO_TYPE của mj và mk
Mỗi một ví dụ học được tạo từ mỗi cặp cụm từ, số ví dụ âm thường nhiều hơn các ví dụ dương. Kết quả một tập các cặp cụm được sinh ra để tiến hành học mô hình. Trong ví dụ: “Barack Obama nominated Hillary Radham Clinton as his secretary of stae on Monday. He …” có các ví dụ i(Monday, He), i(secretary of state, He) là các ví dụ âm; còn ví dụ i(his, He) là ví dụ dương. Để tiến hành học mô hình, các tác giảđã sử
dụng thuật toán máy vector hỗ trợ SVM từ bộ SVMlight 3 của Joachims(2002), biến đổi toàn bộ các đặc trưng đa giá trị thành tập các đặc trưng tương đương với giá trị nhị
phân .
Mô hình thu được sau khi tiến hành học trên bộ phân lớp SVM được sử dụng để
xác định các tiền ngữđồng tham chiếu cho các cụm từ trong. Cụ thể, cụm từđang xét
mk sẽ chọn tiền ngữ đồng tham chiếu gần nhất đã được phân lớp. Nếu không có tiền ngữ nào được phân lớp đồng tham chiếu với mk, nó sẽđược coi là “biện luận mới” .
Ưu, nhược điểm của hướng tiếp cận: • Ưu điểm:
o Đạt kết quả khả quan trên miền dữ liệu tiếng Anh (69.2 %) o Xác định được tương đối đầy đủ các cặp đồng tham chiếu • Nhược điểm:
o Tốn chi phí thời gian và công sức xây dựng tập dữ liệu học.
21