Phương pháp máy vector hỗ trợ (SVM)

Một phần của tài liệu Giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy hỗ trợ vector SVM (Trang 26 - 30)

Đây là một hướng tiếp cận mới được bởi hai tác giả Thomas Finly và Thorsten Joachims đề xuất năm 2005 [7]. Năm 2009, Rahman và Ng. [17] cải tiến và giới thiệu ba mô hình giải quyết bài toán đồng tham chiếu trong văn bản sử dụng bộ phân lớp SVM. Trong khóa luận này chỉ giới thiệu mô hình theo cặp (mention-pair model).

Tư tưởng chính của hướng tiếp cận này là sử dụng bộ phân lớp để xác định xem một cụm từmk có đồng tham chiếu với một tiền ngữứng viên mj hay không.

Mỗi một thể hiện hoặc ví dụ i(mj, mk) biểu diễn mối liên hệ giữa mjmk bao gồm 39 đặc trưng được đề cập các bảng dưới đây. Các đặc trưng này được chia làm 4 phần: Bảng 2 và bảng 3 bao gồm các đặc trưng miêu tả thuộc tính của mjmk tương

18

tiến hành học kết hợp trên cả các ví dụ âm (negative) và dương (positive) tưng ứng với việc mj và mk có đồng tham chiếu với nhau hay không. Cụ thể:

Đặc trưng mô t mj - ng viên tin ng

Bảng 2: Đặc trưng mô tảứng viên tiền ngữ

PRONOUN_1 Y nếu mj là một đại từ, ngược lại N SUBJECT_1 Y nếu mj là chủ ngữ, ngược lại N

NESTED_1 Y nếu mj là một cụm ngữ danh từ lồng nhau; ngược lại N

Đặc trưng mô t mk – cm tđang xét

Bảng 3: Đặc trưng mô tả cụm từđang xét NUMBER_2 SINGULAR hoặc PLURAL xác định bởi từ vựng GENDER_2

MALE, FEMALE, NEUTER hoặc UNKNOW xác định bởi danh sách các tên đầu thường gặp

PRONOUN_2 Y nếu mk là một đại từ, ngược lại N

NESTED_2 Y nếu mk là một cụm ngữ danh từ lồng nhau; ngược lại N

SEMCLASS_2

PERSON, LOCATION, ORGANIZATION, DATE, TIME,

PERCENT, OBJECT, OTHERS xác định bởi từ điển WordNet và bộ nhận dạng thực thểNER

ANIMACY_2

Y nếu mk được xác định là HUMAN hoặc ANIMAL bởi WordNet và bộ nhận dạng thực thể NER (Name entity recognition); ngược lại N

PRO_TYPE_2 Dạng nguyên thể của mk nếu là đại từ; ngược lại NA

Đặc trưng mô t mi qua h gia mj và mk

Bảng 4: Đặc trưng mô tả mối quan hệ giữa tiền ngữứng viên và cụm từ đang xét

HEAD_MATCH C nếu hai cụm từ có cùng danh từ chính; ngược lại I

STR_MATCH C nếu hai cụm từ giống nhau; ngược lại I

SUBSTR_MATCH C nếu cụm từ này là một bộ phận của cụm từ kia;

19

PRO_STR_MATCH C nếu cả hai cụm từ cùng là một đại từ; ngược lại I PN_STR_MATCH C nếu cả hai cụm từ cùng là một tên riêng; ngược

lại I NONPRO_STR_MATC

H

C nếu cả hai cụm từ giống nhau nhưng không phải là đại từ; ngược lại I

MODIFIER_MATCH C nếu cả hai cụm từ có cùng modifiers

2 ; NA nếu ít nhất 1 cụm từ không có modifier ; còn lại I PRO_TYPE_MATCH C nếu cả hai cụm từđều là đại từ và chỉ khác nhau ở một vài kí tự; NA nếu ít nhất 1 cụm từ không phải là đại từ; còn lại là I NUMBER

C nếu hai cụm từ xác định số lượng giống nhau; I

nếu không; NA nếu ít nhất một cụm từ không thể xác định số lượng GENDER C nếu hai cụm từ xác định giới tính giống nhau; I nếu không; NA nếu ít nhất một cụm từ không thể xác định giới tính

AGREEMENT C nếu cả hai cụm xác định số lượng và giới tính

giống nhau; I nếu không giống nhau; còn lại NA ANIMACY

C nếu cả hai cụm từ được xác định là cùng loại thực thể trong từ điển Wornet; I nếu không; NA

nếu ít nhất một cụm từ không thể xác địnhloại.

BOTH_PRONOUNS C nếu cả hai cụm từ là đại từ; I nếu cả hai đều

không phải đại từ; còn lại NA BOTH_PROPER_NOU

NS

C nếu cả hai cụm từ là danh từ riêng; I nếu cả hai

đều không phải danh từ riêng; còn lại NA

MAXIMALNP C nếu cả hai cụm từ không có cùng một cụm ngữ

danh từ bao hàm; ngược lại I

SPAN C nếu cụm từ này không là mở rộng của cụm từ

kia; còn lại I

INDEFINITE C nếu mk là một ngữ danh từ không xác định,

không có mối quan hệđồng vị ngữ; còn lại I

APPOSITIVE C nếu các cụm từ có mối quan hệđồng vị ngữ; còn

lại I

COPULAR C nếu các cụm tồn tại trong một cấu trúc liên từ;

ngược lại I

SEMCLASS C nếu các cụm từ cùng lớp ngữ nghĩa; I nếu

20

không; NA nếu không xác định được

ALIAS C nếu một cụm từ là từ viết tắt của cụm từ kia;

ngược lại I

DISTANCE Số câu giữa hai cụm từ. • Các đặc trưng thêm mô t mi quan h gia mj và mk:

Bảng 5: Đặc trưng thêm mô tả mối quan hệ giữa tiền ngữứng viên và cụm từđang xét

NUMBER’ Tổng giá trịđặc trưng NUMBER_2 của mjmk GENDER’ Tổng giá trịđặc trưng GENDER_2 của mjmk PRONOUN’ Tổng giá trịđặc trưng PRONOUN_2 của mjmk NESTED’ Tổng giá trịđặc trưng NESTED_2 của mjmk SEMCLASS’ Tổng giá trịđặc trưng SEMCLASS_2 của mjmk ANIMACY’ Tổng giá trịđặc trưng ANIMACY_2 của mjmk PRO_TYPE’ Tổng giá trịđặc trưng PRO_TYPE của mjmk

Mỗi một ví dụ học được tạo từ mỗi cặp cụm từ, số ví dụ âm thường nhiều hơn các ví dụ dương. Kết quả một tập các cặp cụm được sinh ra để tiến hành học mô hình. Trong ví dụ: “Barack Obama nominated Hillary Radham Clinton as his secretary of stae on Monday. He …” có các ví dụ i(Monday, He), i(secretary of state, He) là các ví dụ âm; còn ví dụ i(his, He) là ví dụ dương. Để tiến hành học mô hình, các tác giảđã sử

dụng thuật toán máy vector hỗ trợ SVM từ bộ SVMlight 3 của Joachims(2002), biến đổi toàn bộ các đặc trưng đa giá trị thành tập các đặc trưng tương đương với giá trị nhị

phân .

Mô hình thu được sau khi tiến hành học trên bộ phân lớp SVM được sử dụng để

xác định các tiền ngữđồng tham chiếu cho các cụm từ trong. Cụ thể, cụm từđang xét

mk sẽ chọn tiền ngữ đồng tham chiếu gần nhất đã được phân lớp. Nếu không có tiền ngữ nào được phân lớp đồng tham chiếu với mk, nó sẽđược coi là “biện luận mới” .

Ưu, nhược điểm của hướng tiếp cận: • Ưu điểm:

o Đạt kết quả khả quan trên miền dữ liệu tiếng Anh (69.2 %) o Xác định được tương đối đầy đủ các cặp đồng tham chiếu • Nhược điểm:

o Tốn chi phí thời gian và công sức xây dựng tập dữ liệu học.

21

Một phần của tài liệu Giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy hỗ trợ vector SVM (Trang 26 - 30)

Tải bản đầy đủ (PDF)

(55 trang)