Minh họa cách tiếp cận Disambiguation-Only

Một phần của tài liệu (LUẬN văn THẠC sĩ) liên kết thực thể cho tiếng việt, entity linking for vietnamese (Trang 28 - 54)

Trong luận văn này, chúng tôi tiếp cận bài toán Liên kết thực thể cho tiếng Việt theo cách tiếp cận Disambiguation-Only. Lý do là đã có nhiều nghiên cứu về bài toán nhận dạng thực thể cho tiếng Việt, nhưng nghiên cứu về bài toán liên kết thực thể cho tiếng Việt hiện vẫn chưa có. Do vậy chúng tôi đi theo hướng xây dựng tập dữ liệu đầu vào đã được gán nhãn và sau đó thử nghiệm chúng trên công cụ liên kết thực thể AIDA-light.

2.5 Nhập nhằng trong liên kết thực thể

Trong nội dung phần này, chúng tôi phân tích những nhập nhằng khi liên kết thực thể trong quá trình gán nhãn tập dữ liệu.

Nhập nhằng trong gán nhãn kiểu thực thể LOC và ORG

Trong ví dụ 2.5.1, thực thể có tên “Việt Nam” có sự nhập nhằng khi gán nhãn giữa kiểu thực thể LOC và ORG:

- Việt Nam (LOC): thực thể có tên chỉ một quốc gia có tên Việt Nam

thuộc khu vực Đông Nam Á.

- Việt Nam (ORG): thực thể có tên chỉ một đội tuyển có tên đầy đủ là

đội tuyển bóng đá quốc gia Việt Nam đại diện cho quốc gia Việt Nam thi đấu bóng đá.

Ví dụ 2.5.1

Lý do của sự nhập nhằng này là do trong ngôn ngữ báo chí, người viết thường có xu hướng viết tắt tên riêng của những thực thể có tên. Do đó, để gán nhãn chính xác kiểu thực thể cần dựa thêm vào ngữ cảnh trong câu. Cụm

từ “đội tuyển” ở phía trước thực thể có tên “Việt Nam” ám chỉ “đội tuyển

bóng đá quốc gia Việt Nam” chứ không phải quốc gia “Việt Nam”. Cỏn cụm

từ “đội bóng từ” ở phía trước thực thể có tên “Việt Nam” đã ám chỉ đây là

quốc gia “Việt Nam

Trong ví dụ 2.5.2, thực thể có tên “Mỹ ” có sự nhập nhằng khi gán nhãn giữa kiểu thực thể LOC và ORG:

- Mỹ (LOC): thực thể có tên chỉ một cộng hòa liên bang có tên chính

thức là Hoa Kỳ thuộc Châu Mỹ.

- Mỹ (ORG): thực thể có tên chỉ một trường đại học có tên là đại học

Mỹ thuộc quốc gia Mỹ.

Ví dụ 2.5.2

Chúng ta sẽ dễ nhầm lẫn thực thể có tên “Mỹ” ám chỉ đến “đại học Mỹ” cũng do văn phong viết tắt của người viết. Xét thêm ngữ cảnh trong câu tiếp theo,

từ “tại” ở phía trước thực thể có tên “Mỹ” ám chỉ “quốc gia Mỹ” chứ không

phải “đại học Mỹ”.

Gán nhãn ví dụ 2.5.2

Nhập nhằng trong gán nhãn kiểu thực thể LOC và PER

Trong ví dụ 2.5.3, thực thể có tên “Bộ trưởng Quốc phòng Nhật Bản” có sự nhập nhằng khi gán nhãn giữa kiểu thực thể LOC và PER:

- Bộ trưởng Quốc phòng Nhật Bản (PER): thực thể chỉ tên chức danh

trong Nội các chính phủ Nhật Bản, vị trí đứng đầu bộ quốc phòng Nhật Bản.

- Bộ trưởng Quốc phòng Nhật Bản (LOC): gồm hai thực thể “Bộ trưởng

Quốc phòng” và “Nhật Bản”, tương ứng chỉ chức danh Bộ trưởng quốc

Ví dụ 2.5.3

Sự nhập nhằng này là do tính mơ hồ giữa thực thể có tên và khái niệm. Thực thể “Bộ trưởng Quốc phòng Nhật Bản” rõ ràng ám chỉ một chức vị trong chính phủ Nhật Bản. Như vậy nó chính là một khái niệm bởi có thể ám chỉ nhiều người từng giữ chức vụ Bộ trưởng quốc phòng Nhật Bản (như

Tomomi Inada, Itsunori Onodera v.v.). Tương tự, thực thể “Bộ trưởng Quốc phòng” cũng mang ý nghĩa chỉ tên một chức vị. Do đó, chỉ có “Nhật Bản” ám chỉ quốc gia Nhật Bản là thực thể có tên được gán nhãn trong ví dụ này.

Gán nhãn ví dụ 2.5.3

Trong ví dụ 2.5.4, thực thể có tên “Nhật” có sự nhập nhằng khi gán nhãn giữa kiểu thực thể LOC và PER:

- Nhà văn Nhật (PER): thực thể chỉ tộc người Nhật Bản có nghề nghiệp

là nhà văn.

- Nhật (LOC): thực thể chỉ một quốc gia có tên Nhật Bản là đảo quốc ở

khu vực Đông Á.

Sự nhập nhằng này là do thiếu ngữ cảnh gắn liền với thực thể nên khó xác định được ý nghĩa của thực thể được nói tới. Thực thể “Nhà văn Nhật” có thể ám chỉ một nhà văn sống tại nước Nhật hoặc ám chỉ một nhà văn người

Nhật. Tuy nhiên, thực thể “Haruki Murakami” ngay phía sau đã giúp cho ý

nghĩa của thực thể này được rõ ràng hơn vì “Haruki Murakami” chỉ tên một

nhà văn. Do đó, thực thể “Nhà văn Nhật” ám chỉ tới nhà văn người Nhật.

Gán nhãn ví dụ 2.5.4

Nhập nhằng trong gán nhãn kiểu thực thể ORG và MISC

Trong ví dụ 2.5.5, thực thể có tên “Mercedes” có sự nhập nhằng khi gán nhãn giữa kiểu thực thể ORG và MISC:

- Mercedes (ORG): thực thể chỉ hãng sản xuất có tên Mercedes chuyên

sản xuất ô tô, xe bus, xe tải lớn nhất thế giới.

- Mercedes GLA (MISC): thực thể có tên chỉ dòng xe có tên GLA do

hãng Mercedes sản xuất.

Ví dụ 2.5.5

Sự nhập nhằng này là do sự hạn chế trong hiểu biết về thực thể. Do nếu chúng ta không hiểu biết về những dòng xe sản xuất của thực thể có tên “Mercedes” thì chúng ta cũng khó xác định được “Mercedes GLA” là kiểu thực thể ORG hay là kiểu thực thể MISC.

CHƢƠNG 3: CƠ SỞ LÝ THUYẾT

Trong chương này chúng tôi sẽ giới thiệu về hai nội dung chính:

 Mô hình học máy Conditional Random Fields (CRF) và ứng dụng của

mô hình này trong Stanford NER trong nhận dạng thực thể.

 Mô hình đồ thị (Graph Model) và phương thức tham lam (greedy

method) trong thuật toán đồ thị (Graph Algorithm) ứng dụng trong AIDA-light để liên kết thực thể.

3.1 Nhận dạng thực thể

Hiện nay, các mô hình học máy được ứng dụng nhiều trong các bài toán về nhận dạng thực thể. Có thể kể đến một số mô hình tiêu biểu như mô

hình Markov ẩn (Hidden Markov Models – HMMs) [10], mô hình cực đại hóa

Entropy (Maximum Entropy Markov Models – MEMMs) [16], mô hình các

trường điều kiện ngẫu nhiên (CRFs) [3]. Trong số đó, CRFs được đánh giá là

mô hình nổi trội hơn cả bởi nó thừa kế những điểm mạnh của MEMMs và HMMs.

3.1.1 Giới thiệu về CRFs

Định nghĩa về CRFs

Mô hình trường ngẫu nhiên có điều kiện (Conditional Random Fields,

CRFs) là mô hình dựa trên xác suất điều kiện thường được áp dụng trong

nhận dạng mẫu (pattern recognition) và học máy (machine learning). CRFs đã được chứng minh rất thành công cho các bài toán gán nhãn cho chuỗi như tách từ, gán nhãn cụm từ, nhận dạng thực thể v.v. CRFs được Lafferty và các cộng sự (2001) [15] giới thiệu như sau [21]:

Trên một tập mẫu quan sát X, tập biến ngẫu nhiên Y và tập trạng thái S

Mỗi thành phần của Y là một biến ngẫu nhiên nhận giá trị trong tập hữu

hạn các trạng thái S. Cho một đồ thị: sao cho

trong đó:

 V – tập các đỉnh của đồ thị,

 E – tập các cạnh vô hướng nối các đỉnh của đồ thị.

Các đỉnh cho bởi cho bởi V biểu diễn các thành phần của biến ngẫu nhiên Y

sao cho tồn tại một ánh xạ giữa một đỉnh của G và một của Y. Nếu

tuân theo tính chất Markov đối với đồ thị G thì là một trường ngẫu

nhiên điều kiện (conditional random field).

(3.1)

Trong đó: nghĩa là và là hai đỉnh kề trong đồ thị G.

Giải thích: nếu xác suất của biến ngẫu nhiên cho bởi X và các biến ngẫu

nhiên khác } } bằng với xác suất của biến ngẫu nhiên cho

bởi X và các biến ngẫu nhiên khác tương ứng với các đỉnh kề với đỉnh v

nghĩa là thì là một CRF. Như vậy CRF là một trường ngẫu nhiên phụ

thuộc toàn cục vào tập mẫu quan sát X. Nói cách khác là một CRF với

điều kiện X khi ta tính được xác suất có điều kiện với ,

, và với mỗi ta chọn được .

Trong bài toán dữ liệu dạng chuỗi nói chung [7], là chuỗi dữ liệu cần

phải gán nhãn và chuỗi nhãn tương ứng. Mỗi thành phần là một

biến ngẫu nhiên nhận giá trị trong tập hữu hạn các trạng thái . Trong bài

toán nhận dạng thực thể, nhận giá trị là các câu trong ngôn ngữ tự nhiên,

là một chuỗi ngẫu nhiên các tên thực thể tương ứng với các câu này và mỗi

một thành phần có miền giá trị là tập tất cả các kiểu thực thể (tên

người, tên địa danh, v.v.).

Ký hiệu và , mô hình đồ thị vô

Hình 3.1 Đồ thị biểu diễn mô hình CRFs

Gọi C là tập hợp tất cả các đồ thị con đầy đủ của đồ thị G (đồ thị biểu diễn cấu trúc của một CRF). Áp dụng kết quả của Hammerley – Clifford [10] cho

các trường ngẫu nhiên Markov, ta thừa số hóa được với xác suất của

chuỗi nhãn Y với chuỗi quan sát X cho trước có dạng:

(3.2)

Trong đó: gọi là hàm tiềm năng nhận giá trị thực dương. Với các bài toán

xử lý dữ liệu dạng chuỗi, đồ thị biểu diễn cấu trúc của một CRF có dạng đường thẳng như hình 3.1. nên C phải là hợp của E và V. Nói cách khác, đồ thị con A hoặc chỉ gồm một đỉnh hoặc chỉ gồm một cạnh của G [2].

Lafferty [15] xác định hàm tiềm năng cho CRFs dựa trên nguyên lý cực đại hóa entropy [13]. Nguyên lý này cho phép đánh giá các phân phối xác suất từ một tập các dữ liệu huấn luyện. Việc xác định một phân phối theo nguyên lý cực đại entropy có thể hiểu là ta phải xác định một phân phối sao cho “phân phối đó tuân theo mọi giải thiết suy ra từ thực nghiệm, ngoài ra không đưa thêm bất kì giả thiết nào khác” và gần nhất với phân phối đều.

Entropy12 là độ đo tính không chắc chắn, hay độ không đồng đều của

một phân phối xác suất. Độ đo Entropy điều kiện của một phân phối

mô hình trên một chuỗi trạng thái với điều kiện biết một chuỗi dữ liệu quan sát được cho bởi công thức:

(3.3)

Trong đó: ̃ là phân phối thực nghiệm của dữ liệu huấn

luyện. Các ràng buộc đối với phân phối mô hình được thiết lập bằng cách thống kê các thuộc tính được rút ra từ tập huấn luyện. Tập thuộc tính là tập

hợp các thông tin quan trọng trong dữ liệu huấn luyện. Gọi là ký hiệu của

thuộc tính, theo phân phối xác suất thực nghiệm, kỳ vọng của được cho bởi

công thức:

(3.4)

Giả sử dữ liệu huấn luyện gồm N cặp, mỗi cặp gồm một chuỗi dữ liệu

quan sát và một chuỗi nhãn ( )} khi đó phân phối thực nghiệm

trong dữ liệu huấn luyện được tính như sau:

(3.5)

Trong đó: là ký hiệu số lần xuất hiện đồng thời của trong tập huấn luyện. Khi đó giá trị của phân phối mô hình trùng với giá trị của phân phối thực nghiệm chỉ khi kì vọng của mọi thuộc tính theo phân phối xác suất phải bằng kì vọng của thuộc tính đó theo phân phối mô hình. Ràng buộc đối với phân phối mô hình được cho bởi công thức:

(3.6)

Khi đó nếu ta chọn thuộc tính từ tập dữ liệu huấn luyện, ta sẽ có

tương đương ràng buộc đối với phân phối mô hình. Do tuân theo

nguyên lý cực đại hóa Entropy (một phân phối mô hình được xác định phải tuân theo mọi giả thiết đã biết từ thực nghiệm và không đưa thêm bất kỳ giả thiết nào khác) nên nó phải thỏa mãn mọi ràng buộc được rút ra từ thực

nghiệm, và phải gần nhất với phân phối đều. Điều đó có nghĩa (3.3) được suy

ra từ (3.6) thỏa mãn và ∑ .

Như vậy cần thỏa mãn hai điều kiện: thứ nhất phải làm cực đại Entropy điều kiện (3.3) và thứ hai phải thuộc tâp được cho như dưới đây:

Gọi là không gian của tất cả các phân phối xác suất điều kiện, và

là số các thuộc tính rút ra từ dữ liệu huấn luyện. là tập con của , được

xác định như sau:

(3.7)

Với mỗi thuộc tính ta đưa vào một thừa số langrange , hàm Lagrange

được định nghĩa như sau:

Phân phối làm cực đại độ đo Entropy và thỏa mãn ràng buộc

sẽ làm cực đại hàm (theo lý thuyết thừa số Langrange). Từ (3.8) suy

ra:

(3.9)

Trong đó là thừa số chuẩn hóa để đảm bảo ∑ thỏa

mãn:

(3.10)

Dựa theo nguyên lý cực đại hóa Entropy, Lafferty đã chỉ ra hàm tiềm năng của mô hình CRFs có dạng:

(3.11)

Trong đó:

 là đồ thị con của đồ thị vô hướng ,

 xác định một hàm đặc trưng,

 là trọng số liên kết với mỗi đặc trưng .

Mục đích của việc học máy với CRFs là ước lượng các trọng số này

[13]. Có hai loại đặc trưng là đặc trưng trạng thái (per) và đặc trưng

chuyển (trans). Thay công thức (3.11) vào công thức (3.9) và thêm thừa số

chuẩn hóa để đảm bảo tổng xác suất của tất cả các chuỗi nhãn tương

ứng với một chuỗi dữ liệu quan sát bằng 1, ta được:

(3.12)

Ở đây, là chuỗi dữ liệu, là chuỗi trạng thái tương ứng.

 là đặc trưng của chuỗi quan sát và các trạng thái tại

là đặc trưng của chuỗi quan sát và các trạng thái tại vị trí

trong chuỗi trạng thái.

 và là các tham số được thiết lập từ dữ liệu huấn luyện.

Khi đó thừa số chuẩn hóa được cho bởi công thức:

(3.13)

Để định nghĩa các thuộc tính, chúng ta xây dựng một chuỗi các thuộc

tinh của chuỗi dữ liệu quan sát để diễn tả đặc trưng của phân phối

thực nghiệm trong dữ liệu huấn luyện. Một hàm mô tả sẽ nhận một giá trị

riêng trong số các giá trị thực . Nếu trường hợp là thì nhận giá trị

là trạng thái hiện tại, trường hợp là thì nhận hai giá trị là trạng thái

trước và trạng thái hiện tại. Huấn luyện mô hình CRFs

Huấn luyện CRFs chính là ước lượng các tham số , của mô hình

này. Kỹ thuật được sử dụng là làm cực đại hóa độ đo likelihood theo dữ liệu huấn luyện.

Giả sử dữ liệu huấn luyện gồm một tập cặp, mỗi cặp gồm một

chuỗi quan sát và một chuỗi trạng thái tương ứng, {( )}

. Độ đo likehood giữa tập huấn luyện và mô hình điều kiện tương ứng

là:

(3.14)

Trong đó , là các tham số của mô hình và ̃ là

toán (3.14) rất khó khăn nên ta đi xác định làm cực đại hàm logarit của hàm likelihood (còn gọi là log-likelihood) như sau:

(3.15)

Thay của CRFs trong (3.12) vào (3.15) ta được:

(3.16)

Trong đó:

 và là các vector tham số của mô hình,

 là vector các thuộc tính chuyển ( ,

),

 là vector các thuộc tính trạng thái ( , ).

Hàm log-likelihood là một hàm lồi và liên tục trong toàn bộ không gian của tham số. Do đó có nhiều phương pháp để giải quyết bài toán này như các phương pháp lặp (IIS và GIS), các phương pháp tối ưu số (Conjugate Gradient, phương pháp Newton v.v.). Theo đánh giá của Malouf (2002) [16] thì phương pháp được đánh giá hiệu quả nhất hiện nay là phương pháp tối ưu

số bậc hai limited-memory BFGS (L-BFGS hoặc LM-BFGS)13.

Ƣớc lƣợng tham số cho CRFs với L-BFGS

L-BFGS là phương pháp tối ưu số bậc hai, ngoài tính toán giá trị của vector gradient, L-BFGS còn xem xét đếm yếu tố về đường cong hàm log-

likelihood. Theo công thức khai triển Taylor tới bậc hai của ta có:

(3.17)

Trong đó là vector gradient còn là đạo hàm bậc hai của hàm log-

likelihood, gọi là ma trận Hessian. Thiết lập đạo hàm của xấp xỉ trong (3.17)

bằng 0 ta tìm được gia số để cập nhật tham số mô hình như sau:

(3.18)

Ở đây, là chỉ số bước lặp. Do ma trận Hessian thường có kích thước rất lớn,

đặc biệt với bài toán ước lượng tham số của mô hình CRFs. Việc cập nhật các tham số mô hình theo phương pháp này cho hội tụ rất nhanh nhưng việc tính nghịch đảo của ma trận Hessian lại đòi hỏi chi phí lớn về thời gian. Do đó thay vì tính toán trực tiếp với ma trận Hessian L-BFGS chỉ tính toán sự thay đổi độ cong của vector gradient so với bước trước đó và cập nhật lại.

(3.19)

Trong đó ma trận phản ánh sự thay đổi độ cong qua từng bước lặp

Một phần của tài liệu (LUẬN văn THẠC sĩ) liên kết thực thể cho tiếng việt, entity linking for vietnamese (Trang 28 - 54)

Tải bản đầy đủ (PDF)

(60 trang)