Trong luận văn này, chúng tôi tiếp cận bài toán Liên kết thực thể cho tiếng Việt theo cách tiếp cận Disambiguation-Only. Lý do là đã có nhiều nghiên cứu về bài toán nhận dạng thực thể cho tiếng Việt, nhưng nghiên cứu về bài toán liên kết thực thể cho tiếng Việt hiện vẫn chưa có. Do vậy chúng tôi đi theo hướng xây dựng tập dữ liệu đầu vào đã được gán nhãn và sau đó thử nghiệm chúng trên công cụ liên kết thực thể AIDA-light.
2.5 Nhập nhằng trong liên kết thực thể
Trong nội dung phần này, chúng tôi phân tích những nhập nhằng khi liên kết thực thể trong quá trình gán nhãn tập dữ liệu.
Nhập nhằng trong gán nhãn kiểu thực thể LOC và ORG
Trong ví dụ 2.5.1, thực thể có tên “Việt Nam” có sự nhập nhằng khi gán nhãn giữa kiểu thực thể LOC và ORG:
- Việt Nam (LOC): thực thể có tên chỉ một quốc gia có tên Việt Nam
thuộc khu vực Đông Nam Á.
- Việt Nam (ORG): thực thể có tên chỉ một đội tuyển có tên đầy đủ là
đội tuyển bóng đá quốc gia Việt Nam đại diện cho quốc gia Việt Nam thi đấu bóng đá.
Ví dụ 2.5.1
Lý do của sự nhập nhằng này là do trong ngôn ngữ báo chí, người viết thường có xu hướng viết tắt tên riêng của những thực thể có tên. Do đó, để gán nhãn chính xác kiểu thực thể cần dựa thêm vào ngữ cảnh trong câu. Cụm
từ “đội tuyển” ở phía trước thực thể có tên “Việt Nam” ám chỉ “đội tuyển
bóng đá quốc gia Việt Nam” chứ không phải quốc gia “Việt Nam”. Cỏn cụm
từ “đội bóng từ” ở phía trước thực thể có tên “Việt Nam” đã ám chỉ đây là
quốc gia “Việt Nam”
Trong ví dụ 2.5.2, thực thể có tên “Mỹ ” có sự nhập nhằng khi gán nhãn giữa kiểu thực thể LOC và ORG:
- Mỹ (LOC): thực thể có tên chỉ một cộng hòa liên bang có tên chính
thức là Hoa Kỳ thuộc Châu Mỹ.
- Mỹ (ORG): thực thể có tên chỉ một trường đại học có tên là đại học
Mỹ thuộc quốc gia Mỹ.
Ví dụ 2.5.2
Chúng ta sẽ dễ nhầm lẫn thực thể có tên “Mỹ” ám chỉ đến “đại học Mỹ” cũng do văn phong viết tắt của người viết. Xét thêm ngữ cảnh trong câu tiếp theo,
từ “tại” ở phía trước thực thể có tên “Mỹ” ám chỉ “quốc gia Mỹ” chứ không
phải “đại học Mỹ”.
Gán nhãn ví dụ 2.5.2
Nhập nhằng trong gán nhãn kiểu thực thể LOC và PER
Trong ví dụ 2.5.3, thực thể có tên “Bộ trưởng Quốc phòng Nhật Bản” có sự nhập nhằng khi gán nhãn giữa kiểu thực thể LOC và PER:
- Bộ trưởng Quốc phòng Nhật Bản (PER): thực thể chỉ tên chức danh
trong Nội các chính phủ Nhật Bản, vị trí đứng đầu bộ quốc phòng Nhật Bản.
- Bộ trưởng Quốc phòng Nhật Bản (LOC): gồm hai thực thể “Bộ trưởng
Quốc phòng” và “Nhật Bản”, tương ứng chỉ chức danh Bộ trưởng quốc
Ví dụ 2.5.3
Sự nhập nhằng này là do tính mơ hồ giữa thực thể có tên và khái niệm. Thực thể “Bộ trưởng Quốc phòng Nhật Bản” rõ ràng ám chỉ một chức vị trong chính phủ Nhật Bản. Như vậy nó chính là một khái niệm bởi có thể ám chỉ nhiều người từng giữ chức vụ Bộ trưởng quốc phòng Nhật Bản (như
Tomomi Inada, Itsunori Onodera v.v.). Tương tự, thực thể “Bộ trưởng Quốc phòng” cũng mang ý nghĩa chỉ tên một chức vị. Do đó, chỉ có “Nhật Bản” ám chỉ quốc gia Nhật Bản là thực thể có tên được gán nhãn trong ví dụ này.
Gán nhãn ví dụ 2.5.3
Trong ví dụ 2.5.4, thực thể có tên “Nhật” có sự nhập nhằng khi gán nhãn giữa kiểu thực thể LOC và PER:
- Nhà văn Nhật (PER): thực thể chỉ tộc người Nhật Bản có nghề nghiệp
là nhà văn.
- Nhật (LOC): thực thể chỉ một quốc gia có tên Nhật Bản là đảo quốc ở
khu vực Đông Á.
Sự nhập nhằng này là do thiếu ngữ cảnh gắn liền với thực thể nên khó xác định được ý nghĩa của thực thể được nói tới. Thực thể “Nhà văn Nhật” có thể ám chỉ một nhà văn sống tại nước Nhật hoặc ám chỉ một nhà văn người
Nhật. Tuy nhiên, thực thể “Haruki Murakami” ngay phía sau đã giúp cho ý
nghĩa của thực thể này được rõ ràng hơn vì “Haruki Murakami” chỉ tên một
nhà văn. Do đó, thực thể “Nhà văn Nhật” ám chỉ tới nhà văn người Nhật.
Gán nhãn ví dụ 2.5.4
Nhập nhằng trong gán nhãn kiểu thực thể ORG và MISC
Trong ví dụ 2.5.5, thực thể có tên “Mercedes” có sự nhập nhằng khi gán nhãn giữa kiểu thực thể ORG và MISC:
- Mercedes (ORG): thực thể chỉ hãng sản xuất có tên Mercedes chuyên
sản xuất ô tô, xe bus, xe tải lớn nhất thế giới.
- Mercedes GLA (MISC): thực thể có tên chỉ dòng xe có tên GLA do
hãng Mercedes sản xuất.
Ví dụ 2.5.5
Sự nhập nhằng này là do sự hạn chế trong hiểu biết về thực thể. Do nếu chúng ta không hiểu biết về những dòng xe sản xuất của thực thể có tên “Mercedes” thì chúng ta cũng khó xác định được “Mercedes GLA” là kiểu thực thể ORG hay là kiểu thực thể MISC.
CHƢƠNG 3: CƠ SỞ LÝ THUYẾT
Trong chương này chúng tôi sẽ giới thiệu về hai nội dung chính:
Mô hình học máy Conditional Random Fields (CRF) và ứng dụng của
mô hình này trong Stanford NER trong nhận dạng thực thể.
Mô hình đồ thị (Graph Model) và phương thức tham lam (greedy
method) trong thuật toán đồ thị (Graph Algorithm) ứng dụng trong AIDA-light để liên kết thực thể.
3.1 Nhận dạng thực thể
Hiện nay, các mô hình học máy được ứng dụng nhiều trong các bài toán về nhận dạng thực thể. Có thể kể đến một số mô hình tiêu biểu như mô
hình Markov ẩn (Hidden Markov Models – HMMs) [10], mô hình cực đại hóa
Entropy (Maximum Entropy Markov Models – MEMMs) [16], mô hình các
trường điều kiện ngẫu nhiên (CRFs) [3]. Trong số đó, CRFs được đánh giá là
mô hình nổi trội hơn cả bởi nó thừa kế những điểm mạnh của MEMMs và HMMs.
3.1.1 Giới thiệu về CRFs
Định nghĩa về CRFs
Mô hình trường ngẫu nhiên có điều kiện (Conditional Random Fields,
CRFs) là mô hình dựa trên xác suất điều kiện thường được áp dụng trong
nhận dạng mẫu (pattern recognition) và học máy (machine learning). CRFs đã được chứng minh rất thành công cho các bài toán gán nhãn cho chuỗi như tách từ, gán nhãn cụm từ, nhận dạng thực thể v.v. CRFs được Lafferty và các cộng sự (2001) [15] giới thiệu như sau [21]:
Trên một tập mẫu quan sát X, tập biến ngẫu nhiên Y và tập trạng thái S
Mỗi thành phần của Y là một biến ngẫu nhiên nhận giá trị trong tập hữu
hạn các trạng thái S. Cho một đồ thị: sao cho
trong đó:
V – tập các đỉnh của đồ thị,
E – tập các cạnh vô hướng nối các đỉnh của đồ thị.
Các đỉnh cho bởi cho bởi V biểu diễn các thành phần của biến ngẫu nhiên Y
sao cho tồn tại một ánh xạ giữa một đỉnh của G và một của Y. Nếu
tuân theo tính chất Markov đối với đồ thị G thì là một trường ngẫu
nhiên điều kiện (conditional random field).
(3.1)
Trong đó: nghĩa là và là hai đỉnh kề trong đồ thị G.
Giải thích: nếu xác suất của biến ngẫu nhiên cho bởi X và các biến ngẫu
nhiên khác } } bằng với xác suất của biến ngẫu nhiên cho
bởi X và các biến ngẫu nhiên khác tương ứng với các đỉnh kề với đỉnh v
nghĩa là thì là một CRF. Như vậy CRF là một trường ngẫu nhiên phụ
thuộc toàn cục vào tập mẫu quan sát X. Nói cách khác là một CRF với
điều kiện X khi ta tính được xác suất có điều kiện với ,
, và với mỗi ta chọn được .
Trong bài toán dữ liệu dạng chuỗi nói chung [7], là chuỗi dữ liệu cần
phải gán nhãn và chuỗi nhãn tương ứng. Mỗi thành phần là một
biến ngẫu nhiên nhận giá trị trong tập hữu hạn các trạng thái . Trong bài
toán nhận dạng thực thể, nhận giá trị là các câu trong ngôn ngữ tự nhiên,
là một chuỗi ngẫu nhiên các tên thực thể tương ứng với các câu này và mỗi
một thành phần có miền giá trị là tập tất cả các kiểu thực thể (tên
người, tên địa danh, v.v.).
Ký hiệu và , mô hình đồ thị vô
Hình 3.1 Đồ thị biểu diễn mô hình CRFs
Gọi C là tập hợp tất cả các đồ thị con đầy đủ của đồ thị G (đồ thị biểu diễn cấu trúc của một CRF). Áp dụng kết quả của Hammerley – Clifford [10] cho
các trường ngẫu nhiên Markov, ta thừa số hóa được với xác suất của
chuỗi nhãn Y với chuỗi quan sát X cho trước có dạng:
(3.2)
Trong đó: gọi là hàm tiềm năng nhận giá trị thực dương. Với các bài toán
xử lý dữ liệu dạng chuỗi, đồ thị biểu diễn cấu trúc của một CRF có dạng đường thẳng như hình 3.1. nên C phải là hợp của E và V. Nói cách khác, đồ thị con A hoặc chỉ gồm một đỉnh hoặc chỉ gồm một cạnh của G [2].
Lafferty [15] xác định hàm tiềm năng cho CRFs dựa trên nguyên lý cực đại hóa entropy [13]. Nguyên lý này cho phép đánh giá các phân phối xác suất từ một tập các dữ liệu huấn luyện. Việc xác định một phân phối theo nguyên lý cực đại entropy có thể hiểu là ta phải xác định một phân phối sao cho “phân phối đó tuân theo mọi giải thiết suy ra từ thực nghiệm, ngoài ra không đưa thêm bất kì giả thiết nào khác” và gần nhất với phân phối đều.
Entropy12 là độ đo tính không chắc chắn, hay độ không đồng đều của
một phân phối xác suất. Độ đo Entropy điều kiện của một phân phối
mô hình trên một chuỗi trạng thái với điều kiện biết một chuỗi dữ liệu quan sát được cho bởi công thức:
(3.3)
Trong đó: ̃ là phân phối thực nghiệm của dữ liệu huấn
luyện. Các ràng buộc đối với phân phối mô hình được thiết lập bằng cách thống kê các thuộc tính được rút ra từ tập huấn luyện. Tập thuộc tính là tập
hợp các thông tin quan trọng trong dữ liệu huấn luyện. Gọi là ký hiệu của
thuộc tính, theo phân phối xác suất thực nghiệm, kỳ vọng của được cho bởi
công thức:
(3.4)
Giả sử dữ liệu huấn luyện gồm N cặp, mỗi cặp gồm một chuỗi dữ liệu
quan sát và một chuỗi nhãn ( )} khi đó phân phối thực nghiệm
trong dữ liệu huấn luyện được tính như sau:
(3.5)
Trong đó: là ký hiệu số lần xuất hiện đồng thời của trong tập huấn luyện. Khi đó giá trị của phân phối mô hình trùng với giá trị của phân phối thực nghiệm chỉ khi kì vọng của mọi thuộc tính theo phân phối xác suất phải bằng kì vọng của thuộc tính đó theo phân phối mô hình. Ràng buộc đối với phân phối mô hình được cho bởi công thức:
(3.6)
Khi đó nếu ta chọn thuộc tính từ tập dữ liệu huấn luyện, ta sẽ có
tương đương ràng buộc đối với phân phối mô hình. Do tuân theo
nguyên lý cực đại hóa Entropy (một phân phối mô hình được xác định phải tuân theo mọi giả thiết đã biết từ thực nghiệm và không đưa thêm bất kỳ giả thiết nào khác) nên nó phải thỏa mãn mọi ràng buộc được rút ra từ thực
nghiệm, và phải gần nhất với phân phối đều. Điều đó có nghĩa (3.3) được suy
ra từ (3.6) thỏa mãn và ∑ .
Như vậy cần thỏa mãn hai điều kiện: thứ nhất phải làm cực đại Entropy điều kiện (3.3) và thứ hai phải thuộc tâp được cho như dưới đây:
Gọi là không gian của tất cả các phân phối xác suất điều kiện, và
là số các thuộc tính rút ra từ dữ liệu huấn luyện. là tập con của , được
xác định như sau:
(3.7)
Với mỗi thuộc tính ta đưa vào một thừa số langrange , hàm Lagrange
được định nghĩa như sau:
Phân phối làm cực đại độ đo Entropy và thỏa mãn ràng buộc
sẽ làm cực đại hàm (theo lý thuyết thừa số Langrange). Từ (3.8) suy
ra:
(3.9)
Trong đó là thừa số chuẩn hóa để đảm bảo ∑ thỏa
mãn:
(3.10)
Dựa theo nguyên lý cực đại hóa Entropy, Lafferty đã chỉ ra hàm tiềm năng của mô hình CRFs có dạng:
(3.11)
Trong đó:
là đồ thị con của đồ thị vô hướng ,
xác định một hàm đặc trưng,
là trọng số liên kết với mỗi đặc trưng .
Mục đích của việc học máy với CRFs là ước lượng các trọng số này
[13]. Có hai loại đặc trưng là đặc trưng trạng thái (per) và đặc trưng
chuyển (trans). Thay công thức (3.11) vào công thức (3.9) và thêm thừa số
chuẩn hóa để đảm bảo tổng xác suất của tất cả các chuỗi nhãn tương
ứng với một chuỗi dữ liệu quan sát bằng 1, ta được:
(3.12)
Ở đây, là chuỗi dữ liệu, là chuỗi trạng thái tương ứng.
là đặc trưng của chuỗi quan sát và các trạng thái tại
là đặc trưng của chuỗi quan sát và các trạng thái tại vị trí
trong chuỗi trạng thái.
và là các tham số được thiết lập từ dữ liệu huấn luyện.
Khi đó thừa số chuẩn hóa được cho bởi công thức:
(3.13)
Để định nghĩa các thuộc tính, chúng ta xây dựng một chuỗi các thuộc
tinh của chuỗi dữ liệu quan sát để diễn tả đặc trưng của phân phối
thực nghiệm trong dữ liệu huấn luyện. Một hàm mô tả sẽ nhận một giá trị
riêng trong số các giá trị thực . Nếu trường hợp là thì nhận giá trị
là trạng thái hiện tại, trường hợp là thì nhận hai giá trị là trạng thái
trước và trạng thái hiện tại. Huấn luyện mô hình CRFs
Huấn luyện CRFs chính là ước lượng các tham số , của mô hình
này. Kỹ thuật được sử dụng là làm cực đại hóa độ đo likelihood theo dữ liệu huấn luyện.
Giả sử dữ liệu huấn luyện gồm một tập cặp, mỗi cặp gồm một
chuỗi quan sát và một chuỗi trạng thái tương ứng, {( )}
. Độ đo likehood giữa tập huấn luyện và mô hình điều kiện tương ứng
là:
(3.14)
Trong đó , là các tham số của mô hình và ̃ là
toán (3.14) rất khó khăn nên ta đi xác định làm cực đại hàm logarit của hàm likelihood (còn gọi là log-likelihood) như sau:
(3.15)
Thay của CRFs trong (3.12) vào (3.15) ta được:
(3.16)
Trong đó:
và là các vector tham số của mô hình,
là vector các thuộc tính chuyển ( ,
),
là vector các thuộc tính trạng thái ( , ).
Hàm log-likelihood là một hàm lồi và liên tục trong toàn bộ không gian của tham số. Do đó có nhiều phương pháp để giải quyết bài toán này như các phương pháp lặp (IIS và GIS), các phương pháp tối ưu số (Conjugate Gradient, phương pháp Newton v.v.). Theo đánh giá của Malouf (2002) [16] thì phương pháp được đánh giá hiệu quả nhất hiện nay là phương pháp tối ưu
số bậc hai limited-memory BFGS (L-BFGS hoặc LM-BFGS)13.
Ƣớc lƣợng tham số cho CRFs với L-BFGS
L-BFGS là phương pháp tối ưu số bậc hai, ngoài tính toán giá trị của vector gradient, L-BFGS còn xem xét đếm yếu tố về đường cong hàm log-
likelihood. Theo công thức khai triển Taylor tới bậc hai của ta có:
(3.17)
Trong đó là vector gradient còn là đạo hàm bậc hai của hàm log-
likelihood, gọi là ma trận Hessian. Thiết lập đạo hàm của xấp xỉ trong (3.17)
bằng 0 ta tìm được gia số để cập nhật tham số mô hình như sau:
(3.18)
Ở đây, là chỉ số bước lặp. Do ma trận Hessian thường có kích thước rất lớn,
đặc biệt với bài toán ước lượng tham số của mô hình CRFs. Việc cập nhật các tham số mô hình theo phương pháp này cho hội tụ rất nhanh nhưng việc tính nghịch đảo của ma trận Hessian lại đòi hỏi chi phí lớn về thời gian. Do đó thay vì tính toán trực tiếp với ma trận Hessian L-BFGS chỉ tính toán sự thay đổi độ cong của vector gradient so với bước trước đó và cập nhật lại.
(3.19)
Trong đó ma trận phản ánh sự thay đổi độ cong qua từng bước lặp