Nhiệm vụ chính của bài toán gán nhãn vai trò ngữ nghĩa là xác định các cấutrúc đối- vị tố hoặc tham tố- vị từ predicate- argument structures và gan nhãncác quan hệ giữa vị tố và mỗi argu
Trang 1HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIỄN THONG
UNG DUNG CRF VÀO BÀI TOÁN GAN NHAN VAI
TRO NGU NGHIA
Chuyén nganh: HE THONG THONG TIN
Mã số: 60.48.01.04
TOM TAT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2014
Trang 2Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: TS Nguyễn Văn Vinh
chính Viễn thông.
Vào lic: gi0
Có thé tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông.
Trang 3MỞ ĐẦU
Xử lý ngôn ngữ tự nhiên (Natural Language Processing) là làm cách nào
để máy tính hiểu và thao tác trên ngôn ngữ Trong đó, gán nhãn vai trò ngữ nghĩa
là một trong những bài toán được quan tâm và thu hút rất nhiều công trình nghiêncứu Nhiệm vụ chính của bài toán gán nhãn vai trò ngữ nghĩa là xác định các cấutrúc đối- vị tố (hoặc tham tố- vị từ) (predicate- argument structures) và gan nhãncác quan hệ giữa vị tố và mỗi argument của nó xuất hiện trong câu Rõ ràng, để
gán nhãn ngữ nghĩa cho một từ, ta cần phải phân tích ngữ cảnh của nó Vấn đề đặt
ra ở đây là làm sao lập trình cho máy tính hiểu được ngữ cảnh đó Đây chính là một trong những bài toán cơ bản, đầy thử thách của xử lý ngôn ngữ tự nhiên Bài toán
có mặt trong nhiều ứng dụng nổi bật liên quan đến ngôn ngữ tự nhiên có thể nhắcđến như: Trích rút thông tin (IE): Yakushiji và cộng sự (2005) [33]; Tóm tắt văn
bản (DS): Melli và cộng sự (2005) [24].
Hướng tiếp cận đầu tiên nhằm xác định nhập nhằng và gán nhãn ngữ nghĩa
được xây dựng dựa trên cơ sở của các hệ luật Tuy nhiên, hệ thống gán nhãn ngữ
nghĩa xây dựng dựa trên hệ luật tỏ ra kém hiệu quả khi mở rộng quy mô bao quát
hết các hiện tượng của ngôn ngữ Cải tiến từ những hạn chế của phương pháp tiếpcận dựa trên hệ luật, các nghiên cứu tiếp sau dần chuyển sang phương pháp tiếp
cận hướng ngữ liệu Sự chuyển hướng này cũng xuất phát từ việc ra đời các kho ngữ liệu lớn trên thế giới cùng với sự gia tăng sức mạnh (bộ nhớ, tốc độ, kỹ thuật) của máy tính trong những năm gần đây Điểm đặc biệt của cách tiếp cận này là dựa
trên cơ sở lý thuyết ngôn ngữ học để học các quy luật của ngôn ngữ tự nhiên từ ngữ
liệu Trong đó, mô hình học CREs đã được đánh giá cao khi thực hiện phân đoạn
và gán nhãn chuỗi dữ liệu, trong đó, các chuỗi nhãn và quan sát hình thành một
chuỗi tuyến tính
Vì vậy, chúng tôi tiến hành nghiên cứu dé tài “Ứng dung CRF vào bài toángán nhãn vai trò ngữ nghĩa” Dit liệu dùng cho bài toán này được lấy từ kho ngữ
liệu Propbank, bổ sung cho Penn Treebank với các chú thích ngữ nghĩa, dựa trên
bộ dữ liệu chuẩn CoNLL 2004 Bồ cục luận văn gồm 3 chương:
Trang 4Chương 1: Tổng quan về gan nhãn vai trò ngữ nghĩa.
Nội dung chính của chương này là giới thiệu bài toán gán nhãn vai trò ngữ
nghĩa theo các hướng tiếp cận khác nhau, đưa ra mô hình tổng quát của hệ thốnggán nhãn vai trò ngữ nghĩa và ứng dụng của hệ thống trong lĩnh vực xử lý ngôn
ngữ tự nhiên.
Chương 2: Phương pháp học máy CRF
Nội dung chính của chương này là giới thiệu phương pháp hoc máy CRFs,
trình bày những van dé cơ bản nhất về mô hình CRFs ứng dụng trong gan nhãn dữ
liệu dạng chuỗi.
Chương 3: Ứng dụng phương pháp CRE cho bài toán gán nhãn vai trò
ngữ nghĩa
Nội dung chính của chương này là mô tả bài toán gán nhãn vai trò ngữ nghĩa
theo hướng áp dụng mô hình học máy CRF và công cụ CRF++ trong gan nhãn
chuỗi dữ liệu Đồng thời, chương này cũng trình bày các kết quả thực nghiệm thuđược và hướng nghiên cứu tiếp theo của đề tài
Trang 5CHƯƠNG 1
TONG QUAN VỀ GAN NHAN VAI TRÒ NGỮ
NGHIA
Nội dung chính cua chương là gidi thiệu bài toán gán nhãn vai tro ngữ nghĩa
theo các hướng tiếp cận khác nhau, dua ra mô hình tổng quát của hệ thống gán nhãn vai trò ngữ nghĩa và ứng dụng của hệ thông trong lĩnh vực xử lý ngôn ngữ tự nhiên.
11 Giới thiệu
Nhiệm vụ gán nhãn vai trò ngữ nghĩa được hiểu một cách khái quát là quá
trình gán một cấu trúc đơn giản: WHO did WHAT to WHOM, WHEN, WHERE,
WHY, HOW, cho một câu trong van ban (Ai? đã làm gì? với ai? khi nào? ở
đâu? tại sao? như thế nào? ) Ví dụ:
(i) Mary hit Jack with a ball yesterday.
(ii) Jack was hit by Mary yesterday with a ball.
Ta có thể thấy rang “Mary, Jack, a ball, yesterday” đóng các vai trò ngữ
nghĩa sau: “Người đánh, vật bị đánh, dụng cụ, thời gian” trong cả hai câu Nhiệm
vụ của gán nhãn vai trò ngữ nghĩa là gán các nhãn ngữ nghĩa đã được xác định
trước cho những cụm từ này mà không quan tâm tới sự xuất hiện của chúng trong
các nhận dạng cú pháp khác nhau Lớp thông tin này rất cần thiết để hiểu một cáchđầy đủ ý nghĩa của cả hai câu Trong những năm gần đây, những tiến bộ vượt bậccủa các kỹ thuật phân tích cú pháp đã có ảnh hưởng không nhỏ đến các ứng dụngtrong xử lý ngôn ngữ tự nhiên, tuy vậy, việc đi từ phân tích cú pháp tới hiểu đầy
đủ ý nghĩa của một câu vẫn còn là một chặng đường dài để nghiên cứu Điều này
đã thôi thúc các nhà nghiên cứu phát triển một kỹ thuật tự động và chính xác cho
Trang 6vai trò ngữ nghĩa:
(i) AgentMary| hit [ Themed ack] [ Instrument With a ball] | Temporal Yesterday].
(ii) [ ThemeJack] was hit by [ AgentMary]| remporalyesterday|| mmstrumentWith a ball] (iii) [ 4,John] broke [ 4,the window].
(iv) | 4, The window] was broken by [ 4,John].
Trong các ví du này, thông tin được mô ta biéu diễn các nhãn vai trò ngữ
nghĩa ma được gan cho các argument của vị tố (in nghiêng) Hai ví dụ đầu được
phân tích sử dụng chú thích FrameNet, hai ví dụ còn lại được phân tích sử dụng
kho ngữ liệu Propbank.
1.2 Các phương pháp tiếp cận bài toán gan nhãn vai trò ngữ nghĩa
12.1 Tiếp cận theo luật
Đây là cách tiếp cận truyền thống xuất phát từ cách làm của các hệ luật phát
sinh trong hệ chuyên gia trong lĩnh vực trí tuệ nhân tạo (AI = Artificial
Intelli-gence) Thông thường các hệ luật này được xây dựng bằng tay bởi các chuyên gia
xử lý ngôn ngữ tự nhiên.
Vấn đề thực sự nảy sinh khi các nghiên cứu đòi hỏi cần mở rộng quy mô để
bao quát hết các hiện tượng của ngôn ngữ Ban đầu, người ta cho rằng để mở rộng
quy mô của hệ khử nhập nhằng ngữ nghĩa thì ta cứ việc thêm nhiều luật vào, nhưng
Trang 7thực tế đã cho thấy khi số luật tăng lên thì bản thân người thiết kế sẽ khó mà kiểm
soát được tính hợp lý và tương thích của các bộ luật do mình đưa vào vì thế, sẽ xuấthiện nhiều luật mâu thuẫn nhau Việc xây dựng một hệ luật như thế đòi hỏi côngsức rất lớn và thường không bao quát hết mọi trường hợp, mặc dù, trong một sốmiễn hẹp thì chúng tỏ ra hiệu quả Kết qua là những hệ thống gan nhãn ngữ nghĩa
được xây dựng trên luật sẽ có nguy cơ bị sụp đổ bởi chính sức nặng của chúng.
1.2.2 Tiếp cận theo phương pháp thông kê
Sự ra đời của các kho ngữ liệu lớn như FrameNet và Propbank đã cải tiến
việc xử lý ngữ nghĩa dựa trên hệ luật sang phương pháp hướng ngữ liệu Nghiên
cứu của Gildea và Jurafsky (2002) [15] đã giải quyết bài toán SRL như một bàitoán học máy có giám sát và sử dụng kho ngữ liệu FrameNet làm dữ liệu huấnluyện Gildea và Jurafsky đã sử dụng phương pháp thống kê cực đại hóa likelihood
cho các đặc trưng cú pháp và từ vựng khác nhau để vừa phân biệt được các biên của phần tử frame bên trong văn bản vừa gán các nhãn vai trò ngữ nghĩa cho các phần tử được xác định Mỗi ví dụ huấn luyện được phân tích thành một cây cú pháp
sử dụng bộ phân tích cú pháp Collin (Collin, 1997 [9]) và một tập các đặc trưng
cú pháp và từ vựng, như loại cụm từ của mỗi thành phần, vị trí của nó, đượctrích rút Những đặc trưng này được kết hợp với các tri thức về vị tố, cũng như cácthông tin về xác suất ưu tiên của các cách kết hợp khác nhau của vai trò ngữ nghĩa.Nghiên cứu này đã đặt nền móng cho các hệ thống gán nhãn vai trò ngữ nghĩa tự
động hiện nay.
1.3 Tổng quan về hệ thông gán nhãn vai trò ngữ nghĩa
Phân tích ngữ nghĩa là nhiệm vụ ánh xạ một câu trong ngôn ngữ tự nhiên tới
một dạng biểu diễn hình thức, quy cách và hoàn chỉnh sử dụng một ngôn ngữ biểu diễn có nghĩa Nó tạo ra một phép phân tích ngữ nghĩa sâu mà sản phẩm là một
dạng biểu diễn của câu trong logic vị tổ hoặc các dạng ngôn ngữ hình thức khác,
hỗ trợ các lập luận tự động Bên cạnh đó, mục tiêu của gán nhãn vai trò ngữ nghĩa, bản chất là một dạng phân tích ngữ nghĩa nông, là xác định và gán các nhãn như
Trang 8"agent, patient, manner" (FrameNet) cho các thành phan trong câu đối với một vị
tố cụ thể, và không cần sinh các dạng biểu diễn hình thức, quy cách và đây đủ
Tốc độ phát triển không ngừng nghỉ của lĩnh vực học máy thống kê đòi hỏi
một lượng lớn dữ liệu xử lý, bởi vậy, các kho ngữ liệu chú thích ngày càng trở nên
quan trọng trong xử lý ngôn ngữ tự nhiên Trong phần này ta sẽ tìm hiểu kho ngữ
liệu sử dụng cho bài toán gán nhãn vai trò ngữ nghĩa Dự án FrameNet Berkeley
(Baker and Fillmore, 1998 [3]) và Propbank (Palmer, Gildea và Kingsbury, 2005
[26]) là hai kho ngữ liệu chú thích phổ biến, cung cấp các chú thích vai trò ngữ
nghĩa Tuy nhiên, kho ngữ liệu Propbank vẫn được sử dụng rộng rãi hơn trong các
bài toán gán nhãn vai trò ngữ nghĩa bởi tính đa dạng của nó và cung cấp nhiều ví
dụ huấn luyện hơn FrameNet.
1.3.1 Kho ngư hiệu Propbank
Kho ngữ liệu Propbank tập trung vào các cấu trúc argument của động từ, cung cấp một kho ngữ liệu hoàn chỉnh được chú thích bởi các nhãn ngữ nghĩa, bao gồm cả các vai trò ngữ nghĩa được xem xét một cách truyền thống như các argument
và các trạng từ Propbank cho phép chúng ta bước đầu quyết định được tần số củacác biến thể cú pháp trong thực tế, đặt ra nhiều bài toán và chiến lược mới đối vớivan dé hiểu ngôn ngữ tự nhiên English Propbank I dành cho tiếng Anh được pháthành vào mùa Xuân năm 2004, gồm 3323 động từ vị ngữ và 4659 frameset Ngoài
787 động từ thường xuyên xuất hiện, 521 động từ chỉ có 1 frameset và 169 động từ
có 2 frameset và 97 động từ có nhiều hơn 3 frameset Chinese Propbank cho tiếng
Trung và Korean Propbank cho tiếng Hàn được phát hành năm 2005 và 2006 Chú thích Propbank đã được khai thác trong lĩnh vực sinh học bởi Chou và các đồng
nghiệp 2006 [7] bằng cách thêm chú thích Propbank vào đầu kho ngữ liệu GENIA
Treebank (Tateisi và cộng sự 2005 [31]).
1.3.2 Kiến trúc tổng quát của hệ thong gan nhãn vai trò ngữ nghĩa
Chú thich:d6i với một câu cho trước, cây phân tích cú pháp của câu nói chung được coi là đầu vào của hệ thống SRL và mỗi xâu con của câu có một nhãn ngữ
Trang 9Câu đầu vào sau khi
Câu đầu vào
Câu đã gán nhãn ngữ nghĩa
nghĩa tương ứng với một thành phần cú pháp trong câu Việc xác định các thành
phần là đặc biệt quan trọng đối với Propbank vì quá trình chú thích bao gồm cả
việc bổ sung thông tin ngữ nghĩa vào các thành phần trong Penn Treebank Chođến nay, các chú thích được sử dụng nhiều nhất cho bài toán SRL là cây phân tích
cú pháp đầy đủ dựa trên các chú thích tham tố- vị từ Propbank Một số nghiên cứugần đây đã cho thấy sự không cần thiết sử dụng các cây phân tích đầy đủ này đốivới việc sử dụng các cấu trúc phụ thuộc hoặc thông tin cú pháp nông ở mức độphân đoạn các cụm từ trong câu Dựa trên các chú thích cú pháp của câu đầu vào,
các đặc trưng được trích rút từ những cây phân tích cú pháp Một tập cụ thể các
đặc trưng như vậy được sử dụng rộng rãi trong các hệ thống gán nhãn vai trò ngữ
nghĩa.
Thành phần Learning: Khá nhiều chiến lược học máy khác nhau đã được
áp dụng như: các mô hình sinh Bayes (Gildea và Jurafsky, 2002 [15]), cây quyết
định (Chen và Rambow, 2003 [6]), Maximum Entropy (Xue va Palmer, 2004 [32]), Support vector machine- SVMs (Pradhan va cộng sự, 2004 [28]), Tree Conditional Random Fields (Cohn va Blunsom, 2005 [8]).
Đánh giá: Nói chung, các độ do tiêu chuẩn cho hiệu suất của hệ thống
gán nhãn vai trò ngữ nghĩa là: Precision, Recall và F-score Đối với mỗi vai trò
ngữ nghĩa, ví dụ A0, các tiêu chuẩn trên được tính toán và hiệu suất của toàn hệthống được đánh giá theo số lượng các argument được gán nhãn đúng, số lượng các
Trang 10argument được gan nhãn và số lượng các gold argument Về phía đánh giá tổng thể
hệ thống, việc đánh giá các bài toán con của các định và phân loại nhãn argumentcũng được cung cấp để thu được các phân tích và so sánh tốt hơn Ba chỉ số này
được tính toán như sau:
số lượng các argument được gán nhãn đúng
PrecIsion = z - - =
sô lượng các argument được gan nhãn
số lượng các argument được gan nhãn đún
Recall = Ing g JC 8 g
số lượng các gold argument
2 * precision * recall F-score = —
(NER), các thực thể có liên quan tới việc xác định các thuộc tính và sự kiện, và việc
xác định chỉ mục mức sự kiện là toàn bộ những bài toán con của bài toán trích rút
thông tin Một hệ thống trích rút thông tin kinh điển được dé xuất bởi Surdeanu(2003) và cộng sự [30] đã khai thác được những ưu điểm của cấu trúc tham tố- vị
từ Nghiên cứu này đã xây dựng một hệ thống gán nhãn vai trò ngữ nghĩa và sử
dụng các thông tin ngữ nghĩa trích rút được, để mở rộng các template sử dụng lại
cho mục đích trích rút thông tin Gần đây, việc trích rút các mối quan hệ có ý nghĩagiữa các thực thể từ một văn bản ngôn ngữ tự nhiên phi cấu trúc đã thu hút được
nhiều sự quan tâm của các nhà khoa học.
1.4.2 Hệ thống hỏi đáp
Hệ thống hỏi đáp hiện tại (QA) trích rút các câu trả lời từ một tập các văn
bản lớn theo các bước sau:
Trang 11(1) Phân loại dạng câu trả lời mong muốn.
(2) Sử dụng các từ khóa hoặc các mẫu hỏi kết hợp với các câu hỏi để xác
định các đoạn có chứa câu trả lời.
(3) Xếp hạng các câu trả lời có thể để quyết định đoạn nào chứa câu trả lời
chính xác.
Trong kết quả của Narayanan và Harabagiu (2004) [25], thông tin vai tròngữ nghĩa được kết hợp cả trong các câu hỏi và văn bản Ban đầu, thông tin này
giúp xác định mô hình chủ đề, hỗ trợ cho quá trình giải thích câu hỏi, sau đó, sử
dụng để xây dựng một mô hình mở rộng của các hành vi và sự kiện, mà cho phép
lập luận phức tạp được dé xuất bởi hệ thống QA bên trong một ngữ cảnh phức tap.
1.43 Tóm tat văn bản
Nhiệm vụ của hội nghị DUC - 2005 (Document Understanding Conference
2005) là tạo ra một đoạn tóm tắt 250 từ dựa trên các câu hỏi cho sẵn và nhiều văn
bản liên quan Melli và công sự (2005) [24] đã tích hợp thành phần gán nhãn vai trò ngữ nghĩa vào trong hệ thống SQUASH Trong hệ thống SQUASH, thông tin
vai trò ngữ nghĩa được dùng để lựa chọn câu và nén câu Đối với lựa chọn câu, cácthông tin ngữ nghĩa này đóng góp cho việc ước lượng độ cần thiết được gán chomỗi câu trong nhóm các vai trò ngữ nghĩa mà bao gồm các thực thể đóng vai trò
trong câu Thêm vào đó, nó cũng giúp đo độ tương tự của các câu và loại bỏ các
thông tin thừa trong câu để đoạn tóm tắt vừa đủ 250 từ Ví dụ: những thành phầnsau có thể được nắm bắt vai trò ngữ nghĩa bằng các nhãn ngữ nghĩa ARG- TMP
(temporal markers) và ARG- DIS (discourse markers) được loại bỏ phục vụ mục
đích nén câu.
1.5 Kết luận chương 1
Nội dung chính của chương là giới thiệu bài toán gán nhãn vai trò ngữ nghĩa theo
các hướng tiếp cận khác nhau, đưa ra mô hình tổng quát của hệ thống gãn nhãn vaitrò ngữ nghĩa và ứng dụng của hệ thống trong lĩnh vực xử lý ngôn ngữ tự nhiên
Trang 12CHƯƠNG 2
PHƯƠNG PHÁP HỌC MÁY CRF
Nội dung chính của chương là giới thiệu phương pháp học máy CRFs, trình
bày những van dé cơ bản nhất về mô hình CRFs ứng dụng trong gán nhãn dữ liệu
dạng chuỗi.
2.1 Giới thiệu
Nhu cầu phân đoạn và gán nhãn dữ liệu chuỗi ngày càng phát sinh nhiềubài toán khác nhau, thu hút sự quan tâm của nhiều nghiên cứu CRF là một môhình xác suất điều kiện có tất cả các ưu điểm của MEMMs và giải quyết được van
dé Label bias Điểm khác nhau cơ bản giữa CRF và MEMMs là MEMMs sử dụng
các mô hình mũ trên trạng thái đối với xác suất điều kiện của các trạng thái tiếp
theo đối với trạng thái hiện thời cho trước Trong khi đó, CRF sử dung một mô hìnhhàm mũ đơn cho xác suất đồng thời của toàn bộ chuỗi nhãn đối với một chuỗi quan
sát cho trước Do đó, trọng số của các đặc trưng khác nhau ở các trạng thái khác
nhau có thể được cân bằng Ta cũng có thể coi CRF là một mô hình hữu hạn trạngthái với các xác suất dịch chuyển không chuẩn hóa Tuy nhiên, không giống nhữngphương pháp hữu hạn trang thái có trọng số khác (LeCun và cộng sự 1998 [21]),CRF gán một phân phối xác suất được định nghĩa tốt trên các nhãn có thể, huấn
luyện chúng bằng hàm likelihoood cực đại Hơn nữa, hàm loss là một hàm lỗi, đảm
bảo hội tụ tới tối ưu toàn cục CRF cũng dé dàng khái quát hóa hội tụ của các văn
phạm ngẫu nhiên phi ngữ cảnh mà được sử dụng đặc lực cho các bài toán như dự
đoán cấu trúc thứ cấp ARN và xử lý ngôn ngữ tự nhiên
2.2 Định nghĩa mô hình CREs
Một trường điều kiện ngẫu nhiên có thể được xem như một đồ thị vô hướng
hoặc một trường Markov ngẫu nhiên, phụ thuộc toàn cục vào chuỗi quan sát X.
Trang 13Thông thường, ta định nghĩa G = (V, E) là một đồ thị vô hướng sao cho có mộtnode v € V tương ứng với mỗi biến ngẫu nhiên biểu diễn phần tử Y„ của Y Nếumỗi biến ngẫu nhiên Y,, tuân theo tính chat Markov tương ứng với đồ thị G thì (Y,X)
là một trường điều kiện ngẫu nhiên Theo lý thuyết, cấu trúc của đồ thị G có thểtùy ý, miễn là biểu diễn được các độc lập điều kiện trong chuỗi nhãn mô hình hóa
Tuy nhiên, khi mô hình hóa các chuỗi, cấu trúc đồ thị đơn giản và phổ biến nhất
đạt được đó là cau trúc mà trong đó các nút tương ứng với các phần tử của Y hình
thành một chuỗi thứ tự trước.
Yn Y; Y3 Yui Yn
XI X2 X3 Xn-1 Xn
Hình 2.1: Cấu trúc đồ thị vô hướng mô hình CRFs
2.3 Mô hình huấn luyện
Việc huấn luyện CRFs thực chất là việc tìm vector trọng số w mang lại dựđoán tốt nhất
y* = argmax, p(J|Z; wv) (2.1)
Kỹ thuật được sử dung là làm cực đại hóa ham độ do likelihood Cho trước
một tập các ví dụ huấn luyện, ta giả sử rằng, mục đích hiện tại là chọn các giá trị
tham số +0; làm cực đại hóa xác suất điều kiện của các ví dụ huấn luyện Nói cáchkhác, hàm mục tiêu dùng cho huấn luyện là các hàm điều kiện log-likelihood (con-ditional log -likelihood -CLL) của tập ví dụ huấn luyện Hàm điều kiện likelihood
cua dit liệu cho trước x và y được cho bởi công thức: L(w; 0|z) = ƒ(0|z;u}.