So sánh các đặc trưng về xác định từ nối của các một số công trình liên quan trong nhận diện quan hệ diễn ngôn………17 Bảng 1.2.. Ý nghĩa khoa học và thực tiễn: Luận văn này đạt được một s
Trang 1ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
Mã số: 60.48.01.01
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS NGUYỄN LƯU THÙY NGÂN
TP HỒ CHÍ MINH – NĂM 2017
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này là công trình nghiên cứu khoa học của cá nhân
tôi được thực hiện dưới sự hướng dẫn khoa học của TS Nguyễn Lưu Thùy Ngân
Những kết quả nghiên cứu được trình bày trong luận văn là trung thực và chưa từng được công bố dưới bất kỳ hình thức nào
Tôi xin chịu trách nhiệm hoàn toàn về nghiên cứu của mình
TP Hồ Chí Minh, ngày 14 tháng 06 năm 2017
Tạ Thu Thủy
Trang 3LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn chân thành đến TS Nguyễn Lưu Thùy Ngân Cô đã
hướng dẫn tôi trong quá trình học tập và nghiên cứu khoa học, từ những kiến thức cho đến những kỹ năng trong chuyên môn, đặc biệt hoàn thành luận văn Một lần nữa, tôi xin cảm ơn chân thành đặc biệt đến Cô
Trong quá trình học tập và làm việc tại trường Đại học Công nghệ thông tin - Đại học Quốc Gia TP HCM, tôi cũng không thể nào quên được công ơn của quý Thầy/Cô là Thầy, là đồng nghiệp đã hỗ trợ giúp đỡ động viên tôi rất nhiều Tôi xin được gửi lời cảm ơn chân thành đến quý Thầy/Cô
Tôi cũng không thể quên được công ơn sinh thành và dưỡng dục của ba mẹ tôi Cảm ơn ba mẹ, em trai những người luôn dõi theo tôi và là nguồn động viên tinh thần to lớn trong cuộc sống của tôi
Dù có hoàn thiện đến đâu, tôi cũng không tránh khỏi những thiếu sót và hạn chế trong việc hoàn thành luận văn này Tôi hy vọng nhận được sự phản hồi và đóng góp ý kiến quý báu từ quý Thầy/Cô Tôi xin trân trọng cảm ơn
TP Hồ Chí Minh, tháng 6 năm 2017
Tạ Thu Thủy
Trang 4MỤC LỤC
TRANG PHỤ BÌA
LỜI CAM ĐOAN
LỜI CẢM ƠN
MỤC LỤC 1
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT 4
DANH MỤC CÁC BẢNG 5
DANH MỤC CÁC HÌNH VẼ 6
DANH MỤC CÁC SƠ ĐỒ 7
MỞ ĐẦU 8
Đặt vấn đề: 8
Mục tiêu luận văn: 9
Đối tượng và phạm vi nghiên cứu: 10
Ý nghĩa khoa học và thực tiễn: 10
Cấu trúc luận văn: 10
Chương 1 TỔNG QUAN 12
1.1 Bài toán nhận diện quan hệ diễn ngôn (Discourse Parsing) 12
1.2 Lịch sử phát triển nhận diện quan hệ diễn ngôn 13
1.3 Công trình liên quan 16
1.4 Kết luận 21
Chương 2 CƠ SỞ LÝ THUYẾT 22
2.1 Nhận diện quan hệ diễn ngôn rõ ràng 22
2.2 Các hướng tiếp cận nhận diện quan hệ diễn ngôn rõ ràng 23
2.3 Bộ dữ liệu PDTB và Việt Treebank 24
Trang 52.4 Phương pháp tiếp cận 26
2.5 Các công cụ hỗ trợ 27
2.6 Kết luận 28
Chương 3 NHẬN DIỆN QUAN HỆ DIỄN NGÔN VÀ PHÂN TÍCH CÁC ĐẶC TRƯNG 29
3.1 Mô hình nhận diện quan hệ diễn ngôn rõ ràng 29
3.2 Phân tích các đặc trưng 32
3.3 Kết luận 38
Chương 4 GÁN NHÃN TỪ NỐI TIẾNG VIỆT 39
4.1 Bộ dữ liệu Việt Treebank 39
4.2 Phương pháp gán nhãn từ nối 40
4.3 Tập từ nối và hướng dẫn gán nhãn (Guideline) 43
4.3.1 Tập từ nối 43
4.3.2 Hướng dẫn gán nhãn (Guideline) 44
4.4 Kết luận 52
Chương 5 THỰC NGHIỆM VÀ ĐÁNH GIÁ 53
5.1 Dữ liệu thực nghiệm 53
5.2 Các độ đo đánh giá 53
5.3 Các kết quả thực nghiệm 55
5.3.1 Các thực nghiệm mức độ ảnh hưởng của các đặc trưng 55
5.3.2 Các thực nghiệm gán nhãn từ nối trên Việt Treebank 57
5.4 Phân tích và đánh giá kết quả thực nghiệm 58
5.4.1 Ảnh hưởng của các đặc trưng 58
5.4.2 Gán nhãn từ nối tiếng Việt 62
Trang 6Chương 6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 65
6.1 Kết luận 65
6.2 Hướng phát triển 66
TÀI LIỆU THAM KHẢO 68
PHỤ LỤC 76
Trang 7DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
2 NLP Natural Language Processing
3 PDTB Penn Discourse Tree Bank
5 CoNLL Conference on Computational Natural Language Learning
Trang 8DANH MỤC CÁC BẢNGBảng 1.1 So sánh các đặc trưng về xác định từ nối của các một số công trình
liên quan trong nhận diện quan hệ diễn ngôn………17
Bảng 1.2 Một số công trình nghiên cứu về dữ liệu trong tiếng Việt.… …….20 Bảng 2.1 So sánh phương pháp trong nhận diện quan hệ diễn ngôn rõ ràng 26 Bảng 3.1 Danh sách các đặc trưng cho xác định từ nối……… … 32 Bảng 3.2 Danh sách các đặc trưng cho phân loại ý nghĩa……….…34 Bảng 3.3 Danh sách các đặc trưng theo nhóm cho xác định từ nối………… 37 Bảng 3.4 Danh sách các đặc trưng theo nhóm cho phân loại ý nghĩa…… …38 Bảng 4.1 Một số từ nối trong tiếng Việt và nhãn được gán mặc định…… …44 Bảng 4.2 Kết quả gán nhãn bằng tay so với chương trình……… …….49 Bảng 4.3 Độ đồng thuận gán nhãn……… ……….…….51 Bảng 5.1 Ma trận nhầm lẫn (Confusion Matrix) hay Bảng ngẫu nhiên
tính %)………62
Trang 9DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Đoạn văn bản đầu vào……….……….… 13
Hình 1.2 Quan hệ diễn ngôn được nhận diện……….… 13
Hình 2.1 Hệ thống cấp bậc ý nghĩa trong PDTB……….…….…23
Hình 2.2 Minh họa chuẩn CoNLL cho một câu tiếng Anh……… 24
Hình 3.1 Mô hình minh họa chương trình nhận diện quan hệ diễn ngôn rõ ràng……… 27
Hình 3.2 Từ “and” được gạch chân là từ nối, còn 2 từ “and” còn lại không phải 28
Hình 3.3 Đối số 2 nằm ở vị trí cả trước và sau từ nối……… ………29
Hình 3.4 Từ “since” mang 2 nghĩa trong 2 trường hợp Trong câu 1 từ “since” mang nghĩa về thời gian (kể từ khi), câu 2 là về nguyên nhân (bởi vì)…… …29
Hình 3.5 Cây cú pháp cho ví dụ 3.1……… 33
Hình 4.1 Định dạng trong Việt Treebank……… ……… 37
Hình 4.2 Hệ thống cấp bậc ý nghĩa trong PDTB……….………….39
Hình 4.3 Hệ thống cấp bậc ý nghĩa trong PDTB bằng tiếng Việt……….40
Hình 4.4 Một số câu trong tập chương trình gán là có từ nối……….… 43
Hình 4.5 Một số câu trong tập chương trình cho là không có từ nối……… …….43
Hình 4.6 Ví dụ về một nhãn từ nối mà chương trình gán đúng……… …….44
Hình 5.1 Cây cú pháp cho một quan hệ diễn ngôn rõ ràng……… 58
Trang 10DANH MỤC CÁC SƠ ĐỒ
Sơ đồ 5.1 Ảnh hưởng của từng đặc trưng đến kết quả xác định từ nối 58
Sơ đồ 5.2 Ảnh hưởng của từng đặc trưng đến kết quả phân loại ý nghĩa…… 59
Sơ đồ 5.3 Ảnh hưởng của từng nhóm đặc trưng đến kết quả xác định từ nối ….60
Sơ đồ 5.4 Ảnh hưởng của từng nhóm đặc trưng đến kết quả phân loại ý nghĩa…61
Trang 11MỞ ĐẦU Đặt vấn đề:
Diễn ngôn (Discourse) là một phần của văn bản để truyền đạt các dữ liệu, thông tin và tri thức cụ thể, có những mối quan hệ nội tại về nội dung [57]
Quan hệ diễn ngôn (Discourse relation) có thể được biểu diễn bằng các từ nối
rõ ràng như because, however, but, hoặc ngầm suy ra giữa các đơn vị đối tượng trừu
tượng Mỗi quan hệ diễn ngôn được dán nhãn với một ý nghĩa được lựa chọn từ một
hệ thống phân cấp ý nghĩa, và đối số của nó thường ở dạng câu, mệnh đề [56]
Nhận diện quan hệ diễn ngôn ( Discourse parsing) là nhận diện văn bản thành những đoạn nhỏ liền kề hoặc không liền kề có quan hệ diễn ngôn với nhau (các cấu trúc biểu nghĩa trong tương tác với ngữ cảnh để hiểu thực chất nội dung của diễn ngôn) Cụ thể, đưa ra một văn bản tiếng Anh làm đầu vào, hệ thống được yêu cầu phát hiện và phân loại các mối quan hệ diễn ngôn giữa các phân đoạn diễn ngôn trong văn bản Cũng như những hình thức ngữ pháp khác nhau và các khung biểu diễn trong phân tích cú pháp, những quan niệm khác nhau về cấu trúc diễn ngôn của một văn bản và dữ liệu được chú thích theo những khung lý thuyết khác nhau [40, 46, 52]
Bài toán nhận diện quan hệ diễn ngôn là phân tích quan hệ giữa các đơn vị văn bản để khám phá thông tin câu trúc trừu tượng Trong xử lý ngôn ngữ tự nhiên (Natural Language Processing-NLP), ứng dụng của bài toán phân tích diễn ngôn có thể dùng để tóm tắt văn bản, hệ thống hỏi đáp, rút trích thông tin và dịch máy Bởi vì việc nhận diện được ý nghĩa của mối quan hệ giữa các đơn vị văn bản cung cấp các thành phần cần thiết cho việc tính toán ngữ nghĩa của câu
Từ khi có bộ dữ liệu Penn Discourse Tree Bank (PDTB) [41], phân tích quan
hệ diễn ngôn càng được chú ý nhiều hơn nữa Nhất là 2 năm 2015 và 2016 có Conference on Computational Natural Language Learning (CoNLL) Shared Task chủ
đề về Shallow Discourse Parsing, năm 2015 [55] cho tiếng Anh và năm 2016 [56]
mở rộng thêm tiếng Trung Quốc Nhận diện quan hệ diễn ngôn cạn (Shallow Discourse Parsing-SDP) là phát hiện và phân loại các mối quan hệ diễn ngôn riêng
Trang 12biệt, vì việc nhận diện quan hệ diễn ngôn chỉ bao gồm việc nhận diện các mối quan
hệ diễn ngôn riêng rẻ trong văn bản mà không tính đến mối liên hệ với các mối quan
hệ diễn ngôn khác có trong văn bản
Những công trình nghiên cứu nổi bật về Discourse Parsing như [12, 18, 22,
24, 50] đều chỉ thử nghiệm trên bộ dữ liệu PDTB, với kết quả cao nhất là F đạt 98.38% [22] Nhưng chủ yếu chỉ là liệt kê danh sách các đặc trưng đã được sử dụng, chưa phân tích mức độ ảnh hưởng (chi tiết sẽ được trình bày cụ thể trong phần công trình liên quan)
Trong tiếng Việt, có các nghiên cứu về gán nhãn từ loại [2], phân tích cú pháp phụ thuộc [20], nhưng chưa có gán nhãn từ nối, việc này rất cần thiết cho các nghiên cứu sau này liên quan đến nhận diện quan hệ diễn ngôn cho tiếng Việt
Từ những vấn đề tồn tại và tầm quan trọng của nhận diện quan hệ diễn ngôn thì việc nghiên cứu cần được quan tâm hơn Vì vậy, luận văn này tiến hành thực hiện các nghiên cứu để tìm ra mức độ ảnh hưởng của các đặc trưng tới kết quả bài toán, từ
đó áp dụng gán nhãn từ nối trên bộ dữ liệu Việt Treebank [20] để xây dựng dữ liệu
từ nối chuẩn cho tiếng Việt
Mục tiêu luận văn:
Luận văn này thực hiện hai nhiệm vụ chính:
Thứ nhất, phân tích, đánh giá mức độ ảnh hưởng đến kết quả nhận diện quan
hệ diễn ngôn của các đặc trưng Cụ thể là, xây dựng hệ thống nhận diện quan
hệ diễn ngôn, từ đó nghiên cứu, phân tích kết quả nhận diện từ nối và phân tích ý nghĩa của quan hệ diễn ngôn đó
Thứ hai, gán nhãn từ nối trên bộ dữ liệu Việt Treebank gồm hơn 9,100 câu, từ
đó xây dựng dữ liệu từ nối chuẩn, đóng góp vào nghiên cứu nhận diện quan
hệ diễn ngôn trên tiếng Việt
Việc thực hiện gán nhãn mất nhiều thời gian và đề tài đòi hỏi nhiều thời gian,
và phải tìm hiểu các công cụ hỗ trợ xây dựng và đánh giá của các hệ thống nhận diện
Trang 13Đối tượng và phạm vi nghiên cứu:
Để đạt được những mục tiêu của đề tài, chúng tôi giới hạn phạm vi thực hiện
đề tài như sau:
Đối tượng nghiên cứu:
Hệ thống, phương pháp nhận diện quan hệ diễn ngôn
Ngôn ngữ: tiếng Anh, tiếng Việt
Phạm vi nghiên cứu: Bộ dữ liệu PDTB, bộ dữ liệu Việt Treebank
Ý nghĩa khoa học và thực tiễn:
Luận văn này đạt được một số kết quả nghiên cứu như sau:
Thứ nhất, phân tích mức độ ảnh hưởng của các đặc trưng đến kết quả nhận diện quan hệ diễn ngôn, từ đó biết được những đặc trưng góp phần chính, ảnh hưởng nhiều đến kết quả
Thứ hai, gán nhãn từ nối trên bộ dữ liệu Việt Treebank hơn 9,100 câu Xây dựng được dữ liệu từ nối chuẩn cho tiếng Việt Góp phần phát triển nghiên cứu nhận diện quan hệ diễn ngôn trên tiếng Việt sau này
Cấu trúc luận văn:
Bố cục luận văn gồm 6 Chương với những nội dung chính như sau:
Chương 1: Tổng quan
Chương này trình bày hướng tiếp cận chính trong nhận diện quan hệ diễn ngôn Đồng thời, thực hiện những phân tích và đánh giá các công trình nghiên cứu tiêu biểu đã được công bố liên quan đến bài toán nhận diện quan hệ diễn ngôn Từ đó, xác định những vấn đề còn tồn tại và cũng như những thách thức của bài toán nhận diện quan hệ diễn ngôn mà luận văn này tập trung giải quyết
Chương 2: Cơ sở lý thuyết
Trong chương này, luận văn sẽ trình bày những cơ sở lý thuyết và những công cụ cần thiết hỗ trợ để xây dựng hệ thống nhận diện quan hệ diễn ngôn
Trang 14 Chương 3: Nhận diện quan hệ diễn ngôn và phân tích các đặc trưng
Nội dung chính của chương này là trình bày chi tiết về phương pháp nhận diện quan hệ diễn ngôn rõ ràng, các đặc trưng và trình bày, phân tích, gom nhóm các đặc trưng dùng để thực nghiệm và đánh giá ở chương 5
Chương 4: Gán nhãn từ nối tiếng Việt
Chương này là trình bày chi tiết về việc tìm hiểu, phân tích, gán nhãn và viết hướng dẫn để phát triển bộ dữ liệu tiếng Việt sau này
Chương 5: Thực nghiệm và đánh giá
Trong chương này, trình bày kết quả thực nghiệm của hệ thống Từ kết quả thực nghiệm, đánh giá và phân tích mức độ ảnh hưởng của các đặc trưng Cũng trình bày kết quả gán nhãn từ nối trên Việt Treebank
Chương 6: Kết luận và hướng phát triển
Chương này tổng kết những kết luận của quá trình nghiên cứu bao gồm những kết quả đạt được cũng như những khó khăn, hạn chế Đồng thời, đề nghị những định hướng nghiên cứu mở rộng cho những dự án nghiên cứu tương lai về nhận diện quan hệ diễn ngôn
Trang 15Chương 1 TỔNG QUAN 1.1 Bài toán nhận diện quan hệ diễn ngôn (Discourse Parsing)
Một đoạn văn bản thường không hiểu được ý nghĩa nếu đánh giá theo từng đơn vị một, mà phải liên kết, xem xét nó với những đơn vị khác Do đó, nhận diện quan hệ diễn ngôn là nhận diện văn bản thành những đoạn nhỏ liền kề hoặc không liền kề có quan hệ diễn ngôn với nhau
Nhận diện quan hệ diễn ngôn là phân tích quan hệ giữa các đơn vị văn bản để khám phá thông tin câu trúc trừu tượng Trong xử lý ngôn ngữ tự nhiên, ứng dụng của bài toán phân tích diễn ngôn có thể dùng để tóm tắt văn bản, hệ thống hỏi đáp, rút trích thông tin và dịch máy Bởi vì việc nhận diện được ý nghĩa của mối quan hệ giữa các đơn vị văn bản cung cấp các thành phần cần thiết cho việc tính toán ngữ nghĩa của câu và ảnh hưởng đến hiệu quả của các ứng dụng xử lý ngôn ngữ tự nhiên, được xem là một phần của các hệ thống xử lý ngôn ngữ tự nhiên thông minh
Quan hệ diễn ngôn chia làm hai loại quan hệ diễn ngôn rõ ràng và quan hệ diễn ngôn không rõ ràng Quan hệ diễn ngôn rõ ràng thì có từ nối giữa các đơn vị văn bản của quan hệ, còn quan hệ diễn ngôn không rõ ràng thì không có từ nối mà có thể là ngầm hiểu, hoặc có quan hệ với nhau qua một thực thể Luận văn tập trung nghiên cứu quan hệ diễn ngôn rõ ràng
Bài toán nhận diện quan hệ diễn ngôn rõ ràng được mô tả cụ thể như sau:
Đầu vào: Một văn bản tiếng Anh
Đầu ra: Mối quan hệ diễn ngôn giữa các phân đoạn diễn ngôn trong văn bản,
với các thành phần:
Từ nối
Đối số Arg1 và Arg2 của quan hệ diễn ngôn đó Đối số này có thể là các
sự kiện, trạng thái, mệnh đề,
Ý nghĩa quan hệ diễn ngôn đó
Hình 1.1 là đoạn văn đầu vào, và Hình 1.2 là quan hệ diễn ngôn được nhận diện và trả về ở đầu ra
Trang 16Hình 1.1 Đoạn văn bản đầu vào
Hình 1.2 Quan hệ diễn ngôn được nhận diện
Trong đó:
● Đối số Arg1: there are other spots on the globe, and in India, where the seed
could be grown
● Đối số Arg2: no one has made a serious effort to transplant the crop
● Từ nối giữa 2 đối số: But
● Ý nghĩa: Comparison.Concession.Contraexpectation
1.2 Lịch sử phát triển nhận diện quan hệ diễn ngôn
Các nghiên cứu trước đây trong nhận diện quan hệ diễn ngôn đã bỏ qua vai trò của dữ liệu quan hệ mà dựa chủ yếu vào thông tin về cú pháp và từ vựng, như vậy là không đủ Nhận diện quan hệ diễn ngôn là một chủ đề nghiên cứu lâu dài trong lĩnh vực ngôn ngữ học, mục đích mong muốn chương trình máy tính có thể hiểu được ngữ nghĩa của ngôn ngữ tự nhiên như con người, xử lý được các vấn đề về ngữ nghĩa Trong bốn thập kỷ qua, các nhà nghiên cứu đã đề xuất một số các mô hình khác nhau
Trang 17liên hệ chặt chẽ dựa trên lập luận bắt chước [11], cho đến mô hình diễn ngôn mà kết hợp các quan hệ diễn ngôn trong một cấu trúc đồ thị [54] và còn nhiều nghiên cứu khác Tuy nhiên, thiết kế và xây dựng một hệ thống nhận diện quan hệ diễn ngôn là một nhiệm vụ khó khăn, một phần là do thiếu các bộ dữ liệu được chú thích với quy
mô lớn [25] Penn Discourse Treebank (PDTB) [41] được công bố đã giải quyết một phần vấn đề thiếu dữ liệu được chú thích, PDTB hiện là bộ dữ liệu được chú thích lớn nhất thế giới
Trong những năm gần đây, nhận diện quan hệ diễn ngôn đã và đang được nghiên cứu sôi nổi trong lĩnh vực xử lý ngôn ngữ tự nhiên, đặc biệt là 2 năm 2015 và
2016 có CoNLL Shared Task chủ đề về Shallow Discourse Parsing, năm 2015 [55] cho tiếng Anh và năm 2016 [56] mở rộng thêm tiếng Trung quốc, đã thu hút thêm rất nhiều nghiên cứu về nhận diện quan hệ diễn ngôn
Quan hệ diễn ngôn có thể được biểu diễn bằng các từ nối rõ ràng như because,
however, but, hoặc ngầm suy ra giữa các đơn vị đối tượng trừu tượng Trong phiên
bản hiện tại của PDTB, quan hệ diễn ngôn không rõ ràng được suy ra chỉ giữa các đơn vị lân cận Mỗi quan hệ diễn ngôn được dán nhãn với một ý nghĩa được lựa chọn
từ một hệ thống phân cấp ý nghĩa, và đối số của nó thường ở dạng câu, mệnh đề Để phát hiện mối quan hệ diễn ngôn, một chương trình cần:
● Xác định từ nối của quan hệ diễn ngôn
● Xác định khoảng văn bản của hai đối số cho mỗi mối quan hệ diễn ngôn
● Gán nhãn các đối số như (Arg1 hoặc Arg2) để chỉ ra thứ tự của các đối số
● Nhận diện ý nghĩa của mối quan hệ diễn ngôn (ví dụ như: "Cause",
"Condition", "Contrast")
Quan hệ diễn ngôn rõ ràng là được nhận ra một cách rõ ràng bằng từ nối diễn ngôn (connective) rút ra từ các lớp cú pháp được xác định rõ Đối số của mối quan hệ được xác định trong mỗi trường hợp, theo nguyên tắc tối thiểu là chọn ra tất cả các đoạn cần thiết để giải thích các quan hệ diễn ngôn Đối với các quan hệ diễn ngôn có
từ nối rõ ràng, đối số 2 (Arg2) là đối số mà các từ nối đi kèm, còn đối số 1 (Arg1) thì
Trang 18không bị giới hạn về khoảng cách giữa nó và các từ nối Ví dụ 1.1 về quan hệ diễn ngôn rõ ràng
Ví dụ 1.1: Big buyers like Procter & Gamble say there are other spots on the
globe, and in India, where the seed could be grown “It’s not a crop that can’t be
doubled or tripled,” says Mr Krishnamurthy But no one has made a serious effort
to transplant the crop (Comparison.Concession.Contraexpectation) [wsj_0515]
Quan hệ diễn ngôn không rõ ràng có 4 trường hợp:
● Các câu có thể được liên kết bởi một quan hệ diễn ngôn mà không có từ nối
để liên kết, thường được ngầm hiểu và chú thích chèn vào để thể hiện mối quan hệ (VD 1.2)
● Các câu có thể được liên kết bởi một quan hệ diễn ngôn mà được thể hiện thông qua một từ thay thế không phải từ nối (gọi là Altex), các từ thay thế không phải từ nối được xác nhận chứa mối quan hệ diễn ngôn (VD 1.3)
● Các câu có thể được liên kết bởi một mối quan hệ gắn kết dựa trên thực thể (người, vật, …), gọi là EntRel (VD 1.4)
● Các câu không liên quan đến nhau gọi là NoRel
Các ví dụ:
(1.2) The Arabs had merely oil Implicit=while These farmers may have a grip
on the world’s very heart (Comparison.Contrast) [wsj_0515]
(1.3) Now, GM appears to be stepping up the pace of its factory consolidation
to get in shape for the 1990s One reason is mounting competition from new
Japanese car plants in the U.S that are pouring out more than one million vehicles
a year at costs lower than GM can match (Contingency.Cause.Reason) [wsj_2338]
Trang 19(1.4) Pierre Vinken, 61 years old, will join the board as a nonexecutive director
Nov 29 EntRel Mr Vinken is chairman of Elsevier N.V., the Dutch publishing
group [wsj_0001]
Trong luận văn này, tôi tập trung nghiên cứu quan hệ diễn ngôn rõ ràng, đặc biệt tập trung vào xác định từ nối và phân loại ý nghĩa, đánh giá các đặc trưng ảnh hưởng như thế nào đến kết quả đó
1.3 Công trình liên quan
Những công trình liên quan với luận văn của tôi thực hiện hầu hết là trong 2 cuộc thi Conference on Computational Natural Language Learning (CoNLL) Shared Task chủ đề về Shallow Discourse Parsing, năm 2015 [55] cho tiếng Anh và năm
2016 [56] cho tiếng Anh và tiếng Trung Quốc
Năm 2014, công trình [24] được đánh giá là nổi bật khi kết quả xác định từ nối đạt được là 93.62% với số lượng đặc trưng sử dụng là 9, theo thống kê của Google scholar thì công trình này được tham khảo, trích dẫn hơn 200 lần, trong đó nhiều nhất
là năm 2015 và 2016 Trong cuộc thi CoNLL Shared Task 2015, công trình [50] đứng đầu bảng xếp hạng cuộc thi với độ F đạt 91.86%, công trình này đã sử dụng các đặc trưng từ công trình [24, 36] và đề xuất thêm 3 đặc trưng khác Còn cuộc thi CoNLL Shared Task 2016, công trình [22] đã đạt kết quả rất đáng nể là độ F đạt 98,38% với chỉ 7 đặc trưng được được sử dụng Một số nghiên cứu nổi bật về nhận diện quan hệ diễn ngôn và các đặc trưng các nghiên cứu đã dùng được so sánh trong Bảng 1, các kết quả đều lấy trên tập blind test
Trang 20Bảng 1.1 So sánh các đặc trưng về xác định từ nối của các một số công trình liên quan
trong nhận diện quan hệ diễn ngôn
Feature ID Jain’s 2016 [12]
Lin’s
2014 [24]
Wang’s 2015 [50] Kong’s
2016 [18]
Li’s
2016 [22]
2 Lowercased Connective String
3 Word previous to first word of
Connective String
4 Word previous to first word of
Connective String + Connective String X X X X
5 Word next to last word of Connective
String
6 Connective String + Word next to last
7
Word previous to first word of Connective String + Connective String + Word next to last word of Connective String
9 POS tag of Word previous to first word
10
POS tag of Word previous to first word
of Connective String + POS tag of Connective String
11 POS tag of Word next to last word of
12
POS tag of Connective String + POS tag
of Word next to last word of Connective String
13
POS tag of Word previous to first word
of Connective String + POS tag of Connective String + POS tag of Word next to last word of Connective String
14 Path of connective to root in syntax tree X X
Trang 2115 Compressed path of connective to root in
16 Self Category : Parent of connective to
17 Parent Category : Parent of Self Category
18 Left Sibling Category : Left Sibling of
Self Category in syntax tree X
19 Right Sibling Category : Right Sibling of
Self Category in syntax tree X
Result
96.02, F1 93.62
93.48 90.47 98.56
Chú thích: Nguồn thông tin và số liệu được trích dẫn từ công trình [12, 18, 22, 24, 50].
Xác định hai đối số là công việc khá khó khăn để có thể xác định đầy đủ và chính xác kết quả hai đối số của một quan hệ diễn ngôn Thường thì, đối số Arg2 sẽ xác định dễ hơn so với đối số Arg1, do Arg2 đi với từ nối, còn Arg1 có thể ở vị trí câu phía trước, câu phía sau hoặc cùng câu với Arg2 Nên sẽ có hai bước, bước thứ nhất là xác định vị trí của Arg1 so với Arg2, bước thứ hai mới là rút trích hai đối số Đặc biệt, phải xác định đúng đối số đó chính xác là mệnh đề hoặc câu (đúng đến từng token), nên kết quả của việc xác định đối số chỉ là 33.39% [22] và cao nhất trong CoNLL 2016 là 43.95% [33]
Trang 22Việc phân loại ý nghĩa quan hệ diễn ngôn không chỉ đơn thuần là đưa ra nghĩa
từ nối, mà còn tùy thuộc vào ngữ cảnh, hai đối số, …Nhiều khi, nghĩa của từ nối cũng khá mập mờ do có nhiều nghĩa, hoặc là nhập nhằng trong việc phân loại nhãn ý nghĩa,
ví dụ như từ since thì có thể mang nghĩa về thời gian (kể từ khi) hoặc nguyên nhân
(bởi vì) Các công trình [33] có kết quả phân loại ý nghĩa tốt là 77.17%, cao nhất trong CoNLL 2016 là 78.20% [16]
Những nghiên cứu này chỉ liệt kê ra những đặc trưng đã sử dụng mà chưa đánh giá được mức độ ảnh hưởng của các đặc trưng Ngoài ra, qua Bảng 1.1 tôi nhận thấy công trình [12] có các đặc trưng gần như bao gồm hết các đặc trưng của những công trình còn lại, nên luận văn cài đặt theo công trình này để phân tích mức độ ảnh hưởng của các đặc trưng
Trong tiếng Việt, công trình [1] đã gán nhãn từ loại cho 6,400 câu đạt độ F1 84.05%, công trình [20] phân tích cú pháp phụ thuộc cho hơn 9,100 câu, trong đó cũng chỉ gán nhãn phụ thuộc, nhưng chưa chú thích gán nhãn về ý nghĩa của từ nối
Trang 23Bảng 1.2 Một số công trình nghiên cứu về dữ liệu trong tiếng Việt
Đề xuất thuật toán chuyển đổi
tự động treebank thành tố sang treebank phụ thuộc
Thử nghiệm phân tích cú pháp phụ thuộc cho tiếng Việt
Xây dựng treebank phụ thuộc chứa 9,100 câu
Kết quả thử nghiệm:
+ MaxEnt: 91.03%
+ CRFs: 90.04%
Hạn chế: Những hướng dẫn cho việc gán nhãn cần phải được định nghĩa rõ ràng hơn Tồn tại một vài lỗi trên trebank như: xác định sai gốc (root) trong các câu có nhiều mệnh đề, xác định sai các phụ thuộc giữa các token đặc biệt
So sánh, đánh giá kết quả gán nhãn với hai phương pháp máy học là Maximum Entropy (MaxEnt) và Conditional Random Fields (CRF)
Kết quả thử nghiệm trên CRF cao hơn MaxEnt nhưng không lệch nhau nhiều
Trên CRF: F1: 84.05%
Trên MaxEnt: F1: 83.35%
Hạn chế: Đạt độ chính xác khá cao, nhưng chưa chỉ ra được những lỗi gây ảnh hưởng độ chính xác
Chú thích: Thông tin trích dẫn từ công trình [1, 20]
Còn nhiều công trình gán nhãn từ loại khác, trong các công trình đó có gán nhãn liên từ (CC) nhưng không phải tất cả liên từ là từ nối trong quan hệ diễn ngôn,
và cũng chưa có nghiên cứu về gán nhãn ý nghĩa của các từ nối đó
Trang 241.4 Kết luận
Với những thành tựu nhận diện quan hệ diễn ngôn rõ ràng trên bộ dữ liệu PDTB, với độ chính xác cao nhất trong CoNLL 2016 đạt F1 là 98,38% của công trình [22] Các công trình nghiên cứu nhận diện quan hệ diễn ngôn đã đóng góp cho khoa học về nhiều khía cạnh như các thuật toán phân tích, các thuật toán máy học, các mô hình đặc trưng Tuy nhiên, chưa có nghiên cứu về mức độ ảnh hưởng chi tiết của các đặc trưng đến kết quả bài toán nhận diện quan hệ diễn ngôn Đó là vấn đề còn tồn đọng mà chúng tôi sẽ giải quyết trong luận văn này, hướng đến mục tiêu: Phân tích mức độ ảnh hưởng của các đặc trưng đến kết quả nhận diện quan hệ diễn ngôn Từ
đó, cho thấy những đặc trưng nổi bật, đóng góp chủ yếu vào kết quả bài toán
Thêm vào đó, chúng tôi còn gom các đặc trưng theo nhóm nhỏ về đặc điểm từ vựng hay cú pháp, để đánh giá thêm về mức độ ảnh hưởng của các nhóm đặc trưng
Các nghiên cứu về nhận diện quan hệ diễn ngôn chủ yếu áp dụng trên bộ dữ liệu PDTB mà chưa mở rộng ra nhiều bộ dữ liệu và chú thích nhiều ngôn ngữ khác nhau, đặc biệt trong tiếng Việt, trên bộ dữ liệu Việt Treebank chưa có chú thích về gán nhãn từ nối
Đóng góp của đề tài ở phần gán nhãn từ nối cho Việt Treebank hơn 9,100 câu
mà công trình [20] chưa thực hiện, góp phần cho nghiên cứu nhận diện quan hệ diễn ngôn cho tiếng Việt
Trang 25Chương 2 CƠ SỞ LÝ THUYẾT
Nhận diện quan hệ diễn ngôn là một trong những bài toán nghiên cứu ngữ nghĩa nền tảng trong lĩnh vực xử lý ngôn ngữ tự nhiên Quan hệ diễn ngôn được chia làm hai loại: rõ ràng (explicit) và không rõ ràng (implicit) Trong luận văn, tôi tập trung vào nhận diện quan hệ diễn ngôn rõ ràng Trước khi tiến hành nghiên cứu và thực nghiệm phân tích các mục tiêu đặt ra, tôi trình bày lại các kiến thức nền tảng, phương pháp và các công cụ hỗ trợ việc nghiên cứu
2.1 Nhận diện quan hệ diễn ngôn rõ ràng
Quan hệ diễn ngôn rõ ràng là các mối quan hệ chú thích PDTB được nhận ra một cách rõ ràng bằng từ nối diễn ngôn (connective) rút ra từ các lớp cú pháp được xác định rõ, đối số của mối quan hệ được xác định trong mỗi trường hợp, theo nguyên tắc tối thiểu là chọn ra tất cả các đoạn cần thiết để giải thích các quan hệ diễn ngôn Đối với các quan hệ diễn ngôn có từ nối rõ ràng, Arg2, được định nghĩa là các đối số
mà các từ liên kết là cú pháp liên quan, còn Arg1 không bị giới hạn về khoảng cách giữa nó và các từ liên kết, nó có thể được tìm thấy ở bất cứ đâu trong các văn bản, cùng câu hoặc ở câu trước, câu sau so với Arg2 [55]
Một quan hệ diễn ngôn rõ ràng được xác định khi tìm được các thành phần:
Từ nối
Hai đối số Arg1, Arg2
Ý nghĩa quan hệ diễn ngôn
Ý nghĩa của mối quan hệ diễn ngôn rõ ràng được xác định không chỉ dựa trên nghĩa của từ nối là đủ, vì có những từ nối mang nhiều nghĩa, trong mỗi trường hợp sẽ
có một ý nghĩa, mà để xác định được ý nghĩa đó còn dựa vào hai đối số và các đặc trưng khác Hoặc, từ đó xuất hiện nhưng không mang vai trò là từ nối diễn ngôn, như
ví dụ 2.1
Ví dụ 2.1: “Financial planners often urge investors to diversify and to hold a smattering of international securities And many emerging markets have outpaced
Trang 26more mature markets, such as the U.S and Japan Country funds offer an easy way
to get a taste of foreign stocks without the hard research of seeking out individual companies.” [wsj_0034]
Trong ví dụ này, từ and được gạch chân là từ nối, còn 2 từ and chỉ in nghiêng
còn lại không phải
2.2 Các hướng tiếp cận nhận diện quan hệ diễn ngôn rõ ràng
Nhận diện quan hệ diễn ngôn rõ ràng có ba hướng tiếp cận: xác định từ nối, xác định hai đối số (hay gán nhãn hai đối số) và phân loại ý nghĩa quan hệ diễn ngôn
Xác định từ nối trong quan hệ diễn ngôn rõ ràng có những khó khăn là từ đó
có thể xuất hiện trong câu nhưng không phải từ nối, như ví dụ 2.1 về từ and, với
hướng tiếp cận này kết quả cao nhất được công bố hiện nay là 98.38% [22] Tôi nhận thấy khó có thể cải tiến kết quả này tốt hơn nữa
Xác định hai đối số là công việc khá khó khăn để có thể xác định đầy đủ và chính xác kết quả hai đối số của một quan hệ diễn ngôn Thường thì, đối số Arg2 sẽ xác định dễ hơn so với đối số Arg1, do Arg2 đi với từ nối, còn Arg1 có thể ở vị trí câu phía trước, câu phía sau hoặc cùng câu với Arg2 Nên thường sẽ có hai bước, bước thứ nhất là xác định vị trí của Arg1 so với Arg2, bước thứ hai mới là rút trích hai đối số Đặc biệt, phải xác định đúng đối số đó chính xác là mệnh đề, câu hoặc cụm từ (đúng đến từng token), nên kết quả của việc xác định đối số chỉ là 33.39% [22] và cao nhất trong CoNLL 2016 là 43.95% [33]
Việc phân loại ý nghĩa quan hệ diễn ngôn không chỉ đơn thuần là đưa ra nghĩa
từ nối, mà còn tùy thuộc vào ngữ cảnh, hai đối số, …Nhiều khi, nghĩa của từ nối cũng khá mập mờ do từ nối đó có nhiều nghĩa, hoặc là nhập nhằng trong việc phân loại
nhãn ý nghĩa, ví dụ như từ and thì có thể mang nghĩa mở rộng kết hợp hoặc mở rộng
liệt kê Công trình [16] có kết quả phân loại ý nghĩa tốt nhất trong CoNLL 2016 78.20%
Trong luận văn, tôi tập trung vào việc nghiên cứu ảnh hưởng của các đặc trưng
Trang 272.3 Bộ dữ liệu PDTB và Việt Treebank
PDTB là bộ dữ liệu có chú thích quan hệ diễn ngôn lớn nhất với hơn 1,000,000
từ được lấy từ bộ dữ liệu Wall Street Journal (WSJ) Phiên bản đầu tiên của PDTB vào tháng 4 năm 2006 Phiên bản PDTB-2.0 vào tháng 2 năm 2008 thông qua Tổ chức Dữ liệu Ngôn ngữ học (Linguistic Data Consortium-LDC) Trong đó, số lượng token trong quan hệ diễn ngôn rõ ràng là 18,459, hơn 100 loại từ nối [41]
Ý nghĩa của quan hệ diễn ngôn được phân thành 3 cấp như sau:
Hình 2.1 Hệ thống cấp bậc ý nghĩa trong PDTB
Nguồn: Công trình [41]
Trang 28CoNLL Shared Task năm 2015 và 2016 sử dụng PDTB làm dữ liệu cuộc thi Chuẩn của dữ liệu này bao gồm các cột như sau: Chỉ số token trong văn bản (Document-level token index-DTI, bắt đầu từ số 0); chỉ số câu (Sentence index-SI, bắt đầu từ số 0); chỉ số token trong câu (Sentence-level token index-STI, bắt đầu từ
số 0); từ (raw text); nhãn từ loại (POS tag); thông tin trong quan hệ thứ 1 (Relation 1 information, có thể là từ nối, arg1, arg2, hoặc không có “_”); thông tin trong quan hệ thứ 2 – R2I; … ; và giá trị các cột còn lại mặc định “_” Hình 2.2 là một minh họa theo chuẩn này
Hình 2.2 Minh họa chuẩn CoNLL cho một câu tiếng Anh.
Bộ dữ liệu Việt Treebank: Trên tiếng Việt, ít tài nguyên phục vụ cho việc nghiên cứu Treebank là một trong những tài nguyên quan trọng cho xử lý ngôn ngữ
tự nhiên Treebank là tập hợp các cây cú pháp được biểu diễn dưới một mô hình ngữ pháp cụ thể Việt Treebank [20] là một treebank tiếng Việt, một phần của dự án quốc gia - VLSP (Vietnamese Language and Speech Processing) Treebank tiếng Việt chứa khoảng 9,100 câu (tương đương khoảng 200,000 tokens)
Trong nghiên cứu của mình, tôi đã sử dụng hai bộ dữ liệu này để tiến hành các thực nghiệm và đánh giá kết quả
Trang 29Tư tưởng chủ đạo của nguyên lý
Entropy cực đại là “mô hình phân
phối đối với mỗi tập dữ liệu và tập các
ràng buộc đi cùng phải đạt được độ
cân bằng / đều nhất có thể” Tập dữ
liệu học (tức là tập gồm các dữ liệu đã
được gán nhãn) được sử dụng để tìm
ra các ràng buộc cho mô hình, đó là cơ
sở để ước lượng phân phối cho từng
lớp cụ thể Những ràng buộc này được
thể hiện bởi các giá trị ước lượng được
của các đặc trưng Từ các ràng buộc
sinh ra bởi tập dữ liệu này, mô hình sẽ
tiến hành tính toán để có được một
phân phối cho Entropy cực đại
Cho trước một tập huấn luyện được biểu diễn trong không gian vector trong đó mỗi tài liệu là một điểm, phương pháp này tìm ra một siêu mặt phẳng h quyết định tốt nhất có thể chia các điểm trên không gian này thành hai lớp riêng biệt theo đặc trưng, điều kiện Chất lượng của siêu mặt phẳng này được quyết định bởi khoảng cách (gọi là biên) của điểm
dữ liệu gần nhất của mỗi lớp đến mặt phẳng này Khoảng cách biên càng lớn thì mặt phẳng quyết định càng tốt đồng thời việc phân loại càng chính xác Mục đích thuật toán SVM tìm được khoảng cách biên lớn nhất
Mô hình đồ thị vô hướng, dựa trên phân phối xác suất
có điều kiện, tích hợp được các thuộc tính đa dạng của chuỗi dữ liệu quan sát nhằm
hỗ trợ quá trình phân lớp Nó phân phối xác suất của toàn
bộ chuỗi trạng thái, với điều kiện biết chuối quan sát trước thay vì phân phối trên mỗi trạng thái và quan sát như trong các mô hình đồ thị
có hướng khác
Ưu
điểm
Tính mềm dẻo: Cho phép khả năng
hầu như không hạn chế trong việc
biểu diễn các vấn đề phức tạp về tri
thức thông qua dạng các hàm đặc
trưng
Có thể giải quyết nhiều dạng thuộc
tính khác nhau Các giả thiết không
cần phải độc lập với nhau Trọng số
của các đặc trưng được xác định một
cách tự động
Xử lý trên không gian chiều có thể cực
kỳ lớn
Tiết kiệm bộ nhớ: Do chỉ có một tập hợp con của các điểm được sử dụng trong quá trình huấn luyện và ra quyết định thực tế cho các điểm dữ liệu mới
Tính linh hoạt - phân lớp thường là phi tuyến tính
Giải quyết được vấn đề
“label bias” mà MaxEnt gặp phải Bất cứ một trạng thái nào cũng có thể làm tăng, giảm xác suất được truyền, đảm bảo xác suất cuối cùng được gán thỏa mãn toàn cục
Trang 30Nhược
điểm
Vấn đề “label bias”: Các trạng thái có
phân phối chuyển tiếp entropy thấp,
có xu hướng ít được chú ý, không xác
định được rẽ nhánh đúng Sự dịch
chuyển trạng thái chỉ xem xét xác suất
giữa chúng, chứ ko xem xét xác suất
Tốn nhiều thời gian hơn so với các phương pháp khác cùng điều kiện so sánh [1]
Công trình [44]
P:86.87 R:92.00 F1:89.36
- Công cụ 1: Thư viện Stanford Core NLP: Trong đó tôi dùng các công cụ
hỗ trợ cụ thể như: Stanford EnglishTokenizer: Tách văn bản thành các token Hỗ trợ cho việc rút trích đặc trưng Stanford Parser: Phân tích câu thành cây cú pháp Stanford POS Tagger: Dùng để gán nhãn từ loại cho các token
Trang 31- Công cụ 2: Apache OpenNLP cho mục đích phân lớp bằng MaxEnt, sử dụng ngôn ngữ lập trình là Java
Trang 32Chương 3 NHẬN DIỆN QUAN HỆ DIỄN NGÔN VÀ
PHÂN TÍCH CÁC ĐẶC TRƯNG
Chương này trình bày chương trình nhận diện quan hệ diễn ngôn rõ ràng mà luận văn đã cài đặt và thực nghiệm Mục tiêu của luận văn là phân tích mức độ ảnh hưởng của các đặc trưng tới kết quả bài toán, nên không đi sâu vào việc cải thiện kết quả hệ thống hiện có
3.1.1 Tổng quan mô hình
Chương trình gồm 3 thành phần chính: Xác định từ nối, xác định đối số, phân loại ý nghĩa (Hình 3.1)
Hình 3.1 Mô hình minh họa chương trình nhận diện quan hệ diễn ngôn rõ ràng
Nguồn: Cài đặt theo công trình [12]
Trong đó:
- Xác định từ nối: Chỉ ra từ nối trong văn bản đầu vào Ví dụ: but, if, …
- Xác định đối số: Có 2 thành phần con là: xác định vị trí đối số, xem xét hai đối
số của quan hệ diễn ngôn rõ ràng đó ở cùng câu hay khác câu và sau đó rút
trích đối số
- Phân loại ý nghĩa: Chỉ ra ý nghĩa của quan hệ diễn ngôn rõ ràng là gì? Là nguyên nhân, kết quả hay tương phản, …
Trang 333.1.2 Phương pháp tiến hành
Quá trình nhận diện quan hệ diễn ngôn rõ ràng được thực hiện theo 3 bước chính tương ứng với 3 thành phần chính của mô hình như sau:
- Bước 1: Đưa một văn bản làm đầu vào, xác định trong văn bản đó có từ nối
không? Có bao nhiêu từ, ở những vị trí nào Có những từ mà trong trường hợp này là từ nối, nhưng trường hợp khác lại không phải, theo công trình [24] thống
kê thì 29.65 % trường hợp các từ đó xuất hiện trong câu là từ nối còn lại trên 70% không phải là từ nối (Hình 3.2) Chương trình phải xác định trong trường hợp nó xuất hiện trong câu có phải là từ nối trong một mối quan hệ diễn ngôn
rõ ràng hay không Tôi dùng 21 đặc trưng (Bảng 3.1) và sử dụng phương pháp Maximum Entropy (MaxEnt) để chia lớp huấn luyện
Hình 3.2 Từ “and” được gạch chân là từ nối, còn 2 từ “and” còn lại không phải
Nguồn: Trích dẫn từ công trình [24]
- Bước 2: Gồm 2 phần nhỏ: Thứ nhất, ứng với mỗi từ nối xác định vị trí của 2
đối số , đối số 2 là đối số đi cùng từ nối, nhiệm vụ là xác định vị trí đối số 1 là
ở cùng câu hay ở câu trước, câu sau so với đối số 2 Sử dụng các phương pháp cắt tỉa (pruning), để chia câu thành các cụm, sau đó rút trích các đặc trưng của các cụm đó [12] để biết được vị trí giữa 2 đối số với nhau Thứ hai, xác định chính xác 2 đối số (chuỗi token) bằng 2 bước con: một là chia mệnh đề (clause spliter), hai là phân lớp (Classification) các mệnh đề đó là đối số 1 hay đối số
2 nhờ các đặc trưng [12] Xác định đối số được tính là đúng khi xác định chính xác chuỗi của 2 đối số (chuỗi tokens) Đây cũng chính là khó khăn của bước
Trang 34này, như ví dụ trong Hình 3.3, từ “and” thuộc đối số 2, nằm phía trước từ nối, còn phần còn lại của đối số 2 lại nằm ở phía sau từ nối (phần in đậm)
Hình 3.3 Đối số 2 nằm ở vị trí cả trước và sau từ nối
Nguồn: Trích dẫn từ công trình [55]
- Bước 3: Phân loại ý nghĩa của mỗi quan hệ diễn ngôn rõ ràng đó bằng cách
dựa vào từ nối, cây cú pháp,… Nếu chỉ dựa vào từ nối để phân loại ý nghĩa, thì không chính xác ở những trường hợp những từ đó xuất hiện nhưng không mang nghĩa mà theo mặt chữ nó mang hoặc từ nối đó có nhiều nghĩa, nên dẫn đến nhập nhằng để xác định ý nghĩa của nó [12] (Hình 3.4) Chúng tôi cũng dùng phương pháp Maxent với 10 đặc trưng trong Bảng 3
Hình 3.4 Từ “since” mang 2 nghĩa trong 2 trường hợp Trong câu 1 từ “since” mang nghĩa
về thời gian (kể từ khi), câu 2 là về nguyên nhân (bởi vì)
Nguồn: Trích dẫn từ công trình [12]
Luận văn cài đặt chương trình theo mô hình và phương pháp đã nêu dùng cho việc phân tích mức độ ảnh hưởng của các đặc trưng
Trang 35Bảng 3.1 Danh sách các đặc trưng cho xác định từ nối
Feature ID Feature
1 Connective String
2 Lowercased Connective String
3 Word previous to first word of Connective String
4 Word previous to first word of Connective String + Connective String
5 Word next to last word of Connective String
6 Connective String + Word next to last word of connective String
7 Word previous to first word of Connective String + Connective String + Word next to last
word of Connective String
8 POS tag of Connective String
9 POS tag of Word previous to first word of Connective String
10 POS tag of Word previous to first word of Connective String + POS tag of Connective String
11 POS tag of Word next to last word of Connective String
12 POS tag of Connective String + POS tag of Word next to last word of Connective String
13 POS tag of Word previous to first word of Connective String + POS tag of Connective String
+ POS tag of Word next to last word of Connective String
14 Path of connective to root in syntax tree
15 Compressed path of connective to root in syntax tree
16 Self Category : Parent of connective to root in syntax tree
17 Parent Category : Parent of Self Category in syntax tree
18 Left Sibling Category : Left Sibling of Self Category in syntax tree
19 Right Sibling Category : Right Sibling of Self Category in syntax tree
20 C-syn features
21 Syn-syn features
Chú thích: Trích dẫn từ công trình [12]
Trang 36Trong đó, các đặc trưng có nghĩa là:
- FI1 (Feature ID 1): từ nối
- FI2: từ nối viết thường
- FI3: 1 từ phía trước từ nối
- FI4: 1 từ phía trước + từ nối
- FI5: 1 từ phía sau từ nối
- FI6: từ nối + 1 từ phía sau
- FI7: 1 từ phía trước + từ nối + 1 từ phía sau
- FI8: từ loại của từ nối
- FI9: từ loại của 1 từ phía trước từ nối
- FI10: từ loại của 1 từ phía trước từ nối + từ loại của từ nối
- FI11: từ loại của 1 từ phía sau từ nối
- FI12: từ loại của từ nối + từ loại của 1 từ phía sau từ nối
- FI13: từ loại của 1 từ phía trước từ nối + từ loại của từ nối + từ loại của 1
từ phía sau từ nối
- FI14: Đường dẫn của từ nối đến gốc trong cây cú pháp
- FI15: Nén đường dẫn của từ nối đến gốc trong cây cú pháp
- FI16: Từ loại của từ nối trong cây cú pháp
- FI17: Nút cha của từ loại từ nối trong cây cú pháp
- FI18: Anh em bên trái của từ loại từ nối trong cây cú pháp
- FI19: Anh em bên phải của từ loại từ nối trong cây cú pháp
- FI20: Các cặp kết hợp từ nối – cú pháp (từ FI16 đến FI19)
- FI21: Các cặp kết hợp cú pháp – cú pháp (từ FI16 đến FI19)
Trang 37Bảng 3.2 Danh sách các đặc trưng cho phân loại ý nghĩa.
Feature ID Feature
1 Connective String
2 Lowercased Connective String
3 Word previous to first word of Connective String + Connective String
4 POS tag of Connective String
5 Self Category : Parent of connective to root in syntax tree
6 Parent Category : Parent of Self Category in syntax tree
7 Left Sibling Category : Left Sibling of Self Category in syntax tree
8 Right Sibling Category : Right Sibling of Self Category in syntax tree
9 C-syn features
10 Syn-syn features
Chú thích: Trích dẫn từ công trình [12].
Trong đó, các đặc trưng có nghĩa là:
- FID1 (Feature ID 1): từ nối
- FID2: từ nối viết thường
- FID3: 1 từ phía trước + từ nối
- FID4: từ loại của từ nối
- FID5: Từ loại của từ nối trong cây cú pháp
- FID6: Nút cha của từ loại từ nối trong cây cú pháp
- FID7: Anh em bên trái của từ loại từ nối trong cây cú pháp
- FID8: Anh em bên phải của từ loại từ nối trong cây cú pháp
- FID9: Các cặp kết hợp từ nối – cú pháp (từ FID5 đến FID8)
- FID10: Các cặp kết hợp cú pháp – cú pháp (từ FID5 đến FID8)
Trang 38Ví dụ 3.1: Một câu quan hệ diễn ngôn: “Orders for durable goods were up
0.2% to $127.03 billion after rising 3.9% the month before.”
Hình 3.5 là cây cú pháp của quan hệ diễn ngôn trên
- FI6 = after rising
- FI7 = billion after rising
- FI8 = IN
- FI9 = CD
- FI10 = CD IN
Trang 40từ FI1 đến FI21, của phân loại ý nghĩa là FID1 đến FID10 Luận văn của tôi sẽ phân tích mức độ ảnh hưởng của các đặc trưng bằng cách chạy thực nghiệm trên hệ thống cài đặt tương tự, với cùng bộ dữ liệu, và mỗi lần thực nghiệm tôi sẽ bỏ bớt ra một đặc trưng trong danh sách trên Bảng 3.1 và Bảng 3.2, sau đó tính toán kết quả của xác định từ nối và phân loại nghĩa xem đặc trưng nào ảnh hưởng nhiều nhất, làm giảm kết quả nhiều nhất, ngược lại, đặc trưng nào ảnh hưởng ít nhất đến kết quả
Ngoài ra, tôi đề xuất đánh giá mức độ ảnh hưởng của các đặc trưng theo nhóm
về từ vựng, cú pháp như Bảng 3.3 và Bảng 3.4
Bảng 3.3 Danh sách các đặc trưng theo nhóm cho xác định từ nối.
Feature Group Feature ID Feature
Lexical-String
1 Connective String
2 Lowercased Connective String
3 Word previous to first word of Connective String
4 Word previous to first word of Connective String + Connective String
5 Word next to last word of Connective String
6 Connective String + Word next to last word of connective String
7 Word previous to first word of Connective String + Connective String + Word next to
last word of Connective String
Lexical-POS tag
8 POS tag of Connective String
9 POS tag of Word previous to first word of Connective String
10 POS tag of Word previous to first word of Connective String + POS tag of Connective
String
11 POS tag of Word next to last word of Connective String
12 POS tag of Connective String + POS tag of Word next to last word of Connective String
13 POS tag of Word previous to first word of Connective String + POS tag of Connective
String + POS tag of Word next to last word of Connective String
Syntatic
14 Path of connective to root in syntax tree
15 Compressed path of connective to root in syntax tree
16 Self Category : Parent of connective to root in syntax tree
17 Parent Category : Parent of Self Category in syntax tree
18 Left Sibling Category : Left Sibling of Self Category in syntax tree
19 Right Sibling Category : Right Sibling of Self Category in syntax tree
20 C-syn features
21 Syn-syn features