NGHIÊN cứu bài TOÁN NHẬN DIỆN QUAN hệ DIỄN NGÔN và xây DỰNG dữ LIỆU CHUẨN CHO TIẾNG VIỆT

So sánh các đặc trưng về xác định từ nối của các một số công trình liên quan trong nhận diện quan hệ diễn ngôn………17 Bảng 1.2.. Ý nghĩa khoa học và thực tiễn: Luận văn này đạt được một s

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Mã số: 60.48.01.01

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS NGUYỄN LƯU THÙY NGÂN

TP HỒ CHÍ MINH – NĂM 2017

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn này là công trình nghiên cứu khoa học của cá nhân

tôi được thực hiện dưới sự hướng dẫn khoa học của TS Nguyễn Lưu Thùy Ngân

Những kết quả nghiên cứu được trình bày trong luận văn là trung thực và chưa từng được công bố dưới bất kỳ hình thức nào

Tôi xin chịu trách nhiệm hoàn toàn về nghiên cứu của mình

TP Hồ Chí Minh, ngày 14 tháng 06 năm 2017

Tạ Thu Thủy

Trang 3

LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn chân thành đến TS Nguyễn Lưu Thùy Ngân Cô đã

hướng dẫn tôi trong quá trình học tập và nghiên cứu khoa học, từ những kiến thức cho đến những kỹ năng trong chuyên môn, đặc biệt hoàn thành luận văn Một lần nữa, tôi xin cảm ơn chân thành đặc biệt đến Cô

Trong quá trình học tập và làm việc tại trường Đại học Công nghệ thông tin - Đại học Quốc Gia TP HCM, tôi cũng không thể nào quên được công ơn của quý Thầy/Cô là Thầy, là đồng nghiệp đã hỗ trợ giúp đỡ động viên tôi rất nhiều Tôi xin được gửi lời cảm ơn chân thành đến quý Thầy/Cô

Tôi cũng không thể quên được công ơn sinh thành và dưỡng dục của ba mẹ tôi Cảm ơn ba mẹ, em trai những người luôn dõi theo tôi và là nguồn động viên tinh thần to lớn trong cuộc sống của tôi

Dù có hoàn thiện đến đâu, tôi cũng không tránh khỏi những thiếu sót và hạn chế trong việc hoàn thành luận văn này Tôi hy vọng nhận được sự phản hồi và đóng góp ý kiến quý báu từ quý Thầy/Cô Tôi xin trân trọng cảm ơn

TP Hồ Chí Minh, tháng 6 năm 2017

Tạ Thu Thủy

Trang 4

MỤC LỤC

TRANG PHỤ BÌA

LỜI CAM ĐOAN

LỜI CẢM ƠN

MỤC LỤC 1

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT 4

DANH MỤC CÁC BẢNG 5

DANH MỤC CÁC HÌNH VẼ 6

DANH MỤC CÁC SƠ ĐỒ 7

MỞ ĐẦU 8

Đặt vấn đề: 8

Mục tiêu luận văn: 9

Đối tượng và phạm vi nghiên cứu: 10

Ý nghĩa khoa học và thực tiễn: 10

Cấu trúc luận văn: 10

Chương 1 TỔNG QUAN 12

1.1 Bài toán nhận diện quan hệ diễn ngôn (Discourse Parsing) 12

1.2 Lịch sử phát triển nhận diện quan hệ diễn ngôn 13

1.3 Công trình liên quan 16

1.4 Kết luận 21

Chương 2 CƠ SỞ LÝ THUYẾT 22

2.1 Nhận diện quan hệ diễn ngôn rõ ràng 22

2.2 Các hướng tiếp cận nhận diện quan hệ diễn ngôn rõ ràng 23

2.3 Bộ dữ liệu PDTB và Việt Treebank 24

Trang 5

2.4 Phương pháp tiếp cận 26

2.5 Các công cụ hỗ trợ 27

2.6 Kết luận 28

Chương 3 NHẬN DIỆN QUAN HỆ DIỄN NGÔN VÀ PHÂN TÍCH CÁC ĐẶC TRƯNG 29

3.1 Mô hình nhận diện quan hệ diễn ngôn rõ ràng 29

3.2 Phân tích các đặc trưng 32

3.3 Kết luận 38

Chương 4 GÁN NHÃN TỪ NỐI TIẾNG VIỆT 39

4.1 Bộ dữ liệu Việt Treebank 39

4.2 Phương pháp gán nhãn từ nối 40

4.3 Tập từ nối và hướng dẫn gán nhãn (Guideline) 43

4.3.1 Tập từ nối 43

4.3.2 Hướng dẫn gán nhãn (Guideline) 44

4.4 Kết luận 52

Chương 5 THỰC NGHIỆM VÀ ĐÁNH GIÁ 53

5.1 Dữ liệu thực nghiệm 53

5.2 Các độ đo đánh giá 53

5.3 Các kết quả thực nghiệm 55

5.3.1 Các thực nghiệm mức độ ảnh hưởng của các đặc trưng 55

5.3.2 Các thực nghiệm gán nhãn từ nối trên Việt Treebank 57

5.4 Phân tích và đánh giá kết quả thực nghiệm 58

5.4.1 Ảnh hưởng của các đặc trưng 58

5.4.2 Gán nhãn từ nối tiếng Việt 62

Trang 6

Chương 6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 65

6.1 Kết luận 65

6.2 Hướng phát triển 66

TÀI LIỆU THAM KHẢO 68

PHỤ LỤC 76

Trang 7

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

2 NLP Natural Language Processing

3 PDTB Penn Discourse Tree Bank

5 CoNLL Conference on Computational Natural Language Learning

Trang 8

DANH MỤC CÁC BẢNGBảng 1.1 So sánh các đặc trưng về xác định từ nối của các một số công trình

liên quan trong nhận diện quan hệ diễn ngôn………17

Bảng 1.2 Một số công trình nghiên cứu về dữ liệu trong tiếng Việt.… …….20 Bảng 2.1 So sánh phương pháp trong nhận diện quan hệ diễn ngôn rõ ràng 26 Bảng 3.1 Danh sách các đặc trưng cho xác định từ nối……… … 32 Bảng 3.2 Danh sách các đặc trưng cho phân loại ý nghĩa……….…34 Bảng 3.3 Danh sách các đặc trưng theo nhóm cho xác định từ nối………… 37 Bảng 3.4 Danh sách các đặc trưng theo nhóm cho phân loại ý nghĩa…… …38 Bảng 4.1 Một số từ nối trong tiếng Việt và nhãn được gán mặc định…… …44 Bảng 4.2 Kết quả gán nhãn bằng tay so với chương trình……… …….49 Bảng 4.3 Độ đồng thuận gán nhãn……… ……….…….51 Bảng 5.1 Ma trận nhầm lẫn (Confusion Matrix) hay Bảng ngẫu nhiên

tính %)………62

Trang 9

DANH MỤC CÁC HÌNH VẼ

Hình 1.1 Đoạn văn bản đầu vào……….……….… 13

Hình 1.2 Quan hệ diễn ngôn được nhận diện……….… 13

Hình 2.1 Hệ thống cấp bậc ý nghĩa trong PDTB……….…….…23

Hình 2.2 Minh họa chuẩn CoNLL cho một câu tiếng Anh……… 24

Hình 3.1 Mô hình minh họa chương trình nhận diện quan hệ diễn ngôn rõ ràng……… 27

Hình 3.2 Từ “and” được gạch chân là từ nối, còn 2 từ “and” còn lại không phải 28

Hình 3.3 Đối số 2 nằm ở vị trí cả trước và sau từ nối……… ………29

Hình 3.4 Từ “since” mang 2 nghĩa trong 2 trường hợp Trong câu 1 từ “since” mang nghĩa về thời gian (kể từ khi), câu 2 là về nguyên nhân (bởi vì)…… …29

Hình 3.5 Cây cú pháp cho ví dụ 3.1……… 33

Hình 4.1 Định dạng trong Việt Treebank……… ……… 37

Hình 4.2 Hệ thống cấp bậc ý nghĩa trong PDTB……….………….39

Hình 4.3 Hệ thống cấp bậc ý nghĩa trong PDTB bằng tiếng Việt……….40

Hình 4.4 Một số câu trong tập chương trình gán là có từ nối……….… 43

Hình 4.5 Một số câu trong tập chương trình cho là không có từ nối……… …….43

Hình 4.6 Ví dụ về một nhãn từ nối mà chương trình gán đúng……… …….44

Hình 5.1 Cây cú pháp cho một quan hệ diễn ngôn rõ ràng……… 58

Trang 10

DANH MỤC CÁC SƠ ĐỒ

Sơ đồ 5.1 Ảnh hưởng của từng đặc trưng đến kết quả xác định từ nối 58

Sơ đồ 5.2 Ảnh hưởng của từng đặc trưng đến kết quả phân loại ý nghĩa…… 59

Sơ đồ 5.3 Ảnh hưởng của từng nhóm đặc trưng đến kết quả xác định từ nối ….60

Sơ đồ 5.4 Ảnh hưởng của từng nhóm đặc trưng đến kết quả phân loại ý nghĩa…61

Trang 11

MỞ ĐẦU Đặt vấn đề:

Diễn ngôn (Discourse) là một phần của văn bản để truyền đạt các dữ liệu, thông tin và tri thức cụ thể, có những mối quan hệ nội tại về nội dung [57]

Quan hệ diễn ngôn (Discourse relation) có thể được biểu diễn bằng các từ nối

rõ ràng như because, however, but, hoặc ngầm suy ra giữa các đơn vị đối tượng trừu

tượng Mỗi quan hệ diễn ngôn được dán nhãn với một ý nghĩa được lựa chọn từ một

hệ thống phân cấp ý nghĩa, và đối số của nó thường ở dạng câu, mệnh đề [56]

Nhận diện quan hệ diễn ngôn ( Discourse parsing) là nhận diện văn bản thành những đoạn nhỏ liền kề hoặc không liền kề có quan hệ diễn ngôn với nhau (các cấu trúc biểu nghĩa trong tương tác với ngữ cảnh để hiểu thực chất nội dung của diễn ngôn) Cụ thể, đưa ra một văn bản tiếng Anh làm đầu vào, hệ thống được yêu cầu phát hiện và phân loại các mối quan hệ diễn ngôn giữa các phân đoạn diễn ngôn trong văn bản Cũng như những hình thức ngữ pháp khác nhau và các khung biểu diễn trong phân tích cú pháp, những quan niệm khác nhau về cấu trúc diễn ngôn của một văn bản và dữ liệu được chú thích theo những khung lý thuyết khác nhau [40, 46, 52]

Bài toán nhận diện quan hệ diễn ngôn là phân tích quan hệ giữa các đơn vị văn bản để khám phá thông tin câu trúc trừu tượng Trong xử lý ngôn ngữ tự nhiên (Natural Language Processing-NLP), ứng dụng của bài toán phân tích diễn ngôn có thể dùng để tóm tắt văn bản, hệ thống hỏi đáp, rút trích thông tin và dịch máy Bởi vì việc nhận diện được ý nghĩa của mối quan hệ giữa các đơn vị văn bản cung cấp các thành phần cần thiết cho việc tính toán ngữ nghĩa của câu

Từ khi có bộ dữ liệu Penn Discourse Tree Bank (PDTB) [41], phân tích quan

hệ diễn ngôn càng được chú ý nhiều hơn nữa Nhất là 2 năm 2015 và 2016 có Conference on Computational Natural Language Learning (CoNLL) Shared Task chủ

đề về Shallow Discourse Parsing, năm 2015 [55] cho tiếng Anh và năm 2016 [56]

mở rộng thêm tiếng Trung Quốc Nhận diện quan hệ diễn ngôn cạn (Shallow Discourse Parsing-SDP) là phát hiện và phân loại các mối quan hệ diễn ngôn riêng

Trang 12

biệt, vì việc nhận diện quan hệ diễn ngôn chỉ bao gồm việc nhận diện các mối quan

hệ diễn ngôn riêng rẻ trong văn bản mà không tính đến mối liên hệ với các mối quan

hệ diễn ngôn khác có trong văn bản

Những công trình nghiên cứu nổi bật về Discourse Parsing như [12, 18, 22,

24, 50] đều chỉ thử nghiệm trên bộ dữ liệu PDTB, với kết quả cao nhất là F đạt 98.38% [22] Nhưng chủ yếu chỉ là liệt kê danh sách các đặc trưng đã được sử dụng, chưa phân tích mức độ ảnh hưởng (chi tiết sẽ được trình bày cụ thể trong phần công trình liên quan)

Trong tiếng Việt, có các nghiên cứu về gán nhãn từ loại [2], phân tích cú pháp phụ thuộc [20], nhưng chưa có gán nhãn từ nối, việc này rất cần thiết cho các nghiên cứu sau này liên quan đến nhận diện quan hệ diễn ngôn cho tiếng Việt

Từ những vấn đề tồn tại và tầm quan trọng của nhận diện quan hệ diễn ngôn thì việc nghiên cứu cần được quan tâm hơn Vì vậy, luận văn này tiến hành thực hiện các nghiên cứu để tìm ra mức độ ảnh hưởng của các đặc trưng tới kết quả bài toán, từ

đó áp dụng gán nhãn từ nối trên bộ dữ liệu Việt Treebank [20] để xây dựng dữ liệu

từ nối chuẩn cho tiếng Việt

Mục tiêu luận văn:

Luận văn này thực hiện hai nhiệm vụ chính:

 Thứ nhất, phân tích, đánh giá mức độ ảnh hưởng đến kết quả nhận diện quan

hệ diễn ngôn của các đặc trưng Cụ thể là, xây dựng hệ thống nhận diện quan

hệ diễn ngôn, từ đó nghiên cứu, phân tích kết quả nhận diện từ nối và phân tích ý nghĩa của quan hệ diễn ngôn đó

 Thứ hai, gán nhãn từ nối trên bộ dữ liệu Việt Treebank gồm hơn 9,100 câu, từ

đó xây dựng dữ liệu từ nối chuẩn, đóng góp vào nghiên cứu nhận diện quan

hệ diễn ngôn trên tiếng Việt

Việc thực hiện gán nhãn mất nhiều thời gian và đề tài đòi hỏi nhiều thời gian,

và phải tìm hiểu các công cụ hỗ trợ xây dựng và đánh giá của các hệ thống nhận diện

Trang 13

Đối tượng và phạm vi nghiên cứu:

Để đạt được những mục tiêu của đề tài, chúng tôi giới hạn phạm vi thực hiện

đề tài như sau:

 Đối tượng nghiên cứu:

 Hệ thống, phương pháp nhận diện quan hệ diễn ngôn

 Ngôn ngữ: tiếng Anh, tiếng Việt

 Phạm vi nghiên cứu: Bộ dữ liệu PDTB, bộ dữ liệu Việt Treebank

Ý nghĩa khoa học và thực tiễn:

Luận văn này đạt được một số kết quả nghiên cứu như sau:

 Thứ nhất, phân tích mức độ ảnh hưởng của các đặc trưng đến kết quả nhận diện quan hệ diễn ngôn, từ đó biết được những đặc trưng góp phần chính, ảnh hưởng nhiều đến kết quả

 Thứ hai, gán nhãn từ nối trên bộ dữ liệu Việt Treebank hơn 9,100 câu Xây dựng được dữ liệu từ nối chuẩn cho tiếng Việt Góp phần phát triển nghiên cứu nhận diện quan hệ diễn ngôn trên tiếng Việt sau này

Cấu trúc luận văn:

Bố cục luận văn gồm 6 Chương với những nội dung chính như sau:

 Chương 1: Tổng quan

Chương này trình bày hướng tiếp cận chính trong nhận diện quan hệ diễn ngôn Đồng thời, thực hiện những phân tích và đánh giá các công trình nghiên cứu tiêu biểu đã được công bố liên quan đến bài toán nhận diện quan hệ diễn ngôn Từ đó, xác định những vấn đề còn tồn tại và cũng như những thách thức của bài toán nhận diện quan hệ diễn ngôn mà luận văn này tập trung giải quyết

 Chương 2: Cơ sở lý thuyết

Trong chương này, luận văn sẽ trình bày những cơ sở lý thuyết và những công cụ cần thiết hỗ trợ để xây dựng hệ thống nhận diện quan hệ diễn ngôn

Trang 14

 Chương 3: Nhận diện quan hệ diễn ngôn và phân tích các đặc trưng

Nội dung chính của chương này là trình bày chi tiết về phương pháp nhận diện quan hệ diễn ngôn rõ ràng, các đặc trưng và trình bày, phân tích, gom nhóm các đặc trưng dùng để thực nghiệm và đánh giá ở chương 5

 Chương 4: Gán nhãn từ nối tiếng Việt

Chương này là trình bày chi tiết về việc tìm hiểu, phân tích, gán nhãn và viết hướng dẫn để phát triển bộ dữ liệu tiếng Việt sau này

 Chương 5: Thực nghiệm và đánh giá

Trong chương này, trình bày kết quả thực nghiệm của hệ thống Từ kết quả thực nghiệm, đánh giá và phân tích mức độ ảnh hưởng của các đặc trưng Cũng trình bày kết quả gán nhãn từ nối trên Việt Treebank

 Chương 6: Kết luận và hướng phát triển

Chương này tổng kết những kết luận của quá trình nghiên cứu bao gồm những kết quả đạt được cũng như những khó khăn, hạn chế Đồng thời, đề nghị những định hướng nghiên cứu mở rộng cho những dự án nghiên cứu tương lai về nhận diện quan hệ diễn ngôn

Trang 15

Chương 1 TỔNG QUAN 1.1 Bài toán nhận diện quan hệ diễn ngôn (Discourse Parsing)

Một đoạn văn bản thường không hiểu được ý nghĩa nếu đánh giá theo từng đơn vị một, mà phải liên kết, xem xét nó với những đơn vị khác Do đó, nhận diện quan hệ diễn ngôn là nhận diện văn bản thành những đoạn nhỏ liền kề hoặc không liền kề có quan hệ diễn ngôn với nhau

Nhận diện quan hệ diễn ngôn là phân tích quan hệ giữa các đơn vị văn bản để khám phá thông tin câu trúc trừu tượng Trong xử lý ngôn ngữ tự nhiên, ứng dụng của bài toán phân tích diễn ngôn có thể dùng để tóm tắt văn bản, hệ thống hỏi đáp, rút trích thông tin và dịch máy Bởi vì việc nhận diện được ý nghĩa của mối quan hệ giữa các đơn vị văn bản cung cấp các thành phần cần thiết cho việc tính toán ngữ nghĩa của câu và ảnh hưởng đến hiệu quả của các ứng dụng xử lý ngôn ngữ tự nhiên, được xem là một phần của các hệ thống xử lý ngôn ngữ tự nhiên thông minh

Quan hệ diễn ngôn chia làm hai loại quan hệ diễn ngôn rõ ràng và quan hệ diễn ngôn không rõ ràng Quan hệ diễn ngôn rõ ràng thì có từ nối giữa các đơn vị văn bản của quan hệ, còn quan hệ diễn ngôn không rõ ràng thì không có từ nối mà có thể là ngầm hiểu, hoặc có quan hệ với nhau qua một thực thể Luận văn tập trung nghiên cứu quan hệ diễn ngôn rõ ràng

Bài toán nhận diện quan hệ diễn ngôn rõ ràng được mô tả cụ thể như sau:

 Đầu vào: Một văn bản tiếng Anh

 Đầu ra: Mối quan hệ diễn ngôn giữa các phân đoạn diễn ngôn trong văn bản,

với các thành phần:

 Từ nối

 Đối số Arg1 và Arg2 của quan hệ diễn ngôn đó Đối số này có thể là các

sự kiện, trạng thái, mệnh đề,

 Ý nghĩa quan hệ diễn ngôn đó

Hình 1.1 là đoạn văn đầu vào, và Hình 1.2 là quan hệ diễn ngôn được nhận diện và trả về ở đầu ra

Trang 16

Hình 1.1 Đoạn văn bản đầu vào

Hình 1.2 Quan hệ diễn ngôn được nhận diện

Trong đó:

● Đối số Arg1: there are other spots on the globe, and in India, where the seed

could be grown

● Đối số Arg2: no one has made a serious effort to transplant the crop

● Từ nối giữa 2 đối số: But

● Ý nghĩa: Comparison.Concession.Contraexpectation

1.2 Lịch sử phát triển nhận diện quan hệ diễn ngôn

Các nghiên cứu trước đây trong nhận diện quan hệ diễn ngôn đã bỏ qua vai trò của dữ liệu quan hệ mà dựa chủ yếu vào thông tin về cú pháp và từ vựng, như vậy là không đủ Nhận diện quan hệ diễn ngôn là một chủ đề nghiên cứu lâu dài trong lĩnh vực ngôn ngữ học, mục đích mong muốn chương trình máy tính có thể hiểu được ngữ nghĩa của ngôn ngữ tự nhiên như con người, xử lý được các vấn đề về ngữ nghĩa Trong bốn thập kỷ qua, các nhà nghiên cứu đã đề xuất một số các mô hình khác nhau

Trang 17

liên hệ chặt chẽ dựa trên lập luận bắt chước [11], cho đến mô hình diễn ngôn mà kết hợp các quan hệ diễn ngôn trong một cấu trúc đồ thị [54] và còn nhiều nghiên cứu khác Tuy nhiên, thiết kế và xây dựng một hệ thống nhận diện quan hệ diễn ngôn là một nhiệm vụ khó khăn, một phần là do thiếu các bộ dữ liệu được chú thích với quy

mô lớn [25] Penn Discourse Treebank (PDTB) [41] được công bố đã giải quyết một phần vấn đề thiếu dữ liệu được chú thích, PDTB hiện là bộ dữ liệu được chú thích lớn nhất thế giới

Trong những năm gần đây, nhận diện quan hệ diễn ngôn đã và đang được nghiên cứu sôi nổi trong lĩnh vực xử lý ngôn ngữ tự nhiên, đặc biệt là 2 năm 2015 và

2016 có CoNLL Shared Task chủ đề về Shallow Discourse Parsing, năm 2015 [55] cho tiếng Anh và năm 2016 [56] mở rộng thêm tiếng Trung quốc, đã thu hút thêm rất nhiều nghiên cứu về nhận diện quan hệ diễn ngôn

Quan hệ diễn ngôn có thể được biểu diễn bằng các từ nối rõ ràng như because,

however, but, hoặc ngầm suy ra giữa các đơn vị đối tượng trừu tượng Trong phiên

bản hiện tại của PDTB, quan hệ diễn ngôn không rõ ràng được suy ra chỉ giữa các đơn vị lân cận Mỗi quan hệ diễn ngôn được dán nhãn với một ý nghĩa được lựa chọn

từ một hệ thống phân cấp ý nghĩa, và đối số của nó thường ở dạng câu, mệnh đề Để phát hiện mối quan hệ diễn ngôn, một chương trình cần:

● Xác định từ nối của quan hệ diễn ngôn

● Xác định khoảng văn bản của hai đối số cho mỗi mối quan hệ diễn ngôn

● Gán nhãn các đối số như (Arg1 hoặc Arg2) để chỉ ra thứ tự của các đối số

● Nhận diện ý nghĩa của mối quan hệ diễn ngôn (ví dụ như: "Cause",

"Condition", "Contrast")

Quan hệ diễn ngôn rõ ràng là được nhận ra một cách rõ ràng bằng từ nối diễn ngôn (connective) rút ra từ các lớp cú pháp được xác định rõ Đối số của mối quan hệ được xác định trong mỗi trường hợp, theo nguyên tắc tối thiểu là chọn ra tất cả các đoạn cần thiết để giải thích các quan hệ diễn ngôn Đối với các quan hệ diễn ngôn có

từ nối rõ ràng, đối số 2 (Arg2) là đối số mà các từ nối đi kèm, còn đối số 1 (Arg1) thì

Trang 18

không bị giới hạn về khoảng cách giữa nó và các từ nối Ví dụ 1.1 về quan hệ diễn ngôn rõ ràng

Ví dụ 1.1: Big buyers like Procter & Gamble say there are other spots on the

globe, and in India, where the seed could be grown “It’s not a crop that can’t be

doubled or tripled,” says Mr Krishnamurthy But no one has made a serious effort

to transplant the crop (Comparison.Concession.Contraexpectation) [wsj_0515]

Quan hệ diễn ngôn không rõ ràng có 4 trường hợp:

● Các câu có thể được liên kết bởi một quan hệ diễn ngôn mà không có từ nối

để liên kết, thường được ngầm hiểu và chú thích chèn vào để thể hiện mối quan hệ (VD 1.2)

● Các câu có thể được liên kết bởi một quan hệ diễn ngôn mà được thể hiện thông qua một từ thay thế không phải từ nối (gọi là Altex), các từ thay thế không phải từ nối được xác nhận chứa mối quan hệ diễn ngôn (VD 1.3)

● Các câu có thể được liên kết bởi một mối quan hệ gắn kết dựa trên thực thể (người, vật, …), gọi là EntRel (VD 1.4)

● Các câu không liên quan đến nhau gọi là NoRel

Các ví dụ:

(1.2) The Arabs had merely oil Implicit=while These farmers may have a grip

on the world’s very heart (Comparison.Contrast) [wsj_0515]

(1.3) Now, GM appears to be stepping up the pace of its factory consolidation

to get in shape for the 1990s One reason is mounting competition from new

Japanese car plants in the U.S that are pouring out more than one million vehicles

a year at costs lower than GM can match (Contingency.Cause.Reason) [wsj_2338]

Trang 19

(1.4) Pierre Vinken, 61 years old, will join the board as a nonexecutive director

Nov 29 EntRel Mr Vinken is chairman of Elsevier N.V., the Dutch publishing

group [wsj_0001]

Trong luận văn này, tôi tập trung nghiên cứu quan hệ diễn ngôn rõ ràng, đặc biệt tập trung vào xác định từ nối và phân loại ý nghĩa, đánh giá các đặc trưng ảnh hưởng như thế nào đến kết quả đó

1.3 Công trình liên quan

Những công trình liên quan với luận văn của tôi thực hiện hầu hết là trong 2 cuộc thi Conference on Computational Natural Language Learning (CoNLL) Shared Task chủ đề về Shallow Discourse Parsing, năm 2015 [55] cho tiếng Anh và năm

2016 [56] cho tiếng Anh và tiếng Trung Quốc

Năm 2014, công trình [24] được đánh giá là nổi bật khi kết quả xác định từ nối đạt được là 93.62% với số lượng đặc trưng sử dụng là 9, theo thống kê của Google scholar thì công trình này được tham khảo, trích dẫn hơn 200 lần, trong đó nhiều nhất

là năm 2015 và 2016 Trong cuộc thi CoNLL Shared Task 2015, công trình [50] đứng đầu bảng xếp hạng cuộc thi với độ F đạt 91.86%, công trình này đã sử dụng các đặc trưng từ công trình [24, 36] và đề xuất thêm 3 đặc trưng khác Còn cuộc thi CoNLL Shared Task 2016, công trình [22] đã đạt kết quả rất đáng nể là độ F đạt 98,38% với chỉ 7 đặc trưng được được sử dụng Một số nghiên cứu nổi bật về nhận diện quan hệ diễn ngôn và các đặc trưng các nghiên cứu đã dùng được so sánh trong Bảng 1, các kết quả đều lấy trên tập blind test

Trang 20

Bảng 1.1 So sánh các đặc trưng về xác định từ nối của các một số công trình liên quan

trong nhận diện quan hệ diễn ngôn

Feature ID Jain’s 2016 [12]

Lin’s

2014 [24]

Wang’s 2015 [50] Kong’s

2016 [18]

Li’s

2016 [22]

2 Lowercased Connective String

3 Word previous to first word of

Connective String

4 Word previous to first word of

Connective String + Connective String X X X X

5 Word next to last word of Connective

String

6 Connective String + Word next to last

7

Word previous to first word of Connective String + Connective String + Word next to last word of Connective String

9 POS tag of Word previous to first word

10

POS tag of Word previous to first word

of Connective String + POS tag of Connective String

11 POS tag of Word next to last word of

12

POS tag of Connective String + POS tag

of Word next to last word of Connective String

13

POS tag of Word previous to first word

of Connective String + POS tag of Connective String + POS tag of Word next to last word of Connective String

14 Path of connective to root in syntax tree X X

Trang 21

15 Compressed path of connective to root in

16 Self Category : Parent of connective to

17 Parent Category : Parent of Self Category

18 Left Sibling Category : Left Sibling of

Self Category in syntax tree X

19 Right Sibling Category : Right Sibling of

Self Category in syntax tree X

Result

96.02, F1 93.62

93.48 90.47 98.56

Chú thích: Nguồn thông tin và số liệu được trích dẫn từ công trình [12, 18, 22, 24, 50].

Xác định hai đối số là công việc khá khó khăn để có thể xác định đầy đủ và chính xác kết quả hai đối số của một quan hệ diễn ngôn Thường thì, đối số Arg2 sẽ xác định dễ hơn so với đối số Arg1, do Arg2 đi với từ nối, còn Arg1 có thể ở vị trí câu phía trước, câu phía sau hoặc cùng câu với Arg2 Nên sẽ có hai bước, bước thứ nhất là xác định vị trí của Arg1 so với Arg2, bước thứ hai mới là rút trích hai đối số Đặc biệt, phải xác định đúng đối số đó chính xác là mệnh đề hoặc câu (đúng đến từng token), nên kết quả của việc xác định đối số chỉ là 33.39% [22] và cao nhất trong CoNLL 2016 là 43.95% [33]

Trang 22

Việc phân loại ý nghĩa quan hệ diễn ngôn không chỉ đơn thuần là đưa ra nghĩa

từ nối, mà còn tùy thuộc vào ngữ cảnh, hai đối số, …Nhiều khi, nghĩa của từ nối cũng khá mập mờ do có nhiều nghĩa, hoặc là nhập nhằng trong việc phân loại nhãn ý nghĩa,

ví dụ như từ since thì có thể mang nghĩa về thời gian (kể từ khi) hoặc nguyên nhân

(bởi vì) Các công trình [33] có kết quả phân loại ý nghĩa tốt là 77.17%, cao nhất trong CoNLL 2016 là 78.20% [16]

Những nghiên cứu này chỉ liệt kê ra những đặc trưng đã sử dụng mà chưa đánh giá được mức độ ảnh hưởng của các đặc trưng Ngoài ra, qua Bảng 1.1 tôi nhận thấy công trình [12] có các đặc trưng gần như bao gồm hết các đặc trưng của những công trình còn lại, nên luận văn cài đặt theo công trình này để phân tích mức độ ảnh hưởng của các đặc trưng

Trong tiếng Việt, công trình [1] đã gán nhãn từ loại cho 6,400 câu đạt độ F1 84.05%, công trình [20] phân tích cú pháp phụ thuộc cho hơn 9,100 câu, trong đó cũng chỉ gán nhãn phụ thuộc, nhưng chưa chú thích gán nhãn về ý nghĩa của từ nối

Trang 23

Bảng 1.2 Một số công trình nghiên cứu về dữ liệu trong tiếng Việt

 Đề xuất thuật toán chuyển đổi

tự động treebank thành tố sang treebank phụ thuộc

 Thử nghiệm phân tích cú pháp phụ thuộc cho tiếng Việt

 Xây dựng treebank phụ thuộc chứa 9,100 câu

 Kết quả thử nghiệm:

+ MaxEnt: 91.03%

+ CRFs: 90.04%

 Hạn chế: Những hướng dẫn cho việc gán nhãn cần phải được định nghĩa rõ ràng hơn Tồn tại một vài lỗi trên trebank như: xác định sai gốc (root) trong các câu có nhiều mệnh đề, xác định sai các phụ thuộc giữa các token đặc biệt

 So sánh, đánh giá kết quả gán nhãn với hai phương pháp máy học là Maximum Entropy (MaxEnt) và Conditional Random Fields (CRF)

 Kết quả thử nghiệm trên CRF cao hơn MaxEnt nhưng không lệch nhau nhiều

 Trên CRF: F1: 84.05%

 Trên MaxEnt: F1: 83.35%

 Hạn chế: Đạt độ chính xác khá cao, nhưng chưa chỉ ra được những lỗi gây ảnh hưởng độ chính xác

Chú thích: Thông tin trích dẫn từ công trình [1, 20]

Còn nhiều công trình gán nhãn từ loại khác, trong các công trình đó có gán nhãn liên từ (CC) nhưng không phải tất cả liên từ là từ nối trong quan hệ diễn ngôn,

và cũng chưa có nghiên cứu về gán nhãn ý nghĩa của các từ nối đó

Trang 24

1.4 Kết luận

Với những thành tựu nhận diện quan hệ diễn ngôn rõ ràng trên bộ dữ liệu PDTB, với độ chính xác cao nhất trong CoNLL 2016 đạt F1 là 98,38% của công trình [22] Các công trình nghiên cứu nhận diện quan hệ diễn ngôn đã đóng góp cho khoa học về nhiều khía cạnh như các thuật toán phân tích, các thuật toán máy học, các mô hình đặc trưng Tuy nhiên, chưa có nghiên cứu về mức độ ảnh hưởng chi tiết của các đặc trưng đến kết quả bài toán nhận diện quan hệ diễn ngôn Đó là vấn đề còn tồn đọng mà chúng tôi sẽ giải quyết trong luận văn này, hướng đến mục tiêu: Phân tích mức độ ảnh hưởng của các đặc trưng đến kết quả nhận diện quan hệ diễn ngôn Từ

đó, cho thấy những đặc trưng nổi bật, đóng góp chủ yếu vào kết quả bài toán

Thêm vào đó, chúng tôi còn gom các đặc trưng theo nhóm nhỏ về đặc điểm từ vựng hay cú pháp, để đánh giá thêm về mức độ ảnh hưởng của các nhóm đặc trưng

Các nghiên cứu về nhận diện quan hệ diễn ngôn chủ yếu áp dụng trên bộ dữ liệu PDTB mà chưa mở rộng ra nhiều bộ dữ liệu và chú thích nhiều ngôn ngữ khác nhau, đặc biệt trong tiếng Việt, trên bộ dữ liệu Việt Treebank chưa có chú thích về gán nhãn từ nối

Đóng góp của đề tài ở phần gán nhãn từ nối cho Việt Treebank hơn 9,100 câu

mà công trình [20] chưa thực hiện, góp phần cho nghiên cứu nhận diện quan hệ diễn ngôn cho tiếng Việt

Trang 25

Chương 2 CƠ SỞ LÝ THUYẾT

Nhận diện quan hệ diễn ngôn là một trong những bài toán nghiên cứu ngữ nghĩa nền tảng trong lĩnh vực xử lý ngôn ngữ tự nhiên Quan hệ diễn ngôn được chia làm hai loại: rõ ràng (explicit) và không rõ ràng (implicit) Trong luận văn, tôi tập trung vào nhận diện quan hệ diễn ngôn rõ ràng Trước khi tiến hành nghiên cứu và thực nghiệm phân tích các mục tiêu đặt ra, tôi trình bày lại các kiến thức nền tảng, phương pháp và các công cụ hỗ trợ việc nghiên cứu

2.1 Nhận diện quan hệ diễn ngôn rõ ràng

Quan hệ diễn ngôn rõ ràng là các mối quan hệ chú thích PDTB được nhận ra một cách rõ ràng bằng từ nối diễn ngôn (connective) rút ra từ các lớp cú pháp được xác định rõ, đối số của mối quan hệ được xác định trong mỗi trường hợp, theo nguyên tắc tối thiểu là chọn ra tất cả các đoạn cần thiết để giải thích các quan hệ diễn ngôn Đối với các quan hệ diễn ngôn có từ nối rõ ràng, Arg2, được định nghĩa là các đối số

mà các từ liên kết là cú pháp liên quan, còn Arg1 không bị giới hạn về khoảng cách giữa nó và các từ liên kết, nó có thể được tìm thấy ở bất cứ đâu trong các văn bản, cùng câu hoặc ở câu trước, câu sau so với Arg2 [55]

Một quan hệ diễn ngôn rõ ràng được xác định khi tìm được các thành phần:

 Từ nối

 Hai đối số Arg1, Arg2

 Ý nghĩa quan hệ diễn ngôn

Ý nghĩa của mối quan hệ diễn ngôn rõ ràng được xác định không chỉ dựa trên nghĩa của từ nối là đủ, vì có những từ nối mang nhiều nghĩa, trong mỗi trường hợp sẽ

có một ý nghĩa, mà để xác định được ý nghĩa đó còn dựa vào hai đối số và các đặc trưng khác Hoặc, từ đó xuất hiện nhưng không mang vai trò là từ nối diễn ngôn, như

ví dụ 2.1

Ví dụ 2.1: “Financial planners often urge investors to diversify and to hold a smattering of international securities And many emerging markets have outpaced

Trang 26

more mature markets, such as the U.S and Japan Country funds offer an easy way

to get a taste of foreign stocks without the hard research of seeking out individual companies.” [wsj_0034]

Trong ví dụ này, từ and được gạch chân là từ nối, còn 2 từ and chỉ in nghiêng

còn lại không phải

2.2 Các hướng tiếp cận nhận diện quan hệ diễn ngôn rõ ràng

Nhận diện quan hệ diễn ngôn rõ ràng có ba hướng tiếp cận: xác định từ nối, xác định hai đối số (hay gán nhãn hai đối số) và phân loại ý nghĩa quan hệ diễn ngôn

Xác định từ nối trong quan hệ diễn ngôn rõ ràng có những khó khăn là từ đó

có thể xuất hiện trong câu nhưng không phải từ nối, như ví dụ 2.1 về từ and, với

hướng tiếp cận này kết quả cao nhất được công bố hiện nay là 98.38% [22] Tôi nhận thấy khó có thể cải tiến kết quả này tốt hơn nữa

Xác định hai đối số là công việc khá khó khăn để có thể xác định đầy đủ và chính xác kết quả hai đối số của một quan hệ diễn ngôn Thường thì, đối số Arg2 sẽ xác định dễ hơn so với đối số Arg1, do Arg2 đi với từ nối, còn Arg1 có thể ở vị trí câu phía trước, câu phía sau hoặc cùng câu với Arg2 Nên thường sẽ có hai bước, bước thứ nhất là xác định vị trí của Arg1 so với Arg2, bước thứ hai mới là rút trích hai đối số Đặc biệt, phải xác định đúng đối số đó chính xác là mệnh đề, câu hoặc cụm từ (đúng đến từng token), nên kết quả của việc xác định đối số chỉ là 33.39% [22] và cao nhất trong CoNLL 2016 là 43.95% [33]

Việc phân loại ý nghĩa quan hệ diễn ngôn không chỉ đơn thuần là đưa ra nghĩa

từ nối, mà còn tùy thuộc vào ngữ cảnh, hai đối số, …Nhiều khi, nghĩa của từ nối cũng khá mập mờ do từ nối đó có nhiều nghĩa, hoặc là nhập nhằng trong việc phân loại

nhãn ý nghĩa, ví dụ như từ and thì có thể mang nghĩa mở rộng kết hợp hoặc mở rộng

liệt kê Công trình [16] có kết quả phân loại ý nghĩa tốt nhất trong CoNLL 2016 78.20%

Trong luận văn, tôi tập trung vào việc nghiên cứu ảnh hưởng của các đặc trưng

Trang 27

2.3 Bộ dữ liệu PDTB và Việt Treebank

PDTB là bộ dữ liệu có chú thích quan hệ diễn ngôn lớn nhất với hơn 1,000,000

từ được lấy từ bộ dữ liệu Wall Street Journal (WSJ) Phiên bản đầu tiên của PDTB vào tháng 4 năm 2006 Phiên bản PDTB-2.0 vào tháng 2 năm 2008 thông qua Tổ chức Dữ liệu Ngôn ngữ học (Linguistic Data Consortium-LDC) Trong đó, số lượng token trong quan hệ diễn ngôn rõ ràng là 18,459, hơn 100 loại từ nối [41]

Ý nghĩa của quan hệ diễn ngôn được phân thành 3 cấp như sau:

Hình 2.1 Hệ thống cấp bậc ý nghĩa trong PDTB

Nguồn: Công trình [41]

Trang 28

CoNLL Shared Task năm 2015 và 2016 sử dụng PDTB làm dữ liệu cuộc thi Chuẩn của dữ liệu này bao gồm các cột như sau: Chỉ số token trong văn bản (Document-level token index-DTI, bắt đầu từ số 0); chỉ số câu (Sentence index-SI, bắt đầu từ số 0); chỉ số token trong câu (Sentence-level token index-STI, bắt đầu từ

số 0); từ (raw text); nhãn từ loại (POS tag); thông tin trong quan hệ thứ 1 (Relation 1 information, có thể là từ nối, arg1, arg2, hoặc không có “_”); thông tin trong quan hệ thứ 2 – R2I; … ; và giá trị các cột còn lại mặc định “_” Hình 2.2 là một minh họa theo chuẩn này

Hình 2.2 Minh họa chuẩn CoNLL cho một câu tiếng Anh.

Bộ dữ liệu Việt Treebank: Trên tiếng Việt, ít tài nguyên phục vụ cho việc nghiên cứu Treebank là một trong những tài nguyên quan trọng cho xử lý ngôn ngữ

tự nhiên Treebank là tập hợp các cây cú pháp được biểu diễn dưới một mô hình ngữ pháp cụ thể Việt Treebank [20] là một treebank tiếng Việt, một phần của dự án quốc gia - VLSP (Vietnamese Language and Speech Processing) Treebank tiếng Việt chứa khoảng 9,100 câu (tương đương khoảng 200,000 tokens)

Trong nghiên cứu của mình, tôi đã sử dụng hai bộ dữ liệu này để tiến hành các thực nghiệm và đánh giá kết quả

Trang 29

Tư tưởng chủ đạo của nguyên lý

Entropy cực đại là “mô hình phân

phối đối với mỗi tập dữ liệu và tập các

ràng buộc đi cùng phải đạt được độ

cân bằng / đều nhất có thể” Tập dữ

liệu học (tức là tập gồm các dữ liệu đã

được gán nhãn) được sử dụng để tìm

ra các ràng buộc cho mô hình, đó là cơ

sở để ước lượng phân phối cho từng

lớp cụ thể Những ràng buộc này được

thể hiện bởi các giá trị ước lượng được

của các đặc trưng Từ các ràng buộc

sinh ra bởi tập dữ liệu này, mô hình sẽ

tiến hành tính toán để có được một

phân phối cho Entropy cực đại

Cho trước một tập huấn luyện được biểu diễn trong không gian vector trong đó mỗi tài liệu là một điểm, phương pháp này tìm ra một siêu mặt phẳng h quyết định tốt nhất có thể chia các điểm trên không gian này thành hai lớp riêng biệt theo đặc trưng, điều kiện Chất lượng của siêu mặt phẳng này được quyết định bởi khoảng cách (gọi là biên) của điểm

dữ liệu gần nhất của mỗi lớp đến mặt phẳng này Khoảng cách biên càng lớn thì mặt phẳng quyết định càng tốt đồng thời việc phân loại càng chính xác Mục đích thuật toán SVM tìm được khoảng cách biên lớn nhất

Mô hình đồ thị vô hướng, dựa trên phân phối xác suất

có điều kiện, tích hợp được các thuộc tính đa dạng của chuỗi dữ liệu quan sát nhằm

hỗ trợ quá trình phân lớp Nó phân phối xác suất của toàn

bộ chuỗi trạng thái, với điều kiện biết chuối quan sát trước thay vì phân phối trên mỗi trạng thái và quan sát như trong các mô hình đồ thị

có hướng khác

Ưu

điểm

Tính mềm dẻo: Cho phép khả năng

hầu như không hạn chế trong việc

biểu diễn các vấn đề phức tạp về tri

thức thông qua dạng các hàm đặc

trưng

Có thể giải quyết nhiều dạng thuộc

tính khác nhau Các giả thiết không

cần phải độc lập với nhau Trọng số

của các đặc trưng được xác định một

cách tự động

Xử lý trên không gian chiều có thể cực

kỳ lớn

Tiết kiệm bộ nhớ: Do chỉ có một tập hợp con của các điểm được sử dụng trong quá trình huấn luyện và ra quyết định thực tế cho các điểm dữ liệu mới

Tính linh hoạt - phân lớp thường là phi tuyến tính

Giải quyết được vấn đề

“label bias” mà MaxEnt gặp phải Bất cứ một trạng thái nào cũng có thể làm tăng, giảm xác suất được truyền, đảm bảo xác suất cuối cùng được gán thỏa mãn toàn cục

Trang 30

Nhược

điểm

Vấn đề “label bias”: Các trạng thái có

phân phối chuyển tiếp entropy thấp,

có xu hướng ít được chú ý, không xác

định được rẽ nhánh đúng Sự dịch

chuyển trạng thái chỉ xem xét xác suất

giữa chúng, chứ ko xem xét xác suất

Tốn nhiều thời gian hơn so với các phương pháp khác cùng điều kiện so sánh [1]

Công trình [44]

P:86.87 R:92.00 F1:89.36

- Công cụ 1: Thư viện Stanford Core NLP: Trong đó tôi dùng các công cụ

hỗ trợ cụ thể như: Stanford EnglishTokenizer: Tách văn bản thành các token Hỗ trợ cho việc rút trích đặc trưng Stanford Parser: Phân tích câu thành cây cú pháp Stanford POS Tagger: Dùng để gán nhãn từ loại cho các token

Trang 31

- Công cụ 2: Apache OpenNLP cho mục đích phân lớp bằng MaxEnt, sử dụng ngôn ngữ lập trình là Java

Trang 32

Chương 3 NHẬN DIỆN QUAN HỆ DIỄN NGÔN VÀ

PHÂN TÍCH CÁC ĐẶC TRƯNG

Chương này trình bày chương trình nhận diện quan hệ diễn ngôn rõ ràng mà luận văn đã cài đặt và thực nghiệm Mục tiêu của luận văn là phân tích mức độ ảnh hưởng của các đặc trưng tới kết quả bài toán, nên không đi sâu vào việc cải thiện kết quả hệ thống hiện có

3.1.1 Tổng quan mô hình

Chương trình gồm 3 thành phần chính: Xác định từ nối, xác định đối số, phân loại ý nghĩa (Hình 3.1)

Hình 3.1 Mô hình minh họa chương trình nhận diện quan hệ diễn ngôn rõ ràng

Nguồn: Cài đặt theo công trình [12]

Trong đó:

- Xác định từ nối: Chỉ ra từ nối trong văn bản đầu vào Ví dụ: but, if, …

- Xác định đối số: Có 2 thành phần con là: xác định vị trí đối số, xem xét hai đối

số của quan hệ diễn ngôn rõ ràng đó ở cùng câu hay khác câu và sau đó rút

trích đối số

- Phân loại ý nghĩa: Chỉ ra ý nghĩa của quan hệ diễn ngôn rõ ràng là gì? Là nguyên nhân, kết quả hay tương phản, …

Trang 33

3.1.2 Phương pháp tiến hành

Quá trình nhận diện quan hệ diễn ngôn rõ ràng được thực hiện theo 3 bước chính tương ứng với 3 thành phần chính của mô hình như sau:

- Bước 1: Đưa một văn bản làm đầu vào, xác định trong văn bản đó có từ nối

không? Có bao nhiêu từ, ở những vị trí nào Có những từ mà trong trường hợp này là từ nối, nhưng trường hợp khác lại không phải, theo công trình [24] thống

kê thì 29.65 % trường hợp các từ đó xuất hiện trong câu là từ nối còn lại trên 70% không phải là từ nối (Hình 3.2) Chương trình phải xác định trong trường hợp nó xuất hiện trong câu có phải là từ nối trong một mối quan hệ diễn ngôn

rõ ràng hay không Tôi dùng 21 đặc trưng (Bảng 3.1) và sử dụng phương pháp Maximum Entropy (MaxEnt) để chia lớp huấn luyện

Hình 3.2 Từ “and” được gạch chân là từ nối, còn 2 từ “and” còn lại không phải

Nguồn: Trích dẫn từ công trình [24]

- Bước 2: Gồm 2 phần nhỏ: Thứ nhất, ứng với mỗi từ nối xác định vị trí của 2

đối số , đối số 2 là đối số đi cùng từ nối, nhiệm vụ là xác định vị trí đối số 1 là

ở cùng câu hay ở câu trước, câu sau so với đối số 2 Sử dụng các phương pháp cắt tỉa (pruning), để chia câu thành các cụm, sau đó rút trích các đặc trưng của các cụm đó [12] để biết được vị trí giữa 2 đối số với nhau Thứ hai, xác định chính xác 2 đối số (chuỗi token) bằng 2 bước con: một là chia mệnh đề (clause spliter), hai là phân lớp (Classification) các mệnh đề đó là đối số 1 hay đối số

2 nhờ các đặc trưng [12] Xác định đối số được tính là đúng khi xác định chính xác chuỗi của 2 đối số (chuỗi tokens) Đây cũng chính là khó khăn của bước

Trang 34

này, như ví dụ trong Hình 3.3, từ “and” thuộc đối số 2, nằm phía trước từ nối, còn phần còn lại của đối số 2 lại nằm ở phía sau từ nối (phần in đậm)

Hình 3.3 Đối số 2 nằm ở vị trí cả trước và sau từ nối

- Bước 3: Phân loại ý nghĩa của mỗi quan hệ diễn ngôn rõ ràng đó bằng cách

dựa vào từ nối, cây cú pháp,… Nếu chỉ dựa vào từ nối để phân loại ý nghĩa, thì không chính xác ở những trường hợp những từ đó xuất hiện nhưng không mang nghĩa mà theo mặt chữ nó mang hoặc từ nối đó có nhiều nghĩa, nên dẫn đến nhập nhằng để xác định ý nghĩa của nó [12] (Hình 3.4) Chúng tôi cũng dùng phương pháp Maxent với 10 đặc trưng trong Bảng 3

Hình 3.4 Từ “since” mang 2 nghĩa trong 2 trường hợp Trong câu 1 từ “since” mang nghĩa

về thời gian (kể từ khi), câu 2 là về nguyên nhân (bởi vì)

Luận văn cài đặt chương trình theo mô hình và phương pháp đã nêu dùng cho việc phân tích mức độ ảnh hưởng của các đặc trưng

Trang 35

Bảng 3.1 Danh sách các đặc trưng cho xác định từ nối

Feature ID Feature

1 Connective String

3 Word previous to first word of Connective String

4 Word previous to first word of Connective String + Connective String

5 Word next to last word of Connective String

6 Connective String + Word next to last word of connective String

7 Word previous to first word of Connective String + Connective String + Word next to last

word of Connective String

8 POS tag of Connective String

9 POS tag of Word previous to first word of Connective String

10 POS tag of Word previous to first word of Connective String + POS tag of Connective String

11 POS tag of Word next to last word of Connective String

12 POS tag of Connective String + POS tag of Word next to last word of Connective String

13 POS tag of Word previous to first word of Connective String + POS tag of Connective String

+ POS tag of Word next to last word of Connective String

14 Path of connective to root in syntax tree

15 Compressed path of connective to root in syntax tree

16 Self Category : Parent of connective to root in syntax tree

17 Parent Category : Parent of Self Category in syntax tree

18 Left Sibling Category : Left Sibling of Self Category in syntax tree

19 Right Sibling Category : Right Sibling of Self Category in syntax tree

20 C-syn features

21 Syn-syn features

Chú thích: Trích dẫn từ công trình [12]

Trang 36

Trong đó, các đặc trưng có nghĩa là:

- FI1 (Feature ID 1): từ nối

- FI2: từ nối viết thường

- FI3: 1 từ phía trước từ nối

- FI4: 1 từ phía trước + từ nối

- FI5: 1 từ phía sau từ nối

- FI6: từ nối + 1 từ phía sau

- FI7: 1 từ phía trước + từ nối + 1 từ phía sau

- FI8: từ loại của từ nối

- FI9: từ loại của 1 từ phía trước từ nối

- FI10: từ loại của 1 từ phía trước từ nối + từ loại của từ nối

- FI11: từ loại của 1 từ phía sau từ nối

- FI12: từ loại của từ nối + từ loại của 1 từ phía sau từ nối

- FI13: từ loại của 1 từ phía trước từ nối + từ loại của từ nối + từ loại của 1

từ phía sau từ nối

- FI14: Đường dẫn của từ nối đến gốc trong cây cú pháp

- FI15: Nén đường dẫn của từ nối đến gốc trong cây cú pháp

- FI16: Từ loại của từ nối trong cây cú pháp

- FI17: Nút cha của từ loại từ nối trong cây cú pháp

- FI18: Anh em bên trái của từ loại từ nối trong cây cú pháp

- FI19: Anh em bên phải của từ loại từ nối trong cây cú pháp

- FI20: Các cặp kết hợp từ nối – cú pháp (từ FI16 đến FI19)

- FI21: Các cặp kết hợp cú pháp – cú pháp (từ FI16 đến FI19)

Trang 37

Bảng 3.2 Danh sách các đặc trưng cho phân loại ý nghĩa.

Feature ID Feature

1 Connective String

9 C-syn features

10 Syn-syn features

Chú thích: Trích dẫn từ công trình [12].

Trong đó, các đặc trưng có nghĩa là:

- FID1 (Feature ID 1): từ nối

- FID2: từ nối viết thường

- FID3: 1 từ phía trước + từ nối

- FID4: từ loại của từ nối

- FID5: Từ loại của từ nối trong cây cú pháp

- FID6: Nút cha của từ loại từ nối trong cây cú pháp

- FID7: Anh em bên trái của từ loại từ nối trong cây cú pháp

- FID8: Anh em bên phải của từ loại từ nối trong cây cú pháp

- FID9: Các cặp kết hợp từ nối – cú pháp (từ FID5 đến FID8)

- FID10: Các cặp kết hợp cú pháp – cú pháp (từ FID5 đến FID8)

Trang 38

Ví dụ 3.1: Một câu quan hệ diễn ngôn: “Orders for durable goods were up

0.2% to $127.03 billion after rising 3.9% the month before.”

Hình 3.5 là cây cú pháp của quan hệ diễn ngôn trên

- FI6 = after rising

- FI7 = billion after rising

- FI8 = IN

- FI9 = CD

- FI10 = CD IN

Trang 40

từ FI1 đến FI21, của phân loại ý nghĩa là FID1 đến FID10 Luận văn của tôi sẽ phân tích mức độ ảnh hưởng của các đặc trưng bằng cách chạy thực nghiệm trên hệ thống cài đặt tương tự, với cùng bộ dữ liệu, và mỗi lần thực nghiệm tôi sẽ bỏ bớt ra một đặc trưng trong danh sách trên Bảng 3.1 và Bảng 3.2, sau đó tính toán kết quả của xác định từ nối và phân loại nghĩa xem đặc trưng nào ảnh hưởng nhiều nhất, làm giảm kết quả nhiều nhất, ngược lại, đặc trưng nào ảnh hưởng ít nhất đến kết quả

Ngoài ra, tôi đề xuất đánh giá mức độ ảnh hưởng của các đặc trưng theo nhóm

về từ vựng, cú pháp như Bảng 3.3 và Bảng 3.4

Bảng 3.3 Danh sách các đặc trưng theo nhóm cho xác định từ nối.

Feature Group Feature ID Feature

Lexical-String

1 Connective String

3 Word previous to first word of Connective String

5 Word next to last word of Connective String

6 Connective String + Word next to last word of connective String

7 Word previous to first word of Connective String + Connective String + Word next to

last word of Connective String

Lexical-POS tag

9 POS tag of Word previous to first word of Connective String

10 POS tag of Word previous to first word of Connective String + POS tag of Connective

String

11 POS tag of Word next to last word of Connective String

12 POS tag of Connective String + POS tag of Word next to last word of Connective String

13 POS tag of Word previous to first word of Connective String + POS tag of Connective

String + POS tag of Word next to last word of Connective String

Syntatic

14 Path of connective to root in syntax tree

15 Compressed path of connective to root in syntax tree

20 C-syn features

21 Syn-syn features

Định dạng
Số trang	82
Dung lượng	10,45 MB