1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học máy tính: Xây dựng kho ngữ liệu cho bài toán phân tích cú pháp phụ thuộc tiếng Việt

101 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây dựng kho ngữ liệu cho bài toán phân tích cú pháp phụ thuộc tiếng Việt
Tác giả Trương Minh Chau, Lê Doãn Thiện Nhân
Người hướng dẫn TS. Dương Việt Hằng - Chủ tịch, Ths. Nguyễn Bích Võn - Thư ký, Ths. Nguyễn Văn Kiệt - Ủy viên
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Khoa học máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2023
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 101
Dung lượng 64,1 MB

Nội dung

Hiện có một số công trình phát trié i phar pháp phụ thuộc tiếng Việt, tuy nhiên, đa số các c lại của tiếng Anh [3 được nghiên cứu rộ kho ngữ liệu cho bài phụ thuộc tiếng Việ 61 nhãn.. Sa

Trang 1

TRƯƠNG MINH CHAU

LE DOAN THIEN NHAN

CỬ NHÂN NGANH KHOA HOC MAY TÍNH

TP HO CHi MINH, 1/2023

Trang 2

ĐẠI HỌC QUỐC GIA THÀNH PHO HO CHÍ MINH

ĐẠI HỌC CÔNG NGHỆ THONG TIN

KHOA KHOA HOC MAY TÍNH

TRƯƠNG MINH CHAU -19521281

LE DOAN THIEN NHAN - 19520197

CỬ NHÂN NGANH KHOA HOC MAY TÍNH

TP HO CHi MINH, 1/2023

Trang 3

DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số 154/QD-DHCNTT

ngày 01/03/2023 của Hiệu trưởng Trường Đại học Công nghệ Thông tin

1 TS Dương Việt Hằng - Chủ tịch.

2 Ths Nguyễn Bich Vân - Thư ký.

3 Ths Nguyễn Văn Kiệt - Ủy viên.

fH

Trang 4

LỜI CÁM ƠN

Lời đầu tiên, chúng tôi xin gửi lời cám ơn chân thành đến giảng viên hướng dẫn - côNguyễn Thị Quý đã tận tình chỉ dạy và trang bị cho chúng tôi những kiến thức cần thiết

làm nền tảng cho chúng tôi có thể hoàn thành luận văn này Cô đã tận tình giúp đỡ, định

hướng cách tư duy và cách làm việc khoa học Đó là những góp ý hết sức quý báu khôngchỉ trong quá trình thực hiện luận văn này mà còn là hành trang tiếp bước cho chúng tôi

trong quá trình học tập và lập nghiệp sau này.

Bên cạnh kiến thức đã tích góp trong quá trình học tập, chúng tôi đã tìm hiểu thêmnhững kiến thức mới để hoàn thành đề tài này Tuy nhiên trong quá trình thực hiện luận

văn chắc chắn sẽ không tránh ong nhận được sự nhận xét, ý

kiến đóng góp, phê bình ip thời sửa chữa, bổ sung

luận văn được hoàn thị

Một lần nữa, chúng

h Châu - Lê Doan Thién Nhân

Trang 5

2.2 Ngữ liệu cho bài toán Phân tích cú pháp phụ thuộc

2.2.1 Giới thiệu các kho ngữ liệu trên thé giới

2.2.2 Giới thiệu các kho ngữ liệu trong nước

2.3 Các hướng tiếp cận cho bài toán Phân tích cú pháp phụ thuộc

2.3.1 Phân tích cú pháp phụ thuộc dựa trên đồ thị (Graph-based)

2.3.1.1 Thuật toán Eisner 0 00000048

2.3.1.2 Thuật toán Chu-Liu Edmons

iii vii

Trang 6

MỤC LỤC

2.3.2 Phân tích cú pháp phụ thuộc dựa trên bước chuyển (Transition-based) 17

2.3.2.1 Thuật toán Naive 2.2.20 0.000020 eee va 18

2.3.2.2 Thuật toán Nirve 2 2.0 2 ee 18

2.4 Kỹ thuật phát triển kho ngữ liệu ee 19

2.4.1 Các phương pháp phát triển ngitlidu 2 ee 192.4.2 Tài liệu hướng dẫn chuyển đổi tự động (Conversion Guidelines) 202.4.3 Tài liệu hướng dẫn gán nhãn thủ công (Annotation Guidelines) 202.4.4 Công cụ chuyển đổi tự động (Converter) ee 202.4.5 Người gin nhãn (AnnotaWOTS) ee 20 2.4.6 Quy trình gin nhãn (Annotation proc@sS) ẶẶẶẶẶ o 21

2.4.7 Chọn ngữ liệu HQ HH ng ng g g g kg và 21

2.4.7.1 Kho cú pháp thành t6 VLSPÍ48] 212.4.7.2 Kho cú pháp thành tế NIVTBl50] 21

2.5 Phương pháp đánh giá kho ngữ liệu cú pháp phụ thuộc 25

2.5.1 ° ee 25

2.5.1.1 Unlabelled Attachment Score (UAS) Ặ 25 2.5.1.2 Labelled Atta tScore (LAS) @œ 25

2.5.2 Dánh giá công cœ Ộ ce :-:-:-:-: -.:-.: : : 25 2.5.3 Dánh giá ngu@ieawalfan Nee 25

rr: eS | orn 25

ce MB eB ee 26

3 XAY DUNG CONG 27

3.1 Quy trình phái điện ngwlichtim VO fo T111 1š 27 3.2 Xây dựng bQ@N⁄ãn cho Wail pr / 29

3.21 Phưấ Sháp WffÔbLcWQ nhấy, MO ỎỖỐÓ5Ô3.-⁄®Ð-®ÐĐSĐ> Tu 11 1x2 29

3.2.2 ThiciKewbo nhãn DNW tHUOC Me 2 en 29

3.2.3 Sosa ăn CiaslgrVietnamese[35] 0 ee 32

3.3 Xây dựng tài liệu chuyển đổi tự động Ặ 33

3.3.1 Phương pháp xây dựng tài liệu hướng dẫn chuyển đổi tự động 33

3.3.2 Xây dựng bộ luật tim head Ặ Q Q Q Q Q Q ee 34

3.3.2.1 Bộ luật tim Head 2 ee 34

3.3.2.2 So sánh với bộ luật của VnDT|46} 39

3.3.3 Xây dựng bộ luật gan nhãn 2.2 en 40

3.3.3.1 Bộ luật gắn nhãn 2 2.0 000200000200 007 40

3.4 Công cụ chuyển đổi tự động ee 42

3.4.1 Mô tả thuật toán HQ gà gà xxx v2 42

3.4.2 Hauxtly ee 43

3.4.2.1 Rà soát các trường hợp nhập nhing 43

3.4.2.2 Xóa các phần tử rỗng (Nullelements) 44

3.4.3 Độ phức tạp thuật toán On k v 45

Trang 7

MỤC LỤC

4 GAN NHAN NGU LIEU THU CONG 46

4.1 Phương phỏp xõy dựng tài liệu hướng dẫn gỏn nhón thủ cụng 46

4.2 Thỏch thức trong việc gin nhón tự động Ặ Ặ Q Q eee 47 4.3 Quy trỡnh gan nhón thủ cụng CC QC Q SH HH HQ k k ka 48

4.5 Giải quyết nhập nhing 2 ee 61

4.6 Quy trỡnh đảm bảo chất lượng ngữ liệu 2 CS C 62

4.6.1 Huấn luyện người gỏn nhón ngữ ligule 62

5 BÀI TOÁN PHAN TÍCH CÚ PHAP PHU THUỘC TIẾNG VIỆT 65

5.1 Cỏc phương phấp mấy học HH HH HH n k k k k k k kg 65

5.11 Support Vector Machine (SVM) 2 HQ ko 65

5.1.2 Y tưởng chớnh của ga ảnh ốẽ 65

5.2 4 Decay S77 âốđốđốœz⁄——_ù y2 69 5.2.4 2 WeiphtConstzaam ee ee 69

5.2.4.3 0) Ặ 69 5.2.4.4 Cost 2.0.0.0 00000002 69 5.2.5 Mụ hỡnh MaltParser 2 Q Q 0000000000000 000000 69

5.2.6 Mo hỡnh MSTParser 2 2 ng gà va 70 5.3 Cài đặt mụ hỡnh MaltParser va MSTParser 2 0 2 71

6 THỰC NGHIỆM, ĐÁNH GIÁ VÀ PHÂN TÍCH 75

6.1 Chuan bị dữ liệu thực nghiệm CS va 75

6.1.1 Mụ tả dữ liệu thực nghiệm 20.0 00 0220084 75 6.1.2 Phan chia tập dữ lệu 2 ee ee 75

Trang 8

MỤC LỤC

6.2 Các mô hình phân tích cú pháp phụ thudc 2 2 ee 78

6.3 Đánh giá kết quả thực nghiệm Qua 78

6.3.1 Đánh giá công cụ chuyển đổi tự động SỐ ScẶC 78

6.3.2 Dánh giá kho ngữ liệu qua mô hình phân tích cú pháp phụ thuéc 79

Trang 9

Một số ví dụ về khả nă Goll b của kết từ chính phụ “để”

Tập nhãn từ loại t "5 Ố.ÀA 8 22

Tập nhãn cụm từ, : xx UỢAC , IẾ 22

Tap nhãn mệnh de 4 ` Ấ / Ố 22

Tap nhãn chức i ll | / ẻỐẽẻẻẻẻ=—— c 22 Tập nhãn phầm 6 À po Ha 23 Tap nhãn từ, i) ars rn 23

Tap nhãn tk a konsøfjM1 ¡V4@BJØU| 23

Tập nhãn c : _sấmá«éwé ẽ.H 24

Nhãn phần tome tiene NILVBIO) 24

Ví dụ về từ nhiều Tổ trong tiếng Viet 2 ee eee 24

Ví dụ minh họa cho các trường hợp nhãn chủ ngữ được kế thừa từ Stanford [39] 30

Danh sách nhãn phụ thuộc cho kho ngữ liệu VDT 30

Bảng ví dụ về trường hợp tân ngữ gián tiếp trong kho VDT và Stanford[39] 31

Nhãn cho các thành phần complement của động từ 32

Bộ luật tìm head được sử dụng trong đề tai QC 37Điều kiện xác định các nhãn trong trường hợp bị động 44Điều kiện xác định trường hợp phủ định cccSVC 44

Độ chính xác và độ đồng thuận giữa hai annotators 64

Ví dụ minh họa về cây cú pháp phụ thuộc dưới dạng CoNLL-X 72

Độ chính xác của €ONVeTET LH HQ ng gà g và xxx 78

Kết quả trên hai mô hình parser cơ bản so với công trình của VnDT460]} 79

Trang 10

Danh sách hình vẽ

1.1 Hình thức của 2 loại cú pháp thành tố và cú pháp phụ thuộc

1.2 Ví dụ về chuyển đổi cây cú pháp thành tố sang cây cú pháp phụ thuộc

2.1 Ví dụ minh họa cây cú phá ee — b5 2.2 Ví dụ minh họa cây ] Si AC IE 2.3 Biểu diễn cây cú p h 6i Ào 8

2.4 Biểu diễn cây cú LếfÐHỌ D củ JÊ

2.5 Biểu diễn cây cú : anticl44]

2.6 Cây phụ thuộc Ua cM FS) j /

2.7 Ví du về cách 2.8 Quá trình xâ â ` én đến lúc kết hợp tạo ra cây khung hoàn thiện mới DI h l “ AA [A

2.9 Hình minh ( 6 ee 2.10 Hình minh hỗ Làs6 AML ee 2.11 Hình minh họa chỗ "Bố của thuật toán ee 2.12 Hình minh họa cho bước 4 của thuật toán cv 2.13 Hình minh họa cho bước 5 của thuật toán cv 2.14 Hình minh hoa cho bước 6 của thuật todén 2 ee 2.15 Mô tả cách hoạt động của cách tiếp cận transition-based

3.1 Quy trình xây dựng kho ngữ liệu phụ thuộc cho tiếng Việt

3.2 Cây thành tố của hai thành phần complement va modifier

3.3 Nhãn của UD_ Vietnamesel3ỗ] ee 3.4 Nhãn của VDT 00.0 2 ng vn ee 3.5 Bộ luật tim head được đề xuất bởi Choi và Palmer[ll]

3.6 Bộ luật tìm head được đề xuất bởi Johasson và Nugues|32]

3.7 Ví dụ minh họa về cây cú pháp thành tố tiếng Anh

3.8 Bộ luật tim head được đề xuất bởi Dat và cộng sự|46]

3.9 Áp dụng luật số 4 để tìm head cho ngữ danh từ Ặ 3.10 Lỗi do người làm ngữ liệu gán sai nhãn chức năng-H

36

Trang 11

Ap dung luật chuyển đổi của VnDT[46] 2 39

Ap dụng luật chuyển đổi chúng tôi đề xuất 2 ee 40

Ví dụ minh họa gan nhãn cú pháp phụ thuộc 42

Các bước chuyển đổi tự động cây thành tố sang cây phụ thuộc - 42Tổng quan về kiến trúc của công cụ chuyển đổi tự động 43

Mối quan hệ giữa “bi” và động từ đứng sau là VCOMP_ PASS trong cả câu chủ động

và bị động LH HQ ng ng gà gà kg g k k kg vi ki KV xà 48

Ap dụng luật giải quyết nhập nhằng khi chỉnh sửa ngữ liệu thủ công 62

Quy trình huấn luyện người gan nhãn cSS Ặ So 63

Phương pháp SVM phân lớp dữ liệu Ặ.ẶẶ Q.2 66

Vi du Linear SVM phân tách tập dữ liệu thành 2 tập dữ liệu con 67

Ví dụ về cách Non-Linear SVM phan tách tập dữ liệu phi tuyến tính thành các tập dt

liệu €OH ee 68

Kiến trúc của mô hình MaltParser ee ee 70

Kiến trúc của mô hình MSTParser CS ng v2 71

Cài đặt thành công và có altParser 73

Cây thành tố “ Anh ( À 76

Thống kê số lượn amie ữ ie 76

Thống kê số lượn

Trang 13

TÓM TẮT

Phan tích cú pháp phụ thuộc là một trong những đề tài nghiên cứu thu hút nhiều sự quan

tâm trong cộng đồng Xử lý ngôn ngữ tự nhiên bởi những lợi ích của nó trong việc biểu diễn

thông tin cú pháp cho nhiều tác vụ xử lý ngôn ngữ tự nhiên Hiện nay đã có rất nhiều hệ

thống phân tích cú pháp phụ thuộc được phát triển cho nhiều ngôn ngữ khác nhau trên thế

giới và đạt chất lượng cao Có một vài công trình nghiên cứu bài toán phân tích cú pháp phụ

thuộc cho tiếng Việt Tuy nhiên, chất lượng của các công trình này vẫn còn thấp so với các

ngôn ngữ phổ biến như tiếng Anh, tiếng Trung Nguyên nhân có thể là: (i) chưa có kho ngữ

liệu dành cho bài toán phân tích cú pháp phụ thuộc tiếng Việt đạt chất lượng tốt Hiện có

một số công trình phát trié i phar pháp phụ thuộc tiếng Việt,

tuy nhiên, đa số các c

lại của tiếng Anh [3

được nghiên cứu rộ

kho ngữ liệu cho bài

phụ thuộc tiếng Việ 61 nhãn Bộ nhãn thể hiện được các đặc trưng của ngônngữ tiếng Việt Sau khi phát triển bộ nhãn, chúng tôi phát triển tài liệu hướng dẫn chuyểnđổi tự động và công cụ chuyển đổi tự động cú pháp thành tố sang cú pháp phụ thuộc chotiếng Việt Công cụ của chúng tôi đạt độ chính xác >95% Để tiến hành kiểm tra và chỉnh

sửa thủ công cho ngữ liệu, chúng tôi đã thiết kế tài liệu hướng dẫn gán nhãn thủ công Tài

liệu này bao gồm các hướng dẫn để nhận diện chính xác nhãn và giải quyết những trường

hợp nhập nhằng mà phương pháp tự động không xử lý được Và đây cũng là tài liệu được

sử dụng cho quá trình huấn luyện người gán nhãn Chúng tôi còn nghiên cứu các vấn đề

khác để đảm bảo chất lượng việc gán nhãn bao gồm: quy trình gán nhãn ngữ liệu, quy

trình huấn luyện người gán nhãn, cũng như quy trình dam bảo chất lượng cho kho ngữ liệu VDT Độ chính xác và độ đồng thuận giữa những người gán nhãn đều trên >96% cho

thấy rằng kho ngữ liệu VDT của chúng tôi đáng tin cậy và đảm bảo chất lượng

Để huấn luyện hệ thống phân tích cú pháp cho tiếng Việt, chúng tôi tìm hiểu hai mô

Trang 14

hình phân tích cú pháp phụ thuộc, MaltParser và MSTParser MaltParser là mô hình

phân tích cú pháp phụ thuộc theo hướng dựa trên bước chuyển (transition-based) sử dụng hai thuật toán SVM và Memory-based Learner để học dựa trên ngữ liệu MSTParser là

mô hình phân tích cú pháp phụ thuộc dựa trên đồ thị (graph-based) áp dụng hai thuậttoán Eisner và thuật toán Edmons cho phần phân tích cú pháp và thuật toán MIRA cho

phần máy học Đánh giá mô hình MaltParser trên ngữ liệu được phát triển bởi đề tàiđạt 74,98% LAS và 78,69% UAS, cao hơn 5% LAS và 1,32% UAS so với ngữ liệu của VnDT/46] Và với MSTParser kho ngữ liệu của chúng tôi đạt 70,15% LAS và 78,03% UAS,

thấp hơn 1,51%LAS và 1,06%UAS so với ngữ liệu của VnDT[46]

⁄Z

Trang 15

[8, 17, 21]; dịch máy ( 61, 67]; tóm tắt văn bản (text summarization) [36, 62].

Sự ra đời của kho ngữ liệu được phân tích cú pháp (treebank) vào đầu những năm 1990 đã tạo

ra cuộc cách mạng trong lĩnh vực ngôn ngữ học máy tính Nguyên nhân là vì các mô hình học máy

thống kê được học trên một tập ngữ liệu mẫu đủ lớn đem lại kết quả ổn định và có độ chính xác cao56] Treebank không chỉ sử dụng để huấn luyện các hệ thống phân tích cú pháp, mà được sử dụng bởi

các nhà ngôn ngữ cho việc nghiên cứu và đánh giá chất lượng của các ứng dụng trong lĩnh vực NLP

Hiện nay, các treebanks được phân tích theo nhiều dạng cú pháp, chẳng hạn như: cú pháp thành tố

constituency treebank), cú pháp phụ thuộc (dependency treebank), Trong luận văn nay chúng tôi

ập trung vào hai dạng là cú pháp thành tố và cú pháp phụ thuộc Với cú pháp thành tố, các thành

phần của câu được biểu diễn dưới dạng cấu trúc phân cấp như trong hình 1.1a Trong khi đó, cú phápphụ thuộc sẽ biểu diễn mối quan hệ giữa các từ trong câu dưới dạng nhị phân như hình 1.1b.

Trong những năm gần đây, bài toán phân tích cú pháp phụ thuộc nhận được nghiên cứu rộng rãi bởi

cái nhà nghiên cứu trên thế giới Cụ thể phân tích cú pháp phụ thuộc không bị ràng buộc bởi trật

tự từ như phân tích cú pháp thành tố Các ngôn ngữ phổ biến như tiếng Anh hay tiếng Trung đã

độ chính xác đạt kết quả cao cho bài toán phân tích cú pháp phụ thuộc Các hướng tiếp cận cho bài

Trang 16

(a) Cây cú pháp thành tố (b) Cây cú pháp phụ thuộc

Hình 1.1: Hình thức của 2 loại cú pháp thành tố và cú pháp phụ thuộc

toán này hầu hết dựa trên máy học (machine learning) và đòi hỏi kho ngữ liệu (corpus) có gán sẵn

từ loại (POS) và quan hệ phụ thuộc (dependency relation) Hiện nay, bài toán phân tích cú pháp phụthuộc tiếng Việt chưa được nghiên cứu rộng rãi và chưa đạt kết quả cao như những ngôn ngữ phổbiến (tiếng Anh, tiếng Trung, ) Cụ thể, kết quả phân tích cú pháp phụ thuộc vẫn chưa áp dụng

được vào thực tế (dưới mức 80% trong Bảng 1.1) Nguyên nhân là vì hầu hết các công trình nghiêncứu trên tiếng Việt đều chưa thống nhất được bộ nhãn phụ thuộc (dependency label) Da số sử dung

Bảng 1.1: Do chính xá ant 1 pha Mudc ong tiếng Anh [3, 45], tiếng Trung [43, 65]

và tiếng Việt |46, 64

Trong luận văn này, ¿phát triển khesfếứ liệu mới cho bài toán phân tích cú pháp phụ thuộccho tiếng Việt Chúng tổ ac vấn đề để đảm bảo chất lượng của kho ngữ liệu Bên cạnh

đó, chúng tôi còn phát triển các tài liệu hướng dẫn gán nhãn, các công cụ hỗ trợ gán nhãn, đảm bảo

độ đồng thuận, độ chính xác Sau khi phát triển dữ liệu, chúng tôi cũng so sánh và đánh giá kho ngữ

liệu của chúng tôi trên bài toán phân tích cú pháp phụ thuộc tiếng Việt.

1.2 Mô tả đề tài

Trong luận văn này, chúng tôi phát triển kho ngữ liệu mới cho bài toán phân tích cú pháp phụ thuộctiếng Việt bằng cách chuyển đổi tự động kho ngữ liệu thành tố (NITVTB[50]) sang kho ngữ liệu phụthuộc (VDT automatic) Sau đó chúng tôi huấn luyện người gan nhãn (annotators) thực hiện kiểmtra và chỉnh sửa thủ công các lỗi còn tồn đọng trên VDT automatic để có được kho ngữ liệu đạt chất

lượng cao (VDT semi-automatic) Chúng tôi cũng đánh giá kho ngữ liệu của chúng tôi trên bài toán

phân tích cú pháp phụ thuộc.

Từ cây thành tố ở hình 1.2, chúng tôi xây dựng công cụ chuyển động để chuyển đổi cây thành tố này

Trang 17

(a) Cây cú pháp thành tốHình 1.2: Ví dụ về chuyển đổi cây cú pháp thành tố sang cây cú pháp phụ thuộc.

sang cây cú pháp phụ thuộc được thể hiện trong hình 1.2b Sau đó chúng tôi huấn luyện annotatorsdựa trên tài liệu gán nhãn do nhóm chúng tôi phát triển để tiến hành kiểm tra và chỉnh sửa thủ công

các lỗi còn tồn đọng trong cây cú pháp phụ thuộc

Mục tiêu trong khóa luận này:

e Nghiên cứu mô hình ngữ pháp phụ thuộc (dependency grammar) cho tiếng Việt.

e Nghiên cứu phương pháp xây dựng kho ngữ liệu bán tự động bằng cách kết hợp các mô hình

xây dựng ngữ liệu tự động với chỉnh sửa thủ công để có kho ngữ liệu đảm bảo chất lượng phục

vụ cho việc huấn luyện và đánh giá các mô hình phân tích cú pháp phụ thuộc tiếng Việt.

e Xây dựng tài liệu hướng dẫn chuyển đổi tự động, công cụ chuyển đổi tự động cú pháp thành tố

sang cú pháp phụ thuộc tiếng Việt

e Xây dựng tài liệu hướng dẫn gán nhãn thủ công cho cú pháp phụ thuộc tiếng Việt, trong đó các

nhập nhằng của cú pháp phụ thuộc tiếng Việt được giải quyết.

Trang 18

e Nghiên cứu bài toán phân tích cú pháp phụ thuộc tiếng Việt.

1.4 "Thách thức của đề tài

Một số thách thức của đề tài:

e Thiết kế bộ nhãn phụ thuộc cung cấp nhiều thông tin ngôn ngữ và mang đặc trưng riêng của

tiếng Việt

e Thiết kế tài liệu hướng dẫn chuyển đổi tự động và gán nhãn thủ công đảm bảo tính nhất quán,

tính chính xác và giải quyết được những hiện tượng ngôn ngữ của tiếng Việt

e Xây dựng công cụ chuyển đổi tự động đạt độ chính xác cao.

e Xây dựng kho ngữ liệu cải thiện chất lượng bài toán phân tích cú pháp phụ thuộc tiếng Việt

1 Tài liệu \ ant gì áp phụ thuộc cho tiếng Việt.

2 Tài liệu hủ i #61 cú pháp thành tố sang cú pháp phụ thuộc cho tiếng

Việt.

e Xây dựng công cụ tự động chuyển đổi cú pháp thành tố sang cú pháp phụ thuộc cho tiếng Việt

e Dánh giá ngữ liệu được phát triển bởi đề tài trên bài toán phân tích cú pháp phụ thuộc

Dã công bố một paper tại hội nghị RIVE:

e Chau Minh Truong, T V Pham, M N Phan, Nhan Doan Thien Le, T V Nguyen and Q.

T Nguyen, “Converting a constituency treebank to dependency treebank for Vietnamese,” 2022

RIVF International Conference on Computing and Communication Technologies (RIVF), Ho Chi Minh City, Vietnam, 2022, pp 256-261, doi: 10.1109/RIVF55975.2022.10013806.

1.6 Cau trúc luận van

Bồ cục của luận văn gồm 7 chương:

Trang 19

Chương 1 - Tổng quan: Giới thiệu tổng quan về đề tài, mục tiêu của đề tài và các đóng góp

chính của luận văn.

Chương 2 - Cơ sở lý thuyết: Chúng tôi cung cấp một cái nhìn tổng quan về các dạng cú

pháp Sau đó, trình bày các phương pháp xây dựng ngữ liệu trên thế giới và trong nước cho bàitoán phân tích cú pháp phụ thuộc Tiếp theo, chúng tôi sẽ nêu các hướng tiếp cận phân tích

cú pháp phụ thuộc và các vấn đề kỹ thuật cần được xem xét khi phát triển kho ngữ liệu Cuối

cùng là phần trình bày về phương pháp đánh giá kho ngữ liệu cú pháp phụ thuộc

Chương 3 - Xây dựng công cụ chuyển đổi tự động: Trong chương này, chúng tôi trình

bày quy trình phát triển kho ngữ liệu của chúng tôi Tiếp đến sẽ đi chi tiết vào việc thiết kế

bộ nhãn và tài liệu hướng dẫn chuyển đổi tự động Trong tài liệu hướng dẫn này bao gồm phầnphát triển bộ luật tìm head và bộ luật gán nhãn Cuối cùng, chúng tôi sẽ mô tả công cụ chuyểnđổi tự động mà chúng tôi xây dựng.

Chương 4 - Xây dựng tài liệu hướng dẫn gán nhãn thủ công: Trình bày những tháchthức và giải pháp trong việc xây dựng hướng dẫn chú thích cho tiếng Việt Đồng thời, chúng tôicũng thảo luận về phương pháp đảm bảo chất lượng gán nhãn bao gồm tài liệu hướng dẫn gán

nhãn, quy trình gán nhãn,

Chương 6 - Thực tôi giới thiệu về ngữ liệu thực

nghiệm và cách ph ó Tiên hãnh thttc nghiệm phân tích cú pháp phụ

thuộc cho tiếng V Pafser trên kho ngữ liệu đã chuyển đổi.

Sau đó so sánh trưếc và đưa ra kết luận Ngoài ra, chúng tôi

Trang 20

của câu hay còn gọi

có cách tiếp cận chính Tas 0 oach động và áp dụng một trong hai phương pháp top-downhoặc bottom-up Ta có ví dụ về câu "Tôi là sinh viên" được phân tích theo dạng cú pháp thành tố

Trang 21

Trong ví dụ trên, câu * Tôi là sứnh_ uiên” có hai thành phần chính đó là chủ ngữ là ngữ danh từ bao

gồm đại từ “7ö” và vị ngữ là ngữ động từ “là siính_ tiên” Bằng cách phân tích cú pháp thành tố,

xuất phát từ một câu như là một thành tố lớn nhất, sau đó phân tích xuống các thành tố nhỏ hơn

O ví dụ này, vì chủ ngữ chỉ có từ “Tôi” nên ta không thể phân tích tiếp được Đối với vị ngữ “là

sinh _ uiên”, ta có thé phân tích tiếp tục với từ “là” là động từ chính trong câu, “sinh_ vién” là ngữdanh từ bổ nghĩa cho từ “là”

Cú pháp thành tố mang lại nhiều thông tin quan trọng về mặt ngữ pháp cho các bài toán Xử lý

ngôn ngữ tự nhiên như dịch máy Thế nhưng, bộ luật phân tích cú pháp thành tố lại không thể sử

dụng đa dạng cho nhiều loại ngôn ngữ vì từng ngôn ngữ lại có các đặc trưng riêng khác nhau Điều

này dẫn đến việc phát triển bộ phân tích cú pháp rất khó vì phải thiết kế nhiều bộ luật khác nhau

phù hợp với từng ngôn ngữ sử dụng.

2.1.2 Cũ pháp phụ thuộc

2

Cú pháp phụ thuộc dựa trên ngữ nghĩa dé mô tả các mối hệ trong câu dưới dạng nhị phân

Trong cú pháp phụ thuộc, câu d ó các từ trong câu được đại diện

bởi các đỉnh và các mối quan

Mỗi từ trong câu được xáo## ãn<từ loại 5 ag) và được kết nối với các từ

khác thông qua các mối Ộ mối quanjhé phw/thuéc được định nghĩa bởi một

loại từ, ví dụ như “chủ n, j ( ừ” Ít 1aÝ modifier - ADVMOD), “tân ngữ” (object - OBJ), “tan n “tinh từ lam pho từ” (adjectival modifier

- AMOD) Ta có ví Ôi 1é ân fich theo dang cú pháp phụ thuộc như hình

2.2:

NSUBJ ea

L Ba dc

Tôi là sinh viên ` viên

Hình 2.2: Ví dụ minh họa cây cú pháp phụ thuộc

Trong ví dụ này, từ “là” là từ trung tâm ngữ nghĩa của câu nên được gan là “ROOT” Từ “7” có

mối quan hệ “NSUBJ” với từ “là” và từ “sinh_vién” có môi quan hệ “ATTR” với từ “là” Do tínhhữu ích mà cú pháp phụ thuộc mang lại có tính ứng dụng cao như khả năng cung cấp thông tin về

ngữ nghĩa của các đối tượng xuất hiện trong câu nên dạng cú pháp này được sử dụng phổ biến trong

nhiều bài toán khác nhau của lĩnh vực Xử lý ngôn ngữ tự nhiên như hệ thống dịch máy, hệ thống hỏidap (question answering) hay trích xuất thông tin (infomation extraction)

Trong bài toán phan tích cú pháp phụ thuộc, cú pháp phụ thuộc được biểu dién dưới dang đồ

thị có hướng được gán nhãn Trong đó, các nút (node) trong đồ thị tương ứng các từ có trong câu

(bao gồm cả gốc của đồ thị phụ thuộc) và các cung được gán nhãn thể hiện mối quan hệ phụ thuộc

Trang 22

giữa các nút Thông tin được mã hóa trong biểu diễn cấu trúc phụ thuộc không giống như thông tinđược thu thập trong biểu diễn cấu trúc cụm từ - loại biểu diễn cú pháp được sử dụng rộng rãi nhấttrong lý thuyết và ngôn ngữ học tính toán Cấu trúc phụ thuộc chỉ thể hiện mối quan hệ phụ thuộc

giữa các từ được phân loại theo các loại chức năng như chủ ngữ (SBJ), tân ngữ (OBJ), v.v thay vì

nhóm các từ thành cụm từ như cấu trúc cụm từ

Ở hình thức tổng quát nhất, cấu trúc phụ thuộc là một đồ thị có hướng đơn giản Do đó, cách

biểu diễn một cây cú pháp phụ thuộc đúng đắn cần phải thỏa các tính chất[13] sau:

e Acyclic: Đồ thị có hướng không có bất kỳ chu trình có hướng (directed cycles) nào.

e Single-head: Ngoại trừ nút gốc (root node), mỗi đỉnh chỉ có duy nhất cung chỉ tới (incoming

arc) đỉnh đó.

e Connectivity: Mọi đỉnh phân biệt của đồ thị đều có thể tìm được đường đi đến các đỉnh còn

lại mà không tính hướng của cung.

e Projectivity: Không có sự xuất hiện của các cạnh chéo (cross-edges).

a một vòng cung có hướng và mỗi từ chi có

é hiện được tính chất không có cạnh chéo khi

Trong hình 2.3, mối

đúng một từ trung

không có vòng cung

2.1.3 Các dạng cú pháp khác

Ngoài hai dạng cú pháp đã được trình bày ở trên, trên thế giới vẫn có một số treebanks được tạo ra

ang cách kết hợp phân tích cú pháp thành tố và phân tích cú pháp phụ thuộc như Kho ngữ liệuTIGER[6] cho tiếng Dic Trong kho ngữ liệu này, mỗi câu được biểu diễn dưới dạng cây cú pháp màrong đó các nút non-terminal biểu diễn nhãn theo cú pháp thành tố và các cạnh biểu thị nhãn cú

pháp phụ thuộc như trong hình 2.4.

Ngoài ra, kho ngữ liệu Syntatic-Semantic[44] cho tiếng Ý cũng sử dung dạng kết hợp này, tuy nhiên

khác với kho ngữ liệu TIGER|6] cho tiếng Dức, kho ngữ liệu này biểu diễn cả hai cú pháp ở hai lớpkhác nhau và biểu diễn câu cú pháp bằng cách kết hợp lại như hình 2.5

Một số kho ngữ liệu khác như Sinica cho tiếng Trung hay Turing cho tiếng Anh sử dụng phương pháp

gán nhãn ngữ nghĩa (semantic annotation) để cải thiện chất lượng cho kho ngữ liệu Đối với kho ngữ

iéu Sinica[10] cho tiếng Trung, vai trò ngữ nghĩa được gán cho từng thành tố Trong khi đó, kho ngữ

Trang 23

[ss] [HO]

Ein Mann kommt 9 der lacht

ART NN VVFIN $, PRELS VVFIN

Masc.Nom.Sg

a man comes who laughs

Hình 2.4: Biểu diễn cây cú pháp kết hợp của kho ngữ liệu TIGER{6]

= Constituent structure annotation

= Functional annotation = sv2-arg [arrivare,

sogg (sembrare, Giovanni) Ze savv-mod [domani]] ]

arg (sembrare, —,

arrivare.<status= aperto>) mod (arrivare, domani)

sogg (arrivare, Giovanni)

⁄,

Hình 2.5: Biểu Gén Cú N của kho agt liệu Syntatic-Semantic[44].

liệu Turin[5] cho tiếng ‘hi -| Fee aa TBs rên đác mối quan hệ phụ thuộc giữa các

từ trong câu.

2.2 Ngữ liệ ân tích cú pháp phụ thuộc

2.2.1 Giới thiệu các kho ngữ liệu trên thé giới

Trong suốt một thập kỷ qua, việc xây dựng kho ngữ liệu phụ thuộc nhận được nhiều sự quan tâmtrong cộng đồng nghiên cứu ngôn ngữ tự nhiên bởi vì đây là bước tạo ra bộ dữ liệu thực nghiệm phục

vụ cho các bài toán ứng dụng trong lĩnh vực NLP nói chung và bài toán phân tích cú pháp phụ thuộc

nói riêng Chính vì vậy mà không ít nhóm nghiên cứu trên thế giới đã bắt tay vào phát triển các khongữ phụ thuộc và tạo được tiếng vang lớn trong cộng đồng Nổi bật nhất là các công trình xây dựng

kho ngữ liệu phụ thuộc dành cho ngôn ngữ Anh Các kho ngữ liệu này được thực hiện bằng nhiều cách

thức khác nhau như gan nhãn phụ thuộc thủ công của Rambow[57] hoặc Cmejrek|6S] Tuy nhiên, số lượng kho ngữ liệu được phát triển bởi phương thức này rất ít vì những hạn chế về mặt thời gian,nhân lực Do đó, các nhà nghiên cứu đã chuyển sang hướng tiếp cận phát triển một kho ngữ liệu phụthuộc dựa trên cấu trúc phân cụm của kho ngữ liệu thành tố bằng cách thiết lập bộ luật để xây dựngmột công cụ chuyển đổi tự động như của Johansson và Nugues[32], de Marneffe và Manning[24], và

Choi và Palmer{i1] Khi vừa được công bố, các kho ngữ liệu ấy không những được đánh giá cao về

Trang 24

mặt chất lượng và độ chính xác mà còn là nền móng, tài liệu cơ sở cho các công trình nghiên cứu củanhững ngôn ngữ khác tham khảo như tiếng Đức|60], tiếng Phap[7], tiếng Trung[37], tiếng Hàn[14].

Phan tích cú pháp phụ thuộc đã và đang phát triển nhộn nhịp hơn bao giờ hết vì tinh ứng dụng của

no.

2.2.2 Giới thiệu các kho ngữ liệu trong nước

Với tình hình nghiên cứu trong nước, chúng tôi đã đi tìm kiếm các tài liệu liên quan và thấy rằng

số lượng công trình thực hiện đề tài này vẫn còn rất ít cùng với kết quả đạt được chưa cao Dựa

vào số liệu đã được thống kê trong bảng 1.1, độ chính xác cho kho ngữ liệu phụ thuộc tiếng Việt

vẫn chưa vượt qua mức 80% khi so với tiếng Anh đạt hơn 95% và tiếng Trung hơn 85% Từ đó cho

thấy kết quả của các nghiên cứu về phân tích cú pháp phụ thuộc cho tiếng Việt chưa thể áp dụng

vào thực tế vì độ chính xác còn thấp hơn so với mức trung bình chung mà các ngôn ngữ khác đạt được.

Sau khi khảo sát các công trình nghiên cứu trong nước, chúng tôi nhận ra vấn đề của việc đề xuất các

nhãn dựa trên nhãn chức năng như tron Họ đã sử dụng nhãn chức năng để

mệnh đề

Có thể thấy từ ví dụ ở

nhãn chức năng lam di ấn hung tính nhân uăn nay chưa du súc

thuyết _ phục trong cộn, h a VẬDT|46], “tinh” được đặt tên là SUB làm

chủ ngữ của mệnh đề i ề trưò Ếchủ fet là khi động từ đứng ở đầu câu thay thế

Hình 2.6: Cay phụ thuộc áp dung luật của VnDT|46]

Đối với kho ngữ liệu VietTreebank[64], hầu như tất cả các đặc trưng là những đặc điểm phân biệt

Trang 25

được chuyển từ tiếng Anh sang Tiếng Việt Do đó, kho ngữ liệu này không thể bao gồm toàn bộ các

trường hợp của tiếng Việt Khi kiểm tra kho ngữ liệu VietTreebank|64], chúng tôi lưu ý rằng kho văn

bản này không liệt kê tên của những từ và cụm từ có nguồn gốc từ Trung Quốc Điều này làm cho nó

không thể dán nhãn đầy đủ cho các trường hợp đó Trong những trường hợp này, chúng tôi đã thêm

nhãn dành cho các từ Hán Việt (SINO) vào kho văn bản của mình để làm cho nó độc quyền hơn Vi

dụ:

1 Vién [phó] SINO(Viện, phó)

2 [Bất] phương trình SINO(phương trình, Bất)

3 Huấn luyện [viên SINO(Huấn_ luyện, viên)

Xem xét các mối quan hệ khác giữa các danh từ phân loại và các loại từ khác, Viet'Treebank[64] giải

quyết một trường hợp một danh từ chung bổ nghĩa cho một danh từ thuộc loại nhãn NC và bỏ qua

các danh từ phân loại khác có thể kết hợp với từ động từ và trường hợp từ tính từ Chúng tôi quyết

định giải quyết trường hợp này bằng cách thêm nhãn NCS, đây là một số ví dụ:

1 [Nỗi sợ hãi NCS(Nỗi, sợ hãi)

i ig lai)

, đây là kết quả của việc phân tích

cú pháp ở cấp độ cụm f i Ì và không đưa ra kết quả thực hiện trên

“TO” được sử dung tro? b 38] dé gan nhãn cho tất ca từ “to” trong tiếng Anh vi “to”

có kha năng kết hợp va chức năng cú pháp đặc biệt so với các giới từ khác Trong khi đó, nhãn “TO”

dùng trong BKTreebank|47] đại diện cho kết từ chính phụ “để” trong tiếng Việt trong ngữ cảnh có

nghĩa “in order to”.

STT Cau Giai thich

» te ° aa a xon§ vác: Kết từ “để” có khả năng kết hợp và chức năng cú pháp

3 Tôi lại am ¢ đẻ ‘we _ giống các kết từ khác như “cho”, “rồi” — đều có mối quan hệ

ðt am Na € vem zen phụ thuộc với ngữ động từ theo sau.

4 Tôi làm bài tập rổ¿ xem phim.

He came here to help me 2 P ; " ›

5 {Anh ấy đến đã dể iúp toi} “dé” cho dù có nghĩa tiếng Anh là “to” hay “in order to” đều có

He tome here in ode, to help me mối quan hệ phụ thuộc với ngữ dong từ “giúp toi”.

6 {Anh ấy đến đây để giúp tôi.}

Bảng 2.1: Một số ví dụ về khả năng kết hợp và chức năng cú pháp của kết từ chính phụ “để” trong

tiếng Việt

lhttps://dantri.com.vn/

Trang 26

Xét về chức năng cú pháp và khả năng kết hợp thì kết từ “để” có khả năng kết hợp giống với rất nhiều kết từ khác trong tiếng Việt như dòng 1 đến 4 trong bảng 2.1 Thậm chí kết từ “để” có nghĩa

“in order to” có khả năng kết hợp và chức năng cú pháp cũng giống kết từ “để” có nghĩa “to” ở ví dụdong 5 và 6 trong bảng 2.1 Điều này cho thấy rằng việc dành riêng nhãn từ loại “TO” để gan nhãncho kết từ chính phụ “để” có nghĩa “in order to” có thể gay nhập nhằng cho cả người gán nhãn thủ

công lẫn các hệ thống máy học

2.3 Các hướng tiếp cận cho bài toán Phân tích cú pháp phụ

thuộc

2.3.1 Phân tích cú pháp phụ thuộc dựa trên đồ thị (Graph-based)

Đây là một hướng tiếp cận dựa trên đồ thị xác định một không gian bao gồm các đồ thị phụ thuộc

ứng cử viên cho một câu Vấn đề học tập là tạo ra một mô hình để gán điểm cho biểu đồ phụ thuộc

ứng cử viên cho một câu và vấn đề

câu đầu vào của một mô hình

trùm tối đa, vì ý tưởng của

thuộc con và sử dụng một

thuộc Sau đó, tìm những

phụ thuộc điển hình cho hug

Theo ý tưởng, phươ

giống đồ thị phụ th

e G là tập chứa

con của G, chứa ta

e V là tập đỉnh có tất cả các từ của câu x được đánh index từ 1 đến n và index 0 sẽ là vị trí của

ROOT.

V = {#o,#1,#2, #„V%;¡ € S}

e E là tập hợp các cạnh (mối quan hệ) duy nhất theo thứ tu x; + 2; với z; là từ gốc và a; là từ

phụ thuộc của câu 2, r là quan hệ phụ thuộc giữa từ x; với từ x; theo luật L.

Trang 27

e f(i,j,r) là vector đặc trưng đã được trích xuất từ bang đặc trưng tùy chọn của bộ MSTParser|27].

Ti công thức trên, ta có thể tính trọng số cạnh phụ thuộc của cả đồ thị phụ thuộc của câu z[64] như

sau:

s(G„ = (Vx, Ex)) = Loge be (tJ, r)

Đối với w, w là vectơ trọng số được cập nhật liên tục bằng một mô hình máy học, chẳng hạn như

MIRA-Margin Infused Relaxed Algorithm Khi đã tính toán xong trọng số của các cạnh xuất hiện

trong tập E, ta sẽ dùng một hàm để trích xuất các cây khung có điểm số cao nhất từ các đồ thi con,

và cây khung sau cùng là cây có điểm số cao nhất, ta có thể biểu diễn việc phân tích cú pháp theocông thức|64| sau:

Hình 2.7: Ví dụ về cách thức tìm ra cây khung có điểm số cao nhất

2.3.1.1 Thuật toán Eisner

Để giải quyết bài toán trích xuất cây khung lớn nhất từ đồ thị đầy đủ, Collins[16] đã đề xuất mot

thuật toán trích xuất đồ thị phụ thuộc từ đồ thị hoàn chỉnh dựa trên mô hình phân tích cạnh Nhưng

do độ phức tạp của thuật toán này quá lớn, cụ thể là O(n5) nên nếu trường hợp câu văn dài thì

thuật toán này không thật sự lý tưởng về mặt thời gian và chỉ phí tính toán Chính vì thế thuật toán

Eisner|27] ra đời, được cải tiến từ thuật toán Collins, với độ phức tap chi O(n), đây là thuật toánquy hoạch động với chiều quy hoạch theo hướng bottom-up phổ biến nhất hiện nay

Thuật toán sử dụng một bảng quy hoạch động để lưu trữ độ hoàn thiện, giá trị tốt nhất ( điểm

số cao nhất ) của các cây con từ vị trí ti i đến vị trí từ 7 thỏa mãn điều kiện 1 < i < 7 < n Thuật

toán được biểu diễn dưới dạng mã giả như sau:

Trang 28

Algorithm 1 Thuật toán Eisner

// _ Khởi tạo uới bằng C

C{s]|[s] [d][c] = 0.0 Vs € {1 n},d € {—,—>},c € {0, 1}

for mm = 1 to + do

for ¿ = 1 to (n — m + 1) do

j=i+1

// _Xâu dựng các khung chưa hoàn thiện từ các khung đã hoàn thiện

Clif] [-][0] = maz¡<u<;(Cfil[u|[—>][T] + Clu + 1]|7]|<—|[T] + score(i, 7)) CLL ]-][0] = maricu<;(Clil[ul[>][] + Clu + 1][7|[<—][T] + seore(7, 2))

// Xéy dựng các khung hoàn thiện

Clif] [A] [1] = maz¡<u<;(Clil[a]|->]J0] + CJe][2]|>]H]

ci 7]l<—]IH] = maz¡<u„<j(Cfi[el[<—]Ï1] + Clu] [7] [-][0]

end for

Khởi tao với một bảng quy hoạch động Œ với giá trị khởi tạo cho các cây trong bang bằng 0 Với

Chi fi) {dl [e):

e ¡ và 7 là 2 từ biên của khung thỏ

e c có giá tri là 0 hoa

ngược lại.

xây dựng các cây chữ NÓa lên trong đoạn (i, j|.

e Xây dựng khung hoàn thiện trong đoạn [i, j] bằng việc kết hợp một khung chưa hoàn thiện và một khung hoàn thiện theo cả hai chiều i > 7 và j > i.

Quá trình thuật toán hoạt động được biểu diễn trong hình 2.8.

2.3.1.2 Thuật toán Chu-Liu Edmons

Được đề xuất lần đầu vào năm 1965 bởi Chu - Liu[15], sau đó 2 năm, thuật toán được hoàn thiện bởiEdmonds[|26] và được công bố vào năm 1967

Khởi tạo với việc chọn lọc tham lam, bắt đầu tại ROOT, và sau đó, thông qua quá trình dọn dẹp mà

xóa đi chu trình của các đỉnh Quá trình dọn dẹp này bắt đầu bằng việc tinh chỉnh tất cả trọng số có

trong đồ thị bằng việc tìm giá trị trọng số lớn nhất trong các cạnh đi tới đỉnh đang theo dõi và dùng

trọng số của các cạnh đi tới đỉnh đó trừ đi giá trị trọng số lớn nhất đã tìm được Bằng cách này, sau khi

Trang 29

Vin itl] Wh j iN

Hình 2.8: Quá trình xây dung cây khung chưa hoàn thiện đến lúc kết hợp tạo ra cây khung hoàn thiện

mới

kết thúc quá trình tỉnh chỉnh, thuật toán tạo ra một đồ thị mới với các đỉnh có giá trị bé hơn hoặc bằng

0 và các cạnh có giá trị bằng 0 chính là các cạnh mục tiêu và các cạnh này tạo nên cây khung được chọn

Sau khi tỉnh chỉnh giá trị trọng s một đồ thị mới bằng cách lựa chọn

1 chu trình con và thu gọn lại

trỏ tới đỉnh mới và xóa đi © có quan hệ ha nằm trong chu trình con Lúc này, thuậttoán tiếp tục việc lựa chọ \ lựa chọn tham lam và lặp lại

quá trình làm sạch cho đ

Để hiểu rõ hơn quá t bày một ví dụ điển hình cho cách hoạt

động của thuật toán:

Trang 30

Hình 2.12: Hình minh họa cho bước 4 của thuật toán.

Bước 4: Thu gọn đồ thị bằng cách tìm các đồ thị con có xuất hiện chu trình (cạnh đến và cạnh đi đều

có trọng số bằng 0) và gộp chúng lại tạo ra đỉnh mới Một đồ thị mới được hình thành (hình 2.12)

Bước 5: Lap lại bước 2 và bước 3 cho đến khi không còn chu trình có ràng buộc đã đề ra (hình 2.13).

Bước 6: Khi đến bước này, chứng tỏ cây khung đồ thị đã không còn chu trình con Lúc này, thuậttoán truy ngược lại và tách các đỉnh đã hợp nhất ra Trong quá trình truy ngược, thuật toán xóa đi

các cạnh đã tạo nên chu trình con bằng cách so sánh với giá trị trọng số được gán tại thời điểm truy

ngược, nếu cạnh nào lớn hơn giá trị đó sẽ bị xóa đi Như vậy, kết quả thu được là một đồ thị có các

cạnh sở hữu trọng số cao nhất mà không có bất kỳ chu trình con nào trong đồ thị phụ thuộc (2.14)

Trang 31

Hình 2.13: Hình minh hoa cho bước 5 của thuật toán.

Deleted from cycle

2.3.2 Phân tích c

based)

Phương pháp dựa tr i ‘iu bang cách xác định một hệ thống chuyển

tiếp hoặc trạng thái

đề học tập là tạo ra ỗ ê dự đoán chuyển đổi trạng thái tiếp theo dựa trênlịch sử chuyển đổi, và pháp là xây dựng trình tự chuyển đổi tối uu cho câu đầuvào với mô hình được tạo ra Điều này đôi khi được gọi là giảm chuyển đổi (shift-reduce) phân tích

cú pháp phụ thuộc, vì ý tưởng của cách tiếp cận này giống với Shift-Reduce-Parsing, một thuật toánđược đề xuất bởi Aho and Ullman|2]

Đầu vào sẽ là một buffer với từng phần tử của buffer tương ứng với từng chữ thuộc câu đầu vàotheo thứ tự từ trái sang phải và mang chỉ mục từ 1 > n Trong đó, n là số từ trong câu đầu vào

Thuật toán sử dụng Stack có ROOT là phần tử đầu tiên để lưu trữ các dữ liệu đã được xử lý mộtphần thông qua parser; một tập L chứa các nhãn phụ thuộc; một parser để đưa ra các hành động; xác

định mối quan hệ giữa hai từ trên cùng của stack thông qua một hàm dự đoán được gọi là Oracle

Thuật toán được mô tả như hình bên dưới:

Khởi đầu thuật toán, parser sẽ nhận các từ trong buffer theo thứ tự từ trái sang phải Mỗi khi

shift 1 phần tử của buffer, parser xử lý và đẩy vào stack Sau đó, Oracle sẽ xem xét bước chuyển phùhợp cho parser để xử lý 2 phần tử trên cùng của ngăn stack Kết quả nhận được sau khi đưa câu văn

vào thuật toán sẽ là một tập S chứa mối quan hệ phụ thuộc giữa các từ xuất hiện trong câu văn đó

Trang 32

RIGHTARC SHIFT

Action

Hình 2.15: Mô tả cách hoạt động của cách tiếp cận transition-based

2.3.2.1 Thuật toán Naive

Ý tưởng chính của thuật toán này là sử dụng tìm kiếm tham lam (Greedy Search) để tìm ra mối quan

hệ phù hợp nhất Thuật toán sử dụng cách tiếp cận Transition-based để thực hiện việc gán nhãn phụthuộc Cụ thể, ở mỗi bước, Oracle thực hiện xem xém các hành động sau:

e Left Arc: Gán từ trên cùng › sau nó trong stack và xóa từ theo sau nó ra khỏi stack.

e Right Arc: Gan từ t é Am head cialti trên cùng nhất trong stack,

đồng thời xóa từ tré

e Shift: Không gan heg

máy học nào phù hd Fan hệ chang hạn như Multi-class Support Vector

Machine.

2.3.2.2 “Thuật toán Nirve

Phương pháp nay còn được biết đến với tên arc standard được phát triển bởi Nirve 2003[53, 55].Cũng giống như cách tiếp cận Transition-based cơ bản đã trình bày ở trên, thuật toán thay đổi quátrình thực hiện, xem xét khi sử dụng các hành động của parser, cụ thể gồm các hành động sau:

e Reduce: Nếu từ trên cùng của Stack nếu nó có tham qua vào một mối quan hệ phụ thuộc và là

từ phụ thuộc thì sẽ bị xóa khỏi Stack.

e Left Arc: Xem xét từ trên cùng của Stack va gán nó làm head cho từ đứng dưới nó trong Stack.

e Right Arc: Xem xét từ trên cùng thứ 2 của Stack và gán nó làm head cho từ dứng trên nó(trên

cùng nhất), sau đó, xóa tit trên cùng nhất ra khỏi Stack

e Shift: Không thực hiện gan head, lưu từ vào Stack để xử lý sau

Trang 33

Các hành động trên phải tuân theo điều kiện sau:

e Chỉ áp dụng Left Arc khi và chỉ khi vị trí của ROOT không thuộc top 2 phần tử đầu của Stack

e Cả hai hành động bao gồm Left Arc và Right Arc chỉ được thực hiện khi có ít nhất 2 phần tử

trong Stack không bao gồm ROOT

2.4 Kỹ thuật phát triển kho ngữ liệu

Để có thể xây dựng, phát triển kho ngữ liệu cú pháp phụ thuộc chất lượng cho ngôn ngữ tiếng Việt

cần phải đảm bảo các tính chất như:

e Dam bảo các tài liệu tham khảo để xây dựng nên cấu trúc phụ thuộc có nguồn gốc rõ ràng, đã

được chứng minh, xem xét và cho phép lưu hành từ các chuyên gia trong lĩnh vực Xử lý ngôn

ngữ tự nhiên.

e Tìm hiểu, tham khảo ý ki ngôn ngữ học để có cái nhìn đúng

đắn, thông tin, kiến th

e Dữ liệu thực nghiệm Bảo về quy trình xây Gung và clất lượng Ưu tiên lựa chọn kho

dữ liệu phổ biến đư 6 ồng Xử lý gôn ngữ tự nhiên công nhận và

có tài liệu hướng dig ta c ữ liệu đó.

e Đảm bảo việc gá an _ lay BB hẽ, và những người gan nhãn đã có kiến

thức nền tang chắc úc, từ © af trò của các từ trong tiếng Việt

e Các tài liệu h được viết rõ ràng, mạch lạc và có kèm ví dụ cho

từng trường hop

e Các công cụ hỗ trợ việc gán nhãn thủ công cũng như tự động phải được phát triển từ những

người có kiến thức chuyên ngành về Khoa học máy tính, Xử lý ngôn ngữ tự nhiên Đồng thời

các công cụ phải được kiểm tra độ chính xác và tính đúng đắn cho luật gán nhãn

2.4.1 Các phương pháp phát triển ngữ liệu

Quá trình gán nhãn phụ thuộc có thể thực hiện bằng những phương thức như thủ công, tự động và

bán tự động Trong đó, quá trình thực hiện bằng thủ công đòi hỏi cần phải có người gan nhãn có

chuyên môn về ngôn ngữ để gan nhãn từ đầu như kho ngữ liệu phụ thuộc BK Treebank[47] hoặc tronggiai đoạn đầu tiên của quá trình phát triển kho ngữ liệu khi không có trình phân tích cú pháp và cũngkhông có dữ liệu để huấn luyện trình phân tích cú pháp Phương thức này sẽ phù hợp khi thực hiệnvới kho dữ liệu vừa và nhỏ vì nó đòi hỏi nhân lực cũng như tốn kém về mặt thời gian Để khắc phụcnhược điểm đó trên các bộ dữ liệu lớn, các nhà nghiên cứu sẽ ưu tiên chọn phương thực chuyển đổi tự

động như VietTIreebank[64], VnDT/[46] Tuy vậy, tỷ lệ gán sai nhãn cao với phương thức này vì công

cụ chuyển đổi không thể phân biệt các trường hợp nhập nhằng, cụ thể về ngữ nghĩa mà chỉ dựa vào

Trang 34

cấu trúc cú pháp để gán nhãn Để tận dụng ưu điểm của hai phương thức kia, chúng tôi quyết địnhkết hợp cả hai phương thức đó để xây dựng một kho ngữ liệu phụ thuộc bán tự động đạt chất lượngcao Trong phương thức này, chúng tôi sử dụng công cụ để chuyển đổi tự động dữ liệu trước khi đểngười gán nhãn kiểm tra và chỉnh sửa lại.

2.4.2 Tài liệu hướng dẫn chuyển đổi tự động (Conversion Guidelines)

Đối với tài liệu hướng dẫn chuyển đổi tự động, chúng tôi trình bày quy trình xây dựng một công cụchuyển đổi tự động Ngoài ra, tài liệu sẽ hướng dẫn chi tiết cách thức làm thé nào để chuyển đổi tự

động cú pháp thành tố sang cú pháp phụ thuộc Tài liệu sẽ bao gồm: bộ luật tìm head cho ngữ tiếng

Việt, cách gán nhãn cho các phụ thuộc và cuối cùng là hậu xử lý để có được một cây cú pháp phụ

thuộc hoàn chỉnh.

2.4.3 Tài liệu hướng dẫn gán nhãn thủ công (Annotation Guidelines)

dụng hiểu rõ, dễ dàng tiếp cận P : g 3 ïêu này bao gồm các định nghĩa

và đưa ra những minh họa Gi cò Bu ra các luật giải quyết nhập

ra đời và kéo theo đó

hỗ trợ việc gan nhãn die ong và chính xác hơn Chúng tôi cũng theo đó mà phát triểnmột công cụ chuyển đổi tự động từ cây thành tố sang cây phụ thuộc tự động Đồng thời, chúng tôicũng sử dụng các thang đo phù hợp cho chủ đề để tính toán độ chính xác của các công cụ trên sau

khi thực hiện xong việc gán nhãn nhằm đảm bảo chất lượng cho kho ngữ liệu của chúng tôi khi áp

dụng công cụ tự động đó.

2.4.5 Người gan nhãn (Annotators)

Việc gán nhãn phụ thuộc trước khi có thé tự động hóa thì vẫn cần có con người can thiệp vào bộ ditliệu để gán nhãn tạo dữ liệu huấn luyện cho các mô hình máy học sau này Do đó, vai trò của nhữngngười tham gia gán nhãn thủ công là rất quan trọng và không thể thiếu trong bất cứ công trình nàoliên quan đến việc xây dựng bộ dữ liệu cú pháp phụ thuộc Để có thể tham gia vào quá trình gán

nhãn này, người gán nhãn phải có nền tang tốt về cấu trúc trật tự từ của tiếng Việt, có kiến thức hoặc

tốt nghiệp chuyên ngành ngôn ngữ học, khả năng lập luận tốt và có thể hiểu tường tận bản hướngdẫn gán nhãn do chúng tôi phát triển Không chỉ như vậy, họ còn phải trải qua quá trình huấn luyện

chuyên sâu về việc gán nhãn và sẽ luôn được giám sát, đo đạc kết quả sau mỗi lần thực hiện xong

Trang 35

việc gán nhãn bằng hai cách đo bao gồm độ chính xác và độ đồng thuận giữa hai hay nhiều người gán

nhãn.

2.4.6 Quy trình gan nhãn (Annotation process)

Khong chi việc chọn lựa được những người gan nhãn có trình độ được xem trọng, ma việc giám sát

và thực hiện quá trình gán nhãn cũng đóng vai trò không thể thiếu trong mục tiêu xây dựng cây phụ

thuộc tiếng Việt chất lượng Mỗi một công trình có các bước thực hiện gán nhãn khác nhau Và trong

đề tài này, chúng tôi tiến hành xây dựng bản thảo hướng dẫn gán nhãn trước Sau đó, chúng tôi vừa

cập nhật tài liệu vừa tiến hành đo lường dữ liệu để đảm bảo được sự cải thiện của người làm dữ liệu

và mức độ hoàn thiện của bộ tài liệu hướng dẫn.

2.4.7 Chọn ngữ liệu

Để có thể xây dựng một bộ dữ liệu chất lượng cho cây cú pháp phụ thuộc tiếng Việt, việc ưu tiên

hàng đầu là chọn được một bộ ng

riêng cho tiếng Việt Đối với tả

2 kho ngữ liệu thành tố tiê

cú pháp tiếng Việt: VLSP

liệu này để chọn ra kho n

thành tố VLSP[48] được xây dựng gồm 10.374

hính trị, dudes tam từ nhật báo điện tử Tuổi Tré! Kho ngữ liệu

ớp: phân đoạn từ (WS), gán nhãn từ loại (POS tagging), và

câu về các chủ đề xa

này được gin nhãn bán

gán nhãn thành phần (bracketing) Trong giai đoạn đầu, kho ngữ liệu được sử dụng công cụ tự động

để gán nhãn cho từng lớp Sau đó tiến hành kiểm tra và chỉnh sửa nhãn bởi annotators Tuy nhiên,

các nghiên cứu trước đây [49, 51] đã chỉ ra rằng chất lượng của kho cú pháp thành tố VLSP[48] bao

gồm chất lượng của sơ đồ chú thích, hướng dẫn chú thích và quy trình chú thích không đạt yêu cầu

Cu thé hơn, kho ngữ liệu VLSP[48] chứa các chú thích không nhất quán và không chính xác Trong

phần này chúng tôi chỉ giới thiệu ngắn gọn về các tập nhãn được sử dụng trong kho ngữ liệu thành

Trang 36

3 SBAR Mệnh đề phụ (bổ nghĩa cho danh từ, dong từ, va tính từ)

4 S-EXC Cau cảm than

5 S-CMD Câu mệnh lệnh

Bảng 2.5: Tập nhãn chức năng trong VLSP|48]

STT Tag Chú thích

1 SUB Nhãn chức năng chủ ngữ

2 DOB Nhãn chức năng tân ngữ trực tiếp

3 IOB Nhãn chức năng tân ngữ gián tiếp

4 TPC Nhãn chức năng chủ dé

5 PRD Nhãn chức năng vị ngữ không phải cụm động từ

6 LGS Nhãn chức năng chủ ngữ logic của câu ở thể bị động

7 EXT Nhãn chức năng bổ ngữ chỉ phạm vi hay tần suất của hành động

8 H Nhan phan tit trung tam

9-12 TC, CMD, EXC, SPL Nhãn phan loại câu: đề-thuyết, mệnh lệnh, cảm than, đặc biệt

13 TTL Tiéu dé

14 VOC Thanh phan than goi

Trang 37

Bảng 2.6: Tập nhãn phần tử rỗng trong VLSP/[48]

STT Tag Chú thích

1 *T* Nhãn phần tử rỗng (lưu vết trong phạm vi câu)

2 *E* Nhãn phần tử rỗng ứng với hiện tượng tỉnh lược

3 *0* Nhãn phan tử rỗng ở vị trí tác tử phụ ngữ hóa

được sử dụng trong phương pháp chuyển đổi của chúng tôi được mô tả kỹ lưỡng trong tài liệu hướng

dẫn gán nhãn của Quý và cộng sự[50] Trong phần này, chúng tôi chỉ giới thiệu sơ nét về các tập nhãn

đó trong bang 2.7, 2.8, 2.9, và 2.10.

Bang 2.7: Tập nhãn từ loại trong NIIVTB[50]

STT POS Chú thích STT POS Chú thích

tag tag

1 Sv Yếu tô Hán-Việt 18 Vcp Từ so sánh

2 Ne Danh tit chi loai 19 Vw Động từ thường

3 NÑes Danh từ chỉ loại đặc biệt 20 An Số thứ tự

4 Nu Danh tit chi don vi 21 Aa Tinh từ thường

5 Nun Danh từ chỉ đơn vị đặc biệt 2 Pd Dại từ chỉ định

Trang 38

Bang 2.9: Tập nhãn chức năng trong NIIVTB[50]

STT Tag Chú thích STT Tag Chú thích

1 H Nhãn phần tử trung tâm 12 TMP_ Nhãn thời gian

2 SBJ Nhãn chủ ngữ 13 LOC Nhan địa điểm

3 LGS Nhãn chủ ngữ logic của câu 14 MNR_ Nhãn trạng ngữ chỉ cách thức

4 PRD Nhãn vị ngữ không phải ngữ động từ lỗ PRP Câu nguyên nhân hoặc mục đích

5 DOB_ Nhãn tân ngữ trực tiếp 16 CND Câu điều kiện

6 IOB Nhãn tân ngữ gián tiếp 17 CNC Cau đề-thuyết

7 CMP Nhãn bổ ngữ 18 ADV Nhãn trạng ngữ

8 TPC Nhãn chủ dé 19 HLN Chủ đề

9 MDP_ Thành phần tình thái 20 TTL Tiêu đề

10 VOC_ Thành phần than gọi 21 EXC Câu cảm thán

11 PRN Thanh phần bổ sung thông tin 2 CMD_ Câu mệnh lệnh

Bảng 2.10: Nhãn phần tử rỗng trong NITVTB[50]

STT Tag Chú thích

*T* Phần tử rỗng lưu vết của cụm từ chuyển động

*E* Phần tử rỗng ứng với hiện tượng tỉnh lược không lưu vết cho ngữ

* Phần tử rỗng ứng với hiện tượng tỉnh lược có lưu vết cho ngữ

NIIVTB[50] đề xuất 33 nh ù é of chofac từ gây nhập nhằng Như trong

bảng 2.11 thể hiện mộ hú ta nên gan các nhãn POS khác nhau vi

Z Nhãn từ loại STT Chức năng cú pháp

NIIVTB | VLSP

1 Toi /à quần áo rất nhanh- a” có thể kết hợp với thành phần modifier hoặc tân ngữ trực tiếp Vv V

2 Tôi là học sinh Động từ copula "là" thể hiện sự tương đương giữa 2 thực thể Ve V

3 Nhà ấy rất giàu Từ "ấy" là dai tit chỉ định bổ nghĩa cho danh từ "nha" Pd P

4 Ấy đang làm gì vậy? Từ "Ấy" có chức năng là đại từ nhân xưng Pp P

Bảng 2.11: Ví dụ về từ nhiều nghĩa trong tiếng Việt.

Trong bang 2.11 đưa ra 2 cặp câu ví dụ với cùng 1 từ nhưng chức năng cú pháp và ngữ nghĩa của

từ đó khác nhau Như cặp câu số 1 và 2, cũng là động từ “Ja” làm thành phần trung tâm ngữ nghĩa

chính của câu nhưng trong câu số 1 động từ “la” chỉ hành dong “ti” và nó có thể kết hợp với một

tân ngữ trực tiếp hoặc một thành phần modifier Trong khi đó, ở câu số 2 động từ “là” này được gọi

là động từ đồng dạng (copula verb) và bắt buộc phải có thành phần bổ nghĩa phía sau thì câu mới

có ý nghĩa Chính vì sự khác nhau đó mà kho NIIVTB[50] đã đề xuất 2 loại nhãn khác nhau là Vu

và Ve để có thể phân biệt chức năng cú pháp và khả năng kết hợp của từ đó trong các trường hợpkhác nhau Thế nhưng kho VLSP[48] lại sử dung cùng 1 nhãn là V nên không thể phân biệt đượccác trường hợp khác biệt cho cùng 1 từ và có thể dẫn đến việc gán nhãn phụ thuộc sai cho công cụchuyển đổi.

Trang 39

Tương tự như vậy với các tập nhãn khác, NITVTB[50] đã đề xuất thêm nhãn mới cho các đặc trưng

riêng của tiếng Việt Đồng thời trong quá trình gán nhãn thủ công, Quý và cộng sự[ð0| đã đưa ra

các quy tắc nhằm giải quyết những hiện tượng gây nhập nhằng trong tiếng Việt được đề cập chỉ tiếttrong các tài liệu hướng dẫn gán nhãn Thêm vào đó chất lượng của sơ đồ chú thích, hướng dẫn chúthích và quy trình chú thích của NIIVTB[50] đều được đảm bảo với độ chính xác hơn 90% Chính vì

vậy chúng tôi thống nhất chọn kho ngữ liệu thành tố NITVTB[50] để làm dữ liệu cho bài toán phân

tích cú pháp phụ thuộc tiếng Việt

2.5 Phương pháp đánh giá kho ngữ liệu cú pháp phụ thuộc

2.5.2 Đánh giá công cụ chuyển đổi tự động

Chúng tôi thực hiện đánh giá thông qua công cụ chuyển đổi tự động bằng cách tạo tập dữ liệu chuẩnđược gán nhãn thủ công bởi chúng tôi và dùng bộ dữ liệu ấy như kết quả tiêu chuẩn để đo độ chínhxác kết quả được tạo ra từ công cụ chuyển đổi tự động.

2.5.3 Đánh giá người gan nhãn

2.5.3.1 Đánh giá độ chính xác

Để đánh giá độ chính xác, chúng tôi đã tự xây dựng một tập dữ liệu chuẩn để kiểm tra độ chính xác

của người gán nhãn thông qua hai thang đo UAS va LAS Chúng tôi sẽ huấn luyện những người gán

Trang 40

nhãn bằng bản hướng dẫn do chúng tôi phát triển và để họ tự gán nhãn cho tập dữ liệu thô đã chuẩn

bị Sau đó dùng tập dữ liệu đã được người gán nhãn gán nhãn để kiểm tra độ chính xác các nhãn theo tập dữ liệu chuẩn mà chúng tôi đã chuẩn bị.

2.5.3.2 Đánh giá độ đồng thuận

Nhằm kiểm tra xem liệu việc huấn luyện người gán nhãn có tốt hay không, chúng tôi trực tiếp khảo

sát kết quả giữa hai người gán nhãn bằng cách sử dụng một tập dữ liệu đã được gán nhãn của người

gán nhãn 1 làm tập dữ liệu chuẩn và dùng tập dữ liệu đã được người g4n nhãn 2 gán nhãn để so sánhvới nhau Điều này giúp chúng tôi có thể kiểm soát và biết được việc huấn luyện thủ công người gán

nhãn và bản hướng dẫn của chúng tôi còn những lỗi nào Thông qua đó, tỉnh chỉnh lại bản hướng dẫn

và đúc kết các lỗi để sửa nhằm nâng cao chất lượng huấn luyện người gan nhãn.

⁄Z

Ngày đăng: 02/10/2024, 05:28

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN