Hiện có một số công trình phát trié i phar pháp phụ thuộc tiếng Việt, tuy nhiên, đa số các c lại của tiếng Anh [3 được nghiên cứu rộ kho ngữ liệu cho bài phụ thuộc tiếng Việ 61 nhãn.. Sa
Trang 1TRƯƠNG MINH CHAU
LE DOAN THIEN NHAN
CỬ NHÂN NGANH KHOA HOC MAY TÍNH
TP HO CHi MINH, 1/2023
Trang 2ĐẠI HỌC QUỐC GIA THÀNH PHO HO CHÍ MINH
ĐẠI HỌC CÔNG NGHỆ THONG TIN
KHOA KHOA HOC MAY TÍNH
TRƯƠNG MINH CHAU -19521281
LE DOAN THIEN NHAN - 19520197
CỬ NHÂN NGANH KHOA HOC MAY TÍNH
TP HO CHi MINH, 1/2023
Trang 3DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số 154/QD-DHCNTT
ngày 01/03/2023 của Hiệu trưởng Trường Đại học Công nghệ Thông tin
1 TS Dương Việt Hằng - Chủ tịch.
2 Ths Nguyễn Bich Vân - Thư ký.
3 Ths Nguyễn Văn Kiệt - Ủy viên.
fH
Trang 4LỜI CÁM ƠN
Lời đầu tiên, chúng tôi xin gửi lời cám ơn chân thành đến giảng viên hướng dẫn - côNguyễn Thị Quý đã tận tình chỉ dạy và trang bị cho chúng tôi những kiến thức cần thiết
làm nền tảng cho chúng tôi có thể hoàn thành luận văn này Cô đã tận tình giúp đỡ, định
hướng cách tư duy và cách làm việc khoa học Đó là những góp ý hết sức quý báu khôngchỉ trong quá trình thực hiện luận văn này mà còn là hành trang tiếp bước cho chúng tôi
trong quá trình học tập và lập nghiệp sau này.
Bên cạnh kiến thức đã tích góp trong quá trình học tập, chúng tôi đã tìm hiểu thêmnhững kiến thức mới để hoàn thành đề tài này Tuy nhiên trong quá trình thực hiện luận
văn chắc chắn sẽ không tránh ong nhận được sự nhận xét, ý
kiến đóng góp, phê bình ip thời sửa chữa, bổ sung
luận văn được hoàn thị
Một lần nữa, chúng
h Châu - Lê Doan Thién Nhân
Trang 52.2 Ngữ liệu cho bài toán Phân tích cú pháp phụ thuộc
2.2.1 Giới thiệu các kho ngữ liệu trên thé giới
2.2.2 Giới thiệu các kho ngữ liệu trong nước
2.3 Các hướng tiếp cận cho bài toán Phân tích cú pháp phụ thuộc
2.3.1 Phân tích cú pháp phụ thuộc dựa trên đồ thị (Graph-based)
2.3.1.1 Thuật toán Eisner 0 00000048
2.3.1.2 Thuật toán Chu-Liu Edmons
iii vii
Trang 6MỤC LỤC
2.3.2 Phân tích cú pháp phụ thuộc dựa trên bước chuyển (Transition-based) 17
2.3.2.1 Thuật toán Naive 2.2.20 0.000020 eee va 18
2.3.2.2 Thuật toán Nirve 2 2.0 2 ee 18
2.4 Kỹ thuật phát triển kho ngữ liệu ee 19
2.4.1 Các phương pháp phát triển ngitlidu 2 ee 192.4.2 Tài liệu hướng dẫn chuyển đổi tự động (Conversion Guidelines) 202.4.3 Tài liệu hướng dẫn gán nhãn thủ công (Annotation Guidelines) 202.4.4 Công cụ chuyển đổi tự động (Converter) ee 202.4.5 Người gin nhãn (AnnotaWOTS) ee 20 2.4.6 Quy trình gin nhãn (Annotation proc@sS) ẶẶẶẶẶ o 21
2.4.7 Chọn ngữ liệu HQ HH ng ng g g g kg và 21
2.4.7.1 Kho cú pháp thành t6 VLSPÍ48] 212.4.7.2 Kho cú pháp thành tế NIVTBl50] 21
2.5 Phương pháp đánh giá kho ngữ liệu cú pháp phụ thuộc 25
2.5.1 ° ee 25
2.5.1.1 Unlabelled Attachment Score (UAS) Ặ 25 2.5.1.2 Labelled Atta tScore (LAS) @œ 25
2.5.2 Dánh giá công cœ Ộ ce :-:-:-:-: -.:-.: : : 25 2.5.3 Dánh giá ngu@ieawalfan Nee 25
rr: eS | orn 25
ce MB eB ee 26
3 XAY DUNG CONG 27
3.1 Quy trình phái điện ngwlichtim VO fo T111 1š 27 3.2 Xây dựng bQ@N⁄ãn cho Wail pr / 29
3.21 Phưấ Sháp WffÔbLcWQ nhấy, MO ỎỖỐÓ5Ô3.-⁄®Ð-®ÐĐSĐ> Tu 11 1x2 29
3.2.2 ThiciKewbo nhãn DNW tHUOC Me 2 en 29
3.2.3 Sosa ăn CiaslgrVietnamese[35] 0 ee 32
3.3 Xây dựng tài liệu chuyển đổi tự động Ặ 33
3.3.1 Phương pháp xây dựng tài liệu hướng dẫn chuyển đổi tự động 33
3.3.2 Xây dựng bộ luật tim head Ặ Q Q Q Q Q Q ee 34
3.3.2.1 Bộ luật tim Head 2 ee 34
3.3.2.2 So sánh với bộ luật của VnDT|46} 39
3.3.3 Xây dựng bộ luật gan nhãn 2.2 en 40
3.3.3.1 Bộ luật gắn nhãn 2 2.0 000200000200 007 40
3.4 Công cụ chuyển đổi tự động ee 42
3.4.1 Mô tả thuật toán HQ gà gà xxx v2 42
3.4.2 Hauxtly ee 43
3.4.2.1 Rà soát các trường hợp nhập nhing 43
3.4.2.2 Xóa các phần tử rỗng (Nullelements) 44
3.4.3 Độ phức tạp thuật toán On k v 45
Trang 7MỤC LỤC
4 GAN NHAN NGU LIEU THU CONG 46
4.1 Phương phỏp xõy dựng tài liệu hướng dẫn gỏn nhón thủ cụng 46
4.2 Thỏch thức trong việc gin nhón tự động Ặ Ặ Q Q eee 47 4.3 Quy trỡnh gan nhón thủ cụng CC QC Q SH HH HQ k k ka 48
4.5 Giải quyết nhập nhing 2 ee 61
4.6 Quy trỡnh đảm bảo chất lượng ngữ liệu 2 CS C 62
4.6.1 Huấn luyện người gỏn nhón ngữ ligule 62
5 BÀI TOÁN PHAN TÍCH CÚ PHAP PHU THUỘC TIẾNG VIỆT 65
5.1 Cỏc phương phấp mấy học HH HH HH n k k k k k k kg 65
5.11 Support Vector Machine (SVM) 2 HQ ko 65
5.1.2 Y tưởng chớnh của ga ảnh ốẽ 65
5.2 4 Decay S77 âốđốđốœz⁄——_ù y2 69 5.2.4 2 WeiphtConstzaam ee ee 69
5.2.4.3 0) Ặ 69 5.2.4.4 Cost 2.0.0.0 00000002 69 5.2.5 Mụ hỡnh MaltParser 2 Q Q 0000000000000 000000 69
5.2.6 Mo hỡnh MSTParser 2 2 ng gà va 70 5.3 Cài đặt mụ hỡnh MaltParser va MSTParser 2 0 2 71
6 THỰC NGHIỆM, ĐÁNH GIÁ VÀ PHÂN TÍCH 75
6.1 Chuan bị dữ liệu thực nghiệm CS va 75
6.1.1 Mụ tả dữ liệu thực nghiệm 20.0 00 0220084 75 6.1.2 Phan chia tập dữ lệu 2 ee ee 75
Trang 8MỤC LỤC
6.2 Các mô hình phân tích cú pháp phụ thudc 2 2 ee 78
6.3 Đánh giá kết quả thực nghiệm Qua 78
6.3.1 Đánh giá công cụ chuyển đổi tự động SỐ ScẶC 78
6.3.2 Dánh giá kho ngữ liệu qua mô hình phân tích cú pháp phụ thuéc 79
Trang 9Một số ví dụ về khả nă Goll b của kết từ chính phụ “để”
Tập nhãn từ loại t "5 Ố.ÀA 8 22
Tập nhãn cụm từ, : xx UỢAC , IẾ 22
Tap nhãn mệnh de 4 ` Ấ / Ố 22
Tap nhãn chức i ll | / ẻỐẽẻẻẻẻ=—— c 22 Tập nhãn phầm 6 À po Ha 23 Tap nhãn từ, i) ars rn 23
Tap nhãn tk a konsøfjM1 ¡V4@BJØU| 23
Tập nhãn c : _sấmá«éwé ẽ.H 24
Nhãn phần tome tiene NILVBIO) 24
Ví dụ về từ nhiều Tổ trong tiếng Viet 2 ee eee 24
Ví dụ minh họa cho các trường hợp nhãn chủ ngữ được kế thừa từ Stanford [39] 30
Danh sách nhãn phụ thuộc cho kho ngữ liệu VDT 30
Bảng ví dụ về trường hợp tân ngữ gián tiếp trong kho VDT và Stanford[39] 31
Nhãn cho các thành phần complement của động từ 32
Bộ luật tìm head được sử dụng trong đề tai QC 37Điều kiện xác định các nhãn trong trường hợp bị động 44Điều kiện xác định trường hợp phủ định cccSVC 44
Độ chính xác và độ đồng thuận giữa hai annotators 64
Ví dụ minh họa về cây cú pháp phụ thuộc dưới dạng CoNLL-X 72
Độ chính xác của €ONVeTET LH HQ ng gà g và xxx 78
Kết quả trên hai mô hình parser cơ bản so với công trình của VnDT460]} 79
Trang 10Danh sách hình vẽ
1.1 Hình thức của 2 loại cú pháp thành tố và cú pháp phụ thuộc
1.2 Ví dụ về chuyển đổi cây cú pháp thành tố sang cây cú pháp phụ thuộc
2.1 Ví dụ minh họa cây cú phá ee — b5 2.2 Ví dụ minh họa cây ] Si AC IE 2.3 Biểu diễn cây cú p h 6i Ào 8
2.4 Biểu diễn cây cú LếfÐHỌ D củ JÊ
2.5 Biểu diễn cây cú : anticl44]
2.6 Cây phụ thuộc Ua cM FS) j /
2.7 Ví du về cách 2.8 Quá trình xâ â ` én đến lúc kết hợp tạo ra cây khung hoàn thiện mới DI h l “ AA [A
2.9 Hình minh ( 6 ee 2.10 Hình minh hỗ Làs6 AML ee 2.11 Hình minh họa chỗ "Bố của thuật toán ee 2.12 Hình minh họa cho bước 4 của thuật toán cv 2.13 Hình minh họa cho bước 5 của thuật toán cv 2.14 Hình minh hoa cho bước 6 của thuật todén 2 ee 2.15 Mô tả cách hoạt động của cách tiếp cận transition-based
3.1 Quy trình xây dựng kho ngữ liệu phụ thuộc cho tiếng Việt
3.2 Cây thành tố của hai thành phần complement va modifier
3.3 Nhãn của UD_ Vietnamesel3ỗ] ee 3.4 Nhãn của VDT 00.0 2 ng vn ee 3.5 Bộ luật tim head được đề xuất bởi Choi và Palmer[ll]
3.6 Bộ luật tìm head được đề xuất bởi Johasson và Nugues|32]
3.7 Ví dụ minh họa về cây cú pháp thành tố tiếng Anh
3.8 Bộ luật tim head được đề xuất bởi Dat và cộng sự|46]
3.9 Áp dụng luật số 4 để tìm head cho ngữ danh từ Ặ 3.10 Lỗi do người làm ngữ liệu gán sai nhãn chức năng-H
36
Trang 11Ap dung luật chuyển đổi của VnDT[46] 2 39
Ap dụng luật chuyển đổi chúng tôi đề xuất 2 ee 40
Ví dụ minh họa gan nhãn cú pháp phụ thuộc 42
Các bước chuyển đổi tự động cây thành tố sang cây phụ thuộc - 42Tổng quan về kiến trúc của công cụ chuyển đổi tự động 43
Mối quan hệ giữa “bi” và động từ đứng sau là VCOMP_ PASS trong cả câu chủ động
và bị động LH HQ ng ng gà gà kg g k k kg vi ki KV xà 48
Ap dụng luật giải quyết nhập nhằng khi chỉnh sửa ngữ liệu thủ công 62
Quy trình huấn luyện người gan nhãn cSS Ặ So 63
Phương pháp SVM phân lớp dữ liệu Ặ.ẶẶ Q.2 66
Vi du Linear SVM phân tách tập dữ liệu thành 2 tập dữ liệu con 67
Ví dụ về cách Non-Linear SVM phan tách tập dữ liệu phi tuyến tính thành các tập dt
liệu €OH ee 68
Kiến trúc của mô hình MaltParser ee ee 70
Kiến trúc của mô hình MSTParser CS ng v2 71
Cài đặt thành công và có altParser 73
Cây thành tố “ Anh ( À 76
Thống kê số lượn amie ữ ie 76
Thống kê số lượn
Trang 13TÓM TẮT
Phan tích cú pháp phụ thuộc là một trong những đề tài nghiên cứu thu hút nhiều sự quan
tâm trong cộng đồng Xử lý ngôn ngữ tự nhiên bởi những lợi ích của nó trong việc biểu diễn
thông tin cú pháp cho nhiều tác vụ xử lý ngôn ngữ tự nhiên Hiện nay đã có rất nhiều hệ
thống phân tích cú pháp phụ thuộc được phát triển cho nhiều ngôn ngữ khác nhau trên thế
giới và đạt chất lượng cao Có một vài công trình nghiên cứu bài toán phân tích cú pháp phụ
thuộc cho tiếng Việt Tuy nhiên, chất lượng của các công trình này vẫn còn thấp so với các
ngôn ngữ phổ biến như tiếng Anh, tiếng Trung Nguyên nhân có thể là: (i) chưa có kho ngữ
liệu dành cho bài toán phân tích cú pháp phụ thuộc tiếng Việt đạt chất lượng tốt Hiện có
một số công trình phát trié i phar pháp phụ thuộc tiếng Việt,
tuy nhiên, đa số các c
lại của tiếng Anh [3
được nghiên cứu rộ
kho ngữ liệu cho bài
phụ thuộc tiếng Việ 61 nhãn Bộ nhãn thể hiện được các đặc trưng của ngônngữ tiếng Việt Sau khi phát triển bộ nhãn, chúng tôi phát triển tài liệu hướng dẫn chuyểnđổi tự động và công cụ chuyển đổi tự động cú pháp thành tố sang cú pháp phụ thuộc chotiếng Việt Công cụ của chúng tôi đạt độ chính xác >95% Để tiến hành kiểm tra và chỉnh
sửa thủ công cho ngữ liệu, chúng tôi đã thiết kế tài liệu hướng dẫn gán nhãn thủ công Tài
liệu này bao gồm các hướng dẫn để nhận diện chính xác nhãn và giải quyết những trường
hợp nhập nhằng mà phương pháp tự động không xử lý được Và đây cũng là tài liệu được
sử dụng cho quá trình huấn luyện người gán nhãn Chúng tôi còn nghiên cứu các vấn đề
khác để đảm bảo chất lượng việc gán nhãn bao gồm: quy trình gán nhãn ngữ liệu, quy
trình huấn luyện người gán nhãn, cũng như quy trình dam bảo chất lượng cho kho ngữ liệu VDT Độ chính xác và độ đồng thuận giữa những người gán nhãn đều trên >96% cho
thấy rằng kho ngữ liệu VDT của chúng tôi đáng tin cậy và đảm bảo chất lượng
Để huấn luyện hệ thống phân tích cú pháp cho tiếng Việt, chúng tôi tìm hiểu hai mô
Trang 14hình phân tích cú pháp phụ thuộc, MaltParser và MSTParser MaltParser là mô hình
phân tích cú pháp phụ thuộc theo hướng dựa trên bước chuyển (transition-based) sử dụng hai thuật toán SVM và Memory-based Learner để học dựa trên ngữ liệu MSTParser là
mô hình phân tích cú pháp phụ thuộc dựa trên đồ thị (graph-based) áp dụng hai thuậttoán Eisner và thuật toán Edmons cho phần phân tích cú pháp và thuật toán MIRA cho
phần máy học Đánh giá mô hình MaltParser trên ngữ liệu được phát triển bởi đề tàiđạt 74,98% LAS và 78,69% UAS, cao hơn 5% LAS và 1,32% UAS so với ngữ liệu của VnDT/46] Và với MSTParser kho ngữ liệu của chúng tôi đạt 70,15% LAS và 78,03% UAS,
thấp hơn 1,51%LAS và 1,06%UAS so với ngữ liệu của VnDT[46]
⁄Z
Trang 15[8, 17, 21]; dịch máy ( 61, 67]; tóm tắt văn bản (text summarization) [36, 62].
Sự ra đời của kho ngữ liệu được phân tích cú pháp (treebank) vào đầu những năm 1990 đã tạo
ra cuộc cách mạng trong lĩnh vực ngôn ngữ học máy tính Nguyên nhân là vì các mô hình học máy
thống kê được học trên một tập ngữ liệu mẫu đủ lớn đem lại kết quả ổn định và có độ chính xác cao56] Treebank không chỉ sử dụng để huấn luyện các hệ thống phân tích cú pháp, mà được sử dụng bởi
các nhà ngôn ngữ cho việc nghiên cứu và đánh giá chất lượng của các ứng dụng trong lĩnh vực NLP
Hiện nay, các treebanks được phân tích theo nhiều dạng cú pháp, chẳng hạn như: cú pháp thành tố
constituency treebank), cú pháp phụ thuộc (dependency treebank), Trong luận văn nay chúng tôi
ập trung vào hai dạng là cú pháp thành tố và cú pháp phụ thuộc Với cú pháp thành tố, các thành
phần của câu được biểu diễn dưới dạng cấu trúc phân cấp như trong hình 1.1a Trong khi đó, cú phápphụ thuộc sẽ biểu diễn mối quan hệ giữa các từ trong câu dưới dạng nhị phân như hình 1.1b.
Trong những năm gần đây, bài toán phân tích cú pháp phụ thuộc nhận được nghiên cứu rộng rãi bởi
cái nhà nghiên cứu trên thế giới Cụ thể phân tích cú pháp phụ thuộc không bị ràng buộc bởi trật
tự từ như phân tích cú pháp thành tố Các ngôn ngữ phổ biến như tiếng Anh hay tiếng Trung đã
độ chính xác đạt kết quả cao cho bài toán phân tích cú pháp phụ thuộc Các hướng tiếp cận cho bài
Trang 16(a) Cây cú pháp thành tố (b) Cây cú pháp phụ thuộc
Hình 1.1: Hình thức của 2 loại cú pháp thành tố và cú pháp phụ thuộc
toán này hầu hết dựa trên máy học (machine learning) và đòi hỏi kho ngữ liệu (corpus) có gán sẵn
từ loại (POS) và quan hệ phụ thuộc (dependency relation) Hiện nay, bài toán phân tích cú pháp phụthuộc tiếng Việt chưa được nghiên cứu rộng rãi và chưa đạt kết quả cao như những ngôn ngữ phổbiến (tiếng Anh, tiếng Trung, ) Cụ thể, kết quả phân tích cú pháp phụ thuộc vẫn chưa áp dụng
được vào thực tế (dưới mức 80% trong Bảng 1.1) Nguyên nhân là vì hầu hết các công trình nghiêncứu trên tiếng Việt đều chưa thống nhất được bộ nhãn phụ thuộc (dependency label) Da số sử dung
Bảng 1.1: Do chính xá ant 1 pha Mudc ong tiếng Anh [3, 45], tiếng Trung [43, 65]
và tiếng Việt |46, 64
Trong luận văn này, ¿phát triển khesfếứ liệu mới cho bài toán phân tích cú pháp phụ thuộccho tiếng Việt Chúng tổ ac vấn đề để đảm bảo chất lượng của kho ngữ liệu Bên cạnh
đó, chúng tôi còn phát triển các tài liệu hướng dẫn gán nhãn, các công cụ hỗ trợ gán nhãn, đảm bảo
độ đồng thuận, độ chính xác Sau khi phát triển dữ liệu, chúng tôi cũng so sánh và đánh giá kho ngữ
liệu của chúng tôi trên bài toán phân tích cú pháp phụ thuộc tiếng Việt.
1.2 Mô tả đề tài
Trong luận văn này, chúng tôi phát triển kho ngữ liệu mới cho bài toán phân tích cú pháp phụ thuộctiếng Việt bằng cách chuyển đổi tự động kho ngữ liệu thành tố (NITVTB[50]) sang kho ngữ liệu phụthuộc (VDT automatic) Sau đó chúng tôi huấn luyện người gan nhãn (annotators) thực hiện kiểmtra và chỉnh sửa thủ công các lỗi còn tồn đọng trên VDT automatic để có được kho ngữ liệu đạt chất
lượng cao (VDT semi-automatic) Chúng tôi cũng đánh giá kho ngữ liệu của chúng tôi trên bài toán
phân tích cú pháp phụ thuộc.
Từ cây thành tố ở hình 1.2, chúng tôi xây dựng công cụ chuyển động để chuyển đổi cây thành tố này
Trang 17(a) Cây cú pháp thành tốHình 1.2: Ví dụ về chuyển đổi cây cú pháp thành tố sang cây cú pháp phụ thuộc.
sang cây cú pháp phụ thuộc được thể hiện trong hình 1.2b Sau đó chúng tôi huấn luyện annotatorsdựa trên tài liệu gán nhãn do nhóm chúng tôi phát triển để tiến hành kiểm tra và chỉnh sửa thủ công
các lỗi còn tồn đọng trong cây cú pháp phụ thuộc
Mục tiêu trong khóa luận này:
e Nghiên cứu mô hình ngữ pháp phụ thuộc (dependency grammar) cho tiếng Việt.
e Nghiên cứu phương pháp xây dựng kho ngữ liệu bán tự động bằng cách kết hợp các mô hình
xây dựng ngữ liệu tự động với chỉnh sửa thủ công để có kho ngữ liệu đảm bảo chất lượng phục
vụ cho việc huấn luyện và đánh giá các mô hình phân tích cú pháp phụ thuộc tiếng Việt.
e Xây dựng tài liệu hướng dẫn chuyển đổi tự động, công cụ chuyển đổi tự động cú pháp thành tố
sang cú pháp phụ thuộc tiếng Việt
e Xây dựng tài liệu hướng dẫn gán nhãn thủ công cho cú pháp phụ thuộc tiếng Việt, trong đó các
nhập nhằng của cú pháp phụ thuộc tiếng Việt được giải quyết.
Trang 18e Nghiên cứu bài toán phân tích cú pháp phụ thuộc tiếng Việt.
1.4 "Thách thức của đề tài
Một số thách thức của đề tài:
e Thiết kế bộ nhãn phụ thuộc cung cấp nhiều thông tin ngôn ngữ và mang đặc trưng riêng của
tiếng Việt
e Thiết kế tài liệu hướng dẫn chuyển đổi tự động và gán nhãn thủ công đảm bảo tính nhất quán,
tính chính xác và giải quyết được những hiện tượng ngôn ngữ của tiếng Việt
e Xây dựng công cụ chuyển đổi tự động đạt độ chính xác cao.
e Xây dựng kho ngữ liệu cải thiện chất lượng bài toán phân tích cú pháp phụ thuộc tiếng Việt
1 Tài liệu \ ant gì áp phụ thuộc cho tiếng Việt.
2 Tài liệu hủ i #61 cú pháp thành tố sang cú pháp phụ thuộc cho tiếng
Việt.
e Xây dựng công cụ tự động chuyển đổi cú pháp thành tố sang cú pháp phụ thuộc cho tiếng Việt
e Dánh giá ngữ liệu được phát triển bởi đề tài trên bài toán phân tích cú pháp phụ thuộc
Dã công bố một paper tại hội nghị RIVE:
e Chau Minh Truong, T V Pham, M N Phan, Nhan Doan Thien Le, T V Nguyen and Q.
T Nguyen, “Converting a constituency treebank to dependency treebank for Vietnamese,” 2022
RIVF International Conference on Computing and Communication Technologies (RIVF), Ho Chi Minh City, Vietnam, 2022, pp 256-261, doi: 10.1109/RIVF55975.2022.10013806.
1.6 Cau trúc luận van
Bồ cục của luận văn gồm 7 chương:
Trang 19Chương 1 - Tổng quan: Giới thiệu tổng quan về đề tài, mục tiêu của đề tài và các đóng góp
chính của luận văn.
Chương 2 - Cơ sở lý thuyết: Chúng tôi cung cấp một cái nhìn tổng quan về các dạng cú
pháp Sau đó, trình bày các phương pháp xây dựng ngữ liệu trên thế giới và trong nước cho bàitoán phân tích cú pháp phụ thuộc Tiếp theo, chúng tôi sẽ nêu các hướng tiếp cận phân tích
cú pháp phụ thuộc và các vấn đề kỹ thuật cần được xem xét khi phát triển kho ngữ liệu Cuối
cùng là phần trình bày về phương pháp đánh giá kho ngữ liệu cú pháp phụ thuộc
Chương 3 - Xây dựng công cụ chuyển đổi tự động: Trong chương này, chúng tôi trình
bày quy trình phát triển kho ngữ liệu của chúng tôi Tiếp đến sẽ đi chi tiết vào việc thiết kế
bộ nhãn và tài liệu hướng dẫn chuyển đổi tự động Trong tài liệu hướng dẫn này bao gồm phầnphát triển bộ luật tìm head và bộ luật gán nhãn Cuối cùng, chúng tôi sẽ mô tả công cụ chuyểnđổi tự động mà chúng tôi xây dựng.
Chương 4 - Xây dựng tài liệu hướng dẫn gán nhãn thủ công: Trình bày những tháchthức và giải pháp trong việc xây dựng hướng dẫn chú thích cho tiếng Việt Đồng thời, chúng tôicũng thảo luận về phương pháp đảm bảo chất lượng gán nhãn bao gồm tài liệu hướng dẫn gán
nhãn, quy trình gán nhãn,
Chương 6 - Thực tôi giới thiệu về ngữ liệu thực
nghiệm và cách ph ó Tiên hãnh thttc nghiệm phân tích cú pháp phụ
thuộc cho tiếng V Pafser trên kho ngữ liệu đã chuyển đổi.
Sau đó so sánh trưếc và đưa ra kết luận Ngoài ra, chúng tôi
Trang 20của câu hay còn gọi
có cách tiếp cận chính Tas 0 oach động và áp dụng một trong hai phương pháp top-downhoặc bottom-up Ta có ví dụ về câu "Tôi là sinh viên" được phân tích theo dạng cú pháp thành tố
Trang 21Trong ví dụ trên, câu * Tôi là sứnh_ uiên” có hai thành phần chính đó là chủ ngữ là ngữ danh từ bao
gồm đại từ “7ö” và vị ngữ là ngữ động từ “là siính_ tiên” Bằng cách phân tích cú pháp thành tố,
xuất phát từ một câu như là một thành tố lớn nhất, sau đó phân tích xuống các thành tố nhỏ hơn
O ví dụ này, vì chủ ngữ chỉ có từ “Tôi” nên ta không thể phân tích tiếp được Đối với vị ngữ “là
sinh _ uiên”, ta có thé phân tích tiếp tục với từ “là” là động từ chính trong câu, “sinh_ vién” là ngữdanh từ bổ nghĩa cho từ “là”
Cú pháp thành tố mang lại nhiều thông tin quan trọng về mặt ngữ pháp cho các bài toán Xử lý
ngôn ngữ tự nhiên như dịch máy Thế nhưng, bộ luật phân tích cú pháp thành tố lại không thể sử
dụng đa dạng cho nhiều loại ngôn ngữ vì từng ngôn ngữ lại có các đặc trưng riêng khác nhau Điều
này dẫn đến việc phát triển bộ phân tích cú pháp rất khó vì phải thiết kế nhiều bộ luật khác nhau
phù hợp với từng ngôn ngữ sử dụng.
2.1.2 Cũ pháp phụ thuộc
2
Cú pháp phụ thuộc dựa trên ngữ nghĩa dé mô tả các mối hệ trong câu dưới dạng nhị phân
Trong cú pháp phụ thuộc, câu d ó các từ trong câu được đại diện
bởi các đỉnh và các mối quan
Mỗi từ trong câu được xáo## ãn<từ loại 5 ag) và được kết nối với các từ
khác thông qua các mối Ộ mối quanjhé phw/thuéc được định nghĩa bởi một
loại từ, ví dụ như “chủ n, j ( ừ” Ít 1aÝ modifier - ADVMOD), “tân ngữ” (object - OBJ), “tan n “tinh từ lam pho từ” (adjectival modifier
- AMOD) Ta có ví Ôi 1é ân fich theo dang cú pháp phụ thuộc như hình
2.2:
NSUBJ ea
L Ba dc
Tôi là sinh viên ` viên
Hình 2.2: Ví dụ minh họa cây cú pháp phụ thuộc
Trong ví dụ này, từ “là” là từ trung tâm ngữ nghĩa của câu nên được gan là “ROOT” Từ “7” có
mối quan hệ “NSUBJ” với từ “là” và từ “sinh_vién” có môi quan hệ “ATTR” với từ “là” Do tínhhữu ích mà cú pháp phụ thuộc mang lại có tính ứng dụng cao như khả năng cung cấp thông tin về
ngữ nghĩa của các đối tượng xuất hiện trong câu nên dạng cú pháp này được sử dụng phổ biến trong
nhiều bài toán khác nhau của lĩnh vực Xử lý ngôn ngữ tự nhiên như hệ thống dịch máy, hệ thống hỏidap (question answering) hay trích xuất thông tin (infomation extraction)
Trong bài toán phan tích cú pháp phụ thuộc, cú pháp phụ thuộc được biểu dién dưới dang đồ
thị có hướng được gán nhãn Trong đó, các nút (node) trong đồ thị tương ứng các từ có trong câu
(bao gồm cả gốc của đồ thị phụ thuộc) và các cung được gán nhãn thể hiện mối quan hệ phụ thuộc
Trang 22giữa các nút Thông tin được mã hóa trong biểu diễn cấu trúc phụ thuộc không giống như thông tinđược thu thập trong biểu diễn cấu trúc cụm từ - loại biểu diễn cú pháp được sử dụng rộng rãi nhấttrong lý thuyết và ngôn ngữ học tính toán Cấu trúc phụ thuộc chỉ thể hiện mối quan hệ phụ thuộc
giữa các từ được phân loại theo các loại chức năng như chủ ngữ (SBJ), tân ngữ (OBJ), v.v thay vì
nhóm các từ thành cụm từ như cấu trúc cụm từ
Ở hình thức tổng quát nhất, cấu trúc phụ thuộc là một đồ thị có hướng đơn giản Do đó, cách
biểu diễn một cây cú pháp phụ thuộc đúng đắn cần phải thỏa các tính chất[13] sau:
e Acyclic: Đồ thị có hướng không có bất kỳ chu trình có hướng (directed cycles) nào.
e Single-head: Ngoại trừ nút gốc (root node), mỗi đỉnh chỉ có duy nhất cung chỉ tới (incoming
arc) đỉnh đó.
e Connectivity: Mọi đỉnh phân biệt của đồ thị đều có thể tìm được đường đi đến các đỉnh còn
lại mà không tính hướng của cung.
e Projectivity: Không có sự xuất hiện của các cạnh chéo (cross-edges).
a một vòng cung có hướng và mỗi từ chi có
é hiện được tính chất không có cạnh chéo khi
Trong hình 2.3, mối
đúng một từ trung
không có vòng cung
2.1.3 Các dạng cú pháp khác
Ngoài hai dạng cú pháp đã được trình bày ở trên, trên thế giới vẫn có một số treebanks được tạo ra
ang cách kết hợp phân tích cú pháp thành tố và phân tích cú pháp phụ thuộc như Kho ngữ liệuTIGER[6] cho tiếng Dic Trong kho ngữ liệu này, mỗi câu được biểu diễn dưới dạng cây cú pháp màrong đó các nút non-terminal biểu diễn nhãn theo cú pháp thành tố và các cạnh biểu thị nhãn cú
pháp phụ thuộc như trong hình 2.4.
Ngoài ra, kho ngữ liệu Syntatic-Semantic[44] cho tiếng Ý cũng sử dung dạng kết hợp này, tuy nhiên
khác với kho ngữ liệu TIGER|6] cho tiếng Dức, kho ngữ liệu này biểu diễn cả hai cú pháp ở hai lớpkhác nhau và biểu diễn câu cú pháp bằng cách kết hợp lại như hình 2.5
Một số kho ngữ liệu khác như Sinica cho tiếng Trung hay Turing cho tiếng Anh sử dụng phương pháp
gán nhãn ngữ nghĩa (semantic annotation) để cải thiện chất lượng cho kho ngữ liệu Đối với kho ngữ
iéu Sinica[10] cho tiếng Trung, vai trò ngữ nghĩa được gán cho từng thành tố Trong khi đó, kho ngữ
Trang 23[ss] [HO]
Ein Mann kommt 9 der lacht
ART NN VVFIN $, PRELS VVFIN
Masc.Nom.Sg
a man comes who laughs
Hình 2.4: Biểu diễn cây cú pháp kết hợp của kho ngữ liệu TIGER{6]
= Constituent structure annotation
= Functional annotation = sv2-arg [arrivare,
sogg (sembrare, Giovanni) Ze savv-mod [domani]] ]
arg (sembrare, —,
arrivare.<status= aperto>) mod (arrivare, domani)
sogg (arrivare, Giovanni)
⁄,
Hình 2.5: Biểu Gén Cú N của kho agt liệu Syntatic-Semantic[44].
liệu Turin[5] cho tiếng ‘hi -| Fee aa TBs rên đác mối quan hệ phụ thuộc giữa các
từ trong câu.
2.2 Ngữ liệ ân tích cú pháp phụ thuộc
2.2.1 Giới thiệu các kho ngữ liệu trên thé giới
Trong suốt một thập kỷ qua, việc xây dựng kho ngữ liệu phụ thuộc nhận được nhiều sự quan tâmtrong cộng đồng nghiên cứu ngôn ngữ tự nhiên bởi vì đây là bước tạo ra bộ dữ liệu thực nghiệm phục
vụ cho các bài toán ứng dụng trong lĩnh vực NLP nói chung và bài toán phân tích cú pháp phụ thuộc
nói riêng Chính vì vậy mà không ít nhóm nghiên cứu trên thế giới đã bắt tay vào phát triển các khongữ phụ thuộc và tạo được tiếng vang lớn trong cộng đồng Nổi bật nhất là các công trình xây dựng
kho ngữ liệu phụ thuộc dành cho ngôn ngữ Anh Các kho ngữ liệu này được thực hiện bằng nhiều cách
thức khác nhau như gan nhãn phụ thuộc thủ công của Rambow[57] hoặc Cmejrek|6S] Tuy nhiên, số lượng kho ngữ liệu được phát triển bởi phương thức này rất ít vì những hạn chế về mặt thời gian,nhân lực Do đó, các nhà nghiên cứu đã chuyển sang hướng tiếp cận phát triển một kho ngữ liệu phụthuộc dựa trên cấu trúc phân cụm của kho ngữ liệu thành tố bằng cách thiết lập bộ luật để xây dựngmột công cụ chuyển đổi tự động như của Johansson và Nugues[32], de Marneffe và Manning[24], và
Choi và Palmer{i1] Khi vừa được công bố, các kho ngữ liệu ấy không những được đánh giá cao về
Trang 24mặt chất lượng và độ chính xác mà còn là nền móng, tài liệu cơ sở cho các công trình nghiên cứu củanhững ngôn ngữ khác tham khảo như tiếng Đức|60], tiếng Phap[7], tiếng Trung[37], tiếng Hàn[14].
Phan tích cú pháp phụ thuộc đã và đang phát triển nhộn nhịp hơn bao giờ hết vì tinh ứng dụng của
no.
2.2.2 Giới thiệu các kho ngữ liệu trong nước
Với tình hình nghiên cứu trong nước, chúng tôi đã đi tìm kiếm các tài liệu liên quan và thấy rằng
số lượng công trình thực hiện đề tài này vẫn còn rất ít cùng với kết quả đạt được chưa cao Dựa
vào số liệu đã được thống kê trong bảng 1.1, độ chính xác cho kho ngữ liệu phụ thuộc tiếng Việt
vẫn chưa vượt qua mức 80% khi so với tiếng Anh đạt hơn 95% và tiếng Trung hơn 85% Từ đó cho
thấy kết quả của các nghiên cứu về phân tích cú pháp phụ thuộc cho tiếng Việt chưa thể áp dụng
vào thực tế vì độ chính xác còn thấp hơn so với mức trung bình chung mà các ngôn ngữ khác đạt được.
Sau khi khảo sát các công trình nghiên cứu trong nước, chúng tôi nhận ra vấn đề của việc đề xuất các
nhãn dựa trên nhãn chức năng như tron Họ đã sử dụng nhãn chức năng để
mệnh đề
Có thể thấy từ ví dụ ở
nhãn chức năng lam di ấn hung tính nhân uăn nay chưa du súc
thuyết _ phục trong cộn, h a VẬDT|46], “tinh” được đặt tên là SUB làm
chủ ngữ của mệnh đề i ề trưò Ếchủ fet là khi động từ đứng ở đầu câu thay thế
Hình 2.6: Cay phụ thuộc áp dung luật của VnDT|46]
Đối với kho ngữ liệu VietTreebank[64], hầu như tất cả các đặc trưng là những đặc điểm phân biệt
Trang 25được chuyển từ tiếng Anh sang Tiếng Việt Do đó, kho ngữ liệu này không thể bao gồm toàn bộ các
trường hợp của tiếng Việt Khi kiểm tra kho ngữ liệu VietTreebank|64], chúng tôi lưu ý rằng kho văn
bản này không liệt kê tên của những từ và cụm từ có nguồn gốc từ Trung Quốc Điều này làm cho nó
không thể dán nhãn đầy đủ cho các trường hợp đó Trong những trường hợp này, chúng tôi đã thêm
nhãn dành cho các từ Hán Việt (SINO) vào kho văn bản của mình để làm cho nó độc quyền hơn Vi
dụ:
1 Vién [phó] SINO(Viện, phó)
2 [Bất] phương trình SINO(phương trình, Bất)
3 Huấn luyện [viên SINO(Huấn_ luyện, viên)
Xem xét các mối quan hệ khác giữa các danh từ phân loại và các loại từ khác, Viet'Treebank[64] giải
quyết một trường hợp một danh từ chung bổ nghĩa cho một danh từ thuộc loại nhãn NC và bỏ qua
các danh từ phân loại khác có thể kết hợp với từ động từ và trường hợp từ tính từ Chúng tôi quyết
định giải quyết trường hợp này bằng cách thêm nhãn NCS, đây là một số ví dụ:
1 [Nỗi sợ hãi NCS(Nỗi, sợ hãi)
i ig lai)
, đây là kết quả của việc phân tích
cú pháp ở cấp độ cụm f i Ì và không đưa ra kết quả thực hiện trên
“TO” được sử dung tro? b 38] dé gan nhãn cho tất ca từ “to” trong tiếng Anh vi “to”
có kha năng kết hợp va chức năng cú pháp đặc biệt so với các giới từ khác Trong khi đó, nhãn “TO”
dùng trong BKTreebank|47] đại diện cho kết từ chính phụ “để” trong tiếng Việt trong ngữ cảnh có
nghĩa “in order to”.
STT Cau Giai thich
» te ° aa a xon§ vác: Kết từ “để” có khả năng kết hợp và chức năng cú pháp
3 Tôi lại am ¢ đẻ ‘we _ giống các kết từ khác như “cho”, “rồi” — đều có mối quan hệ
ðt am Na € vem zen phụ thuộc với ngữ động từ theo sau.
4 Tôi làm bài tập rổ¿ xem phim.
He came here to help me 2 P ; " ›
5 {Anh ấy đến đã dể iúp toi} “dé” cho dù có nghĩa tiếng Anh là “to” hay “in order to” đều có
He tome here in ode, to help me mối quan hệ phụ thuộc với ngữ dong từ “giúp toi”.
6 {Anh ấy đến đây để giúp tôi.}
Bảng 2.1: Một số ví dụ về khả năng kết hợp và chức năng cú pháp của kết từ chính phụ “để” trong
tiếng Việt
lhttps://dantri.com.vn/
Trang 26Xét về chức năng cú pháp và khả năng kết hợp thì kết từ “để” có khả năng kết hợp giống với rất nhiều kết từ khác trong tiếng Việt như dòng 1 đến 4 trong bảng 2.1 Thậm chí kết từ “để” có nghĩa
“in order to” có khả năng kết hợp và chức năng cú pháp cũng giống kết từ “để” có nghĩa “to” ở ví dụdong 5 và 6 trong bảng 2.1 Điều này cho thấy rằng việc dành riêng nhãn từ loại “TO” để gan nhãncho kết từ chính phụ “để” có nghĩa “in order to” có thể gay nhập nhằng cho cả người gán nhãn thủ
công lẫn các hệ thống máy học
2.3 Các hướng tiếp cận cho bài toán Phân tích cú pháp phụ
thuộc
2.3.1 Phân tích cú pháp phụ thuộc dựa trên đồ thị (Graph-based)
Đây là một hướng tiếp cận dựa trên đồ thị xác định một không gian bao gồm các đồ thị phụ thuộc
ứng cử viên cho một câu Vấn đề học tập là tạo ra một mô hình để gán điểm cho biểu đồ phụ thuộc
ứng cử viên cho một câu và vấn đề
câu đầu vào của một mô hình
trùm tối đa, vì ý tưởng của
thuộc con và sử dụng một
thuộc Sau đó, tìm những
phụ thuộc điển hình cho hug
Theo ý tưởng, phươ
giống đồ thị phụ th
e G là tập chứa
con của G, chứa ta
e V là tập đỉnh có tất cả các từ của câu x được đánh index từ 1 đến n và index 0 sẽ là vị trí của
ROOT.
V = {#o,#1,#2, #„V%;¡ € S}
e E là tập hợp các cạnh (mối quan hệ) duy nhất theo thứ tu x; + 2; với z; là từ gốc và a; là từ
phụ thuộc của câu 2, r là quan hệ phụ thuộc giữa từ x; với từ x; theo luật L.
Trang 27e f(i,j,r) là vector đặc trưng đã được trích xuất từ bang đặc trưng tùy chọn của bộ MSTParser|27].
Ti công thức trên, ta có thể tính trọng số cạnh phụ thuộc của cả đồ thị phụ thuộc của câu z[64] như
sau:
s(G„ = (Vx, Ex)) = Loge be (tJ, r)
Đối với w, w là vectơ trọng số được cập nhật liên tục bằng một mô hình máy học, chẳng hạn như
MIRA-Margin Infused Relaxed Algorithm Khi đã tính toán xong trọng số của các cạnh xuất hiện
trong tập E, ta sẽ dùng một hàm để trích xuất các cây khung có điểm số cao nhất từ các đồ thi con,
và cây khung sau cùng là cây có điểm số cao nhất, ta có thể biểu diễn việc phân tích cú pháp theocông thức|64| sau:
Hình 2.7: Ví dụ về cách thức tìm ra cây khung có điểm số cao nhất
2.3.1.1 Thuật toán Eisner
Để giải quyết bài toán trích xuất cây khung lớn nhất từ đồ thị đầy đủ, Collins[16] đã đề xuất mot
thuật toán trích xuất đồ thị phụ thuộc từ đồ thị hoàn chỉnh dựa trên mô hình phân tích cạnh Nhưng
do độ phức tạp của thuật toán này quá lớn, cụ thể là O(n5) nên nếu trường hợp câu văn dài thì
thuật toán này không thật sự lý tưởng về mặt thời gian và chỉ phí tính toán Chính vì thế thuật toán
Eisner|27] ra đời, được cải tiến từ thuật toán Collins, với độ phức tap chi O(n), đây là thuật toánquy hoạch động với chiều quy hoạch theo hướng bottom-up phổ biến nhất hiện nay
Thuật toán sử dụng một bảng quy hoạch động để lưu trữ độ hoàn thiện, giá trị tốt nhất ( điểm
số cao nhất ) của các cây con từ vị trí ti i đến vị trí từ 7 thỏa mãn điều kiện 1 < i < 7 < n Thuật
toán được biểu diễn dưới dạng mã giả như sau:
Trang 28Algorithm 1 Thuật toán Eisner
// _ Khởi tạo uới bằng C
C{s]|[s] [d][c] = 0.0 Vs € {1 n},d € {—,—>},c € {0, 1}
for mm = 1 to + do
for ¿ = 1 to (n — m + 1) do
j=i+1
// _Xâu dựng các khung chưa hoàn thiện từ các khung đã hoàn thiện
Clif] [-][0] = maz¡<u<;(Cfil[u|[—>][T] + Clu + 1]|7]|<—|[T] + score(i, 7)) CLL ]-][0] = maricu<;(Clil[ul[>][] + Clu + 1][7|[<—][T] + seore(7, 2))
// Xéy dựng các khung hoàn thiện
Clif] [A] [1] = maz¡<u<;(Clil[a]|->]J0] + CJe][2]|>]H]
ci 7]l<—]IH] = maz¡<u„<j(Cfi[el[<—]Ï1] + Clu] [7] [-][0]
end for
Khởi tao với một bảng quy hoạch động Œ với giá trị khởi tạo cho các cây trong bang bằng 0 Với
Chi fi) {dl [e):
e ¡ và 7 là 2 từ biên của khung thỏ
e c có giá tri là 0 hoa
ngược lại.
xây dựng các cây chữ NÓa lên trong đoạn (i, j|.
e Xây dựng khung hoàn thiện trong đoạn [i, j] bằng việc kết hợp một khung chưa hoàn thiện và một khung hoàn thiện theo cả hai chiều i > 7 và j > i.
Quá trình thuật toán hoạt động được biểu diễn trong hình 2.8.
2.3.1.2 Thuật toán Chu-Liu Edmons
Được đề xuất lần đầu vào năm 1965 bởi Chu - Liu[15], sau đó 2 năm, thuật toán được hoàn thiện bởiEdmonds[|26] và được công bố vào năm 1967
Khởi tạo với việc chọn lọc tham lam, bắt đầu tại ROOT, và sau đó, thông qua quá trình dọn dẹp mà
xóa đi chu trình của các đỉnh Quá trình dọn dẹp này bắt đầu bằng việc tinh chỉnh tất cả trọng số có
trong đồ thị bằng việc tìm giá trị trọng số lớn nhất trong các cạnh đi tới đỉnh đang theo dõi và dùng
trọng số của các cạnh đi tới đỉnh đó trừ đi giá trị trọng số lớn nhất đã tìm được Bằng cách này, sau khi
Trang 29Vin itl] Wh j iN
Hình 2.8: Quá trình xây dung cây khung chưa hoàn thiện đến lúc kết hợp tạo ra cây khung hoàn thiện
mới
kết thúc quá trình tỉnh chỉnh, thuật toán tạo ra một đồ thị mới với các đỉnh có giá trị bé hơn hoặc bằng
0 và các cạnh có giá trị bằng 0 chính là các cạnh mục tiêu và các cạnh này tạo nên cây khung được chọn
Sau khi tỉnh chỉnh giá trị trọng s một đồ thị mới bằng cách lựa chọn
1 chu trình con và thu gọn lại
trỏ tới đỉnh mới và xóa đi © có quan hệ ha nằm trong chu trình con Lúc này, thuậttoán tiếp tục việc lựa chọ \ lựa chọn tham lam và lặp lại
quá trình làm sạch cho đ
Để hiểu rõ hơn quá t bày một ví dụ điển hình cho cách hoạt
động của thuật toán:
Trang 30Hình 2.12: Hình minh họa cho bước 4 của thuật toán.
Bước 4: Thu gọn đồ thị bằng cách tìm các đồ thị con có xuất hiện chu trình (cạnh đến và cạnh đi đều
có trọng số bằng 0) và gộp chúng lại tạo ra đỉnh mới Một đồ thị mới được hình thành (hình 2.12)
Bước 5: Lap lại bước 2 và bước 3 cho đến khi không còn chu trình có ràng buộc đã đề ra (hình 2.13).
Bước 6: Khi đến bước này, chứng tỏ cây khung đồ thị đã không còn chu trình con Lúc này, thuậttoán truy ngược lại và tách các đỉnh đã hợp nhất ra Trong quá trình truy ngược, thuật toán xóa đi
các cạnh đã tạo nên chu trình con bằng cách so sánh với giá trị trọng số được gán tại thời điểm truy
ngược, nếu cạnh nào lớn hơn giá trị đó sẽ bị xóa đi Như vậy, kết quả thu được là một đồ thị có các
cạnh sở hữu trọng số cao nhất mà không có bất kỳ chu trình con nào trong đồ thị phụ thuộc (2.14)
Trang 31Hình 2.13: Hình minh hoa cho bước 5 của thuật toán.
Deleted from cycle
2.3.2 Phân tích c
based)
Phương pháp dựa tr i ‘iu bang cách xác định một hệ thống chuyển
tiếp hoặc trạng thái
đề học tập là tạo ra ỗ ê dự đoán chuyển đổi trạng thái tiếp theo dựa trênlịch sử chuyển đổi, và pháp là xây dựng trình tự chuyển đổi tối uu cho câu đầuvào với mô hình được tạo ra Điều này đôi khi được gọi là giảm chuyển đổi (shift-reduce) phân tích
cú pháp phụ thuộc, vì ý tưởng của cách tiếp cận này giống với Shift-Reduce-Parsing, một thuật toánđược đề xuất bởi Aho and Ullman|2]
Đầu vào sẽ là một buffer với từng phần tử của buffer tương ứng với từng chữ thuộc câu đầu vàotheo thứ tự từ trái sang phải và mang chỉ mục từ 1 > n Trong đó, n là số từ trong câu đầu vào
Thuật toán sử dụng Stack có ROOT là phần tử đầu tiên để lưu trữ các dữ liệu đã được xử lý mộtphần thông qua parser; một tập L chứa các nhãn phụ thuộc; một parser để đưa ra các hành động; xác
định mối quan hệ giữa hai từ trên cùng của stack thông qua một hàm dự đoán được gọi là Oracle
Thuật toán được mô tả như hình bên dưới:
Khởi đầu thuật toán, parser sẽ nhận các từ trong buffer theo thứ tự từ trái sang phải Mỗi khi
shift 1 phần tử của buffer, parser xử lý và đẩy vào stack Sau đó, Oracle sẽ xem xét bước chuyển phùhợp cho parser để xử lý 2 phần tử trên cùng của ngăn stack Kết quả nhận được sau khi đưa câu văn
vào thuật toán sẽ là một tập S chứa mối quan hệ phụ thuộc giữa các từ xuất hiện trong câu văn đó
Trang 32RIGHTARC SHIFT
Action
Hình 2.15: Mô tả cách hoạt động của cách tiếp cận transition-based
2.3.2.1 Thuật toán Naive
Ý tưởng chính của thuật toán này là sử dụng tìm kiếm tham lam (Greedy Search) để tìm ra mối quan
hệ phù hợp nhất Thuật toán sử dụng cách tiếp cận Transition-based để thực hiện việc gán nhãn phụthuộc Cụ thể, ở mỗi bước, Oracle thực hiện xem xém các hành động sau:
e Left Arc: Gán từ trên cùng › sau nó trong stack và xóa từ theo sau nó ra khỏi stack.
e Right Arc: Gan từ t é Am head cialti trên cùng nhất trong stack,
đồng thời xóa từ tré
e Shift: Không gan heg
máy học nào phù hd Fan hệ chang hạn như Multi-class Support Vector
Machine.
2.3.2.2 “Thuật toán Nirve
Phương pháp nay còn được biết đến với tên arc standard được phát triển bởi Nirve 2003[53, 55].Cũng giống như cách tiếp cận Transition-based cơ bản đã trình bày ở trên, thuật toán thay đổi quátrình thực hiện, xem xét khi sử dụng các hành động của parser, cụ thể gồm các hành động sau:
e Reduce: Nếu từ trên cùng của Stack nếu nó có tham qua vào một mối quan hệ phụ thuộc và là
từ phụ thuộc thì sẽ bị xóa khỏi Stack.
e Left Arc: Xem xét từ trên cùng của Stack va gán nó làm head cho từ đứng dưới nó trong Stack.
e Right Arc: Xem xét từ trên cùng thứ 2 của Stack và gán nó làm head cho từ dứng trên nó(trên
cùng nhất), sau đó, xóa tit trên cùng nhất ra khỏi Stack
e Shift: Không thực hiện gan head, lưu từ vào Stack để xử lý sau
Trang 33Các hành động trên phải tuân theo điều kiện sau:
e Chỉ áp dụng Left Arc khi và chỉ khi vị trí của ROOT không thuộc top 2 phần tử đầu của Stack
e Cả hai hành động bao gồm Left Arc và Right Arc chỉ được thực hiện khi có ít nhất 2 phần tử
trong Stack không bao gồm ROOT
2.4 Kỹ thuật phát triển kho ngữ liệu
Để có thể xây dựng, phát triển kho ngữ liệu cú pháp phụ thuộc chất lượng cho ngôn ngữ tiếng Việt
cần phải đảm bảo các tính chất như:
e Dam bảo các tài liệu tham khảo để xây dựng nên cấu trúc phụ thuộc có nguồn gốc rõ ràng, đã
được chứng minh, xem xét và cho phép lưu hành từ các chuyên gia trong lĩnh vực Xử lý ngôn
ngữ tự nhiên.
e Tìm hiểu, tham khảo ý ki ngôn ngữ học để có cái nhìn đúng
đắn, thông tin, kiến th
e Dữ liệu thực nghiệm Bảo về quy trình xây Gung và clất lượng Ưu tiên lựa chọn kho
dữ liệu phổ biến đư 6 ồng Xử lý gôn ngữ tự nhiên công nhận và
có tài liệu hướng dig ta c ữ liệu đó.
e Đảm bảo việc gá an _ lay BB hẽ, và những người gan nhãn đã có kiến
thức nền tang chắc úc, từ © af trò của các từ trong tiếng Việt
e Các tài liệu h được viết rõ ràng, mạch lạc và có kèm ví dụ cho
từng trường hop
e Các công cụ hỗ trợ việc gán nhãn thủ công cũng như tự động phải được phát triển từ những
người có kiến thức chuyên ngành về Khoa học máy tính, Xử lý ngôn ngữ tự nhiên Đồng thời
các công cụ phải được kiểm tra độ chính xác và tính đúng đắn cho luật gán nhãn
2.4.1 Các phương pháp phát triển ngữ liệu
Quá trình gán nhãn phụ thuộc có thể thực hiện bằng những phương thức như thủ công, tự động và
bán tự động Trong đó, quá trình thực hiện bằng thủ công đòi hỏi cần phải có người gan nhãn có
chuyên môn về ngôn ngữ để gan nhãn từ đầu như kho ngữ liệu phụ thuộc BK Treebank[47] hoặc tronggiai đoạn đầu tiên của quá trình phát triển kho ngữ liệu khi không có trình phân tích cú pháp và cũngkhông có dữ liệu để huấn luyện trình phân tích cú pháp Phương thức này sẽ phù hợp khi thực hiệnvới kho dữ liệu vừa và nhỏ vì nó đòi hỏi nhân lực cũng như tốn kém về mặt thời gian Để khắc phụcnhược điểm đó trên các bộ dữ liệu lớn, các nhà nghiên cứu sẽ ưu tiên chọn phương thực chuyển đổi tự
động như VietTIreebank[64], VnDT/[46] Tuy vậy, tỷ lệ gán sai nhãn cao với phương thức này vì công
cụ chuyển đổi không thể phân biệt các trường hợp nhập nhằng, cụ thể về ngữ nghĩa mà chỉ dựa vào
Trang 34cấu trúc cú pháp để gán nhãn Để tận dụng ưu điểm của hai phương thức kia, chúng tôi quyết địnhkết hợp cả hai phương thức đó để xây dựng một kho ngữ liệu phụ thuộc bán tự động đạt chất lượngcao Trong phương thức này, chúng tôi sử dụng công cụ để chuyển đổi tự động dữ liệu trước khi đểngười gán nhãn kiểm tra và chỉnh sửa lại.
2.4.2 Tài liệu hướng dẫn chuyển đổi tự động (Conversion Guidelines)
Đối với tài liệu hướng dẫn chuyển đổi tự động, chúng tôi trình bày quy trình xây dựng một công cụchuyển đổi tự động Ngoài ra, tài liệu sẽ hướng dẫn chi tiết cách thức làm thé nào để chuyển đổi tự
động cú pháp thành tố sang cú pháp phụ thuộc Tài liệu sẽ bao gồm: bộ luật tìm head cho ngữ tiếng
Việt, cách gán nhãn cho các phụ thuộc và cuối cùng là hậu xử lý để có được một cây cú pháp phụ
thuộc hoàn chỉnh.
2.4.3 Tài liệu hướng dẫn gán nhãn thủ công (Annotation Guidelines)
dụng hiểu rõ, dễ dàng tiếp cận P : g 3 ïêu này bao gồm các định nghĩa
và đưa ra những minh họa Gi cò Bu ra các luật giải quyết nhập
ra đời và kéo theo đó
hỗ trợ việc gan nhãn die ong và chính xác hơn Chúng tôi cũng theo đó mà phát triểnmột công cụ chuyển đổi tự động từ cây thành tố sang cây phụ thuộc tự động Đồng thời, chúng tôicũng sử dụng các thang đo phù hợp cho chủ đề để tính toán độ chính xác của các công cụ trên sau
khi thực hiện xong việc gán nhãn nhằm đảm bảo chất lượng cho kho ngữ liệu của chúng tôi khi áp
dụng công cụ tự động đó.
2.4.5 Người gan nhãn (Annotators)
Việc gán nhãn phụ thuộc trước khi có thé tự động hóa thì vẫn cần có con người can thiệp vào bộ ditliệu để gán nhãn tạo dữ liệu huấn luyện cho các mô hình máy học sau này Do đó, vai trò của nhữngngười tham gia gán nhãn thủ công là rất quan trọng và không thể thiếu trong bất cứ công trình nàoliên quan đến việc xây dựng bộ dữ liệu cú pháp phụ thuộc Để có thể tham gia vào quá trình gán
nhãn này, người gán nhãn phải có nền tang tốt về cấu trúc trật tự từ của tiếng Việt, có kiến thức hoặc
tốt nghiệp chuyên ngành ngôn ngữ học, khả năng lập luận tốt và có thể hiểu tường tận bản hướngdẫn gán nhãn do chúng tôi phát triển Không chỉ như vậy, họ còn phải trải qua quá trình huấn luyện
chuyên sâu về việc gán nhãn và sẽ luôn được giám sát, đo đạc kết quả sau mỗi lần thực hiện xong
Trang 35việc gán nhãn bằng hai cách đo bao gồm độ chính xác và độ đồng thuận giữa hai hay nhiều người gán
nhãn.
2.4.6 Quy trình gan nhãn (Annotation process)
Khong chi việc chọn lựa được những người gan nhãn có trình độ được xem trọng, ma việc giám sát
và thực hiện quá trình gán nhãn cũng đóng vai trò không thể thiếu trong mục tiêu xây dựng cây phụ
thuộc tiếng Việt chất lượng Mỗi một công trình có các bước thực hiện gán nhãn khác nhau Và trong
đề tài này, chúng tôi tiến hành xây dựng bản thảo hướng dẫn gán nhãn trước Sau đó, chúng tôi vừa
cập nhật tài liệu vừa tiến hành đo lường dữ liệu để đảm bảo được sự cải thiện của người làm dữ liệu
và mức độ hoàn thiện của bộ tài liệu hướng dẫn.
2.4.7 Chọn ngữ liệu
Để có thể xây dựng một bộ dữ liệu chất lượng cho cây cú pháp phụ thuộc tiếng Việt, việc ưu tiên
hàng đầu là chọn được một bộ ng
riêng cho tiếng Việt Đối với tả
2 kho ngữ liệu thành tố tiê
cú pháp tiếng Việt: VLSP
liệu này để chọn ra kho n
thành tố VLSP[48] được xây dựng gồm 10.374
hính trị, dudes tam từ nhật báo điện tử Tuổi Tré! Kho ngữ liệu
ớp: phân đoạn từ (WS), gán nhãn từ loại (POS tagging), và
câu về các chủ đề xa
này được gin nhãn bán
gán nhãn thành phần (bracketing) Trong giai đoạn đầu, kho ngữ liệu được sử dụng công cụ tự động
để gán nhãn cho từng lớp Sau đó tiến hành kiểm tra và chỉnh sửa nhãn bởi annotators Tuy nhiên,
các nghiên cứu trước đây [49, 51] đã chỉ ra rằng chất lượng của kho cú pháp thành tố VLSP[48] bao
gồm chất lượng của sơ đồ chú thích, hướng dẫn chú thích và quy trình chú thích không đạt yêu cầu
Cu thé hơn, kho ngữ liệu VLSP[48] chứa các chú thích không nhất quán và không chính xác Trong
phần này chúng tôi chỉ giới thiệu ngắn gọn về các tập nhãn được sử dụng trong kho ngữ liệu thành
Trang 363 SBAR Mệnh đề phụ (bổ nghĩa cho danh từ, dong từ, va tính từ)
4 S-EXC Cau cảm than
5 S-CMD Câu mệnh lệnh
Bảng 2.5: Tập nhãn chức năng trong VLSP|48]
STT Tag Chú thích
1 SUB Nhãn chức năng chủ ngữ
2 DOB Nhãn chức năng tân ngữ trực tiếp
3 IOB Nhãn chức năng tân ngữ gián tiếp
4 TPC Nhãn chức năng chủ dé
5 PRD Nhãn chức năng vị ngữ không phải cụm động từ
6 LGS Nhãn chức năng chủ ngữ logic của câu ở thể bị động
7 EXT Nhãn chức năng bổ ngữ chỉ phạm vi hay tần suất của hành động
8 H Nhan phan tit trung tam
9-12 TC, CMD, EXC, SPL Nhãn phan loại câu: đề-thuyết, mệnh lệnh, cảm than, đặc biệt
13 TTL Tiéu dé
14 VOC Thanh phan than goi
Trang 37Bảng 2.6: Tập nhãn phần tử rỗng trong VLSP/[48]
STT Tag Chú thích
1 *T* Nhãn phần tử rỗng (lưu vết trong phạm vi câu)
2 *E* Nhãn phần tử rỗng ứng với hiện tượng tỉnh lược
3 *0* Nhãn phan tử rỗng ở vị trí tác tử phụ ngữ hóa
được sử dụng trong phương pháp chuyển đổi của chúng tôi được mô tả kỹ lưỡng trong tài liệu hướng
dẫn gán nhãn của Quý và cộng sự[50] Trong phần này, chúng tôi chỉ giới thiệu sơ nét về các tập nhãn
đó trong bang 2.7, 2.8, 2.9, và 2.10.
Bang 2.7: Tập nhãn từ loại trong NIIVTB[50]
STT POS Chú thích STT POS Chú thích
tag tag
1 Sv Yếu tô Hán-Việt 18 Vcp Từ so sánh
2 Ne Danh tit chi loai 19 Vw Động từ thường
3 NÑes Danh từ chỉ loại đặc biệt 20 An Số thứ tự
4 Nu Danh tit chi don vi 21 Aa Tinh từ thường
5 Nun Danh từ chỉ đơn vị đặc biệt 2 Pd Dại từ chỉ định
Trang 38Bang 2.9: Tập nhãn chức năng trong NIIVTB[50]
STT Tag Chú thích STT Tag Chú thích
1 H Nhãn phần tử trung tâm 12 TMP_ Nhãn thời gian
2 SBJ Nhãn chủ ngữ 13 LOC Nhan địa điểm
3 LGS Nhãn chủ ngữ logic của câu 14 MNR_ Nhãn trạng ngữ chỉ cách thức
4 PRD Nhãn vị ngữ không phải ngữ động từ lỗ PRP Câu nguyên nhân hoặc mục đích
5 DOB_ Nhãn tân ngữ trực tiếp 16 CND Câu điều kiện
6 IOB Nhãn tân ngữ gián tiếp 17 CNC Cau đề-thuyết
7 CMP Nhãn bổ ngữ 18 ADV Nhãn trạng ngữ
8 TPC Nhãn chủ dé 19 HLN Chủ đề
9 MDP_ Thành phần tình thái 20 TTL Tiêu đề
10 VOC_ Thành phần than gọi 21 EXC Câu cảm thán
11 PRN Thanh phần bổ sung thông tin 2 CMD_ Câu mệnh lệnh
Bảng 2.10: Nhãn phần tử rỗng trong NITVTB[50]
STT Tag Chú thích
*T* Phần tử rỗng lưu vết của cụm từ chuyển động
*E* Phần tử rỗng ứng với hiện tượng tỉnh lược không lưu vết cho ngữ
* Phần tử rỗng ứng với hiện tượng tỉnh lược có lưu vết cho ngữ
NIIVTB[50] đề xuất 33 nh ù é of chofac từ gây nhập nhằng Như trong
bảng 2.11 thể hiện mộ hú ta nên gan các nhãn POS khác nhau vi
Z Nhãn từ loại STT Chức năng cú pháp
NIIVTB | VLSP
1 Toi /à quần áo rất nhanh- a” có thể kết hợp với thành phần modifier hoặc tân ngữ trực tiếp Vv V
2 Tôi là học sinh Động từ copula "là" thể hiện sự tương đương giữa 2 thực thể Ve V
3 Nhà ấy rất giàu Từ "ấy" là dai tit chỉ định bổ nghĩa cho danh từ "nha" Pd P
4 Ấy đang làm gì vậy? Từ "Ấy" có chức năng là đại từ nhân xưng Pp P
Bảng 2.11: Ví dụ về từ nhiều nghĩa trong tiếng Việt.
Trong bang 2.11 đưa ra 2 cặp câu ví dụ với cùng 1 từ nhưng chức năng cú pháp và ngữ nghĩa của
từ đó khác nhau Như cặp câu số 1 và 2, cũng là động từ “Ja” làm thành phần trung tâm ngữ nghĩa
chính của câu nhưng trong câu số 1 động từ “la” chỉ hành dong “ti” và nó có thể kết hợp với một
tân ngữ trực tiếp hoặc một thành phần modifier Trong khi đó, ở câu số 2 động từ “là” này được gọi
là động từ đồng dạng (copula verb) và bắt buộc phải có thành phần bổ nghĩa phía sau thì câu mới
có ý nghĩa Chính vì sự khác nhau đó mà kho NIIVTB[50] đã đề xuất 2 loại nhãn khác nhau là Vu
và Ve để có thể phân biệt chức năng cú pháp và khả năng kết hợp của từ đó trong các trường hợpkhác nhau Thế nhưng kho VLSP[48] lại sử dung cùng 1 nhãn là V nên không thể phân biệt đượccác trường hợp khác biệt cho cùng 1 từ và có thể dẫn đến việc gán nhãn phụ thuộc sai cho công cụchuyển đổi.
Trang 39Tương tự như vậy với các tập nhãn khác, NITVTB[50] đã đề xuất thêm nhãn mới cho các đặc trưng
riêng của tiếng Việt Đồng thời trong quá trình gán nhãn thủ công, Quý và cộng sự[ð0| đã đưa ra
các quy tắc nhằm giải quyết những hiện tượng gây nhập nhằng trong tiếng Việt được đề cập chỉ tiếttrong các tài liệu hướng dẫn gán nhãn Thêm vào đó chất lượng của sơ đồ chú thích, hướng dẫn chúthích và quy trình chú thích của NIIVTB[50] đều được đảm bảo với độ chính xác hơn 90% Chính vì
vậy chúng tôi thống nhất chọn kho ngữ liệu thành tố NITVTB[50] để làm dữ liệu cho bài toán phân
tích cú pháp phụ thuộc tiếng Việt
2.5 Phương pháp đánh giá kho ngữ liệu cú pháp phụ thuộc
2.5.2 Đánh giá công cụ chuyển đổi tự động
Chúng tôi thực hiện đánh giá thông qua công cụ chuyển đổi tự động bằng cách tạo tập dữ liệu chuẩnđược gán nhãn thủ công bởi chúng tôi và dùng bộ dữ liệu ấy như kết quả tiêu chuẩn để đo độ chínhxác kết quả được tạo ra từ công cụ chuyển đổi tự động.
2.5.3 Đánh giá người gan nhãn
2.5.3.1 Đánh giá độ chính xác
Để đánh giá độ chính xác, chúng tôi đã tự xây dựng một tập dữ liệu chuẩn để kiểm tra độ chính xác
của người gán nhãn thông qua hai thang đo UAS va LAS Chúng tôi sẽ huấn luyện những người gán
Trang 40nhãn bằng bản hướng dẫn do chúng tôi phát triển và để họ tự gán nhãn cho tập dữ liệu thô đã chuẩn
bị Sau đó dùng tập dữ liệu đã được người gán nhãn gán nhãn để kiểm tra độ chính xác các nhãn theo tập dữ liệu chuẩn mà chúng tôi đã chuẩn bị.
2.5.3.2 Đánh giá độ đồng thuận
Nhằm kiểm tra xem liệu việc huấn luyện người gán nhãn có tốt hay không, chúng tôi trực tiếp khảo
sát kết quả giữa hai người gán nhãn bằng cách sử dụng một tập dữ liệu đã được gán nhãn của người
gán nhãn 1 làm tập dữ liệu chuẩn và dùng tập dữ liệu đã được người g4n nhãn 2 gán nhãn để so sánhvới nhau Điều này giúp chúng tôi có thể kiểm soát và biết được việc huấn luyện thủ công người gán
nhãn và bản hướng dẫn của chúng tôi còn những lỗi nào Thông qua đó, tỉnh chỉnh lại bản hướng dẫn
và đúc kết các lỗi để sửa nhằm nâng cao chất lượng huấn luyện người gan nhãn.
⁄Z