1. Trang chủ
  2. » Tất cả

Luận án tiến sĩ toán học nghiên cứu nâng cao hiệu quả phân tích cú pháp tiếng việt theo tiếp cận học máy thống kê

20 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 565,54 KB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Nguyễn Thị Lương NGHIÊN CỨU NÂNG CAO HIỆU QUẢ PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT THEO TIẾP CẬN HỌC MÁY THỐNG KÊ LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội 2020[.]

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN _ Nguyễn Thị Lương NGHIÊN CỨU NÂNG CAO HIỆU QUẢ PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT THEO TIẾP CẬN HỌC MÁY THỐNG KÊ LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội - 2020 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN _ Nguyễn Thị Lương NGHIÊN CỨU NÂNG CAO HIỆU QUẢ PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT THEO TIẾP CẬN HỌC MÁY THỐNG KÊ Chuyên ngành: Cơ sở toán cho tin học Mã số: 9460117.02 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Lê Hồng Phương PGS.TS Đỗ Trung Tuấn XÁC NHẬN NCS ĐÃ CHỈNH SỬA THEO QUYẾT NGHỊ CỦA HỘI ĐỒNG ĐÁNH GIÁ LUẬN ÁN Chủ tịch hội đồng đánh giá Người hướng dẫn khoa học Luận án Tiến sĩ PGS.TS Phan Xuân Hiếu Hà Nội - 2020 TS Lê Hồng Phương Lời cam đoan Tơi xin cam đoan cơng trình nghiên cứu khoa học Các số liệu sử dụng phân tích luận án có nguồn gốc rõ ràng, công bố theo quy định Các kết chưa công bố nghiên cứu khác Hà Nội, ngày 10 tháng năm 2020 Nghiên cứu sinh Nguyễn Thị Lương Lời cảm ơn Trong trình thực đề tài “Nghiên cứu nâng cao hiệu phân tích cú pháp tiếng Việt theo tiếp cận học máy thống kê”, nhận nhiều giúp đỡ, tạo điều kiện Ban Giám hiệu, thầy cô khoa Sau Đại học khoa Toán - Cơ - Tin học trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội Tơi xin bày tỏ lịng cảm ơn chân thành giúp đỡ Tơi xin bày tỏ lịng biết ơn sâu sắc tới TS Lê Hồng Phương, PGS.TS Đỗ Trung Tuấn - người thầy tận tình hướng dẫn trực tiếp cho tơi hồn thành luận án Tôi xin chân thành cảm ơn Ban Giám hiệu, thầy cô khoa Công nghệ Thông tin, trường Đại học Đà Lạt nơi tơi cơng tác gia đình, bạn bè động viên, khích lệ, tạo điều kiện giúp đỡ tơi suốt q trình thực hoàn thành luận án Hà Nội, ngày 10 tháng năm 2020 Nghiên cứu sinh Nguyễn Thị Lương Mục lục Danh sách bảng iv Danh sách hình vẽ vii Mở đầu 1 Cơ sở lý thuyết 1.1 Khái niệm tiếng Việt 1.1.1 Từ 1.1.2 Từ loại 1.1.3 Cụm từ 1.1.4 Câu 1.1.5 Cú pháp 1.1.6 Vai nghĩa 1.2 Cú pháp thành phần 1.2.1 Bài tốn phân tích cú pháp thành phần 1.2.2 Phương pháp phân tích cú pháp thành phần 1.2.3 Khảo sát nghiên cứu cho phân tích cú pháp thành phần 1.3 Cú pháp phụ thuộc 1.3.1 Bài tốn phân tích cú pháp phụ thuộc 1.3.2 Biểu diễn cú pháp phụ thuộc 1.3.3 Các thuật tốn phân tích cú pháp phụ thuộc 1.3.4 Khảo sát nghiên cứu cho phân tích cú pháp phụ thuộc 1.4 Gán nhãn vai nghĩa 1.4.1 Bài toán gán nhãn vai nghĩa 1.4.2 Các cơng trình liên quan 1.4.3 Khảo sát nghiên cứu cho gán nhãn vai nghĩa 1.5 Biểu diễn phân bố từ 1.5.1 Mơ hình Skip-gram 1.5.2 Mơ hình túi từ liên tục 1.5.3 Mơ hình GloVe 1.5.4 Biểu diễn từ dựa vào ngữ cảnh sâu 1.6 Kết luận i 7 7 10 11 14 17 20 21 22 25 28 28 29 31 37 43 43 44 48 49 50 51 52 52 54 Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc vai nghĩa tiếng Việt 2.1 Kho ngữ liệu Treebank 2.2 Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc 2.2.1 Tập nhãn quan hệ phụ thuộc tiếng Việt 2.2.2 Xác định cụm từ trung tâm 2.2.3 Xác định nhãn phụ thuộc 2.2.4 Thuật toán chuyển từ câu cú pháp thành phần thành cú pháp phụ thuộc 2.2.5 Đánh giá 2.3 Xây dựng kho ngữ liệu gán nhãn vai nghĩa tiếng Việt 2.3.1 Bộ nhãn vai nghĩa cho tiếng Việt 2.3.2 Tập luật gán nhãn nhãn vai nghĩa 2.3.3 Xây dựng trang web hiệu chỉnh nhãn vai nghĩa thô 2.3.4 Đánh giá kết 2.4 Kết luận Nâng cao hiệu phân tích cú pháp tiếng Việt 3.1 Phân tích cú pháp thành phần 3.1.1 Một số văn phạm phổ biến 3.1.2 Phương pháp phân tích Shift-Reduce 3.1.3 Phương pháp self-attention 3.1.4 Đánh giá kết 3.1.5 Kết luận phân tích cú pháp thành phần 3.2 Phân tích cú pháp phụ thuộc tiếng Việt 3.2.1 Phân tích cú pháp phụ thuộc dựa bước chuyển 3.2.2 Phân tích cú pháp dựa đồ thị 3.2.3 Sử dụng BiLSTM phân tích cú pháp phụ thuộc 3.2.4 Đánh giá kết 3.2.5 Kết luận phân tích cú pháp phụ thuộc 3.3 Kết luận Phương pháp quy hoạch tuyến tính nguyên gán nhãn tiếng Việt 4.1 Mơ tả thuật tốn 4.1.1 Khảo sát số phương pháp 4.1.2 Phương pháp đề xuất ii 55 56 57 59 69 70 70 75 78 78 81 82 82 83 86 87 87 92 99 102 112 113 113 116 118 122 128 129 vai nghĩa 130 130 130 132 4.2 4.3 4.4 4.5 Quy hoạch tuyến tính nguyên Tập đặc trưng sử dụng 4.3.1 Đặc trưng 4.3.2 Đặc trưng Đánh giá kết 4.4.1 Phương pháp đánh giá 4.4.2 Hệ thống 4.4.3 Chiến lược gán nhãn 4.4.4 Phân tích đặc trưng 4.4.5 Cải tiến dựa vào ILP 4.4.6 Tốc độ học 4.4.7 Sử dụng biểu diễn phân bố Kết luận từ SRL 135 138 138 139 139 139 139 140 141 141 144 145 145 Kết luận 146 Các cơng trình cơng bố luận án 148 Tài liệu tham khảo 150 Phụ lục 159 iii Danh sách bảng 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 Tập nhãn từ loại tiếng Việt Tập nhãn cụm từ tiếng Việt Tổ chức câu tiếng Việt Tập nhãn mệnh đề tiếng Việt Tập nhãn chức cú pháp tiếng Việt Các đặc trưng dùng MSTParser Các đặc trưng dùng MaltParser Ví dụ phân tích cú pháp dựa vào bước chuyển Kết số nghiên cứu phân tích cú pháp phụ thuộc tiếng Anh tiếng Trung 1.10 Kết số nghiên cứu phân tích cú pháp phụ thuộc tiếng Việt 1.11 Một số nghiên cứu vai nghĩa đánh giá OntoNotes 2.1 2.2 2.3 11 12 14 17 33 36 38 40 42 48 2.8 2.9 2.10 2.11 2.12 2.13 2.14 Thống kê nhãn thành phần kho viettreebank Một số kho ngữ liệu gán nhãn phụ thuộc tiếng Việt So sánh tập nhãn phụ thuộc tiếng Việt với tập nhãn phụ thuộc đa ngôn ngữ (UD) tập nhãn phụ thuộc tiếng Anh (SD) Tập quy tắc xác định phần tử trung tâm Một số luật sử dụng để xác định nhãn phụ thuộc Câu tiếng Việt theo định dạng CoNLL-X chưa phân tích Câu tiếng Việt theo định dạng CoNLL-X phân tích phụ thuộc Tập nhãn phụ thuộc nhóm Nguyễn Quốc Đạt[28] Tập nhãn phụ thuộc Nguyễn Kiêm Hiếu[28] Tập nhãn phụ trợ tiếng Việt Một số luật xác định gán nhãn vai nghĩa thô Một số câu tiếng Việt gán nhãn vai nghĩa dạng thô Một số nhãn vai nghĩa phổ biến Một số câu tiếng Việt gán nhãn vai nghĩa 76 77 77 79 81 82 83 85 3.1 3.2 Tập luật sinh liệu huấn luyện Shift-Reduce Luật suy diễn phân tích cú pháp Shift-reduce mở rộng 94 95 2.4 2.5 2.6 2.7 iv 57 58 68 69 70 76 3.3 3.4 3.24 Tập mẫu đặc trưng mở rộng 95 Dãy bước chuyển phân tích câu “Mảnh đất đạn bom khơng cịn người nghèo.” 97 Tập đặc trưng 98 Đặc trưng cho phân tích cú pháp thành phần tiếng Việt 98 Kết với tập liệu có số từ ≤ 10 103 Kết với tập liệu có số từ ≤ 35 103 Một số kết phân tích theo mơ hình tích hợp đặc trưng phân bố từ 104 So sánh F1 sử dụng đặc trưng CharLSTM EMLo 105 Kết F1 độ dài câu thay đổi sử dụng đặc trưng CharLSTM 105 Kết F1 độ dài câu thay đổi sử dụng đặc trưng ELMo 106 Lỗi phân cụm phân tích cú pháp thành phần tiếng Việt 106 Kết MaltParser 116 Kết MSTParser 118 Đặc trưng MaltParser cho tiếng Việt 124 Đặc trưng MSTParser cho tiếng Việt 124 Đặc trưng Bist-parser phân tích cú pháp phụ thuộc dựa bước chuyển 125 Kết phân tích cú pháp phụ thuộc với VTB_U MaltParser126 Kết phân tích cú pháp phụ thuộc với VTB_U MSTParser126 Kết phân tích cú pháp phụ thuộc với VTB_U Bist-Parser127 Kết phân tích cú pháp phụ thuộc với VTB Bist-Parser 127 Kết so sánh phương pháp phân tích cú pháp phụ thuộc VTB_UD 128 Độ xác ASL số nhãn phụ thuộc VTB_UD 128 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 Độ xác thuật tốn rút trích Độ xác hệ thống Độ xác chiến lược gán nhãn Tập đặc trưng Độ xác tập đặc trưng bảng 4.4 Tập đặc trưng Độ xác tập đặc trưng bảng 4.6 Ảnh hưởng ILP Độ xác loại đối số 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13 3.14 3.15 3.16 3.17 3.18 3.19 3.20 3.21 3.22 3.23 v 139 140 140 141 141 142 142 142 143 4.10 4.11 4.12 4.13 Độ xác thuật tốn rút Độ xác hệ thống Ảnh hưởng véctơ từ vị tự Ảnh hưởng véctơ từ từ vi trích 144 144 145 145 Danh sách hình vẽ Các bước xử lý ngôn ngữ tự nhiên Mơ hình tổng qt phân tích cú pháp gán nhãn vai nghĩa Biểu diễn cú pháp thành phần cú pháp phụ thuộc câu Nam đá bóng Phân loại từ tiếng Việt Cây cú pháp thành phần tiếng Việt Q trình phân tích cú pháp thành phần Cấu trúc phụ thuộc Đồ thị phụ thuộc câu tiếng Việt Ví dụ phân tích cú pháp dựa đồ thị Câu tiếng Anh gán nhãn vai nghĩa Khung vị từ Communication FrameNet Khung vị từ Cognition FrameNet Mơ hình CBOW 2.1 Cây cú pháp thành phần “Tôi mong_mỏi công_bằng thực_hiện trả lại cho họ.” 71 Cú pháp phụ thuộc câu “Tôi mong_mỏi công_bằng thực_hiện trả lại cho họ.” 71 Câu tiếng Việt gán nhãn vai nghĩa 80 2.3 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 1.10 2.2 Toán tử thay Toán tử nối Q trình phân tích cú pháp thành phần Cây cú pháp thành phần “Mảnh đất đạn bom khơng cịn người nghèo.” Mơ hình phân tích cú pháp thành phần sử dụng phương pháp self-attention[53] Bước mã hóa tổng quát[53] Bước mã hóa tổng quát[53] Minh họa gán nhãn thành phần lỗi cụm động từ với mệnh đề tiếng Việt Minh họa gán nhãn thành phần lỗi cụm danh từ tiếng Việt vii 20 21 28 30 34 44 45 45 51 90 90 93 96 99 100 101 107 108 3.10 Minh họa gán nhãn thành phần lỗi cụm giới từ tiếng Việt 3.11 Minh họa gán nhãn thành phần lỗi cụm liên từ tiếng Việt 3.12 Minh họa lỗi gán nhãn thành phần thành phần cấu trúc ngang cấp tiếng Việt 3.13 Minh họa lỗi gán nhãn thành phần cấu trúc riêng cấu trúc lỗi đính kèm cụm danh từ NP tiếng Việt 3.14 Quá trình lặp lại module RNN chuẩn chứa tầng đơn giản 3.15 Sử dụng BiLSTM phân tích cú pháp phụ thuộc dựa bước chuyển [32] 4.1 4.2 4.3 4.4 4.5 Biểu diễn cú pháp thành phần cú pháp phụ thuộc câu Nam đá bóng Một số lỗi Cách tiếp cận C-by-C W-by-W Trích xuất thành phần câu “Bà nói trai tơi mà” với vị ngữ “là ” Tốc độ học hệ thống viii 109 110 111 112 119 121 131 132 132 135 144 Danh mục từ viết tắt Từ viết tắt Tiếng Anh MST Maximum Spanning Tree CRF Conditional Random Field PCFG LTAG LPCFG SRL ILP LTAG LSTM-LM ELMo biLM GA-RNNG GLUE Ý nghĩa Cây bao trùm cực đại Trường ngẫu nhiên có điều kiện Probabilistic context free Văn phạm phi ngữ cảnh kết grammar hợp với xác suất Lexicalized tree adjoining Văn phạm kết nối từ vựng grammar Lexicalized probabilistic con- Văn phạm phi ngữ cảnh xác text free grammar suất từ vựng Semantic Role Labelling Gán nhãn vai nghĩa Integer Linear Programing Quy hoạch tuyến tính số nguyên Lexicalized Tree Adjoining Văn phạm kết nối từ vựng Grammars hóa Long Short Term Memory - mơ hình ngơn ngữ LSTM Language Model Embedding from Language Mơ hình nhúng ngơn ngữ Model Bidirectional Language Model Mơ hình ngơn ngữ hai chiều Gated Attention Recurrent Văn phạm mạng nơ-rơn hồi Neural Network Grammar quy với chế ý cổng General Language Under- Chỉ số đánh giá mức độ hiểu standing Evaluation ngôn ngữ hệ thống ix Mở đầu Giới thiệu Xử lý ngôn ngữ tự nhiên lĩnh vực nghiên cứu nhằm giúp cho hệ thống máy tính hiểu ngơn ngữ người vấn đề nhiều nhà khoa học giới quan tâm Các ứng dụng lĩnh vực đa đạng phong phú dịch máy, sinh văn bản, chuyển văn thành liệu có cấu trúc, phân loại văn bản, rút trích thơng tin, v.v Q trình xử lý ngơn ngữ tự nhiên gồm số vấn đề sau: phân tích hình thái từ, phân tích từ loại, phân tích cú pháp phân tích ngữ nghĩa hình Phân tích Phân tích Phân tích Phân tích hình thái từ từ loại cú pháp ngữ nghĩa Hình 1: Các bước xử lý ngơn ngữ tự nhiên Phân tích cú pháp vấn đề quan trọng xử lý ngơn ngữ tự nhiên Mục đích phân tích cú pháp nhận biết cấu trúc cú pháp câu để hiểu ý nghĩa văn Nó cung cấp tảng vững cho lĩnh vực xử lý văn thơng minh Có nhiều văn phạm sử dụng phân tích cú pháp phân tích cú pháp sử dụng văn phạm phi ngữ cảnh, văn phạm phi ngữ cảnh kết hợp xác suất từ vựng hóa, văn phạm cấu trúc hướng trung tâm, văn phạm kết nối cây, v.v Trong phân tích cú pháp thành phần sử dụng văn phạm phi ngữ cảnh phân tích cú pháp phụ thuộc nhiều nhóm quan tâm nghiên cứu Việc phân tích cú pháp câu chia làm hai mức [31]: • Mức thứ tách từ xác định thơng tin từ loại; • Mức thứ hai sinh cấu trúc cú pháp cho câu dựa từ từ loại bước trước cung cấp Do tiếng Việt ngôn ngữ đơn âm tiết nên thường gặp phải vấn đề nhập nhằng hai mức Tiếp theo sau bước phân tích cú pháp bước phân tích ngữ nghĩa tiếng Việt Gán nhãn vai nghĩa nhánh phân tích ngữ nghĩa câu Kết phân tích cú pháp gán nhãn vai nghĩa tốt tích hợp vào ứng dụng xử lý ngơn ngữ tự nhiên như: dịch máy, tóm tắt văn bản, hệ thống trả lời tự động, trích rút thông tin, v.v Đa số phương pháp để nâng cao hiệu phân tích cú pháp gán nhãn vai nghĩa sử dụng học máy thống kê Học máy thống kê có mặt hàng loạt ứng dụng đại như: cơng nghệ tìm kiếm thơng tin; chương trình lọc thư rác; xe tô, máy bay không người lái; xử lý ngôn ngữ, tiếng nói, hình ảnh; chương trình bảo mật mạng,v.v Mục tiêu học máy thống kê phối hợp thuật tốn máy tính mơ hình thống kê để tìm cấu trúc có liên hệ mặt toán học tập liệu hỗn tạp, đa dạng nhiều nhiễu mạng Internet tồn cầu, giao dịch chứng khốn, hình ảnh X-quang chẩn bệnh Đặc biệt, năm gần kết phân tích cú pháp gán nhãn vai nghĩa sử dụng học máy thống kê đạt kết cao nhiều ngôn ngữ khác tiếng Anh, tiếng Trung, v.v Đối với tiếng Việt, có số nghiên cứu phân tích cú pháp thành phần nhiên độ xác chưa cao so với ngơn ngữ khác Do đó, luận án tập trung giải tốn sau: • Đầu vào: Dữ liệu tách từ gán nhãn từ loại • Đầu ra: Dữ liệu gán nhãn cú pháp thành phần, cú pháp phụ thuộc gán nhãn vai nghĩa • Phương pháp: sử dụng phương pháp học máy để giải tốn Gồm bước sau: Xây dựng kho ngữ liệu cú pháp phụ thuộc tiếng Việt Xây dựng kho ngữ liệu gán nhãn vai nghĩa tiếng Việt Tiếp cận phương pháp học máy để giải tốn Mơ hình tổng quát sử dụng học máy thống kê cho toán phân tích cú pháp gán nhãn vai nghĩa tiếng Việt hình Hình 2: Mơ hình tổng qt phân tích cú pháp gán nhãn vai nghĩa Mơ hình sử dụng thuật tốn học có giám sát Dữ liệu huấn luyện kho ngữ liệu gán nhãn cú pháp gán nhãn vai nghĩa Kết bước huấn luyện thu mơ hình phân tích cú pháp gán nhãn vai nghĩa Mơ hình phân tích chứa tập tham số số đặc trưng riêng Sử dụng mơ hình phân tích để dự đoán gán nhãn cú pháp vai nghĩa cho liệu Để phân tích cú pháp gán nhãn vai nghĩa đạt độ xác cao, phải quan tâm đến hai vấn đề sau: việc xây dựng kho ngữ liệu gán nhãn cú pháp vai nghĩa; phương pháp phân tích cú pháp gán nhãn vai nghĩa Kho ngữ liệu gán nhãn cú pháp vai nghĩa liệu huấn luyện liệu để kiểm tra tính xác cơng cụ phân tích cú pháp vai nghĩa Đối với tiếng Việt, kho ngữ liệu 10,000 câu gán nhãn cú pháp thành phần dự án VLSP tập liệu thức xây dựng hiệu chỉnh năm gần Tuy nhiên, kho ngữ liệu cú pháp tiếng Việt hạn chế kể số lượng lẫn chất lượng chưa có kho ngữ liệu gán nhãn vai nghĩa dẫn đến chưa có nhiều nghiên cứu vấn đề phân tích cú pháp gán nhãn vai nghĩa tiếng Việt nói chung Vì vậy, việc xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc vai nghĩa tiếng Việt giai đoạn quan trọng Dựa thông tin cú pháp thành phần viettreebank, tác giả rút trích thơng tin để xây dựng kho liệu gán cú pháp phụ thuộc kho liệu gán nhãn vai nghĩa Xét ví dụ câu “Nam đá bóng.” gán nhãn cú pháp thành phần, cú pháp phụ thuộc vai nghĩa hình 3: Hình 3.a cho biết thơng Hình 3: Biểu diễn cú pháp thành phần cú pháp phụ thuộc câu Nam đá bóng S N-H VP NP-SUB V-H S Arg0 NP VP NP-SUB Rel Arg1 N-H V-H NP Nam đá N root punct Nam đá N bóng a Cây cú pháp thành phần nsubj dobj Nam đá bóng N V N b Cây cú pháp phụ thuộc bóng c Gán nhãn vai nghĩa tin cụm chủ ngữ (NP-SUB) “Nam”, “đá bóng” cụm động từ VP Từ hình 3.a xác định thông tin cho cú pháp phụ thuộc (hình 3.b): đá động từ cụm động từ VP “bóng” tân ngữ trực tiếp cho động từ từ xác định thơng tin phụ thuộc (đá, bóng) có nhãn tân ngữ trực tiếp (dobj); đá từ câu, từ xác định quan hệ phụ thuộc: nsubj(đá, Nam) nghĩa Nam chủ ngữ cho động từ đá, punct(đá, ) “.” dấu câu phụ thuộc vào từ Hoặc xác định thơng tin cho vai nghĩa (hình 3.c): “Nam” chủ ngữ câu xác định nhãn vai nghĩa cho “Nam” vai tác thể (Arg0); đá động từ vị từ (Rel) câu; bóng tân ngữ trực tiếp bị thể cho vị từ đá có nhãn vai nghĩa (Arg1) Qua khảo sát tác giả nhận thấy ngồi việc khai thác thơng tin cú pháp phụ thuộc từ viettreebank khai thác thêm thơng tin gán nhãn vai nghĩa Đó lý bổ sung thêm nghiên cứu gán nhãn vai nghĩa đề tài Tiếp theo, để nâng cao hiệu phân tích cú pháp vai nghĩa luận án nghiên cứu số phương pháp phân tích cú pháp vai nghĩa tiếng Anh từ xác định vấn đề đưa giải pháp cho tiếng Việt Mục tiêu luận án Từ hạn chế lĩnh vực phân tích cú pháp gán nhãn vai nghĩa tiếng Việt mặt kho ngữ liệu lẫn phương pháp, luận án tập trung giải vấn đề sau: • Xây dựng nhãn phụ thuộc nhãn vai nghĩa cho tiếng Việt • Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc gán nhãn vai nghĩa cho tiếng Việt • Nghiên cứu phương pháp học máy thống kê nhằm nâng cao hiệu phân tích cú pháp gán nhãn vai nghĩa tiếng Việt Tóm tắt luận án Luận án trình bày số vấn đề sau: trình bày sở lý thuyết cú pháp tiếng Việt, gán nhãn vai nghĩa biểu diễn phân bố từ Xây dựng tập nhãn phụ thuộc vai nghĩa cho tiếng Việt Sau luận án đề xuất phương pháp xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc gán nhãn vai nghĩa cho tiếng Việt Sử dụng kho ngữ liệu gán nhãn cú pháp thành phần tiếng Việt tác giả thử nghiệm phân tích cú pháp thành phần phương pháp chính: dựa phương pháp shift-reduce phương pháp self-attention Tích hợp đặc trưng biểu diễn phân bố từ vào phương pháp phân tích cú pháp phụ thuộc dựa đồ thị dựa bước chuyển Phần cuối cùng, dựa kho ngữ liệu gán nhãn vai nghĩa tác giả xây dựng trình bày phương pháp gán nhãn vai nghĩa tiếng Việt Đóng góp luận án Sử dụng kho ngữ liệu gán nhãn cú pháp thành phần xây dựng nhóm VSLP, luận án có hai đóng góp chính: đóng góp mặt liệu, đóng góp mặt phương pháp phân tích cú pháp gán nhãn vai nghĩa cho tiếng Việt Về liệu: xây dựng tập nhãn cú pháp phụ thuộc tập nhãn vai nghĩa tiếng Việt Luận án đề xuất thuật toán chuyển liệu từ liệu gán nhãn cú pháp thành phần sang liệu gán nhãn cú pháp phụ thuộc vai nghĩa tiếng Việt Tác giả xây dựng thành công 10,165 câu tiếng Việt gán nhãn cú pháp phụ thuộc Thực gán nhãn phụ thuộc đa ngôn ngữ lại thủ công 3,000 câu tiếng Việt đưa lên kho ngữ liệu cú pháp phụ thuộc đa ngôn ngữ địa http://universaldependencies.org/ Đồng thời, tác giả xây dựng 5,460 câu gán nhãn vai nghĩa cho tiếng Việt Về phương pháp, tác giả áp dụng phương pháp phân tích cú pháp gán nhãn vai nghĩa: • Đối với tốn phân tích cú pháp thành phần: đề xuất tích hợp véctơ phân bố từ vào hệ thống phân tích cú pháp thành phần dựa bước chuyển shift-reduce để nâng cao hiệu phân tích cú pháp thành phần tiếng Việt Phân tích lỗi dành cho tiếng Việt dựa phương pháp phân tích cú pháp thành phần self-attention • Đối với tốn phân tích cú pháp phụ thuộc: dựa kho ngữ liệu xây dựng tác giả đề xuất tích hợp véctơ phân bố từ vào hệ thống phân tích cú pháp phụ thuộc MaltParser, MSTParser Bist-parser • Đối với toán gán nhãn vai nghĩa: áp dụng phương pháp quy hoạch tuyến tính nguyên với đề xuất tập ràng buộc dành riêng cho tiếng Việt đề xuất thuật toán rút trích thành phần để nâng cao hiệu gán nhãn vai nghĩa tiếng Việt Cấu trúc luận án Phần luận án trình bày sau: • Chương 1: trình bày khái niệm từ, cụm từ, cú pháp tiếng Việt Sau luận án trình bày khái niệm liên quan đến cú pháp thành phần, cú pháp phụ thuộc vai nghĩa tiếng Việt Tiếp theo phương pháp để biểu diễn phân bố từ: Skip-gram, CBOW, GloVe, ELMo • Chương 2: luận án mơ tả chi tiết phương pháp xây dựng tập nhãn phụ thuộc vai nghĩa tiếng Việt Đề xuất phương pháp chuyển kho ngữ liệu cú pháp thành phần sang kho ngữ liệu gán nhãn phụ thuộc vai nghĩa tiếng Việt • Chương 3: trình bày phương pháp nâng cao hiệu phân tích cú pháp thành phần, cú pháp phụ thuộc tiếng Việt Đầu tiên, luận án giới thiệu số văn phạm phổ biến phân tích cú pháp thành phần Tiếp theo, trình bày chi tiết đánh giá kết thử nghiệm phân tích cú pháp thành phần tiếng Việt phương pháp: shift-reduce self-attention Cuối cùng, tác giả trình bày đánh giá thử nghiệm phân tích cú pháp phụ thuộc dựa bước chuyển đồ thị cho tiếng Việt Đề xuất tích hợp đặc trưng biểu diễn phân bố từ vào hệ thống MaltPaser, MSTParser Bist-Parser cho phân tích cú pháp phụ thuộc tiếng Việt • Chương 4: tác giả mô tả tập đặc trưng phương pháp quy hoạch tuyến tính để gán nhãn vai nghĩa cho tiếng Việt Đánh giá phân tích kết gán nhãn vai nghĩa tiếng Việt • Phần kết luận: tóm tắt số kết đạt hướng phát triển tương lai Chương Cơ sở lý thuyết Chương trình bày kiến thức sở sử dụng phần sau luận án Đầu tiên, mục trình bày khái niệm sở tiếng Việt [1,2,10] từ, từ loại, cụm từ, Tiếp theo, mục 2, 3, trình bày tốn phân tích cú pháp thành phần, tốn phân tích cú pháp phụ thuộc tốn gán nhãn vai nghĩa Mục trình bày mơ hình biểu diễn phân bố từ: skip-gram, túi từ liên tục, GloVe biểu diễn từ dựa vào ngữ cảnh sâu 1.1 1.1.1 Khái niệm tiếng Việt Từ Ở phương diện ngữ pháp định nghĩa từ đơn vị nhỏ có nghĩa hoạt động tự câu Đơn vị sở cấu tạo từ tiếng Việt tiếng Tiếng có nghĩa đủ rõ, mang nghĩa mờ nhạt tự khơng có nghĩa [1] Từ có nhiều cách phân loại khác Xét số lượng tiếng có: • Từ chứa tiếng: từ đơn Ví dụ: nhà, • Từ gồm nhiều tiếng, phần lớn hai tiếng, gọi từ phức Ví dụ: nhà cửa, xanh lè, Xét mặt số lượng từ tố tham gia cấu tạo từ, hiểu từ tố yếu tố nhỏ có nghĩa, ta có: • Từ có từ tố, gọi từ đơn tố Ví dụ: nhà, đủng đỉnh • Từ chứa nhiều tố, gọi từ đa tố Ví dụ: nhà cửa, xe đạp, Xét mặt kết hợp âm có tác dụng tạo nghĩa, tiếng Việt cần tách lớp từ riêng từ láy, đủng đỉnh, Kết hợp ba mặt trên, có phân loại từ theo lược đồ hình 1.1: 1.1.2 Từ loại Việc tập hợp quy loại từ thường dựa vào quan niệm khác đặc trưng từ loại Các hệ thống từ loại tiếng Việt có chưa đạt ... nghĩa cho tiếng Việt • Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc gán nhãn vai nghĩa cho tiếng Việt • Nghiên cứu phương pháp học máy thống kê nhằm nâng cao hiệu phân tích cú pháp gán nhãn... liệu cú pháp phụ thuộc tiếng Việt Xây dựng kho ngữ liệu gán nhãn vai nghĩa tiếng Việt Tiếp cận phương pháp học máy để giải toán Mơ hình tổng qt sử dụng học máy thống kê cho tốn phân tích cú pháp. .. tài ? ?Nghiên cứu nâng cao hiệu phân tích cú pháp tiếng Việt theo tiếp cận học máy thống kê? ??, nhận nhiều giúp đỡ, tạo điều kiện Ban Giám hiệu, thầy cô khoa Sau Đại học khoa Toán - Cơ - Tin học trường

Ngày đăng: 22/02/2023, 17:25

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w