1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu nâng cao hiệu quả phân tích cú pháp tiếng việt theo tiếp cận học máy thống kê

193 23 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 193
Dung lượng 2,28 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN _ Nguyễn Thị Lương NGHIÊN CỨU NÂNG CAO HIỆU QUẢ PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT THEO TIẾP CẬN HỌC MÁY THỐNG KÊ LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội - 2020 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN _ Nguyễn Thị Lương NGHIÊN CỨU NÂNG CAO HIỆU QUẢ PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT THEO TIẾP CẬN HỌC MÁY THỐNG KÊ Chuyên ngành: Cơ sở toán cho tin học Mã số: 9460117.02 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Lê Hồng Phương PGS.TS Đỗ Trung Tuấn XÁC NHẬN NCS ĐÃ CHỈNH SỬA THEO QUYẾT NGHỊ CỦA HỘI ĐỒNG ĐÁNH GIÁ LUẬN ÁN Chủ tịch hội đồng đánh giá Người hướng dẫn khoa học Luận án Tiến sĩ PGS.TS Phan Xuân Hiếu Hà Nội - 2020 TS Lê Hồng Phương Lời cam đoan Tơi xin cam đoan cơng trình nghiên cứu khoa học Các số liệu sử dụng phân tích luận án có nguồn gốc rõ ràng, công bố theo quy định Các kết chưa công bố nghiên cứu khác Hà Nội, ngày 10 tháng năm 2020 Nghiên cứu sinh Nguyễn Thị Lương Lời cảm ơn Trong trình thực đề tài “Nghiên cứu nâng cao hiệu phân tích cú pháp tiếng Việt theo tiếp cận học máy thống kê”, nhận nhiều giúp đỡ, tạo điều kiện Ban Giám hiệu, thầy cô khoa Sau Đại học khoa Toán - Cơ - Tin học trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội Tơi xin bày tỏ lịng cảm ơn chân thành giúp đỡ Tơi xin bày tỏ lịng biết ơn sâu sắc tới TS Lê Hồng Phương, PGS.TS Đỗ Trung Tuấn - người thầy tận tình hướng dẫn trực tiếp cho tơi hồn thành luận án Tôi xin chân thành cảm ơn Ban Giám hiệu, thầy cô khoa Công nghệ Thông tin, trường Đại học Đà Lạt nơi tơi cơng tác gia đình, bạn bè động viên, khích lệ, tạo điều kiện giúp đỡ tơi suốt q trình thực hoàn thành luận án Hà Nội, ngày 10 tháng năm 2020 Nghiên cứu sinh Nguyễn Thị Lương Mục lục Danh sách bảng iv Danh sách hình vẽ vii Mở đầu 1 Cơ sở lý thuyết 1.1 Khái niệm tiếng Việt 1.1.1 Từ 1.1.2 Từ loại 1.1.3 Cụm từ 1.1.4 Câu 1.1.5 Cú pháp 1.1.6 Vai nghĩa 1.2 Cú pháp thành phần 1.2.1 Bài tốn phân tích cú pháp thành phần 1.2.2 Phương pháp phân tích cú pháp thành phần 1.2.3 Khảo sát nghiên cứu cho phân tích cú pháp thành phần 1.3 Cú pháp phụ thuộc 1.3.1 Bài tốn phân tích cú pháp phụ thuộc 1.3.2 Biểu diễn cú pháp phụ thuộc 1.3.3 Các thuật tốn phân tích cú pháp phụ thuộc 1.3.4 Khảo sát nghiên cứu cho phân tích cú pháp phụ thuộc 1.4 Gán nhãn vai nghĩa 1.4.1 Bài toán gán nhãn vai nghĩa 1.4.2 Các cơng trình liên quan 1.4.3 Khảo sát nghiên cứu cho gán nhãn vai nghĩa 1.5 Biểu diễn phân bố từ 1.5.1 Mơ hình Skip-gram 1.5.2 Mơ hình túi từ liên tục 1.5.3 Mơ hình GloVe 1.5.4 Biểu diễn từ dựa vào ngữ cảnh sâu 1.6 Kết luận i 7 7 10 11 14 17 20 21 22 25 28 28 29 31 37 43 43 44 48 49 50 51 52 52 54 Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc vai nghĩa tiếng Việt 2.1 Kho ngữ liệu Treebank 2.2 Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc 2.2.1 Tập nhãn quan hệ phụ thuộc tiếng Việt 2.2.2 Xác định cụm từ trung tâm 2.2.3 Xác định nhãn phụ thuộc 2.2.4 Thuật toán chuyển từ câu cú pháp thành phần thành cú pháp phụ thuộc 2.2.5 Đánh giá 2.3 Xây dựng kho ngữ liệu gán nhãn vai nghĩa tiếng Việt 2.3.1 Bộ nhãn vai nghĩa cho tiếng Việt 2.3.2 Tập luật gán nhãn nhãn vai nghĩa 2.3.3 Xây dựng trang web hiệu chỉnh nhãn vai nghĩa thô 2.3.4 Đánh giá kết 2.4 Kết luận Nâng cao hiệu phân tích cú pháp tiếng Việt 3.1 Phân tích cú pháp thành phần 3.1.1 Một số văn phạm phổ biến 3.1.2 Phương pháp phân tích Shift-Reduce 3.1.3 Phương pháp self-attention 3.1.4 Đánh giá kết 3.1.5 Kết luận phân tích cú pháp thành phần 3.2 Phân tích cú pháp phụ thuộc tiếng Việt 3.2.1 Phân tích cú pháp phụ thuộc dựa bước chuyển 3.2.2 Phân tích cú pháp dựa đồ thị 3.2.3 Sử dụng BiLSTM phân tích cú pháp phụ thuộc 3.2.4 Đánh giá kết 3.2.5 Kết luận phân tích cú pháp phụ thuộc 3.3 Kết luận Phương pháp quy hoạch tuyến tính nguyên gán nhãn tiếng Việt 4.1 Mơ tả thuật tốn 4.1.1 Khảo sát số phương pháp 4.1.2 Phương pháp đề xuất ii 55 56 57 59 69 70 70 75 78 78 81 82 82 83 86 87 87 92 99 102 112 113 113 116 118 122 128 129 vai nghĩa 130 130 130 132 4.2 4.3 4.4 4.5 Quy hoạch tuyến tính nguyên Tập đặc trưng sử dụng 4.3.1 Đặc trưng 4.3.2 Đặc trưng Đánh giá kết 4.4.1 Phương pháp đánh giá 4.4.2 Hệ thống 4.4.3 Chiến lược gán nhãn 4.4.4 Phân tích đặc trưng 4.4.5 Cải tiến dựa vào ILP 4.4.6 Tốc độ học 4.4.7 Sử dụng biểu diễn phân bố Kết luận từ SRL 135 138 138 139 139 139 139 140 141 141 144 145 145 Kết luận 146 Các cơng trình cơng bố luận án 148 Tài liệu tham khảo 150 Phụ lục 159 iii Danh sách bảng 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 Tập nhãn từ loại tiếng Việt Tập nhãn cụm từ tiếng Việt Tổ chức câu tiếng Việt Tập nhãn mệnh đề tiếng Việt Tập nhãn chức cú pháp tiếng Việt Các đặc trưng dùng MSTParser Các đặc trưng dùng MaltParser Ví dụ phân tích cú pháp dựa vào bước chuyển Kết số nghiên cứu phân tích cú pháp phụ thuộc tiếng Anh tiếng Trung 1.10 Kết số nghiên cứu phân tích cú pháp phụ thuộc tiếng Việt 1.11 Một số nghiên cứu vai nghĩa đánh giá OntoNotes 2.1 2.2 2.3 11 12 14 17 33 36 38 40 42 48 2.8 2.9 2.10 2.11 2.12 2.13 2.14 Thống kê nhãn thành phần kho viettreebank Một số kho ngữ liệu gán nhãn phụ thuộc tiếng Việt So sánh tập nhãn phụ thuộc tiếng Việt với tập nhãn phụ thuộc đa ngôn ngữ (UD) tập nhãn phụ thuộc tiếng Anh (SD) Tập quy tắc xác định phần tử trung tâm Một số luật sử dụng để xác định nhãn phụ thuộc Câu tiếng Việt theo định dạng CoNLL-X chưa phân tích Câu tiếng Việt theo định dạng CoNLL-X phân tích phụ thuộc Tập nhãn phụ thuộc nhóm Nguyễn Quốc Đạt[28] Tập nhãn phụ thuộc Nguyễn Kiêm Hiếu[28] Tập nhãn phụ trợ tiếng Việt Một số luật xác định gán nhãn vai nghĩa thô Một số câu tiếng Việt gán nhãn vai nghĩa dạng thô Một số nhãn vai nghĩa phổ biến Một số câu tiếng Việt gán nhãn vai nghĩa 76 77 77 79 81 82 83 85 3.1 3.2 Tập luật sinh liệu huấn luyện Shift-Reduce Luật suy diễn phân tích cú pháp Shift-reduce mở rộng 94 95 2.4 2.5 2.6 2.7 iv 57 58 68 69 70 76 3.3 3.4 3.24 Tập mẫu đặc trưng mở rộng 95 Dãy bước chuyển phân tích câu “Mảnh đất đạn bom khơng cịn người nghèo.” 97 Tập đặc trưng 98 Đặc trưng cho phân tích cú pháp thành phần tiếng Việt 98 Kết với tập liệu có số từ ≤ 10 103 Kết với tập liệu có số từ ≤ 35 103 Một số kết phân tích theo mơ hình tích hợp đặc trưng phân bố từ 104 So sánh F1 sử dụng đặc trưng CharLSTM EMLo 105 Kết F1 độ dài câu thay đổi sử dụng đặc trưng CharLSTM 105 Kết F1 độ dài câu thay đổi sử dụng đặc trưng ELMo 106 Lỗi phân cụm phân tích cú pháp thành phần tiếng Việt 106 Kết MaltParser 116 Kết MSTParser 118 Đặc trưng MaltParser cho tiếng Việt 124 Đặc trưng MSTParser cho tiếng Việt 124 Đặc trưng Bist-parser phân tích cú pháp phụ thuộc dựa bước chuyển 125 Kết phân tích cú pháp phụ thuộc với VTB_U MaltParser126 Kết phân tích cú pháp phụ thuộc với VTB_U MSTParser126 Kết phân tích cú pháp phụ thuộc với VTB_U Bist-Parser127 Kết phân tích cú pháp phụ thuộc với VTB Bist-Parser 127 Kết so sánh phương pháp phân tích cú pháp phụ thuộc VTB_UD 128 Độ xác ASL số nhãn phụ thuộc VTB_UD 128 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 Độ xác thuật tốn rút trích Độ xác hệ thống Độ xác chiến lược gán nhãn Tập đặc trưng Độ xác tập đặc trưng bảng 4.4 Tập đặc trưng Độ xác tập đặc trưng bảng 4.6 Ảnh hưởng ILP Độ xác loại đối số 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13 3.14 3.15 3.16 3.17 3.18 3.19 3.20 3.21 3.22 3.23 v 139 140 140 141 141 142 142 142 143 4.10 4.11 4.12 4.13 Độ xác thuật tốn rút Độ xác hệ thống Ảnh hưởng véctơ từ vị tự Ảnh hưởng véctơ từ từ vi trích 144 144 145 145 • Tơi cam đoan làm điều → ccomp(cam đoan, làm) • Họ nghĩ giá cổ phiếu FPT tăng → ccomp(nghĩ, tăng) 12 conj: liên kết Liên kết trung tâm cụm liên kết nối liên từ (và, hoặc) Ta coi quan hệ liên kết không đối xứng, cụm liên kết từ chính, cụm liên kết thứ hai từ phụ thuộc • Lan cao xinh xắn → conj(cao, xinh xắn) root punct conj nsubj Lan cc cao xinh_xắn • Họ bơi đá bóng → conj(bơi, đá) punct root nsubj advmod Họ conj cc bơi dobj đá bóng • Ngành nghề kinh doanh cốt lõi FPT viễn thông, công nghiệp nội dung dịch vụ CNTT → conj( viễn thông, công nghiệp); conj( viễn thông, dịch vụ) 13 cop: hệ từ Quan hệ hệ từ với root câu, hệ từ thường từ “là” • Lan sinh viên → cop(sinh_viên, là) root nsubj cop Lan punct sinh_viên 14 csubj: chủ ngữ mệnh đề Chủ ngữ mệnh đề mệnh đề đóng vai trị chủ ngữ câu Đây quan hệ từ mệnh đề từ mệnh đề chủ ngữ • Anh nói khơng → csubj(đúng, nói) 165 root csubj nsubj Anh det:pmod nói neg punct khơng • Gió thổi mạnh làm đổ cối → csubj(làm, thổi) • Phụ nữ viết tiểu thuyết trở thành tượng → csubj(trở thành, viết) 15 dep: phụ thuộc Quan hệ phụ thuộc quan hệ tổng quát, sử dụng ta xác định quan hệ cụ thể từ câu 16 det: hạn định Hạn định quan hệ từ cụm danh từ với từ hạn định Trong tiếng Việt, từ hạn định hay gặp “những”, “các”, “mọi”, “cả”, “tất cả” Ngồi ra, quan hệ det cịn mơ tả phụ thuộc danh từ với đại từ định tiếng Việt, ví dụ “ấy”, “kia”, “này”, “đó”, “bây giờ” Khi đó, gọi tên quan hệ là: det:pmod • Mưa ngày → det(ngày, cả) root nsubj Trời mưa punct tmod det ngày • Tất mèo đen đẹp → det(mèo, những); det(mèo, tất cả) nsubj root det det det:pmod amod nc Tất_cả mèo đen • Anh cao → det:pmod(anh, này) 166 advmod advmod punct đẹp 10 root nsubj det:pmod Anh advmod punct cao • Hai mèo đen → det:pmod(con, ấy) • Mùa thu qua → det:pmod(mùa thu, đó) • Nơi đâu → det:pmod(nơi,đâu) 17 discourse: quan hệ thán từ Quan hệ sử dụng cho thán từ tiểu từ với thành phần cụm chứa Các thán từ tiểu từ tiếng Việt thường có nhãn T • Chỗ xưa đồn bốt nè! → discourse(đồn_bốt, nè) nsubj root tmod det:pmod Chỗ punct discourse cop xưa đồn_bốt nè ! • Nó hên thiệt → discourse(hên,thiệt) 18 dislocated: thành phần dịch chuyển Quan hệ dislocated sử dụng cho thành phần không tuân theo quan hệ ngữ pháp cốt lõi câu Trong tiếng Việt, quan hệ kiểu thường xuất cấu trúc “đề” • Cây này, to → dislocated(to, Cây) dislocated det:pmod Cây root nsubj , punct to , 19 dobj: bổ ngữ trực tiếp Bổ ngữ trực tiếp cụm động từ thường cụm danh từ • Nó đạt giải nhì → dobj(đạt, giải) 167 root punct nsubj Nó dobj đạt num giải nhì • Nam ăn cháo → dobj(ăn, cháo) root nsubj advmod Nam punct dobj ăn cháo • Nam tặng cô hoa → dobj(tặng, hoa) 20 foreign: Từ nước Là quan hệ từ nước với từ cụm từ nước xuất câu Thơng thường tiếng Việt có nhiều từ nước mượn từ tiếng Pháp, tiếng Anh, tiếng Hán, Tuy nhiên, hầu hết từ tách thành từ, ví dụ: cờ lê, mỏ lết, xì căng đan, tắc xi, ghi ta, bê tông, ban công, 21 iobj: bổ ngữ gián tiếp Bổ ngữ gián tiếp cụm động từ thường đại từ danh từ làm bổ ngữ tặng cách Bổ ngữ gián tiếp thường trả lời cho câu hỏi đại từ: Ai? Người nào? (whom) Chú ý quan hệ sử dụng khơng có giới từ • Nam tặng hoa punct dobj root nsubj Nam iobj tặng det:pmod cô hoa Trong trường hợp có giới từ ta sử dụng quan hệ dobj, prep pobj • Hiến đất cho làng → dobj(hiến, đất); prep(hiến, cho); pobj(cho, làng) 22 list: quan hệ liệt kê Quan hệ liệt kê sử dụng cho chuỗi thành phần tương tự sử dụng câu Các danh sách có nhiều hai thành phần, tất thành phần cịn lại phụ thuộc vào thành phần Quan hệ thường xuất chữ kí email, để liệt kê thông tin người, đơn vị, 168 • Nguyễn Văn An, Điện thoại: 0123456, Email: an.hus@gmail.com punct list punct root list punct appos appos Nguyễn_Văn_An , Điện_thoại: 0123456 , Email: an.hus@gmail.com 23 mark: đánh dấu Từ đánh dấu từ giới thiệu mệnh đề phụ mệnh đề chính, tiếng Việt thường từ “rằng”, “là”, “mà”, “nơi” Quan hệ đánh dấu liên kết từ mệnh đề phụ với từ đánh dấu • Cơ nói anh thích chơi → mark(thích, rằng) punct root ccomp mark nsubj det:pmod Cơ nsubj nói anh xcomp thích chơi dobj • Anh nói em thích kem → mark(thích, rằng) • Cơ nói ngày mai đến → mark(đến, là) 24 neg: phủ định Mô tả mối quan hệ phủ định từ (động từ tính từ) từ diễn đạt ý nghĩa phủ định Trong tiếng Việt, hai từ hay dùng để diễn đạt ý phủ định “khơng” “chẳng” • Anh không tới → neg(tới, không) root nsubj neg Anh khơng punct tới • Hoa khơng chăm → neg(chăm chỉ, khơng) • Nó chẳng thiết → neg(thiết, chẳng) 169 25 nc: bổ nghĩa danh từ cho danh từ loại Quan hệ nc biểu diễn mối liên hệ danh từ loại với danh từ chung Các danh từ loại ln đứng trước danh từ chung, ví dụ “cái”, “con” • Hai mèo đen ăn cá → nc(mèo, con) nsubj num Hai nc amod mèo root punct dobj advmod đen ăn cá • Những cam vàng → nc(cam, quả) 26 nn: bổ nghĩa danh từ Mô tả quan hệ bổ nghĩa danh từ với danh từ phụ Trong tiếng Việt, cụm có hai danh từ danh từ thường đứng trước danh từ phụ (ngược với tiếng Anh, danh từ ln nằm bên phải cùng, ví dụ the phone book, oil prices) • Sổ điện thoại bàn → nn(sổ, điện thoại) root nsubj nn Sổ advmod điện_thoại punct prep pobj bàn • bàn máy tính → nn(bàn, máy tính) • người nhện → nn(người, nhện) 27 nsubj: chủ ngữ danh từ Chủ ngữ danh từ cụm danh từ đại từ làm chủ ngữ mệnh đề Từ quan hệ thường động từ tính từ • Bông hoa tươi → nsubj(tươi, bông) root nsubj nc Bơng advmod hoa • Tơi học → nsubj(đi, tôi) 170 punct tươi root punct xcomp nsubj Tôi học • Liêm đánh bại Sơn → nsubj(đánh bại, Liêm) • Biển lặng → nsubj(lặng, biển) • Trang mờ → nsubj(mờ, trang) 28 num: bổ từ số lượng Bổ từ số lượng danh từ cụm số bổ nghĩa cho danh từ Danh từ thường có kiểu Nc Nu • Hoa ăn que kem → num(que, 3) punct root dobj num nsubj Hoa ăn 3 nc que kem • Có mèo → num(con, 2) 29 number: thành phần số từ Mô tả quan hệ thành phần cụm số từ số lượng tiền Từ thường đơn vị tiền tệ (đồng, USD ) • Nó nhận triệu đồng → number(triệu, 5) punct dobj root nsubj Nó nhận number num triệu đồng 30 parataxis: thành phần đẳng lập Quan hệ đẳng lập quan hệ vị từ mệnh đề thành phần khác câu, ví dụ phần ngoặc đơn, mệnh đề sau dấu chấm phảy (;), dấu hai chấm (:), hai câu song song • Gã đó, anh nói, → parataxis(đi, nói) 171 nsubj parataxis punct det:pmod Gã nsubj , anh punct nói root advmod , punct advmod 10 Các thành phần đẳng lập thường nằm câu phức đẳng lập, loại câu phức, mệnh đề liên kết với quan hệ bình đẳng Loại câu nhận biết nhờ hai dấu hiệu hình thức (a) Liên từ liên hợp: như, và, nhưng, song, rồi, còn, hay [là], [là], mà, vả [lại], [là] [là]; (b) quãng nghỉ nói, dấu ngắt mệnh đề (dấu phảy, dấu hai chấm) viết Để thiết lập loại câu này, người ta thường dựa vào số quan hệ Dưới quan hệ phổ biến: • Quan hệ liệt kê/nối tiếp Ví dụ: – Mắt tơi nhìn xuống mũi, mũi tơi nhìn xuống miệng, miệng tơi bịu – Nó kêu, la, rên, khóc, giả giãy chết, nằm lăn ăn vạ • Quan hệ giải thích Ví dụ: – Nết làm việc: cô đưa hàng buổi sớm, cô đến quan, cô dạy học – Tôi đùa chơi chứ, anh tưởng mê Dung à? • Quan hệ bổ sung Ví dụ: – Dung khóc, khơng dám nói – Thơi, tơi nhức đầu bị búa bổ, chóng mặt – Tơi khơng nói, mà anh khơng nói • Quan hệ tương phản/nhượng Ví dụ: – Người đàn bà run cầm cập, cịn thầy đồ thản nhiên khơng – Cà có nhiều loại, vị khơng khác • Quan hệ lựa chọn/so sánh Ví dụ: – Tơi hay anh đi? 172 – Nó nghiện mùi xăng người ta nghiện ma túy 31 pcomp: bổ trợ giới từ Quan hệ sử dụng bổ ngữ giới từ động từ mệnh đề • Đi học để mở mang kiến thức → pcomp(để, mở mang) punct root prep xcomp Đi pcomp học để dobj mở_mang kiến_thức • nhằm phát triển đội ngũ → pcomp(nhằm, phát triển) • Bởi anh chăm việc canh nơng Cho nên có bồ bịch ngồi → pcomp(bởi, chăm) 32 pobj: bổ ngữ giới từ Bổ ngữ giới từ từ cụm danh từ sau giới từ • Tơi ngồi ghế → pobj(ghế, trên) root nsubj Tôi ngồi punct prep pobj ghế • Bị trói buộc tập quán cũ → pobj(tập quán, bởi) • Hỏng việc hấp tấp → pobj(hấp tấp, do) • Nói chuyện với sếp → pobj(sếp, với) • Chuyển hàng xuống thuyền → pobj(thuyền, xuống) • Tơi với anh lên thành phố → pobj(anh, với); pobj(thành phố, lên) 33 prep: bổ nghĩa giới từ Quan hệ bổ nghĩa giới từ mô tả liên hệ cụm giới từ với động từ, tính từ, danh từ giới từ • Anh xúc cát xẻng → prep(xúc, xẻng) 173 punct prep root nsubj Anh dobj xúc pobj cát xẻng • Tơi nhìn thấy chuột gầm bàn → prep(chuột, gầm bàn) • Nam nhận trách nhiệm việc → prep(trách nhiệm, việc) • Nó tay → prep(đi, tay) 34 punct: dấu câu Quan hệ mơ tả phụ thuộc từ dấu câu • Vào chuồng! → punct(vào, !) root punct dobj Vào chuồng ! • Đi chứ? → punct(đi, ?) 35 remnant: quan hệ tỉnh lược Quan hệ tỉnh lược biểu thị mối quan hệ lại trường hợp tỉnh lược tiếng Việt • Tơi có hai bánh, em → remnant(Tơi, em), remnant(bánh, một) punct remnant punct dobj num root nsubj Tôi remnant nc có hai bánh , em 36 reparandum: quan hệ sửa chữa Quan hệ reparandum sử dụng cho việc sửa chữa không trôi chảy câu nói Thường câu nói trước bị sai, người nói sửa lại sau • Tơi rẽ trái, phải → reparandum(trái, phải) 174 punct reparandum root discourse punct nsubj dobj Tôi rẽ trái , phải 37 rcmod: bổ nghĩa mệnh đề quan hệ Bổ nghĩa mệnh đề quan hệ cụm danh từ (NP) Quan hệ mối quan hệ từ trung tâm cụm danh từ với từ trung tâm mệnh đề quan hệ (thường động từ) • Tơi thấy người đàn ông bạn yêu → rcmod(người, yêu) punct ccomp rcmod root ref nsubj Tôi nc thấy người nsubj đàn_ông mà bạn yêu 38 ref: tham chiếu Tham chiếu cụm danh từ từ quan hệ liên kết mệnh đề quan hệ bổ nghĩa cho cụm danh từ Từ quan hệ tiếng Việt đại từ “mà” • Tơi nhìn thấy sách mà bạn mua → ref(cuốn, mà) punct ccomp rcmod root ref nsubj Tôi nc thấy nsubj sách mà bạn mua • Người mà anh nói đến bố tơi → ref(người, mà) Chú ý từ “mà” cịn liên từ trợ từ Trong trường hợp khơng phải từ tham chiếu Khi sử dụng liên từ, từ “mà” diễn đạt loại ý nghĩa sau: (a) Liên từ biểu thị kết quả: Biết tay ăn mặn chừa, đừng trêu mẹ mướp mà xơ có ngày; Non đắp mà cao, sơng kia, biển đào mà sâu 175 (b) Liên từ biểu thị mục đích: Trèo lên trái núi mà coi, có bà quản tượng cưỡi voi bành vàng (c) Liên từ biểu thị giả thiết: Anh mà đến sớm gặp chị Cịn sử dụng làm trợ từ, từ “mà” thường đặt cuối câu để nhấn mạnh: Đã bảo!; Anh tin làm mà! 39 root: gốc Quan hệ ngữ pháp gốc trỏ tới từ câu Ta dùng nút giả có tên ROOT để làm từ Từ ROOT đánh số 0, từ câu đánh số • Tôi yêu Mai → root(ROOT, yêu) root punct dobj nsubj Tơi u Mai • Doanh thu công ty tăng mạnh → root(ROOT, tăng) 40 tmod: bổ ngữ thời gian Bổ ngữ thời gian câu thường cụm danh từ thời gian Trong ngữ pháp, cụm thường gọi trạng từ thời gian • Đêm qua tơi ngủ muộn → tmod(ngủ, đêm_qua) root tmod nsubj Đêm_qua punct apredmod ngủ muộn • Ngày mai họ → tmod(đi, ngày mai) • Chuyện 20 năm trước → tmod(năm, chuyện) 41 vcomp: bổ ngữ động từ động từ Quan hệ bổ ngữ động từ động từ sử dụng để định quan hệ động từ động từ phụ • Tơi chuyển tiền nộp học phí → vcomp(chuyển, nộp) 176 punct root vcomp nsubj Tôi dobj chuyển dobj tiền nộp học_phí • có vốn mở sở → vcomp(có, mở) • tăng vốn làm ăn → vcomp(tăng, làm ăn) Quan hệ vcomp sử dụng ví dụ sau: • Anh cho bò ăn → vcomp(cho, ăn) root nsubj Anh punct vcomp dobj cho bò ăn • Tơi cho mượn tiền → vcomp(cho, mượn) • Anh cho học hết lớp 12 → vcomp(cho, học) 42 vmod: bổ ngữ động từ danh từ Quan hệ bổ ngữ động từ cụm danh từ dùng để mô tả mối quan hệ danh từ động từ cụm danh từ • Bàn học đẹp → vmod(Bàn, học) root nsubj vmod Bàn punct discourse det:pmod học đẹp q • Cơ giáo dạy THCS chuyển → vmod(cơ giáo, dạy) • Năm đổi → vmod(năm, đổi mới) 43 vnom: danh từ hóa động từ Động từ danh từ hóa từ loại đứng trước Ví dụ “cái”, “sự”, “việc” • Cái ăn khan quá! → vnom(ăn, cái) 177 root vnom Cái punct advmod nsubj ăn khan_hiếm ! • Sự học ngày phát triển quê hương → vnom(học, sự) 44 vocative: quan hệ xưng hô Vocative sử dụng để quan hệ người tham gia đối thoại (thường nói chuyện, email, hay đăng nhóm tin, ) • Lan, thơi! → vocative(đi, Lan) vocative punct nsubj Lan , root punct discourse thơi ! 45 csubj:vsubj: chủ ngữ động từ Quan hệ vsubj mô tả tượng động từ làm chủ ngữ Trong tiếng Việt, chủ ngữ thường danh từ, nhiên có số trường hợp tính từ, động từ, cụm chủ-vị làm chủ ngữ • Học tập nhiệm vụ → csubj:vsubj(là, học tập) root csubj:vsubj Học_tập punct dobj amod nhiệm_vụ • Nói chuyện với họ chán → csubj:vsubj(chán phè, Nói chuyện) • Viết tiểu thuyết trở thành hẳn nghề riêng → csubj:vsubj(trở thành, viết) 46 xcomp: bổ ngữ động từ vị từ Quan hệ xcomp mô tả quan hệ bổ nghĩa động từ vị từ Các động từ ý chí, định, u thích • Tơi thích ăn thịt → xcomp(thích, ăn) 178 root nsubj Tơi punct dobj xcomp thích ăn thịt • Tôi phải → xcomp(phải, đi) 47 nsubjpass: chủ ngữ danh từ bị động Chủ ngữ danh từ bị động cụm danh từ đại từ làm chủ ngữ bị động mệnh đề Từ diễn đạt ý nghĩa bị động tiếng Việt thường “bị” “được” Từ quan hệ thường động từ, tính từ danh từ Nếu từ tính từ đơi bỏ từ diễn đạt ý nghĩa bị động đi; trường hợp ta sử dụng phụ thuộc nsubj thay cho phụ thuộc nsubjpass, nhiên để quán, ta sử dụng nsubjpass • Nó bị đánh → nsubjpass(đánh, nó) • Y bị trục xuất → nsubjpass(trục xuất, y) • Lan khen → nsubjpass(khen, Lan) • Trang [bị] mờ → nsubjpass(mờ, trang) • Tèo bị điểm → nsubjpass(điểm, Tèo) 48 csubjpass: mệnh đề chủ ngữ bị động Mệnh đề chủ ngữ bị động mệnh đề làm chủ ngữ bị động câu Từ diễn đạt ý nghĩa bị động tiếng Việt thường “bị” “được” • Anh nói dối bị phát → csubjpass(phát_hiện, nói) 179 ...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN _ Nguyễn Thị Lương NGHIÊN CỨU NÂNG CAO HIỆU QUẢ PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT THEO TIẾP CẬN HỌC MÁY THỐNG KÊ Chuyên ngành:... shift-reduce để nâng cao hiệu phân tích cú pháp thành phần tiếng Việt Phân tích lỗi dành cho tiếng Việt dựa phương pháp phân tích cú pháp thành phần self-attention • Đối với tốn phân tích cú pháp phụ... hình phân tích cú pháp 1.2.2 Phương pháp phân tích cú pháp thành phần Có nhiều phương pháp phân tích cú pháp thành phần, nhiên phân thành loại chính: dựa luật, dựa vào thống kê phân tích cú pháp

Ngày đăng: 03/09/2020, 18:19

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN