Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 69 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
69
Dung lượng
3,43 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN NGUYỄN ĐĂNG KHOA MÔ HÌNH CƠNG CỤ PHÂN TÍCH NGỮ NGHĨA THEO ABSTRACT MEANING REPRESENTATION (AMR) LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60 48 01 01 NGƯỜI HƯỚNG DẪN KHOA HỌC TS NGUYỄN TUẤN ĐĂNG TP HỒ CHÍ MINH - 2017 LỜI CAM ĐOAN Tôi xin cam đoan luận văn cơng trình nghiên cứu khoa học riêng tơi Các đoạn trích dẫn số liệu sử dụng luận văn có dẫn nguồn rõ ràng Các kết nghiên cứu, thực nghiệm đánh giá cách khách quan Nếu điều nêu khơng đúng, tơi xin hồn tồn chịu trách nhiệm luận văn Học viên thực Nguyễn Đăng Khoa i LỜI CẢM ƠN Lời đầu tiên, xin gửi lời cảm ơn chân thành tới TS Nguyễn Tuấn Đăng – người Thầy cung cấp cho kiến thức quý báu môn học tận tình hướng dẫn tơi suốt q trình thực đề tài Sự hướng dẫn lời khun bổ ích góp ý Thầy động lực lớn giúp tơi hồn thành đề tài Và, tơi xin gửi lời cảm ơn tới gia đình, người ln bên tơi lúc khó khăn nhất, ln động viên, khuyến khích tơi sống công việc Học viên thực Nguyễn Đăng Khoa ii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC Danh mục ký hiệu chữ viết tắt Danh mục bảng .4 Danh mục hình vẽ, đồ thị MỞ ĐẦU .7 CHƯƠNG TỔNG QUAN PHÂN TÍCH CÂU VỀ DẠNG AMR .9 1.1 Khái niệm Abstract Meaning Representation 1.2 Tình hình nghiên cứu parsing AMR giới 10 1.3 Những vấn đề tồn .12 1.4 Nội dung luận văn 12 CHƯƠNG 2.1 GIỚI THIỆU VỀ CAMR .15 Các thành phần CAMR 15 2.1.1 Một số khái niệm quan trọng 15 2.1.2 Thuật giải parsing 16 2.1.3 Tập action .18 2.2 Huấn luyện hệ thống 19 2.2.1 Thuật giải huấn luyện 19 2.2.2 Tập nét đặc trưng 20 2.2.3 Đánh giá tập action 20 CHƯƠNG CẢI TIẾN TRONG CÁC ACTION CỦA CAMR 21 3.1 Cải tiến action NEXT NODE-lc 21 3.2 Cải tiến action REATTACHk-lr 33 3.3 Đánh giá lại tập action 38 CHƯƠNG CẢI TIẾN CAMR BẰNG CÁC LỚP HIỆU CHỈNH 45 4.1 Mục đích xây dựng hai lớp hiệu chỉnh 45 4.2 Lớp hiệu chỉnh thứ .47 4.2.1 Những khó khăn cho trình huấn luyện 47 4.2.2 Phương pháp xử lý ngữ liệu đầu vào 49 4.3 Lớp hiệu chỉnh thứ hai 50 4.3.1 Phương pháp xác định lỗi parsing khái niệm 50 4.3.2 Phương pháp sửa lỗi parsing khái niệm 53 CHƯƠNG THỬ NGHIỆM 58 5.1 Quy trình thử nghiệm 58 5.2 Kết thử nghiệm .60 5.3 Nhận xét ưu khuyết điểm phương pháp đề 61 5.3.1 Ưu điểm 61 5.3.2 Khuyết điểm 62 CHƯƠNG KẾT LUẬN VÀ KHUYẾN NGHỊ 63 6.1 Kết luận 63 6.2 Phương hướng nghiên cứu tới .63 DANH MỤC CÔNG BỐ KHOA HỌC CỦA TÁC GIẢ 64 TÀI LIỆU THAM KHẢO 65 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Từ viết tắt Giải thích AMR Abstract Meaning Representation MST Maximum Spanning Tree LF Logical First Smatch Evaluation Metric for Semantic Feature Structures SemEval Semantic Evaluation DANH MỤC CÁC BẢNG Bảng 2.1 Bảng action CAMR (nguồn [11]) 18 Bảng 3.1 Kết tổng hợp thử nghiệm đánh giá lại tập action 39 Bảng 3.2 Một số số chi tiết sau thử nghiệm đánh giá lại tập action 40 Bảng 4.1 So sánh số node align thành công trước sau áp dụng lớp hiệu chỉnh thứ 50 Bảng 4.2 Danh sách mẫu sửa lỗi khái niệm cho câu Ví dụ .54 Bảng 5.1 Kết thử nghiệm test set ngữ liệu huấn luyện 61 DANH MỤC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Cấu trúc Gold AMR ứng với Ví dụ trình bày dạng text Hình 1.2 Cấu trúc Gold AMR ứng với Ví dụ trình bày dạng đồ thị 10 Hình 1.3 Đồ hình mơ tả q trình parsing CAMR với cải tiến thực tô màu xám .14 Hình 2.1 AMR Graph Span Graph cho câu “The police want to arrest Micheal Karras” (nguồn [11]) 16 Hình 2.2 Mã giả cho Thuật giải parsing CAMR (nguồn [11]) 17 Hình 2.3 Mã giả cho Thuật giải huấn luyện CAMR (nguồn [11]) 19 Hình 3.1 Gold AMR ứng với Ví dụ 22 Hình 3.2 AMR ứng với Ví dụ thu từ CAMR nguyên 23 Hình 3.3 Minh họa cho Ví dụ 24 Hình 3.4 Mã giả cho việc cải tiến action NEXT NODE-lc 25 Hình 3.5 AMR ứng với Ví dụ trả từ CAMR sau cải tiến 26 Hình 3.6 Gold AMR ứng với Ví dụ 27 Hình 3.7 AMR ứng với Ví dụ thu từ CAMR nguyên 28 Hình 3.8 AMR ứng với Ví dụ trả từ CAMR sau cải tiến 28 Hình 3.9 Minh họa cho Ví dụ 29 Hình 3.10 Gold AMR ứng với Ví dụ 30 Hình 3.11 AMR trả thêm node vào đầu hàng đợi σ 31 Hình 3.12 AMR trả thêm node vào cuối hàng đợi σ trước kí tự kết thúc 32 Hình 3.13 Mã giả hàm thêm phần tử vào σ 32 Hình 3.14 Gold AMR ứng với Ví dụ 35 Hình 3.15 AMR ứng với Ví dụ thu từ CAMR nguyên 36 Hình 3.16 AMR ứng với Ví dụ trả từ CAMR sau cải tiến 38 Hình 3.17 Gold AMR cho trường hợp cải tiến action NEXT-NODE-lc không hiệu .41 Hình 3.18 Cấu trúc AMR trả trước thay đổi action NEXT-NODE-lc 41 Hình 3.19 Cấu trúc AMR trả sau thay đổi action NEXT-NODE-lc 42 Hình 3.20 Gold AMR cho trường hợp cải tiến action REATTACHk-lr không hiệu .44 Hình 4.1 Gold AMR ứng với Ví dụ 46 Hình 4.2 Gold AMR ứng với Ví dụ 48 Hình 4.3 Gold AMR ứng với câu Ví dụ 51 Hình 4.4 Cấu trúc AMR CAMR trả parse câu Ví dụ .53 Hình 4.5 Cấu trúc AMR sau sửa lỗi node (x28 / giant) 56 Hình 4.6 Cấu trúc AMR sau sửa lỗi khái niệm 57 Hình 5.1 Đồ hình mơ tả trình huấn luyện 59 Hình 5.2 Đồ hình mơ tả q trình thử nghiệm 60 MỞ ĐẦU MỞ ĐẦU Luận văn tập trung trình bày cải tiến mà tơi thực CAMR (một transition-based AMR Parser) [9] mơ tả q trình huấn luyện, kiểm thử, kết thử nghiệm hệ thống trình tham gia vào Subtask Parsing Task (Abstract Meaning Representation Parsing and Generation) SemEval2017 Hiện nay, việc nghiên cứu Phân tích câu dạng Abstract Meaning Representation (AMR) ngày thu hút ý tham gia nhiều nhà khoa học giới Đã có hai năm liên tục task AMR Parsing tổ chức SemEval Việc nghiên cứu chủ đề tham gia vào task SemEval hội quý báu cho thân tôi, mang lại nhiều kinh nghiệm việc nghiên cứu khoa học môi trường quốc tế chuyên nghiệp Mục tiêu nghiên cứu đề xuất mơ hình parser cải tiến theo Abstract Meaning Representation (AMR) với độ xác cao mơ hình có Đối tượng phạm vi nghiên cứu chủ yếu luận văn cải tiến mơ hình AMR parser có độ xác cao (CAMR) ngữ liệu huấn luyện sinh học sử dụng cho Subtask Parsing Task SemEval-2017 Khác với Task SemEval-2016, ngữ liệu sinh học sử dụng cho Subtask Parsing Task SemEval-2017 ngữ liệu ngành khoa học đặc thù câu báo khoa học Việc nghiên cứu tốt việc phân tích câu thuộc ngữ liệu mở nhiều hướng tiếp cận áp dụng cho việc phân tích câu báo khoa học cho nhiều lĩnh vực khác, không riêng lĩnh vực sinh học Đồng thời, nghiên cứu AMR bắt đầu vài năm trở lại có nhiều tiềm to lớn việc mô tả ngữ nghĩa ngôn ngữ tự nhiên Khả ứng dụng vào lĩnh vực Dịch máy, Trích xuất thơng tin,… lớn Dependency parsing số nhà khoa học Việt Nam nghiên cứu cho tiếng Việt họ tiếp tục xây dựng ngữ liệu dependency tree [13] Sau nghiên cứu, cải tiến AMR Parser thành công với input đầu vào liệu từ CẢI TIẾN CAMR BẰNG CÁC LỚP HIỆU CHỈNH Có thể dễ dàng nhận thấy Hình 4.3 Gold AMR ứng với câu Ví dụ 8, để xác định node có khả mang dạng lỗi này, tiến hành thu thập nhãn tất node ngữ liệu huấn luyện Từ danh sách này, tơi duyệt lại tồn node AMR kết Nếu có node riêng lẻ khơng có xuất danh sách có khả cao khái niệm chưa biết trước mà CAMR để lại Ví dụ với cấu trúc AMR Hình 4.3, danh sách giống sau [cause-01, possible-01, indicate-01, , and, protein, "Giant", ] Khi duyệt lại AMR kết Hình 4.4 rõ ràng nhãn node x28 / giant (khơng có dấu ngoặc kép) khơng xuất danh sách Vậy node có khả khái niệm mà CAMR chưa biết trước (x12 / possible-01 :ARG1 (x13 / indicate-01 :ARG0 (x4 / differ-02 :ARG1 (x7 / and :op1 (x6 / disease :name (n / name :op1 "Knirps")) :op2 (x11 / repress-01 :mod (x8 / other) :mod (x9 / short-range) :mod (x10 / transcribe-01)))) :ARG1 (x21 / identical-01 :domain (x16 / mechanism :instrument-of (x18 / repress-01)) :ARG1 (x24 / protein) :null_edge (x35 / interact-01 :ARG1-of (x26 / even) :ARG0 (x32 / and :op1 (x28 / giant) :op2 (x30 / disease :name (n1 / name :op1 "Knirps")) :op2 (x33 / organism 52 CẢI TIẾN CAMR BẰNG CÁC LỚP HIỆU CHỈNH :name (n2 / name :op1 "Kruppel")) :mod (x34 / all) :op1 (x38 / protein :name (n3 / name :op1 "CtBP"))))))) Hình 4.4 Cấu trúc AMR CAMR trả parse câu Ví dụ Dạng lỗi thứ hai liên quan đến cấu trúc node AMR sai loại khái niệm, thiếu node quan trọng có node sai, node null, cạnh null,… Như Ví dụ 8, thấy Hình 4.4, khái niệm tên “Knirps” nhận nhầm thành loại “disease” Trong toàn ngữ liệu huấn luyện, khơng có node có nhãn disease mà có cạnh :name kết nối với "Knirps" Thực tế, “Knirps” loại protein ngữ liệu huấn luyện Phương pháp phát lỗi dạng tương tự dạng lỗi thứ Nhưng thay thu thập danh sách nhãn node, thu thập danh sách tất node khái niệm ngữ liệu huấn luyện Một node gọi node khái niệm có cạnh :name kết nối trực tiếp Danh sách gọi danh sách cấu trúc AMR khái niệm Khi duyệt qua tất node AMR kết quả, có xuất cạnh :name node AMR duyệt, so sánh node duyệt với node danh sách cấu trúc AMR khái niệm Nếu khơng có xuất node duyệt danh sách đồng nghĩa node có khả chứa lỗi Hiện tại, dừng lại việc xác định xem node khái niệm AMR có khả chứa dạng lỗi Việc xác định xem node có thật bị lỗi hay khơng cần định chuyên gia người 4.3.2 Phương pháp sửa lỗi parsing khái niệm Từ hai danh sách lỗi tìm trên, tơi xây dựng Danh sách mẫu sửa lỗi Khái niệm Mỗi phần tử danh sách có dạng sau: Label - Error AMR - Fixed AMR 53 CẢI TIẾN CAMR BẰNG CÁC LỚP HIỆU CHỈNH Trong đó, Label chuỗi kí tự, Error AMR Fixed AMR cấu trúc AMR Hai thành phần Label Error AMR lấy trực tiếp từ hai danh sách lỗi Hiện tại, việc xây dựng thành phần Fixed AMR cần hỗ trợ chuyên gia người, người am hiểu lĩnh vực ngữ liệu Bảng 4.2 mô tả Danh sách mẫu sửa lỗi khái niệm cho câu Ví dụ Bảng 4.2 Danh sách mẫu sửa lỗi khái niệm cho câu Ví dụ Label Error AMR giant (x1 / giant) (x1 / protein Fixed AMR :name (n1 / name :op1 "Giant")) Label disease (x1 / disease Error AMR :name (n1 / name :op1 "Knirps")) (x1 / protein Fixed AMR :name (n1 / name :op1 "Knirps")) Label organism (x1 / organism Error AMR :name (n1 / name :op1 "Kruppel")) (x1 / protein Fixed AMR :name (n1 / name :op1 "Kruppel")) Sau có kết parsing CAMR giống Hình 4.4 Tơi tiến hành duyệt lại tất trong cấu trúc AMR Khi duyệt tới node (x28 / giant), tơi tìm Danh sách mẫu sửa lỗi khái niệm phần tử có label 54 CẢI TIẾN CAMR BẰNG CÁC LỚP HIỆU CHỈNH “giant” Tiếp theo, so sánh cấu trúc node dang duyệt với cấu trúc AMR thành phần Error AMR phần tử tìm danh sách Ở đây, cấu trúc Error AMR “(x1 / giant)”, hồn tồn khớp với node (x28 / giant) Nếu có trùng khớp cấu trúc tơi tiến hành thay cấu trúc Error AMR AMR kết với thành phần Fixed AMR Hình 4.5 thể cấu trúc AMR sau thực thay Trong id node giữ nguyên x28 Đối với node thêm vào cấu trúc AMR phải đảm bảo id node AMR nhất, node n4 / name, node node x28 mang id n4 thay n1 thành phần Fixed AMR Bảng 4.2 (x12 / possible-01 :ARG1 (x13 / indicate-01 :ARG0 (x4 / differ-02 :ARG1 (x7 / and :op1 (x6 / disease :name (n / name :op1 "Knirps")) :op2 (x11 / repress-01 :mod (x8 / other) :mod (x9 / short-range) :mod (x10 / transcribe-01)))) :ARG1 (x21 / identical-01 :domain (x16 / mechanism :instrument-of (x18 / repress-01)) :ARG1 (x24 / protein) :null_edge (x35 / interact-01 :ARG1-of (x26 / even) :ARG0 (x32 / and :op1 (x28 / protein :name (n4 / name :op1 "Giant")) :op2 (x30 / disease :name (n1 / name :op1 "Knirps")) 55 CẢI TIẾN CAMR BẰNG CÁC LỚP HIỆU CHỈNH :op2 (x33 / organism :name (n2 / name :op1 "Kruppel")) :mod (x34 / all) :op1 (x38 / protein :name (n3 / name :op1 "CtBP"))))))) Hình 4.5 Cấu trúc AMR sau sửa lỗi node (x28 / giant) Tương tự, cấu trúc node (x30 / disease :name (n1 / name :op1 "Knirps"), (x6 / disease :name (n / name :op1 "Knirps")), (x33 / organism :name (n2 / name :op1 "Kruppel")), thay cấu trúc Fixed AMR Bảng 4.2 Ta có kết cuối thể Hình 4.6 (x12 / possible-01 :ARG1 (x13 / indicate-01 :ARG0 (x4 / differ-02 :ARG1 (x7 / and :op1 (x6 / protein :name (n8 / name :op1 "Knirps")) :op2 (x11 / repress-01 :mod (x8 / other) :mod (x9 / short-range) :mod (x10 / transcribe-01)))) :ARG1 (x21 / identical-01 :domain (x16 / mechanism :instrument-of (x18 / repress-01)) :ARG1 (x24 / protein) :null_edge (x35 / interact-01 :ARG1-of (x26 / even) :ARG0 (x32 / and :op1 (x28 / protein 56 CẢI TIẾN CAMR BẰNG CÁC LỚP HIỆU CHỈNH :name (n4 / name :op1 "Giant")) :op2 (x30 / protein :name (n5 / name :op1 "Knirps")) :op2 (x33 / protein :name (n6 / name :op1 "Kruppel")) :mod (x34 / all) :op1 (x38 / protein :name (n3 / name :op1 "CtBP"))))))) Hình 4.6 Cấu trúc AMR sau sửa lỗi khái niệm Ta có điểm số F-score cấu trúc AMR trước sửa đổi 0,5234 Sau sửa đổi, điểm số F-score đạt 0,5816 Mặc dù sau sửa lỗi xong, cấu trúc AMR chưa giống y hệt với cấu trúc gold AMR Nhưng với việc cải thiện điểm số F-score sửa đổi có hiệu 57 THỬ NGHIỆM CHƯƠNG THỬ NGHIỆM 5.1 Quy trình thử nghiệm Tơi sử dụng ngữ liệu huấn luyện sinh học chia thành training set, develop set test set để tiến hành thử nghiệm Về CAMR, phiên baseline sử dụng phiên miêu tả [9] với thơng số cài đặt mặc định Nhưng, có điểm khác biệt với CAMR tài liệu [9] không sử dụng named entity tags semantic role labels trình thử nghiệm Để đánh giá kết thử nghiệm, sử dụng tool Smatch [4] phiên 16.11.14 Đầu tiên, thực cải tiến nêu phần Cải tiến action NEXT NODE-lc Cải tiến action REATTACHk-lr Kế đến, tiếp tục thực lớp hiệu chỉnh thứ miêu tả phần Phương pháp xử lý ngữ liệu đầu vào Về trình huấn luyện, tơi tiến hành thực huấn luyện hệ thống riêng biệt Dữ liệu huấn luyện tập hợp tất câu training set develop set ngữ liệu huấn luyện sinh học Với hệ thống thứ nhất, CAMR nguyên huấn luyện với liệu huấn luyện nguyên bản, chưa qua chỉnh sửa lớp hiệu chỉnh thứ Với hệ thống thứ hai thứ ba, liệu huấn luyện chỉnh sửa lớp hiệu chỉnh thứ Sự khác hệ thống thứ hai thứ ba hệ thống thứ hai, phiên CAMR nguyên sử dụng Trên hệ thống thứ ba, CAMR cải tiến action sử dụng Cả ba hệ thống thực huấn luyện 10 vòng lặp Hình 5.1 đồ hình mơ tả q trình huấn luyện hệ thống 58 THỬ NGHIỆM Hình 5.1 Đồ hình mơ tả q trình huấn luyện Sau đó, ba hệ thống thực kiểm thử với tất câu test set ngữ liệu huấn luyện sinh học Để sửa lỗi parsing khái niệm CAMR, cần xây dựng Danh sách mẫu sửa lỗi khái niệm Tôi viết tool để phát tất node AMR kết có khả chứa lỗi parsing khái niệm Tool duyệt hết tất node kết trả CAMR sau parsing test set ngữ liệu huấn luyện, thu thập tất node AMR có khả có lỗi parsing khái niệm theo phương pháp đề xuất phần Phương pháp xác định lỗi parsing khái niệm Sau kết thúc trình phát lỗi, tool trả Danh sách mẫu sửa lỗi khái niệm Mỗi phần tử danh sách có dạng “Label-Error AMR-Fixed AMR” Trong hai thành phần Label Error AMR có sẵn liệu Phần Fixed AMR chừa trống cần hỗ trợ chuyên gia người để hoàn thiện phần Ở đây, tham khảo gold AMR test set ngữ liệu huấn luyện để hoàn thiện phần 59 THỬ NGHIỆM Sau có Danh sách mẫu sửa lỗi khái niệm, dùng tool khác để cập nhật lại kết parsing dựa danh sách Tôi thực thi tool hệ thống thứ hai thứ ba Kết parsing hệ thống thứ giữ nguyên Hình 5.2 đồ hình mơ tả q trình thử nghiệm hệ thống Hình 5.2 Đồ hình mơ tả q trình thử nghiệm 5.2 Kết thử nghiệm Bảng 5.1 miêu tả kết thử nghiệm ba hệ thống vừa nêu Dòng điểm số đạt baseline parser CAMR Dòng thứ hai điểm số đạt sau áp dụng lớp hiệu chỉnh thứ thứ hai Dòng thứ ba điểm số đạt sau kết hợp cải tiến tập action CAMR áp dụng lớp hiệu 60 THỬ NGHIỆM chỉnh thứ thứ hai Lưu ý tại, chưa xây dựng chế để điền tự động thành phần “Fixed AMR” Danh sách mẫu sửa lỗi khái niệm mà phải tự điền thủ cơng có tham khảo cấu trúc gold AMR toàn ngữ liệu huấn luyện sinh học Bảng 5.1 Kết thử nghiệm test set ngữ liệu huấn luyện System Precision Recall F-score CAMR 0,6908 0,4903 0,5735 CAMR + W12 0,7246 0,5854 0,6476 CAMR cải tiến action + W12 0,7223 0,5961 0,6532 Với ngữ liệu blind test set sử dụng cho SemEval 2017 Task Subtask Parsing, hệ thống sử dụng lớp hiệu chỉnh thứ để chuẩn hóa sửa đổi câu liệu đầu vào Kế đến, hệ thống tự động sử dụng lại Danh sách mẫu sửa lỗi khái niệm xây dựng sẵn trình huấn luyện để sửa lỗi tìm trước trả kết cuối Hệ thống đạt điểm F-score 0,61 ngữ liệu blind test set 5.3 Nhận xét ưu khuyết điểm phương pháp đề Một số ưu khuyết điểm phương pháp rút sau thực thử nghiệm sau: 5.3.1 Ưu điểm • Độ xác parser tăng đáng kể sau áp dụng lớp hiệu chỉnh thứ lớp hiệu chỉnh thứ hai • Độ xác parser tăng sau áp dụng cải tiến tập action • CAMR xử lý tốt ngữ liệu đặc thù ngành khoa học định (ở lĩnh vực sinh học) 61 THỬ NGHIỆM • Lớp hiệu chỉnh thứ dễ dàng áp dụng nhiều parser khác CAMR Với lớp hiệu chỉnh thứ hai, việc áp dụng cho parser khác ngồi CAMR cần có nghiên cứu thêm 5.3.2 Khuyết điểm • Việc xây dựng Danh sách mẫu sửa lỗi khái niệm cần hỗ trợ chuyên gia người, chưa thể làm tự động hồn tồn cách trích xuất thông tin từ sở tri thức xây dựng sẵn • Số lượng câu có F-score giảm sau áp dụng cải tiến action REATTACHk-lr lớn Có trường hợp CAMR khơng xử lý câu đầu vào (có đề cập phần Cải tiến action REATTACHk-lr) 62 KẾT LUẬN VÀ KHUYẾN NGHỊ CHƯƠNG KẾT LUẬN VÀ KHUYẾN NGHỊ 6.1 Kết luận Sau trình nghiên cứu xây dựng phương pháp xây dựng thực nghiệm, nhìn chung giải pháp đề giải toán ban đầu đề nâng cao độ xác CAMR thơng qua: - Cải tiến hai action NEXT NODE-lc REATTACHk-lr để nâng cao độ xác CAMR cách tổng thể - Xây dựng hai lớp hiệu chỉnh để nâng cao độ xác CAMR ngữ liệu sinh học nói riêng ngữ liệu liên quan đến báo khoa học nói chung Mặc dù có kết đáng khích lệ nhiên trường hợp mà giải pháp đề chưa giải trọn vẹn Nhiều vấn đề cần tiếp tục đào sâu nghiên cứu để khắc phục nhược điểm phương pháp tiếp cận kết luận văn cho thấy hướng tiếp cận hướng tiếp cận khả quan vấn đề nâng cao độ xác AMR parser nói chung 6.2 Phương hướng nghiên cứu tới Trong tương lai, tập trung nghiên cứu phương pháp tạo Danh sách mẫu sửa lỗi khái niệm cách tự động cho vài lĩnh vực cụ thể Tôi dự định sử dụng sở tri thức mở lĩnh vực đó, kết hợp với phương pháp học có giám sát ngữ liệu xây dựng sẵn Đồng thời, tiếp tục nghiên cứu sâu trường hợp bị lỗi sau áp dụng cải tiến action REATTACHk-lr Mặc dù điểm F-score tăng tồn ngữ liệu việc cải tiến action REATTACHk-lr chưa tối ưu Dependency parsing số nhà khoa học Việt Nam nghiên cứu cho tiếng Việt họ tiếp tục xây dựng ngữ liệu dependency tree Có thể bắt đầu nghiên cứu AMR Parsing cho tiếng Việt thông qua ngữ liệu dependency tree xây dựng sẵn 63 DANH MỤC CÔNG BỐ KHOA HỌC CỦA TÁC GIẢ Khoa Dang Nguyen, Dang Tuan Nguyen (2017) “UIT-DANGNT-CLNLP at SemEval-2017 Task 9: Building Scientific Concept Fixing Patterns for Improving CAMR” 11th International Workshop on Semantic Evaluation (SemEval-2017), Vancouver, Canada, July 30-August 4, 2017 (accepted) 64 TÀI LIỆU THAM KHẢO Tiếng Anh [1] Laura Banarescu, Claire Bonial, Shu Cai, Madalina Georgescu, Kira Griffitt, Ulf Hermjakob, Kevin Knight, Philipp Koehn, Martha Palmer, and Nathan Schneider (2013) “Abstract meaning representation for sembanking” In Proc of the Linguistic Annotation Workshop and Interoperability with Discourse, pages 178-186 http://www.aclweb.org/anthology/W13-2322 [2] Guntis Barzdins and Didzis Gosko (2016) “Riga at semeval-2016 task 8: Impact of smatch extensions and character-level neural translation on amr parsing accuracy” In Proceedings of the 10th International Workshop on Semantic Evaluation (SemEval-2016) Association for Computational Linguistics, pages 1143–1147 https://doi.org/10.18653/v1/S16-1176 [3] Lauritz Brandt, David Grimm, Mengfei Zhou and Yannick Versley (2016) “ICL-HD at SemEval-2016 Task 8: Meaning Representation Parsing - Augmenting AMR Parsing with a Preposition Semantic Role Labeling Neural Network” In Proceedings of the 10th International Workshop on Semantic Evaluation (SemEval-2016) Association for Computational Linguistics, pages 1160–1166 http://aclweb.org/anthology/S16-1179 [4] Shu Cai and Kevin Knight (2013) “Smatch: an evaluation metric for semantic feature structures” In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers) Association for Computational Linguistics, pages 748–752 http://aclweb.org/anthology/P13-2131 [5] James Goodman, Andreas Vlachos and Jason Naradowsky (2016) “UCL+Sheffield at SemEval-2016 Task 8: Imitation learning for AMR parsing with an alpha-bound” In Proceedings of the 10th International Workshop on Semantic Evaluation (SemEval-2016) Association for Computational Linguistics, pages 1167–1172 http://aclweb.org/anthology/S16-1180 [6] Jeffrey Flanigan, Sam Thomson, Jaime Carbonell, Chris Dyer, and A Noah Smith (2014) “A discriminative graph-based parser for the abstract meaning representation” In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) Association for Computational Linguistics, pages 1426–1436 https://doi.org/10.3115/v1/P141134 [7] William Foland and H James Martin (2016) “Cunlp at semeval-2016 task 8: Amr parsing using lstm-based recurrent neural networks” In Proceedings of the 10th International Workshop on Semantic Evaluation (SemEval-2016) Association for Computational Linguistics, pages 1197– 1201 https://doi.org/10.18653/v1/S16-1185 [8] Jonathan May (2016) “SemEval-2016 Task 8: Meaning Representation Parsing” In Proceedings of the 10th International Workshop on Semantic Evaluation (SemEval-2016) Association for Computational Linguistics, San Diego, California, pages 1063–1073 http://aclweb.org/anthology/S16-1166 [9] Chuan Wang, Sameer Pradhan, Xiaoman Pan, Heng Ji, and Nianwen Xue (2016) “Camr at semeval-2016 task 8: An extended transition-based amr parser” In Proceedings of the 10th International Workshop on Semantic Evaluation (SemEval-2016) Association for Computational Linguistics, San Diego, California, pages 1173–1178 http://www.aclweb.org/anthology/S161181 [10] Chuan Wang, Nianwen Xue, and Sameer Pradhan (2015a) “Boosting transition-based amr parsing with refined actions and auxiliary analyzers” In Proceedings of the 53rd Annual Meeting 65 of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 2: Short Papers) Association for Computational Linguistics, Beijing, China, pages 857–862 http://www.aclweb.org/anthology/P15-2141 [11] Chuan Wang, Nianwen Xue, and Sameer Pradhan (2015b) “A transition-based algorithm for amr parsing” In Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies Association for Computational Linguistics, Denver, Colorado, pages 366– 375 http://www.aclweb.org/anthology/N15-1040 [12] Lucy Vanderwende, Arul Menezes, Chris Quirk (2015), “An AMR parser for English, French, German, Spanish and Japanese and a new AMR-annotated corpus” Human Language Technologies: The 2015 Annual Conference of the North American Chapter of the ACL, p.26–30, Denver, Colorado [13] Dat Quoc Nguyen, Dai Quoc Nguyen, Son Bao Pham, Phuong-Thai Nguyen and Minh Le Nguyen (2014) From Treebank Conversion to Automatic Dependency Parsing for Vietnamese In Proceedings of 19th International Conference on Application of Natural Language to Information Systems, NLDB'14, Springer LNCS, pp 196-207 66 ... vào Subtask Parsing Task (Abstract Meaning Representation Parsing and Generation) SemEval2017 Hiện nay, việc nghiên cứu Phân tích câu dạng Abstract Meaning Representation (AMR) ngày thu hút ý tham... CHƯƠNG TỔNG QUAN PHÂN TÍCH CÂU VỀ DẠNG AMR 1.1 Khái niệm Abstract Meaning Representation Abstract Meaning Representation (AMR) dạng thích ngữ nghĩa cho câu AMR nhỏ gọn đọc người AMR biểu diễn dạng... việc nghiên cứu khoa học môi trường quốc tế chuyên nghiệp Mục tiêu nghiên cứu đề xuất mơ hình parser cải tiến theo Abstract Meaning Representation (AMR) với độ xác cao mơ hình có Đối tượng phạm