NGHIÊN cứu bài TOÁN NHẬN DIỆN QUAN hệ DIỄN NGÔN và xây DỰNG dữ LIỆU CHUẨN CHO TIẾNG VIỆT

82 178 0
NGHIÊN cứu bài TOÁN NHẬN DIỆN QUAN hệ DIỄN NGÔN và xây DỰNG dữ LIỆU CHUẨN CHO TIẾNG VIỆT

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN      TẠ THU THỦY NGHIÊN CỨU BÀI TOÁN NHẬN DIỆN QUAN HỆ DIỄN NGÔN VÀ XÂY DỰNG DỮ LIỆU CHUẨN CHO TIẾNG VIỆT LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN LƯU THÙY NGÂN TP HỒ CHÍ MINH – NĂM 2017 LỜI CAM ĐOAN Tôi xin cam đoan luận văn cơng trình nghiên cứu khoa học cá nhân tơi thực hướng dẫn khoa học TS Nguyễn Lưu Thùy Ngân Những kết nghiên cứu trình bày luận văn trung thực chưa cơng bố hình thức Tơi xin chịu trách nhiệm hồn tồn nghiên cứu TP Hồ Chí Minh, ngày 14 tháng 06 năm 2017 Tạ Thu Thủy LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành đến TS Nguyễn Lưu Thùy Ngân Cô hướng dẫn trình học tập nghiên cứu khoa học, từ kiến thức kỹ chuyên môn, đặc biệt hồn thành luận văn Một lần nữa, tơi xin cảm ơn chân thành đặc biệt đến Cô Trong trình học tập làm việc trường Đại học Công nghệ thông tin Đại học Quốc Gia TP HCM, quên công ơn quý Thầy/Cô Thầy, đồng nghiệp hỗ trợ giúp đỡ động viên nhiều Tôi xin gửi lời cảm ơn chân thành đến quý Thầy/Cô Tôi quên công ơn sinh thành dưỡng dục ba mẹ Cảm ơn ba mẹ, em trai người dõi theo nguồn động viên tinh thần to lớn sống tơi Dù có hồn thiện đến đâu, tơi khơng tránh khỏi thiếu sót hạn chế việc hồn thành luận văn Tơi hy vọng nhận phản hồi đóng góp ý kiến quý báu từ quý Thầy/Cô Tôi xin trân trọng cảm ơn TP Hồ Chí Minh, tháng năm 2017 Tạ Thu Thủy MỤC LỤC TRANG PHỤ BÌA LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC SƠ ĐỒ MỞ ĐẦU Đặt vấn đề: Mục tiêu luận văn: Đối tượng phạm vi nghiên cứu: 10 Ý nghĩa khoa học thực tiễn: 10 Cấu trúc luận văn: 10 Chương TỔNG QUAN 12 1.1 Bài toán nhận diện quan hệ diễn ngôn (Discourse Parsing) 12 1.2 Lịch sử phát triển nhận diện quan hệ diễn ngôn 13 1.3 Cơng trình liên quan 16 1.4 Kết luận 21 Chương CƠ SỞ LÝ THUYẾT 22 2.1 Nhận diện quan hệ diễn ngôn rõ ràng 22 2.2 Các hướng tiếp cận nhận diện quan hệ diễn ngôn rõ ràng 23 2.3 Bộ liệu PDTB Việt Treebank 24 2.4 Phương pháp tiếp cận 26 2.5 Các công cụ hỗ trợ 27 2.6 Kết luận 28 Chương NHẬN DIỆN QUAN HỆ DIỄN NGƠN VÀ PHÂN TÍCH CÁC ĐẶC TRƯNG 29 3.1 Mơ hình nhận diện quan hệ diễn ngôn rõ ràng 29 3.2 Phân tích đặc trưng 32 3.3 Kết luận 38 Chương GÁN NHÃN TỪ NỐI TIẾNG VIỆT 39 4.1 Bộ liệu Việt Treebank 39 4.2 Phương pháp gán nhãn từ nối 40 4.3 Tập từ nối hướng dẫn gán nhãn (Guideline) .43 4.3.1 Tập từ nối 43 4.3.2 Hướng dẫn gán nhãn (Guideline) 44 4.4 Kết luận 52 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ 53 5.1 Dữ liệu thực nghiệm 53 5.2 Các độ đo đánh giá 53 5.3 Các kết thực nghiệm 55 5.3.1 Các thực nghiệm mức độ ảnh hưởng đặc trưng 55 5.3.2 Các thực nghiệm gán nhãn từ nối Việt Treebank 57 5.4 Phân tích đánh giá kết thực nghiệm 58 5.4.1 Ảnh hưởng đặc trưng 58 5.4.2 Gán nhãn từ nối tiếng Việt 62 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 65 6.1 Kết luận 65 6.2 Hướng phát triển 66 TÀI LIỆU THAM KHẢO 68 PHỤ LỤC 76 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Ý nghĩa STT Kí hiệu POS Part of Speech NLP Natural Language Processing PDTB MaxEnt Maximum Entropy CoNLL Conference on Computational Natural Language Learning Penn Discourse Tree Bank DANH MỤC CÁC BẢNG Bảng 1.1 So sánh đặc trưng xác định từ nối số cơng trình liên quan nhận diện quan hệ diễn ngôn………………………17 Bảng 1.2 Một số công trình nghiên cứu liệu tiếng Việt.… …….20 Bảng 2.1 So sánh phương pháp nhận diện quan hệ diễn ngôn rõ ràng 26 Bảng 3.1 Danh sách đặc trưng cho xác định từ nối………………… … 32 Bảng 3.2 Danh sách đặc trưng cho phân loại ý nghĩa………………….…34 Bảng 3.3 Danh sách đặc trưng theo nhóm cho xác định từ nối………… 37 Bảng 3.4 Danh sách đặc trưng theo nhóm cho phân loại ý nghĩa…… …38 Bảng 4.1 Một số từ nối tiếng Việt nhãn gán mặc định…… …44 Bảng 4.2 Kết gán nhãn tay so với chương trình…………… …….49 Bảng 4.3 Độ đồng thuận gán nhãn……………… …………………….…….51 Bảng 5.1 Ma trận nhầm lẫn (Confusion Matrix) hay Bảng ngẫu nhiên (Contingency table)…………………………………………………53 Bảng 5.2 Kết xác định từ nối bỏ đặc trưng danh sách Bảng 3.1…………………………………………………………….55 Bảng 5.3 Kết phân loại ý nghĩa bỏ đặc trưng danh sách Bảng 3.2…………………………………………………………….56 Bảng 5.4 Kết xác định từ nối sử dụng nhóm đặc trưng danh sách Bảng 3.3.………………………………………………………….56 Bảng 5.5 Kết phân loại ý nghĩa sử dụng nhóm đặc trưng danh sách Bảng 3.4….………………………………………………….57 Bảng 5.6 Kết gán nhãn tay tơi so với chương trình…… …… 57 Bảng 5.7 Độ đồng thuận gán nhãn ………………………………………….57 Bảng 5.8 Tỉ lệ kết gán nhãn từ nối tay so với chương trình (đơn vị tính %)………………………………………………………………62 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Đoạn văn đầu vào………………………………….…………….… 13 Hình 1.2 Quan hệ diễn ngơn nhận diện………………………………….… 13 Hình 2.1 Hệ thống cấp bậc ý nghĩa PDTB………………………….…….…23 Hình 2.2 Minh họa chuẩn CoNLL cho câu tiếng Anh……………………… 24 Hình 3.1 Mơ hình minh họa chương trình nhận diện quan hệ diễn ngơn rõ ràng…………………………………………………………………… 27 Hình 3.2 Từ “and” gạch chân từ nối, từ “and” lại khơng phải 28 Hình 3.3 Đối số nằm vị trí trước sau từ nối…………………… ………29 Hình 3.4 Từ “since” mang nghĩa trường hợp Trong câu từ “since” mang nghĩa thời gian (kể từ khi), câu nguyên nhân (bởi vì)…… …29 Hình 3.5 Cây cú pháp cho ví dụ 3.1……………………………………………… 33 Hình 4.1 Định dạng Việt Treebank……………………………… ……… 37 Hình 4.2 Hệ thống cấp bậc ý nghĩa PDTB……………………….………….39 Hình 4.3 Hệ thống cấp bậc ý nghĩa PDTB tiếng Việt………………….40 Hình 4.4 Một số câu tập chương trình gán có từ nối………………….… 43 Hình 4.5 Một số câu tập chương trình cho khơng có từ nối……… …….43 Hình 4.6 Ví dụ nhãn từ nối mà chương trình gán đúng…………… …….44 Hình 5.1 Cây cú pháp cho quan hệ diễn ngôn rõ ràng……………………… 58 DANH MỤC CÁC SƠ ĐỒ Sơ đồ 5.1 Ảnh hưởng đặc trưng đến kết xác định từ nối .58 Sơ đồ 5.2 Ảnh hưởng đặc trưng đến kết phân loại ý nghĩa…… 59 Sơ đồ 5.3 Ảnh hưởng nhóm đặc trưng đến kết xác định từ nối ….60 Sơ đồ 5.4 Ảnh hưởng nhóm đặc trưng đến kết phân loại ý nghĩa…61 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong chương này, tổng kết trình nghiên cứu định hướng tương lai 6.1 Kết luận 6.1.1 Kết đạt Trong đề tài luận văn này, thực đạt mục tiêu chính:  Thứ nhất, qua thực nghiệm đánh giá, phân tích mức độ ảnh hưởng đặc trưng tới kết xác định từ nối phân loại ý nghĩa nhận diện quan hệ diễn ngôn Cho thấy đặc trưng quan trọng, bật, đóng góp chủ yếu đến kết quả, khơng thể thiếu để xác định từ nối “các cặp kết hợp từ nối-cú pháp” “cặp kết hợp cú pháp-cú pháp” mang lại nhiều thơng tin để huấn luyện mơ hình; phân loại ý nghĩa đặc trưng “anh em bên trái từ loại từ nối cú pháp” lại ảnh hưởng nhiều đặc trưng khác chút thông tin rút trích từ đặc trưng xác định vị trí từ nối, anh em bên cạnh từ nối loại gì, giúp huấn luyện mơ hình phân loại ý nghĩa tốt Ngoài ra, kết thực nghiệm cho thấy kết hợp nhóm từ vựng cú pháp kết xác định từ nối phân loại ý nghĩa có F1 89.05% 76,66%, cao nhiều so với sử dụng riêng lẻ nhóm từ vựng hay cú pháp  Thứ hai, gán nhãn từ nối liệu Việt Treebank 9,100 câu Trong đó, có 3,700 câu quan hệ diễn ngôn rõ ràng, có từ nối gán nhãn ý nghĩa theo hệ thống ý nghĩa PDTB Giúp chuẩn hóa liệu từ nối gán nhãn, góp phần vào nghiên cứu nhận diện quan hệ diễn ngôn cho tiếng Việt sau 65 6.1.2 Hạn chế Tuy nhiên, luận văn số hạn chế sau, cần khắc phục cải tiến tương lai:  Trong nhận diện quan hệ diễn ngơn rõ ràng, sau phân tích ảnh hưởng đặc trưng xác định từ nối phân loại ý nghĩa, chưa phân tích đặc trưng xác định đối số  Nhãn từ nối tiếng Việt mang tính chủ quan đánh giá tay Chưa nhận góp ý nhận xét chun gia ngơn ngữ học để tăng độ tin cậy cho liệu Do nghiên cứu cá nhân nên tránh khỏi tập từ nối thiếu mà chưa phát để bổ sung 6.2 Hướng phát triển Từ kết đạt hạn chế, tơi đề xuất số ý kiến để giải hạn chế Trong tương lai, nghiên cứu đạt kết tốt nữa:  Nhận diện quan hệ diễn ngôn thường nghiên cứu thực nghiệm liệu PDTB, tương lai, nghiên cứu để thực nghiệm liệu khác, đem lại nhiều kinh nghiệm, đóng góp cho tốn nhận diện quan hệ diễn ngơn  Mặt khác, sau phân tích ảnh hưởng đặc trưng xác định từ nối phân loại ý nghĩa, vấn đề xác định đối số chưa phân tích, tương lai, chúng tơi tiến hành phân tích nghiên cứu cải tiến kết (hiện nay, kết cao CoNLL 2016 43.95% [33]), nhằm đóng góp vào việc hiểu ngữ nghĩa văn góp phần vào nghiên cứu khác xử lý ngôn ngữ tự nhiên  Tăng thêm luật, ghi để tăng tỉ lệ xác cho gán nhãn từ nối tiếng Việt chương trình tự động Phát triển chương trình nhận diện quan hệ diễn ngôn tiếng Việt 66  Bổ sung thêm nhãn từ nối danh sách từ nối mà luận văn thiếu chưa phát Liên hệ chuyên gia ngôn ngữ học tiếng Việt để đánh giá kết quả, đem lại độ tin cậy cao cho liệu từ nối gán nhãn  Chú thích liệu Việt treebank hoàn toàn PDTB, gồm từ nối, đối số, ý nghĩa quan hệ diễn ngôn ngầm, khơng rõ ràng; để thực nghiệm nghiên cứu, mơ hình nhận diện quan hệ diễn ngơn 67 TÀI LIỆU THAM KHẢO Danh mục Tài liệu Tiếng Việt [1] Phan Xuân Hiếu, Lê Minh Hoàng, Nguyễn Cẩm Tú (2008), “Gán nhãn từ loại tiếng Việt dựa phương pháp học máy thống kê”, Dự án quốc gia tiếng Việt-VLSP, SP83 [2] Trần Thị Oanh (2008), Mơ hình tách từ, gán nhãn từ loại hướng tiếp cận tích hợp cho tiến Việt, Luận văn thạc sĩ ngành CNTT, Trường đại học Công nghệ, ĐHQG Hà Nội [3] Lai Nhã Trúc (2006), Ngữ nghĩa liên từ tiếng Việt, Luận văn thạc sĩ ngôn ngữ học, Đại học Sư phạm TP.HCM [4] Thư viện quốc gia Việt Nam: Tiếng Việt Nam văn phạm: http://sach.nlv.gov.vn/sach/cgi-bin/sach?a=d&d=tdCmRN1940.2.2.12&e= vi-20 img-txIN - [Lần truy cập gần 20-08-2017] Danh mục Tài liệu Tiếng Anh [5] Prashant Chandrasekar, Xuan Zhang, Saurabh Chakravarty, Arijit Ray, John Krulick, and Alla Rozovskaya (2016), “The virginia tech system at conll-2016 shared task on shallow discourse parsing”, In Proceedings of the Twentieth Conference on Computational Natural Language Learning: Shared Task, Berlin, Germany, August Association for Computational Linguistics [6] Sobha Lalitha Devi, Sindhuja Gopalan, Lakshmi S, Pattabhi RK Rao, Vijay Sundar Ram R., and Malarkodi C.S (2015), “A hybrid discourse relation parser in CoNLL 2015”, In Proceedings of the Nineteenth Conference on Computational Natural Language Learning: Shared Task [7] Ziwei Fan, Zhenghua Li, and Min Zhang (2016), “Finding arguments as sequence labeling in discourse parsing”, In Proceedings of the Twentieth Conference on Computational Natural Language Learning: Shared Task, Berlin, Germany, August Association for Computational Linguistics 68 [8] Vanessa Wei Feng and Graeme Hirst (2014), “A lineartime bottom-up discourse parser with constraints and post-editing”, In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics [9] Tim Gollub, Benno Stein, and Steven Burrows (2012), “Ousting Ivory Tower Research: Towards a Web Framework for Providing Experiments as a Service”, In Bill Hersh, Jamie Callan, Yoelle Maarek, and Mark Sanderson, editors, 35th International ACM Conference on Research and Development in Information Retrieval (SIGIR 12), pages 1125–1126 ACM, August [10] Michael A.K Halliday and Ruqaiya Hasan (1976), Cohesion in English, Longman, London [11] Jerry R Hobbs (1985), On the coherence and structure of discourse [12] Devanshu Jain and Prasenjit Majumder (2016), “Da-iict submission for pdtbstyled discourse parser”, In Proceedings of the Twentieth Conference on Computational Natural Language Learning: Shared Task, Berlin, Germany, August Association for Computational Linguistics [13] Yangfeng Ji and Jacob Eisenstein (2014), “Representation learning for text-level discourse parsing”, In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics [14] Ping Jian, Xiaohan She, Chenwei Zhang, Pengcheng Zhang, and Jian Feng (2016), “Discourse relation sense classifiation systems for conll-2016 shared task”, In Proceedings of the Twentieth Conference on Computational Natural Language Learning: Shared Task, Berlin, Germany, August Association for Computational Linguistics [15] Manpreet Kaur, Nishu Kumari, Anil Kumar Singh, and Rajeev Sangal (2016), “Iit (bhu) submission on the conll-2016 shared task: Shallow discourse parsing using semantic lexicons”, In Proceedings of the Twentieth Conference on Computational Natural Language Learning: Shared Task, Berlin, Germany, August Association for Computational Linguistics 69 [16] Yusuke Kido and Akiko Aizawa (2016), “Discourse relation sense classifiation with two-step classifiers” In Proceedings of the Twentieth Conference on Computational Natural Language Learning: Shared Task, Berlin, Germany, August Association for Computational Linguistics [17] Fang Kong, Sheng Li, and Guodong Zhou (2015), “The SoNLP-DP system in the CoNLL-2015 shared task”, In Proceedings of the Nineteenth Conference on Computational Natural Language Learning: Shared Task [18] Fang Kong, Sheng Li, Junhui Li, Muhua Zhu, and Guodong Zhou (2016), “Sonlpdp system for conll-2016 english shallow discourse parsing”, In Proceedings of the Twentieth Conference on Computational Natural Language Learning: Shared Task, Berlin, Germany, August Association for Computational Linguistics [19] Majid Laali, Andre Cianflne, and Leila Kosseim (2016), “The clac discourse parser at conll-2016”, In Proceedings of the Twentieth Conference on Computational Natural Language Learning: Shared Task, Berlin, Germany, August Association for Computational Linguistics [20] Hong Phuong Le, Thi Minh Huyen Nguyen, Phuong Thai Nguyen, Xuan Luong Vu, Van Hiep Nguyen (2009), “Building a Large Syntactically-Annotated Corpus of Vietnamese”, The Third Linguistic Annotation Workshop (The LAW I I I), Aug 2009, Singapore P.182-185 [21] Sujian Li, Liang Wang, Ziqiang Cao, and Wenjie Li (2014), “Text-level discourse dependency parsing”, In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics [22] Zhongyi Li, Hai Zhao, Chenxi Pang, Lili Wang, and Huan Wang 2016 A constituent syntactic parse tree based discourse parser In Proceedings of the Twentieth Conference on Computational Natural Language Learning: Shared Task, Berlin, Germany, August Association for Computational Linguistics [23] Percy Liang (2005), Semi-supervised learning for natural language, Ph.D thesis, Massachusetts Institute of Technology 70 [24] Ziheng Lin, Hwee Tou Ng, and Min-Yen Kan (2014), “A PDTB-styled end-toend discourse parser”, Natural Language Engineering, 20(2):151–184 [25] Ziheng Lin (2011), Discourse parsing: Inferring discourse structure, modeling coherence, and its applications, A thesis submitted for the degree of doctor of philosophy department of computer science school of computing national university of Singapore [26] William C Mann and Sandra A Thompson (1988), “Rhetorical Structure Theory: Toward a functional theory of text organization”, Text, 8(3):243–281 [27] Christopher D Manning, Mihai Surdeanu, John Bauer, Jenny Finkel, Steven J Bethard, and David McClosky (2014), “The Stanford CoreNLP natural language processing toolkit”, In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics [28] Mitchell P Marcus, Beatrice Santorini, and Mary Ann Marcinkiewicz (1993), “Building a large annotated corpus of English: The Penn Treebank Computational Linguistics”, 19(2):313–330 [29] Todor Mihaylov and Annette Frank (2016), “Discourse relation sense classifiation using crossargument semantic similarity based on word embeddings”, In Proceedings of the Twentieth Conference on Computational Natural Language Learning: Shared Task, Berlin, Germany, August Association for Computational Linguistics [30] Eleni Miltsakaki, Rashmi Prasad, Aravind Joshi, and Bonnie Webber (2004), “Annotating discourse connectives and their arguments”, In Proceedings of the Human Language Technology/North American Chapter of the Association for Computational Linguistics Workshop on Frontiers in Corpus Annotation [31] Minh Nguyen (2016), “Sdp-jaist: A shallow discourse parsing system conll 2016 shared task”, In Proceedings of the Twentieth Conference on Computational Natural Language Learning: Shared Task, Berlin, Germany, August Association for Computational Linguistics 71 [32] Truong Son Nguyen, Bao Quoc Ho, and Le Minh Nguyen (2015), “JAIST: A twophase machine learning approach for identifying discourse relations in newswire texts”, In Proceedings of the Nineteenth Conference on Computational Natural Language Learning: Shared Task [33] Stephan Oepen, Jonathon Read, Tatjana Schefflr, Uladzimir Sidarenka, Manfred Stede, Eric Velldal, and Lilja Ovrelid (2016), “Opt: Oslo–potsdam–teesside pipelining rules, rankers, and classifier ensembles for shallow discourse parsing”, In Proceedings of the Twentieth Conference on Computational Natural Language Learning: Shared Task, Berlin, Germany, August Association for Computational Linguistics [34] Martha Palmer, Daniel Gildea, and Paul Kingsbury (2005), “The Proposition Bank: An annotated corpus of semantic roles”, Computational Linguistics 31(1):71–106 [35] Slav Petrov and Dan Klein (2007), “Improved inferencing for unlexicalized parsing”, In Proceedings of the Human Language Technology/North American Chapter of the Association for Computational Linguistics [36] Emily Pitler, Mridhula Raghupathy, Hena Mehta, Ani Nenkova, Alan Lee, and Aravind K Joshi (2008), “Easily identifiable discourse relations”, Technical report, University of Pennsylvania [37] Martin Potthast, Tim Gollub, Francisco Rangel, Paolo Rosso, Efstathios Stamatatos, and Benno Stein (2014), “Improving the Reproducibility of PAN’s Shared Tasks: Plagiarism Detection, Author Identifiation, and Author Profiing”, In 5th International Conference of the CLEF Initiative (CLEF 14), pages 268– 299, Berlin Heidelberg New York, September Springer [38] Sameer Pradhan, Lance Ramshaw, Mitchell Marcus, Martha Palmer, Ralph Weischedel, and Nianwen Xue (2011), “CoNLL-2011 shared task: Modeling unrestricted coreference in OntoNotes”, In Proceedings of the Fifteenth Conference on Computation Natural Language Learining: Shared Task 72 [39] Sameer Pradhan, Alessandro Moschitti, Nianwen Xue, Olga Uryupina, and Yuchen Zhang (2012), “CoNLL-2012 Shared Task: Modeling multilingual unrestricted coreference in OntoNotes”, In Proceedings of the Sixteenth Conference on Computation Natural Language Learining: Shared Task [40] Rashmi Prasad and Harry Bunt (2015), “Semantic relations in discourse: The current state of ISO 24617-8”, In Proceedings of the 11th Joint ACL-ISO Workshop on Interoperable Semantic Annotation [41] Rashmi Prasad, Nikhil Dinesh, Alan Lee, Eleni Miltsakaki, Livio Robaldo, Aravind Joshi, and Bonnie Webber (2008), “The Penn Discourse Treebank 2.0”, In Proceedings of the 6th International Conference on Language Resources and Evaluation [42] Rashmi Prasad, Bonnie Webber, and Aravind Joshi (2014), “Reflctions on the Penn Discourse Treebank, comparable corpora, and complementary annotation”, Computational Linguistics, 40(4):921–950 [43] Lianhui Qin, Zhisong Zhang, and Hai Zhao (2016), “Shallow discourse parsing using convolutional neural network”, In Proceedings of the Twentieth Conference on Computational Natural Language Learning: Shared Task, Berlin, Germany, August Association for Computational Linguistics [44] Niko Schenk, Christian Chiarcos, Kathrin Donandt, Samuel Samuel Rönnqvist, Evgeny Stepanov, and Giuseppe Riccardi (2016), “Do we really need all those rich linguistic features? a neural network-based approach to implicit sense labeling”, In Proceedings of the Twentieth Conference on Computational Natural Language Learning: Shared Task, Berlin, Germany, August Association for Computational Linguistics [45] Yangqiu Song, Haoruo Peng, Parisa Kordjamshidi, Mark Sammons, and Dan Roth (2015), “Improving a pipeline architecture for shallow discourse parsing”, In Proceedings of the Nineteenth Conference on Computational Natural Language Learning: Shared Task [46] Manfred Stede (2012), Discourse Processing, Morgan & Claypool Publishers 73 [47] Evgeny Stepanov and Giuseppe Riccardi (2016), “Unitn end-to-end discourse parser for conll 2016 shared task”, In Proceedings of the Twentieth Conference on Computational Natural Language Learning: Shared Task, Berlin, Germany, August Association for Computational Linguistics [48] Evgeny Stepanov, Giuseppe Riccardi, and Ali Orkan Bayer (2015), “The UniTN discourse parser in CoNLL 2015 shared task: Token-level sequence labeling with argument-specific models”, In Proceedings of the Nineteenth Conference on Computational Natural Language Learning: Shared Task [49] Rajen Subba and Barbara Di Eugenio (2009), “An effective discourse parser that uses rich linguistic information”, In Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics [50] Jianxiang Wang and Man Lan (2015), “A refied end-to-end discourse parser”, In Proceedings of the Nineteenth Conference on Computational Natural Language Learning: Shared Task [51] Longyue Wang, Chris Hokamp, Tsuyoshi Okita, Xiaojun Zhang, and Qun Liu (2015), “The DCU discourse parser for connective, argument identification and explicit sense classification”, In Proceedings of the Nineteenth Conference on Computational Natural Language Learning: Shared Task [52] Bonnie Webber, Markus Egg, and Valia Kordoni (2012), “Discourse structure and language technology”, Natural Language Engineering, 18(4):437–490 [53] Gregor Weiss and Marco Bajec (2016), “Discourse sense classifiation from scratch using focused rnns”, In Proceedings of the Twentieth Conference on Computational Natural Language Learning: Shared Task, Berlin, Germany, August Association for Computational Linguistics [54] Florian Wolf and Edward Gibson (2005), “Representing discourse coherence: a corpusbased analysis”, In Proceedings of the 20th International Conference on Computational Linguistics (COLING 2004), Morristown, NJ, USA 74 [55] Nianwen Xue, Hwee Tou Ng, Sameer Pradhan, Rashmi Prasad, Christopher Bryant, and Attapol Rutherford (2015), “The CoNLL-2015 shared task on shallow discourse parsing”, In Proceedings of the Nineteenth Conference on Computational Natural Language Learning: Shared Task, pages 1–16, Beijing, China, July 26-31, 2015 [56] Nianwen Xue, Hwee Tou Ng, Sameer Pradhan, Attapol Rutherford, Bonnie Webber, Chuan Wang, Hongmin Wang (2016), “CoNLL 2016 Shared Task on Multilingual Shallow Discourse Parsing”, Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, pages 1–19, Berlin, Germany, August 7-12, 2016 [57] Discourse: https://en.wikipedia.org/wiki/Discourse [Last accessed 20 Aug 2017] [58] Độ đo: https://vi.wikipedia.org/wiki/%C4%90%E1%BB%99_%C4%91o [Last accessed 25 Jun 2017] [59] Precision and recall: https://en.wikipedia.org/wiki/Precision_and_recall [Last accessed 14 Jun 2017] 75 PHỤ LỤC DANH SÁCH CÁC TỪ NỐI VÀ NHÃN GÁN MẶC ĐỊNH CỦA CHƯƠNG TRÌNH 76 77 78 79 ... phần cho nghiên cứu nhận diện quan hệ diễn ngôn cho tiếng Việt 21 Chương CƠ SỞ LÝ THUYẾT Nhận diện quan hệ diễn ngôn toán nghiên cứu ngữ nghĩa tảng lĩnh vực xử lý ngôn ngữ tự nhiên Quan hệ diễn ngôn. .. triển nhận diện quan hệ diễn ngôn Các nghiên cứu trước nhận diện quan hệ diễn ngơn bỏ qua vai trò liệu quan hệ mà dựa chủ yếu vào thông tin cú pháp từ vựng, không đủ Nhận diện quan hệ diễn ngôn. .. xử lý ngôn ngữ tự nhiên, xem phần hệ thống xử lý ngôn ngữ tự nhiên thông minh Quan hệ diễn ngôn chia làm hai loại quan hệ diễn ngôn rõ ràng quan hệ diễn ngôn không rõ ràng Quan hệ diễn ngôn rõ

Ngày đăng: 23/12/2018, 06:18

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan