Nghiên cứu xác định đồng sở chỉ và ứng dụng cho tiếng việt

62 17 0
Nghiên cứu xác định đồng sở chỉ và ứng dụng cho tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN —————————— Nguyễn Việt Hùng NGHIÊN CỨU XÁC ĐỊNH ĐỒNG SỞ CHỈ VÀ ỨNG DỤNG CHO TIẾNG VIỆT Chuyên ngành: Cơ sở toán cho tin học Mã số: 60460110 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Lê Hồng Phương Hà Nội - 2015 LỜI CẢM ƠN Trong trình học tập nghiên cứu, em nhận hướng dẫn tận tình thầy Lê Hồng Phương cô Nguyễn Thị Minh Huyền Em xin chân thành cảm ơn thầy, cô giúp đỡ em nhiều học tập công việc Em xin gửi lời cảm ơn tới thầy, giáo nhiệt tình giảng dạy chuyên đề Cao học cho chúng em Em xin cảm ơn gia đình, bạn bè, đồng nghiệp, người ln quan tâm, động viên em q trình học tập làm luận văn Hà Nội, ngày 29 tháng 11 năm 2015 Học viên Nguyễn Việt Hùng i Mục lục Danh sách bảng Danh sách hình vẽ Giới thiệu Tổng quan xác định đồng sở 1.1 Bài toán xác định đồng sở 1.2 Cách giải toán xác định 1.2.1 1.2.2 1.3 Phương pháp xác định đồng sở ch 1.3.1 1.3.2 1.3.3 1.4 Đánh giá kết xác định đồng sở 1.4.1 1.4.2 Phương pháp xác định đồng sở sàng nhiều lượt 2.1 Kiến trúc hệ thống 2.2 Một số trình xử lý hệ thốn 2.2.1 2.2.2 2.2.3 ii 2.2.4 2.2.5 2.2.6 2.3 Các lượt sàng 2.3.1 2.3.2 2.3.3 2.3.4 2.3.5 2.3.6 2.3.7 2.3.8 2.3.9 2.4 Kết cho tiếng Anh 2.4.1 2.4.2 Ứng dụng cho tiếng Việt 3.1 Các cơng cụ có cho xử lý tiếng 3.1.1 3.1.2 3.1.3 3.1.4 3.2 Phương pháp sàng nhiều lượt cho 3.2.1 3.2.2 3.3 Thực nghiệm 3.3.1 3.3.2 Kết luận Tài liệu tham khảo iii Phụ lục VietTreebank Một số quan hệ phụ thuộc cho tiếng Việt Phân tích vai nghĩa iv Danh sách bảng 1.1 Các đặc trưng mơ hình xác định đồng sở ch 1.2 Các liệu 2.1 Các lượt sàng tiếng Anh 2.2 Các liệu thử nghiệm 2.3 Kết hệ thống hệ thống Stanford với số 2.4 Kết hệ thống Stanford thi năm 2013 3.1 Các lượt sàng áp dụng cho tiếng Việt 3.2 Kết thực nghiệm 3.3 Tập nhãn từ loại VietTreeBank 3.4 Tập nhãn cụm từ VietTreeBank 3.5 Các nhãn chức cú pháp VietTreebank v Danh sách hình vẽ 1.1 Phân tích cú pháp thành phần câu tiếng Việt 2.1 Kiến trúc hệ thống xác định đồng sở Stanford [17] 3.1 3.2 3.3 3.4 3.5 Phân tích cú pháp câu "Tơi mua sách mà thầy giáo g Phân tích cú pháp câu "Quyển sách hay." Phân tích cú pháp câu "Hà Nội, thủ đô Việt Nam, bị Phân tích cú pháp câu "Hà Nội thủ Việt Nam." Câu tiếng Anh gán nhãn vai nghĩa vi Giới thiệu Trong ngôn ngữ học, thuật ngữ đồng sở dùng để nói quan hệ cụm từ tới thực thể Xác định đồng sở trình tìm cụm từ văn tham chiếu tới thực thể Xác định đồng sở vấn đề ngôn ngữ tự nhiên Đây bước quan trọng việc phân tích hiểu ngữ nghĩa văn Ví dụ: John nhạc sĩ Anh chơi ca khúc Một cô gái chăm lắng nghe ca khúc "Đây hát u thích tơi", John nói với Để hiểu đoạn văn trên, trước tiên cần phải xác định đối tượng nói tới (đề cập) văn Có 11 (sự) đề cập đoạn văn là: [John]1 [một nhạc sĩ]2 [Anh ấy]3 chơi [một ca khúc mới]4 [Một gái]5 chăm lắng nghe [ca khúc] "[Nó]7 [bài hát u thích [tơi] 9]8", [John]10 nói với [cơ ấy]11 Các đề cập nói tới đối tượng: • Một người nhạc sĩ tên John: [John]1, [một nhạc sĩ]2, [Anh ấy]3, [tơi]9, [John]10 • Một gái nghe nhạc John: [Một cô gái]5, [cô ấy]11 • Một hát John: [một ca khúc mới]4, [ca khúc]6, [Nó]7, [bài hát u thích tơi]8 Bài toán xác định đồng sở nghiên cứu nhiều cho tiếng Anh vấn đề thời Các phương pháp luận áp dụng cho tiếng Anh phát triển rộng rãi cho ngơn ngữ khác [5] Bài tốn xác định đồng sở giải thơng qua hai bước: • Bước 1: Xác định đề cập văn bản; • Bước 2: Xác định quan hệ đồng sở đề cập Bước giải cách xác định cụm danh từ văn bản, thường đề cập văn Bước trọng tâm để giải tốn Trong đa số trường hợp, nói tới việc xác định đồng sở cho văn bản, người ta tập trung vào giải bước Bài tốn xác định đồng sở mơ hình hóa theo hai cách: • Xác định cặp đề cập có quan hệ đồng sở hay khơng • Phân cụm đề cập cho đề cập cụm tham chiếu đến thực thể Theo mơ hình thứ nhất, tốn đưa tốn phân lớp Cịn theo mơ hình thứ hai, ta có tốn phân cụm Một số hệ thống sử dụng hai mơ hình Tiêu biểu hệ thống xác định đồng sở với kiến trúc sàng nhiều lượt nhóm xử lý ngôn ngữ trường Đại học Stanford cho kết tốt với tiếng Anh áp dụng cho ngôn ngữ khác với kết khả quan [17] Với tiếng Việt, nghiên cứu đồng sở chưa nhiều, tập trung vào số toán riêng xác định thực thể định danh [23] [15] [22] [20], xác định hồi số đại từ đặc biệt Do vậy, mục tiêu luận văn nghiên cứu xây dựng hệ thống xác định đồng sở văn tiếng Việt Yêu cầu cho hệ thống xác định đồng sở xác định đặc trưng cho xác đề cập (hoặc cụm đề cập) Trong luận văn này, đặc trưng tiếng Anh sử dụng làm sở để xây dựng đặc trưng cho tiếng Việt với số thay đổi cho phù hợp với đặc điểm ngơn ngữ Q trình xác định đặc trưng đề cập (hoặc cặp đề cập) cần nhiều thông tin, nhiều thông tin xác định, kết xác định đồng sở xác Trong tiếng Anh, có nhiều cơng cụ hỗ trợ để xác định đặc trưng Với tiếng Việt, có nhiều hạn chế cơng cụ xử lý ngơn ngữ bản: chưa có WordNet cho tiếng Việt, chưa có cơng cụ có độ xác cao chia sẻ để thực công việc xác định thực thể định danh (NER), chưa có từ điển thống để xác định thơng tin hình thái giống đực/cái, người/chỉ vật, Một công việc cần thiết để xác định đồng sở cho tiếng Việt cần xây dựng công cụ để hỗ trợ xác định quan hệ đặc trưng đề cập Trong trình ứng dụng cho tiếng Việt, thực nghiệm tiến hành kho ngữ liệu Viettreebank [16] thuộc đề tài VLSP gồm 10000 câu phân tích cú pháp Kho ngữ liệu bổ sung thông tin cú pháp phụ thuộc [8] thông tin vai nghĩa [6] để xác định đặc trưng cho mơ hình Luận văn có cấu trúc gồm phần chính: • Chương trình bày tổng quan toán xác định đồng sở chỉ, cách tiếp cận giải toán xác định đồng sở • Chương trình bày hệ thống xác định đồng sở theo kiến trúc sàng nhiều lượt • Chương trình bày việc ứng dụng sàng nhiều lượt để xác định đồng sở cho tiếng Việt thực nghiệm http://vlsp.vietlp.org:8080 Hình 3.4: Phân tích cú pháp câu "Hà Nội thủ Việt Nam." • incompatibilityf hàm số tính khoảng cách hai đề cập theo đặc trưng f, hàm trả giá trị Các đặc trưng sử dụng cho bảng: Danh sách từ Từ Khoảng cách câu Khoảng cách đoạn Là chuỗi Số ít, số nhiều Tên riêng 40 3.2.2 Xác định đặc trưng đề cập cho tiếng Việt Vấn đề quan trọng hệ thống xác định đồng sở cho tiếng Việt xác định thơng tin đặc trưng cho đề cập Các đặc trưng đặc trưng để so khớp cặp đề cập để phân cụm đề cập Với tiếng Việt, khơng có sẵn cơng cụ bổ trợ công cụ xác định phân lớp theo thực thể định danh (NER), từ điển riêng (mỗi cơng cụ nhóm nghiên cứu có từ điển riêng như: từ điển tên gọi khác nhau, danh sách từ đặc biệt để xác định người người nói, ), WordNet, việc xác định đặc trưng đề cập tốn khó Phương pháp đề xuất báo cáo để giải vấn đề phân tích cú pháp phân tích vai nghĩa Q trình phân tích cú pháp cho thông tin ngữ pháp văn bản, giúp xác định cụm danh từ, từ cụm danh từ, nhãn từ loại, Phân tích vai nghĩa giúp làm rõ quan hệ cụm từ câu thông qua động từ [6] Thông tin giúp xác định quan hệ đặc biệt đề cập dễ dàng xác định người nói 3.3 Thực nghiệm Các thực nghiệm tiến hành để đánh giá khả ứng dụng kiến trúc sàng nhiều lượt cho tiếng Việt 3.3.1 Ngữ liệu Thực nghiệm tiến hành 3000 câu 50 văn lấy từ kho ngữ liệu VietTreebank gồm 10000 câu phân tích cú pháp thành phần 3000 câu bổ sung thông tin cú pháp phụ thuộc [8] thông tin vai nghĩa [6] xác định đồng sở thủ cơng 41 3.3.2 Kết thực nghiệm Qn trình thực nghiệm tiến hành kiểm chứng chéo liệu với tỷ lệ 80% liệu huấn luyên, 20% liệu kiểm tra, kết thu sau: Score PairWise MUC-6 B3 CAEF BLANC CoNNL-F1 Bảng 3.2: Kết thực nghiệm So sánh kết với kết cho tiếng Anh (74.5%), ta thấy kết thu chưa thực tốt Điều tương đối dễ hiều áp dụng với tiếng Việt bỏ số lượt sàng đặc trưng đề cập tiếng Việt không đầy đủ cho tiếng Anh Kết hồn tồn cải tiến bổ sung thêm số đặc trưng ngữ nghĩa, nhãn thực thể định danh, 42 Kết luận Luận văn nghiên cứu toán xác định đồng sở Đây tốn có nhiều ứng dụng xử lý ngôn ngữ tự nhiên Luận văn giới thiệu toán xác định đồng sở chỉ, cách tiếp cận phương pháp xác định đồng sở Trong phương pháp đó, phương pháp xác định đồng sở hệ thống sàng nhiều lượt, dựa luật thực thể trung tâm xếp hạng độ xác tập trung trình bày chi tiết Đây phương pháp cho kết tốt với tiếng Anh thi xác định đồng sở năm 2011, 2013 tiếp tục nghiên cứu cải tiến Phương pháp có tính độc lập ngơn ngữ cao nên có khả áp dụng tốt cho tiếng Việt Trong trình áp dụng xác định đồng sở cho tiếng Việt, vấn đề khó xác định đặc trưng đề cập Các đặc trưng xác định dựa vào thông tin cú pháp thành phần, cú pháp phụ thuộc vai nghĩa Quá trình thực nghiệm với tiếng Việt thực liệu gồm 50 văn với 3000 câu phân tích cú pháp gán nhãn vai nghĩa có kết với độ xác CoNNL-F1 59.98% Đây kết khả quan hồn tồn cải thiện Trong tương lai, tác giả tiếp tục xây dựng lượt sàng phù hợp công cụ để xác định đặc trưng ngữ nghĩa, nhãn thực thể định danh để nâng cao độ xác hệ thống 43 Các cơng trình cơng bố liên quan đến luận văn [1] N T Luong, H M Linh, N V Hung, N T M Huyen, and L H Phuong Building a treebank for vietnamese dependency parsing In Computing and Communication Technologies, Research, Innovation, and Vision for the Future (RIVF), 2013 [2] H M Linh, N T Luong, N V Hung, N T M Huyen, L H Phuong, and P T Hue Xây dựng kho ngữ liệu mẫu có gán nhãn vai nghĩa cho tiếng Việt Tại Hội thảo quốc gia lần thứ XVII: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông, 2014 44 Tài liệu tham khảo [1] S Azzam, K Humphreys, and R Gaizauskas Using coreference chains for text summarization In Proceedings of the Workshop on Coreference and Its Applications, CorefApp ’99, pages 77–84, Stroudsburg, PA, USA, 1999 Association for Computational Linguistics [2] A Culotta, M Wick, R Hall, and A Mccallum First-order probabilistic models for coreference resolution In In Proceedings of HLT-NAACL 2007, 2007 [3] H Daumé, III and D Marcu A large-scale exploration of effective global features for a joint entity detection and tracking model In Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing, HLT ’05, pages 97–104, Stroudsburg, PA, USA, 2005 Association for Computational Linguistics [4] P Denis and J Baldridge A ranking approach to pronoun resolution In Proceedings of the 20th International Joint Conference on Artifical Intelli-gence, IJCAI’07, pages 1588–1593, San Francisco, CA, USA, 2007 Morgan Kaufmann Publishers Inc [5] H Lee, A Chang, Y Peirsman, N Chambers, M Surdeanu, and D Juraf-sky Deterministic coreference resolution based on entity-centric, precision-ranked rules Comput Linguist., 39(4):885–916, Dec 2013 [6] H M Linh, N T Luong, N V Hung, N T M Huyen, L H Phuong, and P T Hue Xây dựng kho ngữ liệu mẫu có gán nhãn vai nghĩa cho tiếng việt In Hội thảo quốc gia lần thứ XVII: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông, 2014 45 [7] X Luo, A Ittycheriah, H Jing, N Kambhatla, and S Roukos A mention- synchronous coreference resolution algorithm based on the bell tree In Proceedings of the 42Nd Annual Meeting on Association for Computational Linguistics, ACL ’04, Stroudsburg, PA, USA, 2004 Association for Com-putational Linguistics [8] N T Luong, H M Linh, N V Hung, N T M Huyen, and L H Phuong Building a treebank for vietnamese dependency parsing In Computing and Communication Technologies, Research, Innovation, and Vision for the Fu-ture (RIVF), 2013 [9] A McCallum, B Wellner, and A M Ý Toward conditional models of identity uncertainty with application to proper noun coreference, 2003 [10] A Mccallum and B Wellner Conditional models of identity uncertainty with application to noun coreference In NIPS 2004, 2004 [11] R Mitkov Towards a more consistent and comprehensive evaluation of anaphora resolution algorithms and systems Applied Artificial Intelligence, 15(3):253–276, 2001 [12] T S Morton Using coreference for question answering In Proceedings of the Workshop on Coreference and Its Applications, CorefApp ’99, pages 85–89, Stroudsburg, PA, USA, 1999 Association for Computational Linguistics [13] V Ng Machine learning for coreference resolution: From local classification to global ranking In In ACL-05, pages 157–164, Ann Arbor, MI, page 2005, 2005 [14] V Ng and C Cardie Improving machine learning approaches to coreference resolution In Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, ACL ’02, pages 104–111, Stroudsburg, PA, USA, 2002 Association for Computational Linguistics [15] D B Nguyen, S H Hoang, S B Pham, and T P Nguyen Named en-tity recognition for vietnamese In Proceedings of the Second International 46 Conference on Intelligent Information and Database Systems: Part II, ACI-IDS’10, pages 205–214, Berlin, Heidelberg, 2010 Springer-Verlag [16] P T Nguyen, L V Xuan, T M H Nguyen, V H Nguyen, and P Le- Hong Building a large syntactically-annotated corpus of Vietnamese In Proceed-ings of the 3rd Linguistic Annotation Workshop, ACL-IJCNLP, Singapore, 2009 [17] K Raghunathan, H Lee, S Rangarajan, N Chambers, M Surdeanu, D Ju-rafsky, and C Manning A multi-pass sieve for coreference resolution In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, EMNLP ’10, pages 492–501, Stroudsburg, PA, USA, 2010 Association for Computational Linguistics [18] M Recasens, M.-C de Marneffe, and C Potts The life and death of dis-course entities: Identifying singleton mentions In Proceedings of the 2013 Conference of the North American Chapter of the Association for Compu-tational Linguistics: Human Language Technologies, pages 627–633 Asso-ciation for Computational Linguistics, 2013 [19] M Recasens, T Martí, M Taulé, L Màrquez, and E Sapena Semeval- 2010 task 1: Coreference resolution in multiple languages In Proceedings of the Workshop on Semantic Evaluations: Recent Achievements and Future Di-rections, DEW ’09, pages 70–75, Stroudsburg, PA, USA, 2009 Association for Computational Linguistics [20] R C Sam, H T Le, T T Nguyen, and T H Nguyen Combining proper name-coreference with conditional random fields for semi-supervised named entity recognition in vietnamese text In Proceedings of the 15th Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining - Vol-ume Part I, PAKDD’11, pages 512–524, Berlin, Heidelberg, 2011 Springer-Verlag [21] W M Soon, H T Ng, and D C Y Lim A machine learning approach to coreference resolution of noun phrases Comput Linguist., 27(4):521– 544, Dec 2001 47 [22] P T X Thao, T Q Tri, D Dien, and N Collier Named entity recognition in vietnamese using classifier voting 6(4):3:1–3:18, Dec 2007 [23] D.-T Vo and C.-Y Ock A hybrid approach of pattern extraction and semi-supervised learning for vietnamese named entity recognition In Proceed-ings of the 4th International Conference on Computational Collective In-telligence: Technologies and Applications - Volume Part I, ICCCI’12, pages 83–93, Berlin, Heidelberg, 2012 Springer-Verlag [24] X Yang, J Su, and C L Tan Kernel-based pronoun resolution with struc- tured syntactic knowledge In Proceedings of the 21st International Conference on Computational Linguistics and the 44th Annual Meeting of the Association for Computational Linguistics, ACL-44, pages 41–48, Stroudsburg, PA, USA, 2006 Association for Computational Linguistics [25] X Yang, G Zhou, J Su, and C L Tan Coreference resolution using competition learning approach In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics - Volume 1, ACL ’03, pages 176–183, Stroudsburg, PA, USA, 2003 Association for Computational Lin-guistics 48 Phụ lục VietTreebank VietTreebank kho liệu tiếng Việt xây dựng từ đề tài nhà nước "Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt", mã số KC01.01/06-10 VietTreebank có 10.000 câu tiếng Việt tách từ, gán nhãn từ loại, gán nhãn cú pháp định dạng cấu trúc đặt ngoặc Ví dụ câu VietTreebank: (S (NP-SUB (N-H Dịch_vụ) (PP (E-H của) (NP (P-H họ)))) (VP (T chính) (V-H là) (NP-DOB (N-H khâu) (A trung_gian) (VP (V-H đảm_bảo) (PP (E-H cho) (NP (L những) (N-H niềm) (A vui) (P ấy)) (VP (V-H được) (AP (A-H trọn_vẹn))))))) ( .)) Bảng 3.3 liệt kê nhãn từ loại VietTreeBank STT Tên N Np Nc Nu V A P L M Bảng 3.3: Tập nhãn từ loại VietTreeBank Bảng 3.4 liệt kê tập nhãn cụm từ Bảng 3.4 liệt kê nhãn chức cú pháp 49 STT 10 11 Bảng 3.4: Tập nhãn cụm từ VietTreeBank STT 9-12 13 14 Bảng 3.5: Các nhãn chức cú pháp VietTreebank 50 Một số quan hệ phụ thuộc cho tiếng Việt acomp: bổ ngữ tính từ Bổ ngữ tính từ động từ (V) tính từ (A) hay cụm tính từ (AP) có chức bổ ngữ bắt buộc, tương tự bổ ngữ động từ • Cơ nhìn đẹp pmod Cơ Chú ý tính từ làm bổ ngữ khơng bắt buộc dùng quan hệ amod Ví dụ: “Nó chạy nhanh” có phụ thuộc amod(chạy, nhanh) bổ nghĩa tính từ danh từ Bổ nghĩa tính từ tính từ cụm tính từ bổ nghĩa cho danh từ • Nam ăn cá sống → amod(cá, sống) nsubj • FPT cơng ty uy tín → amod(cơng ty, uy tín) punct root dobj nsubj FPT amod num advmodb công_ty uy_tín apredmod: bổ nghĩa tính từ vị từ Bổ nghĩa tính từ tính từ cụm tính từ bổ nghĩa cho vị từ Vị từ tiếng Việt thường động từ tính từ 51 • Nam nhanh → apredmod(đi, nhanh) root punct apredmod nsubj Nam nhanh advmoda: bổ nghĩa phó từ đứng sau Bổ ngữ phó từ phó từ (R) hay cụm phó từ (RP) có chức thay đổi nghĩa từ Từ bổ trợ thường tính từ, cụm tính từ động từ, cụm động từ Bổ ngữ ln đứng sau cụm mà bổ trợ • Cơ đẹp q → advmoda(đẹp, q) root nsubj pmod Cô punct advmoda đẹp advmodb: bổ nghĩa phó từ đứng trước Bổ ngữ phó từ phó từ (R) hay cụm phó từ (RP) có chức thay đổi nghĩa từ Từ bổ trợ thường tính từ, cụm tính từ động từ, cụm động từ Bổ ngữ ln đứng trước cụm mà bổ trợ • Cơ đẹp → advmodb(đẹp, rất) pmod Cơ advmodt: bổ nghĩa phó từ thời gian Bổ ngữ phó từ phó từ (R) hay cụm phó từ (RP) có chức bổ nghĩa thời giạn cho động từ Các từ thường gặp như: “đã”, “sẽ”, “đang” Từ bổ trợ thường động từ cụm động từ 52 • Nó → advmodt(đi, đã) root psubj advmodt punct Nó Quan hệ phủ định Mô tả mối quan hệ phủ định từ (động từ tính từ) từ diễn đạt ý nghĩa phủ định Trong tiếng Việt, hai từ hay dùng để diễn đạt ý phủ định "không" "chẳng" • Anh không tới → neg(tới, không) root nsubj neg Anh khơng punct tới • Hoa khơng chăm → neg(chăm chỉ, khơng) • Nó chẳng thiết → neg(thiết, chẳng) Phân tích vai nghĩa Phân tích vai nghĩa q trình làm rõ vai trò cụm từ câu theo khung danh từ, động từ, tính từ, trạng từ Ví dụ: Xét câu tiếng Anh: “Analysis have been expecting a GM-Jaguar pact that T would give the US car marker an eventual 30% stake in the British company” Hình 3.5 Những vai nghĩa có câu là: Analysis(Arg0), a GM-Jaguar pact(Arg1), Kết phân tích vai nghĩa cụm gán nhãn vai nghĩa với số nhãn sau: 53 have been expecting ARG0 Analysis a GM - Jaguar pact ARG0 ARG2 T-1 the US car maker ARG1 an eventual 30% stake in the British company Hình 3.5: Câu tiếng Anh gán nhãn vai nghĩa • REL = quan hệ • Arg0 = Tác thể • Arg1 = Bị thể • Arg2 = Cơng cụ/ Kẻ hưởng lợi/ Thuộc tính • Arg3 = Điểm bắt đầu/ Kẻ hưởng lợi/ Thuộc tính • Arg4 = Điểm kết thúc • ArgM = Bổ ngữ Với việc có vai trị thành phần câu, ta dễ dàng xác định quan hệ đề cập (là cụm danh từ) Ví dụ: An nói với Bình: "Tơi đây!" Trong ví dụ trên, xét theo khung động từ ta có quan hệ nói thành phần ARG0 (chủ thể hành động) An, ARG1 (bị thể) Bình, ARG-M (bổ ngữ cách thức) "Tơi đây!" Từ đây, ta xác định An người nói, Bình người nghe Và áp dụng lượt sàng số 1, ta thu cặp đồng sở [An] [tôi] Trong số lượt sàng khác, ta sử dụng thơng tin phân tích vai nghĩa Ví dụ: An học sinh giỏi Với khung động từ và, ta có ARG0 An, ARG1 học sinh giỏi, áp dụng lượt sàng số trường hợp có độ xác cao, ta thu cặp đồng sở [An], [một học sinh giỏi] 54 ... đề 30 2.3.9 Xác định đồng sở cho đại từ Ngoại trừ lượt một, tất lượt từ hai đến chín, mơ hình xác định đồng sở tập trung vào xác định đồng sở cho cụm danh từ Việc xác định đồng sở cho cụm danh... vật, việc, ) gọi đồng sở Xác định đồng sở bước để phân tích hiểu ngữ nghĩa văn Chương trình bày tổng quan toán xác định đồng sở cho văn 1.1 Bài toán xác định đồng sở Xác định đồng sở trình tìm tất... Tổng quan xác định đồng sở 1.1 Bài toán xác định đồng sở 1.2 Cách giải toán xác định 1.2.1 1.2.2 1.3 Phương pháp xác định đồng sở ch 1.3.1 1.3.2 1.3.3 1.4 Đánh giá kết xác định đồng sở 1.4.1

Ngày đăng: 20/11/2020, 09:29

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan