Tóm tắt đoạn văn bản tiếng việt dựa trên cách tiếp cận tạo sinh

160 67 0
Tóm tắt đoạn văn bản tiếng việt dựa trên cách tiếp cận tạo sinh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN TRẦN TRUNG TĨM TẮT ĐOẠN VĂN BẢN TIẾNG VIỆT DỰA TRÊN CÁCH TIẾP CẬN TẠO SINH LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH TP HỒ CHÍ MINH – Năm 2020 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN TRẦN TRUNG TĨM TẮT ĐOẠN VĂN BẢN TIẾNG VIỆT DỰA TRÊN CÁCH TIẾP CẬN TẠO SINH Chuyên ngành: Khoa học máy tính Mã số: 62 48 01 01 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS NGUYỄN TUẤN ĐĂNG PGS TS PHẠM HỮU ĐỨC PHẢN BIỆN ĐỘC LẬP: PGS TS NGUYỄN LÊ MINH TS ĐẶNG TRƯỜNG SƠN TP HỒ CHÍ MINH – Năm 2020 LỜI CAM ĐOAN Tôi tên Trần Trung Tơi xin cam đoan cơng trình nghiên cứu thực hướng dẫn PGS TS Nguyễn Tuấn Đăng PGS TS Phạm Hữu Đức Các số liệu, kết nghiên cứu trình bày luận án trung thực chưa công bố tác giả cơng trình khác Tác giả luận án Trần Trung LỜI CẢM ƠN Luận án thực hoàn thành Khoa Khoa học máy tính, Trường Đại học Cơng nghệ thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh Đầu tiên, xin bày tỏ lịng biết ơn sâu sắc đến PGS TS Nguyễn Tuấn Đăng PGS TS Phạm Hữu Đức, người Thầy tận tình hướng dẫn, động viên truyền đạt kinh nghiệm quý báu nghiên cứu khoa học để em hồn thành tốt luận án Tơi xin chân thành cảm ơn nhà trường suốt trình học tập, tơi nhận quan tâm, giúp đỡ thầy cô giáo Khoa Khoa học máy tính, Phịng Đào tạo Sau đại học Khoa học công nghệ Ban giám hiệu Trường Đại học Công nghệ thông tin Cuối cùng, muốn bày tỏ lòng biết ơn sâu sắc đến Cha, Mẹ, Em gái ln điểm tựa vững chắc, chăm sóc, ủng hộ tạo điều kiện thuận lợi cho tơi hồn thành tốt luận án Tp Hồ Chí Minh, tháng 06 năm 2020 Tác giả luận án Trần Trung MỤC LỤC MỤC LỤC .1 Danh mục ký hiệu chữ viết tắt Danh mục bảng Danh mục hình vẽ .8 MỞ ĐẦU Đặt vấn đề lý lựa chọn đề tài .9 Mục tiêu nội dung nghiên cứu .12 Phạm vi đối tượng nghiên cứu .13 Phạm vi nghiên cứu .13 Đối tượng nghiên cứu 13 Phương thức tiếp cận 16 Đóng góp khoa học luận án 17 Bố cục luận án 19 CHƯƠNG TỔNG QUAN VỀ TÓM TẮT VĂN BẢN 20 1.1 Hướng tiếp cận tóm tắt dựa trích xuất 21 1.2 Hướng tiếp cận tóm tắt trừu tượng .24 1.2.1 Phương pháp tiếp cận dựa cấu trúc .25 1.2.1.1 Phương pháp dựa cấu trúc mẫu 25 1.2.1.2 Phương pháp dựa ontology 25 1.2.1.3 Phương pháp dựa ngữ đoạn đầu thân 25 1.2.1.4 Phương pháp dựa quy tắc 26 1.2.2 Phương pháp tiếp cận dựa ngữ nghĩa 26 1.2.2.1 Phương pháp dựa ngữ nghĩa đa thể .26 1.2.2.2 Phương pháp dựa mục tin tức .26 1.2.2.3 Phương pháp dựa đồ thị ngữ nghĩa .27 1.2.3 Hướng tiếp cận trộn câu - nén câu .27 1.2.3.1 Phương pháp sử dụng phụ thuộc 28 1.2.3.2 Phương pháp sử dụng đồ thị từ vựng 30 1.3 Kết chương 30 CHƯƠNG CƠ SỞ LÝ THUYẾT 32 2.1 Giới thiệu 32 2.2 Phân tích biểu diễn ngữ nghĩa .33 2.2.1 Lý thuyết biểu diễn diễn ngôn 33 2.2.2 Ngữ pháp dựa hợp 35 2.3 Nền tảng Ngôn ngữ học .36 2.3.1 Những dạng câu tiếng Việt yếu tố hồi Ngữ pháp chức 36 2.3.1.1 Phân loại hình câu theo nghĩa biểu khung vị ngữ 36 2.3.1.2 Những dạng yếu tố hồi tiếng Việt .38 2.3.2 Những quy tắc cải biến Ngữ pháp cải biến – tạo sinh .40 2.3.2.1 Ngữ pháp cải biến – tạo sinh giai đoạn I Noam Chomsky 40 2.3.2.2 Một số quy tắc cải biến 42 2.4 Tạo sinh ngôn ngữ tự nhiên .43 2.5 Kết chương 45 CHƯƠNG PHÂN TÍCH VÀ BIỂU DIỄN NGỮ NGHĨA VĂN BẢN TIẾNG VIỆT 46 3.1 Giới thiệu 46 3.2 Phương pháp sử dụng cấu trúc ngữ đoạn bề mặt .47 3.2.1 Tạo dựng cấu trúc biểu diễn cấp độ bề mặt 47 3.2.1.1 Cơ chế tạo dựng cấu trúc ngữ đoạn bề mặt 47 3.2.1.2 Chuyển đổi câu tiếng Việt có cấu trúc đơn giản 50 3.2.2 Tạo dựng cấu trúc biểu diễn diễn ngôn 55 3.2.2.1 Phân tích đoạn văn cấu trúc cú pháp câu tiếng Việt đầu vào 55 3.2.2.2 Mô tả đặc điểm ngữ pháp từ vựng tạo dựng cấu trúc biểu diễn diễn ngôn 57 3.2.2.3 Xử lý đại từ hồi tạo dựng cấu trúc biểu diễn diễn ngôn 59 3.3 Phương pháp sử dụng cấu trúc đồ thị ngữ đoạn gán nhãn 64 3.3.1 Tạo dựng cấu trúc biểu diễn cấp độ bề mặt 64 3.3.1.1 Cấu trúc đồ thị ngữ đoạn gán nhãn 64 3.3.1.2 Cơ chế tạo dựng cấu trúc đồ thị ngữ đoạn gán nhãn 66 3.3.1.3 Xác định yếu tố tiền ngữ tương ứng cho yếu tố hồi .69 3.3.2 Tạo dựng cấu trúc biểu diễn diễn ngôn 76 3.4 Kết chương 79 CHƯƠNG TẠO SINH VĂN BẢN TIẾNG VIỆT .80 4.1 Giới thiệu 80 4.2 Từ biểu diễn cặp câu có quan hệ hệ 81 4.2.1 Phân nhóm cặp câu biểu diễn 81 4.2.2 Cơ chế tạo sinh 83 4.2.2.1 Phân tích cấu trúc biểu diễn diễn ngơn Xác định mối quan hệ 83 4.2.2.2 Tạo sinh cấu trúc cú pháp câu tiếng Việt 84 4.2.2.3 Hoàn chỉnh câu tiếng Việt 85 4.2.3 Thử nghiệm đánh giá 87 4.2.3.1 Thiết kế thử nghiệm 87 4.2.3.2 Đánh giá 87 4.3 Từ biểu diễn cặp câu trình 89 4.3.1 Phân nhóm cặp câu biểu diễn 89 4.3.2 Cơ chế tạo sinh 90 4.3.2.1 Phân tích cấu trúc biểu diễn diễn ngôn xác định mối quan hệ .90 4.3.2.2 Tạo sinh cấu trúc cú pháp câu tiếng Việt 91 4.3.2.3 Hoàn chỉnh câu tiếng Việt tạo sinh 92 4.3.3 Thử nghiệm đánh giá 93 4.3.3.1 Xây dựng ngữ liệu thử nghiệm .93 4.3.3.2 Thiết kế thử nghiệm 95 4.3.3.3 Đánh giá 97 4.4 Từ biểu diễn đoạn văn có nhiều hai câu 100 4.4.1 Cơ chế tạo sinh 100 4.4.1.1 Tạo sinh cấu trúc cú pháp câu tiếng Việt 100 4.4.1.2 Tạo sinh đoạn văn tóm tắt tiếng Việt 104 4.4.2 Thử nghiệm đánh giá 108 4.4.2.1 Thiết kế thử nghiệm 108 4.4.2.2 Kết Đánh giá 109 4.5 Kết chương 111 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 113 5.1 Kết luận 113 5.2 Hướng phát triển 113 TÀI LIỆU THAM KHẢO 115 6.1 DANH MỤC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 115 6.2 TÀI LIỆU THAM KHẢO 118 6.2.1 Tiếng Việt 118 6.2.2 Tiếng Anh 118 PHỤ LỤC 139 PL.1 Tạo sinh đoạn văn ngôn ngữ tự nhiên từ Biểu diễn ý nghĩa phẳng 139 PL.1.1 Cấu trúc biểu diễn ý nghĩa phẳng 139 PL.1.2 Cơ chế tạo sinh 141 PL.1.2.1 Phân tích biểu diễn ý nghĩa phẳng Xác định mối quan hệ 141 PL.1.2.2 Tập hợp ngữ liệu từ vựng cụm từ .143 PL.1.2.3 Tạo sinh cấu trúc cú pháp Hồn chỉnh đoạn văn ngơn ngữ tự nhiên 145 PL.1.3 Thử nghiệm đánh giá 151 PL.1.3.1 Thử nghiệm đánh giá với phần phát triển 152 PL.1.3.2 Thử nghiệm đánh giá với phần thử nghiệm E2E thực 152 PL.1.4 Thảo luận 155 Danh mục ký hiệu chữ viết tắt An-F-He-i Heuristic thứ i xác định yếu tố tiền ngữ cho đại từ hồi – Antecedent Finding Heuristic An-F-Gr-NP-i Chiến lược tìm kiếm yếu tố tiền ngữ thứ i cho yếu tố hồi đồ thị – Antecedent Finding Graph Noun Phrase CT-BD-NN-TT Cấu trúc biểu diễn ngữ nghĩa trừu tượng CT-BD-DN Cấu trúc biểu diễn diễn ngôn CT-BD-YN-P Cấu trúc biểu diễn ý nghĩa phẳng DRS Cấu trúc biểu diễn diễn ngôn – Discourse Representation Structure DRT Lý thuyết biểu diễn diễn ngôn – Discourse Representation Theory E2E Đầu cuối – End-to-End En-NL-Ref Văn ngôn ngữ tự nhiên tiếng Anh – English Natural Language Reference Flat MR Biểu diễn ý nghĩa phẳng – Flat Meaning Representation FP Ngữ đoạn chức – Function Phrase F-ConvRules Bộ quy tắc chuyển đổi câu tiếng Việt câu có cấu trúc đơn giản – Functional Conversion Rules F-Conv-i Quy tắc chuyển đổi thứ i từ câu tiếng Việt câu có cấu trúc đơn giản – Function Conversion GULP Lập trình logic hợp đồ thị – Graph Unification Logic Programming KN-CĐ-i Kinh nghiệm chuyển đổi thứ i từ câu tiếng Việt câu có cấu trúc đơn giản – Kinh nghiệm chuyển đổi NLG Tạo sinh ngôn ngữ tự nhiên – Natural Language Generation NP Ngữ đoạn danh từ – Noun Phrase OP Ngữ đoạn đối tượng – Object Phrase Pasp Vị từ ngữ nghĩa hành động / trạng thái / trình DRS – Semantic Predicate of Action / State / Process Po Vị từ ngữ nghĩa đối tượng DRS – Semantic Predicate of Object QH Yếu tố quan hệ QH-HQ Yếu tố quan hệ hệ QH-VT-i Dạng quan hệ vị từ thứ i S Câu – Sentence SBG Hệ thống tạo sinh dựa cấu trúc – Structure-based Generation TG-CĐ-i Quy tắc tinh giản chuyển đổi thứ i từ cấu trúc đồ thị DRS UBG Ngữ pháp dựa hợp – Unification-based Grammar VP Ngữ đoạn động từ – Verb Phrase X Dạng câu trình chuyển thái Y Dạng câu trình chuyển vị Z Dạng câu q trình tác động ↳ Nhóm q trình – QT-1 ↰ Nhóm q trình – QT-2 ⊗ Nhóm q trình – QT-3 ... xuất mơ hình giải pháp tạo sinh đoạn văn tóm tắt nhằm tóm tắt nội dung thơng tin đoạn văn tiếng Việt cho trước theo hướng tiếp cận tóm tắt trừu tượng, với kết hợp kỹ thuật tạo sinh ngôn ngữ tự nhiên... biểu diễn đoạn văn có nhiều hai câu 100 4.4.1 Cơ chế tạo sinh 100 4.4.1.1 Tạo sinh cấu trúc cú pháp câu tiếng Việt 100 4.4.1.2 Tạo sinh đoạn văn tóm tắt tiếng Việt ... ngữ đoạn khơng liên tiếp khiến chúng bị rời rạc Việc kết hợp ngữ đoạn để tạo thành văn tóm tắt khiến nội dung bị lẫn lộn khơng liền mạch Trong hướng tiếp cận tóm tắt trừu tượng, văn tóm tắt tạo

Ngày đăng: 22/01/2021, 11:45

Từ khóa liên quan

Mục lục

  • TP. HỒ CHÍ MINH – Năm 2020

  • TP. HỒ CHÍ MINH – Năm 2020

  • MỤC LỤC

  • Danh mục các ký hiệu và chữ viết tắt

  • Danh mục các bảng

  • Danh mục các hình vẽ

  • MỞ ĐẦU

    • Đặt vấn đề và lý do lựa chọn đề tài

    • Mục tiêu và nội dung nghiên cứu

    • Phạm vi và đối tượng nghiên cứu

      • Phạm vi nghiên cứu

      • Đối tượng nghiên cứu

      • Phương thức tiếp cận

      • Đóng góp khoa học của luận án

      • Bố cục của luận án

      • CHƯƠNG 1. TỔNG QUAN VỀ TÓM TẮT VĂN BẢN

        • 1.1. Hướng tiếp cận tóm tắt dựa trên trích xuất

        • 1.2. Hướng tiếp cận tóm tắt trừu tượng

          • 1.2.1. Phương pháp tiếp cận dựa trên cấu trúc

            • 1.2.1.1. Phương pháp dựa trên cấu trúc mẫu

            • 1.2.1.2. Phương pháp dựa trên ontology

            • 1.2.1.3. Phương pháp dựa trên những ngữ đoạn đầu và thân.

            • 1.2.1.4. Phương pháp dựa trên quy tắc

            • 1.2.2. Phương pháp tiếp cận dựa trên ngữ nghĩa

              • 1.2.2.1. Phương pháp dựa trên ngữ nghĩa đa thể hiện

              • 1.2.2.2. Phương pháp dựa trên mục tin tức

Tài liệu cùng người dùng

Tài liệu liên quan