Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 160 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
160
Dung lượng
1,32 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN TRẦN TRUNG TĨM TẮT ĐOẠN VĂN BẢN TIẾNG VIỆT DỰA TRÊN CÁCH TIẾP CẬN TẠO SINH LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH TP HỒ CHÍ MINH – Năm 2020 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN TRẦN TRUNG TĨM TẮT ĐOẠN VĂN BẢN TIẾNG VIỆT DỰA TRÊN CÁCH TIẾP CẬN TẠO SINH Chuyên ngành: Khoa học máy tính Mã số: 62 48 01 01 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS NGUYỄN TUẤN ĐĂNG PGS TS PHẠM HỮU ĐỨC PHẢN BIỆN ĐỘC LẬP: PGS TS NGUYỄN LÊ MINH TS ĐẶNG TRƯỜNG SƠN TP HỒ CHÍ MINH – Năm 2020 LỜI CAM ĐOAN Tôi tên Trần Trung Tơi xin cam đoan cơng trình nghiên cứu thực hướng dẫn PGS TS Nguyễn Tuấn Đăng PGS TS Phạm Hữu Đức Các số liệu, kết nghiên cứu trình bày luận án trung thực chưa công bố tác giả cơng trình khác Tác giả luận án Trần Trung LỜI CẢM ƠN Luận án thực hoàn thành Khoa Khoa học máy tính, Trường Đại học Cơng nghệ thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh Đầu tiên, xin bày tỏ lịng biết ơn sâu sắc đến PGS TS Nguyễn Tuấn Đăng PGS TS Phạm Hữu Đức, người Thầy tận tình hướng dẫn, động viên truyền đạt kinh nghiệm quý báu nghiên cứu khoa học để em hồn thành tốt luận án Tơi xin chân thành cảm ơn nhà trường suốt trình học tập, tơi nhận quan tâm, giúp đỡ thầy cô giáo Khoa Khoa học máy tính, Phịng Đào tạo Sau đại học Khoa học công nghệ Ban giám hiệu Trường Đại học Công nghệ thông tin Cuối cùng, muốn bày tỏ lòng biết ơn sâu sắc đến Cha, Mẹ, Em gái ln điểm tựa vững chắc, chăm sóc, ủng hộ tạo điều kiện thuận lợi cho tơi hồn thành tốt luận án Tp Hồ Chí Minh, tháng 06 năm 2020 Tác giả luận án Trần Trung MỤC LỤC MỤC LỤC .1 Danh mục ký hiệu chữ viết tắt Danh mục bảng Danh mục hình vẽ .8 MỞ ĐẦU Đặt vấn đề lý lựa chọn đề tài .9 Mục tiêu nội dung nghiên cứu .12 Phạm vi đối tượng nghiên cứu .13 Phạm vi nghiên cứu .13 Đối tượng nghiên cứu 13 Phương thức tiếp cận 16 Đóng góp khoa học luận án 17 Bố cục luận án 19 CHƯƠNG TỔNG QUAN VỀ TÓM TẮT VĂN BẢN 20 1.1 Hướng tiếp cận tóm tắt dựa trích xuất 21 1.2 Hướng tiếp cận tóm tắt trừu tượng .24 1.2.1 Phương pháp tiếp cận dựa cấu trúc .25 1.2.1.1 Phương pháp dựa cấu trúc mẫu 25 1.2.1.2 Phương pháp dựa ontology 25 1.2.1.3 Phương pháp dựa ngữ đoạn đầu thân 25 1.2.1.4 Phương pháp dựa quy tắc 26 1.2.2 Phương pháp tiếp cận dựa ngữ nghĩa 26 1.2.2.1 Phương pháp dựa ngữ nghĩa đa thể .26 1.2.2.2 Phương pháp dựa mục tin tức .26 1.2.2.3 Phương pháp dựa đồ thị ngữ nghĩa .27 1.2.3 Hướng tiếp cận trộn câu - nén câu .27 1.2.3.1 Phương pháp sử dụng phụ thuộc 28 1.2.3.2 Phương pháp sử dụng đồ thị từ vựng 30 1.3 Kết chương 30 CHƯƠNG CƠ SỞ LÝ THUYẾT 32 2.1 Giới thiệu 32 2.2 Phân tích biểu diễn ngữ nghĩa .33 2.2.1 Lý thuyết biểu diễn diễn ngôn 33 2.2.2 Ngữ pháp dựa hợp 35 2.3 Nền tảng Ngôn ngữ học .36 2.3.1 Những dạng câu tiếng Việt yếu tố hồi Ngữ pháp chức 36 2.3.1.1 Phân loại hình câu theo nghĩa biểu khung vị ngữ 36 2.3.1.2 Những dạng yếu tố hồi tiếng Việt .38 2.3.2 Những quy tắc cải biến Ngữ pháp cải biến – tạo sinh .40 2.3.2.1 Ngữ pháp cải biến – tạo sinh giai đoạn I Noam Chomsky 40 2.3.2.2 Một số quy tắc cải biến 42 2.4 Tạo sinh ngôn ngữ tự nhiên .43 2.5 Kết chương 45 CHƯƠNG PHÂN TÍCH VÀ BIỂU DIỄN NGỮ NGHĨA VĂN BẢN TIẾNG VIỆT 46 3.1 Giới thiệu 46 3.2 Phương pháp sử dụng cấu trúc ngữ đoạn bề mặt .47 3.2.1 Tạo dựng cấu trúc biểu diễn cấp độ bề mặt 47 3.2.1.1 Cơ chế tạo dựng cấu trúc ngữ đoạn bề mặt 47 3.2.1.2 Chuyển đổi câu tiếng Việt có cấu trúc đơn giản 50 3.2.2 Tạo dựng cấu trúc biểu diễn diễn ngôn 55 3.2.2.1 Phân tích đoạn văn cấu trúc cú pháp câu tiếng Việt đầu vào 55 3.2.2.2 Mô tả đặc điểm ngữ pháp từ vựng tạo dựng cấu trúc biểu diễn diễn ngôn 57 3.2.2.3 Xử lý đại từ hồi tạo dựng cấu trúc biểu diễn diễn ngôn 59 3.3 Phương pháp sử dụng cấu trúc đồ thị ngữ đoạn gán nhãn 64 3.3.1 Tạo dựng cấu trúc biểu diễn cấp độ bề mặt 64 3.3.1.1 Cấu trúc đồ thị ngữ đoạn gán nhãn 64 3.3.1.2 Cơ chế tạo dựng cấu trúc đồ thị ngữ đoạn gán nhãn 66 3.3.1.3 Xác định yếu tố tiền ngữ tương ứng cho yếu tố hồi .69 3.3.2 Tạo dựng cấu trúc biểu diễn diễn ngôn 76 3.4 Kết chương 79 CHƯƠNG TẠO SINH VĂN BẢN TIẾNG VIỆT .80 4.1 Giới thiệu 80 4.2 Từ biểu diễn cặp câu có quan hệ hệ 81 4.2.1 Phân nhóm cặp câu biểu diễn 81 4.2.2 Cơ chế tạo sinh 83 4.2.2.1 Phân tích cấu trúc biểu diễn diễn ngơn Xác định mối quan hệ 83 4.2.2.2 Tạo sinh cấu trúc cú pháp câu tiếng Việt 84 4.2.2.3 Hoàn chỉnh câu tiếng Việt 85 4.2.3 Thử nghiệm đánh giá 87 4.2.3.1 Thiết kế thử nghiệm 87 4.2.3.2 Đánh giá 87 4.3 Từ biểu diễn cặp câu trình 89 4.3.1 Phân nhóm cặp câu biểu diễn 89 4.3.2 Cơ chế tạo sinh 90 4.3.2.1 Phân tích cấu trúc biểu diễn diễn ngôn xác định mối quan hệ .90 4.3.2.2 Tạo sinh cấu trúc cú pháp câu tiếng Việt 91 4.3.2.3 Hoàn chỉnh câu tiếng Việt tạo sinh 92 4.3.3 Thử nghiệm đánh giá 93 4.3.3.1 Xây dựng ngữ liệu thử nghiệm .93 4.3.3.2 Thiết kế thử nghiệm 95 4.3.3.3 Đánh giá 97 4.4 Từ biểu diễn đoạn văn có nhiều hai câu 100 4.4.1 Cơ chế tạo sinh 100 4.4.1.1 Tạo sinh cấu trúc cú pháp câu tiếng Việt 100 4.4.1.2 Tạo sinh đoạn văn tóm tắt tiếng Việt 104 4.4.2 Thử nghiệm đánh giá 108 4.4.2.1 Thiết kế thử nghiệm 108 4.4.2.2 Kết Đánh giá 109 4.5 Kết chương 111 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 113 5.1 Kết luận 113 5.2 Hướng phát triển 113 TÀI LIỆU THAM KHẢO 115 6.1 DANH MỤC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 115 6.2 TÀI LIỆU THAM KHẢO 118 6.2.1 Tiếng Việt 118 6.2.2 Tiếng Anh 118 PHỤ LỤC 139 PL.1 Tạo sinh đoạn văn ngôn ngữ tự nhiên từ Biểu diễn ý nghĩa phẳng 139 PL.1.1 Cấu trúc biểu diễn ý nghĩa phẳng 139 PL.1.2 Cơ chế tạo sinh 141 PL.1.2.1 Phân tích biểu diễn ý nghĩa phẳng Xác định mối quan hệ 141 PL.1.2.2 Tập hợp ngữ liệu từ vựng cụm từ .143 PL.1.2.3 Tạo sinh cấu trúc cú pháp Hồn chỉnh đoạn văn ngơn ngữ tự nhiên 145 PL.1.3 Thử nghiệm đánh giá 151 PL.1.3.1 Thử nghiệm đánh giá với phần phát triển 152 PL.1.3.2 Thử nghiệm đánh giá với phần thử nghiệm E2E thực 152 PL.1.4 Thảo luận 155 Danh mục ký hiệu chữ viết tắt An-F-He-i Heuristic thứ i xác định yếu tố tiền ngữ cho đại từ hồi – Antecedent Finding Heuristic An-F-Gr-NP-i Chiến lược tìm kiếm yếu tố tiền ngữ thứ i cho yếu tố hồi đồ thị – Antecedent Finding Graph Noun Phrase CT-BD-NN-TT Cấu trúc biểu diễn ngữ nghĩa trừu tượng CT-BD-DN Cấu trúc biểu diễn diễn ngôn CT-BD-YN-P Cấu trúc biểu diễn ý nghĩa phẳng DRS Cấu trúc biểu diễn diễn ngôn – Discourse Representation Structure DRT Lý thuyết biểu diễn diễn ngôn – Discourse Representation Theory E2E Đầu cuối – End-to-End En-NL-Ref Văn ngôn ngữ tự nhiên tiếng Anh – English Natural Language Reference Flat MR Biểu diễn ý nghĩa phẳng – Flat Meaning Representation FP Ngữ đoạn chức – Function Phrase F-ConvRules Bộ quy tắc chuyển đổi câu tiếng Việt câu có cấu trúc đơn giản – Functional Conversion Rules F-Conv-i Quy tắc chuyển đổi thứ i từ câu tiếng Việt câu có cấu trúc đơn giản – Function Conversion GULP Lập trình logic hợp đồ thị – Graph Unification Logic Programming KN-CĐ-i Kinh nghiệm chuyển đổi thứ i từ câu tiếng Việt câu có cấu trúc đơn giản – Kinh nghiệm chuyển đổi NLG Tạo sinh ngôn ngữ tự nhiên – Natural Language Generation NP Ngữ đoạn danh từ – Noun Phrase OP Ngữ đoạn đối tượng – Object Phrase Pasp Vị từ ngữ nghĩa hành động / trạng thái / trình DRS – Semantic Predicate of Action / State / Process Po Vị từ ngữ nghĩa đối tượng DRS – Semantic Predicate of Object QH Yếu tố quan hệ QH-HQ Yếu tố quan hệ hệ QH-VT-i Dạng quan hệ vị từ thứ i S Câu – Sentence SBG Hệ thống tạo sinh dựa cấu trúc – Structure-based Generation TG-CĐ-i Quy tắc tinh giản chuyển đổi thứ i từ cấu trúc đồ thị DRS UBG Ngữ pháp dựa hợp – Unification-based Grammar VP Ngữ đoạn động từ – Verb Phrase X Dạng câu trình chuyển thái Y Dạng câu trình chuyển vị Z Dạng câu q trình tác động ↳ Nhóm q trình – QT-1 ↰ Nhóm q trình – QT-2 ⊗ Nhóm q trình – QT-3 án tạo dựng cấu trúc câu hạt nhân, biểu diễn chuỗi đầu cuối sau: {name[]} – {is} – {eatType[]} • (S-KS-1) Nhóm thứ hai gọi Thuộc tính, bao gồm hai dạng vị từ: priceRange[], customer rating[] Luận án định nghĩa mối quan hệ dạng vị từ với “ name[]”, theo nghĩa “priceRange[]” “customer rating[]” thuộc tính thực thể “name[]” Từ mối quan hệ này, luận án tạo dựng cấu trúc câu hạt nhân, biểu diễn chuỗi đầu cuối sau: {name[]} – {have} – {priceRange[]} (S-KS-2) {name[]} – {have} – {customer rating[]} (S-KS-3) • Nhóm thứ ba gọi Tính chất, bao gồm dạng vị từ: familyFriendly[] Luận án định nghĩa mối quan hệ dạng vị từ với “name[]”, theo nghĩa “familyFriendly[]” tính chất thực thể “name[]” Từ mối quan hệ này, luận án tạo dựng cấu trúc câu hạt nhân, biểu diễn chuỗi đầu cuối sau: {name[]} – {is} – {familyFriendly[]} • (S-KS-4) Nhóm thứ tư gọi Sản phẩm, bao gồm dạng vị từ: food[] Luận án định nghĩa mối quan hệ dạng vị từ với “name[]”, theo nghĩa thực thể “name[]” cung cấp sản phẩm “food[]” Từ mối quan hệ này, luận án tạo dựng cấu trúc câu hạt nhân, biểu diễn chuỗi đầu cuối sau: {name[]} – {provide} – {food[]} 142 (S-KS-5) • Nhóm thứ năm gọi Vị trí, bao gồm hai dạng vị từ: area[], near[] Luận án định nghĩa mối quan hệ dạng vị từ với “name[]”, cho biết vị trí thực thể “ name[]” Từ mối quan hệ này, luận án tạo dựng cấu trúc câu hạt nhân, biểu diễn chuỗi đầu cuối sau: {name[]} – {is at} – {area[]} (S-KS-6) {name[]} – {is near} – {near[]} (S-KS-7) Sự kết hợp cấu trúc cấu trúc cú pháp chuẩn sở: {name[]} {is} {eatType[]} {.} {name[]} {provide} {food[]} {.} {name[]} {customer {name[]} {have} rating[]} {is} {priceRange[]} {.} {name[]} {familyFriendly[]} {.} {is {.} {name[]} at} {have} {area[]} {name[]} {is {.} near} {near[]} {.} PL.1.2.2 Tập hợp ngữ liệu từ vựng cụm từ Một tác vụ thách thức hệ thống NLG lựa chọn từ vựng hay ngữ đoạn phù hợp cho giai đoạn thực bề mặt Luận án thực tác vụ hai bước thực thi sau Tại bước thứ nhất, luận án phân tích thuộc tính để xác định yếu tố: dạng; giá trị; cụm từ Như minh họa Hình PL.3, thuộc tính thuộc dạng (như food[]) nhận nhiều giá trị khác (như “ Italian”, “Chinese”), giá trị có nhiều cụm từ thực tương ứng 143 Hình PL.3 Mơ tả thuộc tính CT-BD-YN-P Tại bước thứ hai, cách để tập hợp cụm từ có nghĩa tương đương luận án sử dụng từ vựng yếu tố giá trị dạng làm từ khóa tập hợp từ tương đương nghĩa trang web từ điển đồng nghĩa (nguồn 12, 13 Bảng 0.4) Như ví dụ, xem xét vị từ “ food[]” mang giá trị “Italian”, luận án tập hợp từ tương đương nghĩa Hình 4.8 Luận án tiếp tục kết hợp với giá trị vị từ để tạo thành danh sách cụm từ: {Italian food; Italian cuisine; Italian meals,…} 144 Hình PL.4: Xác định từ tương đương nghĩa “food” Một cách khác để tập hợp cụm từ có nghĩa tương đương luận án áp dụng cấu trúc khác [Chomsky 2002] tập hợp từ ngữ liệu từ đám đông [Novikova cộng 2016, 2017a] Như ví dụ, xem xét vị từ “priceRange[]” mang giá trị “high”, luận án tập hợp danh sách cụm từ: {high price range; price range of high,…} PL.1.2.3 Tạo sinh cấu trúc cú pháp Hoàn chỉnh đoạn văn ngôn ngữ tự nhiên Trong phần này, luận án đề xuất chế tạo sinh cấu trúc cú pháp đoạn văn ngôn ngữ tự nhiên đầu hồn chỉnh đọan văn thơng qua giai đoạn thực hiện: 145 • Giai đoạn thứ Luận án tạo dựng cấu trúc cú pháp chuẩn trung gian phương pháp áp dụng quy tắc cải biến cho cấu trúc câu hạt nhân • Giai đoạn thứ hai Luận án tạo dựng cấu trúc cú pháp chuẩn cuối phương pháp trộn cấu trúc cú pháp chuẩn trung gian theo số quy tắc định nghĩa trước • Giai đoạn thứ ba Luận án đề xuất giải thuật tạo sinh cấu trúc cú pháp đoạn văn ngôn ngữ tự nhiên đầu • Giai đoạn thứ tư Luận án đề xuất giải thuật kết hợp cấu trúc cú pháp với từ vựng xây dựng để hoàn chỉnh đoạn văn ngôn ngữ tự nhiên đầu (1) Tạo dựng cấu trúc cú pháp chuẩn trung gian Luận án áp dụng quy tắc cải biến phù hợp: • Đầu tiên, luận án giữ tất cấu trúc câu hạt nhân trình bày bên • Áp dụng Quy tắc Tpass: Chuyển đổi sang cấu trúc câu thể bị động Ví dụ, cấu trúc (S-KS-5) chuyển đổi thành “ {food[]} – {is} – {provided} – {by} – {name[]}” • Áp dụng Quy tắc Tadj: Chuyển đổi cấu trúc có dạng “Noun – is – Adjective” thành cấu trúc có dạng “Adjective Noun” tính từ đóng vai trị bổ nghĩa Ví dụ, cấu trúc (S-KS-4) chuyển đổi thành “{familyFriendly[]} {name[]}” • Áp dụng Quy tắc Tnominalize: Chuyển đổi cấu trúc câu sở hữu sang dạng cấu trúc danh ngữ Ví dụ, cấu trúc (S-KS-2) chuyển đổi thành “{priceRange[]} – {of} – {name[]}” hay “{priceRange[]} – {name[]}” hay “{name[]} {priceRange[]}” 146 – {’s} – • Áp dụng Quy tắc chuyển đổi Topset: Chuyển đổi cấu trúc có dạng “X – Va – Comp – NP”, “V → Va + Comp” Quy tắc áp dụng sau hợp nhiều dạng cấu trúc bên câu hạt nhân hay sau áp dụng quy tắc Tpass Ví dụ, luận án hợp cấu trúc (S-KS-5) (S-KS6) trở thành cấu trúc “{name[]} – {provide} – {at} – {area[]} – {food[]}” Dựa theo [Chomsky 2002], cấu trúc câu hạt nhân Cấu trúc chuyển đổi thành “ {name[]} – {provide} – {food[]} – {at} – {area[]}” (2) Tạo dựng cấu trúc cú pháp chuẩn cuối Luận án thực thi giai đoạn với hai hành động Hành động thứ tạo dựng cấu trúc cú pháp câu phức Luận án áp dụng ý tưởng chuyển đổi cấu trúc để tạo dựng cấu trúc phức tạp Luận án tiếp tục kết hợp cấu trúc theo cách khác để tạo dựng cấu trúc cú pháp chuẩn cuối Hành động thứ hai luận án dự đoán cấu trúc cú pháp chuẩn sử dụng thông thường dựa theo ngữ liệu huấn luyện Thực hành động thứ nhất, luận án tạo dựng dạng khác cấu trúc cú pháp chuẩn cuối cách trộn lẫn hành động thứ cấp chính: (a) trộn cấu trúc trình bày bên trên; (b) thay đổi vị trí cấu trúc câu cấu trúc cú pháp phần tử cấu trúc câu dựa theo vai trò ngữ pháp chúng; (c) áp dụng ý tưởng quy tắc chuyển đổi bên Dưới dạng cấu trúc cấu trúc cú pháp chuẩn cuối luận án: • Những cấu trúc dạng thực thể giữ vai trò chủ thể nhiều tính chất thuộc tính giữ vai trị bổ nghĩa Ví dụ, luận án có cấu trúc cú pháp chuẩn “{name[]} {is} {priceRange[]} {familyFriendly[]} {food[]} {eatType[]} {.} {name[]} {is at} {area[]} {.} {name[]} {is near} {near[]} {.} {name[]} {have} {customer rating[]}” Một cấu trúc khác thể 147 loại trần thuật “{there is} {priceRange[]} {,} {customer rating[]} {and} {familyFriendly[]} {eatType[]} {is} {name[]} {provide} food[]} {.} {name[]} {is at} {area[]} {and} {near} {near[]} {.}” • Những cấu trúc dạng chủ ngữ câu có nhiều vị ngữ Ví dụ, luận án có cấu trúc cú pháp chuẩn “ {name[]} {is} {eatType[]} {,} {priceRange[]} {provide} {.} {name[]} {food[]} {is at} {and} {have} {area[]} {and} {near} {near[]} {.} {name[]} {have} {customer rating[]} {and} {is} {familyFriendly[]} {.}” • Cấu trúc sử dụng mệnh đề quan hệ Ví dụ, luận án có cấu trúc cú pháp chuẩn “{there is} {familyFriendly[]} {eatType[]} {is} {name[]} {that} {priceRange[]} {name[]} {is {provide} {and} at} {have} {area[]} {food[]} {customer {.} {which} {have} rating[]} {name[]} {is {.} near} {near[]} {.}” Hành động thứ hai thực tế tiền xử lý ngữ liệu huấn luyện cung cấp E2E NLG Challenge 20176 Luận án chuyển đổi ngược tất cấu trúc cú pháp thực tế ngữ liệu huấn luyện chuỗi có dạng cấu trúc tương ứng Những chuỗi chứa đựng (a) dạng vị từ không chứa đựng giá trị (b) phần tử mà tương tự phần tử cấu trúc cú pháp chuẩn Tùy thuộc vào xuất hiệu dạng vị từ mục từ mối quan hệ chúng, luận án xác định chuỗi dạng cấu trúc thường sử dụng thêm vào danh sách Ví dụ, xem xét CT-BD-YN-P “ name[The Cambridge Blue], eatType[pub], food[English], priceRange[cheap], near[Café Brazil]” Một chuỗi dạng cấu trúc mục từ “{name[]} {is} {a food[]} {eatType[]} near[]} {and} {name[]} {is} {priceRange[]} {.}” 148 {near Luận án tiếp tục kiểm tra mức độ tương đồng cấu trúc cú pháp chuẩn chuỗi dạng cấu trúc để dự đoán cấu trúc cú pháp chuẩn áp dụng thông thường (3) Tạo sinh cấu trúc cú pháp đoạn văn ngôn ngữ tự nhiên đầu Bước thứ giai đoạn Tạo sinh phân tích CT-BD-YN-P đầu vào để xác định thơng tin chính: CT-BD-YN-P dạng rút gọn (chứa đựng thuộc tính mà khơng có giá trị tương ứng); giá trị tương ứng thuộc tính Số lượng khác thuộc tính, dạng giá trị tương ứng ba yếu tố ảnh hưởng đến việc thực tạo sinh cấu trúc cú pháp đầu Ví dụ PL.7 với CT-BD-YN-P “name[Aromi], eatType[coffee shop], food[English], customer rating[5 out of 5], area[riverside], familyFriendly[yes]” chứa đựng dạng vị từ với giá trị tương ứng chúng Dạng rút gọn CT-BD-YN-P “ name[], eatType[], food[], customer rating[], area[], familyFriendly[]” Bước thứ hai giai đoạn Tạo sinh tạo sinh cấu trúc cú pháp đầu luận án thực thi bước qua hai bước thứ cấp (Giải thuật PL.1): • Bước thứ cấp thứ nhất, luận án kiểm tra cấu trúc cú pháp chuẩn mà phù hợp với dạng rút gọn mục từ đầu vào Trên thực tế, tất cấu trúc cú pháp chuẩn chứa đựng đầy đủ dạng thuộc tính thỏa mãn yêu cầu ngữ pháp Tuy nhiên, sau loại bỏ phần tử chứa đựng dạng thuộc tính khơng xuất CT-BD-YN-P đầu vào cấu trúc chuẩn, có số cấu trúc cú pháp chuẩn dạng rút gọn có ý nghĩa, theo nghĩa có cấu trúc câu ngữ pháp dựa theo [Chomsky 2002; Halliday Matthiessen 2004] • Bước thứ cấp thứ hai, luận án dựa giá trị tương ứng vị từ có xuất CT-BD-YN-P đầu vào để tạo sinh cấu trúc cú pháp đầu phù hợp Đầu tiên, luận án đề xuất quy tắc cho việc kiểm tra giá trị thuộc tính theo thứ tự: familyFriendly[] → customer 149 rating[] → food[] → priceRange[] Với dạng thuộc tính “eatType[]” / “area[]” / “near[]”, luận án kiểm tra xem thuộc tính có xuất hay khơng Tiếp theo, có thực thể “name[]”, luận án sử dụng đại từ “it” [Halliday Matthiessen 2004] yếu tố hồi để liên hệ đến thực thể (là tác vụ thứ cấp môđun Vi chuẩn bị dựa theo kiến trúc tổng quát [Reiter Dale 1997a, 1997b]) Giải thuật PL.1 Tạo sinh cấu trúc cú pháp đầu Đầu vào Danh sách thuộc tính cấu trúc cú pháp chuẩn rút gọn Đầu Cấu trúc cú pháp đầu 1: check (¬∃familyFriendly[]) || ((∃familyFriendly[]) && (value of familyFriendly[])) 2: check (¬∃customer rating[]) || ((∃customer rating[]) && (value of customer rating[])) 3: 4: 5: check (¬∃food[]) || ((∃food[]) && (value of food[])) check (∃eatType[]) ∥ (∃area[]) ∥ (∃near[]) output ← select_from_list_of_reduced_standard_NL _Reference_structures(); 6: 7: 8: end check end check end check 9: end check Như ví dụ, áp dụng Giải thuật PL.1, CT-BD-YN-P Ví dụ PL.7 có cấu trúc cú pháp đầu “{name[]} {is} {a familyFriendly[] eatType[]} {serving} {food[]} {in the area[]} {.} {It} {has} {customer rating[]} {.}” Giai đoạn Hoàn chỉnh thực với giải thuật sau: Giải thuật PL.2 Hoàn chỉnh cấu trúc cú pháp cuối Đầu vào Su = Danh sách phần tử cấu trúc cú pháp 150 Đầu Se = Cấu trúc cú pháp cuối 1: for Ei ∈ Su 2: if (∃ thuộc tính Pj | Pj ∈ Ei) while (Pj ∈ Ei) 3: 4: Pj ← lựa_chọn_từ_Collector(Pj); 5: 6: end while end if 7: end for Như ví dụ, áp dụng Giải thuật PL.2, cấu trúc cú pháp cuối cho cấu trúc “Aromi is a family friendly coffee shop serving English food in the riverside area It has a customer rating of out of 5.” PL.1.3 Thử nghiệm đánh giá Để đánh giá hiệu chế tạo sinh cấu trúc cú pháp từ CT-BD-YN-P hệ thống tạo sinh dựa cấu trúc (“Structure-based Generation” – SBG) kiểm tra xem có thỏa mãn yêu cầu thi, luận án thử nghiệm hai phần ngữ liệu đám đông: phần phát triển phần thử nghiệm e2e thực Với phần phát triển, luận án áp dụng đánh giá tự động Với phần thử nghiệm e2e cuối cùng, Ban tổ chức đánh giá hệ thống luận án hệ thống khác theo hai bước: (a) đánh giá tự động; (b) hệ thống lựa chọn từ bước thứ đánh giá người Dựa theo [Novikova cộng 2016, 2017a] E2E NLG Challenge 2017 6, để đo lường mức điểm cho đánh giá tự động, Ban tổ chức sử dụng độ đo 7: BLEU [Papineni cộng 2002], NIST [Doddington 2002], METEOR [Lavie Agarwal 2007], ROUGE-L [Lin 2004a, 2004b], CIDEr [Vedantam cộng 2015] Để so sánh, để thiết lập mộ hệ thống sở ngữ liệu tác vụ, Ban tổ chức lựa chọn hệ thống Tgen8 [Dusek Jurcicek 2016a], hệ thống http://www.macs.hw.ac.uk/InteractionLab/E2E/ https://github.com/tuetschek/e2e-metrics https://github.com/UFAL-DSG/tgen 151 hướng liệu E2E gần Tgen dựa mô hình sequence-to-sequence (seq2seq) với ý [Bahdanau cộng 2015] PL.1.3.1 Thử nghiệm đánh giá với phần phát triển Phần phát triển xây dựng cho thử nghiệm sơ Phần bao gồm 547 CT-BD-YN-P dạng nguyên (chứa đựng thuộc tính giá trị tương ứng) hay 25 CT-BD-YN-P dạng rút gọn (chứa đựng thuộc tính mà khơng có giá trị tương ứng) Từng CT-BD-YN-P chứa đựng số lượng thuộc tính khác (từ đến thuộc tính) Với phần phát triển, luận án áp dụng đánh giá tự động Những kết thử nghiệm trình bày Bảng PL.5 Ở thấy, với ngữ liệu phát triển, vượt qua hệ thống sở số ROUGE-L CIDEr Tuy nhiên, số BLEU NIST SBG thấp hệ thống sở Bảng PL.2 Kết đánh giá tự động thử nghiệm SBG phần phát triển Độ đo SBG Hệ thống sở BLEU 0.6828 0.6904 NIST 8.3052 8.4529 ROUGE-L 0.730 0.726 CIDEr 2.465 2.403 PL.1.3.2 Thử nghiệm đánh giá với phần thử nghiệm E2E thực Phần thử nghiệm e2e thực bao gồm 630 CT-BD-YN-P dạng nguyên (chứa đựng thuộc tính với giá trị tương ứng) Từng CT-BD-YN-P chứa đựng số lượng thuộc tính khác (từ đến vị từ) Với phần này, Ban tổ chức thử nghiệm đánh giá theo hai bước: đánh giá tự động đánh giá người (kết tồn tìm thấy E2E NLG Challenge 20176) Tại bước đánh giá tự động, kết điểm số so sánh SBG với hệ thống sở trình bày Bảng PL.6 Kết toàn so sánh với 55 hệ thống dự thi khác tìm thấy E2E NLG Challenge 20176 152 Bảng PL.3 Kết đánh giá tự động thử nghiệm SBG phần thử nghiệm E2E thực Độ đo SBG Hệ thống sở BLEU 0.599 0.6593 NIST 7.9277 8.6094 METEOR 0.4346 0.4483 ROUGE-L 0.6634 0.685 CIDEr 2.0783 2.2338 Tại bước đánh giá người, Ban tổ chức so sánh 19 hệ thống (từ 60 hệ thống dự thi) thuộc 16 tổ chức cộng với hệ thống sở sử dụng tảng CrowdFlower Có hai dạng xếp hạng: (i) Tính chất lượng (“Quality”) định nghĩa chất lượng tổng thể lời nói, tính xác ngữ pháp, tính lưu lốt, tính đầy đủ yếu tố quan trọng khác; (ii) Tính tự nhiên (“Naturalness”) định nghĩa mức độ mà lời nói tạo sinh người ngữ Dựa theo tổng hợp E2E NLG Challenge 2017 6, dạng xếp hạng “quality” coi thước đo hệ thống NLG thực tế Để đánh giá, với CT-BD-YN-P, Ban tổ chức trình bày cho công nhân đám đông đầu lựa chọn ngẫu nhiên hệ thống khác đề nghị xếp hạng từ tốt đến tệ Một văn chuẩn tạo người cung cấp để so sánh Ban tổ chức sử dụng thuật toán TrueSkill [Sakaguchi cộng 2014] để tính điểm Để tính điểm chất lượng, thuật toán thực 1260 so sánh cặp cho hệ thống (trên tổng cộng 25200 so sánh) Để tính điểm tự nhiên, thuật toán thực 1890 so sánh cặp cho hệ thống (trên tổng cộng 37800 so sánh) Với điểm số TrueSkill tương ứng cuối cùng, 20 hệ thống xếp theo phạm vi gom nhóm thành cụm từ tốt đến tệ Những hệ thống cụm xem thể hiệu tương đương chia sẻ vị trí Vì có hai dạng xếp hạng Tính chất lượng Tính tự nhiên, có hai cách gom nhóm theo dạng, có nghĩa hệ thống nằm cụm 153 theo cách gom nhóm dựa Tính chất lượng nằm cụm khác theo cách gom nhóm dựa Tính tự nhiên Dựa theo kết cuối cùng, SBG nằm cụm hai cách gom nhóm, có nghĩa SBG tốt thứ hai (có vị trí với hệ thống khác cụm 2) dựa điểm số Tính chất lượng Tính tự nhiên Bảng PL.7 PL.8 thể điểm số Tính chất lượng Tính tự nhiên hệ thống tốt cụm, hệ thống sở SBG Bảng PL.4 Điểm số “Tính chất lượng” hệ thống cao cụm, hệ thống sở SBG Cụm / Điểm Phạm vi Hệ thống Vị trí TrueSkill 0.300 (1.0, 1.0) – 0.228 (2.0, 4.0) UKP-TUDA – ukp-tuda 0.184 (3.0, 5.0) SBG System – test_e2e_result_2 final_TSV 0.184 (3.0, 6.0) BASELINE – baseline -0.078 (15.0, 16.0) Thomson Reuters NLG – Primary_2_test_train_dev -0.152 (17.0, 19.0) – primary_submission- temperature_ 1.1 -0.426 (20.0, 21.0) Chen Shuang – Primary_NonAbstract-beam1 Bảng PL.5 Điểm số “Tính tự nhiên” hệ thống cao cụm, hệ thống sở SBG Cụm / Điểm Phạm vi Hệ thống Vị trí TrueSkill 0.211 (1.0, 1.0) Sheffield NLP – sheffield_primarySystem2_var1 0.171 (2.0, 3.0) – 0.101 (4.0, 8.0) BASELINE – baseline 0.091 (5.0, 8.0) SBG System – test_e2e_result_2 final_TSV -0.053 (13.0, 16.0) Thomson Reuters NLG – Primary_1_submission_6_ beam 154 -0.144 (18.0, 19.0) FORGe – E2E_UPF_1 -0.243 (20.0, 21.0) Thomson Reuters NLG – Primary_2_test_train_dev PL.1.4 Thảo luận Kết đánh giá người (Bảng PL.7 PL.8) chứng minh giải pháp dựa ngôn ngữ học luận án, theo đuổi hướng tiếp cận truyền thống xây dựng hệ thống NLG [Reiter Dale 1997a, 1997b], tạo sinh văn có chất lượng tốt từ biểu diễn ngữ nghĩa phần phát triển thử nghiệm e2e thực Nguyên nhân luận án áp dụng kiến thức ngôn ngữ học phù hợp Ngữ pháp chức [Halliday Matthiessen 2004], Ngữ pháp cải biến – tạo sinh [Chomsky 2002] ý tưởng việc tạo sinh câu tương đương nghĩa [Trần 2011] Bằng cách làm này, luận án tạo dựng cấu trúc cú pháp chuẩn cho CT-BD-YN-P thuộc miền áp dụng khách sạn từ ngữ liệu đám đông Kết hợp với cụm từ vựng tương ứng tiến trình thực bề mặt, SBG tạo sinh văn đầu dài, ngữ pháp, ngữ nghĩa có nhiều câu, minh họa Ví dụ PL.7 “Aromi is a family friendly coffee shop serving English food in the riverside area It has a customer rating of out of 5.” Phân tích sâu kết thử nghiệm, luận án nhận thấy có số điểm tồn giải thích điểm chất lượng SBG thấp so với điểm chất lượng hai hệ thống dự thi cao Thứ nhất, với ý tưởng, người tạo sinh đoạn văn khác nhau, chứa đựng số lượng câu khác với dạng cấu trúc khác Những trường hợp xảy tùy thuộc vào ngữ cảnh giao tiếp thực tế trạng thái tâm lý người ngữ cảnh Những yếu tố ràng buộc đề cập đến [Reiter Dale 1997a, 1997b] nói thách thức mà hệ thống NLG phải đối mặt Tuy nhiên, luận án xem xét đến khía cạnh cú pháp, ngữ nghĩa ngữ dụng mà đề cập lý thuyết ngôn ngữ học 155 [Chomsky 2002; Halliday Matthiessen 2004] Thứ hai, luận án tạo dựng số lượng lớn cấu trúc chuẩn áp dụng, chế để tạo sinh cấu trúc phù hợp cho CT-BD-YN-P cụ thể trả cấu trúc không thực sử dụng thông thường người nói tiếng Anh ngữ 156 ... 2014] Dựa cách thức xây dựng tạo sinh văn tóm tắt, lĩnh vực tóm tắt văn phân loại thành hướng tiếp cận: 20 Hình 1.1 Tổng quan hướng tiếp cận lĩnh vực tóm tắt văn 1.1 Hướng tiếp cận tóm tắt dựa. ..ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN TRẦN TRUNG TĨM TẮT ĐOẠN VĂN BẢN TIẾNG VIỆT DỰA TRÊN CÁCH TIẾP CẬN TẠO SINH Chuyên ngành: Khoa học máy tính Mã số: 62 48 01 01 LUẬN ÁN TIẾN... pháp tạo sinh đoạn văn tóm tắt dựa CT-BDNN-TT 12 Phạm vi đối tượng nghiên cứu Phạm vi nghiên cứu Đề xuất mơ hình giải pháp tạo sinh đoạn văn tóm tắt nhằm tóm tắt nội dung thơng tin đoạn văn tiếng