Nén câu tiếng việt hướng tóm lược và dựa trên xóa từ

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Nén câu tiếng Việt Hướng Tóm lược dựa Xoá Từ NGUYỄN THỊ TRANG trangnguyen.hust117@gmail.com Ngành Khoa học Dữ liệu Giảng viên hướng dẫn: TS Nguyễn Kiêm Hiếu Viện: Công nghệ Thông tin Truyền thông HÀ NỘI, 10/2020 Chữ ký GVHD CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn: Nguyễn Thị Trang Đề tài luận văn: Nén câu Tiếng Việt hướng Tóm lược dựa Xoá Từ Chuyên ngành: KHDL Mã số SV: CB190202 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 31/10/2020 với nội dung sau: STT Yêu cầu hội đồng Nội dung chỉnh sửa, bổ sung - Ở đầu chương bổ sung thêm nội dung tóm tắt, cụ thể trang 9, trang 20 trang 39 - Bổ sung kiến thức học sâu chương 2, thêm mục 2.1 Nói rõ thuật ngữ liên quan đến phần xây dựng liệu, đưa ví dụ cụ thể Thông tin thay đổi mục 3.1 mục 3.2.2 Bổ sung tóm tắt nội dung đầu chương nhằm mang nhìn tổng quan cho người đọc Bổ sung phần kiến thức cho phần mơ hình Làm rõ thuật ngữ, đưa ví dụ rõ ràng - - Chỉnh sửa bổ sung số nội dung khác luận văn thay đổi đại từ nhân xưng, bổ sung thông tin làm rõ vai trị đóng góp tác giả Thay đại từ nhân xưng “em” thành “tác giả” toàn luận văn Viết lại phần để làm rõ đóng góp tác giả Bổ sung bảng giải thích thuật ngữ viết tắt Ngày Giáo viên hướng dẫn tháng năm Tác giả luận văn TS Nguyễn Kiêm Hiếu Nguyễn Thị Trang CHỦ TỊCH HỘI ĐỒNG PGS.TS Lê Thanh Hương ĐỀ TÀI LUẬN VĂN Mã đề tài: 2018BHTTT-CLC01 Theo QĐ số 24/QĐ-ĐHBK-ĐT-SĐH Hiệu trưởng Trường Đại học Bách Khoa Hà Nội ký ngày 27 tháng năm 2020 Họ tên học viên: Nguyễn Thị Trang SHHV: CB190202 Chuyên ngành: Khoa học liệu Lớp: 19BKHDL Người hướng dẫn: TS Nguyễn Kiêm Hiếu Đơn vị: viện Công nghệ thông tin truyền thông, đại học Bách Khoa Hà Nội Tên đề tài (tiếng Việt): Nén câu tiếng Việt hướng Tóm lược dựa Xoá từ Tên đề tài (tiếng Anh): Abstractive and Deletion-based approaches for Vietnamese sentence compression Giáo viên hướng dẫn Ký ghi rõ họ tên LỜI CẢM ƠN Lời đầu tiên, xin trân trọng cảm ơn Thầy hướng dẫn TS Nguyễn Kiêm Hiếu, thầy tận tình hướng dẫn tơi q trình học tập việc hoàn thành luận văn Xin chân thành cảm ơn Thầy, Cô thuộc môn hệ thống thông tin, khoa Công Nghệ Thông Tin Truyền thông, trường đại học Bách Khoa Hà Nội tận tình giảng dạy cho tơi thời gian học tập Xin cảm ơn team Data Minning công ty VCCorp hỗ trợ nhiều liệu, sở vật chất để hoàn thành nghiên cứu Do giới hạn kiến thức khả thân cịn nhiều thiếu sót hạn chế, kính mong dẫn đóng góp Thầy, Cơ để luận văn tơi hồn thiện Xin chân thành cảm ơn! TÓM TẮT LUẬN VĂN Tóm tắt văn tốn quan trọng lĩnh vực xử lý ngôn ngữ tự nhiên Trong nén câu tốn sở Bài tốn nén câu ứng dụng trực tiếp sử dụng hiệu module tóm tắt văn hướng trích rút để cải thiện chất lượng tóm tắt Luận văn tơi tập trung vào toán nén câu Tiếng Việt Với toán này, luận văn tập trung khai thác theo hai hướng tiếp cận phổ biến phương pháp tóm lược dựa xố từ Ở hai hướng tiếp cận, xây dựng tập liệu huấn luyện cách tự động, dựa kĩ thuật thu thập liệu, phân tích nội dung mức nơng, phân tích cú pháp Tiếp theo, tơi có thử nghiệm mơ hình seq2seq cho hướng tiếp cận tóm lược, có hiệu định Với hướng xố từ, tơi áp dụng mơ hình Bi-encoder-decoder LSTM để giải cho việc lựa chọn từ bị loại bỏ Để đánh giá kết quả, xây dựng thủ công tập kiểm thử thực đánh giá định lượng cách tự động đánh giá định tính cách thủ cơng Ở hai phương pháp, kết thực nghiệm sinh nhiều tóm tắt câu với chất lượng tốt, đảm bảo nội dung câu gốc Trong q trình thực luận văn hỗ trợ đội liệu công ty VCCorp phần việc sau: Thu nhập liệu raw, đánh giá xây dựng tập liệu thử nghiệm cho hướng Tóm lược hướng Xố từ MỤC LỤC CHƯƠNG 1: GIỚI THIỆU CHUNG 1.1 Giới thiệu toán tóm tắt văn 1.2 Hướng tiếp cận cho tốn tóm tắt văn 1.2.1 Phương pháp tiếp cận hướng trích rút 1.2.2 Phương pháp tiếp cận hướng trừu tượng 1.3 Bài tốn tóm tắt mức câu nghiên cứu liên quan CHƯƠNG 2: CÁC MƠ HÌNH CHO BÀI TỐN NÉN CÂU 2.1 Học sâu 2.1.1 RNN (Recurrent Neural Network) 2.1.2 LSTM (Long Short-Term Memory) 2.1.3 GRU (Gated recurrent units) 11 2.2 Cách tiếp cận hướng tóm lược 12 2.2.1 Mơ hình Sequence to sequence 12 2.2.2 Mô hình seq2seq Attention 14 2.2.3 Mơ hình Pointer-generator network 15 2.2.4 Mơ hình Pointer-generator chế Coverage 16 2.3 Cách tiếp cận dựa xoá từ 16 2.3.1 Bi-encoder decoder LSTM 17 CHƯƠNG 3: XÂY DỰNG DỮ LIỆU TỰ ĐỘNG 19 3.1 Xây dựng liệu cho cách tiếp cận hướng tóm lược 19 3.2 Xây dựng liệu dựa theo hướng tiếp cận xoá từ 20 3.2.1 Các kiến thức ngôn ngữ sở 20 3.2.2 Phương pháp xây dựng 31 3.2.3 Áp dụng cho xây dựng liệu tiếng Việt 35 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 37 4.1 Thực nghiệm đánh giá cho hướng tiếp cận tóm lược 37 4.1.1 Bộ liệu 37 4.1.2 Tham số 37 4.1.3 Đánh giá tự động 38 4.1.4 Đánh giá thủ công 38 4.1.5 Kết đánh giá 39 4.2 Thực nghiệm đánh giá hướng xoá từ 41 4.2.1 Bộ liệu 41 4.2.2 Tham số 41 4.2.3 Đánh giá tự động 41 4.2.4 Đánh giá thủ công 42 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 44 References 46 DANH MỤC HÌNH VẼ Hình 1: Minh hoạ mạng RNN Hình Minh hoạ mạng RNN Hình Minh hoạ mạng LSTM 10 Hình Các kí hiệu mạng LSTM 10 Hình Tầng cổng quên LSTM 10 Hình Tầng cổng vào LSTM 11 Hình Tầng cổng mạng LSTM 11 Hình Minh hoạ GRU 12 Hình Kiến trúc mơ hình seq2seq 13 Hình 10 Mơ hình seq2seq attention .14 Hình 11 Mơ hình Pointer-Generator .15 Hình 12 Mơ hình Bi-encoder-decoder LSTM 17 Hình 13 Ví dụ Headline Sapo báo tin tức 19 Hình 14 Ví dụ cú pháp phụ thuộc 23 Hình 15 Minh hoạ tính chất cú pháp phụ thuộc 24 Hình 16 Cây cú pháp phụ thuộc có tính chất Projective 25 Hình 17 cú pháp phụ thuộc khơng có tính chất Projective .25 Hình 18 Ứng dụng trích rút quan hệ .25 Hình 19 Ứng dụng dịch máy 26 Hình 20 Ví dụ chuyển đổi cú pháp phụ thuộc 32 Hình 21 Cây cú pháp phụ thuộc sau Matching 34 Hình 22 Một số ví dụ liệu hướng xố từ 36 Hình 23 Một số ví dụ nén câu hướng tóm lược .41 Hình 24 Một số ví dụ nén câu hướng xố từ 43 DANH MỤC BẢNG Bảng Các nhãn từ loại 22 Bảng Quan hệ phụ thuộc Nominals 27 Bảng Quan hệ phụ thuộc Clause 28 Bảng Quan hệ phụ thuộc Modifier word 28 Bảng Quan hệ phụ thuộc Function word 28 Bảng Quan hệ phụ thuộc Coordination 29 Bảng Các quan hệ phụ thuộc khác 29 Bảng Tập liệu hướng tóm lược 37 Bảng Đánh giá Rouge hướng tóm lược 39 Bảng 10 Đánh giá thủ công hướng tóm lược 40 Bảng 11 Thơng tin liệu hướng xố từ 41 Bảng 12 Kết đánh giá tự động hướng xoá từ 42 Bảng 13 Kết đánh giá thủ công hướng xoá từ 42 DANH MỤC TỪ VIẾT TẮT Từ LSTM Bi-LSTM Seq2Seq RNN GRU Pointer Mô tả Long-Short Term Memory Bidirectional Long-Short Term Memory Sequence to Sequence Recurrent Neural Network Gated recurrent units Pointer generator network Node đánh dấu H có chứa từ killed killing ( dựa luật lemma ) Trong vài trường hợp, có nhiều khả bắt Ví dụ, ta có câu S Barack Obama said he will attend G20 , H có đề cập tới thực thể Obama Ở hai Obama he đánh dấu T Khi tất node T bắt gặp với từ thực thể H, tối thiểu bao gồm nút tìm thấy cho số lần từ thực thể xuất H với số lần xuất T Vì H đề cập thực thể Obama lần, sau Barack Obama he phải bao phủ Cây nhỏ tương ứng với extractive headline, H*, từ H* sinh thứ tự S Cuối ta so sánh độ dài H* H Nếu H* dài H, cặp (H, S) loại bỏ (tỉ lệ max 1.5) Sau hình ảnh mơ tả kết q trình Matching, H là: British soldier killed in Afghanistan Hình 21 Cây cú pháp phụ thuộc sau Matching Các lemmas british, soldier, kill, afghanistan H bắt với node British, a soldier, was killed, in Afghanistan T Node (in a blast) giữ, cầu nối nút (was killed) (in Afghanistan) Kết thúc trình ta thu kết qủa cuối (S, H, H*, T).Như từ ví dụ cho Tiếng Anh, Tiếng Việt phần này, phân giải đồng tham chiếu S phải giải phần tiền xử lý, để điều kiện thiết yếu cho việc xử lý match thực thể H với T d.Tổng kết Như để sinh liệu tự động cần nhiệm vụ sau: a) Khảo sát chuyển đổi cú pháp với lượng câu cụ thể tay từ rút luật cụ thể, chuẩn cho Tiếng Việt b) Tìm hiểu vai trị, cấu trúc từ loại câu Tiếng Việt Từ đưa lọc phù hợp để lấy cặp H, S có cú pháp chuẩn độ thông tin cao c) Giải vấn đề phân giải đồng tham chiếu S 34 3.2.3 Áp dụng cho xây dựng liệu tiếng Việt Thu thập liệu Tương tự phần I thu thập liệu tiếng Việt cho hướng tóm lược, sau qua bước lọc đơn giản liệu raw đưa vào đưa vào module kết hợp nhiệm vụ chuyển đổi cú pháp, Filter, Matching Extraction Chuyển đổi cú pháp phụ thuộc Về ngữ pháp tiếng Việt tiếng Anh có nhiều điểm khác Tiếng Việt khơng có tượng biến đổi từ chia (lemmas) phần em có thực bước sau: a Khảo sát tính khả thi phương pháp deletion based cho khoảng 200 cặp sapo headline b Làm thủ công bước chuyển đổi cú pháp cho 200 cặp câu để tìm quan hệ cú pháp phù hợp c Thống kê đưa luật chuyển đổi cú pháp cho tiếng Việt Sau khảo sát thống kê đưa số luật sau: (1) Tạo nút giả (dummy root) liên kết với động từ câu từ mang nhãn (VA, VB) (2) Các quan hệ bảng sau bị “collapse" - Quan hệ neg Modifier words, tập quan hệ {aux, det, cop, dobj, cl, case_colon_pfn, nummod} Function Words - Hai động từ liền mang quan hệ xcomp - Tính từ(JJ) danh từ(NN) liên tiếp có quan hệ amod - Một số quan hệ kết nối mark, punt - Đặc biệt cần chuyển vị trí cho conjunction word - cc Vd "và" Filter Như trình bày phần I, headline có cấu trúc ngữ pháp thường khác với câu thơng thường ví dụ như: câu thường bắt đầu động từ, headline cụm danh từ, không mang cấu trúc cụm C-V , trường hợp headline cần gán nhãn từ loại, phân tích cú pháp phụ thuộc để nhận biết loại bỏ Sau trường hợp em đưa để áp dụng cho Tiếng Việt: • H câu hỏi • H bắt đầu động từ 35 • H khơng có động từ ( trường hợp đặc biệt câu có root danh từ câu phải có từ “là" có quan hệ “cop") • H, S khơng dạng chủ động bị động • H S có độ dài q ngắn ? ( từ ) • Các từ cụm từ noun, verb, adj, adv từ H khơng tìm thấy S ? • noun, verb, adj, adv từ H tìm thấy S có khác thứ tự nhau? Matching Sau qua bước Filter chuyển đổi cú pháp phụ thuộc, bước Matching (S H) thông qua T, để đưa câu rút gọn H* sapo hợp lý Ở đây, S sau chuyển đổi biểu đồ cú pháp phụ thuộc ( thành phần thiếu gom vào node giống nhau), thêm thông tin trùng với H match với T, tìm nhỏ chứa node Trong phần cần giải vấn đề đồng tham chiếu S H Tơi có sử dụng Coreference-resolution (phân giải đồng tham chiếu) công ty VCCorp phát triển để thực thí nghiệm Trong q trình thực hiện, tơi có q trình đánh giá 200 câu, độ xác câu sau nén đạt 85 % Đây liệu cuối thu để tiến hành cho vào mơ hình nén câu qua mạng LSTM Sau cho 2,6 triệu cặp câu raw vào hệ thống lọc sinh liệu, thu 270K cặp câu (S, H*) Tiếp đến, chọn 1000 câu để gán nhãn lại thủ công Hình 22 số ví dụ liệu tơi xây dựng Hình 22 Một số ví dụ liệu hướng xố từ Như tơi trình bày xong hai phương pháp xây dựng liệu cho hai hướng tiếp cận tóm lược xố từ Tiếp đến tơi trình bày thực nghiệm đánh giá chương 36 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ Tại chương này, trình bày hai thực nghiệm theo hai hướng tiếp cận riêng biệt hướng tiếp cận Tóm lược hướng tiếp cận Xoá từ Ở hướng tiếp cận, thực nghiệm nêu theo sau: Thông tin liệu, Tham số mơ hình cuối kết qủa đánh giá theo tự động đánh giá thủ công 4.1 Thực nghiệm đánh giá cho hướng tiếp cận tóm lược 4.1.1 Bộ liệu Như trình bày chương 3, phần I bảng 1, liệu trainning gồm 890K cặp câu Sapo headline Tiếp theo tập dev vào khoảng 110K cặp câu Riêng tập Test kiểm tra thủ cơng lại, đội liệu có kiến thức tốt ngôn ngữ công ty VCCorp thực Tổng số cặp câu đưa kiểm tra 13K câu, thu 8K chuẩn Thông tin liệu chi tiết đưa bảng Tập liệu Train Dev Test Số lượng (cặp câu) 890 725 111 340 8776 Bảng Tập liệu hướng tóm lược 4.1.2 Tham số Để đánh giá kết trình nghiên cứu, tơi tiến hành thực nghiệm tốn tóm tắt câu theo ba mơ hình trình bày mơ hình seq2seq attention, pointer generator network, pointer generator network chế coverage Phần mơ tả tham số q trình thí nghiệm Ở tất thí nghiệm, mơ hình đề có số chiều không gian ẩn 256 số chiều wordembeding 128 Tôi sử dụng tối ưu Adagrad với batch-size 32 Trong q trình training mơ hình vanilla seq2seq mơ hình Pointer, tỉ lệ học khởi tạo giá trị 0,15 giá trị accumulator khởi tạo từ 0,1 Khi chế Coverage đưa vào mơ hình Pointer, tơi thực nghiệm theo hai cách Ở phiên thứ nhất, thực nghiệm theo [10], học mơ hình pointer-generator sau thêm chế coverage vào hàm lỗi, mơ 37 hình học them 4000 bước Ở phiên thứ hai, chế Coverage đưa vào từ bước lặp với trọng số hàm lỗi λ=0.5 Ở tất mơ hình, từ điển có độ lớn 50K từ cho câu nguồn câu tóm tắt Trong suốt trình học test, độ dài câu nguồn 50 tokens Tại bước giải mã (decoding), độ dài câu tóm tắt 25 token Mặt khác, câu tóm tắt sinh việc sử dụng bearm search với beam size sử dụng kĩ thuật dừng việc học sớm dựa tập dev, mơ hình hội tụ quanh epoch 4.1.3 Đánh giá tự động Trong phần đánh giá tự động sử dụng độ đo ROUGE để đánh giá ROUGE (Recall-Oriented Understudy for Gisting Evaluation), tổng hợp số để đánh giá việc tóm tắt tự động dịch máy Nó hoạt động cách so sánh tóm tắt dịch tạo tự động với tập hợp tóm tắt tham chiếu (thường người tạo ra) Precision Recall ROUGE Recall: số từ tóm tắt tự động trùng với tóm tắt tham chiếu so với độ dài tóm tắt tham chiếu 𝑅𝑂𝑈𝐺𝐸 − 𝑅 = 𝑛𝑢𝑚𝑏𝑒𝑟_𝑜𝑓_𝑜𝑣𝑒𝑟𝑙𝑎𝑝𝑝𝑖𝑛𝑔_𝑤𝑜𝑟𝑑𝑠 𝑡𝑜𝑡𝑎𝑙_𝑤𝑜𝑟𝑑𝑠_𝑖𝑛_𝑟𝑒𝑓𝑒𝑟𝑒𝑛𝑐𝑒_𝑠𝑢𝑚𝑚𝑎𝑟𝑦 Precision: Chỉ từ tóm tắt hệ thống sinh thực cần thiết 𝑅𝑂𝑈𝐺𝐸 − 𝑃 = 𝑛𝑢𝑚𝑏𝑒𝑟_𝑜𝑓_𝑜𝑣𝑒𝑟𝑙𝑎𝑝𝑝𝑖𝑛𝑔_𝑤𝑜𝑟𝑑𝑠 𝑡𝑜𝑡𝑎𝑙_𝑤𝑜𝑟𝑑_𝑖𝑛_𝑠𝑦𝑠𝑡𝑒𝑚_𝑠𝑢𝑚𝑚𝑎𝑟𝑦 4.1.4 Đánh giá thủ công Do độ đo Rouge chưa thể đánh giá hết mặt cấu trúc ngữ pháp, ngữ nghĩa, để có nhìn tốt kết thu được, tiến hành đánh giá theo thủ công dựa vào tiêu chí sau: ngữ pháp, ngữ nghĩa, thơng tin Một câu tóm tắt sinh ra, điều tối thiểu phải ngữ pháp (syntax), sau tầng nghĩa, thơng tin xét tới Một câu tóm tắt đánh giá cao tiêu chí phải đủ Chi tiết mô tả sau: • Câu tóm tắt đánh giá xem có với cú pháp tiếng Việt hay khơng Nếu điểm, ngược lại câu đánh giá điểm • Những câu cho cú pháp tiếp tục đánh giá mức ngữ nghĩa Ở mức này, người đánh giá xem xét mặt ngữ nghĩa câu hệ thống sinh có với câu gốc câu tóm tắt chuẩn (target) Ở mức này, câu có hai điểm Nếu ngữ nghĩa điểm, ngược lại điểm 38 • Cuối cùng, câu cho ngữ nghĩa đánh giá tiếp mức thông tin Phần điểm cho khoảng [0, 10], để biểu thị lượng thơng tin giữ lại có phải thơng tin hay nói chất lượng thơng tin có tốt hay khơng Trong q trình thực nghiệm, tơi tiến hành so sánh mơ hình sau: • Vanilla seq2seq: Mơ hình encoder-decoder với chế attention • Vanilla seq2seq (no filter): Mơ hình encoder-decoder + attention học với liệu không filter Nhằm mục đích chứng ảnh hưởng q trình lọc ví dụ lỗi • Pointer: Mơ hình Pointer-generator • Pointer + coverage: Mạng Pointer-generator với chế coverage 4.1.5 Kết đánh giá Kết qủa đánh giá theo tự động thủ công đưa bảng 10 Dựa vào bảng 9, biểu thị kết đánh giá độ đo Rouge, ta thấy điều rõ ràng rằng: Thứ nhất, mơ hình seq2seq + attention học với liệu nhiễu có kết qủa nhiều so với mơ hình học với liệu qua lọc đơn giản Thứ hai, mơ hình pointer + coverage có cải thiện nhiều độ đo Roge so với mơ hình seq2seq Như đề cập, độ đo Rouge đánh giá hết mặt cú pháp ngữ nghĩa, ta tới kết đánh giá mặt thủ công mô tả mục 1.3 chương Mơ hình ROUGE-1 R P ROUGE-2 F R P ROUGE-L F R P F base_line (no filter) 52.25 64.23 56.71 32.96 40.16 35.60 43.32 53.16 47.03 base_line 69.29 63,63 65.59 49.34 45.51 46.77 58.97 54.33 55.91 pointer 69.80 65.59 66.91 50.28 47.38 48.23 59.43 55.98 57.00 pointer+coverage 65.23 69.06 66.36 46.70 49.27 47.38 55.16 58.25 56.00 pointer + coverage [10] 67.09 69.65 67.65 48.83 50.50 49.11 57.21 59.25 57.62 Bảng Đánh giá Rouge hướng tóm lược Mơ hình Cú pháp (%) Ngữ nghĩa (%) Thơng tin (%) Baseline 84.67 60.62 68.70 Pointer 91.00 79.48 75.89 39 Pointer +Coverage 91.30 80.29 80.77 Pointer+Coverage[10] 92 75 73.96 Bảng 10 Đánh giá thủ cơng hướng tóm lược Bảng 10 đưa kết đánh giá 300 ví dụ Như thấy, số lượng câu ngữ pháp sinh mơ hình Vanilla seq2seq thấp nhiều so với hai mơ hình cịn lại Nó đạt 84.67%, pointer pointer + coverage đạt 90% số câu sinh cú pháp Điều cho thấy mơ hình seq2seq + attention chưa thực tốt với ngữ pháp Tiếng Việt Mơ hình Pointer Pointer + Coverage có khả sinh câu ngữ nghĩa Tuy nhiên Pointer + Coverage [10] lại thấp hai mơ hình cịn lại 5% Pointer + Coverage có khả lưu lại thơng tin vượt trội, đạt tới 80.77% Từ ta rút hai kết luận rằng: Cơ chế Coverage có khả sinh câu tóm tắt chất lượng tốt, điều quan trọng độ đo Rouge lúc tương thích với đánh giá người Tiếp theo, cung cấp chi tiết vấn đề ngữ pháp ngữ nghĩa mơ hình seq2seq qua ví dụ hình 23.Mơ hình seq2seq thường sinh UNK token từ làm thay đổi hẳn nghĩa câu ban đầu Đặc biệt, tên riêng số thường bị thay UNK Trong ví dụ 3, động từ “mất giá” thay động từ “bốc hơi” làm cho nghĩa câu tóm tắt sinh trái ngược hẳn với câu gốc ban đầu Tồi tệ hơn, câu tóm tắt sinh bị lặp từ, dẫn đến việc sai ngữ pháp ta nhìn thấy ví dụ Trong hai mơ hình pointer pointer + coverage cải thiện đáng kể vấn đề Động từ “mất giá” giữ lại mơ hình pointer, nhiên vấn đề lặp chưa giải Khi chế Coverage đưa vào, câu tóm tắt có đọng thông tin sinh Hơn nữa, hai danh từ riêng “Vinsmart” “Vsmart_live” ví dụ biểu diễn xác mơ hình cuối Tiếp theo, ta xét đến ví dụ số 4, ba mơ hình sinh câu tóm tắt ngữ pháp chúng lại không giữ ngữ nghĩa so với câu gốc Ở ví dụ 5, mơ hình seq2seq khơng thành cơng việc giải vấn đề OOV (‘Virgil van Dijk’), hai mơ hình Pointer Pointer + Coverage chọn danh từ riêng ‘Cristiano_Ronaldo’ dẫn đến việc sai chủ ngữ câu Hơn nữa, mơ hình có xu hướng sinh tiêu đề tin tức ví dụ câu có sử dụng dấu “:” câu có chủ thể Vấn đề cần sử dụng lọc khác thích hợp cho nghiên cứu tương lai 40 Hình 23 Một số ví dụ nén câu hướng tóm lược Như tơi trình bày xong phần đánh giá cho hướng Tóm lược Nghiên cứu công bố hội nghị PACLIC 2020 với tiêu đề “A Study on Seq2seq for Sentence Compressionin Vietnamese” 4.2 Thực nghiệm đánh giá hướng xoá từ 4.2.1 Bộ liệu Trong hướng tiếp cận này, sử dụng liệu xây dựng trình bày chương 3, phần II Thơng tin tập liệu trình bày bảng 11 Tập liệu Số lượng cặp câu Train 210 506 Dev 58 533 Test 1000 Bảng 11 Thông tin liệu hướng xoá từ 4.2.2 Tham số Phần tơi thực nghiệm mơ hình bi-encoder-decoder với tham số sau Tôi sử dụng pre-train word-embedding [30] tập báo mới, từ biểu diễn vector có số chiều 400 Số chiều tầng ẩn hidden_dim = 100 Tôi khởi tạo tỉ lệ học learning_rate = 0.01 sử dụng optimizer SGD Sử dụng kĩ thuật stop-early tập dev Mơ hình hội tụ sau 20 epoch 4.2.3 Đánh giá tự động Trong phần sử dụng độ đo để đánh giá ROUGE, F1_score, C_rate Trong C_rate biểu thị tỉ lệ nén, tức độ dài câu sau xoá từ so với câu gốc Kết qủa đánh giá đưa bảng sau: 41 Độ đo Kết 81.47 ROUGE-1 76 F1_score 51.32 C_rate Bảng 12 Kết đánh giá tự động hướng xoá từ Từ bảng kết cho thấy, Rouge có kết qủa khả quan xấp xỉ 82% Tuy nhiên F1 mức trung bình Độ nén câu 50% Trong kết tiếng anh [6] khoảng [37%-38%] Đây nhân tố ảnh hưởng cho chất lượng nén câu Các nghiên cứu tương lai tơi thử nghiệm với điều kiện tăng giảm C_rate Tiếng Việt 4.2.4 Đánh giá thủ công Về phần đánh giá thủ công, chọn 200 câu để đánh giá dựa tiêu chí sau: Readability: Tiêu chí xét theo việc chuẩn ngữ pháp dễ đọc Infomativeness: Lượng thông tin lưu lại có chất lượng tốt Ở phần đánh giá, thang điểm khoảng [0, 10] Tương tự tiêu chí chia làm ba tiêu chí nhỏ, câu cú pháp xét đến tiêu chí ngữ nghĩa dễ đọc xét đến lượng thơng tin lưu lại Tiêu chí Score % 171 85.5 Cú pháp 158 92 Dễ đọc 124 72.5 Ngữ nghĩa 100,6 81 chất lượng thông tin Bảng 13 Kết đánh giá thủ cơng hướng xố từ Như vấn đề độ Rouge cao chưa đủ để đánh giá ngữ nghĩa Trong phần đánh giá thủ công 200 câu, phần trăm số câu nghữ nghĩa 72,5% Kết xem mức tốt Lượng thông tin lưu lại khoảng 81% Trong thời gian tới cần cải thiện số câu cú pháp Hiện trình đánh giá phân tích lỗi, mơ hình cịn sai trường hợp sau: • Mất giới từ ("từ", "ở", "sau khi", ) • Thừa thiếu động từ vế phụ câu ghép • Mất liên từ nối Vd "và" • Thiếu thành phần dấu ngoặc kép Hình 23 đưa số ví dụ cụ thể hệ thống dự đốn câu rút gọn Ví dụ ví dụ 2, hệ thống đưa phiên rút gọn (sys) tốt mặt ngữ pháp, ngữ nghĩa lượng thông tin giữ lại Tuy nhiên hai ví dụ sau mơ hình gặp vấn đề với phụ từ liên kết vế câu Ví dụ 3, phụ từ liên 42 kết "sau " bị mơ hình dự đốn nhãn "DELETE", ví dụ từ "sau khi" khơng ảnh hưởng nhiều đến ngữ nghĩa, nhiên ví dụ câu bị nét nghĩa ban đầu rõ rệt Vấn đề lỗi nhiễu liệu chưa xử lý trường hợp phụ từ liên kết, dẫn đến phụ từ bị cắt q trình trích xuất phiên nén từ sapo headline Trong nghiên cứu tiếp theo, hướng tới việc cải thiện chất lượng liệu phụ từ mang tính liên kết vế câu Hình 24 Một số ví dụ nén câu hướng xoá từ 43 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Như tơi trình bày xong qúa trình nghiên cứu tốn nén câu tiếng Việt theo hai hướng tiếp cận tóm lược dựa xoá từ Với hướng tiếp cận tóm lược tơi áp dụng mơ hình Pointer generator network cho việc sinh câu tóm tắt tiếng Việt Cùng với lọc đơn giản, xây dựng liệu khoảng triệu cặp câu mà không cần gán nhãn thủ công Để đánh giá kết quả, tiến hành xây dựng thủ công tập kiểm thử thực đánh giá định lượng cách tự động đánh giá định tính cách thủ cơng Kết cho thấy có nhiều tóm tắt câu sinh kết có chất lượng tốt Tuy nhiên để ứng dụng vào thực tế nhiều vấn đề cần cải thiện Một số vấn đề liên quan đến sinh động từ, danh từ câu, việc sinh nắm bắt thực thể, nhập nhằng ngữ nghĩa vế câu sau tóm lược tóm tắt làm ảnh hưởng đến ngữ nghĩa câu tóm tắt sinh Với hướng tóm lược, nghiên cứu tơi cơng bố trình bày hội nghị PACLIC 2020 Hướng nghiên cứu tương lai cho hướng tóm lược sâu vào cải thiện chất lượng liệu, mở rộng hệ thống mức tóm tắt paragraph Ở mức mơ hình áp dụng đưa Transformer vào nghiên cứu Ở hướng tiếp cận xố từ, tơi áp dụng kiến thức ngơn ngữ Tiếng Việt để tạo liệu học cách tự động Tiếp đến, xây dựng liệu kiểm thử cách thủ công với khoảng 1K câu gán nhãn Tiếp đến tơi áp dụng mơ hình Bi-encoder-decoder LSTM cho liệu học Ở cách tiếp cận đánh giá theo hai hướng tự động thủ công Kết cho thấy, có số câu tóm tắt sinh chất lượng mức tốt Tuy nhiên hướng tiếp cận này, việc xoá thiếu từ, liên quan đến giới từ, mơ hình chưa thực giải tốt Hướng nghiên cứu tiếp theo, sâu vào việc khai thác đặc điểm ngôn ngữ để xây dựng liệu có chất lượng tốt Về phần mơ hình, tơi áp dụng với mơ hình bản, tiếp đến khai thác thêm việc đưa tầng CRF, SVM khai thác triệt để đặc trưng ngôn ngữ cho việc lựa chọn từ cần xoá Nghiên cứu tiền đề để tơi hiểu đặc trưng ngơn ngữ, ứng dụng mơ hình cho liệu tiếng Việt bước móng để nghiên cứu sau hồn thiện tốt Kết hướng tóm lược trình bày trong: Bài báo hội nghị: Thi-Trang Nguyen, Huu-Hoang Nguyen, Kiem-Hieu Nguyen “A Study on Seq2seq for Sentence Compressionin Vietnamese” PACLIC 2020 - The 34th Pacific Asia Conference on Language, Information and Computation 44 References [1] Hongyan Jing “Sentence Reduction for Automatic Text Summarization” In:In Pro-ceedings of the 6th Applied Natural Language Processing Conference 2000, pp 310–315 [2] James Clarke and Mirella Lapata “Global Inference for Sentence Compression: AnInteger Linear Programming Approach” In:J Artif Intell Res (JAIR)31 (Jan.2008), pp 399–429 [3] Thibault Fevry and Jason Phang “Unsupervised Sentence Compression using De-noising Auto-Encoders” In:Proceedings of the 22nd Conference on ComputationalNatural Language Learning Brussels, Belgium: Association for Computational Lin-guistics, Oct 2018, pp 413–422 [4] Liangguo Wang et al “Can Syntax Help? Improving an LSTM-based Sentence Com-pression Model for New Domains” In:Proceedings of the 55th Annual Meeting ofthe Association for Computational Linguistics (Volume 1: Long Papers) Vancouver,Canada: Association for Computational Linguistics, July 2017, pp 1385–1393 [5] Dimitrios Galanis and Ion Androutsopoulos “An extractive supervised twostagemethod for sentence compression” In:Human Language Technologies: The 2010Annual Conference of the North American Chapter of the Association for Computa-tional Linguistics Los Angeles, California: Association for Computational Linguis-tics, June 2010, pp 885–893 [6] Katja Filippova et al “Sentence Compression by Deletion with LSTMs” In:Proceed-ings of the 2015 Conference on Empirical Methods in Natural Language Processing.Lisbon, Portugal: Association for Computational Linguistics, Sept 2015, pp 360–368 [7] Trevor Cohn and Mirella Lapata “Sentence Compression Beyond Word Deletion”.In:Proceedings of the 22nd International Conference on Computational Linguistics(Coling 2008) Manchester, UK: Coling 2008 Organizing Committee, Aug 2008,pp 137–144 [8] Sumit Chopra, Michael Auli, and Alexander M Rush “Abstractive Sentence Sum-marization with Attentive Recurrent Neural Networks” In:Proceedings of the 2016Conference of the North American Chapter of the Association for ComputationalLinguistics: Human Language Technologies San Diego, California: Association forComputational Linguistics, June 2016, pp 93–98 [9] Ramesh Nallapati et al “Abstractive Text Summarization using Sequence-tosequenceRNNs and Beyond” In:Proceedings of The 20th SIGNLL Conference 46 on Computa-tional Natural Language Learning Berlin, Germany: Association for ComputationalLinguistics, Aug 2016, pp 280–290 [10] Abigail See, Peter J Liu, and Christopher D Manning “Get To The Point: Sum-marization with Pointer-Generator Networks” In:Proceedings of the 55th AnnualMeeting of the Association for Computational Linguistics (Volume 1: Long Pa-pers) Vancouver, Canada: Association for Computational Linguistics, July 2017,pp 1073–1083 [11] Christos Baziotis et al “SEQ^3: Differentiable Sequence-to-Sequence-toSequenceAutoencoder for Unsupervised Abstractive Sentence Compression” In:Proceedingsof the 2019 Conference of the North American Chapter of the Association for Com-putational Linguistics: Human Language Technologies, Volume (Long and ShortPapers) Minneapolis, Minnesota: Association for Computational Linguistics, June2019, pp 673–681 [12] Le Minh Nguyen and Susumu Horiguchi “A Sentence Reduction using Syntax Con-trol” In:Proceedings of the Sixth International Workshop on Information Retrievalwith Asian Languages Sapporo, Japan: Association for Computational Linguistics,July 2003, pp 146–152 [13] Le Minh Nguyen et al “Example-based sentence reduction using the hidden markovmodel” In:ACM Transactions on Asian Language Information Processing (TALIP.2004 [14] Thi Thu Ha Nguyen and Huu Quynh Nguyen “Concatenate the Most LikelihoodSubstring for Generating Vietnamese Sentence Reduction” In:International journalof engineering and technology3 (2011), pp 203–207 [15] Nhi Thao Tran et al “Improving Vietnamese Sentence Compression by SegmentingMeaning Chunks” In:2015 Seventh International Conference on Knowledge andSystems Engineering (KSE)(2015), pp 320–323 [16] Trung Tran and Dang Tuan Nguyen “Text Generation from Abstract Semantic Representation for Summarizing Vietnamese Paragraphs Having Coreferences” In:2018 5th NAFOSTED Conference on Information and Computer Science (NICS)(2018), pp 93–98 [17] Viet Lai Dac, Truong Son Nguyen, and Le Minh Nguyen “Deletion-Based Sen-tence Compression Using Bi-enc-dec LSTM” In: Computational Linguistics - 15thInternational Conference of the Pacific Association for Computational Linguistics,PACLING 2017, Yangon, Myanmar, August 16-18, 2017, Revised Selected Papers.2017, pp 249–260 [18] Dorr, B., D Zajic & R Schwartz (2003) Hedge trimmer: A parse-and-trim approach to headline generation In Proceedings of the Text Summarization Workshop at HLT-NAACL-03, Edmonton, Alberta, Canada, 2003, pp 1–8 47 [19] Hoang Huu Nguyen, Đồ án tốt nghiệp, 2018 https://drive.google.com/file/d/1_ace43MAPSe2FUdNq57GBjTnPnJW0U2 f/view [20] Filippova, K & Y Altun (2013) Overcoming the lack of parallel data in sentence compression In Proc of EMNLP-13, pp 1481–1491 [21] Thanh Vu, Dat Quoc Nguyen, Dai Quoc Nguyen, Mark Dras and Mark Johnson 2018 VnCoreNLP: A Vietnamese Natural Language Processing Toolkit In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations, NAACL 2018, to appear [22] Nguyen, P T., Vu, X L., Nguyen, T M H., Nguyen, V H., and Le, H P (2009) Building a large syntactically annotated corpus of vietnamese In Proceedings of the Third Linguistic Annotation Workshop, pages 182–185, Suntec, Singapore [23] Timothy Dozat, Christopher D Manning Deep Biaffine Attention for Neural Dependency Parsing arXiv preprint arXiv: 1611.01734 Nov 6, 2016 [24] De Marneffe, M.-C and Manning, C D (2008) The stanford typed dependencies representation In Coling 2008: Proceedings of the Workshop on Cross-Framework and Cross-Domain Parser Evaluation, CrossParser ’08, pages 1–8, Stroudsburg, PA, USA Association for Computational Linguistics [25] Marneffe, M., Maccartney, B., and Manning, C (2006) Generating typed dependency parses from phrase structure parses In Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC-2006), Genoa, Italy, May European Language Resources Association [26] Nguyen, D Q., Nguyen, D Q., Pham, S B., Nguyen, P.-T., and Le Nguyen, M., (2014) From Treebank Conversion to Automatic Dependency Parsing for Vietnamese, pages 196–207 Springer International Publishing, Cham [27] Luong Nguyen Thi, Linh Ha My, Huyen Nguyen Thi Minh, Phuong LeHong Using BiLSTM in Dependency Parsing for Vietnamese Proceedings of CICLING 2018, Hanoi, Vietnam, 2018 [28] Kiem-Hieu Nguyen BKTreebank: Building a Vietnamese Dependency Treebank.Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018) 48 [29] Cardie, Claire, and Kiri Wagstaff "Noun phrase coreference as clustering." Proceedings of the Joint Sigdat Conference on empirical methods in natural language processing and very large corpora 1999 [30] https://github.com/sonvx/word2vecVN 49 ... dụ nén câu hướng xố từ 43 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Như trình bày xong qúa trình nghiên cứu tốn nén câu tiếng Việt theo hai hướng tiếp cận tóm lược dựa xố từ Với hướng tiếp cận tóm. .. Người hướng dẫn: TS Nguyễn Kiêm Hiếu Đơn vị: viện Công nghệ thông tin truyền thông, đại học Bách Khoa Hà Nội Tên đề tài (tiếng Việt) : Nén câu tiếng Việt hướng Tóm lược dựa Xố từ Tên đề tài (tiếng. .. vế câu sau tóm lược tóm tắt làm ảnh hưởng đến ngữ nghĩa câu tóm tắt sinh Với hướng tóm lược, nghiên cứu tơi cơng bố trình bày hội nghị PACLIC 2020 Hướng nghiên cứu tương lai cho hướng tóm lược

Tiêu đề	Nén Câu Tiếng Việt Hướng Tóm Lược Và Dựa Trên Xoá Từ
Tác giả	Nguyễn Thị Trang
Người hướng dẫn	TS. Nguyễn Kiêm Hiếu
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Khoa Học Dữ Liệu
Thể loại	luận văn thạc sĩ
Năm xuất bản	2020
Thành phố	Hà Nội

Định dạng
Số trang	54
Dung lượng	1,03 MB