Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 57 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
57
Dung lượng
1,37 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG NƠNG TIẾN CƠNG TĨM TẮT VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH LẠNG SƠN, 2018 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG NƠNG TIẾN CƠNG TĨM TẮT VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU Chun ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: PGS-TS Đồn Văn Ban LẠNG SƠN, 2018 LỜI CAM ĐOAN Tôi xin cam đoan luận văn sản phẩm nghiên cứu, tìm hiểu cá nhân tơi Những điều trình bày luận văn cá nhân tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Lạng Sơn, tháng năm 2018 TÁC GIẢ LUẬN VĂN Nông Tiến Công i MỤC LỤC MỤC LỤC i DANH MỤC CÁC HÌNH iii DANH MỤC CÁC BẢNG iv MỞ ĐẦU Chương TÓM TẮT VĂN BẢN TIẾNG VIỆT 1.1 Bài tốn tóm tắt văn 1.1.1 Phân loại tóm tắt 1.1.3 Mơ hình tóm tắt văn số phương pháp tiếp cận 1.2 Các phương pháp đánh giá 1.2.1 Các phương pháp đánh giá 10 1.2.2 Các phương pháp đánh giá 11 1.3 Tóm tắt văn tiếng Việt dựa vào trích xuất câu số vấn đề liên quan 12 1.3.1 Đặc điểm ngôn ngữ văn tiếng Việt 12 1.3.2 Một số hướng tiếp cận tốn tóm tắt văn tiếng Việt 15 1.3.3 Mơ hình tóm tắt văn tiếng Việt dựa vào trích xuất câu 17 1.4 Tổng kết chương 18 Chương PHƯƠNG PHÁP TÓM TẮT VĂN BẢN DỰA TRÊN ĐỘ TƯƠNG ĐỒNG CÂU 19 2.1 Một số khái niệm phương pháp tính độ tương đồng câu 19 2.1.1 Độ tương đồng 19 ii 2.1.2 Độ tương đồng ngữ nghĩa phương pháp trích xuất câu dựa độ tương đồng ngữ nghĩa câu 20 2.1.3 Tính độ tương đồng theo độ đo Cosine 21 2.1.4 Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn 22 2.1.5 Phương pháp tính độ tương đồng câu dựa vào mạng Wikipedia 25 2.2 Mơ hình tóm tắt văn tiếng Việt dựa trích xuất câu quan trọng theo phương pháp tính độ tương đồng câu 28 2.2.1 Giai đoạn tiền xử lý 29 2.2.2 Giai tạo danh sách câu khả dụng 32 2.2.3 Giai đoạn sinh văn tóm tắt 34 2.3 Tổng kết chương 34 Chương THỰC NGHIỆM MƠ HÌNH TĨM TẮT VĂN BẢN TIẾNG VIỆT 35 3.1 Môi trường thực nghiệm 35 3.2 Chương trình tóm tắt văn 35 3.3 Tiến hành thực nghiệm 37 3.3.1 Cơ sở liệu tổng thể 37 3.3.2 Mơ hình suy luận chủ đề ẩn 37 3.3.3 Dữ liệu thực nghiệm 38 3.3.4 Đánh giá độ xác mơ hình tóm tắt văn 38 3.4 Tổng kết chương 46 KẾT LUẬN 47 TÀI LIỆU THAM KHẢO 48 iii DANH MỤC CÁC HÌNH Hình 1.1 Mơ hình hệ thống tóm tắt văn [13] Hình 1.2 Mơ hình chung cho tóm tắt văn tiếng Việt dựa vào trích xuất câu 17 Hình 2.1 Mơ hình tính độ tương đồng câu với chủ đề ẩn 24 Hình 2.2 Mối quan hệ đồ thị viết đồ thị chủ đề Wikipedia 26 Hình 2.3 Mơ hình tóm tắt văn tiếng Việt 28 Hình 2.4 Các câu sau tách cửa sổ nhỏ góc bên trái 29 Hình 2.5 Văn sau chuẩn hóa 30 Hình 2.6 Xác định từ dừng ký tự vơ ích 30 Hình 3.1 Giao diện chương trình 36 Hình 3.2 Các từ đặc trưng lĩnh vực giáo dục có xác suất xuất cao chủ đề 83, 116, 136 mơ hình suy luận chủ đề ẩn 38 Hình 3.3 Kết tóm tắt văn theo phương pháp tổ hợp với tỷ lệ nén 30% 40 Hình 3.4 Độ xác phương pháp tóm tắt theo tỷ lệ nén 44 Hình 3.5 Độ xác phương pháp tóm tắt tỷ lệ nén 30% số lĩnh vực 45 iv DANH MỤC CÁC BẢNG Bảng 3.1 Kết tóm tắt nhóm văn theo tỷ lệ nén 10% 41 Bảng 3.2 Kết tóm tắt nhóm văn theo tỷ lệ nén 20% 42 Bảng 3.3 Kết tóm tắt nhóm văn theo tỷ lệ nén 30% 43 MỞ ĐẦU Với phát triển công nghệ Internet nay, thông tin thời cập nhật Website với tốc độ vũ bão Điều mang lại cho người nhiều lợi ích thiết thực khiến họ gặp phải khơng khó khăn sàng lọc lấy thơng tin hữu ích từ nguồn liệu khổng lồ Theo đánh giá cơng ty Oracle1, có đến 80% liệu giới liệu văn Vì vậy, việc tổ chức quản lý khai thác hiệu nguồn liệu toán lớn cần quan tâm nghiên cứu giải Tóm tắt văn tự động nhằm nhanh chóng thu thơng tin quan trọng, tăng hiệu xử lý thông tin hướng tiếp cận khai thác liệu văn nhận quan tâm nghiên cứu nhiều nhà khoa học, nhóm nghiên cứu cơng ty lớn giới Tóm tắt văn tự động có nhiều ứng dụng thực tế như: tóm tắt tin tức, tóm tắt kết tìm kiếm máy tìm kiếm, tóm tắt hình ảnh, tóm tắt video, Do đặc thù ngôn ngữ nên việc giải tốn tóm tắt văn tiếng Việt đặt cho nhà nghiên cứu thách thức, khó khăn riêng Các kết khả quan từ nghiên cứu tóm tắt văn tiếng Việt cơng bố sở cho dự án xây dựng hệ thống tóm tắt văn tiếng Việt tự động hiệu tương lai [4], [5], [6], [7], [8] Với việc chọn đề tài “Tóm tắt văn dựa vào trích xuất câu”, luận văn trung vào việc nghiên cứu, đánh giá lựa chọn phương pháp xây dựng mơ hình tóm tắt văn tiếng Việt hiệu http://www.oracle.com/technetwork/testcontent/9ir2text-bwp-f-129974.pdf https://en.wikipedia.org/wiki/Automatic_summarization Chương TÓM TẮT VĂN BẢN TIẾNG VIỆT 1.1 Bài tốn tóm tắt văn Theo Inderjeet Mani mục đích tóm tắt văn tự động là: “Tóm tắt văn tự động nhằm mục đích trích xuất nội dung từ nguồn thơng tin trình bày nội dung quan trọng cho người sử dụng theo khuôn dạng súc tích gây cảm xúc người sử dụng chương trình cần đến” [13] Theo Radev: “Văn tóm tắt văn tạo từ nhiều văn khác mà truyền tải thông tin quan trọng văn gốc có độ dài khơng q nửa văn gốc (thường ngắn đáng kể)” [11] Như vậy, tóm tắt văn việc tìm ý văn Bản tóm tắt có ba đặc điểm sau [10], [11], [12], [13]: - Bảo toàn nội dung so với văn gốc: Các nội dung quan trọng hay bật gốc phải giữ lại tóm tắt - Ngắn ngọn: tóm tắt thường ngắn gốc nhiều - Dễ đọc: người sử dụng đọc hiểu dễ dàng Việc đưa tóm tắt có chất lượng không bị giới hạn miền ứng dụng xác định khó khăn nên phương pháp giải tốn tóm tắt văn thường hướng đến kiểu văn cụ thể kiểu tóm tắt cụ thể 1.1.1 Phân loại tóm tắt Có nhiều cách phân loại tóm tắt văn khác nhau, sau số cách phân loại tiêu biểu [13]: 1.1.1.1 Theo định dạng đầu - Tóm tắt trích xuất (Extract): tóm tắt gồm đoạn văn rút trích từ văn gốc - Tóm tắt tóm lược (Abstract): tóm tắt tạo dựa thông tin quan trọng văn gốc 1.1.1.2 Theo mức độ xử lý - Tiếp cận mức ngồi (surface-level): thơng tin miêu tả dạng khái niệm đặc trưng nông (shallow feature) Các đặc trưng nông bao gồm thuật ngữ (term) quan trọng qua thống kê (dựa vào tần số thuật ngữ văn bản), thuật ngữ quan trọng dựa vào vị trí, thuật ngữ cụm từ dấu hiệu hay thuật ngữ câu truy vấn người dùng Kết tóm tắt dạng trích xuất (extract) - Tiếp cận mức sâu (deeper-level): mức này, tóm tắt dạng trích xuất dạng tóm tắt (abstract) cần phải sử dụng đến sinh tổng hợp ngôn ngữ tự nhiên Với dạng tiếp cận này, phải cần đến phân tích mặt ngữ nghĩa, chẳng hạn sử dụng hướng tiếp cận thực thể để xây dựng dạng biểu diễn thực thể văn (đơn vị văn bản) mối quan hệ thực thể từ tìm phần quan trọng Mối quan hệ thực thể gồm quan hệ ngữ nghĩa như: đồng nghĩa, trái nghĩa, nghĩa hẹp, nghĩa rộng…, quan hệ cú pháp: dựa phân tích cú pháp mối quan hệ khác 1.1.1.3 Theo mục đích tóm tắt - Tóm tắt thị (Indicative): Đưa thơng tin ngắn gọn chủ đề văn Dạng tóm tắt thường sử dụng hệ thống tìm kiếm thơng tin Thơng thường, độ dài văn tóm tắt loại từ đến 10% độ dài toàn văn - Tóm tắt thơng tin (Information): tóm tắt bao gồm tất thơng tin bật có văn nguồn nhiều mức độ chi tiết khác - Tóm tắt đánh giá (Evaluation): tóm tắt nhằm mục đích đánh giá vấn đề văn nguồn, thể quan điểm tác giả cơng việc họ 36 Nhóm chức soạn thảo thực chức soạn thảo bản: đánh dấu, lựa chọn vùng văn bản, chép, cắt, dán, undo, redo, chọn font, chọn cỡ chữ, tìm kiếm chuỗi ký tự, Nhóm chức xử lý liệu thực tách từ - tách câu, chuẩn hóa văn bản, tóm tắt văn bản, xây dựng chủ đề ẩn , hiển thị danh sách câu trọng số, hiển thị Chức đặt thông số ma trận dộ tương đồng câu, dùng thay đổi thông số chương trình Giao diện chương trình gồm công cụ cung cấp chức phục vụ cho tóm tắt văn bản; Panel chứa cửa sổ hiển thị văn gốc, kết tách từ - tách câu kết tóm tắt; Panel chứa cửa sổ thể kết xử lý liệu Các cửa sổ Panel thay đổi kích thước linh hoạt giúp mở rộng diện tích quan sát kết Hình 3.1 Giao diện chương trình 37 3.3 Tiến hành thực nghiệm 3.3.1 Cơ sở liệu tổng thể Cơ sở liệu tổng thể gồm 150 báo lĩnh vực giáo dục trang vietnamnet.vn/vn, moet.gov.vn tệp ngữ liệu VNESEcorpus2.txt11 chứa khoảng 650.000 câu trích xuất từ khoảng 10.000 báo vietnamnet.vn, dantri.com.vn, nhanhdan.com.vn 3.3.2 Mơ hình suy luận chủ đề ẩn Sử dụng chức “Tách từ - Tách câu”, “Chuẩn hóa văn bản”, “Xây dựng chủ đề ẩn” chương trình xử lý sở liệu tổng thể khoảng 22 thu mơ hình suy luận chủ đề ẩn với 200 chủ đề gồm tệp: - wordmap.map: đồ từ gồm 113.865 mục từ - model-final.others: chứa tham số sử dụng để suy luận theo LDA - model-final.phi: chứa phân phối xác suất từ - chủ đề - model-final.theta: chứa phân phối xác suất chủ đề - câu (hoặc văn bản) - model-final.tassign: chứa tập chủ đề (topic assignments) cho từ sở liệu huấn luyện - model-final.twords: chứa phân phối xác suất từ có nhiều khả xuất chủ đề Hình 3.2 cho thấy từ đặc trưng cho lĩnh vực có xu hướng tập trung nhiều số chủ đề Vì vậy, sau trình suy luận chủ đề ẩn cho câu, hai câu chứa nhiều từ có xác suất xuất cao chủ đề có nhiều khả chủ đề xuất hai câu Nếu hai câu có nhiều chủ đề chung chúng có độ tương đồng ngữ nghĩa cao Quá trình xử lý cịn thu tệp ký tự vơ ích uselessChars.lst gồm 26 ký tự tệp từ dừng stopWords.lst gồm 1933 từ dùng để chuẩn hóa văn 11 http://viet.jnlp.org/download-du-lieu-tu-vung-corpus 38 Hình 3.2 Các từ đặc trưng lĩnh vực giáo dục có xác suất xuất cao chủ đề 83, 116, 136 mơ hình suy luận chủ đề ẩn 3.3.3 Dữ liệu thực nghiệm Dữ liệu thực nghiệm gồm 30 báo lấy trang web vietnamnet.vn, moet.gov.vn, nhandan.com.vn, vnexpress.net, tuoitre.vn chia thành lĩnh vực giáo dục, khoa học, kinh doanh, thể thao, pháp luật, du lịch; lĩnh vực 3.3.4 Đánh giá độ xác mơ hình tóm tắt văn 3.3.4.1 Phương pháp đánh giá So sánh kết tóm tắt chương trình tóm tắt văn phương pháp tổ hợp - sử dụng công thức (2.5) phương pháp tần số từ - sử dụng cơng thức (2.2) với kết tóm tắt Microsoft Word 2003 (gọi chung kết tóm tắt máy thực hiện) theo kết tóm tắt chuyên gia 39 Độ xác kết tóm tắt máy thực tính theo cơng thức: A= T (M ) 100% T (E) T ( M ) - số lượng câu máy trích xuất trùng với kết trích xuất chuyên gia T ( E ) - số lượng câu cần phải trích xuất Các tiêu chí tóm tắt: a - Bản tóm tắt có độ hàm chứa nội dung văn gốc cao b - Mỗi câu văn tóm tắt câu văn gốc c - Các câu văn tóm tắt có tương đồng ngữ nghĩa thấp d - Bản tóm tắt có tỷ lệ nén theo u cầu Chương trình tóm tắt văn sử dụng hai tham số - ngưỡng tương đồng hai câu; - số trộn công thức 2.5 Qua thực nghiệm, chọn sau: - Đối với phương pháp tóm tắt theo tần số từ = 0.3 - Đối với phương pháp tóm tắt theo cơng thức tổ hợp = 0.7 = 0.55 3.3.4.2 Đánh giá kết mơ hình tóm tắt văn Minh họa kết tóm tắt văn theo phương pháp tổ hợp Tên văn gốc: “Công bố điểm thi THPT quốc gia năm 2018 vào ngày 11/7”12 Tổng số câu văn gốc: 11 Tỷ lệ nén tóm tắt: 30% => Số câu cần rút (trích xuất): Thực hiện: sử dụng chức “Mở văn bản”; “Tách từ - Tách câu”; “Chuẩn hóa văn vản”; “Tóm tắt văn bản” để tóm tắt văn Kết quả: tóm tắt theo cảm quan đáp ứng yêu cầu (Hình 3.3) 12 http://vietnamnet.vn/vn/giao-duc/tuyen-sinh/cong-bo-diem-thi-thpt-quoc-gia-nam-2018-vao-ngay11-7-459910.html#inner-article 40 Câu số 10 11 Nội dung câu văn gốc Công bố điểm thi THPT quốc gia năm 2018 vào ngày 11/7 Bộ GD-ĐT cho biết hội đồng thi công bố thông báo kết thi THPT quốc gia năm 2018 cho thí sinh vào ngày 11/7 Theo quy chế Bộ GD-ĐT, chậm đến ngày 10/7, Hội đồng thi xuất kết chấm thi từ phần mềm hỗ trợ chấm thi (do Bộ GD-ĐT cung cấp) gửi bảo đảm chế độ mật Cục Quản lý chất lượng để cập nhật kết thi vào phần mềm quản lý thi Cùng đó, phải hồn thành việc đối sánh kết thi chậm ngày 11/7 Sau đó, Hội đồng thi công bố thông báo kết cho thí sinh vào ngày 11/7 Điểm thi tổ hợp trung bình cộng điểm mơn thi thành phần, quy thang điểm 10, làm tròn đến chữ số thập phân Điểm thi độc lập điểm môn thi thành phần thi tổ hợp quy thang điểm 10, làm trịn đến chữ số thập phân Thí sinh băn khoăn, thắc mắc điểm thi gửi đơn phúc khảo kể từ ngày công bố kết thi, tức từ ngày 11/7 nơi đăng ký dự thi Chậm ngày 15/7, sở GD-ĐT phải cập nhật danh sách thí sinh công nhận tốt nghiệp THPT vào phần mềm quản lý thi Các hội đồng thi công bố kết xét cơng nhận tốt nghiệp THPT tới thí sinh chậm ngày 17/7 Hiệu trưởng trường THPT cấp giấy chứng nhận tốt nghiệp tạm thời, trả học bạ loại giấy chứng nhận (bản chính) cho thí sinh chậm ngày 20/7 Kết tóm tắt Câu văn gốc Nội dung câu tóm tắt Bộ GD-ĐT cho biết hội đồng thi công bố thông báo kết thi THPT quốc gia năm 2018 cho thí sinh vào ngày 11/7 Thí sinh băn khoăn, thắc mắc điểm thi gửi đơn phúc khảo kể từ ngày công bố kết thi, tức từ ngày 11/7 nơi đăng ký dự thi Chậm ngày 15/7, sở GD-ĐT phải cập nhật danh sách thí sinh cơng nhận tốt nghiệp THPT vào phần mềm quản lý thi Hình 3.3 Kết tóm tắt văn theo phương pháp tổ hợp với tỷ lệ nén 30% 41 Kết tóm tắt theo tỷ lệ nén 10% Chương trình tóm tắt văn Theo P.Pháp tổ hợp Theo tần số từ T (M ) / T ( E ) T (M ) / T ( E ) Chính xác Chính xác Nhóm văn thuộc chủ đề giáo dục : 29 1/2 50% 1/2 50% : 68 2/6 33.3% 2/6 33.3% : 27 0/2 0% 0/2 0% : 36 1/3 33.3% 1/3 33.3% : 20 1/2 50% 0/2 0% Độ xác trung bình 33% 27% Nhóm văn thuộc chủ đề kinh doanh : 38 1/3 33.3% 1/3 33.3% : 26 0/2 0% 0/2 0% : 42 2/4 50% 1/4 25% : 47 2/4 50% 2/4 50% : 18 0/1 0% 0/1 0% Độ xác trung bình 27% 22% Nhóm văn thuộc chủ đề Du lịch : 26 1/2 50% 1/2 50% : 10 0/1 0% 0/1 0% : 53 1/5 20% 2/5 40% : 25 0/2 0% 0/2 0% 5: 54 2/5 40% 0/5 0% Độ xác trung bình 22% 18% Nhóm văn thuộc chủ đề Khoa học : 30 1/3 33.3% 1/3 33.3% : 15 0/1 0% 0/1 0% : 34 0/3 0% 0/3 0% : 53 2/5 40% 1/5 20% : 89 3/8 37.5% 3/8 37.5% Độ xác trung bình 32% 18% Nhóm văn thuộc chủ đề Thể thao : 21 1/2 50% 1/2 50% : 21 0/2 0% 0/2 0% : 17 0/1 0% 0/1 0% : 58 2/5 40% 1/5 20% : 38 1/3 33,3% 1/3 33,3% Độ xác trung bình 25% 22% Nhóm văn thuộc chủ đề Pháp luật : 32 0/3 0% 1/3 33,3% : 21 1/2 50% 1/2 50% : 32 1/3 33.3% 1/3 33.3% : 25 0/2 0% 0/2 0% : 49 1/4 25% 2/4 50% Độ xác trung bình 22% 33% Độ xác chung 27% 26% Văn : Số câu Microsoft Word 2003 T (M ) / T ( E ) Chính xác Rút câu Rút 11 câu Rút câu Rút câu Rút câu # # # # # 0% Rút câu Rút câu 1/4 Rút câu 0/1 # # 25% # 0% 12.5% Rút câu Rút câu Rút câu Rút câu 0/5 # # # # 0% 0% 1/3 1/2 1/3 Rút câu Rút 10 câu 33.3% 50% 33.3% # # 11.4% 1/2 0/2 0/1 Rút câu Rút câu 50% 0% 0% # # 16.7% Rút câu Rút câu Rút câu Rút câu Rút câu # # # # # 0% 15.4% Bảng 3.1 Kết tóm tắt nhóm văn theo tỷ lệ nén 10% 42 Kết tóm tắt theo tỷ lệ nén 20% Chương trình tóm tắt văn Theo P.Pháp tổ hợp Theo tần số từ T (M ) / T ( E ) T (M ) / T ( E ) Chính xác Chính xác Nhóm văn thuộc chủ đề giáo dục : 29 4/5 80% 3/5 60% : 68 9/13 69.2% 8/13 61.5% : 27 3/5 60% 3/5 60% : 36 5/7 71.4% 5/7 71.4% : 20 3/4 75% 2/4 50% Độ xác trung bình 71.1% 61% Nhóm văn thuộc chủ đề kinh doanh : 38 6/7 85.7% 5/7 71.4% : 26 3/5 60% 3/5 60% : 42 5/8 62.5% 6/8 75% : 47 6/9 66.7% 6/9 66.7% : 18 2/3 66.7% 2/3 66.7% Độ xác trung bình 68.3% 68% Nhóm văn thuộc chủ đề Du lịch : 26 2/4 40% 3/5 60% : 10 1/2 50% 1/2 50% : 53 8/10 80% 7/10 70% : 25 2/5 40% 3/5 60% 5: 54 4/10 40% 5/10 50% Độ xác trung bình 50% 58% Nhóm văn thuộc chủ đề Khoa học : 30 4/6 66.7% 4/6 66.7% : 15 2/3 66.7% 2/3 66.7% : 34 4/6 66.7% 4/6 66.7% : 53 8/10 80% 7/10 70% : 89 12/17 70.5% 12/17 70.5% Độ xác trung bình 70.1% 68% Nhóm văn thuộc chủ đề Thể thao : 21 2/4 50% 2/4 50% : 21 2/4 50% 2/4 50% : 17 2/3 66.7% 2/3 66.7% : 58 9/11 81.8% 8/11 72.7% : 38 5/7 71,4% 5/7 71,4% Độ xác trung bình 64% 62.2% Nhóm văn thuộc chủ đề Pháp luật : 32 5/6 83.3% 4/6 66.7% : 21 3/4 75% 3/4 75% : 32 4/6 66.7% 4/6 66.7% : 25 3/5 60% 4/5 80% : 49 6/9 66.7% 7/9 77.8% Độ xác trung bình 70.3% 73% Độ xác chung 65.6% 65% Văn : Số câu Microsoft Word 2003 T (M ) / T ( E ) Chính xác 2/5 Rút 16 câu Rút câu 4/7 Rút câu 40% # # 57.1% # 48.6% Rút câu Rút câu Rút câu Rút 10 câu Rút câu # # # # # 0% Rút câu 1/2 Rút 13 câu Rút câu 3/10 # 50% # # 30% 40% Rút câu 1/3 Rút câu Rút 12 câu Rút 24 câu # 33.3% # # # 33.3% Rút câu 1/4 Rút câu 6/11 4/7 # 25% # 54.5% 57.1 45.5% Rút câu 1/4 Rút câu Rút câu 5/9 # 25% # # 55.6% 40.3% 34.6% Bảng 3.2 Kết tóm tắt nhóm văn theo tỷ lệ nén 20% 43 Kết tóm tắt theo tỷ lệ nén 30% Chương trình tóm tắt văn Theo P.Pháp tổ hợp Theo tần số từ T (M ) / T ( E ) T (M ) / T ( E ) Chính xác Chính xác Nhóm văn thuộc chủ đề giáo dục : 29 7/8 87.5% 6/8 75% : 68 17/20 85% 13/20 65% : 27 6/8 75% 6/8 75% : 36 7/10 70% 7/10 70% : 20 4/6 66.7% 4/6 66.7% Độ xác trung bình 76.8% 71.3% Nhóm văn thuộc chủ đề kinh doanh : 38 9/11 81.8% 8/11 72.7% : 26 5/7 71.4% 4/7 57.1% : 42 8/12 66.7% 8/12 66.7% : 47 10/14 71.4% 9/14 64.3% : 18 4/5 80% 4/5 80% Độ xác trung bình 74.3% 68.2% Nhóm văn thuộc chủ đề Du lịch : 26 4/7 57,1% 4/7 57,1% : 10 2/3 66.7% 2/3 66.7% : 53 13/15 86,7% 11/15 73.3% : 25 4/7 57,1% 5/7 71.4% 5: 54 11/16 68.8% 11/16 68.8% Độ xác trung bình 67.3% 67.5% Nhóm văn thuộc chủ đề Khoa học : 30 7/9 77.8% 7/9 77.8% : 15 3/4 75% 3/4 75% : 34 8/10 80% 7/10 70% : 53 11/15 73.3% 12/15 80% : 89 20/26 76.9% 20/26 76.9% Độ xác trung bình 76.6% 75.9% Nhóm văn thuộc chủ đề Thể thao : 21 5/6 83.3% 4/6 66.7% : 21 4/6 66.7% 4/6 66.7% : 17 3/5 60% 3/5 60% : 58 14/17 82.4% 13/17 76.5% : 38 8/11 72,7% 8/11 72,7% Độ xác trung bình 73% 68,5% Nhóm văn thuộc chủ đề Pháp luật : 32 7/9 77.8% 7/9 77.8% : 21 4/6 66.7% 4/6 66.7% : 32 7/9 77.8% 6/9 66.7% : 25 5/7 71.4% 5/7 71.4% : 49 11/14 78.6% 10/14 71.4% Độ xác trung bình 74.5% 70.8% Độ xác chung 73.7% 70.3% Văn : Số câu Microsoft Word 2003 T (M ) / T ( E ) Chính xác 7/10 13/19 7/12 6/10 4/6 70% 68.4% 58.3% 60% 66.7% 64.7% 8/13 4/8 8/13 10/14 3/5 61.5% 50/% 61.5% 71.4 60% 60.9% 6/9 3/5 12/18 5/7 12/16 66.7% 60% 66.7% 71.4% 75% 68% 6/9 3/5 6/9 12/16 17/24 66.7% 60% 66.7% 75% 70.8% 67.8% 1/2 2/5 2/4 12/17 8/13 50% 40% 50% 70.6% 61.5% 54.4% 8/11 4/6 7/10 4/8 11/17 72.7% 66.7% 70% 50% 64.7% 64.8% 63,4% Bảng 3.3 Kết tóm tắt nhóm văn theo tỷ lệ nén 30% 44 Kết tóm tắt tỷ lệ nén 10% có độ xác thấp Phương pháp tổ hợp cho kết chung tốt Microsoft Word 2003 thường rút số câu vượt quy định q nhiều (nên khơng thể giá tính xác) Với tỷ lệ nén 20%, độ xác kết tóm tắt tăng mạnh so với tỷ lệ nén 10% Tóm tắt theo cơng thức tổ hợp cho kết tốt Microsoft Word 2003 có kết tóm tắt yếu Với tỷ lệ nén 30%, kết tóm tắt có độ xác cao Tóm tắt theo cơng thức tổ hợp cho kết tốt Microsoft Word 2003 có kết thấp (chấp nhận kết tóm tắt vượt số câu quy định Microsoft Word) Hình 3.4 cho thấy phương pháp tổ hợp có kết tóm tắt tốt chưa mạnh hẳn so với phương pháp tần số từ Sở dĩ kết sử dụng công thức 2.5 với số trộn = 0.7 ngưỡng tương đồng hai câu = 0.55 Như vậy, nói chung kết tóm tắt phụ thuộc nhiều vào tần suất từ (tới 70%) 80 70 60 50 PP tổ hợp PP tần số từ 40 MS Word 30 20 10 Nén 10% Nén 20% Nén 30% Hình 3.4 Độ xác phương pháp tóm tắt theo tỷ lệ nén 70 60 64,7 60,9 68 67,8 54,4 64,8 63,4 80 71,3 68,2 67,5 75,9 68,5 70,8 70,3 90 76,8 74,3 67,3 76,6 73 74,5 73,7 45 Giáo dục Kinh doanh Du lịch 50 Khoa học 40 Thể thao 30 Pháp luật 20 KQ chung 10 PP tổ hợp PP tần số từ MS Word 2003 Hình 3.5 Độ xác phương pháp tóm tắt tỷ lệ nén 30% số lĩnh vực Hình 3.5 cho thấy kết tóm tắt chưa thật ổn định tất lĩnh vực Có thể thấy, sử dụng 150 báo lĩnh vực giáo dục nên số từ đặc trưng lĩnh vực có xác suất xuất cao chủ đề 83, 116, 136 (hình 3.2) Trong lĩnh vực khác liệu chưa có phân loại Vì mơ hình suy luận chủ đề ẩn LDA tổng phân bố xác suất từ tập chủ đề 1; tổng phân bố xác suất từ chủ đề 1; tổng phân bố xác suất chủ đề văn Như vậy, để có kết tóm tắt theo suy luận chủ đề ẩn đạt hiệu cao cho lĩnh vực cần phải: - Thu thập sở liệu tổng thể có đầy đủ từ đặc trưng cho lĩnh vực tần suất từ đặc trưng phải đủ lớn để chúng có xác suất xuất cao chủ đề - Loại bỏ ký tự vơ ích, từ vơ ích (bao gồm từ vơ nghĩa từ có thường xuyên xuất lĩnh vực) từ dừng khỏi sở liệu tổng thể nhằm giảm kích thước sở liệu tổng thể tăng hiệu cho việc xác định phân bố xác suất từ chủ đề 46 Đánh giá chung Kết thực nghiệm, thấy có vài trường hợp tóm tắt theo phương pháp tổ hợp có kết chưa cao kết chung phương pháp tốt tỷ lệ nén Đối với nhóm văn lĩnh vực giáo dục, phương pháp tổ hợp cho kết vượt trội Trong đó, lĩnh vực khác phương pháp chưa thể rõ rệt hiệu quả; chí cịn có độ xác cịn thấp lĩnh vực du lịch tỷ lệ nén 30% (xem bảng 3.3 hình 3.5) Mặt khác, phương pháp tổ hợp chưa cho kết ổn định trình thực nghiệm Nguyên nhân sở liệu tổng thể dùng để xây dựng mơ hình chủ đề ẩn chưa thật tốt (xem 3.3.1) Theo cảm quan, tỷ lệ nén 20%, 30% tóm tắt phương pháp tổ hợp liền mạch (xem hình 3.1, 3.3) 3.4 Tổng kết chương Trong chương trình bày cụ thể môi trường thực nghiệm; phương pháp thực nghiệm kết thực nghiệm Kết thực nghiệm cho thấy tóm tắt văn theo phương pháp tổ hợp trình bày luận văn hướng tiếp cận tốt 47 KẾT LUẬN Tóm tắt văn tốn khó có nhiều ứng dụng thực tế Những kết nghiên cứu tóm tắt đơn văn tiếng Việt trình bày luận văn là: • Giới thiệu khái quát số phương pháp tóm tắt văn phổ biến, vấn đề đặc thù tóm tắt văn tiếng Việt trình bày cụ thể mơ hình tóm tắt đơn văn tiếng Việt dựa vào trích xuất câu • Dựa vào nghiên cứu độ tương đồng ngữ nghĩa, luận văn xây dựng công thức tổ hợp đo độ tương đồng ngữ nghĩa dựa vào chủ đề ẩn phương pháp sử dụng công thức để tóm tắt văn • Mơ hình chương trình tóm tắt đơn văn tiếng Việt đánh giá qua thực nghiệm cho thấy tính hiệu tóm tắt văn tiếng Việt ứng dụng vào thực tế Những công việc tương lai: • Nghiên cứu cải tiến mơ hình, chương trình tóm tắt đơn văn tiếng Việt để tăng tốc độ thực nâng cao chất lượng tóm tắt • Nghiên cứu xây dựng sở liệu tổng thể mơ hình suy luận chủ đề ẩn hiệu cho phương pháp tính độ tương đồng dựa chủ đề ẩn • Nghiên cứu cải tiến phương pháp tính độ tương đồng ngữ nghĩa câu để nâng hiệu suất mơ hình tóm tắt văn 48 TÀI LIỆU THAM KHẢO Tiếng Việt Diệp Quang Ban (chủ biên), Hoàng Văn Thung (2008), Ngữ pháp tiếng Việt, tập 1, Nxb Giáo dục, Hà Nội Diệp Quang Ban (2008), Ngữ pháp tiếng Việt, tập 2, Nxb Giáo dục, Hà Nội Hồ Trần Ngọc Oanh (2016), Ngữ pháp tiếng Việt, http://nguvan.ued.udn.vn/?p=1958 Đỗ Phúc, Hoàng Kiếm (2004), “Rút trích ý từ văn Tiếng Việt hỗ trợ tạo tóm tắt nội dung”, Tạp chí Các cơng trình nghiên cứu –triển khai viễn thơng công nghệ thông tin, số 13, tr 59-63 Nguyễn Trọng Phúc, Lê Thanh Hương (2010), “Tóm tắt văn tiếng Việt sử dụng cấu trúc diễn ngôn”, The International Conference on Asian Language Processing (IALP), Harbin, China, 2010 Lê Quý Tài (2011), “Nghiên cứu phương pháp xử lý tiếng việt ứng dụng cho tóm tắt văn bản”, Luận văn thạc sỹ, Đại học Công nghệ - Đại học Quốc gia Hà Nội Vương Toàn (2007), “Thử đề xuất quy trình tự động tóm tắt văn khoa học”, http://www.glib.hcmus.edu.vn/bantin/bt107/bai3.pdf Trần Mai Vũ (2009), “Tóm tắt đa văn dựa vào trích xuất câu”, Luận văn thạc sĩ, Đại học Công nghệ - Đại học Quốc gia Hà Nội Tiếng Anh Daniel Marcu (1997), From Discourse Structures to Text Summaries, In Proceedings of the ACL97/EACL97 Workshop on Intelligent Scalable Text Summarization, Madrid, Spain, 1997, pp 82–88 49 10 Dipanjan Das, Andr´e F.T Martins (2007), A Survey on Automatic Text Summarization, https://www.cs.cmu.edu/~nasmith/LS2/das-martins.07.pdf, November 21, 2007 11 Dragomir R Radev, Kathleen McKeown (2002), “Introduction to the Special Issue on Summarization”, Computational Linguistics, Volume 28 (4), pp 399-408 12 Inderjeet Mani and Mark T Maybury (eds) (1999), Advances in Automatic Text Summarization, MIT Press, 1999 13 Inderjeet Mani (2001), Automatic Summarization, John Benjamins Publishing Co., 2001 14 Inderjeet Mani (2001), “Summarization Evaluation: An Overview”, In: Proceedings of the North American chapter of the Association for Computational Linguistics (NAACL), Workshop on Automatic Summarization, USA 15 Jezek, K and Steinberger, J (2008) "Automatic Text Summarization (The state of the art 2007 and new challenges)", Znalosti, FIIT STU Bratislava, Slovakia, pp.1-12 16 Morris, Jane and Hirst, Graeme, “Lexical cohesion, the thesaurus, and the structure of text”, Computational linguistics, 17(1), March 1991, 21-48 17 Phan Xuan Hieu, Susumu Horiguchi, Nguyen Le Minh (2008), Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections, In The 17th International World Wide Web Conference, 2008 18 Ponzetto, Simone Paolo, and Michael Strube (2007), Knowledge Derived from Wikipedia For Computing Semantic Relatedness, Journal of Artificial Intelligence Research, 30: 181-212, 2007 50 19 Senellart and V D Blondel (2008), Automatic discovery of similar words, Survey of Text Mining II: Clustering, Classification and Retrieval (M W Berry and M Castellanos, editors): 25–44, Springer-Verlag, January 2008 20 Strube, M & S P Ponzetto (2006), WikiRelate! Computing semantic relatedness using Wikipedia, In Proc of AAAI-06, 2006 21 Torsten Zesch, Iryna Gurevych (2007), Analysis of the Wikipedia Category Graph for NLP Applications, In Proc of the TextGraphs-2 Workshop, NAACL-HLT, 2007 22 Torsten Zesch, Iryna Gurevych, and Max Muhlhauser (2007), Comparing Wikipedia and German Word-net by Evaluating Semantic Relatedness on Multiple Datasets, In Proceedings of NAACL-HLT, 2007 23 Vishal Gupta, Gurpreet Singh Lehal (2010), “A Survey of Text Summarization Extractive Techniques”, Journal of Emerging Technologies in Web Intelligence, Vol 2, No (2010) 24 Yuhua Li, David McLean, Zuhair Bandar, James O'Shea, Keeley A Crockett (2006), Sentence Similarity Based on Semantic Nets and Corpus Statistics, IEEE transactions on knowledge and data engineering, vol 18, no 8, august 2006 ... cứu tóm tắt dựa vào trích xuất Những ứng dụng thực tế dựa vào tóm tắt trích xuất ngày trở nên quan trọng đa dạng Vì vậy, nghiên cứu tóm tắt văn tự động tập trung chủ yếu phương pháp tóm tắt trích. .. chủ yếu phương pháp tóm tắt trích xuất 17 1.3.3 Mơ hình tóm tắt văn tiếng Việt dựa vào trích xuất câu Về bản, mơ hình tóm tắt văn tiếng Việt dựa vào trích xuất câu thể hình 1.2 Nhìn chung, giai... máy trích xuất trùng với kết trích xuất chuyên gia T ( E ) - số lượng câu cần phải trích xuất Các tiêu chí tóm tắt: a - Bản tóm tắt có độ hàm chứa nội dung văn gốc cao b - Mỗi câu văn tóm tắt câu