Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 57 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
57
Dung lượng
1,44 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG lu an n va NÔNG TIẾN CƠNG p ie gh tn to TĨM TẮT VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU d oa nl w oi lm ul nf va an lu LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH z at nh z m co l gm @ an Lu LẠNG SƠN, 2018 n va ac th si ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NÔNG TIẾN CƠNG lu an va n TĨM TẮT VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU gh tn to Chuyên ngành: Khoa học máy tính ie p Mã số: 60 48 01 01 oa nl w d LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH nf va an lu oi lm ul Người hướng dẫn khoa học: PGS-TS Đoàn Văn Ban z at nh z m co l gm @ an Lu LẠNG SƠN, 2018 n va ac th si LỜI CAM ĐOAN Tôi xin cam đoan luận văn sản phẩm nghiên cứu, tìm hiểu cá nhân tơi Những điều trình bày luận văn cá nhân tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định lu cho lời cam đoan an n va tn to Lạng Sơn, tháng năm 2018 p ie gh TÁC GIẢ LUẬN VĂN w d oa nl Nông Tiến Công oi lm ul nf va an lu z at nh z m co l gm @ an Lu n va ac th si i MỤC LỤC MỤC LỤC i DANH MỤC CÁC HÌNH iii DANH MỤC CÁC BẢNG iv MỞ ĐẦU Chương TÓM TẮT VĂN BẢN TIẾNG VIỆT lu 1.1 Bài tốn tóm tắt văn an va 1.1.1 Phân loại tóm tắt n 1.1.3 Mơ hình tóm tắt văn số phương pháp tiếp cận tn to p ie gh 1.2 Các phương pháp đánh giá 1.2.1 Các phương pháp đánh giá 10 nl w 1.2.2 Các phương pháp đánh giá 11 d oa 1.3 Tóm tắt văn tiếng Việt dựa vào trích xuất câu số vấn đề liên quan 12 an lu nf va 1.3.1 Đặc điểm ngôn ngữ văn tiếng Việt 12 lm ul 1.3.2 Một số hướng tiếp cận tốn tóm tắt văn tiếng Việt 15 z at nh oi 1.3.3 Mơ hình tóm tắt văn tiếng Việt dựa vào trích xuất câu 17 1.4 Tổng kết chương 18 z Chương PHƯƠNG PHÁP TÓM TẮT VĂN BẢN DỰA TRÊN ĐỘ TƯƠNG ĐỒNG CÂU 19 gm @ co l 2.1 Một số khái niệm phương pháp tính độ tương đồng câu 19 m 2.1.1 Độ tương đồng 19 an Lu n va ac th si ii 2.1.2 Độ tương đồng ngữ nghĩa phương pháp trích xuất câu dựa độ tương đồng ngữ nghĩa câu 20 2.1.3 Tính độ tương đồng theo độ đo Cosine 21 2.1.4 Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn 22 2.1.5 Phương pháp tính độ tương đồng câu dựa vào mạng Wikipedia 25 2.2 Mơ hình tóm tắt văn tiếng Việt dựa trích xuất câu quan trọng theo phương pháp tính độ tương đồng câu 28 lu 2.2.1 Giai đoạn tiền xử lý 29 an n va 2.2.2 Giai tạo danh sách câu khả dụng 32 tn to 2.2.3 Giai đoạn sinh văn tóm tắt 34 ie gh 2.3 Tổng kết chương 34 p Chương THỰC NGHIỆM MƠ HÌNH TĨM TẮT VĂN BẢN TIẾNG VIỆT 35 nl w d oa 3.1 Môi trường thực nghiệm 35 an lu 3.2 Chương trình tóm tắt văn 35 nf va 3.3 Tiến hành thực nghiệm 37 lm ul 3.3.1 Cơ sở liệu tổng thể 37 z at nh oi 3.3.2 Mơ hình suy luận chủ đề ẩn 37 3.3.3 Dữ liệu thực nghiệm 38 z 3.3.4 Đánh giá độ xác mơ hình tóm tắt văn 38 gm @ 3.4 Tổng kết chương 46 l m co KẾT LUẬN 47 an Lu TÀI LIỆU THAM KHẢO 48 n va ac th si iii DANH MỤC CÁC HÌNH Hình 1.1 Mơ hình hệ thống tóm tắt văn [13] Hình 1.2 Mơ hình chung cho tóm tắt văn tiếng Việt dựa vào trích xuất câu 17 Hình 2.1 Mơ hình tính độ tương đồng câu với chủ đề ẩn 24 Hình 2.2 Mối quan hệ đồ thị viết đồ thị chủ đề Wikipedia 26 lu Hình 2.3 Mơ hình tóm tắt văn tiếng Việt 28 an Hình 2.4 Các câu sau tách cửa sổ nhỏ góc bên trái 29 va n Hình 2.5 Văn sau chuẩn hóa 30 to Hình 3.1 Giao diện chương trình 36 ie gh tn Hình 2.6 Xác định từ dừng ký tự vơ ích 30 p Hình 3.2 Các từ đặc trưng lĩnh vực giáo dục có xác suất xuất cao nl w chủ đề 83, 116, 136 mô hình suy luận chủ đề ẩn 38 d oa Hình 3.3 Kết tóm tắt văn theo phương pháp tổ hợp với tỷ lệ nén an lu 30% 40 nf va Hình 3.4 Độ xác phương pháp tóm tắt theo tỷ lệ nén 44 lm ul Hình 3.5 Độ xác phương pháp tóm tắt tỷ lệ nén 30% đối z at nh oi với số lĩnh vực 45 z m co l gm @ an Lu n va ac th si iv DANH MỤC CÁC BẢNG Bảng 3.1 Kết tóm tắt nhóm văn theo tỷ lệ nén 10% 41 Bảng 3.2 Kết tóm tắt nhóm văn theo tỷ lệ nén 20% 42 Bảng 3.3 Kết tóm tắt nhóm văn theo tỷ lệ nén 30% 43 lu an n va p ie gh tn to d oa nl w nf va an lu z at nh oi lm ul z m co l gm @ an Lu n va ac th si MỞ ĐẦU Với phát triển công nghệ Internet nay, thông tin thời cập nhật Website với tốc độ vũ bão Điều mang lại cho người nhiều lợi ích thiết thực khiến họ gặp phải khơng khó khăn sàng lọc lấy thơng tin hữu ích từ nguồn liệu khổng lồ Theo đánh giá cơng ty Oracle1, có đến 80% liệu giới liệu văn Vì vậy, việc tổ chức quản lý khai thác hiệu nguồn lu liệu toán lớn cần quan tâm nghiên cứu giải an Tóm tắt văn tự động nhằm nhanh chóng thu thông tin quan va n trọng, tăng hiệu xử lý thông tin hướng tiếp cận khai thác gh tn to liệu văn nhận quan tâm nghiên cứu nhiều nhà khoa học, ie nhóm nghiên cứu cơng ty lớn giới p Tóm tắt văn tự động có nhiều ứng dụng thực tế như: tóm tắt tin video, d oa nl w tức, tóm tắt kết tìm kiếm máy tìm kiếm, tóm tắt hình ảnh, tóm tắt an lu Do đặc thù ngôn ngữ nên việc giải tốn tóm tắt văn nf va tiếng Việt đặt cho nhà nghiên cứu thách thức, khó khăn riêng lm ul Các kết khả quan từ nghiên cứu tóm tắt văn tiếng Việt z at nh oi công bố sở cho dự án xây dựng hệ thống tóm tắt văn tiếng Việt tự động hiệu tương lai [4], [5], [6], [7], [8] Với việc chọn đề tài “Tóm tắt văn dựa vào trích xuất câu”, luận z @ văn trung vào việc nghiên cứu, đánh giá lựa chọn phương pháp xây dựng m co l gm mô hình tóm tắt văn tiếng Việt hiệu an Lu http://www.oracle.com/technetwork/testcontent/9ir2text-bwp-f-129974.pdf https://en.wikipedia.org/wiki/Automatic_summarization n va ac th si Chương TÓM TẮT VĂN BẢN TIẾNG VIỆT 1.1 Bài tốn tóm tắt văn Theo Inderjeet Mani mục đích tóm tắt văn tự động là: “Tóm tắt văn tự động nhằm mục đích trích xuất nội dung từ nguồn thơng tin trình bày nội dung quan trọng cho người sử dụng theo khn dạng súc tích gây cảm xúc người sử dụng chương trình cần đến” [13] lu Theo Radev: “Văn tóm tắt văn tạo từ nhiều văn an khác mà truyền tải thông tin quan trọng văn gốc va n có độ dài không nửa văn gốc (thường ngắn đáng kể)” [11] to gh tn Như vậy, tóm tắt văn việc tìm ý văn Bản tóm tắt ie có ba đặc điểm sau [10], [11], [12], [13]: p - Bảo tồn nội dung so với văn gốc: Các nội dung quan trọng nl w hay bật gốc phải giữ lại tóm tắt d oa - Ngắn ngọn: tóm tắt thường ngắn gốc nhiều an lu - Dễ đọc: người sử dụng đọc hiểu dễ dàng nf va Việc đưa tóm tắt có chất lượng khơng bị giới hạn lm ul miền ứng dụng xác định khó khăn nên phương pháp giải kiểu tóm tắt cụ thể 1.1.1 Phân loại tóm tắt z at nh oi tốn tóm tắt văn thường hướng đến kiểu văn cụ thể z phân loại tiêu biểu [13]: co l 1.1.1.1 Theo định dạng đầu gm @ Có nhiều cách phân loại tóm tắt văn khác nhau, sau số cách m - Tóm tắt trích xuất (Extract): tóm tắt gồm đoạn văn an Lu rút trích từ văn gốc n va ac th si - Tóm tắt tóm lược (Abstract): tóm tắt tạo dựa thông tin quan trọng văn gốc 1.1.1.2 Theo mức độ xử lý - Tiếp cận mức ngồi (surface-level): thơng tin miêu tả dạng khái niệm đặc trưng nông (shallow feature) Các đặc trưng nông bao gồm thuật ngữ (term) quan trọng qua thống kê (dựa vào tần số thuật ngữ văn bản), thuật ngữ quan trọng dựa vào vị trí, thuật ngữ cụm từ dấu hiệu hay thuật ngữ câu truy vấn người dùng Kết lu tóm tắt dạng trích xuất (extract) an - Tiếp cận mức sâu (deeper-level): mức này, tóm tắt dạng va n trích xuất dạng tóm tắt (abstract) cần phải sử dụng đến sinh tổng hợp gh tn to ngôn ngữ tự nhiên Với dạng tiếp cận này, phải cần đến phân tích mặt p ie ngữ nghĩa, chẳng hạn sử dụng hướng tiếp cận thực thể để xây dựng dạng biểu diễn thực thể văn (đơn vị văn bản) mối quan hệ thực nl w thể từ tìm phần quan trọng Mối quan hệ thực thể gồm quan d oa hệ ngữ nghĩa như: đồng nghĩa, trái nghĩa, nghĩa hẹp, nghĩa rộng…, quan hệ cú an lu pháp: dựa phân tích cú pháp mối quan hệ khác nf va 1.1.1.3 Theo mục đích tóm tắt lm ul - Tóm tắt thị (Indicative): Đưa thông tin ngắn gọn chủ đề z at nh oi văn Dạng tóm tắt thường sử dụng hệ thống tìm kiếm thông tin Thông thường, độ dài văn tóm tắt loại từ đến 10% độ dài tồn văn z @ - Tóm tắt thơng tin (Information): tóm tắt bao gồm tất thơng tin l gm bật có văn nguồn nhiều mức độ chi tiết khác co - Tóm tắt đánh giá (Evaluation): tóm tắt nhằm mục đích đánh giá vấn đề m văn nguồn, thể quan điểm tác giả công việc họ an Lu n va ac th si 36 Nhóm chức soạn thảo thực chức soạn thảo bản: đánh dấu, lựa chọn vùng văn bản, chép, cắt, dán, undo, redo, chọn font, chọn cỡ chữ, tìm kiếm chuỗi ký tự, Nhóm chức xử lý liệu thực tách từ - tách câu, chuẩn hóa văn bản, tóm tắt văn bản, xây dựng chủ đề ẩn , hiển thị danh sách câu trọng số, hiển thị ma Chức đặt thông số trận tương dộ đồng câu, dùng thay đổi thông số chương trình lu Giao diện chương trình gồm công cụ cung cấp chức an n va phục vụ cho tóm tắt văn bản; Panel chứa cửa sổ hiển thị văn gốc, kết xử lý liệu Các cửa sổ Panel thay đổi kích thước linh gh tn to tách từ - tách câu kết tóm tắt; Panel chứa cửa sổ thể kết p ie hoạt giúp mở rộng diện tích quan sát kết d oa nl w nf va an lu z at nh oi lm ul z l gm @ Hình 3.1 Giao diện chương trình m co an Lu n va ac th si 37 3.3 Tiến hành thực nghiệm 3.3.1 Cơ sở liệu tổng thể Cơ sở liệu tổng thể gồm 150 báo lĩnh vực giáo dục trang vietnamnet.vn/vn, moet.gov.vn tệp ngữ liệu VNESEcorpus2.txt11 chứa khoảng 650.000 câu trích xuất từ khoảng 10.000 báo vietnamnet.vn, dantri.com.vn, nhanhdan.com.vn 3.3.2 Mơ hình suy luận chủ đề ẩn Sử dụng chức “Tách từ - Tách câu”, “Chuẩn hóa văn bản”, “Xây lu dựng chủ đề ẩn” chương trình xử lý sở liệu tổng thể khoảng 22 an thu mơ hình suy luận chủ đề ẩn với 200 chủ đề gồm tệp: va n - wordmap.map: đồ từ gồm 113.865 mục từ to - model-final.phi: chứa phân phối xác suất từ - chủ đề ie gh tn - model-final.others: chứa tham số sử dụng để suy luận theo LDA p - model-final.theta: chứa phân phối xác suất chủ đề - câu (hoặc văn bản) nl w - model-final.tassign: chứa tập chủ đề (topic assignments) cho d oa từ sở liệu huấn luyện an lu - model-final.twords: chứa phân phối xác suất từ có nhiều khả nf va xuất chủ đề lm ul Hình 3.2 cho thấy từ đặc trưng cho lĩnh vực có xu hướng tập z at nh oi trung nhiều số chủ đề Vì vậy, sau trình suy luận chủ đề ẩn cho câu, hai câu chứa nhiều từ có xác suất xuất cao chủ đề có nhiều khả chủ đề xuất hai z l gm ngữ nghĩa cao @ câu Nếu hai câu có nhiều chủ đề chung chúng có độ tương đồng co Q trình xử lý cịn thu tệp ký tự vơ ích uselessChars.lst gồm 26 ký m tự tệp từ dừng stopWords.lst gồm 1933 từ dùng để chuẩn hóa văn http://viet.jnlp.org/download-du-lieu-tu-vung-corpus an Lu 11 n va ac th si 38 lu an n va p ie gh tn to nl w d oa Hình 3.2 Các từ đặc trưng lĩnh vực giáo dục có xác suất xuất nf va an lu cao chủ đề 83, 116, 136 mô hình suy luận chủ đề ẩn 3.3.3 Dữ liệu thực nghiệm lm ul Dữ liệu thực nghiệm gồm 30 báo lấy trang web vietnamnet.vn, z at nh oi moet.gov.vn, nhandan.com.vn, vnexpress.net, tuoitre.vn chia thành lĩnh vực giáo dục, khoa học, kinh doanh, thể thao, pháp luật, du lịch; lĩnh vực 3.3.4 Đánh giá độ xác mơ hình tóm tắt văn z gm @ 3.3.4.1 Phương pháp đánh giá l So sánh kết tóm tắt chương trình tóm tắt văn phương m co pháp tổ hợp - sử dụng công thức (2.5) phương pháp tần số từ - sử dụng an Lu công thức (2.2) với kết tóm tắt Microsoft Word 2003 (gọi chung kết tóm tắt máy thực hiện) theo kết tóm tắt chuyên gia n va ac th si 39 Độ xác kết tóm tắt máy thực tính theo công thức: A= T (M ) 100% T (E) T ( M ) - số lượng câu máy trích xuất trùng với kết trích xuất chuyên gia T ( E ) - số lượng câu cần phải trích xuất Các tiêu chí tóm tắt: a - Bản tóm tắt có độ hàm chứa nội dung văn gốc cao b - Mỗi câu văn tóm tắt câu văn gốc c - Các câu văn tóm tắt có tương đồng ngữ nghĩa thấp lu d - Bản tóm tắt có tỷ lệ nén theo yêu cầu an Chương trình tóm tắt văn sử dụng hai tham số - ngưỡng tương va n đồng hai câu; - số trộn công thức 2.5 to - Đối với phương pháp tóm tắt theo tần số từ = 0.3 p ie gh tn Qua thực nghiệm, chọn sau: w - Đối với phương pháp tóm tắt theo công thức tổ hợp = 0.7 = 0.55 oa nl 3.3.4.2 Đánh giá kết mô hình tóm tắt văn d Minh họa kết tóm tắt văn theo phương pháp tổ hợp lu 11/7”12 nf va an Tên văn gốc: “Công bố điểm thi THPT quốc gia năm 2018 vào ngày lm ul Tổng số câu văn gốc: 11 z at nh oi Tỷ lệ nén tóm tắt: 30% => Số câu cần rút (trích xuất): Thực hiện: sử dụng chức “Mở văn bản”; “Tách từ - Tách câu”; “Chuẩn hóa văn vản”; “Tóm tắt văn bản” để tóm tắt văn z m co l gm @ Kết quả: tóm tắt theo cảm quan đáp ứng yêu cầu (Hình 3.3) an Lu 12 http://vietnamnet.vn/vn/giao-duc/tuyen-sinh/cong-bo-diem-thi-thpt-quoc-gia-nam-2018-vao-ngay11-7-459910.html#inner-article n va ac th si 40 lu Câu số Nội dung câu văn gốc an va n gh tn to p ie d nf va an lu 11 oa 10 nl w Công bố điểm thi THPT quốc gia năm 2018 vào ngày 11/7 Bộ GD-ĐT cho biết hội đồng thi công bố thông báo kết thi THPT quốc gia năm 2018 cho thí sinh vào ngày 11/7 Theo quy chế Bộ GD-ĐT, chậm đến ngày 10/7, Hội đồng thi xuất kết chấm thi từ phần mềm hỗ trợ chấm thi (do Bộ GD-ĐT cung cấp) gửi bảo đảm chế độ mật Cục Quản lý chất lượng để cập nhật kết thi vào phần mềm quản lý thi Cùng đó, phải hoàn thành việc đối sánh kết thi chậm ngày 11/7 Sau đó, Hội đồng thi cơng bố thơng báo kết cho thí sinh vào ngày 11/7 Điểm thi tổ hợp trung bình cộng điểm mơn thi thành phần, quy thang điểm 10, làm tròn đến chữ số thập phân Điểm thi độc lập điểm môn thi thành phần thi tổ hợp quy thang điểm 10, làm tròn đến chữ số thập phân Thí sinh băn khoăn, thắc mắc điểm thi gửi đơn phúc khảo kể từ ngày công bố kết thi, tức từ ngày 11/7 nơi đăng ký dự thi Chậm ngày 15/7, sở GD-ĐT phải cập nhật danh sách thí sinh cơng nhận tốt nghiệp THPT vào phần mềm quản lý thi Các hội đồng thi công bố kết xét công nhận tốt nghiệp THPT tới thí sinh chậm ngày 17/7 Hiệu trưởng trường THPT cấp giấy chứng nhận tốt nghiệp tạm thời, trả học bạ loại giấy chứng nhận (bản chính) cho thí sinh chậm ngày 20/7 lm ul Kết tóm tắt m co l gm Bộ GD-ĐT cho biết hội đồng thi công bố thông báo kết thi THPT quốc gia năm 2018 cho thí sinh vào ngày 11/7 Thí sinh băn khoăn, thắc mắc điểm thi gửi đơn phúc khảo kể từ ngày công bố kết thi, tức từ ngày 11/7 nơi đăng ký dự thi Chậm ngày 15/7, sở GD-ĐT phải cập nhật danh sách thí sinh cơng nhận tốt nghiệp THPT vào phần mềm quản lý thi @ Nội dung câu tóm tắt z z at nh oi Câu văn gốc an Lu Hình 3.3 Kết tóm tắt văn theo phương pháp tổ hợp với tỷ lệ nén 30% n va ac th si 41 Kết tóm tắt theo tỷ lệ nén 10% Chương trình tóm tắt văn Theo P.Pháp tổ hợp Theo tần số từ T (M ) / T ( E ) T (M ) / T ( E ) Chính xác Chính xác Nhóm văn thuộc chủ đề giáo dục : 29 1/2 50% 1/2 50% : 68 2/6 33.3% 2/6 33.3% : 27 0/2 0% 0/2 0% : 36 1/3 33.3% 1/3 33.3% : 20 1/2 50% 0/2 0% Độ xác trung bình 33% 27% Nhóm văn thuộc chủ đề kinh doanh : 38 1/3 33.3% 1/3 33.3% : 26 0/2 0% 0/2 0% : 42 2/4 50% 1/4 25% : 47 2/4 50% 2/4 50% : 18 0/1 0% 0/1 0% Độ xác trung bình 27% 22% Nhóm văn thuộc chủ đề Du lịch : 26 1/2 50% 1/2 50% : 10 0/1 0% 0/1 0% : 53 1/5 20% 2/5 40% : 25 0/2 0% 0/2 0% 5: 54 2/5 40% 0/5 0% Độ xác trung bình 22% 18% Nhóm văn thuộc chủ đề Khoa học : 30 1/3 33.3% 1/3 33.3% : 15 0/1 0% 0/1 0% : 34 0/3 0% 0/3 0% : 53 2/5 40% 1/5 20% : 89 3/8 37.5% 3/8 37.5% Độ xác trung bình 32% 18% Nhóm văn thuộc chủ đề Thể thao : 21 1/2 50% 1/2 50% : 21 0/2 0% 0/2 0% : 17 0/1 0% 0/1 0% : 58 2/5 40% 1/5 20% : 38 1/3 33,3% 1/3 33,3% Độ xác trung bình 25% 22% Nhóm văn thuộc chủ đề Pháp luật : 32 0/3 0% 1/3 33,3% : 21 1/2 50% 1/2 50% : 32 1/3 33.3% 1/3 33.3% : 25 0/2 0% 0/2 0% : 49 1/4 25% 2/4 50% Độ xác trung bình 22% 33% Độ xác chung 27% 26% Microsoft Word 2003 Văn : Số câu lu an n va Chính xác Rút câu Rút 11 câu Rút câu Rút câu Rút câu # # # # # 0% Rút câu Rút câu 1/4 Rút câu 0/1 # # 25% # 0% 12.5% Rút câu Rút câu Rút câu Rút câu 0/5 # # # # 0% 0% 1/3 1/2 1/3 Rút câu Rút 10 câu 33.3% 50% 33.3% # # 11.4% 1/2 0/2 0/1 Rút câu Rút câu 50% 0% 0% # # 16.7% Rút câu Rút câu Rút câu Rút câu Rút câu # # # # # 0% 15.4% p ie gh tn to T (M ) / T ( E ) d oa nl w nf va an lu z at nh oi lm ul z l gm @ m co Bảng 3.1 Kết tóm tắt nhóm văn theo tỷ lệ nén 10% an Lu n va ac th si 42 Kết tóm tắt theo tỷ lệ nén 20% Chương trình tóm tắt văn Theo P.Pháp tổ hợp Theo tần số từ T (M ) / T ( E ) T (M ) / T ( E ) Chính xác Chính xác Nhóm văn thuộc chủ đề giáo dục : 29 4/5 80% 3/5 60% : 68 9/13 69.2% 8/13 61.5% : 27 3/5 60% 3/5 60% : 36 5/7 71.4% 5/7 71.4% : 20 3/4 75% 2/4 50% Độ xác trung bình 71.1% 61% Nhóm văn thuộc chủ đề kinh doanh : 38 6/7 85.7% 5/7 71.4% : 26 3/5 60% 3/5 60% : 42 5/8 62.5% 6/8 75% : 47 6/9 66.7% 6/9 66.7% : 18 2/3 66.7% 2/3 66.7% Độ xác trung bình 68.3% 68% Nhóm văn thuộc chủ đề Du lịch : 26 2/4 40% 3/5 60% : 10 1/2 50% 1/2 50% : 53 8/10 80% 7/10 70% : 25 2/5 40% 3/5 60% 5: 54 4/10 40% 5/10 50% Độ xác trung bình 50% 58% Nhóm văn thuộc chủ đề Khoa học : 30 4/6 66.7% 4/6 66.7% : 15 2/3 66.7% 2/3 66.7% : 34 4/6 66.7% 4/6 66.7% : 53 8/10 80% 7/10 70% : 89 12/17 70.5% 12/17 70.5% Độ xác trung bình 70.1% 68% Nhóm văn thuộc chủ đề Thể thao : 21 2/4 50% 2/4 50% : 21 2/4 50% 2/4 50% : 17 2/3 66.7% 2/3 66.7% : 58 9/11 81.8% 8/11 72.7% : 38 5/7 71,4% 5/7 71,4% Độ xác trung bình 64% 62.2% Nhóm văn thuộc chủ đề Pháp luật : 32 5/6 83.3% 4/6 66.7% : 21 3/4 75% 3/4 75% : 32 4/6 66.7% 4/6 66.7% : 25 3/5 60% 4/5 80% : 49 6/9 66.7% 7/9 77.8% Độ xác trung bình 70.3% 73% Độ xác chung 65.6% 65% Văn : Số câu Microsoft Word 2003 lu an n va Chính xác 2/5 Rút 16 câu Rút câu 4/7 Rút câu 40% # # 57.1% # 48.6% Rút câu Rút câu Rút câu Rút 10 câu Rút câu # # # # # 0% Rút câu 1/2 Rút 13 câu Rút câu 3/10 # 50% # # 30% 40% Rút câu 1/3 Rút câu Rút 12 câu Rút 24 câu # 33.3% # # # 33.3% Rút câu 1/4 Rút câu 6/11 4/7 # 25% # 54.5% 57.1 45.5% Rút câu 1/4 Rút câu Rút câu 5/9 # 25% # # 55.6% 40.3% 34.6% p ie gh tn to T (M ) / T ( E ) d oa nl w nf va an lu z at nh oi lm ul z l gm @ m co Bảng 3.2 Kết tóm tắt nhóm văn theo tỷ lệ nén 20% an Lu n va ac th si 43 Kết tóm tắt theo tỷ lệ nén 30% Chương trình tóm tắt văn Theo P.Pháp tổ hợp Theo tần số từ T (M ) / T ( E ) T (M ) / T ( E ) Chính xác Chính xác Nhóm văn thuộc chủ đề giáo dục : 29 7/8 87.5% 6/8 75% : 68 17/20 85% 13/20 65% : 27 6/8 75% 6/8 75% : 36 7/10 70% 7/10 70% : 20 4/6 66.7% 4/6 66.7% Độ xác trung bình 76.8% 71.3% Nhóm văn thuộc chủ đề kinh doanh : 38 9/11 81.8% 8/11 72.7% : 26 5/7 71.4% 4/7 57.1% : 42 8/12 66.7% 8/12 66.7% : 47 10/14 71.4% 9/14 64.3% : 18 4/5 80% 4/5 80% Độ xác trung bình 74.3% 68.2% Nhóm văn thuộc chủ đề Du lịch : 26 4/7 57,1% 4/7 57,1% : 10 2/3 66.7% 2/3 66.7% : 53 13/15 86,7% 11/15 73.3% : 25 4/7 57,1% 5/7 71.4% 5: 54 11/16 68.8% 11/16 68.8% Độ xác trung bình 67.3% 67.5% Nhóm văn thuộc chủ đề Khoa học : 30 7/9 77.8% 7/9 77.8% : 15 3/4 75% 3/4 75% : 34 8/10 80% 7/10 70% : 53 11/15 73.3% 12/15 80% : 89 20/26 76.9% 20/26 76.9% Độ xác trung bình 76.6% 75.9% Nhóm văn thuộc chủ đề Thể thao : 21 5/6 83.3% 4/6 66.7% : 21 4/6 66.7% 4/6 66.7% : 17 3/5 60% 3/5 60% : 58 14/17 82.4% 13/17 76.5% : 38 8/11 72,7% 8/11 72,7% Độ xác trung bình 73% 68,5% Nhóm văn thuộc chủ đề Pháp luật : 32 7/9 77.8% 7/9 77.8% : 21 4/6 66.7% 4/6 66.7% : 32 7/9 77.8% 6/9 66.7% : 25 5/7 71.4% 5/7 71.4% : 49 11/14 78.6% 10/14 71.4% Độ xác trung bình 74.5% 70.8% Độ xác chung 73.7% 70.3% Microsoft Word 2003 Văn : Số câu lu an n va Chính xác 7/10 13/19 7/12 6/10 4/6 70% 68.4% 58.3% 60% 66.7% 64.7% 8/13 4/8 8/13 10/14 3/5 61.5% 50/% 61.5% 71.4 60% 60.9% 6/9 3/5 12/18 5/7 12/16 66.7% 60% 66.7% 71.4% 75% 68% 6/9 3/5 6/9 12/16 17/24 66.7% 60% 66.7% 75% 70.8% 67.8% 1/2 2/5 2/4 12/17 8/13 50% 40% 50% 70.6% 61.5% 54.4% 8/11 4/6 7/10 4/8 11/17 72.7% 66.7% 70% 50% 64.7% 64.8% 63,4% p ie gh tn to T (M ) / T ( E ) d oa nl w nf va an lu z at nh oi lm ul z l gm @ m co Bảng 3.3 Kết tóm tắt nhóm văn theo tỷ lệ nén 30% an Lu n va ac th si 44 Kết tóm tắt tỷ lệ nén 10% có độ xác thấp Phương pháp tổ hợp cho kết chung tốt Microsoft Word 2003 thường rút số câu vượt quy định q nhiều (nên khơng thể giá tính xác) Với tỷ lệ nén 20%, độ xác kết tóm tắt tăng mạnh so với tỷ lệ nén 10% Tóm tắt theo cơng thức tổ hợp cho kết tốt Microsoft Word 2003 có kết tóm tắt yếu Với tỷ lệ nén 30%, kết tóm tắt có độ xác cao Tóm tắt theo cơng thức tổ hợp cho kết tốt Microsoft Word 2003 có kết thấp lu (chấp nhận kết tóm tắt vượt số câu quy định Microsoft Word) an Hình 3.4 cho thấy phương pháp tổ hợp có kết tóm tắt tốt va n chưa mạnh hẳn so với phương pháp tần số từ Sở dĩ kết gh tn to sử dụng công thức 2.5 với số trộn = 0.7 ngưỡng tương đồng hai p ie câu = 0.55 Như vậy, nói chung kết tóm tắt phụ thuộc nhiều vào d an lu 70 oa 80 nl w tần suất từ (tới 70%) nf va 60 lm ul 50 PP tần số từ z at nh oi 40 PP tổ hợp 30 z 20 MS Word @ Nén 20% Nén 30% m co Nén 10% l gm 10 an Lu Hình 3.4 Độ xác phương pháp tóm tắt theo tỷ lệ nén n va ac th si 80 70 64,7 60,9 68 67,8 54,4 64,8 63,4 76,8 74,3 67,3 76,6 73 74,5 73,7 90 71,3 68,2 67,5 75,9 68,5 70,8 70,3 45 60 Giáo dục Kinh doanh Du lịch 50 Khoa học 40 Thể thao 30 Pháp luật 20 KQ chung 10 lu an PP tổ hợp PP tần số từ MS Word 2003 n va số lĩnh vực Hình 3.5 cho thấy kết tóm tắt chưa thật ổn định tất lĩnh p ie gh tn to Hình 3.5 Độ xác phương pháp tóm tắt tỷ lệ nén 30% vực Có thể thấy, sử dụng 150 báo lĩnh vực giáo dục nên số từ oa nl w đặc trưng lĩnh vực có xác suất xuất cao chủ đề 83, 116, 136 d (hình 3.2) Trong lĩnh vực khác liệu chưa có phân loại an lu Vì mơ hình suy luận chủ đề ẩn LDA tổng phân bố xác suất từ nf va tập chủ đề 1; tổng phân bố xác suất từ chủ đề 1; lm ul tổng phân bố xác suất chủ đề văn Như vậy, để có kết z at nh oi tóm tắt theo suy luận chủ đề ẩn đạt hiệu cao cho lĩnh vực cần phải: - Thu thập sở liệu tổng thể có đầy đủ từ đặc trưng cho lĩnh vực tần suất từ đặc trưng phải đủ lớn để chúng có xác suất xuất z gm @ cao chủ đề - Loại bỏ ký tự vơ ích, từ vơ ích (bao gồm từ vơ nghĩa l co từ có thường xuyên xuất lĩnh vực) từ dừng khỏi sở m liệu tổng thể nhằm giảm kích thước sở liệu tổng thể tăng hiệu an Lu cho việc xác định phân bố xác suất từ chủ đề n va ac th si 46 Đánh giá chung Kết thực nghiệm, thấy có vài trường hợp tóm tắt theo phương pháp tổ hợp có kết chưa cao kết chung phương pháp tốt tỷ lệ nén Đối với nhóm văn lĩnh vực giáo dục, phương pháp tổ hợp cho kết vượt trội Trong đó, lĩnh vực khác phương pháp chưa thể rõ rệt hiệu quả; chí cịn có độ xác cịn thấp lĩnh vực du lịch tỷ lệ nén 30% (xem bảng 3.3 hình 3.5) Mặt khác, phương lu pháp tổ hợp chưa cho kết ổn định trình thực nghiệm an Nguyên nhân sở liệu tổng thể dùng để xây dựng mơ hình chủ va n đề ẩn chưa thật tốt (xem 3.3.1) to gh tn Theo cảm quan, tỷ lệ nén 20%, 30% tóm tắt phương p ie pháp tổ hợp liền mạch (xem hình 3.1, 3.3) nl w 3.4 Tổng kết chương d oa Trong chương trình bày cụ thể môi trường thực nghiệm; phương an lu pháp thực nghiệm kết thực nghiệm Kết thực nghiệm cho thấy z at nh oi lm ul hướng tiếp cận tốt nf va tóm tắt văn theo phương pháp tổ hợp trình bày luận văn z m co l gm @ an Lu n va ac th si 47 KẾT LUẬN Tóm tắt văn tốn khó có nhiều ứng dụng thực tế Những kết nghiên cứu tóm tắt đơn văn tiếng Việt trình bày luận văn là: • Giới thiệu khái quát số phương pháp tóm tắt văn phổ biến, vấn đề đặc thù tóm tắt văn tiếng Việt trình bày cụ thể mơ hình tóm tắt đơn văn tiếng Việt dựa vào trích xuất câu lu • Dựa vào nghiên cứu độ tương đồng ngữ nghĩa, luận văn an va xây dựng công thức tổ hợp đo độ tương đồng ngữ nghĩa dựa vào chủ đề ẩn n phương pháp sử dụng công thức để tóm tắt văn to gh tn • Mơ hình chương trình tóm tắt đơn văn tiếng Việt đánh giá p ie qua thực nghiệm cho thấy tính hiệu tóm tắt văn tiếng Việt có thể ứng dụng vào thực tế oa nl w Những công việc tương lai: d • Nghiên cứu cải tiến mơ hình, chương trình tóm tắt đơn văn tiếng an lu Việt để tăng tốc độ thực nâng cao chất lượng tóm tắt nf va • Nghiên cứu xây dựng sở liệu tổng thể mơ hình suy luận chủ đề lm ul ẩn hiệu cho phương pháp tính độ tương đồng dựa chủ đề ẩn z at nh oi • Nghiên cứu cải tiến phương pháp tính độ tương đồng ngữ nghĩa câu để nâng hiệu suất mơ hình tóm tắt văn z m co l gm @ an Lu n va ac th si 48 TÀI LIỆU THAM KHẢO Tiếng Việt Diệp Quang Ban (chủ biên), Hoàng Văn Thung (2008), Ngữ pháp tiếng Việt, tập 1, Nxb Giáo dục, Hà Nội Diệp Quang Ban (2008), Ngữ pháp tiếng Việt, tập 2, Nxb Giáo dục, Hà Nội Hồ Trần Ngọc Oanh (2016), Ngữ pháp tiếng Việt, http://nguvan.ued.udn.vn/?p=1958 Đỗ Phúc, Hồng Kiếm (2004), “Rút trích ý từ văn Tiếng Việt hỗ lu trợ tạo tóm tắt nội dung”, Tạp chí Các cơng trình nghiên cứu –triển khai viễn an thông công nghệ thông tin, số 13, tr 59-63 va n Nguyễn Trọng Phúc, Lê Thanh Hương (2010), “Tóm tắt văn tiếng Việt gh tn to sử dụng cấu trúc diễn ngôn”, The International Conference on Asian ie Language Processing (IALP), Harbin, China, 2010 p Lê Quý Tài (2011), “Nghiên cứu phương pháp xử lý tiếng việt ứng dụng oa nl w cho tóm tắt văn bản”, Luận văn thạc sỹ, Đại học Công nghệ - Đại học Quốc gia Hà Nội d an lu Vương Toàn (2007), “Thử đề xuất quy trình tự động tóm tắt văn khoa nf va học”, http://www.glib.hcmus.edu.vn/bantin/bt107/bai3.pdf lm ul Trần Mai Vũ (2009), “Tóm tắt đa văn dựa vào trích xuất câu”, Luận Tiếng Anh z at nh oi văn thạc sĩ, Đại học Công nghệ - Đại học Quốc gia Hà Nội z gm @ Daniel Marcu (1997), From Discourse Structures to Text Summaries, In Proceedings of the ACL97/EACL97 Workshop on Intelligent Scalable Text m co l Summarization, Madrid, Spain, 1997, pp 82–88 an Lu n va ac th si 49 10 Dipanjan Das, Andr´e F.T Martins (2007), A Survey on Automatic Text Summarization, https://www.cs.cmu.edu/~nasmith/LS2/das-martins.07.pdf, November 21, 2007 11 Dragomir R Radev, Kathleen McKeown (2002), “Introduction to the Special Issue on Summarization”, Computational Linguistics, Volume 28 (4), pp 399-408 12 Inderjeet Mani and Mark T Maybury (eds) (1999), Advances in Automatic Text Summarization, MIT Press, 1999 lu 13 Inderjeet Mani (2001), Automatic Summarization, John Benjamins an Publishing Co., 2001 va n 14 Inderjeet Mani (2001), “Summarization Evaluation: An Overview”, In: gh tn to Proceedings of the North American chapter of the Association for Linguistics (NAACL), Workshop on Automatic p ie Computational Summarization, USA oa nl w 15 Jezek, K and Steinberger, J (2008) "Automatic Text Summarization (The state of the art 2007 and new challenges)", Znalosti, FIIT STU Bratislava, d an lu Slovakia, pp.1-12 nf va 16 Morris, Jane and Hirst, Graeme, “Lexical cohesion, the thesaurus, and the lm ul structure of text”, Computational linguistics, 17(1), March 1991, 21-48 z at nh oi 17 Phan Xuan Hieu, Susumu Horiguchi, Nguyen Le Minh (2008), Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections, In The 17th International World Wide Web Conference, z gm @ 2008 18 Ponzetto, Simone Paolo, and Michael Strube (2007), Knowledge Derived l m Intelligence Research, 30: 181-212, 2007 co from Wikipedia For Computing Semantic Relatedness, Journal of Artificial an Lu n va ac th si 50 19 Senellart and V D Blondel (2008), Automatic discovery of similar words, Survey of Text Mining II: Clustering, Classification and Retrieval (M W Berry and M Castellanos, editors): 25–44, Springer-Verlag, January 2008 20 Strube, M & S P Ponzetto (2006), WikiRelate! Computing semantic relatedness using Wikipedia, In Proc of AAAI-06, 2006 21 Torsten Zesch, Iryna Gurevych (2007), Analysis of the Wikipedia Category Graph for NLP Applications, In Proc of the TextGraphs-2 Workshop, NAACL-HLT, 2007 lu 22 Torsten Zesch, Iryna Gurevych, and Max Muhlhauser (2007), Comparing an Wikipedia and German Word-net by Evaluating Semantic Relatedness on va n Multiple Datasets, In Proceedings of NAACL-HLT, 2007 gh tn to 23 Vishal Gupta, Gurpreet Singh Lehal (2010), “A Survey of Text p ie Summarization Extractive Techniques”, Journal of Emerging Technologies in Web Intelligence, Vol 2, No (2010) oa nl w 24 Yuhua Li, David McLean, Zuhair Bandar, James O'Shea, Keeley A Crockett (2006), Sentence Similarity Based on Semantic Nets and Corpus d nf va 8, august 2006 an lu Statistics, IEEE transactions on knowledge and data engineering, vol 18, no z at nh oi lm ul z m co l gm @ an Lu n va ac th si