Tìm hiểu kỹ thuật tóm tắt đa văn bản tiếng việt sử dụng mô hình đồ thị

100 286 5
Tìm hiểu kỹ thuật tóm tắt đa văn bản tiếng việt sử dụng mô hình đồ thị

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG ĐÀO THÀNH CHUN TÌM HIỂU KỸ THUẬT TÓM TẮT ĐA VĂN BẢN TIẾNG VIỆT SỬ DỤNG HÌNH ĐỒ THỊ LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN, 2018 ii ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG ĐÀO THÀNH CHUN TÌM HIỂU KỸ THUẬT TĨM TẮT ĐA VĂN BẢN TIẾNG VIỆT SỬ DỤNG HÌNH ĐỒ THỊ Chuyên ngành khoa học máy tính Mã số: 8 1 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS Nguyễn Ngọc Cương THÁI NGUYÊN, 2018 i LỜI CAM ĐOAN Em xin cam đoan tất kết trình bày luận văn: “Tìm hiểu kỹ thuật tóm tắt đa văn tiếng Việt sử dụng hình đồ thị” cơng trình nghiên cứu riêng em, không chép nguyên từ công trình khác Các số liệu, kết nghiên cứu luận văn sử dụng trung thực, kiểm chứng chưa công bố cơng trình tác giả khác Nếu sai em xin hoàn toàn chịu trách nhiệm Thái Nguyên, ngày tháng năm 2018 Học viên Đào Thành Chuyên ii LỜI CẢM ƠN Trước hết em xin bày tỏ lòng biết ơn sâu sắc đến thầy giáo TS Nguyễn Ngọc Cương – Phó Cục trưởng cục Cơng nghệ thơng tin, Bộ Cơng an người trực tiếp hướng dẫn, Nhóm TS Nguyễn Thị Thu Hà – Phó trưởng khoa công nghệ thông tin, Đại học Điện lực bảo tận tình hết lòng giúp đỡ em suốt thời gian làm luận văn Xin trân trọng cảm ơn tới Ban giám hiệu, thầy cô giáo trường Đại học Công nghệ thông tin truyền thông Thái Nguyên chia sẻ động viên giúp đỡ em vượt qua khó khăn để hồn thành tốt cơng việc nghiên cứu Xin chân thành cảm ơn gia đình, bạn bè, đồng nghiệp người ủng hộ, quan tâm, giúp đỡ, động viên, tạo điều kiện tốt chỗ dựa vững giúp em hồn thành luận văn Cuối em xin gửi lời chúc sức khỏe thành cơng tới tất q thầy gia đình toàn thể bạn Thái Nguyên, ngày tháng năm 2018 Học viên Đào Thành Chuyên iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC CÁC TỪ VIẾT TẮT v DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ vi DANH MỤC CÁC BẢNG BIỂU vii MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN CÁC KỸ THUẬT TÓM TẮT ĐA VĂN BẢN TIẾNG VIỆT 1.1 Bài tốn tóm tắt đa văn 1.1.1 Các khái niệm 1.1.2 Phân loại tốn tóm tắt 1.2 Kỹ thuật tóm tắt đa văn tiếng Anh 1.2.1 Tóm tắt đơn văn tiếng Anh 1.2.2 Tóm tắt đa văn tiếng Anh 10 1.3 Kỹ thuật tóm tắt đa văn tiếng Việt 10 1.3.1 Tóm tắt đơn văn tiếng Việt 10 1.3.2 Tóm tắt đa văn tiếng Việt 15 1.4 Kết luận chương I 16 CHƯƠNG 2: PHƯƠNG PHÁP TÓM TẮT VĂN BẢN DỰA TRÊN HÌNH ĐỒ THỊ 17 2.1 Hướng tiếp cận tốn tóm tắt đa văn 17 2.2 Các thách thức trình tóm tắt đa văn 18 2.3 Phân cụm văn 22 2.4 Xây dựng hình chủ đề 27 2.5 Tóm tắt văn tiếng Việt dựa hình đồ thị 31 iv 2.5.1 Trọng số câu 31 2.5.2 Độ tương đồng câu 32 2.6 Xây dựng đồ thị tóm tắt văn 34 2.7 Phân tích thuật tốn 38 2.8 Kết luận chương 43 CHƯƠNG III: XÂY DỰNG CHƯƠNG TRÌNH VÀ THỰC NGHIỆM 44 3.1 Xây dựng chương trình 44 3.1.1 Xây dựng chương trình tóm tắt văn tiếng Việt sử dụng hình đồ thị 44 3.1.2 Xây dựng chương trình ngôn ngữ C# 47 3.2 Thực nghiệm đánh giá kết 53 3.2.1 Kịch liệu thực nghiệm 53 3.2.2 Kết thử nghiệm 56 3.3 Kết luận chương 58 KẾT LUẬN 59 Kết luận 59 Khuyến nghị 60 TÀI LIỆU THAM KHẢO 61 PHỤ LỤC 64 v DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Từ gốc Nghĩa tiếng việt MMR Maximal Maginal Relevance Tối đa Q&A Question and Answering Hệ thống hỏi đáp tự động Document Understanding Hội nghi chuyên hiểu Conferences văn DUC TF Term Frequency Tần suất từ/cụm từ văn Crossdocument Structure Taxonomy mối quan hệ Theory xuyên văn PMI Pointwise Mutual Information Độ đo tương hỗ từ LSI Latent Semantic Indexing Chỉ số ngữ nghĩa ẩn CST vi DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Các cách tiếp cận tóm tắt văn 11 Hình 1.2 hình đồ thị vơ hướng 13 Hình 2.1 Tập văn chưa xử lý bị nhiễu 23 Hình 2.2 Các tập chủ đề đặt tên tính xác suất 24 Hình 2.3 Văn sau sử dụng công cụ tách từ 25 Hình 2.4 Quy trình xử lý phân cụm văn 26 Hình 2.5 hình chủ đề dựa xác xuất 29 Hình 2.6 Quy trình tóm tắt văn tiếng Việt 34 Hình 2.7 hình đồ thị tóm tắt văn tiếng Việt 37 Hình 3.1 Cơ sở liệu hệ thống 45 Hình 3.2 Chương trình tách từ Vntagger 46 Hình 3.3 Bảng gồm thuật ngữ tách từ tập liệu văn 47 Hình 3.4 Cơng cụ tách từ Vntagger 48 Hình 3.5 Các file định dạng xml tạo thực tách từ 48 Hình 3.6 Kết file định dạng xml cụ thể 49 Hình 3.7 Giao diện hệ thống tóm tắt văn tiếng Việt 49 Hình 3.8 Giao diện tạo tập từ chủ đề (Tập từ lõi) 50 Hình 3.9 Giao diện module từ điển 50 Hình 3.10 Giao diện module huấn luyện 51 Hình 3.11 Giao diện module tóm tắt văn 52 Hình 3.12 Giao diện thơng tin câu 52 Hình 3.13 Giao diện thơng tin độ tương đồng câu 53 Hình 3.14 Những văn khơng cho kết tóm tắt 54 Hình 3.15 Độ tương đồng khơng thể khơng có kết tóm tắt 55 Hình 3.16 Thơng tin câu thể rõ thơng số có kết tóm tắt 55 vii Hình 3.17 Giao diện phần tách từ gán nhãn 56 Hình 3.18 Tập văn huấn luyện 57 Hình 3.19 Thơng tin câu 57 Hình 3.20 Kết độ tương đồng câu 58 DANH MỤC CÁC BẢNG BIỂU Bảng 2.1 Bảng so sánh phương pháp tiếp cận tóm tắt đa văn 18 Bảng 2.2 Taxonomy mối quan hệ xuyên văn 21 Bảng 2.3 Các từ chủ đề tập tả Andrews năm 2009 27 Bảng 2.4 hình chủ đề nhóm tác giả Nguyễn Thị Thu Hà 31 Bảng 2.5 hình chủ đề học viên xây dựng 31 Bảng 2.6 Đánh giá hiệu thuật toán 39 MỞ ĐẦU Sự phát triển nhanh chóng mạng Internet với bước tiến mạnh mẽ công nghệ lưu trữ, lượng thông tin lưu trữ trở nên vô lớn Thông tin sinh liên tục ngày mạng Internet, lượng thông tin văn khổng lồ mang lại lợi ích khơng nhỏ cho người, nhiên, khiến khó khăn việc tìm kiếm tổng hợp thơng tin Giải pháp cho vấn đề tóm tắt văn tự động Tóm tắt văn tự động xác định toán thuộc lĩnh vực khái phá liệu văn bản; việc áp dụng tóm tắt văn giúp người dùng tiết kiệm thời gian đọc, cải thiện tìm kiếm tăng hiệu đánh mục cho máy tìm kiếm Từ nhu cầu thực tế thế, tốn tóm tắt văn tự động nhận quan tâm nghiên cứu nhiều nhà khoa học, nhóm nghiên cứu công ty lớn giới Các báo liên quan đến tóm tắt văn xuất nhiều hội nghị tiếng : DUC1 2001-2007, TAC2 2008, ACL3 20012007… bên cạnh phát triển hệ thống tóm tắt văn như: MEAD, LexRank, Microsoft Word (Chức AutoSummarize)… Một vấn đề thách thức quan tâm năm gần tốn tóm tắt văn tự động đưa kết tóm tắt cho tập văn liên quan với mặt nội dung hay gọi tóm tắt đa văn Tóm tắt văn hướng nghiên cứu nhà nghiên cứu quan tâm thời gian gần đây, làm rút gọn nội dung thơng tin dư thừa văn (chỉ để lại văn tóm tắt trạng thái đọng nhất) điều có ý nghĩa kỷ ngun cơng nghệ thơng tin [16] Yanran Li and Sujian Li, Query-focused Multi-Document Summarization: Combining a Topic Model with Graph- based Semisupervised Learning, Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers, pages 1197–1207, Dublin, Ireland, August 23-29 2014 PHỤ LỤC Phụ lục 1: Code pha huấn luyện wnd { display:none; } subdcau { display:block; clear:left; position:absolute; right:0%; top:0%; width:24px; height:24px; cursor: pointer; } ndcau { cursor: pointer; } bphai { float: left; margin-top: 1px; } btrai { float: left; margin: 0px 5px 5px 5px; } $(document).ready(function () { var select = null; $(".subdcau").click(function (evt) { $(".dcau").hide(); }); $("#Button1").click(function (evt) { $("#load").show(); var fileUpload = $("#FileUpload2").get(0); var files = fileUpload.files; var listcau = new Array(); var data = new FormData(); for (var i = 0; i < files.length; i++) { data.append(files[i].name, files[i]); } var options = {}; options.url = "Handler1.ashx"; options.type = "POST"; options.data = data; options.contentType = false; options.processData = false; options.success = function (result) { $.ajax({ type: "POST", url: "WebService1.asmx/getall_Cau", contentType: "application/json; charset=utf-8", dataType: "json", success: function (obj) { $("#load").hide(); var html = 'STTCâu'; $.each(obj.d, function (index, item) { listcau[index] = item; var listtu = item.ListTu.split('|'); var listpi = item.ListPi.split('|'); var listti = item.ListTi.split('|'); html += '' + index + '' + item.Cau + ''; html += ''; html += ''; html += 'TừTrọng Số Tần Suất'; $.each(listtu, function (ind, tem) { html += '' + tem + ' ' + listpi[ind] + ' ' + listti[ind] + ' '; }); html += ''; html += ''; }); $(".dcau").empty(); $(".dcau").append(html + ''); $(".dcau").show(); $(".ndcau").click(function () { var ind = $(this).attr('index'); if (select != null) $('#' + select).hide(); select = ind; $('#' + select).show(); }); }, failure: function (msg) { }, error: function (jq, status, message) { alert('A jQuery error has occurred Status: ' + status + ' - Message: ' + message); } }); }; options.error = function (err) { alert(err.statusText); }; $.ajax(options); evt.preventDefault(); }); }); Đang xử lý Phụ lục 2: Code pha tóm tắt .cau, subnd{ cursor:pointer; } wnd { display: none; } bphai { float: left; margin-top: 1px; } btrai { float: left; margin: 0px 5px 5px 5px; } $(document).ready(function () { var listcau = new Array(); var select = null; document.getElementById('file').onchange = function () { var kcau = ''; var j = 0, k = this.files.length; for (var i = 0; i < k; i++) { var reader = new FileReader(); reader.onloadend = function (evt) { if (evt.target.readyState == FileReader.DONE) { kcau += evt.target.result; j++; if (j == k) { $("#dauvao").val(kcau); } } }; reader.readAsText(this.files[i]); } $("#tt").click(function () { '"}', $.ajax({ type: "POST", url: "WebService1.asmx/tomtat", contentType: "application/json; charset=utf-8", data: '{text:"' + $('#dauvao').val().replace(/"/gi, '”') + dataType: "json", success: function (response) { html = ""; tbl = 'STTCâu'; tbl1 = ''; var data = response.d; var arrval = new Array(); $.each(data.listCau, function (index, item) { arrval[index] = 0; var n = 0; $.each(item.Dictionary, function (ind, it) { arrval[index] += it; n+ +; }); if (n != 0) arrval[index] = arrval[index] / n; else arrval[index] = 0; var x = (Math.round(arrval[index] * 1000) / 1000).toString(); if (x.length == 1) x += ".00"; if (x.length == 2) x += "0"; arrval[index] = x; }); var ptram = (Number($('#ptram').val()) * data.list.length) / 100; ptram = Math.round(ptram); var coutp = 0; var scheck = ''; console.log('Kết quả: ' + ptram); $.each(data.list, function (index, item) { if (item[0]) { if (coutp < ptram) { var lcheck = item.sort(function (a, b) { if (a.KhoangCach == b.KhoangCach) { return b.TrongSo - a.TrongSo } else { return b.KhoangCach - a.KhoangCach } }); for (var j = 0; j < lcheck.length; j++) if (Number(lcheck[j].KhoangCach) >= 0.5 && scheck.search(lcheck[j].Text.trim()) == -1) { html += '' + lcheck[j].Text.trim() + ' '; scheck += lcheck[j].Text.trim(); console.log('Khoảng cách: ' + lcheck[j].KhoangCach); coutp++; break; } } } listcau[index] = item; tbl1 += 'S' + index + '(' + arrval[index] + ')'; tbl += '' + index + '' + data.listCau[index].Text.trim() + '.'; }); tbl1 += ''; $.each(data.list, function (index, item) { ')'; 1000) / 1000).toString(); tbl1 += 'S' + index + '(' + arrval[index] + $.each(item, function (ind, itm) { var x = (Math.round(Number(itm.KhoangCach) * if (x.length == 1) x += ".00"; if (x.length == 2) x += "0"; if (ind == index) tbl1 += 'xxx' + x + ''; 'xxx'; else tbl1 += '' + x + ''; }); if (index == data.list.length - 1) tbl1 += tbl1 += ''; }); tbl1 += ''; $("#nd1").empty(); $("#nd1").hide(); $("#nd2").empty(); $("#nd2").hide(); $("#nd1").append(tbl + ''); $("#nd2").append(tbl1); $('#nd2').show(); $('#nd1').show(); $('#tabs').show(); $("#kq").empty(); $("#kq").append(html); $(".cau").click(function () { var html = 'Câu S' + $(this).attr('index') + 'STTCâuTrọng Số Độ tương đồng'; $.each(listcau[$(this).attr('index')], function (index, item) { html += '' + index + ' ' + item.Text + ' ' + item.TrongSo + ' ' + item.KhoangCach + ' '; if (item.TrongSo2 != null) { html += ''; 0px !important;">'; html += '

Ngày đăng: 02/10/2018, 10:05

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan