Luận văn thạc sĩ tìm hiểu kỹ thuật tóm tắt đa văn bản tiếng việt sử dụng mô hình đồ thị

84 17 0
Luận văn thạc sĩ tìm hiểu kỹ thuật tóm tắt đa văn bản tiếng việt sử dụng mô hình đồ thị

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG ĐÀO THÀNH CHUN TÌM HIỂU KỸ THUẬT TÓM TẮT ĐA VĂN BẢN TIẾNG VIỆT SỬ DỤNG MƠ HÌNH ĐỒ THỊ LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN, 2018 ii ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG ĐÀO THÀNH CHUN TÌM HIỂU KỸ THUẬT TĨM TẮT ĐA VĂN BẢN TIẾNG VIỆT SỬ DỤNG MƠ HÌNH ĐỒ THỊ Chuyên ngành khoa học máy tính Mã số: 8 1 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS Nguyễn Ngọc Cương THÁI NGUYÊN, 2018 i LỜI CAM ĐOAN Em xin cam đoan tất kết trình bày luận văn: “Tìm hiểu kỹ thuật tóm tắt đa văn tiếng Việt sử dụng mơ hình đồ thị” cơng trình nghiên cứu riêng em, không chép nguyên từ công trình khác Các số liệu, kết nghiên cứu luận văn sử dụng trung thực, kiểm chứng chưa công bố cơng trình tác giả khác Nếu sai em xin hoàn toàn chịu trách nhiệm Thái Nguyên, ngày tháng năm 2018 Học viên Đào Thành Chuyên ii LỜI CẢM ƠN Trước hết em xin bày tỏ lòng biết ơn sâu sắc đến thầy giáo TS Nguyễn Ngọc Cương – Phó Cục trưởng cục Cơng nghệ thơng tin, Bộ Cơng an người trực tiếp hướng dẫn, Nhóm TS Nguyễn Thị Thu Hà – Phó trưởng khoa công nghệ thông tin, Đại học Điện lực bảo tận tình hết lịng giúp đỡ em suốt thời gian làm luận văn Xin trân trọng cảm ơn tới Ban giám hiệu, thầy cô giáo trường Đại học Công nghệ thông tin truyền thông Thái Nguyên chia sẻ động viên giúp đỡ em vượt qua khó khăn để hồn thành tốt cơng việc nghiên cứu Xin chân thành cảm ơn gia đình, bạn bè, đồng nghiệp người ủng hộ, quan tâm, giúp đỡ, động viên, tạo điều kiện tốt chỗ dựa vững giúp em hồn thành luận văn Cuối em xin gửi lời chúc sức khỏe thành cơng tới tất q thầy gia đình toàn thể bạn Thái Nguyên, ngày tháng năm 2018 Học viên Đào Thành Chuyên iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN .ii DANH MỤC CÁC TỪ VIẾT TẮT v DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ .vi DANH MỤC CÁC BẢNG BIỂU .vii MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN CÁC KỸ THUẬT TÓM TẮT ĐA VĂN BẢN TIẾNG VIỆT 1.1 Bài tốn tóm tắt đa văn 1.1.1 Các khái niệm 1.1.2 Phân loại tốn tóm tắt .6 1.2 Kỹ thuật tóm tắt đa văn tiếng Anh 1.2.1 Tóm tắt đơn văn tiếng Anh .9 1.2.2 Tóm tắt đa văn tiếng Anh 10 1.3 Kỹ thuật tóm tắt đa văn tiếng Việt 10 1.3.1 Tóm tắt đơn văn tiếng Việt 10 1.3.2 Tóm tắt đa văn tiếng Việt 15 1.4 Kết luận chương I 16 CHƯƠNG 2: PHƯƠNG PHÁP TĨM TẮT VĂN BẢN DỰA TRÊN MƠ HÌNH ĐỒ THỊ .17 2.1 Hướng tiếp cận tốn tóm tắt đa văn 17 2.2 Các thách thức q trình tóm tắt đa văn 18 2.3 Phân cụm văn 22 2.4 Xây dựng mơ hình chủ đề 27 2.5 Tóm tắt văn tiếng Việt dựa mơ hình đồ thị 31 iv 2.5.1 Trọng số câu 2.5.2 Độ tương đồng câu 2.6 Xây dựng đồ thị tóm tắt văn 2.7 Phân tích thuật tốn 2.8 Kết luận chương CHƯƠNG III: XÂY DỰNG CHƯƠNG TRÌNH VÀ THỰC NGHIỆM 44 3.1 Xây dựng chương trình 3.1.1 Xây dựng chương trình tóm tắt văn tiếng Việt sử dụng mơ hình đồ thị 44 3.1.2 Xây dựng chương trình ngôn ngữ C# 47 3.2 Thực nghiệm đánh giá kết 53 3.2.1 Kịch liệu thực nghiệm 53 3.2.2 Kết thử nghiệm .56 3.3 Kết luận chương 58 KẾT LUẬN 59 Kết luận 59 Khuyến nghị .60 TÀI LIỆU THAM KHẢO 61 PHỤ LỤC .64 v DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt MMR Q&A DUC TF CST PMI LSI vi DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Các cách tiếp cận tóm tắt văn 11 Hình 1.2 Mơ hình đồ thị vơ hướng .13 Hình 2.1 Tập văn chưa xử lý bị nhiễu 23 Hình 2.2 Các tập chủ đề đặt tên tính xác suất 24 Hình 2.3 Văn sau sử dụng cơng cụ tách từ 25 Hình 2.4 Quy trình xử lý phân cụm văn 26 Hình 2.5 Mơ hình chủ đề dựa xác xuất 29 Hình 2.6 Quy trình tóm tắt văn tiếng Việt .34 Hình 2.7 Mơ hình đồ thị tóm tắt văn tiếng Việt 37 Hình 3.1 Cơ sở liệu hệ thống 45 Hình 3.2 Chương trình tách từ Vntagger .46 Hình 3.3 Bảng gồm thuật ngữ tách từ tập liệu văn .47 Hình 3.4 Cơng cụ tách từ Vntagger 48 Hình 3.5 Các file định dạng xml tạo thực tách từ 48 Hình 3.6 Kết file định dạng xml cụ thể 49 Hình 3.7 Giao diện hệ thống tóm tắt văn tiếng Việt .49 Hình 3.8 Giao diện tạo tập từ chủ đề (Tập từ lõi) 50 Hình 3.9 Giao diện module từ điển 50 Hình 3.10 Giao diện module huấn luyện 51 Hình 3.11 Giao diện module tóm tắt văn 52 Hình 3.12 Giao diện thơng tin câu 52 Hình 3.13 Giao diện thơng tin độ tương đồng câu 53 Hình 3.14 Những văn khơng cho kết tóm tắt .54 Hình 3.15 Độ tương đồng khơng thể khơng có kết tóm tắt .55 Hình 3.16 Thông tin câu thể rõ thông số có kết tóm tắt 55 vii Hình 3.17 Giao diện phần tách từ gán nhãn 56 Hình 3.18 Tập văn huấn luyện 57 Hình 3.19 Thông tin câu 57 Hình 3.20 Kết độ tương đồng câu 58 DANH MỤC CÁC BẢNG BIỂU Bảng 2.1 Bảng so sánh phương pháp tiếp cận tóm tắt đa văn .18 Bảng 2.2 Taxonomy mối quan hệ xuyên văn 21 Bảng 2.3 Các từ chủ đề tập mô tả Andrews năm 2009 27 Bảng 2.4 Mơ hình chủ đề nhóm tác giả Nguyễn Thị Thu Hà 31 Bảng 2.5 Mơ hình chủ đề học viên xây dựng .31 Bảng 2.6 Đánh giá hiệu thuật toán 39 MỞ ĐẦU Sự phát triển nhanh chóng mạng Internet với bước tiến mạnh mẽ công nghệ lưu trữ, lượng thông tin lưu trữ trở nên vô lớn Thông tin sinh liên tục ngày mạng Internet, lượng thơng tin văn khổng lồ mang lại lợi ích khơng nhỏ cho người, nhiên, khiến khó khăn việc tìm kiếm tổng hợp thơng tin Giải pháp cho vấn đề tóm tắt văn tự động Tóm tắt văn tự động xác định toán thuộc lĩnh vực khái phá liệu văn bản; việc áp dụng tóm tắt văn giúp người dùng tiết kiệm thời gian đọc, cải thiện tìm kiếm tăng hiệu đánh mục cho máy tìm kiếm Từ nhu cầu thực tế thế, tốn tóm tắt văn tự động nhận quan tâm nghiên cứu nhiều nhà khoa học, nhóm nghiên cứu cơng ty lớn giới Các báo liên quan đến tóm tắt văn xuất nhiều hội nghị tiếng : DUC1 2001-2007, TAC2 2008, ACL3 2001-2007… bên cạnh phát triển hệ thống tóm tắt văn như: MEAD, LexRank, Microsoft Word (Chức AutoSummarize)… Một vấn đề thách thức quan tâm năm gần tốn tóm tắt văn tự động đưa kết tóm tắt cho tập văn liên quan với mặt nội dung hay cịn gọi tóm tắt đa văn Tóm tắt văn hướng nghiên cứu nhà nghiên cứu quan tâm thời gian gần đây, làm rút gọn nội dung thông tin dư thừa văn (chỉ để lại văn tóm tắt trạng thái đọng nhất) điều có ý nghĩa kỷ nguyên công nghệ thông tin 58 Hình 3.20 Kết độ tương đồng câu 3.3 Kết luận chương Trong chương này, luận văn trình bày chi tiết từ phân tích thiết kế hệ thống giao diện hệ thống Các chức hệ thống mơ tả rõ ràng, đầy đủ Từ thấy rằng, hệ thống đáp ứng yêu cầu tóm tắt thơng tin văn tiếng Việt 59 KẾT LUẬN Kết luận Nghiên cứu tóm tắt văn ngày trở nên có ý nghĩa thực tiễn hơn, góp phần giải khó khăn cho người dùng lượng thông tin trả mạng Internet lớn Luận văn giải vấn đề sau: Ứng dụng phương pháp tóm tắt văn tiếng Việt dựa mơ hình đồ thị vào thực tiễn đơn vị mà học viên công tác Dữ liệu đầu vào văn thuộc chủ đề thủy lợi Sau thử nghiệm sử dụng nhiều văn chủ đề khác để tóm tắt - Xây dựng chương trình thực nghiệm Mơ hình đồ thị sử dụng luận văn kết hợp mơ hình trọng số câu độ tương tự câu nhằm tăng chất lượng văn tóm tắt cách lựa chọn thông tin quan trọng không bị trùng lặp - Giảm chi phí xây dựng kho ngữ liệu tóm tắt tiếng Việt - Giảm độ phức tạp tính tốn Q trình hồn thành luận văn, em nắm vấn đề cốt lõi tóm tắt văn ứng dụng thực tế Tuy nhiên, hạn chế thời gian trình độ kiến thức nên luận văn cịn nhiều thiếu sót, mong bảo thầy ý kiến đóng góp bạn đọc để luận văn hoàn thiện Em xin chân thành cảm ơn đến thầy cô trường Đại học Công nghệ thông tin truyền thông Thái Nguyên bạn lớp giúp đỡ trình thực luận văn Đặc biệt em xin gửi lời cảm ơn sâu sắc đến giáo viên hướng dẫn TS Nguyễn Ngọc Cương hỗ trợ từ TS Nguyễn Thị Thu Hà tận tình hướng dẫn giúp đỡ em hoàn thành luận văn 60 Khuyến nghị Hiện em công tác Trung tâm Thông tin Khoa học công nghệ Việc khai thác, tổng hợp, biên tập thông tin phục vụ cho quan, đơn vị nhân dân tỉnh cần thiết cấp bách Trên sở nghiên cứu trình bày luận văn sở để em đồng nghiệp có nhiều văn có chất lượng đọng gửi cho quan, đơn vị nhân dân tỉnh để phục vụ tra cứu, sản xuất kinh doanh địa bàn tỉnh Do thời gian thực chưa lâu nên tập huấn luyện em xây dựng chưa hồn chỉnh việc tóm tắt cịn chưa có độ xác cao Thời gian tới để phục vụ cho công tác em xây dựng nhiều tập huấn luyện để tóm tắt nhiều thể loại văn phục vụ cho quan, đơn vị người dân tỉnh 61 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đỗ Phúc, Mai Xuân Hùng, Nguyễn Thị Kim Phụng, “Gom cụm đồ thị ứng dụng vào việc rút trích nội dung khối thơng điệp diễn đàn thảo luận”, Tạp chí Phát triển Khoa học Công nghệ, Tập 11, Số 05 - 2008, pp 21-32, 2008 [2] Nguyễn Trọng Phúc, Lê Thanh Hương, Tóm tắt văn sử dụng cấu trúc diễn ngôn, Proc of ICTrda08, 2008 [3] Trương Quốc Định, Nguyễn Quang Dũng, “Một giải pháp tóm tắt văn tiếng Việt tự động” Hội thảo quốc gia lần thứ XV: số vấn đề chọn lọc Công nghệ thông tin Truyền thông Hà Nội 03-04/12/2012 [4] Nguyễn Thị Ngọc Tú, Nguyễn Thị Thu Hà, Lê Thanh Hương, Hồ Ngọc Vinh, Đào Thanh Tĩnh, Nguyễn Ngọc Cương, “Ứng dụng mơ hình đồ thị tóm tắt đa văn tiếng Việt” Kỷ yếu Hội nghị Quốc gia lần thứ VIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 Tiếng Anh [5] Barzilay R., McKeown K., and Elhadad M, Information fusion in the context of multidocument summarization, Proceedings of the 37th annual meeting of the Association for Computational Linguistics: 550–557, New Brunswick, New Jersey, 1999 [6] Chin-Yew Lin and Eduard Hovy (1997), Identifying topics by position, Fifth Conference on Applied Natural Language Processing: 283–290, 1997 62 [7] Dragomir Radev (2000), A common theory of information fusion from multiple text sources, step one: Cross-document structure, In 1st ACL SIGDIAL Workshop on Discourse and Dialogue, Hong Kong, October 2000 [8] H Edmundson (1969), New methods in automatic abstracting, Journal of ACM, 16 (2):264-285, 1969 [9] H Luhn (1958), The automatic creation of literature abstracts, IBM Journal of Research and Development, 2(2):159-165, 1958 [10] Inderjeet Mani (2001), Automatic Summarization, John Benjamins Publishing Co., 2001 [11] Inderjeet Mani and Mark T Maybury (eds) (1999), Advances in Automatic Text Summarization, MIT Press, 1999, ISBN 0-26213359-8 [12] Jaime Carbonell, Jade Goldstein (1998) The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries, In SIGIR-98, Melbourne, Australia, Aug 1998 [13] Jan O Pendersen, Kupiec Julian and Francine Chen (1995), A trainable document summarizer, Research and Development in Information Retrieval: 68– 73, 1995 [14] Kathleen R McKeown and Dragomir R Radev (1995), Generating summaries of multiple news articles, ACM Conference on Research and Development in Information Retrieval (SIGIR’95): 74–82, Seattle, Washington, July 1995 [15] Regina Barzilay and Michael Elhadad, Using Lexical Chains for Text Summarization, In Advances in Automatic Text Summarization (Inderjeet Mani and Mark T Maybury, editors): 111– 121, The MIT Press, 1999 63 [16] Yanran Li and Sujian Li, Query-focused Multi-Document Summarization: Combining a Topic Model with Graph- based Semisupervised Learning, Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers, pages 1197–1207, Dublin, Ireland, August 23-29 2014 64 PHỤ LỤC Phụ lục 1: Code pha huấn luyện wnd { display:none; } subdcau { display:block; clear:left; position:absolute; right:0%; top:0%; width:24px; height:24px; cursor: pointer; } ndcau { cursor: pointer; } bphai { float: left; margin-top: 1px; } btrai { float: left; margin: 0px 5px 5px 5px; } $(document).ready(function () { var select = null; $(".subdcau").click(function (evt) { $(".dcau").hide(); }); $("#Button1").click(function (evt) { $("#load").show(); var fileUpload = $("#FileUpload2").get(0); var files = fileUpload.files; var listcau = new Array(); var data = new FormData(); 65 for (var i = 0; i < files.length; i++) { data.append(files[i].name, files[i]); } var options = {}; options.url = "Handler1.ashx"; options.type = "POST"; options.data = data; options.contentType = false; options.processData = false; options.success = function (result) { $.ajax({ type: "POST", url: "WebService1.asmx/getall_Cau", contentType: "application/json; charset=utf-8", dataType: "json", success: function (obj) { $("#load").hide(); var html = 'STTCâu'; $.each(obj.d, function (index, item) { listcau[index] = item; var listtu = item.ListTu.split('|'); var listpi = item.ListPi.split('|'); var listti = item.ListTi.split('|'); html += '' + index + '' + item.Cau + ''; html += ''; html += ''; html += 'TừTrọng Số Tần Suất'; $.each(listtu, function (ind, tem) { html += '' + tem + ' ' + listpi[ind] + ' ' + listti[ind] + ' '; }); html += ''; html += ''; }); $(".dcau").empty(); $(".dcau").append(html + ''); $(".dcau").show(); $(".ndcau").click(function () { var ind = $(this).attr('index'); if (select != null) $('#' + select).hide(); select = ind; $('#' + select).show(); }); 66 }, failure: function (msg) { }, error: function (jq, status, message) { alert('A jQuery error has occurred Status: ' + status + - Message: ' + message); } }); ' }; options.error = function (err) { alert(err.statusText); }; $.ajax(options); evt.preventDefault(); }); }); Đang xử lý Phụ lục 2: Code pha tóm tắt 67 cau, subnd{ cursor:pointer; } wnd { display: none; } bphai { float: left; margin-top: 1px; } btrai { float: left; margin: 0px 5px 5px 5px; } $(document).ready(function () { var listcau = new Array(); var select = null; document.getElementById('file').onchange = function () { var kcau = ''; var j = 0, k = this.files.length; for (var i = 0; i < k; i++) { var reader = new FileReader(); reader.onloadend = function (evt) { if (evt.target.readyState == FileReader.DONE) { kcau += evt.target.result; j++; if (j == k) { $("#dauvao").val(kcau); } } }; reader.readAsText(this.files[i]); } $("#tt").click(function () { $.ajax({ type: "POST", url: "WebService1.asmx/tomtat", contentType: "application/json; charset=utf-8", data: '{text:"' + $('#dauvao').val().replace(/"/gi, '”') + '"}', dataType: "json", success: function (response) { html = ""; tbl = 'STTCâu'; tbl1 = ''; 68 var data = response.d; var arrval = new Array(); $.each(data.listCau, function (index, item) { arrval[index] = 0; var n = 0; $.each(item.Dictionary, function (ind, it) { arrval[index] += it; n++; }); if (n != 0) arrval[index] = arrval[index] / n; else arrval[index] = 0; var x = (Math.round(arrval[index] * 1000) / 1000).toString(); if (x.length == 1) x += ".00"; if (x.length == 2) x += "0"; arrval[index] = x; }); var ptram = (Number($('#ptram').val()) * data.list.length) / 100; ptram = Math.round(ptram); var coutp = 0; var scheck = ''; console.log('Kết quả: ' + ptram); $.each(data.list, function (index, item) { if (item[0]) { if (coutp < ptram) { var lcheck = item.sort(function (a, b) { if (a.KhoangCach == b.KhoangCach) { return b.TrongSo - a.TrongSo } else { return b.KhoangCach - a.KhoangCach } }); for (var j = 0; j < lcheck.length; j++) if (Number(lcheck[j].KhoangCach) >= 0.5 && scheck.search(lcheck[j].Text.trim()) == -1) { html += '' + lcheck[j].Text.trim() + ' '; scheck += lcheck[j].Text.trim(); console.log('Khoảng cách: ' + lcheck[j].KhoangCach); } coutp++; break; } } ')'; listcau[index] = item; tbl1 += 'S' + index + '(' + arrval[index] + tbl += '' + index + '' + data.listCau[index].Text.trim() + '.'; 69 }); tbl1 += ''; $.each(data.list, function (index, item) { tbl1 += 'S' + index + '(' + arrval[index] + ')'; 1000) / 1000).toString(); $.each(item, function (ind, itm) { var x = (Math.round(Number(itm.KhoangCach) * if (x.length == 1) x += ".00"; if (x.length == 2) x += "0"; if (ind == index) tbl1 += 'xxx' + x + ''; else 'xxx'; tbl1 += '' + x + ''; }); if (index == data.list.length - 1) tbl1 += tbl1 += ''; }); tbl1 += ''; $("#nd1").empty(); $("#nd1").hide(); $("#nd2").empty(); $("#nd2").hide(); $("#nd1").append(tbl + ''); $("#nd2").append(tbl1); $('#nd2').show(); $('#nd1').show(); $('#tabs').show(); $("#kq").empty(); $("#kq").append(html); $(".cau").click(function () { var html = 'Câu S' + $(this).attr('index') + 'STTCâuTrọng Số Độ tương đồng'; $.each(listcau[$(this).attr('index')], function (index, item) { html += '' + index + ' ' + item.Text + ' ' + item.TrongSo + ' ' + item.KhoangCach + ' '; if (item.TrongSo2 != null) { html += ''; 0px !important;">'; html += '

Ngày đăng: 09/06/2021, 06:53

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan