1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đánh giá hiệu năng các hệ thống inverted index cho bài toán khai thác thông tin nhật kí giao dịch dựa trên bộ công cụ xử lý dữ liệu lớn hadoop

57 18 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 57
Dung lượng 1,27 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN MẠNH CƢỜNG TÓM TẮT VĂN BẢN TIẾNG VIỆT TỰ ĐỘNG DỰA TRÊN MƠ HÌNH ĐỒ THỊ LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Hà Nội, 06/2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN MẠNH CƢỜNG TÓM TẮT VĂN BẢN TIẾNG VIỆT TỰ ĐỘNG DỰA TRÊN MƠ HÌNH ĐỒ THỊ Ngành: Khoa học máy tính Chuyên ngành: Khoa học máy tính Mã Số: 8480101.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN PHƢƠNG THÁI Hà nội – 06/2019 i LỜI CẢM ƠN Luận văn đƣợc thực dƣới hƣớng dẫn PGS.TS Nguyễn Phƣơng Thái Tơi xin bày tỏ lịng biết ơn tới thầy Nguyễn Phƣơng Thái, thầy tận tình hƣớng dẫn, để tơi hồn thiện luận văn Tơi xin cảm ơn đồng nghiệp tôi, tạo điều kiện thuận lợi giúp tơi thu xếp thời gian vừa công tác, vừa học tập Tôi xin gửi lời cảm ơn đến bố mẹ, ngƣời ln đồng hành, ủng hộ tơi suốt q trình học tập nghiên cứu Xin chân thành cảm ơn! Tác giả Nguyễn Mạnh Cƣờng ii LỜI CAM ĐOAN Tôi - Nguyễn Mạnh Cƣờng - cam đoan luận văn cơng trình nghiên cứu thân tơi dƣới hƣớng dẫn PGS.TS Nguyễn Phƣơng Thái Các kết nêu luận văn trung thực, không chép tồn văn cơng trình khác Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 10 tháng 06 năm 2019 iii MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC KÝ HIỆU, VIẾT TẮT v DANH MỤC HÌNH VẼ vi DANH MỤC BẢNG vii MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ TÓM TẮT VĂN BẢN 1.1 Khái niệm tóm tắt văn 1.2 Phân loại tốn tóm tắt văn 1.3 Ứng dụng tóm tắt văn 1.4 Các phƣơng pháp đánh giá tóm tắt văn 1.4.1 Đánh giá thủ công 1.4.2 Đánh giá đồng chọn 1.4.3 Đánh giá dựa nội dung CHƢƠNG CÁC PHƢƠNG PHÁP TÓM TẮT VĂN BẢN 2.1 Tóm tắt trích rút 10 2.2 Tóm tắt tóm lƣợc 13 2.3 Một số nghiên cứu tóm tắt văn tiếng Việt 15 2.3.1 Đặc điểm tiếng Việt 15 2.3.2 Một số nghiên cứu tóm tắt văn tiếng Việt 17 CHƢƠNG XÂY DỰNG MƠ HÌNH TĨM TẮT VĂN BẢN TIẾNG VIỆT THEO PHƢƠNG PHÁP ĐỒ THỊ 19 3.1 Thuật toán iSpreadRank 19 3.1.1 Khởi tạo 19 3.1.2 Suy luận 20 3.1.3 Dự đoán 21 3.2 Thiết kế mô hình 24 iv 3.2.1 Tiền xử lý 24 3.2.2 Đồ thị hoá văn 25 3.2.3 Khởi tạo hạng ban đầu câu 29 3.2.4 Xếp hạng câu 30 3.2.5 Trích chọn câu 30 CHƢƠNG ĐÁNH GIÁ KẾT QUẢ ĐẠT ĐƢỢC 31 4.1 Môi trƣờng thực nghiệm 32 4.1.1 Môi trƣờng phần cứng 32 4.1.2 Môi trƣờng phần mềm 32 4.2 Dữ liệu thực nghiệm 32 4.3 Tiến hành thực nghiệm 34 KẾT LUẬN 43 TÀI LIỆU THAM KHẢO 45 v DANH MỤC KÝ HIỆU, VIẾT TẮT Kí hiệu DUC Giải thích Document Understanding Conferences ROUGE Recall-Oriented Understudy for Gisting Evaluation TF.IDF Term frequency–inverse document frequency vi DANH MỤC HÌNH VẼ Hình 1.Đồ thị biểu diễn câu văn 11 Hình 2.Framework chung cho hệ thống tóm tắt văn phƣơng pháp học máy 12 Hình 3.Một mơ hình tóm tắt văn sử dụng kỹ thuật Sequence-to-Sequence with Attention 14 Hình 4.Minh hoạ q trình lan truyền kích hoạt 21 Hình 5.Trọng số đỉnh đồ thị trƣớc sau áp dụng thuật tốn iSpreadRank 22 Hình 6.Mơ hình tóm tắt văn tiếng Việt áp dụng thuật tốn iSpreadRank 24 Hình 7.Đồ thị mạng tƣơng đồng câu văn 25 Hình 8.Ví dụ chuyển đổi vector từ sang vector câu 26 Hình 9.Phân phối Bag of Words vector câu 27 Hình 10.Mơ hình cập nhật vector câu 28 Hình 11.Biểu đồ so sánh độ xác sử dụng ROUGE tính F-score 36 vii DANH MỤC BẢNG Bảng 1.Chi tiết tham số thuật toán iSpreadRank 22 Bảng 2.Kết thực thuật toán sau 20 lần lặp 24 Bảng 3.So sánh hiệu suất tóm tắt iSpreadRank với số thuật toán khác 31 Bảng 4.Danh sách chủ đề số lƣợng văn tƣơng ứng 32 Bảng 5.Danh sách văn đƣợc sử dụng 33 Bảng 6.Kết tóm tắt nghiên cứu [4] 35 Bảng 7.Kết tóm tắt SYS1 35 Bảng 8.Kết tóm tắt SYS2 35 Bảng 9.Kết tóm tắt SYS3 35 Bảng 10 Một số ví dụ kết tóm tắt SYS2 37 Bảng 11.Kết tóm tắt chủ đề 40 Bảng 12.Danh sách văn có kết tóm tắt thấp 41 MỞ ĐẦU Theo số liệu báo cáo [18] Global Digital từ We Are Social Hootsuite, tháng năm 2019 có 4,39 tỷ ngƣời dùng internet tồn giới, tăng 366 triệu ngƣời dùng so với kỳ năm 2018, điều cho thấy phát triển nhanh chóng mạng internet Sự phát triển kéo theo tăng trƣởng mạnh số lƣợng blog, trang web tài liệu văn Từ gia tăng nhu cầu tìm kiếm, xử lý tổng hợp thông tin ngƣời Để cải thiện khả tìm kiếm nhƣ tăng hiệu cho cơng việc xử lý thơng tin, tóm tắt văn tự động giải pháp hàng đầu Tóm tắt văn trình tạo văn ngắn từ nhiều văn gốc đáp ứng số yêu cầu ngƣời dùng, mà đảm bảo nội dung ý nghĩa văn gốc Bài tốn tóm tắt văn đóng vai trò quan trọng khoa học khai phá liệu Là tốn thực tiễn, có khả thƣơng mại, áp dụng cho hệ thống tìm kiếm thông minh, hệ gợi ý, tổng hợp thông tin Thay tài liệu đầy đủ, có văn tóm tắt ngắn gọn cần đƣợc xử lý Chẳng hạn, cách cung cấp đoạn mô tả ngắn gọn nội dung truy vấn, cơng cụ tìm kiếm giúp ngƣời dùng xác định tài liệu ƣa thích thời gian ngắn Trên giới, nghiên cứu tóm tắt văn đƣợc cơng bố vào năm 50 kỉ trƣớc Cho tới nay, tóm tắt văn khơng ngừng đƣợc nghiên cứu, phát triển, đạt đƣợc thành tựu đáng kể việc tóm tắt văn tiếng Anh, tiếng Trung… Tại Việt Nam, tóm tắt văn đƣợc quan tâm, cụ thể cho toán tóm tắt văn tiếng Việt Tuy nhiên, phức tạp cấu trúc, ngữ pháp tiếng Việt, thiếu tài nguyên kho ngữ liệu, tập mẫu nên nghiên cứu tóm tắt văn tiếng Việt hạn chế mặt số lƣợng lẫn chất lƣợng Vì tơi lựa chọn đề tài luận văn “Tóm tắt văn tiếng Việt tự động dựa mơ hình đồ thị” tính cấp thiết tính ứng dụng cao Luận văn bao gồm chƣơng: Chƣơng Tổng quan tóm tắt văn Trình bày khái niệm tóm tắt văn bản, phân loại tốn tóm tắt văn bản, ứng dụng tóm tắt văn phƣơng pháp đánh giá hệ thống tóm tắt văn 34 CT20 KHCN20 Kinh tế KT32 VH10 XH07 CT21 KHCN21 KT1 KT33 VH11 XH08 CT22 KHCN22 KT2 KT34 VH12 XH09 CT23 KHCN23 KT3 KT35 VH13 XH10 CT24 KHCN24 KT4 KT36 VH14 XH11 CT25 KHCN25 KT5 KT37 VH15 XH12 CT26 KT6 KT38 VH16 XH13 CT27 KT7 KT39 VH17 XH14 CT28 KT8 KT40 VH18 XH15 CT29 Khoa học– GD KT9 KT41 VH19 XH16 CT30 KHGD1 KT10 KT42 VH20 XH17 CT31 KHGD2 KT11 KT43 VH21 XH18 Độ dài văn tóm tắt đƣợc giới hạn câu Độ dài gần tƣơng đƣơng với độ dài văn mẫu ngƣời tóm tắt Dữ liệu đƣợc đánh giá phƣơng pháp ROUGE với tham số:     Đánh giá toàn văn liệu Sử đánh giá dựa vào n-gram (n=1, n=2, n=3, n=4) Bao gồm từ dừng đánh giá Kết đánh giá cuối kết trung bình tồn tập liệu 4.3 Tiến hành thực nghiệm Trong nghiên cứu [4] PGS.TS Lê Thanh Hƣơng, tác giả sử dụng thuật tốn PageRank cải tiến để trích rút câu quan trọng dựa đặc trƣng TF.ISF, đặc biệt độ quan trọng từ phụ thuộc vào việc từ có xuất tiêu đề văn không Kết thực nghiệm nghiên cứu là: 35 Bảng 6.Kết tóm tắt nghiên cứu [4] ROUGE-1 0.5939 ROUGE-2 0.389 ROUGE-3 0.337 ROUGE-4 0.311 Tiến hành thực nghiệm SYS1, SYS2, SYS3, kết thu đƣợc nhƣ sau: Bảng 7.Kết tóm tắt SYS1 N-gram ROUGE-1 ROUGE-2 ROUGE-3 ROUGE-4 Re-call 0.47501 0.316588 0.257127 0.222037 Precision 0.463355 0.305373 0.249568 0.22632 F-score 0.454764 0.30132 0.245413 0.221881 Bảng 8.Kết tóm tắt SYS2 N-gram ROUGE-1 ROUGE-2 ROUGE-3 ROUGE-4 Re-call Precision 0.523513 0.542311 0.399859 0.408042 0.349411 0.357209 0.324173 0.332662 Bảng 9.Kết tóm tắt SYS3 F-score 0.514942 0.390436 0.341261 0.316842 N-gram ROUGE-1 ROUGE-2 ROUGE-3 ROUGE-4 Re-call 0.537141 0.399594 0.345448 0.319658 F-score 0.493996 0.363474 0.313821 0.290121 Precision 0.489039 0.356491 0.307761 0.284788 36 Hình 11.Biểu đồ so sánh độ xác sử dụng ROUGE tính F-score Từ biểu đồ hình 11 ta thấy xem xét độ xác dựa độ đo F-score:  SYS2 SYS3 tốt SYS1, nghĩa thuật toán iSpreadRank với tham số đầu vào điểm PageRank hay điểm đặc trƣng cho kết tốt PageRank  SYS2 cho kết tốt nghĩa với tham số đầu vào điểm PageRank cho kết tốt tham số đầu vào điểm đặc trƣng So sánh kết SYS2 với kết [4] PGS.TS Lê Thanh Hƣơng, cho thấy ROUGE -2,3,4 luận văn cho kết tốt hơn, ROUGE-1 luận văn cho kết thấp Một số ví dụ kết tóm tắt đầu SYS2 đƣợc trình bày bảng 10 37 Bảng 10 Một số ví dụ kết tóm tắt SYS2 Ví dụ Hồng Anh Gia Lai tái cấu trúc Công ty bầu Đức bán dự án thuộc lĩnh vực thủy điện bất động sản nhằm dự trữ tiền mặt giảm nợ vay Cơng ty cổ phần Hồng Anh Gia Lai (Mã CK: HAG) vừa công bố nghị HĐQT Theo đó, cơng ty thơng qua chủ trƣơng tái cấu trúc đơn vị thuộc ngành thủy điện cách bán dự án vào hoạt động giai đoạn đầu tƣ Đồng thời, Hoàng Anh Gia Lai thống thông qua chủ trƣơng tái cấu trúc đơn vị thuộc ngành bất động sản hình thức bán sỉ hộ bán dự án cổ phiếu công ty sở hữu dự án Mục đích bán, theo doanh nghiệp, nhằm thu tiền mặt dự trữ giảm nợ vay Trƣớc đó, báo cáo tài hợp q I, cơng ty ơng Đồn Ngun Đức làm Chủ tịch có 2.444 tỷ đồng tiền khoản tƣơng đƣơng tiền, nợ ngắn hạn 3.446 tỷ đồng Tại ĐHCĐ, bầu Đức cho biết, tỷ trọng doanh thu từ bất động sản năm 2013 giảm từ 64% xuống cịn 14% Văn Cơng ty bầu Đức bán dự án thuộc lĩnh vực thủy điện tóm bất động sản nhằm dự trữ tiền mặt giảm nợ vay tắt Theo đó, công ty thông qua chủ trương tái cấu trúc đơn vị thuộc ngành thủy điện cách bán dự án vào hoạt động giai đoạn đầu tư Đồng thời, Hoàng Anh Gia Lai thống thông qua chủ trương tái cấu trúc đơn vị thuộc ngành bất động sản hình thức bán sỉ hộ bán dự án cổ phiếu công ty sở hữu dự án Ví dụ Mỹ lại tăng thuế chống bán phá giá cá tra Việt Nam Bộ Thƣơng mại Mỹ (DOC) vừa có định tăng thuế chống bán phá giá cá tra đợt xem xét hành lần (POR 8) lên 1,29 USD/kg, từ mức 0,77 USD/kg đƣa tháng Thông tin đƣợc ơng Trƣơng Đình Hịe - Tổng thƣ ký Hiệp hội Chế biến Xuất thủy sản Việt Nam (VASEP) cho biết Theo vị này, DOC định tăng thuế cho việc tính tốn trƣớc 38 có sai sót, nên tiến hành điều chỉnh lần áp thuế Trong thông cáo báo chí DOC rõ, quan bị nhầm toàn tỷ lệ sử dụng cá Việt An, việc tiêu thụ dầu diesel Docifish đƣa doanh số hàng bán bị trả lại vào trình tính tốn biên độ phá giá cơng ty Việt An Vĩnh Hồn", thơng báo DOC cho hay Sau điều chỉnh, mức thuế chống bán phá giá cá tra với 12 doanh nghiệp bị tăng lên 1,29 USD/kg, tƣơng đƣơng tăng 67% so với mức thuế cơng bố cách hai tháng Riêng Vĩnh Hồn đƣợc giữ nguyên mức thuế 0,19 USD/kg, Việt An bị áp mức cao 2,39 USD/kg, so với 1,34 USD/kg trƣớc Trƣớc câu hỏi doanh nghiệp xuất cá tra bị ảnh hƣởng với định tăng thuế DOC, ơng Hịe chia sẻ: "Với mức cũ doanh nghiệp khơng có đƣờng xuất sang Mỹ, chi với mức tăng thêm lên 1,29 USD kg" Trong phán hồi tháng 3, DOC bất ngờ đổi quốc gia thay từ Bangladesh sang Indonesia - nơi có yếu tố đầu vào nuôi cá tra cao Việt Nam, khiến mức thuế chống bán phá giá tăng lên hàng chục lần Bởi theo POR7, mức thuế trung bình áp dụng cho Việt An 0,02 USD/kg, Vĩnh Hồn cơng ty khác cent Để phản đối định trên, VASEP hầu hết doanh nghiệp bị áp thuế gửi đơn kiện DOC lên Tòa án Thƣơng mại Quốc tế (CIT) Đƣợc biết, CIT chấp nhận đơn khởi kiện yêu cầu Hải quan Mỹ tạm dừng không thu thuế chống bán phá giá doanh nghiệp theo kết luận cuối POR8 có phán cuối Tịa án Văn Sau điều chỉnh, mức thuế chống bán phá giá cá tra với 12 doanh tóm nghiệp bị tăng lên 1,29 USD/kg, tương đương tăng 67% so với mức tắt thuế công bố cách hai tháng Trước câu hỏi doanh nghiệp xuất cá tra bị ảnh hưởng với định tăng thuế DOC, ơng Hịe chia sẻ: "Với mức cũ doanh nghiệp khơng có đường xuất sang Mỹ, chi với mức tăng thêm lên 1,29 USD kg" Được biết, CIT chấp nhận đơn khởi kiện yêu cầu Hải quan Mỹ tạm dừng không thu thuế chống bán phá giá doanh nghiệp theo kết luận cuối POR8 có phán cuối Tịa án 39 Ví dụ Hà Nội tháo dỡ hai cầu hành để xây cầu vƣợt Mới đƣợc đƣa vào sử dụng chƣa lâu, hai cầu vƣợt dành cho ngƣời đƣờng Nguyễn Chí Thanh Trần Khát Chân bị tháo dỡ để dành không gian cho cầu vƣợt dành cho xe giới Để giải tình trạng ùn tắc giao thơng vào cao điểm nút giao Đại Cồ Việt - Trần Khát Chân, đầu tháng 2/2013, Hà Nội khởi công cầu vƣợt dài 350 m, rộng 11 m Cùng với đó, cầu dành cho ngƣời đƣờng gần Trần Khát Chân đƣợc đƣa vào sử dụng phải tháo dỡ Phần thân cầu đƣợc dùng lại, dự kiến lắp đƣờng Giải Phóng Một cầu vƣợt dài 276m, rộng 17m, dành cho xe giới đƣợc khởi công nút giao Nguyễn Chí Thanh - Liễu Giai Cây cầu vƣợt dành cho ngƣời đƣờng Nguyễn Chí Thanh (nằm đầu cầu vƣợt cho xe giới) phải tháo dỡ, lắp đặt lại cách vị trí cũ 100m Đại diện Sở Giao thơng vận tải Hà Nội cho biết, việc tháo dỡ cầu dành cho ngƣời để xây dựng cầu vƣợt đƣợc tính tốn kỹ “Cầu dành cho ngƣời tháo dỡ lắp đặt sang vị trí khác Do vậy, việc tháo dỡ cầu hành để xây dựng cầu vƣợt dành cho xe giới đem lại hiệu cao hơn”, đại diện Sở Giao thông vận tải nói Văn Mới đưa vào sử dụng chưa lâu, hai cầu vượt dành cho tóm người đường Nguyễn Chí Thanh Trần Khát Chân bị tắt tháo dỡ để dành không gian cho cầu vượt dành cho xe giới Cùng với đó, cầu dành cho người đường gần Trần Khát Chân đưa vào sử dụng phải tháo dỡ Đại diện Sở Giao thông vận tải Hà Nội cho biết, việc tháo dỡ cầu dành cho người để xây dựng cầu vượt tính tốn kỹ Để có thêm kết luận hiệu tóm tắt mơ hình với chủ đề khác nhau, SYS2 tiến hành đánh độ xác chủ đề tập liệu đầu vào Kết đạt đƣợc nhƣ số liệu bảng 11 40 Bảng 11.Kết tóm tắt chủ đề N-gram ROUGE-1 ROUGE-2 ROUGE-3 ROUGE-4 Re-call 0.638618 0.520317 0.465483 0.437183 N-gram ROUGE-1 ROUGE-2 ROUGE-3 ROUGE-4 Re-call 0.568510 0.449245 0.386475 0.353400 N-gram ROUGE-1 ROUGE-2 ROUGE-3 ROUGE-4 Re-call 0.433021 0.304992 0.256379 0.234632 N-gram ROUGE-1 ROUGE-2 ROUGE-3 ROUGE-4 Re-call 0.493498 0.379894 0.334185 0.308180 N-gram ROUGE-1 ROUGE-2 ROUGE-3 Re-call 0.444837 0.289870 0.244330 CHÍNH TRỊ (CT) Precision 0.506263 0.415658 0.375312 0.354376 KHOA HỌC CÔNG NGHỆ (KHCN) Precision 0.528414 0.401547 0.344224 0.313636 KHOA HỌC GIÁO DỤC (KHDG) Precision 0.533314 0.362280 0.304124 0.278876 KINH TẾ (KT) Precision 0.579375 0.442192 0.390893 0.362371 VĂN HOÁ (VH) Precision 0.472404 0.306672 0.256426 F-score 0.552175 0.451557 0.405767 0.381907 F-score 0.533281 0.413094 0.354706 0.323624 F-score 0.463474 0.319804 0.267644 0.244296 F-score 0.519330 0.397567 0.350196 0.323328 F-score 0.434046 0.282316 0.236787 41 ROUGE-4 0.222449 N-gram ROUGE-1 ROUGE-2 ROUGE-3 ROUGE-4 Re-call 0.559191 0.492032 0.391730 0.370897 0.233966 XÃ HỘI (XH) Precision 0.593613 0.469877 0.419197 0.40048 0.215395 F-score 0.563908 0.446388 0.396817 0.377103 Dựa số liệu bảng 11, tơi thấy kết tóm tắt có khác chủ đề, cụ thể với chủ đề Chính trị (CT) mơ hình cho kết tốt nhất, chủ đề Văn hố (VH) mơ hình cho kết thấp Qua thấy rằng, đặc trƣng chủ đề đặc trƣng quan trọng ảnh hƣởng tới độ xác tốn tóm tắt văn Trên SYS2, tơi tiến hành chọn 54 văn bản, văn tóm tắt cho điểm F-score nhỏ 0.45 ROUGE-1 Kết thu đƣợc nhƣ bảng 12 Bảng 12.Danh sách văn có kết tóm tắt thấp STT Tên file F-Score STT Tên file F-score 10 11 12 13 14 15 16 17 18 19 20 CT09.TXT CT10.TXT CT17.TXT CT29.TXT KHCN14.TXT KHCN17.TXT KHCN19.TXT KHCN7.TXT KHGD1.TXT KHGD15.TXT KHGD19.TXT KHGD20.TXT KHGD22.TXT KHGD4.TXT KT10.TXT KT14.TXT KT15.TXT KT19.TXT KT2.TXT KT20.TXT 0.4357 0.44186 0.0125 0.43066 0.35897 0.43515 0.43333 0.32957 0.25279 0.27397 0.31111 0.44882 0.35176 0.37019 0.44706 0.35088 0.12709 0.37433 0.41791 0.40876 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 KT48.TXT KT49.TXT KT50.TXT KT6.TXT VH01.TXT VH05.TXT VH06.TXT VH07.TXT VH08.TXT VH16.TXT VH17.TXT VH21.TXT VH22.TXT VH23.TXT VH24.TXT VH26.TXT VH28.TXT VH32.TXT VH33.TXT XH06.TXT 0.36545 0.42466 0.42997 0.34746 0.38647 0.35172 0.39496 0.2844 0.38 0.3609 0.23602 0.42623 0.24299 0.18039 0.38806 0.43294 0.37073 0.36364 0.4 0.43902 42 21 22 23 24 25 26 27 KT30.TXT KT33.TXT KT35.TXT KT39.TXT KT44.TXT KT45.TXT KT46.TXT 0.35754 0.39844 0.37722 0.40876 0.42997 0.36545 0.42466 48 49 50 51 52 53 54 XH07.TXT XH08.TXT XH12.TXT XH23.TXT XH25.TXT XH29.TXT XH30.TXT 0.39739 0.42985 0.41475 0.33452 0.31746 0.40667 0.35918 Qua phân tích kiểm tra lại nội dung văn tóm tắt mẫu văn tóm tắt sinh từ hệ thống văn bảng 12, việc độ xác có phân bố khác chủ đề, thấy số văn có kết tóm tắt thấp cịn nguyên nhân sau:  Lỗi không đồng định dạng encoding (mã hố) văn tóm tắt hệ thống văn tóm tắt mẫu Cụ thể văn “CT17.TXT”, văn mẫu encoding “Encode ucs-2 le bom”, văn tóm tắt hệ thống “Encode UTF-8” Việc dẫn đến tool rouge đọc đầu vào sai với văn này, cho kết thấp F-score 0.0125  Lỗi văn bản tóm tắt mẫu khơng khớp với văn gốc Cụ thể văn “KT15.TXT”, nội dung văn gốc liên quan đến kinh tế, nhƣng văn mẫu nội dung lại nói giáo dục Vì nội dung văn tóm tắt hệ thống sinh khác nội dung với văn mẫu Kết đánh giá văn F-score 0.12709  Độ dài chênh lệch văn tóm tắt mẫu văn tóm tắt hệ thống Cụ thể văn “VH32.TXT” số câu văn tóm tắt mẫu 5, số câu văn tóm tắt hệ thống Kết đánh giá F-score 0.36364 Kết phân tích bổ sung thêm điểm cần ý, để phát triển cải tiến mơ hình tóm tắt văn tiếng Việt sau 43 KẾT LUẬN Những vấn đề giải đƣợc luận văn  Luận văn trình bày tổng quan sở lý thuyết tóm tắt văn bao gồm khái niệm, phân loại, hƣớng tiếp cận, phƣơng pháp đánh giá tóm tắt văn  Luận văn trình bày chi tiết thuật toán iSpreadRank bao gồm liệu đầu vào, đầu ra, bƣớc thực thuật toán  Luận văn xây dựng hoàn chỉnh cài đặt thành cơng mơ hình tóm tắt văn Tiếng Việt tự động áp dụng thuật tốn iSpreadRank Mơ hình có ƣu điểm bật nhƣ sau:  Khơng cần liệu training, thích hợp với ngơn ngữ tài nguyên (bộ liệu chuẩn) nhƣ tiếng Việt  Thuật tốn rõ ràng, dễ tích hợp thêm tri thức, tính trọng số đầu vào câu nhiều phƣơng pháp khác Hiện luận văn, tơi trình bày hai phƣơng pháp PageRank, điểm đặc trƣng với đặc trƣng, nhiên thử nghiệm với đặc trƣng, nhiều phƣơng pháp khác  Có thể tóm tắt văn lớn Đây ƣu điểm so với tóm tắt tóm lƣợc, nhƣ biết mơ hình tóm tắt tóm lƣợc nhƣ mơ hình Sequence-to-Sequence gặp nhiều khó khăn việc tóm tắt văn lớn  Dễ cài đặt Khi xây dựng hệ thống tóm tắt văn dựa theo mơ hình này, lập trình viên khơng cần nhiều kiến thức chuyên sâu ngôn ngữ học nhƣ xử lý ngơn ngữ tự nhiên xây dựng đƣợc ứng dụng tóm tắt văn  Kết bƣớc đầu cho thấy mơ hình cho kết tốt Cơng việc tƣơng lai cần làm  Nghiên cứu, áp dụng phƣơng pháp giúp nâng cao chất lƣợng văn tóm tắt việc rút gọn câu văn tóm tắt Trên sở kiến thức tóm tắt văn tìm hiểu, nghiên cứu xây dựng hệ thống tóm tắt văn theo kiểu tóm lƣợc  Một hạn chế mơ hình việc coi câu độc lập với nhau, đặc trƣng chủ đề văn bị coi nhẹ, tƣơng lai, xây dựng mơ hình, tơi nghiên cứu, áp dụng thêm số thuật tốn nhƣ Nạve-Bayes, để giải vấn đề 44  Thu thập liệu mẫu để phục vụ cho việc đánh giá đƣợc xác khách quan  Tích hợp mơ hình vào xây dựng ứng dụng tóm tắt tin tức cho điện thoại di động 45 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Nhật An (2015), “Nghiên cứu phát triển kỹ thuật tự động tóm tắt văn tiếng Việt”, Luận án tiến sĩ, Viện Khoa học Cơng nghệ qn [2] Đồn Xn Dũng (2018), “Tóm tắt văn sử dụng kỹ thuật deep learning”, Luận văn thạc sĩ, Trƣờng Đại học Công nghệ, Đại học Quốc gia Hà Nội [3] Trƣơng Quốc Định, Nguyễn Quang Dũng (2012), “Một giải pháp tóm tắt văn tiếng Việt tự động”, Hội thảo quốc gia lần thứ XV: số vấn đề chọn lọc Công nghệ thông tin Truyền thông Hà Nội, 0304/12/2012 [4] Lê Thanh Hƣơng (2014) “Nghiên cứu số phƣơng pháp tóm tắt văn tự động máy tính áp dụng cho Tiếng Việt”, Báo cáo tổng kết đề tài B2012 - 01 – 24, Trƣờng Đại học Bách Khoa Hà Nội [5] Nguyễn Thị Thu Hà (2012), “Phát triển số thuật tốn tóm tắt văn tiếng Việt sử dụng phương pháp học bán giám sát”, Luận án tiến sĩ, Học viện kỹ thuật quân [6] Đỗ Phúc, Mai Xuân Hùng, Nguyễn Thị Kim Phụng (2008) “Gom cụm đồ thị ứng dụng vào việc rút trích nội dung khối thơng điệp diễn đàn thảo luận”, Tạp chí Phát triển Khoa học Cơng nghệ, Tập 11, Số 05 - 2008, tr 21-32 [7] Nguyễn Trọng Phúc, Lê Thanh Hƣơng (2008), “Tóm tắt văn sử dụng cấu trúc diễn ngôn”, Proc of ICTrda08 [8] Trịnh Văn Quỳnh, Hoàng Thị Khánh, Đỗ Thị Lan Hƣơng, Nguyễn Thị Hà (2017) “Chiến thuật ôn tập Ngữ Văn lớp luyện thi vào 10 Bằng sơ đồ tư duy”, Nhà xuất Đại học Quốc gia Hà Nội [9] Nguyễn Thị Ngọc Tú, Nguyễn Thị Thu Hà , Lê Thanh Hƣơng , Hồ Ngọc Vinh, Đào Thanh Tĩnh, Nguyễn Ngọc Cƣơng (2015), “ứng dụng đồ thị tóm tắt đa văn tiếng Việt” Kỷ yếu Hội nghị Quốc gia lần thứ VIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR) 46 [10] Lâm Quang Tƣờng , Phạm Thế Phi, Đỗ Đức Hào (2017), “Tóm tắt văn tiếng Việt tự động với mơ hình SEQUENCE-TO-SEQUENCE” Tạp chí Khoa học Trường Đại học Cần Thơ, Số chuyên đề: Công nghệ thông tin (2017), tr.125-132 Tiếng Anh [11] Mehdi Allahyari , Seyedamin Pouriyeh, Mehdi Assef, Saeid Safaei, Elizabeth D Trippe, Juan B Gutierrez and Krys Kochut (2017), “Text Summarization Techniques: A Brief Survey”, arXiv, July 2017, USA [12] John M Conroy and Dianne P O'leary (2001), “Text summarization via hidden Markov models”, Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval [13] Hal Daum III and Daniel Marcu (2006), “Bayesian Query Focused Summarization”, Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, pp.305– 312, Sydney [14] Mangesh Dahale (2014), “Text Summarization for Compressed Inverted Indexes and Snippets”, Master's Theses and Graduate Research, San Jose State University [15] Rafael Ferreira, Frederico Freitas, Luciano de Souza Cabral, Rafael Dueire Lins, Rinaldo Lima (2013), “A Four Dimension Graph Model for Automatic Text Summarization”, IEEE/WIC/ACM International Joint Conferences on Web Intelligence (WI) and Intelligent Agent Technologies (IAT) [16] Vishal Gupta (2010), “A Survey of Text Summarization Extractive Techniques” JOURNAL OF EMERGING TECHNOLOGIES IN WEB INTELLIGENCE, VOL 2, NO [17] Xu Han, Tao Lv, Zhirui Hu, Xinyan Wang, and Cong Wang (2016), “Text Summarization Using FrameNet-Based Semantic Graph Model” Scientific Programming Volume 2016, Article ID 5130603 [18] Simon Kemp (2019), “Digital 2019: Global internet use accelerates”, Wearesocial.com, Global Digital 2019 reports, 30 January 2019 47 [19] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean (2013), “Distributed Representations of Words and Phrasesand their Compositionality”, arXiv:1310.4546v1 [20] Hong Phuong Le, Thi Minh Huyen Nguyen, Roussanaly Azim, Vinh H.T (2008), “A Hybrid Approach to Word Segmentation of Vietnamese Texts”, In: Martín-Vide C., Otto F., Fernau H (eds) Language and Automata Theory and Applications LATA 2008 Lecture Notes in Computer Science, vol 5196, Springer, Berlin, Heidelberg [21] Quoc V Le, Tomas Mikolov (2014), “Distributed Representations of Sentences and Documents”, arXiv:1405.4053v2 [22] Lin, Chin-Yew (2004), “ROUGE: a Package for Automatic Evaluation of Summaries”, In Proceedings of the Workshop on Text Summarization Branches Out (WAS 2004), Barcelona, Spain, July 25 - 26, 2004 [23] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu (2002) “BLEU: a Method for Automatic Evaluation of Machine Translation”, Computational Linguistics (ACL), Philadelphia, July 2002, pp 311-318 [24] Abigail See, Peter J Liu, Christopher D Manning (2017) “Get To The Point: Summarization with Pointer-Generator Networks”, arXiv:1704.04368 [25] Xinghao Song, Chunming Yang, Hui Zhang and Xujian Zhao (2018), “The Algorithm of Automatic Text Summarization Based on Network Representation Learning”, Springer Nature Switzerland AG 2018 M Zhang et al (Eds.): NLPCC 2018, LNAI 11109, pp.362–371 [26] Dingding Wang, Shenghuo Zhu, Tao Li, and Yihong Gong (2009), “Multidocument summarization using sentence-based topic models”, In Proceedings of the ACL-IJCNLP 2009 Conference Short Papers Association for Computationa [27] Kang Yang , Kamal Al-Sabahi , Yanmin Xiang and Zuping Zhang (2018), “An Integrated Graph Model for Document Summarization” Information 2018, 9(9), 232; https://doi.org/10.3390/info9090232 [28] Jen-Yuan Yeh, Wei-Pang Yang, Hao-Ren Ke, Pei-Cheng Cheng 48 (2014), “Extraction-based News Summarization Using Sentence Centrality in the Sentence Similarity Network”, Journal of Information Management, Vol 21, No 3, pp 271-304 [29] Jen-Yuan Yeh, Hao-Ren Ke, Wei-Pang Yang (2008), “iSpreadRank: Ranking sentences for extraction-based summarization using feature weight propagation in the sentence similarity network”, Expert Systems with Applications 35 (2008), pp.1451–1462 ... ngƣời tóm tắt Dữ liệu đƣợc đánh giá phƣơng pháp ROUGE với tham số:     Đánh giá toàn văn liệu Sử đánh giá dựa vào n-gram (n=1, n=2, n=3, n=4) Bao gồm từ dừng đánh giá Kết đánh giá cuối kết... tiếng để đánh giá độ xác hệ thống dịch máy Tuy vậy, áp dụng để đánh giá độ xác hệ thống tóm tắt văn tự động Hƣớng tiếp cận tƣơng tự ROUGE, BLEU đánh giá độ tƣơng đồng văn tóm tắt hệ thống tập... tắt văn 1.4 Các phƣơng pháp đánh giá tóm tắt văn 1.4.1 Đánh giá thủ công 1.4.2 Đánh giá đồng chọn 1.4.3 Đánh giá dựa nội dung CHƢƠNG CÁC PHƢƠNG PHÁP TÓM

Ngày đăng: 16/03/2021, 10:14

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w