Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 12 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
12
Dung lượng
189,01 KB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO - ĐỀ CƯƠNG LUẬN VĂN THẠC SỸ Chuyên ngành: Công nghệ thông tin Mã ngành: 60480201 ÁP DỤNG MƠ HÌNH ĐỒ THỊ VÀO BÀI TỐN TĨM TẮT VĂN BẢN TIẾNG VIỆT HVTH : Bạch Quốc Huy MSHV : 1641860005 GVHD : TS Lê Thị Ngọc Thơ TP HCM, tháng 8/2017 NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN Tp HCM, ngày …… tháng …… năm 2017 Giảng viên hướng dẫn NHẬN XÉT CỦA HỘI ĐỒNG XÉT DUYỆT Tp HCM, ngày …… tháng …… năm 2017 Hội đồng xét duyệt Mục Lục GIỚI THIỆU 1.1 Đặt vấn đề .5 1.2 Tính cấp thiết đề tài MỤC TIÊU, NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU .6 2.1 Mục tiêu đề tài: .6 2.2 Nội dung nghiên cứu: 2.3 Phương pháp luận phương pháp nghiên cứu: TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU: 3.1 Các cơng trình liên quan .8 3.2 Đề xuất phương pháp tóm tắt văn tiếng việt dựa mơ hình đồ thị TIẾN ĐỘ THỰC HIỆN ĐỀ TÀI BỐ CỤC DỰ KIẾN CỦA LUẬN VĂN 10 TÀI LIỆU THAM KHẢO .11 GIỚI THIỆU 1.1 Đặt vấn đề Ngày thông tin đóng vai trị quan trọng xã hội Sự phát triển mạnh mẽ Internet mang đến lượng thông tin khổng lồ cho người Cũng số lượng thông tin lớn mà nắm bắt hết chúng bên cạnh khơng phải thơng tin hữu ích phục vụ cho nhu cầu tra cứu thông tin làm việc Rất nhiều người có nhu cầu tổng hợp tóm tắt lại thông tin để thuận lợi cho việc tổng hợp thơng tin Xuất phát từ nhu cầu đó, phương pháp tóm tắt tự động nghiên cứu phát triển Tóm tắt liệu tự động lĩnh vực quan trọng, bao gồm học máy khai phá liệu Bài tốn tóm tắt liệu tự động khơng dừng lại tóm tắt văn mà mở rộng loại liệu đa phương tiện hình ảnh, âm video Tóm tắt văn q trình rút thơng tin quan trọng từ văn để tạo thành văn ngắn gọn theo nhiệm vụ cụ thể yêu cầu người sử dụng Trong vài năm trở lại tốn tóm tắt văn nhận nhiều quan tâm nghiên cứu nhà khoa học nhóm nghiên cứu cơng ty lớn giới Để khai thác tối đa thơng tin có từ tài liệu, văn tiếng việt đồng thời dễ dàng cho việc tra cứu tìm kiếm người dùng việc đưa hệ thống tóm tắt văn tiếng việt điều cần thiết Với lý chọn đề tài “Áp dụng mơ hình đồ thị vào tốn tóm tắt văn tiếng việt” nhằm mục đích đưa phương pháp tóm tắt văn tiếng việt có hiệu suất tốt hơn, đơn giản ứng dụng nhiều lĩnh vực 1.2 Tính cấp thiết đề tài Sự phát triển ngày tăng hệ thống thơng tin tồn giới cung cấp cho lượng thông tin khơng lồ Lượng thơng tin khổng lồ mang lại lợi ích khơng nhỏ cho nhân loại đồng thời khiến khó khăn việc tìm kiếm tổng hợp thơng tin Giải pháp cho vấn đề việc tóm tắt văn tự động Việc áp dụng tóm tắt văn giúp người dùng tiết kiệm thời gian đọc tăng hiệu tìm kiếm, tiếp nhận thơng tin Hiện việc xây dựng nên hệ thống tóm tắt văn tự động coi nhu cầu thiết yếu cấp bách nhận quan tâm toàn thể xã hội Tại hội nghị tiếng như: DUC 2001-2007, TAC 2008-2011, ACL 2001-2015, tóm tắt văn tự động đề cập đến nhiều báo Ngồi ra, có nhiều hệ thống tóm tắt văn độc lập tích hợp phát triển như: MEA, LexRank, chức tự động tóm tắt Microsoft Word, hệ thống tóm tắt online Text Compactor Các cơng trình nghiên cứu ứng dụng xây dựng chủ yếu phục vụ cho việc tóm tắt văn tiếng anh, có vài tác giả đưa phương pháp áp dụng cho tiếng việt kết thu lại chưa cao phần văn tiếng việt ngữ pháp phức tạp Việc đưa ý tưởng mới, phù hợp để xây dựng hệ thống tóm tắt văn tiếng việt tốt điều cần thiết cấp bách nhằm khai thác thông tin hiệu từ kho tài liệu tiếng việt Vì chúng tơi mạnh dạn đề suất sử dụng phương pháp trích xuất câu kết hợp với việc biểu diễn văn đồ thị sử dụng thuật toán xếp hạng PageRank để xây dựng nên phương pháp tóm tắt văn tiếng việt 2 MỤC TIÊU, NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 2.1 Mục tiêu đề tài: - Mục tiêu tổng quát: Xây dựng hệ thống tóm tắt văn tiếng việt thơng qua phương pháp trích xuất câu - Mục tiêu cụ thể: đề tài tập trung vào xây dựng tóm tắt văn tiếng việt thơng qua việc biểu diễn toàn văn đồ thị vô hướng với đỉnh câu văn bản, mối liên hệ câu văn độ lớn cạnh thuộc đồ thị, độ lớn tính độ tương đồng mặt ngữ nghĩa câu.Sau xây dựng đồ thị dùng thuật toán xếp hạng PageRank để xếp hạng trích xuất câu quan trọng văn bản, cuối xếp lựa chọn hợp lý câu có xếp hạng cao để xây dựng nên văn tóm tắt 2.2 Nội dung nghiên cứu: - Nghiên cứu kỹ thuật loại bỏ thông tin không quan trọng văn để giảm kích thước liệu - Nghiên cứu phương pháp biểu diễn văn thành đồ thị vô hướng - Nghiên cứu phương pháp toán học dùng để tính tốn độ tương đồng hai câu thơng qua xác định trọng số đồ thị - Tập trung vào phương pháp xác định độ tương đồng ngữ nghĩa câu sử dụng WordNet corpus Hidden Topic - Sử dụng thuật toán xếp hạng PageRank để tính tốn điểm số cho đỉnh đồ thị trích lọc đỉnh có điểm số cao để xây dựng văn tóm tắt 2.3 Phương pháp luận phương pháp nghiên cứu: - Nghiên cứu độ tương đồng câu dựa tương đồng mặt ngữ nghĩa chúng - Nghiên cứu phương pháp tóm tắt văn tiếng việt sử dụng trích xuất câu có đề cập đến việc xây dựng đồ thị thuật toán xếp hạng PageRank đề cập trước - Tìm hiểu, vận dụng kế thừa thuật tốn quy trình cơng bố kết - Áp dụng mơ hình ý tưởng cho tốn tóm tắt văn tiếng việt so sánh với cơng trình trước TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU: 3.1 Các công trình liên quan: Trong năm gần đây, số phương pháp khác đề xuất để tự động tóm tắt văn Tiếng Việt - Hồng cộng [2] đề xuất phương pháp tóm tắt văn tiếng việt dựa phương pháp trích xuất câu Ý tưởng báo dùng đồ thị vô hướng biểu diễn câu văn với đỉnh đồ thị ứng với câu Trọng số cạnh tính dựa vào độ tương tự câu , phụ thuộc vào tần số xuất từ có câu Phương pháp xử lý nhanh tốn chi phí nhiên chưa đảm bảo độ xác cao mặt ngữ nghĩa điều ảnh hưởng đến chất lượng nội dung văn tóm tắt.Sau xây dựng đồ thị sử dụng PageRank để tiến hành xếp hạng trích xuất câu quan trọng Cuối xây dựng văn tóm tắt dựa câu quan trọng lấy - Hương cộng [3] đề xuất phương pháp tóm tắt văn tiếng việt dựa việc trích xuất cụm từ Bài báo mô tả cách tiếp cận để tổng hợp văn tiếng việt tập trung vào cấu trúc luận văn Mặc dù phương pháp đưa thu kết đầy hứa hẹn nhiên hạn chế đề tài việc tạo thảo luận phục vụ cho việc rút trích mệnh đề tương đối phức tạp, tập thảo luận cần đầy đủ để nâng cao chất lượng tóm tắt văn bản, cần tìm thêm nhiều phương pháp để xác định quan hệ khoảng văn - Hà [4] đề xuất phương pháp tóm tắt văn đơn âm tiết dựa thuật toán Bayes sử dụng từ chủ đề Phương pháp phương pháp học có giám sát nên địi hỏi phải có thời gian đển huấn luyện liệu, với chủ đề khác lại phải huấn luyện tập liệu riêng biệt khó áp dụng dễ dàng cho nhiều lĩnh vực - Viet Phung cộng [5] đề xuất phương pháp sử dụng word embeddings kết hợp với PageRank để xếp hạng câu đưa tập câu phù hợp cho việc tóm tắt văn tiếng việt Phương pháp cần phải có tập liệu tóm tắt cho trước để xây dựng nên mối quan hệ câu từ với chủ đề tập liệu tóm tắt lại thay đổi cần thời gian thu thập, xây dựng trước sử dụng - Tiến cộng [6] đề xuất việc kết hợp ý kiến người mục bình luận viết để góp phần tạo văn tóm tắt chất lượng, phương pháp học có giám sát nên cần thời gian xây dựng liệu huấn luyện việc xây dựng liệu huấn luyên cần có can thiệp từ người 3.2 Đề xuất phương pháp tóm tắt văn tiếng việt dựa mơ hình đồ thị: - Hầu tưởng tóm tắt văn tiếng việt gần đưa cách tiếp cận học tập không giám sát địi hỏi cần huấn luyện liệu, phát sinh thêm nhiều thời gian không gian lưu trữ, không dễ dàng cho người sử dụng áp dụng vào chủ đề văn khác - Để khắc phục hạn chế trên, đề suất cách tiếp cận học tập không giám sát lấy ý tưởng từ báo nghiên cứu sử dụng đồ thị kết hợp thuật toán xếp hạng PageRank để trích xuất câu sử dụng độ tương đồng ngữ nghĩa câu để tạo trọng số cạnh đồ thị 4 TIẾN ĐỘ THỰC HIỆN ĐỀ TÀI: Tháng/năm 2017 Dự kiến nội dung thực Nghiên cứu tổng quan xử lý văn tiếng Việt Nghiên cứu khái niệm cơng trình liên quan đến tốn tóm tắt văn tiếng việt Nghiên cứu độ tương đồng ngữ nghĩa hai câu phương pháp xác định đại lượng Nghiên cứu tốn tóm tắt văn tiếng việt dựa đồ thị thuật toán xếp hạng PageRank Tiến hành thực nghiệm đánh giá kết Kết luận, kiến nghị, hoàn thiện luận văn BỐ CỤC DỰ KIẾN CỦA LUẬN VĂN: Dự kiến gồm chương: 10 11 12 1/ 2/ 2018 2018 Chương 1: Tổng quan tóm tắt tốn tóm tắt văn tiếng việt 1.1 Giới thiệu 1.2 Đặc điểm ngôn ngữ tiếng việt 1.3 Một số phương pháp tóm tắt văn 1.4 Đánh giá tóm tắt văn Chương 2: Các khái niệm cơng trình liên quan 2.1 Các khái niệm: tf, idf, độ tương tự hai câu, độ đo cosin, Worldnet, Hidden Topic, PageRank 2.2 Các cơng trình liên quan Chương 3: Xây dựng hệ thống tóm tắt văn tiếng việt dựa mơ hình đồ thị thuật toán xếp hạng PageRank 3.1 Xây dựng cơng thức tính độ tương đồng ngữ nghĩa hai câu Worldnet 3.2 Xây dựng cơng thức tính độ tương đồng ngữ nghĩa hai câu Hidden Topic 3.3 Mơ hình hóa văn đồ thị 3.4 Xây dựng cơng thức xếp hạng PageRank 3.5 Trích rút câu xây dựng văn tóm tắt Chương 4: Thực nghiệm đánh giá kết 4.1 Lựa chọn liệu thực nghiệm 4.2 Đánh giá kết quả: so sánh với phương pháp khác Chương 5: Kết luận, kiến nghị hướng phát triển TÀI LIỆU THAM KHẢO 1) Courtney Corley and Rada Mihalcea 2005 “Measuring the Semantic Similarity of Texts” 2) Tu Anh Nguyen Hoang, Hoang Khai Nguyen, Quang Vinh Tran 2010 “An Efficient Vietnamese Text Summarization Approach Based on Graph Model” 3) Huong Thanh Le, Rathany Chan Sam, Phuc Trong Nguyen 2010 “Extracting Phrases in Vietnamese Document for Summary Generation” 4) Ha Nguyen Thi Thu, 2014, “An Optimization Text Summarization Method Based on Naïve Bayes and Topic Word for Single Syllable Language” 5) Viet Phung,Lance De Vine 2015, “A Study on the Use of Word Embeddings and PageRank for Vietnamese Text Summarization” 6) Minh-Tien Nguyen1,2 , Viet Dac Lai1 , Phong-Khac Do1 , Duc-Vu Tran1 , and Minh-Le Nguyen1, 2016, “VSoLSCSum: Building a Vietnamese Sentence-Comment Dataset for Social Context Summarization”