1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm tắt văn bản tiếng việt theo hủ đề

120 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 120
Dung lượng 3,93 MB

Nội dung

Các lĩnh vực này chính là cấu trúc về nội dung của các tờ báo điện tử, thư viện điện tử,… Người viết luận văn sử dụng các thành quả đạt về xử lý văn bản tiếng Việt như bài toán phân tách

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - NGUYỄN HỒNG THÁI TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ LUẬN VĂN THẠC SĨ KHOA HỌC CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Lê Thanh Hương Hà Nội - 2008 Tai ngay!!! Ban co the xoa dong chu nay!!! 17057204960031000000 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” LỜI CẢM ƠN Em xin gửi lời cảm ơn chân thành sâu sắc tới cô giáo TS Lê Thanh Hương tận tình hướng dẫn giúp đỡ trình làm đồ án Mặc dù em cố gắng hoàn thành luận văn phạm vi khả cho phép chắn không tránh thiếu sót Chúng em kính mong nhận thông cảm bảo tận tình thầy bạn Sinh viên: Nguyễn Hồng Thái Lớp: Cao học CNTT 2006-2008 Hà Nội 10/2008 Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” LỜI NĨI ĐẦU Trong thời đại bùng nổ thơng tin ngày nay, phát triển vượt bậc công nghệ thông tin làm tăng đáng kể số lượng giao dịch mạng Internet đặc biệt thư viện điện tử, sách báo điện tử…, mà thời gian ln có hạn mà với người, ngày nhiều việc phải làm Và vấn đề để khai thác thông tin cách hiệu hoạt động xử lý thông tin nhiều người dùng tin quan tâm Dĩ nhiên xuất hàng loạt cơng cụ tìm kiếm tương đối thơng minh Google, Altavista, Yahoo…Song vấn đề đặt đọc hết tất thông tin sách báo điện tử hay mà cơng cụ tìm kiếm đem lại Để giải vấn đề đó, người viết luận văn xin đề xuất giải pháp “Tóm tắt văn tiếng Việt theo chủ đề” Mục đích đề tài trích rút nội dung văn tiếng Việt lại, hiển thị cho người đọc từ người sử dụng xem xét nội dung có cần đọc khơng? Nếu có người sử dụng tiến hành đọc chi tiết văn gốc, không người sử dụng dừng lại, không cần phải đọc Hướng tiếp cận người viết luận văn hướng đến lĩnh vực nội dung văn cần tóm tắt Các lĩnh vực cấu trúc nội dung tờ báo điện tử, thư viện điện tử,… Người viết luận văn sử dụng thành đạt xử lý văn tiếng Việt toán phân tách từ, tốn phân nhóm, phân lớp văn bản, tốn tóm tắt văn Nội dung luận văn gồm có chương đó: Chương Trình bầy sở lý thuyết lĩnh vực khai phá liệu văn xử lý ngôn ngữ tự nhiên Đó lý thuyết chung khai phá liệu văn bản, mối liên quan xử lý ngôn ngữ tự nhiên với khai phá liệu văn Đặc biệt người viết luận văn có sâu phân tích đặc điểm ngơn ngữ tiếng Việt Chương Trình bầy thành tựu đạt toán liên quan tới hướng tiếp cận tóm tắt văn tiếng Việt theo chủ đề Đó tốn tách từ, phân nhóm văn bản, phân lớp văn tóm tắt văn Chương Trình bầy mơ hình, giải pháp cho tốn tóm tắt văn theo chủ đề mà người viết luận văn đề xuất Đó mơ hình xây dựng lĩnh vực trước tạo Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” lên chủ đề Từ văn đầu vào trích rút chủ đề nội dung, chủ đề văn bản, chủ đề khái niệm…Dựa vào độ trích rút mà tiến hành đưa kết đầu Chương Trình bầy phân tích thiết kế hệ thống, cài đặc kiểm thử cho giải pháp mà người viết luận văn đề xuất Đó q trình phân tách từ vựng văn Đó trình tìm nội chủ đề, kết trích rút Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” DANH MỤC TỪ VIẾT TẮT STT Từ viết tắt KDD TFxIDF IR NLP NLG SVM CFG CSDL POS 10 RST 11 HMM 12 LRMM Giải nghĩa Knowledge Discovery in Databases Phát tri thức sở liệu Term Frequency times Inverse Document Frequency Hệ thu thập thông tin Information Retrieval Natural Language Processing Xử lý ngôn ngữ tự nhiên Natural Language Generating Sinh ngôn ngữ tự nhiên Support Vector Machine Mơ hình máy vector hỗ trợ Context Free Grammar Văn phạm phi ngữ cảnh Cơ sở liệu Part of Speech Từ loại Rhetorical Structure Theory Lý thuyết cấu trúc tu từ Hidden Markov Model Mơ hình Markov ẩn Left Right Maximum Matching Tách từ dài từ trái qua phải Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” DANH MỤC HÌNH VẼ Hình 1-1:Tiến trình khai phá liệu phát tri thức (KDD) 10 Hình 1-2: Quan hệ Dữ liệu – Thông tin – Tri thức 11 Hình 1-3: Chức dẫn đường văn VNExpress 17 Hình 1-4: Các vector văn khơng gian có thuật ngữ 18 Hình 1-5: Phân tích cú pháp 27 Hình 2-1: Các phương pháp tách từ 36 Hình 2-2: Sơ đồ hệ thống WFST 42 Hình 2-3: Mơ hình hệ thống IGATEC 45 Hình 2-4: Ví dụ mơ tả giải thuật k-means 48 Hình 2-5: Tóm tắt trang tin 58 Hình 2-6: Tóm tắt hoạt động để hiển thị thiết bị cầm tay 58 Hình 2-7: Tóm tắt danh sách tìm kiếm từ Google gợi ý đọc tiếp 59 Hình 2-8: Tóm tắt tài liệu khoa học 59 Hình 2-9: Mơ hình hệ Tóm tắt văn tổng quát 60 Hình 2-10: Mơ hình hệ Trích rút văn 61 Hình 2-11: Quan hệ lẫn đoạn văn 63 Hình 3-1: Tập mẫu chủ đề 77 Hình 3-2: Tính chủ đề cấu đào tạo trường Cao đẳng cơng nghiệp Hà Nội 78 Hình 3-3: Cây chủ đề báo điện tử www.vnexpress.net 79 Hình 3-4: Tính chủ đề mơ hình tóm tắt văn theo chủ đề 85 Hình 3-5: Mơ hình tóm tắt văn theo chủ đề 87 Hình 3-6: Tính chủ đề tịa soạn báo www.vnexpress.net 90 Hình 3-7: Biểu thị việc tìm k khái niệm tập mẫu chủ đề 92 Hình 3-8: Thuật toán Tách từ sử dụng phương pháp LRMM 95 Hình 3-9: Thuật tốn K-Mean 97 Hình 3-10: Minh họa việc khoanh vùng k văn gần với k = 97 Hình 4-1: Các chức hệ thống 103 Hình 4-2: Sơ đồ hệ thống 104 Hình 4-3: Biểu đồ tập mẫu vnexpress.net vietnamnet.vn 107 Hình 4–4: Biểu đồ kết đánh giá trích rút nội dung 111 Hình 4-5: Biểu đồ kết đánh giá trích rút độ trơn 113 Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” DANH MỤC BẢNG Bảng 1-1: Ví dụ biểu diễn văn theo mơ hình vector tần suất 18 Bảng 1-2: So sánh đặc điểm tiếng Việt với đặc điểm tiếng Anh 22 Bảng 2-1: Phương pháp đánh giá 72 Bảng 2–2: Đánh giá nội dung văn trích rút 75 Bảng 2-3: Đánh giá theo độ trơn văn 75 Bảng 3-1: Gán nhãn theo số đông 98 Bảng 3-2: Thí dụ cụ thể 98 Bảng 4-1: Cơ sở liệu cho tập phân tách từ 107 Bảng 4-2: Cơ sở liệu cho tập trích rút văn 108 Bảng 4-3: Bảng chi tiết tập huấn luyện tập kiểm thử 109 Bảng 4-4: Kết đánh giá nội dung trích rút theo người sử dụng 111 Bảng 4-5: Kết đánh giá nội dung trích rút theo pp BLEU 112 Bảng 4-6: Kết đánh giá nội dung trích rút 113 Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” MỤC LỤC LỜI CẢM ƠN LỜI NÓI ĐẦU DANH MỤC TỪ VIẾT TẮT DANH MỤC HÌNH VẼ DANH MỤC BẢNG MỤC LỤC CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 1.1 NHIỆM VỤ CỦA ĐỒ ÁN 1.2 KHAI PHÁ DỮ LIỆU VĂN BẢN 1.2.1 Khái niệm khai phá liệu văn 11 1.2.2.1 Thuật ngữ - Từ khóa – Khái niệm 12 1.2.2.2 Từ dừng 13 1.2.2.3 Trọng số thuật ngữ 14 1.2.3 Các toán xử lý văn 14 1.2.3.1 Tìm kiếm văn (Text Retrieval) 14 1.2.3.2 Phân lớp văn (Text categorization, Text classification) 15 1.2.3.3 Phân nhóm văn (Text clustering) 15 1.2.3.4 Tóm tắt văn (Text summarization) 15 1.2.3.5 Dẫn đường văn (Text rounting) 16 1.2.4 Các phương pháp biểu diễn văn 17 1.2.5 Mô hình độ đo xử lý văn 20 1.3 XỬ LÝ VĂN BẢN GẮN LIỀN VỚI XỬ LÝ NGÔN NGỮ TỰ NHIÊN 21 1.3.1 Tại xử lý văn lại gắn liền với xử lý ngôn ngữ tự nhiên? 21 1.3.2 Một số khái niệm, thuật ngữ ngôn ngữ 23 1.3.2.1 Thuật ngữ bàn ngôn ngữ 23 1.3.2.2 Từ loại 24 1.3.2.3 Ngữ loại 24 1.3.2.4 Các thành phần câu 24 1.3.3 Các tốn ngơn ngữ tự nhiên 25 1.3.3.1 Bài toán phân tách từ vựng 25 1.3.3.2 Bài toán gán nhãn từ loại 26 1.3.3.3 Bài tốn phân tích cú pháp 27 1.3.3.4 Bài tốn phân tích ngữ nghĩa 28 1.3.4 Các đặc trưng ngôn ngữ tiếng Việt 29 1.3.4.1 Một số đơn vị đặc trưng tiếng việt 30 1.3.4.2 Các đặc điểm tả tiếng Việt 30 1.3.4.3 Từ tiếng Việt 31 1.3.4.4 Đánh giá phương pháp xử lý tiếng Việt 32 1.3.4.5 Các chuẩn font tiếng Việt sử dụng 32 Kết luận xử lý ngôn ngữ tự nhiên 33 KẾT CHƯƠNG 34 CHƯƠNG 2: CÁC BÀI TOÁN SỬ DỤNG TRONG ĐỀ TÀI 35 2.1 BÀI TOÁN TÁCH TỪ TIẾNG VIỆT 35 2.1.1 Những khó khăn tách từ tiếng Việt 35 2.1.2 Các phương pháp tách từ 35 2.1.3 Các phương pháp tách từ tiếng Việt 40 2.1.4 So sánh phương pháp tách từ tiếng Việt 46 2.2 BÀI TỐN PHÂN NHĨM VĂN BẢN 47 Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” 2.2.1 Khái niệm 47 2.2.2 Các giải thuật 47 2.2.3 Kết luận tốn phân nhóm 49 2.3 BÀI TOÁN PHÂN LỚP VĂN BẢN 49 2.3.1 Các phương pháp phân loại văn 49 2.3.2 Các phương pháp phân loại văn tiếng Anh hành 50 2.3.3 Kết luận 54 2.4 BÀI TỐN TĨM TẮT VĂN BẢN 55 2.4.1 Giới thiệu tốn tóm tắt văn 55 2.4.2 Khái niệm Tóm tắt văn bản? 57 2.4.3 Mơ hình tốn tóm tắt văn 59 2.4.4 Các phương pháp tóm tắt văn 61 2.4.5 Các phương pháp đánh giá 70 2.4.6 Đánh giá 71 2.4.7 Kết luận 75 KẾT CHƯƠNG 76 CHƯƠNG 3: GIẢI PHÁP TÓM TẮT VĂN BẢN THEO CHỦ ĐỀ 77 3.1 GIỚI THIỆU VỀ BÀI TỐN TĨM TẮT VĂN BẢN THEO CHỦ ĐỀ 77 3.1.1 Giới thiệu tính chủ đề toán 77 3.1.2 Các khái niệm tóm tắt văn theo chủ đề 80 3.1.3 Các đặc trưng tóm tắt văn theo chủ đề chủ đề 81 3.1.3.1 Đặc trưng ngôn ngữ văn 81 3.1.3.2 Đặc trưng hệ thống tóm tắt tóm tắt văn theo chủ đề 84 3.1.4 Bài toán tóm tắt văn theo chủ đề 85 3.2 MƠ HÌNH TĨM TẮT VĂN BẢN THEO CHỦ ĐỀ 85 3.2.1 Mơ hình tổng thể 85 3.2.2 Phương pháp xây dựng chủ đề 89 3.2.3 Xây dựng đặc trưng từ phương pháp học chủ đề 90 3.2.3.1 Học không giám sát – Phương pháp tìm khái niệm cho cho chủ đề 91 3.2.3.2 Học có giám sát – Phương pháp tìm chủ đề cho văn cần tóm tăt 92 3.2.4 Các thuật toán sử dụng 93 3.2.4.1 Thuật toán tách từ 93 3.2.4.2 Thuật toán phân nhóm K - Mean 95 3.2.4.3 Thuật toán phân lớp KNN 97 3.2.4.4 Thuật tốn tóm tắt, trích rút 99 KẾT CHƯƠNG 101 CHƯƠNG 4: THIẾT KẾ, CÀI ĐẶT VÀ THỬ NGHIỆP PHẦN MỀM 103 4.1 XÁC ĐỊNH YÊU CẦU 103 4.2 PHÂN TÍCH THIẾT KẾ HỆ THỐNG 103 4.2.1 Thiết kế tổng thể 103 4.2.2 Chức hệ thống 104 4.3 CƠ SỞ DỮ LIỆU THỬ NGHIỆP 107 4.3.1 Tập văn gán nhãn sẵn 107 4.3.2 Tập kiểm thử vnexpress.net vietnamnet.vn 107 4.4 KẾT QUẢ THỬ NGHIỆP 109 4.4.1 Phương pháp đánh giá kết thử nghiệm 109 4.4.2 Tóm tắt văn tiếng Việt theo chủ đề 110 4.5 ĐÁNH GIÁ THỬ NGHIỆM 113 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 114 TÀI LIỆU THAM KHẢO 116 Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008

Ngày đăng: 22/01/2024, 17:09

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN