TOÀN văn tìm KIẾM văn bản TIẾNG VIỆT THEO CHỦ đề

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN CÔNG NGHỆ TRI THỨC HOÀNG CÔNG DUY VŨ - NGUYỄN LÊ NGUYÊN TÌM KIẾM VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ KHÓA LUẬN CỬ NHÂN TIN HỌC TPHCM - 2006 TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN CÔNG NGHỆ TRI THỨC HOÀNG CÔNG DUY VŨ - 0212384 NGUYỄN LÊ NGUYÊN - 0212203 TÌM KIẾM VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ KHÓA LUẬN CỬ NHÂN TIN HỌC GIÁO VIÊN HƯỚNG DẪN T.S Nguyễn Đình Thúc Văn Chí Nam NIÊN KHÓA 2002 - 2006 NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… Luận văn đáp ứng yêu cầu của luận văn cử nhân tin học. TpHCM, ngày … tháng … năm 2006 Giáo viên phản biện LỜI CẢM ƠN Sau một thời gian làm việc cật lực, đến nay, mọi công việc liên quan đến luận văn tốt nghiệp đã hoàn tất. Trong suốt thời gian này, chúng tôi đã nhận được rất nhiều sự giúp đỡ. Ở phần đầu tiên của luận văn, cho phép chúng tôi có đôi điều gửi đến những người chúng tôi vô cùng biết ơn. Đầu tiên, xin gởi lời cảm ơn chân thành nhất đến Thầy Nguyễn Đình Thúc, Thầy Văn Chí Nam, Thầy Đinh Điền những người đã tận tình hướng dẫn, động viên, và giúp đỡ chúng em trong suốt thời gian qua. Nếu không có những lời chỉ dẫn, những tài liệu, ngữ liệu, những lời động viên khích lệ của các Thầy thì luận văn này khó lòng hoàn thiện được. Chúng con cũng xin cảm ơn cha mẹ, những người đã luôn dành cho chúng con những tình cảm thương yêu nhất, những người đã luôn hỗ trợ, dõi theo những bước đi của chúng con trong tất cả các năm học vừa qua. Xin cảm ơn các anh chị trong gia đình đã động viên chúng em trong suốt thời gian làm luận văn. Chúng em cũng xin gởi lời cảm ơn tất cả các Thầy Cô trong khoa Công Nghệ Thông Tin, những người dày công dạy dỗ, truyền cho em rất nhiều tri thức quý báu suốt 4 năm theo học. Cảm ơn các bạn, các anh chị trong nhóm VCL 1 vì những đóng góp của các bạn, các anh cho luận văn này. Đặc biệt xin gởi lời cảm ơn chân thành đến với anh Ngô Quốc Hưng cho những công cụ phục vụ luận văn và những góp ý cho chương trình. Và cuối cùng xin cảm ơn tất cả bạn bè của chúng tôi, những người đã sát cánh cùng vui những niềm vui, cùng chia sẻ những khó khăn của chúng tôi, cùng chúng tôi giải quyết nhiều khó khăn suốt 4 năm học đại học… Xin chân thành cảm ơn! Hoàng Công Duy Vũ - Nguyễn Lê Nguyên 1 Vietnamese Computational Linguistics i MỤC LỤC MỤC LỤC i DANH MỤC HÌNH vii DANH MỤC BẢNG viii DANH MỤC BIỂU ĐỒ xi Chương 1: MỞ ĐẦU 1 1.1 Đặt vấn đề 1 1.2 Giới thiệu đề tài 2 1.3 Giới thiệu sự ra đời của hệ thống tổng hợp thông tin từ báo chí cho mục đích an toàn sinh học cộng đồng 2 1.4 Mô hình tổng quan của dự án 5 1.5 Vai trò của hệ thống khai thác thông tin văn bản (text mining system) trong dự án 5 1.6 Mục tiêu thực hiện của luận văn 8 1.6.1 Tìm hiểu các thuật toán phân loại văn bản 8 1.6.2 Xây dựng ứng dụng tìm kiếm văn bản theo chủ đề 8 1.7 Đóng góp của luận văn 9 1.8 Bố cục của luận văn: 9 Chương 2: TỔNG QUAN 11 2.1 Bài toán tách từ 11 2.1.1 Các vấn đề trong bài toán tách từ 11 2.1.1.1 Xử lý nhập nhằng [11] 11 2.1.1.2 Nhận diện từ chưa biết 12 2.1.2 Các hướng tiếp cận chính cho bài toán tách từ 12 2.1.3 Tách từ tiếng Việt dùng mô hình WFST 12 ii 2.1.3.1 Mô hình WFST 13 2.1.3.2 Biểu diễn từ điển 14 2.1.3.3 Phân tích hình thái 15 2.1.3.4 Mô hình mạng Neuron 16 2.1.4 Tách từ tiếng Việt dùng mô hình Maximum Matching 18 2.1.5 Tách từ tiếng Việt dùng mô hình MMSeg 19 2.1.5.1 Thuật toán MM và các biến thể của nó 19 2.1.5.2 Các luật khử nhập nhằng (Ambiguity Resolution Rules) 20 2.1.6 Tách từ tiếng Việt dùng mô hình Maximum Entropy 21 2.1.6.1 Ý tưởng của phương pháp 22 2.1.6.2 Mô hình thuật toán [11] 22 2.1.6.3 Ước lượng bộ tham số cho mô hình [11] 25 2.2 Bài toán phân loại văn bản 27 2.2.1 Một số khái niệm cơ bản 27 2.2.2 Tổng quan về bài toán phân loại văn bản tự động trên tiếng Anh 28 2.2.3 Các phương pháp tiếp cận cho bài toán 30 2.2.4 Phân loại văn bản tiếp cận theo hướng dãy các từ (Bag of words – BOW based Approach) [25] 30 2.2.4.1 Phương pháp xác suất Naïve Bayes 30 2.2.4.2 Phương pháp phân loại k người láng giềng gần nhất 32 2.2.4.3 Phương pháp sử dụng mạng nơron 35 2.2.4.4 Phương pháp phân loại văn bản bằng cây quyết định 39 2.2.4.5 Phân loại văn bản bằng phương pháp hồi quy 40 2.2.4.6 Phân loại văn bản sử dụng Support Vector Machines – SVM 42 2.2.4.7 Những phương pháp khác 48 2.2.5 Phân loại văn bản tiếp cận theo hướng mô hình ngôn ngữ thống kê N- Gram (Statistical N-Gram Language modeling based Approach) [26] 48 2.2.6 Tiếp cận theo hướng kết hợp 2 loại trên (Combining approach) [27] 49 iii 2.2.7 Tổng quan về bài toán phân loại văn bản trên tiếng Việt 51 2.2.7.1 Phân loại văn bản tiếng Việt bằng phương pháp Naïve Bayes [21]. 52 2.2.7.2 SVM - Ứng dụng lọc email [22] 53 2.2.7.3 Ứng dụng lý thuyết tập thô trong bài toán phân loại văn bản [23] 56 2.2.7.4 Phân tích các ưu khuyết điểm trong bài toán phân loại văn bản tiếng Việt 58 Chương 3: CƠ SỞ LÝ THUYẾT 59 3.1 Lý thuyết ngôn ngữ cho bài toán tách từ tiếng Việt [11] 59 3.1.1 Khái niệm về từ 59 3.1.2 Hình thái từ tiếng Việt 60 3.1.2.1 Hình vị tiếng Việt 60 3.1.2.2 Từ tiếng Việt 62 3.2 Cơ sở lý thuyết về văn bản, phân loại văn bản 63 3.2.1 Khái niệm văn bản 63 3.2.2 Khái niệm phân lớp 63 3.2.3 Khái niệm phân loại văn bản 64 3.2.3.1 Phân loại văn bản đơn nhãn và đa nhãn 65 3.2.3.2 Phân loại văn bản phụ thuộc lớp/loại văn bản so với phụ thuộc tài liệu 65 3.2.3.3 Phân loại văn bản “cứng” so với “mềm” 66 3.2.3.4 Các ứng dụng của phân loại văn bản [2] 66 Chương 4: MÔ HÌNH –THIẾT KẾ – CÀI ĐẶT 68 4.1 Chuẩn bị ngữ liệu 68 4.2 Kiến trúc tổng quát của hệ thống (The General Architecture) 71 4.2.1 Các module chính của hệ thống 72 iv 4.2.2 Các chức năng chính của hệ thống 72 4.3 Module phân loại tài liệu (Vietnamese Document Classification Module) 72 4.3.1 Mô hình tổng quát (General Model) 72 4.3.2 Cách tiếp cận dựa trên dãy các từ (The BOW-based Approach) 74 4.3.2.1 Bài toán tách từ tiếng Việt 74 4.3.2.2 Tiền xử lý văn bản tiếng Việt 80 4.3.2.3 Chọn lựa đặc trưng 82 4.3.2.4 Xây dựng bộ phân lớp 88 4.3.3 Tiếp cận theo hướng mô hình ngôn ngữ thống kê 88 4.3.3.1 Tiền xử lý văn bản tiếng Việt 88 4.3.3.2 Xây dựng mô hình ngôn ngữ 89 4.3.3.3 Sử dụng mô hình Naïve Bayes kết hợp với mô hình ngôn ngữ thống kê n-gram 92 4.3.3.4 Các lợi ích của mô hình ngôn ngữ 92 4.3.4 Lọc và tìm kiếm tài liệu 93 4.4 Thiết kế cài đặt 94 4.4.1 Thiết kế cài đặt thư viện tách từ 94 4.4.1.1 Sơ đồ lớp 94 4.4.1.2 Cài đặt 94 4.4.2 Thiết kế cài đặt module phân loại văn bản 96 4.4.2.1 Sơ đồ lớp 96 4.4.2.2 Cài đặt 96 4.4.3 Thiết kế cài đặt ứng dụng tìm kiếm văn bản tiếng Việt theo chủ đề 101 4.4.3.1 Sơ đồ lớp 101 4.4.3.2 Giao diện ứng dụng 102 4.4.3.3 Cài đặt 104 Chương 5: KẾT QUẢ THỰC NGHIỆM 105 5.1 Bài toán tách từ tiếng Việt 105 v 5.1.1 Thí nghiệm 105 5.1.2 Đánh giá 106 5.1.3 Kết quả 107 5.1.4 Nhận xét 108 5.2 Bài toán phân loại văn bản tiếng Việt 108 5.2.1 Thí nghiệm 108 5.2.1.1 Định nghĩa các giá trị độ đo 109 5.2.1.2 Các mô hình dùng trong bài toán phân loại văn bản: 110 5.2.2 Dữ liệu thô (10 chủ đề) 110 5.2.2.1 So sánh kết quả phân loại văn bản bằng mô hình SVM-Multi theo 3 phương pháp chọn đặc trưng OCFS, CHI, GSS 110 5.2.2.2 So sánh kết quả phân loại văn bản bằng mô hình N-gram theo 4 phương pháp “làm trơn” (discounting smoothing methods) Absolute, Good Turing, Linear, Witten Bell 111 5.2.2.3 So sánh kết quả phân loại văn bản với 4 mô hình khác nhau: SVM- Multi, SVM-Binary, kNN, N-gram 113 5.2.2.4 So sánh kết quả phân loại văn bản khác nhau theo số lượng đặc trưng chọn lựa với mô hình SVM-Multi 114 5.2.2.5 Mô hình N-gram với phương pháp “làm trơn” (discounting smoothing method) Good Turing 114 5.2.3 Dữ liệu mịn (27 chủ đề) 115 5.2.3.1 So sánh kết quả phân loại văn bản bằng mô hình SVM-Multi theo 6 phương pháp chọn đặc trưng OCFS, CHI, GSS, IG, OR, MI 115 5.2.3.2 So sánh kết quả phân loại văn bản bằng mô hình N-gram theo 4 phương pháp “làm trơn” (discounting smoothing methods) Absolute, Good Turing, Linear, Witten Bell 117 5.2.3.3 So sánh kết quả phân loại văn bản với 4 mô hình khác nhau: SVM- Multi, SVM-Binary, kNN, N-gram 119 vi 5.2.3.4 So sánh kết quả phân loại văn bản khác nhau theo số lượng đặc trưng chọn lựa với mô hình SVM-Multi 120 5.2.3.5 Mô hình N-gram với phương pháp “làm trơn” (discounting smoothing method) Good Turing 121 5.2.3.6 So sánh kết quả kiểm nghiệm giữa hướng tiếp cận của chúng tôi và hướng tiếp cận Naïve Bayes 121 5.2.3.7 Nhận xét 122 Chương 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 125 6.1 Kết luận 125 6.2 Hướng phát triển 126 TÀI LIỆU THAM KHẢO 127 Phụ lục 1.Bảng kết quả thử nghiệm trên dữ liệu thô 10 chủ đề 135 Phụ lục 2. Bảng kết quả thử nghiệm trên dữ liệu mịn 27 chủ đề 140 [...]... ngữ đều có các phần chính sau: • Thu thập văn bản • Tìm kiếm các văn bản theo chủ đề • Khai thác thơng tin từ văn bản thu thập Hình 3: Mơ hình chi tiết các module Luận văn tốt nghiệp: Tìm kiếm văn bản tiếng Việt theo chủ đề 7 Chương 1: MỞ ĐẦU Trong chương tiếp theo, chúng tơi sẽ đưa ra những thơng tin tổng quan về bài tốn tìm kiếm văn bản theo chủ đề trên hai ngơn ngữ chính: tiếng Anh và tiếng Việt. .. đoạn tìm kiếm văn bản theo chủ đề được mơ tả như một bộ lọc văn bản, có nhiệm vụ tìm kiếm những văn bản theo chủ đề chọn lựa Hiệu quả tìm kiếm của giai đoạn này càng cao sẽ có hai tác dụng chính: • Độ chính xác các văn bản cần khai thác càng cao sẽ giúp nâng cao tính chính xác của thơng tin thu thập Luận văn tốt nghiệp: Tìm kiếm văn bản tiếng Việt theo chủ đề 6 Chương 1: MỞ ĐẦU • Độ chính xác các văn bản. .. minh cho mơ hình phân loại văn bản tiếng Việt tốt nhất sử dụng cho hệ thống tìm kiếm nói trên 1.6.2 Xây dựng ứng dụng tìm kiếm văn bản theo chủ đề Để ứng dụng kết quả đạt được trong bài tốn phân loại văn bản tiếng Việt theo chủ đề, chúng em xây dựng một ứng dụng cụ thể với hai chức năng chính: • Tìm kiếm văn bản offline dựa trên tài ngun đã có sẵn trên máy tính theo những chủ đề cho trước Ngồi ra ứng... tiêu thực hiện của luận văn Bài tốn Tìm kiếm văn bản tiếng Việt theo chủ đề được chúng em chia thành hai giai đoạn xử lý chính: giai đoạn phân loại văn bản và giai đoạn tìm kiếm văn bản theo chủ đề định trước 1.6.1 Tìm hiểu các thuật tốn phân loại văn bản Trong khn khổ luận văn, chúng em sẽ tìm hiểu lý thuyết của các phương pháp học được áp dụng cho bài tốn phân loại văn bản hiện: phương pháp máy... http://www.nii.ac.jp/openhouse/abstract/outline.shtml Luận văn tốt nghiệp: Tìm kiếm văn bản tiếng Việt theo chủ đề 1 Chương 1: MỞ ĐẦU Chúng em quyết định chọn đề tài Tìm kiếm văn bản tiếng Việt theo chủ đề , với mục tiêu xây dựng một ứng dụng nhằm giải quyết bài tốn tìm kiếm nói trên Ứng dụng này sẽ giúp giảm thời gian và cơng sức của con người hơn là tìm kiếm thủ cơng Đây cũng là vấn đề đầu tiên mà dự án BioCaster nói trên... cần phải thực hiện 1.2 Giới thiệu đề tài Đề tài Tìm kiếm văn bản tiếng Việt theo chủ đề được chúng em xây dựng dựa trên nền tảng tốc độ xử lý ưu việt của máy tính so với tốc độ tìm kiếm thủ cơng của con người Bằng cách cho máy tính học một số tri thức về ngơn ngữ của con người, máy tính sẽ trở thành cơng cụ hữu hiệu trong việc tìm kiếm các văn bản theo những chủ đề đã được lựa chọn Tuy nhiên để máy... đơn giản Để tìm kiếm được văn bản theo chủ đề, máy tính cần phải có những tri thức có đề cập đến những thơng tin của chủ đề mong muốn hay khơng Các tri thức này được rút trích từ các văn bản biết trước của các chủ đề muốn tìm kiếm Nhưng với số lượng văn bản lớn, làm thế nào để rút trích được những tri thức cần thiết, và với các tri thức đó làm thế nào để chúng ta phân loại thơng tin theo chủ đề, đó cũng... bình 27 chủ đề với N khác nhau .121 Bảng 36: Kết quả chi tiết 4 chủ đề giữa Bayes và SVM 122 Bảng 37: Kết quả trung bình 4 chủ đề giữa Bayes và SVM 122 Bảng 38: Kết quả chi tiết 10 chủ đề với 2500 terms .135 Bảng 39: Kết quả chi tiết 10 chủ đề với 5000 terms .135 Bảng 40: Kết quả chi tiết 10 chủ đề với N = 2 .136 Bảng 41: Kết quả chi tiết 10 chủ đề với N = 3 .136 Bảng... trung bình 10 chủ đề với 2500 terms 110 Bảng 17: Kết quả trung bình 10 chủ đề với 5000 terms 111 Bảng 18: Kết quả trung bình 10 chủ đề với N = 2 111 Bảng 19: Kết quả trung bình 10 chủ đề với N = 3 112 Bảng 20: Kết quả trung bình 10 chủ đề với N = 4 112 Bảng 21: Kết quả trung bình 10 chủ đề với 4 mơ hình (2500 terms, N = 2) 113 Bảng 22: Kết quả trung bình 10 chủ đề với 4 mơ... hệ thống là xử lý theo thời gian thực, do vậy tốc độ ln xử lý ln được quan tâm hàng đầu Module khai thác thơng tin văn bản sẽ thực hiện các cơng việc chính như sau: • Tìm kiếm các tin tức lấy được từ RSS và nhiều nguồn khác nhau theo những chủ đề đang quan tâm để giảm thiểu thời gian xử lý Luận văn tốt nghiệp: Tìm kiếm văn bản tiếng Việt theo chủ đề 5 Chương 1: MỞ ĐẦU • Phân tích văn bản có được từ đầu . http://www.nii.ac.jp/openhouse/abstract/outline.shtml Chương 1: MỞ ĐẦU Luận văn tốt nghiệp: Tìm kiếm văn bản tiếng Việt theo chủ đề 2 Chúng em quyết định chọn đề tài Tìm kiếm văn bản tiếng Việt theo chủ đề , với mục tiêu xây dựng một. Luận văn tốt nghiệp: Tìm kiếm văn bản tiếng Việt theo chủ đề 1 Chương 1: MỞ ĐẦU Nội dung Chương này sẽ giới thiệu khái quát về dự án BioCaster 2 và vai trò của bài toán tìm kiếm văn bản tiếng. hiện. 1.2 Giới thiệu đề tài Đề tài Tìm kiếm văn bản tiếng Việt theo chủ đề được chúng em xây dựng dựa trên nền tảng tốc độ xử lý ưu việt của máy tính so với tốc độ tìm kiếm thủ công của con

Định dạng
Số trang	165
Dung lượng	2,58 MB

TOÀN văn tìm KIẾM văn bản TIẾNG VIỆT THEO CHỦ đề

Tách từ tiếng Việt dùng mơ hình WFST

Các luật khử nhập nhằng (Ambiguity Resolution Rules)