Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
347,78 KB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG LA ĐỨC DŨNG KHAI PHÁ DỮ LIỆU VĂN BẢN BẰNG LÝ THUYẾT TẬP THÔ LUẬN VĂN THẠC SỸ 0KHOA HỌC MÁY TÍNH Thái Nguyên – 2011 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG LA ĐỨC DŨNG KHAI PHÁ DỮ LIỆU VĂN BẢN BẰNG LÝ THUYẾT TẬP THÔ LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 NGƯỜI HƯỚNG DẪN KHOA HỌC: GS.TS Vũ Đức Thi Thái Nguyên – 2011 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn a MỤC LỤC LỜI CẢM ƠN I LỜI CAM ĐOAN II DANH MỤC CÁC HÌNH VẼ III DANH MỤC CÁC BẢNG BIỂU IV DANH MỤC CHỮ VIẾT TẮT .V LỜI MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VĂN BẢN VÀ LÝ THUYẾT TẬP THÔ 1.1 Khai phá liệu văn 1.1.1 Khai phá liệu 1.1.1.1 Khái niệm 1.1.1.2 Lịch sử nghiên cứu 1.1.1.3 Các khía cạnh khai phá chủ yếu 1.1.1.4 Quy trình DM 1.1.1.5 Các phương pháp DM 1.1.2 Khai phá liệu văn 11 1.1.2.1 Khái niệm 11 1.1.2.2 Các kỹ thuật khai phá văn 13 1.2 Khai phá tri thức ứng dụng lý thuyết tập thô .17 1.2.1 Khai phá tri thức theo cách tiếp cận tập thô 17 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn b 1.2.1.1 Một số khái niệm 17 1.2.1.1.1 Hệ thống thông tin 17 1.2.1.1.2 Khái niêm bảng định………………………….19 1.2.1.1.3 Khái niệm quan hệ không phân biệt hệ thông tin.20 1.2.1.1.4 Khái niệm tập nhát cắt, nhát cắt bảng định 22 1.2.1.2 Tập thô không gian xấp xỉ 22 1.2.1.3 Khai phá tri thức theo cách tiếp cận tập thô 25 1.2.2 Sự rời rạc hoá liệu theo cách tiếp cận tập thô 27 1.2.3 Lựa chọn thuộc tính dựa tập thô 27 1.2.4 Khám phá luật bới bảng phân bố tổng quát dựa tập thô .28 1.3 Kết luận chƣơng 29 CHƢƠNG MỘT SỐ PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU TRONG XỬ LÝ VĂN BẢN 30 2.1 Biểu diễn văn 30 2.1.1 Biểu diễn văn 30 2.1.2 Các phương pháp biểu diễn văn 30 2.1.2.1 Tiền xử lý văn 30 2.1.2.2 Mô hình Logic 32 2.1.2.3 Mô hình phân tích cú pháp 34 2.1.2.4 Mô hình không gian vector 35 2.1.2.5 Mô hình Boolean 36 2.1.2.6 Mô hình tần suất 37 2.1.2.7 Mô hình dựa tập mờ (Fuzzy Set) 39 2.1.2.8 Mô hình tập thô dung sai (Tolerance Rough Set Model-TRSM) 41 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn c 2.2 Các thuật toán lập nhóm văn 43 2.2.1 Thuật toán K – Means 43 2.2.2 Thuật toán lập nhóm theo phân cấp .44 2.2.2.1 Thuật toán theo phân cấp từ xuống ( Top Down Hierachical Clustering) 44 2.2.2.2 Thuật toán theo phân cấp từ lên ( Bottom Up Hierachical Clustering) 45 2.2.2.3 Giải thuật lập nhóm Non Hierachical Clustering Overlap 45 2.2.2.4 Giải thuật lập nhóm Non Hierachical Clustering Non Overlap46 2.2.3 Xác định thuật đại diện cho nhóm .46 2.2.4 Độ tương tự văn nhóm văn 47 2.3 Bài toán phân lớp văn .47 2.3.1 Bài toán 47 2.3.2 Các nghiên cứu liên quan 48 2.4 Các phƣơng pháp phân lớp 49 2.4.1 Phân lớp dựa thuật toán Naive Bayes 49 2.4.2 Phương pháp K – Nearest Neighbor ( K-NN) .51 2.4.3 Phân lớp sử dụng Support Vector Machines (SVM) 52 2.5 Kết luận chƣơng 54 CHƢƠNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ ÁP DỤNG LÝ THUYẾT TẬP THÔ 55 3.1 Kiến trúc hệ thống phân loại văn tiếng Việt tự động 55 3.2 Các chức hệ thống 56 3.2.1 Xây dựng tập văn dùng cho huấn luyện .56 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn d 3.2.2 Xây dựng tập từ dừng, từ tầm thường 56 3.2.3 Xây dựng tập thuật ngữ 56 3.2.4 Tiền xử lý văn đầu vào 56 3.2.5 Huấn luyện 57 3.2.6 Phân lớp văn 61 3.3 Kết luận chƣơng 62 CHƢƠNG XÂY DỰNG HỆ THỐNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ 63 4.1 Môi trường tảng ứng dụng 63 4.2 Giao diện hệ thống 65 4.3 Kết luận chương 67 PHỤ LỤC DANH SÁCH CÁC TỪ DỪNG, TỪ TẦM THƢỜNG 73 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn I LỜI CẢM ƠN Tôi xin bày tỏ lòng biết ơn đến trường Đại học Công nghệ, Đại học Thái Nguyên, Viện Công nghệ thông tin thầy cô giáo trực tiếp giảng dạy, hướng dẫn trình học tập định hướng quan trọng việc hình thành ý tưởng nghiên cứu Tôi xin chân thành cảm ơn Chi bộ, BGĐ, BCH Công đoàn, Tổ Tự nhiên cán giáo viên, công nhân viên Trung tâm GDTX Thiệu Hóa động viên, giúp đỡ tạo điều kiện thuận lợi cho trình học tập nghiên cứu Đặc biệt, xin bày tỏ lòng biết ơn sâu sắc GS.TS Vũ Đức Thi, người thầy trực tiếp hướng dẫn giúp đỡ hoàn thành luận văn tốt nghiệp Xin cảm ơn bố mẹ, anh chị em gia đình nội ngoại tạo điều kiện mặt để thân hoàn thành tốt chương trình khóa học bảo vệ luận văn hôm Mặc dù có nhiều cố gắng, thời gian có hạn thân hạn chế định nên luận văn không tránh khỏi thiếu sót Mong nhận ý kiến phê bình, góp ý Hội đồng chấm luận văn, thầy cô giáo đồng nghiệp để công trình nghiên cứu hoàn chỉnh Thái Nguyên, tháng năm 2011 Tác giả La Đức Dũng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn II LỜI CAM ĐOAN Tôi xin cam đoan luận văn công trình tổng hợp nghiên cứu Trong luận văn có sử dụng số tài liệu tham khảo nêu phần tài liệu tham khảo Tác giả Luận văn La Đức Dũng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn III DANH MỤC CÁC HÌNH VẼ Hình 1.1 Quy trình DM Hình 1.2 Các chức khai phá liệu 12 Hình 2.1 Mô tả tần suất từ 32 Hình 2.2 Biểu diễn vector văn không gian chiều…… 35 Hình 2.4 : Mô hình SVM 53 Hình 3.1 Kiến trúc hệ thống phân loại văn áp dụng lý thuyết tập thô.55 Hình 3.2 Quy trình tiền xử lý văn 57 Hình 3.3 Thuật toán tiền xử lý văn .57 Hình 3.4 Cập nhật giá trị tần suất thuật ngữ 58 Hình 3.5 Thuật toán cập nhật trọng số cho thuật ngữ 58 Hình 3.6 Tạo lớp dung sai xấp xỉ cho thuật ngữ 59 Hình 3.7 Thuật toán tạo lớp dung sai cho thuật ngữ 59 Hình 3.8 Sơ đồ tạo tập xấp xỉ 60 Hình 3.9 Thuật toán tạo xấp xỉ xấp xỉ 60 Hình 3.10 Phân lớp văn .61 Hình 3.11 Thuật toán phân lớp văn 62 Hình 4.1 Hệ thống phân loại văn tiếng Việt tự động 653 Hình 4.2 Kho lưu trữ văn dành cho huấn luyện .654 Hình 4.3 Mô tả file huấn luyện hệ thống 664 Hình 4.4 Hệ thống VLSP 665 Hình 4.5 Bảng sở liệu 675 Hình 4.6 Giao diện 66 Hình 4.7 Giao diện huấn luyện 66 Hình 4.8 Giao diện quy trình phân lớp………………………………….67 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn IV DANH MỤC CÁC BẢNG BIỂU Bảng 1.1 Ví dụ hệ thống thông tin………………………………………….18 Bảng 1.2 Ví dụ bảng định……………………………………… ….19 Bảng 2.1 Ví dụ mô hình logic………………………… ………………….33 Bảng 2 Ví dụ mô hình không gian vector .36 Bảng 2.3 Mô tả giá trị mô hình Boolean 37 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read ... .V LỜI MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VĂN BẢN VÀ LÝ THUYẾT TẬP THÔ 1.1 Khai phá liệu văn 1.1.1 Khai phá liệu 1.1.1.1 Khái niệm 1.1.1.2...ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG LA ĐỨC DŨNG KHAI PHÁ DỮ LIỆU VĂN BẢN BẰNG LÝ THUYẾT TẬP THÔ LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH Chuyên ngành: Khoa học máy tính... 1.2.4 Khám phá luật bới bảng phân bố tổng quát dựa tập thô .28 1.3 Kết luận chƣơng 29 CHƢƠNG MỘT SỐ PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU TRONG XỬ LÝ VĂN BẢN 30 2.1 Biểu diễn văn