1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai phá dữ liệu văn bản bằng lý thuyết tập thô

86 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 86
Dung lượng 1,41 MB

Nội dung

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG LA ĐỨC DŨNG KHAI PHÁ DỮ LIỆU VĂN BẢN BẰNG LÝ THUYẾT TẬP THÔ LUẬN VĂN THẠC SỸ 0KHOA HỌC MÁY TÍNH Thái Ngun – 2011 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG LA ĐỨC DŨNG KHAI PHÁ DỮ LIỆU VĂN BẢN BẰNG LÝ THUYẾT TẬP THÔ LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH Chun ngành: Khoa học máy tính Mã số: 60.48.01 NGƯỜI HƯỚNG DẪN KHOA HỌC: GS.TS Vũ Đức Thi Thái Nguyên – 2011 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn a MỤC LỤC LỜI CẢM ƠN I LỜI CAM ĐOAN II DANH MỤC CÁC HÌNH VẼ III DANH MỤC CÁC BẢNG BIỂU IV DANH MỤC CHỮ VIẾT TẮT .V LỜI MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VĂN BẢN VÀ LÝ THUYẾT TẬP THÔ 1.1 Khai phá liệu văn 1.1.1 Khai phá liệu 1.1.1.1 Khái niệm 1.1.1.2 Lịch sử nghiên cứu 1.1.1.3 Các khía cạnh khai phá chủ yếu 1.1.1.4 Quy trình DM 1.1.1.5 Các phương pháp DM 1.1.2 Khai phá liệu văn 11 1.1.2.1 Khái niệm 11 1.1.2.2 Các kỹ thuật khai phá văn 13 1.2 Khai phá tri thức ứng dụng lý thuyết tập thô .17 1.2.1 Khai phá tri thức theo cách tiếp cận tập thô 17 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn b 1.2.1.1 Một số khái niệm 17 1.2.1.1.1 Hệ thống thông tin 17 1.2.1.1.2 Khái niêm bảng định………………………….19 1.2.1.1.3 Khái niệm quan hệ không phân biệt hệ thông tin.20 1.2.1.1.4 Khái niệm tập nhát cắt, nhát cắt bảng định 22 1.2.1.2 Tập thô không gian xấp xỉ 22 1.2.1.3 Khai phá tri thức theo cách tiếp cận tập thô 25 1.2.2 Sự rời rạc hoá liệu theo cách tiếp cận tập thơ 27 1.2.3 Lựa chọn thuộc tính dựa tập thô 27 1.2.4 Khám phá luật bới bảng phân bố tổng quát dựa tập thô .28 1.3 Kết luận chƣơng 29 CHƢƠNG MỘT SỐ PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU TRONG XỬ LÝ VĂN BẢN 30 2.1 Biểu diễn văn 30 2.1.1 Biểu diễn văn 30 2.1.2 Các phương pháp biểu diễn văn 30 2.1.2.1 Tiền xử lý văn 30 2.1.2.2 Mơ hình Logic 32 2.1.2.3 Mơ hình phân tích cú pháp 34 2.1.2.4 Mơ hình khơng gian vector 35 2.1.2.5 Mơ hình Boolean 36 2.1.2.6 Mơ hình tần suất 37 2.1.2.7 Mơ hình dựa tập mờ (Fuzzy Set) 39 2.1.2.8 Mơ hình tập thơ dung sai (Tolerance Rough Set Model-TRSM) 41 Số hóa Trung tâm Học liệu – Đại học Thái Ngun http://www.lrc-tnu.edu.vn c 2.2 Các thuật tốn lập nhóm văn 43 2.2.1 Thuật toán K – Means 43 2.2.2 Thuật tốn lập nhóm theo phân cấp .44 2.2.2.1 Thuật toán theo phân cấp từ xuống ( Top Down Hierachical Clustering) 44 2.2.2.2 Thuật toán theo phân cấp từ lên ( Bottom Up Hierachical Clustering) 45 2.2.2.3 Giải thuật lập nhóm Non Hierachical Clustering Overlap 45 2.2.2.4 Giải thuật lập nhóm Non Hierachical Clustering Non Overlap46 2.2.3 Xác định thuật đại diện cho nhóm .46 2.2.4 Độ tương tự văn nhóm văn 47 2.3 Bài toán phân lớp văn .47 2.3.1 Bài toán 47 2.3.2 Các nghiên cứu liên quan 48 2.4 Các phƣơng pháp phân lớp 49 2.4.1 Phân lớp dựa thuật toán Naive Bayes 49 2.4.2 Phương pháp K – Nearest Neighbor ( K-NN) .51 2.4.3 Phân lớp sử dụng Support Vector Machines (SVM) 52 2.5 Kết luận chƣơng 54 CHƢƠNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ ÁP DỤNG LÝ THUYẾT TẬP THÔ 55 3.1 Kiến trúc hệ thống phân loại văn tiếng Việt tự động 55 3.2 Các chức hệ thống 56 3.2.1 Xây dựng tập văn dùng cho huấn luyện .56 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn d 3.2.2 Xây dựng tập từ dừng, từ tầm thường 56 3.2.3 Xây dựng tập thuật ngữ 56 3.2.4 Tiền xử lý văn đầu vào 56 3.2.5 Huấn luyện 57 3.2.6 Phân lớp văn 61 3.3 Kết luận chƣơng 62 CHƢƠNG XÂY DỰNG HỆ THỐNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ 63 4.1 Môi trường tảng ứng dụng 63 4.2 Giao diện hệ thống 65 4.3 Kết luận chương 67 PHỤ LỤC DANH SÁCH CÁC TỪ DỪNG, TỪ TẦM THƢỜNG 73 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn I LỜI CẢM ƠN Tơi xin bày tỏ lịng biết ơn đến trường Đại học Công nghệ, Đại học Thái Nguyên, Viện Công nghệ thông tin thầy cô giáo trực tiếp giảng dạy, hướng dẫn trình học tập định hướng quan trọng việc hình thành ý tưởng nghiên cứu Tơi xin chân thành cảm ơn Chi bộ, BGĐ, BCH Cơng đồn, Tổ Tự nhiên cán giáo viên, công nhân viên Trung tâm GDTX Thiệu Hóa động viên, giúp đỡ tạo điều kiện thuận lợi cho q trình học tập nghiên cứu Đặc biệt, tơi xin bày tỏ lòng biết ơn sâu sắc GS.TS Vũ Đức Thi, người thầy trực tiếp hướng dẫn giúp đỡ tơi hồn thành luận văn tốt nghiệp Xin cảm ơn bố mẹ, anh chị em gia đình nội ngoại tạo điều kiện mặt để thân hồn thành tốt chương trình khóa học bảo vệ luận văn hơm Mặc dù có nhiều cố gắng, thời gian có hạn thân hạn chế định nên luận văn khơng tránh khỏi thiếu sót Mong nhận ý kiến phê bình, góp ý Hội đồng chấm luận văn, thầy cô giáo đồng nghiệp để công trình nghiên cứu hồn chỉnh Thái Ngun, tháng năm 2011 Tác giả La Đức Dũng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn II LỜI CAM ĐOAN Tôi xin cam đoan luận văn cơng trình tơi tổng hợp nghiên cứu Trong luận văn có sử dụng số tài liệu tham khảo nêu phần tài liệu tham khảo Tác giả Luận văn La Đức Dũng Số hóa Trung tâm Học liệu – Đại học Thái Ngun http://www.lrc-tnu.edu.vn III DANH MỤC CÁC HÌNH VẼ Hình 1.1 Quy trình DM Hình 1.2 Các chức khai phá liệu 12 Hình 2.1 Mơ tả tần suất từ 32 Hình 2.2 Biểu diễn vector văn không gian chiều…… 35 Hình 2.4 : Mơ hình SVM 53 Hình 3.1 Kiến trúc hệ thống phân loại văn áp dụng lý thuyết tập thơ.55 Hình 3.2 Quy trình tiền xử lý văn 57 Hình 3.3 Thuật tốn tiền xử lý văn .57 Hình 3.4 Cập nhật giá trị tần suất thuật ngữ 58 Hình 3.5 Thuật tốn cập nhật trọng số cho thuật ngữ 58 Hình 3.6 Tạo lớp dung sai xấp xỉ cho thuật ngữ 59 Hình 3.7 Thuật tốn tạo lớp dung sai cho thuật ngữ 59 Hình 3.8 Sơ đồ tạo tập xấp xỉ 60 Hình 3.9 Thuật toán tạo xấp xỉ xấp xỉ 60 Hình 3.10 Phân lớp văn .61 Hình 3.11 Thuật tốn phân lớp văn 62 Hình 4.1 Hệ thống phân loại văn tiếng Việt tự động 653 Hình 4.2 Kho lưu trữ văn dành cho huấn luyện .654 Hình 4.3 Mơ tả file huấn luyện hệ thống 664 Hình 4.4 Hệ thống VLSP 665 Hình 4.5 Bảng sở liệu 675 Hình 4.6 Giao diện 66 Hình 4.7 Giao diện huấn luyện 66 Hình 4.8 Giao diện quy trình phân lớp………………………………….67 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn IV DANH MỤC CÁC BẢNG BIỂU Bảng 1.1 Ví dụ hệ thống thơng tin………………………………………….18 Bảng 1.2 Ví dụ bảng định……………………………………… ….19 Bảng 2.1 Ví dụ mơ hình logic………………………… ………………….33 Bảng 2 Ví dụ mơ hình khơng gian vector .36 Bảng 2.3 Mô tả giá trị mô hình Boolean 37 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 61 3.2.6 Phân lớp văn Sau tính cận xấp xỉ Quy trình phân lớp mơ tả Hình 3.11 Phân tách thuật ngữ văn Tiền d xử lý Gán d vào Ck văn Đầu vào Đầu Tạo xấp xỉ theo d Tìm Ck gần Hình 3.10 Phân lớp văn Đầu vào: Văn d Đầu ra: Kết phân lớp vào lớp thứ k có sẵn Chức gồm bước sau: Bước 1: Phân tách thuật ngữ văn d Bước 2: Tạo xấp xỉ cho văn d Bước 3: Tìm nhóm Ck có độ tương tự lớn so với d Bước 4: Gán d vào nhóm Ck Các bước mơ tả thuật tốn phân lớp Hình 3.11 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 62 THUẬT TOÁN PHÂN LỚP VĂN BẢN Đầu vào: d: Văn xác định phân lớp; Đầu ra: d: Văn phân vào lớp cụ thể Gọi PRE-TEXT(d); For i=1 to count(d) If t(i)  T then Gọi UP-TERM(t(i)) Gọi CRE-CLUS((t(i),t(j)) Gọi APRO-SET(d) Sim (d, Ck) Hình 3.11 Thuật toán phân lớp văn Trong thuật toán trên, có hàm PRE-TEXT() hàm tiền xử lý văn d Hàm UP-TERM() hàm cập nhật giá trị thuật ngữ Hàm CRE-CLUS() hàm tạo lớp dung sai, APRO-SET () hàm tạo cận xấp xỉ Sim(d,Ck) độ tương tự văn d lớp Ck Độ tương tự tính tốn dựa công thức phân loại Bayes, dựa tập liệu huấn luyện để tính tốn độ tương tự văn d với lớp C k Dựa vào độ tương tự này, ta tính tốn để đưa văn d lớp chủ đề 3.3 Kết luận chƣơng Phân lớp văn đưa văn nhóm tổ chức sẵn Sử dụng phương pháp xấp xỉ tập thô phân lớp văn tiếng Việt tự động cách tương đối xác Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 63 CHƢƠNG XÂY DỰNG HỆ THỐNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ Trong chương trình bày tổng quan giao diện hệ thống phân loại văn tiếng Việt theo chủ đề, tảng xây dựng phần mềm sở liệu hệ thống Sau liệu thu thập, tiến hành thủ công để tạo tập thuật ngữ tương ứng với chủ đề khác nhau: văn hóa, kinh tế, thể thao, công nghệ 4.1 Môi trƣờng tảng ứng dụng Hệ thống phân loại văn tiếng Việt theo chủ đề xây dựng tảng Visual Studio 2010 Hình 4.1 Hệ thống phân loại văn tiếng Việt tự động Tập văn huấn luyện thu thập từ trang tin Internet http://vnexpress.net, http://vietnamnet.vn, http://pcworld.vn, Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 64 Hình 4.2 Kho lưu trữ văn dành cho huấn luyện Mỗi văn lưu dạng file.txt sau Hình 4.3 Mơ tả file huấn luyện hệ thống Các thuật ngữ tạo thủ công cách dựa công cụ VLSP để tách từ Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 65 Hình 4.4 Hệ thống VLSP Cơ sở liệu chứa thuật ngữ văn huấn luyện thiết kế Hình 4.2 sau Hình 4.5 Bảng sở liệu 4.2 Giao diện hệ thống Dưới hình ảnh giao diện chính, chức bao gồm: huấn luyện, phân loại, quản lý kết Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 66 Hình 4.6 Giao diện Hình 4.6 giao diện chức huấn luyện hệ thống Trong chức này, trọng số thuật ngữ cập nhật thông qua văn kho liệu huấn luyện Có bốn chủ đề bao gồm: giáo dục, kinh tế, thể thao, tin học Hình 4.7 Giao diện huấn luyện Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 67 Giao diện phân loại trình bày hình 4.8 Chức phân loại cho phép di chuyển văn vị trí đĩa tới nhóm Hình 4.8 Giao diện quy trình phân lớp 4.3 Kết luận chƣơng Các giao diện trình bày chương mơ hình xây dựng dựa lý thuyết thuật tốn trình bày chương Với hệ thống này, thực thử nghiệm với bốn chủ đề khác nhau: giáo dục, kinh tế, thể thao, tin học download từ website http://vnexpress.net, http://vietnamnet.vn cho kết phân lớp tương đối xác với kết phân lớp người dùng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 68 Kết luận Các phương pháp khai phá liệu ngày gần với yêu cầu người dùng mong muốn cho thơng tin hữu ích vơ vàn lượng thơng tin Internet Trong đó, liệu dạng văn chiếm tới 80% kho liệu lớn có Để khai phá hiệu thông tin cần tới nhiều cơng cụ khác để khai phá, có lý thuyết tập thơ Trong luận văn trình bày kỹ thuật khai phá liệu văn kỹ thuật phân lớp văn tiếng Việt theo chủ đề áp dụng lý thuyết tập thô tương đối hiệu cho kết tương đối xác với kết phân lớp người Để kết trình bày luận văn ngày gần gũi với người sử dụng hơn, tương lai, luận văn phát triển thành hệ thống phân loại tự động văn tiếng Việt môi trường Internet mở rộng nhiều chủ đề cho phân loại văn Đồng thời, kho liệu bổ sung để đảm bảo tính học cập nhật ngày tốt Dù cố gắng để hoàn thành luận văn xây dựng hệ thống phân lớp văn tiếng Việt tự động, nhiên, thời gian nghiên cứu có hạn nên khơng thể tránh khỏi sai sót Kính mong thầy cơ, đồng nghiệp, bạn bè đóng góp để luận văn hoàn thiện Trân trọng cảm ơn! Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 69 TÀI LIỆU THAM KHẢO TIẾNG VIỆT [1] Louis Rigand, Dunod (1984), Thiết lập hệ thống thông tin quản lý tổ chức, Bản dịch tiếng Việt 1988 [2] Jeffrey D Ullman (1998), Nguyên lý hệ sở liệu sở tri thức, NXB Thống kê [3] Vũ Huy Hiện (2006), Khai phá liệu văn theo cách tiếp cận lý thuyết tập thơ [4] Lê Bích Liên – “Khai phá liệu lý thuyết tập thô” Luận văn Thạc sỹ 2007 [5] Roger S.Pressman (1999), Kỹ nghệ phần mềm, NXB Giáo dục [6] Đoàn Sơn (2002) Phương pháp biểu diễn văn sử dụng tập mờ ứng dụng khai phá liệu văn Luận văn thạc sỹ Khoa Công Nghệ, ĐHQGHN, năm 2002 [7] Vũ Đức Thi (1997), Cơ sở liệu - Kiến thức thực hành, NXB Thống kê [8] Hà Quang Thụy (1996) Một số vấn đề không gian xấp xỉ, tập thô hệ thơng tin Luận án Phó tiến sĩ Khoa học Toán Lý, ĐHKHTN, 1996 [9] Nguyễn Thanh Thuỷ (2001), Khai phá liệu - Kỹ thuật ứng dụng, NXB Khoa học kỹ thuật TIẾNG ANH [10] D Tikk, J D Yang, and S L Bang, Hierarchical text categorization using fuzzy relational thesaurus Kybernetika, 39(5), pp 583–600, 2003 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 70 [11] F.Sebastiani, Machine learning in automated text categorization, Technical Report IEI-B4-31-1999, Consiglio Nazionale delle Ricerche, Pisa, Italy, 1999 [12] Alan Rea (1995), Data Mining – An Introduction, the Parallel Computer Centre, The Queen‟s University Belfast [13] Tu Bao Ho, Saori Kawasaki, Ngoc Binh Nguyen, “Cluster – based Information Retrieval with Tolerance Rough Set Model”, 2nd International Symposium on Advanced Intelligent Systems Conference Proceedings, 2001 [14] Jiawei Han and Micheline Kamber (2001): Data Mining: Concepts and Techniques Academic Press 2001 [15] Hearst, M What Is Text Mining? 2003 [16] Fayyad, Piatetsky-Shapiro, Smyth, “From Data Mining to Knowledge Discovery: An Overiew”, in Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, Advances in Knowl\ledge Discovery and Data Mining, AAAI Press/ The MIT Press, Menlo Park, CA, 1996, pp,1-34 [17] Ricardo Baeza-Yates, Berthier Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999 [18] Wojciech P.Ziarko (Ed.,1994).Rough Sets, Fuzzy Sets and Knowledge Discovery Proceedings of the Inrnational Workshop on Rough Sets and Knowledge Discovery (RSKD‟93), Banff, Alberta, canada, 12-15 October 1993 Springer-Verlag [19] Eui-Hong Han, Text Categorization Using Weight Adjusted kearest Neighbor Classification PhD thesis, University of Minnesota, October 1999 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 71 [20] T Joachims, Text categorization with Support Vector Machines: Learning with many relevant features In Machine Learning: ECML-98, Tenth European Conference on Machine Learning, pp 137-142 [21] Daniel T.Larose, Data Mining Method and Model, Willey Publication [22] Andrzej Skowron, Ning Zong (2000) Rough Sets in KDD Tutorial Notes [23] Sinh Nguyen Hoa, Andrzej Skowron, Piotr Synak (1998) Discovery of Data Patterns with Application to Decomposition and Classification Problems [24] Nguyen Hyperplanes Hung Son, Nguyen Sinh Hoa From Optimal to Optimal Decision Trees: Rough Set and Boolean Reasoning Approaches, Institute of Computer Sciences Warsaw University 02-097, Banacha 2, Warsaw, Poland [25] Discovery Ho Tu and Bao (1996) Introduction to Knowledge Data mining Institute of Information Technology National Center for Natural Science and Technology [26] Ha Nguyen Thi Thu, A Novel Application of Fuzzy Set Theory and Topic Model in Sentence Extraction for Vietnamese Text, International Journal of Computer Science and Network Security, VOL.10 No.8, August 2010 WEBSITE: [27] http://lrc-tnu.edu.vn [28] http://www.ebooks.edu.vn [29] http://www.ioit.ac.vn [30] http://www.whatis.com Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 72 [31] http://www.KhoiNguonIT.Com [32] http://www.kdnuggets.com/meetings/kdd89/ Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 73 PHỤ LỤC DANH SÁCH CÁC TỪ DỪNG, TỪ TẦM THƢỜNG Ai bạn họ mày tơi anh chị anh chị tơi mày bạn bạn chúng chúng tao chúng mày chúng tơi tao mày tớ mi mà bị Trên ngồi sau trước trái phải bên bên trái bên phải vài sau đằng sau đằng trước bên bên nhiều chí lúc lúc lúc vào lúc dù dù dù thuộc khoảng khoảng chừng cỡ chừng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Hay cần vừa gồm bao gồm vì đồng thời cụ thể nên tám chín mặc kệ riêng thật thật theo đủ lúc trước trước lúc trước nhiên http://www.lrc-tnu.edu.vn 74 vì lại phải mà vậy cuối cuối trừ khi để mà vậy thơi thơi vân vân tiếp đến tiếp tục mãi nghĩa thơi vậy mà mà với nhiều nên cho cho cho rằng năm sáu bảy hồi nè tức tức khắc thì chưa qúa hồn tồn ví dụ vân vân cịn làm lên tức Số hóa Trung tâm Học liệu – Đại học Thái Nguyên trời ôi dù bất chấp không hầu hết từ bất liên tiếp hai ba bốn số mặt tự mà có http://www.lrc-tnu.edu.vn 75 mà Cũng lại lẫn phía tức ln ln ln ối trời ối ơ mười Số hóa Trung tâm Học liệu – Đại học Thái Nguyên mặt khác liên tục sẵn sàng Đây http://www.lrc-tnu.edu.vn ... bao gồm khai phá liệu văn bản, khía cạnh khai phá liệu văn bản, chu trình khai phá tổng quan lý thuyết tập thô 1.1 Khai phá liệu văn 1.1.1 Khai phá liệu 1.1.1.1 Khái niệm Trước phát triển không... DỮ LIỆU ĐƢA DỮ LIỆU VÀO KHO KHAI PHÁ DỮ LIỆU TRÌNH DIỄN DỮ LIỆU KHAI PHÁ DỮ LIỆU Hình 1.2 Các chức khai phá liệu + Lựa chọn tài nguyên: Là tiến trình chọn tài nguyên để khai thác + Lựa chọn văn. .. .V LỜI MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VĂN BẢN VÀ LÝ THUYẾT TẬP THÔ 1.1 Khai phá liệu văn 1.1.1 Khai phá liệu 1.1.1.1 Khái niệm 1.1.1.2

Ngày đăng: 23/03/2021, 21:36

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Louis Rigand, Dunod (1984), Thiết lập hệ thống thông tin quản lý của các tổ chức, Bản dịch tiếng Việt 1988 Sách, tạp chí
Tiêu đề: Thiết lập hệ thống thông tin quản lý của các tổ chức
Tác giả: Louis Rigand, Dunod
Năm: 1984
[2]. Jeffrey D. Ullman (1998), Nguyên lý các hệ cơ sở dữ liệu và cơ sở tri thức, NXB Thống kê Sách, tạp chí
Tiêu đề: Nguyên lý các hệ cơ sở dữ liệu và cơ sở tri thức
Tác giả: Jeffrey D. Ullman
Nhà XB: NXB Thống kê
Năm: 1998
[4]. Lê Bích Liên – “Khai phá dữ liệu bằng lý thuyết tập thô” Luận văn Thạc sỹ 2007 Sách, tạp chí
Tiêu đề: Khai phá dữ liệu bằng lý thuyết tập thô
[12]. Alan Rea (1995), Data Mining – An Introduction, the Parallel Computer Centre, The Queen‟s University Belfast Sách, tạp chí
Tiêu đề: Data Mining – An Introduction
Tác giả: Alan Rea
Năm: 1995
[13]. Tu Bao Ho, Saori Kawasaki, Ngoc Binh Nguyen, “Cluster – based Information Retrieval with Tolerance Rough Set Model”, 2nd International Symposium on Advanced Intelligent Systems Conference Proceedings, 2001 Sách, tạp chí
Tiêu đề: Cluster – based Information Retrieval with Tolerance Rough Set Model
[14]. Jiawei Han and Micheline Kamber (2001): Data Mining: Concepts and Techniques. Academic Press 2001 Sách, tạp chí
Tiêu đề: Data Mining: "Concepts and Techniques
Tác giả: Jiawei Han and Micheline Kamber
Năm: 2001
[16]. Fayyad, Piatetsky-Shapiro, Smyth, “From Data Mining to Knowledge Discovery: An Overiew”, in Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, Advances in Knowl\ledge Discovery and Data Mining, AAAI Press/ The MIT Press, Menlo Park, CA, 1996, pp,1-34 Sách, tạp chí
Tiêu đề: From Data Mining to Knowledge Discovery: An Overiew
[3]. Vũ Huy Hiện (2006), Khai phá dữ liệu văn bản theo cách tiếp cận lý thuyết tập thô Khác
[8]. Hà Quang Thụy (1996). Một số vấn đề về không gian xấp xỉ, tập thô đối với hệ thông tin. Luận án Phó tiến sĩ Khoa học Toán Lý, ĐHKHTN, 1996 Khác
[9]. Nguyễn Thanh Thuỷ (2001), Khai phá dữ liệu - Kỹ thuật và ứng dụng, NXB Khoa học kỹ thuật.TIẾNG ANH Khác
[10]. D. Tikk, J. D. Yang, and S. L. Bang, Hierarchical text categorization using fuzzy relational thesaurus . Kybernetika, 39(5), pp.583–600, 2003 Khác
[11]. F.Sebastiani, Machine learning in automated text categorization, Technical Report IEI-B4-31-1999, Consiglio Nazionale delle Ricerche, Pisa, Italy, 1999 Khác
[17]. Ricardo Baeza-Yates, Berthier Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999 Khác
[18]. Wojciech P.Ziarko (Ed.,1994).Rough Sets, Fuzzy Sets and Knowledge Discovery. Proceedings of the Inrnational Workshop on Rough Sets and Knowledge Discovery (RSKD‟93), Banff, Alberta, canada, 12-15 October 1993. Springer-Verlag Khác
[19]. Eui-Hong Han, Text Categorization Using Weight Adjusted k- earest Neighbor Classification. PhD thesis, University of Minnesota, October 1999 Khác
[20]. T. Joachims, Text categorization with Support Vector Machines: Learning with many relevant features. In Machine Learning: ECML-98, Tenth European Conference on Machine Learning, pp. 137-142 Khác
[21]. Daniel T.Larose, Data Mining Method and Model, Willey Publication Khác
[22]. Andrzej Skowron, Ning Zong (2000). Rough Sets in KDD. Tutorial Notes Khác
[23]. Sinh Nguyen Hoa, Andrzej Skowron, Piotr Synak (1998). Discovery of Data Patterns with Application to Decomposition and Classification Problems Khác
[24]. Nguyen Hung Son, Nguyen Sinh Hoa. From Optimal Hyperplanes to Optimal Decision Trees: Rough Set and Boolean Reasoning Approaches, Institute of Computer Sciences Warsaw University 02-097, Banacha 2, Warsaw, Poland Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w