Phương pháp thu thập, đánh giá và phân cụm thông tin tiếng việt trên internet

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đặng Quang Huy PHƯƠNG PHÁP THU THẬP, ĐÁNH GIÁ VÀ PHÂN CỤM THÔNG TIN TIẾNG VIỆT TRÊN INTERNET LUẬN VĂN THẠC SỸ Hà Nội – 2007 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đặng Quang Huy PHƯƠNG PHÁP THU THẬP, ĐÁNH GIÁ VÀ PHÂN CỤM THÔNG TIN TIẾNG VIỆT TRÊN INTERNET Ngành: Công nghệ thông tin Mã số: 1.01.10 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS ĐOÀN SƠN Hà Nội - 2007 Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007 MỤC LỤC LỜI CẢM ƠN DANH MỤC CHỮ VIẾT TẮT .9 DANH MỤC HÌNH VẼ, BẢNG BIỂU .10 MỞ ĐẦU 12 CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN PHÂN CỤM TÀI LIỆU WEB 15 1.1 Khai phá liệu 15 1.1.1 Khai phá liệu gì? 15 1.1.2 Các hướng tiếp cận kỹ thuật khai phá liệu 16 1.1.3 Ứng dụng khai phá liệu 17 1.2 Dữ liệu Fulltext Hypertext 18 1.2.1 Fulltext 18 1.2.2 Hypertext 18 1.3 Khai phá liệu Web 21 1.3.1 Nhu cầu 21 1.3.2 Đặc điểm 22 1.3.3 Các hướng tiếp cận .24 1.4 Bài toán phân cụm tài liệu Web 26 1.4.1 Giới thiệu toán 26 1.4.2 Tại đặt toán phân cụm tài liệu Web 27 -3- Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007 1.4.3 Đặc điểm toán phân cụm tài liệu Web 28 1.4.4 Các yêu cầu đối vơi toán phân cụm tài liệu Web 30 1.4.5 Một số đại lượng đo độ xác cho toán 31 1.5 Những khó khăn Phân cụm tiếng Việt 32 1.5.1 Vấn đề tách từ tiếng Việt 32 1.5.2 Vấn đề bảng mã tiếng Việt 33 1.5.3 Các khó khăn khác .33 1.6 Kết luận chương 33 CHƯƠNG 2: CÁC PHƯƠNG PHÁP BIỂU DIỄN TÀI LIỆU 34 2.1 Mô hình không gian vector .34 2.1.1 Một số khái niệm 34 2.1.1.1 Từ khóa (keywords) 34 2.1.1.2 Từ dừng (stopwords) 35 2.1.1.3 Cắt bỏ từ (word stemming) 36 2.1.2 Mô hình tần số 37 2.1.3 Mô hình Boolean 39 2.1.4 Tính chất vector .40 2.1.4.1 Tích 40 2.1.4.2 Độ lớn vector 41 2.2 Tách từ tiếng Việt 41 -4- Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007 2.2.1 Một số đặc điểm từ tiếng Việt .41 2.2.1.1 Tiếng 41 2.2.1.2 Từ 42 2.2.2 Tách từ tự động tiếng Việt 42 2.2.3 Các phương pháp tách từ tiếng Việt 42 2.2.3.1 fnTBL (Fast Transformation-based learning) 42 2.2.3.2 Longest matching 49 2.2.3.3 Kết hợp fnTBL Longest matching .49 2.3.1 Đo độ tương tự .49 2.3.1.1 Độ tương tự trùng lặp 49 2.3.1.2 Độ tương tự Cosine 50 2.4 Tổng kết chương 53 CHƯƠNG 3: CÁC THUẬT TOÁN PHÂN CỤM TÀI LIỆU 54 3.1 Giới thiệu 54 3.2 Phân hoạch Top-down 55 3.2.1 Thuật toán K-means với gán “cứng” 55 3.2.2 Thuật toán K-means với gán “mềm” 57 3.2.3 Độ phức tạp tính toán 58 3.3 Phân cụm dựa tính tài liệu 58 3.3.1 Mô tả 58 -5- Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007 3.3.2 Độ đo tương tự .59 3.3.3 Thuật toán phân cụm dựa thuật toán K-Means mở rộng 60 3.3 3.1 Chỉ mục phân cụm 60 3.3.3 Giải thuật phân cụm K-Means mở rộng 61 3.3.4 Đánh giá .62 3.4 Phân hoạch Bottom-up .63 3.4.1 Thuật toán phân cụm tích tụ (AHC) 63 3.4.2 Độ phức tạp tính toán 66 3.5 Kết hợp bottom-up top-down 67 3.5.1 Mô tả 67 3.5.2 Thuật toán buckshot .67 3.6 Nhận xét 70 3.7 Tổng kết chương 72 CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM VỚI PHÂN CỤM TIẾNG VIỆT 73 4.1 Môi trường thực nghiệm 73 4.2 Dữ liệu 73 4.3 Kết thực nghiệm 75 4.3.1 So sánh thuật toán phân cụm 76 4.3.2 Phân cụm sử dụng tách từ tiếng Việt 80 4.4 Kết luận chương .82 -6- Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007 CHƯƠNG 5: TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN 84 5.1 Tổng kết 84 5.2 Hướng phát triển .85 TÀI LIỆU THAM KHÁO 86 -7- Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007 MỞ ĐẦU Đặt vấn đề World Wide Web (WWW) kho chứa lớn biết đến rộng rãi siêu văn Các tài liệu siêu văn chứa đựng văn thường nhúng liên kết đến tài liệu khác phân bố Web Ngày nay, Web bao gồm hàng tỷ tài liệu hàng triệu tác giả tạo , phân tán qua hàng triệu máy tính kết nối qua đường dây điện thoại, cáp quang, sóng radio… Web ngày sử dụng phổ biến nhiều lĩnh vực báo chí, phát thanh, truyền hình, hệ thống bưu điện, trường học, tổ chức thương mại, phủ… Chính lĩnh vực Web Mining hay tìm kiếm tự động thông tin phù hợp có giá trị Web chủ đề quan trọng Data Mining Các hệ thống tìm kiếm thông tin hay nói ngắn gọn máy tìm kiếm Web thông thường trả lại danh sách tài liệu phân hạng mà người dùng phải tốn công chọn lọc danh sách dài để có tài liệu phù hợp Ngoài thông tin thường phong phú, đa dạng liên quan đến nhiều đối tượng khác Điều tạo nên nhập nhằng gây khó khăn cho người sử dụng việc lấy thông tin cần thiết Có nhiều hướng tiếp cận khác để giải vấn đề Các hướng thường ý giảm nhập nhằng phương pháp lọc hay thêm tùy chọn để cắt bớt thông tin Trong khuôn khổ luận văn tập trung vào hướng biểu diễn thông tin trả máy tìm kiếm thành cụm người dùng dễ dàng tìm thông tin mà họ cần Đã có nhiều thuật toán phân cụm tài liệu dựa phân cụm ngoại tuyến toàn tập tài liệu Tuy - 12 - Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007 nhiên tập hợp tài liệu máy tìm kiếm lớn thay đổi để phân cụm ngoại tuyến Do việc phân cụm phải ứng dụng tập tài liệu nhỏ trả từ truy vấn Và thay trả danh sách dài thông tin gây nhập nhằng cho người sử dụng cần có phương pháp tổ chức lại kết tìm kiếm cách hợp lý Mục đích nghiên cứu Đưa yêu cầu toán phân cụm tài liệu Web Nhấn mạnh đến kỹ thuật phân cụm K-Means mở rộng, sử dụng tính tài liệu, thuật toán phân cụm tăng, thời gian tuyến tính đáp ứng yêu cầu toán phân cụm tài liệu Web K-Means mở rộng không coi tài liệu tập hợp từ mà xâu sử dụng quan hệ thông tin từ Nội dung thực  Tìm hiểu yêu cầu toán phân cụm tài liệu Web  Trình bày số phương pháp biểu diễn tài liệu  Trình bày số phương pháp phân cụm tài liệu Web  Một số kết thực nghiệm bước đầu  Đề xuất hướng phát triển Giới hạn nghiên cứu Do hạn chế mặt thời gian nên việc nghiên cứu, tìm hiểu thu kiến thức kỹ thuật thử nghiệm bước đầu hứa hẹn phát triển ứng dụng tương lai Luận văn tổ chức thành phần: - 13 - Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007 Chương 1: Trong chương giới thiệu tổng quan khai phá liệu, lĩnh vực khai phá liệu Web, tổng quan toán phân cụm tài liệu nói chung, phân cụm tài liệu Web nói riêng, yêu cầu toán phân cụm tài liệu Web Các đại lượng dùng để đo độ xác cho toán Chương 2: Trình bày phương pháp biểu diễn tài liệu Những khó khăn phân cụm Tiếng Việt phương pháp tách từ tiếng Việt, cách đo độ tương tự tài liệu Chương 3: Trình bày thuật toán dùng để phân cụm tài liệu Web nói chung Trong chương trình bày theo hai hướng tiếp cận Thuật toán AHC (Agglomerative Hierarchical Clustering) tiêu biểu cho hướng phân cụm bottomup Thuật toán K-means tiêu biểu cho hướng phân cụm top-down Và kết hợp hai hướng – Buckshot Trình bày thuật toán K-Means mở rộng cho toán phân cụm tài liệu Web dựa tính tài liệu Chương 4: Kết thực nghiệm Chương 5: Tổng kết hướng phát triển tương lai - 14 - Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007 TÀI LIỆU THAM KHÁO Tiếng Việt [1] Đinh Điền, Xử lý ngôn ngữ tự nhiên, NXB Giáo Dục Tiếng Anh [2] Sophoin, Yoshiharu Ishikawa Hiroyuki Kitagawa (2006), Incremental Clustering Based on Novelty of Online Documents [3] Clement T.Yu Weiyi Meng (1998), Principles of Database Query Processing for Advanced Application, Morgan Kaufmann Publisher, Inc [4] Gerard Salton/Michael J.McGill, Introduction to Modern Information Retrieval [5] Jiawei Han (2000), Data Mining: Concepts and Techiniques [6] M Steinbach, G Karypis, V Kumar (2000), A Comparison of Document Clustering Techniques, TextMining Workshop, KDD [7] O Zamir and O Etzioni (1998), Web Document Clustering: A Feasibility Demonstration, Proc of the 21st ACM SIGIR Conference, 46-54 [8] O Zamir, O Etzioni, O Madani, R M Karp (1997), Fast and Intuitive Clustering of Web Documents, Proc of the 3rd International Conference on Knowledge Discovery and Data Mining [9] K Cios, W Pedrycs, R Swiniarski (1998), Data Mining – Methods for Knowledge Discovery, Kluwer Academic Publishers - 86 - Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007 [10] R Krishnapuram, A Joshi, L Yi (1999), A Fuzzy Relative of the k-Medoids Algorithm with Application to Web Document and Snippet Clustering, Proc IEEE Intl Conf Fuzzy Systems, Korea [11] Z Jiang, A Joshi, R Krishnapuram, L Yi (2000), Retriever: Improving Web Search Engine Results Using Clustering, Technical Report, CSEE Department, UMBC [12] T H Haveliwala, A Gionis, P Indyk (2000), Scalable Techniques for Clustering the Web, Extended Abstract, WebDB’2000, Third International Workshop on the Web and Databases, In conjunction with ACM SIGMOD’2000, Dallas, TX [13] A Bouguettaya (1996), On-Line Clustering, IEEE Trans on Knowledge and Data Engineering [14] A K Jain R C Dubes (1988), Algorithms for Clustering Data, John Wiley & Sons [15] G Karypis, E Han, V Kumar (1999), CHAMELEON: A Hierarchical Clustering Algorithm Using Dynamic Modeling, IEEE Computer 32 [16] O Zamir O Etzioni (1999), Grouper: A Dynamic Clustering Interface to Web Search Results, Proc of the 8th International World Wide Web Conference, Toronto, Canada [17] D R Cutting, D R Karger, J O Pedersen, J.W Tukey (1993), Scatter/Gather: A Clusterbased Approach to Browsing Large Document Collections, In Proceedings of the 16th International ACM SIGIR Conference on Research and Development in Information Retrieval - 87 - Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007 [18] R Michalski, I Bratko, M Kubat (1998), Machine Learning and Data Mining – Methods and Applications, John Wiley & Sons Ltd [19] J Jang, C Sun, E Mizutani (1997), Neuro-Fuzzy and Soft Computing – A Computational Approach to Learning and Machine Intelligence, Prentice Hall [20] G Biswas, J.B Weinberg, D Fisher (1998), ITERATE: A Conceptual Clustering Algorithm for Data Mining, IEEE Transactions on Systems, Man and Cybernetics [21] Z Huang (1997), A Fast Clustering Algorithm to Cluster Very Large Categorical Data Sets in Data Mining, Workshop on Research Issues on Data Mining and Knowledge Discovery [22] Y Yang J Pedersen (1997), A Comparative Study on Feature Selection in Text Categorization, In Proc of the 14th International Conference on Machine Learning [23] A Guttman (1984) R-tree: A dynamic index structure for spatial searching, In Proceedings of ACM SIGMOD [24] Bjornal Larsen Chinatsu Aone (1999) Fast and effective text mining using lineartime document clustering, In Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Diego, CA, USA [25] C.J.van Rijbergen(1979), Information Retrieval, Butterworth & Co (Publishers) LTd - 88 - Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007 [26] Wai-chiu Wong Ada Fu (2000), Incremental Document Clustering for Web Page Classification, IEEE 2000 Int, Conf on Infor, Society in the 21st century: emerging technologies anf new challenges (IS2000), Nhật Bản [27] Pierre Baldi, Paolo Frasconi, Padhraic Smyth (2003) Modeling the Internet and the Web: Probabilistic Methods and Algorithms Wiley, 2003 [28] Sen Slattery (2002) Hypertext Classification PhD Thesis (CMU-CS-02142) School of Computer Science Carnegie Mellon University, 2002 - 89 - [...]...Đặng Quang Huy-Luận văn cao học-Trường Đại học Công nghệ-2007 TÀI LIỆU THAM KHÁO Tiếng Việt [1] Đinh Điền, Xử lý ngôn ngữ tự nhiên, NXB Giáo Dục Tiếng Anh [2] Sophoin, Yoshiharu Ishikawa và Hiroyuki Kitagawa (2006), Incremental Clustering Based on Novelty of Online Documents [3] Clement T.Yu và Weiyi Meng (1998), Principles of Database Query Processing for Advanced Application, Morgan... [14] A K Jain và R C Dubes (1988), Algorithms for Clustering Data, John Wiley & Sons [15] G Karypis, E Han, V Kumar (1999), CHAMELEON: A Hierarchical Clustering Algorithm Using Dynamic Modeling, IEEE Computer 32 [16] O Zamir và O Etzioni (1999), Grouper: A Dynamic Clustering Interface to Web Search Results, Proc of the 8th International World Wide Web Conference, Toronto, Canada [17] D R Cutting, D R Karger,... Research Issues on Data Mining and Knowledge Discovery [22] Y Yang và J Pedersen (1997), A Comparative Study on Feature Selection in Text Categorization, In Proc of the 14th International Conference on Machine Learning [23] A Guttman (1984) R-tree: A dynamic index structure for spatial searching, In Proceedings of ACM SIGMOD [24] Bjornal Larsen và Chinatsu Aone (1999) Fast and effective text mining using... Huy-Luận văn cao học-Trường Đại học Công nghệ-2007 [26] Wai-chiu Wong và Ada Fu (2000), Incremental Document Clustering for Web Page Classification, IEEE 2000 Int, Conf on Infor, Society in the 21st century: emerging technologies anf new challenges (IS2000), Nhật Bản [27] Pierre Baldi, Paolo Frasconi, Padhraic Smyth (2003) Modeling the Internet and the Web: Probabilistic Methods and Algorithms Wiley, 2003... nghệ-2007 [18] R Michalski, I Bratko, M Kubat (1998), Machine Learning and Data Mining – Methods and Applications, John Wiley & Sons Ltd [19] J Jang, C Sun, E Mizutani (1997), Neuro-Fuzzy and Soft Computing – A Computational Approach to Learning and Machine Intelligence, Prentice Hall [20] G Biswas, J.B Weinberg, D Fisher (1998), ITERATE: A Conceptual Clustering Algorithm for Data Mining, IEEE Transactions

Định dạng
Số trang	14
Dung lượng	301,46 KB