Phương pháp phân cụm tài liệu web và áp dụng vào máy tìm kiếm
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thu Hằng PHƯƠNG PHÁP PHÂN CỤM TÀI LIỆU WEB VÀ ÁP DỤNG VÀO MÁY TÌM KIẾM LUẬN VĂN THẠC SỸ Hà Nội – 2007 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thu Hằng PHƯƠNG PHÁP PHÂN CỤM TÀI LIỆU WEB VÀ ÁP DỤNG VÀO MÁY TÌM KIẾM Ngành: Cơng nghệ thơng tin Mã số: 1.01.10 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HÀ QUANG THỤY Hà Nội - 2007 Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Cơng nghệ-2007 Những lời Với dịng chữ này, xin dành để gửi lời cảm ơn chân thành sâu sắc tới thầy giáo, tiến sỹ Hà Quang Thụy - người tận tình hướng dẫn, bảo tạo cho điều kiện tốt từ bắt đầu hồn thành cơng việc Đồng thời xin cảm ơn tất người thân yêu gia đình tơi tồn thể bạn bè, người ln giúp đỡ động viên vấp phải khó khăn, bế tắc Cuối cùng, xin chân thành cảm ơn đồng nghiệp Trung tâm CNTT, NHNo&PTNT VN người đem đến cho lời khun vơ bổ ích để giúp tháo gỡ khó khăn, vướng mắc q trình làm luận văn -1- Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007 LỜI CAM ĐOAN Tôi xin cam đoan kết đạt luận văn sản phẩm riêng cá nhân, không chép lại người khác Trong toàn nội dung luận văn, điều trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 01 tháng 11 năm 2007 Nguyễn Thị Thu Hằng -2- Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007 MỤC LỤC DANH MỤC CHỮ VIẾT TẮT DANH MỤC HÌNH VẼ, BẢNG BIỂU MỞ ĐẦU CHƯƠNG - KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU WEB 1.1 Khai phá liệu Web 1.1.1 Giới thiệu Khai phá liệu 1.1.2 Dữ liệu Web nhu cầu khai thác thông tin 11 1.1.3 Đặc điểm liệu Web 12 1.1.4 Các hướng tiếp cận khai phá liệu Web 13 1.1.5 Nhu cầu Phân cụm tài liệu Web 14 1.2 Mô hình tìm kiếm thơng tin 15 1.2.1 Giới thiệu 15 1.2.2 Quy trình tìm kiếm thơng tin hệ thống 15 1.2.3 Ứng dụng phân cụm vào hệ thống tìm kiếm 18 1.3 Kết luận chương 19 CHƯƠNG - THUẬT TOÁN PHÂN CỤM WEB 20 2.1 Một số nội dung thuật toán phân cụm tài liệu 20 2.2 Tiêu chuẩn đánh giá thuật toán phân cụm 22 2.3 Các đặc tính thuật toán phân cụm web 24 2.3.1 Mơ hình liệu 24 2.3.2 Độ đo tương tự 27 2.3.3 Mơ hình phân cụm 29 2.4 Một số kỹ thuật Phân cụm Web điển hình 30 2.4.1 Phân cụm theo thứ bậc 30 2.4.2 Phân cụm cách phân mảnh 33 2.5 Các yêu cầu thuật toán phân cụm Web 35 2.5.1 Tách thông tin đặc trưng 35 2.5.2 Phân cụm chồng lặp 36 2.5.3 Hiệu suất 36 2.5.4 Khả khử nhiễu 36 2.5.5 Tính tăng 37 2.5.6 Việc biểu diễn kết 37 2.6 Bài toán tách từ tự động tiếng Việt 37 2.6.1 Một số khó khăn phân cụm trang Web tiếng Việt 37 2.6.2 Tiếng Từ tiếng Việt 39 2.6.3 Phương pháp tách từ tự động tiếng Việt fnTBL 39 2.6.4 Phương pháp Longest Matching 43 2.6.5 Kết hợp fnTBL Longest Matching 44 2.7 Kết luận chương 44 CHƯƠNG - THUẬT TOÁN PHÂN CỤM CÂY HẬU TỐ VÀ THUẬT TOÁN CÂY PHÂN CỤM TÀI LIỆU 45 3.1 Giới thiệu thuật tốn phân cụm trang Web có tính tăng 45 3.2 Thuật toán phân cụm hậu tố 46 3.2.1 Mô tả 46 3.2.2 Thuật toán STC 47 -3- Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Cơng nghệ-2007 3.3 Thuật tốn phân cụm sử dụng phân cụm tài liệu 51 3.3.1 Giới thiệu 51 3.3.2 Trích chọn đặc trưng phân cụm tài liệu 51 3.3.3 Cây phân cụm tài liệu –DC Tree 55 3.4 Kết luận chương 60 CHƯƠNG - PHẦN MỀM THỬ NGHIỆM VÀ KẾT QUẢ THỰC NGHIỆM 61 4.1 Giới thiệu 61 4.2 Thiết kế sở liệu 62 4.3 Chương trình thử nghiệm 65 4.4 Kết thực nghiệm 66 4.5 Kết luận chương 69 -4- Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007 DANH MỤC CHỮ VIẾT TẮT AHC: Phân cụm tích tụ theo thứ bậc (Agglomerative Hierarchical Clustering) CSDL: Cơ sở liệu DF: tần suất xuất tài liệu (Document Frequency) DC-tree: Cây phân cụm tài liệu (Document Clustering Tree) fnTBL: Học dựa biến đổi (Fast Transformation-based learning) FCM: Fuzzy C-means FCMdd: Fuzzy C-Medoids IR: Mô hình tìm kiếm thơng tin (Information Retrieval) IDF: tần suất nghịch đảo tài liệu (inverse document frequency) KDD: Khai phá tri thức (Knowledge Discovery in Databases) STC: Phân cụm hậu tố (Suffix tree clustering) TF: tần suất xuất (term frequency) UPGMA: (Unweighter Pair-Group Method using Arithmetic averages) -5- Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007 DANH MỤC HÌNH VẼ, BẢNG BIỂU -6- Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007 MỞ ĐẦU World Wide Web kho thông tin khổng lồ với tiềm coi khơng có giới hạn Khai phá Web vấn đề nghiên cứu thời thời gian gần đây, thu hút nhiều nhóm nhà khoa học giới tiến hành nghiên cứu, đề xuất mơ hình, phương pháp nhằm tạo công cụ hiệu hỗ trợ người dùng việc tổng hợp thơng tin tìm kiếm tri thức từ tập hợp trang Web khổng lồ Internet Phân cụm tài liệu Web tốn điển hình khai phá Web, nhằm phân hoạch tập văn thành tập có tính chất chung, tốn phân cụm trang Web kết trả từ máy tìm kiếm hữu dụng [4-6, 8-15, 18, 19, 22, 24] Như biết, tập hợp trang Web đáp ứng câu hỏi trả từ máy tìm kiếm nói chung lớn, vậy, thuật tốn phân cụm văn cần có tính chất quan trọng tính "tăng" theo nghĩa thuật tốn phân cụm khơng phải thực tồn tập liệu mà thực theo cách từ phận liệu tới toàn liệu [4, 6, 11, 14, 15, 24] Điều cho phép thuật tốn tiến hành giai đoạn máy tìm kiếm đưa trang web kết Luận văn tập trung khảo sát phương pháp phân cụm Web có tính chất tăng thực số thử nghiệm tích hợp kết nghiên cứu nói vào phần mềm tải trang Web theo dạng máy tìm kiếm Đồng thời, luận văn triển khai số bước việc áp dụng phân cụm cho trang Web tiếng Việt Luận văn xây dựng phần mềm thử nghiệm tiến hành thử nghiệm phân cụm Web tiếng Việt Ngoài Phần Mở đầu, Phần Kết luận Phụ lục, nội dung luận văn chia thành chương chính: Chương – Khái quát khai phá liệu Web Chương giới thiệu nội dung nhất, cung cấp nhìn khái quát Khai phá liệu Web Đồng thời, luận văn mô tả sơ hệ thống thơng tin tìm kiếm nhu cầu phân cụm áp dụng cho hệ thống -7- Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007 Chương – Thuật toán phân cụm Web Chương trình bày cách khái qt thuật tốn phân cụm Web, đặc trưng yêu cầu thuật toán phân cụm Web Những yêu cầu độ đo áp dụng cho thuật toán phân cụm Web trình bày chương Một số kiến thức tiếng Việt giới thiệu Chương – Thuật toán phân cụm hậu tố thuật toán phân cụm tài liệu Chương sâu vào phân tích thuật tốn phân cụm Web có tính chất tăng Luận văn tập trung vào hai thuật toán phân cụm Web có tính “tăng” thuật tốn STC thuật tốn phân cụm có sử dụng cấu trúc DC (DC-tree) Chương – Phần mềm thử nghiệm kết thực nghiệm Chương trình bày kết thực nghiệm phân cụm Web theo phần mềm thử nghiệm sở thuật tốn phân cụm DC-tree Chương trình cài đặt thử nghiệm viết ngơn ngữ lập trình C# tảng Net Framework Microsoft sử dụng SQL Server 2000 để lưu trữ sở liệu Phần mềm hoạt động, cho kết phân cụm, nhiên, thời gian hạn chế nên luận văn chưa tiến hành đánh giá kết phân cụm cách thống Phần Kết luận trình bày tổng hợp kết thực luận văn phương hướng nghiên cứu nội dung luận văn Luận văn đạt số kết khả quan bước đầu việc nghiên cứu triển khai thuật tốn phân cụm Web có tính chất tăng, nhiên, luận văn khơng tránh khỏi sai sót Rất mong đóng góp ý kiến, nhận xét để tác giả hồn thiện kết nghiên cứu -8- ... yếu vào nội dung “khai phá phá nội dung trang Web? ?? định hướng vào phân cụm tập trang web kết tìm kiếm máy tìm kiếm 1.1.5 Nhu cầu phân cụm tài liệu Web Một toán quan trọng lĩnh vực khai phá Web. .. thống đưa tài liệu theo tập hợp, cụm, tập hợp chứa tài liệu tương tự Phân cụm Web – hiểu cách đơn giản - phân cụm tập tài liệu lấy từ Web Có hai tình phân cụm tài liệu Tình thứ việc phân cụm tồn... Chương – Thuật toán phân cụm hậu tố thuật toán phân cụm tài liệu Chương sâu vào phân tích thuật tốn phân cụm Web có tính chất tăng Luận văn tập trung vào hai thuật toán phân cụm Web có tính “tăng”