KHAI PHÁ DỮ LIỆU WEB BẰNG KỸ THUẬT PHÂN CỤM

Khai phá liệu Web kỹ thuật phân cụm Khai phá liệu Web kỹ thuật phân cụm MỤC LỤC BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI MỤC LỤC i DANH SÁCH CÁC HÌNH v DANH SÁCH CÁC BẢNG BIỂU vi CÁC CỤM TỪ VIẾT TẮT vii LỜI MỞ ĐẦU Chương TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU Hoàng Văn Dũng 1.1 Khai phá liệu phát tri thức 1.1.1 Khai phá liệu 1.1.2 Quá trình khám phá tri thức 1.1.3 Khai phá liệu lĩnh vực liên quan 1.1.4 Các kỹ thuật áp dụng khai phá liệu 1.1.5 Những chức khai phá liệu 1.1.6 Ứng dụng khai phá liệu 1.2 Kỹ thuật phân cụm khai phá liệu 10 1.2.1 Tổng quan kỹ thuật phân cụm 10 1.2.2 Ứng dụng phân cụm liệu 13 1.2.3 Các yêu cầu kỹ thuật phân cụm liệu 13 1.2.4 Các kiểu liệu độ đo tương tự 15 1.2.4.1 Phân loại kiểu liệu dựa kích thước miền 15 1.2.4.2 Phân loại kiểu liệu dựa hệ đo 15 1.2.4.3 Khái niệm phép đo độ tương tự, phi tương tự 17 1.3 Khai phá Web 20 1.3.1 Lợi ích khai phá Web 20 1.3.2 Khai phá Web 21 1.3.3 Các kiểu liệu Web 22 1.4 Xử lý liệu văn ứng dụng khai phá liệu Web 23 1.4.1 Dữ liệu văn 23 1.4.2 Một số vấn đề xử lý liệu văn 23 1.4.2.1 Loại bỏ từ dừng 24 1.4.2.2 Định luật Zipf 25 1.4.3 Các mô hình biểu diễn liệu văn 26 1.4.3.1 Mô hình Boolean 26 KHAI PHÁ DỮ LIỆU WEB BẰNG KỸ THUẬT PHÂN CỤM Luận văn thạc sỹ khoa học Hà Nội, 2007 Hoàng Văn Dũng i Hoàng Văn Dũng ii Khai phá liệu Web kỹ thuật phân cụm Khai phá liệu Web kỹ thuật phân cụm 1.4.3.2 Mô hình tần số 27 1.5 Tổng kết chương 30 Chương MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU 31 2.1 Phân cụm phân hoạch 31 2.1.1 Thuật toán k-means 32 2.1.2 Thuật toán PAM 34 2.1.3 Thuật toán CLARA 38 2.1.4 Thuật toán CLARANS 39 2.2 Phân cụm phân cấp 41 2.2.1 Thuật toán BIRCH 42 2.2.2 Thuật toán CURE 45 2.3 Phân cụm dựa mật độ 47 2.3.1 Thuật toán DBSCAN 47 2.3.2 Thuật toán OPTICS 51 2.3.3 Thuật toán DENCLUE 52 2.4 Phân cụm dựa lưới 54 2.4.1 Thuật toán STING 55 2.4.2 Thuật toán CLIQUE 56 2.5 Phân cụm liệu dựa mô hình 57 2.5.1 Thuật toán EM 58 2.5.2 Thuật toán COBWEB 59 2.6 Phân cụm liệu mờ 59 2.7 Tổng kết chương 60 Chương KHAI PHÁ DỮ LIỆU WEB 62 3.1 Khai phá nội dung Web 62 3.1.1 Khai phá kết tìm kiếm 63 3.1.2 Khai phá văn Web 63 3.1.2.1 Lựa chọn liệu 64 3.1.2.2 Tiền xử lý liệu 64 3.1.2.3 Biểu điễn văn 65 3.1.2.4 Trích rút từ đặc trưng 65 3.1.2.5 Khai phá văn 66 3.1.3 Đánh giá chất lượng mẫu 68 Hoàng Văn Dũng iii 3.2 Khai phá theo sử dụng Web 69 3.2.1 Ứng dụng khai phá theo sử dụng Web 70 3.2.2 Các kỹ thuật sử dụng khai phá theo sử dụng Web 71 3.2.3 Những vấn đề khai theo sử dụng Web 71 3.2.3.1 Chứng thực phiên người dùng 71 3.2.3.2 Đăng nhập Web xác định phiên chuyển hướng người dùng 72 3.2.3.3 Các vấn đề việc xử lý Web log 72 3.2.3.4 Phương pháp chứng thực phiên làm việc truy cập Web 73 3.2.4 Quá trình khai phá theo sử dụng Web 73 3.2.4.1 Tiền xử lý liệu 73 3.2.4.2 Khai phá liệu 73 3.2.4.3 Phân tích đánh giá 75 3.2.5 Ví dụ khai phá theo sử dụng Web 75 3.3 Khai phá cấu trúc Web 77 3.3.1 Tiêu chuẩn đánh giá độ tương tự 79 3.3.2 Khai phá quản lý cộng đồng Web 80 3.3.2.1 Thuật toán PageRank 81 3.3.2.2 Phương pháp phân cụm nhờ thuật toán HITS 82 3.4 Áp dụng thuật toán phân cụm liệu tìm kiếm PCDL Web 85 3.4.1 Hướng tiếp cận kỹ thuật phân cụm 85 3.4.2 Quá trình tìm kiếm phần cụm tài liệu 87 3.4.2.1 Tìm kiếm liệu Web 87 3.4.2.2 Tiền xử lý liệu 88 3.4.2.3 Xây dựng từ điển 89 3.4.2.4 Tách từ, số hóa văn biểu diễn tài liệu 90 3.4.2.5 Phân cụm tài liệu 90 3.4.6 Kết thực nghiệm 92 3.5 Tổng kết chương 93 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 94 PHỤ LỤC 96 TÀI LIỆU THAM KHẢO 102 Hoàng Văn Dũng iv Khai phá liệu Web kỹ thuật phân cụm Khai phá liệu Web kỹ thuật phân cụm DANH SÁCH CÁC HÌNH Hình 1.1 Quá trình khám phá tri thức Hình 1.2 Các lĩnh vực liên quan đến khám phá tri thức CSDL Hình 1.3 Trực quan hóa kết KPDL Oracle 10 Hình 1.4 Mô PCDL 11 Hình 1.5 Phân loại liệu Web 22 Hình 1.6 Lược đồ thống kê tần số từ theo Định luật Zipf 26 Hình 1.7 Các độ đo tương tự thường dùng 29 Hình 2.1 Thuật toán k-means 32 Hình 2.2 Hình dạng cụm liệu khám phá k-means 33 Hình 2.3 Trường hợp Cjmp=d(Oj,Om,2) – d(Oj, Om) không âm 35 Hình 2.4 Trường hợp Cjmp= (Oj,Op)- d(Oj, Om) âm dương 36 Hình 2.5 Trường hợp Cjmp không 36 Hình 2.6 Trường hợp Cjmp= (Oj,Op)- d(Oj, Om,2) âm 37 Hình 2.7 Thuật toán PAM 37 Hình 2.8 Thuật toán CLARA 38 Hình 2.9 Thuật toán CLARANS 40 Hình 2.10 Các chiến lược phân cụm phân cấp 42 Hình 2.11 Cây CF sử dụng thuật toán BIRCH 43 Hình 2.12 Thuật toán BIRCH 44 Hình 2.13 Ví dụ kết phân cụm thuật toán BIRCH 44 Hình 2.14 Các cụm liệu khám phá CURE 45 Hình 2.15 Thuật toán CURE 46 Hình 2.16 Một số hình dạng khám phá phân cụm dưa mật độ 47 Hình 2.17 Lân cận P với ngưỡng Eps 48 Hình 2.18 Mật độ - đến trực tiếp 49 Hình 2.19 Mật độ đến 49 Hình 2.20 Mật độ liên thông 49 Hình 2.21 Cụm nhiễu 50 Hình 2.22 Thuật toán DBSCAN 51 Hình 2.23 Thứ tự phân cụm đối tượng theo OPTICS 52 Hình 2.24 DENCLUE với hàm phân phối Gaussian 53 Hoàng Văn Dũng v Hình 2.25 Mô hình cấu trúc liệu lưới 55 Hình 2.26 Thuật toán CLIQUE 56 Hình 2.27 Quá trình nhận dạng ô CLIQUE 57 Hình 3.1 Phân loại khai phá Web 62 Hình 3.2 Quá trình khai phá văn Web 64 Hình 3.3 Thuật toán phân lớp K-Nearest Neighbor 67 Hình 3.4 Thuật toán phân cụm phân cấp 67 Hình 3.5 Thuật toán phân cụm phân hoạch 68 Hình 3.6 Kiến trúc tổng quát khai phá theo sử dụng Web 70 Hình 3.7 Minh họa nội dung logs file 72 Hình 3.8 Phân tích người dùng truy cập Web 77 Hình 3.9 Đồ thi liên kết Web 78 Hình 3.10 Quan hệ trực tiếp trang 79 Hình 3.11 Độ tương tự đồng trích dẫn 79 Hình 3.12 Độ tương tự mục 79 Hình 3.13 Cộng đồng Web 80 Hình 3.14 Kết thuật toán PageRank 81 Hình 3.15 Đồ thị phân đôi Hub Authority 82 Hình 3.16 Sự kết hợp Hub Authority 83 Hình 3.17 Đồ thị Hub-Authority 84 Hình 3.18 Giá trị trọng số Hub Authority 84 Hình 3.19 Thuật toán đánh trọng số cụm trang 86 Hình 3.20 Các bước phân cụm kết tìm kiếm Web 87 Hình 3.21 Thuật toán k-means phân cụm nội dung tài liệu Web 91 DANH SÁCH CÁC BẢNG BIỂU Bảng 1.1 Bảng tham số thuộc tính nhị phân 18 Bảng 1.2 Thống kê từ tần số xuất cao 24 Bảng 3.1 Thống kê số người dùng thời gian khác 76 Bảng 3.2 Bảng đo thời gian thực thuật toán phân cụm 92 Hoàng Văn Dũng vi Khai phá liệu Web kỹ thuật phân cụm Khai phá liệu Web kỹ thuật phân cụm CÁC CỤM TỪ VIẾT TẮT STT Viết tắt Cụm từ tiếng Anh LỜI MỞ ĐẦU Trong năm gần với phát triển nhanh chóng khoa học Cụm từ tiếng Việt CNTT Information Technology Công nghệ thông tin CSDL Database Cơ sở liệu KDD Knowledge Discovery in Database Khám phá tri thức sở liệu KPDL Data mining Khai phá liệu KPVB Text Mining Khai phá văn PCDL Data Clustering Phân cụm liệu kỹ thuật bùng nỗ tri thức Kho liệu, nguồn tri thức nhân loại trở nên đồ sộ, vô tận làm cho vấn đề khai thác nguồn tri thức ngày trở nên nóng bỏng đặt thách thức lớn cho công nghệ thông tin giới Cùng với tiến vượt bậc công nghệ thông tin phát triển mạnh mẽ mạng thông tin toàn cầu, nguồn liệu Web trở thành kho liệu khổng lồ Nhu cầu tìm kiếm xử lý thông tin, với yêu cầu khả kịp thời khai thác chúng để mạng lại suất chất lượng cho công tác quản lý, hoạt động kinh doanh,… trở nên cấp thiết xã hội đại Nhưng vấn đề tìm kiếm sử dụng nguồn tri thức để phục vụ cho công việc lại vấn đề khó khăn người sử dụng Để đáp ứng phần yêu cầu này, người ta xây dựng công cụ tìm kiếm xử lý thông tin nhằm giúp cho người dùng tìm kiếm thông tin cần thiết cho mình, với rộng lớn, đồ sộ nguồn liệu Internet làm cho người sử dụng cảm thấy khó khăn trước kết tìm Với phương pháp khai thác sở liệu truyền thống chưa đáp ứng yêu cầu Để giải vấn đề này, hướng nghiên cứu áp dụng kỹ thuật khai phá liệu khám phá tri thức môi trường Web Do đó, việc nghiên cứu mô hình liệu áp dụng phương pháp khai phá liệu khai phá tài nguyên Web xu tất yếu vừa có ý nghĩa khoa học vừa mang ý nghĩa thực tiễn cao Vì vậy, tác giả chọn đề tài “Khai phá liệu Web kỹ thuật phân cụm ” để làm luận văn tốt nghiệp cho Bố cục luận văn gồm chương: Hoàng Văn Dũng vii Hoàng Văn Dũng Khai phá liệu Web kỹ thuật phân cụm Khai phá liệu Web kỹ thuật phân cụm Chương trình bày cách tổng quan kiến thức khai phá liệu khám phá tri thức, khai phá liệu môi trường Web; số vấn đề biểu diễn xử lý liệu văn áp dụng khai phá liệu Web Chương giới thiệu số kỹ thuật phân cụm liệu phổ biến thường sử dụng lĩnh vực khai phá liệu khám phá tri thức Chương trình bày số hướng nghiên cứu khai phá liệu Web khai phá tài liệu Web, khai phá theo sử dụng Web, khai phá cấu trúc Web tiếp cận theo hướng sử dụng kỹ thuật phân cụm liệu để giải toán khai phá liệu Web Trong phần trình bày mô hình áp dụng kỹ thuật phân cụm liệu tìm kiếm phân cụm tài liệu Web Phần kết luận luận văn tổng kết lại vấn đề nghiên cứu, đánh giá kết nghiên cứu, hướng phát triển đề tài Phần phụ lục trình bày số đoạn mã lệnh xử lý chương trình số giao diện chương trình mô Chương TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu phát tri thức 1.1.1 Khai phá liệu Cuối thập kỷ 80 kỷ 20, phát triển rộng khắp CSDL tạo bùng nổ thông tin toàn cầu, vào thời gian người ta bắt đầu đề cập đến khái niệm khủng hoảng việc phân tích liệu tác nghiệp để cung cấp thông tin với yêu cầu chất lượng ngày cao cho người làm định tổ chức phủ, tài chính, thương mại, khoa học,… Đúng John Naisbett cảnh báo “Chúng ta chìm ngập liệu mà đói tri thức” Lượng liệu khổng lồ thực nguồn tài nguyên có nhiều giá trị thông tin yếu tố then chốt phục vụ cho hoạt động quản lý, kinh doanh, phát triển sản xuất dịch vụ, … giúp người điều hành quản lý có hiểu biết môi trường tiến trình hoạt động tổ chức trước định để tác động đến trình hoạt động nhằm đạt mục tiêu cách hiệu bền vững KPDL lĩnh vực nghiên cứu, nhằm tự động khai thác thông tin, tri thức hữu ích, tiềm ẩn từ CSDL lớn cho đơn vị, tổ chức, doanh nghiệp,… từ làm thúc đẩy khả sản xuất, kinh doanh, cạnh tranh cho đơn vị, tổ chức Các kết nghiên cứu khoa học ứng dụng thành công KDD cho thấy KPDL lĩnh vực phát triển bền vững, mang lại nhiều lợi ích có nhiều triển vọng, đồng thời có ưu hẵn so với công cụ tìm kiếm phân tích liệu truyền thống Hiện nay, KPDL ứng dụng ngày rộng rãi lĩnh vực thương mại, tài chính, y học, viễn thông, tin – sinh,… Các kỹ thuật áp dụng lĩnh vực KPDL phần lớn thừa kế từ lĩnh vực CSDL, học máy, trí tuệ nhân tạo, lý thuyết thông tin, xác suất thống kê tính toán hiệu cao, Hoàng Văn Dũng Hoàng Văn Dũng Khai phá liệu Web kỹ thuật phân cụm Khai phá liệu Web kỹ thuật phân cụm Như ta khái quát hóa khái niệm KPDL trình tìm kiếm, phát tri thức mới, hữu ích, tiềm ẩn CSDL lớn Khai phá liệu: Đây bước áp dụng kỹ thuật phân tích (như kỹ thuật học máy) nhằm để khai thác liệu, trích chọn mẫu KDD mục tiêu KPDL, hai khái niệm KPDL KDD nhà khoa học hai lĩnh vực xem tương đương với Thế phân chia cách chi tiết KPDL bước thông tin, mối liên hệ đặc biệt liệu Đây xem bước quan trọng tốn nhiều thời gian toàn trình KDD Đánh giá biểu diễn tri thức: Những mẫu thông tin mối liên hệ trình KDD liệu khám phá bước biến đổi biểu diễn dạng 1.1.2 Quá trình khám phá tri thức gần gũi với người sử dụng đồ thị, cây, bảng biểu, luật, Đồng thời bước đánh giá tri thức khám phá theo tiêu chí định Quá trình phá tri thức chia thành bước sau [10]: 1.1.3 Khai phá liệu lĩnh vực liên quan Đánh giá, biểu diễn Tiền xử lý Trích chọn Dữ liệu thô Dữ liệu lựa chọn Biến đổi Dữ liệu tiền xử lý Khai phá Các mẫu KPDL lĩnh vực liên quan tới thống kê, học máy, CSDL, thuật toán, Tri thức tính toán song song, thu nhận tri thức từ hệ chuyên gia liệu trừu tượng Đặc trưng hệ thống khám phá tri thức nhờ vào phương pháp, thuật Dữ liệu biến đổi toán kỹ thuật từ lĩnh vực khác để KPDL Lĩnh vực học máy nhận dạng mẫu KDD nghiên cứu lý thuyết thuật toán hệ thống để trích mẫu mô hình từ liệu lớn KDD tập trung vào việc mở rộng lý thuyết thuật toán cho vấn đề tìm mẫu đặc biệt (hữu ích rút tri thức quan trọng) CSDL lớn Ngoài ra, KDD có nhiều điểm chung với thống kê, đặc biệt phân tích Hình 1.1 Quá trình khám phá tri thức Quá trình KPDL phân thành giai đoạn sau [10]: liệu thăm dò (Exploratory Data Analysis - EDA) Hệ thống KDD thường gắn Trích chọn liệu: Đây bước trích chọn tập liệu cần khai thủ tục thống kê cho mô hình liệu tiến trình nhiễu khám phá tri thức nói chung phá từ tập liệu lớn ban đầu theo số tiêu chí định Tiền xử lý liệu: Đây bước làm liệu (xử lý liệu Một lĩnh vực liên quan khác phân tích kho liệu Phương pháp phổ không đầy đủ, nhiễu, không quán, ), rút gọn liệu (sử dụng hàm nhóm biến để phân tích kho liệu OLAP (On-Line Analytical Processing) Các tính tổng, phương pháp nén liệu, sử dụng histograms, lấy mẫu, ), rời công cụ OLAP tập trung vào phân tích liệu đa chiều rạc hóa liệu (rời rạc hóa dựa vào histograms, dựa vào entropy, dựa vào phân 1.1.4 Các kỹ thuật áp dụng khai phá liệu khoảng, ) Sau bước này, liệu quán, đầy đủ, rút gọn rời rạc hóa KDD lĩnh vực liên ngành, bao gồm: Tổ chức liệu, học máy, trí tuệ nhân tạo khoa học khác Sự kết hợp diễn tả sau: Biến đổi liệu: Đây bước chuẩn hóa làm mịn liệu để đưa liệu dạng thuận lợi nhằm phục vụ trình khai phá bước sau Hoàng Văn Dũng Hoàng Văn Dũng Khai phá liệu Web kỹ thuật phân cụm Khai phá liệu Web kỹ thuật phân cụm Phân tích chuỗi theo thời gian: Tương tự khai phá luật kết hợp Các lĩnh vực khoa học khác Tổ chức liệu có thêm tính thứ tự tính thời gian Hướng tiếp cận ứng dụng nhiều lĩnh vực tài thị trường chứng khoán có tính dự báo cao Học máy trí tuệ nhân tạo Phân cụm: Xếp đối tượng theo cụm liệu tự nhiên Phân cụm gọi học giám sát Mô tả tóm tắt khái niệm: Thiên mô tả, tổng hợp tóm tắt khái niệm, ví dụ tóm tắt văn Hình 1.2 Các lĩnh vực liên quan đến khám phá tri thức CSDL Do KPDL ứng dụng rộng rãi nên làm việc với nhiều kiểu Đứng quan điểm học máy, kỹ thuật KPDL, bao gồm: liệu khác Sau số dạng liệu điển hình: Dữ liệu quan hệ, Học có giám sát: Là trình gán nhãn lớp cho phần tử CSDL liệu đa chiều, liệu dạng giao dịch, liệu quan hệ - hướng đối tượng, dựa tập ví dụ huấn luyện thông tin nhãn lớp biết liệu không gian thời gian, liệu chuỗi thời gian, liệu đa phương tiện, Học giám sát: Là trình phân chia tập liệu thành lớp hay cụm liệu tương tự mà chưa biết trước thông tin lớp hay tập ví dụ huấn luyện liệu văn Web,… 1.1.5 Những chức khai phá liệu Hai mục tiêu KPDL mô tả dự báo Dự báo dùng số Học nửa giám sát: Là trình phân chia tập liệu thành lớp dựa biến trường CSDL để dự đoán giá trị chưa biết có tập nhỏ ví dụ huấn luyện thông tin số nhãn lớp biến quan trọng khác Việc mô tả tập trung vào tìm kiếm mẫu mà biết trước người hiểu để mô tả liệu Trong lĩnh vực KDD, mô tả quan + Nếu vào lớp toán cần giải quyết, KPDL bao gồm kỹ thuật áp dụng sau [10]: tâm nhiều dự báo, ngược với ứng dụng học máy nhận dạng mẫu mà việc dự báo thường mục tiêu Trên sở mục tiêu Phân lớp dự báo: Xếp đối tượng vào lớp biết KPDL, chức KDD gồm: trước Ví dụ phân lớp liệu bệnh nhân hồ sơ bệnh án Hướng Mô tả lớp khái niệm: Dữ liệu kết hợp lớp khái tiếp cận thường sử dụng số kỹ thuật học máy định, niệm Thí dụ, kho liệu bán hàng thiết bị tin học, lớp mặt hàng bao mạng nơron nhân tạo, Phân lớp dự báo gọi học có giám sát gồm máy tính, máy in,…và khái niệm khách hàng bao gồm khách hàng mua sỉ Luật kết hợp: Là dạng luật biểu diễn tri thức dạng đơn giản Ví dụ: khách mua lẻ Việc mô tả lớp khái niệm hữu ích cho giai đoạn tổng “60 % nữ giới vào siêu thị mua phấn có tới 80% số họ mua thêm hợp, tóm lược xác hoá Mô tả lớp khái niệm bắt nguồn từ đặc son” Luật kết hợp ứng dụng nhiều lĩnh vực kinh doanh, y học, tin- trưng hoá liệu phân biệt liệu Đặc trưng hoá liệu trình tổng sinh, tài thị trường chứng khoán, hợp đặc tính thành phần chung lớp liệu mục tiêu Phân biệt liệu so sánh lớp liệu mục tiêu với lớp liệu đối chiếu Hoàng Văn Dũng Hoàng Văn Dũng Khai phá liệu Web kỹ thuật phân cụm Khai phá liệu Web kỹ thuật phân cụm khác Lớp liệu mục tiêu lớp đối chiếu người dùng Hầu hết phương pháp KPDL coi đối tượng tương ứng với đối tượng liệu nhận nhờ truy vấn nhiễu loại bỏ chúng Tuy nhiên số ứng dụng, chẳng hạn phát Phân tích kết hợp: Phân tích kết hợp khám phá luật kết hợp nhiễu, kiện xảy lại ý thường thể mối quan hệ thuộc tính giá trị mà ta nhận biết nhờ tần xuyên gặp phải Sự phân tích liệu coi khai phá suất xuất chúng Các luật kết hợp có dạng X  Y , tức đối tượng Một số phương pháp sử dụng để phát đối tượng A1   An  B1   Bm , Ai (i=1, , n) Bj (j=1, ,m) cặp cuộc: sử dụng test mang tính thống kê sở phân phối thuộc tính giá trị Luật kết hợp dạng X  Y hiểu “dữ liệu thoã liệu hay mô hình xác suất cho liệu, dùng độ đo khoảng cách mà theo mãn điều kiện X thoả điều kiện Y” đối tượng có khoảng cách đáng kể đến cụm khác coi Phân lớp dự báo: Phân lớp trình tìm kiếm tập mô hình chức mà mô tả phân biệt với lớp khái niệm khác đối tượng cuộc, dùng phương pháp dựa độ lệch để kiểm tra khác đặc trưng nhóm đối tượng Các mô hình nhằm mục đích dự báo lớp số đối tượng Việc xây Phân tích tiến hoá: Phân tích tiến hoá thực việc mô tả mô dựng mô hình dựa phân tích tập liệu huấn luyện có hình hoá qui luật hay khuynh hướng đối tượng mà hành vi nhiều dạng thể mô luật phân lớp (IF-THEN), định, công chúng thay đổi theo thời gian Phân tích tiến hoá bao gồm đặc trưng thức toán học hay mạng nơron, Sự phân lớp sử dụng để dự đoán nhãn hoá, phân biệt, tìm luật kết hợp, phân lớp hay PCDL liên quan đến thời gian, lớp đối tượng liệu Tuy nhiên nhiều ứng dụng, người ta phân tích liệu theo chuỗi thời gian, so sánh mẫu theo chu kỳ phân tích mong muốn dự đoán giá trị khuyết thiếu Thông thường liệu dựa độ tương tự trường hợp dự đoán giá trị liệu kiểu số Trước phân lớp dự 1.1.6 Ứng dụng khai phá liệu báo, cần thực phân tích thích hợp để xác định loại bỏ thuộc tính không tham gia vào trình phân lớp dự báo KPDL lĩnh vực quan tâm ứng dụng rộng rãi Một số ứng dụng điển hình KPDL liệt kê sau: Phân tích liệu hỗ trợ Phân cụm: Không giống phân lớp dự báo, phân cụm phân tích đối tượng liệu chưa biết nhãn lớp Nhìn chung, nhãn lớp không tồn định, điều trị y học, KPVB, khai phá Web, tin-sinh, tài thị trường chứng khoán, bảo hiểm, suốt trình huấn luyện liệu, phân cụm sử dụng để Thương mại: Như phân tích liệu bán hàng thị trường, phân tích đầu đưa nhãn lớp Sự phân cụm thực nhóm đối tượng liệu theo tư, phát gian lận, chứng thực hóa khách hàng, dự báo xu hướng phát triển, nguyên tắc: Các đối tượng nhóm giống đối Thông tin sản xuất: Điều khiển, lập kế hoạch, hệ thống quản lý, phân tích tượng khác nhóm Mỗi cụm tạo thành xem lớp đối tượng mà luật lấy từ Dạng cụm hình thành theo thử nghiệm, Thông tin khoa học: Dự báo thời tiết, bảo lụt, động đất, tin sinh học, cấu trúc phân cấp lớp mà lớp nhóm kiện tương tự Hiện hệ quản trị CSDL tích hợp modul để KPDL Phân tích đối tượng cuộc: Một CSDL chứa đối SQL Server, Oracle, đến năm 2007 Microsoft cung cấp sẵn công cụ KPDL tượng không tuân theo mô hình liệu Các đối tượng gọi đối tượng tích hợp MS-Word, MS-Excel, Hoàng Văn Dũng Hoàng Văn Dũng Khai phá liệu Web kỹ thuật phân cụm Khai phá liệu Web kỹ thuật phân cụm phân xác định trước theo kinh nghiệm tự động xác định phương pháp phân cụm Độ tương tự xác định dựa giá trị thuộc tính mô tả đối tượng Thông thường, phép đo khoảng cách thường sử dụng để đánh giá độ tương tự hay phi tương tự Ta minh hoạ vấn đề phân cụm hình sau đây: Hình 1.4 Mô PCDL Hình 1.3 Trực quan hóa kết KPDL Oracle Trong hình trên, sau phân cụm ta thu bốn cụm phần 1.2 Kỹ thuật phân cụm khai phá liệu tử "tương tự" xếp vào cụm, phần tử "phi tương tự" chúng 1.2.1 Tổng quan kỹ thuật phân cụm Mục đích PCDL nhằm khám phá cấu trúc mẫu liệu để thuộc cụm khác thành lập nhóm liệu từ tập liệu lớn, theo cho phép người ta Trong PCDL khái niệm, hai nhiều đối tượng xếp vào sâu vào phân tích nghiên cứu cho cụm liệu nhằm khám phá cụm chúng có chung định nghĩa khái niệm chúng xấp xỉ với tìm kiếm thông tin tiềm ẩn, hữu ích phục vụ cho việc định Ví dụ khái niệm mô tả cho trước Như vậy, PCDL không sử dụng độ đo “tương tự” “nhóm khách hàng CSDL ngân hàng có vốn đầu tư vào bất động trình bày sản cao”… Như vậy, PCDL phương pháp xử lý thông tin quan trọng Trong học máy, PCDL xem vấn đề học giám sát, phổ biến, nhằm khám phá mối liên hệ mẫu liệu cách tổ phải giải vấn đề tìm cấu trúc tập hợp liệu chưa biết trước chức chúng thành cụm thông tin lớp hay thông tin tập huấn luyện Trong nhiều trường hợp, Ta khái quát hóa khái niệm PCDL [10][19]: PCDL kỹ thuật phân lớp xem vấn đề học có giám sát PCDL bước trong KPDL, nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên, tiềm phân lớp liệu, PCDL khởi tạo lớp cho phân lớp cách xác định ẩn, quan trọng tập liệu lớn từ cung cấp thông tin, tri thức hữu ích nhãn cho nhóm liệu Một vấn đề thường gặp PCDL hầu hết liệu cần cho phân cho việc định Như vậy, PCDL trình phân chia tập liệu ban đầu thành cụm có chứa liệu "nhiễu" trình thu thập thiếu xác cụm liệu cho phần tử cụm "tương tự" với phần thiếu đầy đủ, cần phải xây dựng chiến lược cho bước tiền xử lý liệu tử cụm khác "phi tương tự" với Số cụm liệu nhằm khắc phục loại bỏ "nhiễu" trước bước vào giai đoạn phân tích Hoàng Văn Dũng Hoàng Văn Dũng 10 11 Khai phá liệu Web kỹ thuật phân cụm Khai phá liệu Web kỹ thuật phân cụm PCDL "Nhiễu" đối tượng liệu không xác 1.2.2 Ứng dụng phân cụm liệu đối tượng liệu khuyết thiếu thông tin số thuộc tính Một kỹ PCDL công cụ KPDL ứng dụng thuật xử lý nhiễu phổ biến việc thay giá trị thuộc tính đối nhiều lĩnh vực thương mại khoa học Các kỹ thuật PCDL áp tượng "nhiễu" giá trị thuộc tính tương ứng đối tượng liệu gần dụng cho số ứng dụng điển hình lĩnh vực sau [10][19]: Ngoài ra, dò tìm phần tử ngoại lai hướng nghiên cứu Thương mại: PCDL giúp thương nhân khám phá nhóm quan trọng PCDL, chức xác định nhóm nhỏ đối khách hàng quan trọng có đặc trưng tương đồng đặc tả họ từ tượng liệu "khác thường" so với liệu khác CSDL - tức đối mẫu mua bán CSDL khách hàng tượng liệu không tuân theo hành vi mô hình liệu - nhằm tránh ảnh hưởng chúng tới trình kết PCDL Khám phá phần tử ngoại lai phát triển ứng dụng viễn thông, dò tìm gian lận thương mại… Sinh học: PCDL sử dụng để xác định loại sinh vật, phân loại Gen với chức tương đồng thu cấu trúc mẫu Phân tích liệu không gian: Do đồ sộ liệu không gian liệu thu từ hình ảnh chụp từ vệ tinh, thiết bị y học hệ thống Tóm lại, PCDL vấn đề khó người ta phải giải vấn đề sau: thông tin địa lý (GIS), …làm cho người dùng khó để kiểm tra liệu không gian cách chi tiết PCDL trợ giúp người dùng tự động phân - Biểu diễn liệu tích xử lý liêu không gian nhận dạng chiết xuất đặc tính - Xây dựng hàm tính độ tương tự mẫu liệu quan tâm tồn CSDL không gian - Xây dựng tiêu chuẩn phân cụm Lập quy hoạch đô thị: Nhận dạng nhóm nhà theo kiểu vị trí địa lý,… - Xây dựng mô hình cho cấu trúc cụm liệu nhằm cung cấp thông tin cho quy hoạch đô thị - Xây dựng thuật toán phân cụm xác lập điều kiện khởi tạo Nghiên cứu trái đất: Phân cụm để theo dõi tâm động đất nhằm cung - Xây dựng thủ tục biểu diễn đánh giá kết phân cụm cấp thông tin cho nhận dạng vùng nguy hiểm Theo nghiên cứu đến chưa có phương pháp phân cụm tổng Địa lý: Phân lớp động vật, thực vật đưa đặc trưng chúng quát giải trọn vẹn cho tất dạng cấu trúc cụm liệu Khai phá Web: PCDL khám phá nhóm tài liệu quan trọng, có Hơn nữa, phương pháp phân cụm cần có cách thức biểu diễn cấu trúc nhiều ý nghĩa môi trường Web Các lớp tài liệu trợ giúp cho việc cụm liệu khác nhau, với cách thức biểu diễn khác có thuật khám phá tri thức từ liệu Web, khám phá mẫu truy cập khách hàng toán phân cụm phù hợp PCDL vấn đề mở khó người ta cần phải đặc biệt hay khám phá cộng đồng Web,… giải nhiều vấn đề đề cập cách trọn vẹn phù 1.2.3 Các yêu cầu kỹ thuật phân cụm liệu hợp với nhiều dạng liệu khác Đặc biệt liệu hỗn hợp, ngày tăng trưởng không ngừng hệ quản trị liệu, thách thức lớn lĩnh vực KPDL thập kỷ đặc biệt lĩnh vực KPDL Web Hoàng Văn Dũng Việc xây dựng, lựa chọn thuật toán phân cụm bước then chốt cho việc giải vấn đề phân cụm, lựa chọn phụ thuộc vào đặc tính liệu cần phân cụm, mục đích ứng dụng thực tế xác định độ ưu tiên chất lượng cụm hay tốc độ thực thuật toán,… 12 Hoàng Văn Dũng 13 Khai phá liệu Web kỹ thuật phân cụm Khai phá liệu Web kỹ thuật phân cụm + Phân tích đường dẫn [8][9][22]: Hầu hết các đường dẫn thường + Quy tắc phân loại [22]: Profile phần tử thuộc nhóm riêng thăm bố trí theo đồ thị vật lý trang Web Mỗi nút trang, biệt theo thuộc tính chung Ví dụ thông tin cá nhân mẫu cạnh đường liên kết trang Thông qua việc phân tích đường dẫn truy cập Profile sử dụng để phân loại phần tử liệu thêm trình truy cập người dùng ta biết mối quan hệ vào CSDL việc truy cập người đường dẫn liên quan Ví dụ: Khách hàng từ vị trí địa lý quốc gia phủ thăm Ví dụ: site có khuynh hướng bị thu hút trang /company/product1 50% khách - 70% khách hàng truy cập vào /company/product2 xuất phát từ hàng đặt hàng trực tuyến /company/product2 thuộc nhóm tuổi 20-25 Bờ /company thông qua /company/new, /company/products /company/product1 - 80% khách hàng truy cập vào WebSite /company/products biển Tây + Phân tích phân cụm: Nhóm khách hàng lại phần - 65% khách hàng rời khỏi site sau thăm trang tử liệu có đặc tính tương tự + Luật kết hợp [8]: Sự tương quan tham chiếu đến file khác có dịch vụ nhờ việc sử dụng luật kết hợp Nó giúp cho việc phát triển thực chiến lược tiếp thị khách hàng trực tuyến không trực tuyến việc trả lời tự động cho khách Ví dụ: hàng thuộc nhóm chắn, tạo thay đổi linh động WebSite riêng - 40% khách hàng truy cập vào trang Web có đường dẫn biệt khách hàng /company/product1 truy cập vào /company/product2 3.2.4.3 Phân tích đánh giá - 30% khách hàng truy cập vào /company/special thông qua Phân tích mô hình [22]: Thống kê, tìm kiếm tri thức tác nhân thông minh Phân tích tính khả thi, truy vấn liệu hướng tới tiêu dùng /company/product1 Nó giúp cho việc phát triển chiến lược kinh doanh phù hợp, xây dựng tổ chức cách tốt không gian Web công ty người Trực quan hóa: Trực quan Web sử dụng lược đồ đường dẫn Web đưa + Chuỗi mẫu: Các mẫu thu giao tác chuỗi thời gian Thể tập phần tử theo sau phân tử khác thứ tự thời gian lưu hành tập giao tác đồ thị có hướng OLAP Ví dụ: Querying: SELECT association-rules(A*B*C*) FROM log.data WHERE (date>= 970101) AND (domain = ''edu'' )AND (support = 1.0) AND Quá trình thăm khách hàng ghi lại giai đoạn thời gian (confidence = 90.0) Ví dụ: 3.2.5 Ví dụ khai phá theo sử dụng Web 30% khách hàng thăm /company/products thực tìm kiếm Yahoo với từ khóa tìm kiếm Ví dụ sử dụng phương pháp khai phá phân lớp phân cụm, luật kết hợp dùng để phân tích số lượng người dùng Sau người thiết kế 60% khách hàng đặt hàng trực tuyến /company/product1 đặt hàng trực tuyến /company/product4 15 ngày Web đưa nhiều dịch vụ khác thời điểm khác theo quy tắc người dùng truy cập Web site Chất lượng dịch vụ tốt thúc đẩy số lượng người dùng thăm Web site Quá trình thực sau: Hoàng Văn Dũng 74 Hoàng Văn Dũng 75 Khai phá liệu Web kỹ thuật phân cụm Khai phá liệu Web kỹ thuật phân cụm 3000 dùng đặc biệt tìm người dùng quan trọng thông qua mức độ truy cập 2500 họ, thời gian lưu lại mức độ yêu thích trang Web 2000 - Phân tích chủ đề đặc biệt chiều sâu nội dung Web Ví dụ, hoạt động thường ngày quốc gia, giới thiệu tour, Quan hệ tự nhiên người dùng nội dung Web Tìm dịch vụ hấp dẫn tiện lợi với Số người gian Thời - Chứng thực người dùng truy cập vào Web site, phân tích người 1500 1000 500 người dùng Tùy theo mức độ hiệu hoạt động truy cập Web site điều kiện việc duyệt Web site ta dự kiến đánh giá nội dung Web site tốt Dựa liệu kiểm tra ta xác định mức độ truy xuất người dùng qua 00 :0 01 -0 :0 0: 02 0-0 59 :0 1: 03 0-0 59 :0 2: 04 0-0 59 :0 3: 05 0-0 59 :0 4: 06 0-0 59 :0 5: 07 0-0 59 :0 6: 08 0-0 59 :0 7: 09 0-0 59 :0 8: 10 0-0 59 :0 9: 11 0-1 59 :0 0: 12 0-1 59 :0 1: 13 0-1 59 :0 2: 14 0-1 59 :0 3: 15 0-1 59 :0 4: 16 0-1 59 :0 5: 17 0-1 59 :0 6: 18 0-1 59 :0 7: 19 0-1 59 :0 8: 20 0-1 59 :0 9: 21 0-2 59 :0 0: 22 0-2 59 :0 1: 23 0-2 59 :0 2: 0- 59 23 :5 Thời gianSố người việc phân tích Web site phân tích yêu cầu phục vụ thay đổi giờ, Hình 3.8 Phân tích người dùng truy cập Web ngày sau [16]: 00:00-00:59 Số người truy cập 936 12:00-12:59 Số người truy cập 2466 01:00-01:59 725 13:00-13:59 1432 trang liên kết đến nhiều trang Các siêu liên kết thay đổi chứa 02:00-02:59 433 14:00-14:59 1649 đựng ngữ nghĩa chung chủ để trang Một siêu liên kết trỏ tới trang Web 03:00-03:59 389 15:00-15:59 1537 khác xem chứng thực trang Web Do đó, 04:00-04:59 149 16:00-16:59 2361 có ích việc sử dụng thông tin ngữ nghĩa để lấy thông tin quan 05:00-05:59 118 17:00-17:59 2053 trọng thông qua phân tích liên kết trang Web 06:00-06:59 126 18:00-18:59 2159 Sử dụng phương pháp khai phá người dùng để lấy tri thức hữu ích từ 07:00-07:59 235 19:00-19:59 1694 cấu trúc Web, tìm trang Web quan trọng phát triển kế hoạch để xây 08:00-08:59 599 20:00-20:59 2078 dựng WebSite phù hợp với người dùng 09:00-09:59 1414 21:00-21:59 2120 Mục tiêu khai phá cấu trúc Web để phát thông tin cấu trúc 10:00-10:59 2424 22:00-22:59 1400 Web Nếu khai phá nội dung Web chủ yếu tập trung vào cấu trúc bên 11:00-11:59 2846 23:00-23:59 1163 tài liệu khai phá cấu trúc Web cố gắng để phát cấu trúc liên kết Thời gian Thời gian 3.3 Khai phá cấu trúc Web WWW hệ thống thông tin toàn cầu, bao gồm tất Web site Mỗi siêu liên kết mức tài liệu Dựa mô hình hình học siêu Bảng 3.1 Thống kê số người dùng thời gian khác liên kết, khai phá cấu trúc Web phân loại trang Web, tạo thông tin độ tương tự mối quan hệ WebSite khác Nếu trang Web Hoàng Văn Dũng 76 Hoàng Văn Dũng 77 Khai phá liệu Web kỹ thuật phân cụm Khai phá liệu Web kỹ thuật phân cụm liên kết trực tiếp với trang Web khác ta muốn phát mối quan hệ trang Web Chúng tương tự với nội dung, - Đồ thị trích dẫn: Mỗi nút cho trang, cung hướng từ u đến v có trang thứ ba w liên kết u v thuộc dịch vụ Web giống tạo người Những - Giả định: Một liên kết từ trang u đến trang v thông báo đến trang v nhiệm vụ khác khai phá cấu trúc Web khám phá phân cấp tự nhiên trang u Nếu u v kết nối đường liên kết có khả mạng lưới siêu liên kết Web site miền đặc biệt hai trang Web có nội dung tương tự Điều giúp tạo luồng thông tin Web site mà 3.3.1 Tiêu chuẩn đánh giá độ tương tự đại diện cho nhiều miền đặc biệt Vì việc xử lý truy vấn trở nên dễ dàng hiệu - Khám phá nhóm trang Web giống để khai phá, ta phải giống hai nút theo tiêu chuẩn + Việc phân tích liên kết Web sử dụng cho mục đích[1]: Tiêu chuẩn 1: Đối với trang Web d1 d2 Ta nói d1 d2 quan hệ với - Sắp thứ tự tài liệu phù hợp với truy vấn người sử dụng có liên kết từ d1 đến d2 từ d2 đến d1 - Quyết định Web đưa vào lựa chọn truy vấn - Phân trang d1 d2 - Tìm kiếm trang liên quan - Tìm kiếm Web Hình 3.10 Quan hệ trực tiếp trang + Web xem đồ thị [1]: Tiêu chuẩn 2: Đồng trích dẫn: Độ tương tự d1 d2 đo số - Đồ thị liên kết: Mỗi nút trang, cung có hướng từ u đến v có trang dẫn tới d1 d2 siêu liên kết từ trang Web u sang trang Web v d1 d2 Hình 3.11 Độ tương tự đồng trích dẫn Tương tự mục: Độ tương tự d1 d2 đo số trang mà d1 d2 trở tới d1 Hình 3.12 Độ tương tự mục Hình 3.9 Đồ thi liên kết Web Hoàng Văn Dũng d2 78 Hoàng Văn Dũng 79 Khai phá liệu Web kỹ thuật phân cụm Khai phá liệu Web kỹ thuật phân cụm Cộng đồng Web ngày người quan tâm có nhiều ứng dụng thực tiễn Vì vậy, việc nghiên cứu phương pháp khám phá cộng 3.3.2 Khai phá quản lý cộng đồng Web Cộng đồng Web nhóm gồm trang Web chia chung vấn đồng có ý nghĩa to lớn thực tiễn Để trích dẫn cộng đồng đề mà người dùng quan tâm Các thành viên cộng đông Web không ẩn, ta phân tích đồ thị Web Có nhiều phương pháp để chứng thực cộng biết tình trạng tồn trang (và chí tồn đồng thuật toán tìm kiếm theo chủ đề HITS, luồng cực đại nhát cắt cực cộng đồng) Nhận biết cộng đồng Web, hiểu phát triển tiểu, thuật toán PageRank, đặc trưng cộng đồng Web quan trọng Việc xác định 3.3.2.1 Thuật toán PageRank hiểu cộng đồng Web xem việc khai phá quản Google dựa thuật toán PageRank [brin98], lập mục liên kết Web site thể liên kết từ A đến B xác nhận B lý Web A Các liên kết có giá trị khác Nếu A có nhiều liên kết tới C có liên kết tới liên kết từ A đến B có giá trị liên kết từ C đến B Giá trị xác định gọi PageRank trang xác định thứ tự xếp kết tìm kiếm (PageRank sử dụng phép cộng để quy ước số văn để tạo kết tìm kiếm xác cao) Các liên kết phân tích xác hiệu khối lượng chu chuyển khung nhìn trang trở thành độ đo thành công việc biến đối thứ hạng trang Hình 3.13 Cộng đồng Web Đặc điểm cộng đồng Web: - Các trang Web cộng đồng “tương tự” với trang Web cộng đồng - Mỗi cộng đồng Web tạo thành cụm trang Web - Các cộng đồng Web xác định cách rõ ràng, tất người biết, nguồn tài nguyên liệt kê Yahoo - Cộng đồng Web xác định hoàn chỉnh: Chúng cộng đồng bất ngờ xuất Hoàng Văn Dũng Hình 3.14 Kết thuật toán PageRank PageRank không đơn giản dựa tổng số liên kết đến Các tiếp cận PageRank tài liệu thực tế xét đến quan trọng 80 Hoàng Văn Dũng 81 Khai phá liệu Web kỹ thuật phân cụm Khai phá liệu Web kỹ thuật phân cụm tài liệu liên kết tới nó, liên kết (tới nó) không số lượng Một tài liệu xếp thứ hạng cao phần tử PageRank có tài liệu thứ hạng cao khác liên kết tới Cho nên khái niệm PageRank, thứ hạng tài liệu dựa vào thứ hạng cao tài liệu liên kết tới Thứ hạng ngược lại chúng dựa vào thứ hạng thấp 7 tài liệu liên kết tới chúng h(1) = a(5) + a(6) + a(7) 3.3.2.2 Phương pháp phân cụm nhờ thuật toán HITS Thuật toán HITS (Hypertext-Induced Topic Selection) Kleinberg đề xuất, thuật toán phát triển việc xếp thứ hạng tài liệu dựa thông tin liên kết tập tài liệu 1 a(1) = h(2) + h(3) + h(4) Hình 3.16 Sự kết hợp Hub Authority Các bước phương pháp HITS Bước 1: Xác định tập S, lấy tập tài liệu trả Định nghĩa: - Authority: Là trang cung cấp thông tin quan trọng, tin cậy dựa Search Engine chuẩn gọi tập gốc R, khởi tạo S tương ứng với R chủ đề đưa - Hub: Là trang chứa liên kết đến authorities - Bậc trong: Là số liên kết đến nút, dùng để đo độ ủy quyền - Bậc ngoài: Là số liên kết từ nút, sử dụng để đo mức Bước 2: Thêm vào S tất trang mà trỏ tới từ trang độ trung tâm Trong đó: Mỗi Hub trỏ đến nhiều Authority, Authority trỏ đến Thêm vào S tất trang mà trỏ tới trang R nhiều Hub Chúng kết hợp với tạo thành đồ thi phân đôi Hub R Với trang p S: Authoritie Tính giá trị điểm số Authority: ap (vector a) Tính giá trị điểm số Hub: hp (vector h) Với nút khởi tạo ap hp 1/n (n số trang) Bước Trong bước lặp tính giá trị trọng số Authority cho nút S theo công thức: a p  h q: q  p q Bước Mỗi bước lặp tính giá trị trọng số Hub nút S theo Hình 3.15 Đồ thị phân đôi Hub Authority Các Authority and hub thể quan hệ tác động qua lại để tăng cường công thức hq  a q: q  p p lực lượng Nghĩa Hub tốt trỏ đến Authority tốt ngược lại Authority tốt trỏ đến nhiều Hub tốt Hoàng Văn Dũng 82 Hoàng Văn Dũng 83 Khai phá liệu Web kỹ thuật phân cụm Khai phá liệu Web kỹ thuật phân cụm Lưu ý trọng số Hub tính toán nhờ vào trọng số Authority KPDL Web lĩnh vực nghiên cứu mới, có triển vọng lớn Các kỹ tạo, mà trọng số Authority lại tính toán từ trọng số thuật áp dụng rộng rãi giới KPDL văn Web, KPDL Hub trước không gian thời gian liên tục Web Khai phá Web hệ thống Bước Sau tính xong trọng số cho tất nút, trọng số chuẩn hóa lại theo công thức:  (a p )  and pS thương mại điện tử, khai phá cấu trúc siêu liên kết Web, Cho tới kỹ thuật KPDL phải đương đầu với nhiều thử thách lớn vấn đề KPDL Web  (h p )  pS 3.4 Áp dụng thuật toán phân cụm liệu tìm kiếm phân cụm tài liệu Web Lặp lại bước hp ap không đổi Ví dụ: Tập gốc R {1, 2, 3, 4} Ngày nay, nhờ cải tiến không ngừng Search engine chức tìm kiếm lẫn giao diện người dùng giúp cho người sử dụng dễ dàng việc tìm kiếm thông tin web Tuy nhiên, người sử dụng thường phải duyệt qua hàng chục chí hàng ngàn trang Web tìm kiếm thứ mà họ cần Theo tâm lý chung, người dùng xem qua vài chục kết đầu tiên, họ thiếu kiên nhẫn không đủ thời gian để xem qua tất kết mà search engine trả Nhằm giải vấn đề này, nhóm kết tìm kiếm thành thành nhóm theo chủ đề, người sử dụng bỏ qua nhóm mà họ không quan tâm để tìm đến nhóm chủ đề quan tâm Điều giúp cho người dùng thực công việc họ cách Hình 3.17 Đồ thị Hub-Authority hiệu Tuy nhiên vấn đề phân cụm liệu Web chọn chủ đề thích hợp để mô tả nội dung trang vấn đề không đơn Kết tính sau: giản Trong luận văn này, ta xem khía cạnh sử dụng kỹ thuật phân cụm để Giá trị trọng số Authority Giá trị trọng số Hub phân cụm tài liệu Web dựa kho liệu tìm kiếm lưu trữ 3.4.1 Hướng tiếp cận kỹ thuật phân cụm Hiện nay, để xác định mức độ quan trọng trang web có nhiều cách đánh PageRank, HITS, …Tuy nhiên, phương pháp đánh giá chủ yếu dựa vào liên kết trang để xác định trọng số cho trang Ta tiếp cận cách đánh giá mức độ quan trọng theo hướng khác 10 11 12 13 14 15 dựa vào nội dung tài liệu để xác định trọng số, tài liệu "gần Hình 3.18 Giá trị trọng số Hub Authority Hoàng Văn Dũng 84 Hoàng Văn Dũng 85 Khai phá liệu Web kỹ thuật phân cụm Khai phá liệu Web kỹ thuật phân cụm nhau" nội dung có mức độ quan trọng tương đương thuộc nhóm Hiện tại, có số thuật toán phân cụm liệu sử dụng phân cụm văn thuật toán phân cụm phân hoạch (k-means, PAM, CLARA), Giả sử cho tập S gồm trang web, tìm tập S trang chứa nội thuật toán phân cụm phân cấp (BIRCH, STC), Trong thực tế phân cụm theo dung câu hỏi truy vấn ta tập R Sử dụng thuật toán phân cụm liệu để nội dung tài liệu Web, tài liệu thuộc vào nhiều nhóm chủ đề khác phân tập R thành k cụm (k xác định) cho phần tử cụm tương tự Để giải vấn đề ta sử dụng thuật toán phân cụm theo cách nhất, phần tử cụm khác phi tương tự với tiếp cận mờ Từ tập S-R, đưa phần tử vào k cụm thiết lập Những phần tử tương tự với trọng tâm cụm (theo ngưỡng xác định đó) đưa vào cụm này, phần tử không thỏa mãn 3.4.2 Quá trình tìm kiếm phân cụm tài liệu Về bản, trình phân cụm kết tìm kiếm diễn theo bước thể sau [31]: xem không phù hợp với truy vấn loại bỏ khỏi tập kết Kế tiếp, - Tìm kiếm trang Web từ Website thỏa mãn nội dung truy vấn đánh trọng số cho cụm trang tập kết theo thuật - Trích rút thông tin mô tả từ trang lưu trữ với URL toán sau: tương ứng INPUT: tập liệu D chứa trang gồm k cụm k trọng tâm OUTPUT: trọng số trang - Sử dụng kỹ thuật phân cụm liệu để phân cụm tự động trang Web BEGIN Mỗi cụm liệu thứ m trọng tâm Cm ta gán trọng số tsm Với trọng tâm Ci, Cj ta có tsi>tsj ti tương tự với truy vấn tj Với trang p cụm m ta xác định trọng số trang pwm Với pwi, pwj bất kỳ, ta có pw1>pw2 pw1 gần trọng tâm pw2 thành cụm, cho trang cụm “tương tự” nội dung với trang cụm Dữ liệu web Tìm kiếm trích rút liệu Tiền xử lý END Hình 3.19 Thuật toán đánh trọng số cụm trang Như vậy, theo cách tiếp cận ta giải vấn đề sau: + Kết tìm kiếm phân thành cụm theo chủ đề khác nhau, Biểu diễn kết Áp dụng thuật toán phân cụm Biểu diễn liệu tùy vào yêu cầu cụ thể người dùng xác định chủ đề mà họ cần + Quá trình tìm kiếm xác định trọng số cho trang chủ yếu tập trung Hình 3.20 Các bước phân cụm kết tìm kiếm Web vào nội dung trang dựa vào liên kết trang + Giải vấn đề từ/cụm từ đồng nghĩa câu truy vấn người dùng Nhiệm vụ chủ yếu giai đoạn dựa vào tập từ khóa tìm kiếm để + Có thể kết hợp phương pháp phân cụm lĩnh vực khai phá liệu với phương pháp tìm kiếm có Hoàng Văn Dũng 3.4.2.1 Tìm kiếm liệu Web tìm kiếm trả tập gồm toàn văn tài liệu, tiêu đề, mô tả tóm tắt, URL,… tương ứng với trang 86 Hoàng Văn Dũng 87 Khai phá liệu Web kỹ thuật phân cụm Khai phá liệu Web kỹ thuật phân cụm Nhằm nâng cao tốc độ xử lý, ta tiến hành tìm kiếm lưu trữ tài liệu 3.4.2.2.3 Kết hợp từ có gốc kho liệu để sử dụng cho trình tìm kiếm (tương tự Hầu hết ngôn ngữ có nhiều từ có chung nguồn gốc với Search Engine Yahoo, Google,…) Mỗi phần tử gồm toàn văn tài liệu, tiêu đề, nhau, chúng mang ý nghĩa tương tự nhau, để giảm bởt số chiều biểu đoạn mô tả nội dung, URL,… diễn văn bản, ta kết hợp từ có gốc thành từ Theo số nghiên 3.4.2.2 Tiền xử lý liệu cứu [5] việc kết hợp giảm khoảng 40-50% kích thước chiều Quá trình làm liệu chuyển dịch tài liệu thành dạng biểu biểu diễn văn Ví dụ tiếng Anh, từ user, users, used, using có từ gốc diễn liệu thích hợp Giai đoạn bao gồm công việc sau: Chuẩn hóa văn bản, xóa bỏ quy use; từ engineering, engineered, engineer có từ gốc quy engineer từ dừng, kết hợp từ có từ gốc, số hóa biểu diễn văn bản, Ví dụ xử lý từ gốc tiếng Anh: 3.4.2.2.1 Chuẩn hóa văn Đây giai đoạn chuyển văn thô dạng văn cho việc xử lý sau dễ dàng, đơn giản, thuật tiện, xác so với việc xử lý trực tiếp - Nêu từ kết thúc “ing” xóa “ing”, ngoại trừ trường hợp sau xóa lại ký tự lại “th” - Nếu từ kết thúc “ies” “eies” “aies” văn thô mà ảnh hưởng đến kết xử lý Bao gồm: thay “ies” “y” + Xóa thẻ HTML loại thẻ khác để trích từ/cụm từ - Nếu từ kết thúc “es” bỏ “s” + Chuyển ký tự hoa thành ký tự thường - Nếu từ kết thúc "s" đứng trước phụ âm khác “s” + Xóa bỏ dấu câu, xoá ký tự trắng dư thừa, xóa “s” 3.4.2.2.2 Xóa bỏ từ dừng Trong văn có từ mang thông tin trình xử lý, - Nếu từ kết thúc “ed”, trước phụ âm xóa “ed” từ có tần số xuất thấp, từ xuất với tần số lớn không quan ngoại trừ sau xóa từ lại ký tự, đứng trước nguyên âm “i” trọng cho trình xử lý loại bỏ Theo số nghiên cứu gần cho đổi “ied” thành “y” thấy việc loại bỏ từ dùng giảm khoảng 20-30% tổng số từ 3.4.2.3 Xây dựng từ điển Việc xây dựng từ điển công việc quan trọng trình văn Có nhiều từ xuất với tần số lớn không hữu ích cho vector hóa văn bản, từ điển gồm từ/cụm từ riêng biệt toàn tập trình phân cụm liệu Ví dụ tiếng Anh từ a, an, the, of, and, to, liệu Từ điển gồm bảng từ, số từ điển on, by, tiếng Việt từ “thì”, “mà”, “là”, “và”, “hoặc”, Những từ xếp theo thứ tự Một số báo đề xuất [31] để nâng cao chất lượng phân cụm liệu cần xuất với tần số lớn loại bỏ Để đơn giản ứng dụng thực tế, ta tổ chức thành danh sách từ dừng, sử dụng định luật Zipf để xóa bỏ từ có tần số xuất thấp xem xét đến việc xử lý cụm từ ngữ cảnh khác Theo đề xuất Zemir [19][31] xây dựng từ điển có 500 phần tử phù hợp cao Hoàng Văn Dũng 88 Hoàng Văn Dũng 89 Khai phá liệu Web kỹ thuật phân cụm Khai phá liệu Web kỹ thuật phân cụm 3.4.2.4 Tách từ, số hóa văn biểu diễn tài liệu Bước Với tài liệu dj xác định độ tương tự trọng tâm Tách từ công việc quan trọng biểu diễn văn bản, trình tách từ, vector hóa tài liệu trình tìm kiếm từ thay số từ từ điển Ở ta sử dụng mô hình toán học TF, IDF, TFIDF, để biểu diễn văn Chúng ta sử dụng mảng W (trọng số) hai chiều có kích thước m x n, với n số tài liệu, m số thuật ngữ từ điển (số chiều), hàng thứ j vector biểu diễn tài liệu thứ j sở liệu, cột thứ i thuật ngữ thứ i từ điển Wij giá trị trọng số thuật ngữ i tài liệu j dj số tài liệu chứa ti Từ xây dựng bảng trọng số ma trận W theo Hình 3.21 Thuật toán k-means phân cụm nội dung tài liệu Web Vấn đề xác định trọng tâm cụm tài liệu: Xét cụm văn c, trọng tâm C cụm c tính nhờ vào vector tổng D ( D   d ) văn cụm c: C  D |c| Trong kỹ thuật phân cụm, trọng tâm cụm sử dụng để làm đại Công thức tính trọng số theo mô hình IF-IDF: diện cho cụm tài liệu ti  dj Vấn đề tính toán độ tương tự cụm tài liệu: Giả sử ta có cụm c1, c2, ngược lại (ti dj) độ tương tự cụm tài liệu tính mức độ “gần nhau” vector trọng tâm C1, C2: Sim(c1,c2)= sim(C1,C2) Trong đó: Ở đây, ta hiểu c1 c2 gồm tài liệu có tfij tần số xuất ti tài liệu dj thể coi cụm gồm phần tử idfij nghịch đảo tần số xuất ti tài liệu dj Trong thuật toán k-means, chất lượng phân cụm đánh giá thông quan hi số tài liệu mà ti xuất k hàm tiêu chuẩn E  x n tổng số tài liệu i 1 3.4.2.5 Phân cụm tài liệu Sau tìm kiếm, trích rút liệu tiền xử lý biểu diễn văn sử dụng kỹ thuật phân cụm để phân cụm tài liệu Ci D ( x  mi ) , x vector biểu diễn tài liệu, mi trọng tâm cụm, k số cụm, Ci cụm thứ i - Độ phức tạp thuật toán k-means O((n.k.d).r) Trong đó: n số đối tượng liệu, k số cụm liệu, d số chiều, r INPUT: Tập gồm n tài liệu k cụm số vòng lặp OUTPUT: Các cụm Ci (i=1, ,k) cho hàm tiêu chuẩn đạt giá trị cực tiểu Sau phân cụm xong tài liệu, trả kết cụm liệu BEGIN Bước Khởi tạo ngẫu nhiên k vector làm đối tượng trọng tâm k cụm Hoàng Văn Dũng trọng tâm cách xác định trung bình cộng vector tài liệu cụm Bước Lặp lại bước tâm không thay đổi END Trong đó, |c| số phần tử thuộc tập tài liệu c công thức sau: n tf ij  idfij  [1  log(tf ij )]  log( ) hi đưa tài liệu vào cụm Bước Cập nhận lại đối tượng trọng tâm Đối với cụm ta xác định lại d c Giai đoạn thực thống kê tần số thuật ngữ ti xuất tài liệu Wij= cụm theo độ đo tương tự thường dùng (như Dice, Jaccard, Cosine, Overlap, Euclidean, Manhattan) Xác định trọng tâm tương tự cho tài liệu trọng tâm tương ứng 90 Hoàng Văn Dũng 91 Khai phá liệu Web kỹ thuật phân cụm Khai phá liệu Web kỹ thuật phân cụm 3.4.6 Kết thực nghiệm tâm khởi tạo ban đầu Nếu k trọng tâm xác định tốt chất lượng thời gian thực cải thiện nhiều + Dữ liệu thực nghiệm trang Web lấy từ nguồn sau: - Các trang lấy tự động từ Website Internet, việc tìm kiếm Phần giao diện chương trình số đoạn mã code điển hình trình thực cách sử dụng Yahoo để tìm kiếm tự động, chương trình bày phụ lục dựa vào URL để lấy toàn văn tài liệu lưu trữ lại phục vụ cho trình 3.5 Tổng kết chương tìm kiếm sau (dưa liệu gồm 4000 chủ đề “data mining”, “web mining”, “Cluster algorithm”, “Sport”) Chương tác giả trình bày số hướng tiếp cận khai phá Web khai phá liệu toàn văn tài liệu Web, khai phá cấu trúc Web, khai phá - Tìm kiếm có chọn lọc, phần tiến hành lấy thủ công, nguồn liệu chủ yếu lấy từ Web site: sử dụng Web số thuật toán áp dụng khai phá Web Phần trình bày số chức quy trình hệ thống http://www.baobongda.com.vn/ thực nghiệm tìm kiếm trích chọn liệu Web, tiền xử lý liệu, http://bongda.com.vn/ chuẩn hoá văn bản, xoá bỏ từ dừng, xây dựng từ điển, tách từ biểu diễn văn http://vietnamnet.vn bản, phân cụm tài liệu đánh giá kết thực nghiệm http://www.24h.com Gồm 250 báo chủ đề “bóng đá” - Việc xây dựng từ điển, sau thống kê tần số xuất từ tập tài liệu, ta áp dụng định luật Zipf để loại bỏ từ có tần số xuất cao loại bỏ từ có tần số thấp, ta thu từ điển gồm 500 từ Số tài liệu Số cụm 50 50 100 100 150 150 250 250 10 15 10 15 10 15 10 15 Thời gian trung bình (giây) Phân cụm Tiền xử lý biểu diễn văn tài liệu 0,206 0,957 0,206 1,156 0,353 2,518 0,353 3,709 0,515 4,553 0,515 5,834 0,824 9,756 0,824 13,375 Bảng 3.2 Bảng đo thời gian thực thuật toán phân cụm Ta thấy thời gian thực thuật toán phụ vào độ lớn liệu số cụm cần phân cụm Ngoài ra, với thuật toán k-means phụ thuộc vào k trọng Hoàng Văn Dũng 92 Hoàng Văn Dũng 93 Khai phá liệu Web kỹ thuật phân cụm Khai phá liệu Web kỹ thuật phân cụm Hướng phát triển: - Tiếp tục nghiên cứu, đề xuất cải tiến số kỹ thuật phân KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN cụm liệu phân cụm mờ, thuật toán phân cụm song song, nhằm Luận văn nêu lên nét khai phá liệu, khám phá tri thức vấn đề liên quan, kỹ thuật phân cụm liệu sâu vào số phương pháp phân cụm truyền thống, phổ biến phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa mật độ, phân cụm dựa lưới, phân cụm dựa mô hình theo hướng tiếp cận mờ Luận văn tập trung vào hướng nghiên cứu phát triển khai nâng cao hiệu suất khai phá liệu hệ thống liệu lớn, phân tán - Nghiên cứu mô hình biểu diễn xử lý văn mô hình mờ, mô hình tập thô, nhằm nâng cao hiệu xử lý khai phá liệu đặc biệt xử lý liệu môi trường Web - Áp dụng kỹ thuật KPDL vào lĩnh vực thương mại điện tử, phủ điện tử, phá liệu khai phá Web, hướng thu hút quan tâm nhiều nhà khoa học Phần trình bày vấn đề hướng tiếp khai phá Web khai phá tài liệu Web, khai phá cấu trúc Web khai phá theo hướng sử dụng Web Một kỹ thuật khai phá Web phân cụm liệu Web Tác giả trình bày hướng tiếp cận việc sử dụng kỹ thuật phân cụm khai phá liệu Web Đề xuất xây dựng chương trình thực nghiệm phân cụm tài liệu Web áp dụng tìm kiếm liệu với thuật toán k-means dựa mô hình vector biểu diễn văn TF-IDF Lĩnh vực khai phá Web vấn đề mẽ, quan trọng khó, bên cạnh kết nghiên cứu đạt đặt thách thức lớn nhà nghiên cứu Khai phá Web lĩnh vực đầy triển vọng, phức tạp vấn đề mở Hiện chưa có thuật toán mô hình biểu diễn liệu tối ưu khai phá liệu Web Mặc dù cố gắng, nỗ lực song thời gian nghiên cứu, trình độ thân có hạn điều kiện nghiên cứu nhiều hạn chế nên tránh khỏi khuyết thiếu hạn chế, tác giả mong nhận góp ý, nhận xét quý báu quý thầy cô bạn bè để kết đề tài hoàn thiện Hoàng Văn Dũng 94 Hoàng Văn Dũng 95 Khai phá liệu Web kỹ thuật phân cụm Khai phá liệu Web kỹ thuật phân cụm Xoá từ dừng PHỤ LỤC Chương trình viết NET Framework 2.0 ngôn ngữ lập trình Visual Basic 2005, sở liệu lưu trữ quản lý SQL Server 2005 Sau số mã lệnh giao diện xử lý chương trình Một số modul xử lý cương trình Chuẩn hoá xâu văn Private Function Chuanhoa(ByVal S As String) As String For i = To S = S.Replace(Str(i) + ".", Str(i)) S = S.Replace(Str(i) + ",", Str(i)) Next i = Do While i < S.Length - If (Not Char.IsLetterOrDigit(S(i))) And (S(i) " ") Then S = S.Remove(i, 1) S = S.Insert(i, " ") Else i = i + End If Loop i = Do While i < S.Length - If ((Char.IsDigit(S(i))) And (Not Char.IsDigit(S(i + 1)))) Or ((Not Char.IsDigit(S(i))) And (Char.IsDigit(S(i + 1)))) Then S = S.Insert(i + 1, " ") i = i + End If i = i + Loop S = S.ToLower(VN) i = Do While i < S.Length - If S(i) + S(i + 1) = " " Then S = S.Remove(i, 1) Else i = i + End If Loop S = S.Trim Return S End Function Hoàng Văn Dũng Private Function XoaTuDung(ByVal S As String) As String For i = To ListTD.Count - S = S.Replace(" " + ListTD.Item(i) + " ", " ") Next i i = Do While i < S.Length Do While (i < S.Length - 1) And (S(i) = " ") i = i + Loop j = i + Kt = False Do While (j < S.Length) And (Not Kt) If S(j) " " Then j = j + Else Kt = True End If Loop If i = j - Then S = S.Remove(i, 1) End If i = j Loop S = S.Trim() Return S End Function Xây dựng từ điển Private Sub XayDungTuDien(ByVal Doc As ArrayList) For Each S In Doc list = New ArrayList(S.Split(" ")) For Each ST In list If Trim(ST) "" Then i = TuDien.IndexOf(ST) If (i < 0) Then TuDien.Add(Trim(ST)) TuDienTS.Add(1) Else TuDienTS(i) = TuDienTS(i) + End If End If Next Next 'Sap xep theo giam dan cua tan so tu tap Van ban If (TuDien(0) = " ") Or (TuDien(0) = "") Then TuDien.RemoveAt(0) End If 96 Hoàng Văn Dũng 97 Khai phá liệu Web kỹ thuật phân cụm Khai phá liệu Web kỹ thuật phân cụm QuikSort(0, TuDien.Count - 1, TuDien, TuDienTS) Do While (TuDien.Count>500) And (TuDienTS(0) > Int(NumDoc * (MaxWork / 100))) TuDien.RemoveAt(0) TuDienTS.RemoveAt(0) Loop Do While (TuDien.Count > MaxWork) TuDien.RemoveAt(MaxWork) TuDienTS.RemoveAt(MaxWork) Loop End Sub Vector hoá văn Private Sub VectorVB(ByVal Collect As ArrayList) Vector = Array.CreateInstance(GetType(Byte), NumDoc, NumWord) i = For Each S In Collect List = New ArrayList(S.Split(" ")) For Each ST In List If Trim(ST) "" Then k = TuDien.IndexOf(ST) If k > Then Vector(i, k) = Vector(i, k) + End If End If Next i = i + Next End Sub Xây dựng bảng trọng số Private Sub XDTrongSo(ByVal Vector As Array) Dim thongke(NumWord) As Integer For i = To NumWord - thongke(i) = For j = To NumDoc - If Vector(j, i) > Then thongke(i) = thongke(i) + End If Next Next W = Array.CreateInstance(GetType(Double), NumDoc, NumWord) For i = To NumDoc - For j = To NumWord - If Vector(i, j) > Then W(i, j)=(1 + Math.Log(Vector(i, Hoàng Văn Dũng 98 j)))*(Math.Log(NumDoc)-Math.Log(thongke(j))) Else W(i, j) = 0.0 End If Next Next End Sub Thuật toán k-means Private Sub PhanCumKMean() Randomize(NumDoc) 'Buoc 1: KHOI TAO CAC TRONG TAM i = Do While i < k r = CInt(Int(NumDoc * Rnd())) If Not rnum.Contains(r) Then rnum.Add(r) For j = To NumWord - C(i, j) = W(r, j) Next i = i + End If Loop For i = To NumDoc - Cum(i) = Next check1 = True Do While check1 'Buoc 2:Tinh toan khoang cach va xac dinh cum cho cac pt For i = To NumDoc - = Double.MaxValue Cum(i) = For j = To k - dis = For m = To NumWord - temp = W(i, m) - C(j, m) dis = dis + Math.Abs(temp * temp) Next dis = Math.Sqrt(dis) If dis < Then = dis Cum(i) = j End If Next Next 'Buoc 3: Cap nhat lai Trong tam check1 = False For i = To k - 'Cap nhat lan luot Trong tam tung cum For j = To NumWord - Hoàng Văn Dũng 99 Khai phá liệu Web kỹ thuật phân cụm Khai phá liệu Web kỹ thuật phân cụm Trích chọn liệu, tiền xử lý, xây dựng từ điển vector hóa văn n = sum = For m = To NumDoc - If Cum(m) = i Then sum = sum + W(m, j) n = n + End If Next sum = sum / n If C(i, j) sumThen C(i, j) = sum check1 = True End If Next Next Loop End Sub Một số giao diện chương trình Công cụ tìm kiếm tự động tài liệu Internet lưu trữ vào CSDL Phân cụm tài liệu biểu diễn kết Công cụ tìm kiếm chọn lọc tài liệu Internet lưu trữ vào CSDL Hoàng Văn Dũng 100 Hoàng Văn Dũng 101 Khai phá liệu Web kỹ thuật phân cụm Khai phá liệu Web kỹ thuật phân cụm TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Cao Chính Nghĩa, “Một số vấn đề phân cụm liệu”, Luận văn thạc sĩ, Trường Đại học Công nghệ, ĐH Quốc gia Hà Nội, 2006 [2] Hoàng Hải Xanh, “Về kỹ thuật phân cụm liệu data mining”, luận văn thạc sĩ, Trường ĐH Quốc Gia Hà Nội, 2005 [3] Hoàng Thị Mai, “Khai phá liệu phương pháp phân cụm liệu”, Luận văn thạc sĩ, Trường ĐHSP Hà Nội, 2006 Tài liệu tiếng Anh [4] Athena Vakali, Web data clustering Current research status & trends, Aristotle University,Greece, 2004 [5] Bing Liu, Web mining, Springer, 2007 [6] Brij M Masand, Myra Spiliopoulou, Jaideep Srivastava, Osmar R Zaiane, Web Mining for Usage Patterns & Profiles, ACM, 2002 [7] Filippo Geraci, Marco Pellegrini, Paolo Pisati, and Fabrizio Sebastiani, A scalable algorithm for high-quality clustering of Web Snippets, Italy, ACM, 2006 [8] Giordano Adami, Paolo Avesani, Diego Sona, Clustering Documents in a Web Directory, ACM, 2003 [9] Hiroyuki Kawano, Applications of Web mining- from Web search engine to P2P filtering, IEEE, 2004 [10] Ho Tu Bao, Knowledge Discovery and Data Mining, 2000 [11] Hua-Jun Zeng, Qi-Cai He, Zheng Chen, Wei-Ying Ma, Jinwen Ma, Learning to Cluster Web Search Results, ACM, 2004 [12] Jitian Xiao, Yanchun Zhang, Xiaohua Jia, Tianzhu Li, Measuring Similarity of Interests for Clustering Web-Users, IEEE, 2001 [13] Jiawei Han, Micheline Kamber, Data Mining: Concepts and Techniques, University of Illinois at Urbana-Champaign, 1999 [14] Khoo Khyou Bun, “Topic Trend Detection and Mining in World Wide Web”, A thesis for the degree of PhD, Japan, 2004 [15] LIU Jian-guo, HUANG Zheng-hong , WU Wei-ping, Web Mining for Electronic Business Application, IEEE, 2003 [16] Lizhen Liu, Junjie Chen, Hantao Song, The research of Web Mining, IEEE, 2002 Hoàng Văn Dũng 102 [17] Maria Rigou, Spiros Sirmakessis, and Giannis Tzimas, A Method for Personalized Clustering in Data Intensive Web Applications, 2006 [18] Miguel Gomes da Costa Júnior, Zhiguo Gong, Web Structure Mining: An Introduction, IEEE, 2005 [19] Oren Zamir and Oren Etzioni, Web document Clustering: A Feasibility Demonstration, University of Washington, USA, ACM, 1998 [20] Pawan Lingras, Rough Set Clustering for Web mining, IEEE, 2002 [21] Periklis Andritsos, Data Clusting Techniques, University Toronto,2002 [22] R Cooley, B Mobasher, and J Srivastava, Web mining: Information and Pattern Discovery on the World Wide Web, University of Minnesota, USA, 1998 [23] Raghu Krishnapuram, Anupam Joshi, and Liyu Yi, A Fuzzy Relative of the K -Medoids Algorithm with Application toWeb Document and Snippet Clustering, 2001 [24] Raghu Krishnapuram,Anupam Joshi, Olfa Nasraoui, and Liyu Yi, LowComplexity Fuzzy Relational Clustering Algorithms for Web Mining, IEEE, 2001 [25] Raymond and Hendrik, Web Mining Research: A Survey, ACM, 2000 [26] Rui Wu, Wansheng Tang,Ruiqing Zhao, An Efficient Algorithm for Fuzzy Web-Mining, IEEE, 2004 [27] T.A.Runkler, J.C.Bezdek, Web mining with relational clustering, ELSEVIER, 2002 [28] Tsau Young Lin, I-Jen Chiang , “A simplicial complex, a hypergraph, structure in the latent semantic space of document clustering”, ELSEVIER, 2005 [29] Wang Jicheng, Huang Yuan, Wu Gangshan, and Zhang Fuyan, Web Mining: Knowledge Discovery on the Web, IEEE, 1999 [30] WangBin, LiuZhijing, Web Mining Research, IEEE, 2003 [31] Wenyi Ni, A Survey of Web Document Clustering, Southern Methodist University, 2004 [32] Yitong Wang, Masaru Kitsuregawa, Evaluating Contents-Link Coupled Web Page Clustering for Web Search Results, ACM, 2002 [33] Zifeng Cui, Baowen Xu , Weifeng Zhang, Junling Xu, Web Documents Clustering with Interest Links, IEEE, 2005 Hoàng Văn Dũng 103 [...]... TF-IDF 28 Hoàng Văn Dũng 29 Khai phá dữ liệu Web bằng kỹ thuật phân cụm Khai phá dữ liệu Web bằng kỹ thuật phân cụm 1.5 Tổng kết chương 1 Chương 1 trình bày những kiến thức cơ bản về khai phá dữ liệu và khám phá tri thức trong CSDL, các kỹ thuật áp dụng trong khai phá dữ liệu, những chức năng chính, ứng dụng của nó trong xã hội, Chương 2 MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU Các kỹ thuật áp dụng để giải quyết... Văn Dũng 61 Khai phá dữ liệu Web bằng kỹ thuật phân cụm Khai phá dữ liệu Web bằng kỹ thuật phân cụm Khai phá nội dung Web có thể được tiếp cận theo 2 cách khác nhau: Tìm kiếm thông tin và KPDL trong CSDL lớn KPDL đa phương tiện là một phần Chương 3 KHAI PHÁ DỮ LIỆU WEB của khai phá nội dung Web, nó hứa hẹn việc khai thác được các thông tin và tri Tương ứng các kiểu dữ liệu Web, ta có thể phân chia các... sắp xếp các đối tượng theo thứ tự tăng dần nhằm tự động phân cụm và phân tích cụm tương tác hơn là đưa ra phân cụm 50 Hoàng Văn Dũng 51 Khai phá dữ liệu Web bằng kỹ thuật phân cụm Khai phá dữ liệu Web bằng kỹ thuật phân cụm một tập dữ liệu rõ ràng Thứ tự này diễn tả cấu trúc dữ liệu phân cụm dựa trên mật độ chứa thông tin tương đương với phân cụm dựa trên mật độ với một dãy các tham số đầu vào OPTICS... Chất lượng của các cụm khám phá được và tốc độ thực hiện của Chương này cũng trình bày một hướng nghiên cứu và ứng dụng trong khai phá dữ liệu là phân cụm dữ liệu, gồm tổng quan về kỹ thuật phân cụm, các ứng dụng của phân cụm, các yêu cầu đối với kỹ thuật phân cụm, các kiểu dữ liệu và độ đo tương tự, Một hướng tiếp cận mới trong khai phá dữ liệu là khai phá dữ liệu trong môi trường Web Phần này trình... được khám phá bởi CURE Hoàng Văn Dũng 45 Khai phá dữ liệu Web bằng kỹ thuật phân cụm Khai phá dữ liệu Web bằng kỹ thuật phân cụm Để áp dụng với CSDL lớn, CURE sử dụng lấy mẫu ngẫu nhiên và phân 2.3 Phân cụm dựa trên mật độ hoạch Mẫu dữ liệu được xác định ngẫu nhiên là phân hoạch đầu tiên, CURE Phương pháp này nhóm các đối tượng theo hàm mật độ xác định Mật độ tiến hành phân cụm trên mỗi phân hoạch... thuật toán COBWEB là CLASSIT, AutoClass 2.6 Phân cụm dữ liệu mờ Thông thường, mỗi phương pháp PCDL phân một tập dữ liệu ban đầu thành các cụm dữ liệu có tính tự nhiên và mỗi đối tượng dữ liệu chỉ thuộc về một cụm dữ liệu, phương pháp này chỉ phù hợp với việc khám phá ra các cụm có mật độ cao và rời nhau Tuy nhiên, trong thực tế, các cụm dữ liệu lại có thể 58 Hoàng Văn Dũng 59 Khai phá dữ liệu Web bằng. .. tài liệu văn bản truyền thống [16] Chúng không đồng nhất về cấu trúc, hơn nữa nguồn thông tin 20 21 Khai phá dữ liệu Web bằng kỹ thuật phân cụm Khai phá dữ liệu Web bằng kỹ thuật phân cụm iii Tổng hợp: Tự động khám phá các mẫu chung tại các Web site riêng lẽ cũng như nhiều Website với nhau iv Phân tích: Đánh giá, giải thích, biểu diễn các mẫu khai phá được 1.4 Xử lý dữ liệu văn bản ứng dụng trong khai. .. Khai phá dữ liệu Web bằng kỹ thuật phân cụm Khai phá dữ liệu Web bằng kỹ thuật phân cụm chồng lên nhau (một số các đối tượng dữ liệu thuộc về nhiều các cụm khác Phương pháp phân cụm phân cấp dựa trên ý tưởng cây phân cấp để phân nhau), người ta đã áp dụng lý thuyết về tập mờ trong PCDL để giải quyết cho cụm dữ liệu Có hai cách tiếp cận đó là phân cụm dưới lên (Bottom up) và phân trường hợp này, cách.. .Khai phá dữ liệu Web bằng kỹ thuật phân cụm Khai phá dữ liệu Web bằng kỹ thuật phân cụm Hầu hết các nghiên cứu và phát triển thuật toán PCDL đều nhằm thoả mãn các yêu cầu cơ bản sau [10][19]: 1.2.4 Các kiểu dữ liệu và độ đo tương tự Trong phần này ta phân tích các kiểu dữ liệu thường được sử dụng trong Có khả năng mở rộng: Một số thuật toán có thể ứng dụng tốt cho tập dữ PCDL Trong PCDL,... cận chính: Mô hình thống kê và Mạng Nơron Một số thuật toán điển hình như EM, Hình 2.26 Thuật toán CLIQUE COBWEB, Hoàng Văn Dũng 56 Hoàng Văn Dũng 57 Khai phá dữ liệu Web bằng kỹ thuật phân cụm Khai phá dữ liệu Web bằng kỹ thuật phân cụm 2.5.1 Thuật toán EM 2.5.2 Thuật toán COBWEB Thuật toán EM (Expectation - Maximization) được nghiên cứu từ 1958 bởi COBWEB được đề xuất bởi Fisher năm 1987 Các đối tượng

Định dạng
Số trang	55
Dung lượng	1,61 MB