Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 110 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
110
Dung lượng
1,81 MB
Nội dung
Khai phá liệu Web kỹ thuật phân cụm BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI Hoàng Văn Dũng KHAI PHÁ DỮ LIỆU WEB BẰNG KỸ THUẬT PHÂN CỤM Luận văn thạc sỹ khoa học Hà Nội, 2007 Hoàng Văn Dũng i Khai phá liệu Web kỹ thuật phân cụm MỤC LỤC MỤC LỤC i DANH SÁCH CÁC HÌNH v DANH SÁCH CÁC BẢNG BIỂU vi CÁC CỤM TỪ VIẾT TẮT vii LỜI MỞ ĐẦU Chương TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu phát tri thức 1.1.1 Khai phá liệu 1.1.2 Quá trình khám phá tri thức 1.1.3 Khai phá liệu lĩnh vực liên quan 1.1.4 Các kỹ thuật áp dụng khai phá liệu 1.1.5 Những chức khai phá liệu 1.1.6 Ứng dụng khai phá liệu 1.2 Kỹ thuật phân cụm khai phá liệu 10 1.2.1 Tổng quan kỹ thuật phân cụm 10 1.2.2 Ứng dụng phân cụm liệu 13 1.2.3 Các yêu cầu kỹ thuật phân cụm liệu 13 1.2.4 Các kiểu liệu độ đo tương tự 15 1.2.4.1 Phân loại kiểu liệu dựa kích thước miền 15 1.2.4.2 Phân loại kiểu liệu dựa hệ đo 15 1.2.4.3 Khái niệm phép đo độ tương tự, phi tương tự 17 1.3 Khai phá Web 20 1.3.1 Lợi ích khai phá Web 20 1.3.2 Khai phá Web 21 1.3.3 Các kiểu liệu Web 22 1.4 Xử lý liệu văn ứng dụng khai phá liệu Web 23 1.4.1 Dữ liệu văn 23 1.4.2 Một số vấn đề xử lý liệu văn 23 1.4.2.1 Loại bỏ từ dừng 24 1.4.2.2 Định luật Zipf 25 1.4.3 Các mơ hình biểu diễn liệu văn 26 1.4.3.1 Mô hình Boolean 26 Hoàng Văn Dũng ii Khai phá liệu Web kỹ thuật phân cụm 1.4.3.2 Mơ hình tần số 27 1.5 Tổng kết chương 30 Chương MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU 31 2.1 Phân cụm phân hoạch 31 2.1.1 Thuật toán k-means 32 2.1.2 Thuật toán PAM 34 2.1.3 Thuật toán CLARA 38 2.1.4 Thuật toán CLARANS 39 2.2 Phân cụm phân cấp 41 2.2.1 Thuật toán BIRCH 42 2.2.2 Thuật toán CURE 45 2.3 Phân cụm dựa mật độ 47 2.3.1 Thuật toán DBSCAN 47 2.3.2 Thuật toán OPTICS 51 2.3.3 Thuật toán DENCLUE 52 2.4 Phân cụm dựa lưới 54 2.4.1 Thuật toán STING 55 2.4.2 Thuật toán CLIQUE 56 2.5 Phân cụm liệu dựa mơ hình 57 2.5.1 Thuật toán EM 58 2.5.2 Thuật toán COBWEB 59 2.6 Phân cụm liệu mờ 59 2.7 Tổng kết chương 60 Chương KHAI PHÁ DỮ LIỆU WEB 62 3.1 Khai phá nội dung Web 62 3.1.1 Khai phá kết tìm kiếm 63 3.1.2 Khai phá văn Web 63 3.1.2.1 Lựa chọn liệu 64 3.1.2.2 Tiền xử lý liệu 64 3.1.2.3 Biểu điễn văn 65 3.1.2.4 Trích rút từ đặc trưng 65 3.1.2.5 Khai phá văn 66 3.1.3 Đánh giá chất lượng mẫu 68 Hoàng Văn Dũng iii Khai phá liệu Web kỹ thuật phân cụm 3.2 Khai phá theo sử dụng Web 69 3.2.1 Ứng dụng khai phá theo sử dụng Web 70 3.2.2 Các kỹ thuật sử dụng khai phá theo sử dụng Web 71 3.2.3 Những vấn đề khai theo sử dụng Web 71 3.2.3.1 Chứng thực phiên người dùng 71 3.2.3.2 Đăng nhập Web xác định phiên chuyển hướng người dùng 72 3.2.3.3 Các vấn đề việc xử lý Web log 72 3.2.3.4 Phương pháp chứng thực phiên làm việc truy cập Web 73 3.2.4 Quá trình khai phá theo sử dụng Web 73 3.2.4.1 Tiền xử lý liệu 73 3.2.4.2 Khai phá liệu 73 3.2.4.3 Phân tích đánh giá 75 3.2.5 Ví dụ khai phá theo sử dụng Web 75 3.3 Khai phá cấu trúc Web 77 3.3.1 Tiêu chuẩn đánh giá độ tương tự 79 3.3.2 Khai phá quản lý cộng đồng Web 80 3.3.2.1 Thuật toán PageRank 81 3.3.2.2 Phương pháp phân cụm nhờ thuật toán HITS 82 3.4 Áp dụng thuật toán phân cụm liệu tìm kiếm PCDL Web 85 3.4.1 Hướng tiếp cận kỹ thuật phân cụm 85 3.4.2 Quá trình tìm kiếm phần cụm tài liệu 87 3.4.2.1 Tìm kiếm liệu Web 87 3.4.2.2 Tiền xử lý liệu 88 3.4.2.3 Xây dựng từ điển 89 3.4.2.4 Tách từ, số hóa văn biểu diễn tài liệu 90 3.4.2.5 Phân cụm tài liệu 90 3.4.6 Kết thực nghiệm 92 3.5 Tổng kết chương 93 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 94 PHỤ LỤC 96 TÀI LIỆU THAM KHẢO 102 Hoàng Văn Dũng iv Khai phá liệu Web kỹ thuật phân cụm DANH SÁCH CÁC HÌNH Hình 1.1 Q trình khám phá tri thức Hình 1.2 Các lĩnh vực liên quan đến khám phá tri thức CSDL Hình 1.3 Trực quan hóa kết KPDL Oracle 10 Hình 1.4 Mơ PCDL 11 Hình 1.5 Phân loại liệu Web 22 Hình 1.6 Lược đồ thống kê tần số từ theo Định luật Zipf 26 Hình 1.7 Các độ đo tương tự thường dùng 29 Hình 2.1 Thuật toán k-means 32 Hình 2.2 Hình dạng cụm liệu khám phá k-means 33 Hình 2.3 Trường hợp Cjmp=d(Oj,Om,2) – d(Oj, Om) khơng âm 35 Hình 2.4 Trường hợp Cjmp= (Oj,Op)- d(Oj, Om) âm dương 36 Hình 2.5 Trường hợp Cjmp không 36 Hình 2.6 Trường hợp Cjmp= (Oj,Op)- d(Oj, Om,2) ln âm 37 Hình 2.7 Thuật toán PAM 37 Hình 2.8 Thuật tốn CLARA 38 Hình 2.9 Thuật toán CLARANS 40 Hình 2.10 Các chiến lược phân cụm phân cấp 42 Hình 2.11 Cây CF sử dụng thuật toán BIRCH 43 Hình 2.12 Thuật tốn BIRCH 44 Hình 2.13 Ví dụ kết phân cụm thuật tốn BIRCH 44 Hình 2.14 Các cụm liệu khám phá CURE 45 Hình 2.15 Thuật tốn CURE 46 Hình 2.16 Một số hình dạng khám phá phân cụm dưa mật độ 47 Hình 2.17 Lân cận P với ngưỡng Eps 48 Hình 2.18 Mật độ - đến trực tiếp 49 Hình 2.19 Mật độ đến 49 Hình 2.20 Mật độ liên thơng 49 Hình 2.21 Cụm nhiễu 50 Hình 2.22 Thuật tốn DBSCAN 51 Hình 2.23 Thứ tự phân cụm đối tượng theo OPTICS 52 Hình 2.24 DENCLUE với hàm phân phối Gaussian 53 Hoàng Văn Dũng v Khai phá liệu Web kỹ thuật phân cụm Hình 2.25 Mơ hình cấu trúc liệu lưới 55 Hình 2.26 Thuật toán CLIQUE 56 Hình 2.27 Q trình nhận dạng CLIQUE 57 Hình 3.1 Phân loại khai phá Web 62 Hình 3.2 Quá trình khai phá văn Web 64 Hình 3.3 Thuật tốn phân lớp K-Nearest Neighbor 67 Hình 3.4 Thuật tốn phân cụm phân cấp 67 Hình 3.5 Thuật toán phân cụm phân hoạch 68 Hình 3.6 Kiến trúc tổng quát khai phá theo sử dụng Web 70 Hình 3.7 Minh họa nội dung logs file 72 Hình 3.8 Phân tích người dùng truy cập Web 77 Hình 3.9 Đồ thi liên kết Web 78 Hình 3.10 Quan hệ trực tiếp trang 79 Hình 3.11 Độ tương tự đồng trích dẫn 79 Hình 3.12 Độ tương tự mục 79 Hình 3.13 Cộng đồng Web 80 Hình 3.14 Kết thuật tốn PageRank 81 Hình 3.15 Đồ thị phân đôi Hub Authority 82 Hình 3.16 Sự kết hợp Hub Authority 83 Hình 3.17 Đồ thị Hub-Authority 84 Hình 3.18 Giá trị trọng số Hub Authority 84 Hình 3.19 Thuật toán đánh trọng số cụm trang 86 Hình 3.20 Các bước phân cụm kết tìm kiếm Web 87 Hình 3.21 Thuật tốn k-means phân cụm nội dung tài liệu Web 91 DANH SÁCH CÁC BẢNG BIỂU Bảng 1.1 Bảng tham số thuộc tính nhị phân 18 Bảng 1.2 Thống kê từ tần số xuất cao 24 Bảng 3.1 Thống kê số người dùng thời gian khác 76 Bảng 3.2 Bảng đo thời gian thực thuật tốn phân cụm 92 Hồng Văn Dũng vi Khai phá liệu Web kỹ thuật phân cụm CÁC CỤM TỪ VIẾT TẮT STT Viết tắt Cụm từ tiếng Anh Cụm từ tiếng Việt CNTT Information Technology Công nghệ thông tin CSDL Database Cơ sở liệu KDD Knowledge Discovery in Database Khám phá tri thức sở liệu KPDL Data mining Khai phá liệu KPVB Text Mining Khai phá văn PCDL Data Clustering Phân cụm liệu Hoàng Văn Dũng vii Khai phá liệu Web kỹ thuật phân cụm LỜI MỞ ĐẦU Trong năm gần với phát triển nhanh chóng khoa học kỹ thuật bùng nỗ tri thức Kho liệu, nguồn tri thức nhân loại trở nên đồ sộ, vô tận làm cho vấn đề khai thác nguồn tri thức ngày trở nên nóng bỏng đặt thách thức lớn cho công nghệ thông tin giới Cùng với tiến vượt bậc công nghệ thông tin phát triển mạnh mẽ mạng thông tin toàn cầu, nguồn liệu Web trở thành kho liệu khổng lồ Nhu cầu tìm kiếm xử lý thông tin, với yêu cầu khả kịp thời khai thác chúng để mạng lại suất chất lượng cho công tác quản lý, hoạt động kinh doanh,… trở nên cấp thiết xã hội đại Nhưng vấn đề tìm kiếm sử dụng nguồn tri thức để phục vụ cho cơng việc lại vấn đề khó khăn người sử dụng Để đáp ứng phần yêu cầu này, người ta xây dựng cơng cụ tìm kiếm xử lý thơng tin nhằm giúp cho người dùng tìm kiếm thơng tin cần thiết cho mình, với rộng lớn, đồ sộ nguồn liệu Internet làm cho người sử dụng cảm thấy khó khăn trước kết tìm Với phương pháp khai thác sở liệu truyền thống chưa đáp ứng yêu cầu Để giải vấn đề này, hướng nghiên cứu áp dụng kỹ thuật khai phá liệu khám phá tri thức mơi trường Web Do đó, việc nghiên cứu mơ hình liệu áp dụng phương pháp khai phá liệu khai phá tài nguyên Web xu tất yếu vừa có ý nghĩa khoa học vừa mang ý nghĩa thực tiễn cao Vì vậy, tác giả chọn đề tài “Khai phá liệu Web kỹ thuật phân cụm ” để làm luận văn tốt nghiệp cho Bố cục luận văn gồm chương: Hoàng Văn Dũng Khai phá liệu Web kỹ thuật phân cụm Chương trình bày cách tổng quan kiến thức khai phá liệu khám phá tri thức, khai phá liệu môi trường Web; số vấn đề biểu diễn xử lý liệu văn áp dụng khai phá liệu Web Chương giới thiệu số kỹ thuật phân cụm liệu phổ biến thường sử dụng lĩnh vực khai phá liệu khám phá tri thức Chương trình bày số hướng nghiên cứu khai phá liệu Web khai phá tài liệu Web, khai phá theo sử dụng Web, khai phá cấu trúc Web tiếp cận theo hướng sử dụng kỹ thuật phân cụm liệu để giải toán khai phá liệu Web Trong phần trình bày mơ hình áp dụng kỹ thuật phân cụm liệu tìm kiếm phân cụm tài liệu Web Phần kết luận luận văn tổng kết lại vấn đề nghiên cứu, đánh giá kết nghiên cứu, hướng phát triển đề tài Phần phụ lục trình bày số đoạn mã lệnh xử lý chương trình số giao diện chương trình mơ Hồng Văn Dũng Khai phá liệu Web kỹ thuật phân cụm Chương TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu phát tri thức 1.1.1 Khai phá liệu Cuối thập kỷ 80 kỷ 20, phát triển rộng khắp CSDL tạo bùng nổ thông tin toàn cầu, vào thời gian người ta bắt đầu đề cập đến khái niệm khủng hoảng việc phân tích liệu tác nghiệp để cung cấp thơng tin với yêu cầu chất lượng ngày cao cho người làm định tổ chức phủ, tài chính, thương mại, khoa học,… Đúng John Naisbett cảnh báo “Chúng ta chìm ngập liệu mà đói tri thức” Lượng liệu khổng lồ thực nguồn tài nguyên có nhiều giá trị thông tin yếu tố then chốt phục vụ cho hoạt động quản lý, kinh doanh, phát triển sản xuất dịch vụ, … giúp người điều hành quản lý có hiểu biết mơi trường tiến trình hoạt động tổ chức trước định để tác động đến trình hoạt động nhằm đạt mục tiêu cách hiệu bền vững KPDL lĩnh vực nghiên cứu, nhằm tự động khai thác thơng tin, tri thức hữu ích, tiềm ẩn từ CSDL lớn cho đơn vị, tổ chức, doanh nghiệp,… từ làm thúc đẩy khả sản xuất, kinh doanh, cạnh tranh cho đơn vị, tổ chức Các kết nghiên cứu khoa học ứng dụng thành công KDD cho thấy KPDL lĩnh vực phát triển bền vững, mang lại nhiều lợi ích có nhiều triển vọng, đồng thời có ưu hẵn so với cơng cụ tìm kiếm phân tích liệu truyền thống Hiện nay, KPDL ứng dụng ngày rộng rãi lĩnh vực thương mại, tài chính, y học, viễn thơng, tin – sinh,… Các kỹ thuật áp dụng lĩnh vực KPDL phần lớn thừa kế từ lĩnh vực CSDL, học máy, trí tuệ nhân tạo, lý thuyết thông tin, xác suất thống kê tính tốn hiệu cao, Hồng Văn Dũng