KHAI PHÁ DỮ LIỆU WEB BẰNG KỸ THUẬT PHÂN CỤM

20 329 1
KHAI PHÁ DỮ LIỆU WEB BẰNG KỸ THUẬT PHÂN CỤM

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Khai phá liệu Web kỹ thuật phân cụm BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI Hoàng Văn Dũng KHAI PHÁ DỮ LIỆU WEB BẰNG KỸ THUẬT PHÂN CỤM Luận văn thạc sỹ khoa học Hà Nội, 2007 Hoàng Văn Dũng i Khai phá liệu Web kỹ thuật phân cụm MỤC LỤC MỤC LỤC i DANH SÁCH CÁC HÌNH v DANH SÁCH CÁC BẢNG BIỂU vi CÁC CỤM TỪ VIẾT TẮT vii LỜI MỞ ĐẦU Chương TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu phát tri thức 1.1.1 Khai phá liệu 1.1.2 Quá trình khám phá tri thức 1.1.3 Khai phá liệu lĩnh vực liên quan 1.1.4 Các kỹ thuật áp dụng khai phá liệu 1.1.5 Những chức khai phá liệu 1.1.6 Ứng dụng khai phá liệu 1.2 Kỹ thuật phân cụm khai phá liệu 10 1.2.1 Tổng quan kỹ thuật phân cụm 10 1.2.2 Ứng dụng phân cụm liệu 13 1.2.3 Các yêu cầu kỹ thuật phân cụm liệu 13 1.2.4 Các kiểu liệu độ đo tương tự 15 1.2.4.1 Phân loại kiểu liệu dựa kích thước miền 15 1.2.4.2 Phân loại kiểu liệu dựa hệ đo 15 1.2.4.3 Khái niệm phép đo độ tương tự, phi tương tự 17 1.3 Khai phá Web 20 1.3.1 Lợi ích khai phá Web 20 1.3.2 Khai phá Web 21 1.3.3 Các kiểu liệu Web 22 1.4 Xử lý liệu văn ứng dụng khai phá liệu Web 23 1.4.1 Dữ liệu văn 23 1.4.2 Một số vấn đề xử lý liệu văn 23 1.4.2.1 Loại bỏ từ dừng 24 1.4.2.2 Định luật Zipf 25 1.4.3 Các mô hình biểu diễn liệu văn 26 1.4.3.1 Mô hình Boolean 26 Hoàng Văn Dũng ii Khai phá liệu Web kỹ thuật phân cụm 1.4.3.2 Mô hình tần số 27 1.5 Tổng kết chương 30 Chương MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU 31 2.1 Phân cụm phân hoạch 31 2.1.1 Thuật toán k-means 32 2.1.2 Thuật toán PAM 34 2.1.3 Thuật toán CLARA 38 2.1.4 Thuật toán CLARANS 39 2.2 Phân cụm phân cấp 41 2.2.1 Thuật toán BIRCH 42 2.2.2 Thuật toán CURE 45 2.3 Phân cụm dựa mật độ 47 2.3.1 Thuật toán DBSCAN 47 2.3.2 Thuật toán OPTICS 51 2.3.3 Thuật toán DENCLUE 52 2.4 Phân cụm dựa lưới 54 2.4.1 Thuật toán STING 55 2.4.2 Thuật toán CLIQUE 56 2.5 Phân cụm liệu dựa mô hình 57 2.5.1 Thuật toán EM 58 2.5.2 Thuật toán COBWEB 59 2.6 Phân cụm liệu mờ 59 2.7 Tổng kết chương 60 Chương KHAI PHÁ DỮ LIỆU WEB 62 3.1 Khai phá nội dung Web 62 3.1.1 Khai phá kết tìm kiếm 63 3.1.2 Khai phá văn Web 63 3.1.2.1 Lựa chọn liệu 64 3.1.2.2 Tiền xử lý liệu 64 3.1.2.3 Biểu điễn văn 65 3.1.2.4 Trích rút từ đặc trưng 65 3.1.2.5 Khai phá văn 66 3.1.3 Đánh giá chất lượng mẫu 68 Hoàng Văn Dũng iii Khai phá liệu Web kỹ thuật phân cụm 3.2 Khai phá theo sử dụng Web 69 3.2.1 Ứng dụng khai phá theo sử dụng Web 70 3.2.2 Các kỹ thuật sử dụng khai phá theo sử dụng Web 71 3.2.3 Những vấn đề khai theo sử dụng Web 71 3.2.3.1 Chứng thực phiên người dùng 71 3.2.3.2 Đăng nhập Web xác định phiên chuyển hướng người dùng 72 3.2.3.3 Các vấn đề việc xử lý Web log 72 3.2.3.4 Phương pháp chứng thực phiên làm việc truy cập Web 73 3.2.4 Quá trình khai phá theo sử dụng Web 73 3.2.4.1 Tiền xử lý liệu 73 3.2.4.2 Khai phá liệu 73 3.2.4.3 Phân tích đánh giá 75 3.2.5 Ví dụ khai phá theo sử dụng Web 75 3.3 Khai phá cấu trúc Web 77 3.3.1 Tiêu chuẩn đánh giá độ tương tự 79 3.3.2 Khai phá quản lý cộng đồng Web 80 3.3.2.1 Thuật toán PageRank 81 3.3.2.2 Phương pháp phân cụm nhờ thuật toán HITS 82 3.4 Áp dụng thuật toán phân cụm liệu tìm kiếm PCDL Web 85 3.4.1 Hướng tiếp cận kỹ thuật phân cụm 85 3.4.2 Quá trình tìm kiếm phần cụm tài liệu 87 3.4.2.1 Tìm kiếm liệu Web 87 3.4.2.2 Tiền xử lý liệu 88 3.4.2.3 Xây dựng từ điển 89 3.4.2.4 Tách từ, số hóa văn biểu diễn tài liệu 90 3.4.2.5 Phân cụm tài liệu 90 3.4.6 Kết thực nghiệm 92 3.5 Tổng kết chương 93 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 94 PHỤ LỤC 96 TÀI LIỆU THAM KHẢO 102 Hoàng Văn Dũng iv Khai phá liệu Web kỹ thuật phân cụm DANH SÁCH CÁC HÌNH Hình 1.1 Quá trình khám phá tri thức Hình 1.2 Các lĩnh vực liên quan đến khám phá tri thức CSDL Hình 1.3 Trực quan hóa kết KPDL Oracle 10 Hình 1.4 Mô PCDL 11 Hình 1.5 Phân loại liệu Web 22 Hình 1.6 Lược đồ thống kê tần số từ theo Định luật Zipf 26 Hình 1.7 Các độ đo tương tự thường dùng 29 Hình 2.1 Thuật toán k-means 32 Hình 2.2 Hình dạng cụm liệu khám phá k-means 33 Hình 2.3 Trường hợp Cjmp=d(Oj,Om,2) – d(Oj, Om) không âm 35 Hình 2.4 Trường hợp Cjmp= (Oj,Op)- d(Oj, Om) âm dương 36 Hình 2.5 Trường hợp Cjmp không 36 Hình 2.6 Trường hợp Cjmp= (Oj,Op)- d(Oj, Om,2) âm 37 Hình 2.7 Thuật toán PAM 37 Hình 2.8 Thuật toán CLARA 38 Hình 2.9 Thuật toán CLARANS 40 Hình 2.10 Các chiến lược phân cụm phân cấp 42 Hình 2.11 Cây CF sử dụng thuật toán BIRCH 43 Hình 2.12 Thuật toán BIRCH 44 Hình 2.13 Ví dụ kết phân cụm thuật toán BIRCH 44 Hình 2.14 Các cụm liệu khám phá CURE 45 Hình 2.15 Thuật toán CURE 46 Hình 2.16 Một số hình dạng khám phá phân cụm dưa mật độ 47 Hình 2.17 Lân cận P với ngưỡng Eps 48 Hình 2.18 Mật độ - đến trực tiếp 49 Hình 2.19 Mật độ đến 49 Hình 2.20 Mật độ liên thông 49 Hình 2.21 Cụm nhiễu 50 Hình 2.22 Thuật toán DBSCAN 51 Hình 2.23 Thứ tự phân cụm đối tượng theo OPTICS 52 Hình 2.24 DENCLUE với hàm phân phối Gaussian 53 Hoàng Văn Dũng v Khai phá liệu Web kỹ thuật phân cụm Hình 2.25 Mô hình cấu trúc liệu lưới 55 Hình 2.26 Thuật toán CLIQUE 56 Hình 2.27 Quá trình nhận dạng ô CLIQUE 57 Hình 3.1 Phân loại khai phá Web 62 Hình 3.2 Quá trình khai phá văn Web 64 Hình 3.3 Thuật toán phân lớp K-Nearest Neighbor 67 Hình 3.4 Thuật toán phân cụm phân cấp 67 Hình 3.5 Thuật toán phân cụm phân hoạch 68 Hình 3.6 Kiến trúc tổng quát khai phá theo sử dụng Web 70 Hình 3.7 Minh họa nội dung logs file 72 Hình 3.8 Phân tích người dùng truy cập Web 77 Hình 3.9 Đồ thi liên kết Web 78 Hình 3.10 Quan hệ trực tiếp trang 79 Hình 3.11 Độ tương tự đồng trích dẫn 79 Hình 3.12 Độ tương tự mục 79 Hình 3.13 Cộng đồng Web 80 Hình 3.14 Kết thuật toán PageRank 81 Hình 3.15 Đồ thị phân đôi Hub Authority 82 Hình 3.16 Sự kết hợp Hub Authority 83 Hình 3.17 Đồ thị Hub-Authority 84 Hình 3.18 Giá trị trọng số Hub Authority 84 Hình 3.19 Thuật toán đánh trọng số cụm trang 86 Hình 3.20 Các bước phân cụm kết tìm kiếm Web 87 Hình 3.21 Thuật toán k-means phân cụm nội dung tài liệu Web 91 DANH SÁCH CÁC BẢNG BIỂU Bảng 1.1 Bảng tham số thuộc tính nhị phân 18 Bảng 1.2 Thống kê từ tần số xuất cao 24 Bảng 3.1 Thống kê số người dùng thời gian khác 76 Bảng 3.2 Bảng đo thời gian thực thuật toán phân cụm 92 Hoàng Văn Dũng vi Khai phá liệu Web kỹ thuật phân cụm CÁC CỤM TỪ VIẾT TẮT STT Viết tắt Cụm từ tiếng Anh Cụm từ tiếng Việt CNTT Information Technology Công nghệ thông tin CSDL Database Cơ sở liệu KDD Knowledge Discovery in Database Khám phá tri thức sở liệu KPDL Data mining Khai phá liệu KPVB Text Mining Khai phá văn PCDL Data Clustering Phân cụm liệu Hoàng Văn Dũng vii Khai phá liệu Web kỹ thuật phân cụm LỜI MỞ ĐẦU Trong năm gần với phát triển nhanh chóng khoa học kỹ thuật bùng nỗ tri thức Kho liệu, nguồn tri thức nhân loại trở nên đồ sộ, vô tận làm cho vấn đề khai thác nguồn tri thức ngày trở nên nóng bỏng đặt thách thức lớn cho công nghệ thông tin giới Cùng với tiến vượt bậc công nghệ thông tin phát triển mạnh mẽ mạng thông tin toàn cầu, nguồn liệu Web trở thành kho liệu khổng lồ Nhu cầu tìm kiếm xử lý thông tin, với yêu cầu khả kịp thời khai thác chúng để mạng lại suất chất lượng cho công tác quản lý, hoạt động kinh doanh,… trở nên cấp thiết xã hội đại Nhưng vấn đề tìm kiếm sử dụng nguồn tri thức để phục vụ cho công việc lại vấn đề khó khăn người sử dụng Để đáp ứng phần yêu cầu này, người ta xây dựng công cụ tìm kiếm xử lý thông tin nhằm giúp cho người dùng tìm kiếm thông tin cần thiết cho mình, với rộng lớn, đồ sộ nguồn liệu Internet làm cho người sử dụng cảm thấy khó khăn trước kết tìm Với phương pháp khai thác sở liệu truyền thống chưa đáp ứng yêu cầu Để giải vấn đề này, hướng nghiên cứu áp dụng kỹ thuật khai phá liệu khám phá tri thức môi trường Web Do đó, việc nghiên cứu mô hình liệu áp dụng phương pháp khai phá liệu khai phá tài nguyên Web xu tất yếu vừa có ý nghĩa khoa học vừa mang ý nghĩa thực tiễn cao Vì vậy, tác giả chọn đề tài “Khai phá liệu Web kỹ thuật phân cụm ” để làm luận văn tốt nghiệp cho Bố cục luận văn gồm chương: Hoàng Văn Dũng Khai phá liệu Web kỹ thuật phân cụm Chương trình bày cách tổng quan kiến thức khai phá liệu khám phá tri thức, khai phá liệu môi trường Web; số vấn đề biểu diễn xử lý liệu văn áp dụng khai phá liệu Web Chương giới thiệu số kỹ thuật phân cụm liệu phổ biến thường sử dụng lĩnh vực khai phá liệu khám phá tri thức Chương trình bày số hướng nghiên cứu khai phá liệu Web khai phá tài liệu Web, khai phá theo sử dụng Web, khai phá cấu trúc Web tiếp cận theo hướng sử dụng kỹ thuật phân cụm liệu để giải toán khai phá liệu Web Trong phần trình bày mô hình áp dụng kỹ thuật phân cụm liệu tìm kiếm phân cụm tài liệu Web Phần kết luận luận văn tổng kết lại vấn đề nghiên cứu, đánh giá kết nghiên cứu, hướng phát triển đề tài Phần phụ lục trình bày số đoạn mã lệnh xử lý chương trình số giao diện chương trình mô Hoàng Văn Dũng Khai phá liệu Web kỹ thuật phân cụm Chương TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu phát tri thức 1.1.1 Khai phá liệu Cuối thập kỷ 80 kỷ 20, phát triển rộng khắp CSDL tạo bùng nổ thông tin toàn cầu, vào thời gian người ta bắt đầu đề cập đến khái niệm khủng hoảng việc phân tích liệu tác nghiệp để cung cấp thông tin với yêu cầu chất lượng ngày cao cho người làm định tổ chức phủ, tài chính, thương mại, khoa học,… Đúng John Naisbett cảnh báo “Chúng ta chìm ngập liệu mà đói tri thức” Lượng liệu khổng lồ thực nguồn tài nguyên có nhiều giá trị thông tin yếu tố then chốt phục vụ cho hoạt động quản lý, kinh doanh, phát triển sản xuất dịch vụ, … giúp người điều hành quản lý có hiểu biết môi trường tiến trình hoạt động tổ chức trước định để tác động đến trình hoạt động nhằm đạt mục tiêu cách hiệu bền vững KPDL lĩnh vực nghiên cứu, nhằm tự động khai thác thông tin, tri thức hữu ích, tiềm ẩn từ CSDL lớn cho đơn vị, tổ chức, doanh nghiệp,… từ làm thúc đẩy khả sản xuất, kinh doanh, cạnh tranh cho đơn vị, tổ chức Các kết nghiên cứu khoa học ứng dụng thành công KDD cho thấy KPDL lĩnh vực phát triển bền vững, mang lại nhiều lợi ích có nhiều triển vọng, đồng thời có ưu hẵn so với công cụ tìm kiếm phân tích liệu truyền thống Hiện nay, KPDL ứng dụng ngày rộng rãi lĩnh vực thương mại, tài chính, y học, viễn thông, tin – sinh,… Các kỹ thuật áp dụng lĩnh vực KPDL phần lớn thừa kế từ lĩnh vực CSDL, học máy, trí tuệ nhân tạo, lý thuyết thông tin, xác suất thống kê tính toán hiệu cao, Hoàng Văn Dũng Khai phá liệu Web kỹ thuật phân cụm Như ta khái quát hóa khái niệm KPDL trình tìm kiếm, phát tri thức mới, hữu ích, tiềm ẩn CSDL lớn KDD mục tiêu KPDL, hai khái niệm KPDL KDD nhà khoa học hai lĩnh vực xem tương đương với Thế phân chia cách chi tiết KPDL bước trình KDD 1.1.2 Quá trình khám phá tri thức Quá trình phá tri thức chia thành bước sau [10]: Đánh giá, biểu diễn Tiền xử lý Trích chọn Dữ liệu thô Dữ liệu lựa chọn Biến đổi Dữ liệu tiền xử lý Khai phá Các mẫu Tri thức Dữ liệu biến đổi Hình 1.1 Quá trình khám phá tri thức Quá trình KPDL phân thành giai đoạn sau [10]: Trích chọn liệu: Đây bước trích chọn tập liệu cần khai phá từ tập liệu lớn ban đầu theo số tiêu chí định Tiền xử lý liệu: Đây bước làm liệu (xử lý liệu không đầy đủ, nhiễu, không quán, ), rút gọn liệu (sử dụng hàm nhóm tính tổng, phương pháp nén liệu, sử dụng histograms, lấy mẫu, ), rời rạc hóa liệu (rời rạc hóa dựa vào histograms, dựa vào entropy, dựa vào phân khoảng, ) Sau bước này, liệu quán, đầy đủ, rút gọn rời rạc hóa Biến đổi liệu: Đây bước chuẩn hóa làm mịn liệu để đưa liệu dạng thuận lợi nhằm phục vụ trình khai phá bước sau Hoàng Văn Dũng Khai phá liệu Web kỹ thuật phân cụm Khai phá liệu: Đây bước áp dụng kỹ thuật phân tích (như kỹ thuật học máy) nhằm để khai thác liệu, trích chọn mẫu thông tin, mối liên hệ đặc biệt liệu Đây xem bước quan trọng tốn nhiều thời gian toàn trình KDD Đánh giá biểu diễn tri thức: Những mẫu thông tin mối liên hệ liệu khám phá bước biến đổi biểu diễn dạng gần gũi với người sử dụng đồ thị, cây, bảng biểu, luật, Đồng thời bước đánh giá tri thức khám phá theo tiêu chí định 1.1.3 Khai phá liệu lĩnh vực liên quan KPDL lĩnh vực liên quan tới thống kê, học máy, CSDL, thuật toán, tính toán song song, thu nhận tri thức từ hệ chuyên gia liệu trừu tượng Đặc trưng hệ thống khám phá tri thức nhờ vào phương pháp, thuật toán kỹ thuật từ lĩnh vực khác để KPDL Lĩnh vực học máy nhận dạng mẫu KDD nghiên cứu lý thuyết thuật toán hệ thống để trích mẫu mô hình từ liệu lớn KDD tập trung vào việc mở rộng lý thuyết thuật toán cho vấn đề tìm mẫu đặc biệt (hữu ích rút tri thức quan trọng) CSDL lớn Ngoài ra, KDD có nhiều điểm chung với thống kê, đặc biệt phân tích liệu thăm dò (Exploratory Data Analysis - EDA) Hệ thống KDD thường gắn thủ tục thống kê cho mô hình liệu tiến trình nhiễu khám phá tri thức nói chung Một lĩnh vực liên quan khác phân tích kho liệu Phương pháp phổ biến để phân tích kho liệu OLAP (On-Line Analytical Processing) Các công cụ OLAP tập trung vào phân tích liệu đa chiều 1.1.4 Các kỹ thuật áp dụng khai phá liệu KDD lĩnh vực liên ngành, bao gồm: Tổ chức liệu, học máy, trí tuệ nhân tạo khoa học khác Sự kết hợp diễn tả sau: Hoàng Văn Dũng Khai phá liệu Web kỹ thuật phân cụm Các lĩnh vực khoa học khác Tổ chức liệu Học máy trí tuệ nhân tạo Hình 1.2 Các lĩnh vực liên quan đến khám phá tri thức CSDL Đứng quan điểm học máy, kỹ thuật KPDL, bao gồm: Học có giám sát: Là trình gán nhãn lớp cho phần tử CSDL dựa tập ví dụ huấn luyện thông tin nhãn lớp biết Học giám sát: Là trình phân chia tập liệu thành lớp hay cụm liệu tương tự mà chưa biết trước thông tin lớp hay tập ví dụ huấn luyện Học nửa giám sát: Là trình phân chia tập liệu thành lớp dựa tập nhỏ ví dụ huấn luyện thông tin số nhãn lớp biết trước + Nếu vào lớp toán cần giải quyết, KPDL bao gồm kỹ thuật áp dụng sau [10]: Phân lớp dự báo: Xếp đối tượng vào lớp biết trước Ví dụ phân lớp liệu bệnh nhân hồ sơ bệnh án Hướng tiếp cận thường sử dụng số kỹ thuật học máy định, mạng nơron nhân tạo, Phân lớp dự báo gọi học có giám sát Luật kết hợp: Là dạng luật biểu diễn tri thức dạng đơn giản Ví dụ: “60 % nữ giới vào siêu thị mua phấn có tới 80% số họ mua thêm son” Luật kết hợp ứng dụng nhiều lĩnh vực kinh doanh, y học, tinsinh, tài thị trường chứng khoán, Hoàng Văn Dũng Khai phá liệu Web kỹ thuật phân cụm Phân tích chuỗi theo thời gian: Tương tự khai phá luật kết hợp có thêm tính thứ tự tính thời gian Hướng tiếp cận ứng dụng nhiều lĩnh vực tài thị trường chứng khoán có tính dự báo cao Phân cụm: Xếp đối tượng theo cụm liệu tự nhiên Phân cụm gọi học giám sát Mô tả tóm tắt khái niệm: Thiên mô tả, tổng hợp tóm tắt khái niệm, ví dụ tóm tắt văn Do KPDL ứng dụng rộng rãi nên làm việc với nhiều kiểu liệu khác Sau số dạng liệu điển hình: Dữ liệu quan hệ, liệu đa chiều, liệu dạng giao dịch, liệu quan hệ - hướng đối tượng, liệu không gian thời gian, liệu chuỗi thời gian, liệu đa phương tiện, liệu văn Web,… 1.1.5 Những chức khai phá liệu Hai mục tiêu KPDL mô tả dự báo Dự báo dùng số biến trường CSDL để dự đoán giá trị chưa biết có biến quan trọng khác Việc mô tả tập trung vào tìm kiếm mẫu mà người hiểu để mô tả liệu Trong lĩnh vực KDD, mô tả quan tâm nhiều dự báo, ngược với ứng dụng học máy nhận dạng mẫu mà việc dự báo thường mục tiêu Trên sở mục tiêu KPDL, chức KDD gồm: Mô tả lớp khái niệm: Dữ liệu kết hợp lớp khái niệm Thí dụ, kho liệu bán hàng thiết bị tin học, lớp mặt hàng bao gồm máy tính, máy in,…và khái niệm khách hàng bao gồm khách hàng mua sỉ khách mua lẻ Việc mô tả lớp khái niệm hữu ích cho giai đoạn tổng hợp, tóm lược xác hoá Mô tả lớp khái niệm bắt nguồn từ đặc trưng hoá liệu phân biệt liệu Đặc trưng hoá liệu trình tổng hợp đặc tính thành phần chung lớp liệu mục tiêu Phân biệt liệu so sánh lớp liệu mục tiêu với lớp liệu đối chiếu Hoàng Văn Dũng Khai phá liệu Web kỹ thuật phân cụm khác Lớp liệu mục tiêu lớp đối chiếu người dùng tương ứng với đối tượng liệu nhận nhờ truy vấn Phân tích kết hợp: Phân tích kết hợp khám phá luật kết hợp thể mối quan hệ thuộc tính giá trị mà ta nhận biết nhờ tần suất xuất chúng Các luật kết hợp có dạng X  Y , tức A1   An  B1   Bm , Ai (i=1, , n) Bj (j=1, ,m) cặp thuộc tính giá trị Luật kết hợp dạng X  Y hiểu “dữ liệu thoã mãn điều kiện X thoả điều kiện Y” Phân lớp dự báo: Phân lớp trình tìm kiếm tập mô hình chức mà mô tả phân biệt với lớp khái niệm khác Các mô hình nhằm mục đích dự báo lớp số đối tượng Việc xây dựng mô hình dựa phân tích tập liệu huấn luyện có nhiều dạng thể mô luật phân lớp (IF-THEN), định, công thức toán học hay mạng nơron, Sự phân lớp sử dụng để dự đoán nhãn lớp đối tượng liệu Tuy nhiên nhiều ứng dụng, người ta mong muốn dự đoán giá trị khuyết thiếu Thông thường trường hợp dự đoán giá trị liệu kiểu số Trước phân lớp dự báo, cần thực phân tích thích hợp để xác định loại bỏ thuộc tính không tham gia vào trình phân lớp dự báo Phân cụm: Không giống phân lớp dự báo, phân cụm phân tích đối tượng liệu chưa biết nhãn lớp Nhìn chung, nhãn lớp không tồn suốt trình huấn luyện liệu, phân cụm sử dụng để đưa nhãn lớp Sự phân cụm thực nhóm đối tượng liệu theo nguyên tắc: Các đối tượng nhóm giống đối tượng khác nhóm Mỗi cụm tạo thành xem lớp đối tượng mà luật lấy từ Dạng cụm hình thành theo cấu trúc phân cấp lớp mà lớp nhóm kiện tương tự Phân tích đối tượng cuộc: Một CSDL chứa đối tượng không tuân theo mô hình liệu Các đối tượng gọi đối tượng Hoàng Văn Dũng Khai phá liệu Web kỹ thuật phân cụm Hầu hết phương pháp KPDL coi đối tượng nhiễu loại bỏ chúng Tuy nhiên số ứng dụng, chẳng hạn phát nhiễu, kiện xảy lại ý thường xuyên gặp phải Sự phân tích liệu coi khai phá đối tượng Một số phương pháp sử dụng để phát đối tượng cuộc: sử dụng test mang tính thống kê sở phân phối liệu hay mô hình xác suất cho liệu, dùng độ đo khoảng cách mà theo đối tượng có khoảng cách đáng kể đến cụm khác coi đối tượng cuộc, dùng phương pháp dựa độ lệch để kiểm tra khác đặc trưng nhóm đối tượng Phân tích tiến hoá: Phân tích tiến hoá thực việc mô tả mô hình hoá qui luật hay khuynh hướng đối tượng mà hành vi chúng thay đổi theo thời gian Phân tích tiến hoá bao gồm đặc trưng hoá, phân biệt, tìm luật kết hợp, phân lớp hay PCDL liên quan đến thời gian, phân tích liệu theo chuỗi thời gian, so sánh mẫu theo chu kỳ phân tích liệu dựa độ tương tự 1.1.6 Ứng dụng khai phá liệu KPDL lĩnh vực quan tâm ứng dụng rộng rãi Một số ứng dụng điển hình KPDL liệt kê sau: Phân tích liệu hỗ trợ định, điều trị y học, KPVB, khai phá Web, tin-sinh, tài thị trường chứng khoán, bảo hiểm, Thương mại: Như phân tích liệu bán hàng thị trường, phân tích đầu tư, phát gian lận, chứng thực hóa khách hàng, dự báo xu hướng phát triển, Thông tin sản xuất: Điều khiển, lập kế hoạch, hệ thống quản lý, phân tích thử nghiệm, Thông tin khoa học: Dự báo thời tiết, bảo lụt, động đất, tin sinh học, Hiện hệ quản trị CSDL tích hợp modul để KPDL SQL Server, Oracle, đến năm 2007 Microsoft cung cấp sẵn công cụ KPDL tích hợp MS-Word, MS-Excel, Hoàng Văn Dũng Khai phá liệu Web kỹ thuật phân cụm Hình 1.3 Trực quan hóa kết KPDL Oracle 1.2 Kỹ thuật phân cụm khai phá liệu 1.2.1 Tổng quan kỹ thuật phân cụm Mục đích PCDL nhằm khám phá cấu trúc mẫu liệu để thành lập nhóm liệu từ tập liệu lớn, theo cho phép người ta sâu vào phân tích nghiên cứu cho cụm liệu nhằm khám phá tìm kiếm thông tin tiềm ẩn, hữu ích phục vụ cho việc định Ví dụ “nhóm khách hàng CSDL ngân hàng có vốn đầu tư vào bất động sản cao”… Như vậy, PCDL phương pháp xử lý thông tin quan trọng phổ biến, nhằm khám phá mối liên hệ mẫu liệu cách tổ chức chúng thành cụm Ta khái quát hóa khái niệm PCDL [10][19]: PCDL kỹ thuật KPDL, nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên, tiềm ẩn, quan trọng tập liệu lớn từ cung cấp thông tin, tri thức hữu ích cho việc định Như vậy, PCDL trình phân chia tập liệu ban đầu thành cụm liệu cho phần tử cụm "tương tự" với phần tử cụm khác "phi tương tự" với Số cụm liệu Hoàng Văn Dũng 10 Khai phá liệu Web kỹ thuật phân cụm phân xác định trước theo kinh nghiệm tự động xác định phương pháp phân cụm Độ tương tự xác định dựa giá trị thuộc tính mô tả đối tượng Thông thường, phép đo khoảng cách thường sử dụng để đánh giá độ tương tự hay phi tương tự Ta minh hoạ vấn đề phân cụm hình sau đây: Hình 1.4 Mô PCDL Trong hình trên, sau phân cụm ta thu bốn cụm phần tử "tương tự" xếp vào cụm, phần tử "phi tương tự" chúng thuộc cụm khác Trong PCDL khái niệm, hai nhiều đối tượng xếp vào cụm chúng có chung định nghĩa khái niệm chúng xấp xỉ với khái niệm mô tả cho trước Như vậy, PCDL không sử dụng độ đo “tương tự” trình bày Trong học máy, PCDL xem vấn đề học giám sát, phải giải vấn đề tìm cấu trúc tập hợp liệu chưa biết trước thông tin lớp hay thông tin tập huấn luyện Trong nhiều trường hợp, phân lớp xem vấn đề học có giám sát PCDL bước phân lớp liệu, PCDL khởi tạo lớp cho phân lớp cách xác định nhãn cho nhóm liệu Một vấn đề thường gặp PCDL hầu hết liệu cần cho phân cụm có chứa liệu "nhiễu" trình thu thập thiếu xác thiếu đầy đủ, cần phải xây dựng chiến lược cho bước tiền xử lý liệu nhằm khắc phục loại bỏ "nhiễu" trước bước vào giai đoạn phân tích Hoàng Văn Dũng 11 Khai phá liệu Web kỹ thuật phân cụm PCDL "Nhiễu" đối tượng liệu không xác đối tượng liệu khuyết thiếu thông tin số thuộc tính Một kỹ thuật xử lý nhiễu phổ biến việc thay giá trị thuộc tính đối tượng "nhiễu" giá trị thuộc tính tương ứng đối tượng liệu gần Ngoài ra, dò tìm phần tử ngoại lai hướng nghiên cứu quan trọng PCDL, chức xác định nhóm nhỏ đối tượng liệu "khác thường" so với liệu khác CSDL - tức đối tượng liệu không tuân theo hành vi mô hình liệu - nhằm tránh ảnh hưởng chúng tới trình kết PCDL Khám phá phần tử ngoại lai phát triển ứng dụng viễn thông, dò tìm gian lận thương mại… Tóm lại, PCDL vấn đề khó người ta phải giải vấn đề sau: - Biểu diễn liệu - Xây dựng hàm tính độ tương tự - Xây dựng tiêu chuẩn phân cụm - Xây dựng mô hình cho cấu trúc cụm liệu - Xây dựng thuật toán phân cụm xác lập điều kiện khởi tạo - Xây dựng thủ tục biểu diễn đánh giá kết phân cụm Theo nghiên cứu đến chưa có phương pháp phân cụm tổng quát giải trọn vẹn cho tất dạng cấu trúc cụm liệu Hơn nữa, phương pháp phân cụm cần có cách thức biểu diễn cấu trúc cụm liệu khác nhau, với cách thức biểu diễn khác có thuật toán phân cụm phù hợp PCDL vấn đề mở khó người ta cần phải giải nhiều vấn đề đề cập cách trọn vẹn phù hợp với nhiều dạng liệu khác Đặc biệt liệu hỗn hợp, ngày tăng trưởng không ngừng hệ quản trị liệu, thách thức lớn lĩnh vực KPDL thập kỷ đặc biệt lĩnh vực KPDL Web Hoàng Văn Dũng 12 Khai phá liệu Web kỹ thuật phân cụm 1.2.2 Ứng dụng phân cụm liệu PCDL công cụ KPDL ứng dụng nhiều lĩnh vực thương mại khoa học Các kỹ thuật PCDL áp dụng cho số ứng dụng điển hình lĩnh vực sau [10][19]: Thương mại: PCDL giúp thương nhân khám phá nhóm khách hàng quan trọng có đặc trưng tương đồng đặc tả họ từ mẫu mua bán CSDL khách hàng Sinh học: PCDL sử dụng để xác định loại sinh vật, phân loại Gen với chức tương đồng thu cấu trúc mẫu Phân tích liệu không gian: Do đồ sộ liệu không gian liệu thu từ hình ảnh chụp từ vệ tinh, thiết bị y học hệ thống thông tin địa lý (GIS), …làm cho người dùng khó để kiểm tra liệu không gian cách chi tiết PCDL trợ giúp người dùng tự động phân tích xử lý liêu không gian nhận dạng chiết xuất đặc tính mẫu liệu quan tâm tồn CSDL không gian Lập quy hoạch đô thị: Nhận dạng nhóm nhà theo kiểu vị trí địa lý,… nhằm cung cấp thông tin cho quy hoạch đô thị Nghiên cứu trái đất: Phân cụm để theo dõi tâm động đất nhằm cung cấp thông tin cho nhận dạng vùng nguy hiểm Địa lý: Phân lớp động vật, thực vật đưa đặc trưng chúng Khai phá Web: PCDL khám phá nhóm tài liệu quan trọng, có nhiều ý nghĩa môi trường Web Các lớp tài liệu trợ giúp cho việc khám phá tri thức từ liệu Web, khám phá mẫu truy cập khách hàng đặc biệt hay khám phá cộng đồng Web,… 1.2.3 Các yêu cầu kỹ thuật phân cụm liệu Việc xây dựng, lựa chọn thuật toán phân cụm bước then chốt cho việc giải vấn đề phân cụm, lựa chọn phụ thuộc vào đặc tính liệu cần phân cụm, mục đích ứng dụng thực tế xác định độ ưu tiên chất lượng cụm hay tốc độ thực thuật toán,… Hoàng Văn Dũng 13

Ngày đăng: 26/10/2016, 07:14

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan