Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 28 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
28
Dung lượng
590,51 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - Vũ Hải Thuyết NGHIÊN CỨU MỘT SỐ GIẢI THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU Chuyên ngành: Truyền liệu mạng máy tính Mã số: 60.48.15 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2012 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS.TS Đoàn Văn Ban Phản biện 1: ……………………………………….… Phản biện 2: ………………………….……………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng I MỞ ĐẦU Lý chọn đề tài Nhu cầu tìm kiếm xử lý thơng tin, với yêu cầu khả kịp thời khai thác chúng để mang lại suất chất lượng cho công tác quản lý, hoạt động kinh doanh,… trở nên cấp thiết Với lý vậy, phương pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng thực tế làm phát triển khuynh hướng kỹ thuật Kỹ thuật phát tri thức khai phá liệu (KDD – Knowledge Discovery and Data Mining) Kỹ thuật phát tri thức khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác Bước quan trọng trình Khai phá liệu (Data Mining), giúp người sử dụng thu tri thức hữu ích từ sở liệu nguồn liệu khổng lồ khác Rất nhiều doanh nghiệp tổ chức giới ứng dụng kĩ thuật khai phá liệu vào hoạt động sản xuất, kinh doanh thu lợi ích to lớn Nhưng để làm điều đó, phát triển mơ hình tốn học giải thuật hiệu chìa khố quan trọng Do đó, tơi chọn đề tài “Nghiên cứu số giải thuật phân cụm khai phá liệu” Mục đích đề tài - Nghiên cứu phương pháp khai phá liệu - Nghiên cứu kỹ thuật phân cụm liệu khả ứng dụng khai phá liệu phát triển tri thức Phƣơng pháp nghiên cứu Nghiên cứu tài liệu khai phá liệu, kỹ thuật phân cụm tác giả nước, báo, thông tin mạng Đối tƣợng phạm vi nghiên cứu Tập trung nghiên cứu thuật toán phân cụm liệu Cấu trúc luận văn Ngoài phần mở đầu, mục lục, danh mục hình vẽ, danh mục từ viết tắt, kết luận, tài liệu tham khảo, luận văn chia làm phần sau: Chƣơng 1: Khai phá liệu phát trí thức Trình bày khai phá liệu, khái niệm bản, kỹ thuật khai phá liệu ứng dụng khai phá liệu Chƣơng 2: Chương trình bày số phương pháp phân cụm liệu phổ biến phân cụm phân cấp, phân cụm dựa lưới, phân cụm dựa vào cụm trung tâm phương pháp tiếp cận PCDL phân cụm mờ Chƣơng 3: Đánh giá thử nghiệm Phần trình bày số kết đạt tiến hành áp dụng giải thuật khai phá liệu để khai thác thông tin liệu mẫu CHƢƠNG I KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC 1.1 Giới thiệu chung Từ vài thập niên trở lại đây, với tác động mạnh mẽ tiến công nghệ phần cứng truyền thông, hệ thống liệu phục vụ cho lĩnh vực kinh tế xã hội phát triển bùng nổ, lượng liệu tạo ngày lớn Sự bùng nổ dẫn tới yêu cầu cấp thiết cần có kỹ thuật cơng cụ để tự động chuyển đổi lượng liệu khổng lồ thành tri thức có ích, phục vụ cho việc định 1.2 Phát tri thức khai phá liệu gì? Khai phá liệu tập hợp kỹ thuật sử dụng để tự động khai thác tìm mối quan hệ lẫn liệu tập hợp liệu khổng lồ phức tạp, đồng thời tìm mẫu tiềm ẩn tập liệu 1.3 Các bƣớc trình khai phá liệu Quá trình khai phá liệu gồm bước: Gom cụm liệu Trích lọc liệu Làm sạch, tiền xử lý chuẩn bị trước liệu Chuyển đổi liệu Khai phá liệu Đánh giá luật biểu diễn tri thức 1.4 Các kỹ thuật áp dụng khai phá liệu Thường chia thành nhóm sau: 1.4.1 Kỹ thuật khai phá liệu mơ tả Có nhiệm vụ mơ tả tính chất đặc tính chung liệu CSDL có 1.4.2 Kỹ thuật khai phá liệu dự đoán Kỹ thuật khai phá liệu dự đốn: có nhiệm vụ đưa dự đoán dựa vào suy suy diễn liệu thời 1.5 Ứng dụng khai phá liệu 1.5.1 Ứng dụng khai phá liệu - Học máy: khai phá liệu sử dụng với CSDL chứa nhiều nhiễu, liệu không đầy đủ biến đổi liên tục - Phương pháp hệ chuyên gia: Phương pháp khác với khai phá liệu chỗ ví dụ chuyên gia thường mức chất lượng cao nhiều so với liệu CSDL chúng thường bao quát trường hợp quan trọng - Phương pháp thống kê: Khai phá liệu tự động hóa trình thống kê cách hiệu quả, làm nhẹ bớt công việc người dùng cuối, tạo công cụ dễ sử dụng 1.5.2 Những thách thức khai phá liệu - Các sở liệu lớn nhiều - Số chiều cao - Thay đổi liệu (dữ liệu động) - Dữ liệu thiếu bị nhiễu - Mối quan hệ phức tạp trường liệu - Tính dễ hiểu mẫu - Người dùng tương tác tri thức có sẵn - Tích hợp với hệ thống khác CHƢƠNG II PHÂN CỤM DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU 2.1 Phân cụm liệu Phân cụm liệu xử lý tập đối tượng vào lớp đối tượng giống gọi phân cụm Một cụm tập hợp đối tượng liệu giống phạm vi cụm không giống với đối tượng cụm khác Số cụm liệu phân xác định trước theo kinh nghiệm tự động xác định phương pháp phân cụm 2.2 Các kiểu liệu độ đo tƣơng tự phép phân cụm 2.2.1 Phân loại liệu dựa kích thước miền - Thuộc tính liên tục - Thuộc tính rời rạc 2.2.2 Phân loại liệu dựa hệ đo - Thuộc tính định danh, thuộc tính thứ tự, thuộc tính khoảng, thuộc tính tỷ lệ, 12 phía tâm cụm phân số (hệ số co) Các cụm với cặp điểm đại diện gần kết nhập bước giải thuật CURE đưa cụm chất lượng cao với hữu outlier, hình dạng phức tạp cụm với kích thước khác Nó có khả mở rộng tốt cho sở liệu lớn mà không cần hy sinh chất lượng phân cụm 2.4.1.4 Thuật toán ROCK Nó đo độ tương đồng cụm cách so sánh toàn liên kết nối cụm dựa mơ hình liên kết nối tĩnh định người dùng, liên kết nối hai cụm C1 C2 định nghĩa số lượng liên kết chéo hai cụm liên kết link(pi,pj) số lượng láng giềng chung hai điểm pi pj ROCK trước tiên xây dựng đồ thị thưa từ ma trận tương đồng liệu cho trước, sử dụng ngưỡng tương đồng khái niệm láng giềng chia sẻ sau biểu diễn giải thuật phân cụm phân cấp đồ thị thưa 13 2.4.1.5 Thuật toán CHAMELEON CHAMELEON miêu tả đối tượng dựa tiếp cận đồ thị dùng phổ biến: k-láng giềng gần CHAMELEON trước tiên sử dụng giải thuật phân chia đồ thị để phân cụm mục liệu vào số lượng lớn cụm tương đối nhỏ Sau dùng giải thuật phân cụm phân cấp tập hợp để tìm cụm xác thực cách lặp lại việc kết hợp cụm với Để xác định cặp cụm giống nhất, cần đánh giá liên kết nối độ chặt cụm, đặc biệt đặc tính nội thân cụm Do khơng tuỳ thuộc vào mơ hình tĩnh cung cấp người dùng tự động thích ứng với đặc tính nội cụm kết nhập CHAMELEON rõ tương đồng cặp cụm Ci, Cj theo liên kết nối tương ứng RI(Ci , Cj) hai cụm Ci Cj định nghĩa liên kết nối tuyệt đối Ci Cj CHAMELEON có nhiều khả khám phá cụm có hình dạng tùy ý với chất lượng cao CURE 14 CHAMELEON sử dụng thuật tốn phân cụm phân cấp để tìm cụm xác thực cách lặp lại nhiều lần kết hợp hòa nhập cụm 2.4.2 Phƣơng pháp phân cụm liệu dựa vào liệu mờ 2.4.2.1 Thuật toán FCM (Fuzzy C-means) Kỹ thuật phân hoạch tập n vectơ đối tượng liệu X = {x1,x2,…,xn}⊂Rs thành c nhóm mờ dựa tính tốn tối thiểu hóa hàm mục tiêu để đo chất lượng phân hoạch tìm trung tâm cụm nhóm, cho chi phí hàm độ đo độ phi tương tự nhỏ Tuy nhiên, thuật toán mang nhược điểm thuật toán K-means 2.4.2.2 Thuật toán εFCM (ε- Insensitive Fuzzy C-means) Thuật toán εFCM mở rộng thuật toán FCM nhằm khắc phục nhược điểm thuật toán FCM 15 2.4.3 Phƣơng pháp phân cụm liệu dựa lƣới 2.4.3.1 Thuật toán STING STING kỹ thuật phân cụm đa phân giải dựa lưới, vùng không gian liệu phân rã thành số hữu hạn cells chữ nhật Điều có ý nghĩa cells lưới hình thành từ cells lưới để thực phân cụm Có nhiều mức cells chữ nhật tương ứng với mức khác phân giải cấu trúc lưới, cells hình thành cấu trúc phân cấp: cells mức cao phân hoạch thành số cells nhỏ mức thấp cấu trúc phân cấp Các điểm liệu nạp từ CSDL, giá trị tham số thống kê cho thuộc tính đối tượng liệu lưới tính tốn từ liệu lưu trữ thông qua tham số thống kê cell mức thấp Các giá trị tham số thống kê gồm: số trung bình – mean, số tối đa – max, số tối thiểu – min, số đếm –count , độ lệch chuẩn – s,… Các đối tượng liệu chèn vào lưới tham số thống kê tính trực tiếp thông 16 qua đối tượng liệu Các truy vấn không gian thực cách xét cells thích hợp mức phân cấp STING có khả mở rộng cao, sử dụng phương pháp đa phân giải nên phụ thuộc chặt chẽ vào trọng tâm mức thấp 2.4.3.2 Thuật tốn CLIQUE CLIQUE phân chia khơng gian liệu m chiều thành unit hình chữ nhật khơng chồng lên nhau, nhận biết unit dày đặc, tìm cụm tồn khơng gian không gian liệu gốc, sử dụng phương pháp phát sinh candidate (ứng cử) giống với giải thuật Apriori cho khai phá luật kết hợp CLIQUE thực phân cụm đa chiều theo hai bước: CLIQUE nhận biết cụm cách xác định unit dày đặc tồn khơng gian interest sau xác định unit dày đặc có kết nối tồn khơng gian interest Một heuristic quan trọng mà CLIQUE thông qua nguyên lý Apriori phân cụm số chiều cao 17 CLIQUE sinh mô tả tối thiểu cho cụm sau: Trước tiên xác định miền tối đa phủ cụm unit dày đặc có kết nối cho cụm sau xác định phủ tối thiểu cho cụm CLIQUE tự động tìm khơng gian số chiều cao để cụm mật độ cao tồn khơng gian 2.4.3.3 Thuật tốn WaveCluster WaveCluster tiếp cận phân cụm đa phân giải, trước tiên tóm tắt liệu cách lợi dụng cấu trúc lưới đa phân giải không gian liệu, sau biến đổi khơng gian đặc trưng gốc phép biến đối WaveCluster tìm miền đơng đúc không gian biến đổi Trong tiếp cận này, lưới tóm tắt thơng tin nhóm điểm, thơng tin tóm tắt vừa đủ để đưa vào nhớ cho phép biến đổi wavelet đa phân giải phép phân tích cụm sau Phép biến đổi WaveCluster kỹ thuật xử lý tín hiệu, phân tích tín hiệu vào dải tần số Mơ hình WaveCluster làm việc tín hiệu n chiều cách áp dụng phép biến đổi chiều n lần 18 Trong phép biến đổi WaveCluster, liệu không gian chuyển đổi vào miền tần số Kết hợp với hàm nịng cốt thích hợp cho kết khơng gian biến đổi, cụm tự nhiên liệu trở nên dễ phân biệt Các cụm sau nhận biết cách tìm miền đơng đúc vùng biến đổi 2.4.4 Phƣơng pháp phân cụm dựa vào cụm trung tâm (K-means, K-medoids) 2.4.4.1 Phương pháp K-means Thuật toán phân cụm K-mean Macqueen đề xuất lĩnh vực thống kê năm 1967, mục đích thuật tốn sinh k cụm liệu {C1, C2, …, Ck} từ tập liệu ban đầu gồm n đối tượng không gian d chiều Xi = (𝑥𝑖1 , 𝑥𝑖2 , … , 𝑥𝑖𝑑 , ) i= (1, 𝑛), cho hàm tiêu chuẩn 𝐸= 𝑖 𝑖=1 𝑥∈𝐶𝑖 𝐷 (𝑥 − 𝑚𝑖 ) đạt giá trị cực tiểu Trong đó, mi trọng tâm cụm Ci D khoảng cách hai đối tượng Ưu điểm thuật toán k-means: Đây phương pháp đơn giản, hiệu quả, tự tổ chức, sử dụng tiến trình khởi tạo nhiều thuật tốn khác, 19 hiệu xuất tương đối, thường kết thúc tối ưu cục bộ, tìm tối ưu tồn cục Nhược điểm thuật toán này: Số cụm k phải xác định trước,chỉ áp dụng xác định trị trung bình, khơng thể xử lý nhiễu outliers, khơng thích hợp nhằm khám phá dạng khơng lồi hay cụm có kích thước khác nhau, thuật tốn độc lập tuyến tính 2.4.4.2 Phương pháp K-medoids PAM (Partition Arount medoids) – phân chia xung quanh medoid PAM sử dụng đối tượng medoid (k-medoids lấy đối tượng đại diện cụm gọi medoid, điểm đại diện định vị trung tâm cụm) để biểu diễn cho cụm liệu, đối tượng medoid đối tượng đặt vị trí trung tâm bên cụm Để xác định medoid, PAM bắt đầu cách lựa chọn k đối tượng medoid Sau bước thực hiện, PAM cố gắng hoán chuyển đối tượng medoid Om đối tượng Op medoid, trình 20 kết thúc chất lượng phân cụm không thay đổi Chất lượng phân cụm đánh giá thông qua hàm tiêu chuẩn, chất lượng phân cụm tốt hàm tiêu chuẩn đạt giá trị tối thiểu Khi có diện nhiễu outlier, phương pháp k-medoids mạnh k-means Tuy nhiên, xử lý có chi phí tốn phương pháp k-means cần người dùng k - số cụm 2.5 Kết luận Chương trình bày số phương pháp phân cụm liệu phổ biến phân cụm phân cấp, phân cụm dựa lưới, phân cụm dựa vào cụm trung tâm phương pháp tiếp cận PCDL phân cụm mờ Phương pháp phân cụm liệu dựa vào cụm trung tâm dựa ý tưởng ban đầu tạo k cụm, sau lặp lại nhiều lần để phân bố lại đối tượng liệu cụm nhằm cải thiện chất lượng phân cụm Một số thuật tốn điển K-means, PAM, Phương pháp phân cụm phân cấp dựa ý tưởng phân cấp để phân cụm liệu Có hai cách tiếp cận phân cụm lên (Bottom up) phân cụm xuống 21 (Top down) Một số thuật tốn điển BIRCH, CURE, Phương pháp phân cụm dựa lưới, ý tưởng lượng hố khơng gian đối tượng vào số hữu hạn ô theo cấu trúc dạng lưới, sau thực phân cụm dựa cấu trúc lưới Một số thuật tốn tiêu biểu phương pháp STING, CLIQUE, Một cách tiếp cận khác PCDL hướng tiếp cận mờ, phương pháp phân cụm mờ phải kể đến thuật toán FCM, εFCM, 22 CHƢƠNG III ĐÁNH GIÁ VÀ THỬ NGHIỆM 3.1 Chuẩn bị liệu Dữ liệu đưa vào chương trình tệp văn chia thành hai loại: - Tệp định dạng liệu (*.name): Định nghĩa tên lớp, tên thuộc tính, giá trị thuộc tính, kiểu thuộc tính - Tệp mẫu liệu (*.data): Gồm mẫu liệu chứa đầy đủ thông tin giá trị thuộc tính giá trị lớp 3.1.1 Tệp định dạng liệu - Dòng 1: Liệt kê giá trị lớp Các giá trị cách dấu “,” kết thúc dấu chấm “.” - Từ dòng 2: + Mỗi mẫu dòng + Bắt đầu tên thuộc tính, dấu “:”, sau giá trị rời rạc thuộc tính (nếu thuộc tính xác thực hay nhị phân) kiểu thuộc tính (nếu thuộc tính có kiểu liên tục) - Tất thích đặt sau dấu “|” 23 3.1.2 Tệp liệu mẫu Mỗi mẫu dòng Các giá trị thuộc tính mẫu ghi trước, cuối giá trị lớp Mỗi giá trị cách dấu “,” 3.1.3 Nguồn liệu Dữ liệu mẫu lấy từ địa website: ftp://ftp.ics.uci.edu/pub/machine-learning-databases 3.2 Kết thực nghiệm phân cụm liệu giải thuật K-means, K-medoids đánh giá 3.2.1 Các bước tiến hành thực nghiệm - Phân cụm liệu giải thuật Kmeans Kmedoids - Gắn nhãn cho cụm, đánh giá, so sánh hiệu gắn nhãn hai giải thuật cho số liệu UCI (chỉ dùng liệu có thuộc tính liên tục) 3.2.2 Kết thực nghiệm 3.3 Kết luận Sau tiến hành thực nghiệm số liệu UCI ta nhận thấy kết phân loại liệu có thuộc tính liên tục Kmeans tốt K-medoids Với liệu có thuộc tính hỗn hợp, K-means không xử lý 24 K-medoids với phương pháp tính độ tương đồng hai mẫu Ducker (1965) đề xuất, Kaufman Rousseeuw cải tiến (1990) xử lý liệu với độ xác trung bình với độ phức tạp tính tốn O(k(n-k)2) Đối với giá trị n k lớn, độ phức tạp tính tốn cao Vậy nên cải tiến độ xác tốc độ tính tốn hướng phát triển sau 25 KẾT LUẬN Luận văn tập trung nghiên cứu lý thuyết áp dụng số kỹ thuật khai phá liệu liệu UCI Đây bước khởi đầu trình tìm hiểu vấn đề cần quan tâm giải toán khai phá liệu thực tế Những kết mà luận văn đạt Về lý thuyết: luận văn tập trung tìm hiểu kỹ thuật phân cụm truyền thống phương pháp cải tiến chúng Ngồi cịn tìm hiểu thêm ứng dụng vào lĩnh vực khoa học thực tế Về thực tiễn: luận văn cài đặt hai thuật toán K- means, K-medoid so sánh đánh giá chúng Qua trình nghiên cứu lý thuyết thực nghiệm đưa số kết luận sau: Mỗi giải thuật phân cụm áp dụng cho số mục tiêu kiểu liệu định Mỗi giải thuật có độ xác riêng khả thực kích thước liệu khác Điều tùy thuộc vào cách tổ chức liệu nhớ chính, nhớ ngoài,… giải thuật 26 Khai phá liệu hiệu bước tiền xử lý, lựa chọn thuộc tính, mơ hình giải tốt Với mà luận văn thực hiện, hướng phát triển sau luận văn: Độ xác, kết phụ thuộc nhiều yếu tố chất lượng liệu, thuật toán cài đặt, phương pháp tính độ tương đồng đối tượng liệu Ngồi ra, giá trị khuyết hay thuộc tính dư thừa phần làm ảnh hưởng đến chúng Vì vậy, hướng phát triển sau xử lý giá trị khuyết, phát loại bỏ thuộc tính dư thừa, tiến phương pháp tính tốn độ tương đồng,… nhằm nâng cao chất lượng kết phân cụm Tiến hành cài đặt tiếp tục nghiên cứu nhiều kỹ thuật khai phá liệu nữa, đặc biệt triển khai giải toán cụ thể thực tế ... khả thi Một số phƣơng pháp phân cụm khai phá liệu 2.4.1 Phương pháp phân cụm liệu dựa phân cụm phân cấp Phương pháp phân cụm phân cấp làm việc cách nhóm đối tượng vào cụm 2.4.1.1 Phân cụm phân cấp... 1: Khai phá liệu phát trí thức Trình bày khai phá liệu, khái niệm bản, kỹ thuật khai phá liệu ứng dụng khai phá liệu Chƣơng 2: Chương trình bày số phương pháp phân cụm liệu phổ biến phân cụm phân. .. pháp khai phá liệu - Nghiên cứu kỹ thuật phân cụm liệu khả ứng dụng khai phá liệu phát triển tri thức Phƣơng pháp nghiên cứu Nghiên cứu tài liệu khai phá liệu, kỹ thuật phân cụm tác giả nước,