Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 36 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
36
Dung lượng
0,99 MB
Nội dung
TRƢỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN BÀIGIẢNGMÔN HỌC KHAIPHÁDỮLIỆUCHƯƠNG3:PHÂNCỤMDỮLIỆUGiảng viên: ThS Nguyễn Vƣơng Thịnh Bộ mơn: Hệ thống thơng tin Hải Phòng, 2013 Thông tin giảng viên Họ tên Nguyễn Vƣơng Thịnh Đơn vị công tác Bộ môn Hệ thống thông tin – Khoa Công nghệ thông tin Học vị Thạc sỹ Chuyên ngành Hệ thống thông tin Cơ sở đào tạo Trƣờng Đại học Công nghệ - Đại học Quốc Gia Hà Nội Năm tốt nghiệp 2012 Điện thoại 0983283791 Email thinhnv@vimaru.edu.vn Thông tin học phần Tên học phầnKhaipháliệu Tên tiếng Anh Data Mining Mã học phần 17402 Số tín 02 tín Bộ môn phụ trách Hệ thống thông tin PHƢƠNG PHÁP HỌC TẬP, NGHIÊN CỨU Nghe giảng, thảo luận, trao đổi với giảng viên lớp Tự nghiên cứu tài liệu làm tập nhà PHƢƠNG PHÁP ĐÁNH GIÁ SV phải tham dự 75% thời gian Có 02 kiểm tra viết học phần (X = X2 = (L1 + L2)/2) Thi kết thúc học phần hình thức trắc nghiệm khách quan máy tính (Z = 0.3X + 0.7Y) Tài liệu tham khảo Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques, Elsevier Inc, 2006 Robert Nisbet, John Elder, Gary Miner, Handbook of Statistical Analysis and Data Mining Applications, Elsevier Inc, 2009 Elmasri, Navathe, Somayajulu, Gupta, Fundamentals of Database Systems (the 4th Edition), Pearson Education Inc, 2004 Hà Quang Thụy, Phan Xn Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Giáo trình Khaipháliệu Web, NXB Giáo dục, 2009 CHƢƠNG 3:PHÂNCỤMDỮLIỆU 3.1 KHÁI NIỆM VỀ PHÂNCỤMDỮLIỆU 3.2 ĐỘ ĐO SỬ DỤNG TRONG PHÂNCỤM 3.3 PHÂNCỤMDỮLIỆU VỚI GIẢI THUẬT K-MEANS (Phân cụm từ xuống) 3.4 PHÂNCỤMDỮLIỆU VỚI GIẢI THUẬT HAC (Phân cụm từ lên) 3.5 SO SÁNH GIẢI THUẬT K-MEANS VÀ HAC 3.1 KHÁI NIỆM VỀ PHÂNCỤMDỮLIỆU 3.1.1 Phâncụmliệu (clustering) gì? Phâncụmliệu trình phân chia đối tượng liệu (bản ghi) vào nhóm (cụm) cho đối tượng thuộc cụm có đặc điểm “tương tự” (“gần” nhau) đối tượng thuộc cụm khác có đặc điểm “khác” (“xa” nhau) Đại lượng xác định “tương tự” “khác” đối tượng? Khác với phân lớp, phâncụm xem q trình học khơng có giám sát (unsupervised learning) Dữliệuphân vào cụm mà khơng cần có tập mẫu học (training sample) 3.1.2 Ứng dụng phâncụmliệuPhâncụmliệu ứng dụng nhiều lĩnh vực: Nghiên cứu thị trƣờng (Marketing): Xác định nhóm khách hàng (khách hàng tiềm năng, khách hàng lớn, phân loại dự đoán hành vi khách hàng,…) sử dụng sản phẩm hay dịch vụ công ty để giúp cơng ty có chiến lược kinh doanh hiệu Sinh học (Biology): Phân nhóm động vật thực vật dựa vào thuộc tính chúng Quản lý thƣ viện (Libraries): Theo dõi độc giả, sách, dự đốn nhu cầu độc giả… Tài chính, Bảo hiểm (Finance and Insurance): Phân nhóm đối tượng sử dụng bảo hiểm dịch vụ tài chính, dự đoán xu hướng (trend) khách hàng, phát gian lận tài (identifying frauds) Khaiphá web (Web Mining): Phân loại tài liệu (document classification), phân loại người dùng web (clustering weblog),… 3.2 ĐỘ ĐO SỬ DỤNG TRONG PHÂNCỤM • Để xác định tính chất tương đồng đối tượng liệu, người ta thường sử dụng khái niệm “khoảng cách” (distance) • Hai đối tượng có “khoảng cách” nhỏ “tương tự” (giống) có “khoảng cách” lớn “khác” Xét hai đối tượng liệu (bản ghi) ri rj , đối tượng có n thuộc tính: ri xi1 , xi , , xin rj x j1 , x j , , x jn Khoảng cách Euclid (Euclidean Distance): d (ri , rj ) ( xi1 x j1 ) ( xi x j ) ( xin x jn ) 2 Khoảng cách Manhattan (Manhattan Distance): d (ri , rj ) xi1 x j1 xi x j xin x jn 3.3 PHÂNCỤM VỚI GIẢI THUẬT K-MEANS 3.3.1 Khái niệm trọng tâm cụm C j r1 , r2 , r3 , , rm Mỗi đối tượng có n thuộc tính: ri xi1 , xi , xi , , xin (1 i m) Xét cụmliệu Cj gồm m đối tượng thuộc cụm: Trọng tâm cụm (mean/centroid) đối tượng mj xác định: Ví dụ: m m 1 m m j xi1 , xi , , xin m i 1 m i 1 m i 1 Cho cụm C1 = {r1, r2, r3} với r1 = (1, 2, 1), r2 = (1, 3, 2), r3 = (1, 1, 3) Trọng tâm cụm là: r1 111 1 1 m1 , , 1, 2, 3 10 m1 r2 C1 r3 3.4 PHÂNCỤM VỚI GIẢI THUẬT HAC (HAC - Hierarchical Agglomerative Clustering) 3.4.1 Nội dung giải thuật HAC Tích tụ dần “từ lên” (Bottom-Up) Tƣ tƣởng giải thuật: Ban đầu, đối tượng (bản ghi) liệu coi cụm Từng bước kết hợp cụm có thành cụm lớn với yêu cầu khoảng cách đối tượng nội cụm nhỏ Dừng thuật toán đạt số lượng cụm mong muốn, cụm chứa tất đối tượng thỏa mãn điều kiện dừng 22 G: tập cụm D: tập đối tƣợng (bản ghi) liệu cần phâncụm k: số lƣợng cụm mong muốn do: ngƣỡng khoảng cách cụm G = {{r} | r ∈ D}; //Khởi tạo G tập cụm gồm đối tượng Nếu |G| = k dừng thuật tốn; //Đã đạt số lượng cụm mong muốn Tìm hai cụm Si , Sj ∈ G có khoảng cách d(Si, Sj) nhỏ nhất; Nếu d(Si, Sj) > dừng thuật tốn; //Khoảng cách cụm gần lớn ngưỡng cho phép G = G\{Si, Sj}; //Loại bỏ cụm Si ,Sj khỏi tập cụm S = Si ∪ Sj; //Ghép Si, Sj thành cụm S G = G ∪ {S}; //Kết nạp cụm vào G Nhảy bƣớc 23 3.4.2 Độ đo “khoảng cách” 02 cụm A Độ đo khoảng cách gần (single-link) Khoảng cách 02 cụm đƣợc xác định khoảng cách 02 phần tử “gần” 02 cụm đó: d(S1 ,S2 ) d(ri ,rj ) ri S1 , rjS2 S1 24 S2 3.4.2 Độ đo “khoảng cách” 02 cụm B Độ đo khoảng cách xa (complete-link) Khoảng cách 02 cụm đƣợc xác định khoảng cách 02 phần tử “xa” 02 cụm đó: d(S1 ,S2 ) max d(ri ,rj ) ri S1 , rjS2 S1 25 S2 3.4.2 Độ đo “khoảng cách” 02 cụm C Độ đo khoảng cách trọng tâm (centroid-link) Khoảng cách 02 cụm đƣợc xác định khoảng cách 02 trọng tâm 02 cụm đó: d(S1 ,S2 ) d(m1 ,m2 ) m1 S1 26 m2 S2 3.4.2 Độ đo “khoảng cách” 02 cụm D Độ đo khoảng cách trung bình nhóm (group-average) Khoảng cách 02 cụm đƣợc xác định khoảng cách trung bình phần tử thuộc 02 cụm đó: d(S1 , S2 ) S1 S2 27 S1 ri S1 ,rjS2 d ri , rj S2 Ví dụ: Cho tập liệu D gồm ghi: r X1 X2 3 2 Xét cụmliệu C1 = {r1, r2}, C2 = {r3, r4, r5} Xác định khoảng cách d(C1,C2) cụm dựa độ đo khác 28 Ma trận khoảng cách: X2 r3 r4 r5 r1 4 r2 3 r3 r4 r1 r5 r2 Nếu sử dụng single-link: d(C1, C2) = d(r2, r4) = X1 Nếu sử dụng complete-link: d(C1, C2) = d(r1, r3) = d(r1,r5) = Nếu sử dụng group-average-link: d(C1, C2) = 19/6 = 3.17 Nếu sử dụng centroid-link: 𝑚1 = 1+2 1+1 , = ,1 2 𝑚2 = 𝑑 𝐶1 , 𝐶2 = 𝑑 𝑚1 , 𝑚2 = 29 3+3+4 3+2+2 10 , = , 3 3 10 19 − + 1− = 3 3.4.2 Độ đo “khoảng cách” 02 cụm E Nhận xét độ đo Với độ đo single-link: Mang tính chất cục bộ: Chỉ quan tâm đến vùng mà có phần tử cụm gần nhất, không quan tâm đến phần tử khác cụm cấu trúc tổng thể cụm Chất lượng phâncụm có phân tử cụm gần phần tử khác phân tán xa Với độ đo complete-link: Khoảng cách cụm dựa khoảng cách phần tử xa ⟹ Việc ghép cụm tạo cụm có đường kính nhỏ Chất lượng phâncụmphần tử cụm xa thực tế trọng tâm cụm lại gần 30 Với độ đo group-average: Tính tốn khoảng cách cụm dựa khoảng cách toàn cặp phần tử cụm không dựa cặp phần tử ⟹ tránh nhược điểm single-link complete-link Với độ đo centroid-link: Khắc phục nhược điểm single/complete-link Vẫn có nhược điểm khoảng cách cụm từ mức lên mức phân cấp không tăng dần (do tâm cụm mức cao nhiều gần cụm mức dưới) ⟹ Trái với giả thiết độ kết dính “Các cụm nhỏ thường có độ kết dính cao cụm có kích thước lớn hơn” 31 Ví dụ: Cho tập liệu gồm đối tƣợng với 02 thuộc tính X1, X2 nhƣ sau: X r X1 X2 1 2 3 4 r3 r4 r1 r5 r2 X1 Áp dụng giải thuật HAC phân chia tập liệu thành 02 cụm Biết khoảng cách 02 đối tƣợng đƣợc đo độ đo Manhattan khoảng cách 02 cụm sử dụng độ đo single-link 32 X2 r3 r4 r1 1 4 3 2 r5 r2 X1 {1,2} {3,4} {1,2} {3,4} 5 {1,2} 33 Ghép {3,4} với {5} thu đƣợc 02 cụm {1,2} {3,4,5} {1,2} 3 Đã đạt số lƣợng cụm cần thiết Kết thúc thuật toán X2 {1, 2} r3 r4 {3, 4} 4 r1 34 r2 {3, 4, 5} r5 X1 3.5 SO SÁNH GIẢI THUẬT K-MEANS VÀ HAC GIẢI THUẬT HAC GiẢI THUẬT K-MEANS Độ phức tạp thuật toán Độ phức tạp thuật tốn O(N2) N số đối tượng phâncụm Ƣu, nhƣợc điểm Ưu điểm: Khái niệm đơn giản Lý thuyết tốt Khi cụm trộn hay tách định vĩnh cửu phương pháp khác cần xem xét rút giảm Nhược điểm: Quyết định trộn tách cụm vĩnh cửu nên thuật tốn khơng có tính quay lui, có định sai khơng thể khắc phục lại Độ phức tạp thuật toán cao, thời gian thực phâncụm lâu Áp dụng tạo phân cấp Thuật toán tạo phân cấp trình phâncụm Độ phức tạp thuật tốn Độ phức tạp thuật tốn O(NkT) N số đối tượng phân cụm, k số cụm T số vòng lặp q trình phâncụm Thường T, k