1. Trang chủ
  2. » Giáo án - Bài giảng

Slide bài giảng môn khai phá dữ liệu: Chương 3: Phân cụm dữ liệu

36 362 4

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 36
Dung lượng 0,99 MB

Nội dung

TRƢỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN BÀI GIẢNG MÔN HỌC KHAI PHÁ DỮ LIỆU CHƯƠNG 3: PHÂN CỤM DỮ LIỆU Giảng viên: ThS Nguyễn Vƣơng Thịnh Bộ mơn: Hệ thống thơng tin Hải Phòng, 2013 Thông tin giảng viên Họ tên Nguyễn Vƣơng Thịnh Đơn vị công tác Bộ môn Hệ thống thông tin – Khoa Công nghệ thông tin Học vị Thạc sỹ Chuyên ngành Hệ thống thông tin Cơ sở đào tạo Trƣờng Đại học Công nghệ - Đại học Quốc Gia Hà Nội Năm tốt nghiệp 2012 Điện thoại 0983283791 Email thinhnv@vimaru.edu.vn Thông tin học phần Tên học phần Khai phá liệu Tên tiếng Anh Data Mining Mã học phần 17402 Số tín 02 tín Bộ môn phụ trách Hệ thống thông tin PHƢƠNG PHÁP HỌC TẬP, NGHIÊN CỨU  Nghe giảng, thảo luận, trao đổi với giảng viên lớp  Tự nghiên cứu tài liệu làm tập nhà PHƢƠNG PHÁP ĐÁNH GIÁ  SV phải tham dự 75% thời gian  Có 02 kiểm tra viết học phần (X = X2 = (L1 + L2)/2)  Thi kết thúc học phần hình thức trắc nghiệm khách quan máy tính (Z = 0.3X + 0.7Y) Tài liệu tham khảo Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques, Elsevier Inc, 2006 Robert Nisbet, John Elder, Gary Miner, Handbook of Statistical Analysis and Data Mining Applications, Elsevier Inc, 2009 Elmasri, Navathe, Somayajulu, Gupta, Fundamentals of Database Systems (the 4th Edition), Pearson Education Inc, 2004 Hà Quang Thụy, Phan Xn Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Giáo trình Khai phá liệu Web, NXB Giáo dục, 2009 CHƢƠNG 3: PHÂN CỤM DỮ LIỆU 3.1 KHÁI NIỆM VỀ PHÂN CỤM DỮ LIỆU 3.2 ĐỘ ĐO SỬ DỤNG TRONG PHÂN CỤM 3.3 PHÂN CỤM DỮ LIỆU VỚI GIẢI THUẬT K-MEANS (Phân cụm từ xuống) 3.4 PHÂN CỤM DỮ LIỆU VỚI GIẢI THUẬT HAC (Phân cụm từ lên) 3.5 SO SÁNH GIẢI THUẬT K-MEANS VÀ HAC 3.1 KHÁI NIỆM VỀ PHÂN CỤM DỮ LIỆU 3.1.1 Phân cụm liệu (clustering) gì?  Phân cụm liệu trình phân chia đối tượng liệu (bản ghi) vào nhóm (cụm) cho đối tượng thuộc cụm có đặc điểm “tương tự” (“gần” nhau) đối tượng thuộc cụm khác có đặc điểm “khác” (“xa” nhau) Đại lượng xác định “tương tự” “khác” đối tượng?  Khác với phân lớp, phân cụm xem q trình học khơng có giám sát (unsupervised learning) Dữ liệu phân vào cụm mà khơng cần có tập mẫu học (training sample) 3.1.2 Ứng dụng phân cụm liệu Phân cụm liệu ứng dụng nhiều lĩnh vực:  Nghiên cứu thị trƣờng (Marketing): Xác định nhóm khách hàng (khách hàng tiềm năng, khách hàng lớn, phân loại dự đoán hành vi khách hàng,…) sử dụng sản phẩm hay dịch vụ công ty để giúp cơng ty có chiến lược kinh doanh hiệu  Sinh học (Biology): Phân nhóm động vật thực vật dựa vào thuộc tính chúng  Quản lý thƣ viện (Libraries): Theo dõi độc giả, sách, dự đốn nhu cầu độc giả…  Tài chính, Bảo hiểm (Finance and Insurance): Phân nhóm đối tượng sử dụng bảo hiểm dịch vụ tài chính, dự đoán xu hướng (trend) khách hàng, phát gian lận tài (identifying frauds)  Khai phá web (Web Mining): Phân loại tài liệu (document classification), phân loại người dùng web (clustering weblog),… 3.2 ĐỘ ĐO SỬ DỤNG TRONG PHÂN CỤM • Để xác định tính chất tương đồng đối tượng liệu, người ta thường sử dụng khái niệm “khoảng cách” (distance) • Hai đối tượng có “khoảng cách” nhỏ “tương tự” (giống) có “khoảng cách” lớn “khác” Xét hai đối tượng liệu (bản ghi) ri rj , đối tượng có n thuộc tính: ri   xi1 , xi , , xin  rj   x j1 , x j , , x jn  Khoảng cách Euclid (Euclidean Distance): d (ri , rj )  ( xi1  x j1 )  ( xi  x j )   ( xin  x jn ) 2 Khoảng cách Manhattan (Manhattan Distance): d (ri , rj )  xi1  x j1  xi  x j   xin  x jn 3.3 PHÂN CỤM VỚI GIẢI THUẬT K-MEANS 3.3.1 Khái niệm trọng tâm cụm C j  r1 , r2 , r3 , , rm  Mỗi đối tượng có n thuộc tính: ri   xi1 , xi , xi , , xin  (1  i  m) Xét cụm liệu Cj gồm m đối tượng thuộc cụm: Trọng tâm cụm (mean/centroid) đối tượng mj xác định: Ví dụ: m m 1 m  m j    xi1 ,  xi , ,  xin  m i 1 m i 1   m i 1 Cho cụm C1 = {r1, r2, r3} với r1 = (1, 2, 1), r2 = (1, 3, 2), r3 = (1, 1, 3) Trọng tâm cụm là: r1  111  1 1   m1   , ,   1, 2,  3   10 m1 r2 C1 r3 3.4 PHÂN CỤM VỚI GIẢI THUẬT HAC (HAC - Hierarchical Agglomerative Clustering) 3.4.1 Nội dung giải thuật HAC Tích tụ dần “từ lên” (Bottom-Up) Tƣ tƣởng giải thuật: Ban đầu, đối tượng (bản ghi) liệu coi cụm Từng bước kết hợp cụm có thành cụm lớn với yêu cầu khoảng cách đối tượng nội cụm nhỏ Dừng thuật toán đạt số lượng cụm mong muốn, cụm chứa tất đối tượng thỏa mãn điều kiện dừng 22 G: tập cụm D: tập đối tƣợng (bản ghi) liệu cần phân cụm k: số lƣợng cụm mong muốn do: ngƣỡng khoảng cách cụm G = {{r} | r ∈ D}; //Khởi tạo G tập cụm gồm đối tượng Nếu |G| = k dừng thuật tốn; //Đã đạt số lượng cụm mong muốn Tìm hai cụm Si , Sj ∈ G có khoảng cách d(Si, Sj) nhỏ nhất; Nếu d(Si, Sj) > dừng thuật tốn; //Khoảng cách cụm gần lớn ngưỡng cho phép G = G\{Si, Sj}; //Loại bỏ cụm Si ,Sj khỏi tập cụm S = Si ∪ Sj; //Ghép Si, Sj thành cụm S G = G ∪ {S}; //Kết nạp cụm vào G Nhảy bƣớc 23 3.4.2 Độ đo “khoảng cách” 02 cụm A Độ đo khoảng cách gần (single-link) Khoảng cách 02 cụm đƣợc xác định khoảng cách 02 phần tử “gần” 02 cụm đó: d(S1 ,S2 )  d(ri ,rj ) ri S1 , rjS2 S1 24 S2 3.4.2 Độ đo “khoảng cách” 02 cụm B Độ đo khoảng cách xa (complete-link) Khoảng cách 02 cụm đƣợc xác định khoảng cách 02 phần tử “xa” 02 cụm đó: d(S1 ,S2 )  max d(ri ,rj ) ri S1 , rjS2 S1 25 S2 3.4.2 Độ đo “khoảng cách” 02 cụm C Độ đo khoảng cách trọng tâm (centroid-link) Khoảng cách 02 cụm đƣợc xác định khoảng cách 02 trọng tâm 02 cụm đó: d(S1 ,S2 )  d(m1 ,m2 ) m1 S1 26 m2 S2 3.4.2 Độ đo “khoảng cách” 02 cụm D Độ đo khoảng cách trung bình nhóm (group-average) Khoảng cách 02 cụm đƣợc xác định khoảng cách trung bình phần tử thuộc 02 cụm đó: d(S1 , S2 )  S1 S2 27 S1  ri S1 ,rjS2 d  ri , rj  S2 Ví dụ: Cho tập liệu D gồm ghi: r X1 X2 3 2 Xét cụm liệu C1 = {r1, r2}, C2 = {r3, r4, r5} Xác định khoảng cách d(C1,C2) cụm dựa độ đo khác 28 Ma trận khoảng cách: X2 r3 r4 r5 r1 4 r2 3 r3 r4 r1 r5 r2 Nếu sử dụng single-link: d(C1, C2) = d(r2, r4) = X1 Nếu sử dụng complete-link: d(C1, C2) = d(r1, r3) = d(r1,r5) = Nếu sử dụng group-average-link: d(C1, C2) = 19/6 = 3.17 Nếu sử dụng centroid-link: 𝑚1 = 1+2 1+1 , = ,1 2 𝑚2 = 𝑑 𝐶1 , 𝐶2 = 𝑑 𝑚1 , 𝑚2 = 29 3+3+4 3+2+2 10 , = , 3 3 10 19 − + 1− = 3 3.4.2 Độ đo “khoảng cách” 02 cụm E Nhận xét độ đo Với độ đo single-link:  Mang tính chất cục bộ: Chỉ quan tâm đến vùng mà có phần tử cụm gần nhất, không quan tâm đến phần tử khác cụm cấu trúc tổng thể cụm  Chất lượng phân cụmphân tử cụm gần phần tử khác phân tán xa Với độ đo complete-link:  Khoảng cách cụm dựa khoảng cách phần tử xa ⟹ Việc ghép cụm tạo cụm có đường kính nhỏ  Chất lượng phân cụm phần tử cụm xa thực tế trọng tâm cụm lại gần 30 Với độ đo group-average:  Tính tốn khoảng cách cụm dựa khoảng cách toàn cặp phần tử cụm không dựa cặp phần tử ⟹ tránh nhược điểm single-link complete-link Với độ đo centroid-link:  Khắc phục nhược điểm single/complete-link  Vẫn có nhược điểm khoảng cách cụm từ mức lên mức phân cấp không tăng dần (do tâm cụm mức cao nhiều gần cụm mức dưới) ⟹ Trái với giả thiết độ kết dính “Các cụm nhỏ thường có độ kết dính cao cụm có kích thước lớn hơn” 31 Ví dụ: Cho tập liệu gồm đối tƣợng với 02 thuộc tính X1, X2 nhƣ sau: X r X1 X2 1 2 3 4 r3 r4 r1 r5 r2 X1 Áp dụng giải thuật HAC phân chia tập liệu thành 02 cụm Biết khoảng cách 02 đối tƣợng đƣợc đo độ đo Manhattan khoảng cách 02 cụm sử dụng độ đo single-link 32 X2 r3 r4 r1 1 4 3 2 r5 r2 X1 {1,2} {3,4} {1,2} {3,4} 5 {1,2} 33 Ghép {3,4} với {5} thu đƣợc 02 cụm {1,2} {3,4,5} {1,2} 3 Đã đạt số lƣợng cụm cần thiết Kết thúc thuật toán X2 {1, 2} r3 r4 {3, 4} 4 r1 34 r2 {3, 4, 5} r5 X1 3.5 SO SÁNH GIẢI THUẬT K-MEANS VÀ HAC GIẢI THUẬT HAC GiẢI THUẬT K-MEANS Độ phức tạp thuật toán  Độ phức tạp thuật tốn O(N2) N số đối tượng phân cụm Ƣu, nhƣợc điểm Ưu điểm:  Khái niệm đơn giản  Lý thuyết tốt  Khi cụm trộn hay tách định vĩnh cửu phương pháp khác cần xem xét rút giảm Nhược điểm:  Quyết định trộn tách cụm vĩnh cửu nên thuật tốn khơng có tính quay lui, có định sai khơng thể khắc phục lại  Độ phức tạp thuật toán cao, thời gian thực phân cụm lâu Áp dụng tạo phân cấp  Thuật toán tạo phân cấp trình phân cụm Độ phức tạp thuật tốn  Độ phức tạp thuật tốn O(NkT) N số đối tượng phân cụm, k số cụm T số vòng lặp q trình phân cụm  Thường T, k

Ngày đăng: 12/06/2018, 12:25

TỪ KHÓA LIÊN QUAN