Gom nhóm dữ liệu
1KHAI THÁC DỮ LIỆU & ỨNG DỤNG(DATA MINING)GV : NGUYỄN HOÀNG TÚ ANH2BBBBÀÀÀÀI 5I 5I 5I 5GOM NHÓM DỮ LiỆU 3NỘI DUNG1.Giới thiệu2. Phương pháp phân hoạch3. Phương pháp phân cấp4GIỚI THIỆU1. Gom nhóm là gì ? :Nhóm/cụm/lớp : tập các đối tượng DLGom nhóm là quá trình nhóm các đi tng thành nhng nhóm/cm/lp có ý nghĩa. Các đi tng trong cùng mt nhóm có nhiu tính cht chung vàcó nhng tính cht khác vi các đi tng nhóm khác.Cho CSDL D={t1,t2,…,tn} và số nguyên k, gom nhóm là bài toán xác định ánh xạ f : D{1,…,k} sao cho mỗi ti được gán vào một nhóm (lớp) Kj, 1 ≤≤≤≤ j ≤≤≤≤ k .Không ging bài toán phân lp, các nhóm/cm/lp không đc bit trc. 5PHÂN LỚP <> GOM NHÓMPhân lớp : học có giám sát (Supervised learning) Tìm phương pháp để dự đoán lớp của mẫu mới từcác mẫu đã gán nhãn lớp (phân lớp) trước 6Gom nhóm : học không giám sát (Unsupervisedlearning )Tìm các nhóm/cụm/lớp “tự nhiên” của các mẫu chưa được gán nhãn PHÂN LỚP <> GOM NHÓM 7GIỚI THIỆU Ứng dụngNhận dạngPhân tích dữ liệu không gianXử lý ảnhKhoa học kinh tế ( đặc biệt nghiên cứu tiếp thị)W W WGom nhóm tài liệu liên quan để dễ tìm kiếmGom dữ liệu Weblog thành nhóm để tìm các nhóm có cùng kiểu truy cậpGiảm kích thước dữ liệu lớn8Ví dụGom gen vàprotein có cùng chức năngNhóm các cổphiếu có xu hướng giá dao động giống nhauNhóm các vùng theo lượng mưa ở Úc Discovered Clusters Industry Group 1 Applied-Matl-DOWN,Bay-Network-Down,3-COM-DOWN, Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN, DSC-Comm-DOWN,INTEL-DOWN,LSI-Logic-DOWN, Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down, Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOWN, Sun-DOWN Technology1-DOWN 2 Apple-Comp-DOWN,Autodesk-DOWN,DEC-DOWN, ADV-Micro-Device-DOWN,Andrew-Corp-DOWN, Computer-Assoc-DOWN,Circuit-City-DOWN, Compaq-DOWN, EMC-Corp-DOWN, Gen-Inst-DOWN, Motorola-DOWN,Microsoft-DOWN,Scientific-Atl-DOWN Technology2-DOWN 3 Fannie-Mae-DOWN,Fed-Home-Loan-DOWN, MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP, Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP, Schlumberger-UP Oil-UP GIỚI THIỆU 9GIỚI THIỆU Ví dụ :Tip th : phát hiện các nhóm khách hàng trong CSDL khách hàng để xây dựng chương trình tiếp thị có mục tiêuĐt đai : xác định các vùng đất trồng trọt giống nhau trong CSDL quan sát trái đấtBo him : tìm nhóm khách hàng có khả năng hay gặp tai nạnNghiên cu đng đt : gom nhóm các tâm chấn động đất quan sát được theo vết nứt lục địa10VÍ DỤ : Gom nhóm các ngôi nhàDựa trên khoảng cách địa lý 11VÍ DỤ : Gom nhóm các ngôi nhàDựa trên kích thước12VÍ DỤ : Gom nhóm 13GIỚI THIỆUCách biểu diễn các nhóm/cụmPhân chia bằng các đường ranh giới Các khối cầuTheo xác suấtSơ đồ hình cây…1 2 3I1I2…In0.5 0.2 0.314GIỚI THIỆU2. Tiêu chuẩn gom nhóm :Phương pháp gom nhóm tốt là phương pháp sẽ tạo các nhóm có chất lượng : S ging nhau gia đi tng trong cùng mt nhóm cao.Gia các nhóm thì s ging nhau thp.Khoảng cách giữa các nhóm là maxKhoảng cách bên trong nhóm là min 15GIỚI THIỆU2. Tiêu chuẩn gom nhóm (tt):Chất lượng của kết quả gom nhóm dựa trên 2 yếu tố :Đ đo s ging nhau dùng trong phơng pháp gom nhóm vàS thi hành nóMt s đ đo cht lng :Bình phơng sai (Sum of Squared Error -SSE)Entropy16GIỚI THIỆU3. Độ đo khoảng cách :Độ đo khoảng cách thường dùng để xác định sựkhác nhau hay giống nhau giữa hai đối tượng .Khoảng cách Minkowski :qqppqqjxixjxixjxixjid )|| .|||(|),(2211−++−+−=với i = (xi1, xi2, …, xip) và j = (xj1, xj2, …, xjp) : hai đối tượng p-chiều và q là số nguyên dương– Nếu q=1, d là khoảng cách Manhattan :|| .||||),(2211 pp jxixjxixjxixjid −++−+−= 17GIỚI THIỆU3. Độ đo khoảng cách (tt)Nếu q=2, d là khoảng cách Euclide : )|| .|||(|),(2222211 pp jxixjxixjxixjid −++−+−=Tính chất của độ đo khoảng cáchd(i,j)≥ 0d(i,i)= 0d(i,j)= d(j,i)d(i,j)≤d(i,k)+ d(k,j)18GIỚI THIỆU4. Các kiểu dữ liệuCác kiểu dữ liệu khác nhau yêu cầu độ đo sự khác nhau cũng khác nhau. Các biến tỷ lệ theo khoảng : Khoảng cách Euclide Các biến nhị phân : hệ số so khớp, hệ số Jaccard Các biến tên, thứ tự, tỷ lệ : khoảng cách Minkowski Các biến dạng hỗn hợp : công thức trọng lượng 19GIỚI THIỆU5. Một số phương pháp gom nhóm :Phương pháp phân hoạch Phương pháp phân cấpPhương pháp dựa trên mật độPhương pháp dựa trên lướiPhương pháp dựa trên mô hình20NỘI DUNG1. Giới thiệu2. Phương pháp phân hoạch3. Phương pháp phân cấp [...]... nhóm k 1 k 3 k 2 Ví dụ : K-means, Bước 4b 30 X Y Di chuyển trung tâm nhóm về giá trị TB nhóm mới, … k 2 k 1 k 3 Ví dụ : K-means, Bước 5 7 GIỚI THIỆU Ứng dụng Nhận dạng Phân tích dữ liệu khơng gian Xử lý ảnh Khoa học kinh tế ( đặc biệt nghiên cứu tiếp thị) W W W Gom nhóm tài liệu liên quan để dễ tìm kiếm Gom dữ liệu Weblog thành nhóm để tìm các nhóm có cùng kiểu truy cập Giảm kích thước dữ liệu. .. THIỆU 1. Gom nhóm là gì ? : Nhóm/ cụm/lớp : tập các đối tượng DL Gom nhóm là q trình nhóm các đi tng thành nhng nhóm/ cm/lp có ý nghĩa. Các đi tng trong cùng mt nhóm có nhiu tính cht chung và có nhng tính cht khác vi các đi tng nhóm khác. Cho CSDL D={t 1 ,t 2 ,…,t n } và số nguyên k, gom nhóm là bài toán xác định ánh xạ f : D {1,…,k} sao cho mỗi t i được gán vào một nhóm (lớp)... <> GOM NHÓM 13 GIỚI THIỆU Cách biểu diễn các nhóm/ cụm Phân chia bằng các đường ranh giới Các khối cầu Theo xác suất Sơ đồ hình cây … 1 2 3 I1 I2 … In 0.5 0.2 0.3 14 GIỚI THIỆU 2. Tiêu chuẩn gom nhóm : Phương pháp gom nhóm tốt là phương pháp sẽ tạo các nhóm có chất lượng : S ging nhau gia đi tng trong cùng mt nhóm cao. Gia các nhóm thì s ging nhau thp. Khoảng cách giữa các nhóm. .. tìm nhóm khách hàng có khả năng hay gặp tai nạn Nghiên cu đng đt : gom nhóm các tâm chấn động đất quan sát được theo vết nứt lục địa 10 VÍ DỤ : Gom nhóm các ngôi nhà Dựa trên khoảng cách địa lý 31 BÀI TẬP nhóm Thời gian : 15’ Cho DL sau : {2,3,4,10,11,12,20,25,30} và k = 2 Tư chọn 2 trung tâm nhóm bất kỳ và sử dụng thuật tốn k-means để xác định các nhóm. Tính độ đo SSE cho từng nhóm. .. (k<n) phân hoạch của CSDL D gồm n đối tượng. Mỗi phân hoạch – 1 nhóm/ cụm Cho số k, cần tìm k nhóm thỏa mãn tiêu chuẩn phân hoạch đã chọn ( ví dụ độ đo bình phương sai - SSE nhỏ nhất). Biểu diễn mỗi nhóm bằng giá tr trung bình của dữ liệu trong nhóm đó : thut tốn K-means (1967) Biểu diễn nhóm bằng một đi tng nằm gần trung tâm của nhóm : thut toán k-medoids, PAM (1987) 22 PHƯƠNG PHÁP PHÂN HOẠCH 1.... Khái niệm cơ bản (tt): Cơng thức tính Bình phơng sai ( Sum of Squared Error - SSE) Vi x là mt đim DL trong nhóm C i và m i là đim đi din cho nhóm (đim TB nhóm hoc đim trung tâm nhóm) , K-s nhóm. dist (): khong cách Euclide ∑ ∑ = ∈ = K i Cx i i xmdistSSE 1 2 ),( Ví dụ : ta có 2 nhóm/ cụm với các trung tâm tương ứng m 1 =3, m 2 =4 K 1 ={2,3}, K 2 ={4,10,12,20,30,11,25} SSE = 1 2 +0+0+6 2 +8 2 +16 2 +26 2 +7 2 +21 2... gán lại ? k 1 k 2 k 3 Ví dụ : K-means, Bước 4 28 X Y 3 điểm được gán lại k 1 k 3 k 2 Ví dụ : K-means, Bước 4 … 15 GIỚI THIỆU 2. Tiêu chuẩn gom nhóm (tt): Chất lượng của kết quả gom nhóm dựa trên 2 yếu tố : Đ đo s ging nhau dùng trong phơng pháp gom nhóm và S thi hành nó Mt s đ đo cht lng : Bình phơng sai (Sum of Squared Error - SSE) Entropy 16 GIỚI THIỆU 3. Độ đo khoảng cách : Độ đo... tương đối hiệu quả. Các đối tượng tự động gán vào các nhóm. Thường đạt được tối ưu cục bộ. 47 VÍ DỤ : THUẬT TỐN AGNES Sử dụng Single Link : 7.Tiếp tục : • Tính khoảng cách giữa các nhóm. • Gộp {4} với {2,3,5,6} thu được các nhóm {1}, {2,3,4,5,6} 8.Gộp 2 nhóm này ta thu được nhóm “tồn bộ” và thuật tốn dừng 48 VÍ DỤ : THUẬT TỐN AGNES Các nhóm (Single Link) 1 2 3 4 5 6 1 2 3 4 5 3 6 2 5 4 1 0 0.05 0.1 0.15 0.2 Sơ... 25 k 1 k 2 k 3 X Y Gán từng điểm vào nhóm có trung tâm nhóm gần nhất Ví dụ : K-means, Bước 2 26 X Y Di chuyển trung tâm từng nhóm về điểm trung bình mới của nhóm k 1 k 2 k 2 k 1 k 3 k 3 Ví dụ : K-means, Bước 3 39 PHƯƠNG PHÁP PHÂN CẤP 1. Giới thiệu (tt): Cách xác đnh khong cách gia các nhóm : Single Link : khong cách gn nht gia hai đi tng thuc hai nhóm Complete Link : khong cách xa... điểm của 2 nhóm khác nhau) để gom nhóm. Np bài theo nhóm Điểm Tọa độ x Tọa độ y P1 0.40 0.53 P2 0.22 0.38 P3 0.353 0.32 P4 0.26 0.19 P5 0.08 0.41 P6 0.45 0.30 50 PHƯƠNG PHÁP PHÂN CẤP 4. Nhược điểm : Tính co dãn thấp : Độ phức tạp là O(n 2 ) vi n - số đối tượng Không thể quay lui về bước trước . Khó xác định phương pháp tích tụ hay chia nhỏ Nhạy cảm với nhiễu, cá biệt Gp vn đ khi các nhóm có kích . tích dữ liệu không gianXử lý ảnhKhoa học kinh tế ( đặc biệt nghiên cứu tiếp thị)W W WGom nhóm tài liệu liên quan để dễ tìm kiếmGom dữ liệu Weblog thành nhóm. phân cấp4GIỚI THIỆU1. Gom nhóm là gì ? :Nhóm/ cụm/lớp : tập các đối tượng DLGom nhóm là quá trình nhóm các đi tng thành nhng nhóm/ cm/lp có ý nghĩa.