1. Trang chủ
  2. » Công Nghệ Thông Tin

Gom nhóm dữ liệu

29 869 8
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 29
Dung lượng 761,22 KB

Nội dung

Gom nhóm dữ liệu

1KHAI THÁC DỮ LIỆU & ỨNG DỤNG(DATA MINING)GV : NGUYỄN HOÀNG TÚ ANH2BBBBÀÀÀÀI 5I 5I 5I 5GOM NHÓM DỮ LiỆU 3NỘI DUNG1.Giới thiệu2. Phương pháp phân hoạch3. Phương pháp phân cấp4GIỚI THIỆU1. Gom nhóm là gì ? :Nhóm/cụm/lớp : tập các đối tượng DLGom nhóm là quá trình nhóm các đi tng thành nhng nhóm/cm/lp có ý nghĩa. Các đi tng trong cùng mt nhóm có nhiu tính cht chung vàcó nhng tính cht khác vi các đi tng nhóm khác.Cho CSDL D={t1,t2,…,tn} và số nguyên k, gom nhóm là bài toán xác định ánh xạ f : D{1,…,k} sao cho mỗi ti được gán vào một nhóm (lớp) Kj, 1 ≤≤≤≤ j ≤≤≤≤ k .Không ging bài toán phân lp, các nhóm/cm/lp không đc bit trc. 5PHÂN LỚP <> GOM NHÓMPhân lớp : học có giám sát (Supervised learning) Tìm phương pháp để dự đoán lớp của mẫu mới từcác mẫu đã gán nhãn lớp (phân lớp) trước 6Gom nhóm : học không giám sát (Unsupervisedlearning )Tìm các nhóm/cụm/lớp “tự nhiên” của các mẫu chưa được gán nhãn PHÂN LỚP <> GOM NHÓM 7GIỚI THIỆU Ứng dụngNhận dạngPhân tích dữ liệu không gianXử lý ảnhKhoa học kinh tế ( đặc biệt nghiên cứu tiếp thị)W W WGom nhóm tài liệu liên quan để dễ tìm kiếmGom dữ liệu Weblog thành nhóm để tìm các nhóm có cùng kiểu truy cậpGiảm kích thước dữ liệu lớn8Ví dụGom gen vàprotein có cùng chức năngNhóm các cổphiếu có xu hướng giá dao động giống nhauNhóm các vùng theo lượng mưa ở Úc Discovered Clusters Industry Group 1 Applied-Matl-DOWN,Bay-Network-Down,3-COM-DOWN, Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN, DSC-Comm-DOWN,INTEL-DOWN,LSI-Logic-DOWN, Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down, Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOWN, Sun-DOWN Technology1-DOWN 2 Apple-Comp-DOWN,Autodesk-DOWN,DEC-DOWN, ADV-Micro-Device-DOWN,Andrew-Corp-DOWN, Computer-Assoc-DOWN,Circuit-City-DOWN, Compaq-DOWN, EMC-Corp-DOWN, Gen-Inst-DOWN, Motorola-DOWN,Microsoft-DOWN,Scientific-Atl-DOWN Technology2-DOWN 3 Fannie-Mae-DOWN,Fed-Home-Loan-DOWN, MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP, Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP, Schlumberger-UP Oil-UP GIỚI THIỆU 9GIỚI THIỆU Ví dụ :Tip th : phát hiện các nhóm khách hàng trong CSDL khách hàng để xây dựng chương trình tiếp thị có mục tiêuĐt đai : xác định các vùng đất trồng trọt giống nhau trong CSDL quan sát trái đấtBo him : tìm nhóm khách hàng có khả năng hay gặp tai nạnNghiên cu đng đt : gom nhóm các tâm chấn động đất quan sát được theo vết nứt lục địa10VÍ DỤ : Gom nhóm các ngôi nhàDựa trên khoảng cách địa lý 11VÍ DỤ : Gom nhóm các ngôi nhàDựa trên kích thước12VÍ DỤ : Gom nhóm 13GIỚI THIỆUCách biểu diễn các nhóm/cụmPhân chia bằng các đường ranh giới Các khối cầuTheo xác suấtSơ đồ hình cây…1 2 3I1I2…In0.5 0.2 0.314GIỚI THIỆU2. Tiêu chuẩn gom nhóm :Phương pháp gom nhóm tốt là phương pháp sẽ tạo các nhóm có chất lượng : S ging nhau gia đi tng trong cùng mt nhóm cao.Gia các nhóm thì s ging nhau thp.Khoảng cách giữa các nhóm là maxKhoảng cách bên trong nhóm là min 15GIỚI THIỆU2. Tiêu chuẩn gom nhóm (tt):Chất lượng của kết quả gom nhóm dựa trên 2 yếu tố :Đ đo s ging nhau dùng trong phơng pháp gom nhóm vàS thi hành nóMt s đ đo cht lng :Bình phơng sai (Sum of Squared Error -SSE)Entropy16GIỚI THIỆU3. Độ đo khoảng cách :Độ đo khoảng cách thường dùng để xác định sựkhác nhau hay giống nhau giữa hai đối tượng .Khoảng cách Minkowski :qqppqqjxixjxixjxixjid )|| .|||(|),(2211−++−+−=với i = (xi1, xi2, …, xip) và j = (xj1, xj2, …, xjp) : hai đối tượng p-chiều và q là số nguyên dương– Nếu q=1, d là khoảng cách Manhattan :|| .||||),(2211 pp jxixjxixjxixjid −++−+−= 17GIỚI THIỆU3. Độ đo khoảng cách (tt)Nếu q=2, d là khoảng cách Euclide : )|| .|||(|),(2222211 pp jxixjxixjxixjid −++−+−=Tính chất của độ đo khoảng cáchd(i,j)≥ 0d(i,i)= 0d(i,j)= d(j,i)d(i,j)≤d(i,k)+ d(k,j)18GIỚI THIỆU4. Các kiểu dữ liệuCác kiểu dữ liệu khác nhau yêu cầu độ đo sự khác nhau cũng khác nhau. Các biến tỷ lệ theo khoảng : Khoảng cách Euclide Các biến nhị phân : hệ số so khớp, hệ số Jaccard Các biến tên, thứ tự, tỷ lệ : khoảng cách Minkowski Các biến dạng hỗn hợp : công thức trọng lượng 19GIỚI THIỆU5. Một số phương pháp gom nhóm :Phương pháp phân hoạch Phương pháp phân cấpPhương pháp dựa trên mật độPhương pháp dựa trên lướiPhương pháp dựa trên mô hình20NỘI DUNG1. Giới thiệu2. Phương pháp phân hoạch3. Phương pháp phân cấp [...]... nhóm k 1 k 3 k 2 Ví dụ : K-means, Bước 4b 30 X Y Di chuyển trung tâm nhóm về giá trị TB nhóm mới, … k 2 k 1 k 3 Ví dụ : K-means, Bước 5 7 GIỚI THIỆU  Ứng dụng Nhận dạng Phân tích dữ liệu khơng gian Xử lý ảnh Khoa học kinh tế ( đặc biệt nghiên cứu tiếp thị) W W W Gom nhóm tài liệu liên quan để dễ tìm kiếm Gom dữ liệu Weblog thành nhóm để tìm các nhóm có cùng kiểu truy cập Giảm kích thước dữ liệu. .. THIỆU 1. Gom nhóm là gì ? : Nhóm/ cụm/lớp : tập các đối tượng DL Gom nhóm là q trình nhóm các đi tng thành nhng nhóm/ cm/lp có ý nghĩa. Các đi tng trong cùng mt nhóm có nhiu tính cht chung và có nhng tính cht khác vi các đi tng  nhóm khác. Cho CSDL D={t 1 ,t 2 ,…,t n } và số nguyên k, gom nhóm là bài toán xác định ánh xạ f : D  {1,…,k} sao cho mỗi t i được gán vào một nhóm (lớp)... <> GOM NHÓM 13 GIỚI THIỆU Cách biểu diễn các nhóm/ cụm Phân chia bằng các đường ranh giới Các khối cầu Theo xác suất Sơ đồ hình cây … 1 2 3 I1 I2 … In 0.5 0.2 0.3 14 GIỚI THIỆU 2. Tiêu chuẩn gom nhóm : Phương pháp gom nhóm tốt là phương pháp sẽ tạo các nhóm có chất lượng : S ging nhau gia đi tng trong cùng mt nhóm cao. Gia các nhóm thì s ging nhau thp. Khoảng cách giữa các nhóm. .. tìm nhóm khách hàng có khả năng hay gặp tai nạn Nghiên cu đng đt : gom nhóm các tâm chấn động đất quan sát được theo vết nứt lục địa 10 VÍ DỤ : Gom nhóm các ngôi nhà Dựa trên khoảng cách địa lý 31 BÀI TẬP nhóm  Thời gian : 15’  Cho DL sau : {2,3,4,10,11,12,20,25,30} và k = 2  Tư chọn 2 trung tâm nhóm bất kỳ và sử dụng thuật tốn k-means để xác định các nhóm. Tính độ đo SSE cho từng nhóm. .. (k<n) phân hoạch của CSDL D gồm n đối tượng. Mỗi phân hoạch – 1 nhóm/ cụm Cho số k, cần tìm k nhóm thỏa mãn tiêu chuẩn phân hoạch đã chọn ( ví dụ độ đo bình phương sai - SSE nhỏ nhất). Biểu diễn mỗi nhóm bằng giá tr trung bình của dữ liệu trong nhóm đó : thut tốn K-means (1967) Biểu diễn nhóm bằng một đi tng nằm gần trung tâm của nhóm : thut toán k-medoids, PAM (1987) 22 PHƯƠNG PHÁP PHÂN HOẠCH 1.... Khái niệm cơ bản (tt): Cơng thức tính Bình phơng sai ( Sum of Squared Error - SSE) Vi x là mt đim DL trong nhóm C i và m i là đim đi din cho nhóm (đim TB nhóm hoc đim trung tâm nhóm) , K-s nhóm. dist (): khong cách Euclide ∑ ∑ = ∈ = K i Cx i i xmdistSSE 1 2 ),(  Ví dụ : ta có 2 nhóm/ cụm với các trung tâm tương ứng m 1 =3, m 2 =4  K 1 ={2,3}, K 2 ={4,10,12,20,30,11,25}  SSE = 1 2 +0+0+6 2 +8 2 +16 2 +26 2 +7 2 +21 2... gán lại ? k 1 k 2 k 3 Ví dụ : K-means, Bước 4 28 X Y 3 điểm được gán lại k 1 k 3 k 2 Ví dụ : K-means, Bước 4 … 15 GIỚI THIỆU 2. Tiêu chuẩn gom nhóm (tt): Chất lượng của kết quả gom nhóm dựa trên 2 yếu tố : Đ đo s ging nhau dùng trong phơng pháp gom nhóm và S thi hành nó Mt s đ đo cht lng : Bình phơng sai (Sum of Squared Error - SSE) Entropy 16 GIỚI THIỆU 3. Độ đo khoảng cách : Độ đo... tương đối hiệu quả.  Các đối tượng tự động gán vào các nhóm.  Thường đạt được tối ưu cục bộ. 47 VÍ DỤ : THUẬT TỐN AGNES Sử dụng Single Link : 7.Tiếp tục : • Tính khoảng cách giữa các nhóm. • Gộp {4} với {2,3,5,6} thu được các nhóm {1}, {2,3,4,5,6} 8.Gộp 2 nhóm này ta thu được nhóm “tồn bộ” và thuật tốn dừng 48 VÍ DỤ : THUẬT TỐN AGNES Các nhóm (Single Link) 1 2 3 4 5 6 1 2 3 4 5 3 6 2 5 4 1 0 0.05 0.1 0.15 0.2 Sơ... 25 k 1 k 2 k 3 X Y Gán từng điểm vào nhóm có trung tâm nhóm gần nhất Ví dụ : K-means, Bước 2 26 X Y Di chuyển trung tâm từng nhóm về điểm trung bình mới của nhóm k 1 k 2 k 2 k 1 k 3 k 3 Ví dụ : K-means, Bước 3 39 PHƯƠNG PHÁP PHÂN CẤP 1. Giới thiệu (tt): Cách xác đnh khong cách gia các nhóm : Single Link : khong cách gn nht gia hai đi tng thuc hai nhóm Complete Link : khong cách xa... điểm của 2 nhóm khác nhau) để gom nhóm.  Np bài theo nhóm Điểm Tọa độ x Tọa độ y P1 0.40 0.53 P2 0.22 0.38 P3 0.353 0.32 P4 0.26 0.19 P5 0.08 0.41 P6 0.45 0.30 50 PHƯƠNG PHÁP PHÂN CẤP 4. Nhược điểm : Tính co dãn thấp : Độ phức tạp là O(n 2 ) vi n - số đối tượng Không thể quay lui về bước trước . Khó xác định phương pháp tích tụ hay chia nhỏ Nhạy cảm với nhiễu, cá biệt Gp vn đ khi các nhóm có kích . tích dữ liệu không gianXử lý ảnhKhoa học kinh tế ( đặc biệt nghiên cứu tiếp thị)W W WGom nhóm tài liệu liên quan để dễ tìm kiếmGom dữ liệu Weblog thành nhóm. phân cấp4GIỚI THIỆU1. Gom nhóm là gì ? :Nhóm/ cụm/lớp : tập các đối tượng DLGom nhóm là quá trình nhóm các đi tng thành nhng nhóm/ cm/lp có ý nghĩa.

Ngày đăng: 31/08/2012, 16:13

HÌNH ẢNH LIÊN QUAN

mật độ khác nhau hoặc hình dáng không phải là hình cầuphải là hình cầu - Gom nhóm dữ liệu
m ật độ khác nhau hoặc hình dáng không phải là hình cầuphải là hình cầu (Trang 17)
Thuật toán K-means - Gom nhóm dữ liệu
hu ật toán K-means (Trang 17)
Biểu diễn dưới dạng sơ đồ hình cây (dendrogram): - Gom nhóm dữ liệu
i ểu diễn dưới dạng sơ đồ hình cây (dendrogram): (Trang 19)
hình cây tim c thích h p. - Gom nhóm dữ liệu
hình c ây tim c thích h p (Trang 19)
VÍ DỤ : THUẬT TOÁN AGNES - Gom nhóm dữ liệu
VÍ DỤ : THUẬT TOÁN AGNES (Trang 24)
Sơ đồ hình cây - Gom nhóm dữ liệu
Sơ đồ h ình cây (Trang 24)
a) Sử dụng khoảng cách Euclide và giả sử gán A1, B1, C1 là các  trung  tâm  của  các  nhóm  tương ứng - Gom nhóm dữ liệu
a Sử dụng khoảng cách Euclide và giả sử gán A1, B1, C1 là các trung tâm của các nhóm tương ứng (Trang 27)
hình cây t ơng ng - Gom nhóm dữ liệu
hình c ây t ơng ng (Trang 27)
được từ sơ đồ hình - Gom nhóm dữ liệu
c từ sơ đồ hình (Trang 28)
5. Cho tập DL gồm 5 - Gom nhóm dữ liệu
5. Cho tập DL gồm 5 (Trang 28)

TỪ KHÓA LIÊN QUAN

w