Tiểu luận môn học khai phá dữ liệu TÌM HIỂU CLUSTERING

56 480 4
Tiểu luận môn học khai phá dữ liệu TÌM HIỂU CLUSTERING

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  BÁO CÁO TÌM HIỂU CLUSTERING Lớp : CAO HỌC KHÓA 6 GVHD : PGS-TS Đỗ Phúc Sinh Viên : Phạm Quang Diệu MSSV : CH1101077 Tp Hồ Chí Minh, tháng 11 năm 2012 Tìm hiểu Clustering - Khai Phá Dữ Liệu Và Kho Dữ Liệu Trang GIỚI THIỆU Phép phân tích nhóm chia dữ liệu thành những nhóm (group, cluster) có nghóa, hữu ích, hay cả hai. Nếu mục đích là những nhóm có nghóa, thì những nhóm nên giữ được cấu trúc tự nhiên của dữ liệu. Tuy nhiên, trong một số trường hợp, phép phân tích nhóm chỉ là điểm khởi đầu hữu ích cho một mục đích khác, như sự tổng kết dữ liệu. Dù trong nghiên cứu hay ứng dụng, thì phép phân tích nhóm đã đóng một vai trò quan trọng trong rất nhiều lónh vực: tâm lý học và những ngành khoa học xã hội khác, sinh học, khoa học thống kê, sự nhận dạng, phục hồi thông tin, máy học, và data mining. Có nhiều ứng dụng của phép phân tích nhóm đối với những vấn đề thực tiễn. Chúng tôi cung cấp một vài ví dụ đặc trưng, tùy theo mục đích nghiên cứu hay ứng dụng. NGHIÊN CỨU Những lớp, hay những nhóm đối tượng trừu tượng có nghóa mà chia sẻ những đặc điểm chung, đóng một vai trò quan trọng trong việc làm thế nào con người phân tích và mô tả thế giới. Quả thực, con người khéo léo trong việc phân chia các đối tượng vào các nhóm (clustering) và gán những đối tượng riêng biệt vào những nhóm này (classification). Ví dụ, những đứa bé nhanh chóng dán nhãn cho những vật trong một tấm ảnh như những tòa nhà, xe cộ, con người, động vật, cây cối, v.v…Trong nghiên cứu dữ liệu, những nhóm là những lớp tiềm tàng và phép phân tích nhóm là ngành nghiên cứu những kỹ thuật tự động tìm ra những lớp. Sau đây là một số ví dụ: • Sinh học Những nhà sinh học đã bỏ ra nhiều năm tạo ra một phép phân loại (phép phân loại theo thứ bậc – hierarchical classification) đối với tất cả các sinh vật: giới, ngành, lớp, bậc, họ, giống, và loài. Gần đây, những nhà sinh học đã ứng dụng phép xếp nhóm để phân tích những lượng lớn thông tin có sẵn. Ví dụ, phép xếp nhóm đã được dùng để tìm những nhóm gen có những chức năng tương tự. • Phục hồi thông tin World Wide Web chứa hàng tỉ trang web, và những kết quả của một lệnh truy vấn trong search engine có thể trả về hàng ngàn trang web. Phép xếp nhóm có thể được dùng để nhóm những kết quả tìm kiếm này vào những SVTH: Phạm Quang Diệu – MSSV: CH1101077 Tìm hiểu Clustering - Khai Phá Dữ Liệu Và Kho Dữ Liệu Trang nhóm, mỗi nhóm đề cập một khía cạnh riêng biệt của lệnh truy vấn. Ví dụ, tìm kiếm từ khóa “movie” có thể trả về những trang web được nhóm thành các loại như reviews, trailers, stars, và theaters. Mỗi loại (cluster) có thể chia thành những loại con (subcluster), sinh ra một cấu trúc thứ bậc giúp cho người dùng dễ dàng hơn trong chọn lọc kết quả. • Thời tiết Nghiên cứu thời tiết Trái Đất đòi hỏi phải tìm ra những mẫu trong áp suất và đại dương. Phép phân tích nhóm được ứng dụng để tìm những mẫu trong áp suất khí quyển ở những vùng cực và ở những đại dương có ảnh hưởng lớn lên áp suất mặt đất. • Tâm lý học và Y học Một bệnh thường xuyên có một số biến thể, và phép phân tích nhóm có thể được dùng để nhận ra những nhóm con khác nhau này. Phép xếp nhóm có thể dùng để nhận dạng những mẫu trong sự phân bố không gian hay thời gian của một bệnh. • Kinh doanh Việc kinh doanh đòi hỏi những lượng lớn thông tin trên những khách hàng hiện tại và tiềm năng. Phép xếp nhóm có thể được dùng để phân đoạn những khách hàng vào những nhóm cho những hoạt động phân tích và tiếp thò. ỨNG DỤNG Phép phân tích nhóm cung cấp sự trừu tượng hóa từ những đối tượng dữ liệu riêng lẻ thành những nhóm đối tượng. Ngoài ra, một số kỹ thuật xếp nhóm mô tả đặc điểm mỗi nhóm dưới dạng nguyên mẫu nhóm; nghóa là, dùng một đối tượng dữ liệu làm đại diện cho những đối tượng khác trong nhóm. Những nguyên mẫu nhóm này có thể được dùng như cơ sở cho một số kỹ thuật phân tích hay xử lý dữ liệu. Do đó, trong lónh vực ứng dụng, phép phân tích nhóm nghiên cứu những kỹ thuật để tìm những nguyên mẫu nhóm tiêu biểu nhất. • Sự tổng hợp Nhiều kỹ thuật phân tích dữ liệu, như PCA, có độ phức tạp thời gian hay không gian là O(m 2 ) hay cao hơn (với m là số đối tượng), và do đó, không áp dụng được cho những tập hợp dữ liệu lớn. Tuy nhiên, thay vì dùng thuật toán cho toàn bộ tập hợp dữ liệu, ta có thể áp dụng đối với một tập hợp dữ liệu được giảm chỉ chứa những nguyên mẫu nhóm. Phụ thuộc vào kiểu phân tích, số nguyên mẫu, và độ chính xác mà nguyên mẫu đại diện cho dữ liệu, mà kết quả có thể so sánh được với trường hợp áp dụng cho tất cả dữ liệu. • Nén SVTH: Phạm Quang Diệu – MSSV: CH1101077 Tìm hiểu Clustering - Khai Phá Dữ Liệu Và Kho Dữ Liệu Trang Những nguyên mẫu nhóm cũng có thể được dùng cho nén dữ liệu. Cụ thể là, một bảng chứa những nguyên mẫu cho mỗi nhóm được tạo ra; nghóa là, mỗi nguyên mẫu được gán một giá trò nguyên là chỉ số của nó trong bảng. Mỗi đối tượng được biểu diễn bởi chỉ số của nguyên mẫu liên kết với nhóm của nó. Kiểu nén này được gọi là lượng tử hóa vector và thường được áp dụng cho ảnh, âm thanh, và video, do (1) nhiều đối tượng dữ liệu tương tự nhau, (2) có thể chấp nhận một số mất mát thông tin, và (3) cần thiết phải giảm đáng kể kích thước dữ liệu. • Tìm láng giềng gần nhất Việc tìm láng giềng gần nhất có thể đòi hỏi phải tính toán khoảng cách từng đôi giữa tất cả các điểm. Thường những nhóm và những nguyên mẫu của chúng có thể được tìm thấy hiệu quả hơn nhiều. Nếu những đối tượng tương đối gần với nguyên mẫu của nhóm chúng, thì ta có thể dùng những nguyên mẫu để giảm số phép tính cần thiết để tìm láng giềng gần nhất của một đối tượng. Bằng trực giác, nếu hai nguyên mẫu nhóm xa nhau, thì những đối tượng trong những nhóm tương ứng không thể là láng giềng gần nhất của nhau. Do đó, để tìm được những láng giềng gần nhất của một đối tượng thì chỉ cần tính khoảng cách đến những đối tượng ở những nhóm gần, mà hai nhóm gần nhau hay không tùy thuộc vào khoảng cách giữa những nguyên mẫu của chúng. Chúng ta sẽ bắt đầu với miêu tả chung về phép xếp nhóm, bao gồm các cách tiếp cận khác nhau để chia đối tượng vào các nhóm và những loại nhóm khác nhau. Sau đó, chúng ta mô tả những kỹ thuật xếp nhóm cụ thể. Phần kế tiếp dành cho những phương pháp đánh giá độ tốt của nhóm được tạo ra bởi một thuật toán xếp nhóm. SVTH: Phạm Quang Diệu – MSSV: CH1101077 Tìm hiểu Clustering - Khai Phá Dữ Liệu Và Kho Dữ Liệu Trang PHẦN 1 NHỮNG KHÁI NIỆM CƠ BẢN Trước khi thảo luận những kỹ thuật xếp nhóm cụ thể, chúng ta xem xét một số kiến thức nền tảng cần thiết. Đầu tiên, chúng ta đònh nghóa rõ hơn về phép phân tích nhóm, giải thích mối liên quan của nó với những kỹ thuật nhóm dữ liệu khác. Sau đó chúng ta xem xét hai vấn đề quan trọng: (1) những cách khác nhau để xếp một tập hợp các đối tượng vào một tập hợp các nhóm, và (2) những loại nhóm. 1.1 THẾ NÀO LÀ PHÉP PHÂN TÍCH NHÓM? Phép phân tích nhóm gom nhóm những đối tượng dữ liệu chỉ dựa trên thông tin được tìm thấy trong dữ liệu mà mô tả những đối tượng đó hay và những mối quan hệ của chúng. Mục đích là những đối tượng bên trong một nhóm tương tự (hay liên quan) với nhau và chúng khác nhau (hay không liên quan) với những đối tượng trong những nhóm khác. Nếu sự tương tự trong một nhóm càng lớn và sự khác nhau giữa các nhóm càng nhiều, thì phép xếp nhóm càng tốt hơn hay dễ phân biệt hơn. Trong nhiều ứng dụng, khái niệm một nhóm không được đònh nghóa rõ ràng. Để hiểu rõ hơn sự khó khăn khi quyết đònh cái gì tạo thành một nhóm, xem hình 8.1, biểu diễn hai mươi điểm và ba cách phân nhóm khác nhau. Những kí hiệu chỉ rõ thành phần của mỗi nhóm. Hình 8.1(b) và 8.1(d) lần lượt chia dữ liệu thành hai và sáu phần. Không thể không có lý khi cho rằng các điểm tạo thành bốn nhóm, như trong hình 8.1(c). Hình này biểu diễn đònh nghóa một nhóm là không chính xác và đònh nghóa tốt nhất phụ thuộc vào trạng thái nguyên thủy của dữ liệu và những kết quả mong muốn. SVTH: Phạm Quang Diệu – MSSV: CH1101077 Tìm hiểu Clustering - Khai Phá Dữ Liệu Và Kho Dữ Liệu Trang Phép phân tích nhóm liên quan đến những kỹ thuật khác được dùng để chia những đối tượng dữ liệu vào các nhóm. Ví dụ, phép xếp nhóm có thể được xem như một dạng của phép phân loại trong đó nó tạo ra sự đánh nhãn các đối tượng. Tuy nhiên, nó nhận được các nhãn này chỉ từ dữ liệu. Ngược lại, phép phân loại là một supervised classification; nghóa là, những đối tượng mới chưa được đánh nhãn được gán một nhãn sử dụng một mô hình có được từ những đối tượng đã được đánh nhãn. Vì lý do này, phép xếp nhóm thường được xem như unsupervised classification. Tương tự, thuật ngữ segmentation và partitioning thường xem như đồng nghóa trong phép xếp nhóm, những thuật ngữ này thường được dùng cho những cách tiếp cận khác cách tiếp cận truyền thống. Ví dụ, thuật ngữ partitioning thường được dùng trong những kỹ thuật chia những đồ thò thành những đồ thò con và không liên quan nhiều đến phép xếp nhóm. Segmentation thường liên quan đến phần chia dữ liệu thành các nhóm sử dụng những kỹ thuật đơn giản; ví dụ, một ảnh có thể được chia thành những phân đoạn chỉ dựa trên cường độ pixel và màu, hay con người có thể được chia thành các nhóm dựa trên thu nhập của họ. Tuy nhiên, một số công việc trong graph partitioning và trong image segmentation liên quan đến phép phân tích nhóm. 1.2 NHỮNG PHƯƠNG PHÁP XẾP NHÓM KHÁC NHAU Trong phần này, chúng ta phân biệt những loại xếp nhóm khác nhau: hierarchical (nested) với partitional (unnested), exclusive với overlapping với fuzzy, và complete với partial. Hierarchical với Partitional Nét khác biệt được thảo luận nhiều nhất giữa những kiểu xếp nhóm khác nhau là tập hợp các nhóm là lồng nhau hay không lồng nhau, trong thuật ngữ truyền thống hơn, hierarchical hay partitional. Một phép xếp nhóm partitional đơn giản là một phép chia tập hợp các đối tượng dữ liệu vào những tập con không trùng khớp để cho mỗi đối tượng ở trong một tập con. Lần lượt làm với từng đối tượng, mỗi tập các nhóm trong hình 8.1 (b-d) là một phép xếp nhóm partitional. Nếu chúng ta cho phép các nhóm có các nhóm con, thì chúng ta có được phép xếp nhóm hierarchical, mà là một tập các nhóm lồng nhau được tổ chức như một cây. Mỗi node (cluster) trên cây (ngoại trừ node lá) là hợp của những node con (subcluster), và node gốc là nhóm chứa tất cả các đối tượng. Thường, nhưng không phải là luôn luôn, lá của cây là những nhóm duy nhất của những đối tượng riêng biệt. Nếu chúng ta cho phép các nhóm lồng nhau, thì sự giải thích của hình 8.1(a) là nó có hai nhóm con (hình 8.1(b)), và nó có ba nhóm con (hình 8.1(d)). Những nhóm trong hình 8.1(a-d), theo thứ tự, cũng tạo nên một phép xếp nhóm hierarchical, với lần lượt 1, 2, 4, và 6 nhóm ở mỗi cấp. Cuối cùng, lưu ý rằng một phép xếp nhóm hierarchical có thể xem như một chuỗi các phép xếp nhóm SVTH: Phạm Quang Diệu – MSSV: CH1101077 Tìm hiểu Clustering - Khai Phá Dữ Liệu Và Kho Dữ Liệu Trang partitional; nghóa là, khi cắt ra mỗi cấp của cây thứ bậc thì ta có một phép xếp nhóm partitional. Exclusive với Overlapping với Fuzzy Những phép xếp nhóm trong hình 8.1 đều là exclusive, khi chúng gán mỗi đối tượng vào một nhóm. Có nhiều trường hợp trong đó một điểm có thể được đặt trong nhiều hơn một nhóm, và những trường hợp này là non-exclusive. Thông thường, một phép xếp nhóm overlapping hay non-exclusive được dùng để phản ánh sự kiện rằng một đối tượng có thể đồng thời thuộc về hơn một nhóm (class). Ví dụ, một người ở trường đại học có thể là sinh viên được tuyển và một nhân viên của trường. Một phép xếp nhóm non-exclusive cũng thường được dùng, ví dụ, khi một đối tượng ở giữa nhiều hơn hai nhóm và có thể được gán đến bất kỳ nhóm nào. Tưởng tượng một điểm nằm giữa hai nhóm trong hình 8.1. Thay vì gán tùy ý đối tượng vào một nhóm nào đó, thì nó được đặt vào tất cả những nhóm như thế. Trong một phép xếp nhóm fuzzy, mỗi đối tượng thuộc về một nhóm với một trọng số giữa 0 (hoàn toàn không thuộc) và 1 (hoàn toàn thuộc). Nói cách khác, những nhóm như những tập hợp fuzzy. (Trong toán học, một tập hợp fuzzy là tập hợp trong đó một đối tượng thuộc bất cứ tập nào với trọng số giữa 0 và 1. Trong phép xếp nhóm fuzzy, chúng ta thường đưa ra ràng buộc bổ sung mà tổng các trọng số của mỗi đối tượng phải bằng 1). Tương tự, những kỹ thuật xếp nhóm theo thống kê tính toán xác suất mà mỗi điểm thuộc về mỗi nhóm, và mỗi xác suất này cũng phải có tổng là 1. Fuzzy clustering thích hợp nhất để tránh việc gán tùy ý một đối tượng vào chỉ một nhóm khi nó có thể gần với nhiều nhóm. Trong thực tế, fuzzy clustering thường được chuyển đổi thành exclusive clustering bằng cách gán mỗi đối tượng vào nhóm trong đó trọng số hay xác suất của nó là cao nhất. Complete với Partial Complete clustering gán mỗi đối tượng vào một nhóm, trái lại partial clustering thì không. Sự thúc đẩy cho phương pháp partial clustering là một số đối tượng trong một tập dữ liệu có thể không thuộc về những nhóm được đònh nghóa tốt. Ví dụ, một số mẫu chuyện trên báo có thể chia sẻ một chủ đề chung, như sự ấm lên của Trái Đất. Do đó, để tìm những chủ đề quan trọng trong những câu chuyện tháng trước, chúng ta có thể muốn chỉ tìm kiếm những nhóm tài liệu liên quan chặt chẽ với một chủ đề chung. Trong những trường hợp khác, thì phương pháp complete clustering được sử dụng. Ví dụ, một ứng dụng sử dụng clustering để tổ chức tài liệu cho việc tìm kiếm cần phải đảm bảo rằng tất cả tài liệu có thể được tìm thấy. 1.3 NHỮNG LOẠI NHÓM KHÁC NHAU Phép xếp nhóm hướng đến việc tìm những nhóm cho những đối tượng, tùy theo mục đích của phân tích dữ liệu. Có rất nhiều quan niệm khác nhau về một nhóm. Để minh họa sự khác biệt giữa những loại nhóm này, ta dùng những điểm SVTH: Phạm Quang Diệu – MSSV: CH1101077 Tìm hiểu Clustering - Khai Phá Dữ Liệu Và Kho Dữ Liệu Trang hai chiều là những đối tượng dữ liệu, như trong hình 8.2. Tuy nhiên, chúng tôi nhấn mạnh rằng những loại nhóm được đònh nghóa ở đây có giá trò như nhau với những loại dữ liệu khác. Well-Separated Một nhóm là một tập các đối tượng trong đó mỗi đối tượng tương tự với mỗi đối tượng cùng nhóm khác hơn những đối tượng không cùng nhóm. Đôi khi một ngưỡng được dùng để chỉ rõ rằng tất cả đối tượng trong một nhóm phải đủ gần (tương tự) nhau. Đònh nghóa này về nhóm chỉ thỏa mãn khi dữ liệu chứa những nhóm tự nhiên thật sự xa nhau. Hình 8.2(a) cho ví dụ những nhóm well-separated mà chứa hai nhóm điểm trong không gian hai chiều. Khoảng cách giữa bất kỳ hai điểm khác nhóm lớn hơn khoảng cách giữa bất kỳ hai điểm cùng nhóm. Prototype-Based Một nhóm là một tập các đối tượng trong đó mỗi đối tượng tương tự với nguyên mẫu (prototype) xác đònh nhóm hơn nguyên mẫu của bất kỳ nhóm nào khác. Đối với dữ liệu có những thuộc tính liên tục, nguyên mẫu của một nhóm thường là trung tâm, nghóa là, trung bình (mean) của tất cả các điểm trong nhóm. Với nhiều kiểu dữ liệu, nguyên mẫu có thể xem như điểm trung tâm nhất, và trong những trường hợp như thế, chúng ta thường xem những nhóm prototype-based như center-based. Thường những nhóm như vậy có hình cầu. Hình 8.2(b) cho một ví dụ nhóm center-based. Graph-Based Nếu dữ liệu được biểu diễn đồ thò, với các nút là các đối tượng và các cung biểu diễn liên kết giữa các đối tượng, thì một nhóm được đònh nghóa là một thành phần liên thông (connected component); nghóa là, một nhóm đối tượng được liên kết với nhau, nhưng không có liên kết đến những đối tượng ngoài nhóm. Một ví dụ quan trọng của graph-based cluster là contiguity-based cluster (cluster dựa trên sự kề nhau), trong đó hai đối tượng chỉ được liên kết nếu chúng cách nhau một khoảng được chỉ rõ. Điều này có nghóa là mỗi đối tượng trong contiguity-based cluster gần với đối tượng khác trong nhóm hơn bất kỳ điểm nào trong nhóm khác. Hình 8.2(c) cho một ví dụ với những điểm hai chiều. Đònh nghóa nhóm này hữu ích khi các nhóm không theo quy luật hay quấn vào nhau (intertwined), nhưng có thể gặp vấn đề khi xuất hiện nhiễu như minh họa bởi hai nhóm hình cầu trong hình 8.2(c), một cầu nhỏ của các điểm có thể kết hợp hai điểm phân biệt. Density-Based Một nhóm là một vùng dày đặc các đối tượng được bao quanh bởi một vùng ít dày đặc hơn. Hình 8.2(d) biểu diễn các nhóm density-based với dữ liệu được tạo thành bằng cách thêm nhiễu vào dữ liệu của hình 8.2(c). Hai nhóm tròn không SVTH: Phạm Quang Diệu – MSSV: CH1101077 Tìm hiểu Clustering - Khai Phá Dữ Liệu Và Kho Dữ Liệu Trang được kết hợp như trong hình 8.2(c), vì cầu giữa chúng biến mất trong nhiễu. Cũng vậy, đường cong trong hình 8.2(c) cũng biến mất trong nhiễu và không tạo thành nhóm trong hình 8.2(d). Đònh nghóa nhóm density-based thường được dùng khi các nhóm không theo quy luật, và khi xuất hiện nhiễu và giá trò ngoại lệ. Ngược lại, đònh nghóa nhóm contiguity-based không phù hợp với dữ liệu trong hình 8.2(d) có khuynh hướng hình thành cầu giữa các nhóm. Shared-Property (Conceptual Clusters) Tổng quát hơn, ta có thể đònh nghóa một nhóm là một tập các đối tượng cùng có thuộc tính nào đó. Đònh nghóa này chứa đựng tất cả những đònh nghóa trước; ví dụ, những đối tượng trong một nhóm center-based chia sẻ thuộc tính là tất cả đều gần với một tâm nào đó. Tuy nhiên, cách tiếp cận shared-property cũng bao gồm những loại nhóm mới. Xem những nhóm trong hình 8.2(e). Một vùng tam giác (cluster) kề với một vùng chữ nhật. Trong tất cả những trường hợp, một phép xếp nhóm cần một khái niệm rất rõ ràng để tìm nhóm thành công. Quá trình tìm những nhóm gọi là phép xếp nhóm khái niệm. Tuy nhiên, ở đầy chúng tôi chỉ xét những loại nhóm đơn giản. Road Map Chúng ta sử dụng ba phương pháp đơn giản nhưng quan trọng để giới thiệu nhiều khái niệm liên quan đến phân tích nhóm. • K-means: Đây là một phương pháp prototype-based, partitional clustering dùng để tìm một số nhóm (K) được chỉ đònh bởi người dùng. • Agglomerative Hierarchical Clustering: Đây là một phương pháp hierarchical clustering mà bắt đầu với mỗi điểm như một điểm đơn và sau đó trộn hai nhóm gần nhất, làm đi làm lại cho đến khi chỉ còn một nhóm duy nhất chứa tất cả. Do đó mà phương pháp này gọi là agglomerative, nghóa là tích tụ. • DBSCAN: Đây là một phương pháp density-based sinh ra một phép xếp nhóm partitional, trong đó số nhóm được xác đònh tự động bởi thuật toán. Các điểm ở các vùng ít dày đặc được phân loại như nhiễu và được loại bỏ; do đó, DBSCAN không sinh ra một phép xếp nhóm complete. SVTH: Phạm Quang Diệu – MSSV: CH1101077 Tìm hiểu Clustering - Khai Phá Dữ Liệu Và Kho Dữ Liệu Trang Hình 8.2. Những loại nhóm khác nhau được minh họa bởi những tập điểm hai chiều. SVTH: Phạm Quang Diệu – MSSV: CH1101077 [...]... diễn điều gì xảy ra với ba tập dữ liệu trước nếu ta tìm thấy sáu nhóm thay vì hai hay ba SVTH: Phạm Quang Diệu – MSSV: CH1101077 Tìm hiểu Clustering - Khai Phá Dữ Liệu Và Kho Dữ Liệu Trang SVTH: Phạm Quang Diệu – MSSV: CH1101077 Tìm hiểu Clustering - Khai Phá Dữ Liệu Và Kho Dữ Liệu Trang 2.1.4 NHỮNG ƯU ĐIỂM VÀ NHƯC ĐIỂM K-means đơn giản và có thể dùng cho rất nhiều loại dữ liệu Nó cũng thật sự hiệu quả,... K-means ít bò ảnh hưởng bởi vấn đề khởi tạo hơn, ta biểu diễn trong hình 8.8, bisecting K-means tìm ra bốn nhóm như thế nào trong bộ dữ liệu ban đầu biểu diễn trong hình 8.6(a) Ở bước lặp 1, hai cặp nhóm SVTH: Phạm Quang Diệu – MSSV: CH1101077 Tìm hiểu Clustering - Khai Phá Dữ Liệu Và Kho Dữ Liệu Trang được tìm thấy; ở bước lặp 2, cặp nhóm bên phải được chia ra; và ở bước 3, cặp nhóm bên trái được chia... cùng, K-means bò giới hạn đối với dữ liệu có trung tâm (center, SVTH: Phạm Quang Diệu – MSSV: CH1101077 Tìm hiểu Clustering - Khai Phá Dữ Liệu Và Kho Dữ Liệu Trang centroid) Một kỹ thuật liên quan, K-medoid clustering, không có hạn chế này, nhưng tốn kém hơn 2.1.5 K-MEANS NHƯ MỘT VẤN ĐỀ TỐI ƯU HÓA Ở đây, ta sẽ nghiên cứu sâu vào phương pháp toán đằng sau phương pháp Kmeans Phần này, có thể được bỏ... CH1101077 Tìm hiểu Clustering - Khai Phá Dữ Liệu Và Kho Dữ Liệu Trang 2.2 AGGLOMERATIVE HIERARCHICAL CLUSTERING (AHC) Hierarchical Clustering Techniques là một phương pháp gom nhóm quan trọng thứ hai Như với K-means, cách tiếp cận này là những cái cũ có quan hệ với nhau được kết hợp thành nhiều thuật toán gom nhóm, nhưng chúng vẫn còn được dùng phổ biến Có hai cách tiếp cận cơ bản cho một Hierarchical Clustering. .. gốc A và B Bảng 8.5 chỉ ra những giá trò hệ số cho các kỹ thuật mà chúng ta đã thảo luận Mọi kỹ thuật Hierachical Clustering đều có thể được mô tả bằng cách sử dụng công thức Lance-Williams mà không cần giữ nững điểm dữ liệu gốc Thay SVTH: Phạm Quang Diệu – MSSV: CH1101077 Tìm hiểu Clustering - Khai Phá Dữ Liệu Và Kho Dữ Liệu Trang vào đó ma trận độ gần được nâng cấp xem như sự xuất hiện những nhóm Trong... Quang Diệu – MSSV: CH1101077 Tìm hiểu Clustering - Khai Phá Dữ Liệu Và Kho Dữ Liệu Trang Hình 8.17 biểu diễn kết quả của việc ứng dụng Max cho dữ liệu mẫu gồm tập hợp 6 điểm Như Single Link, điểm 3 và 6 được nối trước Tuy nhiên, {3,6} được nối với {4} thay vì {2,5} hoặc {1}, bởi vì: Trung bình nhóm (Group Average) Với phiên bản trung bình nhóm (Group Average) của Hierachical Clustering, độ gần của hai... lựa chọn cụ thể của trọng tâm và nhóm, hơn là cho tất cả những lựa chọn có thể Sau đây chúng ta sẽ xem một ví dụ Dữ liệu tài liệu Để minh họa rằng K-means không hạn chế cho dữ liệu trong không gian Euclid, ta xét dữ liệu tài liệu và phép đo đồng dạng cosine Ở đây ta giả sử rằng dữ liệu tài liệu được biểu diễn như một ma trận có số hạng document Mục tiêu của chúng ta là tối đa hóa độ đồng dạng của những... Manhattan (L1) và mục tiêu tối thiểu hóa tổng các khoảng cách, trọng tâm thích hợp là trung vò các điểm trong một nhóm Bảng 8.2 K-means: Những lựa chọn thông thường cho hàm lân cận, trọng tâm, và hàm mục tiêu Hàm lân cận Trọng tâm SVTH: Phạm Quang Diệu – MSSV: CH1101077 Hàm mục tiêu Tìm hiểu Clustering - Khai Phá Dữ Liệu Và Kho Dữ Liệu Trang Manhattan (L1) Trung vò Tối thiểu hóa tổng khoảng cách L 1... chiều cho trong hình 8.3 với ba nhóm điểm Hình 8.4(a) biểu diễn một cách gom nhóm mà là cực tiểu toàn cục của SSE cho ba nhóm, trong khi hình 8.4(b) biểu diễn một cách gom nhóm suboptimal mà chỉ là một cực tiểu đòa phương SVTH: Phạm Quang Diệu – MSSV: CH1101077 Tìm hiểu Clustering - Khai Phá Dữ Liệu Và Kho Dữ Liệu Trang Chọn những trọng tâm ban đầu chính xác là bước mấu chốt của thuật toán Kmeans cơ... non-elliptical, nhưng nó khó thực hiện khi có nhiễu và những giá trò ngoại lệ Ví dụ: Single Link SVTH: Phạm Quang Diệu – MSSV: CH1101077 Tìm hiểu Clustering - Khai Phá Dữ Liệu Và Kho Dữ Liệu Trang Hình 8.16 chỉ ra kết quả của việc ứng dụng kỹ thuật Single Link vào tập dữ liệu mẫu gồm 6 điểm của chúng ta Hình 8.16(a) chỉ ra những nhóm phân cấp như là một dãy hình elip phân cấp, với những con số liên kết . diện cho dữ liệu, mà kết quả có thể so sánh được với trường hợp áp dụng cho tất cả dữ liệu. • Nén SVTH: Phạm Quang Diệu – MSSV: CH1101077 Tìm hiểu Clustering - Khai Phá Dữ Liệu Và Kho Dữ Liệu . với dữ liệu được tạo thành bằng cách thêm nhiễu vào dữ liệu của hình 8.2(c). Hai nhóm tròn không SVTH: Phạm Quang Diệu – MSSV: CH1101077 Tìm hiểu Clustering - Khai Phá Dữ Liệu Và Kho Dữ Liệu. thuộc vào trạng thái nguyên thủy của dữ liệu và những kết quả mong muốn. SVTH: Phạm Quang Diệu – MSSV: CH1101077 Tìm hiểu Clustering - Khai Phá Dữ Liệu Và Kho Dữ Liệu Trang Phép phân tích nhóm

Ngày đăng: 09/04/2015, 22:48

Từ khóa liên quan

Mục lục

  • Đònh nghóa độ gần giữa các nhóm

  • Độ phức tạp không gian và thời gian

  • Dữ liệu mẫu

  • Single Link hoặc Min

  • Complex Link hoặc Max hoặc Clique

  • Trung bình nhóm (Group Average)

  • Phương pháp Ward và phương pháp Centroid

  • Khả năng vận dụng những kích cỡ nhóm khác nhau

  • Phân loại các điểm theo mật độ Center-Based

  • Độ phức tạp về không gian và thời gian

  • Lựa chọn tham số cho DBSCAN

  • Mật độ nhóm thay đổi

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan