Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 56 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
56
Dung lượng
4,75 MB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÀI BÁO CÁO MÔN HỌC: TÍNH TOÁN LƯỚI ĐỀ TÀI: TÌM HIỂU CLUSTERING Lớp : CAO HỌC KHÓA 6 GVHD : PGS.TS Nguyễn Phi Khứ Sinh Viên : Phạm Quang Diệu MSSV : CH1101077 Tp Hồ Chí Minh, tháng 7 năm 2013 Tìm hiểu Clustering - TÍNH TOÁN LƯỚI Trang 2 Trang GIỚI THIỆU Phép phân tích nhóm chia dữ liệu thành những nhóm (group, cluster) có nghóa, hữu ích, hay cả hai. Nếu mục đích là những nhóm có nghóa, thì những nhóm nên giữ được cấu trúc tự nhiên của dữ liệu. Tuy nhiên, trong một số trường hợp, phép phân tích nhóm chỉ là điểm khởi đầu hữu ích cho một mục đích khác, như sự tổng kết dữ liệu. Dù trong nghiên cứu hay ứng dụng, thì phép phân tích nhóm đã đóng một vai trò quan trọng trong rất nhiều lónh vực: tâm lý học và những ngành khoa học xã hội khác, sinh học, khoa học thống kê, sự nhận dạng, phục hồi thông tin, máy học, và data mining. Có nhiều ứng dụng của phép phân tích nhóm đối với những vấn đề thực tiễn. Chúng tôi cung cấp một vài ví dụ đặc trưng, tùy theo mục đích nghiên cứu hay ứng dụng. NGHIÊN CỨU Những lớp, hay những nhóm đối tượng trừu tượng có nghóa mà chia sẻ những đặc điểm chung, đóng một vai trò quan trọng trong việc làm thế nào con người phân tích và mô tả thế giới. Quả thực, con người khéo léo trong việc phân chia các đối tượng vào các nhóm (clustering) và gán những đối tượng riêng biệt vào những nhóm này (classification). Ví dụ, những đứa bé nhanh chóng dán nhãn cho những vật trong một tấm ảnh như những tòa nhà, xe cộ, con người, động vật, cây cối, v.v…Trong nghiên cứu dữ liệu, những nhóm là những lớp tiềm tàng và phép phân tích nhóm là ngành nghiên cứu những kỹ thuật tự động tìm ra những lớp. Sau đây là một số ví dụ: • Sinh học Những nhà sinh học đã bỏ ra nhiều năm tạo ra một phép phân loại (phép phân loại theo thứ bậc – hierarchical classification) đối với tất cả các sinh vật: giới, ngành, lớp, bậc, họ, giống, và loài. Gần đây, những nhà sinh học đã ứng dụng phép xếp nhóm để phân tích những lượng lớn thông tin có sẵn. Ví dụ, phép xếp nhóm đã được dùng để tìm những nhóm gen có những chức năng tương tự. • Phục hồi thông tin World Wide Web chứa hàng tỉ trang web, và những kết quả của một lệnh truy vấn trong search engine có thể trả về hàng ngàn trang web. Phép xếp nhóm có thể được dùng để nhóm những kết quả tìm kiếm này vào những nhóm, mỗi nhóm đề cập một khía cạnh riêng biệt của lệnh truy vấn. Ví dụ, tìm kiếm từ khóa “movie” có thể trả về những trang web được nhóm thành các loại như reviews, trailers, stars, và theaters. Mỗi loại (cluster) có thể chia Phạm Quang Diệu – CH1101077 Tìm hiểu Clustering - TÍNH TOÁN LƯỚI Trang 3 Trang thành những loại con (subcluster), sinh ra một cấu trúc thứ bậc giúp cho người dùng dễ dàng hơn trong chọn lọc kết quả. • Thời tiết Nghiên cứu thời tiết Trái Đất đòi hỏi phải tìm ra những mẫu trong áp suất và đại dương. Phép phân tích nhóm được ứng dụng để tìm những mẫu trong áp suất khí quyển ở những vùng cực và ở những đại dương có ảnh hưởng lớn lên áp suất mặt đất. • Tâm lý học và Y học Một bệnh thường xuyên có một số biến thể, và phép phân tích nhóm có thể được dùng để nhận ra những nhóm con khác nhau này. Phép xếp nhóm có thể dùng để nhận dạng những mẫu trong sự phân bố không gian hay thời gian của một bệnh. • Kinh doanh Việc kinh doanh đòi hỏi những lượng lớn thông tin trên những khách hàng hiện tại và tiềm năng. Phép xếp nhóm có thể được dùng để phân đoạn những khách hàng vào những nhóm cho những hoạt động phân tích và tiếp thò. ỨNG DỤNG Phép phân tích nhóm cung cấp sự trừu tượng hóa từ những đối tượng dữ liệu riêng lẻ thành những nhóm đối tượng. Ngoài ra, một số kỹ thuật xếp nhóm mô tả đặc điểm mỗi nhóm dưới dạng nguyên mẫu nhóm; nghóa là, dùng một đối tượng dữ liệu làm đại diện cho những đối tượng khác trong nhóm. Những nguyên mẫu nhóm này có thể được dùng như cơ sở cho một số kỹ thuật phân tích hay xử lý dữ liệu. Do đó, trong lónh vực ứng dụng, phép phân tích nhóm nghiên cứu những kỹ thuật để tìm những nguyên mẫu nhóm tiêu biểu nhất. • Sự tổng hợp Nhiều kỹ thuật phân tích dữ liệu, như PCA, có độ phức tạp thời gian hay không gian là O(m 2 ) hay cao hơn (với m là số đối tượng), và do đó, không áp dụng được cho những tập hợp dữ liệu lớn. Tuy nhiên, thay vì dùng thuật toán cho toàn bộ tập hợp dữ liệu, ta có thể áp dụng đối với một tập hợp dữ liệu được giảm chỉ chứa những nguyên mẫu nhóm. Phụ thuộc vào kiểu phân tích, số nguyên mẫu, và độ chính xác mà nguyên mẫu đại diện cho dữ liệu, mà kết quả có thể so sánh được với trường hợp áp dụng cho tất cả dữ liệu. • Nén Những nguyên mẫu nhóm cũng có thể được dùng cho nén dữ liệu. Cụ thể là, một bảng chứa những nguyên mẫu cho mỗi nhóm được tạo ra; nghóa là, mỗi Phạm Quang Diệu – CH1101077 Tìm hiểu Clustering - TÍNH TOÁN LƯỚI Trang 4 Trang nguyên mẫu được gán một giá trò nguyên là chỉ số của nó trong bảng. Mỗi đối tượng được biểu diễn bởi chỉ số của nguyên mẫu liên kết với nhóm của nó. Kiểu nén này được gọi là lượng tử hóa vector và thường được áp dụng cho ảnh, âm thanh, và video, do (1) nhiều đối tượng dữ liệu tương tự nhau, (2) có thể chấp nhận một số mất mát thông tin, và (3) cần thiết phải giảm đáng kể kích thước dữ liệu. • Tìm láng giềng gần nhất Việc tìm láng giềng gần nhất có thể đòi hỏi phải tính toán khoảng cách từng đôi giữa tất cả các điểm. Thường những nhóm và những nguyên mẫu của chúng có thể được tìm thấy hiệu quả hơn nhiều. Nếu những đối tượng tương đối gần với nguyên mẫu của nhóm chúng, thì ta có thể dùng những nguyên mẫu để giảm số phép tính cần thiết để tìm láng giềng gần nhất của một đối tượng. Bằng trực giác, nếu hai nguyên mẫu nhóm xa nhau, thì những đối tượng trong những nhóm tương ứng không thể là láng giềng gần nhất của nhau. Do đó, để tìm được những láng giềng gần nhất của một đối tượng thì chỉ cần tính khoảng cách đến những đối tượng ở những nhóm gần, mà hai nhóm gần nhau hay không tùy thuộc vào khoảng cách giữa những nguyên mẫu của chúng. Chúng ta sẽ bắt đầu với miêu tả chung về phép xếp nhóm, bao gồm các cách tiếp cận khác nhau để chia đối tượng vào các nhóm và những loại nhóm khác nhau. Sau đó, chúng ta mô tả những kỹ thuật xếp nhóm cụ thể. Phần kế tiếp dành cho những phương pháp đánh giá độ tốt của nhóm được tạo ra bởi một thuật toán xếp nhóm. Phạm Quang Diệu – CH1101077 Tìm hiểu Clustering - TÍNH TOÁN LƯỚI Trang 5 Trang PHẦN 1 NHỮNG KHÁI NIỆM CƠ BẢN Trước khi thảo luận những kỹ thuật xếp nhóm cụ thể, chúng ta xem xét một số kiến thức nền tảng cần thiết. Đầu tiên, chúng ta đònh nghóa rõ hơn về phép phân tích nhóm, giải thích mối liên quan của nó với những kỹ thuật nhóm dữ liệu khác. Sau đó chúng ta xem xét hai vấn đề quan trọng: (1) những cách khác nhau để xếp một tập hợp các đối tượng vào một tập hợp các nhóm, và (2) những loại nhóm. 1.1 THẾ NÀO LÀ PHÉP PHÂN TÍCH NHÓM? Phép phân tích nhóm gom nhóm những đối tượng dữ liệu chỉ dựa trên thông tin được tìm thấy trong dữ liệu mà mô tả những đối tượng đó hay và những mối quan hệ của chúng. Mục đích là những đối tượng bên trong một nhóm tương tự (hay liên quan) với nhau và chúng khác nhau (hay không liên quan) với những đối tượng trong những nhóm khác. Nếu sự tương tự trong một nhóm càng lớn và sự khác nhau giữa các nhóm càng nhiều, thì phép xếp nhóm càng tốt hơn hay dễ phân biệt hơn. Trong nhiều ứng dụng, khái niệm một nhóm không được đònh nghóa rõ ràng. Để hiểu rõ hơn sự khó khăn khi quyết đònh cái gì tạo thành một nhóm, xem hình 8.1, biểu diễn hai mươi điểm và ba cách phân nhóm khác nhau. Những kí hiệu chỉ rõ thành phần của mỗi nhóm. Hình 8.1(b) và 8.1(d) lần lượt chia dữ liệu thành hai và sáu phần. Không thể không có lý khi cho rằng các điểm tạo thành bốn nhóm, như trong hình 8.1(c). Hình này biểu diễn đònh nghóa một nhóm là không chính xác và đònh nghóa tốt nhất phụ thuộc vào trạng thái nguyên thủy của dữ liệu và những kết quả mong muốn. Phạm Quang Diệu – CH1101077 Tìm hiểu Clustering - TÍNH TOÁN LƯỚI Trang 6 Trang Phép phân tích nhóm liên quan đến những kỹ thuật khác được dùng để chia những đối tượng dữ liệu vào các nhóm. Ví dụ, phép xếp nhóm có thể được xem như một dạng của phép phân loại trong đó nó tạo ra sự đánh nhãn các đối tượng. Tuy nhiên, nó nhận được các nhãn này chỉ từ dữ liệu. Ngược lại, phép phân loại là một supervised classification; nghóa là, những đối tượng mới chưa được đánh nhãn được gán một nhãn sử dụng một mô hình có được từ những đối tượng đã được đánh nhãn. Vì lý do này, phép xếp nhóm thường được xem như unsupervised classification. Tương tự, thuật ngữ segmentation và partitioning thường xem như đồng nghóa trong phép xếp nhóm, những thuật ngữ này thường được dùng cho những cách tiếp cận khác cách tiếp cận truyền thống. Ví dụ, thuật ngữ partitioning thường được dùng trong những kỹ thuật chia những đồ thò thành những đồ thò con và không liên quan nhiều đến phép xếp nhóm. Segmentation thường liên quan đến phần chia dữ liệu thành các nhóm sử dụng những kỹ thuật đơn giản; ví dụ, một ảnh có thể được chia thành những phân đoạn chỉ dựa trên cường độ pixel và màu, hay con người có thể được chia thành các nhóm dựa trên thu nhập của họ. Tuy nhiên, một số công việc trong graph partitioning và trong image segmentation liên quan đến phép phân tích nhóm. 1.2 NHỮNG PHƯƠNG PHÁP XẾP NHÓM KHÁC NHAU Trong phần này, chúng ta phân biệt những loại xếp nhóm khác nhau: hierarchical (nested) với partitional (unnested), exclusive với overlapping với fuzzy, và complete với partial. Hierarchical với Partitional Nét khác biệt được thảo luận nhiều nhất giữa những kiểu xếp nhóm khác nhau là tập hợp các nhóm là lồng nhau hay không lồng nhau, trong thuật ngữ truyền thống hơn, hierarchical hay partitional. Một phép xếp nhóm partitional đơn giản là một phép chia tập hợp các đối tượng dữ liệu vào những tập con không trùng khớp để cho mỗi đối tượng ở trong một tập con. Lần lượt làm với từng đối tượng, mỗi tập các nhóm trong hình 8.1 (b-d) là một phép xếp nhóm partitional. Nếu chúng ta cho phép các nhóm có các nhóm con, thì chúng ta có được phép xếp nhóm hierarchical, mà là một tập các nhóm lồng nhau được tổ chức như một cây. Mỗi node (cluster) trên cây (ngoại trừ node lá) là hợp của những node con (subcluster), và node gốc là nhóm chứa tất cả các đối tượng. Thường, nhưng không phải là luôn luôn, lá của cây là những nhóm duy nhất của những đối tượng riêng biệt. Nếu chúng ta cho phép các nhóm lồng nhau, thì sự giải thích của hình 8.1(a) là nó có hai nhóm con (hình 8.1(b)), và nó có ba nhóm con (hình 8.1(d)). Những nhóm trong hình 8.1(a-d), theo thứ tự, cũng tạo nên một phép xếp nhóm hierarchical, với lần lượt 1, 2, 4, và 6 nhóm ở mỗi cấp. Cuối cùng, lưu ý rằng một phép xếp nhóm hierarchical có thể xem như một chuỗi các phép xếp nhóm Phạm Quang Diệu – CH1101077 Tìm hiểu Clustering - TÍNH TOÁN LƯỚI Trang 7 Trang partitional; nghóa là, khi cắt ra mỗi cấp của cây thứ bậc thì ta có một phép xếp nhóm partitional. Exclusive với Overlapping với Fuzzy Những phép xếp nhóm trong hình 8.1 đều là exclusive, khi chúng gán mỗi đối tượng vào một nhóm. Có nhiều trường hợp trong đó một điểm có thể được đặt trong nhiều hơn một nhóm, và những trường hợp này là non-exclusive. Thông thường, một phép xếp nhóm overlapping hay non-exclusive được dùng để phản ánh sự kiện rằng một đối tượng có thể đồng thời thuộc về hơn một nhóm (class). Ví dụ, một người ở trường đại học có thể là sinh viên được tuyển và một nhân viên của trường. Một phép xếp nhóm non-exclusive cũng thường được dùng, ví dụ, khi một đối tượng ở giữa nhiều hơn hai nhóm và có thể được gán đến bất kỳ nhóm nào. Tưởng tượng một điểm nằm giữa hai nhóm trong hình 8.1. Thay vì gán tùy ý đối tượng vào một nhóm nào đó, thì nó được đặt vào tất cả những nhóm như thế. Trong một phép xếp nhóm fuzzy, mỗi đối tượng thuộc về một nhóm với một trọng số giữa 0 (hoàn toàn không thuộc) và 1 (hoàn toàn thuộc). Nói cách khác, những nhóm như những tập hợp fuzzy. (Trong toán học, một tập hợp fuzzy là tập hợp trong đó một đối tượng thuộc bất cứ tập nào với trọng số giữa 0 và 1. Trong phép xếp nhóm fuzzy, chúng ta thường đưa ra ràng buộc bổ sung mà tổng các trọng số của mỗi đối tượng phải bằng 1). Tương tự, những kỹ thuật xếp nhóm theo thống kê tính toán xác suất mà mỗi điểm thuộc về mỗi nhóm, và mỗi xác suất này cũng phải có tổng là 1. Fuzzy clustering thích hợp nhất để tránh việc gán tùy ý một đối tượng vào chỉ một nhóm khi nó có thể gần với nhiều nhóm. Trong thực tế, fuzzy clustering thường được chuyển đổi thành exclusive clustering bằng cách gán mỗi đối tượng vào nhóm trong đó trọng số hay xác suất của nó là cao nhất. Complete với Partial Complete clustering gán mỗi đối tượng vào một nhóm, trái lại partial clustering thì không. Sự thúc đẩy cho phương pháp partial clustering là một số đối tượng trong một tập dữ liệu có thể không thuộc về những nhóm được đònh nghóa tốt. Ví dụ, một số mẫu chuyện trên báo có thể chia sẻ một chủ đề chung, như sự ấm lên của Trái Đất. Do đó, để tìm những chủ đề quan trọng trong những câu chuyện tháng trước, chúng ta có thể muốn chỉ tìm kiếm những nhóm tài liệu liên quan chặt chẽ với một chủ đề chung. Trong những trường hợp khác, thì phương pháp complete clustering được sử dụng. Ví dụ, một ứng dụng sử dụng clustering để tổ chức tài liệu cho việc tìm kiếm cần phải đảm bảo rằng tất cả tài liệu có thể được tìm thấy. 1.3 NHỮNG LOẠI NHÓM KHÁC NHAU Phép xếp nhóm hướng đến việc tìm những nhóm cho những đối tượng, tùy theo mục đích của phân tích dữ liệu. Có rất nhiều quan niệm khác nhau về một Phạm Quang Diệu – CH1101077 Tìm hiểu Clustering - TÍNH TOÁN LƯỚI Trang 8 Trang nhóm. Để minh họa sự khác biệt giữa những loại nhóm này, ta dùng những điểm hai chiều là những đối tượng dữ liệu, như trong hình 8.2. Tuy nhiên, chúng tôi nhấn mạnh rằng những loại nhóm được đònh nghóa ở đây có giá trò như nhau với những loại dữ liệu khác. Well-Separated Một nhóm là một tập các đối tượng trong đó mỗi đối tượng tương tự với mỗi đối tượng cùng nhóm khác hơn những đối tượng không cùng nhóm. Đôi khi một ngưỡng được dùng để chỉ rõ rằng tất cả đối tượng trong một nhóm phải đủ gần (tương tự) nhau. Đònh nghóa này về nhóm chỉ thỏa mãn khi dữ liệu chứa những nhóm tự nhiên thật sự xa nhau. Hình 8.2(a) cho ví dụ những nhóm well-separated mà chứa hai nhóm điểm trong không gian hai chiều. Khoảng cách giữa bất kỳ hai điểm khác nhóm lớn hơn khoảng cách giữa bất kỳ hai điểm cùng nhóm. Prototype-Based Một nhóm là một tập các đối tượng trong đó mỗi đối tượng tương tự với nguyên mẫu (prototype) xác đònh nhóm hơn nguyên mẫu của bất kỳ nhóm nào khác. Đối với dữ liệu có những thuộc tính liên tục, nguyên mẫu của một nhóm thường là trung tâm, nghóa là, trung bình (mean) của tất cả các điểm trong nhóm. Với nhiều kiểu dữ liệu, nguyên mẫu có thể xem như điểm trung tâm nhất, và trong những trường hợp như thế, chúng ta thường xem những nhóm prototype-based như center-based. Thường những nhóm như vậy có hình cầu. Hình 8.2(b) cho một ví dụ nhóm center-based. Graph-Based Nếu dữ liệu được biểu diễn đồ thò, với các nút là các đối tượng và các cung biểu diễn liên kết giữa các đối tượng, thì một nhóm được đònh nghóa là một thành phần liên thông (connected component); nghóa là, một nhóm đối tượng được liên kết với nhau, nhưng không có liên kết đến những đối tượng ngoài nhóm. Một ví dụ quan trọng của graph-based cluster là contiguity-based cluster (cluster dựa trên sự kề nhau), trong đó hai đối tượng chỉ được liên kết nếu chúng cách nhau một khoảng được chỉ rõ. Điều này có nghóa là mỗi đối tượng trong contiguity-based cluster gần với đối tượng khác trong nhóm hơn bất kỳ điểm nào trong nhóm khác. Hình 8.2(c) cho một ví dụ với những điểm hai chiều. Đònh nghóa nhóm này hữu ích khi các nhóm không theo quy luật hay quấn vào nhau (intertwined), nhưng có thể gặp vấn đề khi xuất hiện nhiễu như minh họa bởi hai nhóm hình cầu trong hình 8.2(c), một cầu nhỏ của các điểm có thể kết hợp hai điểm phân biệt. Density-Based Một nhóm là một vùng dày đặc các đối tượng được bao quanh bởi một vùng ít dày đặc hơn. Hình 8.2(d) biểu diễn các nhóm density-based với dữ liệu được tạo Phạm Quang Diệu – CH1101077 Tìm hiểu Clustering - TÍNH TOÁN LƯỚI Trang 9 Trang thành bằng cách thêm nhiễu vào dữ liệu của hình 8.2(c). Hai nhóm tròn không được kết hợp như trong hình 8.2(c), vì cầu giữa chúng biến mất trong nhiễu. Cũng vậy, đường cong trong hình 8.2(c) cũng biến mất trong nhiễu và không tạo thành nhóm trong hình 8.2(d). Đònh nghóa nhóm density-based thường được dùng khi các nhóm không theo quy luật, và khi xuất hiện nhiễu và giá trò ngoại lệ. Ngược lại, đònh nghóa nhóm contiguity-based không phù hợp với dữ liệu trong hình 8.2(d) có khuynh hướng hình thành cầu giữa các nhóm. Shared-Property (Conceptual Clusters) Tổng quát hơn, ta có thể đònh nghóa một nhóm là một tập các đối tượng cùng có thuộc tính nào đó. Đònh nghóa này chứa đựng tất cả những đònh nghóa trước; ví dụ, những đối tượng trong một nhóm center-based chia sẻ thuộc tính là tất cả đều gần với một tâm nào đó. Tuy nhiên, cách tiếp cận shared-property cũng bao gồm những loại nhóm mới. Xem những nhóm trong hình 8.2(e). Một vùng tam giác (cluster) kề với một vùng chữ nhật. Trong tất cả những trường hợp, một phép xếp nhóm cần một khái niệm rất rõ ràng để tìm nhóm thành công. Quá trình tìm những nhóm gọi là phép xếp nhóm khái niệm. Tuy nhiên, ở đầy chúng tôi chỉ xét những loại nhóm đơn giản. Road Map Chúng ta sử dụng ba phương pháp đơn giản nhưng quan trọng để giới thiệu nhiều khái niệm liên quan đến phân tích nhóm. • K-means: Đây là một phương pháp prototype-based, partitional clustering dùng để tìm một số nhóm (K) được chỉ đònh bởi người dùng. • Agglomerative Hierarchical Clustering: Đây là một phương pháp hierarchical clustering mà bắt đầu với mỗi điểm như một điểm đơn và sau đó trộn hai nhóm gần nhất, làm đi làm lại cho đến khi chỉ còn một nhóm duy nhất chứa tất cả. Do đó mà phương pháp này gọi là agglomerative, nghóa là tích tụ. • DBSCAN: Đây là một phương pháp density-based sinh ra một phép xếp nhóm partitional, trong đó số nhóm được xác đònh tự động bởi thuật toán. Các điểm ở các vùng ít dày đặc được phân loại như nhiễu và được loại bỏ; do đó, DBSCAN không sinh ra một phép xếp nhóm complete. Phạm Quang Diệu – CH1101077 Tìm hiểu Clustering - TÍNH TOÁN LƯỚI Trang 10 Trang Hình 8.2. Những loại nhóm khác nhau được minh họa bởi những tập điểm hai chiều. Phạm Quang Diệu – CH1101077 [...]... chia những nhóm tự nhiên thành các nhóm con Hình 8.12 biểu diễn điều gì xảy ra với ba tập dữ liệu trước nếu ta tìm thấy sáu nhóm thay vì hai hay ba Phạm Quang Diệu – CH1101077 Tìm hiểu Clustering Trang 21 - TÍNH TOÁN LƯỚI Trang Phạm Quang Diệu – CH1101077 Tìm hiểu Clustering Trang 22 - TÍNH TOÁN LƯỚI Trang 2.1.4 NHỮNG ƯU ĐIỂM VÀ NHƯC ĐIỂM K-means đơn giản và có thể dùng cho rất nhiều loại dữ liệu Nó cũng... thuật toán tính toán lặp đi lặp lại sự lân cận của mỗi điểm với mỗi trọng tâm Tuy nhiên, trong một số trường hợp, nhưng khi dữ liệu nằm trong không gian Euclid ít chiều, có thể tránh được việc tính toán nhiều sự lân cận, do đó tăng đáng kể tốc độ của thuật toán K-means Bisecting K-means (được mô tả trong phần 8.2.3) là một Phạm Quang Diệu – CH1101077 Tìm hiểu Clustering Trang 13 - TÍNH TOÁN LƯỚI Trang... trong bài 8.3.2 2.2.1 THUẬT TOÁN AHC CƠ BẢN Phạm Quang Diệu – CH1101077 Tìm hiểu Clustering Trang 26 - TÍNH TOÁN LƯỚI Trang Nhiều kỹ thuật AHC biến đổi trên một approach đơn: bắt đầu với những điểm độc lập như những nhóm, kết nối hai nhóm lại cho đến khi chỉ còn lại một nhóm Cách tiếp cận này được trình bày trong thuật toán 8.3 Thuật toán 8.3: Thuật toán AHC cơ bản 1 Tính toán ma trận độ gần, nếu cần... CH1101077 Tìm hiểu Clustering Trang 32 - TÍNH TOÁN LƯỚI Trang Centroid Method tính toán độ gần giữa hai nhóm bằng cách tính khoảng cách giữa những Centroid (trọng tâm) của những nhóm Những kỹ thuật này tương tự như K-means, nhưng chú ý rằng phương pháp Ward chỉ đúng với Hierachical Analog Phương pháp Centroid cũng có một đặc điểm – thường xem là không tốt so với những kỹ thuật Hierachical Clustering. .. ba nhóm điểm Hình 8.4(a) biểu diễn một cách gom nhóm mà là cực tiểu toàn cục của SSE cho ba nhóm, trong khi hình 8.4(b) biểu diễn một cách gom nhóm suboptimal mà chỉ là một cực tiểu đòa phương Phạm Quang Diệu – CH1101077 Tìm hiểu Clustering Trang 16 - TÍNH TOÁN LƯỚI Trang Chọn những trọng tâm ban đầu chính xác là bước mấu chốt của thuật toán Kmeans cơ bản Một cách tiếp cận thông thường là chọn những... B thành nhóm R, độ gần của nhóm mới, R, với một nhóm đã tồn tại, Q, là một hàm tuyến tính của độ gần của nhóm Q với nhóm gốc A và B Bảng 8.5 chỉ ra những giá trò hệ số cho các kỹ thuật mà chúng ta đã thảo luận Phạm Quang Diệu – CH1101077 Tìm hiểu Clustering Trang 33 - TÍNH TOÁN LƯỚI Trang Mọi kỹ thuật Hierachical Clustering đều có thể được mô tả bằng cách sử dụng công thức Lance-Williams mà không cần... tiếp cận cố gắng sửa những Hierachical Clustering bằng cách di chuyển những nhánh của cây vòng quanh cũng như việc cải tiến những hàm đối tượng toàn cục Cách tiếp cận khác sử dụng một kỹ thuật Partitional Clustering Phạm Quang Diệu – CH1101077 Tìm hiểu Clustering Trang 35 - TÍNH TOÁN LƯỚI Trang như là K-means để tạo ra nhiều nhóm nhỏ, và khi đó chuyển cho Hierachical Clustering sử dụng những nhóm nhỏ này... những thuật toán AHC đã được thảo luận ở trên Một cách bình thường hơn, như những thuật toán được dùng theo dạng bởi vì dưới sự ứng dụng, e.g, sự tạo thành của một phân loại yêu cầu một sự phân cấp Cũng như đã có vài sự nghiên cứu mà giả sử rằng những thuật toán này có thể tạo nên những nhóm có tính tốt hơn Tuy nhiên, Nhứng thuật toán Agglomerative Hierachical Clustering thì tốn kém trong tính toán và... liệu này sử dụng những kỹ thuật khác, như là K-means chẳng hạn Phạm Quang Diệu – CH1101077 Tìm hiểu Clustering Trang 36 - TÍNH TOÁN LƯỚI Trang 2.3 DENSITY-BASED CLUSTERING (DBSCAN) Density-Based Clustering đònh vò những vùng có độ trù mật cao mà được phân tách từ một vùng khác có mật độ cao hơn DBSCAN là thuật toán gom nhóm Density-Based đơn giản và hiệu quả Ta tập trung một số khái niệm quan trọng... nhất của nó 4: Tính toán lại trọng tâm của mỗi nhóm 5: until Những trọng tâm không đổi Trong bước đầu, được biểu diễn trong hình 8.3(a), các điểm được gán đến những trọng tâm đầu tiên, tất cả đều trong nhóm điểm lớn hơn Như ví dụ này, ta dùng trung bình như trọng tâm Sau khi các điểm được gán đến một trọng tâm, thì Phạm Quang Diệu – CH1101077 Tìm hiểu Clustering Trang 12 - TÍNH TOÁN LƯỚI Trang trọng . CÁO MÔN HỌC: TÍNH TOÁN LƯỚI ĐỀ TÀI: TÌM HIỂU CLUSTERING Lớp : CAO HỌC KHÓA 6 GVHD : PGS.TS Nguyễn Phi Khứ Sinh Viên : Phạm Quang Diệu MSSV : CH1101077 Tp Hồ Chí Minh, tháng 7 năm 2013 Tìm hiểu. Việc tính toán liên quan đến tìm những trọng tâm ban đầu cũng được giảm đáng kể vì kích thước mẫu nhỏ hơn nhiều so với số điểm. Phạm Quang Diệu – CH1101077 Tìm hiểu Clustering - TÍNH TOÁN LƯỚI Trang. tính toán nhiều sự lân cận, do đó tăng đáng kể tốc độ của thuật toán K-means. Bisecting K-means (được mô tả trong phần 8.2.3) là một Phạm Quang Diệu – CH1101077 Tìm hiểu Clustering - TÍNH TOÁN LƯỚI Trang