luận văn: các lược đồ phân cụm phân cấp bất biến luận văn: các lược đồ phân cụm phân cấp bất biến luận văn: các lược đồ phân cụm phân cấp bất biến luận văn: các lược đồ phân cụm phân cấp bất biến luận văn: các lược đồ phân cụm phân cấp bất biến
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ DƯƠNG HẢI ĐƯỜNG CÁC LƯỢC ĐỒ PHÂN CỤM PHÂN CẤP BẤT BIẾN LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ DƯƠNG HẢI ĐƯỜNG CÁC LƯỢC ĐỒ PHÂN CỤM PHÂN CẤP BẤT BIẾN Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. HOÀNG XUÂN HUẤN Hà Nội – 2014 1 Lời cảm ơn Trước tiên, tôi xin trân trọng gửi lời cảm ơn sâu sắc đến thầy giáo PGS. TS Hoàng Xuân Huấn đã dành rất nhiều thời gian và tâm huyết hướng dẫn nghiên cứu và giúp tôi hoàn thành tốt luận văn tốt nghiệp này. Thầy đã mở ra cho tôi những vấn đề khoa học rất lý thú, định hướng nghiên cứu các lĩnh vực hết sức thiết thực và vô cùng bổ ích, đồng thời tạo điều kiện thuận lợi tốt nhất cho tôi học tập và nghiên cứu. Em xin trân trọng cảm ơn các Thầy, Cô giáo trong khoa Công nghệ thông tin – Trường ĐH Công nghệ – ĐH Quốc gia Hà Nội đã tận tình chỉ dạy, cung cấp cho tôi những kiến thức quý báu và luôn nhiệt tình giúp đỡ, tạo điều kiện thuận lợi nhất trong suốt quá trình học tập tại trường. Đồng thời tôi xin chân thành cảm ơn những người thân trong gia đình cùng toàn thể bạn bè đã luôn giúp đỡ, động viên những lúc gặp phải khó khăn trong học tập, công việc và cuộc sống. 2 Lời cam đoan Những kiến thức trình bày trong luận văn là do tôi tìm hiểu, nghiên cứu và trình bày lại theo cách hiểu. Trong quá trình làm luận văn, tôi có tham khảo các tài liệu có liên quan và đã ghi rõ nguồn tài liệu tham khảo. Tôi xin cam đoan đây là công trình nghiên cứu của tôi và không sao chép của bất kỳ ai. Hà Nội, ngày … tháng 10 năm 2014 Học viên Dương Hải Đường 3 MỤC LỤC Lời cảm ơn 1 Lời cam đoan 2 MỤC LỤC 3 DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT 5 DANH MỤC CÁC HÌNH VẼ 6 DANH MỤC CÁC BẢNG BIỂU 7 MỞ ĐẦU 8 CHƯƠNG I: TỔNG QUAN VỀ PHÂN CỤM 11 1.1. Phân cụm dữ liệu là gì 11 1.2. Các kiểu dữ liệu và độ đo tương tự 11 1.2.1. Cấu trúc dữ liệu 11 1.2.2. Các kiểu dữ liệu 12 1.2.2. Độ đo tương tự 13 1.3. Các phương pháp phân cụm dữ liệu 16 1.4. Vấn đề chuẩn hóa dữ liệu 16 CHƯƠNG II: PHÂN CỤM DỮ LIỆU HƯỚNG TIẾP CẬN PHÂN CẤP 18 2.1. Phân cụm phân cấp 18 2.2. Thuật toán BIRCH 20 2.3. Thuật toán CURE 23 2.4. Thuật toán ANGNES 25 2.5. Thuật toán DIANA 25 2.6. Thuật toán ROCK 26 2.7. Thuật toán Chameleon 27 CHƯƠNG 3: CÁC LƯỢC ĐỒ PHÂN CỤM PHÂN CẤP BẤT BIẾN 28 3.1. Các thủ tục phân cụm bất biến và không bất biến 28 3.2. Các định nghĩa cơ bản 29 3.3. Lược đồ tổng quát của các thủ tục phân cụm phân cấp bất biến 31 4 3.4. Một tiếp cận thuyết đồ thị để tính bao đóng bắc cầu 35 3.5. Các thủ tục phân cụm với các hàm hàng xóm đồng nhất 38 3.6. Lựa chọn các cụm có giá trị 41 3.7. Các thủ tục với các hàm hàng xóm không đồng nhất 43 3.8. Kết quả thực nghiệm 44 3.8.1. Chương trình 44 3.8.3. Ví dụ dữ liệu chuỗi thời gian 48 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 57 TÀI LIỆU THAM KHẢO 58 5 DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT FN Furthest Neighbour NN Nearest Neighbour PCDL Phân cụm dữ liệu UPGMA Un-Weighted Pair-Group Method using Arithmetic averages BIRCH Balanced Iterative Reducing and Clustering Using Hierarchies UWGMA Un-weighted Within-Group Method using Arithmetic averages BIRCH Balanced Iterative Reducing and Clustering Using Hierarchies CURE Clustering Using Representatives Ultrametric Siêu metric 6 DANH MỤC CÁC HÌNH VẼ Hình 1.1: Phân loại kiểu dữ liệu dựa trên kích thước miền. 12 Hình 1.2: Phân loại kiểu dữ liệu dựa trên hệ đo. 13 Hình 1.3: Dữ liệu chữ thập với các mêtric : a) Euclide; b) Mahattan 17 Hình 1.4: Kết quả phân cụm thay đổi khi đổi tỷ lệ trục tọa độ. a) {Hùng, Bạo }, {Cường Lực}; b) {Cường, Bạo}, {Hùng, Lực} 17 Hình 2.1: Phân cụm tập S = {a, b, c, d, e} theo phương pháp “dưới lên” 19 Hinh 2.2: Cây CF sử dụng trong Birch 21 Hình 2.3: Di chuyển về tâm. 23 Hình 2.4: Kết nhập tại mỗi bước. 24 Hình 2.5 Cụm dữ liệu khai phá bởi thuật toán Cure 24 Hình 3.1: Sự không bất biến của thuật toán liên kết trung bình đối với đánh số khởi tạo các đối tượng: (a) 7 đối tượng phân bố đều trên hình tròn; (b-c) hai đánh số khác nhau của các đối tượng; (d) sơ đồ phân cấp đạt được từ các đánh số và kết quả phân cụm của các đối tượng {{a,b},g,{c,d},{e,f}} và {{b,c},a},{d,e},{f,g}} 28 Hình 3.2: (a) Đồ thị quan hệ tương tự khởi tạo S; (b-d) Các đồ thị có thể có của quan hệ tương đương E đạt được bởi thủ tục phân cụm từ S. 40 Hình 3.3: Dữ liệu “butterfly” 43 Hình 3.4: Sơ đồ khối chương trình 45 Hình 3.5: Giao diện chính của chương trình 45 Hình 3.6: Dữ liệu các cụm tự nhiên 46 Hình 3.7: Chuỗi thời gian chuỗi thời gian 20 năm từ 1994 đến năm 2013 của GDP bình quân đầu người của 16 nước 50 Hình 3.8: Cây phân cấp với f 1 , f 2 , f 3 đồng nhất; j = 1; p= 0.5; h 1 53 7 DANH MỤC CÁC BẢNG BIỂU Bảng 1: Bảng giá trị tham số 14 Bảng 3.1: Khoảng cách giữa bảy điểm phân bổ đều trên hình tròn (Hình 3.1) 28 Bảng 3.2: Tọa độ butterfly 43 Bảng 3.3: Bảng các giá trị không tương tự các điểm hình 3.6 46 Bảng 3.4: GDP bình quân đầu người từ năm 1994 đến 2013 nước quy USD 48 Bảng 3.5: Giá trị độ đo tương tự xu hướng địa phương của 16 nước với nhau 51 Bảng 3.6: Giá trị đã được tinh chỉnh độ đo tương tự xu hướng địa phương 51 Bảng 3.7: Cây khung lớn nhất 52 Bảng 3.8: Giá trị đã tính bao đóng bắc cầu độ đo tương tự xu hướng địa phương 52 8 MỞ ĐẦU Tin học hóa một cách nhanh chóng trong hoạt động sản xuất, kinh doanh đã tạo ra cho chúng ta một lượng dữ liệu lưu trữ khổng lồ. Hàng triệu cơ sở dữ liệu cực lớn cỡ Gigabyte, thậm chí là Terabyte đã được tạo ra. Với lượng dữ liệu lưu trữ khổng lồ này, các kỹ thuật khai phá dữ liệu cũ bộc lộ nhiều hạn chế, dẫn tới yêu cầu cần phải có những kỹ thuật mới để chuyển đổi dữ liệu khổng lồ thành các tri thức có ích. Những năm gần đây, các kỹ thuật khai phá dữ liệu “nóng” trở lại và trở thành một lĩnh vực thời sự của nền công nghệ thông tin [1,2,7,10,11,12…]. Luận văn này trình bày khảo cứu của tác giả về lược đồ tham số tổng quát cho các thủ tục phân cụm phân cấp với tính bất biến qua các biến đổi đơn điệu các giá trị tương tự và tính bất biến qua đánh số các đối tượng. Lược đồ này bao gồm 2 bước: tinh chỉnh những giá trị tương tự được đưa ra giữa các đối tượng và bao đóng bắc cầu của quan hệ định trị đạt được. Luận văn cũng khảo cứu vài thuộc tính về mặt lý thuyết của lược đồ đã được chỉ ra, và các lớp tham số khác nhau từ lược đồ dựa trên nhận thức như kiểu “giữ các lớp tương tự”, “ngắt các cầu giữa các cụm.” Có ít nhất hai mục đích khi tiến hành phân tích giá trị tương tự giữa các đối tượng trong một tập: (1) chia tập đối tượng thành các lớp các đối tượng tương tự và (2) phân tích cấu trúc tương tự của tập này. Nhiều thuật toán phân cụm hướng đến chia tập đối tượng đã cho thành một số cho trước các lớp đối tượng tương tự, mà không đưa ra cấu trúc đặc trưng nhưng các thuật toán này phù hợp dữ liệu với một vài mô hình định trước [16,27]. Người dùng có thể rất hài lòng với những cụm tốt đạt được đối với dữ liệu của mình bởi thủ tục phân cụm chuẩn nào đó, nhưng rất có thể cấu trúc các cụm đạt được không phản ánh cấu trúc dữ liệu thực chất của dữ liệu mà bị áp đặt bởi các chi tiết kỹ thuật của thuật toán phân cụm được áp dụng. Một trong những nguyên nhân của nhược điểm này trong nhiều thuật toán phân cụm phổ biến là từ tính không bất biến của các thuật toán này với việc đánh số (hoán vị, xếp thứ tự) các đối tượng. Việc đổi trật tự đánh số các đối tượng tại đầu vào của thủ tục phân cụm không bất biến thường gây ra sự thay đổi các kết quả của phân cụm. Có nghĩa là việc phân cụm đạt được đối với cách đánh số đối tượng đã cho không phản ánh cấu trúc của tập các đối tượng. Một ví dụ đơn giản của sự không bất biến như vậy của các thuật toán cổ điển được xét trong Chương 3, mục 3.1. Đòi hỏi tính bất biến của các thuật toán phân cụm đối với đánh số các đối tượng trong phân tích cụm là đòi hỏi quan trọng nhất [2,7,9,22], nhưng thật không may, đa số các thuật toán phân cụm phổ biến không thỏa mãn thuộc tính này. Thuộc tính này được thỏa mãn trong thuật toán liên kết đơn (còn được gọi là hàng xóm gần nhất) và được trình bày trong [16,22-24]. Thuật toán này xây dựng loạt chuỗi các cụm và chính vì lý do đó nó chỉ phản ánh một quan điểm cụ thể với “cụm” và không luôn luôn được chấp nhận. Luận văn quan tâm tới lược đồ [...]... 2: Phân cụm dữ liệu hướng tiếp cận phân cấp 10 Chương này trình bày khái niệm phân cụm phân cấp (PCPC) và giới thiệu một số phương pháp, giải thuật của phân cụm phân cấp Chương 3: Các thủ tục phân cụm phân cấp bất biến Chương này trình bày lược đồ các thủ tục phân cụm bất biến, phân cụm với các hàm đồng nhất, không đồng nhất, cụm có giá trị, và ví dụ minh họa 11 CHƯƠNG I: TỔNG QUAN VỀ PHÂN CỤM 1.1 Phân. .. CÁC LƯỢC ĐỒ PHÂN CỤM PHÂN CẤP BẤT BIẾN 3.1 Các thủ tục phân cụm bất biến và không bất biến Chúng ta quan tâm một ví dụ rất đơn giản của một tập 7 điểm đối xứng được đặt ở một vòng tròn (Hình 3.1) Hình 3.1: Sự không bất biến của thuật toán liên kết trung bình đối với đánh số khởi tạo các đối tượng: (a) 7 đối tượng phân bố đều trên hình tròn; (b-c) hai đánh số khác nhau của các đối tượng; (d) sơ đồ phân. .. hết các thủ tục phân cụm phổ biến là không bất biến đối với đánh số các đối tượng Chúng có thể đưa ra sự phân chia dữ liệu “tốt” với các cụm nhưng sự phân chia này thậm chí nếu nó tối ưu, một vài tiêu chí tối ưu có thể không có tác dụng gì đối với việc phân tích cấu trúc dữ liệu tương tự Các mục tiếp theo đề cập lược đồ tham số của các thủ tục phân cụm, các thủ tục này bất biến đối với đánh số các. .. số các đối tượng và đối với biến đổi đều của các giá trị tương tự, thủ tục phân cụm sẽ thỏa mãn cả hai loại bất biến nếu thủ tục tinh chỉnh cũng thỏa mãn hai bất biến trên Vài lược đồ của các thủ tục tinh chỉnh tham số bất biến như vậy được đưa ra nghiên cứu trong luận văn Để xây dựng thủ tục phân cụm hợp lý trong lược đồ quan tâm, cần thiết phải đề xuất thủ tục hiệu chỉnh phù hợp Luận văn khảo cứu các. .. CURE và lược đồ liên quan lờ đi thông tin về liên kết của các đối tượng trong hai cụm khác nhau, trong khi ROCK lược đồ liên quan lờ đi thông tin về gần nhau của hai cụm mà lại chú trọng quá về liên kết CURE sử dụng thuật toán phân hoạch đồ thị để phân cụm các đối tượng dữ liệu vào trong một số lớn một cách tương đối nhỏ của các cụm con Chameleon sử dụng thuật toán phân cụm phân cấp để tìm các cụm xác... Hình 2.5 Cụm dữ liệu khai phá bởi thuật toán Cure Để xử lý được các CSDL lớn, CURE sử dụng ngẫu nhiên và phân hoạch, một mẫu là được xác định ngẫu nhiên trước khi được phân hoạch, và sau đó được tiến hành phân cụm trên mỗi phân hoạch, như vậy mỗi phân hoạch là từng phần đã được phân cụm, các cụm thu hoạch, như vậy mỗi phân hoạch là từng phần đã được phân cụm, các cụm thu được lại được phân cụm lần thứ... tham số của các thủ tục phân cụm bất biến, lược đồ này đa dạng quan điểm đối với cụm và bao gồm thuật toán liên kết đơn như là một trường hợp cụ thể Một đòi hỏi quan trọng khác đối với thuật toán phân cụm là bất biến với sự biến đổi đều của các giá trị tương tự giữa các đối tượng [19,22,23,25] Đòi hỏi này là cần thiết đối với thuật toán phân cụm nếu các giá trị tương tự được ước lượng bởi các chuyên... cảm của các kết quả phân cụm đối với việc chọn độ đo tương tự hoặc độ đo không tương tự Luận văn khảo cứu lược đồ tổng quát của thủ tục phân cụm phân cấp thỏa mãn cả hai sự đòi hỏi bất biến được quan tâm ở trên Lược đồ này được đề xuất đầu tiên bởi Batyrshin [3-5] dựa vào khái niệm quan hệ tương đương mờ, khái niệm này được giới thiệu và nghiên cứu trong [29,31] Thủ tục phân cụm trong lược đồ này bao... lớp biến đổi như vậy thì kết quả của thủ tục phân cụm sẽ thỏa mãn tính chất “giữ nguyên các lớp tương tự” Kết quả này được dùng xa hơn đối với việc xây dựng thủ tục phân cụm, “ngắt” các lớp tương tự được xem như các cầu” giữa các cụm Ngoài phần kết luận, cấu trúc nội dung của luận văn bao gồm 3 chương: Chương 1: Tổng quan về phân cụm dữ liệu Chương này trình bày khái niệm chung về phân cụm dữ liệu, các. .. hệ mờ, trong lý thuyết đồ thị, trong phân tích cụm và được thấy rõ trong phương pháp phân cụm liên kết đơn [17] hoặc trong các thuật toán đặc biệt [26, 28] Thủ tục bao đóng bắc cầu TC sở hữu cả hai loại bất biến đã được bàn luận ở trên Khi thủ tục tinh chỉnh F cũng thỏa mãn cả hai loại bất biến, thì thủ tục phân cụm Q cũng sẽ thỏa mãn cả hai tính chất bất biến Một thủ tục phân cụm bao gồm hai thủ tục . 3: CÁC LƯỢC ĐỒ PHÂN CỤM PHÂN CẤP BẤT BIẾN 28 3.1. Các thủ tục phân cụm bất biến và không bất biến 28 3.2. Các định nghĩa cơ bản 29 3.3. Lược đồ tổng quát của các thủ tục phân cụm phân cấp. thuật của phân cụm phân cấp. Chương 3: Các thủ tục phân cụm phân cấp bất biến Chương này trình bày lược đồ các thủ tục phân cụm bất biến, phân cụm với các hàm đồng nhất, không đồng nhất, cụm có. giả về lược đồ tham số tổng quát cho các thủ tục phân cụm phân cấp với tính bất biến qua các biến đổi đơn điệu các giá trị tương tự và tính bất biến qua đánh số các đối tượng. Lược đồ này bao