THUẬT TOÁN TẮC KÈ HOA DỰA TRÊN CẢI THIỆN BIỂU ĐỒ LÂN CẬN TỰ NHIÊN TẠO CÁC CỤM CON

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	25
Dung lượng	8,84 MB

Nội dung

THUẬT TOÁN TẮC KÈ HOA DỰA TRÊN CẢI THIỆN BIỂU ĐỒ LÂN CẬN TỰ NHIÊN TẠO CÁC CỤM CON Yuru Zhang1 Shifei Ding1,2 Yanru Wang1 Haiwei Hou1 Accepted 24 March 2021 The Author(s), under exclusive licen.THUẬT TOÁN TẮC KÈ HOA DỰA TRÊN CẢI THIỆN BIỂU ĐỒ LÂN CẬN TỰ NHIÊN TẠO CÁC CỤM CON

THUẬT TOÁN TẮC KÈ HOA DỰA TRÊN CẢI THIỆN BIỂU ĐỒ LÂN CẬN TỰ NHIÊN TẠO CÁC CỤM CON Yuru Zhang1 & Shifei Ding1,2 & Yanru Wang1 & Haiwei Hou1 Accepted: 24 March 2021 # The Author(s), under exclusive licence to Springer Science+Business Media, LLC, part of Springer Nature 2021 TĨM LƯỢC Thuật tốn tắc kè hoa phân cụm dựa mơ hình động Nó tìm thấy cụm chất lượng cao với đặc trưng hình dạng, kích thước, mật độ Tuy nhiên thuật tốn tắc kè hoa yêu cầu tham số định xây dựng biểu đồ thưa thớt, việc ảnh hưởng trực tiếp tới hiệu suất phân cụm Ngoài ra, thuật toán hMetis phân vùng đồ thị sử dụng thuật tốn ban đầu khó xây dựng mơi trường hoạt động số lượng phân vùng cần định Đây vấn đề khó khăn cần xác định mà khơng có kiến thức từ trước Để khắc phục vấn đề đầu tiên, báo giới thiệu phương pháp tự nhiên cải thiện từ phương pháp xây dựng biểu đồ thưa thớt lân cận, phản ánh độ thưa thớt ban đầu liệu Để giải vấn đề thứ hai, báo đề xuất phương pháp để tạo cụm đồ thị thưa thớt, đơn giản khách quan Tóm lại, báo đề xuất Thuật toán tắc kè hoa tạo cụm dựa vào việc cải thiện đồ thị lân cận tự nhiên (INNGS Chameleon) Thuật toán thử nghiệm dựa tập liệu tổng hợp 10 tập liệu UCI (UCI Machine Learning Repository – Kho lưu trữ học máy UCI) Kết so sánh với Thuật toán tắc kè hoa, thuật tốn tiến với số thuật toán cổ điển Kết thực nghiệm cho thấy thuật toán INNGS Chameleon khả thi hiệu GIỚI THIỆU Ngày thời đại công nghệ thông tin, khám phá điều chưa biết đến giới kỹ thuật số Làm để có kiến thức hữu ích từ liệu quy mơ lớn để sử dụng hợp lý nguồn thông tin trở thành nhu cầu rộng rãi [1] Do đó, khai thác liệu xuất vào thời điểm lịch sử Phân cụm công cụ quan trọng công nghệ khai thác liệu phương pháp phân tích liệu phổ biến [2, 3] Phân cụm để phân chia trường hợp tương tự vào cum theo đặc điểm liệu đối tượng, mức độ tương tự cá thể cụm khác thấp, để tìm cấu trúc ẩn liệu tìm kiếm thơng tin có giá trị liệu phức tạp [4-6] Trong năm gần đây, phân tích cụm sử dụng rộng rãi nhiều khía cạnh, chẳng hạn tin sinh học [7], nhận dạng mẫu [8], xử lý ảnh [9], sở liệu khai phá tri thức [10] v.v Theo đặc điểm khác nhau, chung có phương pháp phân cụm phân loại thành năm lớp: phân cụm dựa phân vùng, phân cụm dựa mật độ, phân cụm dựa lưới, phận cụm dựa mơ hình phân cụm phân cấp [11] Trong số nhiều thuật tốn phân cụm, phân nhóm phân cấp thuật toán phổ biến Phân cụm theo thứ bậc phân tách tập liệu theo thứ bậc xây dựng cụm dựa vào cấu trúc phân cấp liệu để tạo thành với cụm giao điểm Theo phương pháp phân rã thứ bậc, phân nhóm phân cấp chia thành chế độ từ lên từ xuống, tương ứng với phân cấp tổng hợp phân cụm phân cụm phân cấp theo thứ bậc [12-14] Tại bắt đầu phân cụm phân cấp hội tụ, đối tượng cụm, Theo tiêu chí định, hai cụm hợp để tạo thành cụm sau lần, tất đối tượng thành cụm đáp ứng điều kiện kết thúc định Ở phân cụm phân cấp, tất đối tượng thuộc cùm từ đầu Mỗi cụm chia thành nhiều cụm theo tiêu chí định đối tượng cụm đạt đến điều kiện chấm dứt định Theo thứ bậc thuật toán phân cụm, hai cụm hợp thành cụm cụm chia thành hai cụm mới, trình xử lý hoạt động cụm trình xử lý trước khơng thể bị thu hồi [15] Do đó, cụm phải lựa chọn ẩn c cẩn thận trước định tách hợp Các thuật toán phân cụm phân cấp cổ điển biểu diễn sau: BIRCH [16] (Lặp lại cân Giảm phân cụm cách sử dụng cấu trúc phân cấp) sử dụng tính theo cụm để tìm cụm tốt cách duyệt liệu lần cải thiện chất lượng phân cụm với duyệt bổ sung CURE [17] (Phân cụm sử dụng đại diện) sử dụng trung điểm điểm dựa trọng tâm điểm cực trị toàn phần, xác định cụm có hình dạng mạnh mẽ ngoại lệ ROCK [18] (Phân cụm Mạnh mẽ cách sử dụng liên kết) đề xuất khái niệm liên kết đến cân nhắc giống cặp đối tượng liệu thuật toán phù hợp với liệu có boolean phân loại thuộc tính Thuật toán Chameleon [19] đo độ giống cụm cách dựa lựa chọn dựa khả kết nối lẫn gần gũi cụm có nhìn sâu sắc cụm có nhiều khác biệt hình dạng, kích thước mật độ Thuật tốn tắc kè hoa tập hợp phân cấp cổ điển hình, cần tách khỏi tổng thể Thuật toán tắc kè hoa bao gồm ba bước: Bước thứ nhất, cấu trúc đồ thị k-lân cận gần cách lập mơ hình ban đầu tập liệu; Bước thứ hai, Chameleon sử dụng thuật toán hMetis [20] cơng nghệ phân vùng đồ thị để phân vùng k đồ thị lân cận gần với mục đích tìm cụm ban đầu; Bước cuối cùng, chức bao gồm liên kết tương đối tương đối gần sử dụng làm tiêu chuẩn để tìm cụm nhiều lần hợp cụm Thuật toán tắc kè hoa kết hợp khoảng cách khả kết nối để đo cặp cụm tương tự nhất, loại bỏ phụ thuộc thuật toán truyền thống vào mẫu tĩnh Nó tự động thích ứng với tính bên cụm hợp xác định cách nhạy cảm cụm với hình dạng tùy ý Mặc dù thuật toán Chameleon hoạt động tốt, cịn số thiếu sót Đầu tiên, thuật toán tắc kè hoa cần phải xây dựng đồ thị thưa k-lân cận gần Các lựa chọn k-giá trị can thiệp thủ cơng, điểm nhạy cảm có phạm vi rộng, giá trị khác có ảnh hưởng lớn đến kết phân cụm [21] Thứ hai, khó xây dựng mơi trường cho việc sử dụng thuật tốn hMetis thuật tốn Hơn nữa, thuật tốn hMetis chia hai cụm khơng liên quan với nhau, dẫn đến không hợp lý phân vùng Để giải thiếu sót Chameleon, nhiều nhà nghiên cứu cải tiến thuật tốn từ khía cạnh khác Trong giai đoạn Tắc kè hoa, giai đoạn thưa thớt, Zhang et al [22] đề xuất thuật toán E_CFSFDP, thuật toán kết hợp thuật tốn Chameleon với CFSFDP (phân nhóm cách tìm kiếm nhanh tìm đỉnh mật độ) Nó mang lại biến thể k-đồ thị lân cận gần nhất, sau sử dụng Thuật tốn CFSFDP để tạo cụm ban đầu, điều chứng minh hiệu ứng phân cụm mức độ lớn Trong đồ thị giai đoạn phân vùng, Barton et al [23] đề xuất thuật tốn Chameleon để tạo phân nhóm chất lượng cao, thuật tốn phân vùng chia đôi thực phương pháp lấp đầy giới thiệu để tiếp tục tạo cân phân vùng đồ thị Guo cộng [24] đề xuất cải tiến thuật toán Chameleon, AChameleon, thuật toán phân cụm phân cấp tập trung dựa thuật tốn AGENES Nó thay thuật toán hMetis truyền thống để tạo cụm trực tiếp Trong giai đoạn hợp nhất, Zhang et al [21] đưa khái niệm môđun MC để hướng dẫn hợp thuật tốn Chameleon tìm kiếm trực tiếp kết phân cụm cuối Các thuật toán có số cải tiến, cịn số vấn đề Để khắc phục thiếu sót Chameleon, báo đề xuất thuật toán tắc kè hoa dựa cải tiến biểu đồ lân cận tự nhiên tạo cụm (INNGS Chameleon) Phương pháp lân cận tự nhiên thích ứng để tạo biểu đồ lân cận áp dụng theo tính cục loại tập liệu Do đó, ý tưởng lân cận tự nhiên giới thiệu Để áp dụng tốt cho Thuật toán tắc kè hoa, thuật toán lân cận tự nhiên cải tiến đề xuất để xây dựng biểu đồ lân cận tự nhiên áp dụng cho giai đoạn thưa thớt Chameleon Sau đó, phương pháp tạo cụm vùng lân cận tự nhiên cải thiện đồ thị đề xuất áp dụng cho giai đoạn thứ hai Thuật toán tắc kè hoa Phương pháp tạo thành cụm mối quan hệ lân cận liệu tận dụng tốt biểu đồ lân cận tự nhiên để xác định cụm bản, đặc biệt cụm phổ biến nhiễu Nói chung, chuyên ngành đóng góp báo là: (1) Một thuật toán lân cận tự nhiên cải tiến đề xuất để xây dựng biểu đồ thưa thớt, không loại bỏ độ nhạy cảm tham số đồ thị thưa thớt k-lân cận gần thuật toán Chameleon ban đầu, nhận cụm tập liệu (2) Chúng đề xuất phương pháp để tạo cụm đồ thị lân cận tự nhiên cải thiện Nó sử dụng tự nhiên biểu đồ lân cận để xác định đặc điểm mức tăng trưởng cụm tập liệu tránh một loạt vấn đề thuật toán hMetis gây (3) Kết thử nghiệm cho thấy thuật toán INNGS Chameleon có hiệu suất phân nhóm tốt thuật tốn Chameleon, cải tiến thuật toán Chameleon thuật toán phân cụm truyền thống khác nhiều liệu giảm bớt thông số người dùng định Các chương lại xếp sau: Trong Phần 2, giới thiệu nguyên lý thuật toán Chameleon ý tưởng lân cận tự nhiên Trong Phần 3, mô tả chi tiết thuật toán INNGS Chameleon đề xuất báo Ở Phần 4, hiển thị kết thực nghiệm tổng hợp tập liệu tập liệu UCI, sau phân tích hiệu suất thuật tốn, cuối chúng tơi kết luận báo thách thức tương lai 2 CƠNG VIỆC LIÊN QUAN 2.1 Thuật tốn tắc kè hoa ban đầu Quy trình tổng thể thuật tốn Chameleon để tìm cụm tập liệu trình bày Hình [19] Để bắt đầu, thuật toán Chameleon xây dựng biểu đồ thưa thớt từ liệu, sau tạo cụm ban đầu cách sử dụng thuật toán phân vùng đồ thị, cuối chọn hợp cặp cụm để thu cụm xác cách xem xét tính liên kết tương đối độ gần tương đối Ưu điểm Chameleon giai đoạn hợp nhất, khơng xem xét mối quan hệ cấu trúc cụm hợp mà xem xét đặc điểm bên cụm Theo đó, thuật tốn tắc kè hoa khơng bị ảnh hưởng mơ hình tĩnh ban đầu tìm thấy cách thích ứng cụm có hình dạng, mật độ kích thước đa dạng Cụ thể hơn, thuật toán Chameleon chủ yếu bao gồm ba bước: thưa thớt, phân vùng hợp (1) Sự thưa thớt Hầu hết thuật toán phân cụm coi mối quan hệ đối tượng liệu tất đối tượng khác, số mối quan hệ yếu Bằng cách này, lượng liệu tăng lên nhiều giảm hiệu hoạt động Bước thuật toán Chameleon làm thưa thớt liệu, điều nén lượng lớn liệu mà cụm cần xử lý Giả sử có điểm liệu X = {x1, x2, , xn} Trong thuật toán này, đồ thị k-lân cận gần GKNN = (V, E) xây dựng cho liệu thưa thớt X, V tập đỉnh E tập cạnh Trong biểu đồ thưa thớt GKNN, đỉnh đối tượng liệu cạnh có nghĩa giống đối tượng liệu K-lân cận gần đối tượng tập hợp đối tượng gần với k đối tượng [25] Nếu có xj k-lân cận gần xi, cạnh có trọng số thêm vào hai đỉnh trọng số cạnh nghịch đảo khoảng cách đỉnh Tính tốn khoảng cách cơng thức khoảng cách Euclide Ngược lại, khơng có cạnh hai đỉnh, nghĩa hai đối tượng khơng có quan hệ với Nói chung, lựa chọn k cần phải định theo cách thủ công giá trị lớn k làm cho ranh giới cụm phân biệt (2) Phân vùng Trong bước thứ hai, đồ thị k-lân cận gần phân chia thành số đồ thị thuật toán hMetis Các biểu đồ giống cụm ban đầu bước thứ ba Chameleon số lượng biểu đồ yêu cầu phải định người dùng hMetis thuật toán phân giác siêu đồ thị nhiều cấp [20], chất chia đôi đồ thị Sau phân vùng, nhận cụm có kích thước tương tự điểm liệu có độ tương đồng cao biểu đồ Rất tiếc lấy mã nguồn hMetis [23] (3) Hợp Phân nhóm phân cấp tổng hợp quay lui sau chọn cặp cụm hợp Nếu khơng chọn tốt bước này, trực tiếp dẫn đến kết phân cụm Thuật toán Chameleon thận trọng bước sử dụng phương pháp để mơ hình hóa tính liên kết gần gũi cặp cụm, xem xét đầy đủ đặc điểm cấu trúc bên liệu Chức đo độ tương đồng thuật tốn phân cụm Chameleon bao gồm tính liên kết tương đối tính gần gũi tương đối Định nghĩa [19]: Tính liên kết tương đối Sự liên kết tương đối cụm định nghĩa là: Trong ∣EC (Ci, Cj) ∣ tổng trọng số cạnh tạo thành cụm Ci Cj, ∣EC (Ci) ∣ tổng trọng số cạnh qua đường phân giác cắt chia cụm Ci hai phần gần Theo cách tương tự, ∣EC (Cj) ∣ tổng trọng số cạnh qua đường phân giác cắt nhỏ chia cụm Cj thành hai phần gần Định nghĩa [19]: Sự gần gũi tương đối Sự gần gũi tương đối cụm Ci Cj hiển thị công thức sau Chương Phần (2): Trong C jÞ trọng lượng trung bình cạnh, cụm Ci Cj SECðCiÞ SEC Cj trọng số trung bình cạnh cắt đường phân giác cắt cụm Ci Cj | Ci | | Cj | số đỉnh cụm Định nghĩa [19]: Tương tự Độ tương tự thuật toán Chameleon hợp cụm đo lường theo kết nối tương đối độ gần tương đối, thể cơng thức (3): Trong α tham số cân điều chỉnh hai số này: α > 1, điều có nghĩa độ gần tương đối có ảnh hưởng nhiều đến giống nhau; ngược lại, α < 1, có tầm quan trọng cao tính liên kết tương đối Trong thuật toán cải tiến báo này, cho α = 1, có nghĩa liên kết tương đối độ gần tương đối quan trọng trình hợp cụm Thuật toán tắc kè hoa ghép cặp cụm sim lớn để tạo thành cụm thực 2.2 Lân cận tự nhiên Phương pháp Lân cận Tự nhiên đề xuất Zhu et al [26] lấy cảm hứng từ tình bạn xã hội lồi người Thuật tốn khắc phục thiếu sót k lân cận gần cần tham số người dùng định xác định hiệu vùng lân cận mà không cần tham số Phương pháp lân cận tự nhiên lựa chọn cách thích nghi mối quan hệ lân cận với đối tượng khác Nếu đối tượng nằm khu vực sử dụng nhiều liệu, mối quan hệ lân cận tự nhiên nhiều hơn; ngược lại, nơi thưa thớt quan hệ lân cận tự nhiên yếu Tính lân cận tự nhiên chủ yếu phản ánh ba khía cạnh: khu vực lân cận, thuật tốn tìm kiếm số lượng lân cận Định nghĩa [26]: Vùng lân cận Giả sử X = {x1, x2, , xn} tập hợp điểm liệu tìm KNN (xi, n) biểu thị chức tìm kiếm lân cận gần thứ n điểm xi Sau đó, vùng lân cận r đối tượng biểu thị biểu thức: Định nghĩa [26]: Trạng thái tìm kiếm ổn định Thực tìm kiếm vùng lân cận tất đối tượng, cho r = 1, 2, 3, , N định nghĩa Trong trình tìm kiếm này, sau điều kiện đáp ứng lần đầu tiên: (∀x) (∃x) (x ≠ x) → (xi ∈ KNNr (xj)) ∧ (xj ∈ KNNr (xi)) coi trạng thái lúc đạt trạng thái ổn định Giả sử điều kiện đáp ứng lần vịng tìm kiếm thứ λ (1 ≤ λ ≤ N), trạng thái tìm kiếm ổn định đối tượng nào, có nhiều đối tượng, cho chúng λ lân cận gần Ngược lại, sau tìm kiếm vịng, đối tượng có khơng có λ-1 lân cận với Định nghĩa [26]: Lân cận tự nhiên Khi thuật tốn tìm kiếm ổn định cách tự nhiên, điểm liệu lân cận gần lân cận tự nhiên Giả sử sau vịng tìm kiếm thứ λ, trạng thái tìm kiếm ổn định, điểm liệu xi xj chúng lân cận nhau, có mối quan hệ sau: Trong NNλ (xi) tập lân cận tự nhiên điểm xi NNλ (xj) tập lân cận tự nhiên xj Lân cận tự nhiên có hai đặc điểm: tính bất biến tính ổn định Thuộc tính bất biến có nghĩa xi nằm tập lân cận tự nhiên xj thuật tốn khơng đạt đến trạng thái ổn định tìm kiếm, xi lân cận tự nhiên xj thuật toán đạt trạng thái ổn định Tính ổn định tập liệu, thuật toán lặp lại lần, tập lân cận tự nhiên điểm thu thuật tốn tìm kiếm lân cận tự nhiên không thay đổi INNGS – THUẬT TOÁN TẮC KÈ HOA Lân cận tự nhiên có ưu việc tự động thích ứng với thưa thớt liệu, việc xây dựng đồ thị lân cận tự nhiên cách hiệu để thể mối quan hệ tập liệu Giai đoạn thuật tốn Chameleon cần phải xây dựng đồ thị thưa thớt, đồ thị lân cận tự nhiên áp dụng cách mù quáng cho giai đoạn đầu thuật tốn Chameleon, tập hợp kết khơng xác nhiều tập liệu Do đó, để làm cho áp dụng cho tất tập liệu, báo đề xuất phương pháp lân cận tự nhiên cải tiến để xây dựng đồ thị thưa thớt Thứ hai, phương pháp tạo cụm đề xuất dựa mối quan hệ đồ thị thưa thớt, không tận dụng tốt ưu điểm đồ thị thưa xác định cụm mà tránh khuyết điểm thuật toán Chameleon truyền thống sử dụng đồ thị - công nghệ phân vùng 3.1 Biểu đồ lân cận tự nhiên cải thiện Số lượng lân cận cho điểm liệu phương pháp lân cận tự nhiên khơng qn Các điểm dày đặc có xu hướng có nhiều lân cận hơn, điểm thưa thớt có lân cận Xây dựng đồ thị lân cận tự nhiên GNN = (V, E′) theo phương pháp lân cận tự nhiên 2.2, V tập đỉnh E tập cạnh Tương tự đồ thị k-lân cận gần nhất, đỉnh biểu diễn đối tượng liệu Nếu có mối quan hệ lân cận tự nhiên đối tượng liệu, có cạnh hai đỉnh Trọng lượng cạnh nghịch đảo khoảng cách đỉnh Hình cho thấy đồ thị gốc (a), đồ thị lân cận gần (b), đồ thị lân cận gần (c) đồ thị lân cận tự nhiên (d) tập liệu hai chiều Qua hình vẽ biết so với đồ thị lân cận gần nhất, việc xây dựng đồ thị lân cận tự nhiên khơng khơng có tham số mà cịn xác định mật độ liệu thưa thớt Do đó, việc thay k-đồ thị lân cận gần thuật toán Chameleon đồ thị lân cận tự nhiên có lợi rõ ràng Tuy nhiên, người ta thấy thí nghiệm cho thấy đồ thị lân cận tự nhiên trực tiếp thay đồ thị lân cận k-gần thuật toán Chameleon thưa thớt, khơng thể áp dụng cho tất tập liệu Các đồ thị lân cận tự nhiên tập liệu Jain tập liệu Lineblob thể Hình Các màu khác biểu đồ thể đồ thị khác Rõ ràng thành phần kết nối lớn số lượng cụm thực chúng Ví dụ, Hình 3a, biểu đồ lân cận tự nhiên tập liệu Jain có sáu thành phần kết nối, tức sáu đồ thị không liên quan với Bất kể thuật toán Chameleon kết hợp sáu đồ thị nào, thuật tốn khơng kết hợp sáu đồ thị Do đó, sau phân cụm thuật tốn Chameleon, sáu cụm hình thành Tuy nhiên, số cụm thực tập liệu Jain Rõ ràng, đồ thị thưa thớt xây dựng trực tiếp từ loại đồ thị lân cận tự nhiên này, kết phân cụm bị ảnh hưởng nghiêm trọng Do đó, báo đề xuất phương pháp lân cận tự nhiên cải tiến, sử dụng để xây dựng biểu đồ lân cận tự nhiên làm cho phù hợp với thuật tốn Chameleon Trong q trình tìm kiếm phương pháp lân cận tự nhiên, lần cần đáp ứng điều kiện sau: Với ∀xi, có xjsuch (xi ∈ KNNr (xj)) ∧ (xj ∈ KNNr (xi)), coi trạng thái lúc đạt đến trạng thái ổn định Trong thuật toán cải tiến, chúng tơi thêm phán đốn thành phần kết nối biểu đồ Sau đạt đến trạng thái ổn định thuật toán lân cận tự nhiên lần đầu tiên, số lượng thành phần kết nối tính tốn ký hiệu asc Nếu c nhỏ số cụm, coi trạng thái cuối cùng; lớn số cụm cuối cùng, chúng tơi tiếp tục vịng tìm kiếm tiếp theo, tức tăng lên 1, thành phần kết nối nhỏ số cụm cuối Mặc dù số lượng cụm cần người dùng định, tham số đưa vào thuật tốn Tuy nhiên, mục đích cuối thuật tốn áp dụng vào thuật tốn Chameleon Trong thuật tốn Chameleon, thân thơng số cần người dùng định Do đó, từ quan điểm tồn thuật tốn, khơng có tham số đưa vào Phương pháp lân cận tự nhiên cải tiến sử dụng để xây dựng đồ thị thưa thớt thuật tốn chúng tơi quy trình giải thuật cụ thể trình bày Thuật tốn 3.2 Tạo cụm Trong bước thứ hai thuật tốn Chameleon, chúng tơi tìm kiếm phương pháp để tạo thẳng cụm cách tham khảo quy trình phân cụm thuật tốn cổ điển K-Means ++ [27] Đầu tiên, trung tâm cụm tìm thấy phương pháp K- Means ++ để chọn trung tâm cụm ban đầu, có phân bố tập liệu đồng Khoảng cách đối tượng trung tâm cụm tính tốn mối quan hệ biểu đồ lân cận tự nhiên cải thiện Trong trường hợp này, khoảng cách độ dài đường dẫn biểu đồ thưa thớt Cuối cùng, đối tượng trung tâm cụm gán cho trung tâm cụm gần Sau loạt bước trên, nhiều cụm hình thành, sử dụng cụm ban đầu giai đoạn hợp Quy trình cụ thể trình tạo cụm mơ tả Thuật tốn 3.3 Quy trình thuật tốn tắc kè hoa INNGS Thuật toán INNGS-Chameleon cải tiến thuật toán Chameleon dựa lân cận tự nhiên cải tiến phương pháp tạo cụm Q trình thuật tốn INNGS-Chameleon kết luận Thuật toán Tương tự, thuật toán tắc kè hoa INNGS chia thành ba bước Thứ nhất, giai đoạn thưa thớt, k-đồ thị thưa thớt lân cận gần thay biểu đồ cải tiến biểu đồ lân cận tự nhiên, hoàn toàn khách quan có cấu trúc Thứ hai, giai đoạn phân vùng đồ thị, Thuật toán sử dụng để tạo thẳng cụm để làm dấu chấm lửng biểu đồ trình phân đoạn, giúp loại bỏ loạt vấn đề gây công nghệ phân vùng đồ thị ban đầu mô rõ vấn đề phức tạp Thứ ba, giai đoạn sáp nhập, thuật toán Chameleon ban đầu, liên kết tương đối lực hấp dẫn độ gần tương đối tính mức độ giống tiêu chuẩn cho hợp cặp cụm Cần lưu ý ∣EC (C) ∣ ∣EC (C) ∣in cơng thức (1) SECðC Þ SEC C cơng thức (2) tính sau thời gian cắt giảm tối thiểu phần thuật toán hMetis Do đó, thuật tốn hMetis sử dụng công thức (1) (2) thay Thuật tốn 2, số cụm thuật toán Thuật toán INNGS-Chameleon giữ lại ưu điểm Chameleon ban đầu xét đến tính liên kết gần gũi, đồng thời xác định tốt đặc điểm bên cụm Thứ hai, thuật toán lân cận tự nhiên cải tiến sử dụng để xây dựng biểu đồ thưa thớt, điều không làm cho liệu thưa thớt giảm tính tốn, mà cịn thích ứng với tập liệu khác Thứ ba, phương pháp tạo cụm đề xuất Sự phân phối đồng quy trình đơn giản Tóm lại, thuật tốn INNGS-Chameleon cải tiến phát mật độ thưa thớt điểm liệu bắt đầu mơ hình động cụm hợp nhất, cuối tạo thành kết phân nhóm cuối THỬ NGHIỆM VÀ PHÂN TÍCH Phần chủ yếu thực kiểm chứng thử nghiệm thuật toán INNGSChameleon đề xuất báo Thí nghiệm chia thành năm phần Phần 4.1 chủ yếu trình bày tập liệu sử dụng thử nghiệm Phần 4.2 đưa số đánh giá sử dụng thí nghiệm Phần 4.3 mơ tả phương pháp thực nghiệm Phần 4.4 trình bày hiệu suất thuật tốn thí nghiệm tập liệu tổng hợp Phần 4.5 phân tích kết thực nghiệm tập liệu UCI 4.1 Tập liệu thử nghiệm Để kiểm tra đánh giá hiệu thuật toán INNGS-Chameleon cải tiến, tám tập liệu tổng hợp mười tập liệu UCI sử dụng thuật toán Chi tiết liệu tổng hợp liệu UCI trình bày Bảng Bảng tương ứng Trong số đó, tập liệu tổng hợp khơng liệu hai chiều thơng thường, mà cịn hai liệu ba chiều Kích thước 10 liệu UCI đa dạng hơn, từ thứ nguyên đến cao đến 35 thứ nguyên Các tập liệu có nhiều cụm khác ký tự khác phân phối Hiệu suất phân nhóm thuật tốn INNGS- Chameleon minh họa đầy đủ thông qua nhiều tập liệu khác 4.2 Các số đánh giá Chúng sử dụng Độ xác (ACC) [28], số rand điều chỉnh (ARI) [29] thông tin lẫn điều chỉnh (AMI) [30] để đánh giá hiệu suất thuật tốn phân cụm Mơ tả chi tiết ba số sau: (1) ACC ACC đại diện cho độ xác phân cụm, sử dụng để so sánh nhãn dự đoán với nhãn thực Trong đó, n tổng số mẫu liệu, yi nhãn thực zi nhãn dự đoán thu thuật toán phân cụm δ (x, y) hàm báo, δ (x, y) = 1if x = yorδ ( x, y) = ngược lại Bản đồ (⋅) chức ánh xạ thuật toán Hungary cung cấp Bởi quy tắc phân bổ phạm vi dự đốn thu phân cụm khơng phù hợp với nhãn thực, cần phải xếp lại thứ tự nhãn dự đốn Vì vậy, điều mang lại kết phù hợp vị trí tương ứng Phạm vi giá trị ACC [0, 1], giá trị lớn cho biết kết phân nhóm tốt (2) ARI ARI cải tiến số rand (RI) [29] RI tính tốn giống nhãn dự đốn nhãn thực, phạm vi giá trị RI [0,1] RI cao nghĩa kết phân nhóm phù hợp với tình hình thực tế Nhưng kết ngẫu nhiên, RI không đảm bảo điểm gần 0, ARI với phân biệt cao đề xuất sau: Trong RI hệ số Rand E kỳ vọng Phạm vi giá trị ARI [−1,1] Giá trị gần 1, cụm dự đoán giống với cụm thực ARI gần cho biết nhãn cụm gán ngẫu nhiên ARI âm cho biết nhóm dự đốn (3) AMI Thông tin tương hỗ (MI) [30] sử dụng để đo mức độ tương quan hai biến ngẫu nhiên Tuy nhiên, MI không tuân theo phép gán ngẫu nhiên nhãn cụm, tức là, với gia tăng số lượng cụm phân bổ, MI tăng lên, thực tế phải có xu hướng Do đó, báo sử dụng AMI góc thơng tin lẫn để đo mức độ giống vectơ cụm AMI thể công thức (7): Trong U Chọn lọc phân phối nhãn thực nhãn dự đoán, H (U) H (V) đại diện cho entropy hai phân phối này, I (U, V) thông tin lẫn hai phân phối Khoảng giá trị AMI [0,1] Giá trị cao kết phân cụm phù hợp với kết thực tế 4.3 Phương pháp thực nghiệm Trong báo này, tính khả thi thuật toán INNGS-Chameleon chứng minh thí nghiệm so sánh Thuật tốn INNGS- Chameleon so sánh với thuật toán Chameleon ban đầu [19] thuật toán AChameleon cải tiến [24] Thuật toán AChameleon hiệu đơn giản, sử dụng thuật toán phân cụm phân cấp tập trung để tạo cụm Ngồi hai thuật tốn trên, cịn có thuật tốn phân cụm cổ điển khác để so sánh, bao gồm K-Means [31], phân cụm không gian dựa mật độ ứng dụng có nhiễu (DBSCAN) [32], BIRCH [16] Trong số đó, thuật tốn K-Means phân cụm dựa phân vùng, phân cụm cách chọn trung tâm Đặc điểm tính tốn đơn giản tốc độ tính tốn nhanh DBSCAN thuật toán phân cụm dựa mật độ, chia vùng có đủ mật độ cao thành cụm tìm cụm có hình dạng tùy ý sở liệu khơng gian nhiễu BIRCH thuật toán phân cụm phân cấp Bằng cách quét sở liệu, thiết lập đặc điểm phân cụm lưu trữ nhớ, sau phân cụm nút đặc điểm phân cụm Đối với cài đặt tham số thuật toán, thuật toán K-Means, BIRCH AChameleon cần định số lượng cụm định trực tiếp số lượng cụm thực để tìm kiếm kết tốt Tuy nhiên, K-Means khơng Đối với thuật tốn này, chúng tơi tiến hành 10 thí nghiệm tập liệu để thu kết tối ưu DBSCAN cần đặt hai tham số, Eps MinPts Giá trị Eps sử dụng để vẽ đường cong khoảng cách k [33] cách, tham số tương ứng tốt điểm uốn rõ ràng đường cong khoảng cách k Bởi giá trị Minpts không lớn, để tăng thực thử nghiệm để chọn giá trị tối ưu cho kết cuối Thuật toán tắc kè hoa cần đặt k, số lượng đồ thị số cụm cuối Trong báo này, để đơn giản, đặt k = 20 để phản ánh mối quan hệ liệu nhiều tốt, số lượng đồ thị n / 10 số cụm cuối số cụm thực Đối với thuật tốn INNGS-Chameleon, số cụm mặc định n / 10, cần nhập số cụm cuối cùng, thơng qua thí nghiệm lặp lại để tìm kết cuối Par Bảng đại diện cho giá trị tham số tương ứng thuật toán thu giá trị tối ưu tập liệu Các thí nghiệm thực máy tính để bàn với xử lý core i5 3,40 GHz, hệ điều hành Window10 RAM GB môi trường hoạt động PyCharm 2019 4.4 Phân tích kết thực nghiệm tập liệu tổng hợp Các hình dạng cụ thể tám tập liệu tổng hợp phân bố cụm thực trình bày Hình Các điểm liệu có màu biểu đồ thuộc cụm màu khác đại diện cho cụm khác Thông qua liệu trực quan, việc hiển thị cấu trúc rõ ràng tập liệu tổng hợp dễ dàng hơn, dễ hình thành tương phản trực quan với kết thực nghiệm Kết phân nhóm thuật toán INNGS-Chameleon, thuật toán Chameleon thuật toán cổ điển khác tập liệu tổng hợp thể Hình 5, 6, 7, 8, 9, 10, 11 12 Kết thực nghiệm chi tiết thuật toán khác tám tập liệu tổng hợp thể Bảng Hình cho thấy kết phân nhóm sáu thuật toán tập liệu Lineblob Tập liệu Lineblob bao gồm ba cụm Hai cụm có mật độ cao hình dạng tương tự, cụm vịng ngồi có mật độ nhỏ Từ Hình 5b, d, f), thấy rõ thuật tốn AChameleon, DBSCAN INNGS-Chameleon thu kết phân cụm tốt Trong đó, ACC, ARI AMI đạt giá trị tối ưu Bảng Tuy nhiên, thuật toán phân cụm Chameleon, Kmean BIRCH nhận kết phân nhóm xác, đặc biệt kết phân nhóm K-mean BIRCH khác so với kết thực Hình cho thấy kết tập liệu dựa đường dẫn sáu thuật toán Ba cụm tập liệu dựa đường dẫn kết nối chặt chẽ với nhau, thách thức nhiều thuật toán Như hiển thị, thuật toán INNGSChameleon hoạt động tốt tập liệu dựa đường dẫn ACC, ARI AMI cao nhất, đặc biệt ACC gần AChameleon xác định hình dạng thơ ba cụm, bốn thuật tốn khác khơng phát cụm Hình cho thấy kết phân cụm thuật toán tập liệu Jain Jain tập liệu đa tạp điển hình với mật độ khơng đơn vị, hai cụm hình lưỡi liềm đan xen vào Có thể thấy rõ ràng từ Hình có thuật tốn INNGS-Chameleon thu kết phân cụm xác ACC, ARI AMI đạt giá trị tối ưu DBSCAN vượt trội so với bốn thuật tốn cịn lại, điều đáng tiếc có số lỗi nhận dạng điểm liệu Tuy nhiên, kết thuật toán phân cụm K-Means, BIRCH Chameleon khác xa với kết hãng Kết phân nhóm sáu thuật tốn tập liệu xoắn ốc thể Hình Tập liệu bao gồm ba cụm dải đan xen xoay vòng Các thử nghiệm cho thấy DBSCAN INNGS-Chameleon nhận kết phân nhóm thực sự, bốn thuật tốn phân nhóm khác có hiệu suất kém, chí khơng thể nhận dạng hình dạng Hình hiển thị kết phân cụm thuật toán tập liệu tổng hợp Tập liệu tổng hợp chứa sáu cụm, kết nối chặt chẽ chí hợp với với mật độ khác Có thể thấy rõ ràng từ Hình 9f kết phân cụm INNGS-Chameleon gần giống với kết thực, có lỗi phân cụm đối tượng Mặc dù kết phân cụm DBSCAN tốt, có nhiều điểm ranh giới ảnh hưởng đến kết phân nhóm Hình 9d Bốn thuật tốn phân cụm khác khơng thể giải hiệu cụm phức tạp để tìm kiếm cụm thực tập liệu Hình 10 trình bày kết phân nhóm thuật số khác tập liệu Target Tập liệu Target chứa sáu cụm cụm kết nối rõ ràng hình dạng, mật độ kích thước khác nhiều Như thể Hình 8d f, thuật tốn DBSCAN INNGS-Chameleon nhận kết phân cụm xác Đối với bốn thuật tốn cịn lại, khó để xác định kết cụm xác ảnh hưởng hình dạng, kích thước mật độ Hình 11 12 tương ứng cho thấy kết phân nhóm sáu thuật toán tập liệu Atom Chainlink, hai tập liệu ba chiều Đối với tập liệu Atom, cấu trúc đơn giản mật độ hai cụm khác Chỉ có thuật tốn Chameleon INNGS-Chameleon nhận kết phân nhóm xác DBSACN AChameleon không tập hợp đầy đủ kết xác số điểm đặc biệt, K-Means BIRCH khác với kết thực tế nhiều Đối với tập liệu Chainlink, thuật toán INNGSChameleon nhận kết tốt tìm thấy cụm hồn tồn xác Chữ in đậm cho thấy thuật toán đạt giá trị optima Kết luận, nhận thấy INNGS- Chameleon hoạt động tốt thuật toán khác tập liệu với hình dạng khác khác biệt lớn mật độ Đặc biệt năm liệu Lineblob, 3-Spiral, Target, Atom Chainlink hoàn toàn phù hợp với kết thực, ba liệu lại tối ưu Có thể kết luận thuật tốn INNGS-Chameleon có kết phân cụm tốt cho cụm hình dạng tùy ý tập liệu có chiều thấp hơn, điều khẳng định nhiều tính ưu việt thuật tốn INNGS-Chameleon 4.5 Phân tích kết thử nghiệm liệu UCI Để xác minh thuật toán INNGS-Chameleon khả thi liệu cao, chúng tơi tiến hành thí nghiệm so sánh với năm thuật toán phân cụm khác mười tập liệu thực tế 10 liệu thực tế từ kho lưu trữ học máy UCI, chúng có quy mơ khác kích thước khác Kết phân cụm INNGS-Chameleon năm thuật toán so sánh khác tập liệu UCI thể Bảng Có thể thấy thuật tốn INNGSChameleon có kết phân nhóm tối ưu Iris, Ecoli, Dermatology Balance-scale ACC, ARI AMI tốt nhất, số chí cịn vượt xa vị trí thứ hai Trên tập liệu Soybean, thuật tốn BIRCH có hiệu phân nhóm tốt phân cụm kết hồn tồn xác, thuật tốn INNGS-Chameleon hài lòng Trên tập liệu Glass, giá trị ACC ARI INNGS-Chameleon đạt đến giá trị tối ưu, cao nhiều so với năm thuật tốn cịn lại Trên tập liệu Heart, thấy hiệu ứng phân cụm thuật toán INN-Chameleon tốt độ xác cao Trên tập liệu Pima, độ xác phân nhóm đứng sau thuật tốn K-Means, giá trị AMI thực cao nhất, cho thấy kết phân nhóm có độ tương đồng lớn với kết thực Thuật toán INNGS-Chameleon đạt giá trị ARI cao tập liệu nấm men ACC thấp 0,0108 so với giá trị cao AChameleon 0,4043, cao giá trị ACC bốn thuật tốn cịn lại Trên tập liệu Bản địa hóa nhà khơng dây, độ xác phân cụm đạt 96,3%, cao gần 20% so với thuật toán Chameleon ban đầu, cải tiến đáng kể Nhìn chung, thơng qua thí nghiệm, chứng minh kết thực nghiệm thuật toán INNGS-Chameleon hầu hết tập liệu UCI tốt so với thuật tốn so sánh cịn lại Kết chứng minh thuật tốn INNGS- Chameleon có hiệu suất phân nhóm vượt trội tìm thấy cụm có hình dạng tùy ý xử lý với tập liệu chiều cao cách hiệu KẾT LUẬN Trong báo này, cải tiến thuật toán Chameleon truyền thống đề xuất thuật toán Chameleon dựa biểu đồ lân cận tự nhiên cải thiện tạo cụm con, cụ thể INNGS-Chameleon INNGS-Chameleon lần sử dụng ý tưởng lân cận tự nhiên chứng minh để xây dựng biểu đồ thưa thớt, tránh tham gia giả tạo Sau đó, phương pháp tạo cụm sử dụng để thay phương pháp phân vùng đồ thị, phương pháp không sử dụng đầy đủ tài nguyên cho đồ thị thưa thớt, mà đơn giản dễ hiểu, khác xa với phức tạp thuật tốn hMetis thay đổi Bài báo thực thí nghiệm tập liệu tổng hợp cổ điển tập liệu giới thực UCI, chứng minh thuật tốn có tính ưu việt tốt thuật tốn Chameleon truyền thống thuật toán cải tiến AChameleon INNGS-Chameleon áp dụng cho tập liệu có nhiều hình dạng mật độ khác đạt kết bão hịa Tuy nhiên, thuật tốn có chi phí thời gian cao việc xử lý liệu chiều cao quy mô lớn, khiếm khuyết cố hữu phân cụm phân cấp Do đó, việc áp dụng thuật tốn cho liệu nhiều chiều lớn địi hỏi phải nghiên cứu kỹ lưỡng ... cho Thuật toán tắc kè hoa, thuật toán lân cận tự nhiên cải tiến đề xuất để xây dựng biểu đồ lân cận tự nhiên áp dụng cho giai đoạn thưa thớt Chameleon Sau đó, phương pháp tạo cụm vùng lân cận tự. .. tự nhiên cải thiện đồ thị đề xuất áp dụng cho giai đoạn thứ hai Thuật toán tắc kè hoa Phương pháp tạo thành cụm mối quan hệ lân cận liệu tận dụng tốt biểu đồ lân cận tự nhiên để xác định cụm. .. thưa thớt k -lân cận gần thuật toán Chameleon ban đầu, nhận cụm tập liệu (2) Chúng đề xuất phương pháp để tạo cụm đồ thị lân cận tự nhiên cải thiện Nó sử dụng tự nhiên biểu đồ lân cận để xác định

Ngày đăng: 08/11/2022, 14:06