Thuật toỏn phõn cụm dữ liệu dựa vào tỡm kiếm 1 Thuật toỏn di truyền (GAS)

Một phần của tài liệu Phương pháp phân cụm và ứng dụng (Trang 47 - 50)

4.1 Thuật toỏn di truyền (GAS)

Thuật toỏn di truyền GAS lần đầu tiờn được đề xuất bởi Holland (1975) là một họ tớnh toỏn mụ hỡnh lấy cảm hứng từ tương tự của sự tiến húa và di truyền dõn số. Gas vốn song song và đặc biệt thớch hợp cho việc giải quyết vấn đề tối ưu húa phức tạp.Filho et al. (1994) trỡnh bày một cuộc khảo sỏt của khớ cựng với một GA đơn giản viết bằng C ngụn ngữ.

Thụng thường, chỉ cú hai thành phần chớnh của GAS được vấn đề phụ thuộc: cỏc vấn đề mó húa và chức năng đỏnh giỏ (vớ dụ, khỏch quan chức năng). Ngay cả đối với cựng một vấn đề, cú thể sử dụng mó húa khỏc nhau. Vớ dụ, trong cỏc k-cú nghĩa là thuật toỏn di truyền, Krishna và Narasimha (1999) làm việc string-of-group-số mó húa, trong khi Maulik và Bandyopadhyay (2000) được mó húa cỏc chuỗi sao cho mỗi chuỗi là một chuỗi cỏc thực số đại diện cho cỏc trung tõm cụm.

Trong GAS, cỏc tham số của khụng gian tỡm kiếm được mó hoỏ trong cỏc hỡnh thức gọi là chuỗi nhiễm sắc thể. AGA maintains dõn (set) của N chuỗi mó hoỏ cho một số dõn số cố định kớch thước N và tiến húa qua cỏc thế hệ. Trong mỗi thế hệ, ba nhà khai thỏc di truyền, nghĩa là, tự nhiờn, lựa chọn, xuyờn chộo , và đột biến, được ỏp dụng cho dõn số hiện nay để sản xuất một số dõn mới. Mỗi chuỗi trong dõn số liờn kết với một giỏ trị thể dục tựy thuộc vào giỏ trị của hàm mục tiờu. Dựa trờn nguyờn tắc sống cũn của cỏc lắp rắp ,

một chuỗi vài trong số dõn hiện hành được lựa chọn và từng được phõn cụng một số bản sao, và sau đú một thế hệ mới của dõy đang mang lại bằng cỏch ỏp dụng chộo và đột biến để cỏc chuỗi được chọn.

Núi chung, một GA điển hỡnh cú những năm thành phần cơ bản: mó húa, khởi tạo, lựa chọn, crossover, và đột biến. Mó húa là phụ thuộc vào vấn đề dưới xem xột. Trong giai đoạn khởi, dõn số (set) của chuỗi sẽ được ngẫu nhiờn tạo ra. Sau giai đoạn khởi, cú một lặp của cỏc thế hệ. Số lượng của cỏc thế hệ được xỏc định bởi người sử dụng. Trong khớ, chuỗi tốt nhất thu được cho đến nay được lưu trữ trong một vị trớ riờng biệt bờn ngoài dõn số và sản lượng cuối cựng là chuỗi tốt nhất trong số tất cả cú thể cú chuỗi kiểm tra trong toàn bộ quỏ trỡnh.

Murthy và Chowdhury (1996) đề xuất một GA trong một nỗ lực để đạt được tối ưu giải phỏp cho cỏc vấn đề clustering. Trong thuật toỏn này, cỏc chức năng đỏnh giỏ được xỏc định như là tổng của bỡnh phương khoảng cỏch Euclide của cỏc điểm dữ liệu từ cỏc cụm tương ứng của họ trung tõm. Ngoài ra, đơn điểm chộo (Michalewicz, 1992), nghĩa là, cỏc nhà điều hành chộo giữa hai dõy, được thực hiện tại một vị trớ, và cỏc chiến lược elitist, nghĩa là, cỏc chuỗi hay nhất được mang từ trước đến dõn số kế tiếp, được sử dụng.

Tseng và Yang (2001) đề xuất một cỏch tiếp cận di truyền được gọi là clustering đến tự động phõn nhúm vấn đề. Clustering là phự hợp với phõn nhúm dữ liệu với nhỏ gọn cụm hỡnh cầu, và số cụm cú thể được kiểm soỏt giỏn tiếp bởi một tham số w. Thuật toỏn sẽ sản xuất một số lượng lớn cỏc cụm nhỏ gọn với một giỏ trị nhỏ của w và nú sẽ sản xuất một số lượng nhỏ hơn của cụm lỏng hơn với một giỏ trị lớn của w. A di truyền phõn nhúm dựa trờn thuật toỏn nhằm tỡm ra cỏc cụm nonspherical đó được đề xuất bởi Tseng và Yang (2000).

Garai và Chaudhuri (2004) đề xuất một phõn nhúm di truyền được hướng dẫn theo cấp bậc thuật toỏn mà cú thể tỡm thấy tựy tiện cú hỡnh cụm. Thuật toỏn này bao gồm hai giai đoạn. Lỳc đầu, tập dữ liệu gốc là bị phõn hủy thành một số nhúm phõn mảnh để lõy lan trong quỏ trỡnh GAsearch ở giai đoạn thứ hai trong toàn bộ khụng gian. Sau đú, cỏc thứ bậc Cụm trộn thuật toỏn (HCMA) được sử dụng. Trong quỏ trỡnh sỏt nhập, một kỹ thuật gọi là cỏc

cluster liền kề kiểm tra thuật toỏn (ACCA) được sử dụng để thử nghiệm kề của hai cụm phõn đoạn để họ cú thể được sỏp nhập vào một nhúm.

Krishna và Narasimha (1999) và Bandyopadhyay và Maulik (2002) đề xuất hai thuật toỏn phõn nhúm khỏc nhau dựa trờn GAS và k phổ biến cú nghĩa là thuật toỏn. Trong di truyền k-cú nghĩa là thuật toỏn (GKA), Krishna và Narasimha (1999) được sử dụng k-cú nghĩa là nhà điều hành thay vỡ cỏc nhà điều hành chộo để tăng tốc độ hội tụ, trong khi ở kga-clustering, Bandyopadhyay và Maulik (2002) được sử dụng cỏc nhà điều hành crossover- đơn điểm.

Cowgill et al. (1999) đề xuất một thuật toỏn-based clustering di truyền được gọi là COWCLUS. Trong COWCLUS, chức năng đỏnh giỏ là tỷ lệ phương sai (VR) được định nghĩa trong điều kiện cụ lập cụm bờn ngoài và tớnh đồng nhất cụm nội bộ. Mục tiờu của thuật toỏn là để tỡm cỏc phõn vựng với VR tối đa.

4.2 J- Means

Cho Dx x1, 2,,xn là một tập đối tượng và SD được hiểu là tất cả cỏc phần của D. 2 1 min D D i k i P S i x C x z    

Nơi k là số lượng cụm , . được hiểu là Euclidean chuẩn tắc, và zi là tõm của cụm Ci 1 i i x C i Z x C    Với i = 1, 2,…k

Thuật toỏn J-mean :

Bước 1 (khởi) Hóy để PD = (C1, C2,. . . , Ck) là một phõn vựng ban đầu của D, zi là trọng tõm của cụm Ci, và fopt được mục tiờu hiện chức năng giỏ trị; S2 (điểm chiếm đúng) Tỡm điểm trống, nghĩa là, điểm trong D khụng trựng với một cụm trọng tõm trong một dung sai nhỏ;

S3 (Bước khu phố) Tỡm phõn vựng tốt nhấtPD và mục tiờu tương ứngchức

năng giỏ trị f trong cỏc khu phố nhảy của giải phỏp hiện tại PD:

S31 (khai phỏ lỏng giềng) Đối với mỗi j (j = 1, 2,..., N), lặp lại sau bước sau: (a) tỏi định cư. Thờm một cụm mới centroid Z k+1 tại một số điểm trống xj vị trớ và tỡm thấy những chỉ số i của trọng tõm tốt nhất để xúa; cho vij biểu sự thay đổi trong giỏ trị hàm mục tiờu; (b) Giữ tốt nhất. Giữ đụi chỉ số i và j nơi vij là tối thiểu;

S32 (chuyển hay thay thế) Nếu trọng tõm zi’ bởi xj và cập nhật cỏc thành viờn nhúm cho phự hợp để cú được P phõn vựng mới PD; đặt f : foptvi j' '

S4 (Chấm dứt hoặc di chuyển) Nếu f  fopt, dừng; nếu khụng, di chuyển đến lỏng giềng tốt nhất Giải phỏp PD; đặt PD là giải phỏp hiện hành và quay

về bước S2.

Một phần của tài liệu Phương pháp phân cụm và ứng dụng (Trang 47 - 50)