SOM là phương phỏp phõn cụm theo cỏch tiếp cận mạng nơron và thuật toỏn học ganh đuạ Vectơ trọng số của ma trận SOM chớnh là trọng tõm cụm, việc phõn cụm cú thể cho kết quả tốt hơn bằng cỏch kết hợp cỏc đơn vị trong ma trận để tạo thành cỏc cụm lớn hơn. Một điểm thuận lợi của phương phỏp này là vựng Voronoi của cỏc đơn vị ma trận là lồi, bằng cỏch kết hợp của một số đơn vị trong ma trận với nhau tạo nờn cỏc cụm khụng lồị Việc sử dụng cỏc độ đo khoảng cỏch khỏc nhau và cỏc chuẩn kết liờn kết khỏc nhau cú thể tạo thành cỏc cụm lớn hơn.
Ma trận khoảng cỏch: chiến lược chung trong phõn cụm cỏc đơn vị của SOM là tỡm
ma trận khoảng cỏch giữa cỏc vectơ tham chiếu và sử dụng giỏ trị lớn trong ma trận như là chỉ số của đường biờn cụm [11]. Trong khụng gian ba chiều, cỏc cụm sẽ được thể hiện như “cỏc thung lũng”. Vấn đề là làm sao để quyết định cỏc đơn vị trong ma trận thuộc về một cụm nào đú cho trước.
Để giải quyết được vấn đề này, người ta thường sử dụng thuật toỏn tớch tụ (agglomerative algorithm), gồm cỏc bước:
1.Quy cho mỗi đơn vị trong ma trận một cụm riờng. 2.Tớnh toỏn khoảng cỏch giữa tất cả cỏc cụm.
3.Ghộp hai cụm gần nhất.
4. Nếu số cụm tồn tại bằng số cụm do người dựng định nghĩa trước thỡ dừng, nếu khụng lặp lại từ bước 2 .
SOM là thuật toỏn phõn cụm vỡ mỗi đơn vị trong ma trận ngay từ đầu là một cụm con gồm cỏc vớ dụ trong tập Voronoi của nú. SOM cú thể được hiểu như cụm mờ: mỗi vớ dụ là bộ phận của mọi cụm với thành phần giỏ trị tỷ lệ với hàm lõn cận tại điểm BMU của nú. Sự giải thớch này cú thể phự hợp nếu số lượng cỏc vớ dụ cho mỗi cụm ban đầu là nhỏ hoặc phương phỏp mờ được dựng như một bước xử lý sau dựa vào kết quả đầu ra của SOM.
Mặc dự, khụng giống hầu hết cỏc phương phỏp lấy mẫu cơ bản, trạng thỏi tối ưu đối với SOM là bằng khụng, khi số cỏc mẫu bằng số cỏc cụm. Để thay đổi trạng thỏi tối ưu thỡ số cỏc đơn vị trong SOM phải lớn hơn số cỏc cụm đưa rạ Hàm lõn cận thể hiện cỏc đơn vị lõn cận trong ma trận, vỡ vậy cỏc đơn vị này phải cú thuộc tớnh giống nhau hơn so với cỏc đơn vị trong cỏc cụm khỏc. Sự di chuyển từ một cụm này sang cụm khỏc trong ma trận diễn ra từ từ trờn một số đơn vị trong ma trận. Điều này cú nghĩa là nếu số cụm mong muốn là đủ nhỏ thỡ ma trận SOM cũng phải được phõn cụm.
Dựng SOM như một bước trung gian để phõn cụm, đú là cỏch tiếp cận gồm hai mức: đầu tiờn phõn cụm tập dữ liệu, và sau đú phõn cụm SOM. Với mỗi vectơ dữ liệu của tập dữ liệu ban đầu thuộc cựng một cụm cú mẫu gần nú nhất. Một ưu điểm của cỏch tiếp cận này là giảm thời gian tớnh toỏn, điều này dễ dàng phõn biệt được với cỏc thuật toỏn phõn cụm khỏc mà điển hỡnh là cõy phõn cấp thậm chớ với một lượng nhỏ cỏc vớ dụ ban đầu cũng trở nờn nặng nề. Chớnh vỡ vậy cỏch tiếp cận này là hoàn toàn phự hợp cho việc phõn cụm một tập cỏc mẫu hơn là làm trực tiếp trờn tập dữ liệụ
Cú thể sử dụng cỏc phương phỏp phõn cụm bộ phận hay phõn cụm theo phõn cấp để phõn cụm SOM. Cỏc mẫu cú thể được phõn cụm trực tiếp hoặc phõn cụm theo một số đặc tớnh xỏc định trước của SOM. Trong phõn cụm bộ phận cỏc đơn vị nội suy cú thể bị bỏ qua khi phõn tớch [3]. Trong phõn cụm tớch tụ quan hệ lõn cận SOM cú thể được dựng để ràng buộc khả năng hợp nhất trong cấu trỳc dạng cõy dendrogram.
Nếu điều này được dựng kết hợp với cỏc ràng buộc lõn cận, cỏc đơn vị nội suy để thể hiện đường biờn trong ma trận mà vẫn tuõn theo cấu trỳc dendrogram.
Ngoài ra, cú thể dựng trực tiếp ma trận khoảng cỏch làm cơ sở phõn cụm. Vỡ ma trận khoảng cỏch cho biết khoảng cỏch trung bỡnh của mỗi vectơ mẫu đến cỏc lõn cận của nú và dự đoỏn được phõn bố xỏc suất cục bộ, việc tối thiểu cục bộ của ma trận được dựng làm trọng tõm hay điểm nhõn của cụm. Sự phõn chia cú thể được thực hiện ngay sau đú bằng cỏch xỏc định đơn vị trong ma trận gần tõm nhất hoặc dựng cỏch loang theo tối thiểu cục bộ.
SOM cũng được ỏp dụng trong phõn cụm tập dữ liệu khụng chuẩn hoỏ. Dựng quy tắc của học ganh đua [5], vectơ trọng số cú thể điều chỉnh theo hàm phõn bố xỏc suất của cỏc vectơ đầu vàọ Sự tương đồng giữa vectơ đầu vào x và vectơ trọng số w
được tớnh toỏn bằng khoảng cỏch Ơclit. Trong suốt quỏ trỡnh huấn luyện một vectơ trọng số wj tuỳ ý được cập nhập tại thời điểm t là:
[ ( ) ( )] ) ( ) ( ) (t t h t x t w t wj = cj − j ∆ α
Với α(t) là tỷ lệ học giảm dần trong quỏ trỡnh huấn luyện, và hci(t) là hàm lõn cận giữa vectơ trọng số chiến thắng wc, và vectơ trọng số wj , hci(t) cũng giảm dần trong quỏ trỡnh huấn luyện. Mối quan hệ lõn cận được xỏc định bằng cấu trỳc hỡnh học và mối quan hệ này cố định trong suốt quỏ trỡnh học. Kết thỳc quỏ trỡnh học, điều chỉnh lại bỏn kớnh lõn cận đủ nhỏ để cập nhập lại cho cỏc vectơ trọng số chiến thắng wc và cỏc lõn cận gần chỳng nhất. Đối với cấu trỳc một chiều nú cú thể được biểu diễn bằng luật huấn luyện. Cụng thức trờn là một sấp xỉ của hàm đơn điệu của phõn bố xỏc suất trờn cỏc vectơ đầu vàọ Trong cấu trỳc hai chiều thỡ kết quả trả về là một sự tương quan giữa độ xấp xỉ và bỡnh phương lỗi tối thiểu của vectơ lượng tử.
Trong trường hợp tồn tại vựng thoả món và tồn tại phõn bố cỏc tõm cụm, việc ước lượng quan hệ chiến thắng của cỏc nơron là để mụ phỏng trực quan cỏc cụm. Hỡnh 15 thể hiện năm cụm bằng cỏch mó hoỏ mức xỏm cho histogram chiến thắng. Dữ
liệu hỗn hợp Gauxơ được sinh ra bằng việc cố định năm tõm cụm và năm ma trận khỏc nhaụ Kớch thước của tập dữ liệu sinh ra và tập dữ liệu thực nghiệm là bằng nhau, và dự đoỏn tổng thể cỏc ma trận được xấp xỉ bằng nhaụ Cỏc đơn vị được gỏn màu đen trong hỡnh 15 là cỏc nơron chết, cỏc nơron này dễ dàng phõn biệt cỏc cụm với nhaụ
Để bảo toàn hỡnh thỏi lõn cận trong ma trận, vectơ trọng số trong khụng gian đầu vào cũng được đặt gần nhau trong khụng gian đầu rạ Ánh xạ từ khụng gian đầu vào tới khụng gian đầu ra hầu như liờn tục, nhưng ngược lại thỡ khụng đỳng. Vỡ vậy, hai vectơ trọng số về mặt hỡnh học là gần nhau nhưng khụng phải cựng thể hiện trờn một cụm. Nếu khoảng cỏch của chỳng là nhỏ, thỡ chỳng cú thể là một cụm, nếu ngược lại chỳng xuất hiện ở cỏc cụm khỏc nhaụ Trực quan hoỏ khoảng cỏch lõn cận giữa cỏc vectơ trọng số được đưa ra trong ma trận hợp nhất khoảng cỏch.Với mọi vectơ trọng số wxy, với x và y là cỏc chỉ số hỡnh thỏi, khoảng cỏch Ơclit dx và dy
giữa hai lõn cận và khoảng cỏch dxy tới lõn cận tiếp theo được tớnh như sau:
y x y x w w y x dx( , ) = , − +1, 1 , , ) , (x y = wx y −wx y+ dy ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − + − = + + + = 2 2 2 1 ) , (x y wx,y wx 1,y 1 wx,y 1 wx 1,y dxy
Hỡnh 15. Vectơ chiến thắng liờn tục đối với SOM cú 30x40 nơron cho dữ liệu hỗn hợp Gauxơ
Khoảng cỏch du được tớnh bằng giỏ trị trung bỡnh của tỏm khoảng cỏch biờn xung quanh. Với bốn khoảng cỏch cho mỗi nơron dx, dy, dxy và du, như vậy dễ dàng xỏc định ma trận hợp nhất và ma trận này cú kớch thước là (2nx-1)(2ny-1).
Trong hỡnh 17 cỏc thành phần của U-matrix được mó hoỏ theo mức xỏm. Chỗ sỏng là cỏc giỏ trị thấp và chỗ tối cho giỏ trị caọ Như vậy, cỏc cụm trờn ma trận là cỏc vựng cú khoảng cỏch nhỏ giữa cỏc trọng số và giữa cỏc cụm với nhau lại cú khoảng cỏch lớn.