SOM với bài toỏn phõn cụm

Một phần của tài liệu Luận văn tốt nghiệp: Học mạng nơron theo mô hình SOM và ứng dụng trong bài toán quản lý khách hàng vay vốn Ngân hàng doc (Trang 32 - 36)

SOM là phương phỏp phõn cụm theo cỏch tiếp cận mạng nơron và thuật toỏn học ganh đuạ Vectơ trọng số của ma trận SOM chớnh là trọng tõm cụm, việc phõn cụm cú thể cho kết quả tốt hơn bằng cỏch kết hợp cỏc đơn vị trong ma trận để tạo thành cỏc cụm lớn hơn. Một điểm thuận lợi của phương phỏp này là vựng Voronoi của cỏc

đơn vị ma trận là lồi, bằng cỏch kết hợp của một số đơn vị trong ma trận với nhau tạo nờn cỏc cụm khụng lồị Việc sử dụng cỏc độ đo khoảng cỏch khỏc nhau và cỏc chuẩn kết liờn kết khỏc nhau cú thể tạo thành cỏc cụm lớn hơn.

Ma trận khoảng cỏch: chiến lược chung trong phõn cụm cỏc đơn vị của SOM là tỡm ma trận khoảng cỏch giữa cỏc vectơ tham chiếu và sử dụng giỏ trị lớn trong ma trận như là chỉ số của đường biờn cụm [11]. Trong khụng gian ba chiều, cỏc cụm sẽ được thể hiện như “cỏc thung lũng”. Vấn đề là làm sao để quyết định cỏc đơn vị

trong ma trận thuộc về một cụm nào đú cho trước.

Để giải quyết được vấn đề này, người ta thường sử dụng thuật toỏn tớch tụ

(agglomerative algorithm), gồm cỏc bước:

1.Quy cho mỗi đơn vị trong ma trận một cụm riờng. 2.Tớnh toỏn khoảng cỏch giữa tất cả cỏc cụm.

3.Ghộp hai cụm gần nhất.

4. Nếu số cụm tồn tại bằng số cụm do người dựng định nghĩa trước thỡ dừng, nếu khụng lặp lại từ bước 2 .

SOM là thuật toỏn phõn cụm vỡ mỗi đơn vị trong ma trận ngay từ đầu là một cụm con gồm cỏc vớ dụ trong tập Voronoi của nú. SOM cú thể được hiểu như cụm mờ: mỗi vớ dụ là bộ phận của mọi cụm với thành phần giỏ trị tỷ lệ với hàm lõn cận tại

điểm BMU của nú. Sự giải thớch này cú thể phự hợp nếu số lượng cỏc vớ dụ cho mỗi cụm ban đầu là nhỏ hoặc phương phỏp mờđược dựng như một bước xử lý sau dựa vào kết quảđầu ra của SOM.

Mặc dự, khụng giống hầu hết cỏc phương phỏp lấy mẫu cơ bản, trạng thỏi tối ưu đối với SOM là bằng khụng, khi số cỏc mẫu bằng số cỏc cụm. Để thay đổi trạng thỏi tối

ưu thỡ số cỏc đơn vị trong SOM phải lớn hơn số cỏc cụm đưa rạ Hàm lõn cận thể

hiện cỏc đơn vị lõn cận trong ma trận, vỡ vậy cỏc đơn vị này phải cú thuộc tớnh giống nhau hơn so với cỏc đơn vị trong cỏc cụm khỏc. Sự di chuyển từ một cụm này sang cụm khỏc trong ma trận diễn ra từ từ trờn một số đơn vị trong ma trận. Điều này cú nghĩa là nếu số cụm mong muốn là đủ nhỏ thỡ ma trận SOM cũng phải được phõn cụm.

Dựng SOM như một bước trung gian để phõn cụm, đú là cỏch tiếp cận gồm hai mức: đầu tiờn phõn cụm tập dữ liệu, và sau đú phõn cụm SOM. Với mỗi vectơ dữ

liệu của tập dữ liệu ban đầu thuộc cựng một cụm cú mẫu gần nú nhất. Một ưu điểm của cỏch tiếp cận này là giảm thời gian tớnh toỏn, điều này dễ dàng phõn biệt được với cỏc thuật toỏn phõn cụm khỏc mà điển hỡnh là cõy phõn cấp thậm chớ với một lượng nhỏ cỏc vớ dụ ban đầu cũng trở nờn nặng nề. Chớnh vỡ vậy cỏch tiếp cận này là hoàn toàn phự hợp cho việc phõn cụm một tập cỏc mẫu hơn là làm trực tiếp trờn tập dữ liệụ

Cú thể sử dụng cỏc phương phỏp phõn cụm bộ phận hay phõn cụm theo phõn cấp để

phõn cụm SOM. Cỏc mẫu cú thể được phõn cụm trực tiếp hoặc phõn cụm theo một sốđặc tớnh xỏc định trước của SOM. Trong phõn cụm bộ phận cỏc đơn vị nội suy cú thể bị bỏ qua khi phõn tớch [3]. Trong phõn cụm tớch tụ quan hệ lõn cận SOM cú thể được dựng để ràng buộc khả năng hợp nhất trong cấu trỳc dạng cõy dendrogram.

Nếu điều này được dựng kết hợp với cỏc ràng buộc lõn cận, cỏc đơn vị nội suy để

thể hiện đường biờn trong ma trận mà vẫn tuõn theo cấu trỳc dendrogram.

Ngoài ra, cú thể dựng trực tiếp ma trận khoảng cỏch làm cơ sở phõn cụm. Vỡ ma trận khoảng cỏch cho biết khoảng cỏch trung bỡnh của mỗi vectơ mẫu đến cỏc lõn cận của nú và dự đoỏn được phõn bố xỏc suất cục bộ, việc tối thiểu cục bộ của ma trận được dựng làm trọng tõm hay điểm nhõn của cụm. Sự phõn chia cú thể được thực hiện ngay sau đú bằng cỏch xỏc định đơn vị trong ma trận gần tõm nhất hoặc dựng cỏch loang theo tối thiểu cục bộ.

SOM cũng được ỏp dụng trong phõn cụm tập dữ liệu khụng chuẩn hoỏ. Dựng quy tắc của học ganh đua [5], vectơ trọng số cú thể điều chỉnh theo hàm phõn bố xỏc suất của cỏc vectơđầu vàọ Sự tương đồng giữa vectơđầu vào x và vectơ trọng sốw

được tớnh toỏn bằng khoảng cỏch Ơclit. Trong suốt quỏ trỡnh huấn luyện một vectơ

trọng sốwj tuỳ ý được cập nhập tại thời điểm t là: [ ( ) ( )] ) ( ) ( ) (t t h t x t w t wj = cjj ∆ α

Với α(t) là tỷ lệ học giảm dần trong quỏ trỡnh huấn luyện, và hci(t) là hàm lõn cận giữa vectơ trọng số chiến thắng wc, và vectơ trọng số wj , hci(t) cũng giảm dần trong quỏ trỡnh huấn luyện. Mối quan hệ lõn cận được xỏc định bằng cấu trỳc hỡnh học và mối quan hệ này cốđịnh trong suốt quỏ trỡnh học. Kết thỳc quỏ trỡnh học, điều chỉnh lại bỏn kớnh lõn cận đủ nhỏđể cập nhập lại cho cỏc vectơ trọng số chiến thắng wc và cỏc lõn cận gần chỳng nhất. Đối với cấu trỳc một chiều nú cú thể được biểu diễn bằng luật huấn luyện. Cụng thức trờn là một sấp xỉ của hàm đơn điệu của phõn bố

xỏc suất trờn cỏc vectơđầu vàọ Trong cấu trỳc hai chiều thỡ kết quả trả về là một sự

tương quan giữa độ xấp xỉ và bỡnh phương lỗi tối thiểu của vectơ lượng tử.

Trong trường hợp tồn tại vựng thoả món và tồn tại phõn bố cỏc tõm cụm, việc ước lượng quan hệ chiến thắng của cỏc nơron là để mụ phỏng trực quan cỏc cụm. Hỡnh 15 thể hiện năm cụm bằng cỏch mó hoỏ mức xỏm cho histogram chiến thắng. Dữ

liệu hỗn hợp Gauxơ được sinh ra bằng việc cố định năm tõm cụm và năm ma trận khỏc nhaụ Kớch thước của tập dữ liệu sinh ra và tập dữ liệu thực nghiệm là bằng nhau, và dựđoỏn tổng thể cỏc ma trận được xấp xỉ bằng nhaụ Cỏc đơn vịđược gỏn màu đen trong hỡnh 15 là cỏc nơron chết, cỏc nơron này dễ dàng phõn biệt cỏc cụm với nhaụ

Để bảo toàn hỡnh thỏi lõn cận trong ma trận, vectơ trọng số trong khụng gian đầu vào cũng được đặt gần nhau trong khụng gian đầu rạ Ánh xạ từ khụng gian đầu vào tới khụng gian đầu ra hầu như liờn tục, nhưng ngược lại thỡ khụng đỳng. Vỡ vậy, hai vectơ trọng số về mặt hỡnh học là gần nhau nhưng khụng phải cựng thể hiện trờn một cụm. Nếu khoảng cỏch của chỳng là nhỏ, thỡ chỳng cú thể là một cụm, nếu ngược lại chỳng xuất hiện ở cỏc cụm khỏc nhaụ Trực quan hoỏ khoảng cỏch lõn cận giữa cỏc vectơ trọng số được đưa ra trong ma trận hợp nhất khoảng cỏch.Với mọi vectơ trọng số wxy, với xy là cỏc chỉ số hỡnh thỏi, khoảng cỏch Ơclit dxdy

giữa hai lõn cận và khoảng cỏch dxy tới lõn cận tiếp theo được tớnh như sau:

y x y x w w y x dx( , ) = , − +1, 1 , , ) , (x y = wx ywx y+ dy ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − + − = + + + = 2 2 2 1 ) , (x y wx,y wx 1,y 1 wx,y 1 wx 1,y dxy

Hỡnh 15. Vectơ chiến thắng liờn tục đối với SOM cú 30x40 nơron cho dữ liệu hỗn hợp Gauxơ

Khoảng cỏch du được tớnh bằng giỏ trị trung bỡnh của tỏm khoảng cỏch biờn xung quanh. Với bốn khoảng cỏch cho mỗi nơron dx, dy, dxydu, như vậy dễ dàng xỏc

định ma trận hợp nhất và ma trận này cú kớch thước là (2nx-1)(2ny-1).

Trong hỡnh 17 cỏc thành phần của U-matrix được mó hoỏ theo mức xỏm. Chỗ sỏng là cỏc giỏ trị thấp và chỗ tối cho giỏ trị caọ Như vậy, cỏc cụm trờn ma trận là cỏc vựng cú khoảng cỏch nhỏ giữa cỏc trọng số và giữa cỏc cụm với nhau lại cú khoảng cỏch lớn.

Một phần của tài liệu Luận văn tốt nghiệp: Học mạng nơron theo mô hình SOM và ứng dụng trong bài toán quản lý khách hàng vay vốn Ngân hàng doc (Trang 32 - 36)

Tải bản đầy đủ (PDF)

(77 trang)