SOM với bài toỏn phõn cụm

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Học mạng nơron theo mô hình SOM và ứng dụng trong bài toán quản lý khách hàng vay vốn ngân hàng (Trang 31 - 35)

CHƢƠNG 2 THUẬT TOÁN SOM VỚI BÀI TOÁN PHÂN CỤM

2.2 Dựng mạng nơron trong phõn cụm

2.2.4 SOM với bài toỏn phõn cụm

SOM là phƣơng phỏp phõn cụm theo cỏch tiếp cận mạng nơron và thuật toỏn học ganh đuạ Vectơ trọng số của ma trận SOM chớnh là trọng tõm cụm, việc phõn cụm cú thể cho kết quả tốt hơn bằng cỏch kết hợp cỏc đơn vị trong ma trận để tạo thành cỏc cụm lớn hơn. Một điểm thuận lợi của phƣơng phỏp này là vựng Voronoi của cỏc đơn vị ma trận là lồi, bằng cỏch kết hợp của một số đơn vị trong ma trận với nhau tạo nờn cỏc cụm khụng lồị Việc sử dụng cỏc độ đo khoảng cỏch khỏc nhau và cỏc chuẩn liờn kết khỏc nhau cú thể tạo thành cỏc cụm lớn hơn.

Ma trận khoảng cỏch: chiến lƣợc chung trong phõn cụm cỏc đơn vị của SOM là tỡm ma trận khoảng cỏch giữa cỏc vectơ tham chiếu và sử dụng giỏ trị lớn trong ma trận nhƣ là chỉ số của đƣờng biờn cụm [11]. Trong khụng gian ba chiều, cỏc cụm sẽ đƣợc thể hiện nhƣ “cỏc thung lũng”. Vấn đề là làm sao để quyết định cỏc đơn vị trong ma trận thuộc về một cụm nào đú cho trƣớc.

Để giải quyết đƣợc vấn đề này, ngƣời ta thƣờng sử dụng thuật toỏn tớch tụ (agglomerative algorithm), gồm cỏc bƣớc:

1.Quy cho mỗi đơn vị trong ma trận một cụm riờng. 2.Tớnh toỏn khoảng cỏch giữa tất cả cỏc cụm.

3.Ghộp hai cụm gần nhất.

4. Nếu số cụm tồn tại bằng số cụm do ngƣời dựng định nghĩa trƣớc thỡ dừng, nếu khụng lặp lại từ bƣớc 2 .

SOM là thuật toỏn phõn cụm vỡ mỗi đơn vị trong ma trận ngay từ đầu là một cụm con gồm cỏc vớ dụ trong tập Voronoi của nú. SOM cú thể đƣợc hiểu nhƣ cụm mờ: mỗi vớ dụ là bộ phận của mọi cụm với thành phần giỏ trị tỷ lệ với hàm lõn cận tại điểm BMU của nú. Sự giải thớch này cú thể phự hợp nếu số lƣợng cỏc vớ dụ cho mỗi cụm ban đầu là nhỏ hoặc phƣơng phỏp mờ đƣợc dựng nhƣ một bƣớc xử lý sau dựa vào kết quả đầu ra của SOM.

Mặc dự, khụng giống hầu hết cỏc phƣơng phỏp lấy mẫu cơ bản, trạng thỏi tối ƣu đối với SOM là bằng khụng, khi số cỏc mẫu bằng số cỏc cụm. Để thay đổi trạng thỏi tối ƣu thỡ số cỏc đơn vị trong SOM phải lớn hơn số cỏc cụm đƣa rạ Hàm lõn cận thể hiện cỏc đơn vị lõn cận trong ma trận, vỡ vậy cỏc đơn vị này phải cú thuộc tớnh giống nhau hơn so với cỏc đơn vị trong cỏc cụm khỏc. Sự di chuyển từ một cụm này sang cụm khỏc trong ma trận diễn ra từ từ trờn một số đơn vị trong ma trận. Điều này cú nghĩa là nếu số cụm mong muốn là đủ nhỏ thỡ ma trận SOM cũng phải đƣợc phõn cụm.

Dựng SOM nhƣ một bƣớc trung gian để phõn cụm, đú là cỏch tiếp cận gồm hai mức: đầu tiờn phõn cụm tập dữ liệu, và sau đú phõn cụm SOM. Với mỗi vectơ dữ liệu của tập dữ liệu ban đầu thuộc cựng một cụm cú mẫu gần nú nhất. Một ƣu điểm của cỏch tiếp cận này là giảm thời gian tớnh toỏn, điều này dễ dàng phõn biệt đƣợc với cỏc thuật toỏn phõn cụm khỏc mà điển hỡnh là cõy phõn cấp thậm chớ với một lƣợng nhỏ cỏc vớ dụ ban đầu cũng trở nờn nặng nề. Chớnh vỡ vậy cỏch tiếp cận này là hoàn toàn phự hợp cho việc phõn cụm một tập cỏc mẫu hơn là làm trực tiếp trờn tập dữ liệụ

Cú thể sử dụng cỏc phƣơng phỏp phõn cụm bộ phận hay phõn cụm theo phõn cấp để phõn cụm SOM. Cỏc mẫu cú thể đƣợc phõn cụm trực tiếp hoặc phõn cụm theo một số đặc tớnh xỏc định trƣớc của SOM. Trong phõn cụm bộ phận cỏc đơn vị nội suy cú thể bị bỏ qua khi phõn tớch [3]. Trong phõn cụm tớch tụ quan hệ lõn cận SOM cú thể đƣợc dựng để ràng buộc khả năng hợp nhất trong cấu trỳc dạng cõy dendrogram.

Nếu điều này đƣợc dựng kết hợp với cỏc ràng buộc lõn cận, cỏc đơn vị nội suy để thể hiện đƣờng biờn trong ma trận mà vẫn tuõn theo cấu trỳc dendrogram.

Ngoài ra, cú thể dựng trực tiếp ma trận khoảng cỏch làm cơ sở phõn cụm. Vỡ ma trận khoảng cỏch cho biết khoảng cỏch trung bỡnh của mỗi vectơ mẫu đến cỏc lõn cận của nú và dự đoỏn đƣợc phõn bố xỏc suất cục bộ, việc tối thiểu cục bộ của ma trận đƣợc dựng làm trọng tõm hay điểm nhõn của cụm. Sự phõn chia cú thể đƣợc thực hiện ngay sau đú bằng cỏch xỏc định đơn vị trong ma trận gần tõm nhất hoặc dựng cỏch loang theo tối thiểu cục bộ.

SOM cũng đƣợc ỏp dụng trong phõn cụm tập dữ liệu khụng chuẩn hoỏ. Dựng quy tắc của học ganh đua [5], vectơ trọng số cú thể điều chỉnh theo hàm phõn bố xỏc suất của cỏc vectơ đầu vàọ Sự tƣơng đồng giữa vectơ đầu vào x và vectơ trọng số w

đƣợc tớnh toỏn bằng khoảng cỏch Ơclit. Trong suốt quỏ trỡnh huấn luyện một vectơ trọng số wj tuỳ ý đƣợc cập nhập tại thời điểm t là:

 ( ) ( ) ) ( ) ( ) (t t h t x t w t wjcjj  

Với (t) là tỷ lệ học giảm dần trong quỏ trỡnh huấn luyện, và hci(t) là hàm lõn cận giữa vectơ trọng số chiến thắng wc, và vectơ trọng số wj , hci(t) cũng giảm dần trong quỏ trỡnh huấn luyện. Mối quan hệ lõn cận đƣợc xỏc định bằng cấu trỳc hỡnh học và mối quan hệ này cố định trong suốt quỏ trỡnh học. Kết thỳc quỏ trỡnh học, điều chỉnh lại bỏn kớnh lõn cận đủ nhỏ để cập nhập lại cho cỏc vectơ trọng số chiến thắng wc và

cỏc lõn cận gần chỳng nhất. Đối với cấu trỳc một chiều nú cú thể đƣợc biểu diễn bằng luật huấn luyện. Cụng thức trờn là một sấp xỉ hàm đơn điệu của phõn bố xỏc suất trờn cỏc vectơ đầu vàọ Trong cấu trỳc hai chiều thỡ kết quả trả về là một sự tƣơng quan giữa độ xấp xỉ và bỡnh phƣơng lỗi tối thiểu của vectơ lƣợng tử.

Trong trƣờng hợp tồn tại vựng thoả món và tồn tại phõn bố cỏc tõm cụm, việc ƣớc lƣợng quan hệ chiến thắng của cỏc nơron là để mụ phỏng trực quan cỏc cụm. Hỡnh 15 thể hiện năm cụm bằng cỏch mó hoỏ mức xỏm cho histogram chiến thắng. Dữ

liệu hỗn hợp Gauxơ đƣợc sinh ra bằng việc cố định năm tõm cụm và năm ma trận khỏc nhaụ Kớch thƣớc của tập dữ liệu sinh ra và tập dữ liệu thực nghiệm là bằng nhau, và dự đoỏn tổng thể cỏc ma trận đƣợc xấp xỉ bằng nhaụ Cỏc đơn vị đƣợc gỏn màu đen trong hỡnh 15 là cỏc nơron chết, cỏc nơron này dễ dàng phõn biệt cỏc cụm với nhaụ

Để bảo toàn hỡnh thỏi lõn cận trong ma trận, vectơ trọng số trong khụng gian đầu vào cũng đƣợc đặt gần nhau trong khụng gian đầu rạ Ánh xạ từ khụng gian đầu vào tới khụng gian đầu ra hầu nhƣ liờn tục, nhƣng ngƣợc lại thỡ khụng đỳng. Vỡ vậy, hai vectơ trọng số về mặt hỡnh học là gần nhau nhƣng khụng phải cựng thể hiện trờn một cụm. Nếu khoảng cỏch của chỳng là nhỏ, thỡ chỳng cú thể là một cụm, nếu ngƣợc lại chỳng xuất hiện ở cỏc cụm khỏc nhaụ Trực quan hoỏ khoảng cỏch lõn cận giữa cỏc vectơ trọng số đƣợc đƣa ra trong ma trận hợp nhất khoảng cỏch.Với mọi vectơ trọng số wxy, với xy là cỏc chỉ số hỡnh thỏi, khoảng cỏch Ơclit dxdy

giữa hai lõn cận và khoảng cỏch dxy tới lõn cận tiếp theo đƣợc tớnh nhƣ sau:

y x y x w w y x dx( , ) ,  1, 1 , , ) , (x ywx ywx ydy                 2 2 2 1 ) , (x y wx,y wx 1,y 1 wx,y 1 wx 1,y dxy

Hỡnh 15. Vectơ chiến thắng liờn tục đối với SOM cú 30x40 nơron cho dữ liệu hỗn hợp Gauxơ

Khoảng cỏch du đƣợc tớnh bằng giỏ trị trung bỡnh của tỏm khoảng cỏch biờn xung quanh. Với bốn khoảng cỏch cho mỗi nơron dx, dy, dxydu, nhƣ vậy dễ dàng xỏc định ma trận hợp nhất và ma trận này cú kớch thƣớc là (2nx-1)(2ny-1).

Trong hỡnh 17 cỏc thành phần của U-matrix đƣợc mó hoỏ theo mức xỏm. Chỗ sỏng là cỏc giỏ trị thấp và chỗ tối cho giỏ trị caọ Nhƣ vậy, cỏc cụm trờn ma trận là cỏc vựng cú khoảng cỏch nhỏ giữa cỏc trọng số và giữa cỏc cụm với nhau lại cú khoảng cỏch lớn.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Học mạng nơron theo mô hình SOM và ứng dụng trong bài toán quản lý khách hàng vay vốn ngân hàng (Trang 31 - 35)

Tải bản đầy đủ (PDF)

(77 trang)