Cấu trúc mô hình mạng Kohonen

Mạng Kohonen hai chiều gồm có 2 lớp đó là lớp vào và lớp ra Kohonen. Lớp vào (Input layer): dùng để đưa dữ liệu huấn luyện vào mạng Kohonen. Kích thước của lớp vào tương ứng với kích thước của mỗi mẫu học. Trong mạng Kohonen hai chiều, các nơron của lớp ra được sắp xếp trên một mảng 2 chiều, mảng này được gọi là lớp ra Kohonen. Tất cả các nơron của lớp vào đều được nối với các nơron trên lớp ra

Kohonen. Mỗi liên kết giữa đầu vào và đầu ra của mạng Kohonen tương ứng với một trọng số. Kích thước của mỗi vetor trọng số bằng kích thước của lớp vào. Ta có thể hình dung cấu trúc mạng Kohonen theo hình sau:

Hình 2.4. Cấu trúc mạng Kohonen

2.3.3. Thuật toán phân cụm bằng mạng Kohonen

Xét một tập dữ liệu là các véc tơ trong không gian n chiều

V = [V1, V2,...,Vn] Khởi tạo tham số thời gian t: t = 0.

Bước 1: Khởi tạo vector trọng số Wij cho mỗi nơron i trong mạng Kohonen.

Bước 2: Lấy một mẫu huấn luyện x từ tập huấn luyện.

Bước 3: Tìm mẫu khớp tốt nhất (BMU) - phần tử nơron chiến thắng:

Duyệt tất cả các nút và tính khoảng cách Euclide giữa vector trọng số của mỗi nút và vector nhập hiện hành. Công thức để tính khoảng cách Euclide được cho như

sau: 2 0 is ( W ) n i i i D t V (2.3)

V: vector nhập hiện hành; W: vector trọng số của phần tử được chọn.Nút có vector trọng số gần nhất với giá trị của vector nhập sẽ được chọn là BMU.

Bước 4: Xây dựng các phần tử lân cận

Các nơron lân cận tùy thuộc vào bán kính, được sắp xếp trong lưới theo hình chữ nhật hoặc hình lục giác. Số các lân cận xác định trọng tâm của ma trận kết quả, có ảnh hưởng đến độ chính xác và khả năng sinh ma trận của SOM.

Hình 2.6. Các vùng lân cận

- Đặc tính duy nhất của thuật toán học Kohonen là vùng lân cận của BMU được xây dựng trên vector khoảng cách sẽ được co lại sau một số lần lặp nhất định. Điều này được thực hiện bằng cách co lại bán kính của vùng lân cận theo số lần lặp.

- Phép co sẽ được thực hiện theo hàm mũ nội suy sau:

0exp t ( 1, 2,3...)

t t (2.4)

σ: bán kính lân cận của BMU tại thời điểm t. σ0: bán kính lân cận của BMU tại thời điểm t0. λ: hằng số thời gian . t: là bước lặp hiện tại .

- Giá trị của hằng số λ phụ thuộc vào σ và số lần lặp để chạy giải thuật. Nó được tính theo công thức sau:

N: số lần lặp để chạy giải thuật (số lần học của mạng).

λ và σ sẽ được dùng để tính bán kính lân cận trong mỗi lần lặp của giải thuật. - Khi bán kính lân cận đã được xác định, việc xác định các phần tử lân cận của BMU sẽ được thực hiện đơn giản bằng cách duyệt tất cả các phần tử trong mạng để xem nó có nằm trong bán kính lân cận hay không.

Bước 5: Hiệu chỉnh trọng số của các phần tử lân cận - quá trình học của giải thuật SOM

Trọng số của các phần tử lân cận được xác định ở bước trên bao gồm cả BMU sẽ được điều chỉnh để chúng có giá trị gần giống với giá trị của vector nhập hơn. Phần tử càng gần với BMU, thì trọng số của nó sẽ càng dễ bị thay đổi nhiều hơn. Các vector trọng số sẽ được hiệu chỉnh theo công thức sau:

( 1) W( ) ( ) ( )( ( ) W( ))

W t t a t L t V t t (2.6)

Hàm nội suy theo thời gian học thể hiện sự tác động của khoảng cách đối với quá trình học và được tính theo công thức sau:

2 2 is ( ) exp ( 1, 2,3...) 2 ( ) d t a t t t (2.7)

dist : là khoảng cách từ một nơron đến nơron chiến thắng. t : bước lặp hiện tại.;

L: tốc độ học (sẽ giảm dần theo số lần lặp).

- Biểu thức trên cho thấy trọng số của một nút sau khi hiệu chỉnh chính là giá trị trọng số cũ W của nó cộng thêm phần giá trị khác biệt giữa trọng số W và vector nhập V theo hệ số tốc độ học.

- Hàm nội suy tốc độ học L(t) cho mỗi bước lặp đựơc tính theo công thức sau:

( ) exp t ( 1, 2,3...)

L t t (2.8)

L0: Giá trị khởi tạo ban đầu của tốc độ học; λ: hằng số thời gian .

- Càng tiến dần về điểm giữa thì tốc độ học sẽ càng giống với hàm mũ nội suy của phép co. Tốc độ học sẽ được nội suy dần theo tốc độ học và giá trị của hàm sẽ tiến dần về không khi số lần lặp đạt đến những bước cuối cùng.

Bước 6: Vòng lặp: Tăng t, lấy mẫu học tiếp theo. Lặp lại bước 2 cho đến khi giải thuật tối ưu hoặc đạt đến số lần lặp xác định N cho trước.

Chú ý: Số lượng vector của tập huấn luyện là có giới hạn. Để cho việc huấn luyện mang lại kết quả tốt nhất đòi hỏi số bước huấn luyện phải lớn và nếu kích thước của tập huấn luyện là nhỏ thì những mẫu huấn luyện có thể được sử dụng lặp lại, những mẫu có thể được áp dụng đều đặn theo chu kỳ hoặc theo một trật tự hoán vị ngẫu nhiên

Trực quan mạng

The U-matrix (The Unified distance matrix - ma trận đồng nhất khoảng cách) là phương thức được sử dụng phổ biến nhất để thể hiện khoảng cách giữa các nơron một cách trực quan. Phương thức này sử dụng khoảng cách giữa các nơron như là một tiêu chuẩn để xác định ranh giới giữa các cụm dữ liệu. Nó chứa khoảng cách Euclid từ mỗi nơron trung tâm đến các “láng giềng” của nó.

Hình 2.7. U-Matrix biểu diễn cho SOM

Sau khi U-Matrix được tính xong thì sẽ được hiển thị dưới dạng lưới các hình lục giác như một công cụ trực quan mạng. Khoảng cách giữa các nơron cũng được hiển thị với những màu sắc khác nhau.

Dịch mạng

Xác định ranh giới giữa các cụm:

Cách dịch U-matrix như sau: nếu giá trị khoảng cách giữa các nơron lớn biểu thị cho những dữ liệu không giống nhau (không cùng cụm); và ngược lại giá trị bé biểu thị cho những dữ liệu giống nhau. Ta có thể tưởng tượng trong không gian 3 chiều giá

trị càng lớn thì độ cao càng lớn và do đó nó tạo thành những bức tường (Walls) phân ranh giới trong khi đó giá trị bé tạo thành những thung lũng (valley) bị bao quanh bởi những bức tường. Do đó dữ liệu trong những “thung lũng” là được gộp nhóm cùng nhau và hiển thị một cụm. Khoảng cách giữa các nơron sau khi được tính, có thể được hiển thị với những màu khác nhau. Màu tối giữa các nơron biểu thị cho khoảng cách lớn. Màu sáng giữa các nơron biểu thị các giá trị nhập là gần nhau. Và do đó vùng màu sáng biểu thị dữ liệu cùng thuộc một cụm và vùng màu tối chính là ranh giới phân cách giữa các cụm. Việc hiển thị này giúp ta có một cái nhìn trực quan, đầy đủ, rõ ràng, chính xác về dữ liệu.

Hình 2.8. Những bức tƣờng trong Kohonen

Xác định tính chất của từng cụm:

Việc xác định tính chất của từng cụm được thực hiện bằng vector trọng số của các nơron thuộc cụm đó. Sử dụng phương pháp của Sestilo & Dillon,1997. Thành phần thứ k của vector trọng số phản ánh mức độ đóng góp của thành phần thứ k của vector nhập.

Gọi (wij1,wij2, . . ., wijn)là vector trọng sốtại nút i,j trên lớp ra Kohonen.

Tìm wijmax=max((wij1,wij2,. . . , wijn).

Các đầu vào k có | wijmax - wijk | < T với T là ngưỡng nằm trong khoảng từ 0 đến 1. Giá trị của ngưỡng T phản ánh mức độ biến thiên quanh trị Wijmax.

Thuật toán SOM với những ưu điểm của nó, đã trở thành công cụ có ích trong phân cụm dữ liệu. Đó là tạo ra hàm phân bố xác suất cho tập dữ liệu bao lớp, dễ giải thích và quan trọng nhất là trực quan mạng tốt. Tùy theo vấn đề cần giải quyết, các chuyên gia phân cụm dữ liệu có thể chọn phương pháp khác nhau để phân tích dữ liệu đưa ra. Thuật toán SOM rất hiệu quả trong việc phân cụm và rút gọn kích thước dữ

liệu, nếu tích hợp SOM với các phương pháp khác có thể sinh luật.

Trong phân cụm dữ liệu, có rất nhiều phương pháp ứng dụng nó như: phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa theo mật độ, …Ví dụ trong phân cụm phân hoạch ta thường nhắc đến K - thành phần chính có nhiệm vụ tối thiểu khoảng cách trong cụm và cực đại khoảng cách giữa các cụm. Độ đo khoảng cách có thể căn cứ vào liên kết đơn hoặc liên kết đầy đủ. Hạn chế trong liên kết đó là các cụm dễ trở thành chuỗi dài do đó không điển hình cho dữ liệu. Mặt khác, liên kết đầy đủ đôi khi vượt quá giới hạn cho phép. Ý tưởng kết hợp liên kết giữa liên kết đơn và liên kết đầy đủ có thể thực hiện được. Bằng cách gắn độ đo các điểm trong cụm với trọng số phù hợp. Như vậy, độ đo vừa gắn được giá trị cho tất cả các điểm giống nhau như khoảng cách vừa giữ được hình thái của cụm dữ liệu. Phương pháp SOM có thể hoàn toàn được dùng như một phép đo.

SOM là phương pháp phân cụm theo cách tiếp cận mạng nơron. Véc tơ trọng số của ma trận SOM chính là trọng tâm cụm, việc phân cụm có thể cho ra kết quả tốt hơn bằng cách kết hợp các đơn vị trong ma trận để tạo thành các cụm lớn hơn.

Dùng SOM như một bước trung gian để phân cụm, đó là cách tiếp cận gồm hai mức: lớp đầu tiên phân cụm dữ liệu, và sau đó phân cụm SOM. Với mỗi véctơ dữ liệu của tập dữ liệu bao lớp thuộc cùng một cụm có mẫu gần nó nhất. Một ưu điểm của cách tiếp cận này là giảm thời gian tính toán, điều này dễ dàng phân biệt được với các thuật toán phân cụm khác mà điển hình là cây phân cấp thậm chí với một lượng nhỏ các ví dụ bao lớp cũng trở lên nặng nề. Chính vì vậy cách tiếp cận này là hoàn toàn phù hợp cho việc phân cụm một tập các mẫu hơn là làm trực tiếp trên tập dữ liệu.

Các yêu cầu khi phân cụm

Thuật toán phân cụm phân cấp