Chương 2: PHÂN CỤM DỮ LIỆU SỬ DỤNG MẠNG SOM
2.4 Mạng nơron Kohonen (SOM)
2.4.1 Giới thiệu về mạng Kohonen (SOM)
SOM là một mô hình mạng nơron do GS Kohonen tìm ra như một dạng thông tin topo thường thấy trong dữ liệu đầu đa chiều biến đổi đổi thành lớp một chiều hoặc hai chiều của nơron, thường với hai chiều, lưới hình chữ nhật [7]. Bản đồ topo đảm bảo một trật tự hoặc một ma trận số liệu được xác định tác động đến đầu vào. Nó thúc đẩy biểu diễn các thông tin giác quan quan trọng trong bộ nhớ của con người có một thứ tự hình học. Cấu trúc liên kết bảo toàn là một thuộc tính quan trọng trong SOM. Các nơron đại diện cho các lớp có tính chất tương tự nhau do đó có thể nhóm lại được với nhau. Nói cách khác cấu trúc liên kết của các tập dữ liệu trong không gian n chiều, nó được chụp bởi SOM và thể hiện trong sự sắp xếp các nút của nó. SOM nén dữ liệu trong khi vẫn giữ mối liên hệ topo quan trọng nhất, nó có thể được coi như tạo ra một số kiểu trừu tượng.
Mạng SOM gồm có một mảng hoặc một mạng tinh thể các số của các phần tử xử lý nơron (các nơron hoặc các nút) thường được sắp xếp
trong một mạng lưới đa chiều mà mỗi nơron được kết nối với đầu vào.
Kiểu mạng tinh thể có thể có nhiều mẫu như hình chữ nhật, hình lục giác hoặc thậm chí bất thường. Liên kết với mỗi nơron có một mẫu được gọi là bảng mã, mô hình có cùng số chiều với số chiều của mẫu đầu vào.
Phương thức học của SOM là một biến thể của cạnh tranh: phương pháp tiếp cận winner-take-all. Tính năng của bản đồ Kohonen tạo ra một bản đồ topo điều chỉnh không chỉ trọng số của nơron chiến thắng mà còn điều chỉnh trọng số của các đơn vị đầu ra liền kề hoặc vùng lân cận của nơron chiến thắng. Không chỉ nơnon chiến thắng được điều chỉnh mà toàn bộ đầu ra lân cận được di chuyển gần hơn đến các mẫu đầu vào. Bắt đầu từ giá trị trọng số ngẫu nhiên, các đơn vị đầu vào tự sắp xếp chúng khi một mẫu đầu vào được thể hiện và một lân cận đáp ứng các mẫu đầu vào. Tiến trình huấn luyện giảm kích thước của các miền lân cận tỏa ra từ các đơn vị chiến thắng. Đơn vị đầu ra lớn sẽ được cập nhật sau đó sẽ đến đơn vị nhỏ hơn và nhỏ hơn được cập nhật cho đến khi kết thúc huấn luyện chỉ có một đơn vị chiến thắng được điều chỉnh. Tương tự như vậy tỉ lệ học sẽ giảm như tiến trình huấn luyện, tìm hiểu tỉ lệ phân rã với khoảng cách từ đơn vị đầu ra chiến thắng
2.4.2 Cấu trúc của SOM
SOM được tạo thành từ các nơron được đặt trên một lưới một chiều hoặc hai chiều. Trọng số n chiều hoặc vector tham chiếu đại diện cho nơron thứ i trong SOM trong đó n bằng kích thức của các vector đầu vào. Cấu trúc liên kết của SOM có thể là hình chữ nhật hoặc hình lục giác.
Hình 2.2 Các nơron trong b qua các lệnh mối quan
liền kề thuộc lân cận thứ nhất n chiều các nơron có thể đ
giác. Các kích cỡ khác nhau của lân cận đ lượng các nơron xác đ
đến tính chính xác và kh 2.4.3 Khởi tạo SOM
Trong thuật toán SOM c
nơron được bố trí ngay từ đầu. Số l chọn là lớn nhất với kích th
quát của bản đồ. Bản đồ không bị ảnh h vượt quá số lượng vector đầu v
thích hợp. Khi kích thư huấn luyện trở nên nặng nề v
tạo giá trị ban đầu cho vector trọng số. Có ba ph sử dụng[8]: Khởi tạo ngẫu nhi
khởi tạo tuyến tính.
Hình 2.2: Cấu trúc của mạng SOM
Các nơron trong bản đồ được kết nối với các nơron lân c ệnh mối quan hệ liền kề trong cấu trúc của bản đồ. Các n ền kề thuộc lân cận thứ nhất ni1 của nơron thứ i. Trong không gian hai
ể được bố trí trong hình chữ nhật hoặc h ỡ khác nhau của lân cận được minh họa như ơron xác định kết quả chi tiết của bản đồ và nó ảnh h
và khả năng khái quát của SOM.
ật toán SOM cơ sở mối quan hệ giữa các topo v ợc bố trí ngay từ đầu. Số lượng các nơron thường
ớn nhất với kích thước lân cận điều chỉnh độ mịn và tính khái ủa bản đồ. Bản đồ không bị ảnh hưởng nhiều khi số lượng n
ợng vector đầu vào nếu kích thước lân cận được lựa chọn ước của bản đồ tăng số lượng nơron các giai đo ặng nề và khó khăn. Trước khi huấn luyện phải khởi ạo giá trị ban đầu cho vector trọng số. Có ba phương pháp khởi tạo đ
ử dụng[8]: Khởi tạo ngẫu nhiên, khởi tạo sử dụng hàm mẫu ban đầu, ơron lân cận thông ệ liền kề trong cấu trúc của bản đồ. Các nơron ứ i. Trong không gian hai ữ nhật hoặc hình lục hình. Số ảnh hưởng
ở mối quan hệ giữa các topo và số được lựa à tính khái ợng nơron ợc lựa chọn ơron các giai đoạn ớc khi huấn luyện phải khởi ởi tạo được ẫu ban đầu,
Khởi tạo ngẫu nhiên: Các giá trị ngẫu nhiên được gán cho vector bảng mã đây là trường hợp được sử dụng khi dữ liệu đầu vào tại thời gian khởi tạo không có gì hoặc ít được biết đến.
Khởi tạo sử dụng mẫu ban đầu: Sử dụng các mẫu ban đầu được thực hiện bởi các mẫu ban đầu của bộ dữ liệu đầu vào và có thể được sử dụng cho khởi tạo vector bảng mã. Điều này có lợi thế mà các điểm tự động đặt trong cùng một phần tử không gian đầu vào với dữ liệu.
Khởi tạo tuyến tính: Phương pháp khởi tạo sử dụng phân tích các thành phần chính của dữ liệu đầu vào. Vector bảng mã được khởi tạo nằm trong cùng một không gian đầu vào được kéo dài bởi 2 vector đặc trưng tương ứng với những giá trị riêng lớn nhất của dữ liệu đầu vào.
Điều này có tác dụng kéo SOM cùng hướng dữ liệu có năng lượng quan trọng nhất. Phương pháp khởi tạo tuyến tính được sử dụng thành công.
Tuyến tính là phương pháp tốt cho khởi tạo bản đồ đa chiều.
2.4.4 Huấn luyện SOM
Bước 1: Lựa chọn ngẫu nhiên vector mẫu x từ tập dữ liệu đầu vào và sử dụng các biện pháp đo khoảng cách giữa vector mẫu và các vector trọng số của bản đồ. Thông thường sử dụng biện pháp đo khoảng cách Euclide. Chọn phần tử trùng khớp nhất BMU kí hiệu c là đơn vị của vector trọng số có sự tươngđ ồng lớn nhất với mẫu đầu vào x. BMU được xác định bằng công thức:
Bước 2: Sau khi tìm được BMU, vector trọng số của SOM được cập nhật. Vector trọng số và topo lân cận được di chuyển gần hơn tới vector đầu vào trong không gian đầu vào. Thủ tục thích nghi kéo dài BMU và các topo lân cận của nó hướng về vector mẫu.
Hình 2.3: Cập nhật BMU v Thông thường quá trình hu
đoạn. Giai đoạn 1: So sánh giá trị ban đầu v đoạn 2 giá trị ban đầu v
1. Giai đoạn này điều chỉnh khoảng cách lần đầu ti với vector trọng số sau đ
2.4.5 Tỉ lệ học
Tỉ lệ học α luôn luôn nh
Tỉ lệ học lớn sẽ làm cho quá trình h quá cao thì hội tụ sẽ không bao giờ xảy ra.
Một số thuộc tính của h - 1>α(t) >0
- Giảm dần đều theo thời gian - Khi α(t) =0 dừng học.
- α(t) có thể thay đổi theo nhiều cách:
+ Sụt giảm hằng số
+ Hàm của huấn luyện lặp + Đệ quy αi(t+1)=
ập nhật BMU và lân cận của nó với mẫu đầu v
quá trình huấn luyện được thực hiện qua hai giai ạn. Giai đoạn 1: So sánh giá trị ban đầu và bán kính vùng lân c
ạn 2 giá trị ban đầu và bán kính vùng lân cận phải nhỏ hơn giai đo ều chỉnh khoảng cách lần đầu tiên của dữ liệu đầu v ới vector trọng số sau đó tinh chỉnh lại bản đồ.
ôn luôn nhỏ hơn 1 thông thường là 0.4 hoặc thấp h àm cho quá trình học nhanh hơn. Tuy nhiên t ội tụ sẽ không bao giờ xảy ra.
ột số thuộc tính của hàm
ảm dần đều theo thời gian ừng học.
ể thay đổi theo nhiều cách:
ụt giảm hằng số
ủa huấn luyện lặp
(t+1)= αi(t)/(1+hciαi(t))
ận của nó với mẫu đầu vào x qua hai giai à bán kính vùng lân cận. Giai ơn giai đoạn ủa dữ liệu đầu vào
ặc thấp hơn.
ơn. Tuy nhiên tỉ lệ học
Tỉ lệ học là hàm giảm chức năng theo thời gian. Có 2 dạng hàm thường sử dụng là hàm tuyến tính theo thời gian và hàm tỉ lệ nghịch với thời gian. Minh họa ở hình 2.3 hàm α(t) tuyến tính a giảm dần tới 0 trong quá trình học từ giá trị ban đầu trong khi hàm ngược α giảm nhanh chóng từ giá trị ban đầu. Giá trị ban đầu của α(t) phải được xác định.
Thường khi sử dụng hàm α(t) tỉ lệ giảm nhanh chóng, giá trị ban đầu có thể lớn hơn giá trị tuyến tính được chọn.
Tỉ lệ học α có thể chấp nhận một số hàm khác nhau:
α(t)=1- α0(t/T) Với kết quả phân cụm tốt nhưng hội tụ chậm hơn.
α(t)=a0ta Hội tụ nhanh hơn và kết quả tốt hơn
α(t)=a0l-at Hội tụ nhanh nhất nhưng kết quả không đúng
Hàm thứ 2 là chấp nhận được với α(t) trong khoảng [0.05-0.9] và luôn chọn giá trị nhỏ hơn gần đến 1.
Hình 2.4: Hàm tỉ lệ học theo thời gian 2.4.6 Hàm lân cận
Hàm lận cận bao gồm hàm tỉ lệ học α(t) là hàm giảm theo thời gian và là hàm mẫu ra lệnh cho các hàm lần cận, các dạng hàm sau cùng cũng xác định tỉ lệ thay đổi xung quanh các đơn vị chiến thắng. Một nút chiến thắng trọng số được cập nhật bằng cách sử dụng tỉ lệ học hiện tại cũng như các nút lân cận các trọng số sẽ được cập nhật nơi tỉ lệ học cho lân cận là ít hơn so với nút chiến thắng và trọng số có sự thay đổi.
Thông thường hàm lân cận được sử dụng để cập nhật cho các nút liền kề. Một loạt các hàm lân cận có thể được sử dụng. Chúng ta có thể hạn chế các hàm chức năng để không gia tăng xung quanh đơn vị chiến thắng mc. Các hàm lân cận có thể cố định xung quanh đơn vị chiến thắng. Một lựa chọn cho hàm lân cận là sử dụng hạt nhân Gaussian xung quanh nơron chiến thắng. Điều này đòi hỏi tính toán theo cấp số nhân nhưng cũng có thể lấy xấp xỉ bởi hàm lân cận bubble. Hàm lân cận Gaussian
(2.12) d2ci: Khoảng cách trung gian của nơron bị kích i và nơron chiến thắng c.
dci: Trong mạng tinh thể một chiều |i-1|
dci: Trong mạng tinh thể 2 chiều ||ri-rc|| khi ri là vị trí của nơron i trong mạng.
δ: Phương pháp đo mức độ bị kích thích của nơron lân cận của nơron chiến thắng hợp tác trong quá trình học.
Trong các thuật toán học δ được cập nhật mỗi lần lặp trong giai đoạn ra lệnh bằng cách sử dụng các quy tắc cập nhật phân rã theo hàm mũ với các tham số.
Tính năng khác của SOM là kích thước của một lân cận thu nhỏ với thời gian
δ(t)= δ0exp(-t/τ1) (2.13) Trong đó: t: rời rạc theo thời gian t=0,1,2,3…
τ: Độ nghiêng của đồ thị δ(t) đối với t tạo lênτ(1) lớn hơn chiều rộng δ(t) giảm chậm hơn
Hàm lân cận là hci(t):
Một dạng khác của hàm lân cận là hàm lân cận bubble. Hàm lân cận bubble là một hằng số được xác định lân cận của nơron chiến thắng, mọi nơron ở khu vực lân cận sẽ được cập nhật đối xứng với tỉ lệ khác biệt giữa các nơron và vector mẫu. Hàm lân cận bubble là một hàm trung gian giữa tổn thất tính toán và xấp xỉ Gaussian. Một tính toán cho hàm này cũng tốn nhiều thời gian. Công thức tính cho hàm bubble
Một hình thức đơn giản của hàm lân cận biểu thị một tập hợp các nút xung quanh các nút phù hợp nhất. Bằng cách chọn tỉ lệ học ban đầu phù hợp và hình thức học với hàm lân cận ảnh hưởng đáng kể đến kết quả.
Hình 2.5: Giá trị của hàm lân cận Gausian(a) và hàm Bubble(b) 2.4.7 Cập nhật trọng số
Sau khi tìm kiếm các đơn vị phù hợp nhất. Các đơn vị trong SOM sẽ được cập nhật. Trong suốt quá trình cập nhật, đơn vị phù hợp nhất sẽ được cập nhật để được gần hơn các vector mẫu trong không gian đầu
vào. Topo lân cận của đơn vị phù hợp nhất cũng được cập nhật. Việc cập nhật sẽ được trải dài BMU và topo lân cận đối với vector mẫu. Có hai phương thức cập nhật trọng số khi huấn luyện SOM. Phương thức thứ nhất là phương pháp cộng: Một phần nhỏ cuả vector đầu vào sẽ được thêm vào vector trọng số sau đó tổng hợp lại đơn vị chiều dài. X là vector huấn luyện mạng, w(t) là vector trọng số của nơron chiến thắng tại thời điểm t, cập nhật vector trọng số w(t+1) có thể tính toán với công thức:
Với :
w(t): Vector trọng số w(t+1): Cập nhật vector trọng số x: vector đầu vào α(t): Tỉ lệ học
Ngoài phương pháp cộng người ta có thể sử dụng phương pháp trừ được mô tả bằng công thức:
Với :
w(t): Vector trọng số w(t+1): Cập nhật vector trọng số x: vector đầu vào α(t): Tỉ lệ học
2.4.8 Xác định nơron chiến thắng
SOM gồm có một lớp nơron tự tổ chức, mảng hai chiều hoặc đa chiều. Nơron có nhiều kết nối đầu vào do bởi có một số thuộc tính được sử dụng trong phân loại. Thủ tục huấn luyện gồm có: Tìm ra nơron với trọng số gần nhất từ vector dữ liệu đầu vào và khai báo nơron như là
nơron chiến thắng. Khi trọng số của tất cả các nơron ở lân cận nơron chiến thắng được điều chỉnh bởi số lượng tỉ lệ với khoảng cách. Phạm vi được công nhận bị giảm như là số lần lặp được tăng lên. Quá trình huấn luyện được hoàn thành nếu một số quy định lặp đạt được.
Khoảng cách Euclide được sử dụng SOM xác định nơron chiến thắng. Mỗi đầu vào được gán cho một trọng số bởi một nơron tương ứng với vector trọng số và kết quả được tổng hợp. Điều này đại diện cho đầu vào thực của nơron đặc biệt. K đại diện cho nơron thứ k và n thuộc tính được sử dụng đại diện cho đầu vào cuối cùng.
Kết quả của vector vô hướng sẽ cho dự báo của một vector khác.
Nếu vector đơn vị được mặc định trong xi và wi ta thu được cosin của 1 góc giữa vector x,w. Vector vô hướng, đầu ra lớn nhất được lựa chọn là chiến thắng.
Khi sử dụng khoảng cách Euclide trong thuật toán SOM, phạm vi của các biến riêng biệt đóng vai trò quyết định trong việc xác định bản đồ tương tự cuối cùng. Nếu phạm vi các giá trị của một biến là lớn hơn nhiều so với các biến khác, khi đó các biến có thể chiếm ưu thế trong tổ chức của SOM. Do đó thành phần dữ liệu thường được chuẩn hóa trước khi thực hiện để mỗi biến có sự thống nhất.
2.4.9 Bảo toàn cấu trúc liên kết
Phân cụm 2 pha của SOM cho phép xác định bảo toàn cấu trúc của các cụm. Ở pha thứ nhất huấn luyện SOM với hàm lân cận Gausian được áp dụng tốt hơn cho bảo toàn cấu trúc, có thể trực quan các thành phần trình bày. Ở pha thứ 2 bản đồ được huấn luyện chia thành các cụm bằng cách sử dụng phát triển các cụm bắt đầu bằng các điểm cực tiểu của ma trận khoảng cách. Tập các điểm có thể tìm được bằng cách:
Với mi là vector nguyên mẫu, Ni, Nj là tập các nút lân cận, và