Khởi tạo và huấn luyện SOM

Trƣớc khi khởi tạo bản đồ các giá trị riêng và vector đặc trƣng tƣơng ứng của dữ liệu đƣợc tính toán xác định kích thƣớc của bản đồ. Số lƣợng các nút hoặc các đơn vị của bản đồ đƣợc xác định. Kích thƣớc của bản đồ đƣợc tính toán khi số lƣợng các đơn vị bản đồ đƣợc biết đến. Dữ liệu sử dụng trong luận văn kích thƣớc bản đồ mạng tinh thể hình lục giác. Khởi tạo tuyến tính đƣợc sử dụng để tăng tốc độ huấn luyện.

SOM bao gồm các nơron đƣợc tổ chức trên một lƣới có số chiều thấp. Số lƣợng các nơron có thể thay đổi từ vài chục đến vài nghìn. Mỗi nơron đƣợc đại diện bởi một vector trọng số d chiều trong đó d bằng kích thƣớc của các vector đầu vào. Các nơron kết nối với các nơron liền kề bằng mối quan hệ lân cận của bản đồ. Huấn luyện SOM sử dụng hai thuật toán huấn luyện chính là thuật toán huấn luyện tuần tự và thuật toán huấn luyện theo khối.

3.3.3.1 Thuật toán huấn luyện tuần tự

SOM đƣợc huấn luyện lặp đi lặp lại, trong từng bƣớc huấn luyện mỗi mẫu vector x từ tập dữ liệu đầu vào đƣợc chọn ngẫu nhiên và khoảng cách giữa nó và tất cả các vector trọng số của SOM đƣợc tính toán bằng biện pháp

đo khoảng cách Euclide. Nơron có trọng số vector gần nhất với vector đầu vào x đƣợc gọi là đơn vị phù hợp nhất BMU kí hiệu là c

 

c i i

xm min xm (3.1) Khoảng các đƣợc tính tƣơng đối phức tạp vì 2 lý do:

Giá trị thiếu: Các giá trị này đƣợc thay thế bằng một giá trị không đƣợc xác định trong vector học ma trận dữ liệu. Các thành phần thiếu đƣợc loại bỏ bằng cách tính khoảng cách. Các giá trị giống nhau bị loại bỏ sau mỗi lần tính khoảng cách.

Mặt nạ (mask): Mỗi biến có một phần tử trọng số liên quan. Các biến đƣợc sử dụng dƣới dạng nhị phân, chỉ lấy các biến có giá trị bằng 1 và loại bỏ các biến có giá trị bằng 0 từ quá trình xử lý tìm kiếm BMU. Mặt nạ có thể nhận đƣợc một vài giá trị nếu nó có thể đƣợc dùng một vài giá trị đi kèm theo mức độ quan trọng của chúng. Với mỗi lần thay đổi phƣơng pháp đo khoảng cách đƣợc tính 2 2 k k k k K x m w (x m )     (3.2)

Với k là tập các biến đã biết của tập vector mẫu x, xk, mk là thành phần thứ k của mẫu và vector trọng số, wk là giá trị mặt nạ thứ k.

Sau khi tìm đƣợc BMU vector trọng số của SOM đƣợc cập nhật các BMU đƣợc di chuyển gần hơn với các vector đầu vào trong không gian đầu vào. Những lân cận của BMU đƣợc xử lý tƣơng tự. Công thức cập nhật vector trọng số của đơn vị i đƣợc tính:

i i ci i

m (t 1) m (t)α(t)h (t)[x(t)-m (t)] (3.3)

3.3.3.2 Thuật toán huấn luyện khối

Thuật toán huấn luyện khối là thuật toán lặp nhƣng thay vì sử dụng một vector dữ liệu duy nhất tại một thời điểm thì toàn bộ tập dữ liệu đƣợc thể hiện trên ma trận trƣớc khi có bất kì điều chỉnh nào. Trong từng bƣớc huấn

luyện tập hợp dữ liệu đƣợc phân chia theo các vùng Voronoi. Sau đó vector trọng số đƣợc tính: n ci j j 1 n i ci j 1 h (t)x m (t 1) h (t)       (3.4)

Vector trọng số mới là một giá trị trọng số trung bình của các mẫu, trọng số của mỗi mẫu là giá trị hàm lân cận hci (t) tại BMU của nó. Các giá trị thiếu đƣợc bỏ qua trong quá trình tính trung bình trọng số.

Thuật toán phân cụm dữ liệu

Thuật toán phân cụm K-mean