Mạng nơron Kohonen với bài toán phân tích, đánh gi- 123docz.net

1. Lý do chọn đề tài

2.3.3. Mạng nơron Kohonen với bài toán phân tích, đánh giá

2.3.3.1 SOM sử dụng trong phân cụm dữ liệu

Phân cụm dữ liệu được sử dụng để xác định các nhóm tự nhiên của dữ liệụ Trong phân cụm các lớp của các mẫu không có sẵn và số lượng các lớp không rõ ràng. Để tìm kiếm các mẫu thường sử dụng một số biện pháp tương tự. Biện pháp tương tự thường sử dụng là xác định khoảng cách giữa các điểm gần nhau hoặc có thể sử dụng các thuộc tính khác nhau như xác định hướng của vector trong không gian đọ Phương pháp tìm kiếm các cụm có thể sử dụng hai phương pháp phỏng đoán hoặc dựa vào giảm thiểu các tiêu chuẩn cụm.

2.3.4.2. SOM phân cụm với bản đồ một chiều

Phân cụm dữ liệu trong bản đồ một chiều vector trọng số của phần tử xử lý tương ứng với vector trung bình cụm. Kết thúc quá trình học đầu vào đại diện và mỗi đầu vào được chỉ định vector trọng số gần nhất tương ứng với cụm riêng biệt.

2.3.4.3 SOM phân cụm với bản đồ 2 chiều

Phân cụm dữ liệu sử dụng bản đồ 2 chiềụ Một hoặc một số vector trọng số tương ứng với một cụm. Để tìm vector trọng số tương ứng với các cụm có thể sử dụng 2 phương pháp:

Phân cụm dữ liệu có thể được thực hiện bằng cách sử dụng hàm mật độ ước lượng của dữ liệu để tìm ra các điểm lồi lõm. Sử dụng SOM để ước lượng giá trị hàm mật độ cho mỗi phần tử xử lý. Để thực hiện được ước lượng đó được thực hiện bằng cách tìm kiếm các phần tử xử lý chiến thắng cho vector đầu vào và phần tử xử lý tính toán tổng vector đầu vào và tổng của lỗi lượng tử. Lỗi lượng tử là bình phương khoảng cách giữa vector đầu vào và phần tử xử lý chiến thắng. Ước lượng hàm mật độ có thể được thực hiện bằng cách tính trung bình lỗi lượng tử. Nếu trung bình lỗi lượng tử nhỏ thì mật độ bề mặt cao và ngược lại mật độ bề mặt sẽ thấp hơn. Các hàm mật độ được ước lượng và được phân chia vào các cụm khác nhau bằng cách sử dụng tìm kiếm độ dốc đơn. Đầu tiên giá trị nhỏ nhất của hàm mật độ được tìm kiếm và phần từ xử lý của nó được gán nhãn về cụm 1. Sau đó tìm kiếm độ dốc đơn trong 8 lân cận và các phần tử xử lý sử dụng trong tìm kiếm độ dốc được liên kết với phần tử xử lý trước đó. Xác định sự khác biệt lớn nhất về giá trị ước lượng xung quanh phần tử xử lý hiện tại và xác định hước tăng giá trị của hàm mật độ. Quá trình này được lặp để tìm ra giá trị cao nhất của hàm mật độ hoặc các phần tử xử lý. Quá trình này được lặp cho đến khi tất cả các phần tử xử lý được dán nhãn.

b. Phân cụm trong không gian trọng số

SOM di chuyển vector trọng số của các phần tử xử lý đến vị trí lựa chọn theo hàm mật độ của dữ liệu đầu vàọ Theo cách này vùng mật độ cao có số lượng vector trọng số lớn hơn các vùng còn lạị Sự hình thành các cụm dựa trên sự di chuyển của vector trọng số về hướng độ dốc của hàm mật độ. Vector trọng số di chuyển được ước lượng tính toán giá trị trung bình lân cận của vector trọng số, vector trọng số ban đầu được thay thế bởi tính toán trung bình cục bộ. Quá trình được thực hiện cho tới khi không có vector trọng số nào được di chuyển. Vector trọng số được phân nhóm rõ ràng và các vector trọng số trong một nhóm tương ứng với một cụm.

2.3.4.4 Xác định ranh giới các cụm

Ranh giới từ các thành phần/U-matrix được lựa chọn từ đơn vị biên thích hợp nhất rút ra từ giá trị của đơn vị được chọn hiện tại tới đơn vị liền kề của nó. Để rút ra ranh giới đầu tiên phải tính toán 2 đơn vị lân cận thích hợp nhất để tạo một ranh giớị Sử dụng sự khác biệt tương đối của các đơn vị biên được chọn. Hai đơn vị lân cận được chọn là hai đơn vị có sự khách biệt tương đối cao nhất được xác định là ranh giớị Sự khác biệt giữa khoảng cách trung bình của đơn vị hiện tại và 2 đơn vị ranh giới được chọn so với khoảng cách trung bình của các đơn vị còn lạị Để tìm ra sự khác biệt đó sử dụng biện pháp tìm ra giá trị khác biệt của ranh giới BDV (boundary difference value):

Với ML là trung bình của 3 đơn vị ranh giới được chọn. M0 là trung bình của các lân cận còn lạị R0 là vùng của các đơn vị còn lạị

Khi có sự kết hợp của các đơn vị ranh giới được tính toán đơn vị có sự khác biệt BDV cao nhất là những đơn vị được chọn đề hình thành ranh giớị Quá trình này được lặp đi lặp lại cho đến khi các ranh giới mạnh nhất được lựa chọn. Bước tiếp theo tìm BDV cao nhất và tạo thành ranh giới dọc theo các đơn vị lân cận BDV cao nhất. Quá trình xử lý được lặp cho tới khi xác định được ranh giới của tất cả các cụm.

2.3.4.5 Trực quan mạng

Dựa trên các thuật toán đồ tự tổ chức, năm kỹ thuật trực quan hóa chính đã được khám phá: U-matrix, trực quan lưới, trực quan hóa bản đồ thành phần, bề mặt đồ thị 2D và 3D của ma trận khoảng cách.

Đại diện thống nhất khoảng cách ma trận cho trực quan cụm: Ma trận thống nhất khoảng cách (U-matrix) là một đại diện của bản đồ tự tổ chức xác định khoảng cách giữa các nơron hoặc các đơn vị. Chứa khoảng cách từ mỗi

đơn vị trung tâm cho tất cả các lân cận. Các nơron của mạng SOM được đại diện bởi các ô lục giác. Khoảng cách giữa các nơron liền kề được tính toán và xuất hiện với các màu khác nhaụ Màu tối giữa các nơron tương ứng với khoảng cách lớn và đại diện cho sự chênh lệch khoảng cách giữa các giá trị trong không gian đầu vàọ Màu sáng giữa các nơron thể hiện các vectơ gần nhau trong không gian đầu vàọ Vùng sáng đại diện cho các cụm và vùng tối đại diện cho sự phân chia cụm. Những đại diện này được sử dụng để trực quan hóa cấu trúc của không gian đầu vàọ Các đại diện U-matrix cho thấy cấu trúc các cụm của tập dữ liệụ Các giá trị có đặc tính tương tự được sắp xếp gần nhau và khoảng cách giữa chúng đại diện cho mức độ tương tự hoặc không tương tự.

Trực quan lưới được sử dụng để hình dung hình dạng của SOM trong không gian đầu vàọ Đại diện cho mỗi đơn vị của bản đồ sử dụng một phép chiếu do đó khoảng cách giữa các cặp dữ liệu mẫu được bảo toàn một cách chính xác. Sử dụng lưới SOM để hình dung tập các đối tượng với vị trí, màu sắc, hình dạng duy nhất. Phép chiếu của SOM cung cấp hình ảnh thông tin của hình dạng tổng thể và độ mịn của SOM. Một số các tính năng tương tác trực quan có thể được cung cấp cho người sử dụng: Kiểm soát trên các tọa độ của mỗi đơn vị trong không gian 2D hoặc 3D. Màu sắc và kích thước của điểm đánh dấu được sử dụng cho mỗi đơn vị bản đồ và các thuộc tính của đường để kết nối các đơn vị bản đồ. SOM làm giảm các dữ liệu đầu vào cho một số lượng nhỏ các vector có thể được kết hợp với các kỹ thuật chiếu khác như phân tích thành phần chính và lập bản đồ Sammon để tạo các kết quả chiếu tốt hơn trong khi giảm bớt gánh nặng tính toán liên quan đến các phương pháp chiếụ

Trực quan hóa bản đồ thành phần: Hiển thị giá trị các thuộc tính khác nhau của các phần tử bản đồ. Trực quan hóa của các thành phần bản đồ cho thấy mỗi vetor đầu vào thay đổi trên không gian của các đơn vị SOM. Mỗi

thành phần của bản đồ cho thấy giá trị của một biến trong mỗi đơn vị của bản đồ bằng cách sử dụng màu sắc mã hóạ Bằng cách sử dụng vị trí và màu sắc của bản đồ có thể tìm ra mối quan hệ giữa các đơn vị bản đồ khác nhaụ

Bề mặt đồ thị 2D và 3D của ma trận khoảng cách: Sử dụng màu sắc và tọa độ z để chỉ ra khoảng cách trung bình đến đơn vị bản đồ lân cận. Sử dụng trực quan bề mặt đồ thị 2D và 3D của ma trận khoảng cách thể hiện mật độ, hình dạng, kích thước và số lượng các cụm. Người sử dụng có sự linh hoạt để thao tác các tọa độ và xem trong không gian 2D hoặc 3D.

Mạng nơron Kohonen với bài toán phân tích, đánh giá

Thuật toán lan truyền ngược

Giới thiệu về mạng nơron Kohonen