Kohonen (SOM) và công việc phân cụm dữ liệu

Một phần của tài liệu Mạng kohonen và ứng dụng trong quản lý trợ cấp xã hội của sinh viên trường cao đẳng sư phạm cao bằng (Trang 47 - 52)

CHƯƠNG 2: SOM VÀ KĨ THUẬT PHÂN CỤM DỮ LIỆU DỰA VÀO SOM

2.5. Kohonen (SOM) và công việc phân cụm dữ liệu

Phân cụm dữ liệu đƣợc sử dụng để xác định các nhóm tự nhiên của dữ liệu. Trong phân cụm các lớp của các mẫu không có sẵn và số lƣợng các lớp không rõ ràng. Để tìm kiếm các mẫu thường sử dụng một số biện pháp tương tự. Biện pháp tương tự thường sử dụng là xác định khoảng cách giữa các điểm gần nhau hoặc có thể sử dụng các thuộc tính khác nhau như xác định hướng của vector trong không gian đo. Phương pháp tìm kiếm các cụm có thể sử dụng hai phương pháp phỏng đoán hoặc dựa vào giảm thiểu các tiêu chuẩn cụm [6].

2.5.1. SOM phân cụm với bản đồ 1 chiều

Phân cụm dữ liệu trong bản đồ một chiều vector trọng số của phần tử xử lý tương ứng với vector trung bình cụm. Kết thúc quá trình học đầu vào đại diện và mỗi đầu vào được chỉ định vector trọng số gần nhất tương ứng với cụm riêng biệt.

2.5.2. SOM phân cụm với bản đồ 2 chiều

Phân cụm dữ liệu sử dụng bản đồ 2 chiều. Một hoặc một số vector trọng số tương ứng với một cụm. Để tìm vector trọng số tương ứng với các cụm có thể sử dụng 2 phương pháp:

Phân cụm trong không gian bản đồ

Phân cụm dữ liệu có thể đƣợc thực hiện bằng cách sử dụng hàm mật độ ƣớc lƣợng của dữ liệu để tìm ra các điểm lồi lõm. Sử dụng SOM để ƣớc lƣợng giá trị hàm mật độ cho mỗi phần tử xử lý. Để thực hiện đƣợc ƣớc lƣợng đó đƣợc thực hiện bằng cách tìm kiếm các phần tử xử lý chiến thắng cho vector đầu vào và phần tử xử lý tính toán tổng vector đầu vào và tổng của lỗi lƣợng tử. Lỗi lượng tử là bình phương khoảng cách giữa vector đầu vào và phần tử xử lý chiến thắng. Ƣớc lƣợng hàm mật độ có thể đƣợc thực hiện bằng cách

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

tính trung bình lỗi lƣợng tử. Nếu trung bình lỗi lƣợng tử nhỏ thì mật độ bề mặt cao và ngƣợc lại mật độ bề mặt sẽ thấp hơn. Các hàm mật độ đƣợc ƣớc lƣợng và đƣợc phân chia vào các cụm khác nhau bằng cách sử dụng tìm kiếm độ dốc đơn. Đầu tiên giá trị nhỏ nhất của hàm mật độ đƣợc tìm kiếm và phần từ xử lý của nó đƣợc gán nhãn về cụm 1. Sau đó tìm kiếm độ dốc đơn trong 8 lân cận và các phần tử xử lý sử dụng trong tìm kiếm độ dốc đƣợc liên kết với phần tử xử lý trước đó. Xác định sự khác biệt lớn nhất về giá trị ước lượng xung quanh phần tử xử lý hiện tại và xác định hước tăng giá trị của hàm mật độ. Quá trình này đƣợc lặp để tìm ra giá trị cao nhất của hàm mật độ hoặc các phần tử xử lý. Quá trình này đƣợc lặp cho đến khi tất cả các phần tử xử lý đƣợc dán nhãn.

Phân cụm trong không gian trọng số

SOM di chuyển vector trọng số của các phần tử xử lý đến vị trí lựa chọn theo hàm mật độ của dữ liệu đầu vào. Theo cách này vùng mật độ cao có số lƣợng vector trọng số lớn hơn các vùng còn lại. Sự hình thành các cụm dựa trên sự di chuyển của vector trọng số về hướng độ dốc của hàm mật độ.

Vector trọng số di chuyển đƣợc ƣớc lƣợng tính toán giá trị trung bình lân cận của vector trọng số, vector trọng số ban đầu đƣợc thay thế bởi tính toán trung bình cục bộ. Quá trình đƣợc thực hiện cho tới khi không có vector trọng số nào đƣợc di chuyển. Vector trọng số đƣợc phân nhóm rõ ràng và các vector trọng số trong một nhóm tương ứng với một cụm.

2.5.3. Xác định ranh giới các cụm

Ranh giới từ các thành phần U-matrix đƣợc lựa chọn từ đơn vị biên thích hợp nhất rút ra từ giá trị của đơn vị đƣợc chọn hiện tại tới đơn vị liền kề của nó. Để rút ra ranh giới đầu tiên phải tính toán 2 đơn vị lân cận thích hợp nhất để tạo một ranh giới. Sử dụng sự khác biệt tương đối của các đơn vị biên được chọn. Hai đơn vị lân cận được chọn là hai đơn vị có sự khách biệt tương đối cao nhất đƣợc xác định là ranh giới. Sự khác biệt giữa khoảng cách trung

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

bình của đơn vị hiện tại và 2 đơn vị ranh giới đƣợc chọn so với khoảng cách trung bình của các đơn vị còn lại. Để tìm ra sự khác biệt đó sử dụng biện pháp tìm ra giá trị khác biệt của ranh giới BDV (boundary difference value):

L 0

0

M M

BDV R

Với ML là trung bình của 3 đơn vị ranh giới đƣợc chọn. M0 là trung bình của các lân cận còn lại. R0 là vùng của các đơn vị còn lại.

Khi có sự kết hợp của các đơn vị ranh giới đƣợc tính toán đơn vị có sự khác biệt BDV cao nhất là những đơn vị đƣợc chọn đề hình thành ranh giới.

Quá trình này đƣợc lặp đi lặp lại cho đến khi các ranh giới mạnh nhất đƣợc lựa chọn. Bước tiếp theo tìm BDV cao nhất và tạo thành ranh giới dọc theo các đơn vị lân cận BDV cao nhất. Quá trình xử lý đƣợc lặp cho tới khi xác định đƣợc ranh giới của tất cả các cụm.

2.5.4. Trực quan mạng

Dựa trên các thuật toán đồ tự tổ chức, năm kỹ thuật trực quan hóa chính đã được khám phá: U-matrix, trực quan lưới, trực quan hóa bản đồ thành phần, bề mặt đồ thị 2D và 3D của ma trận khoảng cách.

Đại diện thống nhất khoảng cách ma trận cho trực quan cụm: Ma trận thống nhất khoảng cách (U-matrix) là một đại diện của bản đồ tự tổ chức xác định khoảng cách giữa các nơron hoặc các đơn vị. Chứa khoảng cách từ mỗi đơn vị trung tâm cho tất cả các lân cận. Các nơron của mạng SOM đƣợc đại diện bởi các ô lục giác. Khoảng cách giữa các nơron liền kề đƣợc tính toán và xuất hiện với các màu khác nhau. Màu tối giữa các nơron tương ứng với khoảng cách lớn và đại diện cho sự chênh lệch khoảng cách giữa các giá trị trong không gian đầu vào. Màu sáng giữa các nơron thể hiện các vectơ gần nhau trong không gian đầu vào. Vùng sáng đại diện cho các cụm và vùng tối đại diện cho sự phân chia cụm. Những đại diện này đƣợc sử dụng để trực quan hóa cấu trúc của không gian đầu vào. Các đại diện U-matrix cho thấy

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

cấu trúc các cụm của tập dữ liệu. Các giá trị có đặc tính tương tự được sắp xếp gần nhau và khoảng cách giữa chúng đại diện cho mức độ tương tự hoặc không tương tự.

Trực quan lưới được sử dụng để hình dung hình dạng của SOM trong không gian đầu vào. Đại diện cho mỗi đơn vị của bản đồ sử dụng một phép chiếu do đó khoảng cách giữa các cặp dữ liệu mẫu đƣợc bảo toàn một cách chính xác. Sử dụng lưới SOM để hình dung tập các đối tượng với vị trí, màu sắc, hình dạng duy nhất. Phép chiếu của SOM cung cấp hình ảnh thông tin của hình dạng tổng thể và độ mịn của SOM. Một số các tính năng tương tác trực quan có thể được cung cấp cho người sử dụng: Kiểm soát trên các tọa độ của mỗi đơn vị trong không gian 2D hoặc 3D. Màu sắc và kích thước của điểm đánh dấu đƣợc sử dụng cho mỗi đơn vị bản đồ và các thuộc tính của đường để kết nối các đơn vị bản đồ. SOM làm giảm các dữ liệu đầu vào cho một số lƣợng nhỏ các vector có thể đƣợc kết hợp với các kỹ thuật chiếu khác nhƣ phân tích thành phần chính và lập bản đồ Sammon để tạo các kết quả chiếu tốt hơn trong khi giảm bớt gánh nặng tính toán liên quan đến các phương pháp chiếu.

Trực quan hóa bản đồ thành phần: Hiển thị giá trị các thuộc tính khác nhau của các phần tử bản đồ. Trực quan hóa của các thành phần bản đồ cho thấy mỗi vetor đầu vào thay đổi trên không gian của các đơn vị SOM. Mỗi thành phần của bản đồ cho thấy giá trị của một biến trong mỗi đơn vị của bản đồ bằng cách sử dụng màu sắc mã hóa. Bằng cách sử dụng vị trí và màu sắc của bản đồ có thể tìm ra mối quan hệ giữa các đơn vị bản đồ khác nhau.

Bề mặt đồ thị 2D và 3D của ma trận khoảng cách: Sử dụng màu sắc và tọa độ z để chỉ ra khoảng cách trung bình đến đơn vị bản đồ lân cận. Sử dụng trực quan bề mặt đồ thị 2D và 3D của ma trận khoảng cách thể hiện mật độ, hình dạng, kích thước và số lượng các cụm. Người sử dụng có sự linh hoạt để thao tác các tọa độ và xem trong không gian 2D hoặc 3D.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

2.5.5. Số lượng nhóm khi phân cụm

Trong quá trình ứng dụng mạng SOM vào giải quyết các bài toán phân cụm dữ liệu theo giải thuật đƣợc đƣa ra thì số lƣợng nhóm đƣợc hình thành sau quá trình huấn luyện là ngẫu nhiên và không xác định trước. Trên thực tế có một tham số đầu vào ảnh hưởng tới số lượng nhóm được hình thành sau quá trình huấn luyện đó là kích thước khởi tạo cho mạng SOM, nhưng tham số này ảnh hưởng ít tới số lượng nhóm được hình thành.Vì vậy, với mỗi bài toán riêng biệt thường có một kích thước mạng SOM chuẩn cho bài toán đó.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

CHƯƠNG 3

Một phần của tài liệu Mạng kohonen và ứng dụng trong quản lý trợ cấp xã hội của sinh viên trường cao đẳng sư phạm cao bằng (Trang 47 - 52)

Tải bản đầy đủ (PDF)

(83 trang)