Sử dụng SOM trong khai phỏ dữ liệu

Một phần của tài liệu Học mạng nơron theo mô hình SOM và ứng dụng trong bài toán quản lý khách hàng vay vốn Ngân hàng (Trang 29 - 31)

Thuật toỏn SOM với những ưu điểm của nú, đó trở thành cụng cụ cú ớch trong khai phỏ dữ liệụ Đú là, tạo ra hàm phõn bố xỏc suất cho tập dữ liệu ban đầu, dễ giải thớch và quan trọng nhất là trực quan hoỏ tốt [8,10,11]. Tuỳ theo vấn đề cần giải quyết, cỏc chuyờn gia khai phỏ dữ liệu cú thể chọn cỏc phương phỏp khỏc nhau để phõn tớch dữ liệu đưa rạ Thế nhưng với phuơng phỏp SOM cú thể làm nhiều cụng việc cựng một lỳc và cho kết quả tương đương với việc kết hợp nhiều phương phỏp khỏc với nhaụ Như đó trỡnh bày, SOM rất hiệu quả trong việc phõn cụm và rỳt gọn kớch thước dữ liệụ Nếu tớch hợp SOM với cỏc phương phỏp khỏc cú thể sinh luật.

Trực quan hoỏ rất cú ý nghĩa trong khai phỏ dữ liệu, là yếu tố quan trọng trong bỏo

cỏo kết quả hoặc “tạo” tri thức [10]. Cỏc minh hoạ trực quan dựng để hiểu thấu đỏo tập dữ liệu và túm tắt cấu trỳc tập dữ liệụ Cú thể khẳng định điểm mạnh của SOM là phương phỏp trực quan hoỏ . Cỏc kỹ thuật trực quan hoỏ dựng SOM gồm:

- Trực quan hoỏ ma trận gồm trực quan hoỏ cỏc thành phần (component planes) của vectơ và sự tương quan giữa chỳng; trực quan hoỏ ma trận hợp nhất khoảng cỏch U (unified distance matrix – U Matrix) để biểu diễn cấu trỳc cụm của dữ liệu; ỏnh xạ Sammon [11] thể hiện hỡnh ảnh của ma trận trong khụng gian đầu vào; cỏc biểu đồ dữ liệu và phương phỏp chiếu tập dữ liệu cho mục đớch trực quan.

- Trực quan hoỏ đối tượng thực chất là ỏp dụng SOM để chọn lọc đặc tớnh nổi trội của cỏc thành phần dữ liệu, bằng cỏch đỏnh màu tự động cho mỗi đơn vị của ma trận hoặc ấn định màu bằng taỵ Mỗi điểm của đối tượng được đỏnh dấu bằng màu phự hợp với màu BMU của điểm đú.

Độ đo ma trận (Map measures) là độ đo chất lượng của SOM thường được ước lượng dựa trờn độ phõn giải của nú và cỏch bảo toàn tốt hỡnh thỏi của tập dữ liệu trờn ma trận. Cỏc độ đo chất lượng khỏc của ma trận cú thể dựa vào sự phõn cụm chớnh xỏc của ma trận đú, nhưng lại đũi hỏi cỏc vớ dụ đầu vào phải được gỏn nhón. Ngoài độ đo trờn, chất lượng của SOM cú liờn quan đến kớch thước thật của tập dữ liệu ban đầụ Nếu kớch thước ma trận SOM lớn hơn kớch thước dữ liệu đầu vào, thỡ ma trận khụng thể thể hiện theo phõn bố của tập dữ liệu ban đầụ Như vậy sẽ mõu thuẫn với mục đớch bảo toàn trạng thỏi và độ phõn giải của ma trận. Một ma trận với độ phõn giải khụng phự hợp cú thể phỏ vỡ hỡnh thỏi của nú.

Thường độ phõn giải là một độ đo trung bỡnh lỗi lượng tử trờn toàn bộ tập dữ thử nghiệm: ∑ = − = N i c i q x m N 1 1 ε

Phõn cụm: cỏc thuật toỏn phõn cụm dữ liệu như là K thành phần chớnh hoặc

ISODATA [9], thường tối thiểu khoảng cỏch trong cụm và cực đại khoảng cỏch giữa cỏc cụm. Độ đo khoảng cỏch cú thể căn cứ vào liờn kết đơn hoặc liờn kết đầy đủ. Liờn kết đơn là độ đo khoảng cỏch từ một cụm X đến cụm Y nào đú bằng cỏch cực tiểu khoảng cỏch giữa thành phần cỏc cụm qX (qX X)và qY (qY X), liờn kết đầy đủ là độ đo khoảng cỏch bằng cỏch cực đại, thường được xỏc định như sau:

Hạn chế trong liờn kết đơn đú là cỏc cụm dễ trở thành chuỗi dài do đú khụng điển hỡnh cho dữ liệụ Mặt khỏc, với liờn kết đầy đủ đụi khi vượt quỏ giới hạn cho phộp. í tưởng kết hợp giữa liờn kết đơn và liờn kết đầy đủ hoàn toàn cú thể thực hiện được. Bằng cỏch gắn độ đo cho cỏc điểm trong cụm với trọng số phự hợp. Như vậy,

{d q q q X q Y} Y X ds( , )=min ( X, Y)| X∈ , Y∈ {d q q q X q Y} Y X dc( , )=max ( X, Y)| X∈ , Y

độ đo vừa gắn được giỏ trị cho tất cả cỏc điểm giống như khoảng cỏch vừa giữ được hỡnh thỏi của cụm dữ liệụ Phương phỏp SOM hoàn toàn cú thể được dựng như một phộp đọ

Một phần của tài liệu Học mạng nơron theo mô hình SOM và ứng dụng trong bài toán quản lý khách hàng vay vốn Ngân hàng (Trang 29 - 31)

Tải bản đầy đủ (PDF)

(76 trang)