Thuật toỏn SOM với những ưu điểm của nú, đó trở thành cụng cụ cú ớch trong khai phỏ dữ liệụ Đú là, tạo ra hàm phõn bố xỏc suất cho tập dữ liệu ban đầu, dễ giải thớch và quan trọng nhất là trực quan hoỏ tốt [8,10,11]. Tuỳ theo vấn đề cần giải quyết, cỏc chuyờn gia khai phỏ dữ liệu cú thể chọn cỏc phương phỏp khỏc nhau để
phõn tớch dữ liệu đưa rạ Thế nhưng với phuơng phỏp SOM cú thể làm nhiều cụng việc cựng một lỳc và cho kết quả tương đương với việc kết hợp nhiều phương phỏp khỏc với nhaụ Nhưđó trỡnh bày, SOM rất hiệu quả trong việc phõn cụm và rỳt gọn kớch thước dữ liệụ Nếu tớch hợp SOM với cỏc phương phỏp khỏc cú thể sinh luật.
Trực quan hoỏ rất cú ý nghĩa trong khai phỏ dữ liệu, là yếu tố quan trọng trong bỏo cỏo kết quả hoặc “tạo” tri thức [10]. Cỏc minh hoạ trực quan dựng để hiểu thấu đỏo tập dữ liệu và túm tắt cấu trỳc tập dữ liệụ Cú thể khẳng định điểm mạnh của SOM là phương phỏp trực quan hoỏ . Cỏc kỹ thuật trực quan hoỏ dựng SOM gồm:
- Trực quan hoỏ ma trận gồm trực quan hoỏ cỏc thành phần (component planes) của vectơ và sự tương quan giữa chỳng; trực quan hoỏ ma trận hợp nhất khoảng cỏch U (unified distance matrix – U Matrix) để biểu diễn cấu trỳc cụm của dữ liệu; ỏnh xạ Sammon [11] thể hiện hỡnh ảnh của ma trận trong khụng gian đầu vào; cỏc biểu đồ dữ liệu và phương phỏp chiếu tập dữ
liệu cho mục đớch trực quan.
- Trực quan hoỏ đối tượng thực chất là ỏp dụng SOM để chọn lọc đặc tớnh nổi trội của cỏc thành phần dữ liệu, bằng cỏch đỏnh màu tựđộng cho mỗi đơn vị
của ma trận hoặc ấn định màu bằng taỵ Mỗi điểm của đối tượng được đỏnh dấu bằng màu phự hợp với màu BMU của điểm đú.
Độ đo ma trận (Map measures) là độ đo chất lượng của SOM thường được ước lượng dựa trờn độ phõn giải của nú và cỏch bảo toàn tốt hỡnh thỏi của tập dữ liệu trờn ma trận. Cỏc độ đo chất lượng khỏc của ma trận cú thể dựa vào sự phõn cụm chớnh xỏc của ma trận đú, nhưng lại đũi hỏi cỏc vớ dụđầu vào phải được gỏn nhón. Ngoài độđo trờn, chất lượng của SOM cú liờn quan đến kớch thước thật của tập dữ
liệu ban đầụ Nếu kớch thước ma trận SOM lớn hơn kớch thước dữ liệu đầu vào, thỡ ma trận khụng thể thể hiện theo phõn bố của tập dữ liệu ban đầụ Như vậy sẽ mõu thuẫn với mục đớch bảo toàn trạng thỏi và độ phõn giải của ma trận. Một ma trận với
độ phõn giải khụng phự hợp cú thể phỏ vỡ hỡnh thỏi của nú.
Thường độ phõn giải là một độ đo trung bỡnh lỗi lượng tử trờn toàn bộ tập dữ thử
nghiệm: ∑ = − = N i c i q x m N 1 1 ε Phõn cụm: cỏc thuật toỏn phõn cụm dữ liệu như là K thành phần chớnh hoặc ISODATA [9], thường tối thiểu khoảng cỏch trong cụm và cực đại khoảng cỏch giữa cỏc cụm. Độ đo khoảng cỏch cú thể căn cứ vào liờn kết đơn hoặc liờn kết đầy
đủ. Liờn kết đơn là độ đo khoảng cỏch từ một cụm X đến cụm Y nào đú bằng cỏch cực tiểu khoảng cỏch giữa thành phần cỏc cụm qX (qX ∈ X)và qY (qY ∈ X), liờn kết
đầy đủ là độđo khoảng cỏch bằng cỏch cực đại, thường được xỏc định như sau:
Hạn chế trong liờn kết đơn đú là cỏc cụm dễ trở thành chuỗi dài do đú khụng điển hỡnh cho dữ liệụ Mặt khỏc, với liờn kết đầy đủđụi khi vượt quỏ giới hạn cho phộp. í tưởng kết hợp giữa liờn kết đơn và liờn kết đầy đủ hoàn toàn cú thể thực hiện
được. Bằng cỏch gắn độđo cho cỏc điểm trong cụm với trọng số phự hợp. Như vậy,
{d q q q X q Y} Y X ds( , )=min ( X, Y)| X∈ , Y∈ {d q q q X q Y} Y X dc( , )=max ( X, Y)| X∈ , Y∈
độđo vừa gắn được giỏ trị cho tất cả cỏc điểm giống như khoảng cỏch vừa giữđược hỡnh thỏi của cụm dữ liệụ Phương phỏp SOM hoàn toàn cú thểđược dựng như một phộp đọ