CHƢƠNG 2 THUẬT TOÁN SOM VỚI BÀI TOÁN PHÂN CỤM
2.2 Dựng mạng nơron trong phõn cụm
2.2.3 Sử dụng SOM trong khai phỏ dữ liệu
Thuật toỏn SOM với những ƣu điểm của nú, đó trở thành cụng cụ cú ớch trong khai phỏ dữ liệụ Đú là, tạo ra hàm phõn bố xỏc suất cho tập dữ liệu ban đầu, dễ giải thớch và quan trọng nhất là trực quan hoỏ tốt [8,10,11]. Tuỳ theo vấn đề cần giải quyết, cỏc chuyờn gia khai phỏ dữ liệu cú thể chọn cỏc phƣơng phỏp khỏc nhau để phõn tớch dữ liệu đƣa rạ Thế nhƣng với phuơng phỏp SOM cú thể làm nhiều cụng việc cựng một lỳc và cho kết quả tƣơng đƣơng với việc kết hợp nhiều phƣơng phỏp khỏc với nhaụ Nhƣ đó trỡnh bày, SOM rất hiệu quả trong việc phõn cụm và rỳt gọn kớch thƣớc dữ liệụ Nếu tớch hợp SOM với cỏc phƣơng phỏp khỏc cú thể sinh luật.
Trực quan hoỏ rất cú ý nghĩa trong khai phỏ dữ liệu, là yếu tố quan trọng trong bỏo cỏo kết quả hoặc “tạo” tri thức [10]. Cỏc minh hoạ trực quan dựng để hiểu thấu đỏo tập dữ liệu và túm tắt cấu trỳc tập dữ liệụ Cú thể khẳng định điểm mạnh của SOM là phƣơng phỏp trực quan hoỏ . Cỏc kỹ thuật trực quan hoỏ dựng SOM gồm:
- Trực quan hoỏ ma trận gồm trực quan hoỏ cỏc thành phần (component planes) của vectơ và sự tƣơng quan giữa chỳng; trực quan hoỏ ma trận hợp nhất khoảng cỏch U (unified distance matrix – U Matrix) để biểu diễn cấu trỳc cụm của dữ liệu; ỏnh xạ Sammon [11] thể hiện hỡnh ảnh của ma trận trong khụng gian đầu vào; cỏc biểu đồ dữ liệu và phƣơng phỏp chiếu tập dữ liệu cho mục đớch trực quan.
- Trực quan hoỏ đối tƣợng thực chất là ỏp dụng SOM để chọn lọc đặc tớnh nổi trội của cỏc thành phần dữ liệu, bằng cỏch đỏnh màu tự động cho mỗi đơn vị của ma trận hoặc ấn định màu bằng taỵ Mỗi điểm của đối tƣợng đƣợc đỏnh dấu bằng màu phự hợp với màu BMU của điểm đú.
Độ đo ma trận (Map measures) là độ đo chất lƣợng của SOM thƣờng đƣợc ƣớc lƣợng dựa trờn độ phõn giải của nú và cỏch bảo toàn tốt hỡnh thỏi của tập dữ liệu trờn ma trận. Cỏc độ đo chất lƣợng khỏc của ma trận cú thể dựa vào sự phõn cụm chớnh xỏc của ma trận đú, nhƣng lại đũi hỏi cỏc vớ dụ đầu vào phải đƣợc gỏn nhón. Ngoài độ đo trờn, chất lƣợng của SOM cú liờn quan đến kớch thƣớc thật của tập dữ liệu ban đầụ Nếu kớch thƣớc ma trận SOM lớn hơn kớch thƣớc dữ liệu đầu vào, thỡ ma trận khụng thể thể hiện theo phõn bố của tập dữ liệu ban đầụ Nhƣ vậy sẽ mõu thuẫn với mục đớch bảo toàn trạng thỏi và độ phõn giải của ma trận. Một ma trận với độ phõn giải khụng phự hợp cú thể phỏ vỡ hỡnh thỏi của nú.
Thƣờng độ phõn giải là một độ đo trung bỡnh lỗi lƣợng tử trờn toàn bộ tập dữ liệu thử nghiệm: N i c i q x m N 1 1
Phõn cụm: cỏc thuật toỏn phõn cụm dữ liệu nhƣ là K thành phần chớnh hoặc ISODATA [9], thƣờng tối thiểu khoảng cỏch trong cụm và cực đại khoảng cỏch giữa cỏc cụm. Độ đo khoảng cỏch cú thể căn cứ vào liờn kết đơn hoặc liờn kết đầy đủ. Liờn kết đơn là độ đo khoảng cỏch từ một cụm X đến cụm Y nào đú bằng cỏch cực tiểu khoảng cỏch giữa thành phần cỏc cụm qX (qX X) và qY (qY X), liờn kết đầy đủ là độ đo khoảng cỏch bằng cỏch cực đại, thƣờng đƣợc xỏc định nhƣ sau:
Hạn chế trong liờn kết đơn đú là cỏc cụm dễ trở thành chuỗi dài do đú khụng điển hỡnh cho dữ liệụ Mặt khỏc, với liờn kết đầy đủ đụi khi lại vƣợt quỏ giới hạn cho phộp. í tƣởng kết hợp giữa liờn kết đơn và liờn kết đầy đủ hoàn toàn cú thể thực hiện đƣợc. Bằng cỏch gắn độ đo cho cỏc điểm trong cụm với trọng số phự hợp. Nhƣ
d q q q X q Y Y X ds( , )min ( X, Y)| X , Y d q q q X q Y Y X dc( , )max ( X, Y)| X , Y
vậy, độ đo vừa gắn đƣợc giỏ trị cho tất cả cỏc điểm giống nhƣ khoảng cỏch vừa giữ đƣợc hỡnh thỏi của cụm dữ liệụ Phƣơng phỏp SOM hoàn toàn cú thể đƣợc dựng nhƣ một phộp đọ