Công cụ SOM Toolbox

Một phần của tài liệu WEB MINING với giải thuật SOM và ứng dụng cho máy tìm kiếm VINAHOO (Trang 36)

SOM Toolbox ra đời do nhu cầu đòi hỏi cần phải có một công cụ tốt, dễ sử dụng, dành riêng cho SOM và đƣợc viết trong Matlab để phục vụ cho mục đích nghiên cứu [8]. Toolbox có thể sử dụng để tiền xử lý dữ liệu, khởi tạo và huấn luyện SOM, trừu tƣợng hoá SOM bằng nhiều cách khác nhau, phân tích các thuộc tính khác của SOM chẳng hạn nhƣ chất lƣợng của SOM, các cụm thể hiện trên bản đồ và các mối liên kết giữa chúng…

2.4.1 Định dạng dữ liệu

Kiểu dữ liệu có thể đƣợc xử lý bởi Toolbox thƣờng đƣợc gọi là một bảng dữ liệu 2 chiềụ Mỗi dòng trong bảng là một dữ liệu ví dụ. Các cột của bảng là các biến ứng với tập dữ liệụ Các biến này có thể là các thuộc tính của một đối tƣợng, hoặc một tập kích thƣớc đƣợc đo tại một thời điểm xác định. Điều quan trọng là mọi ví dụ đều có chung tập các biến. Một vài giá trị có thể bị mất tuy nhiên phần lớn chúng đƣợc lƣu tại đó. Định dạng bảng là một kiểu định dạng phổ biến. Nếu dữ liệu của chúng ta không phù hợp với kiểu định dạng này, chúng có thể đƣợc biến đổi để trở nên thích hợp.

SOM Toolbox có thể xử lý cả hai dạng dữ liệu: kiểu số (numeric) và kiểu ký hiệubiểu tƣợng (symbolic), tuy nhiên chỉ có dạng dữ liệu sốnumeric mới phù hợp với giải thuật SOM. Lƣu ý đối với các dữ liệu dạng sốnumeric, biểu diễn dạng sốnumeric phải mang ý nghĩa nhƣ sau: giả sử 1, 2 và 4 là các giá trị tƣơng ứng của các đối tƣợng A, B và C. Khi đó, điều này mang ý nghĩa là B nằm giữa A và C, khoảng cách giữa A và B nhỏ hơn khoảng cách giữa B và C.

Trong Toolbox, dữ liệu dạng ký hiệusymbolic có thể đƣợc thêm vào chuỗi các nhãn, gắn liền với mỗt ví dụ. Hàm SOM-AutoLabel có thể dùng để điều khiển dạng dữ liệu ký hiệusymbolic. Nếu các biến ký hiệusymbolic cần đƣợc sử dụng trong quá trình huấn luyện SOM, chúng có thể đƣợc chuyển đổi

Formatted: Dutch (Netherlands)

về dạng dữ liệu sốnumeric nhờ thuật toán ánh xạ 1-of-n [4] (Dorial Pyle, Data

Preparation for Data Mining. Morgan Kaufmann Publisher, 1999).

Một phần của tài liệu WEB MINING với giải thuật SOM và ứng dụng cho máy tìm kiếm VINAHOO (Trang 36)