Phân cụm dữ liệu

3. Bố cục và cấu trúc của luận văn

5.2. Phân cụm dữ liệu

Phân cụm dữ liệu là việc chia tập dữ liệu thành các tập dữ liệu con (các cụm), sao cho dữ liệu ở mỗi cụm cùng mang một số nét đặc trƣng chung. Phân cụm đƣợc coi là bài toán học không giám sát quan trọng nhất. Việc phân cụm dữ liệu là kỹ thuật thƣờng dùng cho việc phân tích dữ liệu thông kê. Nó đƣợc sử dụng trong nhiều lĩnh vực nhƣ Học máy, khai phá dữ liệu, nhận dạng mẫu, phân tích ảnh và tin sinh học [23].

Các phƣơng pháp phân cụm thƣờng theo hƣớng tiếp cận sau: - Các thuật toán phân vùng (partitioning).

- Các thuật toán phân cấp (hierarchical).

Thuật toán phân cấp tìm các cụm kế tiếp từ các cụm đã đƣợc thành lập trƣớc đó, phƣơng pháp này thƣờng theo hai hƣớng tích tụ (agglomerative, kiểu bottom up) và chia rẽ (divisive, kiểu top-down), kiểu tích tụ đƣợc sử dụng phổ biến hơn. Thuật toán tích tụ ban đầu coi mỗi đối tƣợng là một cụm, sau đó nó thực hiện việc gép các cụm đơn thành các cụm lớn hơn, cho đến khi tất cả đối tƣợng là trọng một cụm đơn. Một số thuật toán tiêu biểu của phƣơng pháp này

là Agnes (199), Diana (1990), Birch( 1996), Cure ( 1998) và Chameleon(1999).

Ngƣợc lại, thuật toán chia vùng quyết tất cả các cụm tại một thời điểm. Thuật toán này bắt đầu với toàn bộ dữ liệu và tiến hành chia tập dữ liệu thành các cụm nhỏ hơn. Trong một số phƣơng pháp, không chỉ các đối tƣợng đƣợc phân cụm mà các thuộc tính của đối tƣợng cũng đƣợc phân cụm. Ví dụ nhƣ dữ liệu đƣợc thể hiện dƣới dạng ma trận dữ liệu, các hàng, cột sẽ đƣợc phân cụm đồng thời. Tiêu biểu của phƣơng pháp này là phƣơng pháp k-way clustering.

Phân cụm k-way clustering:

Trong phƣơng pháp này dữ liệu đầu tiên đƣợc chia làm hai nhóm, sau đó một trong các nhóm sẽ đƣợc chọn và đƣợc chia làm hai nhóm. Qúa trình này tiếp diễn khi số cụm mong muốn đƣợc tìm thấy. Trong mỗi bƣớc một cụm đƣợc chia làm hai sao cho kết quả này tối ƣu một hàm điều kiện phân cụm cụ thể.

Mốt số hàm điều kiện phân cụm tiêu biểu:

sim(v,u) là hàm đo mức độ tƣơng tự giƣa v và u.

Giả sử ta có bộ dự liệu đồng xuất hiện S={(x1,y1},(x2,y2),…,(xm,ym)}, và các mẫu đƣợc thực hiện từ mô hình xác suất (5-1):

P(x,y)=P(Cx,Xy)P(x/Cx)P(y/Cy) (5-1) Với: x Cx, y Cy

Khả năng xảy ra tính theo logarit (log-likelihood) là:

Các tham số của mô hình này đƣợc tính theo ƣớc lƣợng khả năng xảy ra tối đa:

Với N(x) thể hiện tần xuất xuất hiện của x, |S| là số phần tử của S.

Phƣơng pháp này theo mô hình phân cấp tích tụ- agglomerative, bottom-up, tại mỗi bƣớc một cặp của một trong 2 cụm của X hoặc Y đƣợc chọn và gép với nhau. Trong tất cả các cặp, cặp với độ giảm giá trị log-likelihood ít nhất sẽ đƣợc chọn.

Phƣơng pháp k-Nearest Neighbour

Phƣơng pháp Linear Least Square Fit LLSF