Phân cụm dữ liệu

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu cải tiến một số phương pháp phân loại văn bản tự động và áp dụng trong xử lý văn bản tiếng Việt (Trang 55 - 57)

3. Bố cục và cấu trúc của luận văn

5.2. Phân cụm dữ liệu

Phân cụm dữ liệu là việc chia tập dữ liệu thành các tập dữ liệu con (các cụm), sao cho dữ liệu ở mỗi cụm cùng mang một số nét đặc trƣng chung. Phân cụm đƣợc coi là bài tốn học khơng giám sát quan trọng nhất. Việc phân cụm dữ liệu là kỹ thuật thƣờng dùng cho việc phân tích dữ liệu thơng kê. Nĩ đƣợc sử dụng trong nhiều lĩnh vực nhƣ Học máy, khai phá dữ liệu, nhận dạng mẫu, phân tích ảnh và tin sinh học [23].

Các phƣơng pháp phân cụm thƣờng theo hƣớng tiếp cận sau: - Các thuật tốn phân vùng (partitioning).

- Các thuật tốn phân cấp (hierarchical).

Thuật tốn phân cấp tìm các cụm kế tiếp từ các cụm đã đƣợc thành lập trƣớc đĩ, phƣơng pháp này thƣờng theo hai hƣớng tích tụ (agglomerative, kiểu bottom up) và chia rẽ (divisive, kiểu top-down), kiểu tích tụ đƣợc sử dụng phổ biến hơn. Thuật tốn tích tụ ban đầu coi mỗi đối tƣợng là một cụm, sau đĩ nĩ thực hiện việc gép các cụm đơn thành các cụm lớn hơn, cho đến khi tất cả đối tƣợng là trọng một cụm đơn. Một số thuật tốn tiêu biểu của phƣơng pháp này

là Agnes (199), Diana (1990), Birch( 1996), Cure ( 1998) và Chameleon(1999).

Ngƣợc lại, thuật tốn chia vùng quyết tất cả các cụm tại một thời điểm. Thuật tốn này bắt đầu với tồn bộ dữ liệu và tiến hành chia tập dữ liệu thành các cụm nhỏ hơn. Trong một số phƣơng pháp, khơng chỉ các đối tƣợng đƣợc phân cụm mà các thuộc tính của đối tƣợng cũng đƣợc phân cụm. Ví dụ nhƣ dữ liệu đƣợc thể hiện dƣới dạng ma trận dữ liệu, các hàng, cột sẽ đƣợc phân cụm đồng thời. Tiêu biểu của phƣơng pháp này là phƣơng pháp k-way clustering.

Phân cụm k-way clustering:

Trong phƣơng pháp này dữ liệu đầu tiên đƣợc chia làm hai nhĩm, sau đĩ một trong các nhĩm sẽ đƣợc chọn và đƣợc chia làm hai nhĩm. Qúa trình này tiếp diễn khi số cụm mong muốn đƣợc tìm thấy. Trong mỗi bƣớc một cụm đƣợc chia làm hai sao cho kết quả này tối ƣu một hàm điều kiện phân cụm cụ thể.

Mốt số hàm điều kiện phân cụm tiêu biểu:

sim(v,u) là hàm đo mức độ tƣơng tự giƣa vu.

Giả sử ta cĩ bộ dự liệu đồng xuất hiện S={(x1,y1},(x2,y2),…,(xm,ym)}, và các mẫu đƣợc thực hiện từ mơ hình xác suất (5-1):

P(x,y)=P(Cx,Xy)P(x/Cx)P(y/Cy) (5-1)

Với: x Cx, y Cy

Khả năng xảy ra tính theo logarit (log-likelihood) là:

Các tham số của mơ hình này đƣợc tính theo ƣớc lƣợng khả năng xảy ra tối đa:

Với N(x) thể hiện tần xuất xuất hiện của x, |S| là số phần tử của S.

Phƣơng pháp này theo mơ hình phân cấp tích tụ- agglomerative, bottom-up, tại mỗi bƣớc một cặp của một trong 2 cụm của X hoặc Y đƣợc chọn và gép với nhau. Trong tất cả các cặp, cặp với độ giảm giá trị log-likelihood ít nhất sẽ đƣợc chọn.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu cải tiến một số phương pháp phân loại văn bản tự động và áp dụng trong xử lý văn bản tiếng Việt (Trang 55 - 57)

Tải bản đầy đủ (PDF)

(119 trang)