Hầu hết các thuật toán phân cụm đều yêu cầu tập dữ liệu cần được phân cụm ở dạng một tập các véc tơ X = {x1, x2, …, xn} trong đó véc tơ xi, i= 1, …, n
đại diện cho một đối tượng đơn lẻ trong tập dữ liệu và được gọi là véc tơ đặc trưng (feature vector). Việc tách lọc các đặc trưng cần thiết thông qua véc tơđặc trưng phụ thuộc nhiều vào từng lĩnh vực. Số chiều của véc tơđặc trưng là nhân tố
chủ chốt trong thời gian chạy của thuật toán cũng nhưđộ lớn của nó. Tuy nhiên, một vài lĩnh vực mặc định phải chấp nhận số chiều lớn. Tồn tại một vài phương pháp làm giảm các vấn đề liên quan đến cỡ, như việc phân tích nguồn gốc thành phần. Phương pháp Krishnapuram [8] đã có thể làm giảm véc tơ đặc trưng 500 chiều thành véc tơ 10 chiều; tuy nhiên độ chính xác của nó chưa được kiểm chứng. Từ bây giờ ta tập trung vào việc biểu diễn dữ liệu tài liệu và làm thế nào
để bóc tách các đặc trưng chính xác. a, Mô hình dữ liệu tài liệu
Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.
Hầu hết các phương thức phân cụm tài liệu sử dụng mô hình không gian véc tơ (Vector Space) để biểu diễn các đối tượng tài liệu. Mỗi tài liệu được biểu diễn bằng một véc tơd, trong không gian véc tơ, d = {tf1, tf2, …, tfn} trong đó tfi
(i=1,…,n) là tần suất xuất hiện (term frequency – TF) của từti trong tài liệu.
Để biểu diễn tất cả các tài liệu với cùng 1 tập từ, chúng ta cần tách tất cả các từ
tìm được trên tổng các tài liệu và sử dụng chúng như véc tơđặc trưng của chúng ta. Thỉnh thoảng, một vài phương pháp được sử dụng đã gộp tần suất xuất hiện từ
và tần suất nghịch đảo tài liệu (inverse document frequency TF-IDF). Tần suất xuất hiện tài liệu dfi là số lượng tài liệu trong tập N tài liệu mà từ ti xuất hiện. Một thành phần tấn suất nghịch đảo tài liệu (idf) được định nghĩa là log(N/dfi). Trọng số của từti trong tài liệu được định nghĩ là wi= tfi × log(N/dfi) [24]. Để cỡ
của véc tơđặc trưng là chấp nhận được, chỉn từ có trọng số lớn nhất trong tất cả
các tài liệu được sử dụng như là n đặc trưng. Wong và Fu [24] đã chỉ ra rằng họ
có thể làm giảm số lượng từđại diện bằng việc chỉ chọn những từ mà mức độ hồi tưởng (coverage) đủ trong tập dữ liệu.
Một vài thuật toán [9,24] lặp lại việc sử dụng các tần suất xuất hiện từ
(hoặc trọng số từ) bằng việc sử dụng véc tơ đặc trưng nhị phân, trong đó mỗi trọng số từ là 1 hoặc 0, phụ thuộc vào từđó có trong tài liệu hay không. Wong và Fu [24] phản đối rằng tần suất xuất hiện từ trung bình trong tài liệu web là nhỏ
hơn 2 (dựa theo các thí nghiệm, thống kê), vì nó không chỉ ra độ quan trọng thực sự của từ, do đó một sự phối với trọng số nhị phân sẽ là thích hợp hơn với vùng vấn đề này.
Trước khi nói về tách đặc trưng, tập tài liệu sẽđược làm sạch bằng cách loại bỏ các từ dừng (stop-word: các từ có tần suất xuất hiện nhiều nhưng không có ý nghĩa như: và, với, …) và áp dụng một thuật toán làm đầy để chuyển đổi các mẫu từ khác nhau thành một mẫu chuẩn tương đương.
Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.
Một ví dụ về các stop-word
Một mô hình khác về vấn đề biểu diễn tài liệu được gọi là N-gram. Mô hình N-gram giả sử rằng tài liệu là một chuỗi các ký tự, và sử dụng một cửa sổ
trượt với kích cỡn ký tựđể quét và tách tất cả các chuỗi n ký tự liên tiếp trong tài liệu. N-gram là có thể chấp nhận được với các lỗi phát âm nhỏ bởi vì sự rườm rà trong các kết quả trả về của nó. Mô hình này cũng xử lý được các vấn đề nhỏ về
phụ thuộc ngôn ngữ khi được sử dụng với thuật toán làm đầy. Vấn đề tương tự
trong phương pháp tiếp cận này được dựa trên số lượng n-gram giữa hai tài liệu. Cuối cùng, một mô hình mới được giới thiệu bởi Zamir và Etzioni [5] là một phương pháp tiếp cận về cụm từ. Mô hình này tìm kiếm các cụm hậu tố giữa các tài liệu và xây dựng một cây hậu tố trong đó mỗi nút biểu diễn một phần của cụm từ (một nút hậu tố) và gắn với nó là các tài liệu chứa cụm từ hậu tố này. Phương pháp tiếp cận này rõ ràng là nắm được các thông tin quan hệ giữa các từ, rất có giá trị trong việc tìm kiếm độ tương tự giữa các tài liệu.
b, Mô hình dữ liệu số
Một mô hình trong sáng hơn về dữ liệu đó là mô hình số. Dựa trên ngữ
cảnh vấn đề là có nhiều đặc trưng được tách, trong đó mỗi đặc trưng được biểu diễn như là một khoảng các giữa các số. Véc tơđặc trưng luôn luôn ở trong một
Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.
cỡ chấp nhận được, và nó phụ thuộc vào vấn đề đang được phân tích. Các khoảng cách đặc trưng thường được bình thường hóa vì thế mỗi đặc trưng có tác dụng như nhau khi tính toán độ đo khoảng cách. Độ tương tự trong trường hợp này là minh bạch vì việc tính toán khoảng cách giữa 2 véc tơ là rất đơn giản [17].
c, Mô hình phân loại dữ liệu
Mô hình này thường được tìm thấy trong các vấn đề về phân cụm cơ sở
dữ liệu. Thường thì các thuộc tính của bảng cơ sở dữ liệu là được phân loại và có một vài thuộc tính là kiểu số. Các phương pháp tiếp cận về phân cụm dựa trên thống kê được dùng để làm việc với kiểu dữ liệu này. Thuật toán ITERATE có thể coi là một ví dụ về việc làm việc với dữ liệu phân loại trên các dữ liệu thống kê [18]. Thuật toán K-modes cũng có thể coi là một ví dụ tốt [19].
d, Mô hình dữ liệu kết hợp
Dựa vào các vùng vấn đề, thỉnh thoảng các đối tượng biểu diễn dữ liệu
đặc trưng không có cùng kiểu. Một sự kết hợp giữa các kiểu dữ liệu số, phân loại, không gian hoặc text có thể được sử dụng. Trong trường hợp này, vấn đề
quan trọng là nghĩ ra một phương pháp có thể nắm giữ tất cả các thông tin một cách hiệu quả. Một quy trình chuyển đổi nên được áp dụng để chuyển đổi từ một kiểu dữ liệu này thành một kiểu dữ liệu khác. Thỉnh thoảng một kiểu dữ liệu không thể áp dụng vào được, lúc đó thuật toán phải được chỉnh sửa để làm việc với các kiểu dữ liệu khác [18].