2.3. Các đặc tính của các thuật toán phân cụm web
2.3.1. Mô hình dữ liệu
Hầu hết các thuật toán phân cụm đều yêu cầu tập dữ liệu cần được phân cụm ở dạng một tập các véc tơ X = {x1, x2, …, xn} trong đó véc tơ xi,
i= 1, …, n đại diện cho một đối tượng đơn lẻ trong tập dữ liệu và được gọi
Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.
thông qua véc tơ đặc trưng phụ thuộc nhiều vào từng lĩnh vực. Số chiều của véc tơ đặc trưng là nhân tố chủ chốt trong thời gian chạy của thuật toán cũng như độ lớn của nó. Tuy nhiên, một vài lĩnh vực mặc định phải chấp nhận số chiều lớn. Tồn tại một vài phương pháp làm giảm các vấn đề liên quan đến cỡ, như việc phân tích nguồn gốc thành phần. Phương pháp Krishnapuram [8] đã có thể làm giảm véc tơ đặc trưng 500 chiều thành véc tơ 10 chiều; tuy nhiên độ chính xác của nó chưa được kiểm chứng. Từ bây giờ ta tập trung vào việc biểu diễn dữ liệu tài liệu và làm thế nào để bóc tách các đặc trưng chính xác.
a, Mô hình dữ liệu tài liệu
Hầu hết các phương thức phân cụm tài liệu sử dụng mô hình không gian véc tơ (Vector Space) để biểu diễn các đối tượng tài liệụ Mỗi tài liệu được biểu diễn bằng một véc tơ d, trong không gian véc tơ, d = {tf1, tf2, …,
tfn} trong đó tfi (i=1,…,n) là tần suất xuất hiện (term frequency – TF) của từ ti trong tài liệụ Để biểu diễn tất cả các tài liệu với cùng 1 tập từ, chúng ta cần tách tất cả các từ tìm được trên tổng các tài liệu và sử dụng chúng như véc tơ đặc trưng của chúng tạ Thỉnh thoảng, một vài phương pháp được sử dụng đã gộp tần suất xuất hiện từ và tần suất nghịch đảo tài liệu (inverse document frequency TF-IDF). Tần suất xuất hiện tài liệu dfi là số lượng tài liệu trong tập N tài liệu mà từ ti xuất hiện. Một thành phần tấn suất nghịch đảo tài liệu (idf) được định nghĩa là log(N/dfi). Trọng số của từ
ti trong tài liệu được định nghĩ là wi= tfi × log(N/dfi) [24]. Để cỡ của véc tơ đặc trưng là chấp nhận được, chỉ n từ có trọng số lớn nhất trong tất cả các
tài liệu được sử dụng như là n đặc trưng. Wong và Fu [24] đã chỉ ra rằng họ có thể làm giảm số lượng từ đại diện bằng việc chỉ chọn những từ mà mức độ hồi tưởng (coverage) đủ trong tập dữ liệụ
Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.
Một vài thuật toán [9,24] lặp lại việc sử dụng các tần suất xuất hiện từ (hoặc trọng số từ) bằng việc sử dụng véc tơ đặc trưng nhị phân, trong đó mỗi trọng số từ là 1 hoặc 0, phụ thuộc vào từ đó có trong tài liệu hay không. Wong và Fu [24] phản đối rằng tần suất xuất hiện từ trung bình trong tài liệu web là nhỏ hơn 2 (dựa theo các thí nghiệm, thống kê), vì nó không chỉ ra độ quan trọng thực sự của từ, do đó một sự phối với trọng số nhị phân sẽ là thích hợp hơn với vùng vấn đề nàỵ
Trước khi nói về tách đặc trưng, tập tài liệu sẽ được làm sạch bằng
cách loại bỏ các từ dừng (stop-word: các từ có tần suất xuất hiện nhiều nhưng không có ý nghĩa như: và, với, …) và áp dụng một thuật toán làm đầy để chuyển đổi các mẫu từ khác nhau thành một mẫu chuẩn tương đương.
Một ví dụ về các stop-word
Một mô hình khác về vấn đề biểu diễn tài liệu được gọi là N-gram. Mô hình N-gram giả sử rằng tài liệu là một chuỗi các ký tự, và sử dụng một
Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.
cửa sổ trượt với kích cỡ n ký tự để quét và tách tất cả các chuỗi n ký tự liên tiếp trong tài liệụ N-gram là có thể chấp nhận được với các lỗi phát âm nhỏ bởi vì sự rườm rà trong các kết quả trả về của nó. Mô hình này cũng xử lý được các vấn đề nhỏ về phụ thuộc ngôn ngữ khi được sử dụng với thuật toán làm đầỵ Vấn đề tương tự trong phương pháp tiếp cận này được dựa trên số lượng n-gram giữa hai tài liệụ
Cuối cùng, một mô hình mới được giới thiệu bởi Zamir và Etzioni [5] là một phương pháp tiếp cận về cụm từ. Mô hình này tìm kiếm các cụm hậu tố giữa các tài liệu và xây dựng một cây hậu tố trong đó mỗi nút biểu diễn một phần của cụm từ (một nút hậu tố) và gắn với nó là các tài liệu chứa cụm từ hậu tố nàỵ Phương pháp tiếp cận này rõ ràng là nắm được các thông tin quan hệ giữa các từ, rất có giá trị trong việc tìm kiếm độ tương tự giữa các tài liệụ
b, Mô hình dữ liệu số
Một mô hình trong sáng hơn về dữ liệu đó là mô hình số. Dựa trên ngữ cảnh vấn đề là có nhiều đặc trưng được tách, trong đó mỗi đặc trưng được biểu diễn như là một khoảng các giữa các số. Véc tơ đặc trưng luôn luôn ở trong một cỡ chấp nhận được, và nó phụ thuộc vào vấn đề đang được phân tích. Các khoảng cách đặc trưng thường được bình thường hóa vì thế mỗi đặc trưng có tác dụng như nhau khi tính toán độ đo khoảng cách. Độ tương tự trong trường hợp này là minh bạch vì việc tính toán khoảng cách giữa 2 véc tơ là rất đơn giản [17].
c, Mô hình phân loại dữ liệu
Mô hình này thường được tìm thấy trong các vấn đề về phân cụm cơ sở dữ liệụ Thường thì các thuộc tính của bảng cơ sở dữ liệu là được phân loại và có một vài thuộc tính là kiểu số. Các phương pháp tiếp cận về
Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.
phân cụm dựa trên thống kê được dùng để làm việc với kiểu dữ liệu nàỵ Thuật toán ITERATE có thể coi là một ví dụ về việc làm việc với dữ liệu phân loại trên các dữ liệu thống kê [18]. Thuật toán K-modes cũng có thể coi là một ví dụ tốt [19].
d, Mô hình dữ liệu kết hợp
Dựa vào các vùng vấn đề, thỉnh thoảng các đối tượng biểu diễn dữ liệu đặc trưng không có cùng kiểụ Một sự kết hợp giữa các kiểu dữ liệu số, phân loại, không gian hoặc text có thể được sử dụng. Trong trường hợp này, vấn đề quan trọng là nghĩ ra một phương pháp có thể nắm giữ tất cả các thông tin một cách hiệu quả. Một quy trình chuyển đổi nên được áp dụng để chuyển đổi từ một kiểu dữ liệu này thành một kiểu dữ liệu khác. Thỉnh thoảng một kiểu dữ liệu không thể áp dụng vào được, lúc đó thuật toán phải được chỉnh sửa để làm việc với các kiểu dữ liệu khác [18].