Mơ hình dữ liệu

2.3. Các đặc tính của các thuật toán phân cụm web

2.3.1. Mơ hình dữ liệu

Hầu hết các thuật toán phân cụm đều yêu cầu tập dữ liệu cần được phân cụm ở dạng một tập các véc tơ X = {x1, x2, …, xn} trong đó véc tơ xi, i= 1, …, n

đại diện cho một đối tượng đơn lẻ trong tập dữ liệu và được gọi là véc tơ đặc trưng (feature vector). Việc tách lọc các đặc trưng cần thiết thông qua véc tơ đặc

trưng phụ thuộc nhiều vào từng lĩnh vực. Số chiều của véc tơ đặc trưng là nhân tố chủ chốt trong thời gian chạy của thuật tốn cũng như độ lớn của nó. Tuy nhiên, một vài lĩnh vực mặc định phải chấp nhận số chiều lớn. Tồn tại một vài phương pháp làm giảm các vấn đề liên quan đến cỡ, như việc phân tích nguồn gốc thành phần. Phương pháp Krishnapuram [8] đã có thể làm giảm véc tơ đặc trưng 500

chiều thành véc tơ 10 chiều; tuy nhiên độ chính xác của nó chưa được kiểm

chứng. Từ bây giờ ta tập trung vào việc biểu diễn dữ liệu tài liệu và làm thế nào

để bóc tách các đặc trưng chính xác.

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

Hầu hết các phương thức phân cụm tài liệu sử dụng mơ hình khơng gian

véc tơ (Vector Space) để biểu diễn các đối tượng tài liệu. Mỗi tài liệu được biểu

diễn bằng một véc tơ d, trong không gian véc tơ, d = {tf1, tf2, …, tfn} trong đó tfi (i=1,…,n) là tần suất xuất hiện (term frequency – TF) của từ ti trong tài liệu.

Để biểu diễn tất cả các tài liệu với cùng 1 tập từ, chúng ta cần tách tất cả các từ

tìm được trên tổng các tài liệu và sử dụng chúng như véc tơ đặc trưng của chúng ta. Thỉnh thoảng, một vài phương pháp được sử dụng đã gộp tần suất xuất hiện từ và tần suất nghịch đảo tài liệu (inverse document frequency TF-IDF). Tần suất

xuất hiện tài liệu dfi là số lượng tài liệu trong tập N tài liệu mà từ ti xuất hiện.

Một thành phần tấn suất nghịch đảo tài liệu (idf) được định nghĩa là log(N/dfi). Trọng số của từ ti trong tài liệu được định nghĩ là wi= tfi × log(N/dfi) [24]. Để cỡ của véc tơ đặc trưng là chấp nhận được, chỉ n từ có trọng số lớn nhất trong tất cả các tài liệu được sử dụng như là n đặc trưng. Wong và Fu [24] đã chỉ ra rằng họ có thể làm giảm số lượng từ đại diện bằng việc chỉ chọn những từ mà mức độ hồi tưởng (coverage) đủ trong tập dữ liệu.

Một vài thuật toán [9,24] lặp lại việc sử dụng các tần suất xuất hiện từ (hoặc trọng số từ) bằng việc sử dụng véc tơ đặc trưng nhị phân, trong đó mỗi trọng số từ là 1 hoặc 0, phụ thuộc vào từ đó có trong tài liệu hay khơng. Wong và Fu [24] phản đối rằng tần suất xuất hiện từ trung bình trong tài liệu web là nhỏ

hơn 2 (dựa theo các thí nghiệm, thống kê), vì nó khơng chỉ ra độ quan trọng thực sự của từ, do đó một sự phối với trọng số nhị phân sẽ là thích hợp hơn với vùng vấn đề này.

Trước khi nói về tách đặc trưng, tập tài liệu sẽ được làm sạch bằng cách loại bỏ các từ dừng (stop-word: các từ có tần suất xuất hiện nhiều nhưng khơng có ý nghĩa như: và, với, …) và áp dụng một thuật toán làm đầy để chuyển đổi các mẫu từ khác nhau thành một mẫu chuẩn tương đương.

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Cơng nghệ-2007.

Một ví dụ về các stop-word

Một mơ hình khác về vấn đề biểu diễn tài liệu được gọi là N-gram. Mơ hình N-gram giả sử rằng tài liệu là một chuỗi các ký tự, và sử dụng một cửa sổ trượt với kích cỡ n ký tự để quét và tách tất cả các chuỗi n ký tự liên tiếp trong tài liệu. N-gram là có thể chấp nhận được với các lỗi phát âm nhỏ bởi vì sự rườm rà trong các kết quả trả về của nó. Mơ hình này cũng xử lý được các vấn đề nhỏ về phụ thuộc ngôn ngữ khi được sử dụng với thuật toán làm đầy. Vấn đề tương tự trong phương pháp tiếp cận này được dựa trên số lượng n-gram giữa hai tài liệu.

Cuối cùng, một mơ hình mới được giới thiệu bởi Zamir và Etzioni [5] là một phương pháp tiếp cận về cụm từ. Mơ hình này tìm kiếm các cụm hậu tố giữa các tài liệu và xây dựng một cây hậu tố trong đó mỗi nút biểu diễn một phần của cụm từ (một nút hậu tố) và gắn với nó là các tài liệu chứa cụm từ hậu tố này. Phương pháp tiếp cận này rõ ràng là nắm được các thơng tin quan hệ giữa các từ, rất có giá trị trong việc tìm kiếm độ tương tự giữa các tài liệu.

b, Mơ hình dữ liệu số

Một mơ hình trong sáng hơn về dữ liệu đó là mơ hình số. Dựa trên ngữ cảnh vấn đề là có nhiều đặc trưng được tách, trong đó mỗi đặc trưng được biểu diễn như là một khoảng các giữa các số. Véc tơ đặc trưng luôn luôn ở trong một

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Cơng nghệ-2007.

cỡ chấp nhận được, và nó phụ thuộc vào vấn đề đang được phân tích. Các

khoảng cách đặc trưng thường được bình thường hóa vì thế mỗi đặc trưng có tác dụng như nhau khi tính tốn độ đo khoảng cách. Độ tương tự trong trường hợp này là minh bạch vì việc tính tốn khoảng cách giữa 2 véc tơ là rất đơn giản

[17].

c, Mơ hình phân loại dữ liệu

Mơ hình này thường được tìm thấy trong các vấn đề về phân cụm cơ sở dữ liệu. Thường thì các thuộc tính của bảng cơ sở dữ liệu là được phân loại và có một vài thuộc tính là kiểu số. Các phương pháp tiếp cận về phân cụm dựa trên thống kê được dùng để làm việc với kiểu dữ liệu này. Thuật tốn ITERATE có thể coi là một ví dụ về việc làm việc với dữ liệu phân loại trên các dữ liệu thống kê [18]. Thuật toán K-modes cũng có thể coi là một ví dụ tốt [19].

d, Mơ hình dữ liệu kết hợp

Dựa vào các vùng vấn đề, thỉnh thoảng các đối tượng biểu diễn dữ liệu

đặc trưng khơng có cùng kiểu. Một sự kết hợp giữa các kiểu dữ liệu số, phân

loại, khơng gian hoặc text có thể được sử dụng. Trong trường hợp này, vấn đề

quan trọng là nghĩ ra một phương pháp có thể nắm giữ tất cả các thông tin một cách hiệu quả. Một quy trình chuyển đổi nên được áp dụng để chuyển đổi từ một kiểu dữ liệu này thành một kiểu dữ liệu khác. Thỉnh thoảng một kiểu dữ liệu không thể áp dụng vào được, lúc đó thuật tốn phải được chỉnh sửa để làm việc với các kiểu dữ liệu khác [18].

Thuật toán phân cụm cây hậu tố

Cây phân cụm tài liệu –DC Tree