Trích các cụm từ quan trọng 31

Việc trích các cụm từ từ các tài liệu và tính toán các đặc trưng là vấn đề quan trọng của phương pháp phân cụm này. Đặc biệt là đối với các tài liệu tiếng việt bởi đặc

điểm của tiếng việt như đã nêu trong chương 2. Mỗi cụm từ được thể hiện bởi 5 đặc

trưng [10]. Các đặc trưng được tính toán ở đây là TFDF (Phrase Frequency/Inverted

Document Frequency), độ dài (Phrase leng LEN), Tương tự nội tại (Intra-cluster

similarity - ICS), entropy cụm (Cluster entropy -CE), độc lập cụm từ (Phrase

Independence - IND). Những đặc trưng này là cơ sở để xác định độ quan trọng của cụm từ.

Trong phần mô tả các đặc trưng dưới đây, w biểu diễn một cụm từ đang xét (một n-gram), D(w) biểu diễn tập các tài liệu có chứa cụm từ w.

3.2.1. Đặc trưng TFIDF

Đặc trưng này được tính như ý nghĩa của IFIDF. TFIDF là kết hợp của tần số từ

khóa (TF: Term Frequency) và nghịch đảo số văn bản chứa từ khóa (IDF: Inverted

Document Frequency).

Tần số từ khóa (TF: Term Frequency) là tần suất xuất hiện của từ khóa đó trong tài liệu. Một cách trực quan thì một từ là quan trọng cho một tài liệu nếu từ đó xuất hiện nhiều lần trong tài liệu đó.

Nghịch đảo số văn bản (IDF: Inverted Document Frequency): Theo [6] thì IDF là

nghịch đảo số văn bản chứa từ khóa. Không phải tất cả các từ khóa có độ quan trọng như nhau và vì vậy giá trị trọng số tương ứng với các từ không quan trọng phải nhỏ. Ví dụ, tần số của các từ chức năng như “và”, “hoặc”, “cũng” thường rất lớn và sẽ gây nhiễu đến nội dung của tài liệu. IDF tìm cách co lại trọng số tương ứng với các từ khóa xuất hiện trong nhiều văn bản.

IDF=log(N/|D(w)|)

Với N là tổng số tài liệu.

Trọng số từ (TFIDF) là tích của tần suất từ khóa TF và nghịch đảo số văn bản chứa từ khóa đó và được xác định bằng công thức:

TFIDF = f(w).log(N/|D(w)|)

Trong đó f(w) là hàm tính tần số của cụm từ w.

TFIDF là một phương pháp chuẩn thường được sử dụng để biểu diễn độ quan trọng của từ khóa trong tài liệu. TFIDF của một cụm từ sẽ giảm nếu như cụm từ đó xuất hiện trong hầu hết các tài liệu. Vì vậy , một từ xuất hiện quá ít hoặc quá nhiều

3.2.2. Đặc trưng độ dài

Đặc trưng này là số lượng các từ trong một cụm từ.

Ví dụ: LEN(“nhà”) = 1

LEN(“việt nam”) = 2

Trong quá trình sinh các n-gram từ tiêu đề và đoạn tóm tắt, giá trị của n nằm trong khoảng từ 1 đến 3. Như vậy đối với từ tiếng Việt thì số lượng từ trong một cụm từ thường có giá trị từ 1 đến 6. Đối với người sử dụng, thường thì những cụm từ dài sẽ

mang ý nghĩa rõ ràng hơn, và nó sẽ thuận lợi hơn cho người sử dụng trong quá trình tìm kiếm cụm liên quan đến vấn đề cần tìm. Do đó, các cụm từ có giá trị LEN lớn sẽ

có độ quan trọng lớn hơn.

LEN = n

3.2.3. Đặc trưng tương tự nội tại cụm

Một trong những yêu cầu đối với phân cụm là các tài liệu trong cùng một cụm phải có độ tương tự lớn hơn so với tài liệu ở các cụm khác. Nếu một cụm từ là một mô tả tốt cho một chủ đề riêng thì các tài liệu có chứa cụm từ đó sẽ có độ tương tự với nhau. Đặc trưng này dùng đểđo độ chặt (compaccnes) của các tài liệu chứa cụm từ với

cụm từ đó. Đầu tiên, các tài liệu được chuyển thành các vector trong không gian

vector:

di = (xi1, xi2,…)

Mỗi thành phần của vector mô tả một unigram riêng và có giá trị là TFIDF của

unigram này. Số chiều của vecto là tổng số unigram của toàn bộ dữ liệu. Khi biểu diễn một tài liệu, nếu một unigram không có trong tài liệu đó thì giá trị của nó là 0. Với mỗi cụm ban đầu, trọng tâm của nó được tính theo công thức:

Với di là tài liệu có chứa cụm từ w.

Với cos(di,o) = di.o/||di||.||o||

3.2.4. Đặc trưng entropy nội tại cụm

Theo Lê Quyết Thắng và cộng sự [4], entropy được định nghĩa như sau “entropy là một đại lượng toán học dùng đểđo lượng tin không chắc( hay lượng tin ngẫu nhiên) của một sự kiện hay của phân phối ngẫu nhiên cho trước”.

Giả sử x là một biến ngẫu nhiên trong không gian mẫu x=(x1, x2,…, xn) với độđo xác suất P(xn)=pn. Entropy của x được định nghĩa là:

H(x)= - ∑ pilogpi i≤n

Với pn=0 thì H(x) có giá trị bằng 0 vì xlog(x)->0 khi x->0. Một sốđặc tính của entropy[18]:

- entropy tỉ lệ thuận liên tục với các xác suất xuất hiện của các phần tử ngẫu nhiên. Thay đổi nhỏ trong xác suất phải dẫn đến thay đổi nhỏ trong entropy. - Nếu các phần tử ngẫu nhiên đều có xác suất xuất hiện bằng nhau thì việc

tăng số lượng phần tử ngẫu nhiên sẽ làm tăng entropy.

Trong bài toán phân cụm ở đây, xét với cụm từ w, tập các tài liệu có chứa w là D(w) có thể có phần giao với tập tài liệu D(wi) chứa cụm từ wi với wi khác w. Với trường hợp D(w) phân bố đều trong D(wi), tức là có nhiều tài liệu chứa cả hai cụm từ

w và wi thì w có thể là cụm có độ quan trọng cao. Với trường hợp D(w) hiếm khi

chồng lên với D(wi) thì w có thể mang một nghĩa riêng. Sử dụng đặc trưng entropy ở đây để mô tả tính riêng của cụm từ.

Trong công thức này, nếu không có tài liệu nào chứa cả hai cụm từ w và t tức là D(w) giao với D(t) bằng 0 thì sẽ xuất hiện log0. Vì vậy ởđây coi 0log0=0

3.2.5. Đặc trưng độc lập cụm từ

Theo [8], một cụm từ là độc lập khi entropy trong ngữ cảnh của nó là cao. Ký hiệu IND là tính độc lập của một cụm từ. INDl là giá trị độc lập của ngữ cảnh trái của

cụm từ w, INDr là giá trị độc lập của ngữ cảnh phải của cụm từ w. Các công thức tính các giá trị INDl, INDr, IND ở dưới được lấy từ [10].

l(w) là tập các từở liền kề trái của w trong tập tài liệu, r(w) là tập các từở liền kề phải của w trong tập tài liệu. Giá trị độc lập của ngữ cảnh trái của w được xác định như công thức ở dưới.

INDrđược tính tương tự như INDl. Giá trị IND cuối cùng của w là trung bình của INDl và INDr

3.3. Xếp hạng các cụm từ quan trọng

Với 5 thuộc tính ở trên, phương pháp phân cụm ở đây sẽ sử dụng dữ liệu đã huấn luyện để học một mô hình hồi qui. Từ đó tính ra điểm quan trọng của mỗi cụm từ, và dựa vào điểm quan trọng để xếp hạng cụm từ.

Hồi qui [10] là một bài toán thống kê kinh điển xác định mối quan hệ giữa hai biến ngẫu nhiên x = (x1,x2,…,xn) và y. Trong phương pháp phân cụm này, biến độc lập

x là vector của 5 thuộc tính đã miêu tảở trên x = (TFIDF,LEN, ISC, CE, IND) và biến

độc lập y là một giá trị thực nào đó. Ởđây, y là điểm của các cụm từ, y càng cao thì độ

quan trọng của cụm từ càng cao.

Một vài kiểu hồi qui có thể được sử dụng như hồi qui tuyến tính (linear

regression), hồi qui logistic (logistic regression) và hồi qui hỗ trợ vector (support

vector regression). Dưới đây sẽ trình bày sơ lược về các mô hình hồi qui.

3.3.1. Hồi qui tuyến tính

Mô hình hồi qui tuyến tính tìm mối quan hệ của x và y với một đường thẳng phù hợp với dữ liệu. Mô hình hồi qui tuyến tính đưa ra là:

Với sai số e là một biến ngẫu nhiên độc lập, phân phối theo luật phân phối chuẩn, có giá trị trung bình là 0. Hệ số bj (0<=j<=p) được xác định là tổng của bình phương phần dư nhỏ nhất có thể được. Vì vậy, kết hợp tuyến tính với bj tốt hơn bất cứ hệ số

nào khác. Biến xj có thể lấy trực tiếp từ inputs hoặc một vài biến đổi, như log hoặc đa thức, của inputs.

3.3.2. Hồi qui logistic

Khi biến độc lập y không phải là biến liên tục mà là biến mang tính đo lường nhị

phân: có giá trị là 0 hoặc 1, mô hình hồi qui logistic phù hợp hơn vì những gì cần

chính xác không phải là một giá trị số rõ ràng của biến độc lập, nhưng khả năng xảy ra giá trị là 1, còn lại là 0 (q=P(y=1)).

Trong [5] trình bày về hồi qui logistic như sau: giả sử một tần số biến cố x ghi nhận từ n đối tượng, xác suất của biến cốđó là:

q = x/n

q có thể xem là một chỉ sốđo lường nguy cơ của một biến cố. Một cách thể hiện nguy cơ khác là odds (khả năng). Khả năng của một biến cốđược định nghĩa đơn giản là tỉ số xác suất biến cố xảy ra trên xác suất biến cố không xảy ra:

odds = p/p-1

Hàm logit của odds được định nghĩa như sau:

q có thể chỉ trong giải từ 0 đến 1, logit(q) chạy từ âm vô cùng đến dương vô cùng. Hồi qui logistic cố gắng tìm hệ số bj (0<=j<=p) phù hợp với x.

Thay cho việc sử dụng một bình phương nhỏ nhất độ lệch tiêu chuẩn cho phù hợp nhất, hồi qui logistic sử dụng một phương thức có thể xảy ra lớn nhất với khả

năng lớn nhất của việc lấy các kết quả quan sát đưa ra hệ số hồi quy.

Đánh giá các thuật toán phân cụm 18

Đặc trưng của tiếng Việ t 19