Phƣơng pháp 3

3. Bố cục và cấu trúc của luận văn

5.3.3. Phƣơng pháp 3

Kyriakopoulou, A. và Kalamboukis, T., năm 2006 đã đƣa ra một đề xuất áp dụng clustering vào phân loại văn bản [28,29]. Mục tiêu của phƣơng pháp này là nâng cao độ chính xác của thuật toán phân loại ngay cả khi phải làm việc với một tập huấn luyện (dữ liệu có nhãn) bé. Ý tƣởng của phƣơng pháp này là tạo ra các siêu thuộc tính (meta-feature) từ kết quả phân cụm và bổ sung vào không gian thuộc tính. Mỗi một siêu thuộc tính sẽ tƣơng ứng với một cụm sau khi tiến hành phân cụm. Nhƣ vậy các vector thuộc tính của các văn bản sẽ đƣợc ánh xạ vào một không gian thuộc tích có số chiều lớn hơn.

Với thuật toán này đƣợc chia làm ba bƣớc: - Bƣớc 1- Phân cụm

Phân cụm cả tập huấn luyện và tập kiểm thử. - Bƣớc 2- Mở rộng

Tăng cƣờng tập dữ liệu bằng cách tạo ra các siêu thuộc tính, meta-feature, từ kết quả bƣớc phân cụm, và bổ sung vào không gian thuộc tính.

Huấn luyện, sử dụng một phƣơng pháp phân loại, cho tập dữ liệu kiểm thử Ở đây, xét bài toán phân loại k-nhóm (k-class categorization. Cho l mẫu gán nhãn {(x1,y1),….,( xl,yl)} là các vector thuộc tính xi  Rn và các nhãn tƣơng ứng (y1, y2, …, yl) {1,…,l} và có m mẫu chƣa có nhãn với các vector thuộc tính là {x1*,…., xm*}, ở đây ta xét trƣờng hợp m>>l, với trọng số của các thuộc tính đƣơc tính theo mô hình trọng số TFIDF, tính theo (2-2).

Do các văn bản trong một nhóm có các mối liên hệ với nhau và các văn bản trong một cụm cũng có các đặc điểm đặc trƣng. Tức là có một mỗi liên hệ giữa các nhóm văn bản và các cụm khi phân cụm. Nên ta có thể chon số cụm cần là bằng với số nhóm văn bản, k. Vậy có thể áp dụng một phƣơng pháp phân cụm với số cụm cho trƣớc. Ở đây có thể sử dụng thuật toán phân k-way clustering để thực hiện việc phân cụm cả dữ liệu huấn luyên và dữ liệu kiểm thử. Trong phƣơng pháp k-way clustering, thuật toán thực hiện lặp một chuỗi

k-1 bƣớc. Tập dữ liệu đầu tiên đƣợc chia thành hai nhóm. Sau đó một nhóm sẽ đƣợc chọn và đƣợc chia tiếp làm hai phần. Quá trình này đƣợc tiếp diễn cho đến khi có đƣợc k cụm. Sử dụng hàm tối ƣu (5-16):

max     k i x x Si u u u u x x sim 1 , ) , ( (5-16)

Trong (5-16) Si là tập các văn bẳn đƣợc gán cho cụm thứ i.

sim(xv,xu) là độ tƣơng tự giữa hai văn bản xv và xu. Các cụm đƣợc tạo ra là không bị gối lên nhau.

Sau đó, từ mỗi cụm thu đƣợc sẽ tạo ra một siêu thuộc tính và bổ sung vào không gian thuộc tính. Đặt n là tổng số thuộc tính đựoc sử dụng để thể hiện

l+m vector thuộc tính, và k là số cụm đƣợc tạo ta từ bƣớc 1.

Tại bƣớc 2 ta sẽ tạo ra k siêu thuộc tính: wn+1,…, wn+k. Một văn bản x thuộc cluster Cj đƣợc bổ sung thêm siêu thuộc tính wn+j. Trọng số của siêu thuộc tính đƣợc tính toán dựa trên mô hình TFIDF, tính theo (2-2) . Xét mỗi văn bản x của cụm ứng với siêu thuộc tính này:

Tấn suất từ của nó (TF)

TF(wn+j,x)=1 (5-17)

IDF(wn+j)=log2(        j C X ) (5-18)

Trong (5-18) |X| là tổng số văn bản và |Cj| là tổng số văn bản thuộc cụm Cj.

Bƣớc cuối, Từ các ma trận mở rộng cho tập huấn luyện và tập thử nghiệm, áp dụng phƣơng pháp phân loại SVM, để thƣc hiện việc huấn luyện với tập huấn luyện mở rộng, sau đó có thể sử dụng tập thử nghiệm mở rộng để kiểm tra độ chính xác của phân loại.

Thuật toán đƣợc tóm tắt nhƣ Hình 5-3 dƣới đây:

Bước 1: phân cụm

Đầu vào: - Tập huấn luyện gồm các mẫu có nhãn (x1,y1),…,(xl,yl) và tập kiểm thử gồm các mẫu x1*, x2*,…,xm*

- K số cụm mong muốn

Đầu ra:

Các ID của cụm tƣơng ứng với từng mẫu

Sử dụng một thuật toán phân cụm để phân cụm tất cả các mẫu

Bước 2: Mở rộng

Đầu vào: Các mẫu huấn luyện, mẫu kiểm thử và kết quả của bƣớc 1

Đầu ra: Tập huấn luyện mở rộng và tập kiểm thử mở rộng

Tạo các siêu thuộc tính và bổ sung vào không gian thuộc tính, mỗi cụm tƣơng ứng với một siêu thuộc tính.

Các siêu thuộc tính là: tn+1,tn+2,…, tn+k, trọng số của các siêu thuộc tính với văn bản x đƣợc tính theo TF-IDF, theo công thức sau.

W(tn+j) = 2 j log C X         ; nếu xCj =0 ; ngƣợc lại

Bước 3: Phân loại

Đầu vào: Các tập huấn luyện và phân loại mở rộng của bƣớc 2.

Sử dụng các phƣơng pháp SVM [14] hoặc TSVM [27] thực hiện huấn luyện với tập huấn luyện mở rộng và thực hiện đoán nhận với tập kiểm thử mở rộng.

Hình 5-3: Thuật toán của phân loại văn bản sử dụng phân cụm của Kyriakopoulou, A.

Phƣơng pháp k-Nearest Neighbour

Phƣơng pháp Linear Least Square Fit LLSF