Phƣơng pháp 3

3. Bố cục và cấu trúc của luận văn

5.3. Một số phƣơng pháp phân loại văn bản sử dụng phân cụm

5.3.3. Phƣơng pháp 3

Kyriakopoulou, A. và Kalamboukis, T., năm 2006 đã đƣa ra một đề xuất áp dụng clustering vào phân loại văn bản [28,29]. Mục tiêu của phƣơng pháp này là nâng cao độ chính xác của thuật tốn phân loại ngay cả khi phải làm việc với một tập huấn luyện (dữ liệu cĩ nhãn) bé. Ý tƣởng của phƣơng pháp này là tạo ra các siêu thuộc tính (meta-feature) từ kết quả phân cụm và bổ sung vào khơng gian thuộc tính. Mỗi một siêu thuộc tính sẽ tƣơng ứng với một cụm sau khi tiến hành phân cụm. Nhƣ vậy các vector thuộc tính của các văn bản sẽ đƣợc ánh xạ vào một khơng gian thuộc tích cĩ số chiều lớn hơn.

Với thuật tốn này đƣợc chia làm ba bƣớc: - Bƣớc 1- Phân cụm

Phân cụm cả tập huấn luyện và tập kiểm thử. - Bƣớc 2- Mở rộng

Tăng cƣờng tập dữ liệu bằng cách tạo ra các siêu thuộc tính, meta-feature, từ kết quả bƣớc phân cụm, và bổ sung vào khơng gian thuộc tính.

Huấn luyện, sử dụng một phƣơng pháp phân loại, cho tập dữ liệu kiểm thử Ở đây, xét bài tốn phân loại k-nhĩm (k-class categorization. Cho l mẫu gán nhãn {(x1,y1),….,( xl,yl)} là các vector thuộc tính xi  Rn và các nhãn tƣơng ứng (y1, y2, …, yl) {1,…,l} và cĩ m mẫu chƣa cĩ nhãn với các vector thuộc tính là {x1*,…., xm*}, ở đây ta xét trƣờng hợp m>>l, với trọng số của các thuộc tính đƣơc tính theo mơ hình trọng số TFIDF, tính theo (2-2).

Do các văn bản trong một nhĩm cĩ các mối liên hệ với nhau và các văn bản trong một cụm cũng cĩ các đặc điểm đặc trƣng. Tức là cĩ một mỗi liên hệ giữa các nhĩm văn bản và các cụm khi phân cụm. Nên ta cĩ thể chon số cụm cần là bằng với số nhĩm văn bản, k. Vậy cĩ thể áp dụng một phƣơng pháp phân cụm với số cụm cho trƣớc. Ở đây cĩ thể sử dụng thuật tốn phân k-way clustering để thực hiện việc phân cụm cả dữ liệu huấn luyên và dữ liệu kiểm thử. Trong phƣơng pháp k-way clustering, thuật tốn thực hiện lặp một chuỗi

k-1 bƣớc. Tập dữ liệu đầu tiên đƣợc chia thành hai nhĩm. Sau đĩ một nhĩm sẽ đƣợc chọn và đƣợc chia tiếp làm hai phần. Quá trình này đƣợc tiếp diễn cho đến khi cĩ đƣợc k cụm. Sử dụng hàm tối ƣu (5-16):

max     k i x x Si u u u u x x sim 1 , ) , ( (5-16)

Trong (5-16) Si là tập các văn bẳn đƣợc gán cho cụm thứ i.

sim(xv,xu) là độ tƣơng tự giữa hai văn bản xv và xu. Các cụm đƣợc tạo ra là khơng bị gối lên nhau.

Sau đĩ, từ mỗi cụm thu đƣợc sẽ tạo ra một siêu thuộc tính và bổ sung vào khơng gian thuộc tính. Đặt n là tổng số thuộc tính đựoc sử dụng để thể hiện

l+m vector thuộc tính, và k là số cụm đƣợc tạo ta từ bƣớc 1.

Tại bƣớc 2 ta sẽ tạo ra k siêu thuộc tính: wn+1,…, wn+k. Một văn bản x thuộc cluster Cj đƣợc bổ sung thêm siêu thuộc tính wn+j. Trọng số của siêu thuộc tính đƣợc tính tốn dựa trên mơ hình TFIDF, tính theo (2-2) . Xét mỗi văn bản x của cụm ứng với siêu thuộc tính này:

Tấn suất từ của nĩ (TF)

TF(wn+j,x)=1 (5-17)

IDF(wn+j)=log2(        j C X ) (5-18)

Trong (5-18) |X| là tổng số văn bản và |Cj| là tổng số văn bản thuộc cụm Cj.

Bƣớc cuối, Từ các ma trận mở rộng cho tập huấn luyện và tập thử nghiệm, áp dụng phƣơng pháp phân loại SVM, để thƣc hiện việc huấn luyện với tập huấn luyện mở rộng, sau đĩ cĩ thể sử dụng tập thử nghiệm mở rộng để kiểm tra độ chính xác của phân loại.

Thuật tốn đƣợc tĩm tắt nhƣ Hình 5-3 dƣới đây:

Bước 1: phân cụm

Đầu vào: - Tập huấn luyện gồm các mẫu cĩ nhãn (x1,y1),…,(xl,yl) và tập kiểm thử gồm các mẫu x1*, x2*,…,xm*

- K số cụm mong muốn

Đầu ra:

Các ID của cụm tƣơng ứng với từng mẫu

Sử dụng một thuật tốn phân cụm để phân cụm tất cả các mẫu

Bước 2: Mở rộng

Đầu vào: Các mẫu huấn luyện, mẫu kiểm thử và kết quả của bƣớc 1

Đầu ra: Tập huấn luyện mở rộng và tập kiểm thử mở rộng

Tạo các siêu thuộc tính và bổ sung vào khơng gian thuộc tính, mỗi cụm tƣơng ứng với một siêu thuộc tính.

Các siêu thuộc tính là: tn+1,tn+2,…, tn+k, trọng số của các siêu thuộc tính với văn bản x đƣợc tính theo TF-IDF, theo cơng thức sau.

W(tn+j) = 2 j log C X         ; nếu xCj =0 ; ngƣợc lại

Bước 3: Phân loại

Đầu vào: Các tập huấn luyện và phân loại mở rộng của bƣớc 2.

Sử dụng các phƣơng pháp SVM [14] hoặc TSVM [27] thực hiện huấn luyện với tập huấn luyện mở rộng và thực hiện đốn nhận với tập kiểm thử mở rộng.

Hình 5-3: Thuật tốn của phân loại văn bản sử dụng phân cụm của Kyriakopoulou, A.

Phƣơng pháp k-Nearest Neighbour

Phƣơng pháp Linear Least Square Fit LLSF