Phƣơng pháp 1

3. Bố cục và cấu trúc của luận văn

5.3. Một số phƣơng pháp phân loại văn bản sử dụng phân cụm

5.3.1. Phƣơng pháp 1

Một phƣơng pháp đƣợc Katamura, H. [24] giới thiệu năm 2003, phƣơng pháp sử dụng SVM kết hợp phân cụm cứng. Phân cụm cứng đƣợc sử dụng để giảm kích thƣớc khơng gian thuộc tính. Ánh xạ khơng gian hiện tại vào một khơng gian cĩ kích thƣớc bé hơn. Sau đĩ tạo ra các thuộc tính mới để tăng (5-2) (5-3)

(5-4) (5-5) (5-6)

cƣờng tập thuộc tính hiện cĩ. Phƣơng pháp này tỏ ra hiệu quả khi tập thuộc tính gốc chƣa đủ tốt để mơ tả đầy đủ các tính chất khác nhau của dữ liệu. + Giảm kích thƣớc của khơng gian thuộc tính:

Cho trƣớc các cặp đồng xuất hiện văn bản di và từ wi:

S={( w1,d1), ( w2,d2),…, ( wk,dk) }

Xác suất liên kết của một từ và một văn bản đƣợc thể hiện theo (5-7):

P(w,d)=P(Cw,d)P(w/Cw) (5-7)

Với , Cw là một cụm và w Cw

Logarit của khả khả năng(log-likehood) cĩ thể xảy ra của chúng là:

       ) , ( ) , ( ) , ( ) / ( ) , ( ) , ( ) / ( ) , ( log ) , ( log d w S d w S d w Cw w P d Cw P d Cw N Cw w P d Cw P d w P (5-8) Trong đĩ:

N(x) biểu thị tần xuất hiện của x.

Với P(Cw,d), P(w/Cw) đƣợc tính theo cơng thức (5-9) và (5-10): P(Cw,d) = | | ) , ( S d Cw N (5-9) P(w/Cw) = | | ) ( Cw w N (5-10)

Các phân cụm từ đƣợc gép với nhau qua các lần lặp. Hai phân cụm từ đƣợc chọn nếu kết quả gép của chúng làm giá trị log-likehood giảm ít nhất so với các cặp khác.

Gọi H là matrix trong đĩ các phần từ h(i,j) của nĩ đƣợc định nghĩa nhƣ sau: h(i,j) = 1, nếu phân cụm thứ i chƣa từ thứ j.

h(i,j) =0, nếu ngƣợc lại. (5-11)

Sử dụng ma trận H, với các phần tử đƣợc tính theo (5-11),ma trận giản lƣợc của ma trận thể hiện tập văn bản X đƣợc thể hiện là ma trận tích của hai ma trận H và X: HX.

+ Bổ sung các thuộc tính mới: Sử dụng việc phân cụm để tạo ra các thuộc tính mới. Đầu tiên khơng gian thuộc tính đƣợc giảm bằng cách sử dụng

phân cụm cứng, quan hệ giữa vector thuộc tính gốc d và vector giản lƣợc của s của nĩ là:

Hd = s (5-12)

Tiếp theo vector gốc d và vector giản lƣợc s đƣợc gép với nhau: ˆ d =       s d (5-13) sau đĩ các văn bản đƣợc phân loại sử dụng SVM với dˆ là đầu vào.

Việc mở rộng kích thƣớc của khơng gian thuộc tính nhƣ trên tƣơng đƣơng với việc sử dụng một hàm nhân (kernel function) đặc biệt trong khơng gian thuộc tính gốc, giả sử với hai vector d1 và d2 hàm nhân K trong khơng gian mở rộng đƣợc thể hiện (ví dụ trong trƣờng hợp hàm nhân là tuyến tính):

K(dˆ1, 2 ˆ d )=dˆ2. 2 ˆ d =d1.d2+s1.s2=d1.d2+(Hd1).(Hd2) (5-14) Nhƣ vậy trong phƣơng pháp này, khơng những khơng gian thuộc tính gốc vẫn ảnh hƣởng trực tiếp đến đến quả phân loại mà cịn tận dụng đƣợc cả thơng tin từ dữ liệu khơng nhãn bằng cách tạo ra các thuộc tính mới.

5.3.2. Phƣơng pháp 2

Năm 2003, Zeng, H.J cùng các cộng sự đã đề xuất phƣơng pháp phân loại văn bản dựa trên clustering chỉ yêu cầu tập dữ liệu cĩ nhãn tối thiểu [25]. Ý tƣởng của phƣơng pháp này là khai thác tập dữ liệu chƣa cĩ nhãn gán nhãn bằng cách phân cụm cả tập dữ liệu cĩ nhãn và khơng nhãn. Sau đĩ tập chƣa cĩ nhãn sẽ đƣợc gán nhãn dựa trên các cụm thu đƣợc, cụ thể là nhãn của nhĩm dữ liệu đã cĩ nhãn của nhĩm cĩ trọng tâm gần với mẫu chƣa cĩ nhãn nhất sẽ đƣợc gán cho mẫu này. Sau đĩ phƣơng pháp phân loại phân biệt nhƣ SVM đƣợc sử dụng để huấn luyện tập dữ liệu gán nhãn mở rộng. Kết quả thực nghiệm của Zeng cho thấy phƣơng pháp này thể hiện tốt hơn các phƣơng pháp Co-Training [25], SVM [14], TSVM [27] đặc biệt khi tập dữ liệu cĩ nhãn là rất nhỏ.

Phƣơng pháp này đƣợc chia làm 2 bƣớc: - Bƣớc 1- Phân cụm:

Phân cụm tập dữ liệu huấn luyện bao gồm cả dữ liêu cĩ nhãn và khơng nhãn, sau đĩ mở rộng tập dữ liệu cĩ nhãn từ kết quả phân cụm.

- Bƣớc 2- Phân loại:

Huấn luyện chƣơng trình phân loại từ dữ liệu cĩ nhãn mở rộng và dữ liệu khơng nhãn cịn lại.

Với giả sử là các vector đều đã đƣợc chuẩn hĩa, sử dụng hàm tính mức độ tƣơng tự giữa hai văn bản dj và dk:

sim(dj,dk) = 

i 1 wij. wik (5-15)

Hàm (5-15) cũng đƣợc sử dụng để tính khoảng cách từ một mẫu tới trọng tâm. Chi tiết thuật tốn đƣợc trình bày ở Hình 5-2.

Trong thuật tốn này, chiến lƣợc củng cố lặp đã đƣợc thực hiện. Ở mỗi bƣớc lặp, thuật tốn k-means đƣợc sử dụng để phân cụm, sau đĩ tính trọng tâm của các dữ liệu đã cĩ nhãn (gọi là trọng tâm cĩ nhãn) và sử dụng chúng làm các trọng tâm ban đầu cho k-mean, giá trị k ở đây là số lớp văn bản trong dữ liệu

Đầu vào:

Tập dữ liệu cĩ nhãn Dl

Tập dữ liệu khơng nhãn Du

Số nhĩm văn bản C

Đầu ra:

Tập dữ liệu cĩ nhãn đầy đủ Dl’=Dl (Du,Tu*)

Bộ phân loại L

Nội dung thuật tốn:

- Thiết lập tập cĩ nhãn và khơng nhãn hiện tại Dl’=Dl, Du’=Du

- Lặp đến khi Du’=  (lăp 1) Bƣớc phân cụm:

 Tính các trọng tâm ban đầu

, , 1.. , j i j j l j t i o x i C x D       và đặt trong tâm hiện tại oi*=oi(Với c là số nhĩm văn bản)

 Nhãn của trọng tâm t(oi)=t(oi*) là nhãn của của các mẫu tƣơng ứng

 Lặp đến khi kết quả phân nhĩm là khơng đổi (lặp 2)

+ Tính các trong tâm gần nhất oi* cho mỗi oi, if t(oi)#t(oi*), thốt khỏi vịng lặp 2.

+ Gán nhãn t(oi*) cho mỗi xiDlDu gần với oi* hơn các trong tâm khác. + Cập nhật các * , , 1.. , j i j j l u j t i o x i C x D D       

 Với mỗi cụm, chọn p% mẫu xiDu’ gần với oi* nhất và đƣa vào Dl’.

Bƣớc phân nhĩm:

Sử dụng phƣơng pháp TSVM, huấn luyện với tập huấn luyện Dl’ và

Du’.

cĩ nhãn. Phân cụm k-mean đƣợc thực hiện trên cả dữ liệu cĩ nhãn và khơng nhãn. Bƣớc lặp phân cụm này dừng lại khi kết quả phân cụm là ổn định và khơng thay đổi, hay là ngay trƣớc khi các trọng tâm cĩ nhãn chuẩn bị đƣợc gán sai cho một cụm. Cuối cùng dữ liệu khơng nhãn đƣợc gán cùng nhãn với trọng tâm cĩ nhãn ở cùng một cụm.

Sau khi phân cụm, ta chọn các mẫu tốt nhất (nhƣ là gần với trọng tâm của cụm nhất) để tạo ra các tập cĩ nhãn mới, cùng với dữ liệu chƣa cĩ nhãn cịn lại, thực hiện việc huấn luyện cho một bộ phân loại TSVM [27]. Sau đĩ các mẫu cĩ biên lớn nhất sẽ đƣợc chọn vào tập dữ liệu cĩ nhãn mới cho bƣớc lặp tiếp theo.

Một trong các vấn đề chính ở đây là tham số p, giá trị của p cần đƣợc chọn để cân bằng giữa số mẫu cĩ nhãn và các nhiễu cĩ thể cĩ xảy ra khi gán nhãn sai. Với p lớn ta sẽ thu đƣợc tập cĩ nhãn lớn và giảm số vịng lặp. Giá trị p

nhỏ thì số vịng lặp sẽ nhiều hơn, với p=100% thi lặp 1 chỉ cĩ 1 lần và thuật tốn chỉ thực hiện 2 bƣớc phân cụm và phân nhĩm văn bản một lần.

5.3.3. Phƣơng pháp 3

Kyriakopoulou, A. và Kalamboukis, T., năm 2006 đã đƣa ra một đề xuất áp dụng clustering vào phân loại văn bản [28,29]. Mục tiêu của phƣơng pháp này là nâng cao độ chính xác của thuật tốn phân loại ngay cả khi phải làm việc với một tập huấn luyện (dữ liệu cĩ nhãn) bé. Ý tƣởng của phƣơng pháp này là tạo ra các siêu thuộc tính (meta-feature) từ kết quả phân cụm và bổ sung vào khơng gian thuộc tính. Mỗi một siêu thuộc tính sẽ tƣơng ứng với một cụm sau khi tiến hành phân cụm. Nhƣ vậy các vector thuộc tính của các văn bản sẽ đƣợc ánh xạ vào một khơng gian thuộc tích cĩ số chiều lớn hơn.

Với thuật tốn này đƣợc chia làm ba bƣớc: - Bƣớc 1- Phân cụm

Phân cụm cả tập huấn luyện và tập kiểm thử. - Bƣớc 2- Mở rộng

Tăng cƣờng tập dữ liệu bằng cách tạo ra các siêu thuộc tính, meta-feature, từ kết quả bƣớc phân cụm, và bổ sung vào khơng gian thuộc tính.

Huấn luyện, sử dụng một phƣơng pháp phân loại, cho tập dữ liệu kiểm thử Ở đây, xét bài tốn phân loại k-nhĩm (k-class categorization. Cho l mẫu gán nhãn {(x1,y1),….,( xl,yl)} là các vector thuộc tính xi  Rn và các nhãn tƣơng ứng (y1, y2, …, yl) {1,…,l} và cĩ m mẫu chƣa cĩ nhãn với các vector thuộc tính là {x1*,…., xm*}, ở đây ta xét trƣờng hợp m>>l, với trọng số của các thuộc tính đƣơc tính theo mơ hình trọng số TFIDF, tính theo (2-2).

Do các văn bản trong một nhĩm cĩ các mối liên hệ với nhau và các văn bản trong một cụm cũng cĩ các đặc điểm đặc trƣng. Tức là cĩ một mỗi liên hệ giữa các nhĩm văn bản và các cụm khi phân cụm. Nên ta cĩ thể chon số cụm cần là bằng với số nhĩm văn bản, k. Vậy cĩ thể áp dụng một phƣơng pháp phân cụm với số cụm cho trƣớc. Ở đây cĩ thể sử dụng thuật tốn phân k-way clustering để thực hiện việc phân cụm cả dữ liệu huấn luyên và dữ liệu kiểm thử. Trong phƣơng pháp k-way clustering, thuật tốn thực hiện lặp một chuỗi

k-1 bƣớc. Tập dữ liệu đầu tiên đƣợc chia thành hai nhĩm. Sau đĩ một nhĩm sẽ đƣợc chọn và đƣợc chia tiếp làm hai phần. Quá trình này đƣợc tiếp diễn cho đến khi cĩ đƣợc k cụm. Sử dụng hàm tối ƣu (5-16):

max     k i x x Si u u u u x x sim 1 , ) , ( (5-16)

Trong (5-16) Si là tập các văn bẳn đƣợc gán cho cụm thứ i.

sim(xv,xu) là độ tƣơng tự giữa hai văn bản xv và xu. Các cụm đƣợc tạo ra là khơng bị gối lên nhau.

Sau đĩ, từ mỗi cụm thu đƣợc sẽ tạo ra một siêu thuộc tính và bổ sung vào khơng gian thuộc tính. Đặt n là tổng số thuộc tính đựoc sử dụng để thể hiện

l+m vector thuộc tính, và k là số cụm đƣợc tạo ta từ bƣớc 1.

Tại bƣớc 2 ta sẽ tạo ra k siêu thuộc tính: wn+1,…, wn+k. Một văn bản x thuộc cluster Cj đƣợc bổ sung thêm siêu thuộc tính wn+j. Trọng số của siêu thuộc tính đƣợc tính tốn dựa trên mơ hình TFIDF, tính theo (2-2) . Xét mỗi văn bản x của cụm ứng với siêu thuộc tính này:

Tấn suất từ của nĩ (TF)

TF(wn+j,x)=1 (5-17)

IDF(wn+j)=log2(        j C X ) (5-18)

Trong (5-18) |X| là tổng số văn bản và |Cj| là tổng số văn bản thuộc cụm Cj.

Bƣớc cuối, Từ các ma trận mở rộng cho tập huấn luyện và tập thử nghiệm, áp dụng phƣơng pháp phân loại SVM, để thƣc hiện việc huấn luyện với tập huấn luyện mở rộng, sau đĩ cĩ thể sử dụng tập thử nghiệm mở rộng để kiểm tra độ chính xác của phân loại.

Thuật tốn đƣợc tĩm tắt nhƣ Hình 5-3 dƣới đây:

Bước 1: phân cụm

Đầu vào: - Tập huấn luyện gồm các mẫu cĩ nhãn (x1,y1),…,(xl,yl) và tập kiểm thử gồm các mẫu x1*, x2*,…,xm*

- K số cụm mong muốn

Đầu ra:

Các ID của cụm tƣơng ứng với từng mẫu

Sử dụng một thuật tốn phân cụm để phân cụm tất cả các mẫu

Bước 2: Mở rộng

Đầu vào: Các mẫu huấn luyện, mẫu kiểm thử và kết quả của bƣớc 1

Đầu ra: Tập huấn luyện mở rộng và tập kiểm thử mở rộng

Tạo các siêu thuộc tính và bổ sung vào khơng gian thuộc tính, mỗi cụm tƣơng ứng với một siêu thuộc tính.

Các siêu thuộc tính là: tn+1,tn+2,…, tn+k, trọng số của các siêu thuộc tính với văn bản x đƣợc tính theo TF-IDF, theo cơng thức sau.

W(tn+j) = 2 j log C X         ; nếu xCj =0 ; ngƣợc lại

Bước 3: Phân loại

Đầu vào: Các tập huấn luyện và phân loại mở rộng của bƣớc 2.

Sử dụng các phƣơng pháp SVM [14] hoặc TSVM [27] thực hiện huấn luyện với tập huấn luyện mở rộng và thực hiện đốn nhận với tập kiểm thử mở rộng.

Hình 5-3: Thuật tốn của phân loại văn bản sử dụng phân cụm của Kyriakopoulou, A.

5.4. Nhận xét

Cả ba phƣơng pháp trên đều tập trung vào việc cải tiến phân loại văn bản nhƣ nâng cao độ chính xác ngay cả khi phải làm việc với tập huận luyên bé, tận dụng và khai thác tập dữ liệu khơng nhãn. Các thuật tốn đều thực hiện tăng cƣờng tập dữ liệu cĩ nhãn bằng cách áp dụng phân cụm cho dữ liệu cĩ nhãn và khơng nhãn. Phƣơng pháp của Katamura, H, trình bày ở 5.3.1, sử dụng phận cụm từ với phƣơng pháp phân cụm phân cấp, hai phƣơng pháp cịn lại của Zeng, H.J , 5.3.2, và của Kyriakopoulou, A, 5.3.3, sử dụng phân cụm văn bản với phƣơng pháp phân cụm chia vùng. Cả ba phƣơng pháp đều sử dụng phƣơng pháp phân loại văn bản SVM nhằm tận dụng các ƣu điểm của phƣơng pháp này với kích thƣớc khơng gian thuộc tính lớn và các vector văn bản thƣa. Các kết quả cho thấy các phƣơng pháp cho độ chinh xác cao hơn hẳn các phƣơng pháp phân loại truyền thống cũng nhƣ đối với phƣơng pháp SVM thơng thƣờng.

Đối lại với ƣu điểm nổi bật của các phƣơng pháp này là cĩ thể làm việc với tập huấn luyện bé, các phƣơng pháp này cĩ cùng nhƣợc điểm đĩ là thời gian thực hiện lâu lơn, đặc biệt khi tập dữ liệu khơng nhãn càng lớn, hệ thống càng tiêu tốn thời gian thực hiện, do thời gian phân cụm dữ liệu và thời gian tính và bổ sung các thuộc tính mới.

Một nhƣợc điểm nữa trong phƣơng pháp của Kyriakopoulou, A., 5.3.3, là nếu chỉ đốn nhận một văn bản mới thì vẫn phải phần cụm lại tồn bộ dữ liệu cũng nhƣ tính tốn các siêu thuộc tính đây là vấn đề rất tốn thời gian. Giải pháp cho vấn đề này hiên này là thực hiện phân cụm bổ sung (incremental clustering), để cĩ thể cập nhật các cụm mà khơng phải phân cụm lại từ đầu. Thuật tốn của Kyriakopoulou, A., đƣợc xem là dễ hiểu, dễ cài đặt hơn, phần tiếp theo của chƣơng này sẽ trình bày thực nghiệm và kết quả thực nghiệm trên tập Corpus Tiếng Việt, trình bảy ở 5.5, cho phƣơng pháp này, cũng nhƣ kết luận về tính khả thi trong việc áp dụng phân cụm vào phân loại văn bản tiếng Việt trong bối cảnh hiện nay.

5.5. Thực nghiệm và kết quả thực nghiệm

Để kiểm tra tính hiệu quả của việc áp dụng phân cụm vào bài tốn phân loại văn bản, thực nghiệm tiến hành thử nghiệm trên tập Corpus, trình bày ở 5.4. Thực nghiệm cũng tiến hành với các kích thƣớc của tập huấn luyện khác nhau từ bé đến lớn nhằm kiếm tra tính hiệu quả của phƣơng pháp bao gồm 2%, 5%, 10%, 25%, 50%, 75%, 90% (*) dữ liệu là cĩ nhãn. Tại mỗi trƣờng hợp, thực nghiệm tƣơng ứng đƣợc thực hiện cho SVM thơng thƣờng, khơng sử dụng phân cụm, để cĩ kết quả đối sánh.

Thực nghiệm đƣợc tiến hành với 5 nhĩm văn bản là Du lịch, Giáo dục, Kinh tế, Pháp luật, Thể thao, và đƣợc tiến hành qua các bƣớc:

Bước 1: Thực hiện phân đoạn từ và tạo các ma trân tƣơng ứng cho tập huấn luyện và kiểm thử, và xây dựng các ma trận thuộc tính cho tập dữ liệu huấn luyên và kiểm thử, cho từng trƣờng hợp nêu ở (*).

Bước 2: Sau đĩ tạo các siêu thuộc tính và tính trọng số cho chúng, và bổ sung vào các vector tƣơng ứng với mỗi tài liệu, sử dụng cơng cụ bổ trợ mở rộng tập dữ liệu sử dụng phân cụm, giới thiệu ở 7.6

Bước 3: Sử dụng thƣ viện LIBSVM [35] để tiến hành huấn luyện và kiểm thử,

Phƣơng pháp k-Nearest Neighbour

Phƣơng pháp Linear Least Square Fit LLSF