Thực nghiệm phân lớp bán giám sát SVM-kNN- 123docz.net

Kết thúc quá trình biểu diễn tập tài liệu ta sẽ thu được tập các vector. Ta chia tập dữ liệu thành ba tập thử nghiệm: dữ liệu học mô hình (training), dữ liệu kiểm tra mô hình (test), và tập dữ liệu chưa được gán nhãn (unlabel).

Nhãn lớp Văn bản

+1 2339

Trong luận văn này, tôi đã tiến hành cài đặt giải thuật SVM-KNN dựa trên bài báo [7], và áp dụng mã nguồn mở libsvm [4] để hỗ trợ trong quá trình cài đặt.

Trong luận văn, tôi áp dụng mô hình học bán giám sát SVM-KNN, nên để đánh giá độ chính xác của mô hình, tôi dùng phương pháp đánh giá chéo bậc k. Tôi sử dụng k = 10 là giá trị phổ biến để có được một ước lượng chính xác.

Hệ thống chia dữ liệu thực nghiệm thành 10 phần bằng nhau một cách ngẫu nhiên, quá trình huấn luyện lặp đi lặp lại 10 lần, tại lần huấn luyện thứ i (1 <= i < =10 ), tập con thứ i được chọn làm tập kiểm tra, và tập con tiếp theo (nếu i=10 thì chọn tập thứ 1) được chọn làm tập huấn luyện, còn 8 tập còn lại sẽ được trộn lại với nhau làm tập dữ liệu chưa được gán nhãn. Qua mỗi lần tiến hành hệ thống sẽ tự động phân lớp tập dữ liệu kiểm tra, rồi tính toán độ chính xác của mô hình

Fold Precision Recall F1 Ngưỡng(t)

(training/unlabel) Vòng lặp 1 70.2 89.0 78.5 0.57394767 35 2 72.8 87.0 79.3 0.40101266 21 3 67.7 79.0 73.0 0.36037365 20 4 77.1 84.0 80.4 0.34584877 19 5 81.2 90.0 85.4 0.3208175 23 6 74.7 78.0 76.3 0.28645834 22 7 79.3 80.0 79.6 0.34712756 20 8 78.9 78.0 78.4 0.40101266 21 9 80.1 87.0 83.4 0.59205985 36 10 78.8 79.0 78.9 0.61059374 37 TBình 76.08% 83% 79,3% 0.4

Các tham số sử dụng trong phân lớp bán giám sát SVM-KNN là: - k – số hàng xóm gần nhất, là tham số khi sử dụng thuật toán kNN, - t – kích thước dữ liệu huấn luyện cần đạt so với kích thước tập toàn bộ

dữ liệu

- n – số vector biên để gán nhãn lại.

Bảng 8:độ chính xác 10 lần huấn luyện với k = 5, n = 20

0 10 20 30 40 50 60 70 80 90 1 2 3 4 5 6 7 8 9 10 Precision Recall F1

Hình 13: độ chính xác của bộ phân lớp trong 10 lần huấn luyện.

Nhận xét: Như vậy, khi lựa chọn số hàng xóm gần nhất để phân lớp trong thuật toán kNN là 5, kích thước dữ liệu huấn luyện cần đạt được là 0.8 (dừng lại khi t = 0.4) và số vector hỗ trợ mỗi lớp được chọn ra cho mỗi lần lặp là 20 thì kết quả là tốt nhất.

Tóm tắt chương 3

Trong chương này, tôi đã tiến hành thực nghiệm, xem xét và đánh giá kết quả của quá trình thử nghiệm mô hình phân lớp văn bản tiếng Việt: nhóm văn bản liên quan tới ngành GTVT và nhóm không liên quan. Qua phân tích và đánh giá đã cho thấy tính đúng đắn của phương pháp phân lớp bán giám sát SVM- kNN.

KẾT LUẬN

Trong luận văn này tôi nghiên cứu một phương pháp lai giữa k-láng giềng gần (kNN) với SVM nhằm thực hiện phân đa lớp văn bản, lý do chính là nhằm tăng khả năng tính toán trong cả quá trình huấn luyện và thực hiện phân lớp, kết quả là phương pháp này đạt kết quả khá hơn trong thực tế thử nghiệm của luận văn.

- Mô tả chi tiết các thuật toán SVM, kNN và thuật toán lai SVM-kNN theo hai phương pháp [5] và [7] cũng như quan điểm và các viễn cảnh cho các thuật toán lai SVM-kNN tương ứng.

- Thực nghiệm việc phân lớp văn bản tiếng Việt liên quan tới ngành GTVT. Luận văn tập trung đánh giá kết quả thực nghiệm từ 2 pha: tạo tập huấn luyện cho SVM-kNN và phân lớp SVM-kNN

Qua phân tích và đánh giá kết quả thực nghiệm đã cho thấy tính đúng đắn của phương pháp phân lớp bán giám sát SVM-kNN trong phân lớp văn bản tiếng Việt.

Tuy nhiên trong quá trình thực nghiệm với phương pháp của luận văn đề ra tôi vẫn chưa đưa ra được chương trình tổng hợp nhằm thực hiện nhanh hơn thuật toán, thay vào đó tôi vẫn phải sử dụng cả ba chương trình riêng biệt để thực hiện thuật toán thủ công. Cũng do thời gian không cho phép tôi không thể thực nghiệm trên tập mẫu rộng hơn và nhiều lớp hơn nhằm đưa ra kết quả khách quan hơn nữa về thuật toán SVM-kNN.

TÀI LIỆU THAM KHẢO Tiếng Việt

[1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009). Giáo trình khai phá dữ liệu Web, Nhà xuất bản giáo dục, 2009.

[2] Trần Thị Oanh (2008). Mô hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng Việt, Luận văn Thạc sỹ, Trường Đại học Công nghệ - ĐHQG Hà Nội, 2008.

Tiếng Anh

[3] Cam-Tu Nguyen, Xuan-Hieu Phan, Susumu Horiguchi, Thu-Trang Nguyen, and Quang-Thuy Ha (2009). Web Search Clustering and Labeling with Hidden Topics, ACM Transactions on Asian Language and Information

Processing, 8 (3), 40 pp, 2009

[4] C. Chang and C.-J. Lin (2010). LIBSVM: a library for support vector machines, Technical Report, Initial version: 2001 Last updated: November 16, 2010, http://www.csie.ntu.edu.tw/~cjlin/papers/libsvm.pdf, LIBSVM software library version 3.0 released on September 13, 2010,

http://www.csie.ntu.edu.tw/~cjlin/libsvm/.

[5] Hao Zhang, Alexander C. Berg, Michael Maire, Jitendra Malik (2006). SVM-KNN: Discriminative Nearest Neighbor Classification for Visual Category Recognition, CVPR (2) 2006: 2126-2136, 2006.

[6] Xuan-Hieu Phan, Le-Minh Nguyen, Cam-Tu Nguyen, Trung-Kien Nguyen and Quang-Thuy Ha (2006). Vietnamese word segmentation with crfs and svms: An investigation, PACLIC20: 215-222, Wuhan, China, 2006.

[7] Kunlun Li, Xuerong Luo, Ming Jin (2010). Semi-supervised Learning for SVM-KNN, JCP 5(5): 671-678, 2010.

[8] Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer, Peter Reutemann, Ian H. Witten (2009). The WEKA Data Mining Software: An Update, SIGKDD Explorations, 11 (1), 2009. http://www.cs.waikato.ac.nz/ml/ weka/

[9] Miha Grcar, Blaz Fortuna, Blaz Fortuna (2005). kNN Versus SVM in the Collaborative Filtering Framework, ACM 1-59593-214-3 USA, 2005.

[10] Y. Lee, Y. Lin, and G. Wahba (2004). Multicategory support vector machines, theory, and application to the classification of microarray data and satellite radiance data. Journal of the American Statistical Association, 99:67 - 81, 2004.

[11] Yiming Yang , Jan O. Pedersen (1997). A Comparative Study on Feature Selection in Text Categorization, 1997.

Thực nghiệm phân lớp bán giám sát SVM-kNN

Phương pháp biểu diễn văn bản

Phương pháp thu thập dữ liệu