Từ data train sau khi loại bỏ các từ stop word và các từ có tần số nhỏ hơn 4 chúng ta xây dựng được bộ từ điển gồm 4740 từ.
Bảng 6. Độ chính xác phân loại trên mỗi chuyên mục và trên toàn bộ tập dữ liệu trường hợp văn bản tách thành các âm tiết sử dụng thuật toán giảm chiều LSI/SVM
Kernel LSI/SVD Class Full K=6 K=50 K=100 K=200 K=300 4740x2760 6x2760 50x2760 100x2760 200x2760 300x2760 Linear (C=10) Kinh doanh 98.58 95.75 97.64 97.64 97.64 96.69 Pháp luật 94.41 16.75 96.95 97.46 94.92 93.90 Thể thao 97.55 93.77 96 97.77 97.33 95.77 Văn hóa 94.89 93.87 98.63 97.27 97.61 96.25 Vi tính 96.56 94.84 96.56 96.94 95.22 96.18 Xã hội 96.78 83.94 93.57 93.11 87.62 88.53 Trung bình 96.77 86.23 96.67 96.96 95.68 95.20 Poly (d=2) Kinh doanh 98.58 99.05 98.34 97.87 96.46 93.86 Pháp luật 94.41 71.57 95.43 95.93 94.92 90.35 Thể thao 97.55 96 98 97.77 96 94.22 Văn hóa 94.55 90.47 94.21 96.25 90.47 87.75 Vi tính 96.75 96.18 97.90 97.70 97.13 93.89 Xã hội 96.78 95.41 93.57 91.28 87.15 83.02 Trung bình 96.77 93.54 96.82 96.72 94.58 91.64 RBF ( 1.5 γ = ) Kinh doanh 98.58 98.34 99.29 41.98 0 0 Pháp luật 94.41 68.02 81.72 42.13 0 0 Thể thao 97.55 94.66 87.33 56.88 6.22 2
Văn hóa 94.55 90.81 73.12 56.08 45.23 6.46
Vi tính 96.75 95.99 88.93 99.23 97.07 98.47
Xã hội 96.78 94.03 62.84 12.01 0 0
Trung bình 96.77 92.64 85.09 58.28 31 25.81
Bảng 7. Độ chính xác phân loại trên mỗi chuyên mục và trên toàn bộ tập dữ liệu trường hợp văn bản tách thành các âm tiết sử dụng thuật toán giảm chiều Centroid và Orthogonal Centroid
Kernel Dimension Reduction methods
Class Full Centroid Orthogonal Centroid 4740x2760 6x2760 6x2760 Linear (C=10) Kinh doanh 98.58 97.87 97.64 Pháp luật 94.41 94.41 95.43 Thể thao 97.55 95.55 96.22 Văn hóa 94.89 97.27 97.61 Vi tính 96.56 96.94 96.75 Xã hội 96.78 91.28 89.44 Trung bình 96.77 96.06 96.06 Poly (d=2) Kinh doanh 98.58 98.58 97.64 Pháp luật 94.41 95.43 95.43 Thể thao 97.55 97.11 97.55 Văn hóa 94.55 95.91 95.91 Vi tính 96.75 98.47 98.66 Xã hội 96.78 97.70 96.78 Trung bình 96.77 97.48 97.34 RBF ( 1.5 γ = ) Kinh doanh 98.58 98.58 98.58 Pháp luật 94.41 94.92 94.92 Thể thao 97.55 97.33 97.33 Văn hóa 94.55 97.27 97.27 Vi tính 96.75 98.09 97.70 Xã hội 96.78 95.87 96.33 Trung bình 96.77 97.38 97.34
Bảng 8. Chi phí thời gian huấn luyện và phân loại sử dụng hàm nhân Poly (d=2) trường hợp văn bản được tách thành các âm tiết
Tên thuật toán SVM Thời gian huấn luyện Thời gian phân loại SVM – Full (4740x2760) 13 phút 17 giây 7 phút 39 giây
SVM – LSI (300x2760) K=300 4 phút 15 giây 2 phút 49 giây
SVM – Orthogonal Centroid (6x2760) 12 giây 45 giây
Bảng 9. Chi phí thời gian thực hiện các thuật toán giảm chiều trường hợp văn bản được tách thành các âm tiết
Tên thuật toán Dimension Reduction Thời gian thực hiện
LSI 1h45 phút
Centroid 5 giây
Kết luận
1. Các kết quả đạt được trong luận văn
Phân loại văn bản tiếng Việt là bài toán quan trọng trong xử lý văn bản. Luận văn đã trình bày tổng quan về các tiếp cận phân loại văn bản, trình bày chi tiếp các thuật toán phân loại Bayes, kNN, Centroid- based vector đặc biệt phương pháp Support Vector Machines được trình bày chi tiết hơn cả. Bên cạnh đó giảm chiều đặc trưng hay tối ưu kích thước dữ liệu là hướng nghiên cứu quan trọng nhằm giải quyết lớp bài toán có khối lượng dữ liệu không lồ. Luận văn đã trình bày tổng quan về các vấn đề tối ưu kích thước dữ liệu và các tiếp cận. Trong đó chúng tôi đi sâu vào trình bày các tiếp cận Lantent semantic index, Centroid, Orthogonal Centroid, GSVD/LDA. Trên cơ sở đó chúng tôi cài đặt và thử nghiệm đánh giá các kết quả được ứng dụng trong bài toán phân loại văn bản tiếng Việt. Qua bảng so sánh kết quả ta thấy các phương pháp Centroid, Orthogonal Centroid có kết quả khá tốt mà thời gian thực hiện ít hơn rất nhiều nhiều so với khi sử dụng Lantent semantic index giảm chiều đặc trưng.
Kết quả độ phân loại chính xác trong hai trường hợp dựa vào đặc điểm của tiếng Việt (âm tiết và từ) là xấp xỉ tương đương nhau điều này chứng tỏ nếu bỏ qua bài toán tách từ văn bản tiếng Việt bằng cách tách văn bản theo âm tiết giống văn bản tiếng Anh thì kết quả phân loại văn bản tiếng Việt vẫn cho kết quả khá tốt.
2. Hướng nghiên cứu tiếp theo
Thử nghiệm bộ phân loại SVM kết hợp với các phương pháp giảm chiều dựa vào các đặc điểm khác của văn bản tiếng Việt có nhiều tri thức hơn như biểu diễn văn bản theo cú pháp hay cụm từ văn bản tiếng Việt.
Tài liệu tham khảo Tài liệu tiếng Việt
1. Nguyễn Ngọc Bình (2004), Dùng lý thuyết tập thô và các kỹ thuật khác để phân loại, phân cụm văn bản tiếng Việt, ICT.rda’04, Hà nội.
2. Đỗ Bích Diệp (2004), Phân loại văn bản dựa trên mô hình đồ thị, Luận văn cao học, Trường Đại học Tổng hợp New South Wales - Australia.
3. Nguyễn Linh Giang, Nguyễn Duy Hải (1999), “Mô hình thống kê hình vị tiếng Việt và ứng dụng”, Các công trình nghiên cứu, triển khai Công nghệ Thông tin và Viễn thông, Tạp chí Bưu chính Viễn thông, tr.61-67.
4. Nguyễn Thị Minh Khuê (2005), Phân loại văn bản Tiếng Việt bằng phương pháp Support Vectơ Machine, Đồ án tốt nghiệp đại học, Trường Đai học Bách Khoa Hà Nội.
5. Đỗ Thanh Nghị (2005), Một thuật toán máy vector hỗ trợ đơn giản và nhanh chóng cho việc khai thác dữ liệu, FAIR’05.
6. Dương Thanh Tịnh (2005), Xây dựng hệ thống hỗ trợ tư vấn cho thương mại điện tử, Luận văn cao học, Trường Đại học Công Nghệ Thông Tin TPHCM.
7. Huỳnh Quyết Thắng, Đinh Thu Phương Thu (2005), Tiếp cận phương pháp học không giám sát trong học có giám sát với bài toán phân lớp văn bản tiếng Việt và đề xuất cải tiến công thức tính độ liên quan giữa hai văn bản trong mô hình vector, Kỷ yếu Hội thảo ICT.rda’04, tr.251-261, Hà Nội.
8. Đinh Thu Phương Thu, Hoàng Vĩnh Sơn, Huỳnh Quyết Thắng (2005), Phương án xây dựng tập mẫu cho bài toán phân lớp văn bản tiếng Việt: nguyên lý, giải thuật, thử nghiệm và đánh giá kết quả, Bài báo đã gửi đăng tại Tạp chí khoa học và công nghệ..
Tài liệu tiếng Anh
9. Cheong Hee Park, Haesun Park (2006), A Comparison of Generalized Linear Discriminant Analysis Algorithms, CSE Technical Reports, GT-CSE-06-14, Georgia Institute of Technology.
10. C. T. Nguyen, T. K. Nguyen, X. H. Phan, L. M. Nguyen, Q. T. Ha (2006),
Proceedings of the 20th Pacific Asia Conference on Language, Informa-tion and Computation, Wuhan, CH.
11. David L. Donoho (2000), High-Dimensional Data Analysis: The Curses and Blessings of Dimensionality, Lecture, Department of StatisticsStanford University.
12. Hyunsoo Kim, Peg Howland, Haesun Park (2005), “Dimension Reduction in Text Classification with Support Vector Machines”, Journal of Machine Learning Research, Department of Statistics Stanford University, pp. 37-53.
13. Hyunsoo Kim, Barry L. Drake, Haesun Park (2006), Relationships Between Support Vector Classifiers and Generalized Linear Discriminant Analysis on Support Vectors, CSE Technical Reports, GT-CSE-06-16, Georgia Institute of Technology.
14. Haesun Park, Barry L. Drake, Sangmin Lee, Cheong Hee Park (2007), Fast Linear Discriminant Analysis using QR Decomposition and Regularization, CSE Technical Reports, GT-CSE-07-21, Georgia Institute of Technology.
15. Hongyuan Zha (1989), “A Numerical Algorithm for Computing the Restricted Singular Value Decomposition of Matrix Triplets”, Elsevier Science, New York, ETATS-UNIS, Vol. 168, pp. 1-25.
16. M. Jeon, H. Park, J.B. Rosen (2003), Dimension reduction based on centroids and least squares for efficient processing of text data, Technical Report, University of Minnesota - Computer Science and Engineering.
17. Matthew Johnson (2007), Sources code SVM.net,
http://www.matthewajohnson.org/software/svm.html
18. Peg Howland, Moongu Jeon, Haesun park (2003), “Structure preserving dimension reduction for clustered text data based on the general singular value decomposition”,
Society for Industrial and Applied Mathematics, Vol.25, No.1, pp. 165-179.
19. Paul Selormey (2004), Sources code DotNetMatrix,
http://www.codeproject.com/KB/recipes/psdotnetmatrix.aspx?
fid=31332&df=90&mpp=25&noise=3&sort=Position&view=Quick&fr=76
20. Two Crows (2005), Introduction to Data Mining and Knowledge Discovery, Third Edition, http://www.twocrows.com/booklet.htm
21. Thorsten Joachims (1998), “Text Categorization with Support Vector Machines: Learning with Many Relevant Features”, Machine Learning: ECML-98, pp. 137-142.
22. Thorsten Joachims (2001), A Statistical Learning Model of Text Classification for Support Vector Machine, GMD Forschungszentrum IT, AIS.KD Schloss Birlinghoven, 53754 Sankt Augustin, Germany.
23. Benjamin Chin Ming Fung (2002), Hierarchical Document Clustering Using Frequent Itemsets, Master of Scie ncein the School of Computing Science, Simon Fraser University.