Quy trỡnh này được thực hiện dựa trờn phần mềm Weka tại [10] giỳp chỳng ta giải bài toỏn phõn loại dữ liệu, thụng thường người mới sử dụng SVM thường khụng đạt kết quả mong muốn vỡ thường bỏ qua một số bước đơn giản nhưng rất quan trọng. Trong phần này, chỳng tụi giới thiệu một số bước đơn giản và thường cho kết quả khả quan.
Quy trỡnh chung cho bài toỏn gồm 3 bước sau:
- Biến đổi dữ liệu theo dạng chuẩn của một phần mềm SVM. - Thử ngẫu nhiờn một số hàm nhõn với cỏc tham số khỏc nhau. - Kiểm thử.
Sử dụng phương phỏp phõn lớp SVM để xõy dựng mụ hỡnh dự đoỏn bài được đăng trong Tạp chớ Khoa học (Hỡnh 3.4).
Hỡnh 3.4. Mụ hỡnh dự đoỏn bài đăng tạp chớ
- Tiền xử lý
Phương phỏp SVM yờu cầu mỗi dữ liệu được biểu diễn như cỏc vectơ của cỏc số thực. Như vậy, nếu dữ liệu cú cỏc thuộc tớnh khụng phải là số thỡ ta cần phải chuyển đổi dữ liệu đú về dạng số. Trỏnh cỏc số quỏ lớn, thường nờn co giĩn dữ liệu để chuyển về đoạn [-1, 1] hoặc [0, 1].
- Lựa chọn cỏc thuộc tớnh đặc trưng
Để kết quả quyết định chọn bài đăng trờn tạp chớ đạt độ chớnh xỏc cao và khỏch quan thỡ chỳng ta dựa vào rất nhiều yếu tố khỏc nhau. Vỡ vậy, việc đưa ra quyết định chọn bài đăng phải dựa vào những tiờu chớ nhất định để đỏnh giỏ chất lượng của bài viết đú.
Dựa vào cỏc kết quả phõn tớch và đỏnh giỏ của chỳng tụi cựng với ý kiến của một số chuyờn gia trong lĩnh vực viết bỏo khoa học, chỳng tụi đĩ xỏc định cỏc thụng tin ảnh hưởng đến chất lượng bài viết khi đưa ra quyết định chọn đăng. Từ đú, chỳng tụi tiến hành thu thập dữ liệu và lưu trữ cỏc thụng tin theo cấu trỳc Bảng 3.1.
Huấn luyện Dự đoỏn Kết quả dự đoỏn Mụ hỡnh huấn luyện SVM Tiền xử lý Dữ liệu huấn luyện Dữ liệu dự đoỏn Trớch chọn đặc trưng
Bảng 3.3. Danh sỏch cỏc thuộc tớnh đặc trưng
STT Thuộc Tớnh Miền Giỏ Trị
1 Id Mĩ số bài bỏo (1…N) 2 Đặt bài - 1: Đặt bài - 0: Khụng đặt bài 3 Lĩnh vực - 1: Khoa học Giỏo dục
- 2 : Khoa học Tự nhiờn và Kỹ thuật Cụng nghệ - 3: Khoa học Xĩ hội – Nhõn văn và Nghệ thuật 4
Phản biện 1
- 1: Đồng ý đăng khụng cần chỉnh sửa
- 2: Đồng ý đăng nhưng cần chỉnh sửa và bổ sung - 3: Khụng đồng ý đăng
5
Phản biện 2
- 1: Đồng ý đăng khụng cần chỉnh sửa
- 2: Đồng ý đăng nhưng cần chỉnh sửa và bổ sung - 3: Khụng đồng ý đăng 6 Tớnh thời sự - 1 : Vấn đề mới - 2 : Vấn đề cũ nhưng cú tớnh sỏng tạo - 3 : Vấn đề Cũ 7 Tỡnh trạng - 1: Đĩ chỉnh sửa - 0: Khụng chỉnh sửa
8 Quyết định Thuộc tớnh quyết định Đăng hay Khụng đăng
- Huấn luyện
Giai đoạn huấn luyện dữ liệu là rất quan trọng gúp phần làm tăng độ chớnh xỏc của bài toỏn. Trong quỏ trỡnh cài đặt thực nghiệm, chỳng tụi xõy dựng mụ hỡnh huấn luyện dựa vào hàm nhõn tuyến tớnh với cỏc thụng số khỏc nhau.
- Dự đoỏn
Mụ hỡnh huấn luyện SVM là kết quả của giai đoạn huấn luyện dữ liệu, cựng với tập dữ liệu dự đoỏn làm đầu vào cho chương trỡnh dự đoỏn. Việc dự đoỏn sẽ dựa vào mụ hỡnh huấn luyện SVM sẽ cho ra kết quả dự đoỏn của mỡnh.
3.3.2. Thực nghiợ̀m và đỏnh giỏ
Phần này tiến hành thực nghiệm trờn bộ dữ liệu cỏc bài viết tạp chớ. Bộ dữ liệu gồm 75 mẫu dựng để huấn luyện và 20 mẫu để dự đoỏn.
Đầu tiờn, thực nghiệm cỏc hàm nhõn khỏc nhau cho mụ hỡnh SVM với tham số C = 10 (bảng 3.4)
Bảng 3.4. Kết quả thực nghiệm với cỏc hàm nhõn khỏc nhau
Hàm nhõn Huấn luyện Kiểm thử
Thời gian Độ chớnh xỏc Thời gian Độ chớnh xỏc
Tuyến tớnh 0.03 s 90.67% 0.2 s 89.47%
Đa thức bậc 2 0.04 s 84% 0.2s 89.47%
RBF (=0.05) 0.02 s 84% 0.04 s 84.21%
Kết quả thực nghiệm ở bảng 3.4 cho thấy sử dụng hàm nhõn tuyến tớnh cho độ chớnh xỏc phõn lớp cao nhất.
Vớ dụ: Kết quả dự đoỏn bài được chọn đăng hay khụng đăng 313,0,3,2,2,2,1,Dang,Dang
327,1,3,2,2,2,0,'Khong dang','Khong dang' 328,1,3,1,2,2,0,'Khong dang',Dang
329,1,3,2,1,1,1,Dang,Dang
330,1,3,2,1,2,0,'Khong dang','Khong dang' 331,1,3,2,2,2,0,'Khong dang',Dang
332,1,3,3,3,3,0,'Khong dang','Khong dang'
1,0,1,2,2,2,0,'Khong dang',?
Tiếp theo, chỳng ta sử dụng hàm nhõn tuyến tớnh để thực hiện huấn luyện phõn lớp dữ liệu với cỏc giỏ trị C khỏc nhau (bảng 3.5)
Bảng 3.5. Kết quả huấn luyện với hàm nhõn tuyến tớnh
C Huấn luyện Kiểm thử
Thời gian Độ chớnh xỏc Thời gian Độ chớnh xỏc
0.01 0.04 s 52% 0.03 s 57.89%
0.05 0.04 s 78.67% 0.02s 78.95%
0.08 0.01 s 80% 0.04 s 84.21%
10 0.03 s 90.67% 0.02 s 89.47%
Kết quả ở bảng 3.5 cho thấy chất lượng của mụ hỡnh huấn luyện SVM phụ thuộc vào việc lựa chọn giỏ trị của tham số C. Nếu tham số C càng lớn thỡ đối tượng phõn lớp chớnh xỏc cao và tỉ lệ lỗi sẽ càng thấp.
Cuối cựng, so sỏnh cỏc kết quả dự đoỏn theo mụ hỡnh SVM so với mụ hỡnh cõy quyết định trờn cựng một bộ dữ liệu (bảng 3.6)
Bảng 3.6. So sỏnh kết quả dự đoỏn của SVM với mụ hỡnh cõy quyết định
Phõn lớp Huấn luyện Kiểm thử
Thời gian Độ chớnh xỏc Thời gian Độ chớnh xỏc
J48 0.08 s 82.67% 0 s 89.47%
SVM 0.03 s 90.67% 0.02 s 89.47%
Kết quả ở bảng 3.6 cho thấy kết quả huấn luyện theo mụ hỡnh SVM cú độ chớnh xỏc cao hơn so với mụ hỡnh cõy quyết định, tuy nhiờn thời gian nhận dạng lại chậm hơn.
3.4. Tiểu kết chương 3
Chương này đĩ trỡnh bày tổng quan về quy trỡnh chọn đăng bài viết trờn tạp chớ; giới thiệu cụng cụ Weka và sử dụng cụng cụ này vào phõn lớp dự đoỏn dữ liệu dựa vào kỹ thuật SVM; thực nghiệm và đỏnh giỏ kết quả.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
1. Kết luận
Luận văn này đĩ tỡm hiểu tổng quan về khai phỏ dữ liệu và cỏc phương phỏp phõn lớp dữ liệu. Bờn cạnh đú cũng đĩ tỡm hiểu và sử dụng kỹ thuật phõn lớp SVM được đỏnh giỏ là một trong những phương phỏp phõn lớp cú độ chớnh xỏc cao.
Trờn cơ sở đú, luận văn xõy dựng mụ hỡnh ứng dụng SVM để ỏp dụng vào bài toỏn dự đoỏn bài viết chọn đăng trờn tạp chớ. Cụ thể luận văn đạt được cỏc kết quả sau:
- Trỡnh bày tổng quan về khai phỏ dữ liệu và cỏc phương phỏp phõn lớp dữ liệu - Tỡm hiểu kỹ thuật phõn lớp SVM, cỏc dạng SVM.
- Tiến hành thực nghiệm và đỏnh giỏ kết quả dự đoỏn dựa trờn bộ dữ liệu cú được.
2. Hướng phỏt triển
- Tiếp tục nghiờn cứu về cơ sở lý thuyết SVM - Xõy dựng bộ dữ liệu đa dạng hơn.
- Xõy dựng phần mềm phõn loại chọn bài đăng trong tạp chớ dựa trờn kỹ thuật SVM.
TÀI LIỆU THAM KHẢO
1. Ian Witten, Eibe Frank. Data Mining: Practical Machine Learning Tools and
Techniques, Second Edition, Morgan Kaufmann Publishers, 2005.
2. Vapnik V. (1999). The Nature of Statistical Learning Theory. Springer, 2nd edition.
3. B. Schửlkopf, C.J.C. Burgesand A.J. Smola, Eds., Advances in Kernel Methods,
Cambridge MA: MIT Press, 1999.
4. Christopher J.C. Burges (1998), A Tutorial on Support Vector Machines for Pattern Recognition, Proceedings of Int Conference on Data Mining and Knowledge Discovery, Vol 2, No 2, pp 121-167.
5. Kristin P. Bennett, Ayhan Demiriz (1998). Semi-Supervised Support Vector
Machines. NIPS 1998: 368-374.
6. John Ross Quilan (1990), “Decision trees and decision making”, IEEE transactions on Man and Cybernetics, (20), pp. 339-346.
7. Joachims T. (1997), Text categorization with Support Vector Machines: Learning with many relevant features, Technical Report 23, LS VIII, University of Dortmund.
8. Durgesh K. Sriavastava, Lekha Bhambhu, Data classification using support vector machine, Journal of Theoretical and Applied Information Technology, 2005 – 2009 Jatit.
9. J. Friedman., Another Approach to Polychotomous Classification, Technical report, Stanford university, US, 1996.
10.JohnC.Platt, Fast Training of Support Vector Machines using Sequential Minimal Optimization, In Advences in Kernel Methods – Support Vector Learning, pp.185-208, Cambridge, M.A, 1999, MIT Press.
51,50,49,46,45,40,36,35,30,24 MAU