Mơ phỏng thuật tốn SVM về quan điểm

Một phần của tài liệu Suppor vector machine (Trang 31 - 35)

3.6.1. Mơ tả cơ sở dữ liệu

Cĩ rất nhiều bộ dữ liệu về khái thác quan điểm, trong luận án của Ths. Nguyễn Viết Hùng cĩ sử dụng bộ dữ liệu [8], đây là bộ dữ liệu của Giáo sư Bing Liu [9]. Tuy nhiên ở báo cáo này của tơi, tơi xin trình bày bộ dữ liệu rất gần gủi với chúng ta thay vì bộ dữ liệu phức tạp của Giáo sư. Đĩ chính là bộ dữ liệu TicTacToa, bộ dữ liệu thường được chúng ta sử dụng trong các trị chơi, mà thơng thường người việt nam hay cịn gọi là cơ ca rơ.

Bộ dữ liệu tơi thu thập từ [10]. Bộ dữ liệu này rất gần gủi với chúng ta chính vì vậy rất phù hợp cho chúng ta mới nghiên cứu khai phá dữ liệu nĩi riêng và khai thác quan điểm nĩi chung.

Thực tế bộ dữ liệu chỉ cho chúng ta biết được quan điểm của con người như thế nào với các lỗi đi khác nhau trên ván cờ mà người đĩ đang sử dụng, đĩ cũng chính là quản điểm của người đánh đối với từng nước đi.

Bộ dữ liệu tơi thu thập gồm cĩ mười thuộc tính trong đĩ cĩ 1 thuộc tính là Class, thuộc tính này cho chúng ta biết các ý tích cực và tiêu cực, cĩ nghĩa điều này cho chúng ta thấy khả năng nêu quan điểm khi chơi cơ là đúng hay là sai khi thể hiện trên bàn cờ ca rơ. Tuy nhiên 9 thuộc tích cịn lại thể hiện các giá trị cụ thể như hình về sau:

Page 31 Hình 3.7 Các thuộc tính của bàn cờ ca rơ

Ngồi 10 thuộc tính kể trên, bộ dữ liệu này được trình bày gồm 958 trường hợp khác nhau. Mỗi một trường hợp cho chúng ta hiểu được một quy trình khác khau. Các giá trị của các thuộc tính chỉ nhận một trong ba giá trị đĩ là x, o, b để thể hiện bản chất của mình.

3.6.2. Kết quả thực nghiệm cho quá trình

Đối với tập dataset tơi nêu ở trên tơi cũng tiến hành mơ phỏng tương tự, bằng việc sữ dụng thuật tốn SVM và sử dụng các thuật tốn khác để so sánh với SVM. Giá trị được thể hiện ở bảng phía dưới.

Đầu tiên tơi dùng tập dữ liệu này cho Use training set đối với các thuật tốn NaiveBayes, BayesNet, và SVM tơi thu được kết quả như sau:

Thuật tốn BayesNet NaiveBayes SVM Độ chính xác 69.833 % 69.833 % 98.3299 %

Độ sai phạm 30.167 % 30.167 % 1.6701 % Bảng 3.5 Bảng kết quả kiểm nghiệm theo khai phá quan điểm

Tiếp đến tơi sử dụng Cross-validation với lần lượt cho các thuật tốn trên với 5 và 10 lần tơi thu được kết quả như sau:

Page 32 Thuật tốn BayesNet NaiveBayes SVM

5 10 5 10 5 10

Độ chính xác 69.94 % 69.42 % 69.73 % 69.62 % 98.33 % 98.33 % Độ sai phạm 30.06 % 30.58 % 30.27 % 30.38 % 1.67 % 1.67 %

Bảng 3.5 Bảng kết quả kiểm nghiệm theo khai phá quan điểm thứ nhất Sau cùng tơi sử dụng phép phân chia 66 – 44 cho các thuật tốn như trên, kết quả mà tơi thu được như sau:

Thuật tốn BayesNet NaiveBayes SVM Độ chính xác 71.1656 % 71.1656 % 99.0798 %

Độ sai phạm 28.8344 % 28.8344 % 0.9202 % Bảng 3.6 Bảng kết quả kiểm nghiệm theo khai phá quan điểm thứ hai Ứng với mỗi thuật tốn thì tơi thu được các ma trận nhầm lẫn của nĩ tương ứng. Các ma trận thể hiện độ nhập nhằn của thuật tốn. Cụ thể các ma trận được thể hiện như sau:

Trong mơ phỏng này, cả hai thuật tốn BayesNet và NaiveBayes cho được kết quả như nhau, điều này cũng hiển nhiên khi kết quả của ma trận cho hai thuật tốn này cũng hồn tồn giống nhau, cụ thể như hình dưới.

Bảng 3.8 Ma trận nhầm lẫn của thuật tốn BayesNet và NaiveBayes Đối với thuật tốn SVM khi so sánh kết quả thực nghiệm khác hồn tồn với hai thuật tốn BayesNet và NaiveBayes, chính vì vậy kết quả mơ phỏng thể hiện

Page 33 trên ma trận nhầm lẫn cũng khác biệt so với hai thuật tốn cịn lại. Ma trận được thể hiện như hình sau:

Page 34

TÀI LIỆU THAM KHẢO

[1]. https://machinelearningmastery.com/

[2]. Phan Thị Thu Hồng, Đồn Thị Thu Hà, Nguyễn Thị Thủy, Ứng dụng phân lớp ảnh chụp lá cây bằng phương pháp SVM, Tạp chí khĩa học và phát triển 2013, tập 11 số 7:1045-1052.

[3]. ThS. Nguyễn Viết Hùng, Luận văn “Khai thác quan điểm của các bình luận tiếng anh trên mạng xã hội sử dụng phương pháp xử lý ngơn ngữ tự nhiên” - 2016. [4]. Hu, M. and Liu, B. - Mining Opinion Features in Customer Reviews. In Proceedings of 19th National Conference on Artificial Intelligence (AAAI) pp.755- 761, 2004.

[5]. Thorsten Joachims. Making large-scale SVM learning practical. In

Bernhard Scholkopf and Alexander Smola, editors, “Advances in Kernel Methods Support Vector Learning,” pp.44–56, 1999.

[6].https://helda.helsinki.fi/bitstream/handle/10138/289742/Kajava_Kaisla_Pro_gra du_2018.pdf?sequence=2&isAllowed=y [7]. https://archive.ics.uci.edu/ml/datasets/spambase [8]. https://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#datasets [9]. https://www.cs.uic.edu/~liub/ [10]. https://archive.ics.uci.edu/ml/datasets/Tic-Tac-Toe+Endgame

Một phần của tài liệu Suppor vector machine (Trang 31 - 35)

Tải bản đầy đủ (PDF)

(35 trang)