.1 kết quả huấn luyện và kiểm thử

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân lớp quan điểm khách hàng và ứng dụng (Trang 61 - 65)

Lượt tập luyện Tập huấn luyện (training) Tỷ lệ ý kiến Tích cực/ tiêu cực Tập kiểm thử (test) Tỷ lệ phân loại đúng Tỷ lệ phân loại sai Kết quả tệp test Lần 1 100% 413/688 0% 72,4% 27.5% - Lần 2 80% 303/578 20% 59,09% 40,9% Tích cực Lần 3 50% 276/275 50% 99.3% 0.7% Tích cực 3.3.2 Đánh giá kết quả

Kết quả bước đầu cho thấy, khi tiến hành thay đổi kích thước tệp huấn luyện và tệp kiểm thử thì thu được các kết quả tương đối chính xác lên đến 99% với trường hợp tệp huấn luyện/ kiểm thử tỷ lệ 50/50. Trường hợp tệp huấn luyện/ kiểm thử tỷ lệ 80/20 thì độ chính xác chỉ là 59%. Đối chiếu với tỷ lệ ý

kiến Tích cực/ tiêu cực ta thấy độ chính xác được đảm bảo khi tỷ lệ các lớp dữ liệu xấp xỉ bằng 50/50.

Điều này cho thấy thuật tốn SVM phân lớp dữ liệu cho kết quả khác chính xác lên đến trên 99% khi tệp huấn luyện đảm bảo tỷ lệ giữa các phân lớp bằng 1.

3.4 Kết luận chương 3

Chương III đã trình bày mơ hình khai phá ý kiến khách hàng dựa trên thuật tốn SVM. Đồng thời thu thập tệp dữ liệu ý kiến phản hồi mẫu và sử dụng phần mềm Weka xử lý tệp dữ liệu, tiến hành huấn luyện và kiểm thử. Từ kết quả quá trình thử nghiệm cho ra những đánh giá về độ chính xác của thuật tốn SVM trong phân lớp dữ liệu quan điểm khách hàng.

Trong chương này, em đã viết cơng cụ thu thập dữ liệu phản hồi từ website tinhte.vn và vnreview.vn về sản phẩm J7 Prime, sau đĩ tiến hành chuẩn hĩa dữ liệu, loại bỏ tiền tố và hậu tố, tách từ và tiến hành các thử nghiệm, thay đổi các thơng số trong quá trình huấn luyện và kiểm tra.

KẾT LUẬN VÀ ĐỀ NGHỊ

Luận văn nghiên cứu tổng quan về học máy và đi sâu nghiên cứu thuật tốn học máy SVM – một phương pháp học máy cĩ giám sát được sử dụng khá phổ biến. Trên cơ sở đĩ, luận văn triển khai xây dựng mơ hình ứng dụng SVM trong việc giải quyết bài tốn khai phá ý kiến người dùng trên website thương mại điện tử. Cụ thể, luận văn đã đạt được các kết quả sau:

- Nghiên cứu tổng quan học máy và bài tốn khai phá ý kiến phản hồi khách hàng và ứng dụng của nĩ trong các lĩnh vực cơng nghệ thơng tin

- Trình bày cơ sở thuật tốn học máy SVM, các dạng SVM và ứng dụng của SVM trong phân loại văn bản.

- Từ các nghiên cứu trên xây dựng mơ hình phân loại ý kiến phản hồi, sử dụng bộ cơng cụ Weka đánh giá sản phẩm trên các website thương mại điện tử dựa trên nhận xét của người dùng trên internet bao gồm việc xây dựng mơ hình, thử nghiệm mơ hình, kết quả và nhận xét kết quả.

Các kết quả nghiên cứu trên cĩ thể sử dụng làm cơ sở cho việc xây dựng những hệ thống phân loại phản hồi của khách hàng trên website.

Hạn chế

Trong phạm vi đề tài chỉ xây dựng mơ hình và kiểm nghiệm thử thuật tốn SVM phân lớp quan điểm người dùng, chưa đi sâu vào nghiên cứu module thu thập dữ liệu và xử lý dữ liệu ngơn ngữ.

Hướng phát triển

Nghiên cứu hồn thiện hệ thống với module thu thập dữ liệu và module xử lý dữ liệu ngơn ngữ kết hợp với thuât tốn SVM phân tích quan điểm người dùng, ứng dụng vào việc phân tích đánh giá sản phẩm trên các website thương mại điện tử.

TÀI LIỆU THAM KHẢO

1. TRẦN NGỌC PHÚC (2012), PHÂN LOẠI NỘI DUNG TÀI LIỆU WEB, Luận văn Thạc sỹ, ĐH Đồng Nai.

2. https://vi.wikipedia.org/wiki/H%E1%BB%8Dc_m%C3%A1y 3. http://en.wikipedia.org/wiki/Support_vector_machine

4. ftp://ftp.cs.cornell.edu/pub/smart/english.stop

5. http://www.stdio.vn/articles/read/436/gioi-thieu-ve-mo-hinh-svm

6. Aixin Sun, Ee-Peng Lim, Wee-Keong Ng. Sun (2002). Web classification using

7. Support vector machine. Proceedings of the 4th International Workshop on Web Information and Data Management, McLean, Virginia, USA, 2002 (ACM Press).

8. Balaij Krishnapuuram, David Williams, Ya Xue,k Alex Hartemink, Lawrence

9. Carin, Masrio A.T.Figueiredo (2005). On Semi-Supervised Classification. NIPS:721-728, 2005.

10. H-J.Oh, S.H.Myaeng, and M-H.Lee (2000). A practical hypertext categorization method using links and incrementally available class information. Proc of the 28rd ACM SIGIR2000: 264-271, Athens, GR, 2000.

11. Kristin P. Bennett, Ayhan Demiriz (1998). Semi-Supervised Support Vector Machines. NIPS 1998: 368-374.

12. Linli Xu, Dale Schuurmans (2005). Unsupervised and Semi-Supervised Multi- Class Support Vector Machines. AAAI 2005: 904-910.

13. M. Craven and S.Slattery (2001). Relational learning with statistical predicate

invention: Better models for hypertext. Machine Learning, 43(1-2):97-

119,2001.

14. Panu Erastox (2001). Support Vector Machines: Background and Practice.

Academic Dissertation for the Degree of Licentiate of Philosophy.

University of Helsinki, 2001.

15. Paul Pavlidis, llan Wapinski, and William Stafford Noble (2004). Support

vector machine classification on the web. BIOINFORMATICS APPLICATION NOTE. 20(4), 586-587.

16. T. Joachims (1999). Transductive Inference for Text Classification using

Support Vector Machines. International Conference on Machine Learning

(ICML), 1999.

17. T. Joachims (2003). Transductive learning via spectral graph partitioning. Proceeding of The Twentieth International Conference on Machine Learning (ICML2003): 290-297.

18. V. Sindhwani, S. S. Keerthi (2006). Large Scale Semi-supervised Linear SVMs. SIGIR 2006.

19. V. Sindhwani, S.S. Keerthi (2007). Newton Methods for Fast Solution of Semisupervised Linear SVMs. Large Scale Kernel Machines, MIT Press, 2005

20. Xiaojin Zhu (2005). Semi-Supervised Learning with Graphs. PhD thesis, Carnegie Mellon University, CMU-LTI-05-192, May 2005.

21. Xiaojin Zhu (2006). Semi-Supervised Learning Literature Survey.

Computer Sciences TR 1530, University of Wisconsin – Madison, February

22, 2006.

Xác nhận của giáo viên hướng dẫn

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân lớp quan điểm khách hàng và ứng dụng (Trang 61 - 65)

Tải bản đầy đủ (PDF)

(65 trang)