Bảng 4. : Danh ách mộ tố phần mềm v cơng cụ th c nghiệm
Bảng 4.7 Kết quả tổng hợp
Từ kết quả thu được ở trên chúng tơi cĩ một ố nhận xét au:
ai thuật tốn VM v NB cĩ kết quả xấp xỉ nhau trong phân lớp văn bản chủ quan tiếng Việt. Kết quả tốt nhất với VM l 82.7% v với NB là 80.8%.
Đặc trưng “động từ v tính từ” trong phân lớp văn bản chủ quan cĩ độ chính xác cao hơn đặc trưng bag-of-word.
Kết Luận
Phân tích quan điểm của người dùng l b i tốn cĩ nhiều nghĩa v th c tiễn trong những năm gần đây. Từ việc nghiên cứu b i tốn phân lớp văn bản chủ quan – khách quan trên miền dữ liệu ản phẩm v giá xăng, luận văn đã tổng hợp các hướng tiếp cận hiện nay v áp dụng một ố phương pháp để giải quyết bài tốn nĩi trên.
Qua những kết quả th c nghiệm đạt được cho thấy mơ hình áp dụng l hồn tồn khả thi v đem lại hiệu quả.
Luận văn n y đã đạt được những kết quả sau:
- Trình b y một cách khái quát về khai phá quan điểm v ứng dụng khai phá quan điểm trong th c tế.
- Tìm hiểu v áp dụng một ố phương pháp phân lớp văn bản chủ quan – khách quan và phương pháp trích chọn đặc trưng để phân lớp.
- Sử dụng kỹ thuật học máy VM, phương pháp phân lớp ử dụng xác uất Bayesian để th c hiện b i tốn phân lớp.
- Khĩa luận đã th c nghiệm với các phương pháp trích chọn mẫu với hai đặc trưng là bag-of-word v động từ hoặc tính từ Adj and Verb cho kết quả khá tốt.
Luận văn cịn một số hạn chế
Bên cạnh những kết quả đạt được, do hạn chế về mặt thời gian, kiến thức chuyên mơn v mức độ am hiểu chuyên âu về ngơn ngữ tiếng Việt, luận văn cịn một ố hạn chế sau:
- Khĩa luận chưa th c nghiệm được với đặc trưng thơng tin cú pháp…
- Dữ liệu th c nghiệm cịn ít dẫn đến ố lượng vecto đặc trưng chưa nhiều trong khi ố chiều của vector đặc trưng khá lớn m chưa áp dụng các kỹ thuật giảm chiều vector (trình b y trong chương 3), đây l một trong những nguyên nhân dẫn đến kết quả th c nghiệm chưa được cao.
Các hướng nghiên cứu v phát triển tiếp theo
Do cịn nhiều hạn chế về thời gian v kiến thức, trong luận văn n y cịn một ố vấn đề phải tiếp tục ho n thiện v phát triển trong thời gian tới. Định hướng nghiên cứu trong tương lai, luận văn ẽ phát triển tiếp các cơng việc sau:
- Bổ ung th c nghiệm với nhiều đặc trưng hơn nữa: chẳng hạn bigram, thơng tin cú pháp.
- ử dụng phương pháp ửa lỗi chính tả, viết tắt…, để loại bỏ dữ liệu nhiễu tốt hơn. - Th c nghiệm trên nhiều miền dữ liệu lớn hơn, cải tiến chương trình đủ đề học v phân lớp với ố lượng đặc trưng lớn hơn nữa.
- Tiến h nh th c nghiệm với nhiều thuật tốn học khác để tìm ra thuật tốn cĩ hiệu quả nhất, độ chính xác cao với bài tốn phân lớp văn bản chủ quan tiếng Việt.
- Nghiên cứu áp dụng phương pháp học bán giám át để tận dụng nguồn dữ liệu chưa gán nhãn, giảm thời gian xây d ng dữ liệu huấn luyện.
T i liệu tham khảo
T i liệu tiếng Việt
[1] ồ Tú Bảo, Lương Chi Mai. Về xử lý tiếng Việt trong cơng nghệ thơng tin. Viện Cơng nghệ Thơng tin, Viện Khoa học v Cơng nghệ Tiên tiến Nhật bản.
[2] Quang Thụy & nhĩm khai phá dữ liệu v ứng dụng. Bài giảng về khai phá dữ liệu. 2007.
[3] Nguyễn Trần Thiên Thanh, Trần Khải o ng, Tìm hiểu các hướng tiếp cận bài tốn phân loại văn bản và xây dựng phần mềm phân loại tin tức báo điện tử, Khĩa luận cử nhân tin học 005.
[4] Trần Thị Oanh, Thuật tốn self-training và co-training ứng dụng trong phân lớp văn bản, Khĩa luận cử nhân Cơng nghệ thơng tin 2006.
[5] Nguyễn Thị Thùy Linh, Nghiên cứu các thuật tốn phân lớp dữ liệu dựa trên cây quyết định, Khĩa luận cử nhân Cơng nghệ thơng tin 2005.
[6] Trần Cao Đệ v Phạm Nguyên Khang, Phân loại văn bản với máy học vector hỗ trợ và cây quyết định, Tạp chí Khoa học 01 : 1a 5 -63.
T i liệu tiếng Anh
[20] Bing Liu. Sentiment Analysis and Opinion Mining. Morgan &Claypool Publishers, May 2012.
[21] Thorsten Joachims. SVM multiclass Multi-Class Support Vector Machine. Cornell University Department of Computer Science.
[22] Janyce Wiebe and Ellen Rilo. Creating Subjective and Objective Sentence Classiers from Unannotated Texts. In Proceedings of the 6th International Conference on Computational Linguistics and Intelligent Text Processing (CICLing-05).
[23] Tran-Thai Dang, Anh-Cuong Le. Automatically Learning Patterns in Subjectivity Classification for Vietnamese. University of Engineering and Technology Vietnam National University, Ha Noi (springer-2014).
[24] Nguyen Cam Tu. JVnTextpro: A Java-based Vietnamese Text Processing Toolkit. SISLab Software Utility. College of Technology, Vietnam National University, Hanoi. [25] Nguyen Hung Son. Rule based classifiers. Faculty of Mathematics, Informatics and Mechanics, Poland Warsaw University.
[26] Christopher D.Manning, Hinrich Schutze, Foundations Of Statistical Natural Language Processing.
[27] Christopher D. Manning, Prabhakar Raghavan & Hinrich Schütze, Introduction to Information Retrieval, 2008.
[29] Xiaojin Zhu. Semi-Supervised Learning with Graphs. PhD thesis, Carnegie Mellon University, CMU-LTI-05-192, May 2005.
[30] Xiaojin Zhu. Semi-Supervised Learning Literature Survey. Computer Sciences TR 1530, University of Wisconsin – Madison, February 22, 2006.
[31] Lê ồng Phương, vnTokenizer 4.1.1 Userguide, Department of Mathematics, Mechanics and Informatics, Vietnam National University, Hanoi, Vietnam (December 2009).
[32]. Ellen Rillof, Janyce Wiebe, Theresa Wilson, Learning Subjective Nouns using Extraction Pattern Bootstrapping. 2003 Conference on Natural Language Learning (CoNLL-03), ACL SIGNLL, 2003.
[33]. T. Joachims. Transductive Inference for Text Classification using Support Vector Machines. International Conference on Machine Learning (ICML), 1999.
[34]. T. Joachims. Transductive learning via spectral graph partitioning. Proceeding of The Twentieth International Conference on Machine Learning (ICML2003): 290-297. [35]. Kevin P. Murphy. Machine Learning A Probabilistic Perspective. The MIT Press Cambridge, Massachusetts London, England.
[36]. Chih-Wei Hsu, Chih-Chung Chang, and Chih-Jen Lin. A Practical Guide to Support Vector Classification. Department of Computer Science National Taiwan University, Taipei 106, Taiwan, 2010.
Websites tham khảo
[40] http://wikipedia.org/wiki/Đặc_trưng_ nhận_dạng_mẫu [41] https://en.wikipedia.org/wiki/Co-training [42] http://xahoithongtin.com.vn/2014--internet-viet-nam-phat-trien-ngoan-muc- d23040.html [43] http://netnam.vn/index.php/en/news/about-netnam/52-bao-chi-noi-v-netnam/328- viet-nam-vao-top-20-quoc-gia-co-nhieu-nguoi-dung-internet-nhat.html [44] http://ictnews.vn/internet/tinh-hinh-pho-cap-internet-o-viet-nam-119725.ict [45] http://laodong.com.vn/lao-dong-cuoi-tuan/bo-loc-thong-tin-hieu-qua-95659.bld [46] http://www.sentiment140.com [47]https://en.wikipedia.org/wiki/Naive_Bayes_classifier [48] http://viet.jnlp.org/kien-thuc-co-ban-ve-xu-ly-ngon-ngu-tu-nhien/machine-learning- trong-nlp/thuat-toan-entropy-cuc-dai