Bảng 4.1. Cấu hình hệ thống thử nghiệm Thành phần CPU RAM OS Bộ nhớ ngoài 4.1.2. Các phần mềm sử dụng Bảng 4.2: Công cụ phần mềm sử dụng STT Tên phần mềm 1 Eclipse- SDK-3.5- win32 2 WordSeg 3 SVM 23
Ngoài các công cụ trên, luận văn tiến hành cài đặt các module xử lý dựa trên ngôn ngữ Java, bao gồm các package chính như sau :
1. Module crawler : Tiến hành Crawl nội dung trang web, phân tích lấy ra các mô tả về các khách sạn dựa vào cách lọc thẻ HTML.
2. Module VNStopWordDetector : Chuẩn hóa các nội dung thu được bởi module crawl như loại bỏ từ dừng, các ký hiệu vô nghĩa, các nội dung trống.
3. Module FeatureGeneratorCluster: Xây dựng vector đặc trưng từ tập câu nhận xét của người dùng.
4. Module Classifier.svm : Tiến hành phân lớp quan điểm.
4.2. Xây dựng tập dữ liệu thử nghiệm
Luận văn thực nghiệm trên miền dữ liệu là các đánh giá của khách hàng về 1000 khách sạn ở Việt Nam. Tập đánh giá của người dùng được thu thập từ website http://www.chudu24.com.
Tập dữ liệu là 3700 câu. Tập dữ liệu chia thành hai tập rời nhau : Tập dữ liệu huấn luyện và tập dữ liệu kiểm tra. Trong đó, tập dữ liệu huấn luyện được gán nhãn bằng tay.
Bảng 4.3 : Tập dữ liệu thực nghiệm
Tổng số tài liệu Tập dữ liệu học Tập dữ liệu kiểm tra
Dữ liệu dùng cho huấn luyện cùng với số lượng tài liệu cho mỗi lớp được mô tả như sau :
Bảng 4.4: Tập dữ liệu huấn luyện
STT 1 2 3 4 5
4.3. Thử nghiệm
Quá trình thực nghiệm gồm các bước chính sau đây
Xử lý dữ liệu : Tiền xử lý dữ liệu, xây dựng tập tài liệu học cho mô hình phân lớp và vector hóa dữ liệu.
Xây dựng hàm phâm cụm: Tiến hành phân cụm tập thể hiện để chuyển đổi từ
đa thể hiện thành đơn thể hiện.
Xây dựng hàm phân lớp: Tiến hành xây dựng hàm phân lớp dữ liệu đa nhãn bằng các xây dựng các bộ phân lớp nhị phân chuyển đổi.
4.4. Kết quả thực nghiệm
Luận văn tiến hành thực nghiệm trên tập dữ liệu như ở bảng 4.4. Luận văn chia dữ liệu kiểm tra thành 5 phần là Data1, …, Data5.
Thực nghiệm 1: Thực hiện việc phân lớp nhị phân thông thường cho dữ liệu đa
nhãn đa thể hiện.
Bảng 4.5: Kết quả độ chính xác của thực nghiệm 1
Nhãn lớp Data 1 Data 2 Data 3 Data 4 Data 5 Trung bình
Thực nghiệm 2 : Phân lớp dữ liệu đa nhãn đa thể
Nhãn lớp Data 1 Data 2 Data 3 Data 4 Data 5 Trung bình 25
Sau đây là biểu đồ thể hiện kết quả tổng hợp từ hai thực nghiệm trên. 100 90 80 70 60 50 40 30 20 10 0 Nhân viên Hình 4.1: So sánh 2 thực nghiệm 4.5. Đánh giá hệ thống
Kết luận
Qua quá trình tìm hiểu về bài toán quản lý danh tiếng, luận văn đã nêu bật nên được sức ảnh hưởng của việc phân lớp dữ liệu đa nhãn đa thể hiện. Từ đó, luận văn đã áp dụng mô phân lớp MIMLSVM đối với dữ liệu miền Tiếng Việt trong bài toán quản lý danh tiếng. Đặc biệt luận văn còn áp dụng được kết quả đã công bố khoa học trong [13].
Luận văn đã đạt được các kết quả sau đây:
Trình bày quản lý danh tiếng và tầm quan trọng của phân lớp dữ liệu đa nhãn đa thể hiện
Áp dụng mô hình MIMLSVN cho bài toán quản lý danh tiếng và áp dụng được kết quả đã công bố khoa học [13].
Cài đặt mô hình và tiến hành thực nghiệm cho miền dữ liệu Tiếng Việt.
Kết quả thực nghiệm đã cho thấy mô hình đề xuất đã có cải tiến (84.84%
85.76%) và làm tiền đề nghiên cứu tiếp theo.
Tuy nhiên, do hạn chế về mặt thời gian và kiến thức nên luận văn vẫn tồn tại một số hạn chế như: Chưa áp dụng thực nghiệm trên miền dữ liệu phong phú, kết quả cải tiến chưa cao.
Trong thời gian tới, chúng tôi sẽ tiếp tục mở rộng luận văn bằng cách sử dụng nhiều thuật toán phân lớp đa nhãn đa thể hiện theo hướng chuyển đổi MIML thành MISL và SISL, từ đó rút ra được thuật toán phù hợp nhất. Ngoài ra, chúng tôi sẽ tiếp tục mở rộng miền dữ liệu để có thể đánh giá danh tiếng cho các khách sạn ở Việt Nam một cách tổng quát hơn và có thể áp dụng trong thực tế.
Tài liệu tham khảo
[1] Pierce, J. “The world internet project report 2009”. Technical report, The World Internet Project, 2008.
[2] Z.-H. Zhou, M.-L. Zhang, S.-J. Huang, and Y.-F. Li. “Multi-instance multi-label learning”. Artificial Intelligence, 2012, 176(1): 2291-2320.
[3] Jianjun He, Hong Gu, Zhelong Wang (2012). “Bayesian multi-instance multi-label learning using Gaussian process prior”. Machine Learning, 88 (1-2): 273-295, July 2012.
[4] Yao Wang. “Trust and Reputation Management in Decentralized Systems”. A
Thesis Submitted to the College of Graduate Studies and Research, 2010.
[5] Resnick P. and Zeckhauser R., “Trust among Strangers in Internet Transactions: Empirical Analysis of eBay’s Reputation System”. NBER
Workshopon Empirical Studies of Electronic Commerce, 2000.
[6]Bing Liu. “Opinion Mining & Summarization - Sentiment Analysis”,
Tutorial given at WWW-2008, April 21, 2008 in Beijing.
[7]Laudon, J. and Laudon, K. “Management Information Systems: Managing the
Digital Firm & Multimedia”. Prentice Hall, 2007, 10th edition.
[8] Stair, R. M., Reynolds, G. and Reynolds, G. W. “Principles of Information System”. Course Technology, 2010, 9th edition.
[9] Hoffman, K., Zage, D. and Nita-Rotaru, C. “A survey of attack and defense techniques for reputation systems”. ACM Computing Surveys, 2009. 42(1), 1-31.
[10] Zheng, W. and Jin, L. “Online reputation systems in web 2.0 era”. In Americas
Conference on Information Systems (AMCIS) Proceedings, 2009. 296-306.
[11] Grigorios Tsoumakas , Ioannis Katakis. “Multi-label Classification : An
Overview”. International Journal of Data Warehousing & Mining, 3(3), 1-13, July- September 2007.
[12] Fabrizio Sebastiani. “Machine Learning in Automated Text Categorization”.
ACM Computing Survey, 34(1) pages 1-47, 2002.
[13]Thi-Ngan Pham, Thi-Thom Phan, Phuoc-Thao Nguyen, Quang-Thuy Ha
(2013)."Hidden Topic Models for Multi-label Review Classification: An Experimental Study", Computational Collective Intelligence. Technologies and Applications, Lecture Notes in Computer Science Volume 8083:603-611.