Bảng 4.1. Cấu hình hệ thống thử nghiệm
Thành phần Chỉ số
CPU 2.2 GHz Core Duo Intel
RAM 2GB OS Windows7 Bộ nhớ ngoài 320GB 4.1.2. Các phần mềm sử dụng Bảng 4.2: Công cụ phần mềm sử dụng STT Tên phần mềm
Tác giả Chức năng Nguồn
1 Eclipse- SDK-3.5- win32 NA Môi trường phát triển http://www.eclipse.org/ downloads 2 WordSeg Phạm Đức Đăng, Trần Bình Giang, Phạm Bảo Sơn Tách câu, tách từ NA 3 SVM NA Phân lớp dữ liệu NA
24
Ngoài các công cụ trên, luận văn tiến hành cài đặt các module xử lý dựa trên ngôn ngữ Java, bao gồm các package chính như sau :
1. Module crawler : Tiến hành Crawl nội dung trang web, phân tích lấy ra các mô tả về các khách sạn dựa vào cách lọc thẻ HTML.
2. Module VNStopWordDetector : Chuẩn hóa các nội dung thu được bởi module crawl như loại bỏ từ dừng, các ký hiệu vô nghĩa, các nội dung trống.
3. Module FeatureGeneratorCluster: Xây dựng vector đặc trưng từ tập câu nhận xét của người dùng.
4. Module Classifier.svm : Tiến hành phân lớp quan điểm.
4.2. Xây dựng tập dữ liệu thử nghiệm
Luận văn thực nghiệm trên miền dữ liệu là các đánh giá của khách hàng về 1000 khách sạn ở Việt Nam. Tập đánh giá của người dùng được thu thập từ website
http://www.chudu24.com.
Tập dữ liệu là 3700 câu. Tập dữ liệu chia thành hai tập rời nhau : Tập dữ liệu huấn luyện và tập dữ liệu kiểm tra. Trong đó, tập dữ liệu huấn luyện được gán nhãn bằng tay.
Bảng 4.3 : Tập dữ liệu thực nghiệm
Tổng số tài liệu 3700 câu Tập dữ liệu học 3200 câu Tập dữ liệu kiểm tra 500 câu
Dữ liệu dùng cho huấn luyện cùng với số lượng tài liệu cho mỗi lớp được mô tả như sau :
Bảng 4.4: Tập dữ liệu huấn luyện
STT Danh sách lớp Ký hiệu Số lượng tài liệu
1 Sự phục vụ của nhân viên NV 874
2 Chất lượng phòng, khách sạn P-KS 999
3 Vị trí và giá cả VT-GC 681
4 Chất lượng đồ ăn DA 791
25
4.3. Thử nghiệm
Quá trình thực nghiệm gồm các bước chính sau đây
Xử lý dữ liệu : Tiền xử lý dữ liệu, xây dựng tập tài liệu học cho mô hình phân lớp và vector hóa dữ liệu.
Xây dựng hàm phâm cụm: Tiến hành phân cụm tập thể hiện để chuyển đổi từ đa thể hiện thành đơn thể hiện.
Xây dựng hàm phân lớp: Tiến hành xây dựng hàm phân lớp dữ liệu đa nhãn bằng các xây dựng các bộ phân lớp nhị phân chuyển đổi.
4.4. Kết quả thực nghiệm
Luận văn tiến hành thực nghiệm trên tập dữ liệu như ở bảng 4.4. Luận văn chia dữ liệu kiểm tra thành 5 phần là Data1, …, Data5.
Thực nghiệm 1: Thực hiện việc phân lớp nhị phân thông thường cho dữ liệu đa nhãn đa thể hiện.
Bảng 4.5: Kết quả độ chính xác của thực nghiệm 1
Nhãn lớp NV P-KS VT-GC DA TTB Data 1 86% 73% 89% 86% 95% Data 2 88% 81% 89% 82% 91% Data 3 87% 72% 90% 85% 88% Data 4 81% 76% 87% 79% 87% Data 5 84% 82% 89% 85% 89% Trung bình 84.84% 76.8% 88.8% 83.4% 90%
Thực nghiệm 2 : Phân lớp dữ liệu đa nhãn đa thể hiện sử dụng MIMLSVM
Bảng 4.6: Kết quả độ chính xác của thực nghiệm 2
Nhãn lớp NV P-KS VT-GC DA TTB Data 1 80% 74% 93% 87% 95% Data 2 86% 82% 98% 93% 91% Data 3 82% 70% 94% 85% 88% Data 4 81% 74% 92% 79% 88% Data 5 83% 86% 89% 85% 89% Trung bình 82.4% 77.2% 93.2% 85.8% 90.2%
26
Sau đây là biểu đồ thể hiện kết quả tổng hợp từ hai thực nghiệm trên.
Hình 4.1: So sánh 2 thực nghiệm
4.5. Đánh giá hệ thống
Kết quả thực nghiệm cho thấy mô hình hệ thống đề xuất ở chương ba mang tính khả thi với độ chính xác đạt 85.76% và đã cải tiến so với bộ phân lớp khi chưa sử dụng module xây dựng tập đặc trưng là 84.84%.
0 10 20 30 40 50 60 70 80 90 100
Nhân viên Phòng, khách sạn Vị trí, giá Đồ ăn
Thực nghiệm 1 Thực nghiệm 2
27
Kết luận
Qua quá trình tìm hiểu về bài toán quản lý danh tiếng, luận văn đã nêu bật nên được sức ảnh hưởng của việc phân lớp dữ liệu đa nhãn đa thể hiện. Từ đó, luận văn đã áp dụng mô phân lớp MIMLSVM đối với dữ liệu miền Tiếng Việt trong bài toán quản lý danh tiếng. Đặc biệt luận văn còn áp dụng được kết quả đã công bố khoa học trong [13].
Luận văn đã đạt được các kết quả sau đây:
Trình bày quản lý danh tiếng và tầm quan trọng của phân lớp dữ liệu đa nhãn đa thể hiện
Áp dụng mô hình MIMLSVN cho bài toán quản lý danh tiếng và áp dụng được kết quả đã công bố khoa học [13].
Cài đặt mô hình và tiến hành thực nghiệm cho miền dữ liệu Tiếng Việt.
Kết quả thực nghiệm đã cho thấy mô hình đề xuất đã có cải tiến (84.84%
85.76%) và làm tiền đề nghiên cứu tiếp theo.
Tuy nhiên, do hạn chế về mặt thời gian và kiến thức nên luận văn vẫn tồn tại một số hạn chế như: Chưa áp dụng thực nghiệm trên miền dữ liệu phong phú, kết quả cải tiến chưa cao.
Trong thời gian tới, chúng tôi sẽ tiếp tục mở rộng luận văn bằng cách sử dụng nhiều thuật toán phân lớp đa nhãn đa thể hiện theo hướng chuyển đổi MIML thành MISL và SISL, từ đó rút ra được thuật toán phù hợp nhất. Ngoài ra, chúng tôi sẽ tiếp tục mở rộng miền dữ liệu để có thể đánh giá danh tiếng cho các khách sạn ở Việt Nam một cách tổng quát hơn và có thể áp dụng trong thực tế.
28
Tài liệu tham khảo
[1] Pierce, J. “The world internet project report 2009”. Technical report, The World Internet Project, 2008.
[2] Z.-H. Zhou, M.-L. Zhang, S.-J. Huang, and Y.-F. Li. “Multi-instance multi- label learning”. Artificial Intelligence, 2012, 176(1): 2291-2320.
[3] Jianjun He, Hong Gu, Zhelong Wang (2012). “Bayesian multi-instance multi- label learning using Gaussian process prior”. Machine Learning, 88 (1-2): 273-295, July 2012.
[4] Yao Wang. “Trust and Reputation Management in Decentralized Systems”. A Thesis Submitted to the College of Graduate Studies and Research, 2010. [5] Resnick P. and Zeckhauser R., “Trust among Strangers in Internet Transactions: Empirical Analysis of eBay’s Reputation System”. NBER Workshop
on Empirical Studies of Electronic Commerce, 2000.
[6] Bing Liu. “Opinion Mining & Summarization - Sentiment Analysis”,
Tutorial given at WWW-2008, April 21, 2008 in Beijing.
[7] Laudon, J. and Laudon, K. “Management Information Systems: Managing the Digital Firm & Multimedia”. Prentice Hall, 2007, 10th edition.
[8] Stair, R. M., Reynolds, G. and Reynolds, G. W. “Principles of Information System”. Course Technology, 2010, 9th edition.
[9] Hoffman, K., Zage, D. and Nita-Rotaru, C. “A survey of attack and defense techniques for reputation systems”. ACM Computing Surveys, 2009. 42(1), 1-31.
[10] Zheng, W. and Jin, L. “Online reputation systems in web 2.0 era”. In Americas Conference on Information Systems (AMCIS) Proceedings, 2009. 296-306.
[11] Grigorios Tsoumakas , Ioannis Katakis. “Multi-label Classification : An Overview”. International Journal of Data Warehousing & Mining, 3(3), 1-13, July- September 2007.
[12] Fabrizio Sebastiani. “Machine Learning in Automated Text Categorization”.
ACM Computing Survey, 34(1) pages 1-47, 2002.
[13] Thi-Ngan Pham, Thi-Thom Phan, Phuoc-Thao Nguyen, Quang-Thuy Ha (2013)."Hidden Topic Models for Multi-label Review Classification: An Experimental Study", Computational Collective Intelligence. Technologies and Applications,