Tập dữ liệu huấn luyện

STT Danh sách lớp Ký hiệu Số lượng tài liệu

1 Sự phục vụ của nhân viên NV 874

2 Chất lượng phòng, khách sạn P-KS 999

3 Vị trí và giá cả VT-GC 681

4 Chất lượng đồ ăn DA 791

4.3. Thử nghiệm

Quá trình thực nghiệm gồm các bước chính sau đây

 Xử lý dữ liệu : Tiền xử lý dữ liệu, xây dựng tập tài liệu học cho mô hình phân lớp và vector hóa dữ liệu.

 Xây dựng hàm phâm cụm: Tiến hành phân cụm tập thể hiện để chuyển đổi từ đa thể hiện thành đơn thể hiện.

 Xây dựng hàm phân lớp: Tiến hành xây dựng hàm phân lớp dữ liệu đa nhãn bằng các xây dựng các bộ phân lớp nhị phân chuyển đổi.

4.4. Kết quả thực nghiệm

Luận văn tiến hành thực nghiệm trên tập dữ liệu như ở bảng 4.4. Luận văn chia dữ liệu kiểm tra thành 5 phần là Data1, …, Data5.

Thực nghiệm 1: Thực hiện việc phân lớp nhị phân thông thường cho dữ liệu đa nhãn đa thể hiện.

Bảng 4.5: Kết quả độ chính xác của thực nghiệm 1

Nhãn lớp NV P-KS VT-GC DA TTB Data 1 86% 73% 89% 86% 95% Data 2 88% 81% 89% 82% 91% Data 3 87% 72% 90% 85% 88% Data 4 81% 76% 87% 79% 87% Data 5 84% 82% 89% 85% 89% Trung bình 84.84% 76.8% 88.8% 83.4% 90%

Thực nghiệm 2 : Phân lớp dữ liệu đa nhãn đa thể hiện sử dụng MIMLSVM

Bảng 4.6: Kết quả độ chính xác của thực nghiệm 2

Nhãn lớp NV P-KS VT-GC DA TTB Data 1 80% 74% 93% 87% 95% Data 2 86% 82% 98% 93% 91% Data 3 82% 70% 94% 85% 88% Data 4 81% 74% 92% 79% 88% Data 5 83% 86% 89% 85% 89%

Sau đây là biểu đồ thể hiện kết quả tổng hợp từ hai thực nghiệm trên.

Hình 4.1: So sánh 2 thực nghiệm

4.5. Đánh giá hệ thống

Kết quả thực nghiệm cho thấy mô hình hệ thống đề xuất ở chương ba mang tính khả thi với độ chính xác đạt 85.76% và đã cải tiến so với bộ phân lớp khi chưa sử dụng module xây dựng tập đặc trưng là 84.84%.

0 10 20 30 40 50 60 70 80 90 100

Nhân viên Phòng, khách sạn Vị trí, giá Đồ ăn

Thực nghiệm 1 Thực nghiệm 2

Kết luận

Qua quá trình tìm hiểu về bài toán quản lý danh tiếng, luận văn đã nêu bật nên được sức ảnh hưởng của việc phân lớp dữ liệu đa nhãn đa thể hiện. Từ đó, luận văn đã áp dụng mô phân lớp MIMLSVM đối với dữ liệu miền Tiếng Việt trong bài toán quản lý danh tiếng. Đặc biệt luận văn còn áp dụng được kết quả đã công bố khoa học trong [13].

Luận văn đã đạt được các kết quả sau đây:

 Trình bày quản lý danh tiếng và tầm quan trọng của phân lớp dữ liệu đa nhãn đa thể hiện

 Áp dụng mô hình MIMLSVN cho bài toán quản lý danh tiếng và áp dụng được kết quả đã công bố khoa học [13].

 Cài đặt mô hình và tiến hành thực nghiệm cho miền dữ liệu Tiếng Việt.

 Kết quả thực nghiệm đã cho thấy mô hình đề xuất đã có cải tiến (84.84% 

85.76%) và làm tiền đề nghiên cứu tiếp theo.

Tuy nhiên, do hạn chế về mặt thời gian và kiến thức nên luận văn vẫn tồn tại một số hạn chế như: Chưa áp dụng thực nghiệm trên miền dữ liệu phong phú, kết quả cải tiến chưa cao.

Trong thời gian tới, chúng tôi sẽ tiếp tục mở rộng luận văn bằng cách sử dụng nhiều thuật toán phân lớp đa nhãn đa thể hiện theo hướng chuyển đổi MIML thành MISL và SISL, từ đó rút ra được thuật toán phù hợp nhất. Ngoài ra, chúng tôi sẽ tiếp tục mở rộng miền dữ liệu để có thể đánh giá danh tiếng cho các khách sạn ở Việt Nam một cách tổng quát hơn và có thể áp dụng trong thực tế.

Tài liệu tham khảo

[1] Pierce, J. “The world internet project report 2009”. Technical report, The World Internet Project, 2008.

[2] Z.-H. Zhou, M.-L. Zhang, S.-J. Huang, and Y.-F. Li. “Multi-instance multi- label learning”. Artificial Intelligence, 2012, 176(1): 2291-2320.

[3] Jianjun He, Hong Gu, Zhelong Wang (2012). “Bayesian multi-instance multi- label learning using Gaussian process prior”. Machine Learning, 88 (1-2): 273-295, July 2012.

[4] Yao Wang. “Trust and Reputation Management in Decentralized Systems”. A Thesis Submitted to the College of Graduate Studies and Research, 2010. [5] Resnick P. and Zeckhauser R., “Trust among Strangers in Internet Transactions: Empirical Analysis of eBay’s Reputation System”. NBER Workshop

on Empirical Studies of Electronic Commerce, 2000.

[6] Bing Liu. “Opinion Mining & Summarization - Sentiment Analysis”,

Tutorial given at WWW-2008, April 21, 2008 in Beijing.

[7] Laudon, J. and Laudon, K. “Management Information Systems: Managing the Digital Firm & Multimedia”. Prentice Hall, 2007, 10th edition.

[8] Stair, R. M., Reynolds, G. and Reynolds, G. W. “Principles of Information System”. Course Technology, 2010, 9th edition.

[9] Hoffman, K., Zage, D. and Nita-Rotaru, C. “A survey of attack and defense techniques for reputation systems”. ACM Computing Surveys, 2009. 42(1), 1-31.

[10] Zheng, W. and Jin, L. “Online reputation systems in web 2.0 era”. In Americas Conference on Information Systems (AMCIS) Proceedings, 2009. 296-306.

[11] Grigorios Tsoumakas , Ioannis Katakis. “Multi-label Classification : An Overview”. International Journal of Data Warehousing & Mining, 3(3), 1-13, July- September 2007.

[12] Fabrizio Sebastiani. “Machine Learning in Automated Text Categorization”.

ACM Computing Survey, 34(1) pages 1-47, 2002.

[13] Thi-Ngan Pham, Thi-Thom Phan, Phuoc-Thao Nguyen, Quang-Thuy Ha (2013)."Hidden Topic Models for Multi-label Review Classification: An Experimental

Study", Computational Collective Intelligence. Technologies and Applications,

Cấu hình hệ thống thử nghiệm