Bảng 4.1. Cấu hình hệ thống thử nghiệm
Thành phần Chỉ số
CPU 2.2 GHz Core Duo Intel
RAM 2GB
OS Windows7
28
4.1.2. Các phần mềm sử dụng
Bảng 4.2: Công cụ phần mềm sử dụng STT Tên phần
mềm
Tác giả Chức năng Nguồn
1 Eclipse- SDK-3.5- win32 Môi trường phát triển http://www.eclipsẹorg/downl oads 2 WordSeg Phạm Đức Đăng, Trần Bình Giang, Phạm Bảo Sơn Tách câu, tách từ 3 GibbsLDA+ + Phan Xuân Hiếu Xây dựng các đặc trưng topic http://gibbsldạsourceforgẹne t
Ngoài các công cụ trên, khóa luận tiến hành cài đặt các module xử lý dựa trên ngôn ngữ Java, bao gồm các package chính như sau :
1. Module crawler : Tiến hành Crawl nội dung trang web, phân tích lấy ra các mô tả về các khách sạn, làm dữ liệu cho mô hình LDẠ
2. Module VNStopWordDetector : ChuNn hóa các nội dung thu được bởi module crawl như loại bỏ từ dừng, các ký hiệu vô nghĩa, các nội dung trống.
3. Module topicmodel : Xây dựng các đặc trưng chủđềNn.
4. Module mutualInformation : Tiến hành lựa chọn đặc trưng dựa vào độ tương hỗ
(MI).
5. Module classifier.opinion : Tiến hành phân lớp quan điểm. 6. Module Test : Tiến hành đánh giá độ chính xác của hệ thống.
4.2. Xây dựng tập dữ liệu thử nghiệm
Khóa luận thực nghiệm trên miền dữ liệu là các đánh giá của khách hàng về 1000 khách sạn ở Việt Nam. Tập đánh giá của người dùng được thu thập từ website
29
http://www.chudu24.com. Các đánh giá có cấu trúc là gồm : người đánh giá, khách sạn, thời gian và nội dung ý kiến.
Tập dữ liệu là 3700 câụ Tập dữ liệu chia thành hai tập rời nhau : Tập dữ liệu huấn luyện và tập dữ liệu kiểm trạ Trong đó, tập dữ liệu huấn luyện được gán nhãn bằng taỵ
Bảng 4.3 : Tập dữ liệu thực nghiệm
Tổng số tài liệu 3700 câu Tập dữ liệu học 3200 câu Tập dữ liệu kiểm tra 500 câu
Dữ liệu dùng cho huấn luyện cùng với số lượng tài liệu cho mỗi lớp được mô tả
như sau :
Bảng 4.4: Tập dữ liệu huấn luyện
STT Phân lớp 1 Phân lớp 2 Ký hiệu Số lượng tài liệu 1 Sự phục vụ của nhân viên Tích cực NV-T 632 2 Tiêu cực NV-X 242 3 Chất lượng phòng, khách sạn Tích cực P-KS-T 654 4 Tiêu cực P-KS-X 345 5 Vị trí và giá cả Tích cực VT-GC-T 426 6 Tiêu cực VT-GC-X 255 7 Chất lượng đồăn Tích cực DA-T 423 8 Tiêu cực DA-X 368 9 Trang thiết bị Tích cực TTB-T 233 10 Tiêu cực TTB-X 355
Ngoài ra, khóa luận còn tiến hành thu thập tập dữ liệu về các bài báo, giới thiệu, nhận xét về lĩnh vực khách sạn ở Việt Nam để làm đầu vào cho quá trình thực hiện chủ đềNn LDẠ
30
Bảng 4.5: Tập dữ liệu cho mô hình chủ đề 4n
STT Trang website Tài liệu thu được
1 http://vịhotels.com 7837 2 http://www.dulichnamchaụvn 2525 3 http://www.dulichanz.com 925 4 http://bookhotel.vn 168 5 http://www.dulichvtv.com 1701 6 http://chudu24.com 9049 4.3. Thử nghiệm
Quá trình thực nghiệm gồm các bước chính sau đây
• Xử lý dữ liệu : Tiền xử lý dữ liệu, xây dựng tập tài liệu học cho mô hình phân lớp, tập tài liệu cho mô hình LDA và vector hóa dữ liệụ
• Xây dựng hàm lựa chọn đặc trưng : Tiến hành lựa chọn tập đặc trưng từ tập đặc trưng đã có bằng các sử dụng đô đo tương hỗ MỊ
• Xây dựng hàm phân lớp : Tiến hành xây dựng hàm phân lớp dữ liệu đa nhãn bằng các xây dựng các bộ phân lớp nhị phân chuyển đổị
• Tiến hành đánh giá danh tiếng cho 1000 khách sạn theo mô hình tối ưu nhất
Thiết kế thực nghiệm
Đểđánh giá sửảnh hưởng của chủđềNn và việc lựa chọn đặc trưng đối với kết quả của bộ phân lớp, khóa luận tiến hành cài đặt 4 thực nghiệm như sau :
• Thực nghiệm 1 : Thực hiện việc phân lớp mà không qua pha bổ xung đặc trưng chủ đề Nn và pha lựa chọn đặc trưng. Tức là phân lớp dựa trên tập đặc trưng TF.IDF của tập dữ liệu đầu vàọ
• Thực nghiệm 2 : Thực hiện việc phân lớp sử dụng pha bổ xung đặc trưng nhưng không sử dụng pha lựa chọn đặc trưng. Tức là phân lớp dựa trên tập đặc trưng bổ xung TF.IDF và tập đặc trưng chủđềNn.
• Thực nghiệm 3 : Thực hiện việc phân lớp sử dụng pha lựa chọn đặc trưng nhưng không sử dụng pha bổ xung đặc trưng. Tức là phân lớp dựa trên tập đặc trưng TF.IDF đã qua lựa chọn.
31
• Thực nghiệm 4 : Thực hiện việc phân lớp mà sử dụng cả 2 pha : bổ xung đặc trưng và lựa chọn đặc trưng. Tức là thực hiện toàn bộ các pha trong mô hình đề
xuất ở chương 3.
4.4. Kết quả thực nghiệm
Khóa luận tiến hành thực nghiệm trên tập dữ liệu như ở bảng 5. Khóa luận chia dữ liệu kiểm tra thành 5 phần là Data1, …, Data5. Sau đó, khóa luận tiến hành thực nghiệm theo bốn tình huống mô tảở 4.3.
Thực nghiệm 1: Phân lớp dựa trên tập đặc trưng TF.IDF của tập dữ liệu đầu vàọ
Bảng 4.6: Kết quả của thực nghiệm 1
Precision Recal Accuracy
TN1 69.86% 79.80% 75.92% TN2 74.74% 84.84% 78.95% TN3 68.68% 77.77% 74.74% TN4 59.10% 34.85% 32.99% TN5 65.83% 73.5% 68.44% Tổng hợp 67.65% 70.25% 66.31%
Thực nghiệm 2 : Phân lớp dựa trên tập đặc trưng TF.IDF kết hợp với tập dữ
liệu chủđềNn LDA
32
Bảng 4.7: Kết quả thực nghiệm 2 với số chủ đề là 15
Precision Recal Accuracy
TN1 70.88% 80.8% 76.94% TN2 74.24% 84.84% 78.45% TN3 67.68% 76.77% 73.74% TN4 60.27% 35.86% 33.84% TN5 66.83% 74.51% 69.44% Tổng hợp 67.89% 70.56% 66.58% • Với số lượng chủđề là 20 chủđề
Bảng 4.8: Kết quả thực nghiệm 2 với số chủ đề là 20
Precision Recal Accuracy
TN1 74.41% 84.85% 80.47% TN2 72.73% 82.83% 76.94% TN3 67.17% 75.76% 73.23% TN4 59.06% 35.35% 33.5% TN5 67.97% 76.47% 71.57% Tổng hợp 68.27% 71.05% 67.14% • Với số lượng chủđề là 25 chủđề
Bảng 4.9: Kết quả thực nghiệm 2 với số chủ đề là 25
Precision Recal Accuracy
TN1 69.02% 80.8% 74.41% TN2 73.73% 83.84% 77.95% TN3 66.16% 75.76% 72.22% TN4 61.95% 36.87% 34.93% TN5 68.79% 76.47% 71.41% Tổng hợp 67.93% 70.75% 66.18%
33
Sau thực nghiệm 1 và thực nghiệm 2, chúng ta có bảng so sánh kết quả như sau
Hình 4.1: So sánh kết quả thực nghiệm 1 và thực nghiệm 2
Từđây khóa luận nhận thấy đặc trưng chủđềNn LDA với 20 topic cho kết quả
khả quan. Chính vì thế trong thực nghiệm 4 của khóa luận, chúng tôi sẽ dùng đặc trưng chủđềNn với 20 topic để bổ xung.
Thực nghiệm 3 : Phân lớp dựa trên tập đặc trưng TF.IDF có qua lựa chọn đặc trưng
Bảng 4.10: Kết quả thực nghiệm 3
Precision Recal Accuracy
TN1 70.01% 79.79% 74.40% TN2 70.03% 78.79% 73.79% TN3 68.34% 76.47% 73.34% TN4 64.32% 38.38% 36.25% TN5 66.82% 69.25% 65.04% Tổng hợp 67.57% 68.93% 66.18%
Thực nghiệm 4 : Phân lớp dựa trên tập đặc trưng TF.IDF kết hợp với tập dữ
liệu chủđềNn LDA với 20 chủđề và có qua pha lựa chọn đặc trưng.
63 64 65 66 67 68 69 70 71 72 TN1 TN2-15 TN2-20 TN2-25 Precision Recal Accuracy
34
Bảng 4.11: Kết quả thực nghiệm 4
Precision Recal Accuracy
TN1 69.88% 79.93% 75.93% TN2 75.77% 85.86% 79.97% TN3 68.18% 76.77% 75.24% TN4 60.1% 36.35% 34.5% TN5 67.82% 76.49% 70.42% Tổng hợp 68.35% 71.3% 67.21%
Sau đây là biểu đồ thể hiện kết quả tổng hợp từ bốn trường hợp thực nghiệm nhỏ
Hình 4.2: So sánh 4 thực nghiệm
Dựa vào kết quả đánh giá bộ phân lớp, khóa luận nhận thấy bộ phân lớp đa nhãn sử dụng tập đặc trưng cải tiến cho kết quả tốt hơn (68.35%). Chính vì thế, khóa luận sẽ áp dụng bộ phân lớp đa lớp trên vào bài toán quản lý danh tiếng, kết quả của
đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam như sau :
63 64 65 66 67 68 69 70 71 72 TN1 TN2-20 TN3 TN4 Precision Recal Accuracy
Hình 7 : Giao diện h 4.5. Đánh giá hệ th Khóa luận đã sử dụng ba thống. Kết quả thực nghiệm cho th khả thi với độ precision đạt 68. module xây dựng tập đặc trư 35
n hệ thống đánh giá danh tiếng cho 1000 khách s
thống
ng ba độ đo : precision, recal và accuracy đ
m cho thấy mô hình hệ thống đề xuất ở chương ba mang tính t 68.35% và đã cải tiến so với bộ phân lớp khi ch
c trưng là 67.65%.
ng cho 1000 khách sạn
o : precision, recal và accuracy để đánh giá hệ ương ba mang tính p khi chưa sử dụng
36
Kết luận
Qua quá trình tìm hiểu về bài toán quản lý danh tiếng, khóa luận đã thấy được vai trò của việc phân lớp dữ liệu đa nhãn. Khóa luận đã nêu bật nên được sức ảnh hưởng của việc lựa chọn đặc trưng đối với bộ phân lớp dữ liệu đa nhãn. Từđó, khóa luận đã
đề xuất ra mô hình xây dựng tập đặc trưng dựa vào các đặc trưng mở rộng từ mô hình chủđềNn và phương pháp lựa chọn đặc trưng dựa vào độ tương hỗ MỊ
Khóa luận đã đạt được các kết quả sau đây:
• Giới thiệu về bài toán quản lý danh tiếng, nêu lên vai trò, tầm quan trọng của việc xử lý dữ liệu đa nhãn trong bài toán quản lý danh tiếng.
• Trình bày và chỉ ra được phương pháp cải tiến bộ phân lớp dữ liệu đa nhãn bằng cách sử dụng các đặc trưng mô hình chủ đềNn và lựa chọn đặc trưng dựa vào độ tương hỗ
• Đề xuất và cài đặt thực nghiệm về mô hình xây dựng tập đặc trưng như trên và
ứng dụng vào bộ phân lớp đa nhãn để đánh giá danh tiếng cho 1000 khách sạn
ở Việt Nam.
• Kết quả thực nghiệm đã cho thấy mô hình đề xuất đã cải tiến độ chính xác so với mô hình chưa cải tiến là từ (67.65%) lên (68.35%).
Tuy nhiên, do hạn chế về mặt thời gian và kiến thức nên khóa luận vẫn tồn tại một số hạn chế như : Chưa áp dụng thực nghiệm trên miền dữ liệu phong phú, các thuật toán phân lớp sử dụng chưa phong phú…
Trong thời gian tới, chúng tôi sẽ tiếp tục mở rộng khóa luận bằng cách sử dụng nhiều thuật toán phân lớp khác nhau, từđó rút ra được thuật toán phù hợp nhất. Ngoài ra, chúng tôi sẽ tiếp tục mở rộng miền dữ liệu để có thể đánh giá danh tiếng cho các khách sạn ở Việt Nam một cách tổng quát hơn và có thể áp dụng trong thực tế.
37
Tài liệu tham khảo Tài liệu tiếng Anh
[1] Pierce, J. “The world internet project report 2009”. Technical report, The
World Internet Project, 2008.
[2] Guyon, Ị, Elisseeff, Ạ“An Introduction to Variable and Feature Selection”. J. Mach. Lear. Res, 2003. 3, 1157–1182.
[3] Vanessa Gomez-Verdejo, Michel Verleysen va Jerome Fleurỵ "Infomation- Theoretic Feature Selection for the Classification of Hysteresis Curves", 2007.
[4] Liu, Ling. “Systematic Measurement of Centralized Online Reputation Systems” . PhD Thesis, Durham University, 2011.
[5] Yao Wang. “Trust and Reputation Management in Decentralized Systems”. A Thesis Submitted to the College of Graduate Studies and Research, 2010. [6] Resnick P. and Zeckhauser R., “Trust among Strangers in Internet Transactions: Empirical Analysis of eBay’s Reputation System”. NBER Workshop
on Empirical Studies of Electronic Commerce, 2000.
[7] Bing Liụ “Opinion Mining & Summarization - Sentiment Analysis”,
Tutorial given at WWW-2008, April 21, 2008 in Beijing.
[8] Schapire, R.Ẹ, Singer, Ỵ: Boostexter: “A Boosting-Based System for Text catego-rization”. Machine Learning, 2000. 39, 135–168.
[9] Elisseeff, Ạ, Weston, J.: “A Kernel method for Multi-Labelled Classification”. Ad-vances in Neural Information Proceesing Systems, 2001. 14, 681– 687.
[10] Zhang, M.-L., Zhou, Z.-H.: ML-KNN: “A Lazy Learning Approach to Multi- Label Learning”. Pattern Recogn, 2007. 40, 2038–2048.
[11] Gauthier Doquire and Michel Verleysen. “Feature Selection for Multi-label classification problems”, 2009.
38
[12] Read, J.:”A Pruned Problem Transformation Mathod for Multi-label Classification”. In: New Zealand Computer Science Research Student Conference
(NZCSRS 2008), pp. 143–150.
[13] Laudon, J. and Laudon, K. “Management Information Systems: Managing the Digital Firm & Multimedia”. Prentice Hall, 2007, 10th edition.
[14] Stair, R. M., Reynolds, G. and Reynolds, G. W. “Principles of Information System”. Course Technology, 2010, 9th edition.
[15] Hoffman, K., Zage, D. and Nita-Rotaru, C. “A survey of attack and defense techniques for reputation systems”. ACM Computing Surveys, 2009. 42(1), 1-31. [16] Zheng, W. and Jin, L. “Online reputation systems in web 2.0 era”. In Americas
Conference on Information Systems (AMCIS) Proceedings, 2009. 296-306.
[17] D. Blei, Ạ, Ng, and M. Jordan. “Latent Dirichlet Allocation”. In Journal of Machine Learning Research,tháng 1/2003. 993-1022.
[18] T. Hofmann. “Probabilistic LSA”. Proc. UAI, 1999.
[19] Heinrich, G., “Parameter Estimation for Text Analysis”, In Proc. UAỊ
[20] Surender Ređy Yerva, Zolan Mikos, and Karl Aberer.“It was easy, when apples and blackberries were only fruits”. WePS-3, 2010.
[21] Le Dieu Thụ “On the analysis of large-scale datasets towards online contextual advertising”, thesis in Coltech of Technology, Viet Nam National University, Ha Noi, Viet Nam, 2008.
[22] Grigorios Tsoumakas , Ioannis Katakis. “Multi-label Classification : An Overview”. International Journal of Data Warehousing & Mining, 3(3), 1-13, July-
September 2007.
[23] Fabrizio Sebastianị “Machine Learning in Automated Text Categorization”.
ACM Computing Survey, 34(1) pages 1-47, 2002.
[24] Gayatri Swamynathan, Kevin C.Almeroth, Ben ỴZhaọ “The design of a reliable reputation system”. 31-8, 2010.