Cấu hình phần cứng

Bảng 4.1. Cấu hình hệ thống thử nghiệm

Thành phần Chỉ số

CPU 2.2 GHz Core Duo Intel

RAM 2GB

OS Windows7

4.1.2. Các phần mềm sử dụng

Bảng 4.2: Công cụ phần mềm sử dụng STT Tên phần

mềm

Tác giả Chức năng Nguồn

1 Eclipse- SDK-3.5- win32 Môi trường phát triển http://www.eclipsẹorg/downl oads 2 WordSeg Phạm Đức Đăng, Trần Bình Giang, Phạm Bảo Sơn Tách câu, tách từ 3 GibbsLDA+ + Phan Xuân Hiếu Xây dựng các đặc trưng topic http://gibbsldạsourceforgẹne t

Ngoài các công cụ trên, khóa luận tiến hành cài đặt các module xử lý dựa trên ngôn ngữ Java, bao gồm các package chính như sau :

1. Module crawler : Tiến hành Crawl nội dung trang web, phân tích lấy ra các mô tả về các khách sạn, làm dữ liệu cho mô hình LDẠ

2. Module VNStopWordDetector : ChuNn hóa các nội dung thu được bởi module crawl như loại bỏ từ dừng, các ký hiệu vô nghĩa, các nội dung trống.

3. Module topicmodel : Xây dựng các đặc trưng chủđềNn.

4. Module mutualInformation : Tiến hành lựa chọn đặc trưng dựa vào độ tương hỗ

(MI).

5. Module classifier.opinion : Tiến hành phân lớp quan điểm. 6. Module Test : Tiến hành đánh giá độ chính xác của hệ thống.

4.2. Xây dựng tập dữ liệu thử nghiệm

Khóa luận thực nghiệm trên miền dữ liệu là các đánh giá của khách hàng về 1000 khách sạn ở Việt Nam. Tập đánh giá của người dùng được thu thập từ website

http://www.chudu24.com. Các đánh giá có cấu trúc là gồm : người đánh giá, khách sạn, thời gian và nội dung ý kiến.

Tập dữ liệu là 3700 câụ Tập dữ liệu chia thành hai tập rời nhau : Tập dữ liệu huấn luyện và tập dữ liệu kiểm trạ Trong đó, tập dữ liệu huấn luyện được gán nhãn bằng taỵ

Bảng 4.3 : Tập dữ liệu thực nghiệm

Tổng số tài liệu 3700 câu Tập dữ liệu học 3200 câu Tập dữ liệu kiểm tra 500 câu

Dữ liệu dùng cho huấn luyện cùng với số lượng tài liệu cho mỗi lớp được mô tả

như sau :

Bảng 4.4: Tập dữ liệu huấn luyện

STT Phân lớp 1 Phân lớp 2 Ký hiệu Số lượng tài liệu 1 Sự phục vụ của nhân viên Tích cực NV-T 632 2 Tiêu cực NV-X 242 3 Chất lượng phòng, khách sạn Tích cực P-KS-T 654 4 Tiêu cực P-KS-X 345 5 Vị trí và giá cả Tích cực VT-GC-T 426 6 Tiêu cực VT-GC-X 255 7 Chất lượng đồăn Tích cực DA-T 423 8 Tiêu cực DA-X 368 9 Trang thiết bị Tích cực TTB-T 233 10 Tiêu cực TTB-X 355

Ngoài ra, khóa luận còn tiến hành thu thập tập dữ liệu về các bài báo, giới thiệu, nhận xét về lĩnh vực khách sạn ở Việt Nam để làm đầu vào cho quá trình thực hiện chủ đềNn LDẠ

Bảng 4.5: Tập dữ liệu cho mô hình chủ đề 4n

STT Trang website Tài liệu thu được

1 http://vịhotels.com 7837 2 http://www.dulichnamchaụvn 2525 3 http://www.dulichanz.com 925 4 http://bookhotel.vn 168 5 http://www.dulichvtv.com 1701 6 http://chudu24.com 9049 4.3. Thử nghiệm

Quá trình thực nghiệm gồm các bước chính sau đây

• Xử lý dữ liệu : Tiền xử lý dữ liệu, xây dựng tập tài liệu học cho mô hình phân lớp, tập tài liệu cho mô hình LDA và vector hóa dữ liệụ

• Xây dựng hàm lựa chọn đặc trưng : Tiến hành lựa chọn tập đặc trưng từ tập đặc trưng đã có bằng các sử dụng đô đo tương hỗ MỊ

• Xây dựng hàm phân lớp : Tiến hành xây dựng hàm phân lớp dữ liệu đa nhãn bằng các xây dựng các bộ phân lớp nhị phân chuyển đổị

• Tiến hành đánh giá danh tiếng cho 1000 khách sạn theo mô hình tối ưu nhất

Thiết kế thực nghiệm

Đểđánh giá sửảnh hưởng của chủđềNn và việc lựa chọn đặc trưng đối với kết quả của bộ phân lớp, khóa luận tiến hành cài đặt 4 thực nghiệm như sau :

• Thực nghiệm 1 : Thực hiện việc phân lớp mà không qua pha bổ xung đặc trưng chủ đề Nn và pha lựa chọn đặc trưng. Tức là phân lớp dựa trên tập đặc trưng TF.IDF của tập dữ liệu đầu vàọ

• Thực nghiệm 2 : Thực hiện việc phân lớp sử dụng pha bổ xung đặc trưng nhưng không sử dụng pha lựa chọn đặc trưng. Tức là phân lớp dựa trên tập đặc trưng bổ xung TF.IDF và tập đặc trưng chủđềNn.

• Thực nghiệm 3 : Thực hiện việc phân lớp sử dụng pha lựa chọn đặc trưng nhưng không sử dụng pha bổ xung đặc trưng. Tức là phân lớp dựa trên tập đặc trưng TF.IDF đã qua lựa chọn.

• Thực nghiệm 4 : Thực hiện việc phân lớp mà sử dụng cả 2 pha : bổ xung đặc trưng và lựa chọn đặc trưng. Tức là thực hiện toàn bộ các pha trong mô hình đề

xuất ở chương 3.

4.4. Kết quả thực nghiệm

Khóa luận tiến hành thực nghiệm trên tập dữ liệu như ở bảng 5. Khóa luận chia dữ liệu kiểm tra thành 5 phần là Data1, …, Data5. Sau đó, khóa luận tiến hành thực nghiệm theo bốn tình huống mô tảở 4.3.

Thực nghiệm 1: Phân lớp dựa trên tập đặc trưng TF.IDF của tập dữ liệu đầu vàọ

Bảng 4.6: Kết quả của thực nghiệm 1

Precision Recal Accuracy

TN1 69.86% 79.80% 75.92% TN2 74.74% 84.84% 78.95% TN3 68.68% 77.77% 74.74% TN4 59.10% 34.85% 32.99% TN5 65.83% 73.5% 68.44% Tổng hợp 67.65% 70.25% 66.31%

Thực nghiệm 2 : Phân lớp dựa trên tập đặc trưng TF.IDF kết hợp với tập dữ

liệu chủđềNn LDA

Bảng 4.7: Kết quả thực nghiệm 2 với số chủ đề là 15

Precision Recal Accuracy

TN1 70.88% 80.8% 76.94% TN2 74.24% 84.84% 78.45% TN3 67.68% 76.77% 73.74% TN4 60.27% 35.86% 33.84% TN5 66.83% 74.51% 69.44% Tổng hợp 67.89% 70.56% 66.58% • Với số lượng chủđề là 20 chủđề

Bảng 4.8: Kết quả thực nghiệm 2 với số chủ đề là 20

Precision Recal Accuracy

TN1 74.41% 84.85% 80.47% TN2 72.73% 82.83% 76.94% TN3 67.17% 75.76% 73.23% TN4 59.06% 35.35% 33.5% TN5 67.97% 76.47% 71.57% Tổng hợp 68.27% 71.05% 67.14% • Với số lượng chủđề là 25 chủđề

Bảng 4.9: Kết quả thực nghiệm 2 với số chủ đề là 25

Precision Recal Accuracy

TN1 69.02% 80.8% 74.41% TN2 73.73% 83.84% 77.95% TN3 66.16% 75.76% 72.22% TN4 61.95% 36.87% 34.93% TN5 68.79% 76.47% 71.41% Tổng hợp 67.93% 70.75% 66.18%

Sau thực nghiệm 1 và thực nghiệm 2, chúng ta có bảng so sánh kết quả như sau

Hình 4.1: So sánh kết quả thực nghiệm 1 và thực nghiệm 2

Từđây khóa luận nhận thấy đặc trưng chủđềNn LDA với 20 topic cho kết quả

khả quan. Chính vì thế trong thực nghiệm 4 của khóa luận, chúng tôi sẽ dùng đặc trưng chủđềNn với 20 topic để bổ xung.

Thực nghiệm 3 : Phân lớp dựa trên tập đặc trưng TF.IDF có qua lựa chọn đặc trưng

Bảng 4.10: Kết quả thực nghiệm 3

Precision Recal Accuracy

TN1 70.01% 79.79% 74.40% TN2 70.03% 78.79% 73.79% TN3 68.34% 76.47% 73.34% TN4 64.32% 38.38% 36.25% TN5 66.82% 69.25% 65.04% Tổng hợp 67.57% 68.93% 66.18%

Thực nghiệm 4 : Phân lớp dựa trên tập đặc trưng TF.IDF kết hợp với tập dữ

liệu chủđềNn LDA với 20 chủđề và có qua pha lựa chọn đặc trưng.

63 64 65 66 67 68 69 70 71 72 TN1 TN2-15 TN2-20 TN2-25 Precision Recal Accuracy

Bảng 4.11: Kết quả thực nghiệm 4

Precision Recal Accuracy

TN1 69.88% 79.93% 75.93% TN2 75.77% 85.86% 79.97% TN3 68.18% 76.77% 75.24% TN4 60.1% 36.35% 34.5% TN5 67.82% 76.49% 70.42% Tổng hợp 68.35% 71.3% 67.21%

Sau đây là biểu đồ thể hiện kết quả tổng hợp từ bốn trường hợp thực nghiệm nhỏ

Hình 4.2: So sánh 4 thực nghiệm

Dựa vào kết quả đánh giá bộ phân lớp, khóa luận nhận thấy bộ phân lớp đa nhãn sử dụng tập đặc trưng cải tiến cho kết quả tốt hơn (68.35%). Chính vì thế, khóa luận sẽ áp dụng bộ phân lớp đa lớp trên vào bài toán quản lý danh tiếng, kết quả của

đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam như sau :

63 64 65 66 67 68 69 70 71 72 TN1 TN2-20 TN3 TN4 Precision Recal Accuracy

Hình 7 : Giao diện h 4.5. Đánh giá hệ th Khóa luận đã sử dụng ba thống. Kết quả thực nghiệm cho th khả thi với độ precision đạt 68. module xây dựng tập đặc trư 35

n hệ thống đánh giá danh tiếng cho 1000 khách s

thống

ng ba độ đo : precision, recal và accuracy đ

m cho thấy mô hình hệ thống đề xuất ở chương ba mang tính t 68.35% và đã cải tiến so với bộ phân lớp khi ch

c trưng là 67.65%.

ng cho 1000 khách sạn

o : precision, recal và accuracy để đánh giá hệ ương ba mang tính p khi chưa sử dụng

Kết luận

Qua quá trình tìm hiểu về bài toán quản lý danh tiếng, khóa luận đã thấy được vai trò của việc phân lớp dữ liệu đa nhãn. Khóa luận đã nêu bật nên được sức ảnh hưởng của việc lựa chọn đặc trưng đối với bộ phân lớp dữ liệu đa nhãn. Từđó, khóa luận đã

đề xuất ra mô hình xây dựng tập đặc trưng dựa vào các đặc trưng mở rộng từ mô hình chủđềNn và phương pháp lựa chọn đặc trưng dựa vào độ tương hỗ MỊ

Khóa luận đã đạt được các kết quả sau đây:

• Giới thiệu về bài toán quản lý danh tiếng, nêu lên vai trò, tầm quan trọng của việc xử lý dữ liệu đa nhãn trong bài toán quản lý danh tiếng.

• Trình bày và chỉ ra được phương pháp cải tiến bộ phân lớp dữ liệu đa nhãn bằng cách sử dụng các đặc trưng mô hình chủ đềNn và lựa chọn đặc trưng dựa vào độ tương hỗ

• Đề xuất và cài đặt thực nghiệm về mô hình xây dựng tập đặc trưng như trên và

ứng dụng vào bộ phân lớp đa nhãn để đánh giá danh tiếng cho 1000 khách sạn

ở Việt Nam.

• Kết quả thực nghiệm đã cho thấy mô hình đề xuất đã cải tiến độ chính xác so với mô hình chưa cải tiến là từ (67.65%) lên (68.35%).

Tuy nhiên, do hạn chế về mặt thời gian và kiến thức nên khóa luận vẫn tồn tại một số hạn chế như : Chưa áp dụng thực nghiệm trên miền dữ liệu phong phú, các thuật toán phân lớp sử dụng chưa phong phú…

Trong thời gian tới, chúng tôi sẽ tiếp tục mở rộng khóa luận bằng cách sử dụng nhiều thuật toán phân lớp khác nhau, từđó rút ra được thuật toán phù hợp nhất. Ngoài ra, chúng tôi sẽ tiếp tục mở rộng miền dữ liệu để có thể đánh giá danh tiếng cho các khách sạn ở Việt Nam một cách tổng quát hơn và có thể áp dụng trong thực tế.

Tài liệu tham khảo Tài liệu tiếng Anh

[1] Pierce, J. “The world internet project report 2009”. Technical report, The

World Internet Project, 2008.

[2] Guyon, Ị, Elisseeﬀ, Ạ“An Introduction to Variable and Feature Selection”. J. Mach. Lear. Res, 2003. 3, 1157–1182.

[3] Vanessa Gomez-Verdejo, Michel Verleysen va Jerome Fleurỵ "Infomation- Theoretic Feature Selection for the Classification of Hysteresis Curves", 2007.

[4] Liu, Ling. “Systematic Measurement of Centralized Online Reputation Systems” . PhD Thesis, Durham University, 2011.

[5] Yao Wang. “Trust and Reputation Management in Decentralized Systems”. A Thesis Submitted to the College of Graduate Studies and Research, 2010. [6] Resnick P. and Zeckhauser R., “Trust among Strangers in Internet Transactions: Empirical Analysis of eBay’s Reputation System”. NBER Workshop

on Empirical Studies of Electronic Commerce, 2000.

[7] Bing Liụ “Opinion Mining & Summarization - Sentiment Analysis”,

Tutorial given at WWW-2008, April 21, 2008 in Beijing.

[8] Schapire, R.Ẹ, Singer, Ỵ: Boostexter: “A Boosting-Based System for Text catego-rization”. Machine Learning, 2000. 39, 135–168.

[9] Elisseeﬀ, Ạ, Weston, J.: “A Kernel method for Multi-Labelled Classification”. Ad-vances in Neural Information Proceesing Systems, 2001. 14, 681– 687.

[10] Zhang, M.-L., Zhou, Z.-H.: ML-KNN: “A Lazy Learning Approach to Multi- Label Learning”. Pattern Recogn, 2007. 40, 2038–2048.

[11] Gauthier Doquire and Michel Verleysen. “Feature Selection for Multi-label classification problems”, 2009.

[12] Read, J.:”A Pruned Problem Transformation Mathod for Multi-label Classification”. In: New Zealand Computer Science Research Student Conference

(NZCSRS 2008), pp. 143–150.

[13] Laudon, J. and Laudon, K. “Management Information Systems: Managing the Digital Firm & Multimedia”. Prentice Hall, 2007, 10th edition.

[14] Stair, R. M., Reynolds, G. and Reynolds, G. W. “Principles of Information System”. Course Technology, 2010, 9th edition.

[15] Hoffman, K., Zage, D. and Nita-Rotaru, C. “A survey of attack and defense techniques for reputation systems”. ACM Computing Surveys, 2009. 42(1), 1-31. [16] Zheng, W. and Jin, L. “Online reputation systems in web 2.0 era”. In Americas

Conference on Information Systems (AMCIS) Proceedings, 2009. 296-306.

[17] D. Blei, Ạ, Ng, and M. Jordan. “Latent Dirichlet Allocation”. In Journal of Machine Learning Research,tháng 1/2003. 993-1022.

[18] T. Hofmann. “Probabilistic LSA”. Proc. UAI, 1999.

[19] Heinrich, G., “Parameter Estimation for Text Analysis”, In Proc. UAỊ

[20] Surender Ređy Yerva, Zolan Mikos, and Karl Aberer.“It was easy, when apples and blackberries were only fruits”. WePS-3, 2010.

[21] Le Dieu Thụ “On the analysis of large-scale datasets towards online contextual advertising”, thesis in Coltech of Technology, Viet Nam National University, Ha Noi, Viet Nam, 2008.

[22] Grigorios Tsoumakas , Ioannis Katakis. “Multi-label Classification : An Overview”. International Journal of Data Warehousing & Mining, 3(3), 1-13, July-

September 2007.

[23] Fabrizio Sebastianị “Machine Learning in Automated Text Categorization”.

ACM Computing Survey, 34(1) pages 1-47, 2002.

[24] Gayatri Swamynathan, Kevin C.Almeroth, Ben ỴZhaọ “The design of a reliable reputation system”. 31-8, 2010.

Mô hình sinh trong LDA

Ước lượng tham số và suy luận