Tiền xử lý và xây dựng vector đặc trưng

Một phần của tài liệu Phân lớp đa nhãn, đa thể hiện và áp dụng trong quản lý danh tiếng (Trang 31)

Trong mô hình này, luận văn coi mỗi nhận xét của người dùng là một tài liệu. Giả sử tập tài liệu là D = {d1, d2, …., dm}. Luận văn sử dụng các đặc trưng TF.IDF trong quá trình phân lớp dữ liệu đa nhãn đa thể hiện :

TF.IDF là một kỹ thuật thống kê đánh giá ý nghĩa, độ quan trọng của một cụm đối với một văn bản, hoặc môt lớp.

 Term Frequency (TF) là độ đo tần số : tần suất xuất hiện của cụm từ trong một văn bản:

 Inverse Document Frequency (IDF) là độ đo tổng quát độ quan trọng của cụm từ :

* ∈ +

Trong đó :

 |D| là số lượng tài liệu trong tập D

 * ∈ + là số lượng tài liệu mà từkhóa tixuất hiện

Từ đó TF.IDF được tính bằng công thức :

Trọng số TF.IDF của một từ mục biểu diễn độ quan trọng của từ mục. TF.IDF của một từ mục trong một tài liệu sẽ giảm nếu như từ đó xuất hiện trong hầu hết các văn bản. Vì vậy, một từ xuất hiện quá ít hoặc quá nhiều được đánh giá ít quan trọng hơn so với các từ xuất hiện cân bằng.

Khi đó, luận văn thu được vector trọng số TF.IDF từ tập các từ khóa trong dữ liệu học là :

D(d) = (tfidf(d,1), tfidf(d,2), …., tfidf(d,n)) Với n là số lượng các từ khóa riêng biệt 3.3.2. Chuyển đổi từ MIML thành SIML

Để chuyển đổi từ bài toán phân lớp dữ liệu đa nhãn đa thể hiện thành bài toán phân lớp đa nhãn đơn thể hiện, luận văn áp dụng quá trình phân lớp cấu trúc của Zin- Hua Zhou và cộng sự [2]. Luận văn tiến hành phân cụm các đặc trưng thu được từ bước 3.3.1. Qua quá trình thực nghiệm, luận văn sử dụng số cụm 60 cho tập dữ liệu huấn luyện. Khi đó với mỗi vector đặc trưng T = {f1, f2, …, fn} (n là số đặc trưng) sau quá trình phân cụm 60 cụm thì sẽ thu được vector T = {d1, d2, …, d60} trong đó d1, d2, …, d60 lần lượt là khoảng cách từ vector T đến vector đại diện của cụm 1, cụm 2,…, cụm 60. Tập vector đặc trưng sau quá trình phân lớp cấu trúc sẽ là tập đầu vào cho quá trình học ở 3.3.3.

3.3.3. Chuyển đổi từ SIML thành SISL

Sau quá trình chuyển đổi từ MIML thành SIML, luận văn tiếp tục áp dụng phương pháp chuyển đổi nhị phân cho tập dữ liệu đa nhãn trên. Phương pháp nhị phân

là phương pháp xây dựng |L| bộ phân lớp nhị phân: * + cho L nhãn khác nhau. Dữ liệu trong mỗi bộ phân lớp được gán nhãn l1 nếu nó thuộc lớp L1, các dữ liệu

khác được gán nhãn – . Phương pháp này là phương pháp hiểu quả nhất để sử dụng bộ phân lớp nhị phân vào phân lớp đa nhãn. Hình 6, biểu diễn bốn tập dữ liệu kết quả thu được khi sử dụng phương pháp chuyển đổi nhị phân. Theo [11], nhiều công trình nghiên cứu của Boutell (2004) , Goncalves và Quaresma (2003) , Lauser và Hotho (2003) , Li và Ogihara (2003) đã chứng tỏ rằng phương pháp này có tính hiệu quả.

Hình 3.2 : Bốn tập dữ liệu được tổ chức phân lớp theo chuyển đổi nhị phân

Áp dụng phương pháp chuyển đổi nhị phân trên đây cho việc phân lớp miền dữ liệu khách sạn ở 1000 khách sạn ở Việt Nam, luận văn tiến hành xây dựng tập các nhãn (lớp) trên lĩnh vực này như sau :

Sự phục vụ của nhân viên : Dữ liệu thuộc lớp này bao gồm:

o Những đánh giá về thái độ phục vụ của nhân viên khách sạn bao gồm : lễ tân, dọn phòng, bảo vệ, quản lý, nhân viên nhà hàng, ...

o Các dịch vụ phục vụ đi kèm

Chất lượng phòng, khách sạn : Bao gồm các đánh giá dưới hình thức sau :

o Nhận xét cảm tưởng chung về khách sạn

o Nhận xét về chất lượng phòng ốc

Chất lượng đồ ăn : Bao gồm các đánh giá về chất lượng đồ ăn, bữa ăn.

o Những đánh giá về vị trí, không gian, mức độ thuận lợi mà khách sạn mang lại cho khách hàng

o Những đánh giá về giá cả phòng, giá đồ ăn và giá các dịch vụ đi kèm.

Trang thiết bị : Bao gồm các đánh giá về trang thiết bị, nội thất của khách

sạn.

3.4.Pha 2: Phân lớp sử dụng mô hình huấn luyện

Dữ liệu thực nghiệm là dữ liệu về đánh giá của người dùng về 1000 khách sạn ở Việt Nam. Kết quả của dữ liệu sau pha 2, sẽ là tập nhận xét của người dùng được phân lớp vào 5 lớp tương ứng ở phần 3.3.3.

Tập dữ liệu huấn luyện trong các kĩ thuật học máy giám sát luôn đòi hỏi phải được làm sạch trước khi đưa vào huấn luyện. Trên Internet có rất nhiều thông tin xuất hiện dưới nhiều dạng khác nhau. Để lọc nhiễu cho dữ liệu huấn luyện, chúng ta phải loại bỏ đi những thông tin dưới dạng hình ảnh, âm thanh, quảng cáo, thông tin không nằm trong nội dung của trang web, các thẻ html,…

Sau khi lọc nhiễu, dữ liệu sẽ được đưa qua module tách câu. Mỗi câu được biểu diễn trên một dòng. Module tách câu sẽ lọc dữ liệu, loại bỏ những câu cảm thán, những câu không có nghĩa.

Ví dụ, nội dung của một nhận xét của khách hàng trong lĩnh vực khách sạn sau khi đi qua bộ tách câu như sau:

Tôi đã ở đây 3 đêm, đó là khoảng thời gian tuyệt vời, tiện nghi vàthoải mái.

Giá cả thì tuyệt vời, trên của sự mong đợi, mà chất lượng phòng thì không có gì để bàn cãi.

Cảm ơn!

Sau đó dữ liệu được loại bỏ những câu cảm thán, câu không có ý nghĩa như sau: Tôi đã ở đây 3 đêm, đó là khoảng thời gian tuyệt vời, tiện nghi và thoải mái.

Giá cả thì tuyệt vời, trên của sự mọng đơi, mà chất lượng phòng thì không có gì để bàn cãi.

Dữ liệu sau khi lọc câu không có ý nghĩa được tiền xử lý và xây dựng vector đặc trưng giống như trong phần 3.3.1 và 3.3.2. Vector đặc trưng thu được sẽ được đưa vào bộ phân lớp thu được từ 3.3.3 và kết quả của bộ phân lớp sẽ là các lớp tương ứng mà dữ liệu được phân vào.

Tổng kết chương ba

Chương ba của luận văn trình bày về việc áp dụng MIMLSVM trong phân lớp dữ liệu đa nhãn đa thể hiên Tiếng việt. Luận văn cũng đã giới thiệu chi tiết các pha cũng như các bước trong từng pha của phương pháp đề xuất.

Trong chương tiếp theo, luận văn tiến hành thực nghiệm trên phương pháp đã xây dựng và đánh giá kết quả đạt được của phương pháp đề xuất.

Chương 4. Thực nghiệm và đánh giá

Dựa vào mô hình đề xuất ở chương 3, luận văn tiến hành thực nghiệm việc đánh giá danh tiếng 1000 khách sạn ở Việt Nam dựa vào tập nhận xét của người dùng bằng Tiếng Việt. Để làm rõ kết quả của mô hình đề xuất trong chương 3, luận văn tiến hành

2 thực nghiệm nhỏ:

Thực nghiệm 1 : Thực hiện việc phân lớp nhị phân thông thường cho dữ

liệu đa nhãn đa thể hiện mà không qua pha chuyển đổi MIML thành SIML.

Thực nghiệm 2 : Thực hiện việc phân lớp sử dụng MIMLSVM với đủ

các pha chuyển đổi MIML thành SIML và sau đó SIML thành SISL.

4.1. Môi trường và các công cụ sử dụng thực nghiệm

4.1.1. Cấu hình phần cứngBảng 4.1. Cấu hình hệ thống thử nghiệm Bảng 4.1. Cấu hình hệ thống thử nghiệm Thành phần CPU RAM OS Bộ nhớ ngoài 4.1.2. Các phần mềm sử dụng Bảng 4.2: Công cụ phần mềm sử dụng STT Tên phần mềm 1 Eclipse- SDK-3.5- win32 2 WordSeg 3 SVM 23

Ngoài các công cụ trên, luận văn tiến hành cài đặt các module xử lý dựa trên ngôn ngữ Java, bao gồm các package chính như sau :

1. Module crawler : Tiến hành Crawl nội dung trang web, phân tích lấy ra các mô tả về các khách sạn dựa vào cách lọc thẻ HTML.

2. Module VNStopWordDetector : Chuẩn hóa các nội dung thu được bởi module crawl như loại bỏ từ dừng, các ký hiệu vô nghĩa, các nội dung trống.

3. Module FeatureGeneratorCluster: Xây dựng vector đặc trưng từ tập câu nhận xét của người dùng.

4. Module Classifier.svm : Tiến hành phân lớp quan điểm.

4.2. Xây dựng tập dữ liệu thử nghiệm

Luận văn thực nghiệm trên miền dữ liệu là các đánh giá của khách hàng về 1000 khách sạn ở Việt Nam. Tập đánh giá của người dùng được thu thập từ website http://www.chudu24.com.

Tập dữ liệu là 3700 câu. Tập dữ liệu chia thành hai tập rời nhau : Tập dữ liệu huấn luyện và tập dữ liệu kiểm tra. Trong đó, tập dữ liệu huấn luyện được gán nhãn bằng tay.

Bảng 4.3 : Tập dữ liệu thực nghiệm

Tổng số tài liệu Tập dữ liệu học Tập dữ liệu kiểm tra

Dữ liệu dùng cho huấn luyện cùng với số lượng tài liệu cho mỗi lớp được mô tả như sau :

Bảng 4.4: Tập dữ liệu huấn luyện

STT 1 2 3 4 5

4.3. Thử nghiệm

Quá trình thực nghiệm gồm các bước chính sau đây

 Xử lý dữ liệu : Tiền xử lý dữ liệu, xây dựng tập tài liệu học cho mô hình phân lớp và vector hóa dữ liệu.

 Xây dựng hàm phâm cụm: Tiến hành phân cụm tập thể hiện để chuyển đổi từ

đa thể hiện thành đơn thể hiện.

 Xây dựng hàm phân lớp: Tiến hành xây dựng hàm phân lớp dữ liệu đa nhãn bằng các xây dựng các bộ phân lớp nhị phân chuyển đổi.

4.4. Kết quả thực nghiệm

Luận văn tiến hành thực nghiệm trên tập dữ liệu như ở bảng 4.4. Luận văn chia dữ liệu kiểm tra thành 5 phần là Data1, …, Data5.

Thực nghiệm 1: Thực hiện việc phân lớp nhị phân thông thường cho dữ liệu đa

nhãn đa thể hiện.

Bảng 4.5: Kết quả độ chính xác của thực nghiệm 1

Nhãn lớp Data 1 Data 2 Data 3 Data 4 Data 5 Trung bình

Thực nghiệm 2 : Phân lớp dữ liệu đa nhãn đa thể

Nhãn lớp Data 1 Data 2 Data 3 Data 4 Data 5 Trung bình 25

Sau đây là biểu đồ thể hiện kết quả tổng hợp từ hai thực nghiệm trên. 100 90 80 70 60 50 40 30 20 10 0 Nhân viên Hình 4.1: So sánh 2 thực nghiệm 4.5. Đánh giá hệ thống

Kết luận

Qua quá trình tìm hiểu về bài toán quản lý danh tiếng, luận văn đã nêu bật nên được sức ảnh hưởng của việc phân lớp dữ liệu đa nhãn đa thể hiện. Từ đó, luận văn đã áp dụng mô phân lớp MIMLSVM đối với dữ liệu miền Tiếng Việt trong bài toán quản lý danh tiếng. Đặc biệt luận văn còn áp dụng được kết quả đã công bố khoa học trong [13].

Luận văn đã đạt được các kết quả sau đây:

 Trình bày quản lý danh tiếng và tầm quan trọng của phân lớp dữ liệu đa nhãn đa thể hiện

 Áp dụng mô hình MIMLSVN cho bài toán quản lý danh tiếng và áp dụng được kết quả đã công bố khoa học [13].

 Cài đặt mô hình và tiến hành thực nghiệm cho miền dữ liệu Tiếng Việt.

 Kết quả thực nghiệm đã cho thấy mô hình đề xuất đã có cải tiến (84.84% 

85.76%) và làm tiền đề nghiên cứu tiếp theo.

Tuy nhiên, do hạn chế về mặt thời gian và kiến thức nên luận văn vẫn tồn tại một số hạn chế như: Chưa áp dụng thực nghiệm trên miền dữ liệu phong phú, kết quả cải tiến chưa cao.

Trong thời gian tới, chúng tôi sẽ tiếp tục mở rộng luận văn bằng cách sử dụng nhiều thuật toán phân lớp đa nhãn đa thể hiện theo hướng chuyển đổi MIML thành MISL và SISL, từ đó rút ra được thuật toán phù hợp nhất. Ngoài ra, chúng tôi sẽ tiếp tục mở rộng miền dữ liệu để có thể đánh giá danh tiếng cho các khách sạn ở Việt Nam một cách tổng quát hơn và có thể áp dụng trong thực tế.

Tài liệu tham khảo

[1] Pierce, J. “The world internet project report 2009”. Technical report, The World Internet Project, 2008.

[2] Z.-H. Zhou, M.-L. Zhang, S.-J. Huang, and Y.-F. Li. “Multi-instance multi-label learning”. Artificial Intelligence, 2012, 176(1): 2291-2320.

[3] Jianjun He, Hong Gu, Zhelong Wang (2012). “Bayesian multi-instance multi-label learning using Gaussian process prior”. Machine Learning, 88 (1-2): 273-295, July 2012.

[4] Yao Wang. “Trust and Reputation Management in Decentralized Systems”. A

Thesis Submitted to the College of Graduate Studies and Research, 2010.

[5] Resnick P. and Zeckhauser R., “Trust among Strangers in Internet Transactions: Empirical Analysis of eBay’s Reputation System”. NBER

Workshopon Empirical Studies of Electronic Commerce, 2000.

[6]Bing Liu. “Opinion Mining & Summarization - Sentiment Analysis”,

Tutorial given at WWW-2008, April 21, 2008 in Beijing.

[7]Laudon, J. and Laudon, K. “Management Information Systems: Managing the

Digital Firm & Multimedia”. Prentice Hall, 2007, 10th edition.

[8] Stair, R. M., Reynolds, G. and Reynolds, G. W. “Principles of Information System”. Course Technology, 2010, 9th edition.

[9] Hoffman, K., Zage, D. and Nita-Rotaru, C. “A survey of attack and defense techniques for reputation systems”. ACM Computing Surveys, 2009. 42(1), 1-31.

[10] Zheng, W. and Jin, L. “Online reputation systems in web 2.0 era”. In Americas

Conference on Information Systems (AMCIS) Proceedings, 2009. 296-306.

[11] Grigorios Tsoumakas , Ioannis Katakis. “Multi-label Classification : An

Overview”. International Journal of Data Warehousing & Mining, 3(3), 1-13, July- September 2007.

[12] Fabrizio Sebastiani. “Machine Learning in Automated Text Categorization”.

ACM Computing Survey, 34(1) pages 1-47, 2002.

[13]Thi-Ngan Pham, Thi-Thom Phan, Phuoc-Thao Nguyen, Quang-Thuy Ha

(2013)."Hidden Topic Models for Multi-label Review Classification: An Experimental Study", Computational Collective Intelligence. Technologies and Applications, Lecture Notes in Computer Science Volume 8083:603-611.

Một phần của tài liệu Phân lớp đa nhãn, đa thể hiện và áp dụng trong quản lý danh tiếng (Trang 31)

Tải bản đầy đủ (DOCX)

(43 trang)
w