Thực nghiệm phânlớp bán giám sát SVM-kNN: 42

Một phần của tài liệu Giải pháp gom nhóm đặc trưng đồng nghĩa Tiếng Việt trong đánh giá sản phẩm dựa trên phân lớp bán giám sát SVM - KNN và phân cụm HAC (Trang 53)

L ời cam đ oan iii

4.3.3. Thực nghiệm phânlớp bán giám sát SVM-kNN: 42

a. Dữ liệu đã gán nhãn chiếm 30% tổng số dữ liệu

Từ số ít các thể hiện đặc trưng cùng 9 cụm khơng đơn tương ứng (dữ liệu đã gán nhãn), và các thể hiện đặc trưng nằm trong cụm đơn (dữ liệu chưa được gán nhãn) thu được, tiến hành phân lớp bán giám sát SVM-kNN. Dựa trên những thể hiện đặc trưng thu được trong cụm 9 ở bảng 5, chúng tơi tiến hành thay đổi tên nhãn là “phần cứng” cho phù hợp với những đặc trưng trong cụm, nhằm kiểm tra độ chính xác của phân lớp SVM- kNN.

Khĩa luận sử dụng bộ phần mềm mã nguồn mở LIBSVM [9] để áp dụng thuật tốn SVM cơ bản, và bộ phần mềm mã nguồn mở WEKA [19] để thực thi thuật tốn kNN cơ bản. Các tham số sử dụng trong phân lớp bán giám sát SVM-kNN là: k – số hàng xĩm gần nhất, là tham số khi sử dụng thuật tốn kNN, t – kích thước dữ liệu huấn luyện cần đạt so với kích thước tập tồn bộ dữ liệu, s – số vector hỗ trợ.

Thuật tốn SVM là bước đầu tiên trong SVM-kNN, do vậy, việc chọn các tham số cho SVM là rất quan trọng, ảnh hưởng đến các bộ phân lớp SVM sau, đặc biệt là tham số hàm nhân. Chúng tơi thực hiện khảo sát độ chính xác của SVM (bằng cách lựa chọn số lần kiểm thử chéo fold-validation là 10) trên 4 hàm nhân được tích hợp trong LIBSVM là hàm nhân tuyến tính, hàm nhân đa thức, hàm vịng RBF, hàm chữ S Sigmoid. Kết quảđộ chính xác lần lượt là 51.12%, 35.4%, 29.09% và 32.98%. Vì vậy, chúng tơi chọn hàm nhân tuyến tính cho phân lớp SVM.

43

Theo K.Li và cộng sự [17], tham số k=5, t=0.8 là hiệu quả. Do đĩ, chúng tơi tiến hành thực nghiệm trên một số tham số s khi k=5 và t = 0.8. Phương pháp đánh giá mà chúng tơi sử dụng dựa trên 3 độ đo Entropy, Purity và Accuracy tương tự [17]. Gọi n là tổng số thể hiện đặc trưng. Ba độđo được tính như sau: Lớp thực tế Lớp dựđốn 1 … j … m 1 n11 … n1j … n1m … … … i ni1 … nịj … nim … … ... … … m nm1 … nmj … nmm ij ij 1 1 ij ij 1 1 log m m j m m j i i i n n n E ntropy n n n = = = = = ∑ ∑ ∑ ∑ ij 1 1 ij 1 ur m j ax m m i j i i n n P ity m n n = = = = ∑ ∑ ∑ 1 m ii i n Accuracy n = = ∑ 1 m ii i n A c c u r a c y n = = ∑ Kết quả thu được như bảng 6.

Ent Pur Acc

s=3 1.34 0.62 0.66

44

s=5 1.29 0.66 0.68

K.Li và cộng sự 1.24 0.69 0.68

Bảng 6. Kết quả thực nghiệm phân lớp SVM-kNN với t= 0.8, k = 5khi dữ liệu gán nhãn chiếm 30% tổng số dữ liệu

Nhận xét: Như vậy, khi lựa chọn số hàng xĩm gần nhất để phân lớp trong thuật tốn kNN là 5, kích thước dữ liệu huấn luyện cần đạt được là 0.8 và số vector hỗ trợ mỗi lớp được chọn ra cho mỗi lần lặp là 4 thì kết quả là tốt nhất, với độ đo Entropy, Purity và Accuracy lần lượt là 1.23, 0.68 và 0.65. Tuy độđo Purity và Accuracy cĩ thấp hơn so với [17] nhưng độ đo Entropy đã tốt hơn so với [17]. Cĩ thể thấy kết quả thực nghiệm là tốt so với [17].

Hình 12: Sơđồ so sánh kết quả của mơ hình đề xuất với phương pháp của K.Li và cộng sự [17]

Nhĩm đặc trưng

Các thể hiện đặc trưng

Gán bằng tay Phân lớp đúng Phân lớp sai

Giá Giá cả, số tiền, túi tiền, mức tiền, chi phí

Giá cả, số tiền, túi tiền, mức tiền

Tiếng, lịch

Ảnh Flash, đèn flash, theme, hình nền, jpeg

Flash, đèn flash, jpeg java, đài, ảnh động, trị chơi, game

45 Nhạc Nhạc chuơng, báo rung,

tiếng, mp3, tai, đa âm, đơn âm, chuơng, độ rung, rung, âm, chuơng báo

Mp3, nhạc chuơng, chuơng, đơn âm, đa âm, tai, âm, chuơng báo, rung, độ rung, báo rung

Chi phí, Thoại, hình nền, đàm thoại, sạc

Ứng dụng Đài, android, nghe gọi, thoại, đàm thoại, văn phịng, game, trị chơi, radio, lịch, trình duyệt, web, danh bạ, mail, email, tiện ích, opera, từ điển, chương trình, java, bản đồ Phần mềm, android, nghe gọi, trình duyệt, chương trình, bản đồ, từ điển, tiện ích , văn phịng trackpad, vĩc dáng, cảm biến gia tốc, bộ xử lý, bộ vi xử lý Bàn phím Thân phím, phím nguồn, nút, phím cảm ứng, phím nghe, navigation, phím đèn pin, phím điều khiển, trackpad Thân phím, phím nguồn, phím cảm ứng, phímnghe, navigation, phím điều khiển, nút hồng ngoại, đa điểm Hình thức Kích cỡ, kích thước, mẫu, bề ngồi, vẻ ngồi, thiết kế, màu, ngoại hình, hình dáng, vĩc dáng Bề ngồi, thiết kế, vẻ ngồi, màu, hình dáng, mẫu, kích cỡ, kích thước Danh bạ, opera, cổng USB, cổng HDMI Màn hình Đa điểm, giao diện, độ phân giải, inch, cảm biến gia tốc, độ nét, đơn sắc, bút, bút cảm ứng Giao diện, inch, bút cảm ứng, bút, độ nét, độ phân giải, đơn sắc ngoại hình, cáp tivi, dây cáp

46

chip, radio Phần cứng Cpu, ram, rom, dây cắm,

dây cáp, pin, sạc, nắp pin, cổng USB, cáp tivi, bộ xử lý, bộ vi xử lý, chip, bao, nắp lưng, bao da, bộ nhớ trong, bộ nhớ, cổng HDMI

Cpu, ram, rom, dây cắm, pin, nắp pin, bao, nắp lưng, bao da, bộ nhớ trong, bộ nhớ

phím đèn pin, avi, flv, wmv, mp4

Phim Phim ảnh, phụđề, video, quay hình, mp4, wmv, avi,flv, ảnh động Phim ảnh, phụ đề, quay hình. Bảng 7: Kết quả thực nghiệm khi s = 4, t= 0.8, k = 5 b. Dữ liệu đã gán nhãn chiếm 40% tổng số dữ liệu

Do số dữ liệu đã được gán nhãn làm tập huấn luyện cịn thấp nên kết quả thực nghiệm chưa được cao. Chúng tơi tiến hành bổ sung thêm một số dữ liệu gán nhãn, nhằm thửđộ chính xác của phương pháp phân lớp bán giám sát SVM-kNN trong bài tốn gom nhĩm đặc trưng đồng nghĩa. Tiếp tục thực nghiệm trên một số tham số s, t, k như trên với số dữ liệu đã gán nhãn chiếm khoảng 40% tổng số dữ liệu; kết quả thu được như bảng 7.

Ent Pur Acc

s=3 1.23 0.69 0.68 s=4 1.11 0.71 0.7

s=5 0.77 0.70 0.72

K.Li và cộng sự 0.94 0.76 0.75

Bảng 8: Kết quả thực nghiệm phân lớp SVM-kNN với t= 0.8, k = 5 khi dữ liệu gán nhãn chiếm 40% tổng số dữ liệu

47

Như vậy, khi số dữ liệu đã gán nhãn chiếm khoảng 40% tổng số dữ liệu thì việc lựa chọn số vector hỗ trợ là 5, kích thước dữ liệu huấn luyện cần đạt được là 0.8, số hàng xĩm gần nhất để phân lớp trong thuật tốn kNN là 5 thì 3 độ đo Entropy, Purity và Accuracy cĩ kết quả tương đối khả quan (0.77, 0.7 và 0.72). Nhìn chung, khi kích thước tập dữ liệu đã gán nhãn lớn sẽ cho một kết quả khá cao (hình 12). Điều đĩ cho thấy được tính đúng đắn khi sử dụng thuật tốn phân lớp bán giám sát SVM-kNN.

Cuối cùng, hệ thống thu được các lớp và các dữ liệu nằm trong từng lớp. Điều đĩ cĩ nghĩa là các thể hiện đặc trưng đều đã được đưa vào các nhĩm đặc trưng khác nhau.

Tĩm tắt chương 4

Trong chương này, chúng tơi đã tiến hành thực nghiệm, xem xét và đánh giá kết quả của quá trình thử nghiệm mơ hình gom nhĩm đặc trưng đồng nghĩa tiếng Việt trong miền sản phẩm điện thoại di động dựa trên phân lớp bán giám sát SVM-kNN và phân cụm HAC. Qua phân tích và đánh giá đã cho thấy tính đúng đắn của phương pháp sử dụng trong khĩa luận.

48

Kết lun

Kết quảđạt được của khĩa luận:

Trong khĩa luận này, chúng tơi đã xây dựng mơ hình gom nhĩm đặc trưng sản phầm đồng nghĩa tiếng Việt và thực nghiệm trên miền sản phẩm điện thoại di động sử dụng thuật tốn phân cụm HAC và phân lớp bán giám sát SVM-kNN dựa trên ngữ nghĩa và ngữ cảnh của mỗi thể hiện đặc trưng. Phương pháp này cĩ ưu điểm là khi thay đổi miền sản phẩm thì khơng cần phải gán nhãn dữ liệu tạo tập huấn luyện thủ cơng. Hơn nữa, thuật tốn phân lớp bán giám sát SVM-kNN đã tận dụng được cả dữ liệu gán nhãn và dữ liệu chưa gán nhãn để học một cách hiệu quả, trong đĩ chỉ cần một lượng nhỏ dữ liệu đã gán nhãn ( chiếm khoảng 30% tổng dữ liệu). Tuy nhiên, số lượng dữ liệu đã gán nhãn được tạo ra sau thuật tốn HAC cịn khá ít, nên kết quả chưa cao.

Chúng tơi đã cài đặt, thử nghiệm ban đầu trên một tập nhỏ các thể hiện đặc trưng cho kết quả khá tốt (Purity là 0.68, Accuracy là 0.65 và Entropy là 1.22). Khi xây dựng thêm dữ liệu đã gán nhãn bằng tay (chiếm khoảng 40% tổng dữ liệu), thì độ đo Purity là 0.7, Accuracy là 0.72 và Entropy là 0.77.

Định hướng tương lai:

Chúng tơi sẽ thử nghiệm, áp dụng 2 ràng buộc mềm mà Zhongwu Zhai và cộng sự, 2010 đã xây dựng, nhằm làm giàu tập dữ liệu đã gán nhãn để cĩ được kết quả phân lớp tốt hơn.

Áp dụng trên các miền dữ liệu khác, khơng chỉ miền sản phẩm điện thoại di động. Áp dụng mơ hình gom nhĩm đặc trưng đồng nghĩa vào bài tốn khai phá và tổng hợp quan điểm dựa trên đặc trưng đã thực hiện trong [21].

49

Tài liu tham kho

Tài liu tiếng Vit:

[1] Trần Thị Oanh. (2006). Thuật tốn self-training và co-training ứng dụng trong phân lớp văn bản. Khĩa luận tốt nghiệp, Trường ĐHCN-ĐHQGHN.

[2] Nguyễn Thị Hương Thảo (2006). Phân lớp phân cấp Taxonomy văn bản

web và ứng dụng, Khĩa luận tốt nghiệp, Trường ĐHCN-ĐHQGHN.

[3] Hà Quang Thụy, Phan Xuân Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009). Giáo trình khai phá dữ liệu Web, Nhà xuất bản giáo dục Việt Nam, 2009, tr. 124-125.

Tài liu tiếng Anh:

[4] Andrew Brian Goldberg (2010). New directions in semi-supervised

learning. PhD. Thesis, University of Wisconsin-Madison. 2010.

[5] Bing Liu (2010). Sentiment Analysis and Subjectivity. Invited Chapter for the Handbook of Natural Language Processing, Second Edition. March, 2010.

[6] Bo Pang and Lillian Lee (2008). Foundations and Trends in Information

Retrieval2(1-2), pp. 1–135, 2008.

[7] Blum, A., and Mitchell, T. (1998).Combining labeled and unlabeled data

with co-training. COLT: 92–100, 1998.

[8] Carenini G., R. Ng and E. Zwart (2005). Extracting knowledge from

evaluative text. Proceedings of International Conference on Knowledge Capture.

[9] C. Chang and C.-J. Lin (2010). LIBSVM: a library for support vector machines, Technical Report, Initial version: 2001 Last updated: November 16, 2010,

http://www.csie.ntu.edu.tw/~cjlin/papers/libsvm.pdf, LIBSVM software library version

3.0 released on September 13, 2010, http://www.csie.ntu.edu.tw/~cjlin/libsvm/.

[10] Corinna Cortes, Vladimir Vapnik (1995). Support-Vector Networks,

Machine Learning, 20(3): 273-297.

[11] Dang Duc Pham, Giang Binh Tran, and Son Bao Pham (2009). A Hybrid Approach to Vietnamese Word Segmentation using Part of Speech tags – KSE 2009

50

[12] Guo H., H. Zhu, Z. Guo, X. Zhang and Z. Su (2009). Product feature

categorization with multilevel latent semantic association. Proc. of CIKM.

[13] Hao Zhang, Alexander C. Berg, Michael Maire, Jitendra Malik (2006). SVM-KNN: Discriminative Nearest Neighbor Classification for Visual Category

Recognitionm, CVPR (2) 2006: 2126-2136.

[14] C.-W. Hsu and C.-J. Lin (2002). A comparison of methods for multi-class

support vector machines , IEEE Transactions on Neural Networks, 13, 415-425.

[15] Jagath C. Rajapakse, Limsoon Wong, Raj Acharya (2006).Pattern

Recognition in Bioinformatics, International Workshop, PRIB 2006. Hong Kong, China,

August 20, 2006, Proceedingsof PRIB'2006.

[16] T. Joachims (1997). Text categorization with Support Vector Machines:

Learning with many relevant features, Technical Report 23, LS VIII, University of

Dortmund, 1997, http://www.joachims.org/publications/joachims_98a.ps.gz.

[17] Kunlun Li, Xuerong Luo and Ming Jin (2010). Semi-supervised Learning

for SVM-KNN. Journal of computers, 5(5): 671-678, May 2010.

[18] D. Marcu and A. Popescu (2005). Extracting product features and opinions

from reviews. CICLing 2005: 88-99.

[19] Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer, Peter Reutemann, Ian H. Witten (2009). The WEKA Data Mining Software: An Update; SIGKDD Explorations, Volume 11, Issue 1. 2009. http://www.cs.waikato.ac.nz/ml/weka/ [20] Stavrianou, A. and J.-H. Chauchat (2008). Opinion Mining Issues and

Agreement identification in Forum Texts. In Atelier Fouille des Données d’Opinions

(FODOP-2008), pp. 51–58. 2008.

[21] Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu, Quang-Thuy Ha (2011). A Feature-based Opinion Mining Model on Product Reviews in Vietnamese, ICCCI’11 (submitted).

[22] Thelwall, M. (2009). MySpace comments. Online Information Review,

33(1), 58 -76.

[23] L. Zhang and B. Liu (2010). Extracting and Ranking Product Features in

Opinion Documents. COLING (Posters) 2010: 1462-1470.

[24] Xindong Wu, Vipin Kumar, J. Ross Quinlan, Joydeep Ghosh, Qiang Yang, Hiroshi Motoda, Geoffrey J. McLachlan, Angus Ng, Bing Liu, Philip S. Yu, Zhi-Hua

51

Zhou, Michael Steinbach, David J. Hand, Dan Steinberg (2008). Top 10 algorithms in data mining,Knowl Inf Syst (2008) 14:1–37.

[25] X.J. Zhu (2008). Semi-supervised learning literature survey. Technical Report 1530, Department of Computer Sciences, University of Wisconsin at Madison, Madison, WI. July 19, 2008.

[26] Xiaojin Zhu and Andrew B. Goldberg (2009). Introduction to Semi-

Supervised Learning. Synthesis Lectures on Artificial Intelligence and Machine Learning:

9-16. 2009.

[27] Zhongwu Zhai, Bing Liu, Hua Xu and Peifa Jia (2010). Grouping Product

Features Using Semi-Supervised Learning with Soft-Constraints. Proceedings of the 23rd

International Conference on Computational Linguistics (COLING-2010), August 23-27, Beijing, China.

Một phần của tài liệu Giải pháp gom nhóm đặc trưng đồng nghĩa Tiếng Việt trong đánh giá sản phẩm dựa trên phân lớp bán giám sát SVM - KNN và phân cụm HAC (Trang 53)

Tải bản đầy đủ (PDF)

(62 trang)