Cấu hình phần cứng

Một phần của tài liệu CÁC PHƯƠNG PHÁP PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT KHÓA LUẬN TỐT NGHIỆP ĐẠ HỌC HỆ CHÍNH QUY (Trang 39 - 53)

Bảng 4.1 Cấu hình hệ thống thử ngiệm

Thành phần Chỉ số

CPU 2 GHz Core Duo Intel

RAM 2GB

OS Windows8

Nguyễn Thị Thảo 28 Khĩa luận tốt nghiệp

4.2.2 Các phần mềm sử dụng

Bảng 4.2 Cơng cụ phát triển

STT Tên phần mềm

Tác giả Chức năng Nguồn

1 Eclipse-SDK- 3.5-win64 Mơi trường phát triển http://www.eclipse .org/downloads

2 JVnTextPro Cam-Tu Nguyen, Xuan-Hieu Phan, Thu-Trang Nguyen Tách câu, tách từ http://jvntextpro.s ourceforge.net/

3 GibbsLDA++ Xuan-Hieu Phan, Cam-Tu Nguyen Giảm số chiều của đặc trưng http://jgibblda.so urceforge.net/

Ngồi các cơng cụ trên, khĩa luận tiến hành cài đặt các module xử lý dựa trên ngơn ngữ java và một số file python (python version 2.7.3), bao gồm các package chính như sau:

1. Module crawler: Tiến hành crawl nội dung trang web, phân tích lấy nội dung, các nhãn (tags) các bài báo trên các lĩnh vực Xã-hội, Kinh-doanh, Thế-giới, Khoa-học, Ơ-tơ-xe-máy, Bạn-đọc.

2. Module RemoveFileDuplicate: Loại bỏ các bài báo trùng lặp về nội dung

3. Module StopWord: Chuẩn hĩa các nội dung thu được (sau khi loại bỏ các bài báo trùng lặp) như loại bỏ từ dừng, các ký hiệu vơ nghĩa, các nội dung trống.

4. Module InputFile: Xây dựng các file đầu vào cho để sinh ra file arff (cĩ định dạng http://mulan.sourceforge.net/format.html).

5. File python: convertToMulanFormat.py sinh ra file dữ liệu .arff (http://mu-

lan.sourceforge.net/format.html) cho thực nghiệm.

6. Module jdocTag: gọi thư viện weka và mulan http://mulan.source- forge.net/starting.html) sau khi cĩ file arff để chạy các phương pháp phân lớp

Nguyễn Thị Thảo 29 Khĩa luận tốt nghiệp đa nhãn MLL, phân rã bài tốn thành các bộ phân lớp nhị phân, đồng thời tiến hành đánh giá các phương pháp đĩ trên một số độ đo.

7. File python: buildLDAMLLData.py sinh ra file train và test tương ứng với số lượng chủ đề ẩn thiết lập trong LDA.

4.3 Xây dựng tập dữ liệu

Khĩa luận thực nghiệm trên miền dữ liệu là các bài báo trên trang

http://vnexpress.net với các lĩnh vực Xã-hội, Kinh-doanh, Thế-giới, Khoa-học, Ơ-tơ-xe-

máy, Bạn-đọc. Dữ liệu thu thập của các bài báo cĩ cấu trúc: dịng đầu là nhãn (tags) của mỗi bài báo, những dịng cịn lại là nội dung của các bài báo.

Tập dữ liệu là 2694 bài báo sau khi loại bỏ bài báo trùng lặp và loại bỏ một số bài khơng cĩ nhãn trong top 100 nhãn cĩ tần số cao nhất.

Tổng hợp tất cả các nhãn cĩ trong 2694 bài báo, sau đĩ lấy 100 nhãn cĩ tần số lớn nhất làm nhãn của dữ liệu. Sau đây, danh sách 100 nhãn ứng với định dạng nhãn (DF)

Bảng 4.3 Danh sách một số nhãn

Tên nhãn (DF) Tên nhãn (DF) Tên nhãn (DF) Tên nhãn (DF)

mỹ (210) honda (57) điếu (39) động_vật (29)

tết (179) tranh_chấp (56) senkaku (39) cháy (29)

xe (154) chia_tay (54) ngư (39) đà_nẵng (28)

tiên (112) mơtơ (53) biển (39) yamaha (28)

trung_quốc (106) tình_yêu (51) cặp_bồ (38) tập_trận (28) người (101) mơ_tơ (49) mâu_thuẫn (37) khoa_học (28)

gia_đình (100) phú (48) đức (36) hải_quân (28)

giao_thơng (96) nhà (48) sĩc_trăng (36) bắt_giữ (28) nhật_bản (90) chồng (48) giết_người (36) đảo (27)

vàng (87) tp (47) cướp (36) tài_sản (27)

tai_nạn (85) xe_hơi (46) quân_sự (35) thử (27)

Nguyễn Thị Thảo 30 Khĩa luận tốt nghiệp

hà_nội (80) cơng_an (46) tỵ (34) nạn_nhân (26)

quê_hương (77) ngân_hàng (45) tên_lửa (34) jong (26) ơtơ (74) máy_bay (44) thanh_hĩa (34) cưỡng_hiếp (26) nga (73) cảnh_sát (44) bình_dương (34) cơng_nghệ (26)

hcm (71) anh (43) tổng_thống (33) đường (25)

việt_nam (70) hiếp_dâm (42) tàu (33) scooter (25)

ly_hơn (70) tịa_án (41) sjc (33) khơng (25)

xuân (67) thứ_ba (41) hỏa (33) thế_giới (24)

triều (66) siêu (41) tử_vong (32) năm_mới (24)

ơ_tơ (63) lừa_đảo (41) quảng_ngãi (32) độ (23)

xe_máy (62) hàn_quốc (41) quý (32) xe_buýt (23)

giá (62) chứng_khốn (41) quốc (31) vợ (23)

hạt_nhân (60) ấn_độ (40) tư_vấn (30) triển_lãm (15)

Sau khi, Ta xây dựng file chứa 100 nhãn cĩ tần số xuất hiện lớn nhất, tiến hành loại bỏ một số bài báo mà khơng cĩ nhãn thuộc top 100 nhãn mà ta đang xét. Sau đĩ, ta tổng hợp file word chứa tất cả các từ trong các bài báo mà ta vừa cĩ được. Theo phương pháp TF, ta xây dựng được file word chứa 2000 từ (đặc trưng) cĩ tần số lớn nhất trong các bài báo.

Theo mẫu dữ liệu của Mulan, File ARFF là file chứa dữ liệu: định nghĩa các đặc trưng và nhãn của dữ liệu:

Nguyễn Thị Thảo 31 Khĩa luận tốt nghiệp

Hình 4.1 Dạng file dữ liệu

File ARFF gồm tên của mối tương quan (@relation); danh sách các đặc trưng từ 1-> 2000 đối với phương pháp TF hoặc đặc trưng từ 1-> K chủ đề ẩn trong mơ hình ẩn LDA và danh sách các nhãn từ 1-> 100; dữ liệu được định nghĩa sau @data mỗi dịng là một bài báo.

Sau khi xây dựng được file dữ liệu thử nghiệm, ta chia file dữ liệu đĩ thành tập dữ liệu học và dữ liệu kiểm tra theo phương pháp k-fold cross validation.

Nguyễn Thị Thảo 32 Khĩa luận tốt nghiệp

4.4 Thực nghiệm

Quá trình thực nghiệm gồm các bước chính sau đây:

Bước 1: Lấy dữ liệu bằng cơng cụ Clawer, phân tích nội dung. Bước 2: Tách câu tách từ, chuyển sang dạng chữ thường. Bước 3: Loại bỏ stopword, loại bỏ số.

Bước 4: Sinh file dữ liệu theo chuẩn Mulan làm thực nghiệm.

Bước 5: Phân tách dữ liệu huấn luyện theo phương pháp k-fold và kiểm tra cho

mơ hình

Bước 6: Chạy LDA sinh ra phân phối chủ đề, xác suất từ. Bước 7: Sinh dữ liệu huấn luyện và test từ mơ hình từ LDA. Bước 8: Chạy với ba thực nghiệm như trong mục 4.1

Bước 9: Đánh giá các phương pháp MLL và đánh giá các thực nghiệm ở mục 4.1

qua một số độ đo: thời gian, hloss, oneError, rloss, AP, MAP

4.5 Kết quả thực nghiệm

Khĩa luận thực nghiệm với một lần 3-fold-cross-validation cho mỗi thực nghiệm, kết quả được ghi lại với cả 3 thực nghiệm như sau:

Thực nghiệm 1: Thực hiện phân lớp dữ liệu tiếng Việt dựa trên tập TF, so sánh

Nguyễn Thị Thảo 33 Khĩa luận tốt nghiệp Bảng 4.4 Kết quả thực nghiệm 1 k Thuật tốn Thời gian (s) ↓ hloss ↓ oneErro r ↓ Coverag e rloss ↓ AP ↑ MAP ↑ 0 BR 1398630 0.0512 0.7208 35.4842 0.2488 0.3452 0.2135 CC 1084336 0.0245 0.6541 44.9447 0.296 0.3651 0.1969 MLkNN 30817 0.02 0.7384 37.4538 0.2635 0.2899 0.1667 RAKEL 7946057 0.022 0.5846 47.1686 0.3246 0.3828 0.2456 1 BR 1540076 0.0523 0.735 36.1666 0.2578 0.3383 0.204 CC 1157811 0.0241 0.6548 41.8274 0.2659 0.362 0.1783 MLkNN 31318 0.0208 0.7498 38.7471 0.2689 0.2759 0.1489 RAKEL 8158404 0.023 0.6183 50.768 0.3477 0.3566 0.2192 2 BR 138438 0.0549 0.7451 37.716 0.269 0.319 0.196 CC 1248588 0.0238 0.6723 48.0142 0.3178 0.3456 0.1915 MLkNN 31895 0.0158 0.7762 32.5968 0.2621 0.276 5 0.1893 RAKEL 7127483 0.0224 0.6076 48.7161 0.3397 0.3705 0.2419

Với thực nghiệm thứ hai và thực nghiệm ba, khĩa luận áp dụng LDA. Trong hai thực nghiệm sau, ứng với mỗi lần thử nghiệm khĩa luận cho K (số chủ đề ẩn) tăng dần, K0 = 100, K1 = 120, K1 = 140.

Thực nghiệm 2: Thực hiện phân lớp dữ liệu tiếng Việt mà áp dụng mơ hình chủ

đề ẩn LDA để giảm số chiều đặc trưng của văn bản. Sau đĩ, khĩa luận kết hợp mơ hình chủ đề ẩn LDA với các phương pháp MLL để so sánh sự khác nhau giữa thực nghiệm áp dụng mơ hình chủ đề ẩn LDA và khơng áp dụng nĩ. Sau đây là kết quả của một lần 3-fold của thực nghiệm 2:

Nguyễn Thị Thảo 34 Khĩa luận tốt nghiệp Bảng 4.5 Kết quả thực nghiệm 2 k Thuật tốn Thời gian (s) ↓ hloss ↓ oneError ↓

Coverage rloss ↓ AP ↑ MAP ↑ 0 BR 130986 0.028 0.7719 50.3171 0.3365 0.2673 0.1584 CC 38203 0.026 0.734 49.766 0.33 0.28 0.151 MLkNN 14390 0.02 0.7287 28.6829 0.1984 0.3272 0.2174 RAkEL 732097 0.0256 0.7152 54.6964 0.3856 0.2848 0.1832 1 BR 156851 0.0267 0.7557 48.363 0.3185 0.2795 0.1645 CC 42624 0.026 0.763 49.225 0.331 0.278 0.158 MLkNN 15285 0.0197 0.7584 31 0.2213 0.294 0.202 RAkEL 852944 0.0251 0.7301 51.1808 0.3684 0.2864 0.1949 2 BR 183095 0.026 0.753 46.004 0.2972 0.2976 0.1653 CC 57636 0.025 0.743 48.533 0.324 0.283 0.162 MLkNN 13493 0.0205 0.7449 31.143 0.2141 0.3036 0.2055 RAkEL 1015391 0.0251 0.7301 51.1808 0.3684 0.2864 0.1949

Nguyễn Thị Thảo 35 Khĩa luận tốt nghiệp

Thực nghiệm 3: Thực hiện bổ sung đặc trưng từ mơ hình chủ đề ẩn LDA vào các

phương pháp MLL. Sau đây là kết quả của một lần 3-fold:

Bảng 4.6 Kết quả thực nghiệm 3 k Thuật tốn Thời gian (s) ↓ hloss ↓ oneError ↓

Coverage rloss ↓ AP ↑ MAP ↑ 0 BR 4970278 0.0241 0.6302 42.6626 0.2751 0.4097 0.2444 CC 3932414 0.0242 0.6289 43.1161 0.281 0.4 0.2482 MLkNN 46023 0.0204 0.7314 34.6829 0.2418 0.2982 0.1769 RAkEL 27373901 0.023 0.5722 45.5304 0.302 0.4082 0.2778 1 BR 4903875 0.0235 0.637 45.6667 0.2994 0.3975 0.2526 CC 3922601 0.0235 0.6235 43.2402 0.2782 0.4151 0.2507 MLkNN 46245 0.0192 0.7328 36.4386 0.2603 0.2915 0.1939 RAkEL 27369437 0.0223 0.583 42.5493 0.2823 0.4057 0.2865 2 BR 488493 0.025 0.626 44.392 0.274 0.402 0.258 CC 38889437 0.0246 0.6032 46.583 0.2914 0.4069 0.2507 MLkNN 45709 0.0202 0.7301 37.7422 0.2666 0.2977 0.1926 RAkEL 26484095 0.0235 0.5425 42.3212 0.2764 0.4337 0.295

Nguyễn Thị Thảo 36 Khĩa luận tốt nghiệp Sau đây là biểu đồ thể hiện sự so sánh thời gian giữa 3 thực nghiệm với lần thử nghiệm đầu k=0.

Hình 4.2 So sánh thời gian giữa ba thực nghiệm

Dựa vào biểu đồ, ta thấy ở thực nghiệm 2 khi áp dụng LDA giảm số chiều đặc trưng thời gian tính tốn giảm đi đáng kể. Ngồi ra, ta thấy thời gian tính tốn của thuật tốn MLkNN xử lí nhanh nhất, thuật tốn RAkEL cĩ thời gian xử lí quá chậm.

1 2 3 1 4 16 64 256 1024 4096 16384 65536 262144 1048576 4194304 16777216 THỰC NGHIỆM LO G 2 () TH Ờ I G IA N BR CC MLkNN RAkEL

Nguyễn Thị Thảo 37 Khĩa luận tốt nghiệp Sau kết quả thực nghiệm 1, 2, 3, ta vẽ được đồ thị so sánh độ chính xác trung bình (MAP) giữa các thực nghiệm như sau:

Hình 4.3 So sánh độ chính xác trung bình giữa 3 thực nghiệm

Dựa vào biểu đồ trên, ta thấy phương pháp RakEL cĩ giá trị MAP cao nhất trong cả 3 thực nghiệm. Phương pháp MLkNN cĩ kết quả tốt nhất khi áp dụng mơ hình chủ để ẩn LDA giảm số chiều đặc trưng. Tuy nhiên, ba phương pháp BR, CC, RAkEL lại cho kết quả tốt nhất khi xây dựng tập dặc trưng bổ sung từ mơ hình chủ đề ẩn LDA.

0 0.05 0.1 0.15 0.2 0.25 0.3

MAP(1) MAP(2) MAP(3)

Nguyễn Thị Thảo 38 Khĩa luận tốt nghiệp Dựa trên kết quả thực nghiệm, khĩa luận đưa ra những nhật xét như sau:

 Áp dụng phương pháp biểu diễn LDA kết hợp với MLkNN đem lại chất lượng tốt mà thời gian xử lý nhỏ.

 Phương pháp RAKEL qua các thực nghiệm cho kết quả tốt nhưng thời gian xử lí quá lâu.

 Các phương pháp biểu diễn LDA nhìn chung làm giảm thời gian tính tốn đi đáng kể. Ví dụ như thuật tốn BR trong thực nghiệm 1 chiếm thời gian mất 1398 630 s, trong khi áp dụng mơ hình chủ đề ẩn LDA để giảm số chiều thì thời gian chỉ cịn 141891 s.

Nguyễn Thị Thảo 39 Khĩa luận tốt nghiệp

KẾT LUẬN

Qua quá trình tìm hiểu và nghiên cứu, khĩa luận đã thấy được vai trị quan trọng và tính cấp thiết của bài tốn phân lớp đa nhãn. Khĩa luận đã đưa ra được một số phương pháp phân lớp đa nhãn và áp dụng các phương pháp đĩ vào dữ liệu tiếng Việt. Đồng thời, khĩa luận đã áp dụng mơ hình chủ đề ẩn LDA để giảm số chiều đặc trưng. Từ đĩ, khĩa luận đã đề xuất ra mơ hình giải quyết được bài tốn phân lớp đa nhãn.

Khĩa luận đã đạt được các kết quả như sau:

1) Giới thiệu được bài tốn phân lớp đa nhãn và làm rõ một số phương pháp phân lớp đa nhãn.

2) Nghiên cứu và đánh giá các thuật tốn phân lớp đa nhãn dựa trên thực nghiệm.

3) Áp dụng các phương pháp học máy đa nhãn cho bài tốn gán nhãn tiếng Việt. 4) Đánh giá phương pháp kết hợp giảm số chiều đặc trưng vận dụng mơ hình

LDA và các phương pháp phân lớp đa nhãn.

5) Làm giàu đặc trưng từ mơ hình chủ đề ẩn LDA, sau đĩ kết hợp với các phương pháp phân lớp đa nhãn MLL.

Tuy nhiên, do hạn chế về mặt thời gian nên khĩa luận vẫn cịn một số hạn chế như: chưa áp dụng thực nghiệm trên miền dữ liệu phong phú, chưa nghiên cứu được hiệu quả khi thay đổi số lượng chủ đề ẩn trong mơ hình LDA.

Trong thời gian tới, tơi sẽ tiếp tục mở rộng khĩa luận bằng cách sử dụng thêm một số thuật tốn phân lớp đa nhãn khác và cải tiến mơ hình chủ đề ẩn LDA áp dụng vào phân lớp đa nhãn. Đồng thời, khĩa luận cũng đưa thêm một số độ đo để đánh giá các phương pháp phân lớp đa nhãn

Bên cạnh kết quả đã được, khĩa luận cịn cĩ nhiều thiếu sĩt và hạn chế, tơi rất mong được sự đĩng gĩp ý kiến của thầy cơ và bạn bè.

Nguyễn Thị Thảo 40 Khĩa luận tốt nghiệp

TÀI LIỆU THAM KHẢO

[1] Tao. Li, Mitsunori Ogihara and George Tzanetakis, "Detecting emotion in music,"

In Proceedings of the International Symposium on Music Information Retrieval,

pp. 239-240, Washington D.C, USA 2003.

[2] Sotiris Diplaris, Grigorios Tsoumakas and Pericles A., "Protein Classification with Multiple Algorithms," In Bozanis, P. Houstis, pp. 448-456, PCI 2005. LNCS, vol. 3746 Springer, Heidelberg 2005.

[3] Volker Roth and Bernd Fischer, "Improved functional prediction of proteins by learning kernel combinations in multilabel settings," In Proceeding of 2006 Workshop on Proba-billistic Modeling and Machine Learning in Structural and System Biology (PMSB 2006), Tuusula, Finland (2006).

[4] Xipeng Shen, Matthew Boutell, Jiebo Luo and Christoph, "Learn-ing multi-label scene classification.," Pattern Recognition, pp. 1757-1771, 2004.

[5] Kang, Jin and Sukthankar, "Correlated label propagation with application to multi- label learning," In: CVPR: Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, New York City, IEEE Computer Society Press, Los Alamitos, pp. 1719-1726, 2006.

[6] Cam-Tu Nguyen, Xuan-Hieu Phan, Natsuda Kaothanthon and Takeshi Tokuyama, "A feature-word-topic model for image annotation," pp. 1481-1484, 2010.

[7] Vlahavas, Grigorios Tsoumakas and Ioannis, "Random k-Labelsets: An Ensemble Method for Multilabel Classification," 2007.

[8] Jesse Read, Bernhard Pfahringer, Geoff Holmes and Eib, "Classifier Chains for Multi-label Classification," In: Buntine, W.Grobelnik, M. Mladenic, D. Shawe - Taylor, J. (eds.) ECML PKDD, Part II. LNCS (LNAI), vol. 5782, pp. 254 - 269, 2009.

[9] David M. Blei, Andrew Y. Ng and Michael I.Jordan, "Latent Dirichlet Allocation,"

The Journal of Machine Learning Research, vol. 3, pp. 993-1022, 2003.

[10] Zhi-Hua Zhou*, Min-Ling Zhang, Sheng-Jun Huang and Yu, "Multi-Instance Multi-Label Learning with Application to Scene Classification," National Key Laboratory for Novel Software Technology, Nanjing University, Nanjing 210046, China, pp. 2291-2320, January, 2012.

Nguyễn Thị Thảo 41 Khĩa luận tốt nghiệp [11] Grigorios Tsoumakas and Ioannis Vlahavas, "Random k-Labelsets: An Ensemble

Method for Multilabel Classification," In Proc. of the 18th European Conference on Machine Learning, Warsaw, Poland, pp. 406-417, September 17-21-2007. [12] I. K. Grigorios Tsoumakas, "Multi-Label Classification: An Overview,"

International Journal of Data Warehousing and Mining, 2007.

[13] Min-Ling Zhang and Zhi-Hua Zhou*, "ML-KNN: A Lazy Learning Approach to Multi-Label Learning," National Laboratory for Novel Software Technology Nanjing University, Nanjing 210093, China, pp. 2038-2048, 2007.

[14] Xindong Wu, Vipin Kumar and J. Ross Quinlan Joydeep , "Top 10 algorithms in data mining," Knowledge and Information Systems, March, 2008.

[15] Zoulficar Younes, Fahed Abdallah and Thierry Denceux, "Multi-label classification algorithm derived from k-Nearest neighbor rule with label dependencies," In: Proc. of the 16th European Signal Processing Conference, Lausanne, Switzerland, August, 2008.

[16] Hofmann and Thomas, "Unsupervised Learning by Probabilistic Latent Semantic Analysis," Machine Learning, pp. 177-196, 2001.

[17] Xuan-Hieu Phan, Cam-Tu Nguyen, Dieu-Thu Le, Le-Minh Nguyen, Susumu Horiguchi and Quang-Thuy Ha, "A Hidden Topic-Based Framework toward Building Applications with Short Web Documents," IEEE Transactions on Knowledge and Data Engineering, vol. 23, pp. 1617-1621, july 2011.

[18] Heinrich and Gregor, "Parameter estimation for text analysis," In Proc UAI,

Technical report, 2005.

[19] Maron, "Automatic indexing," An experimental inquiry, pp. 404-417, J.ACM 8, 3 1961.

Một phần của tài liệu CÁC PHƯƠNG PHÁP PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT KHÓA LUẬN TỐT NGHIỆP ĐẠ HỌC HỆ CHÍNH QUY (Trang 39 - 53)

Tải bản đầy đủ (PDF)

(53 trang)