Chương 4. Thực nghiệm và đánh giá
4.3 Mô tả tập dữ liệu
4.3.1 Tập dữ liệu đầu vào cho học máy đa nhãn
Luận văn sử dụng tập dữ liệu đã được xử lý [3]. Tập dữ liệu này là các bài báo trên trang http://vnexpress.net với các lĩnh vực Xã-hội, Kinh-doanh, Thế-giới, Khoa- học, Ô-tô-xe-máy, Bạn-đọc. Dữ liệu thu thập của các bài báo có cấu trúc: dòng đầu là nhãn (tags) của mỗi bài báo, những dòng còn lại là nội dung của các bài báo.
Tập dữ liệu là 2694 bài báo sau khi loại bỏ bài báo trùng lặp và loại bỏ một số bài không có nhãn trong top 100 nhãn có tần số cao nhất.
Tổng hợp tất cả các nhãn có trong 2694 bài báo, sau đó lấy 100 nhãn có tần số lớn nhất làm nhãn của dữ liệu. Sau đây, danh sách 100 nhãn ứng với định dạng nhãn (DF)
Bảng 4.3: Danh sách một số nhãn
Tên nhãn (DF) Tên nhãn (DF) Tên nhãn (DF) Tên nhãn (DF)
mỹ (210) honda (57) điếu (39) động_vật (29)
tết (179) tranh_chấp (56) senkaku (39) cháy (29)
xe (154) chia_tay (54) ngư (39) đà_nẵng (28)
tiên (112) môtô (53) biển (39) yamaha (28)
trung_quốc (106) tình_yêu (51) cặp_bồ (38) tập_trận (28) người (101) mô_tô (49) mâu_thuẫn (37) khoa_học (28)
gia_đình (100) phú (48) đức (36) hải_quân (28)
giao_thông (96) nhà (48) sóc_trăng (36) bắt_giữ (28) nhật_bản (90) chồng (48) giết_người (36) đảo (27)
vàng (87) tp (47) cướp (36) tài_sản (27)
tai_nạn (85) xe_hơi (46) quân_sự (35) thử (27)
hạnh_phúc (84) việt (46) tỷ (34) con (27)
hà_nội (80) công_an (46) tỵ (34) nạn_nhân (26)
quê_hương (77) ngân_hàng (45) tên_lửa (34) jong (26) ôtô (74) máy_bay (44) thanh_hóa (34) cưỡng_hiếp (26) nga (73) cảnh_sát (44) bình_dương (34) công_nghệ (26)
hcm (71) anh (43) tổng_thống (33) đường (25)
việt_nam (70) hiếp_dâm (42) tàu (33) scooter (25)
ly_hôn (70) tòa_án (41) sjc (33) không (25)
xuân (67) thứ_ba (41) hỏa (33) thế_giới (24)
triều (66) siêu (41) tử_vong (32) năm_mới (24)
ô_tô (63) lừa_đảo (41) quảng_ngãi (32) độ (23)
xe_máy (62) hàn_quốc (41) quý (32) xe_buýt (23)
giá (62) chứng_khoán (41) quốc (31) vợ (23)
hạt_nhân (60) ấn_độ (40) tư_vấn (30) triển_lãm (15)
Sau đó, ta xây dựng tệp chứa 100 nhãn có tần số xuất hiện lớn nhất, tiến hành loại bỏ một số bài báo mà không có nhãn thuộc top 100 nhãn mà ta đang xét. Sau đó, tổng hợp tệp word chứa tất cả các từ trong các bài báo mà vừa có được. Theo phương pháp TF, xây dựng được tệp word chứa 2000 từ (đặc trưng) có tần số lớn nhất trong các bài báo.
Theo mẫu dữ liệu của Mulan, Tệp ARFF là tệp chứa dữ liệu: định nghĩa các đặc trưng và nhãn của dữ liệu có dạng như sau:
Hình 4.1: Dạng tệp dữ liệu ARFF
Tệp ARFF gồm tên của mối tương quan (@relation); danh sách các đặc trưng từ 1->
2000 đối với phương pháp TF và danh sách các nhãn từ 1-> 100; dữ liệu được định nghĩa sau @data mỗi dòng là một bài báo.
Sau khi xây dựng được tệp dữ liệu thử nghiệm, ta chia tệp dữ liệu đó thành tập dữ liệu học và dữ liệu kiểm tra theo phương pháp k-fold cross validation.
4.3.2 Tính khoảng cách giữa các nhãn
Từ tập dữ liệu các từ đã tách được từ các bài báo, luận văn sử dụng là dữ liệu đầu vào của công cụ word2vec để sinh ra vector biểu diễn của các từ và khoảng cách giữa các nhãn.
Sau đó, luận văn tính độ gần nhau giữa các nhãn trong 100 nhãn đầu vào ở trên và xuất ra tệp tin txt. Tệp tin này sẽ được sử dụng để cho giải thuật phân lớp đa nhãn Classifier
Chain để tích hợp độ gần nhau giữa các nhãn vào phương pháp Classifier Chain ban đầu.
Biểu đồ sau sẽ trình bày ví dụ về khoảng cách giữa nhãn “tết” với các nhãn còn lại trong tập nhãn với các giá trị khoảng cách sinh ra từ word2vec:
Hình 4.2: Biểu đồ ví dụ về kết quả khoảng cách nhãn từ công cụ word2vec
Luận văn sử dụng các tệp dữ liệu đầu vào cho việc chạy thực nghiệm như sau:
Bảng 4.4: Mô tả các tệp dữ liệu đầu vào cho thực nghiệm
STT Tên Tệp tin Mô tả tệp tin Sử dụng
1 docs.txt
Tệp chứa 2000 từ (đặc trưng) có tần số lớn nhất trong các bài báo, xây dựng từ phương pháp TF.
Tập từ vựng đầu vào cho word2vec tool để lấy ra vector biểu diễn của các từ.
2 partitions.txt
Tệp chứa kết quả paritition theo phương pháp k-fold cross validation.
Tệp partition đầu vào cho việc phân lớp đa nhãn.
3 vnexp.arff Tệp dữ liệu ARFF Tệp dữ liệu đầu vào cho việc phân lớp đa nhãn.
4 vnexp.xml Tệp xml định nghĩa nhãn
Tệp định nghĩa nhãn đầu vào cho việc phân lớp đa nhãn.
-0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6
xuân quê_hương xe quý_tỵ tp hcm lừa_đảo nhà không việt người đà_nẵng thanh_hóa vàng năm_mới yamaha sjc nạn_nhân đảo hạt_nhân công_nghệ tập_trận tỷ hiếp_dâm trung_quốc hải_quân chồng tòa_án
Biểu đồ biểu diễn khoảng cách giữa nhãn "tết" với các nhãn trong tập nhãn