Tên nhãn (DF) Tên nhãn (DF) Tên nhãn (DF) Tên nhãn (DF)
mỹ (210) honda (57) điếu (39) động_vật (29)
tết (179) tranh_chấp (56) senkaku (39) cháy (29)
xe (154) chia_tay (54) ngư (39) đà_nẵng (28)
tiên (112) mơtơ (53) biển (39) yamaha (28)
trung_quốc (106) tình_yêu (51) cặp_bồ (38) tập_trận (28) người (101) mơ_tơ (49) mâu_thuẫn (37) khoa_học (28)
giao_thơng (96) nhà (48) sĩc_trăng (36) bắt_giữ (28) nhật_bản (90) chồng (48) giết_người (36) đảo (27)
vàng (87) tp (47) cướp (36) tài_sản (27)
tai_nạn (85) xe_hơi (46) quân_sự (35) thử (27)
hạnh_phúc (84) việt (46) tỷ (34) con (27)
hà_nội (80) cơng_an (46) tỵ (34) nạn_nhân (26)
quê_hương (77) ngân_hàng (45) tên_lửa (34) jong (26) ơtơ (74) máy_bay (44) thanh_hĩa (34) cưỡng_hiếp (26) nga (73) cảnh_sát (44) bình_dương (34) cơng_nghệ (26)
hcm (71) anh (43) tổng_thống (33) đường (25)
việt_nam (70) hiếp_dâm (42) tàu (33) scooter (25)
ly_hơn (70) tịa_án (41) sjc (33) khơng (25)
xuân (67) thứ_ba (41) hỏa (33) thế_giới (24)
triều (66) siêu (41) tử_vong (32) năm_mới (24)
ơ_tơ (63) lừa_đảo (41) quảng_ngãi (32) độ (23)
xe_máy (62) hàn_quốc (41) quý (32) xe_buýt (23)
giá (62) chứng_khốn (41) quốc (31) vợ (23)
hạt_nhân (60) ấn_độ (40) tư_vấn (30) triển_lãm (15)
Sau đĩ, ta xây dựng tệp chứa 100 nhãn cĩ tần số xuất hiện lớn nhất, tiến hành loại bỏ một số bài báo mà khơng cĩ nhãn thuộc top 100 nhãn mà ta đang xét. Sau đĩ, tổng hợp tệp word chứa tất cả các từ trong các bài báo mà vừa cĩ được. Theo phương pháp TF, xây dựng được tệp word chứa 2000 từ (đặc trưng) cĩ tần số lớn nhất trong các bài báo. Theo mẫu dữ liệu của Mulan, Tệp ARFF là tệp chứa dữ liệu: định nghĩa các đặc trưng và nhãn của dữ liệu cĩ dạng như sau:
Hình 4.1: Dạng tệp dữ liệu ARFF
Tệp ARFF gồm tên của mối tương quan (@relation); danh sách các đặc trưng từ 1-> 2000 đối với phương pháp TF và danh sách các nhãn từ 1-> 100; dữ liệu được định nghĩa sau @data mỗi dịng là một bài báo.
Sau khi xây dựng được tệp dữ liệu thử nghiệm, ta chia tệp dữ liệu đĩ thành tập dữ liệu học và dữ liệu kiểm tra theo phương pháp k-fold cross validation.
4.3.2 Tính khoảng cách giữa các nhãn
Từ tập dữ liệu các từ đã tách được từ các bài báo, luận văn sử dụng là dữ liệu đầu vào của cơng cụ word2vec để sinh ra vector biểu diễn của các từ và khoảng cách giữa các nhãn.
Sau đĩ, luận văn tính độ gần nhau giữa các nhãn trong 100 nhãn đầu vào ở trên và xuất ra tệp tin txt. Tệp tin này sẽ được sử dụng để cho giải thuật phân lớp đa nhãn Classifier
Chain để tích hợp độ gần nhau giữa các nhãn vào phương pháp Classifier Chain ban đầu.
Biểu đồ sau sẽ trình bày ví dụ về khoảng cách giữa nhãn “tết” với các nhãn cịn lại trong tập nhãn với các giá trị khoảng cách sinh ra từ word2vec:
Hình 4.2: Biểu đồ ví dụ về kết quả khoảng cách nhãn từ cơng cụ word2vec
Luận văn sử dụng các tệp dữ liệu đầu vào cho việc chạy thực nghiệm như sau: