.5 – Phân bổ trọng số từ khĩa trong mỗi tập chủ đề sau khi chuẩn hĩa

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân loại thông điệp trên mạng xã hội tiếng việt (Trang 39 - 43)

Thay (6.1) vào (4), ta được cơng thức tính trọng số đối sánh mới

2 10 10 10

1

_ k log (log ( 2) log ( 2) 2).log ( i) .

i total weight R i x f k             (6) Trong đĩ

- R là tổng số từ khĩa được lấy ở mỗi chủ đề - i là vị trí của từ khĩa đang được tính

- k là tổng số từ khĩa chung giữa chủ đề và thơng điệp - fi là trọng số của từ khĩa chung trong thơng điệp - x là hằng số biến đổi từ 0 đến 1.

4.4. Một số kết quả đối sánh

Thực nghiệm luận văn đã thực hiện được một số phép đối sánh chủ đề với dữ liệu tập chủ đề chung, chủ đề nĩng được xây dựng ở chương 4 và cơng thức đề xuất phần 4.3, một số kết quả thu được như bảng 4.1, 4.2, 4.3, 4.4, 4.5 và 4.6 dưới đây:

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 keyword 1 keyword 5 keyword 10 keyword 15 keyword 20 keyword 30 keyword 40 keyword 50 keyword 60 keyword 70 keyword 80 keyword 90 keyword 10 0 keyword 15 0 keyword 20 0 keyword 25 0 keyword 30 0 keyword 35 0 keyword 40 0 keyword 45 0 keyword 50 0 weight

36

Chủ đề chung

Giáo dục

Message 752: [thủ_khoa, học, lớp, trường, chuyên, phan_bội_châu, nghệ_an, hiện, riêng,

12a1, điều, đặc_biệt, bạn, thi, khối]

Message 670: [điểm_chuẩn chiều, trường, đh thương, mại, hà_nội, cơng_bố, ngành, cao,

kinh_tế, thương_mại, điểm]

Bảng 4.1 – Thơng điệp thuộc chủ đề giáo dục

Giải trí

Message 721: [thu_minh, hà_hồ, đua, rơi, nước_mắt, cháu, gái, lam_trường, ca_khúc, i, will,

survive, tiêu_châu_như_quỳnh, cơ, ca_sĩ, đoạt, giải, cuộc, thi, ngơi_sao, tiếng, hát, truyền_hình, nam, nổi_tiếng, vpop, bộ_tứ, giám_khảo, kiềm_chế, cảm_xúc, rơi_lệ, ghế, nĩng, đêm, thứ, tư]

Message 739: [diễn_viên, đĩng, cảnh, nude, tiết_lộ, giá, đi_khách, sao, hoa_ngữ,

chương_tử_di, phim, dạ, yến, thiệu_tiểu_san, gây, chú_ý, đăng_tải, bài, viết, chuyện, ngơi_sao, trang, cá_nhân]

Bảng 4.2 – Thơng điệp thuộc chủ đề giải trí

Thị trường – Tiêu dung

Message 200: [tăng_giá, hiện_tại, chợ, đầu_mối, địa_bàn, hà_nội, rau, xanh, xu_hướng,

giảm_giá, nguồn, cung, hàng_hĩa, dồi_dào, trở_lại, lẻ, chợ_cĩc, giá, cao, tiểu_thương, cố, neo, kiếm, lãi, lợi_dụng, trời, mưa, thực_phẩm, đắt_đỏ]

Message 251: [hàng, tẩy_chay, tìm, cách, đội_lốt, nước, tiêu_thụ, nhân, bánh_trung_thu,

trung_quốc, việt_nam, chợ, tp.hcm, giá, rẻ, xuất_xứ, bán, tràn_lan, mác]

Bảng 4.3 – Thơng điệp thuộc chủ đề Thị trường – Tiêu dùng

Chủ đề nĩng:

Mưa lũ miền Trung

Message 65: [Cầu_Chày, Quảng_Phú, Thanh_Hĩa, Thọ_Xuân, lượng, mưa, nước, lũ, dâng,

cao, tràn, bờ, gây, ngập_lụt, tuyến, đê, chắn, sơng, cầu_chày, xã, quảng_phú, huyện, thọ_xuân, thanh_hĩa, vỡ, đoạn, vùng, mênh_mơng, ngập, cuốn, _, xã_hội, dân_trí]

Message 227: [Trung, tính, giờ, chiều, địa_bàn, tỉnh, người, chết, mất_tích, lũ, gây, đợt,

miền, trung]

Huy Hồng phê thuốc

Message 73: [Huy_Hồng, Hằng, phản_ánh, gia_đình, nạn_nhân, hơm, chị, hằng, nằm, viện,

người, gây, tai_nạn, thăm_hỏi, vụ, xe, đại_náo, cầu_thủ, huy_hồng, lên_tiếng]

Message 576: [Cựu, Huy_Hồng, Thanh_Hĩa, vi_phạm_giao_thơng, câu_lạc_bộ, trụ_sở,

cơ_quan_cơng_an, va_chạm, cầu_thủ, huy_hồng, thốt, nghi_án, phê, thuốc, kết_luận, cuối_cùng, phía, ca, tp, thanh_hĩa, cho_hay, cựu, tuyển_thủ, vi_phạm]

Bảng 4.5 – Thơng điệp thuộc chủ đề nĩng Huy-Hồng-phê-thuốc

Động đất thủy điện Sơng Tranh

Message 299: [Bắc_Trà_My, Quảng_Nam, Sơng_Tranh, Trà_My, rung, chấn, người_dân,

hoảng_hốt, địa_chất, vùng, chắc, vấn_đề, rung_chuyển, mạnh, thủy_điện, sơng_tranh, 19h, 21h, tối, thị_trấn, khu_vực, lịng, hồ, huyện, bắc_trà_my, quảng_nam, xảy, hiện_tượng, nổ, đất]

Message 240 : [Sơng_Tranh, sáng, trận, động_đất, mạnh, độ, richter, xảy, khu_vực,

thủy_điện, sơng_tranh, liên_tiếp]

38

Chương 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ

5.1 Mơi trường thực nghiệm, dữ liệu, và các tham số

Tập dữ liệu gồm cĩ:

- 49 chủ đề chung được tổng hợp từ 300 chủ đề được sinh tự động từ tập dữ liệu Baomoi.com, bằng phương pháp LDA.[7]

- 300 bài báo được lấy từ vnexpress.net (dùng cho thực nghiệm phần phát hiện chủ đề nĩng)

- 500 thơng điệp được lấy từ trang ZingLive(live.zing.vn) (dùng cho thực nghiệm phần phân loại thơng điệp)

Dữ liệu thí nghiệm được chạy trên máy tính PC cấu hình:

- RAM 4GB

- Bộ xử lý Intel(R) Core(TM) i5 3.20GHz

Các module chương trình

- Module tiền xử lý dữ liệu, thực hiện các việc chọn nội dung từ file html (nếu cĩ), tách câu, tách từ, loại bỏ các ký tự đặc biệt, loại bỏ từ dừng, loại bỏ các từ phổ biến (khơng cĩ ý nghĩa trong việc phân loại). Module này do tác giả xây dựng, cĩ sử dụng các mã nguồn như tool jsoup, bộ cơng cụ của tác giả Phan Xuân Hiếu.

- Module phát hiện và trích trọn chủ đề nĩng. Do tác giả xây dựng, dựa trên các lý thuyết và cơng thức đã được đề cập ở các chương trước.

- Module đối sánh thơng điệp và chủ đề, do tác giả xây dựng, dựa trên các cơng thức đề xuất ở chương 4.

5.2. Phát hiện chủ đề nĩng

 Dữ liệu thực nghiệm gồm cĩ:

o 49 chủ đề chung

o 300 bài báo lấy ngẫu nhiên trong ba chủ đề Kinh tế, Xã hội, Giải trí của báo vnexpress

Thiết lập thơng số  Thí nghiệm 1:

o Số file chung tối thiểu: 3

o Trọng số tối thiểu của từ khĩa sự kiện: 5

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân loại thông điệp trên mạng xã hội tiếng việt (Trang 39 - 43)