Hình 5.3 – Tỉ lệ phát hiện chủ đề nóng thành công

Một phần của tài liệu Phân loại thông điệp trên mạng xã hội tiếng Việt (Trang 39)

            (6) Trong đó

- R là tổng số từ khóa được lấy ở mỗi chủ đề - i là vị trí của từ khóa đang được tính

- k là tổng số từ khóa chung giữa chủ đề và thông điệp - fi là trọng số của từ khóa chung trong thông điệp - x là hằng số biến đổi từ 0 đến 1.

4.4. Một số kết quả đối sánh

Thực nghiệm luận văn đã thực hiện được một số phép đối sánh chủ đề với dữ liệu tập chủ đề chung, chủ đề nóng được xây dựng ở chương 4 và công thức đề xuất phần 4.3, một số kết quả thu được như bảng 4.1, 4.2, 4.3, 4.4, 4.5 và 4.6 dưới đây:

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 keyword 1 keyword 5 keyword 10 keyword 15 keyword 20 keyword 30 keyword 40 keyword 50 keyword 60 keyword 70 keyword 80 keyword 90 keyword 10 0 keyword 15 0 keyword 20 0 keyword 25 0 keyword 30 0 keyword 35 0 keyword 40 0 keyword 45 0 keyword 50 0 weight

36

Chủ đề chung

Giáo dục

Message 752: [thủ_khoa, học, lớp, trường, chuyên, phan_bội_châu, nghệ_an, hiện, riêng,

12a1, điều, đặc_biệt, bạn, thi, khối]

Message 670: [điểm_chuẩn chiều, trường, đh thương, mại, hà_nội, công_bố, ngành, cao,

kinh_tế, thương_mại, điểm]

Bảng 4.1 – Thông điệp thuộc chủ đề giáo dục

Giải trí

Message 721: [thu_minh, hà_hồ, đua, rơi, nước_mắt, cháu, gái, lam_trường, ca_khúc, i, will,

survive, tiêu_châu_như_quỳnh, cô, ca_sĩ, đoạt, giải, cuộc, thi, ngôi_sao, tiếng, hát, truyền_hình, nam, nổi_tiếng, vpop, bộ_tứ, giám_khảo, kiềm_chế, cảm_xúc, rơi_lệ, ghế, nóng, đêm, thứ, tư]

Message 739: [diễn_viên, đóng, cảnh, nude, tiết_lộ, giá, đi_khách, sao, hoa_ngữ,

chương_tử_di, phim, dạ, yến, thiệu_tiểu_san, gây, chú_ý, đăng_tải, bài, viết, chuyện, ngôi_sao, trang, cá_nhân]

Bảng 4.2 – Thông điệp thuộc chủ đề giải trí

Thị trường – Tiêu dung

Message 200: [tăng_giá, hiện_tại, chợ, đầu_mối, địa_bàn, hà_nội, rau, xanh, xu_hướng,

giảm_giá, nguồn, cung, hàng_hóa, dồi_dào, trở_lại, lẻ, chợ_cóc, giá, cao, tiểu_thương, cố, neo, kiếm, lãi, lợi_dụng, trời, mưa, thực_phẩm, đắt_đỏ]

Message 251: [hàng, tẩy_chay, tìm, cách, đội_lốt, nước, tiêu_thụ, nhân, bánh_trung_thu,

trung_quốc, việt_nam, chợ, tp.hcm, giá, rẻ, xuất_xứ, bán, tràn_lan, mác]

Bảng 4.3 – Thông điệp thuộc chủ đề Thị trường – Tiêu dùng

Chủ đề nóng:

Mưa lũ miền Trung

Message 65: [Cầu_Chày, Quảng_Phú, Thanh_Hóa, Thọ_Xuân, lượng, mưa, nước, lũ, dâng,

cao, tràn, bờ, gây, ngập_lụt, tuyến, đê, chắn, sông, cầu_chày, xã, quảng_phú, huyện, thọ_xuân, thanh_hóa, vỡ, đoạn, vùng, mênh_mông, ngập, cuốn, _, xã_hội, dân_trí]

Message 227: [Trung, tính, giờ, chiều, địa_bàn, tỉnh, người, chết, mất_tích, lũ, gây, đợt,

miền, trung]

37

Huy Hoàng phê thuốc

Message 73: [Huy_Hoàng, Hằng, phản_ánh, gia_đình, nạn_nhân, hôm, chị, hằng, nằm, viện,

người, gây, tai_nạn, thăm_hỏi, vụ, xe, đại_náo, cầu_thủ, huy_hoàng, lên_tiếng]

Message 576: [Cựu, Huy_Hoàng, Thanh_Hóa, vi_phạm_giao_thông, câu_lạc_bộ, trụ_sở,

cơ_quan_công_an, va_chạm, cầu_thủ, huy_hoàng, thoát, nghi_án, phê, thuốc, kết_luận, cuối_cùng, phía, ca, tp, thanh_hóa, cho_hay, cựu, tuyển_thủ, vi_phạm]

Bảng 4.5 – Thông điệp thuộc chủ đề nóng Huy-Hoàng-phê-thuốc

Động đất thủy điện Sông Tranh

Message 299: [Bắc_Trà_My, Quảng_Nam, Sông_Tranh, Trà_My, rung, chấn, người_dân,

hoảng_hốt, địa_chất, vùng, chắc, vấn_đề, rung_chuyển, mạnh, thủy_điện, sông_tranh, 19h, 21h, tối, thị_trấn, khu_vực, lòng, hồ, huyện, bắc_trà_my, quảng_nam, xảy, hiện_tượng, nổ, đất]

Message 240 : [Sông_Tranh, sáng, trận, động_đất, mạnh, độ, richter, xảy, khu_vực,

thủy_điện, sông_tranh, liên_tiếp]

38

Chương 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ

5.1 Môi trường thực nghiệm, dữ liệu, và các tham số

Tập dữ liệu gồm có:

- 49 chủ đề chung được tổng hợp từ 300 chủ đề được sinh tự động từ tập dữ liệu Baomoi.com, bằng phương pháp LDA.[7]

- 300 bài báo được lấy từ vnexpress.net (dùng cho thực nghiệm phần phát hiện chủ đề nóng)

- 500 thông điệp được lấy từ trang ZingLive(live.zing.vn) (dùng cho thực nghiệm phần phân loại thông điệp)

Dữ liệu thí nghiệm được chạy trên máy tính PC cấu hình:

- RAM 4GB

- Bộ xử lý Intel(R) Core(TM) i5 3.20GHz

Các module chương trình

- Module tiền xử lý dữ liệu, thực hiện các việc chọn nội dung từ file html (nếu có), tách câu, tách từ, loại bỏ các ký tự đặc biệt, loại bỏ từ dừng, loại bỏ các từ phổ biến (không có ý nghĩa trong việc phân loại). Module này do tác giả xây dựng, có sử dụng các mã nguồn như tool jsoup, bộ công cụ của tác giả Phan Xuân Hiếu.

- Module phát hiện và trích trọn chủ đề nóng. Do tác giả xây dựng, dựa trên các lý thuyết và công thức đã được đề cập ở các chương trước.

- Module đối sánh thông điệp và chủ đề, do tác giả xây dựng, dựa trên các công thức đề xuất ở chương 4.

5.2. Phát hiện chủ đề nóng

 Dữ liệu thực nghiệm gồm có:

o 49 chủ đề chung

o 300 bài báo lấy ngẫu nhiên trong ba chủ đề Kinh tế, Xã hội, Giải trí của báo vnexpress

39 Thiết lập thông số

 Thí nghiệm 1:

o Số file chung tối thiểu: 3

o Trọng số tối thiểu của từ khóa sự kiện: 5

Hình 5.1 – Số văn bản tương ứng với mỗi chủ đề nóng

Một phần của tài liệu Phân loại thông điệp trên mạng xã hội tiếng Việt (Trang 39)

Tải bản đầy đủ (PDF)

(56 trang)