.5 – Phân loại tập văn bản vào các chủ đề chung

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân loại thông điệp trên mạng xã hội tiếng việt (Trang 26 - 27)

Tập dữ liệu thu thập từ Vnexpress

Bộ lọc nội dung văn bản

Tập dữ liệu gồm nội dung, mơ tả và tiêu đề

văn bản, các từ đã được tách

Chủ đề chung Văn bản

Kinh-tế_Tài-chính_Ngân-hàng

- Bầu kiên bị bắt vì sai phạm tại ba cơng ty

- Việt Nam lại rớt hạng năng lực cạnh tranh

- Giá vàng trong nước cao hơn thế giới gần 3 triệu đồng

- Bầu Kiên bị khởi tố tội 'lừa đảo'

- …..

Giao-thơng_Tai-nạn

- Cựu tuyển thủ Huy Hồng 'múa hát' sau khi gây tai nạn

- Một giờ cố thủ, 'múa hát' trong xế hộp của Huy Hồng

- Hàng nghìn phương tiện 'bơi' trên Quốc lộ 1A

- Xe Fortuner húc cơ gái văng xa gần 10m

- …..

Thảm-họa

- 4 nạn nhân vẫn bị chơn vùi ở mỏ quặng sạt lở

- Kho nhựa cháy lan sang 10 phịng trọ

- 9 người chết, lũ miền Trung tiếp tục lên cao

- 'Động đất khơng ảnh hưởng an tồn thủy điện Sơng Tranh'

- …..

…… - ……

Bảng 3.1 – Minh họa phân loại văn bản vào các chủ đề chung

Bước 3 - Thu thập sự kiện:

 Áp dụng đối với từng tập văn bản đã được phân loại ở bước 2.

 Chọn lấy những từ Viết Hoa trong văn bản. Loại bỏ các từ dừng (như và, cũng, thì, là…) , các từ chung (như cơng ty, tổ chức, ủy ban…), các từ khơng phải danh từ (như kiện, từ chối, đề nghị…), các danh từ chung khơng mang ý nghĩa phân loại như (Việt Nam, Hà Nội, Sài Gịn…)

 Lựa chọn sắp xếp các từ liên quan đến sự kiện cịn lại theo thứ tự giảm dần số lượt xuất hiện. Lựa chọn top p từ khĩa trong số này làm tiền đề cho bước sau.

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân loại thông điệp trên mạng xã hội tiếng việt (Trang 26 - 27)