Giòi thiỏu và mụ tả bài toỏn
Giòi thiỏu bài toỏn
Phân loại văn bản (Text Classification) là bài toán thuộc nhóm hác có giám sát (Supervised learning) trong hác máy Bài toán này yêu cầu dữ liệu cần có nhãn (label) Mô hình sẽ hác từ dữ liệu có nhãn đó, sau đó được dùng để dự đoán nhãn cho các dữ liệu mới mà mô hình chưa gặp Phân loại văn bản Tiếng Việt là bài toỏn cổ điển và đó cú nhiều ngưòi giải quyết, và ta cú thể hỏc hỏi rất nhiều từ những ngưòi đi trước Do đú nhúm đó quyết đònh chỏn đề tài này.
Mô tả bài toán
- Đầu vào phần text gồm: Đề mục và phần tóm tắt (title and abstract)
- Đầu ra: Thể loại của bài báo.
Lấy và xÿ lý dā liáu
Lấy dā liáu
- Dữ liệu huấn luyện cho bài toán được thu thập tại: https://vietnamnet.vn
- Bộ dữ liệu được thu thập trong ngày 7/6/2022 theo 14 thể loại bài báo khác nhau với tổng số 19.182 bản ghi dữ liệu (150 trang đối với mỗi thể loại).
Xÿ lý dā liáu
- Bước tiền xử lý dữ liệu là bước đầu tiên cần làm Việc tiền sử lý dữ liệu là quá trình chuẩn hóa dữ liệu và loại bỏ các thành phần không có ý nghĩa cho việc phân loại văn bản
- Tiền xử lý dữ liệu tiếng Việt cho bài toỏn phõn loại văn bản thưòng gồm các việc sau:
• Chuẩn hóa bảng mã Unicode (đưa về Unicode tổ hợp dựng sẵn)
• Thực hiện tách từ tiếng Việt (sử dụng thư viện tách từ như pyvi, undertheresa, vncorenlp,…)
• Đưa về văn bản lower (viết thưòng)
• Xóa các ký tự đặc biệt: