Báo Cáo Đề Tài Phân Loại Văn Bản Tiếng Việt Bằng Machine Learning.pdf

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề	Phõn loại văn bản Tiếng Việt bằng Machine Learning
Tác giả	Nguyòn Thành Đ¿t, Trần Khỏnh Duy, Nụng Viỏt Dũng, Nguyòn Đức Dũng
Người hướng dẫn	PGS.TS.Nguyòn Thò Kim Anh
Trường học	ĐắI HàC BÁCH KHOA HÀ NỘI
Chuyên ngành	Nhập Mễn Hàc Máy VÀ Khai Phá DĀ LiàU
Thể loại	Báo Cáo Mễn Hàc
Năm xuất bản	2022
Thành phố	HÀ NỘI

Định dạng
Số trang	30
Dung lượng	8,53 MB

Cấu trúc

I. Giòi thiỏu và mụ tả bài toỏn (3)
- 1.1 Giòi thiỏu bài toỏn (3)
- 1.2 Mô tả bài toán (3)
II. Lấy và xÿ lý dā liáu (3)
- 2.1 Lấy dā liáu (3)
- 2.2 Xÿ lý dā liáu (4)
III. Các mô hình phân lo¿i (7)
- 3.1 Mụ hỡnh phõn lòp Naive Bayes (7)
- 3.2 Mô hình tuy¿n tính Logistic Regression (8)
- 3.3 Mụ hỡnh phõn lòp SVM (12)
- 3.4. Phõn lo¿i văn bản bằng Perceptron Đa tầng vòi pre-train là PhoBERT (19)
IV. So sánh và k¿t luÁn (27)
V. Khó khăn và cách khắc phục (29)
VI. Tài liáu tham khảo và công nghá sÿ dụng (29)

Nội dung

- Tiền xử lý dữ liệu tiếng Việt cho bài toán phân loại văn bản thưßng gồm các việc sau: • Chuẩn hóa bảng mã Unicode đưa về Unicode tổ hợp dựng sẵn • Thực hiện tách từ tiếng Việt sử dụng

Giòi thiỏu và mụ tả bài toỏn

Giòi thiỏu bài toỏn

Phân loại văn bản (Text Classification) là bài toán thuộc nhóm hác có giám sát (Supervised learning) trong hác máy Bài toán này yêu cầu dữ liệu cần có nhãn (label) Mô hình sẽ hác từ dữ liệu có nhãn đó, sau đó được dùng để dự đoán nhãn cho các dữ liệu mới mà mô hình chưa gặp Phân loại văn bản Tiếng Việt là bài toỏn cổ điển và đó cú nhiều ngưòi giải quyết, và ta cú thể hỏc hỏi rất nhiều từ những ngưòi đi trước Do đú nhúm đó quyết đònh chỏn đề tài này.

Mô tả bài toán

- Đầu vào phần text gồm: Đề mục và phần tóm tắt (title and abstract)

- Đầu ra: Thể loại của bài báo.

Lấy và xÿ lý dā liáu

Lấy dā liáu

- Dữ liệu huấn luyện cho bài toán được thu thập tại: https://vietnamnet.vn

- Bộ dữ liệu được thu thập trong ngày 7/6/2022 theo 14 thể loại bài báo khác nhau với tổng số 19.182 bản ghi dữ liệu (150 trang đối với mỗi thể loại).

Xÿ lý dā liáu

- Bước tiền xử lý dữ liệu là bước đầu tiên cần làm Việc tiền sử lý dữ liệu là quá trình chuẩn hóa dữ liệu và loại bỏ các thành phần không có ý nghĩa cho việc phân loại văn bản

- Tiền xử lý dữ liệu tiếng Việt cho bài toỏn phõn loại văn bản thưòng gồm các việc sau:

• Chuẩn hóa bảng mã Unicode (đưa về Unicode tổ hợp dựng sẵn)

• Thực hiện tách từ tiếng Việt (sử dụng thư viện tách từ như pyvi, undertheresa, vncorenlp,…)

• Đưa về văn bản lower (viết thưòng)

• Xóa các ký tự đặc biệt:

Ngày đăng: 13/06/2024, 09:33