1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo Cáo Đề Tài Phân Loại Văn Bản Tiếng Việt Bằng Machine Learning.pdf

30 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phõn loại văn bản Tiếng Việt bằng Machine Learning
Tác giả Nguyòn Thành Đ¿t, Trần Khỏnh Duy, Nụng Viỏt Dũng, Nguyòn Đức Dũng
Người hướng dẫn PGS.TS.Nguyòn Thò Kim Anh
Trường học ĐắI HàC BÁCH KHOA HÀ NỘI
Chuyên ngành Nhập Mễn Hàc Máy VÀ Khai Phá DĀ LiàU
Thể loại Báo Cáo Mễn Hàc
Năm xuất bản 2022
Thành phố HÀ NỘI
Định dạng
Số trang 30
Dung lượng 8,53 MB

Cấu trúc

  • I. Giòi thiỏu và mụ tả bài toỏn (3)
    • 1.1 Giòi thiỏu bài toỏn (3)
    • 1.2 Mô tả bài toán (3)
  • II. Lấy và xÿ lý dā liáu (3)
    • 2.1 Lấy dā liáu (3)
    • 2.2 Xÿ lý dā liáu (4)
  • III. Các mô hình phân lo¿i (7)
    • 3.1 Mụ hỡnh phõn lòp Naive Bayes (7)
    • 3.2 Mô hình tuy¿n tính Logistic Regression (8)
    • 3.3 Mụ hỡnh phõn lòp SVM (12)
    • 3.4. Phõn lo¿i văn bản bằng Perceptron Đa tầng vòi pre-train là PhoBERT (19)
  • IV. So sánh và k¿t luÁn (27)
  • V. Khó khăn và cách khắc phục (29)
  • VI. Tài liáu tham khảo và công nghá sÿ dụng (29)

Nội dung

Giòi thiỏu và mụ tả bài toỏn

Giòi thiỏu bài toỏn

Phân loại văn bản (Text Classification) là bài toán thuộc nhóm hác có giám sát (Supervised learning) trong hác máy Bài toán này yêu cầu dữ liệu cần có nhãn (label) Mô hình sẽ hác từ dữ liệu có nhãn đó, sau đó được dùng để dự đoán nhãn cho các dữ liệu mới mà mô hình chưa gặp Phân loại văn bản Tiếng Việt là bài toỏn cổ điển và đó cú nhiều ngưòi giải quyết, và ta cú thể hỏc hỏi rất nhiều từ những ngưòi đi trước Do đú nhúm đó quyết đònh chỏn đề tài này.

Mô tả bài toán

- Đầu vào phần text gồm: Đề mục và phần tóm tắt (title and abstract)

- Đầu ra: Thể loại của bài báo.

Lấy và xÿ lý dā liáu

Lấy dā liáu

- Dữ liệu huấn luyện cho bài toán được thu thập tại: https://vietnamnet.vn

- Bộ dữ liệu được thu thập trong ngày 7/6/2022 theo 14 thể loại bài báo khác nhau với tổng số 19.182 bản ghi dữ liệu (150 trang đối với mỗi thể loại).

Xÿ lý dā liáu

- Bước tiền xử lý dữ liệu là bước đầu tiên cần làm Việc tiền sử lý dữ liệu là quá trình chuẩn hóa dữ liệu và loại bỏ các thành phần không có ý nghĩa cho việc phân loại văn bản

- Tiền xử lý dữ liệu tiếng Việt cho bài toỏn phõn loại văn bản thưòng gồm các việc sau:

• Chuẩn hóa bảng mã Unicode (đưa về Unicode tổ hợp dựng sẵn)

• Thực hiện tách từ tiếng Việt (sử dụng thư viện tách từ như pyvi, undertheresa, vncorenlp,…)

• Đưa về văn bản lower (viết thưòng)

• Xóa các ký tự đặc biệt:

Ngày đăng: 13/06/2024, 09:33

HÌNH ẢNH LIÊN QUAN

Hỡnh chữ S cú thể lấy bất kỳ số nào cú giỏ trò thực và ỏnh xạ nú thành một giỏ trò - Báo Cáo Đề Tài Phân Loại Văn Bản Tiếng Việt Bằng Machine Learning.pdf
nh chữ S cú thể lấy bất kỳ số nào cú giỏ trò thực và ỏnh xạ nú thành một giỏ trò (Trang 8)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w