Dữ liệu là yếu tố quan trọng nhất và cũng là vấn đề mà chúng ta cần quan tâm nhất. Trong quá trình xây dựng một hệ thống phân loại văn bản, bước chuẩn bị và tiền xử lý dữ liệu quyết định tới thành bại của hệ thống hơn cả.
Việc đầu tiên phải làm tiền xử lý dữ liệu. Việc tiền sử lý dữ liệu là quá trình chuẩn hóa dữ liệu và loại bỏ các thành phần không có ý nghĩa cho việc phân loại văn bản.
Tiền xử lý dữ liệu tiếng Việt cho bài toán phân loại văn bản thường gồm các việc sau:
Loại bỏ stopword và xoá các ký tự đặc biệt. Việc này giúp cho:
Giảm chiều dữ liệu, tăng tốc độ học và xử lý
19
Tách từ:
Đơn vị từ của tiếng Việt bao gồm từ đơn và từ ghép
Việc làm này giúp mô hình tránh nhận thiếu từ ghép
Đưa văn bản về viết thường:
Việc làm này giúp giảm số lượng đặc trưng và tăng độ chính xác cho
mô hình
……
Xây dựng mô hình phân loại văn bản
Trong nội dung của luận văn này, mô hình fasttext được chọn làm mô hình phân loại văn bản. Dữ liệu tin tức (tiêu đề và nội dung tóm tắt) được tông hợp từ
các website chứng khoán lớn ở Việt Nam chia làm 3 nhãn và gán thủ công. Trong
đó:
- Tích cực: 400 bài
- Tiêu cực: 400 bài
- Trung tính: 400 bài
Dữ liệu được chia làm 2 tập train/test với tỉ lệ là 8:2 (dữ liệu train: 320 bài mỗi
nhãn, dữ liệu test: 80 bàimỗi nhãn).
Các thông số được cài đặt với thư viện fastext:
Epoch = 50
Tỷ lệ học (learning rate) = 0.05
20
3.3.2 Mô hình dựđoán giá
Bài toán dự đoán giá cổ phiếu có tập đầu vào là các chỉ số chứng khoán của từng mã cổ phiếu. Đầu ra là giá dự đoán của các ngày tiếp theo. Mô hình triển khai sẽ thực hiện theo hình bên dưới.
Hình 3.7. Sơ đồ huấn luyện mô hình dự đoán giá cổ phiếu Chuẩn bị dữ liệu