Phần 4: Thử nghiệm và đánh giá 4.1.Cài đặt.
4.2. Thử nghiệm, đánh giá 1.Thử nghiệm.
4.2.1. Thử nghiệm.
Ta sẽ huấn luyện mô hình kiểm tra lỗi chính tả sử dụng:
• Data: Sử dụng data trên trang http://viet.jnlp.org/download-du-lieu-tu- vung-corpus. Cụ thể:
o File VNTQcorpus(small).txt o Kích thước: ~35 Mb.
o Số lượng câu: khoảng 300.000 câu.
o Dữ liệu không có phân loại theo thể loại, nhưng tập trung vào thể loại văn bản nghệ thuật.
o Đã qua xử lý cơ bản như:
Chỉnh sửa lại những kí tự lỗi khi chuyển từ html sang dạng text.
Loại bỏ những câu giống nhau.
Loại bỏ những câu có thể không phải tiếng Việt. (dựa vào thống kê các kí tự đặc trưng của tiếng Việt như: ả, ạ, á, ã, ...)
• Sử dụng thư viện tensorflow GPU
• Code python 3
• Cấu hình máy GPU: Geforce GTX 1060(cấu hình giả định)
• Thời gian training: ~ 1 ngày.(thời gian giả định)
Sau khi training ta tiến hành kiểm tra lỗi chính tả cho các câu được trọn random trong bộ dữ liệu test (được lấy ra từ 1 phần của data đầu vào sau khi đã tiền xử lý)
Sau đây là một số kết quả thu được:
Hình 4.3. Thực nghiệm 1
Hình 4.5. Thực nghiệm 3
Hình 4.6. Thực nghiệm 4
Hình 4.7. Thực nghiệm 5
Hình 4.8. Thực nghiệm 6
4.2.2. Đánh giá.
Do dữ liệu sử dụng huấn luyện và thử nghiệm khá lớn khoảng 200000 câu (chỉ tính dấu phân cách câu là dấu “.”), tôi sử dụng khoảng 100000 câu (độ dài trong khoảng 10 đến 101 ký tự) để làm dữ liệu huấn luyện và thử nghiệm. Trong đó sẽ sử dụng khoảng 89000 câu (~85% tổng số câu) cho tập dữ liệu huấn luyện và 15700 (~15% tổng số câu) cho tập dữ liệu thử nghiệm. Độ học ban đầu dùng cho mô hình là learning_rate = 0.001
Sau đó tiến hành training cho dữ liệu với số lần train (epochs) lần lượt là 1, 2, 3, 5, 10, … Sau đó tiến hành thử nghiệm cho tập dữ liệu thử nghiệm.
Kết quả thu được độ mất mát (loss) của dữ liệu (sai lỗi chính tả) sau mô hình so với dữ liệu đầu ra chuẩn.
Kết Luận
Với những kết quả đạt được trong báo cáo này, trong tương lai hi vọng sẽ cải thiện được chất lượng báo cáo hơn.