Mô hình nhận diện chữ viết tay

Một phần của tài liệu Nhận diện chữ viết tay tiếng việt (Trang 43 - 45)

4.3 Hướng tiếp cận

Trong phần này, em xin đề xuất hai hướng tiếp cận để nhận diện chữ viết tay tiếng Việt. 4.3.1 Phương pháp 1

Hướng đi chính của phương pháp này là nhận diện chữ viết tay ra kết quả không dấu trước, sau đó sẽ dùng thêm một mô hình sửa lỗi chính tả và tự động thêm dấu câu để có kết quả cuối cùng là một câu tiếng Việt đầy đủ và hoàn chỉnh.

Mục đích chính của việc sử dụng nhãn không dấu là để giảm tải cho mô hình nhận diện, giúp huấn luyện được mô hình nhanh hơn.

4.3.1.1 Thông số huấn luyện

Thông số huấn luyện của phương pháp: • Batch size: 8

• Learning rate: 0.1 • Learning rate decay: 0.01 • Start decay step: 0 • Decay steps: 10000 4.3.2 Phương pháp 2

Hướng tiếp cận này sẽ trực tiếp huấn luyện ra mô hình nhận diện chữ viết tay có dấu. Hướng tiếp cận này sẽ giảm tải được mô hình tự động thêm dấu tiếng Việt.

Sau khi thực nghiệm, mô hình này tuy có thời gian huấn luyện lâu, nhưng độ chính xác ra khá tốt, do đó sẽ không cần thiết sử dụng phương pháp 1 nữa.

4.3.2.1 Thông số huấn luyện

Thông số huấn luyện của phương pháp: • Batch size: 2

• Learning rate: 0.5 • Learning rate decay: 0.5 • Start decay step: 250000 • Decay steps: 80000

4.3.3 Môi trường huấn luyện

Mô hình sẽ được huấn luyện trên Google Colab, với các thông số phần cứng như sau: • CPU: Intel(R) Xeon(R) CPU @ 2.00GHz

• GPU: Tesla T4 • Memory: 13GB • Hard disk: 30GB 4.3.4 Dữ liệu

Cả hai phương pháp sẽ sử dụng chung một tập dữ liệu hình ảnh để huấn luyện và thử nghiệm. Tập dữ liệu được sử dụng để huấn luyện như đã trình bày ở phần trên, với 1823 ảnh gốc từ tập dữ liệu Cinnamon, 9115 ảnh biến đổi bằng phương pháp biến đổi, và 1823 ảnh sinh ra từ mô hình RNN. Với tổng cộng 12761 ảnh, tập dữ liệu được chia thành 2 tập train và test ngẫu nhiên.

4.3.5 Nhãn huấn luyện

Nhãn của mỗi ảnh được tiền xử lý từ chuỗi địa chỉ gốc của mỗi ảnh. Do việc huấn luyện sẽ theo từng token, vì vậy cần tách chuỗi ra các token nhỏ, mà ở đây sẽ là mỗi chữ cái. Đầu tiên, thay thế mỗi khoảng trắng trong chuỗi bằng một dấu "_", sau đó tách mỗi kí tự ra bằng một khoảng trắng " ". Đối với phương pháp huấn luyện ra chữ tiếng Việt không dấu, thay đổi tất cả các kí tự có dấu về dạng không dấu (vd: ă -> a, đ -> d,...).

Một phần của tài liệu Nhận diện chữ viết tay tiếng việt (Trang 43 - 45)

Tải bản đầy đủ (PDF)

(57 trang)