Từ Hình 3.1 có thể thấy hai bài tốn mà luận văn tập trung vào bao gồm: - Ứng dụng mạng CNN cho nhận dạng chữ viết tay: Trong phần này, dựa trên bộ dữ liệu MNIST về chữ viết tay. Luận văn sẽ đề xuất một số kiến trúc mạng CNN, sau đó tiến hành luyện mạng và đánh giá. Các tham số thu được của quá trình luyện mạng đối với kiến trúc mạng CNN có hiệu suất cao nhất sẽ được sử dụng trong phần mềm mô phỏng để minh họa việc nhận dạng. Đồng thời, kiến trúc này cũng sẽ được áp dụng cho bài toán nhận dạng mã Captcha.
- Ứng dụng mạng CNN cho bài toán giải mã CAPTCHA: Trên cơ sở một bộ mẫu Captcha chuẩn, luận văn sẽ tiến hành các thao tác xử lý ảnh để lọc nhiễu, tiền xử lý hình ảnh Captcha, tách ra các chữ cái và xây dựng bộ cơ sở dữ liệu cho quá trình luyện mạng, huấn luyện mạng CNN có cấu trúc tốt nhất ở trên, xây dựng phần mềm mô phỏng từ tham số luyện mạng thu được.
Mỗi bài tốn sẽ được trình bày lần lượt theo trình tự thực hiện bao gồm: Mơ tả bài toán, cách thức xây dựng kiến trúc mạng, cách thức xây dựng chương trình mơ phỏng và đánh giá dựa trên một số kết quả đạt được.
Bài toán nhận dạng chữ viết tay
3.2.1 Mơ tả bài tốn
Với khả năng xử lý một lượng lớn đầu vào và xử lý chúng để suy ra các mối quan hệ ẩn và phức tạp, mạng CNN đã đóng một vai trị quan trọng trong xử lý hình ảnh, đặc biệt là nhận dạng ký tự viết tay.
Thách thức chính nảy sinh từ vấn đề nhận dạng chữ số viết tay (Hand Written Digits Recognition - HWDR) nằm ở chỗ các chữ số viết tay (trong cùng một chữ số) khác nhau rất nhiều về hình dạng, độ rộng đường và kiểu, ngay cả khi chúng được chuẩn hóa về kích thước và tập trung chính xác.