Chương này đã giới thiệu các lý thuyết cơ sở của các kỹ thuật tiền xử lý như co giãn và làm mờ ảnh, bên cạnh đó tìm hiểu cụ thể về mơ hình CNN và hướng tiếp cận sử dụng mơ hình CNN để nhận dạng tự động captcha. Trong chương tiếp theo với lý thuyết tiền đề của chương này luận văn sẽ giới thiệu chi tiết quá trình thực nghiệm nhận dạng
Chương 3
Kết quả thực nghiệm
Với các lý thuyết tiền đề về tiền xử lý và mơ hình CNN đã được đề cập trong chương trước. Chương này sẽ giới thiệu các thành phần cụ thể trong quá trình thực nghiệm nhận dạng tự động captcha gồm có bộ dữ liệu, ngơn ngữ lập trình sử dụng, tham số mơ hình CNN tương ứng với từng bộ dữ liệu và độ đo thực nghiệm. Bên cạnh đó phần này sẽ giới thiệu cụ thể quy trình thực nghiệm, các yếu tố liên quan và những so sánh, đánh giá với các bộ dữ liệu.
3.1 Bộ dữ liệu sử dụng
Luận văn sử dụng 5 bộ dữ liệu captcha khác nhau được kí hiệu lần lượt là Dataset- 1, Dataset-2, Dataset-3, Dataset-4 và Dataset-5 xếp theo độ phức tạp của từng loại captcha.
Dataset-1
Hình 3.1: Một số mẫu dữ liệu trong bộ dữ liệu Dataset-1
Dataset-1 là bộ captcha đơn giản nhất với kích thước 72×24chứa 4 kí tự được tạo bởi hỗn hợp 2 bộ kí tự bào gồm:
a. Các số từ 2 đến 9
b. Các chữ cái hoa trong bảng chữ cái tiếng Anh được loại bỏ các chữ : I,O do dễ bị nhầm lẫn với kí tự J,0,Q.
Với nền trắng sạch sẽ khơng bị nhiễu, các kí tự khơng thẳng hàng và chữ cái khơng đứng thẳng và có sự kết nối nhỏ giữa một số kí tự với nhau mục đích chống lại các phương pháp nhận dạng chữ bằng máy cơ bản như hình 3.2 .
Ví dụ: