Như đã nói từ trước, chúng ta cần phải có một tập mẫu bao gồm các ảnh là biến thể của 35 kí tự cần nhận dạng để huấn luyện mạng. Những ảnh này chỉ bao gồm hai mức xám là đen (foreground) và trắng (background), và được chuẩn hóa về một kích cỡ cố định là 32 x 32. Chất lượng cũng như số lượng của tập mẫu ảnh hưởng quyết định tới khả năng nhận dạng của mạng sau khi học. Để thu thập được một tập mẫu đủ chất lượng và đa dạng là một công việc đòi hỏi nhiều nỗ lực. Vì thời gian cũng như khả năng có hạn nên em chỉ kịp thu thập được 2690 kí tự. Trong đó 10 kí tự đầu tiên là chữ số in, 790 kí tự tiếp theo là chữ số viết tay, 1900 kí tự cuối là chữ cái viết tay.
Để tiện cho việc thu thập mẫu chúng ta cần xây dựng một chương trình thực hiện việc cập nhật tập mẫu huấn luyện cũng như tập mẫu kiểm thử. Đầu vào của chương trình là một ảnh chứa một bảng các hàng và các cột. Ứng với mỗi hàng và mỗi cột sẽ là một ô chứa kí tự mẫu. Một bảng sẽ bao gồm chỉ các kí tự số hoặc chỉ các kí tự chữ cái. Các kí tự sẽ được sắp xếp lần lượt theo chiều dọc hay theo chiều ngang như 0, 1, …, 8, 9 hay A, B, …, Y, Z để thuận lợi cho việc lấy nhãn của kí tự khi cắt ảnh.
Hình 4.2: Ảnh chứa các mẫu kí tự chữ cái.
Khi đầu vào đã được chuẩn hóa, công việc còn lại dành cho chương trình chỉ là việc tách hàng, tách cột, tìm ô dựa và histogram tương tự như những phần trước đã trình bày. Cuối cùng, khi ghi file ảnh kí tự lên đĩa, chúng ta gắn nhãn của kí tự vào cuối tên file để thuận lợi cho hình thành tập đích sau này.
Hình 4.3: Giao diện cập nhật mẫu kí tự.