- 4 1tiế n hành khi chúng ta đ ã xây d ự ng đựợ c
2. Phân tích phiếu đăng ký th
Mục đích cuối cùng của việc phân tích phiếu đăng ký thi là bĩc tách ảnh ký tự trong các ơ điền thơng tin để đưa vào bộ nhận dạng. Trước tiên phiếu cần được tiền xử lý để khơi phục và nâng cao chất lượng ảnh quét. Ba thủ tục tiền xử lý được áp dụng là phân ngưỡng ảnh, lọc nhiễu [3] và căn chỉnh độ nghiêng. Thủ tục căn chỉnh độ nghiêng rất quan trọng vì nĩ ảnh hưởng trực tiếp đến việc định vị các ơ chữ nhật trên phiếu và ảnh hưởng đến kết quả nhận dạng ký tự. Các phương pháp căn chỉnh độ nghiêng phổ biến cĩ hiệu quả khơng cao khi áp dụng vào những văn bản thưa và nhiều ký hiệu như phiếu đăng ký thi. Để căn giải quyết vấn đề này, chúng tơi đưa ba hình trịn vào ba gĩc phiếu rồi dùng những hình trịn này để xác định và căn chỉnh độ nghiêng.
Sau khi tiền xử lý ảnh quét của phiếu, việc cần làm tiếp theo là xác định vị trí của các ơ điền thơng tin. Do các ơ điền thơng tin của phiếu là hình chữ nhật nên một cách tiếp cận để xác định vị trí các ơ này là nhận dạng các hình chữ nhật cĩ trong phiếu. Để cĩ thể xử lý phiếu trong gian ngắn, chúng tơi đưa ra thuật tốn
nhận dạng các ơ điền thơng tin bằng cách đánh giá hình dáng của đường bao quanh ơ. Tuy phương pháp này khơng tổng quát bằng phương pháp sử dụng biến đổi Hough [4] nhưng lại cĩ tốc độ cao và hiệu quả trong việc nhận dạng các ơ điền thơng tin. Trong trường hợp thí sinh viết sai qui định, đè lên đường biên của ơ, hoặc vì một lý do nào đĩ, đường biên của ơ bịđứt đoạn thì đường bao tìm được sẽ khơng cịn là hình chữ nhật nữa. Khi đĩ ta cần phải dựa vào template của phiếu đăng ký dự thi và những ơ đã tìm được để xác định vị trí của những ơ cịn lại. Ý tưởng chính của thuật tốn xác định vị trí là xây dựng ma trận mơ tả vị trí tương đối giữa các ơ tìm được, sau đĩ so sánh với ma trận template để xác định vị trí vị trí tuyệt đối và các ơ cịn thiếu (ứng với những vị trí khuyết trên ma trận template).
Sau khi đã xác định được vị trí các ơ điền thơng tin, cơng việc cuối cùng của quá trình phân tích phiếu là bĩc tách ảnh ký tự bên trong những ơ này. Để phân biệt ký tự nằm trong ơ với đường biên của ơ, chúng tơi sử dụng biểu đồ phân phối điểm ảnh đen. Tương ứng với những miền trên biểu đồ mà số lượng điểm điểm ảnh đen giảm xuống đột ngột chính là vùng “đệm” giữa đường biên và ký tự bên trong ơ. Để bĩc tách ảnh ký tự, ta chỉ cần lấy phần ảnh nằm giữa những vùng đệm.
Như vậy sau quá trình phân tích phiếu, ảnh của từng ký tự được bĩc tách, cơng việc tiếp theo là nhận dạng những ký tự này.