1) Tiền xử lý
4.2 TIỀN XỬ LÝ
4.2.1 Nhị phân hóa ảnh
Ảnh Bitmap là định dạng ảnh do Microsoft đề xuất, có phần mở rộng là BMP dùng để lưu trữ trên máy tính hoặc những thiết bị điện tử khác. Dữ liệu ảnh bitmap là một ma trận điểm ảnh, mỗi điểm ảnh được biểu diễn bởi một số bit. Mỗi một điểm ảnh, số bit biểu diễn màu của nó được gọi là độ sâu màu sắc (color depth) và có thể là 1, 4, 8, 16, 24 hoặc 32 bit cho mỗi điểm ảnh. Với ảnh 24 bit, mỗi thành phần màu được biểu
diễn bởi một byte (8 bit), với ảnh 16 bit màu, mỗi điểm ảnh được biểu diễn bởi 4 bit, với ảnh 1 bit mỗi điểm ảnh được biểu diễn bởi 1 bit.
Các thuộc tính tiêu biểu của một tập tin ảnh BMP là:
Số bit trên mỗi điểm ảnh (bit per pixel), thường được ký hiệu bởi n. Một ảnh BMP n-bit có màu. Giá trị n càng lớn thì ảnh càng có nhiều màu, và càng rõ nét hơn. Giá trị tiêu biểu của n là 1 (ảnh đen trắng), 4 (ảnh 16 màu), 8 (ảnh 256 màu), 16 (ảnh 65536 màu) và 24 (ảnh 16 triệu màu);
Chiều cao của ảnh (height); Chiều rộng của ảnh (width).
Ảnh bitmap được chia thành ba dạng là ảnh đen trắng, ảnh đa mức xám và ảnh màu. Ảnh đen trắng là ảnh mà mỗi điểm ảnh chỉ thể hiện một trong hai trạng thái 0 và 1 để biểu diễn trạng thái điểm ảnh đen hay trắng. Ảnh đa mức xám là ảnh mà mỗi điểm ảnh được biểu diễn bởi một giá trị cường độ sáng của điểm ảnh. Ảnh màu là ảnh mà mỗi điểm ảnh được đại diện bởi ba giá trị màu RGB, ứng với mỗi đại lượng R, G, B ta sẽ được một giá trị màu tương ứng. Số lượng màu mà máy tính có thể biểu diễn lên tới hàng triệu màu. Nhưng số màu thực sự của một ảnh nào đó có thể là khá nhỏ. Để tiết kiệm bộ nhớ, với các ảnh có số lượng màu nhỏ hơn 256 thì màu của các điểm ảnh được lưu trữ dưới dạng bảng màu (palette). Với các ảnh có số màu lớn hơn 256 thì màu của điểm ảnh không tổ chức dưới dạng bảng màu, khi đó giá trị của các điểm ảnh chính là giá trị của các thành phần màu R, G, B.
Ảnh màu được lưu trữ khá phức tạp, do đó để nhận dạng chữ nói chung và nhận dạng chữ Nôm nói riêng từ ảnh màu sẽ rất phức phức tạp, tốn nhiều công và thời gian xử lý. Trong nhận dạng chữ nói chung và nhận dạng chữ Nôm nói riêng, người ta chỉ quan tâm để phân biệt trong ảnh đâu là điểm ảnh nền và đâu là điểm ảnh chữ, để phân biệt như vậy người ta chỉ cần sử dụng ảnh đen – trắng là đủ. Do vậy để thuận tiện cho việc nhận dạng người ta thường chuyển đổi ảnh màu sang ảnh đen trắng dạng 1 bit.
4.2.2 Kỹ thuật tách ký tự
Trong xử lý nhận dạng chữ, từ ảnh đầu vào, người ta phải tách các ảnh con chứa các chữ ra, công đoạn này còn gọi là boxer ảnh. Trong văn
tự chữ Nôm, các chữ được viết thẳng hàng, thẳng cột nên việc boxer ảnh khá thuận tiện. Phương pháp boxer ảnh thường dựa vào kỹ thuật dò biên. Trên một ảnh văn tự chữ Nôm, người ta dò ra biên trái, biên phải, biên trên, biên dưới của một hàng (hoặc một cột). Sau khi dò biên ta lấy ra được một hàng (hoặc một cột) của văn tự, trên hàng (hoặc cột) đó người ta lại tiếp tục sử dụng kỹ thuật dò biên để lấy ra các chữ độc lập. Kết quả boxer có thể là các ảnh chữ Nôm, có thể là một mảng chứa tọa độ của từng chữ Nôm trong ảnh văn tự.
Vấn đề xác định điểm ảnh và điểm nền rất quan trọng trong phương pháp dò biên. Do ảnh đầu vào là ảnh đen trắng 1-bit nên việc xác định điểm ảnh nền và điểm ảnh chữ rất đơn giản. Điểm ảnh nền là điểm ảnh màu trắng, điểm ảnh chữ là điểm ảnh màu đen. Điểm ảnh là màu trắng nếu cả ba thành phần màu cơ bản R,G,B của điểm ảnh đó đều bằng không. Qua đó để xác định điểm ảnh và điểm nền ta xử dụng thuật toán kiểm tra điểm ảnh như sau:
Nếu thành phần R của điểm ảnh bằng 0 và thành phần G của và thành phần B của điểm ảnh bằng không thì điểm ảnh đó là điểm ảnh nền, còn ngược lại điểm ảnh đó là điểm ảnh chữ. Hiện thực thuật toán bằng C# như sau;
/// <summary>
/// Kiểm tra một điểm màu có là màu nền hay không
/// </summary>
/// <param name="cPixel">Pixel cần kiểm tra</param>
/// <returns>Kết quả trả về</returns>
private bool IsBackColor(Color cPixel) {
if ((cPixel.R == 0) && (cPixel.G == 0) && (cPixel.B == 0)) {
return true; }
return false; }