Kỹ thuật tách ký tự

Một phần của tài liệu Phương pháp trích chọn đặc trưng cho bài toán nhận dạng chữ Nôm (Trang 39)

1) Tiền xử lý

4.2.2 Kỹ thuật tách ký tự

Trong xử lý nhận dạng chữ, từ ảnh đầu vào, người ta phải tách các ảnh con chứa các chữ ra, công đoạn này còn gọi là boxer ảnh. Trong văn

tự chữ Nôm, các chữ được viết thẳng hàng, thẳng cột nên việc boxer ảnh khá thuận tiện. Phương pháp boxer ảnh thường dựa vào kỹ thuật dò biên. Trên một ảnh văn tự chữ Nôm, người ta dò ra biên trái, biên phải, biên trên, biên dưới của một hàng (hoặc một cột). Sau khi dò biên ta lấy ra được một hàng (hoặc một cột) của văn tự, trên hàng (hoặc cột) đó người ta lại tiếp tục sử dụng kỹ thuật dò biên để lấy ra các chữ độc lập. Kết quả boxer có thể là các ảnh chữ Nôm, có thể là một mảng chứa tọa độ của từng chữ Nôm trong ảnh văn tự.

Vấn đề xác định điểm ảnh và điểm nền rất quan trọng trong phương pháp dò biên. Do ảnh đầu vào là ảnh đen trắng 1-bit nên việc xác định điểm ảnh nền và điểm ảnh chữ rất đơn giản. Điểm ảnh nền là điểm ảnh màu trắng, điểm ảnh chữ là điểm ảnh màu đen. Điểm ảnh là màu trắng nếu cả ba thành phần màu cơ bản R,G,B của điểm ảnh đó đều bằng không. Qua đó để xác định điểm ảnh và điểm nền ta xử dụng thuật toán kiểm tra điểm ảnh như sau:

Nếu thành phần R của điểm ảnh bằng 0 và thành phần G của và thành phần B của điểm ảnh bằng không thì điểm ảnh đó là điểm ảnh nền, còn ngược lại điểm ảnh đó là điểm ảnh chữ. Hiện thực thuật toán bằng C# như sau;

/// <summary>

/// Kiểm tra một điểm màu có là màu nền hay không

/// </summary>

/// <param name="cPixel">Pixel cần kiểm tra</param>

/// <returns>Kết quả trả về</returns>

private bool IsBackColor(Color cPixel) {

if ((cPixel.R == 0) && (cPixel.G == 0) && (cPixel.B == 0)) {

return true; }

return false; }

Một phần của tài liệu Phương pháp trích chọn đặc trưng cho bài toán nhận dạng chữ Nôm (Trang 39)

Tải bản đầy đủ (PDF)

(75 trang)