Cơ sở lý thuyết tiền xử lý ảnh phục vụ nhận dạng ký tự

MỤC LỤC

Lấy đường biên và làm trơn đường biên

Làm trơn đường biên là duyệt theo đường biên, nếu hai điểm liên tiếp trên đường biên có hiệu số hướng lớn hơn 1 thì có thể hiệu chỉnh để có đường biên mà hai điểm liên tiếp có hiệu số hướng bằng 1. Goi ci là mã hướng tại điểm biên đang xét pi , ci+1 làmã hướng của điểm kế tiếp trên đường biên pi+1.

RÚT ĐẶC TRƯNG

CÁC MÔ HÌNH NHẬN DẠNG

Một số khái niệm về nhận dạng
Một số thuật tốn phân lớp
Hoạt động

Lý thuyết nhận dạng là một lĩnh vực khoa học mới phát triển nhưng đã đạt được nhiều thành tựu đáng kể về lý luận và ứng dụng trong thực tiễn, chứng tỏ khả năng của máy tính điện tử, có thể mô hình hố được một số chức năng tương đối phức tạp của trí tuệ con người. Lý thuyết thống kê về nhận dạng là một nhánh phát triển từ thống kê tốn học, sử dụng các phương pháp cơ bản của thống kê tốn để nghiên cứu vấn đề nhận dạng có yếu tố ngẫu nhiên và lượng thông tin đủ lớn. Công trình đầu tiên ở phương Tây theo hướng này là của Sebestyen, mới đây hai nhà tốn học Liên Xô là Vapnhic và Trecvonenkix đã cho ra một tài liệu khá đầy đủ về vấn đề này.

Do nhu cầu cấp bách phải giải quyết các vấn đề thực tiễn hoạt động sản xuất, nghiên cứu khoa học kỹ thuật hiện đại đặt ra, cùng với các kỹ thuật tin học mới phát triển (đặc biệt là máy tính điện tử ), nhiều chuyên gia thuộc các lĩnh vực hoạt động khác nhau cũng đã đề xuất và sử dụng các mô hình, thuật tốn nhận dạng trên cơ sở thực nghiệm, theo cách tiếp cận heuristic. Trong đó Nj là số vectơ mẫu từ lớp ωj, M là số lớp cần phân biệt và tổng được xác định từ các vectơ này, cách xác định lớp của một vectơ mẫu x chưa biết là chỉ định nó cho lớp đơn điệu gần nhất. Tuy nhiên để có được sự phân biệt tốt giữa hai tập khi chiếu lên phương w, ta cần có độ sai khác giữa hai trị trung bình này khá lớn hơn so với độ lệch chuẩn nội tại của mỗi tập ( có thể xem như độ rộng của đám mây các mẫu).

Mỗi nút trong một lớp nhận giá trị từ các nút ở lớp liền trước, tổng hợp lại theo trọng số của cung kết nối và chuyển giá trị kết xuất của nó cho các nút ở lớp liền sau. Trong đó J là số nút ẩn với các kết xuất yj, bjk là các trọng trên các cung liên kết từ nút ẩn j đến nút xuất thứ k, còn b0k là trọng ngưỡng của nút xuất thứ k, g(vk) là hàm truyền theo k. Công thức trên có thể diễn dịch như sau: cập nhật lại trọng số theo hướng ngược hướng của gradient với độ dài vectơ dịch chuyển phụ thuộc vào ε và độ lớn của vectơ đạo hàm.

(trong công thức này chỉ số j đã được bỏ đi vì chỉ có một nút ẩn tham gia) Công thức trên cho thấy ảnh hưởng của nút ẩn vào hàm E là một tổng theo tất cả các nút xuất (k=1…K) của tích ba số hạng. Trong cách học thông thường của thuật tốn lan truyền ngược, mỗi khi ta đưa vào mạng một mẫu học đạo hàm hàm lỗi được tính và trọng số được cập nhật ngay, sau đó mẫu học tiếp theo được đưa vào mạng và quá trình trên được lặp lại cho từng mẫu học. Phương pháp học theo bước học đã được ứng dụng rộng rãi trong các hệ thống xử lý lớn nhờ khả năng áp dụng việc xử lý song song cho việc tính tốn các đạo hàm riêng phần.

Hình vẽ đồ thị hàm logistic (a=1). Miền giá trị của hàm là(0, 1).

KẾT QUẢ THỬ NGHIỆM

Nhận dạng một văn bản

Giả thiết coi đầu vào chỉ là một ảnh văn bản đơn giản: chỉ có một cột và gồm các kí tự ( tuy nhiên không nhất thiết chỉ chứa kí tự vì có thể hồn tồn loại bỏ các liên thông là hình ảnh nếu căn cứ vào kích thước của chúng).

Minh hoạ chương trình

Hướng của pixel được xác định so với pixel ở trung tâm của ô vuông kích thước 8x8. Giải thuật nhận dạng trong chương trình dựa trên ý tưởng: tìm một mẫu trong số các mẫu lưu trữ có đặc trưng gần giống nhất với mẫu nhận dạng. Chương trình minh hoạ cho nhận dạng văn bản tiếng Việt không chứa kí tự đặc biệt, kết quả cho thấy việc tách chữ và xác định hàng tương đối chính xác, độ chính xác nhận dạng khoảng 93-95%.

Nạp ảnh văn bản cần nhận dạng vào, sau đó nhấn nút nhận dạng để xem kết quả.

Giới thiệu chương trình

Bước đầu thử nghiệm em xây dựng bộ nhận dạng cho 2 lớp kí tự gồm: kí tự là chữ cái không có dấu và kí tự là chữ số. Do một số kí tự khi viết hoa hay viết thường đều giống nhau, chỉ khác nhau về mặt kích thước, do đó đối với những kí tự này ta có thể xét thêm kích thước của chữ, nếu kích thước lớn hơn một ngưỡng nhất định thì coi là chữ hoa, ngược lại là chữ thường. Về mặt kí tự số ta sẽ không phân biệt được số “0” và kí tự chữ “O”, do đó chương trình tách riêng nhận dạng kí tự chữ và nhận dạng số.

Chương trình được cài đặt bằng công cụ lập trình Borland Delphi 5.0 chạy trên môi trường Windows.

Thực hiện chương trình

Mạng thứ nhất được thử nghiệm trên 2366 mẫu học đối với lớp kí tự chữ. Sau thời gian học mạng thứ nhất và mạng thứ hai phân biệt gần hồn tồn các mẫu đã học, đặc biệt khả năng tổng quát của mạng rất cao.

Bảng kết quả thử nghiệm trên một số người:

Minh hoạ một số kết quả

Phiếu đăng kí môn học dùng ở phòng đào tạo Trường Đại Học Thuỷ Sản Nha Trang, là một biểu mẫu nhằm mục đích thu nhận thông tin đăng kí môn học của sinh viên, bao gồm các môn học được sinh viên đăng kí học và các môn sinh viên hủy bỏ. Với số lượng sinh viên ngày càng tăng, chương trình xử lí phiếu đăng kí môn học này nhằm giúp việc đăng kí môn học được nhanh chóng, tiết kiệm thời gian và công sức nhập dữ liệu cho nhân viên phòng đào tạo. Trên đây là mô hình tổng thể cho hệ thống vừa nêu, tuy nhiên để áp dụng vào thực tế cần phải có một hệ thống quản lí sinh viên và các môn học.

Việc kiểm tra tính đúng đắn của dữ liệu và lưu trữ dữ liệu sẽ do hệ thống này đảm nhiệm, mục tiêu của thử nghiệm này là thực hiện công đoạn: xử lí và nhận dạng ảnh thu được để cho ra kết quả có thể chỉnh sửa. Tương tự nếu xét theo hướng ngang từ đầu biểu mẫu đến cuối biểu mẫu thì tiêu đề ngang của biểu mẫu là vùng có mức năng lượng thay đổi cao đầu tiên. Sau khi loại bỏ hiện tượng nhiễu này, ảnh kí tự được đưa vào bộ xác định véctơ đặc trưng để xử lý và rút ra vectơ đặc trưng cho kí tự cần nhận dạng.

Sau đó, tiến hành xác định véctơ đặc trưng kí tự như trong chương trình thử nghiệm nhận dạng chữ viết tay vừa nêu, dựa trên cơ sở lý thuyết đã trình bày ở phần II, chương III. Do đặc điểm dữ liệu cần phân lớp chỉ gồm các kí tự số, và một số kí tự viết hoa, nên số lớp kí tự được thu nhỏ lại, điều này nâng cao khả năng nhận biết và độ chính xác của mạng. Có những vị trí mà ta biết trước chắc chắn dữ liệu là kí tự chữ hay kí tự số, do đó có thể sử dụng ràng buộc này để tăng độ chính xác cho việc phân lớp của mạng.

Đó là sự kết hợp giữa xử lí ảnh và lý thuyết nhận dạng nhằm giải quyết một phần bài tốn nhận dạng chữ viết tay và phát triển một số ứng dụng dựa trên kết quả đã đạt được. Khả năng nhận dạng các kí tự chữ số và kí tự chữ cái viết hoa là tương đối tốt, với trạng thái viết thoải mái, bình thường và kiểu chữ viết không phức tạp. Hệ thống cài đặt còn hạn chế về giao diện, việc quản lí bộ nhớ chưa được chú trọng, cụ thể cần phải thay đổi định dạng file ảnh lưu trữ vì kích thước định dạng file *.bmp là quá lớn.

Hình vẽ: Sơ đồ mô hình của hệ xử lí phiếu đăng kí môn học tự động

Hướng phát triển

Nhìn chung đồ án đã hồn thành về mặt cơ bản nội dung đã đề ra. Để đánh giá chính xác hiệu quả của chương trình cần nhiều thời gian và những kiểm nghiệm thực tế. Điều này cho thấy hướng đi của lý thuyết đề ra là hợp lý, làm nền tảng cơ sở cho sự phát triển ứng dụng sau này của hệ thống.

Ta chỉ mất nhiều thời gian cho quá trình huấn luyện mạng, song quá trình nhận dạng thì đơn giản và nhanh chóng. Với cơ sở lý thuyết đã nêu và những thử nghiệm cho thấy dựa vào đó ta có thể xây dựng được nhiều ứng dụng khác nhau.