Như vậy hai giai đoạn cần cho nhận dạng đó là lựa chọn mô hình và tối ưu tham số. Đối với mạng nơron dựa vào nhận dạng lựa chọn số nút ẩn, số lớp ẩn (cấu trúc của mạng) tương đương với mô hình lựa chọn. Mạng có thể được huấn luyện theo kiểu giám sát với kỹ thuật lan truyền ngược, dựa vào luật học sai số hiệu chỉnh. Tín hiệu sai số được lan truyền ngược qua mạng. Kỹ thuật lan truyền ngược sử dụng phương pháp giảm gradient để xác định các trọng của mạng vì vậy tương đương với tối ưu tham số. Mạng nơron được huấn luyện để xấp xỉ mối quan hệ giữa các biến.Mạng nơron được huấn luyện để tối thiểu hàm sai số. Mạng được huấn luyện để tối thiểu sai số bình phương giữa đầu ra của mạng và đầu vào hệ thống, xác định một hàm truyền ngược. Trong kiểu nhận dạng này đầu ra của mạng hội tụ về đầu vào hệ sau khi huấn luyện, vì vậy mạng đặc trưng cho hàm truyền ngược của hệ. Phương pháp nhận dạng khác cần phải hướng đầu ra hệ thống tới đầu ra của mạng. Trong kiểu này mạng đặc trưng cho hàm truyền thẳng của hệ thống. Giả sử các hàm phi tuyến để mô tả hệ thuộc lớp hàm đã biết trong phạm vi quan tâm thì cấu trúc của mô hình nhận dạng phải phù hợp với hệ thống. Với giả thiết các ma trận trọng của mạng nơron trong mô hình nhận dạng tồn tại, cùng các điều kiện ban đầu thì cả hệ thống và mô hình có cùng lượng ra với bất kỳ lượng vào xác định. Do đó quá trình nhận dạng thực chất là điều chỉnh tham số của mạng nơron dựa vào sai lệch giữa các giá trị đầu ra của hệ thống và của mô hình.
Chương 3: CHƯƠNG TRÌNH THỬ NGHIỆM 3.1. Đặc trưng của phiếu điểm
Trước tiên, một vài điều kiện cần phải được áp đặt lên việc ghi phiếu để quá trình phân đoạn cũng như nhận dạng diễn ra thuận lợi đó là:
-Viết rõ ràng, không đứt đoạn, không chồng chéo.
-Điểm được viết đúng vị trí, đúng ô, không đè lên các đường bao quanh ô, không dập xóa lên phiếu.
Đặc trưng chung của các mẫu phiếu điểm rèn luyện là phần trên cùng gồm tên phiếu điểm, các thông tin mô tả của phiếu điểm (tên sinh viên, tên lớp, khoa…). Phần tiếp theo là điểm của sinh viên được ghi trong một bảng gồm nhiều hàng, mỗi hàng là số điểm của sinh viên theo một tiêu chí. Các cột số điểm do sinh viên tự đánh giá, lớp đánh giá và khoa đánh giá.
Mẫu phiếu điểm đánh giá rèn luyện: Phiếu điểm gồm các cột thông tin: Nội dung đánh giá, điểm số, điểm do sinh viên tự đánh giá, điểm do lớp đánh giá, điểm do hội đồng khoa đánh giá. Giáo viên sau khi chấm bài thi sẽ ghi điểm vào các phiếu này.
Mẫu phiếu điểm tổng kết: Phiếu điểm tổng kết gồm các cột thông tin: số thứ tự, mã sinh viên, họ tên, điểm rèn luyện, ghi chú.
Hình 22: Mẫu phiếu điểm tổng kết 3.2. Bài toán
Hiện nay, đa phần các trường học đều sử dụng phần mềm tin học để quản lý điểm rèn luyện. Việc này, giúp việc quản lý được chính xác, tra cứu nhanh chóng. Tuy nhiên, theo tìm hiểu của tác giả thì các phần mềm này đều cho chỉ cho phép in phiếu điểm để các giáo viên chấm thi nhập điểm rồi người phụ trách điểm phải có trách nhiệm nhập điểm bằng tay. Mặc dù các phần mềm hiện nay đều có chức năng in kiểm dò, nhưng công việc này vẫn hoàn toàn thủ công dẫn tới có nhiều sai sót.
Bài toán nhập điểm tự động nếu được giải quyết sẽ khắc phục được các vấn đề mà tác giả đã nêu ở trên. Việc nhập điểm tự động sẽ là quá trình thu thập ảnh biên bản chấm thi (thông thường qua máy Scanner) sau đó sẽ xử lý để đưa ra được bảng điểm chính xác dưới dạng số trên máy tính. Trong bài toán này, có hai bài toán nhỏ cần giải quyết đó là: Xác định vùng chứa dữ liệu điểm và nhận dạng chữ số viết tay. Trong phạm vi nghiên cứu của luận văn, tác giả sẽ đi tập trung nghiên cứu vào việc nhận dạng chữ số viết tay.
3.3. Tiền xử lý
Giai đoạn này góp phần làm tăng độ chính xác phân lớp của hệ thống nhận dạng, tuy nhiên nó cũng làm cho tốc độ nhận dạng của hệ thống chậm lại. Vì vậy, tùy thuộc vào chất lượng ảnh quét vào của từng phiếu điểm cụ thể để chọn một hoặc một vài chức năng trong khối này. Nếu cần ưu tiên tốc độ xử lý và chất lượng của máy quét tốt thì có thể bỏ qua giai đoạn này. Khối tiền xử lý bao gồm một số chức năng: Nhị phân hóa ảnh, lọc nhiễu, chuẩn hóa kích thước ảnh, làm trơn biên chữ, làm đầy chữ, làm mảnh chữ và xoay văn bản.
Nhị phân hóa ảnh
Nhị phân hóa ảnh là một kỹ thuật chuyển ảnh đa cấp xám sang ảnh nhị phân. Trong bất kỳ bài toán phân tích hoặc nâng cao chất lượng ảnh nào, nó cũng cần thiết để xác định các đối tượng quan trọng. Nhị phân hóa ảnh phân chia ảnh thành 2 phần: phần nền và phần chữ. Hầu hết các phương pháp nhị phân hóa ảnh hiện nay đều lựa chọn một ngưỡng thích hợp theo cường độ sáng của ảnh và sau đó chuyển tất cả các giá trị độ sáng lớn hơn ngưỡng đó thành một giá trị độ sáng (ví dụ “trắng”) và tất cả các giá trị bé hơn ngưỡng thành một giá trị độ sáng khác (“đen”).
Hình 23: Nhị phân hóa ảnh.
Lọc nhiễu
Nhiễu là một tập các điểm sáng thừa trên ảnh. Khử nhiễu là một vấn đề thường gặp trong nhận dạng, nhiễu có nhiều loại (nhiễu đốm, nhiễu vệt, nhiễu đứt nét...).
Hình 24: Lọc nhiễu.
Để khử các nhiễu đốm (các nhiễu với kích thước nhỏ), có thể sử dụng các phương pháp lọc (lọc trung bình, lọc trung vị...). Tuy nhiên, với các nhiễu vệt (hoặc các nhiễu có kích thước lớn) thì các phương pháp lọc tỏ ra kém hiệu quả, trong trường hợp này sử dụng phương pháp khử các vùng liên thông nhỏ tỏ ra có hiệu quả hơn.
Chuẩn hóa kích thước ảnh
Hình 25: Chuẩn hóa kích thước ảnh các số “4” và “6”.
Việc chuẩn hóa kích thước ảnh dựa trên việc xác định trọng tâm ảnh, sau đó xác định khoảng cách lớn nhất từ tâm ảnh đến các cạnh trên, dưới, trái, phải của hình chữ nhật bao quanh ảnh. Thông qua khoảng cách lớn nhất đó, có thể xác định được một tỷ lệ co, giãn của ảnh gốc so với kích thước đã xác định, từ đó hiệu chỉnh kích thước ảnh theo tỷ lệ co, giãn này. Như vậy, thuật toán chuẩn hóa kích thước ảnh luôn luôn đảm bảo được tính cân bằng khi co giãn ảnh, ảnh sẽ không bị biến dạng hoặc bị lệch.
Làm trơn biên chữ
Đôi khi do chất lượng quét ảnh quá xấu, các đường biên của chữ không còn giữ được dáng điệu trơn tru ban đầu mà hình thành các đường răng cưa giả tạo. Trong các trường hợp này, phải dùng các thuật toán làm trơn biên để khắc phục.
(a) Ảnh gốc, (b) Ảnh sau khi được làm trơn biên.
Hình 26: Làm tròn biên chữ.
Chức năng này được áp dụng với các ký tự bị đứt nét một cách ngẫu nhiên. Ảnh đứt nét gây khó khăn cho việc tách chữ, dễ bị nhầm hai phần liên thông của ký tự thành hai ký tự riêng biệt, tạo nên sai lầm trong quá trình nhận dạng.
Làm mảnh chữ
Đây là một bước quan trọng nhằm phát hiện khung xương của ký tự bằng cách loại bỏ dần các điểm biên ngoài của các nét. Tuy nhiên, quá trình làm mảnh chữ rất nhạy cảm với việc khử nhiễu.
Hình 27: Làm mảnh chữ.
Do trang tài liệu quét vào không cẩn thận hoặc do sự cố in ấn, các hàng chữ bị lệch so với lề chuẩn một góc α, điều này gây khó khăn cho công đoạn tách chữ, đôi khi không thể tách được. Trong những trường hợp như vậy, phải tính lại tọa độ điểm ảnh của các chữ bị sai lệch. Có nhiều kỹ thuật để điều chỉnh độ nghiêng, kỹ thuật phổ biến nhất dựa trên cơ sở biểu đồ chiếu (projection profile) của ảnh tài liệu; một số kỹ thuật dựa trên cơ sở các phép biến đổi Hough và Fourier.
3.4. Phân đoạn và trích chọn đặc trưng
Khối này có nhiệm vụ tách từng ký tự ra khỏi phiếu điểm. Chỉ khi nào phiếu điểm được tách và cô lập từng dòng (ứng với thông tin điểm của từng sinh viên) và cô lập đúng từng ký tự đơn ra khỏi tổng thể hệ thống mới có thể nhận dạng đúng ký tự đó.
Trích chọn đặc trưng đóng vai trò cực kỳ quan trọng trong một hệ thống nhận dạng. Trong trường hợp đơn giản nhất, ảnh đa cấp xám hoặc ảnh nhị phân được sử dụng cho việc nhận dạng. Tuy nhiên, trong hầu hết các hệ nhận dạng, để giảm độ phức tạp và tăng độ chính xác của các thuật toán phân lớp thì đòi hỏi các đặc trưng được trích chọn phải rút gọn lại càng nhỏ càng tốt nhưng vẫn phải đảm bảo được thông tin của ký tự. Với mục tiêu này, một tập các đặc trưng được trích chọn cho mỗi lớp sao cho có thể phân biệt được với các lớp khác.
3.5. Huấn luyện và nhận dạng
Tập dữ liệu huấn luyện sau khi qua các khâu tiền xử lý và trích chọn đặc trưng sẽ được đưa vào máy huấn luyện mô hình mạng nơron. Sau khi kết thúc quá trình huấn luyện, hệ thống sẽ lưu lại giá trị các tham số của hàm quyết định phân lớp để phục vụ cho việc nhận dạng sau này
3.6. Hậu xử lý
Đây là công đoạn cuối của quá trình nhận dạng phiếu điểm. Có thể hiểu hậu xử lý là bước ghép nối các kí tự, điểm đã nhận dạng và chuyển vào cơ sở dữ liệu lưu trữ điểm của sinh viên, đồng thời phát hiện ra các lỗi nhận dạng sai bằng cách kiểm tra giá trị số báo danh, số phách, điểm số dựa trên các miền giá trị của chúng. Việc phát hiện ra các lỗi, các sai sót trong nhận dạng ở bước này góp phần đáng kể vào việc nâng cao chất lượng nhận dạng phiếu điểm.
PHẦN KẾT LUẬN
Trong các giai đoạn của một hệ thống nhập điểm tự động, giai đoạn phân đoạn và trích chọn đặc trừng là khó khăn và đòi hỏi nhiều thời gian do ảnh thu được từ các thiết bị thường bị sai lệch do các yếu tố như góc quay, khoảng cách, ánh sáng, ... Phần lớn kết quả nhận dạng sai là do không trích chọn được những đặc trưng của ảnh. Đề tài đã nghiên cứu một số kỹ thuật trích chọn đặc trưng và nhận dạng ảnh bằng phương pháp mạng nơron.
Trong thời gian nghiên cứu và thực hiện luận văn, tác giả đã đạt được một số kết quả sau:
- Nghiên cứu một số kỹ thuật tiền xử lý ảnh nhằm nâng cao chất lượng ảnh đầu vào; - Nghiên cứu một số kỹ thuật trích chọn đặc trưng trong ảnh: Kỹ thuật trích chọn đặc trưng kết hợp biến đổi DCT và thuật toán phân tích thành phần chính PCA, kỹ
thuật trích đặc trưng sử dụng Momen Legendre, Kỹ thuật sử dụng mạng Neural nhân chập (Convolution neural network).
- Thiết kế chương trình trích nhận dạng ảnh dựa vào mạng nơron. Chương trình cho phép nhận ảnh bảng điểm từ file.
TÀI LIỆU THAM KHẢO
Tiếng việt
[1] Lương Ma ̣nh Bá, Nguyễn Thanh Thủy (1999), Nhập môn xử lý ảnh số,
NXB Khoa học kỹ thuâ ̣t.
[2] Đỗ Năng Toàn (2010), Giáo trình xử lý ảnh, Học viện Công nghê ̣ Bưu
chính Viễn thông. Tiếng anh
[3] D. Heckenberg, B. C. Lovell (2000), “A Gesture Driven Computer
Interface”, Proceeding of Visual Communications and Image Processing, SPIE, 4067,
261-268.
[4] Journal on Graphics (2006), Vision and Image Processing, 6.
[5] J. Mathews (2002), “An Introduction to Edge Detection: The Sobel Edge
Detector”.
[6] Peter l. Rockett (2005), “An Improved Rotation-Invarient Thinning
Algorithm”, IEEE transaction on Pattern, Analysis and Machine Intelligence,
27, 10.
[7] Te-Hsiu Sun, Fang-Chih Tien (2008), Using Backpropagation Neural
Network for Face Recognition with 2D+ 3D Hybrid Information, Elsevier: Expert System with Applications, 35,361-372.
[8] N. Sakai, S. Yonekawa and A. Matsuzaki, Two-dimensional image
analysis of the shape of rice and its applications to separating varieties”, Journal of Food Engineering, vol 27, 1996, pp. 397-407.
[9] A. J. M. Timmermans, and A. A. Hulzebosch, Computer vison system for
on-line sorting of pot plants using an artificial neural network classifier, Computers and Electronics in Agriculture, vol. 15, 1996, pp. 41-55.
[10] S. Abbasi, F. Mokhtarian, and J. Kittler, Reliable classification of chrysanthemum leaves through curvature scale space, Lecture Notes in Computer Science, vol. 1252, 1997, pp. 284-295.
[11] J. Camarero, S. Siso, and E.G-Pelegrin, Fractal dimension does not
adequately describe the complexity of leaf margin in seedlings of Quercus species, Anales del Jardín Botánico de Madrid, vol. 60, no. 1, 2003, pp. 63-71.
Các trang website tham khảo