3.3.1. Phân tích và chọn công cụ
a. Phân tích và chọn công cụ
Sau khi đã có ảnh của phiếu điểm đƣợc quét đúng cách, việc nhận dạng phiếu điểm thực hiện lần lƣợt các bƣớc nhƣ sau:
- Tiền xử lý: Ảnh của phiếu điểm sau khi quét thƣờng có nhiễu, một phần nhiệm vụ của bƣớc này sẽ là lọc nhiễu. Sau đó ảnh phải đƣợc biến đổi về ảnh nhị phân để tạo điều kiện cho phân đoạn ở bƣớc tiếp theo.
- Phân đoạn và trích chọn đặc trƣng: Tách ảnh đã qua tiền xử lý thành các hàng, mỗi hàng bao gồm các cột. Sau đó từ các cột sẽ tách ra kí tự cần nhận dạng, rồi trích chọn đặc trƣng của nó.
- Huấn luyện và nhận dạng: Xây dựng các support vector nhận dạng từ các phiếu điểm. Trƣớc khi nhận dạng, quá trình huấn luyện đƣợc thực hiện trƣớc dựa trên một tập mẫu có sẵn.
- Hậu xử lý: Tổng hợp các kí tự đƣợc nhận dạng riêng lẻ thành dữ liệu để cập nhật vào cơ sở dữ liệu
Chƣơng trình đƣợc phát triển trên hệ điều hành Windows, lập trình bằng công cụ Visual C#. Mẫu nhận dạng đƣợc thu thập từ các văn bản in, viết tay và quét vào bằng máy quét ảnh với các kích cỡ và định dạng khác nhau, thiết kế chƣơng trình theo thuật toán đã nghiên cứu.
b. Chuẩn hoá dữ liệu
- Input: Tập dữ liệu huấn luyện gồm các chữ số từ 0 đến 9, các phiếu điểm. - Output: Nhận dạng giá trị điểm trên các phiếu điểm.
Tập dữ liệu huấn luyện: là ảnh của những chữ số viết tay đã đƣợc nhị phân hóa, có kích thƣớc M*N
Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
Hình 3.1: Một mẫu dữ liệu huấn luyện mạng
Phiếu điểm cần nhận dạng: Là những ảnh scan của các phiếu điểm đang đƣợc sử dụng tại trƣờng Cao Đẳng Cộng Đồng- Bắc Kạn.
3.3.2. Chƣơng trình thử nghiệm
Sau khi xây dựng phân lớp giữa các chữ số từ 0 đến 9, ta tiến hành nhận dạng với bộ dữ liệu test gồm 500 chữ số. Kết quả nhƣ sau:
Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
Hình 3.3: Ấn nút học mạng, bắt đầu quá trình học
Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
Hình 3.5: Tiến hành nhận dạng, chọn ảnh thử nghiệm
Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
Hình 3.7: Kết quả nhận dạng
Với bộ dữ liệu này, chƣơng trình nhận dạng ra 95% giá trị trùng với giá trị của ảnh.
Ở đây các tập mẫu đƣợc dùng để huấn luyện chính là các chữ số viết tay của các giảng viên trong trƣờng. Việc thu thập mẫu chữ viết tay của các giảng viên trong trƣờng đƣợc thực hiện bằng cách sử dụng máy quét.
Sau khi đã thu thập mẫu, ta xây dựng mạng nơron và huấn luyện mạng dựa trên mẫu đã thu thập đƣợc. Việc huấn luyện mạng đã đƣợc tôi thiết kế thành một module riêng trong chƣơng trình cho phép ngƣời dùng tạo các kiểu mạng nơron theo kiến trúc khác nhau.
Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
PHẦN KẾT LUẬN
Việc sử dụng mạng nơron cho quá trình nhận dạng làm công việc nhận dạng đơn giản đi rất nhiều và độ chính xác cũng cao (có thể nói đạt tới 100%) nếu đƣợc nhận dạng các mẫu đã đƣợc học. Hơn nữa việc sử dụng mạng nơron còn có thể nhận dạng đƣợc những mẫu mang tính chất gần giống kiểu với những chữ đã lấy mẫu.
Một trong những ƣu điểm tuyệt vời của việc sử dụng mang nơron đó là nhanh chóng đƣa ra quyết định. Không phải duyệt và so sánh đối với dữ liệu mẫu trong CSDL, điều này làm tăng tốc độ nhận dạng của chƣơng trình.
Chƣơng trình hoàn toàn có thể ứng dụng vào thực tế. Bởi theo tôi đƣợc biết hiện tại trong trƣờng đang phải nhập dữ liệu bằng tay. Điều này thực sự khó khăn đối với những giáo vụ hoặc là các môn mà thi tập trung, việc nhập điểm có thể lên tới hàng nghìn sinh viên.
Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
KẾT LUẬN VÀ KIẾN NGHỊ
I. Những kết quả chính của luận văn
1. Luận văn trình bày một số những hiểu biết về quản lý và nhập tự động, quy trình thực hiện của hệ thống nhập điểm tự động.
2. Luận văn khai thác các Kỹ thuật nhận dạng chữ số dựa vào mạng nơron trong nhập điểm tự động.
3. Khai thác Kỹ thuật nhận dạng chữ số dựa vào mạng nơron trong nhập điểm tự động.
II. Hƣớng phát triển tiếp theo của luận văn
1. Tích hợp thêm các thuật toán nâng cao chất lƣợng ảnh nhằm tăng khả năng phát hiện nhận dạng chữ số trong nhập điểm tự động.
2. Cài đặt các phƣơng pháp nhận dạng chữ số dựa vào mạng nơron trong nhập điểm tự động.
3. Thực hiện phát hiện nhận dạng chữ số dựa vào mạng nơron trong nhập điểm tự động trên mọi loại ảnh văn bản.
Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
TÀI LIỆU THAM KHẢO Tài liệu Tiếng Việt
[1]. Đỗ Năng Toàn, Phạm Việt Bình (2007), Giáo trình xử lý ảnh, NXB KH kỹ thuật.
[2]. Đỗ Năng Toàn, Phạm Văn Dũng, Phạm Việt Bình (2005), “Ứng dụng chu tuyến trong phát hiện gúc nghiêng văn bản”, Kỷ yếu Hội thảo Quốc gia lần thứ 7 - Một số vấn đề chọn lọc của Công nghệ Thông tin và Truyền thông, Đà Nẵng 18-20/08 /2004, Nxb KH&KT, Hà Nội 2005, 432-441.
[3]. Đỗ Năng Toàn, Ngô Quốc Tạo, Một số phương pháp nâng cao hiệu quả nhận dạng phiếu điều tra dạng dấu phục vụ cho thiết kế hệ nhập liệu tự động markread, Tạp chí Tin học và Điều khiển học, Tập 15, số 4, năm 1999. [4]. Lƣơng Mạnh Bá, Nguyễn Thanh Thuỷ (1999), Nhập môn xử lý ảnh số, NXB Khoa học kỹ thuật.
[5]. Nguyễn Đình Thúc (2000), Mạng nơron phương pháp và ứng dụng, NXB Giáo dục.
Tài liệu Tiếng Anh
[6]. Pelin CORGEL, Oguzhan OZTAS, Handwritten character recognition system using artificial Neural Networks, Computer Engineering Department, Engineering Faculty, Istanbul University, Avcilar, Istanbul, TURKEY
[7]. U.-V. Marti and H. Bunke, Text Line Segmentation and word recognition in a system for general writer Independent Handwriting Recognition, IEEE (February 5, 2001).
[8]. Wojciech Kacalak, New methods for handwriting recognition using artificial neural networks, Technical university of Koszalin, Department of Mechanical Engineering, Raclawicka 15-17, 75-620 Koszalin,Poland.