Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 51 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
51
Dung lượng
3,21 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI *** NGUYỄN THỊ HUYỀN XÂY DỰNG ỨNG DỤNG TỰ ĐỘNG ĐỌC BẢNG ĐIỂM Chuyên ngành: Công nghệ thông tin LUẬN VĂN THẠC SĨ KỸ THUẬT Công nghệ thông tin NGƢỜI HƢỚNG DẪN KHOA HỌC: TS Nguyễn Thị Oanh Hà Nội – Năm 2015 LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi.Các liệu sử dụng luận văn có nguồn gốc rõ ràng, kết nêu luận văn tự tìm hiểu, phân tíchmột cách trung thực, khách quan kết chưa công bố nghiên cứu khác Hà Nội, ngày 22 tháng năm 2015 Tác giả Nguyễn Thị Huyền MỤC LỤC BẢNG CÁC TỪ VIẾT TẮT DANH MỤC CÁC HÌNH DANH MỤC CÁC BẢNG MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN 1.1 Giới thiệu toán 1.2 Phương pháp nghiên cứu 1.3 Cấu trúc luận văn 10 CHƢƠNG 2: KIẾN THỨC CƠ BẢN 11 2.1 Một số kỹ thuật xử lý ảnh số 11 2.1.1 Khử nhiễu 11 2.1.2 Chuyển đổi ảnh màu sang ảnh xám 12 2.1.3 Phân ngưỡng .13 2.1.4 Phép toán hình thái 13 2.1.5 Phép biến đổi affine 15 2.2 Một số phương pháp thực với toán nhận dạng bảng điểm nhận dạng ký tự 16 2.2.1 Phương pháp áp dụng cho toán nhận dạng bảng điểm 16 2.2.2 Một số phương pháp nhận dạng ký tự 17 2.3 Giới thiệu phần mềm nguồn mở Tesseract OCR 18 2.3.1 Một số thư viện phần mềm nguồn mở nhận dạng ký tự 18 2.3.2 Phần mềm nguồn mở Tesseract OCR 20 CHƢƠNG 3: HỆ THỐNG CÀI ĐẶT THỬ NGHIỆM 23 3.1 Giải pháp cho hệ thống 23 3.1.1 Phân tích hệ thống 23 3.1.2 Cấu trúc hệ thống 25 3.1.3 Tiền xử lý ảnh .25 3.1.4 Xác định khu vực quan tâm 26 3.1.4.1 Xác định phần bảng điểm hiệu chỉnh góc nghiêng 26 3.1.4.2 Xác định vùng mã sinh viên vùng điểm 29 3.1.4.3 Xác định khu vực chứa mã môn học 33 3.1.5 Nhận dạng .34 3.1.5.1 Huấn luyện liệu với Tesseract OCR cho chữ số viết tay 34 3.1.5.2 Nhận dạng ký tự với Tesseract OCR 38 3.2 Cài đặt 39 CHƢƠNG 4: KẾT QUẢ THỰC NGHIỆM 41 4.1 Kết nhận diện chữ số viết tay 41 4.2 Kết thử nghiệm liệu bảng điểm thực 41 CHƢƠNG 5: KẾT LUẬN 48 5.1 Các kết đạt .48 5.2 Các mặt hạn chế .48 5.3 Định hướng phát triển 49 TÀI LIỆU THAM KHẢO 50 BẢNG CÁC TỪ VIẾT TẮT Viết đầy đủ Từ viết tắt OCR Optical Character Recognition UNLV University of Nevada-Las Vegas ISO International Organization for Standardization SVM Support Vector Machine OpenCV Open Computer Vision MFC Microsoft Foundation Class DANH MỤC CÁC HÌNH Hình 1: Q trình lọc trung vị [3] 12 Hình 2: Phép giãn nở ảnh nhị phân 14 Hình 3: Phép co ảnh 15 Hình 4: Phép biến đổi affine ảnh .16 Hình 5: Kiến trúc tổng thể Tesseract OCR .21 Hình 6: Vị trí mã mơn học bảng điểm 24 Hình 7: Cấu trúc hệ thống .25 Hình 8: Các bước tiền xử lý ảnh bảng điểm 25 Hình 9: Các trục không gian ảnh [3] 26 Hình 10: Hình ảnh bảng điểm với phần bảng đánh dấu .27 Hình 11: Q trình hiệu chỉnh góc nghiêng ảnh bảng điểm 29 Hình 12: Khu vực chứa cột mã sinh viên cột điểm bảng điểm 30 Hình 13: Các đường ngang phát cho vùng mã sinh viên bảng điểm 31 Hình 14: Mã sinh viên điểm tương ứng cho sinh viên 31 Hình 15: Hình chữ nhật tối thiếu chứa mã sinh viên 32 Hình 16: Các chữ số vùng điểm tách riêng 33 Hình 17: Khu vực chứa mã môn học 34 Hình 18: Quá trình huấn luyện chữ số viết tay với Tesseract 35 Hình 19: Bảng lấy mẫu số viết tay 36 Hình 20: Sửa tập tin box với cơng cụ bbTesseract 37 Hình 21: Giao diện chương trình 40 Hình 22: Form thay đổi số thứ tự cột mã sinh viên điểm 40 Hình 23: Hình ảnh số bảng điểm .41 Hình 24: Phát khu vực bảng xoay ảnh 42 Hình 25: Trường hợp không phát khu vực bảng 43 Hình 26: Trường hợp xác định phương pháp .43 DANH MỤC CÁC BẢNG Bảng 1: Độ xác Tesseract số ngôn ngữ 19 Bảng 2: So sánh phần mềm OCR thương mại Tesseract .21 Bảng 3: Một số trường hợp nhận dạng số viết tay bị sai 41 Bảng 4: Kết nhận dạng mã môn học 44 Bảng 5: Ví dụ nhận dạng sai mã môn học 44 Bảng 6: Kết nhận dạng mã sinh viên 45 Bảng 7: Ví dụ nhận dạng sai mã sinh viên 45 Bảng 8: Kết nhận dạng điểm 46 Bảng 9: Điểm bị sai nhận dạng số viết tay sai 46 Bảng 10: Điểm bị sai loại số điểm .47 Bảng 11: Điểm bị sai số chữ số nhận dạng lớn thực tế 47 MỞ ĐẦU Ở trường Đại học Nông nghiệp Hà Nội Học viện Nông nghiệp Việt Nam nay, sinh viên học kỳ trung bình học môn Kết môn học dựa đánh giá giáo viên, môn học có hai lần đánh giá: đánh giá điểm kỳ đánh giá điểm cuối kỳ Trước kỳ thi bảng điểm in ra, bảng điểm bao gồm thông tin như: mã môn học, tên môn học, mã sinh viên, tên sinh viên, điểm thi … Sinh viên phải ký xác nhận vào danh sách điểm sinh viên giáo viên nhập vào danh sách với điểm dao động từ đến 10 Sau điểm sinh viên nhập vào sở liệu Như vậy, với khoảng 5000 sinh viên nhập học năm việc nhập điểm cho sinh viên từ bảng điểm vào sở liệu khâu tốn nhiều cơng sức, nhàm chán dễ gây nhầm lẫn.Vì vậy, Học viện trọng đến khâu thực qua số phương pháp như: Nhập thủ công trực tiếp: Với việc nhập điểm thủ công trực tiếp, giáo viên phát bảng điểm để điền điểm, sau ký xác nhận gửi lên ban Đào tạo Ban Đào tạo mở form nhập liệu dạng bảng để gõ điểm trực tiếp Sau nhập điểm phải có người sốt lại để đảm bảo không nhầm Đôi phải áp dụng cách cho hai người nhập hai lần để so sánh Việc công, nhàm chán hiệu không cao Nhập điểm từ file: Với phương pháp giáo viên yêu cầu nhập điểm vào bảng tính Excel sau gửi bảng điểm (file Excel) cho ban Đào tạo Cán cán ban Đào tạo sử dụng công cụ để nhập (import) liệu vào sở liệu Cách nhanh, tiện lợi nhiên có hiểm hoạ nhầm lẫn vơ tình làm thay đổi định dạng bảng tính excel hệ thống khơng nhập khó phát Nhập trực tuyến (nhập điểm online): Giáo viên đăng nhập vào hệ thống để hiển thị form bảng điểm, sau nhập điểm qua mạng Phương pháp giảm tải cho ban Đào tạo, đồng thời số liệu chắn xác giáo viên tự nhập mà khơng qua khâu trung gian Tuy nhiên với cách sau điểm nhập đủ, ban Đào tạo phải đối chiếu lại điểm sinh viên bảng điểm điểm mà giáo viên nhập Ngoài nhập điểm online đòi hỏi phải kết nối vào mạng Học viện thời gian nhập điểm Xuất phát từ vấn đề cho thấy cần thiết hệ thống đọc điểm cách nhận dạng ảnh bảng điểm, hệ thống hỗ trợ giáo viên việc nhập điểm hỗ trợ cán ban Đào tạo việc đối chiếu, kiểm tra điểm sinh viên bảng điểm điểm giáo viên nhập sở liệu Đây lý chọn đề tài để thực luận văn CHƢƠNG 1: TỔNG QUAN 1.1 Giới thiệu toán Trong thời gian thực luận văn, tơi cố gắng tìm hiểu kỹ thuật để xây dựng hệ thống đáp ứng mục tiêu đề là: đọc điểm sinh viên từ ảnh bảng điểm Đầu vào hệ thống ảnh scan bảng điểm đầu hệ thống mã môn học, mã sinh viên điểm số tương ứng sinh viên ghi bảng điểm Để thực vậy, cần giải vấn đề sau: - Phát khu vực cần quan tâm ảnh: ảnh bảng điểm có khu vực cần quan tâm khu vực chứa mã môn học, khu vực chứa mã sinh viên khu vực chứa điểm sinh viên - Nhận diện ký tự in: mã mơn học bao gồm mã nhóm mã tổ từ gọi chung mã môn học biểu diễn chuỗi gồm chữ in hoa, số dấu gạch chéo (/), mã sinh viên biểu diễn chữ số, cần nhận diện ký tự in mã môn học mã sinh viên - Nhận diện chữ số viết tay: điểm sinh viên giáo viên ghi tay, cần nhận dạng các chữ số viết tay điểm sinh viên Tuy nhiên người có cách viết khác vị trí viết điểm ô điểm bảng điểm khác nên việc nhận diện xác chữ số viết tay khó khăn Đối tượng phạm vi nghiên cứu: Trong luận văn thực với mẫu bảng điểm sử dụng thực tế Học viện Nơng nghiệp Việt Nam phần điểm số giáo viên ghi tay 1.2 Phƣơng pháp nghiên cứu Với tốn đặt tơi thực theo phương pháp sau: - Tìm hiểu số kỹ thuật xử lý ảnh số để xử lý ảnh bảng điểm - Tìm hiểu số phương pháp thực với toán nhận dạng bảng điểm nhận dạng ký tự để đưa hướng giải cụ thể cho toán Hình 19: Bảng lấy mẫu số viết tay Tạo tập tin dạng box: Tập tin dạng box (box file) tập tin văn chứa dãy chữ số tập tin hình ảnh Mỗi hàng tập tin dạng box chứa nhãn chữ số tọa độ đường bao quanh ký tự tập tin ảnh Để tạo tập tin dạng box cho tập tin ảnh dùng để huấn luyện ta sử dụng lệnh: Tesseract file_name.tif file_name batch.nochop makebox Những trường hợp thông tin hiển thị tập tin box chưa xác nhãn ký tự kích thước đường bao quanh ký tự (bounding box), cần chỉnh sửa tập tin box để đảm bảo thông số ký tự khớp với thông tin tập tin ảnh huấn luyện Ở sử dụng công cụ bbTesseract[9]để chỉnh sửa trực tiếp tập tin box 36 Hình 20: Sửa tập tin box với cơng cụ bbTesseract Sau có tập tin boxvới thơng tin xác, với cặp tập tin ảnh tập tin box tương ứng thực lệnh sau: Tesseract file_name.tif file_name nobatch box.train Nếu thành cơng bước này, Tesseract phát sinh tập tin tr chứa đặc trưng ký tự tập tin huấn luyện Ước lượng tập ký tự ngôn ngữ cần huấn luyện: để Tesseract nhận diện ký tự có tất tập tin box ta dùng lệnh sau: unicharset_extractor *.box Sau thực bước này, tập tin unicharset tạo Xác định kiểu font liệu: Đây tính có từ phiên Tesseract 3.0.1 trở Với tính người dùng huấn luyện liệu với nhiều loại font khác thay dùng font mặc định sẵn phiên trước Ta cần tạo tập tin font properties để quy định thông số kiểu font ta sử dụng mẫu văn huấn luyện Cấu trúc tập tin font_properties hàng chứa tên loại font huấn luyện đặc tính font đó: 37 trong fontname chuỗi ký tự không chứa khoảng trống, đánh dấu có thuộc tính bit khơng có dùng bit Ví dụ cấu trúc tập tin font_properties sử dụng để huấn luyệnchữ số viết tay có nội dung là: UnknownFont 0 0 Gom nhóm liệu: bước đường nét khung ký tự rút trích cần gom nhóm lại liệu ban đầu để tạo mẫu thử (prototype) Hình dạng, đường nét ký tự gom nhóm lại nhờ vào lệnh mftraining cntraining có sẵn công cụ Tesseract: mftraining -F font_properties -U unicharset -O lang.unicharset *.tr Lệnh mftraining tạo tập tin liệu: inttemp (chứa hình dạng mẫu), pffmtable (số lượng đặc trưng dự kiến cho ký tự) shapetable (chứa đặc trưng hình dạng ký tự) Dùng lệnh cntraining để tạo tập tin liệu normproto cntraining *.tr Kết hợp tập tin lại tạo thành tập tin huấn luyện liệu: Cuối sau có đủ tập tin huấn luyện cần thiết (unicharset, inttemp, pffmtable, normproto, shapetable) ta đổi tên tập tin lại cho dạng với tiền tố lang trước tên tập tin với lang ký tự đại diện cho ngôn ngữ huấn luyện theo chuẩn ISO 639-3 Thực lệnh sau để kết hợp tập tin lại tạo tập tin lang.traineddata Đặt tập tin vào thưc mục tessdata Tesseract Tesseract nhận dạng ngơn ngữ (theo lý thuyết) Combine_tessdata lang 3.1.5.2 Nhận dạng ký tự với Tesseract OCR Sau vùng quan tâm xác định, giai đoạn thực nhận dạng thông tin khu vực để đưa kết Nhận dạng ký tự in 38 Vùng mã sinh viên vùng mã môn học vùng chứa ký tự in, không thực tách riêng ký tự vùng Trong phạm vi luận văn này, sử dụng liệu huấn luyện cho ngôn ngữ Tiếng Anh, liệu huấn luyện thử nghiệm với độ xác xấp xỉ 100% [9],[11] để nhận dạng số (mười chữ số từ đến 9) vùng mã sinh viên nhận dạng ký tự (gồm 10 chữ số từ đến 9, 26 chữ in hoa từ A đến Z dấu gạch chéo) vùng mã môn học Nhận dạng số viết tay Sau phân đoạn, chữ số viết tay nhận dạng với liệu chữ số viết tay huấn luyện 3.2 Cài đặt Từ phân tích tơi thực cài đặt chương trình cho hệ thống đề xuất với môi trường công cụ sau: Hệ điều hành: Microsoft Windows Ngơn ngữ lập trình: C ++ (trong Microsoft Visual Studio 2012) Phần mềm nguồn mở: Tesseract OCR 3.02 Thư Viện: MFC, OpenCV 2.4.9 Chương trình cài đặt với giao diện sau: 39 Hình 21: Giao diện chương trình Để thực chương trình người dùng thực bước: - Chọn bảng điểm để mở - Thay đổi vị trí kích thước hình chữ nhật Form để xác định vị trí kích thước khu vực chứa mã môn học (nếu cần) - Hai cột mã sinh viên điểm đặt mặc định tương ứng với cột thứ hai cột thứ bảng điểm (ta thay đổi số thứ tự cột cần) Hình 22: Form thay đổi số thứ tự cột mã sinh viên v điểm - Nhấn nút đọc điểm hệ thống thực đọc thông tin cần thiết bảng điểm - Nhấn nút thoát để kết thúc chương trình 40 CHƢƠNG 4: KẾT QUẢ THỰC NGHIỆM 4.1 Kết nhận diện chữ số viết tay Dữ liệu chữ số viết tayđược lấy khoảng 50 người, người viết nhiều mẫu Trong đó, 690 mẫu sử dụng để huấn luyện 150 mẫu dùng để kiểm thử Kết kiểm thử cho thấy kết nhận dạng xác xấp xỉ 90% Một số trường hợp nhận dạng sai: Ảnh Nhãn Nhãn nhận dạng Bảng 3: Một số trường hợp nhận dạng số viết tay bị sai 4.2 Kết thử nghiệm liệu bảng điểm thực Trong luận văn sử dụng 30bảng điểm quy học viên Nơng nghiệp Việt Nam phần điểm số ghi tay Các bảng điểm nhiều giáo viên bao gồm gốc photo không bị rách nhàu nát thu thập môn Khoa học máy tính, khoa Cơng nghệ thơng tin, sau scan máy scan với độ phân giải 300dpi Trong số ảnh scan, trực quan thấy bao gồm ảnh có nhiễu, ảnh sạch, ảnh scan ngắn ảnh bị nghiêng Ví dụ hình ảnh số bảng điểm mà tơi sử dụng Hình 23: Hình ảnh số bảng điểm Thử nghiệm chương trình với bảng điểm thu thập kết sau: 41 Phát khu vực quan tâm Phát khu vực bảng xoay ảnh: Thử nghiệm chương trình với 30 bảng điểm, kết phát khu vực bảng xoay ảnh sau: - Với phương pháp 1: xác định xác 27 bảng, khơng phát bảng Hình 24: Phát khu vực bảng xoay ảnh 42 Hình 25: Trường hợp khơng phát khu vực bảng - Với phương pháp 2: xác định xác 28 bảng, khơng phát bảng Hình 26: Trường hợp xác định phương pháp 43 Phát khu vực chứa mã sinh viên điểm - Thử nghiệm với 27 bảng điểm thu phương pháp 1, kết cho thấy việc xác định vùng mã sinh viên điểm cho kết xác 100% - Thử nghiệm với 28 bảng điểm thu phương pháp 2, kết cho thấy việc xác định vùng mã sinh viên điểm cho kết xác 27 bảng điểm Với bảng điểm xác định khu vực bảng phương pháp 2, xác định cột mã sinh viên điểm cho kết khơng xác q trình xoay ảnh khơng xác (ảnh bị nghiêng sau thực xoay) nên không xác định đường thẳng đứng dẫn tới không xác định khu vực chứa mã sinh viên điểm Nhận dạng mã mơn học Thử nghiệm chương trình để nhận dạng mã môn học cho 27 bảng điểm, kết thu sau: Số lượng nhận dạng Số lượng nhận dạng sai 21 Phần trăm nhận dạng 77,8% Bảng 4: Kết nhận dạng mã môn học Trong số trường hợp nhận dạng sai có trường hợp ký tự “0” nhận dạng thành “O” trường hợp ký tự “T” nhận dạng thành “F” Bảng ví dụ trường hợp nhận dạng sai mã môn học Ảnh vùng mã môn học Mã môn học Mã môn học nhận dạng sai TH2021/03/001 TT122/01/001 TH2021/03/O01 TF122/01/001 Bảng 5: Ví dụ nhận dạng sai mã mơn học Nhận dạng mã sinh viên 44 Thử nghiệm chương trình với 10 bảng điểm lấy ngẫu nhiên số 27 bảng điểm, kết nhận dạng mã sinh viên sau: Bảng điểm 10 Số lượng nhận Số lượng nhận Phần trăm nhận dạng dạng sai dạng 37 100.0% 37 100.0% 37 100.0% 37 100.0% 21 100.0% 22 100.0% 37 100.0% 37 100.0% 20 95.2% 30 96.8% Trung bình 99.2% Bảng 6: Kết nhận dạng mã sinh viên Trường hợp nhận dạng sai có nhiễu Bảng trường hợp mã sinh viên bị nhận dạng sai có nhiễu Ảnh vùng mã sinh viên Mã sinh viên 531967 Mã sinh viên nhận dạng sai 531967 Bảng 7: Ví dụ nhận dạng sai mã sinh viên Nhận dạng điểm Kết nhận dạng điểm 10 bảng điểm sử dụng để nhận dạng mã sinh viên, kết nhận dạng sau: Bảng điểm Số lượng nhận dạng 28 35 32 25 17 15 32 30 Số lượng nhận dạng sai 12 45 Phần trăm nhận dạng 75.7% 94.6% 86.5% 67.6% 81.0% 62.5% 86.5% 81.1% 10 15 24 Trung bình Bảng 8: Kết nhận dạng điểm 71.4% 77.4% 78.4% Bảng kết nhận dạng điểm cho thấy kết nhận dạng bảng điểm không giống Độ xác q trình nhận dạng điểm số bị ảnh hưởng độ xác trình phân tách chữ số phần điểm Dưới số nguyên nhân làm cho kết phân tách chữ số khơng xác: Các số viết gần giống nhau, ví dụ: số số 5; số số 8, số số 7, số số 6… Các số bị viết dính liền vào dính vào hàng, cột dẫn tới việc phân tách số cho kết khơng xác số bị cắt phần Các số viết với kích thước khơng có số to, có số nhỏ, dẫn tới kết nhận dạng bị toàn số điểm, trình phân đoạn loại bỏ bounding box có kích thước q to nhỏ Các số viết với nét không liên tục dấu phẩy (ký hiệu ngăn cách phân nguyên phần lẻ điểm) viết to tương đương với số, dẫn tới số lượng bounding box tìm nhiều số chữ số điểm Trong trường hợp điểm số nhận dạng với nhiều chữ số điểm thực tế Dưới số ví dụ điểm số bị nhận dạng sai: Điểm bị sai nhận dạng nhầm số thành số khác: Ảnh điểm Điểm 8.5 4.5 5.5 2.5 4.3 8.9 KQ tách số KQ nhận dạng Bảng 9: Điểm bị sai nhận dạng số viết tay sai 46 Điểm bị sai số bị loại bỏ trình phân tách chữ số Ảnh điểm Điểm 4.2 4.2 6.5 KQ tách số KQ nhận dạng Bảng 10: Điểm bị sai loại số điểm Điểm bị sai trình phân tách thu số bounding box nhiều số chữ số điểm Ảnh điểm Điểm 5.5 3.5 0.15 9.69 KQ tách số KQ nhận dạng Bảng 11: Điểm bị sai số chữ số nhận dạng lớn thực tế 47 CHƢƠNG 5: KẾT LUẬN 5.1 Các kết đạt đƣợc Qua thời gian tìm hiểu thực luận văn “Xây dựng ứng dụng tự động đọc bảng điểm” thực nhiệm vụ sau: Về lý thuyết: Tôi học số kỹ thuật xử lý ảnh, số kỹ thuật xử lý bước thực toán nhận dạng ký tự Ứng dụng phần mềm nguồn mở Tesseract OCR việc nhận dạng ký tự Về thực nghiệm: Từ kiến thức thu tơi thực phân tích giải pháp xây dựng hệ thống thử nghiệm để đọc bảng điểm Học viện Nông nghiệp Việt Nam Hệ thống giải vấn đề: o Xác định khu vực cần quan tâm bảng điểm o Nhận dạng ký tự in (mã môn học, mã sinh viên) chữ số viết tay với phần mềm nguồn mở Tesseract OCR Hệ thống cài đặt thử nghiệm có số ưu điểm bật như: o Người dùng thay đổi vùng quan tâm bảng điểm Do cấu trúc bảng điểm bị thay đổi nguyên nhân chủ quan hay khách quan hệ thống hoạt động o Việc xác định đường ngang dọc phần bảng có ý nghĩa quan trọng, ảnh hưởng đến kết việc xác định khu vực chứa mã sinh viên điểm số Với hệ thống thực nghiệm này, việc xác định đường ngang dọc thực sau ảnh xử lý với phép tốn hình thái nhằm loại bỏ bớt nội dung nằm ô bảng, kết thu xác 5.2 Các mặt hạn chế Bên cạnh ưu điểm hệ thống thử nghiệm trình bày phần 5.1, hệ thống số nhược điểm: 48 Việc xác định hiệu chỉnh góc nghiêng bảng định cách tương đối (phụ thuộc vào việc chọn giá trị ngưỡng), độ xác chưa cao Việc tách chữ số phần điểm sinh viên chưa xử lý tốt cho trường hợp điểm bị dính vào nhau, dính vào biên chữ số viết không dẫn tới kết nhận dạng điểm chưa cao 5.3 Định hƣớng phát triển Trong tương lai, hệ thống cần cải thiện thêm để ứng dụng hệ thống quản lý điểm: Áp dụng số kỹ thuật để cải thiện việc hiệu chỉnh trường hợp ảnh bị nghiêng, bảng điểm scan bị số cột không cần thiết Cải thiện việc phân tách chữ sỗ phần điểm để cải thiện độ xác nhận dạng điểm số Thử nghiệm số lượng bảng điểm đa dạng để đưa đánh giá xác cải tiến chương trình cho phù hợp với nhu cầu thực tế 49 TÀI LIỆU THAM KHẢO [1] Lương Mạnh Bá Nguyễn Thanh Thuỷ, chủ biên (2003), Nhập môn xử lý ảnh số, Nxb Khoa học kỹ thuật Hà Nội [2] Phạm Thị Thanh Hiển(2013), Nhận dạng ký hiệu toán học, Luận văn thạc sĩ, Học viện cơng nghệ Bưu Viễn thơng [3] DO Thi Hong Ha (2012), Construction d’une application de lecture automatique des relevés de notes, Đồ án tốt nghiệp đại học, Đại học Bách khoa Hà Nội [4] Patel, C., Patel, A., & Patel, D (2012) Optical character recognition by open source ocr tool tesseract: A case study International Journal of Computer Applications, 55(10), 50-56 [5] Rakshit, S., & Basu, S (2010) Development of a multi-user handwriting recognition system using tesseract open source ocr engine arXiv preprint arXiv:1003.5886 [6] Rakshit, S., Kundu, A., Maity, M., Mandal, S., Sarkar, S., & Basu, S (2010) Recognition of handwritten roman numerals using tesseract open source ocr engine arXiv preprint arXiv:1003.5898 [7] Sharda, V., & Kishan, A.C (2009) Skew detection and correction in scanned document images, barchelor of technology in computer science and engineering, National Institute of Technology Rourkela, India [8] Smith, R (2007) An overview of the tesseract ocr engine icdar, IEEE [9] Smith, R., Antonova, D., & Lee, D.-S (2009) Adapting the Tesseract open source OCR engine for multilingual OCR Proceedings of the International Workshop on Multilingual OCR [10] https://code.google.com/p/bbtesseract/, tham khảo tháng 8/2015 [11] http://code.google.com/p/tesseract-ocr, tham khảo tháng 8/2015 [12] http://jocr.sourceforge.net/, tham khảo 5/9/1015 [13] http://docs.opencv.org//, tham khảo tháng 8/2014 [14] http://sourceforge.net/projects/javaocr/, tham khảo 5/9/1015 [15] http://tesseract-ocr.googlecode.com/files/TesseractOSCON.pdf, tham khảo tháng 8/2015 [16] http://vietunicode.sourceforge.net/howto/tesseract-ocr_vi.html, tham khảo 5/9/1015 [17] http://www.free-ocr.com/, tham khảo 5/9/1015 [18] http://www.ieev.org/search/label/008.CB%20x%E1%BB%AD%20l%C3%BD %20%E1%BA%A3nh, tham khảo tháng 8/2014 50 ... để xây dựng hệ thống đáp ứng mục tiêu đề là: đọc điểm sinh viên từ ảnh bảng điểm Đầu vào hệ thống ảnh scan bảng điểm đầu hệ thống mã môn học, mã sinh viên điểm số tương ứng sinh viên ghi bảng điểm. .. thực luận văn ? ?Xây dựng ứng dụng tự động đọc bảng điểm? ?? thực nhiệm vụ sau: Về lý thuyết: Tôi học số kỹ thuật xử lý ảnh, số kỹ thuật xử lý bước thực toán nhận dạng ký tự Ứng dụng phần mềm nguồn... ảnh bảng điểm ta thấy, phần bảng ảnh bảng điểm có kích thước lớn nhất, dựa vào đặc điểm để phát phần bảng tơi tìm đường cong lớn kết nối tất điểm liên thông đường biên (contour) ảnh bảng điểm