Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 51 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
51
Dung lượng
3,16 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI *** NGUYỄN THỊ HUYỀN XÂYDỰNGỨNGDỤNGTỰĐỘNGĐỌCBẢNGĐIỂM Chuyên ngành: Công nghệ thông tin LUẬN VĂN THẠC SĨ KỸ THUẬT Công nghệ thông tin NGƢỜI HƢỚNG DẪN KHOA HỌC: TS Nguyễn Thị Oanh Hà Nội – Năm 2015 LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng tôi.Các liệu sử dụng luận văn có nguồn gốc rõ ràng, kết nêu luận văn tự tìm hiểu, phân tíchmột cách trung thực, khách quan kết chưa công bố nghiên cứu khác Hà Nội, ngày 22 tháng năm 2015 Tác giả Nguyễn Thị Huyền MỤC LỤC BẢNG CÁC TỪ VIẾT TẮT DANH MỤC CÁC HÌNH DANH MỤC CÁC BẢNG MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN 1.1 Giới thiệu toán 1.2 Phương pháp nghiên cứu 1.3 Cấu trúc luận văn 10 CHƢƠNG 2: KIẾN THỨC CƠ BẢN 11 2.1 Một số kỹ thuật xử lý ảnh số 11 2.1.1 Khử nhiễu 11 2.1.2 Chuyển đổi ảnh màu sang ảnh xám 12 2.1.3 Phân ngưỡng .13 2.1.4 Phép toán hình thái 13 2.1.5 Phép biến đổi affine 15 2.2 Một số phương pháp thực với toán nhận dạng bảngđiểm nhận dạng ký tự 16 2.2.1 Phương pháp áp dụng cho toán nhận dạng bảngđiểm 16 2.2.2 Một số phương pháp nhận dạng ký tự 17 2.3 Giới thiệu phần mềm nguồn mở Tesseract OCR 18 2.3.1 Một số thư viện phần mềm nguồn mở nhận dạng ký tự 18 2.3.2 Phần mềm nguồn mở Tesseract OCR 20 CHƢƠNG 3: HỆ THỐNG CÀI ĐẶT THỬ NGHIỆM 23 3.1 Giải pháp cho hệ thống 23 3.1.1 Phân tích hệ thống 23 3.1.2 Cấu trúc hệ thống 25 3.1.3 Tiền xử lý ảnh .25 3.1.4 Xác định khu vực quan tâm 26 3.1.4.1 Xác định phần bảngđiểm hiệu chỉnh góc nghiêng 26 3.1.4.2 Xác định vùng mã sinh viên vùng điểm 29 3.1.4.3 Xác định khu vực chứa mã môn học 33 3.1.5 Nhận dạng .34 3.1.5.1 Huấn luyện liệu với Tesseract OCR cho chữ số viết tay 34 3.1.5.2 Nhận dạng ký tự với Tesseract OCR 38 3.2 Cài đặt 39 CHƢƠNG 4: KẾT QUẢ THỰC NGHIỆM 41 4.1 Kết nhận diện chữ số viết tay 41 4.2 Kết thử nghiệm liệu bảngđiểm thực 41 CHƢƠNG 5: KẾT LUẬN 48 5.1 Các kết đạt .48 5.2 Các mặt hạn chế .48 5.3 Định hướng phát triển 49 TÀI LIỆU THAM KHẢO 50 BẢNG CÁC TỪ VIẾT TẮT Viết đầy đủ Từ viết tắt OCR Optical Character Recognition UNLV University of Nevada-Las Vegas ISO International Organization for Standardization SVM Support Vector Machine OpenCV Open Computer Vision MFC Microsoft Foundation Class DANH MỤC CÁC HÌNH Hình 1: Quá trình lọc trung vị [3] 12 Hình 2: Phép giãn nở ảnh nhị phân 14 Hình 3: Phép co ảnh 15 Hình 4: Phép biến đổi affine ảnh .16 Hình 5: Kiến trúc tổng thể Tesseract OCR .21 Hình 6: Vị trí mã môn học bảngđiểm 24 Hình 7: Cấu trúc hệ thống .25 Hình 8: Các bước tiền xử lý ảnh bảngđiểm 25 Hình 9: Các trục không gian ảnh [3] 26 Hình 10: Hình ảnh bảngđiểm với phần bảng đánh dấu .27 Hình 11: Quá trình hiệu chỉnh góc nghiêng ảnh bảngđiểm 29 Hình 12: Khu vực chứa cột mã sinh viên cột điểmbảngđiểm 30 Hình 13: Các đường ngang phát cho vùng mã sinh viên bảngđiểm 31 Hình 14: Mã sinh viên điểm tương ứng cho sinh viên 31 Hình 15: Hình chữ nhật tối thiếu chứa mã sinh viên 32 Hình 16: Các chữ số vùng điểm tách riêng 33 Hình 17: Khu vực chứa mã môn học 34 Hình 18: Quá trình huấn luyện chữ số viết tay với Tesseract 35 Hình 19: Bảng lấy mẫu số viết tay 36 Hình 20: Sửa tập tin box với công cụ bbTesseract 37 Hình 21: Giao diện chương trình 40 Hình 22: Form thay đổi số thứ tự cột mã sinh viên điểm 40 Hình 23: Hình ảnh số bảngđiểm .41 Hình 24: Phát khu vực bảng xoay ảnh 42 Hình 25: Trường hợp không phát khu vực bảng 43 Hình 26: Trường hợp xác định phương pháp .43 DANH MỤC CÁC BẢNGBảng 1: Độ xác Tesseract số ngôn ngữ 19 Bảng 2: So sánh phần mềm OCR thương mại Tesseract .21 Bảng 3: Một số trường hợp nhận dạng số viết tay bị sai 41 Bảng 4: Kết nhận dạng mã môn học 44 Bảng 5: Ví dụ nhận dạng sai mã môn học 44 Bảng 6: Kết nhận dạng mã sinh viên 45 Bảng 7: Ví dụ nhận dạng sai mã sinh viên 45 Bảng 8: Kết nhận dạng điểm 46 Bảng 9: Điểm bị sai nhận dạng số viết tay sai 46 Bảng 10: Điểm bị sai loại số điểm .47 Bảng 11: Điểm bị sai số chữ số nhận dạng lớn thực tế 47 MỞ ĐẦU Ở trường Đại học Nông nghiệp Hà Nội Học viện Nông nghiệp Việt Nam nay, sinh viên học kỳ trung bình học môn Kết môn học dựa đánh giá giáo viên, môn học có hai lần đánh giá: đánh giá điểm kỳ đánh giá điểm cuối kỳ Trước kỳ thi bảngđiểm in ra, bảngđiểm bao gồm thông tin như: mã môn học, tên môn học, mã sinh viên, tên sinh viên, điểm thi … Sinh viên phải ký xác nhận vào danh sách điểm sinh viên giáo viên nhập vào danh sách với điểm dao độngtừ đến 10 Sau điểm sinh viên nhập vào sở liệu Như vậy, với khoảng 5000 sinh viên nhập học năm việc nhập điểm cho sinh viên từbảngđiểm vào sở liệu khâu tốn nhiều công sức, nhàm chán dễ gây nhầm lẫn.Vì vậy, Học viện trọng đến khâu thực qua số phương pháp như: Nhập thủ công trực tiếp: Với việc nhập điểm thủ công trực tiếp, giáo viên phát bảngđiểm để điền điểm, sau ký xác nhận gửi lên ban Đào tạo Ban Đào tạo mở form nhập liệu dạng bảng để gõ điểm trực tiếp Sau nhập điểm phải có người soát lại để đảm bảo không nhầm Đôi phải áp dụng cách cho hai người nhập hai lần để so sánh Việc công, nhàm chán hiệu không cao Nhập điểmtừ file: Với phương pháp giáo viên yêu cầu nhập điểm vào bảng tính Excel sau gửi bảngđiểm (file Excel) cho ban Đào tạo Cán cán ban Đào tạo sử dụng công cụ để nhập (import) liệu vào sở liệu Cách nhanh, tiện lợi nhiên có hiểm hoạ nhầm lẫn vô tình làm thay đổi định dạng bảng tính excel hệ thống không nhập khó phát Nhập trực tuyến (nhập điểm online): Giáo viên đăng nhập vào hệ thống để hiển thị form bảng điểm, sau nhập điểm qua mạng Phương pháp giảm tải cho ban Đào tạo, đồng thời số liệu chắn xác giáo viên tự nhập mà không qua khâu trung gian Tuy nhiên với cách sau điểm nhập đủ, ban Đào tạo phải đối chiếu lại điểm sinh viên bảngđiểmđiểm mà giáo viên nhập Ngoài nhập điểm online đòi hỏi phải kết nối vào mạng Học viện thời gian nhập điểm Xuất phát từ vấn đề cho thấy cần thiết hệ thống đọcđiểm cách nhận dạng ảnh bảng điểm, hệ thống hỗ trợ giáo viên việc nhập điểm hỗ trợ cán ban Đào tạo việc đối chiếu, kiểm tra điểm sinh viên bảngđiểmđiểm giáo viên nhập sở liệu Đây lý chọn đề tài để thực luận văn CHƢƠNG 1: TỔNG QUAN 1.1 Giới thiệu toán Trong thời gian thực luận văn, cố gắng tìm hiểu kỹ thuật để xâydựng hệ thống đáp ứng mục tiêu đề là: đọcđiểm sinh viên từ ảnh bảngđiểm Đầu vào hệ thống ảnh scan bảngđiểm đầu hệ thống mã môn học, mã sinh viên điểm số tương ứng sinh viên ghi bảngđiểm Để thực vậy, cần giải vấn đề sau: - Phát khu vực cần quan tâm ảnh: ảnh bảngđiểm có khu vực cần quan tâm khu vực chứa mã môn học, khu vực chứa mã sinh viên khu vực chứa điểm sinh viên - Nhận diện ký tự in: mã môn học bao gồm mã nhóm mã tổ từ gọi chung mã môn học biểu diễn chuỗi gồm chữ in hoa, số dấu gạch chéo (/), mã sinh viên biểu diễn chữ số, cần nhận diện ký tự in mã môn học mã sinh viên - Nhận diện chữ số viết tay: điểm sinh viên giáo viên ghi tay, cần nhận dạng các chữ số viết tay điểm sinh viên Tuy nhiên người có cách viết khác vị trí viết điểm ô điểmbảngđiểm khác nên việc nhận diện xác chữ số viết tay khó khăn Đối tượng phạm vi nghiên cứu: Trong luận văn thực với mẫu bảngđiểm sử dụng thực tế Học viện Nông nghiệp Việt Nam phần điểm số giáo viên ghi tay 1.2 Phƣơng pháp nghiên cứu Với toán đặt thực theo phương pháp sau: - Tìm hiểu số kỹ thuật xử lý ảnh số để xử lý ảnh bảngđiểm - Tìm hiểu số phương pháp thực với toán nhận dạng bảngđiểm nhận dạng ký tự để đưa hướng giải cụ thể cho toán Hình 19: Bảng lấy mẫu số viết tay Tạo tập tin dạng box: Tập tin dạng box (box file) tập tin văn chứa dãy chữ số tập tin hình ảnh Mỗi hàng tập tin dạng box chứa nhãn chữ số tọa độ đường bao quanh ký tự tập tin ảnh Để tạo tập tin dạng box cho tập tin ảnh dùng để huấn luyện ta sử dụng lệnh: Tesseract file_name.tif file_name batch.nochop makebox Những trường hợp thông tin hiển thị tập tin box chưa xác nhãn ký tự kích thước đường bao quanh ký tự (bounding box), cần chỉnh sửa tập tin box để đảm bảo thông số ký tự khớp với thông tin tập tin ảnh huấn luyện Ở sử dụng công cụ bbTesseract[9]để chỉnh sửa trực tiếp tập tin box 36 Hình 20: Sửa tập tin box với công cụ bbTesseract Sau có tập tin boxvới thông tin xác, với cặp tập tin ảnh tập tin box tương ứng thực lệnh sau: Tesseract file_name.tif file_name nobatch box.train Nếu thành công bước này, Tesseract phát sinh tập tin tr chứa đặc trưng ký tự tập tin huấn luyện Ước lượng tập ký tự ngôn ngữ cần huấn luyện: để Tesseract nhận diện ký tự có tất tập tin box ta dùng lệnh sau: unicharset_extractor *.box Sau thực bước này, tập tin unicharset tạo Xác định kiểu font liệu: Đây tính có từ phiên Tesseract 3.0.1 trở Với tính người dùng huấn luyện liệu với nhiều loại font khác thay dùng font mặc định sẵn phiên trước Ta cần tạo tập tin font properties để quy định thông số kiểu font ta sử dụng mẫu văn huấn luyện Cấu trúc tập tin font_properties hàng chứa tên loại font huấn luyện đặc tính font đó: 37 trong fontname chuỗi ký tự không chứa khoảng trống, đánh dấu có thuộc tính bit dùng bit Ví dụ cấu trúc tập tin font_properties sử dụng để huấn luyệnchữ số viết tay có nội dung là: UnknownFont 0 0 Gom nhóm liệu: bước đường nét khung ký tự rút trích cần gom nhóm lại liệu ban đầu để tạo mẫu thử (prototype) Hình dạng, đường nét ký tự gom nhóm lại nhờ vào lệnh mftraining cntraining có sẵn công cụ Tesseract: mftraining -F font_properties -U unicharset -O lang.unicharset *.tr Lệnh mftraining tạo tập tin liệu: inttemp (chứa hình dạng mẫu), pffmtable (số lượng đặc trưng dự kiến cho ký tự) shapetable (chứa đặc trưng hình dạng ký tự) Dùng lệnh cntraining để tạo tập tin liệu normproto cntraining *.tr Kết hợp tập tin lại tạo thành tập tin huấn luyện liệu: Cuối sau có đủ tập tin huấn luyện cần thiết (unicharset, inttemp, pffmtable, normproto, shapetable) ta đổi tên tập tin lại cho dạng với tiền tố lang trước tên tập tin với lang ký tự đại diện cho ngôn ngữ huấn luyện theo chuẩn ISO 639-3 Thực lệnh sau để kết hợp tập tin lại tạo tập tin lang.traineddata Đặt tập tin vào thưc mục tessdata Tesseract Tesseract nhận dạng ngôn ngữ (theo lý thuyết) Combine_tessdata lang 3.1.5.2 Nhận dạng ký tự với Tesseract OCR Sau vùng quan tâm xác định, giai đoạn thực nhận dạng thông tin khu vực để đưa kết Nhận dạng ký tự in 38 Vùng mã sinh viên vùng mã môn học vùng chứa ký tự in, không thực tách riêng ký tự vùng Trong phạm vi luận văn này, sử dụng liệu huấn luyện cho ngôn ngữ Tiếng Anh, liệu huấn luyện thử nghiệm với độ xác xấp xỉ 100% [9],[11] để nhận dạng số (mười chữ số từ đến 9) vùng mã sinh viên nhận dạng ký tự (gồm 10 chữ số từ đến 9, 26 chữ in hoa từ A đến Z dấu gạch chéo) vùng mã môn học Nhận dạng số viết tay Sau phân đoạn, chữ số viết tay nhận dạng với liệu chữ số viết tay huấn luyện 3.2 Cài đặt Từ phân tích thực cài đặt chương trình cho hệ thống đề xuất với môi trường công cụ sau: Hệ điều hành: Microsoft Windows Ngôn ngữ lập trình: C ++ (trong Microsoft Visual Studio 2012) Phần mềm nguồn mở: Tesseract OCR 3.02 Thư Viện: MFC, OpenCV 2.4.9 Chương trình cài đặt với giao diện sau: 39 Hình 21: Giao diện chương trình Để thực chương trình người dùng thực bước: - Chọn bảngđiểm để mở - Thay đổi vị trí kích thước hình chữ nhật Form để xác định vị trí kích thước khu vực chứa mã môn học (nếu cần) - Hai cột mã sinh viên điểm đặt mặc định tương ứng với cột thứ hai cột thứ bảngđiểm (ta thay đổi số thứ tự cột cần) Hình 22: Form thay đổi số thứ tự cột mã sinh viên v điểm - Nhấn nút đọcđiểm hệ thống thực đọc thông tin cần thiết bảngđiểm - Nhấn nút thoát để kết thúc chương trình 40 CHƢƠNG 4: KẾT QUẢ THỰC NGHIỆM 4.1 Kết nhận diện chữ số viết tay Dữ liệu chữ số viết tayđược lấy khoảng 50 người, người viết nhiều mẫu Trong đó, 690 mẫu sử dụng để huấn luyện 150 mẫu dùng để kiểm thử Kết kiểm thử cho thấy kết nhận dạng xác xấp xỉ 90% Một số trường hợp nhận dạng sai: Ảnh Nhãn Nhãn nhận dạng Bảng 3: Một số trường hợp nhận dạng số viết tay bị sai 4.2 Kết thử nghiệm liệu bảngđiểm thực Trong luận văn sử dụng 30bảng điểm quy học viên Nông nghiệp Việt Nam phần điểm số ghi tay Các bảngđiểm nhiều giáo viên bao gồm gốc photo không bị rách nhàu nát thu thập môn Khoa học máy tính, khoa Công nghệ thông tin, sau scan máy scan với độ phân giải 300dpi Trong số ảnh scan, trực quan thấy bao gồm ảnh có nhiễu, ảnh sạch, ảnh scan ngắn ảnh bị nghiêng Ví dụ hình ảnh số bảngđiểm mà sử dụng Hình 23: Hình ảnh số bảngđiểm Thử nghiệm chương trình với bảngđiểm thu thập kết sau: 41 Phát khu vực quan tâm Phát khu vực bảng xoay ảnh: Thử nghiệm chương trình với 30 bảng điểm, kết phát khu vực bảng xoay ảnh sau: - Với phương pháp 1: xác định xác 27 bảng, không phát bảng Hình 24: Phát khu vực bảng xoay ảnh 42 Hình 25: Trường hợp không phát khu vực bảng - Với phương pháp 2: xác định xác 28 bảng, không phát bảng Hình 26: Trường hợp xác định phương pháp 43 Phát khu vực chứa mã sinh viên điểm - Thử nghiệm với 27 bảngđiểm thu phương pháp 1, kết cho thấy việc xác định vùng mã sinh viên điểm cho kết xác 100% - Thử nghiệm với 28 bảngđiểm thu phương pháp 2, kết cho thấy việc xác định vùng mã sinh viên điểm cho kết xác 27 bảngđiểm Với bảngđiểm xác định khu vực bảng phương pháp 2, xác định cột mã sinh viên điểm cho kết không xác trình xoay ảnh không xác (ảnh bị nghiêng sau thực xoay) nên không xác định đường thẳng đứng dẫn tới không xác định khu vực chứa mã sinh viên điểm Nhận dạng mã môn học Thử nghiệm chương trình để nhận dạng mã môn học cho 27 bảng điểm, kết thu sau: Số lượng nhận dạng Số lượng nhận dạng sai 21 Phần trăm nhận dạng 77,8% Bảng 4: Kết nhận dạng mã môn học Trong số trường hợp nhận dạng sai có trường hợp ký tự “0” nhận dạng thành “O” trường hợp ký tự “T” nhận dạng thành “F” Bảng ví dụ trường hợp nhận dạng sai mã môn học Ảnh vùng mã môn học Mã môn học Mã môn học nhận dạng sai TH2021/03/001 TT122/01/001 TH2021/03/O01 TF122/01/001 Bảng 5: Ví dụ nhận dạng sai mã môn học Nhận dạng mã sinh viên 44 Thử nghiệm chương trình với 10 bảngđiểm lấy ngẫu nhiên số 27 bảng điểm, kết nhận dạng mã sinh viên sau: Bảngđiểm 10 Số lượng nhận Số lượng nhận Phần trăm nhận dạng dạng sai dạng 37 100.0% 37 100.0% 37 100.0% 37 100.0% 21 100.0% 22 100.0% 37 100.0% 37 100.0% 20 95.2% 30 96.8% Trung bình 99.2% Bảng 6: Kết nhận dạng mã sinh viên Trường hợp nhận dạng sai có nhiễu Bảng trường hợp mã sinh viên bị nhận dạng sai có nhiễu Ảnh vùng mã sinh viên Mã sinh viên 531967 Mã sinh viên nhận dạng sai 531967 Bảng 7: Ví dụ nhận dạng sai mã sinh viên Nhận dạng điểm Kết nhận dạng điểm 10 bảngđiểm sử dụng để nhận dạng mã sinh viên, kết nhận dạng sau: Bảngđiểm Số lượng nhận dạng 28 35 32 25 17 15 32 30 Số lượng nhận dạng sai 12 45 Phần trăm nhận dạng 75.7% 94.6% 86.5% 67.6% 81.0% 62.5% 86.5% 81.1% 10 15 24 Trung bình Bảng 8: Kết nhận dạng điểm 71.4% 77.4% 78.4% Bảng kết nhận dạng điểm cho thấy kết nhận dạng bảngđiểm không giống Độ xác trình nhận dạng điểm số bị ảnh hưởng độ xác trình phân tách chữ số phần điểm Dưới số nguyên nhân làm cho kết phân tách chữ số không xác: Các số viết gần giống nhau, ví dụ: số số 5; số số 8, số số 7, số số 6… Các số bị viết dính liền vào dính vào hàng, cột dẫn tới việc phân tách số cho kết không xác số bị cắt phần Các số viết với kích thước không có số to, có số nhỏ, dẫn tới kết nhận dạng bị toàn số điểm, trình phân đoạn loại bỏ bounding box có kích thước to nhỏ Các số viết với nét không liên tục dấu phẩy (ký hiệu ngăn cách phân nguyên phần lẻ điểm) viết to tương đương với số, dẫn tới số lượng bounding box tìm nhiều số chữ số điểm Trong trường hợp điểm số nhận dạng với nhiều chữ số điểm thực tế Dưới số ví dụ điểm số bị nhận dạng sai: Điểm bị sai nhận dạng nhầm số thành số khác: Ảnh điểmĐiểm 8.5 4.5 5.5 2.5 4.3 8.9 KQ tách số KQ nhận dạng Bảng 9: Điểm bị sai nhận dạng số viết tay sai 46 Điểm bị sai số bị loại bỏ trình phân tách chữ số Ảnh điểmĐiểm 4.2 4.2 6.5 KQ tách số KQ nhận dạng Bảng 10: Điểm bị sai loại số điểm Điểm bị sai trình phân tách thu số bounding box nhiều số chữ số điểm Ảnh điểmĐiểm 5.5 3.5 0.15 9.69 KQ tách số KQ nhận dạng Bảng 11: Điểm bị sai số chữ số nhận dạng lớn thực tế 47 CHƢƠNG 5: KẾT LUẬN 5.1 Các kết đạt đƣợc Qua thời gian tìm hiểu thực luận văn “Xây dựngứngdụngtựđộngđọcbảng điểm” thực nhiệm vụ sau: Về lý thuyết: Tôi học số kỹ thuật xử lý ảnh, số kỹ thuật xử lý bước thực toán nhận dạng ký tựỨngdụng phần mềm nguồn mở Tesseract OCR việc nhận dạng ký tự Về thực nghiệm: Từ kiến thức thu thực phân tích giải pháp xâydựng hệ thống thử nghiệm để đọcbảngđiểm Học viện Nông nghiệp Việt Nam Hệ thống giải vấn đề: o Xác định khu vực cần quan tâm bảngđiểm o Nhận dạng ký tự in (mã môn học, mã sinh viên) chữ số viết tay với phần mềm nguồn mở Tesseract OCR Hệ thống cài đặt thử nghiệm có số ưu điểm bật như: o Người dùng thay đổi vùng quan tâm bảngđiểm Do cấu trúc bảngđiểm bị thay đổi nguyên nhân chủ quan hay khách quan hệ thống hoạt động o Việc xác định đường ngang dọc phần bảng có ý nghĩa quan trọng, ảnh hưởng đến kết việc xác định khu vực chứa mã sinh viên điểm số Với hệ thống thực nghiệm này, việc xác định đường ngang dọc thực sau ảnh xử lý với phép toán hình thái nhằm loại bỏ bớt nội dung nằm ô bảng, kết thu xác 5.2 Các mặt hạn chế Bên cạnh ưu điểm hệ thống thử nghiệm trình bày phần 5.1, hệ thống số nhược điểm: 48 Việc xác định hiệu chỉnh góc nghiêng bảng định cách tương đối (phụ thuộc vào việc chọn giá trị ngưỡng), độ xác chưa cao Việc tách chữ số phần điểm sinh viên chưa xử lý tốt cho trường hợp điểm bị dính vào nhau, dính vào biên chữ số viết không dẫn tới kết nhận dạng điểm chưa cao 5.3 Định hƣớng phát triển Trong tương lai, hệ thống cần cải thiện thêm để ứngdụng hệ thống quản lý điểm: Áp dụng số kỹ thuật để cải thiện việc hiệu chỉnh trường hợp ảnh bị nghiêng, bảngđiểm scan bị số cột không cần thiết Cải thiện việc phân tách chữ sỗ phần điểm để cải thiện độ xác nhận dạng điểm số Thử nghiệm số lượng bảngđiểm đa dạng để đưa đánh giá xác cải tiến chương trình cho phù hợp với nhu cầu thực tế 49 TÀI LIỆU THAM KHẢO [1] Lương Mạnh Bá Nguyễn Thanh Thuỷ, chủ biên (2003), Nhập môn xử lý ảnh số, Nxb Khoa học kỹ thuật Hà Nội [2] Phạm Thị Thanh Hiển(2013), Nhận dạng ký hiệu toán học, Luận văn thạc sĩ, Học viện công nghệ Bưu Viễn thông [3] DO Thi Hong Ha (2012), Construction d’une application de lecture automatique des relevés de notes, Đồ án tốt nghiệp đại học, Đại học Bách khoa Hà Nội [4] Patel, C., Patel, A., & Patel, D (2012) Optical character recognition by open source ocr tool tesseract: A case study International Journal of Computer Applications, 55(10), 50-56 [5] Rakshit, S., & Basu, S (2010) Development of a multi-user handwriting recognition system using tesseract open source ocr engine arXiv preprint arXiv:1003.5886 [6] Rakshit, S., Kundu, A., Maity, M., Mandal, S., Sarkar, S., & Basu, S (2010) Recognition of handwritten roman numerals using tesseract open source ocr engine arXiv preprint arXiv:1003.5898 [7] Sharda, V., & Kishan, A.C (2009) Skew detection and correction in scanned document images, barchelor of technology in computer science and engineering, National Institute of Technology Rourkela, India [8] Smith, R (2007) An overview of the tesseract ocr engine icdar, IEEE [9] Smith, R., Antonova, D., & Lee, D.-S (2009) Adapting the Tesseract open source OCR engine for multilingual OCR Proceedings of the International Workshop on Multilingual OCR [10] https://code.google.com/p/bbtesseract/, tham khảo tháng 8/2015 [11] http://code.google.com/p/tesseract-ocr, tham khảo tháng 8/2015 [12] http://jocr.sourceforge.net/, tham khảo 5/9/1015 [13] http://docs.opencv.org//, tham khảo tháng 8/2014 [14] http://sourceforge.net/projects/javaocr/, tham khảo 5/9/1015 [15] http://tesseract-ocr.googlecode.com/files/TesseractOSCON.pdf, tham khảo tháng 8/2015 [16] http://vietunicode.sourceforge.net/howto/tesseract-ocr_vi.html, tham khảo 5/9/1015 [17] http://www.free-ocr.com/, tham khảo 5/9/1015 [18] http://www.ieev.org/search/label/008.CB%20x%E1%BB%AD%20l%C3%BD %20%E1%BA%A3nh, tham khảo tháng 8/2014 50 ... dạng ký tự Để thực việc nhận dạng ký tự có số phương pháp sử dụng như: Nghiên cứu tự xây dựng ộ nhận dạng ký tự: với phương pháp ta cần nghiên cứu kỹ thuật sau xây dựng nhận dạng ký tự Phương... để xây dựng hệ thống đáp ứng mục tiêu đề là: đọc điểm sinh viên từ ảnh bảng điểm Đầu vào hệ thống ảnh scan bảng điểm đầu hệ thống mã môn học, mã sinh viên điểm số tương ứng sinh viên ghi bảng. .. bounding box ứng với phần chứa khu vực bảng Hình 10 biểu diễn khu vực chứa bảng (phần hình chữ nhật màu xanh) ảnh bảng điểm 26 Hình 10: Hình ảnh bảng điểm với phần bảng đánh dấu Sau phần bảng xác