Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 67 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
67
Dung lượng
2,51 MB
Nội dung
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Phạm Đức Toàn NGHIÊN CỨU KỸ THUẬT ĐỊNH VỊ, TÁCH VÀ NHẬN DẠNG VÙNG TÔ TRONG PHIẾU TRẮC NGHIỆM LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH Thái nguyên, 2014 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ ĐẠI HỌC THÁI NGUYÊN ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Phạm Đức Toàn NGHIÊN CỨU KỸ THUẬT ĐỊNH VỊ, TÁCH VÀ NHẬN DẠNG VÙNG TÔ TRONG PHIẾU TRẮC NGHIỆM Ngành: Công nghệ thông tin Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. ĐỖ NĂNG TOÀN Thái nguyên, 2014 i Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ LỜI CAM ĐOAN Tôi xin cam đoan, toàn bộ nội dung liên quan tới đề tài được trình bày trong luận văn là bản thân tôi tự tìm hiểu và nghiên cứu, dưới sự hướng dẫn khoa học của Thày giáo PGS. TS. Đỗ Năng Toàn. Các tài liệu, số liệu tham khảo được trích dẫn đầy đủ nguồn gốc. Tôi xin chịu trách nhiệm trước pháp luật lời cam đoan của mình. Thái Nguyên, ngày 10 tháng 4 năm 2014 Học viên thực hiện Phạm Đức Toàn ii Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ LỜI CẢM ƠN Tôi xin gửi lời cảm ơn tới Khoa Công nghệ thông tin Trường Đại học Công nghệ thông tin và Truyền thông - Đại học Thái Nguyên, nơi các thày cô đã tận tình truyền đạt các kiến thức quý báu cho tôi trong suốt quá trình học tập. Xin cảm ơn Ban chủ nhiệm khoa và các cán bộ đã tạo điều kiện tốt nhất cho chúng tôi học tập và hoàn thành đề tài tốt nghiệp của mình. Đặc biệt, tôi xin gửi tới thày giáo, PGS. TS. Đỗ Năng Toàn, thày đã tận tình chỉ bảo tôi trong suốt quá trình thực hiện đề tài lời cảm ơn và biết ơn sâu sắc nhất. Bên cạnh những kiến thức khoa học, thày đã giúp tôi nhận ra những bài học về phong cách học tập, làm việc và những kinh nghiệm sống quý báu. Tôi xin bày tỏ lòng biết ơn tới gia đình, bạn bè, đồng nghiệp và những người thân đã động viên khích lệ tinh thần và giúp đỡ để tôi hoàn thành luận văn này. iii Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC HÌNH v MỞ ĐẦU 1 Chƣơng 1: KHÁI QUÁT VỀ NHẬP DỮ LIỆU TỰ ĐỘNG VÀ BÀI TOÁN NHẬN DẠNG PHIẾU TRẮC NGHIỆM 3 1.1. Khái quát về nhập dữ liệu tự động 3 1.2. Bài toán nhận dạng bài thi trắc nghiệm 6 1.2.1. Ảnh số 6 1.2.1.1. Phần tử ảnh 6 1.2.1.2. Mức xám 6 1.2.1.3. Ảnh 6 1.2.1.4. Phân loại ảnh 6 1.2.1.5. Biểu diễn ảnh trong máy tính 8 1.2.2. Một số vấn đề về nhận dạng 9 1.2.2.1. Không gian biểu diễn đối tượng, không gian diễn dịch 9 1.2.2.2. Mô hình và bản chất của quá trình nhận dạng 10 Chƣơng 2: MỘT SỐ KỸ THUẬT TRONG NHẬN DẠNG PHIẾU TRẮC NGHIỆM 15 2.1. Giới thiệu chung 15 2.2. Các kỹ thuật tiền xử lý 16 2.2.1. Tăng giảm độ sáng 16 2.2.2. Tăng giảm độ tương phản 16 2.2.3. Tách kênh màu đỏ 17 iv Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 2.2.4. Chuyển xám ảnh 18 2.2.5. Phân ngưỡng ảnh 19 2.2.6. Nhiễu ảnh và một số phương pháp lọc nhiễu 23 2.2.7. Xoay ảnh 27 2.2.8. Làm trơn ảnh, tách biên đối tượng 28 2.2.9. Chỉnh góc nghiêng của ảnh 29 2.3. Các kỹ thuật phân vùng ảnh 32 2.3.1. Phân vùng ảnh dựa trên phương pháp phân lớp 33 2.3.2. Phân vùng ảnh dựa trên cấu trúc 35 2.3.3. Phân vùng dựa vào đường biên 38 2.4. Kỹ thuật nhận dạng vùng tô phiếu trả lời trắc nghiệm 42 2.4.1. Nhận dạng các điểm định vị 42 2.4.2. Tách các vùng được tô 43 2.4.3. Nhận dạng vùng được tô 44 Chƣơng 3: XÂY DƢNG HỆ THỐNG CHẤM THI TRẮC NGHIỆM 49 3.1. Quá trình xử lý bài thi trắc nghiệm 49 3.2. Tiền xử lý ảnh quét 50 3.2.1. Tách kênh màu đỏ của ảnh quét 50 3.2.2. Phân ngưỡng ảnh quét 52 3.2.3. Lọc nhiễu trên ảnh quét 52 3.2.4. Căn chỉnh độ lệch trang của ảnh sau khi quét 53 3.3. Xác định điểm định vị 54 3.4. Khoanh vùng được tô 54 3.5. Nhận dạng ô được tô 54 3.6. Kết quả thử nghiệm 57 KẾT LUẬN 58 TÀI LIỆU THAM KHẢO 59 v Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ DANH MỤC CÁC HÌNH Hình 1.1. Mô hình màu RGB 7 Hình 1.2. Mô hình màu CMY 8 Hình 1.3. Mô hình cấu trúc của một đối tượng nhà. 13 Hình 1.4. Sơ đồ tổng quát một hệ nhận dạng. 14 Hình 2.1. Ảnh trước khi chuyển xám 19 Hình 2.2. Ảnh đã thực hiện chuyển xám 19 Hình 2.3. Chọn ngưỡng theo Zack 21 Hình 2.4. Phương pháp lấy ngưỡng 22 Hình 2.5. Phân ngưỡng theo thuật toán SIS 23 Hình 2.6. Ảnh thu được khi qua bộ lọc Mean 25 Hình 2.7. Ảnh sau khi qua bộ lọc Median 26 Hình 2.8. Ảnh thu được sau khi xử lý qua bộ lọc Gauss 27 Hình 2.9. Hệ tọa độ khi xoay ảnh 28 Hình 2.10. Phương pháp Postl 32 Hình 2.11. Lược đồ xám của ảnh 34 Hình 2.12. Thuật toán tam giác 34 Hình 2.13. Các điểm lân cận gradient 39 Hình 2.14. Căn chỉnh đường biên 41 Hình 2.15. Các điểm định vị trong phiếu trả lời câu hỏi trắc nghiệm 42 Hình 2.16. Vùng số báo danh và mã đề đã qua xử lý 44 Hình 2.17. Vùng đáp án đã qua xử lý 44 Hình 2.18. Các dạng tô trong phiếu trả lời trắc nghiệm 45 Hình 2.19. Ô bị tô trùng 45 Hình 2.20. Ô bị tô lệch, tô tràn lan 45 Hình 2.21. Ảnh cần kiểm tra tô được chia thành 3 vùng 46 Hình 3.1. Quá trình xử lý bài thi trắc nghiệm 50 Hình 3.2. Ảnh trước khi thực hiện tách kênh màu đỏ 51 vi Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ Hình 3.3. Ảnh sau khi thực hiện tách kênh màu đỏ 51 Hình 3.4. Ảnh sau khi thực hiện phân ngưỡng và lọc nhiễu 52 Hình 3.5. Ảnh đã thực hiện căn chỉnh độ lệch 53 Hình 3.6. Xác định điểm định vị 54 Hình 3.7. Vùng chứa số báo danh 55 Hình 3.8. Vùng chứa mã đề 55 Hình 3.9. Vùng tô chứa đáp án 55 Hình 3.10. Nhận dạng vùng tô 56 Hình 3.11. Kết quả nhận dạng phiếu trả lời trắc nghiệm 56 1 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ MỞ ĐẦU Lĩnh vực nhận dạng đối tượng trên ảnh số đã được quan tâm từ lâu và đã có những thành công đáng kể như: nhận dạng vân tay, nhận dạng mặt người, nhận dạng biển số xe máy, Ngày nay, với xã hội thông tin phát triển như vũ bão, việc thu thập thông tin gặp rất nhiều trở ngại do lượng thông tin cần thu thập lớn. Nhận dạng đối tượng, vùng tô trên phiếu trả lời trắc nghiệm, thăm dò ý kiến nói chung đã và đang nhận được nhiều quan tâm. Trên cơ sở toán học, phân tích các đặc trưng của thông tin cần thu thập cũng như việc thiết kế mẫu biểu để thu thập thông tin, vận dụng các kỹ thuật nhận dạng để thu thập, cập nhật thông tin trong thực tế là một bài toán khó, đã và đang được phát triển để đưa vào đời sống xã hội. Ở nước ta trong vài năm gần đây, Bộ Giáo dục và Đào tạo đã ứng dụng hình thức thi trắc nghiệm vào thi đại học, làm giảm bớt thời gian chấm thi một cách đáng kể. Việc chấm bài thi trắc nghiệm đã được nhận dạng, xử lý qua máy tính, không cần giáo viên hoặc các chuyên gia trong lĩnh vực có mặt trực tiếp chấm thi như trước đây. Việc chấm các bài thi trắc nghiệm có thể được thực hiện thông qua giải pháp sử dụng các hệ thống máy chấm thi tự động. Người dùng chỉ cần đưa các phiếu trả lời câu hỏi trắc nghiệm vào máy quét chuyên dụng, và hệ thống sẽ tự động thực hiện tất cả các công việc xử lý như số hóa phiếu trả lời, so khớp đáp án và trả lại kết quả. Tuy nhiên, những hệ thống này thường có chi phí lớn, mặc dù cho tốc độ xử lý cao nhưng độ chính xác lại không cao, dẫn đến việc phải chấm lại các bài thi gây tốn kém cả về thời gian và tiền bạc. Việc xử lý chấm thi trắc nghiệm cũng có thể được thực hiện bằng cách áp dụng các kỹ thuật định vị, tách và nhận dạng vùng tô trong phiếu trắc 2 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ nghiệm, từ đó đưa ra được thông tin cũng như các câu trả lời của thí sinh, mã đề thi và số báo danh của thí sinh. Phương pháp này chỉ cần sử dụng máy quét chuyên dụng để chuyển các phiếu trả lời trắc nghiệm thành ảnh đưa vào máy tính. Một phần mềm nhận dạng sẽ xử lý các ảnh đó và trả lại kết quả sau khi đã so khớp với đáp án được cung cấp. Phương pháp này tuy có tốc độ không cao bằng cách sử dụng máy nhận dạng bài thi trắc nghiệm chuyên dụng (máy quang học), nhưng lại giúp tăng độ chính xác trong quá trình nhận dạng bài thi. Xuất phát từ những lý do trên, tôi chọn đề tài “Nghiên cứu kỹ thuật định vị, tách và nhận dạng vùng tô trong phiếu trắc nghiệm”, nhằm trợ giúp cho việc xử lý bài thi, nhận dạng bài thi trắc nghiệm có độ chính xác cao, đảm bảo thời gian xử lý. Nội dung luận văn không kể phần mở đầu, kết luận, tài liệu tham khảo bao gồm 3 chương: Chƣơng 1: Khái quát về nhập dữ liệu tự động và bài toán nhận dạng phiếu trắc nghiệm Chƣơng 2: Một số kỹ thuật trong nhận dạng phiếu trắc nghiệm Chƣơng 3: Xây dựng hệ thống chấm thi trắc nghiệm Tôi xin chân thành cảm ơn sự giúp đỡ của các thày, cô giáo trong khoa Công nghệ thông tin, Trường Đại học Công nghệ Thông tin và Truyền thông – Đại học Thái Nguyên, đặc biệt xin trân trọng gửi lời cảm ơn tới thày giáo, Phó giáo sư, Tiến sĩ Đỗ Năng Toàn – Viện Toán Tin Viện Khoa học Công nghệ Việt Nam đã trực tiếp giúp đỡ và hướng dẫn tôi hoàn thành đề tài này. [...]... thi trắc nghiệm ở Việt Nam Mô hình nhận dạng bài thi trắc nghiệm Kết quả Máy quét Phiếu trả lời trắc nghiệm Thu nhận và lưu trữ ảnh Nhận dạng vùng tô Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên Tiền xử lý ảnh Phân vùng các đối tượng http://www.lrc-tnu.edu.vn/ 6 1.2 Bài toán nhận dạng bài thi trắc nghiệm 1.2.1 Ảnh số 1.2.1.1 Phần tử ảnh Ảnh trong thực tế là một ảnh liên tục về không gian và về... vùng đất hoang mà đã có các miêu tả về các đối tượng đó Vấn đề chủ yếu là thiết kế một hệ thống để có thể đối sánh đối tượng trong ảnh với mẫu chuẩn và quyết định gán cho chúng vào một lớp Việc đối sánh nhờ vào các thủ tục ra quyết định dựa trên một công cụ gọi là hàm phân lớp hay hàm ra quyết định Học không có thầy (unsupervised learning) Kỹ thuật học này phải tự định ra các lớp khác nhau và xác định. .. giá trị màu thích hợp với một vùng sáng hơn Trong một ảnh có độ tương phản cao, có thể xác định được các viền rõ ràng và chi tiết khác nhau của ảnh đó được nổi bật Còn trong một ảnh có độ tương phản thấp, tất cả các màu đều gần như nhau gây khó khăn cho việc xác định các chi tiết của ảnh Biểu thức cho kỹ thuật Contrast có dạng: g(x,y) = af(x,y) Trong đó a là hằng số nhân vào giá trị màu tại f(x,y) Độ... nhà 1.2.2.2.2 Bản chất của quá trình nhận dạng Quá trình nhận dạng gồm 3 giai đoạn chính: - Lựa chọn mô hình biểu diễn đối tượng - Lựa chọn luật ra quyết định (phương pháp nhận dạng) và suy diễn quá trình học - Học nhận dạng Khi mô hình biểu diễn đối tượng đã được xác định, có thể là định lượng (mô hình tham số) hay định tính (mô hình cấu trúc), quá trình nhận dạng chuyển sang giai đoạn học Học là giai... không biết trước Kỹ thuật này nhằm tiến hành mọi cách gộp nhóm có thể và chọn lựa cách tốt nhất Bắt đầu từ tập dữ liệu, nhiều thủ tục xử lý khác nhau nhằm phân lớp và nâng cấp dần để đạt được một phương án phân loại Nhìn chung, dù là mô hình nào và kỹ thuật nhận dạng ra sao, một hệ thống nhận dạng có thể tóm tắt theo sơ đồ sau: Trích chọn đặc tính Phân lớp ra biểu diễn đối tượng quyết định Quá trình... trình tiền xử lý Trả lời Đánh giá Khối nhận dạng Hình 1.4 Sơ đồ tổng quát một hệ nhận dạng Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 15 Chƣơng 2 MỘT SỐ KỸ THUẬT TRONG NHẬN DẠNG PHIẾU TRẮC NGHIỆM 2.1 Giới thiệu chung Giai đoạn tiền xử lý ảnh là giai đoạn quan trọng, có ảnh hưởng trực tiếp đến độ chính xác của quá trình nhận dạng, tuy nhiên nó cũng làm tăng thời gian... Việc nhận dạng chính là tìm ra quy luật và các thuật toán để có thể gán đối tượng vào một lớp hay nói một cách khác gán cho đối tượng một tên Học có thầy (supervised learning) Kỹ thuật phân loại nhờ kiến thức biết trước gọi là học có thầy Đặc điểm cơ bản của kỹ thuật này là người ta có một thư viện các mẫu chuẩn Mẫu cần nhận dạng sẽ được đem sánh với mẫu chuẩn để xem nó thuộc loại nào Thí dụ như trong. .. ảnh tăng nếu a > 1, và giảm bớt nếu a < 1 2.2.3 Tách kênh màu đỏ Ảnh quét thu được của phiếu trả lời trắc nghiệm trên thực tế chỉ bao gồm hai màu chủ đạo là đen và đỏ (không xét đến màu bút của thí sinh ghi thông tin) Màu đỏ dùng để in các thông tin đánh dấu, đường bao và để tô vẽ các vùng đối tượng đánh dấu đặc biệt Ưu điểm của việc sử dụng màu đỏ để in những thông tin này là để trong quá trình xử... hay các vùng ảnh (Region) Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 9 1.2.2 Một số vấn đề về nhận dạng Nhận dạng là quá trình phân loại các đối tượng được biểu diễn theo một mô hình nào đó và gán cho chúng vào một lớp (gán cho đối tượng một tên gọi) dựa theo những quy luật và các mẫu chuẩn Quá trình nhận dạng dựa vào những mẫu học biết trước gọi là nhận dạng có... nhận dạng được đối tượng Một cách hình thức gọi là tập tên đối tượng: = {w1, w2, ,wk} với wi, i = 1, 2, , k là tên các đối tượng Quá trình nhận dạng đối tượng f là một ánh xạ f: X -> với f là tập các quy luật để xác định một phần tử trong X ứng với một phần tử trong Nếu tập các quy luật và tập tên các đối tượng là biết trước như trong nhận dạng chữ viết (có 26 lớp từ A đến Z), người ta gọi là nhận dạng . TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Phạm Đức Toàn NGHIÊN CỨU KỸ THUẬT ĐỊNH VỊ, TÁCH VÀ NHẬN DẠNG VÙNG TÔ TRONG PHIẾU TRẮC NGHIỆM LUẬN VĂN THẠC SỸ KHOA. NGUYÊN ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Phạm Đức Toàn NGHIÊN CỨU KỸ THUẬT ĐỊNH VỊ, TÁCH VÀ NHẬN DẠNG VÙNG TÔ TRONG PHIẾU TRẮC NGHIỆM Ngành: Công nghệ thông. Phân vùng ảnh dựa trên cấu trúc 35 2.3.3. Phân vùng dựa vào đường biên 38 2.4. Kỹ thuật nhận dạng vùng tô phiếu trả lời trắc nghiệm 42 2.4.1. Nhận dạng các điểm định vị 42 2.4.2. Tách các vùng