Nghiên cứu kỹ thuật định vị, tách và nhân dạng vùng tô trong phiếu trắc nghiệm

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Phạm Đức Toàn NGHIÊN CỨU KỸ THUẬT

Trang 1

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

Phạm Đức Toàn

NGHIÊN CỨU KỸ THUẬT ĐỊNH VỊ,

TÁCH VÀ NHẬN DẠNG VÙNG TÔ

TRONG PHIẾU TRẮC NGHIỆM

LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH

Thái nguyên, 2014

Trang 2

ĐẠI HỌC THÁI NGUYÊN ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

Phạm Đức Toàn

NGHIÊN CỨU KỸ THUẬT ĐỊNH VỊ, TÁCH VÀ NHẬN DẠNG VÙNG TÔ TRONG PHIẾU TRẮC NGHIỆM

Ngành: Công nghệ thông tin

Chuyên ngành: Khoa học máy tính

Mã số:60.48.01

LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS ĐỖ NĂNG TOÀN

Thái nguyên, 2014

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan, toàn bộ nội dung liên quan tới đề tài được trình bày trong luận văn là bản thân tôi tự tìm hiểu và nghiên cứu, dưới sự hướng dẫn khoa học của Thày giáo PGS TS Đỗ Năng Toàn

Các tài liệu, số liệu tham khảo được trích dẫn đầy đủ nguồn gốc Tôi xin chịu trách nhiệm trước pháp luật lời cam đoan của mình

Thái Nguyên, ngày 10 tháng 4 năm 2014

Học viên thực hiện

Phạm Đức Toàn

Trang 4

Tôi xin gửi lời cảm ơn tới Khoa Công nghệ thông tin Trường Đại học Công nghệ thông tin và Truyền thông - Đại học Thái Nguyên, nơi các thày cô

đã tận tình truyền đạt các kiến thức quý báu cho tôi trong suốt quá trình học tập Xin cảm ơn Ban chủ nhiệm khoa và các cán bộ đã tạo điều kiện tốt nhất cho chúng tôi học tập và hoàn thành đề tài tốt nghiệp của mình

Đặc biệt, tôi xin gửi tới thày giáo, PGS TS Đỗ Năng Toàn, thày đã tận tình chỉ bảo tôi trong suốt quá trình thực hiện đề tài lời cảm ơn và biết ơn sâu sắc nhất Bên cạnh những kiến thức khoa học, thày đã giúp tôi nhận ra những bài học về phong cách học tập, làm việc và những kinh nghiệm sống quý báu Tôi xin bày tỏ lòng biết ơn tới gia đình, bạn bè, đồng nghiệp và những người thân đã động viên khích lệ tinh thần và giúp đỡ để tôi hoàn thành luận văn này

Trang 5

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC CÁC HÌNH v

MỞ ĐẦU 1

Chương 1: KHÁI QUÁT VỀ NHẬP DỮ LIỆU TỰ ĐỘNG VÀ BÀI TOÁN NHẬN DẠNG PHIẾU TRẮC NGHIỆM 3

1.1 Khái quát về nhập dữ liệu tự động 3

1.2 Bài toán nhận dạng bài thi trắc nghiệm 6

1.2.1 Ảnh số 6

1.2.1.1 Phần tử ảnh 6

1.2.1.2 Mức xám 6

1.2.1.3 Ảnh 6

1.2.1.4 Phân loại ảnh 6

1.2.1.5 Biểu diễn ảnh trong máy tính 8

1.2.2 Một số vấn đề về nhận dạng 9

1.2.2.1 Không gian biểu diễn đối tượng, không gian diễn dịch 9

1.2.2.2 Mô hình và bản chất của quá trình nhận dạng 10

Chương 2: MỘT SỐ KỸ THUẬT TRONG NHẬN DẠNG PHIẾU TRẮC NGHIỆM 15

2.1 Giới thiệu chung 15

2.2 Các kỹ thuật tiền xử lý 16

2.2.1 Tăng giảm độ sáng 16

2.2.2 Tăng giảm độ tương phản 16

2.2.3 Tách kênh màu đỏ 17

Trang 6

2.2.5 Phân ngưỡng ảnh 19

2.2.6 Nhiễu ảnh và một số phương pháp lọc nhiễu 23

2.2.7 Xoay ảnh 27

2.2.8 Làm trơn ảnh, tách biên đối tượng 28

2.2.9 Chỉnh góc nghiêng của ảnh 29

2.3 Các kỹ thuật phân vùng ảnh 32

2.3.1 Phân vùng ảnh dựa trên phương pháp phân lớp 33

2.3.2 Phân vùng ảnh dựa trên cấu trúc 35

2.3.3 Phân vùng dựa vào đường biên 38

2.4 Kỹ thuật nhận dạng vùng tô phiếu trả lời trắc nghiệm 42

2.4.1 Nhận dạng các điểm định vị 42

2.4.2 Tách các vùng được tô 43

2.4.3 Nhận dạng vùng được tô 44

Chương 3: XÂY DƯNG HỆ THỐNG CHẤM THI TRẮC NGHIỆM 49

3.1 Quá trình xử lý bài thi trắc nghiệm 49

3.2 Tiền xử lý ảnh quét 50

3.2.1 Tách kênh màu đỏ của ảnh quét 50

3.2.2 Phân ngưỡng ảnh quét 52

3.2.3 Lọc nhiễu trên ảnh quét 52

3.2.4 Căn chỉnh độ lệch trang của ảnh sau khi quét 53

3.3 Xác định điểm định vị 54

3.4 Khoanh vùng được tô 54

3.5 Nhận dạng ô được tô 54

3.6 Kết quả thử nghiệm 57

KẾT LUẬN 58

TÀI LIỆU THAM KHẢO 59

Trang 7

Hình 1.1 Mô hình màu RGB 7

Hình 1.2 Mô hình màu CMY 8

Hình 1.3 Mô hình cấu trúc của một đối tượng nhà 13

Hình 1.4 Sơ đồ tổng quát một hệ nhận dạng 14

Hình 2.1 Ảnh trước khi chuyển xám 19

Hình 2.2 Ảnh đã thực hiện chuyển xám 19

Hình 2.3 Chọn ngưỡng theo Zack 21

Hình 2.4 Phương pháp lấy ngưỡng 22

Hình 2.5 Phân ngưỡng theo thuật toán SIS 23

Hình 2.6 Ảnh thu được khi qua bộ lọc Mean 25

Hình 2.7 Ảnh sau khi qua bộ lọc Median 26

Hình 2.8 Ảnh thu được sau khi xử lý qua bộ lọc Gauss 27

Hình 2.9 Hệ tọa độ khi xoay ảnh 28

Hình 2.10 Phương pháp Postl 32

Hình 2.11 Lược đồ xám của ảnh 34

Hình 2.12 Thuật toán tam giác 34

Hình 2.13 Các điểm lân cận gradient 39

Hình 2.14 Căn chỉnh đường biên 41

Hình 2.15 Các điểm định vị trong phiếu trả lời câu hỏi trắc nghiệm 42

Hình 2.16 Vùng số báo danh và mã đề đã qua xử lý 44

Hình 2.17 Vùng đáp án đã qua xử lý 44

Hình 2.18 Các dạng tô trong phiếu trả lời trắc nghiệm 45

Hình 2.19 Ô bị tô trùng 45

Hình 2.20 Ô bị tô lệch, tô tràn lan 45

Hình 2.21 Ảnh cần kiểm tra tô được chia thành 3 vùng 46

Hình 3.1 Quá trình xử lý bài thi trắc nghiệm 50

Hình 3.2 Ảnh trước khi thực hiện tách kênh màu đỏ 51

Trang 8

Hình 3.4 Ảnh sau khi thực hiện phân ngưỡng và lọc nhiễu 52

Hình 3.5 Ảnh đã thực hiện căn chỉnh độ lệch 53

Hình 3.6 Xác định điểm định vị 54

Hình 3.7 Vùng chứa số báo danh 55

Hình 3.8 Vùng chứa mã đề 55

Hình 3.9 Vùng tô chứa đáp án 55

Hình 3.10 Nhận dạng vùng tô 56

Hình 3.11 Kết quả nhận dạng phiếu trả lời trắc nghiệm 56

Trang 9

MỞ ĐẦU

Lĩnh vực nhận dạng đối tượng trên ảnh số đã được quan tâm từ lâu và đã

có những thành công đáng kể như: nhận dạng vân tay, nhận dạng mặt người, nhận dạng biển số xe máy,

Ngày nay, với xã hội thông tin phát triển như vũ bão, việc thu thập thông tin gặp rất nhiều trở ngại do lượng thông tin cần thu thập lớn Nhận dạng đối tượng, vùng tô trên phiếu trả lời trắc nghiệm, thăm dò ý kiến nói chung đã và đang nhận được nhiều quan tâm Trên cơ sở toán học, phân tích các đặc trưng của thông tin cần thu thập cũng như việc thiết kế mẫu biểu để thu thập thông tin, vận dụng các kỹ thuật nhận dạng để thu thập, cập nhật thông tin trong thực tế là một bài toán khó, đã và đang được phát triển để đưa vào đời sống xã hội

Ở nước ta trong vài năm gần đây, Bộ Giáo dục và Đào tạo đã ứng dụng hình thức thi trắc nghiệm vào thi đại học, làm giảm bớt thời gian chấm thi một cách đáng kể Việc chấm bài thi trắc nghiệm đã được nhận dạng, xử lý qua máy tính, không cần giáo viên hoặc các chuyên gia trong lĩnh vực có mặt trực tiếp chấm thi như trước đây Việc chấm các bài thi trắc nghiệm có thể được thực hiện thông qua giải pháp sử dụng các hệ thống máy chấm thi tự động Người dùng chỉ cần đưa các phiếu trả lời câu hỏi trắc nghiệm vào máy quét chuyên dụng, và hệ thống sẽ tự động thực hiện tất cả các công việc xử lý như số hóa phiếu trả lời, so khớp đáp án và trả lại kết quả Tuy nhiên, những

hệ thống này thường có chi phí lớn, mặc dù cho tốc độ xử lý cao nhưng độ chính xác lại không cao, dẫn đến việc phải chấm lại các bài thi gây tốn kém cả

về thời gian và tiền bạc

Việc xử lý chấm thi trắc nghiệm cũng có thể được thực hiện bằng cách

áp dụng các kỹ thuật định vị, tách và nhận dạng vùng tô trong phiếu trắc

Trang 10

nghiệm, từ đó đưa ra được thông tin cũng như các câu trả lời của thí sinh, mã

đề thi và số báo danh của thí sinh Phương pháp này chỉ cần sử dụng máy quét chuyên dụng để chuyển các phiếu trả lời trắc nghiệm thành ảnh đưa vào máy tính Một phần mềm nhận dạng sẽ xử lý các ảnh đó và trả lại kết quả sau khi

đã so khớp với đáp án được cung cấp Phương pháp này tuy có tốc độ không cao bằng cách sử dụng máy nhận dạng bài thi trắc nghiệm chuyên dụng (máy quang học), nhưng lại giúp tăng độ chính xác trong quá trình nhận dạng bài thi

Xuất phát từ những lý do trên, tôi chọn đề tài “Nghiên cứu kỹ thuật

định vị, tách và nhận dạng vùng tô trong phiếu trắc nghiệm”, nhằm trợ

giúp cho việc xử lý bài thi, nhận dạng bài thi trắc nghiệm có độ chính xác cao, đảm bảo thời gian xử lý

Nội dung luận văn không kể phần mở đầu, kết luận, tài liệu tham khảo bao gồm 3 chương:

Chương 1: Khái quát về nhập dữ liệu tự động và bài toán nhận

Phó giáo sư, Tiến sĩ Đỗ Năng Toàn – Viện Toán Tin Viện Khoa học Công

nghệ Việt Nam đã trực tiếp giúp đỡ và hướng dẫn tôi hoàn thành đề tài này

Trang 11

Chương 1 KHÁI QUÁT VỀ NHẬP DỮ LIỆU TỰ ĐỘNG

VÀ BÀI TOÁN NHẬN DẠNG PHIẾU TRẮC NGHIỆM

1.1 Khái quát về nhập dữ liệu tự động

Ngày nay, với những phát triển mạnh mẽ của công nghệ thông tin được ứng dụng rộng rãi trong các hoạt động kinh tế, văn hóa, y tế, giáo dục, hiệu quả giải quyết công việc đã được nâng cao, thời gian cũng như tính chính xác được đảm bảo

Trên thế giới, việc nhập dữ liệu tự động đã được ứng dụng rộng rãi nhằm nâng cao hiệu quả công việc Dữ liệu cần nhập có thể là phiếu điểm của sinh viên, phiếu điều tra xã hội, phiếu bầu cử , được số hóa bằng máy quét ảnh hoặc máy chụp ảnh, từ tệp tin ảnh quét được, hệ thống nhập liệu tự động sẽ nhận dạng, xử lý dựa trên những đặc điểm cơ bản đã được thống nhất khai báo trước Các công đoạn chiếm mất nhiều thời gian, công sức đã được tin học hóa do đó thời gian thực hiện, tính chính xác dữ liệu đã được đảm bảo và cải thiện nhiều Hệ thống nhập dữ liệu tự động được ứng dụng trong một số lĩnh vực như:

Cá cược đua ngựa ở trường đua: Thẻ cá cược đua ngựa ở Nhật

Bản, những thông tin cần thiết liên quan tới việc đặt cược đua ngựa được thể hiện trên một mẫu phiếu thống nhất, người cá cược tô vào vùng chọn theo một quy ước được quy ước trước Phiếu cá cược được quét và xử lý tự động bằng hệ thống nhận dạng phiếu cá cược chuyên biệt Với việc ứng dụng thẻ cá cược đua ngựa, nhà quản lý có thể xử lý lượng phiếu đặt cược lớn trong thời gian ngắn, cung cấp các số liệu về việc đặt cược nhanh nhất trong khoảng thời gian diễn

ra cuộc đua, giúp nâng cao hiệu quả quản lý

Trang 12

Phiếu nhận dạng trắc nghiệm ở một số trường đại học quốc tế

Trang 13

Phiếu nhận dạng bài thi trắc nghiệm ở Việt Nam

Mô hình nhận dạng bài thi trắc nghiệm

Nhận dạng vùng tôKết quả

Trang 14

1.2 Bài toán nhận dạng bài thi trắc nghiệm

1.2.1 Ảnh số

1.2.1.1 Phần tử ảnh

Ảnh trong thực tế là một ảnh liên tục về không gian và về giá trị độ sáng

Để có thể xử lý ảnh bằng máy tính cần thiết phải tiến hành số hoá ảnh Trong quá trình số hoá, người ta biến đổi tín hiệu liên tục sang tín hiệu rời rạc thông qua quá trình lấy mẫu (rời rạc hóa về không gian) và lượng hoá thành phần giá trị mà thể về nguyên tắc bằng mắt thường không phân biệt được hai điểm

kề nhau Trong quá trình này, người ta sử dụng khái niệm Picture element mà

ta quen gọi hay viết là Pixel - phần tử ảnh Mỗi Pixel bao gồm một cặp tọa độ

chỉ vị trí (x,y) và một mức xám nhất định Mật độ Pixel trên một ảnh số cho ta xác định được độ phân giải của ảnh Ảnh có độ phân giải càng cao thì càng rõ nét và ngược lại Ví dụ một ảnh số có độ phân giải là 800 x 600 Pixel nghĩa là

có 800 điểm theo chiều ngang và 600 điểm theo chiều dọc

1.2.1.2 Mức xám

Mức xám của điểm ảnh là kết quả sự biến đổi tương ứng một cường độ sáng của điểm ảnh đó với một giá trị số (kết quả của quá trình lượng hoá) Cách mã hoá kinh điển thường dùng 16, 32 hay 64 mức Mã hoá 256 mức là phổ dụng nhất do lý do kỹ thuật Vì 28

= 256 (0, 1, , 255), nên với 256 mức mỗi pixel sẽ được mã hoá bởi 8 bit

1.2.1.3 Ảnh

Là tập hợp hữu hạn các điểm ảnh, thường được biểu diễn bằng một mảng hai chiều I(n, m) với n là số hàng, m là số cột Ta ký hiệu P(x, y) là một điểm ảnh tại vị trí (x, y) Số lượng điểm ảnh trên mỗi hàng hoặc các hàng xác định

độ phân giải của ảnh

1.2.1.4 Phân loại ảnh

Ảnh nhị phân

Trang 15

Giá trị xám của tất các các điểm ảnh chỉ nhận giá trị 1 hoặc 0 Như vậy

mỗi điểm ảnh trong ảnh nhị phân được biểu diễn bởi 1 bit

Ảnh xám

Giá trị xám nằm trong khoảng 0 255 Như vậy mỗi điểm ảnh trong ảnh nhị phân được biểu diễn bởi 1 byte

Ảnh mầu

Ta quan tâm và xử lý ảnh với mô hình ba màu, ảnh theo mô hình thụ

cảm sẽ chuyển sang mô hình ba màu trước khi xử lý

Hệ mầu RGB (RED- GREEN- BLUE): Thông tin con người thu nhận

bằng hình ảnh đều bắt nguồn từ thị giác Mắt con người có khả năng phân biệt được rõ nét 3 mầu: đỏ, lục, lam Các ảnh mầu nói chung đều bao gồm 3 ảnh xám đối với màu nền đỏ, lục và lam Tất các màu sắc trong tự nhiên đều có thể tổng hợp từ 3 thành phần mầu nói trên

Mô hình RGB còn gọi là mô hình cộng tính, mỗi mức xám của ảnh sẽ được biểu diễn bởi 3 thành phần: R, G, B (Mỗi thành phần được biểu diễn bởi

Đỏ cô ban(0, 1,1)

Đen(0,0,0)

Hình 1.1 Mô hình màu RGB

Trang 16

Hệ mầu CMY( CYAN- MAGENTA- YELLOW): là phần bù của hệ

mầu RGB theo nguyên tắc: C + R = M + G = B + Y =(1, 1, 1) Hệ mầu này thường dùng để xuất thông tin mầu ra các thiết bị như máy in màu

Đỏ lila(0,1,0) Lam(1,1,0)

Đen (1, 1, 1)

Đỏ cô ban (1,0,0)

Lục (1,0,1) Vàng(0,0,1

Đỏ (0, 1,1)

Trắng(0,0,0)

Hình 1.2 Mô hình màu CMY

Hệ mầu CMYK( CYAN- MAGENTA- YELLOW- BLACK): Xuất

phát từ hệ mầu CMY với K là độ đậm nhạt của mầu Với C, M, K được xác định từ CMY( C1, M1, Y1) như sau: K = min(C1, M1, Y1, K); C = C1-K; M=M1-K; Y= Y1-K

1.2.1.5 Biểu diễn ảnh trong máy tính

Trong biểu diễn ảnh, người ta thường dùng các phần tử đặc trưng của ảnh là pixel Nhìn chung có thể xem một hàm hai biến chứa các thông tin như biểu diễn của một ảnh Các mô hình biểu diễn ảnh cho ta một mô tả lôgic hay định lượng các tính chất của hàm này Trong biểu diễn ảnh cần chú ý đến tính trung thực của ảnh hoặc các tiêu chuẩn “thông minh” để đo chất lượng ảnh hoặc tính hiệu quả của các kỹ thuật xử lý

Ta cần xem xét ảnh sẽ được biểu diễn ra sao trong bộ nhớ máy tính Nếu lưu trữ trực tiếp ảnh thô theo kiểu bản đồ ảnh, dung lượng sẽ khá lớn, tốn kém

mà nhiều khi không hiệu quả theo quan điểm ứng dụng Thường người ta không biểu diễn toàn bộ ảnh thô mà tập trung đặc tả các đặc trưng của ảnh như: biên ảnh (Boundary) hay các vùng ảnh (Region)

Trang 17

1.2.2 Một số vấn đề về nhận dạng

Nhận dạng là quá trình phân loại các đối tượng được biểu diễn theo một

mô hình nào đó và gán cho chúng vào một lớp (gán cho đối tượng một tên gọi) dựa theo những quy luật và các mẫu chuẩn Quá trình nhận dạng dựa vào

những mẫu học biết trước gọi là nhận dạng có thầy hay học có thầy (supervised learning); trong trường hợp ngược lại gọi là học không có thầy

(non supervised learning) Chúng ta sẽ lần lượt tìm hiểu về các khái niệm này 1.2.2.1 Không gian biểu diễn đối tượng, không gian diễn dịch

Không gian biểu diễn đối tượng

Các đối tượng khi quan sát hay thu thập được, thường được biểu diễn bởi tập các đặc trưng hay đặc tính Như trong trường hợp xử lý ảnh, ảnh sau khi được tăng cường để nâng cao chất lượng, phân vùng và trích chọn đặc tính, được biểu diễn bởi các đặc trưng như biên, miền đồng nhất, v ,v Người ta thường phân các đặc trưng này theo các loại như: đặc trưng tô pô, đặc trưng hình học và đặc trưng chức năng Việc biểu diễn ảnh theo đặc trưng nào là phụ thuộc vào ứng dụng tiếp theo

Ở đây ta đưa ra một cách hình thức việc biểu diễn các đối tượng Giả sử đối tượng X (ảnh, chữ viết, dấu vân tay, v ,v) được biểu diễn bởi n thành phần (n đặc trưng): X = {x1, x2, , xn}; mỗi xi biểu diễn một đặc tính Không gian biểu diễn đối tượng thường gọi tắt là không gian đối tượng X được định nghĩa:

X = {X1, X2, , Xm} trong đó mỗi Xi biểu diễn một đối tượng Không gian này có thể là vô hạn Để tiện xem xét chúng ta chỉ xét tập X là hữu hạn

Không gian diễn dịch

Không gian diễn dịch là tập các tên gọi của đối tượng Kết thúc quá trình nhận dạng ta xác định được tên gọi cho các đối tượng trong tập không

Trang 18

gian đối tượng hay nói là đã nhận dạng được đối tượng Một cách hình thức gọi là tập tên đối tượng:

= {w1, w2, ,wk} với wi, i = 1, 2, , k là tên các đối tượng

Quá trình nhận dạng đối tượng f là một ánh xạ f: X -> với f là tập

các quy luật để xác định một phần tử trong X ứng với một phần tử trong Nếu tập các quy luật và tập tên các đối tượng là biết trước như trong nhận dạng chữ viết (có 26 lớp từ A đến Z), người ta gọi là nhận dạng có thầy Trường hợp thứ hai là nhận dạng không có thầy Trong trường hợp này việc nhận dạng có khó khăn hơn

1.2.2.2 Mô hình và bản chất của quá trình nhận dạng

1.2.2.2.1 Mô hình

Việc chọn lựa một quá trình nhận dạng có liên quan mật thiết đến kiểu

mô tả mà người ta sử dụng để đặc tả đối tượng Trong nhận dạng, người ta phân chia làm 2 họ lớn:

- Họ mô tả theo tham số

- Họ mô tả theo cấu trúc

Cách mô tả được lựa chọn sẽ xác định mô hình của đối tượng Như vậy, chúng ta sẽ có 2 loại mô hình: mô hình theo tham số và mô hình cấu trúc

 Mô hình tham số sử dụng một véctơ để đặc tả đối tượng Mỗi

phần tử của véctơ mô tả một đặc tính của đối tượng Thí dụ như trong các đặc trưng chức năng, người ta sử dụng các hàm cơ sở trực giao để biểu diễn Và như vậy ảnh sẽ được biểu diễn bởi một chuỗi các hàm trực giao Giả sử C là đường bao của ảnh và C(i,j) là điểm thứ i trên đường bao, i = 1, 2, , N (đường bao gồm N điểm)

Trang 19

Việc lựa chọn phương pháp biểu diễn sẽ làm đơn giản cách xây dựng Tuy nhiên, việc lựa chọn đặc trưng nào là hoàn toàn phụ thuộc vào ứng dụng Thí dụ , trong nhận dạng chữ (sẽ trình bày sau), các tham số là các dấu hiệu:

- số điểm chạc ba, chạc tư,

- số điểm chu trình,

- số điểm ngoặt,

- số điểm kết thúc,

chẳng hạn với chữ t có 4 điểm kết thúc, 1 điểm chạc tư,

 Mô hình cấu trúc: Cách tiếp cận của mô hình này dựa vào việc

mô tả đối tượng nhờ một số khái niệm biểu thị các đối tượng cơ sở trong ngôn ngữ tự nhiên Để mô tả đối tượng, người ta dùng một số dạng nguyên thuỷ như đoạn thẳng, cung, v, ,v Chẳng hạn một hình chữ nhật được định nghĩa gồm 4 đoạn thẳng vuông góc với nhau từng đôi một Trong mô hình này người ta sử dụng một bộ kí hiệu kết thúc Vt, một bộ kí hiệu không kết thúc

Trang 20

gọi là Vn Ngoài ra có dùng một tập các luật sản xuất để mô tả cách xây dựng các đối tượng phù hợp dựa trên các đối tượng đơn giản hơn hoặc đối tượng nguyên thuỷ (tập Vt) Trong cách tiếp cận này, ta chấp nhận một khẳng đinh là: cấu trúc một dạng là kết quả của việc áp dụng luật sản xuất theo theo những nguyên tắc xác định bắt đầu từ một dạng gốc bắt đầu Một cách hình thức, ta có thể coi mô hình này tương đương một văn phạm G = (Vt, Vn, P, S) với:

Tường Mái

Nhà

Đoạn 1 Đoạn 2 Đoạn 2 Đoạn 3 Đoạn 3 Đoạn 4 Đoạn 5 Đoạn 6 Đoạn 6

(2) (1)

(5)

(4) (6)

(3)

Trang 21

Hình 1.3 Mô hình cấu trúc của một đối tượng nhà

1.2.2.2.2 Bản chất của quá trình nhận dạng

Quá trình nhận dạng gồm 3 giai đoạn chính:

- Lựa chọn mô hình biểu diễn đối tượng

- Lựa chọn luật ra quyết định (phương pháp nhận dạng) và suy diễn quá trình học

- Học nhận dạng

Khi mô hình biểu diễn đối tượng đã được xác định, có thể là định lượng (mô hình tham số) hay định tính (mô hình cấu trúc), quá trình nhận dạng chuyển sang giai đoạn học Học là giai đoạn rất quan trọng Thao tác học nhằm cải thiện, điều chỉnh việc phân hoạch tập đối tượng thành các lớp

Việc nhận dạng chính là tìm ra quy luật và các thuật toán để có thể gán đối tượng vào một lớp hay nói một cách khác gán cho đối tượng một tên

Học có thầy (supervised learning)

Kỹ thuật phân loại nhờ kiến thức biết trước gọi là học có thầy Đặc điểm

cơ bản của kỹ thuật này là người ta có một thư viện các mẫu chuẩn Mẫu cần nhận dạng sẽ được đem sánh với mẫu chuẩn để xem nó thuộc loại nào Thí dụ như trong một ảnh viễn thám, người ta muốn phân biệt một cánh đồng lúa, một cánh rừng hay một vùng đất hoang mà đã có các miêu tả về các đối tượng

đó Vấn đề chủ yếu là thiết kế một hệ thống để có thể đối sánh đối tượng trong ảnh với mẫu chuẩn và quyết định gán cho chúng vào một lớp Việc đối

sánh nhờ vào các thủ tục ra quyết định dựa trên một công cụ gọi là hàm phân

lớp hay hàm ra quyết định

Học không có thầy (unsupervised learning)

Kỹ thuật học này phải tự định ra các lớp khác nhau và xác định các tham

số đặc trưng cho từng lớp Học không có thầy đương nhiên là khó khăn hơn Một mặt, do số lớp không được biết trước, mặt khác những đặc trưng của các

Trang 22

lớp cũng không biết trước Kỹ thuật này nhằm tiến hành mọi cách gộp nhóm

có thể và chọn lựa cách tốt nhất Bắt đầu từ tập dữ liệu, nhiều thủ tục xử lý khác nhau nhằm phân lớp và nâng cấp dần để đạt được một phương án phân loại

Nhìn chung, dù là mô hình nào và kỹ thuật nhận dạng ra sao, một hệ thống nhận dạng có thể tóm tắt theo sơ đồ sau:

Hình 1.4 Sơ đồ tổng quát một hệ nhận dạng

Trích chọn đặc tính

biểu diễn đối tượng

Phân lớp ra quyết định

Đánh giá Trả lời

Khối nhận dạng Quá trình tiền xử lý

Trang 23

Chương 2 MỘT SỐ KỸ THUẬT TRONG NHẬN DẠNG PHIẾU TRẮC NGHIỆM 2.1 Giới thiệu chung

Giai đoạn tiền xử lý ảnh là giai đoạn quan trọng, có ảnh hưởng trực tiếp đến độ chính xác của quá trình nhận dạng, tuy nhiên nó cũng làm tăng thời gian xử lý chung của toàn bộ hệ thống Vì vậy, tùy theo chất lượng ảnh thu nhận được của từng trường hợp cụ thể, mà chúng ta chọn sử dụng một hoặc một số thủ tục tiền xử lý Thậm chí, trong trường hợp ảnh đầu vào có chất lượng tốt và cần ưu tiên tốc độ xử lý, chúng ta có thể bỏ qua giai đoạn tiền xử

lý này

Đầu vào của quá trình xử lý ảnh là các ảnh gốc ban đầu, thu được qua scanner Ảnh ban đầu thường có chất lượng thấp do ảnh hưởng của nhiễu, bị nghiêng, bị đứt nét nên chúng ta cần phải có một quá trình tiền xử lý ảnh để nâng cao chất lượng ảnh đầu vào trước khi đưa vào nhận dạng Quá trình này bao gồm công đoạn khôi phục ảnh và tăng cường ảnh

Khôi phục ảnh nhằm mục đích loại bỏ hay làm giảm tối thiểu các ảnh hưởng của môi trường bên ngoài lên ảnh thu nhận được Công đoạn khôi phục ảnh bao gồm các bước như lọc ảnh, khử nhiễu, quay ảnh, qua đó giảm bớt các biến dạng do quá trình quét ảnh gây ra và đưa ảnh về trang thái gần như ban đầu

Tăng cường ảnh là một công đoạn quan trọng, tạo tiền đề cho xử lý ảnh Tăng cường ảnh không phải làm tăng lượng thông tin trong ảnh mà là làm nổi bật những đặc trưng của ảnh giúp cho công việc xử lý phía sau được hiệu quả hơn Công đoạn này bao gồm các công việc như lọc độ tương phản, làm trơn ảnh, nhị phân hóa

Các giai đoạn cơ bản của tiền xử lý ảnh bao gồm: Tăng giảm độ sáng, tăng giảm độ tương phản, chuyển xám, phân ngưỡng, lọc nhiễu, xoay ảnh

Trang 24

2.2 Các kỹ thuật tiền xử lý

2.2.1 Tăng giảm độ sáng

Tăng cường độ sáng (Brightness) của một ảnh có thể được hiểu như sự phát sáng toàn bộ ảnh Hay nói một cách cụ thể đó là sự phát sáng toàn bộ của mọi Pixel trong ảnh đó

Đây là một kỹ thuật khá đơn giản: để tăng thêm độ sáng, tất cả các Pixel của ảnh cần được cộng thêm giá trị điều chỉnh vào mọi kênh màu RGB Tuy

kỹ thuật này đơn giản nhưng nó đem lại hiệu quả khá cao và rất hay được sử dụng trong lĩnh vực xử lý ảnh Nó giúp ích rất nhiều trong các ngành như y học, địa lý, quân sự, trong việc phân tích và nhận dạng

Ở đây điều chỉnh Brightness không chỉ được sử dụng để làm sáng lên những ảnh tối mà còn được sử dụng để làm tối đi các ảnh sáng Một ảnh sáng hoàn toàn đơn giản là tất cả các Pixel đều màu trắng trong khi một ảnh tối hoàn toàn là tất cả các Pixel đều màu tối Sự khác nhau duy nhất trong làm tối một ảnh là trừ đi giá trị điều chỉnh vào mỗi kênh màu RGB của ảnh

Đối với mỗi kênh màu, chúng chỉ nhận các giá trị [0 255] Chính vì thế khi tăng cường hay giảm độ sáng của một ảnh ta phải chú ý đến ngưỡng của các kênh Điều đó có nghĩa là với mỗi kênh màu của một Pixel nếu nhỏ hơn 0 thì ta phải gán bằng 0 và nếu lớn hơn 255 thì ta phải gán bằng 255

Biểu thức cho kỹ thuật Brightness có dạng:

g(x,y) = f(x,y) + b

Trong đó b là hằng số cộng thêm vào giá trị màu f(x,y) Độ sáng của ảnh tăng nếu b > 0, và giảm bớt nếu b < 0

2.2.2 Tăng giảm độ tương phản

Độ tương phản (Contrast) thể hiện sự thay đổi cường độ sáng của đối tượng so với nền, hay nói cách khác, độ tương phản là độ nổi của điểm ảnh hay vùng ảnh so với nền

Trang 25

Ảnh số là tập hợp các điểm, mà mỗi điểm có giá trị độ sáng khác nhau

Ở đây, độ sáng để mắt người dễ cảm nhận ảnh song không phải là quyết định Thực tế chỉ ra rằng hai đối tượng có cùng độ sáng nhưng đặt trên hai nền khác nhau nhau sẽ cho cảm nhận khác nhau Vì vậy ta có thể thay đổi độ tương phản của ảnh sao cho phù hợp

Việc làm tăng độ tương phản rất hữu ích khi tiến hành xử lý trước theo phương pháp phân ngưỡng Bằng việc làm tăng độ tương phản, sự khác nhau của giá trị nền và đối tượng, độ dốc của cạnh đối tượng được tăng lên Do đó sau khi làm tăng độ tương phản ta có thể tìm các giá trị màu thích hợp với một vùng sáng hơn

Trong một ảnh có độ tương phản cao, có thể xác định được các viền rõ ràng và chi tiết khác nhau của ảnh đó được nổi bật Còn trong một ảnh có độ tương phản thấp, tất cả các màu đều gần như nhau gây khó khăn cho việc xác định các chi tiết của ảnh

Biểu thức cho kỹ thuật Contrast có dạng:

đỏ làm nổi lên các vùng thông tin cần thiết vì nếu dùng cùng một màu để in,

có thể các vùng này sẽ ảnh hưởng đến các vùng thông tin làm bài của thí sinh, gây khó khăn trong quá trình nhận dạng hoặc có thể dẫn đến nhận nhầm Tuy nhiên việc sử dụng ảnh màu để xử lý cũng yêu cần một điều kiện hết sức cần

Trang 26

thiết là chất lượng màu in và chất lượng của máy quét phải tốt và đồng đều để thu được ảnh quét với chất lượng như mong muốn

Ảnh đầu vào sau khi thu nhận về máy tính sẽ được thực hiện tách lấy kênh màu đỏ để khi trải qua quá trình phân ngưỡng thì các vùng thông tin được in màu đỏ sẽ trở thành màu nền Khi đó các ô được tô sẽ có màu đen nổi bật lên, giúp cho quá trình nhận dạng được thuận tiện

2.2.4 Chuyển xám ảnh

Đơn vị tế bào của ảnh số là pixel Tùy theo mỗi định dạng là ảnh màu hay ảnh xám mà từng pixel có thông số khác nhau Đối với ảnh màu từng pixel sẽ mang thông tin của ba màu cơ bản tạo ra bản màu khả kiến là Đỏ (R), Xanh lá (G) và Xanh biển (B) [Thomas 1892] Trong mỗi pixel của ảnh màu,

ba màu cơ bản R, G và B được bố trí sát nhau và có cường độ sáng khác nhau Thông thường, mổi màu cơ bản được biểu diễn bằng 8 bit tương ứng 256 mức

độ màu khác nhau, hay nói cách khác chúng ta sẽ có màu (khoảng 16.78 triệu màu) Đối với ảnh xám, thông thường mỗi pixel mang thông tin của 256 mức xám (tương ứng với 8bit) như vậy ảnh xám hoàn toàn có thể tái hiện đầy đủ cấu trúc của một ảnh màu tương ứng thông qua tám mặt phẳng bit theo độ xám

Trong hầu hết quá trình xử lý ảnh, chúng ta chủ yếu chỉ quan tâm đến cấu trúc của ảnh và bỏ qua ảnh hưởng của yếu tố màu sắc Do đó bước chuyển từ ảnh màu thành ảnh xám là một công đoạn phổ biến trong các quá trình xử lý ảnh vì nó làm tăng tốc độ xử lý và mức độ phức tạp của các thuật toán áp dụng trên ảnh xám giảm hơn so với các thuật toán áp dụng trên ảnh màu

Chúng ta có công thức chuyển các thông số giá trị màu của một pixel thành mức xám tương ứng như sau:

G = CR + CG + CB

Trang 27

Trong đó các giá trị CR, CG và CB lần lượt là các mức độ màu Đỏ, Xanh lá và Xanh biển của pixel màu, + +

Hình 2.1 Ảnh trước khi chuyển xám

Hình 2.2 Ảnh đã thực hiện chuyển xám 2.2.5 Phân ngưỡng ảnh

Quá trình phân ngưỡng là quá trình tìm ra ngưỡng của một ảnh để thực hiện việc phân vùng Ngưỡng đóng vai trò quyết định quá trình nhị phân hóa ảnh số có hiệu quả hay không Nếu chọn ngưỡng không tốt, một số đối tượng

sẽ bị bỏ qua hoặc cho ra đối tượng với kích thước và vị trí không đúng hoặc làm cho các đối tượng không phân biệt được với nhau

Có nhiều thuật toán tìm ngưỡng khác nhau cho ra các kết quả khác nhau, trong đó điển hình là tìm ngưỡng trung bình và tìm ngưỡng theo Histogram

Trang 28

Với thuật toán tìm ngưỡng trung bình, ngưỡng được tính theo công thức:

Trong đó, n.m là kích thước ảnh Itb, Ing, ∆ tương ứng là mức xám trung bình, giá trị ngưỡng và số gia hiệu chỉnh

Tìm ngưỡng theo histogram là phương pháp tìm ngưỡng dựa theo lược

đồ xám

Ngưỡng tìm được theo công thức I ng = (I max1 + I max2 )/2 Trong đó, I max1 và

I max2 là hai mức xám tương ứng cực đại trên histogram

Ngoài ra, còn một số kỹ thuật tìm ngưỡng khác, như thuật toán lặp, thuật toán tam giác được mô tả dưới đây:

- Thuật toán lặp (Ridler and Calvard) [4] Sử dụng ngưỡng ban đầu

của các mức xám ở phần trước và (mb,0) là giá trị trung bình của các mức xám

ở phần sau Giá trị ngưỡng mới 1 được tính bằng trung bình cộng của (mf,0)

và (mb,0) Thủ tục này được lặp cho đến khi nào ngưỡng không thay đổi, nghĩa

là ở bước k nào đó k = k-1

Trang 29

- Thuật toán tam giác (Zack) [4] Đoạn thẳng nối điểm cao nhất trên

histogram b max với điểm thấp nhất bên trái b min = (p=0)% Khoảng cách lớn

nhất d giữa đoạn thẳng [bmax, bmin] và giá trị histogram h[b] với b thay đổi trong khoảng b = b min đến b = b max Mức xám b o mà khoảng cách từ h[b o] đến đoạn thẳng [bmax, bmin] được coi là ngưỡng, nghĩa là := b o

Hình 2.3 Chọn ngưỡng theo Zack Trong ví dụ trên b0= 152, như vậy = 152

Giá trị cụ thể của ngưỡng phụ thuộc vào từng ảnh, vùng ảnh đầu vào đang xét và không thể lấy cố định Ví dụ như trên hình 2.4, hình a) là ảnh ban đầu, hình b, c, d thể hiện ảnh đã được nhị phân hóa với cùng ngưỡng thấp, trung bình và ngưỡng cao Chúng ta có thể thấy là giá trị ngưỡng trong hình 2.4c là thích hợp hơn cả

a) ảnh gốc ban đầu b) Ngưỡng thấp (90)

c ) Ngưỡng trung bình (128) d ) Ngưỡng cao (225)

Trang 30

Hình 2.4 Phương pháp lấy ngưỡng Người ta đã đề xuất nhiều phương pháp để xác định giá trị ngưỡng Một phương pháp là thiết lập ngưỡng sao cho số lượng các điểm đen đạt một ngưỡng chấp nhận được theo phân phối xác suất mức xám Ví dụ, chúng ta có thể biết rằng các ô được tô chiếm 10% diện tích của một ảnh phiếu thi thông thường Vì thế chúng ta có thể thiết lập ngưỡng sao cho số lượng điểm đen còn lại chiếm 1/10 diện tích ảnh Một cách tiếp cận khác là chọn ngưỡng nằm ở vị trí thấp nhất trên biểu đồ histogram giữa hai đỉnh của nó Tuy nhiên việc xác định vị trí này thường rất khó khăn do hình dạng của histogram thường lởm chởm Một giải pháp để giải quyết vấn đề này là xấp xỉ giá trị của histogram giữa hai đỉnh với một hàm giải tích và sử dụng vi phân để xác định điểm thấp nhất Ví dụ, coi x và y lần lượt là hoành độ và tung độ trên histogram Chúng ta có thể sử dụng hàm:

y=ax 2 +bx+c Với a, b, c là các hằng số làm hàm xấp xỉ đơn giản cho

histogram ở vị trí giữa hai đỉnh của nó Vị trí thấp nhất sẽ có tọa độ x =

-b/2a

Phương pháp xấp xỉ các giá trị của histogram và tìm vị trí thấp nhất cho giá trị ngưỡng tốt hơn nhưng lại yêu cầu nhiều tài nguyên về tính toán để thực hiện cũng độ phức tạp trong việc cài đặt

Một phương pháp rất hay được sử dụng là sử dụng thuật toán dựa vào

số liệu thống kê SIS (Simple Image Statistics) cũng đạt hiệu quả khá tốt trong thực nghiệm Thuật toán SIS được mô tả như sau:

Trang 31

- Với mỗi điểm ảnh I(x, y) ta tính như sau:

ex = |I(x + 1, y) - I(x - 1, y)|

ey = |I(x, y + 1) - I(x, y - 1)|

weight = Max (ex, ey)

- Gọi Total weight là tổng các giá trị weight được tính

- Giá trị phân ngưỡng T sẽ là (Total/ Total weight)

Hình 2.5 Phân ngưỡng theo thuật toán SIS 2.2.6 Nhiễu ảnh và một số phương pháp lọc nhiễu

Trong xử lý ảnh các ảnh đầu vào thường được thu thập từ các nguồn khác nhau, các ảnh thu thập được thường có nhiễu và cần loại bỏ nhiễu Ảnh thu được cũng có thể không sắc nét hay bị mờ Khi đó, ta cần làm rõ các chi tiết trước khi đưa vào xử lý

Trang 32

Một số loại nhiễu ảnh thường gặp:

- Nhiễu cộng: nhiễu cộng thường phân bố khắp ảnh Nếu ta gọi ảnh

quan sát( ảnh thu được) là X_qs, ảnh gốc la X_gốc và nhiễu là # ảnh thu được có thể biểu diễn bởi:

X_qs = X_gốc + #

- Nhiễu nhân: Nhiễu nhân thường phân bố khắp ảnh Nếu ta gọi

ảnh quan sát( ảnh thu được) là X_qs, ảnh gốc la X_gốc và nhiễu

là # ảnh thu được có thể biểu diễn bởi:

X_qs = X_gốc * #

- Nhiễu xung: Nhiễu xung thường gây đột biến ở một số điểm của

ảnh Trong hầu hết các trường hợp thừa nhận nhiễu là tuần hoàn 2.2.6.1 Bộ lọc Mean

Mạch lọc là một mặt nạ có kích thước NxN, trong đó tất cả các hệ số đều bằng 1 Đáp ứng là tổng các mức xám của NxN pixels chia cho NxN Ví dụ mặt nạ 3x3 thì đáp ứng là tổng mức xám của 9 pixels chia cho 9 Ví dụ mặt nạ (1/9)x

Trang 33

Hình 2.6 Ảnh thu được khi qua bộ lọc Mean Với f[i,j] là giá trị pixel kết quả, s(k,l) là các giá trị pixel ảnh gốc được mặt nạ chập lên và S là kích thước mặt nạ Bộ lọc Mean có vai trò làm trơn ảnh có thể xem như bộ lọc thông cao, nhưng lại làm mờ đường biên của các đối tượng bên trong ảnh, làm mất tín hiệu cận nhiễu và không lọc được nhiễu xung

2.2.6.2 Bộ lọc Median

Để thực hiện lọc Median trong lân cận của một pixel chúng ta sắp xếp các giá trị của pixel và các lân cận, xác định trung vị Median và định giá trị pixel Ví dụ như một lân cận 3x3 có các giá trị: 10, 20, 20, 20, 15, 20, 20, 25,

100 Các giá trị này được sắp xếp lại theo thứ tự từ thấp đến cao: 10, 15, 20,

20, 20, 20, 20, 25, 100 Giá trị median là 20 Do đó về nguyên lý thì mạch median có thể tách được các điểm có cường độ sáng lớn như nhiễu xung và lọc các điểm có cường độ sáng tức thì (xung) hay còn gọi là các nhiễu muối tiêu Ví dụ về ảnh sau khi lọc nhiễu

Định dạng
Số trang	67
Dung lượng	2,51 MB

Tài liệu tham khảo	Loại	Chi tiết
[1] Hoàng Kiếm (chủ biên) – Dương Anh Đức – Lê Đình Duy – Vũ Hải Quân, Cơ Sở Đồ Họa Máy Tính, tái bản lần thứ 3, Nhà xuất bản Giáo dục, 2000	Khác
[2] Phạm Việt Bình, Đỗ Năng Toàn, Giáo trình xử lý ảnh, Khoa Công nghệ thông tin - Đại học Thái Nguyên, 2007	Khác
[3] Đỗ Năng Toàn, Nghiên cứu một số phương pháp biểu diễn hình dạng và ứng dụng trong nhận dạng ảnh, Luận án tiến sĩ, 2001	Khác
[4] Phạm Việt Bình, Phát triển kỹ thuật dò biên, phát hiện biên và ứng dụng, Luận án tiến sĩ khoa học, 2006.Tài liệu Tiếng Anh	Khác
[5] Bryan S. Morse, Lecture 15: Segmentation (Edge Based, Hough Transform), Brigham Young University, 1998–2000	Khác
[6] Charles Petzold, Programming Windows With C#, Microsoft Press, Redmond, Washington, 2001.Cộng đồng mạng	Khác
[7] The Source Forge, www.sourceforge.net [8] The Code Project, www.codeproject.com	Khác