1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Tự động hóa: Thu thập thông tin trên danh thiếp xử lý trên nền IOS

98 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Thu thập thông tin trên danh thiếp xử lý trên nền IOS
Tác giả Phạm Cao Sơn
Người hướng dẫn TS. Trương Đình Châu
Trường học Trường Đại học Bách Khoa, Đại học Quốc gia Tp.HCM
Chuyên ngành Tự động hóa
Thể loại Luận văn thạc sĩ
Năm xuất bản 2014
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 98
Dung lượng 12,87 MB

Nội dung

Quá trình thu thập thông tin gôm các bước: chụp ảnh từ camera, tiền xử lý ảnh, chiết xuất nét đặc trưng, sử dụng thuật toán lan truyền ngược trong việc huấn luyện để tạo ra cơ sở nhận da

Trang 1

ĐẠI HỌC QUỐC GIA TP.HCMTRƯỜNG ĐẠI HỌC BÁCH KHOA

PHẠM CAO SƠN

DE TÀI

THU THẬP THÔNG TIN TRÊN

DANH THIEP XỬ LY TREN NEN

IOS

CHUYEN NGANH: TU DONG HOA

MA SO : 605260

Tp Hồ Chí Minh, tháng 06 năm 2014

Trang 2

TRƯỜNG ĐẠI HOC BACH KHOA —DHQG -HCM

(Ghi rõ họ, tên, hoc ham, hoc vi và chữ ky)

Cán bộ cham nhận xét l : recesses nesses

(Ghi rõ họ, tên, học ham, học vi và chữ ky)

Cán bộ cham nhận xét 2 : - ¿52:2 2222S2EEtEEttEirrtrrrrrrrrek

(Ghi rõ họ, tên, học ham, học vi và chữ ký)Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.

Thành phân Hội đồng đánh giá luận văn thạc sĩ gồm:

(Ghi rõ họ, tên, học hàm, học vi của Hội đông châm bảo vệ luận văn thạc sĩ)

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quan lý

chuyên ngành sau khi luận văn đã được sửa chữa (nêu có).

CHỦ TỊCH HỘI DONG TRUONG KHOA

Trang 3

ĐẠI HỌC QUOC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

` : Độc lập - Tự do - Hạnh phúcTRƯỜNG ĐẠI HỌC BÁCH KHOA

NHIỆM VỤ LUẬN VĂN THẠC SĨHọ tên học viên: PHAM CAO SƠN MSHV:11150095

Ngày, tháng, năm sinh: 29-11-1982Noi sinh: TP HCM

Chuyên nganh: TỰ ĐỘNG HÓA Mã số : 605260LO TÊN DE TÀI:

THU THẬP THONG TIN TREN DANH THIẾP XỬ LY TREN NEN IOSIL NHIỆM VU VA NOI DUNG:

Tìm hiểu về thị giác máy tính, hệ điều hành iOS, nhận dạng ky tự.Xây dựng giải thuật nhận dạng ký tự, xử lý ảnh số, viết chương trình phầnmém bang ngôn ngữ XCode và kiểm nghiệm kết quả chương trình trên điện thoại

thông minh iPhone.

II.LINGÀY GIAO NHIEM VU : 24/06/2013IV.LNGÀY HOÀN THÀNH NHIỆM VU: 20/06/2014V.L¡ CÁN BO HƯỚNG DAN : TS.TRƯƠNG DINH CHAU

Tp HCM, ngay tháng năm 20 CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO

(Họ tên và chữ ký) (Họ tên và chữ ký)

TS.TRƯƠNG DINH CHAUTS.TRUONG DINH CHAU

TRUONG KHOA ĐIỆN - ĐIỆN TU

(Họ tên và chữ ky)

Trang 4

Em chân thành biết on sâu sắc đến thầy TS.Truong Dinh Châu Thay đã tantình chi day, hướng dẫn dé em có thé hoàn thành luận văn thạc sĩ này.

Em xin cảm ơn tất cả quý thầy cô trong khoa Điện - Điện tử trường Đại HọcBách Khoa Tp HCM đã giảng dạy, tạo mọi điều kiện thuận lợi cho em trong thời

gian học tap và nghiên cứu tại trường.

Xin chân thành cảm ơn các bạn học viên lớp Cao học K2011 về sự quan tâm

giúp đỡ của các bạn trong quá trình học tập.

Tp HCM, ngày 08/06/2014

Học viên

Phạm Cao Sơn

Trang 5

TOM TAT LUẬN VAN

Luận van nghiên cứu các van dé về thị giác máy tinh, lay anh từcamera của

điện thoại thông minh, iPhone, ghi vào bộ nhớ.Áp dụng thuật toán OCR, sử dụng bộthư viện mở tesseract và ngôn ngữ lập trình XCode Quá trình thu thập thông tin

gôm các bước: chụp ảnh từ camera, tiền xử lý ảnh, chiết xuất nét đặc trưng, sử dụng

thuật toán lan truyền ngược trong việc huấn luyện để tạo ra cơ sở nhận dang; so

khớp các nét đặc trưng với cơ sở nhận dạng Từ đó, tách lọc thông tin cần thu thập.Phân biệt dữ liệu thu thập theo các trường: họ và tên, số điện thoại, địa chỉ và lưu

trữ vào bộ nhớ.

ASTRACT OF THE THESIS

Thesisresearchproblemscomputer vision, imagetakenfrom thecameraofthesmart phone, iPhone, buminto memory ApplyOCRalgorithm, — using

thetesseractlibraryand XCodeprogramming language Information

gatheringprocesscomprising the steps of taking picturesfromcamera,imagepreprocessing, featureextraction, usingback-propagationalgorithminthetrainingbaseto createidentity; matchingcharacteristicswithbaseidentification Sincethen, separatingfilterinformationto be — collected.Distinguishingdatacollected

inthefield: name,phone number, address andstored intomemory.

Trang 6

Luận văn “THU THẬP THONG TIN TREN DANH THIEP XỬ LÝTREN NEN IOS” với sự hướng dẫn của TS.Trương Đình Châu thực hiện trong

thời gian theo quy định là 24/06/2013- 22/11/2013 và có gia hạn thêm đến20/6/2014 Quá trình thực hiện luận văn một cách nghiêm túc, tìm hiểu ý tưởngthiết kế của các công trình nghiên cứu liên quan va sự hướng dẫn của thay dé xây

dựng dàn ý nghiên cứu và thực hiện các công tác chính như xây dựng giải thuậtnhận dạng, lập trình XCode Tôi cam đoan không có sự sao chép, vay mượn cácluận văn khác trong luận văn này.

Tác giả

Phạm Cao Sơn

Trang 7

LUẬN VĂN THẠC SI GVHD: TS TRƯƠNG DINH CHAU

THU THẬP THONG TIN TREN DANHTHIEP XU LY TREN NEN IOS

MUC LUC011019) 105011 cả 4

TONG QUAN HH HH reo 4BA 41.2 Tổng quan bài toán va các công trình liên quan - - s2 xxx £see: 41.2.1 Tổng quan bai toán nhận dạng ký tự dùng xử lí ảnh -¿- se sesscss4 4

1.2.3 Các kết quả đã công D6 vce ccccscecscescsescsscsccevsvscevscseevevsceesavsevarsesavarseeeees 81.3 Mục tiêu của dé tai eeseeceececeesecseeseesesseesesnessessesssesecsncsncsncenseesaeeneeneeaeeneesesaneaneens 17

CHUONG 02215555 ::+£1 19

CƠ SỞ LY THUY ÊƑT t2 2 2x2 22222212211 12112 rre 192.1 Cơ sở lý thuyết vỀ ảnh SỐ - G6 1 91 1E TS TT H1 HH ng 19"Nha 19

2.1.2 DO Phan 8 e 19"6c 0c na ¬ 202.1.4 KhOng Qian MAU AAA ae 20"6.9.0 0308461 na 20SN A90 303/055 2 (4 20

HVTH: PHẠM CAO SƠN l

Trang 8

2.1.4.3 Khong 3.8040 01 oe- 21"2N ¡on 0901 e 21

2.3 Tiển xử lý athe ccc cececcscsseccscescecescscscsvevscsccevscssesvscsavscavscscneavaceesavaceatavseavecs 222.3.1 Xử lý điểm ảnh ¿- - + kề 1T TT TT TH TH TT ng ng 22

2.3.2 Tăng cường độ tương phản - + - + -c <5 3331110111101 1111111111113 1 1111111535 xx2 222.3.3 Phân ngưỡng cho ảnh - + c 121120111101 101110330 11111111011 1111111 1 v32 222.3.3.1 Phân ngưỡng toàn CỤC -c c5 0111110110110 1111111111111 111111111 3x xx2 232.3.3.2 Phân ngưỡng cục bộ - - - + + cc 0000111010111 1 111111111111 111 1v 1 3 x4 24

2.3.4 Xử lý lược đỒ mức xám - k1 vn HT TH ng net 252.3.4.1 Cân bằng lược đỗ mức Xắim -c c2 xxx 12x 1g ngu 252.3.4.2 Sự so khớp lược đỗ mức Xắim - 6c v3 3 11B ga 26

2.3.5 Làm mỏng và lọc khungØ - - + + «333111111133 1111111111111 1111111151555 x2 26"Em NNE 6o 6 ẽ 262.3.5.2 Lọc khung - - - + + + + 1200111011103 1 111111111015 1111111111 10 3 1 1n và 272.3.6 Xử lý theo Mat nạ - - - + Ă 5c 32 62101101301110111111111111023011 1111101101 3 1n vớ 29

2.3.6.1 Bộ lọc tuyến tinh xxx S1 v15 1111 1 1111 vn ng ng 29

2.3.6.1.1 Lọc trung bình - -c 0001111111011 1111111111115 11111111 3x re 29

2.3.6.1.2 Lọc thông thấpp <1 xxx SE 111 E9 E111 vn gcreg 302.3.6.1.3 Lọc đồng hình - < + k Sx SE SE HT ng HH ggcreg 302.3.6.2 Bộ lọc phi tUyẾn c- <- xxx S11 1T ng ng ng ng 31

2.3.6.2.1 LOC trUNG VỊ -cc Q31 9S S111 111 n1 TT TT 1 xe 3]S20 nh Ồ 31

2.4 Chiết xuất nét đặc trung vo ccccccccscccccsscssesssescescssscsccsvscecesvscscssevsesecsesvavscesvansenees 312.4.1 Phương pháp chiết xuất nét đặc trưng chung sex se£sesececse 322.4.2 Phương pháp chiết xuất nét đặc trưng cục DO ¿-c + sex vs scseei 332.5 Nhận dạng và huấn i50 332.5.1 Biểu diễn từ Vựng c1 S1 S HS TT HT TH TT TT ng ri 332.5.1.1 Cây tiền tố (the TTÍ©), G1 1115 111 1 911111 11g HT ngan 33

Trang 9

LUẬN VĂN THẠC SI GVHD: TS TRƯƠNG DINH CHAU2.5.2 Huan luyện nhận dạng + - - - 1201311111011 1111111111111 1111111111133 re 34

2.5.2.1 Luật học lan truyền ¡40002777 1a 342.5.2.2 Ứng dụng trong huấn luyện nhận dạng kí tự - ¿c5 se+e£sesxe: 37

0Ì 11919)10E5r:ddŨŨÚ 38

XÂY DỰNG GIẢI THUẬTT - - 5 E333 E31 1 1E BE HE ng ngu 383.1 Giải thuật tong quấtt - + S1 1T HT TH ng HT TH TT Hàng 383.2 Tim xt i 0 40

3.2.1 Phan NQUGNg ccc - AOOOIIii sa 40

3.2.2 Cân băng lược đồ mức xám (histogram equalization) s +s+s+s£sscsz 423.2.3 Lay khung chữ (skkelefOrniS€) - «6 S131 SE SE E1 vn cv re 45

3.3 Phân đoạn, phân hang, phân ch - - - - 2312101 101115313 1111111111151 11111154 47

3.4 Chiết xuất nét đặc trưng - - :- kề 11c HH TH TT HH ng ng ng 52

3.5 So sánh với cơ sở đữ lIỆU << cc 1203191111111 HH ng kg cv ra 583.5.1 Cơ sở dữ liệu nhận dạng - + - << << {1203111110111 1 1111111115111 1111 1k2 58

3.5.1.1 Nền tảng của quá trình huấn luyén cc eeesceseesscsscscescecscescevsceesensceees 59

3.5.1.2 Dữ liệu ký tự đặc ĐIỆT - TS Q 111 HS SH HH ket 59

3.5.1.3 Huấn luyện MF; CN và huấn luyện hình khối - - 59

3.5.2 LAy dit 60g on 643.6 Lọc tách từ theo các trường (tên, số điện thoại " 67

0110/9)107 1 ẢẢ.ÔỒ ỒỒ.ỐỐäA 73

KET QUÁ THỰC NGHIEM G- G1 SE TS TT HH ng 73

4.1 Chương trình chạy trên máy 40 + + + cc 0001111010111 1 1111111111115 111 kế 73

4.2 Chương trình chạy trên thiết bị thật tot n 2n S23 E23 51153 18151151511 crsed 77

0110/9)10 155 4 90

HƯỚNG PHÁT TRIÊN - 5 c2 2x22 222212 2112112121111 xe 905.1 Kết qua đạt ẨƯỢC - 6 - cv 111 1S TT HH TT HT TH TH reg 905.2 Hướng phat triỀỂn - - xxx 11v 1S 1T HH TT HT TH TH ng rep 90

IPì8i 0i /).0.: 8 a - 91

HVTH: PHAM CAO SON 3

Trang 10

Ứng dụng quét mã vạch, đọc barcode, nhận diện khuôn mặt, đọcdanh thiếp đã có

trên hầu hết các hệ điều hành của các hãng điện thoại khác nhau, nhưng trong đó ứngdụng đọcdanh thiếp là ứng dụng có tính hữu ích cao mà hau hết người dùng cần đến.Hiện nay ứng dụng đọcdanh thiếp trên điện thoại chưa có nhiều và chất lượng chưa cao,đặc biệt là ứng dụng chạy trên nên iOS, một mảng hệ điều hành có tiềm năng rất lớn

Vi thế nội dung dé tài này muốn xây dựng một ứng dụng đọc danh thiếp chạy trênnên iOS có thể đọc được các ký tự tiếng Anh lẫn tiếng Việt với kết quả nhận diện tốtnhất

1.2 Tông quan bài toán và các công trình liên quan

Đề đọc được danh thiếp trước tiên ta phải nhập hình ảnh danh thiếp từ camera hoặctừ file ảnh, sau đó qua khâu tiền xử lý để loại bỏ các tác động của nhiễu và cuối cùng lànhận dang và phân tích các ký tự có trên nó rồi xử lý dé cho ra kết quả Van dé cốt lõi lànhận diện được các ký tự chữ và số trên đó Sau đây là mô tả tổng quan và các công trìnhđã được công bó

1.2.10 Téng quan bài toán nhận dạng ký tự dùng xử lí ảnh

1.2.1.1 Khái niệm

Nhận dang ký tựbằng hình ảnh, hay nhận dang ký tự quang học,thườngviết tắtlàOCR làviệc chuyến đồicơ khí hoặcđiện tử hình ảnh quétcủachữ viết tay, đánh máyhoặc

inthanh văn ban, của các dạng chữ được mã hóa [I].|8|.[9] [10].Nó được sử dụngrộng rãi

như làmột hình thứcnhập dữ liệutừ một sỐ nguồn dữ liệucơ bản như văn bản trên giấy,

hóa đơn bán hàng, bưu điện, hoặcbất kỳsố hay ký tự đượcin ra.Nó là mộtphương pháppho biến,số hóacác văn banindé có thé tìm kiếmbằng máy tính, lưu tritgonhon, hiến

Trang 11

LUẬN VĂN THẠC SI GVHD: TS TRƯƠNG DINH CHAU

[9].[10] OCRlà mộtlĩnh vực nghiên cứutrong nhận dạng mẫu, trí tuệ nhân taovathi giác

máy tính [1],[9],[10].

Trước day, phương pháp naycan phải đượclập trình vớihình ảnh củatừng ky tự,vàlàm việctrêntừng phông chữ chữtại mỗi thời điểm Những hệ thống thông minh bậc caonhận dạng chính xác phần lớn các phông chữ hiện nay[9].[10] Một số hệ thống có thé tao

lại hình dạng của ký tự nhận dạng giống như đữ liệu sốc, bao gom hinh anh va cac thanh

phan không phải là van bản Trước kia, việc nhận dang ky tự được su dụng nhiều tronghai lĩnh vực chính: mở rộng trong điện báo và thiết bị dùng cho người mu [8]

— Nhập thông tin từ thẻ kinh doanh (danh thiếp, business card) vào danh sách liên

lạc.— Chuyên đôi nhanh hon sang dang văn bản lưu trữ điện tử đôi với các loại văn ban

in, ví dụ như sách điện tử cho dự án Guternbeg.— Tạo hình ảnh điện tử cho tài liệu in ân, có thê tìm kiêm được, vi dụ : “Google

books’’.

HVTH: PHAM CAO SON

Trang 12

— Chuyển đôi chữ viết tay trong thời gian thực dé giám sát, điều khiển máy tính — Các giao dịch thương mại và hệ thống mã nguồn mở OCR có sẵn cho các hệ thống

chữ viet bao gôm các tiêng Latin, A Rap, Cyrillic, Do Thái, An Độ, ký tự TrungQuốc, Nhật Ban và Han Quoc.

1.2.1.3 Phân loạiNhận dạng ký tự quang hoc (Optical Character Recognition): mục tiêu là nhận dạng

văn bản đánh máy, một nét chạm khắc hoặc một ký tự tại một thời điểm

Nhận dạng chữ quang hoc (Optical Word Recognition): mục tiêu là văn bản đánh

máy, một từ tại một thời điểm, dùng cho các loại ngôn ngữ dùng khoảng trắng để phântách các từ với nhau như “Tiếng Viet”

Nhận dạng ký tự thong minh (Intelligent Character Recognition): cũng có mục tiêu

là nhận dạng chữ viết tay, văn bản In ân, hoặc một nét chạm khắc của chữ viết hay mộtký tự tại một thời điểm; thường liên quan đến một cơ cau dùng để học Mạng thần kinh

nhân tạo được tạo ra cho cả biến đôi tuyến tính và phi tuyến

Nhận dạngchữthông minh(Intelligent Word Recognition): mục tiêu là các văn bản

viết tay hoặc các bản thảo; rất hiệu quả đối với các loại ngôn ngữ mà các nét không tách

ra trong các ban thao [8].

OCR thường là quá trình gián tiếp, phân tích các văn bản tĩnh Phân tích chuyếnđộng khi viết chữ có thể làm dữ liệu đầu vào cho việc nhận dạng chữ viết Thay vì chỉđơn thuần sử dụng các hình khối của các nét và từ, kỹ thuật này có thé bắt được chuyểndong, ví dụ như thứ tự từng đoạn được vẽ ra, hướng nét vẽ, và các hình mẫu mỗi lần đặtbút xuống và nhấc lên Kỹ thuật này còn được biết đến dưới các tên gọi khác như: “nhậndạng ký tự trực tiếp”, “nhận dạng ký tự thời gian thực”, “nhận dạng ký tự động”, “nhận

dang ký tự thông minh” [1].

1.2.2 Kỹ thuật nhận dạng OCR bao gồm các bước cơ bản sau

Trang 13

LUẬN VĂN THẠC SI GVHD: TS TRƯƠNG DINH CHAU

Trong đó:

1.2.2.1 Tiền xử lí (preprocessing)Các chương trình OCR thường có bước “tiền xử lí” dé tăng cơ hội thành công cho

việc nhận dạng:

— Chỉnh góc nghiêng: nếu tài liệu trong quá trình quét ảnh bị lệch thì phải chỉnh lại

vai độ theo chiêu kim dong hô hoặc ngược chiêu kim dong hô đề các dòng văn bảntheo đúng các phương ngang hay dọc.

— Giảm đốm: loại bỏ những điểm tích cực và tiêu cực làm min các cạnh.— Nhị phân hóa-Chuyền đồihình ảnh từmàu hoacmau xámsang màu đenvà trắng(gọi

là "hình ảnh nhị phan", vico hai màu sắc) Trongmot số trường hợp, điều nảy lacan

thiếtcho các thuật toánnhận dạng ký tự; tuy nhiên trong những trường hợpkhác,các thuật toánthực hiện tốt hơntrênhình ảnh ban đầuvàbước nàyđược bỏ qua

— Loại bỏ dòng: loại bỏ những vùng không có nét và dòng.— Phân tích theo lớp hoặc phan vùng: xác địnhcột, phan đoạn, chú thích,v.v nhucac

khôikhác nhau.Đặc biệt quan trongtrongcac lớpnhiêu cột vabang.

— Đườngvà phat hiệntừ: ước lượng các đường cơ ban cho từ và hình khối các ký

tự,táchtừ nêucân thiết [1].

— Cách lyký tựhay"phân đoạn": đối với mỗi ký tự trong OCR, rất nhiều ký tự được

kết nôi với nhau vì ảnh của chữ can nhận dạng được tach ra; môi chữ cái hoặc từsẽ được chia làm nhiêu mảnh nhỏ roi sau đó sẽ được ghép lại.

— Chỉnh lại theo khung kích thước mong muốn.Việc phân đoạn các phông chữ sao cho ăn khớp nhau được thực hiện tương đối đơngiản bằng cách sắp xếp hình ảnh vào một lưới đều nhau đặt trên đường lưới dọc, nơi ítđường giao cắt với khu vực mảu đen Đối với các phông theo tỷ lệ, các kỹ thuật phức tạphơn sẽ được sử dụng bởi vì khoảng trăng giữa các chữ cái đôi khi lớn hơn khoảng trắnggiữa các từ và các đường phân chia theo trục doc sẽ giao cắt nhiều hơn một từ [1]

1.2.2.2 Nhận dạng ký tự

Cốt lõi của thuật toán OCR có hai loại cơ bản [1]:Ma trận điều hợp (matrix matching): bao gồm việc so sánh một hình ảnh với các nétđược lưu giữ trong từng điểm ảnh cơ bản có sẵn; nó còn được biết đến với tên gọi “môhình phù hợp” hay “mô hình nhận dạng” Điều này dựa trên các nét đầu vào phải chínhxác, tách biệt với phần còn lại của hình ảnh và khớp với các nét được lưu trữ trong cácphông chữ quen thuộc, cùng kích thước Kỹ thuật này hiệu quả nhất với các văn bản đánhmáy nhưng lại kém chính xác khi xuất hiện phông chữ mới

HVTH: PHẠM CAO SƠN 7

Trang 14

Chọn lọc nét đặc trưng (feature extraction): là tách rời những nét đặc biệt như là

những đoạn thăng, vòng kín, hướng đường thăng, và những đoạn giao cắt nhau Nhữngchỉ tiết trên sẽ được so sánh với một vector rút gon; vector này tái hiện toàn bộ đặc tinhcủa ký tự, có thể được tinh øiảm xuống còn một hoặc một vài nét nguyên mẫu Kỹ thuậtchung đối với việc phát hiện nét đặc trưng trong thị giác máy tính là sử dụng loại OCRnày; thường được thấy nhiều nhất trong nhận dạng thông minh chữ viết tay và hiện nayđược ứng dụng rộng rãi nhất trong các phần mềm nhận dạng tiên tiến nhất Phan lớplâncậngiông nhấtthuật toánk — các thuật toán lân cận giống nhất được dùng dé so sánh đặctính của hình ảnh với những nét đặc trưng đã được lưu giữ và chọn ra nét giống nhiềunhất Nhiều chương trình sử dụng cách tiếp cận hai bước chuyển để nhận dạng ký tự.Trong đó, bước chuyền thứ hai là nhận dạng thích nghi, sử dụng hình khối của ký tự đểnhận dạng với độ tin cậy cao ở bước thứ nhất, để nhận dạng tốt hơn ở bước thứ hai; từ đónhận dạng chính xác ký tự Điều này cực kì thuận lợi với những phông chữ khác thườnghoặc là những bức anh chất lượng kém với phông chữ bị mờ, méo dang [1]

1.2.2.3 Hậu xứ lí

Độ chính xác của thuật toán OCR có thể được tăng lên nếu đầu ra bị ràng buộc bởimột từ điển, đanh sách các từ có thể được sử dụng trong một tài liệu Điều này hoàn toànthực hiện được, ví dụ, tất cả các từ trong tiếng Anh hoặc từ chuyên môn trong một lĩnhvực đặc biệt nào đó Tuy nhiên, kỹ thuật này sẽ gặp van đề néu như văn bản chứa nhữngtừ không có trong từ điển, ví dụ như tên riêng Do vậy, một số chương trình sử dụng từđiển của nó tác động lên bước phân đoạn ky tu, và từ đó nâng cao độ chính xác [1].[9]

Dòng đữ liệu dau ra có thé là văn ban đơn giản hay tập hợp các ky tự, nhưng hệthống OCR phức tạp hơn có thể bảo toàn các lớp nguyên thủy của trang dữ liệu, và điềuchế cho phù hợp; ví dụ, một chú thích đính kèm theo văn bản bao gom hinh anh sốc củatrang và biểu diễn nguyên văn phân cần tìm kiếm [1]

Phân tích lân cận gần nhất sử dụng kết hợp tần số trường hợp xảy ra để hiệu chỉnhsai sỐ, giảm lỗi; bang cách ghi nhận việc một số từ thường chắc chan đi kèm với nhau Vídu, cum từ “Washington,D.C” thường được dùng pho bién hon cum tir “WashingtonDOC” Bên cạnh đó, kiến thức về ngữ pháp của ngôn ngữ cũng giúp ich trong việc xác

định từ loại, từ đó giúp nhận dạng đúng từ [1 |.[9].[10|.

1.2.3 Các kết quả đã công bốCác công trình đã công bố vẻ van dé nhận dạng ký tự, đều có khung sườn chunggiống như trên; tuy nhiên có những đặc điểm riêng khác nhau: loại bỏ, b6 sung hoặc thayđối tính năng trong cau trúc của OCR

Trang 15

LUẬN VĂN THẠC SĨ GVHD: TS TRUONG DINH CHAU

- Hiệu chỉnh lỗi Phat hiện nét

Từ vựngDevnagari

Hình 1.3 So đô cơ cấu hệ thông OCR

Phân đoạnvới các ký tự

Phân tích ngữcảnh

Hình 1.4 Các giai đoạn khi thiết kế OCR

Trong hình 1.3 cũng bao gồm các khối như 1.1 [2] tuy nhiên có đơn giản hơn.Trong khối tiền xử lí, sử dụng bộ lọc median để loại bỏ các loại nhiễu hạt [2]; trong việcphân đoạn, thì phân đoạn theo đường kẻ, theo từng chữ, va từng từ riêng biệt Đề giảiquyết các ký tự thuộc ngôn ngữ Devanagari, đầu tiên phải xác định được ký tự, sau đó,tách ra thành những mẫu nhỏ và được quyết định bởi một hệ mờ [2] Trong khối phânloại, một mạng thần kinh nhân tạo được sử dụng để phân loại và nhận dang [2] Mô hìnhnày được ứng dụng nhiều trong các tình huống phức tạp va dit liệu thay đối theo thong kê[2] Huan luyén va nhan dang đồng bộ của mạng thần kinh thường được thực hiện bằngthuật toán lan truyền ngược với hai lớp ân [2] Mặt khác, cũng nhận dạng ngôn ngữDevanagari, những công bố khác công đoạn thu thập xử lí và nhận dạng có đôi chút khác

biệt [3]:

ä|ø|als lý | |ø||s|Ỷ |e fgì alatl alata la |a|r |s |ä |ø lala ale

Trang 16

Ngõ vào

Quét ảnh

ỲSố hóa dữ

liệu

Phân đoạndòng và ký tự

Hình 1.7 So đồ khối của hệ thông nhận dạng

Hệ thống nhận dạng được phát triển để nhận dạng chữ viết tay ky tự Devanagari,bằng mạng thần kinh nhân tạo Cứ mỗi mười ký tự đặc biệt bất kỳ, từ bảng ký tự, được

xếp chung vào một khối [3] Việc thu thập ký tự cần được tiền xử lý và được chuyến đôi

<4N

a) b)

Hình 1.8 Nhận dạng ký tự AĐề phân loại sâu hơn trong từng lớp phải dựa vào giá trị đặc trưng được đưa tínhtoán bởi mạng thần kinh nhân tạo [3] Ký tự đầu vào sẽ chứa giá trị nhiễu hoặc sẽ có cáchình khối khác nhau do là chữ viết tay Mạng thân kinh sẽ nhận 35 giá trị nhị phân như là

Trang 17

LUẬN VĂN THẠC SI GVHD: TS TRƯƠNG DINH CHAUphan tử giá trị ngõ ra sẽ ứng với số 1 tương ứng với số vị trí va phan còn lại sẽ là 0 Từđó, mạng thần kinh sẽ nhận dạng được ký tự viết tay, tuy nhiên, vẫn có lỗi với nhiễu vànhững kiểu viết tay khác lạ [3] Mang than kinh truyền thăng gồm hai lớp an, ứng với 10tế bảo thần kinh mỗi lớp; thuật toán lan truyền là log — sigmoid [3] Mạng huấn luyện vớithuật toán lan truyền ngược học thích nghỉ đánh giá [3] Hàm đánh giá là tong bìnhphương sai số, sai số mong muốn là dưới 0.1, nếu có nhiễu thì sai số là 0.2 [3] Một vài

chữ nhật Lúc này các ký tự trong vòng bao sẽ được xem xét:

Trang 18

SN SsÀ

CC

Hình 1.12 Q4 của các số từ 0 tới 9Góc phần tư Q4 sẽ được phân đoạn nhỏ hơn ở các vùng khác nhau và được đánh sốcác cạnh và điểm nút (hình 1.13):

(I,00,0,1.0./0.0)Hình 1.13 Phương pháp đánh số Hình 1.14 Vector dẫn xuất tương ứng

Các số thay thế cho các cạnh và nút sẽ được dùng dé dẫn xuất một vector nguon

Vector nay bao gồm các giá tri 1 ứng với hiện tượng các điểm ảnh ở đó có mau den, va 0ứng với các phan còn lại (hình 2.14) [4] Kho dé liệu là nguồn lưu giữ từng vector ứngvới từng số trong 10 chữ số [4] Tuy nhiên,hệ thống nàyxuất hiện mâu thuẫn, và được dựđoán trước [4] Điều này bắt nguồn từ việc chiết xuất tối thiểu nét đặc trưng để nhậndạng Mâu thuẫn xảy ra khi Q4 của 0 và 8 hay 5 và 9 được dùng để nhận dạng, chúnggiống nhau [4] Mau thuẫn này không xảy ra thường xuyên trong việc nhận dang ky tự,tuy nhiên vẫn tìm thấy xảy ra trong các phông chữ quen thuộc [4] Do đó, phân chia theocác góc phân tưkhôngchỉ giúpnhậndạng chữ sốmà còn kết hợp giải quyết mộtsố khuyết

Trang 19

LUẬN VĂN THẠC SI GVHD: TS TRƯƠNG DINH CHAUdiémma không làm chothuật toán thay đổi Việc kết hợp thêm góc phan tư Q2 dé nhậndạng sẽ giải quyết mâu thuẫn trên một cách dễ dàng Việc tạo ra các vector dẫn xuất của

Q2 tương tự như của Q4 [4].

~ FF iO fF

Q2 of 0 Q2 of 8 Q2 of 5 Q2 of 9

Hình 1.15 Q2 cua các cặp 0 và 8; 5 và 9Với vector dẫn xuất từ Q2, kết hợp với vector của Q4, thuật toán sẽ dé dang phânbiệt các số với nhau [4]

Theo các kết qua đã công bó[2].[3].[5]: mạng thần kinh nhân tạo dùng dé nhận dangnhiều mẫu khác nhau, đặc biệt là chữ viết tay; mặc dù đã được nghiên cứu trong nhiềuthập ki, có rất nhiều báo cáo khoa học được công bố, và mạng thần kinh thật sự đóng vaitrò rất quan trọng trong việc nhận dạng chữ viết tay[5] nhưng để nhận dang với độ chínhxác cao và thời gian huấn luyện nhỏ nhất thì vẫn còn để mở nhiều van dé [5] Dé nhậndạng chữ viết tay trong bảng chữ cái tiếng Anh, gồm 5 nguyên âm và 21 phụ âm:

Hình 1.16 Bảng mẫu chữ cdi ký tự viết tay

Ký tự viết tay sẽ được quét ảnh, chuyển đổi thành ảnh nhị phân, độ phân giải 1024điểm ảnh [5] Sau đó, quá trình lọc khung sẽ được tién hành, đưa ra khung chữ [5]:

A A

Hinh 1.17 Loc khung cho ky tuCó rat nhiều kiểu hình dạng khác nhau, do là chữ viết tay, nên sau khi thực hiện quátrình lọc khung, các ký tự được chuẩn hóa thành các ma trận có kích thước bằng nhau [Š].Quá trình nhận dạng các chữ cái tiếng Anh viết tay được thực hiện lần lượt theo các

bước:— Thực hiện việc lây mâu băng cách quét ảnh.

HVTH: PHAM CAO SON 13

Trang 20

— Lọc khung và chuẩn hóa thành ma trận.— Áp dụng kỹ thuật phát hiện biên và trích chọn nét đặc trưng.— Mạng thần kinh phân loại.

— Nhận dạng ký tự.

Trong phương pháp này, để trích xuất thông tin về vòng bao của ký tự viết tay,phương pháp 8 vùng lân cận liền kề được sử dung [5] Việc quét các điểm ảnh nhị phânđược quét liên tục cho đến khi tìm thấy đường bao

P

Hình 1.18 Điểm ảnh p và 8 vùng lân cận của nó

Các điểm ảnhmới được tìm thaysé được chỉ địnhnhư là một diémtham chiếu mớivàbắt đầutìm kiếmtámvùng lân cận liền kê Bằng cách này,tọa độ củađiểmban đầuđượcthayđổi theovi trí [5].Khiđánh daudi chuyéndoc theo ranh gidicua hình anh,cac toa độtương

ứngsẽ được lưu trữvàomột mang dùng chophép tính Fourier [5] Trongquy trìnhtruy tim

ranh giới, chương trình sẽ luôn luônkiểm tra cácđiều kiện nếu các tọa độ đầu tiêncủa ranh

Ø1ớIcÓ trùng vớicác toa độcuối cùng Một khi điều đó tổn tai: nghĩa làtoàn bộranh gidida

đượctruy tìm vàquá trìnhtruy tìmranh giớihoàn thành Nhận dạng ký tự viết tay là vấn đềvô cùng phức tạp Những ký tự với nhiều hình dạng khác nhau, độ dày, mỏng, hướng củacác nét rất đa dạng và không theo một mẫu nào cả [5] Công dụng của mạng thần kinh làtong quát hóa va không quá nhạy với những đữ liệu bị thiếu là điểm rất lợi thế khi nhậndạng chữ viết tay [5] Để nhận dạng chữ cái tiếng Anh viết tay, mạng thần kinh truyềnthăng nhiều lớp được sử dụng, với một lớp ân Để huan luyện thì sử dụng thuật toán lantruyền ngược [5] Cau trúc mạng than kinh được miêu tả như sau:

Trang 21

LUẬN VĂN THẠC SI GVHD: TS TRƯƠNG DINH CHAU

Hình 1.19 Mang thần kinh nhiều lớp (MLPN)

Trong mạng thần kinh, thuật toán lan truyền ngược được tiễn hành và tính toán theo

công thức sau [5]:

1

l+e""f(x)= net =) W,P, (1.1)

Thuat toan tong quát hóa luật delta [5], để cập nhật trọng số của mạng thần kinh đểtối thiểu hàm giá trị:

E =s(X(D„ -Ø„)} (1.2)Sự hội tụđược thực hiệnbằng cách cập nhậtcác trọng s6tinh theo công thứcsau đây:

Trang 22

Chuẩn hóa 32

* 32 bits

Nhi phan hoa

Tim duong baonét dac trung

(32*32 bits)Phân lớp

MLPN

Xuat ra

Hình 1.20 Hệ thống nhận dang chữ cái tiếng Anh viết tay, dùng OCR

Tiếng Anh là ngôn ngữ pho biến, và chữ cái tiếng Anh cũng khá dé dé nhận dạng:nhưng nhưng ngôn ngữ khác với kiểu chữ cầu kì cũng là một thách thức Mặc dù vậy,OCR vẫn nhận dạng được, ví dụ là kiểu chữ Gurmukhi viết tay [6] Hệ thống nhận dạngnày bao gồm day đủ nét đặc trưng của OCR, như đã giới thiệu ở các phan trên; tuy nhiên,phần nhận dạng nét đặc trưng có nét khác biệt, đó là sử dụng bộ lọc Gabor, GABM —GABN [6] Bộ lọc Gaborđược định nghĩa bởi các hàmđiều hòađược hiệu chỉnh bằngmộtphân bố Gaussian Việc sử dụng cácbộ loc2DGabortrongthi giác máy tínhđược giới thiệubởiDaugmantrongcuối những năm 1980 Kế từ đó,nó đã đượcsử dụng trong nhiềuứngdụng nhưnén hình ảnh,phát hiện canh,phan tichkét cau,nhan dang đối tượngvàkhuôn mặt.GABM - tập hợp cácđặc trưngdựatrêntrích dẫn đặc trưng của cường độnăng lượngngõ

racủabộ lọcGabor Ngõ ra của bộ lọc Gabor được chia làm ba phan:

— Một phantuong ứng với phangia trịthực(Re) cuadau ra

— Phân khác ứng với phân giá tri ảo (Im) của dau ra.

— Phần cuối cùng ứng với giá trị tuyệt đối VRe*+Im* của ngõ ra phức của bộ lọc

Gabor.

Sau khi có được 3 phan của ngõ ra, cường độ năng lượng sẽ được tinh, va tinh theobình phương năng lượng [6] Đối với hệ thông dự báo, nhiều đải của bộ lọc Gabor có các

Trang 23

LUẬN VĂN THẠC SI GVHD: TS TRƯƠNG DINH CHAUgiá trị khác nhau ứng với các tần số không gian và các giá trị khác nhau cho góc địnhhướng được chon lựa để đưa ra tong số kết hợp cho bộ lọc Gabor [6] Từ mỗi ngõ ra

củabộ locGabor,phan thuc, phanaovatri tuyét đối sẽđược tính toán, sau đó mỗi phần sẽ

được lây trung bình, tính độ lệch chuẩn và đưa ra nét đặc trưng Gabor Vì vậy, mỗi hình

ảnh của ký tự sẽ có một vector đặc trưng riêng tương ứng [6] GABN - đặc trưng này dựa

trên chiết xuất đặc trưng từ phần thực và phan ảo của bộ lọc, chỉ bao gồm 2 phan Khác

với GABM, GABN không xử lí dữ liệu ngõ ra của bộ lọc Gabor mà sử dụng chúng như

chiết xuất những nét đặc trưng.Một điều cần lưu ý là hình ảnh sau khi qua bộ lọc Gabor sẽ có cùng kích thước với

hình ảnh trước khi được đưa vào [6] Thời gian xử lyvaluu trittangty lệ thuậnvới sự gia

tăngchiều củavector đặc trưng Vì kích thước củavector đặc trưng làrấtlớn, do vay, thờigian xử lýcân thiết valuu trữcó thé được giambang cách giảmkích thướcsử dung, bằngcáchphân tích cácthành phần chinh[6].Phan tíchthành phần chinhla một phươngthứcgiảmkích thướcđiển hình,dựatrênsự biến đồitrực giaotéi đa tongphuong sai, tối thiểuhóa trung bình bình phương sai số để giảm chiều vectỏ r đặc trưng [6]

Dé phân lớp và nhận dạng thì phương pháp nay cung cấp một cơ cau vector (gọi tắtlà SVM) [6] Bộ phân loaichuan SVMcóbộdữ liệu đầu vàovà lớp dự báođể phân loại dữliguvaochi một hoặc hailớp riêng biệt Bộ phan loại SVMđược huấn luyénboimot tập hopcácdữ liệu huấn luyệnvàmột mô hình, đượcchuẩn bi đếphân loạidữ liệu nhận dạngdựatrênmô hình chuẩn này [6] Đối với vẫn déphan loainhiéu lớp, dé dé xử lí sẽ chuyển thànhvan déphan tachthanhnhiéu lớpnhị phân và sau đó sẽ thiết kế lại bộ kết hợp nhiều lớp

SVM nhị phân [6].

Theo tất cả các mẫuthử nghiệm có théduoc xếp vàocác lớpkhác nhauvới biên

độthích hợp, các loại nhâncủaphân loại SVMđược sử dụng Các loại nhanthuong được sử

dụnglà: nhân tuyến tính, nhânđa thức, ham Gauss co bản hướng tam(RBF) vàsigmoid.Hiệu quả củaSVMphụ thuộc vàothuật toán nhânđược sử dung, thông số của nhân [6]

1.3 Mục tiêu của dé tài

Đề tài nay hướng đến việc đọc và xử lý thông tin trên một danh thiếp(NameCard), đặc biệt là phân biệt các trường khác nhau trong danh thiếp như tên công ty,

tên người, dia chỉ mail, số điện thoại, số fax của chủ danh thiếp Vấn đề khó khăn nhất

là các loại danh thiếp không có một mẫu chung nhất định mà có rất nhiễu kiểu loại khácnhau Cho nên các vẫn đề cần đương đầu đó là font chữ, độ day nét, anh nén, mau sac vacác chi tiết trang trí, vi tri cua camera, độ méo dạng, độ tương phản va độ phangiải Ngoài ra, Tiếng Việt là ngôn ngữ có dấu, việc phân biệt giữa tên người và tênđường là một thử thách lớn Tất cả những yếu tô đó kết hợp lại sẽ tạo ra một van đề lớn,khó khăn hơn là nhận dạng một văn bản thuần túy

HVTH: PHAM CAO SON 17

Trang 24

Vì thế, không thể sử dụng kỹ thuật OCR ngay để nhận diện các ký tự trong danhthiếp được ma phải trai qua bước tiền xử lý, tạo cơ sở dữ liệu nhận dạng phù hợp vớiTiếng Việt, hậu xử lí, lưu trữ Do đó, chúng tôi dự định thiết kế một khói tiền xử lý cótác dụng lọc bỏ các yếu tố không can thiết trước khi tiến hành phân tích và trích lọc dữliệu Và sau đó sẽ áp dụng bộ công cụ Tesseract OCR Engine để trích lọc các ký tự chữvà số, dữ liệu thu thập sẽ được phân tích và trả kết quả về đúng theo các trường trên giaodiện phan mém cho nguoi dung So đồ khối việc xử lý và nhận dạng một NameCard dựkiến như sau:

Chụp hình danh thiếp > Tién xử lý > Huan luyện nhận dang, tạo cơ sở dữ liệu>Loc ký tự Phân tích dựa trên cơ sở dữ liệu huấn luyện > Xuất kết quả

Huấn luyện

Chụp hình ‘ko ge Ạ

l a Tién xu ly nhận dang, tạo

Danh thiếp ——=> —=> han date,

y

Phân tích dựa

Xuất kết quả <—— trên cơ sở dữ <—— Lọc ký tự

liệu huân luyện

Hình 1.21 Sơ đồ khối quả trình xử lý Danh thiếp

Trang 25

LUẬN VĂN THẠC SĨ GVHD: TS TRUONG DINH CHAU

CHUONG 2

CO SO LY THUYET

2.1 Co sở ly thuyết về ảnh số

2.1.1 Phần tử ảnhẢnh trong thực tế là ảnh liên tục về không gian và giá trị độ sáng Dé xử lý ảnhbang máy tính thì người ta phải số hóa ảnh, biến doi tín hiệu từ liên tục sang tín hiệu rờirac về giá trị vị trí và độ sáng ảnh ma phải dam bảo mắt thường không phân biệt được haimức kể nhau Trong quá trình này người ta sử dụng khái niệm phân tử ảnh Pixel đại diệncho các điểm anh đó Trong khuôn khổ ảnh hai chiều, mỗi pixel ứng với cặp tọa độ (x, y)

0

CC HE.)

pixel

}+

I-N(404)

0]M-1 (cohimn)

A(O,0)AQ,0)A@,1)

A(i.j):Integer number

A(,2)

A(M-1,N-1)

2.1.2 DO phan giai

Hình 2.1 Anh khi được số hóa

Độ phân giải của ảnh là mật độ điểm ảnh được ấn định trên một ảnh số được hiển

thị Khoảng cách giữa các điểm ảnh phải được chọn sao cho mắt người vẫn thay duoc su

liên tục cua ảnh Việc lựa chon khoảng cách thích hop tạo nên một mật độ phan bồ, đóchính là độ phân giải và được phân bồ theo trục x và y trong không gian hai chiều

Độ phân giải của ảnh được biêu diễn làm hai loại :

— Độ phân dải màu: sự thay đổi màu nhỏ nhất có thé thay đôi được và cho ta biết số

mau tôi da của ảnh.

Trang 26

— Độ phân dải không gian: chi tiết nhỏ nhất có thé thay đôi được.

2.1.3 Mức xám

Mỗi pixel ngoài vị trí tọa độ của nó trong ảnh thì nó còn có giá trị mức xám Mức

xám của ảnh biểu thị cường độ sáng của nó tại mỗi giá trịpixel Số mức xám của ảnh phụ

thuộc vào không gian màu của ảnh đó Ví dụ một ảnh 8 bit thì có 256 mức xám từ 0-255.2.1.4 Không gian màu

hơn bao gồm H, S, V mô tả cho màu sắc (Hue), độ bão hòa màu (Saturation), và độ sáng(Value) Giá trị H được thé hiện thông qua góc vòng tròn Đi theo hướng ngược chiềukim đồng hồ, tại giá trị không độ là màu đỏ (R), sau đó biến thiên đến màu xanh luc(Green) tại giá trị 120 độ, màu xanh lá (Blue) tại 240 độ và quay trở về màu đỏ 360độ.Không gian màu này thường được ứng dụng trong thị giác máy, đồ họa máy tính

Trang 27

LUẬN VĂN THẠC SI GVHD: TS TRƯƠNG DINH CHAU

Hình 2.3 Hệ tọa độ trụ cho không gian màu HSV

2.1.4.3 Không gian YCbCr

Không gian YCbCr thường được dùng trong anh JPEG, các các chuẩn video Thíchhợp cho việc nén và giải nén dữ liệu theo tần số Các thành phan trong không gian nay:

— _ Y: thành phan độ sáng(ảnh xám).— Cb và Cr: thành phan sắc thai mau

2.2 Thuat toan OCR

Thuật toán OCR (Optical Character Recognition) bao gồm các bước co bản sau:Quét ảnh, tiền xử lý, trích lọc nét đặc trưng, so sánh cơ sở dữ liệu, nhận dạng như

trong hình 2.4

li ` say hi A 1 h ~

Lưu trữ <— Nhận dạng = So bàn sơ

Hình 2.4 Sơ đồ khối thuật toán OCR

HVTH: PHAM CAO SON 21

Trang 28

2.3 Tiền xử lý ảnh

Tiền xử lý ảnh là quá trình cần thiết đối với bài toán nhận dạng Nó cải thiện chấtlượng ảnh trước khi nhận dạng, giúp kết quả thu được đạt độ chính xác cao hơn Quátrình tiền xử lý ảnh có thé bao gồm nhiều thuật toán khác nhau

2.3.1 Xứ lý điểm ảnhPhương pháp xử lý điểm ảnh thay đổi giá trị điểm ảnh trong ang gốc, tạo ra giá trịảnh mới tương ứng trong ảnh tăng cường: sự thay đổi này được biểu diễn bởi công thức:

O(x, y) = T[1(x y)] (2.1)Trong đó, I(x,y) là ảnh gốc, O(x.y) là anh tăng cường T là phép biến doi giữa haiảnh Các kỹ thuật xử lý điểm anh pho biến: tăng cường độ tương phan, tạo ngưỡng toancục, cân bằng lược đồ mức xam [11]

2.3.2 Tăng cường độ tương phản

Các mức ngưỡng tương phản của một bức ảnh có độ sáng rất thấp, một phần do việccài đặt các thiết bị thu thập ảnh không đúng Do vậy, việc điều khiển độ tương phản củamột bức ảnh là cần thiết, để bù lại sự khó khăn trong quá trình thu nhận ảnh Kỹ thuậthiệu quả trong trường hợp này gọi là ánh xạ tuyến tính Nó mở rộng các giá trị điểm ảnhcủa một bức ảnh bang cách mở rộng khoảng giá trị động thông qua quang pho của ảnh:

O, -O,

Trong đó, O¡ bang 0, O; tương ứng với giá tri ngưỡng mong muốn I, va I, là cácgiá trị lớn nhất và nhỏ nhất của biên độ mức xám

Bên cạnh đó, độ sáng của ảnh có thể được hiệu chỉnh băng cách cộng thêm mộttham số vào giá trị của tất cả các điểm ảnh, nếu số cộng vào là dương độ sáng tăng lên vàngược lại [11] Ngoài ra, có thể sử dụng một hệ số độ lợi ảnh thay cho tham sỐ này Khikết hợp cả hai yếu tố:

Ox, y) =a* I(x, y)+b (2.3)Với b là tham số, a là hệ số độ lợi, 0< a< 1

2.3.3 Phân ngưỡng cho ảnh

Phân ngưỡng cho ảnh là tách đối tượng ra khỏi nền của ảnh Phân ngưỡng cho ảnhcó thé phân thành hai loại chính: phân ngưỡng toàn cục và phân ngưỡng cục bộ[I 1]

Trang 29

LUẬN VĂN THẠC SI GVHD: TS TRƯƠNG DINH CHAU

2.3.3.1 Phần ngưỡng toàn cụcPhân ngưỡng toàn cục là chọn một giá trị ngưỡng chung cho toàn bộ dữ liệu ảnh.

Giá trị nay dựa trên sự ước lượng cường độ biéu đồ mức xám của ảnh nền Phương phápphân ngưỡng toàn cục thường được dùng để chuyển hình ảnh xám sang hình ảnh dướidạng nhị phân Các giá trị điểm ảnh của ảnh khi áp dụng phương pháp nảy được chia làmhai lớp, mặt trước và nền ảnh Mục đích của phương phápphân ngưỡngtoàn cucla tự độngxác địnhmột gia tri ngưỡng, T, với các giá tri điểm ảnhnhỏ hơn Tđược coi là mặt trướcvàcác giá trilớn hơn T là nền anh [11], [17]:

7 =s(u +H,) (2.4)Trong đó: fy va Lb lan luot vung anh nên và mặt trước anh Cac giá tri , fo được

lọc từ quá trình phân đoạn ảnh và được chọn lặp đi lặp lại nhiễu lần cho đến khi giá trị

phân ngưỡng T; trùng khớp với giá trị T;¡¡ đã được tính trước đó Từ đó, chon ra đượcmức ngưỡng cho toàn bộ ảnh.

Có hang trăm phương pháp phân ngưỡng được công bố Một trong những phương

pháp được sử dụng rộng rãi là phương pháp Otsu [11].Phuong phapOtsula một trong

nhữngkỹ thuậtđược sử dụng rộng rãi, để chuyển đồimột hình anhmau xámthành một hìnhanhnhi phân Sau đó, kỹ thuật này đưa ra ngưỡng tối ưu bằng cách chia ảnh nhị phânthành hai lớp rồi cực tiểu phương sai trong lớp [11]

0, (t)=a,(to; (0)+@,()Ø; (f) (2.5)

Trọng số ứ là xác suất của hai lớp tách biệt được tạo thành bởi mức ngưỡng ¢, va

o; là phương sai trong các lớp này Otsu chỉ ra rằng cực tiểu hóa phương sai trong lớp sẽ

tương đương với việc cực dai hóa phương sai giữa các lớp [11]:

HVTH: PHAM CAO SON 23

Trang 30

ơ;()=ø?~ø2() =0,)0,()[u,0- 4, (0) (2.6)

Cac đại lượng w; xác suat cua các lớp, va , trung bình cua các lớp sẽ được cập nhật

liên tục.Thuật toán này có thê được biêu diễn qua các bước:Tính toán lược đồ mức xám và xác suât cho môi mức cường độ.

Điều kiện đầu w,(0), và (0)

Thao tác từng bước cho tất cả các mức phân ngưỡng t từ 1 cho tới giá trị cường độlớn nhất

Cập nhật lại giá trị cho w(0), và (0).

bảo mật; hoặc trong trường hợp phần ngưỡng toàn cục không tách được mặt trước và ảnh

nên Có một sự thật hiển nhiên là các lược đồ mức xám của phần lớn các ảnh có nhiềuhơn hai đỉnh cực trị Do vay, phương pháp phân ngưỡng toan cục sẽ gặp rất nhiều khó

khăn trong việc phan tách ảnh thành hai lớp riêng biệt [11], [17] Lúc này, phan ngưỡng

cục bộ lại rất hiệu quả Đã có rất nhiều báo cáo được công bố về phương pháp phân

Trang 31

LUẬN VĂN THẠC SI GVHD: TS TRƯƠNG DINH CHAUtrên kha năng làm nguồn lực cho các khối của OCR trong việc nhận dạng số viết tay từhình ảnh thủy văn học Trong đó, phương pháp Niblack được đánh giá rất cao [11].Phương pháp Niblack tính toán phân ngưỡng bằng cách trượt một cái cửa số ngang qua

bức ảnh, đồng thời sử dụng trung bình cục bộ, yw, độ lệch chuẩn, ø, cho mỗi điểm anh

trung tâm cửa sô Gia tri phân ngưỡng cho một diém ảnh, trong miên lân cận không đôi,là một hàm tuyên tính của giá tri trung bình và độ lệch chuân của các diém ảnh trongmiền lân cận.

Kích thước của miền lân cận phải vừa đủ nhỏ dé đáp ứng các chi tiết cục bộ, nhưngđồng thời cũng phải đủ lớn để loại bỏ nhiễu [11] [17]

2.3.4 Xử lý lược đồ mức xámXử lý lược đồ mức xám được dùng trong tăng cường ảnh Phương pháp nay rất hiệuquả trong việc nén ảnh cũng như quá trình phân đoạn ảnh Một lược đồ mức xám đơngiản là vẽ các tần số tại mỗi mức xám xuất hiện từ 0 (màu đen) cho tới 255 (màu trắng).Việc quét hay bắt hình ảnh có thé làm giới han các thang mau sắc, hoặc có thé làm mat đicác chỉ tiết tương phản Do vậy, tăng cường ảnh bằng cách xử lý lược đồ mức xám chophép hoản thiện các chỉ tiết ảnh; đồng thời hỗ trợ các quá trình xử lý ảnh khác như phânđoạn ảnh Cân băng lược đồ mức xám và so khớp lược đồ mức xám là hai phương pháppho bién dung dé thay đôi lược đồ mức xám của một ảnh dé tao ra một ảnh tốt hơn rấtnhiều [11], [17]

2.3.4.1 Cân bằng lược đồ mức xámCân bằng lược đồ mức xám là một kỹ thuật toàn cục Nó mở rộng lược đồ qua toànbộ quang phố của các điểm ảnh (0 — 255) Quá trình này hoàn toàn đơn giản, cho mỗingưỡng sáng j trong ảnh gốc, một giá trị điểm anh mới k sẽ được tinh [11], [17]:

key (2.8)

i=0

Trong đó, giá tri tong k đếm số lượng điểm ảnh trong anh gốc (bằng cách tích hợpvào biểu đồ) có độ sáng bang hoặc nhỏ hơn j, T là tong số điểm ảnh [17] Ngoài ra, cânbằng lược đồ mức xám là một trong các phương pháp được dùng để thu ảnh mới dựa trênđặc tính hoặc sự thay đổi của lược đỗ mức xám [17]

HVTH: PHAM CAO SON 25

Trang 32

2.3.4.2 Sự so khớp lược đồ mức xámSo khépbiéu đồ mức xámlà một phương pháptrongxử lý hình ảnhđiều chinhmau sắccuahaihinh anhbang cách su dụnglược đồ mức xám.

Hình 2.5 Ham phân phối tích lũy cho việc tham chiếu va hiệu chỉnh ảnh

Điều chinhbiéu délasu kết hợp củacáchàmtích lũy/2của ảnhđược điều chỉnh bangcác hàmphân phối tích lũy(CDF)củaảnh tham chiếu /; [17]

Hiệu chinhluoc đồ mức xám đượchoàn thànhbởi lần tínhđầu tiêncác thông sốbiễudéctiaca hai hình anh, sau đó CDF của cả hai ảnh đều được tính Kết quả của quá trình sokhớp lược đồ mức xám là so sánh kết quả giống nhau nhất giữa hai hàm CDF / với CDFƒ; Sau đó, mỗi mức xám ø¡, go sẽ được tính #(g¡) = fo(g2) (hình 2.1) Kết quả cuối cùng

của hàm so khớp lược đồ mức xám M(g)) = g> [17]

2.3.5 Làm móng và lọc khung

2.3.5.1 Lam mong

Phép toán này giúp làm gon vật thé bởi bộ nhân tạo ảnh cho trước sử dung nên tang

của phương pháp hit — or — miss [16]:Định nghĩa phép toán như sau:

A @B=A-(A®B)=AN(A@ BY (2.9)

Chọn nhân tạo hình có dạng: {8} = {B,,B,, ,B,}

Với B’ là hình xoay (phiên bản xoay) một góc alpha nào đó của B’’ Khi này, phép

làm mỏng được định nghĩa:

Trang 33

LUẬN VĂN THẠC SI GVHD: TS TRƯƠNG DINH CHAU

A @{B} =(( ((A&® B')@B’) )@B") (2.10)

Với n thuộc khoảng [1,8] va n thuộc Z Khi n = 8, thi n sé quay lại giá tri 1 Phép

toán sẽ lặp lại cho tới khi kết qua về trái không còn thay đối nữa khi lần lượt dung hết bộ(BỶ đến B®) kết qua không đổi [16]

Công thức:S(A4) = U S.(A) (2.11)Trong do:

Sk(A) = (A © kB) —(A © kB)eB (2.12)

S;(A) là tập khung con; k = [0,K]; 4 là anh gốc;B là mặt nạ;K là giá trị & lớn nhất

trước khi A trở thành tập rỗng khi qua phép làm xói mòn bởi mặt nạ B K được biểu diễn

dưới dạng toán học như sau:

HVTH: PHAM CAO SON 27

Trang 34

K =maxƒ£k |(A © kB) #9} (2.13)

Lọc khungla một quá trinhlam giảmvùngmặt trướctrong một anhnhi phân dé tạo rabộ khung mà vẫn bảo toàn kích thước và sự kết nối các vùng ảnh gốc, trong khi loại bỏphần lớn các điểm ảnh ở vùng mặt trước của ảnh Phương pháp này lọc sạch ảnh, bộkhung là quỹ tích của tâm các đường tròn tiếp xúc kép Những đường tròn nảy phủ toản

bộ trong vùng mặt trước ảnh (hình 2.2)

SS

tlae

Hình 2.6 Minh họa khải niệm lọc khungCó hai kĩ thuật cơ bản trong việc lấy khung của đối tượng: làm mỏng cơ bản vàchuyền đôi trung bình các trục [11], [16] Lam mỏng là quá trình xử lí hình thái, nó loạibỏ những điểm ảnh đã được chọn trước trong vùng mặt trước của ảnh nhị phân Làmmỏng là dữ liệu của quá trình giảm thiểu khi ăn mòn đối tượng đến khi độ rộng của đốitượng là một điểm ảnh Việc tạo ra khung của đối tượng giúp việc nhận dạng dễ dàng

hon, vi dụ như nhận dạng kí tự Kỹ thuật lam mỏng thường được ứng dụng cho ảnh nhịphân và sẽ tạo ra một ảnh nhị phân khác.

Mặt khác, kỹ thuật chuyến đôi trung bình các trục sẽ tìm những điểm thuộc đốitượng tạo thành đường thắng năm ở trung tâm các khối đối tượng [11] [16] Kỹ thuật nàysử dụng phép đo khoảng cách O — lít của bất kì điểm ảnh nào đến cạnh của đối tượng: vìvay, nó bao gồm tất cả những điểm thuộc đối tượng anh mà khoảng cách nhỏ nhất lớnhơn một cạnh của đối tượng

(a) (b) (c)

Trang 35

LUẬN VĂN THẠC SI GVHD: TS TRƯƠNG DINH CHAU

Hình 2.7 a) ảnh gốc, b) chuyển đổi trung bình các trục, c) làm mỏng

2.3.6 Xứ lý theo mặt na

Khi xử ly theo mặt na, giá tri một điểm ảnh sẽ được tính từ giá tri điểm ảnh trongảnh gốc và các giá trị điểm ảnh trong miền lân cận Phương pháp nảy phức tạp hơnphương pháp xử lý theo điểm ảnh nhưng lại hiệu qua hơn nhiều [11], [17] Những ứngdụng thuộc phương pháp nay có ảnh đầu vào và ảnh dau ra cùng kích thước ảnh

2.3.6.1 Bộ lọc tuyến tính

2.3.6.1.1 Lọc trung bình

Với lọc trung bình, mỗi điểm ảnh được thay bằng trung bình trọng số của các điểm

ảnh lân cận và được định nghĩa như sau [12|:

Nếu ay | -— thi N„ là số điểm ảnh trong cửa số lọc W [17] Lọc trung bình có

trọng số chính là thực hiện chập ảnh đầu vào với nhân chập H Nhân chập H trong trường

hợp này có dang [12], [17]:

1 1 11 1 11 1 1

nat

9

Một bộ lọc trung bình không gian khác thường được su dung:Y[m n] =F) ncn (Xm Ln]+ Xn han] n= t+ Xin) (2.16)

Lọc trung bình trọng số là một trường hợp riêng của lọc thông thấp

HVTH: PHAM CAO SON 29

Trang 36

2.3.6.1.2 Lọc thông thấpLọc thông thấp thường được dùng để làm trơn nhiễu Trong kỹ thuật này, một số

nhân chập thường được dùng:

0 1 6b

| 2

tổn = HH, = (b+ 2}

0 1 1i 1 2 1 b

80 1 0 1 b 1Khi b = 1, Hy chính là nhân chập H, (lọc trung bình) [17] Dé thé hiện rõ khả năngkhử nhiễu cộng của bộ loc này, phương trình thu nhận ảnh được viết lại:

N,, (k,DeW N,,Nhu vay, nhiéu cong trong anh da giam di N,, lan [12], [17]

2.3.6.1.3 Loc đồng hìnhKỹ thuật này hiệu qua với anh có nhiễu nhân Thực tế là ảnh quan sát được gồm anh

gốc nhân với một hệ số nhân Gọi X (m,n) là anh thu được, X(m,n) là ảnh gốc vàz(m.n)

là nhiễu:

X (m,n) = X(m,n).n(m,n) (2.20)Lọc đồng hình lay logarit của anh quan sát:

log( X (m,n)) = log(X (m,n)) + log(7(m,n)) (2.21)

Trang 37

LUẬN VĂN THẠC SI GVHD: TS TRƯƠNG DINH CHAURõ ràng là nhiễu nhân có trong ảnh sẽ bị giảm Sau quá trình lọc tuyến tinh ta lạichuyển về ảnh cũ bằng phép biến đổi e mũ Anh thu được qua lọc đồng hình sẽ tốt honảnh gốc [17].

2.3.6.2 Bộ lọc phi tuyếnBộ lọc phi tuyến thường được dùng trong tăng cường ảnh Các kỹ thuật thường

được dùng: lọc trung vị (median filtering), giả trung vi (pseudo median filtering), lọc

ngoai (outlier) Với lọc trung vị, điểm ảnh dau vào sẽ được thay thé bởi trung vị các điểm

anh Còn lọc gia trung vi sẽ dùng trung bình cộng cua 2 giá tri trung vi (trung bình cộngcủa max và min).

2.3.6.2.1 Loc trung vị

Kỹ thuật nay đòi hỏi giá trị các điểm ảnh trong cửa số phải xếp theo thứ tự tăng haygiảm dan so với giá trị trung vị Kích thước cửa số thường được chọn sao cho số điểmanh trong cửa so là lẻ Các cửa số hay dùng là cửa số 3x3, 5x5, 7x7 Tính chất lọc trungvị là phi tuyến vì:

Trung vị (x(m)+y(m)) # Trung vi (x(m)) + Trung vi (y(m)).Hữu ích cho việc loại bỏ các điểm ảnh hay các hàng mà vẫn bảo toàn độ phân giải.Hiệu quả giảm khi số điểm nhiễu trong cửa số lớn hơn hay bằng một nửa số điểmtrong cửa số [17] Điều nay dễ giải thích vì trung vị (N+1)/2 giá tri lớn nhất N,, lẻ Lọctrung vị cho trường hợp hai chiêu coi như lọc trung vi tách được theo từng chiều nghĩa làtiễn hành lọc trung vị cho cột, sau đó lọc tiếp cho hàng [17]

2.3.6.2.2 Loc ngoài

Giả thiết rang có một mức ngưỡng nào đó cho các mức nhiễu (có thé dựa vào lượcđồ mức xám) Tiến hành so sánh giá trị của một điểm ảnh với trung bình số học tám lâncận của nó Nếu sự sai lệch này lớn hơn ngưỡng, điểm ảnh này được coi như nhiễu.Trong trường hop nay, giá trị của điểm anh sẽ được thay thé bang giá trị trung bình củacác lần cận vừa tính được [17] Các cửa số tính toán thường là 3x3 Tuy nhiên, cửa SỐ céthé mở rộng thành 5x5 hay 7x7 dé đảm bảo tính tương quan giữa các điểm ảnh [17]

2.4 Chiết xuất nét đặc trưng

Chiết xuất nét đặc trưng luôn là một phần rất quan trọng trong mọi bài toán nhậndạng Một phương pháp chiết xuất nét đặc trưng tốt có thể giúp việc nhận dạng chính xácvà tốt hơn Do vậy, cần chú ý chiết xuất những nét đặc trưng phù hợp sau khi đã tiền xử

lý ảnh [12].

HVTH: PHAM CAO SON 31

Trang 38

2.4.1 Phương pháp chiết xuất nét đặc trưng chungNét đặc trưng chung của một mẫu ảnh mô tả toàn bộ cầu trúc của ảnh [12] Nét đặc

trưng về độ doc là nét đặc trưng chung trong các bài toán về nhận dang ki tự.

Nét đặc trưng về độ dốc (gradient feature):Để tính toán mật độ các đoạn thăng trong mặt lượng tử hóa, hai mặt nạ được sử

dung, mặt nạ Sobel theo phương doc và mặt na Sobel theo phương ngang [12] Biên độ

và pha của độ dốc (gradient) thu được khi sử dung mặt na Sobel được tính như sau:

Biên độ:M(.y)= 4] Số (x.y)+ S20.) | (2.22)Pha:

Hình 2.8 Nét đặc trưng về độ dốc khi sử dụng mặt na Sobel

Pha được lượng tử hóa thành 8 hướng như trong hình 2.8 Ứng với mỗi giá trị phalượng tử hóa, một giá trị biên độ tương ứng sẽ được cộng thêm vào để đạt độ dài tongtheo hướng đó [12] Từ đó, lấy nét đặc trưng trong số hữu hạn của các ký hiệu Biên độđược chuẩn hóa va lượng tử hóa Sau cùng, một nét đặc trưng chung về độ lệch (kí hiệu

là G) kết hợp theo từng cặp (0°, +180°), (45°, -135°),(90°, -90°), (135°, -45°) được đưa ra

xem xét [12].

Trang 39

LUẬN VĂN THẠC SI GVHD: TS TRƯƠNG DINH CHAU2.4.2 Phương pháp chiết xuất nét đặc trưng cục bộĐề chiết lọc thông tin cục bộ ảnh sau khi đã tiền xử lý, ảnh được chia thành 9 khốibằng nhau Sau đó, tại mỗi khối nay, 4 nét đặc trưng về độ dốc (G(4)) được chiết lọc Vìvay, nét đặc trưng cục bộ (kí hiệu L) bao gm 36 khối quan sát:

O=[G(4) 6| (2.24)2.5 Nhận dạng và huấn luyện

2.5.1 Biểu diễn từ vựngCó rất nhiều kỹ thuật, thuật toán và thực nghiệm để tạo ra bộ tìm kiếm và nhận dạngtừ một cách nhanh chóng Chia khóa của van đề chính là thuật toán dùng để mô tả từ

vựng [13].

2.5.1.1 Cây tiền tổ (the Trie)Trong khoa học máy tính, Trie, hay cây tiền t6, là một cau trúc dé liệu sử dụng câycó thứ tự, dùng để lưu trữ một mảng liên kết của các xâu kí tự Các từ vựng được biểudiễn dưới dạng cây, mà ở các đoạn nỗi được đánh dau bang các chữ cái [13] Mỗi một từlà một nhánh xuất phát từ rễ Khi hai từ có phan bắt đầu giống nhau sẽ sử dụng chungnhững phan giống nhau của nhánh cây Điểm nút kết thúc tại nhánh của từ gọi là điểmcuối Những điểm này được đánh dấu đặc biệt Cấu trúc dữ liệu dưới dạng này có tên

thông dụng là cây kí tự.

Đối với tiếng Anh, có khoảng 94240 từ vựng có thể được biểu diễn với khoảng117150 điểm nút và 179618 đoạn nối Do vậy thường sẽ tốn từ 3 tới 4 byte dữ liệu chomột đoạn nồi[ 13]

eats

Hình 2.9 Từ vựng và cây ki tự tương ứng, điểm cuối được khoanh tròn

HVTH: PHAM CAO SON 33

Trang 40

2.5.1.2 Phương pháp DAWG (Directed Acyclic Word Graph)

Cau trúc cây kí tự khá đồ sộ Dung lượng nó chiếm giữ lớn hơn nửa mega — bytesdữ liệu Bang cách biểu diễn dưới dạng biểu đồ thay vì cây; dữ liệu lưu trữ sẽ giảm đángkế mà không làm thay đổi cấu trúc của thuật toán [13]

Cây kí tự có thé được xem như bộ nhận dạng từ vựng hữu hạn [13] Cac điểm núttrên cây kí tự có thể được xem như trạng thái và điểm nối là điểm chuyển đổi của bộmay Điểm kết thúc là điều kiện chấp nhận của cau trúc [13] Ngôn ngữthuộc mộtbộ nhậndạnghữu hạntrạng thaila tập hợp cáctừ được chấp nhận và được nhận dạng Đối với một

ngôn ngữ bất kỳ, sẽ có rất nhiềubộ nhận dạnghữu hạn trạng tháikhác nhau.Đặc biệt, sẽ có

một bộ số lượng các trạng thái là tối thiểu [13].Khi ngôn ngữchi chứahữu hạncác tu(vi dụnhư cây từ vung), sẽ rất dé dangdé tim thay kích thướctối thiéucho bộ nhận dạng hữu hancác trạng thái [13] Bộ nhận dạng tối thiểu các trạng thái là một biéu đồ có hướng chứkhông phải là cây Vì vậy, một biểu đồ từ (từ vựng) có hướng không tuân hoàn; còn gọilà một dawg; về co bản là một cây kí tự, ma các nhánh phụ giống nhau ở điều kiện điểmkết thúc, được hợp nhất [13]

Hình 2.10 Minh họa một DAWG2.5.2 Huấn luyện nhận dạng

Đề huấn luyện nhận dạng chữ sử dụng luật học lan truyền ngược [18], [19].Năm 1986, một thuận toán khá hiệu qua để huấn luyện cho mạngPerceptron đa lớp(MLP) mới được đưa ra bởi Rumelhart và MoClelland Đó chính là luật học lan truyền

ngược dùng cho mạng MLP.

2.5.2.1 Luật học lan truyền ngượcThuật toán lan truyền ngược được thực hiện theo nguyên tắc hồi quy khi mà độ

nhạy của lớp m sẽ được tính toán từ độ nhạy lớp m+1 đã được tính trước đó Như vậy

trong mạng MLP,độ nhạy sẽ được lan truyền ngược từ lớp ra trở ngược lại các lớp ân rồiđến lớp vào [18], [19] Điều này diễn tả như sau:

Ngày đăng: 24/09/2024, 06:00