Phát hiện chữ trong ảnh

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

DANG TRAN LONG

PHAT HIEN CHU TRONG ANH

CHUYEN NGANH: HE THONG THONG TIN

MA SO : 60.48.01.04

TOM TAT LUAN VAN THAC Si

Trang 2

Luận văn được hoàn thành tại:

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học: TS NGUYÊN ĐỨC DŨNG

Phản biện 1: .- c0 2220002020200 12211 ng vn ng n ng nh ng

Be O00 0) Co) gà laaadddẳẳẳẳaẳiiiaadddiiẳẳiẳaẳa.

Luận văn sẽ được bảo vệ trước Hội đông châm luận văn thạc sĩ tại Học viện Công

nghệ Bưu chính Viễn Thông

Có thê tìm hiệu luận văn tai:

- Thu viện của Học viện Công nghệ Bưu chính Viễn Thông

Trang 3

MỞ ĐẦU

Ngày nay khi CNTT ngày càng phát triển, hình ảnh được sử dụng thường

xuyên hơn trong các trang web, các thông điệp email để nhúng thông tin văn bản.

Việc sử dụng hình ảnh xuất phát từ nhu cầu như dé làm đẹp (trên tiêu đề), dé thu hút sự chú ý (trên quoảng cáo), để che dấu thông tin, kiểm tra mã Captcha.

Hình ảnh tự nhiên có chứa văn bản thường được yêu cầu dé tự động nhận và

xử lý Văn bản trong hình ảnh tự nhiên có thể là bất kỳ một phần văn bản của hình ảnh hiên trường như dấu hiệu đường phó, biên tên, nhãn hiệu hang hóa, biển số xe hoặc thâm chí là văn bản xuất hiện trên áo Các lĩnh vực nghiên cứu của văn bản

trong hình ảnh ngày cảng tăng do sự gia tang sử dụng điện thoại thông minh va may

ảnh kỹ thuật số Khả năng nhận biết chính xác văn bản trong hình ảnh ngày càng trở

nên hữu ích và nhiều người sẽ được hưởng lợi từ những tiến bộ trong lĩnh vực này.

Một giải pháp được nghĩ đến là xây dựng hệ thống phát hiện văn bản trong ảnh Tuy nhiên nhiều đối tượng trong hình ảnh tự nhiên như cành cây hoặc dây điện

có thê đễ dàng bị nhằm lẫn với văn bản Vì lý do này mà có rất nhiều nhà nghiên

cứu quan tâm và đã có nhiều phương pháp được đưa ra tuy nhiên do đữ liệu hình ảnh là rất phong phú nên mỗi phương pháp đều có sự hạn chế của riêng mình chưa giải quyết hết được các vấn đề trong bài toán.

Phát hiện chữ trong ảnh là bài toán được quan tâm rất nhiều và đã đạt được nhiều thành công, đã đóng góp rất nhiều ứng dụng thực tiễn trong đời sống hàng ngày Ở đây có thể nêu ra một vai ví dụ như: xác thực biên số xe, kiểm tra xác thực

hóa đơn, tam séc, hộ chiếu, xác thực hàng hóa, lấy thông tin từ danh thiếp lưu vào

danh bạ vv

Nhận thức được tầm quan trọng của vấn đề này, học viên đã chọn đề tài “ Phát hiện chữ trong ảnh ” cho Luận văn tốt nghiệp chương trình Thạc sĩ Kĩ thuật

của mình Mục tiêu của đề tài này là nghiên cứu phương pháp xác minh vùng văn

bản trong ảnh qua các hình ảnh đầu vào phức tạp với nhiều chỉ tiết hoa lá, nhà cửa

với độ chính xác cao.

Trang 4

II NỘI DUNG

Luận văn được trình bày thành 3 chương như sau:

CHƯƠNG 1: TONG QUAN VỀ PHÁT HIỆN CHỮ TRONG ANH

Chương này sẽ tổng quát về bài toán phát hiện chữ trong ảnh tự nhiên Giới thiệu các khâu trong một hệ thong phát hiện chữ hoàn chỉnh Đồng thời đưa ra một

số ứng dụng hiện nay cùng với các mẫu kết quả của nó nhằm mục đích so sánh và

xác định phạm vi cho đề tài.

CHƯƠNG 2: CÁC PHƯƠNG PHÁP PHÁT HIỆN CHỮ TRONG ẢNH

Mở đầu chương sẽ nói về hai nhánh chính của đọc ký tự trong văn bản là hai

bài toán phát hiện chữ và nhận dạng chữ, nêu ra sự khác nhau giữa hai bài toán phát

hiện chữ và nhận dạng chữ Từ đó ta xây dựng nội dung chính vào bài toán phát

hiện chữ trong ảnh với một số phương pháp phát hiện chữ trong ảnh hiện nay Phương pháp phát hiện chữ trong ảnh được trình bày ở đây gồm có: phương pháp xác định vùng chứa chữ trong ảnh dựa trên đặc trưng và kết cấu, phương pháp dựa

theo đường biên, phương pháp dựa trên giải thuật SWT Từ mỗi phương pháp nêu

ra ta có thé nhận thấy được ưu điểm va hạn chế của từng phương pháp.

CHƯƠNG3: XÂY DỰNG CHƯƠNG TRINH THU NGHIỆM

Chương này tập trung vào việc xây dựng chương trình thử nghiệm cho baitoán phát hiện chữ trong ảnh với mục đích chính là phân tích đánh giá và so sánh

tính hiệu quả của các phương pháp nêu ở chương II Từ chương trình thử nghiệm đó

ta phân tích kết quả đạt được sau đó với đầu vào là các hình ảnh tự nhiên, từ đó có

được kết quả đánh giá so sánh các phương pháp trên.

Trang 5

CHƯƠNG 1

TONG QUAN VE PHÁT HIỆN CHỮ TRONG ANH

1.1 Téng quan về phát hiện chữ trong ảnh

1.1.1 Giới thiệu

Hiện nay với sự thành công của điện thoại thông minh, máy tính bảng và các

nhu cầu lớn trong nội dung dựa trên tìm kiếm hình ảnh Phát hiện chữ trong hình ảnh là một nhiệm vụ rất quan trong được nhiều chuyên gia quan tâm đên Mặc dù

trong quá khứ phát hiện văn bản trong hình đươc nghiên cứu rộng rãi nhưng vẫn

chưa giải quyết được Những khó chủ yếu từ hai khía cạnh là: sự đa dạng của các

văn bản và sự phức tạp của các hình ảnh.

Hình ảnh được sử dụng thường xuyên trong các trang Web và các thông điệp

email dé nhúng thông tin văn bản Nghiên cứu trước đây đã chỉ ra rang một số lượng đáng ké của văn bản trên các trang web được trình bay dưới dang hình ảnh (17%), trong khi một phần quan trọng của văn bản này (76%) không phải là để được tìm thấy bất cứ nơi nào khác trên trang Web [2] Nếu tính rằng, các văn bản rất được trình bày dưới dang hình anh là thường xuyên hơn không quan trọng về mặt ngữ nghĩa (tức là tiêu đề, quảng cáo), người ta có thé có được một cảm giác về tầm quan trọng của van đề [1].

Các nghiên cứu gần đây trong lĩnh vực máy tính tầm nhìn và nhận dạng mẫu cho thấy một lượng lớn người quan tâm đến nội dung trong các hình ảnh và video.

Như đã nói bới Jung, Kim và Jain trong [4] dữ liệu văn bản đặc biệt thú vi bởi vì

văn bản có thể được sủ dụng dễ dàng và rõ ràng mô tả nội dung của một hình ảnh.

Do dữ liệu văn bản có thể được nhúng trong một hình ảnh hoặc video với phong cách khác nhau như font, kích cỡ, định hướng, màu sắc, hình nén vv [3].

1.1.2 Phát biểu bài toán

Phát hiện chữ trong ảnh là một kỹ thuật máy tính để xác định vùng văn bản trong các ảnh bất kỳ Kỹ thuật này nhận biết được ký tự hay vùng ký tự có trong ảnh với rất nhiều các chỉ tiết dư thừ như hoa, lá, tòa nhà, cây cối [5].

Trang 6

1.1.3 Những khó khăn và thách thức

Những khó khăn gặp phải khi giải quyết bài toán phát hiện chữ trong ảnh là sự đa dạng của văn bản và sự phức tạp của các hình ảnh dẫn đến việc xử lý các hình để xác định được chính xác vùng văn bản trong ảnh là khó khăn Hiện nay các hình

ảnh rat đa dạng được chụp, scan ra trong đó có rất nhiều các chi tiết phức tạp văn

bản nhúng kèm theo nó cũng rất phức tạp như kích cỡ, màu sắc, font chữ, hoa

Thách thức gặp phải khi giải quyết bài toán phát hiện chữ trong ảnh là do sự khác biệt về kích thước, cũng như độ tương phản hình ảnh thấp và nền phức tạp Cùng với đó là việc tìm kiếm phương pháp phát hiện chữ trong ảnh thích hợp đề đạt

hiệu quả cao.

1.2 Quá trình phát hiện chữ

1.2.1 Quá trình

Các nghiên cứu gần đây trong lĩnh vực máy tính tầm nhìn và nhận dạng mẫu

cho thấy một lượng lớn người quan tâm đến nội dung từ các hình ảnh và video Nội dung này có thê được phát hiện trong các hình thức của các đối tượng, màu sắc, kết cấu, hình dạng cũng như các mối quan hệ giữa chúng Các thông tin ngữ nghĩa được

cung cấp bởi một hình ảnh có thể hữu ích cho nội dung dựa trên mỗi hình ảnh, cũng

như cho chỉ mục va phân loại mục đích Như đã nói bởi Jung, Kim va Jain trong [4],

dữ liệu văn bản đặc biệt thú vị, bởi vì văn bản có thé được sử dụng dễ dàng và rõ ràng mô tả nội dung của một hình ảnh Do dữ liệu văn bản có thể được nhúng vào

trong một hình ảnh hoặc video trong phong cách khác nhau như font, kích cỡ, định

hướng, mau sắc, và một nền phúc tạp, dé phát hiện khu vực có van bản ở đây sé gặp rất nhiều khó khăn và thách thức [4] Ngoài ra, Optical Character Recognition (OCR) kỹ thuật hiện nay dùng dé trích xuất văn bản từ một nền Phương pháp tiếp cận khác nhau đối với việc khai thác các vùng văn bản từ hình ảnh đã được đề xuất dựa trên các thuộc tính cơ bản của văn bản Dé có thé phát hiện chữ trong văn bản ta cần có các bước xử lý sau:

- Doc ảnh: Bước này doc và xử lý ảnh đâu vào.

Trang 7

- Loc nhiễu: Ta xử lý giảm nhiễu cho ảnh.

- Tim kiếm khu vực: Ta tìm kiếm khu vue của các cường độ tương tự nhau

trong hình ảnh.

- Phat hiện khu vực có văn bản: ta sử dụng một trong các phương pháp phat

hiện văn bản trong hình ảnh như do biên canny, swt dé tìm và phát hiện khu

Hình 1.1: Sơ đồ phát hiện chữ trong ảnh [3]

Ảnh đầu vào ở đây là các hình ảnh được chụp từ máy ảnh, điện thoại, ảnh scan mau vv Sau đó sẽ được xử lý dé phát hiện ra khu vực van bản trong hình ảnh rồi định vị văn bản đó và trích chọn ký tự dé xử lý anh đầu ra.

1.3 Một số ứng dụng phát hiện chữ trong ảnh hiện nay

Dưới đây là giới thiệu một số phần mềm phát hiện chữ trong ảnh tốt nhất với khả năng xử lý hình ảnh, trích chọn ra ký tự và hỗ trợ lưu văn bản với nhiều định

dạng phổ biến hiện nay.

1.3.1 ABBYY FineReader

ABBYY FineReader là phan mềm OCR thông minh có thé chuyên đổi tài

liệu giấy, ảnh số và các tập tin PDF sang văn bản điện tử ở định dạng có thể soản

thảo và tìm kiếm được Không chỉ nhận dạng tiếng Việt với độ chính xác cao

ABBYY FineReader còn có khả năng giữ nguyên định dạng và dàn trang của tài

Trang 8

liệu gốc tốt hơn bao giờ hết Bạn chỉ cần quét hoặc chụp hình văn bản rồi để

ABBYY FineReader làm nốt phần còn lại Chỉ trong chốc lát là bạn sẽ có trong tay

văn bản số ở định dạng có thé soạn thảo được, trực quan, nhanh chóng và mạnh mẽ.

1.3.2 Smart OCR Pro

Smart OCR Pro là một phần mềm có chức năng chính là chuyên đổi hình ảnh

sang văn bản với công nghệ tiên tiến, không thay đổi định dạng, bố cục văn bản Quan trọng hơn khi nghĩ tới việc chuyên đổi đó là bị lỗi font phải không ? Nhưng với phần mềm Smart OCR Pro thì hoàn toàn yên tâm về điều này, file đầu ra sẽ đạt hiệu quả như bạn mong muốn.

1.4 Kết luận chương

Từ những kết quả ở trên tôi thay được mỗi phần mềm đều có nhưng ưu việt

của riêng mình từ xử lý phát hiện chữ đến nhận biết và tách lấy chữ Có những hình ảnh phần mềm này không xử lý được nhưng phần mềm khác lại xử lý khá tốt Qua đó thay được phạm vi của dé tài ở đây là xử lý phát hiện khu vực có chứa văn bản

trong ảnh.

CHƯƠNG 2

CÁC PHƯƠNG PHÁP PHÁT HIỆN CHỮ TRONG ẢNH

2.1 Hai nhánh chính của đọc ký tự trong văn bản

Nhận dạng chữ trong ảnh (OCR): là một kỹ thuật được tạo ra để chuyên

đổi các hình ảnh của chữ viết tay hoặc chữ đánh máy thành các văn bản tài liệu OCR được hình thành từ một lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ nhận tạo và thị giác máy Mặc dù công việc nghiên cứu học thuật vẫn tiếp tục, một phần

công việc của OCR đã chuyên sang ứng dụng trong thực tế với các kỹ thuật đã được

chứng minh [16]

Phát hiện chữ trong ảnh là: một kỹ thuật dé chỉ ra ký tự hay vùng ký tụ

trong ảnh Kỹ thuật này nhận biết được ký tự hay vùng ký tự có trong ảnh với rất

nhiêu các chi tiệt dư tht như hoa, lá, tòa nha, cây côi

Trang 9

Bảng so sánh sự khác nhau giữa nhận dạng và phát hiện chữ trong ảnh:

Nhận dạng chữ trong ảnh Phát hiện chữ trong ảnh

- Nhận diện chữ trong ảnh có - Phat hiện kí tự, vùng ký tự trongnhiệm vụ là đọc được kí tự trong ảnh có nhiệm vụ là chỉ ra vùng kí

ảnh tự trong ảnh.

- Được ứng dụng nhiều trong việc - Ung dụng trong việc phát hiện

lay thông tin từ hình ảnh vùng kí tự từ đó có thể xử lý vùng

kí tự đó.

2.2 Phương pháp phát hiện chữ trên ảnh dựa trên đặc trưng và kết cau 2.2.1 Tổng quan

2.2.1.1 Giới thiệu

Thông tin văn bản trong hình ảnh là những đầu mối quan trọng cho nhiều ứng dụng dựa trên hình ảnh, dựa trên nội dung truy xuất hình ảnh Tuy nhiên, phát hiện văn bản từ nền hình ảnh phức tạp với nhiều màu sắc là một nhiệm vụ đầy thử thách Trong phần này, tôi trình bày phương pháp phát hiện các chuỗi văn bản dựa

trên đặc trung cấu trúc trong hình anh Ở đây tôi trình bày trên hai bước sau: 1)

phân vùng ảnh dé tìm ra khu vực văn bản trong ảnh với các thành phan màu sắc trong ảnh Trong bước này, chúng tôi đề xuất hai phương pháp dé phân vùng ảnh là: phương pháp dựa trên gradient và phương pháp dựa trên màu sắc 2) Dé phát hiện

các chuỗi văn bản trong ảnh ta dựa trên đặc điểm cấu trúc chung của các ký tự văn

bản trong mỗi chuỗi văn bản như sự khác biệt kích thước ký tự, khoảng cách giữa

các các chữ, và sự liên kết giữa các chữ Trong bước này, tôi đề xuất hai phương pháp phân tích cấu trúc của chuỗi văn bản: Phương pháp nhóm ký tự liền kề và

phương pháp nhóm các dòng văn bản Ở phương pháp này tôi tập trung vào phân

tích cau trúc chuỗi văn bản dé phân biệt nhiễu nên từ các thông tin văn bản [6].

2.2.1.2 Phân vùng ảnh

Dé trích xuất thông tin văn bản từ nền phức tạp, ảnh phân vùng đầu tiên được

thực hiện đê nhóm lại điêm ảnh với nhau thuộc vê cùng một văn bản, có được một

Trang 10

bản đồ nhị phân của các thành phần đặc trưng của văn bản Dựa trên gradient cục bộ

và màu sắc văn bản tôi sử dụng một thuật toán phân chia dựa trên gradient và một thuật toán phân chia màu sắc tương ứng [6].

a) Phân vùng ảnh dựa trên Gradient

Mỗi điềm ảnh được ánh xạ tới bề rộng của nét nó nằm trong, và sau đó là sự thống nhất của bề dày nét được sử dụng đề trích xuất thành phần của văn bản [7] Ở đây, mỗi điểm ảnh được ánh xạ tới kết nỗi các bước của một vài điểm ảnh, được xác định bởi hai điểm ảnh cạnh p và q trên bản đồ cạnh với xấp xỉ bằng độ lớn gradient

và hướng ngược nhau, như thé hiện trong hình 2.1 (a) Mỗi cặp điểm ảnh được nối với nhau bang một bước Sau đó, sự phân bố của độ lớn Gradient tại điểm ảnh của

các đường dẫn kết nối được tính dé trích xuất thành phan ký tự ứng cử.

Trong hình 2.1 (a) mô tả rằng một ranh giới ký tự bao gồm một số lượng cặp điểm ảnh Mô hình ký tự bằng cách phân phối các biên độ gradient và kích thước

nét bao gồm cả chiều rộng, chiều cao và tỉ lệ Các thành phần phân vùng được tính

từ kêt nôi bước của vai diém ảnh trên các điêm ảnh có độ lớn qua dôc nhỏ.

Hình 2.1: (a) Các cặp điểm ảnh; (b) Kết nối đường dẫn ở các cặp điểm ảnh [6]

Trong hình 2.1 (a) ví dụ về các cặp điểm ảnh với nhau như p¡ với qj, p> với qo và p3 với q3 Còn trong hình 2.1 (b) chỉ ra kết nối đường dẫn của tất cả các cặp điểm ảnh được đánh dấu nổi màu trắng trong khi các điểm ảnh khác được đánh dấu

là nền đen để dễ nhận biết giữa chúng.

b) Phân vùng dựa trên cách giảm màu

Trang 11

Trong hầu hết các hình ảnh cảnh, chuỗi văn bản thường bao gồm các đặc

điểm với màu sắc tương tự Như vậy chúng ta có thể xác định vị trí thông tin văn

bản bang cách chiết điểm ảnh với mau sắc tương tự Đề gán cho một khu vực của các điểm ảnh được kết nối với các màu sắc tương tự như một thành phần kết nối, tôi sử dụng phương pháp phân vùng màu Tôi thực hiện giảm màu sắc bằng cách sử dụng biểu đồ màu sắc và trọng số K-means phân nhóm thông qua các bước sau đây

2.2.1.3 Thiết lập thành phan kết nối

a) Nhóm ký tự liền kề

Chuỗi văn bản trong hình ảnh thường xuất hiện trong sự liên kết, cụ thể là mỗi ký tự văn bản trong một chuỗi văn bản phải có ký tự anh em tại vị trí liền kè Các tính năng cấu trúc giữa các ký tự anh em có thé được sử dụng dé xác định xem các thành phần kết nối thuộc về văn bản ký tự Ở đây, năm khó khăn được xác định để quyết định có hai thành phần kết nối là anh em của nhau.

I _ Xét ký tự chữ hoa và chữ thường, tỷ lệ chiều cao rơi giữa là 1/T, và T).

2 Hai ký tự liền kề không nên quá xa nhau, vì vậy khoảng cách giữa hai thành phần kết nói không nên lớn hơn T; lần chiều rộng của hai ký tự đó.

3 Đối với chuỗi văn bản được sắp hàng ngang, sự khác biệt giữa các tọa độ y của các trọng tâm phan kết nối không cần phải lớn hơn T; lần chiều cao của

hai chuỗi đó.

4 Hai ký tự liền kề thường xuất hiện trong các kích thước phông chữ tương tự,

do đó tỷ lệ diện tích của họ nên được lớn hơn 1/T, và nhỏ hơn Ty.

5 Nếu các thành phan kết nối được lấy từ phân vùng dựa trên gradient, sự khác biệt màu sắc giữa chúng nên được thấp hơn một ngưỡng Ts vì các nhân vật

trong cùng một chuỗi có màu sắc tương tự.

Trong hệ thông, thiết lập T¡ = Ty = 2, Ta = 3, T; = 0.5 và Ts = 40 Dé triết ra các vùng chứa các chuỗi văn bản dựa trên ký tự liền kề nhóm, đầu tiên chúng ta loại

bỏ các thành phần kết nối nhỏ (area < Ts) từ tập các thành phần kết nối S Trong hệ

thông, thiết lập T; = 20.

Trang 12

b) Nhóm dòng văn bản

Dé xác định vị trí các chuỗi văn bản với định hướng tùy ý, tôi sử dụng phương pháp nhóm dòng văn bản Đề nhóm cùng các thành phần kết nối tương ứng với văn bản ký tự trong cùng một chuỗi mà có lẽ không nằm ngang, chúng tôi sử

dụng trọng tâm như mô tả của mỗi thành phần được kết nối Cho một tập các thành

phần trọng tâm kết nối các nhóm trọng tâm nhân vật cộng tuyến được tính toán, như được hiền thị trong (2.5) và (2.6).

M= {m|C € S and m = centroid(C)} (2.5)

G cM,|0| = 3,Wm;,m;,m, € G,

L = 4G| they are character centroids, (2.6)

and they are colinear.

Trong đó M biéu thị tập hợp trong tâm của tat cả các thành phan kết nối thu được từ phân vùng hình ảnh, và L biểu thị tập hợp các dòng văn bản mà bao gồm các nhân vật trọng tâm trong sự liên kết văn bản [6].

2.2.2 Hạn chế

Phát hiện văn bản trong hình anh van là một van đề chưa được giải quyết dé xác định vị trí các vùng văn ban trong những hình ảnh Ở đây dé phát hiện chuỗi văn bản ta dựa trên dựa trên cấu trúc đặc trưng của văn bản trong hình ảnh đó dé xử lý Độ chính xác của thuật toán đạt được kết quả rất tốt có thể so sánh với các thuật toán với hiệu suất cao Nhưng vẫn có hạn chế là 5 khó khăn ở thiết lập thành phần kết nối như chữ hoa và chữ thường ko được quá cao, các ký tự liền kề không được

cách xa nhau

2.3 Phương pháp phát hiện chữ trong ảnh dựa theo đường biên

2.3.1 T: ong quan vé bién 2.3.1.1 Giới thiệu

Phát hiện văn bản trong hình ảnh là một vấn đề quan trọng trong xử lý hình ảnh được nhiều người quan tâm Trong thời đại này, nó đã nhận được nhiều nhận

thức của các nhà nghiên cứu Trong hình ảnh các phân vùng của hình ảnh vào đôi

Trang 13

tượng va nên là một bước nghiêm trọng Trong bối cảnh này, việc phát hiện biên là

một công cụ cơ bản dé phân vùng ảnh Trong phan nay nghiên cứu việc thực hiện

thường được sử dụng hầu hết các kỹ thuật phát hiện biên cho phân vùng ảnh và

cũng là so sánh các kỹ thuật này được thực hiện với một thử nghiệm bằng cách sử

dụng trên MATLAB [9].

2.3.1.2 Phương pháp phát hiện biên Canny

a) Cac bước thực hiện

Thuật toán được tiền hành qua 5 bước riêng biệt sau:

Bước 1: Giảm nhiễu: làm trơn anh dé loại bỏ nhiễu bằng cách nhân chập

ảnh với bộ lọc Gauss.

Bước 2: Tìm gradient: Tính toán góc và chiều dài của gradient Biên nên được đánh dấu nơi mà gradient của ảnh có chiều đài lớn.

Bước 3: Thực hiện “Non-maximum suppression”: Chỉ cực đại cục bộ

những điểm được đánh dấu là biên (có mức xám cao).

Bước 4: Sử dụng ngưỡng đôi: Những biên tiềm năng được xác định bởi

ngưỡng cao và ngưỡng thấp.

Bước 5: Dò biên với Hysteresis (Edge tracking by hysteresis): Những

cạnh biên cuối cùng sẽ được xác định bằng việc loại bỏ tất cả các cạnh biên không nối liền với những cạnh biên rõ ràng (mạnh nhất).

Miéu tả các bước thực hiện

Bước 1: Giảm nhiễu

Đây là điều không thẻ tránh khỏi vì tất cả các hình ảnh chụp từ máy quay sẽ

chứa một sô nhiêu Dé ngăn nhâm lân nhiêu với các biên, nhiêu phải được giảm bớt. Do đó ảnh trước tiên được làm mịn bằng cách áp dụng một bộ lọc Gauss Cách thức

tiến hành giống như ở Laplace of Gauss [11].

Nhân của bộ lọc Gauss với độ lệch chuẩn o = 1,4 được thé hiện trong phương trình sau (ở đây ta sử dụng một bộ lọc 5 x 5) được thé hiện trong 2.7 [11].

Trang 14

- Bước 2: Tim Gradient

Các thuật toán Canny về cơ bản tìm thấy các biên nơi mà cường độ mức xám của hình ảnh thay đổi nhiều nhất Những vùng này được tìm thấy bằng cách xác định gradient của ảnh Gradient tại mỗi điểm ảnh trong ảnh được làm mịn được xác định bằng cách áp dụng những phướng pháp dựa theo toán tử Sobel Bước đầu tiên là đạo hàm các kết quả ở bước | theo hướng x và y với mặt na 3x3 được thể hiện

Các biên độ gradient (còn được gọi là những cường độ biên) sau đó có thể được xác định như là một thước đo khoảng cách Euclide băng cách áp dụng luật của

Pythagoras như trong phương trình sau:

Đôi khi nó được đơn giản hóa bằng cách áp dụng thước đo khoảng cách Manhattan dé giảm bớt sự phức tap tính toán:

|ơ|=|đx|+|G| (2.10)

Trong đó G, và G, là Gradient theo 2 hướng x và y tương ứng và hướng củabiên 6 như sau:

Trang 15

9 = arctan

- Bước 3: Thực hiện “Non-maximum suppression”

Tiến hành “Non-maximum suppression” Tức là loại bỏ một số biên dư thừa: Đối với mỗi điểm ảnh trên anh S’ ta tiến hành so sánh giá trị của điểm đó với giá tri của hai điểm lân cận điểm đó [11].

Hai điểm lân cận này là hai điểm nằm trên đường thắng chứa hướng của

đường biên 0 (công thứ tính hướng của đường biên Ô được tính ở bước 2) Giả sử

với điêm biên đang xét tại vi trí P(x, y), ta có 8 diém biên lân cận điêm biên này:

Hình 2.2: Mô tả các điểm biên lân cận của P [11]

Tại điểm biên đó ta tiến hành tính giá trị góc của hướng đường biên 9 Nếu

hướng của đường biên 8 < 22.50 hoặc 8 > 157.50 thì đặt giá tri cua 6 = 00 khi đó hai

điểm biên lân cận điểm biên này tại vi trí (x-1, y) và (x+1, y).

Tương tự ta có kết quả hai điểm biên lân cận theo các hướng biên khác nhau

như bảng dưới đây:

Giá trị 9 Phương hướng Điểm ảnh

0<22,5) hoặc Ø>157,5 ø=0 (x-1, y); (x+1, y)

Trang 16

22,5" < ø < 61,5 0 = 45° (x-1, y-1); (x+1, y+1)

67,5° < ø < 112,5 Ø = 90° (x-1, y-1); (x+1, y-1)

112,5° < @ < 157,5 6 = 135 (x, y+1); (x, y-1)

Nếu điểm anh P(x, y) có cường độ gradient lớn nhất trong ba điểm ảnh kiểm

tra thì được giữ lại điểm biên này Nếu một trong hai điểm ảnh khác có cường độ gradient cao hơn thì điểm ảnh P(x, y) này không có trong "trung tâm" của biên va

không nên được phân loại như là một điểm biên (tức là loại đi — cho giá trị điểm này

- - Bước 4: Ngưỡng đôi

Các điểm biên còn lại sau khi thực hiện “Non-maximum suppression” van

được đánh dấu với cường độ pixel-by-pixel của chúng Nhiều điểm trong số điểm

biên này có lẽ sẽ là biên đúng trong ảnh, nhưng một số có thê được gây ra bởi biến

đổi nhiễu hay màu sắc do bề mặt thô ráp Cách đơn giản nhất dé phân biệt những

điểm biên này với nhau là sử dụng một ngưỡng, vì vậy chỉ có biên mạnh hơn một giá tri nhất định sẽ được bảo toan.

Thuật toán phương pháp phát hiện biên Canny sử dụng ngưỡng đôi: ngưỡng

thấp T¡ và ngưỡng cao Tị: - _ Xét điểm ảnh P(x.y)

- So sánh P(x,y) với hai ngưỡng Thụ va Tì.

“ Nếu P(x,y) > Tị: đánh dấu và giữ lại điểm biên này (đặt giá trị bang 1).

= Nếu P(x,y) <T¡: Loại bỏ điểm biên này (đặt giá trị bang 0).

= Nếu T, <P(x,y) < Ty: ta tiến hành so sánh giá trị P(x,y) với giá trị của

các của 8 điêm lân cận :

= Nếu một trong 8 điểm lân cận có giá trị > Tị: Tiến hành đánh dấu va giữ lại điểm biên này.

- _ Ngược lại: Loại bỏ điểm biên này (đặt giá trị bang 0).

-_ Bước 5: Dò biên với Hysteresis (Edge tracking by hysteresis)

Tiêu đề	Phát hiện chữ trong ảnh
Tác giả	Dang Tran Long
Người hướng dẫn	TS. Nguyễn Đức Dũng
Trường học	Học viện Công nghệ Bưu chính Viễn Thông
Chuyên ngành	Hệ thống thông tin
Thể loại	luận văn

Định dạng
Số trang	32
Dung lượng	7,21 MB