Ảnh là phương tiện truyền tải thông tin có ý nghĩa vô cùng lớn trong cuộc sống. Ảnh truyền tải trong môi trường World Wide Web hiện nay được sử dụng khá nhiều, tồn tại ở nhiều dạng khác nhau và vô cùng phong phú. Một yêu cầu đặt ra là tìm kiếm, phân loại, cũng như xác định nội dung ảnh muốn truyền tải điều gì đang là vấn đề cấp thiết hiện nay. Ta có thể kể ra một số ứng dụng như thế như tìm kiếm ảnh theo nội dung trong môi trường World Wide Web hay lọc spam ảnh…vv. Ảnh thường được nhúng kèm theo text trong nó và những text này thường quyết định đến nội dung ảnh muốn truyền tải. Tất cả các ứng dụng kể trên như lọc spam ảnh hay tìm kiếm ảnh trên web…vv đều sử dụng đến đặc tính text kèm theo ảnh để giải quyết. Và như thế bài toán tách chữ nhúng trong ảnh được quan tâm. Đã có rất nhiều phương pháp được đưa ra, tuy nhiên do dữ liệu ảnh là quá phong phú và text nhúng kèm theo nó cũng rất phức tạp như kích cỡ, màu, chiều của chữ…Nên mỗi phương pháp đều có sự hạn chế riêng và đây vẫn là một bài toán mở đang được nhiều người quan tâm. Xuất phát từ thực tế đó, mục tiêu của đồ án này là nghiên cứu phương pháp xác định vùng chứa chữ nhúng trong ảnh có độ chính xác cao đồng thời là tiền đề cho việc lọc spam ảnh. Với mục tiêu đó, đồ án được thực hiện dựa trên phương pháp nghiên cứu: trước hết là ảnh đầu vào được thực hiện giảm màu (color reduction) bao gồm cả giảm bit (drop bit) gộp màu và phân tích ảnh có nhiều giá trị, sau đó được phân tích thành nhiều ảnh tiền cảnh (foreground image). Những ảnh tiền cảnh được tập hợp để nhận dạng vị trí của text trong ảnh đầu vào . Xác định vùng chứa chữ được thể hiện giống các toạ độ hộp ranh giới của nó. Nội dung của đồ án được chia thành 4 phần, ở đó, chương 1 và chương 2 sẽ trình bày các kiến thức cơ bản cho cách tiếp cận ở chương 3 và chương 4. Bố cục chi tiết của đồ án như sau : Chương 1 : “Tổng quan về xử lý ảnh” : Chương này trình bày tổng quan về một hệ thống xử lý ảnh,và các vấn đề liên quan. Chương 2 : “Các phương pháp xác định vùng chứa chữ trong ảnh” : Chương này sẽ trình bày về các phương pháp xác định vùng chứa chữ trong ảnh hiện có, đưa ra phương pháp phân loại mới và phân tích tính chính xác và hiệu năng của mỗi phương pháp. Chương 3 : “Xác định vùng chứa chữ trong ảnh thông thường và ảnh video” : Đây là chương quan trọng nhất của đồ án vì nó sẽ nêu lên một phương pháp Xác định vùng chứa chữ trong ảnh dựa trên các đặc trưng về thành phần của ảnh. Chương 4 : “Thử nghiệm và kết quả” : Chương 4 sẽ trình bày chi tiết quá trình thực hiện, đưa ra các con số thống kê về độ chính xác của phương pháp.
Trang 1ĐỒ ÁN TỐT NGHIỆP CHƯƠNG 1: TỔNG QUAN VỀ XỬ LÝ ẢNH
MỤC LỤC
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT 0
LỜI NÓI ĐẦU 1
Chương 1: TỔNG QUAN VỀ XỬ LÝ ẢNH 3
1.1.TỔNG QUAN VỀ MỘT HỆ THỐNG XỬ LÝ ẢNH 3
1.2 CÁC VẤN ĐỀ CƠ BẢN TRONG XỬ LÝ ẢNH 5
1.2.1 Một số khái niệm 6
1.2.2 Biểu diễn ảnh 7
1.2.3.Tăng cường ảnh - khôi phục ảnh 7
1.2.4.Biến đổi ảnh 8
1.2.5.Phân tích ảnh 9
1.2.6.Nhận dạng ảnh 10
1.2.7.Nén ảnh 10
1.3 KẾT LUẬN 10
Chương 2: CÁC PHƯƠNG PHÁP XÁC ĐỊNH VÙNG CHỨA CHỮ TRONG ẢNH 0
2.1 GIỚI THIỆU 0
2.2 THẾ NÀO LÀ MỘT HỆ THỐNG TIE 0
2.3 CÁC PHƯƠNG PHÁP XÁC ĐỊNH VÙNG CHỨA CHỮ TRONG ẢNH 1
2.3.1 Xác định vùng chứa chữ trong ảnh dựa trên đặc chưng về kết cấu .1
2.3.1.1 Đặc trưng về kết cấu: 1
2.3.1.2 Một số phương pháp được đề xuất: 1
2.3.2 Phương pháp xác định vùng chứa chữ dựa trên đặc chưng về vùng ảnh 3
2.3.2.1 Dựa trên vùng ảnh 3
2.3.2.2 Dựa trên biên ảnh 3
2.4 KẾTLUẬN 6
Trang 2ĐỒ ÁN TỐT NGHIỆP CHƯƠNG 1: TỔNG QUAN VỀ XỬ LÝ ẢNH
Chương 3: XÁC ĐỊNH VÙNG CHỨA CHỮ TRONG ẢNH THÔNG
THƯỜNG VÀ ẢNH VIDEO 6
3.1 ĐẶT VẤN ĐỀ 6
3.2 GIỚI THIỆU 7
3.3 CÁC ỨNG DỤNG 11
3.3.1 Chuyển các quảng cáo đã phân loại thành báo 11
3.3.2 Tìm kiếm Web 11
3.3.3 Cơ sở dữ liệu ảnh màu 14
3.3.4 Chú thích video 14
3.3.5 Tóm tắt 15
3.4 PHÂN CHIA ẢNH ĐA GIÁ TRỊ 16
3.4.1 Ảnh nhị phân 20
3.4.2 Ảnh màu giả 20
3.4.3 Ảnh màu và khung video 22
3.5 THỰC HIỆN LIÊN KẾT CÁC THÀNH PHẦN 23
3.6 XÁC ĐỊNH VÙNG CHỨA CHỮ 26
3.6.1 Đặc trưng của thành phần tương kết 27
3.6.2 Đặc trưng hình chiếu 27
3.6.3 Kết cấu text 28
3.7 KẾT LUẬN 28
Chương 4: THỰC NGHIỆM VÀ KẾT QUẢ 29
4.1 KẾT QUẢ THỰC NGHIỆM 29
4.1.1 Ảnh quảng cáo 29
4.1.2 Ảnh Web 30
4.1.3 Ảnh màu quét 30
4.1.4 Khung video 30
4.2 KẾT LUẬN 37
KẾT LUẬN 38
TÀI LIỆU THAM KHẢO 39
Trang 3ĐỒ ÁN TỐT NGHIỆP CHƯƠNG 1: TỔNG QUAN VỀ XỬ LÝ ẢNH
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
TIE Text information extraction : Vấn đề tách thông tin về chữ
FI Foreground Identification : Xác định tiền cảnh
BAG Blog Adjacency Graph : Đồ thị khối liền kề
OCR Optical Character Recognization : Hệ thống nhận dạng ký tự quang
học
Trang 4ĐỒ ÁN TỐT NGHIỆP CHƯƠNG 1: TỔNG QUAN VỀ XỬ LÝ ẢNH
DANH MỤC HÌNH VẼ
Hình 1.1a Các giai đoạn chính trong xử lý ảnh 3
Hình 1.1.b Các thành phần chính của hệ thống xử lý ảnh 5
Hình 1.3 ảnh biến dạng do nhiễu 7
Hình 2.1: Ảnh tài liệu đen trắng:a, chữ trong ảnh một trang báo.b, chữ trong ảnh của hai trang và c là chữ trong bản vẽ kỹ thuật 0
Hình 2.2: Ảnh tài liệu nhiều vào Mỗi dòng chữ có thể cùng màu hoặc không cùng màu 0
Hình 2.3: Ảnh trong video với phụ đề là text.a, phụ đề nằm trực tiếp trên nền ảnh b,và c, phụ đề nằm trên nên ảnh với độ tương phản cao hơn và c, phụ đề nằm trên nền ảnh với nhiều màu sắc 0
Hình 2.4: Ảnh phong cảnh với rất nhiều chữ tự nhiên nhúng trong nó 0
Hình 2.5: Kiến trúc của hệ thống TIE 1
Hình 2.6 Một ví dụ về phương pháp dựa trên kết cấu 3
Hình 3.1: Một phần của trang Web 9
Hình 3.2: Mã nguồn của trang Web trong hình 3.1 9
Hình 3.3: xác định vùng chứa chữ bằng phân tích kết cầu 10
Hình 3.4: Phương pháp xác định vùng chứa chữ sử dụng cách thức phân tích hình khối .13
Hình 3.5: Phân tích ảnh Web của hình 3.4 35
Hình 3.6: hệ thống xác định vùng chứa chữ tự động 16
Hình 3.7 (b) miêu tả 9 ảnh thành phần của ảnh có nhiều giá trị thể hiện trong hình 3.7 (a) có U = 9 giá trị ảnh khác nhau 17
Hình 3.8: Text: (a) text tiền cảnh thực (real foreground); (b) text tiền cảnh bổ sung nền (background-complementary foreground) 17
Hình 3.9: Ảnh tiền cảnh của ảnh có nhiều giá trị trong hình 3.7 (a): (a) ảnh tiền cảnh thực (real foreground image); (b) ảnh tiền cảnh bổ sung nền (background-complementary foreground image) 18
Hình 3.10: Biểu đồ ảnh có nhiều giá trị thể hiện trong hình 3.4 (c) 20
Hình 3.11 Trích tiền cảnh từ khung video có đầy đủ màu: 21
Trang 5ĐỒ ÁN TỐT NGHIỆP CHƯƠNG 1: TỔNG QUAN VỀ XỬ LÝ ẢNH
Hình 3.12: Các nguyên mẫu màu 22
Hình 3.13: Ảnh nhị phân và BAG của nó 23
Hình 3.14: thuật toán thế hệ BAG một chiều đối với các ảnh có nhiều giá trị .25
Hình 3.15: Phân tích thành phần liên kết cho ảnh tiền cảnh trong hình 3.11 25
Hình 3.16: Các ký tự trong dòng text: 26
Hình 3.17: Kết cấu text: (a) dòng text trích từ ảnh tiền cảnh hình 3.5 (b); (b) dòng text trích từ ảnh tiền cảnh hình 3.5 (g); (c) kết quả tổng hợp 28
Hình 4.1 Xác định các dòng chữ trong ảnh quảng cáo 31
Hình 4.2: Xác định vùng chứa chữ trên ảnh web 32
Hình 4.3 Xác định vùng chứa chữ trong ảnh màu 33
Hình 4.4: Xác định vùng chứa chữ trong ảnh phức tạp cho kết quả sai 34
Hình 4.5 Video frame với phân giải thấp 35
Hình 4.6 Video frame bao gồm cả chữ thường và chữ hoa 35
Hình 4.7 video frame với text trong cửa sổ con 35
Hình 4.8 video frame với độ phân giải cao 36
Hình 4.9: Các khung video có text trong cửa sổ phụ 36
Trang 6ĐỒ ÁN TỐT NGHIỆP LỜI MỞ ĐẦU
LỜI MỞ ĐẦU
Ảnh là phương tiện truyền tải thông tin có ý nghĩa vô cùng lớn trong cuộcsống Ảnh truyền tải trong môi trường World Wide Web hiện nay được sử dụng khánhiều, tồn tại ở nhiều dạng khác nhau và vô cùng phong phú Một yêu cầu đặt ra làtìm kiếm, phân loại, cũng như xác định nội dung ảnh muốn truyền tải điều gì đang
là vấn đề cấp thiết hiện nay Ta có thể kể ra một số ứng dụng như thế như tìm kiếmảnh theo nội dung trong môi trường World Wide Web hay lọc spam ảnh…vv Ảnhthường được nhúng kèm theo text trong nó và những text này thường quyết địnhđến nội dung ảnh muốn truyền tải Tất cả các ứng dụng kể trên như lọc spam ảnhhay tìm kiếm ảnh trên web…vv đều sử dụng đến đặc tính text kèm theo ảnh để giảiquyết Và như thế bài toán tách chữ nhúng trong ảnh được quan tâm Đã có rấtnhiều phương pháp được đưa ra, tuy nhiên do dữ liệu ảnh là quá phong phú và textnhúng kèm theo nó cũng rất phức tạp như kích cỡ, màu, chiều của chữ…Nên mỗiphương pháp đều có sự hạn chế riêng và đây vẫn là một bài toán mở đang đượcnhiều người quan tâm
Xuất phát từ thực tế đó, mục tiêu của đồ án này là nghiên cứu phương pháp
xác định vùng chứa chữ nhúng trong ảnh có độ chính xác cao đồng thời là tiền đềcho việc lọc spam ảnh
Với mục tiêu đó, đồ án được thực hiện dựa trên phương pháp nghiên cứu: trước hết là ảnh đầu vào được thực hiện giảm màu (color reduction) bao gồm
cả giảm bit (drop bit) gộp màu và phân tích ảnh có nhiều giá trị, sau đó được phântích thành nhiều ảnh tiền cảnh (foreground image) Những ảnh tiền cảnh được tậphợp để nhận dạng vị trí của text trong ảnh đầu vào Xác định vùng chứa chữ đượcthể hiện giống các toạ độ hộp ranh giới của nó
Nội dung của đồ án được chia thành 4 phần, ở đó, chương 1 và chương 2 sẽ
trình bày các kiến thức cơ bản cho cách tiếp cận ở chương 3 và chương 4
Bố cục chi tiết của đồ án như sau :
Trang 7ĐỒ ÁN TỐT NGHIỆP LỜI MỞ ĐẦU
Chương 1 : “Tổng quan về xử lý ảnh” : Chương này trình bày tổng quan vềmột hệ thống xử lý ảnh,và các vấn đề liên quan
Chương 2 : “Các phương pháp xác định vùng chứa chữ trong ảnh” : Chươngnày sẽ trình bày về các phương pháp xác định vùng chứa chữ trong ảnh hiện có, đưa
ra phương pháp phân loại mới và phân tích tính chính xác và hiệu năng của mỗiphương pháp
Chương 3 : “Xác định vùng chứa chữ trong ảnh thông thường và ảnh video” :Đây là chương quan trọng nhất của đồ án vì nó sẽ nêu lên một phương pháp Xácđịnh vùng chứa chữ trong ảnh dựa trên các đặc trưng về thành phần của ảnh
Chương 4 : “Thử nghiệm và kết quả” : Chương 4 sẽ trình bày chi tiết quátrình thực hiện, đưa ra các con số thống kê về độ chính xác của phương pháp
Trang 8ĐỒ ÁN TỐT NGHIỆP LỜI MỞ ĐẦU
ƠChương 1 TỔNG QUAN VỀ XỬ LÝ ẢNH
Xử lý ảnh là một ngành khoa học còn khác mới và có rất nhiều ứng dụng Trong chương 1 đồ án sẽ trình bày một cách tổng quan về xử lý ảnh, các vấn đề liênquan và các khái niệm cơ bản nhất trong khoa học xử lý ảnh
1.1 TỔNG QUAN VỀ MỘT HỆ THỐNG XỬ LÝ ẢNH
Xử lý ảnh là khoa học còn tương đối mới mẻ so với nhiều ngành khoa họckhác nhất là trên quy mô công nghiệp, song trong xử lý ảnh đã bắt đầu xuất hiệnnhững máy tính chuyên dụng Để có thể hình dung cấu hình của một hệ thống xử lýảnh chuyên dụng hay một hệ thống xử lý ảnh dùng trong nghiên cứu, đào tạo, trướchết chúng ta sẽ xem xét các bước cần thiết trong xử lý ảnh
Trước hết là quá trình thu nhận ảnh Ảnh có thể thu được qua camera.Thường ảnh thu được qua camera là tín hiệu tương tự(loại camera ống kiểu CCIR),nhưng cũng có thể là tín hiệu số hoá(loại CCD-charge couped device)
Lưu trữ
Hình 1.1a Các giai đoạn chính trong xử lý ảnh
Ảnh cũng có thể thu nhận từ vệ tinh qua các bộ cảm ứng(sensor), hay ảnh,tranh được quét trên scanner Tiếp theo là quá trình số hoá (Digitalizer) để biến đổitín hiệu tương tự sang tín hiệu rời rạc (lấy mẫu) và số hoá bằng lượng hoá trước khichuyển sang giai đoạn xử lý, phân tích hay lưu trữ lại
SENSOR
Hệ Q.định
1
Trang 9ĐỒ ÁN TỐT NGHIỆP LỜI MỞ ĐẦU
Quá trình phân tích ảnh thực chất bao gồm nhiều công đoạn nhỏ Trước hết
là công việc tăng cường ảnh để nâng cao chất lượng ảnh Do những nguyên nhânkhác nhau: có thể do chất lượng các thiết bị thu nhận ảnh, do nguồn sang hay donhiễu ảnh có thể bị suy biến Do vậy phải tăng cường và khôi phục lại ảnh để làmnổi bật một số đặc tính chính của ảnh, hay làm cho ảnh gần giống với trạng tháigốc- trạng thái trước khi bị biến dạng Giai đoạn tiếp theo là xác định các đặc tínhnhư biên, phân vùng ảnh, trích chọn các đặc tính, …vv
Cuối cùng tuỳ vào mục đích của ứng dụng, sẽ là giai đoạn nhận dạng, phânlớp hay các quyết định khác Các giai đoạn chính của quá trình xử lý ảnh có thể mô
Bộ xử lý tương tự (analog processor) bộ phận này thực hiện các chức năng sau:
- Chọn camera thích hợp nếu hệ thống có nhiều camera
- Chọn màu hiển thị tín hiệu
- Thu nhận tín hiệu video thu nhận bởi bộ số hoá (digitalizer) Thực hiện lấymẫu và mã hoá
- Tiền xử lý ảnh khi thu nhận: dung kỹ thuật bảng tra (Look Up Table LUT)
Trang 10ĐỒ ÁN TỐT NGHIỆP LỜI MỞ ĐẦU
Hình 1.1.b Các thành phần chính của hệ thống xử lý ảnh
Bộ xử lý ảnh số: gồm nhiều bộ xử lý chuyên dụng: xử lý lọc, trích chọnđường bao, nhị phân hoá ảnh Các bộ xử lý này làm việc với tốc độ 1/25 giây
Máy chủ : đóng vai trò điều khiển các thành phần miêu tả ở trên
Bộ nhớ ngoài: Dữ liệu ảnh cũng như các dữ liệu khác, để có thể chuyển giaocho các quá trình khác, nó cần được lưu trữ Để có một ước lượng, xét ví dụ sau:một ảnh đen trắng cỡ 512 x 512 với 256 mức xám chiếm 256 k bytes Với một ảnhmàu cùng kích thước dung lượng sẽ tăng gấp 3 lần
1.2 CÁC VẤN ĐỀ CƠ BẢN TRONG XỬ LÝ ẢNH
Như đã đề cập trong phần giới thiệu, chúng ta đã thấy được một cách tổngquát các vấn đề chính trong xử lý ảnh Để hiểu chi tiết hơn, trước tiên ta xem xét haikhái niệm (thuật ngữ) thường dung trong xử lý ảnh: đó là pixel (phần tử ảnh) vàgray level (mức xám), tiếp theo là tóm tắt các vấn đề chính
Màn hình
đồ họa
Bộ xử lý tương tự
Máy chủBộ
nhớ ngoài
Bộ xử lý ảnh số
1
Trang 11ĐỒ ÁN TỐT NGHIỆP LỜI MỞ ĐẦU
1.2.1 Một số khái niệm
Pixel (picture element) phần tử ảnh
Ảnh trong thực tế là một ảnh liên tục về không gian và về giá trị độ sang Để
có thể xử lý ảnh bằng máy tính cần thiết phải tiến hành số hoá ảnh Trong quá trình
số hoá, người ta biến đổi tín hiệu liên tục dạng tín hiệu rời rạc thong qua quá trìnhlấy mẫu ( rời rạc hoá về không gian) và lượng hoá thành phần giá trị mà vì thế vềnguyên tắc bằng mắt thường không phân biệt được hai điểm kề nhau Trong quátrình này người ta sử dụng khái niệm picture element mà ta quen gọi hay viết tắt làpixel - phần tử ảnh Ở đây cũng cần phân biệt khái niêm pixel hay đề cập đến trong
kỹ thuật đồ hoạ máy tính Để tránh nhầm lẫn ta tạm gọi pixel này là pixel của thiết
bị Khái niệm pixel thiết bị có thể xem xét như sau: Khi ta quan sát màn hình trongchế độ đồ hoạ, màn hình không liên tục mà gồm nhiều điểm nhỏ gọi là pixel Mỗipixel gồm một cặp toạ độ x,y và màu
Cặp toạ độ x,y tạo nên độ phân giải ( resolution ) Như màu màn hình máytính có nhiều loại với độ phân giải khác nhau: như màn hình CGA với độ phân giải
là 320 x 200, màn hình VGA là 640 x 350,…
Như vậy một ảnh là tập hợp các điểm ảnh Khi được số hoá nó, nó thường đượcbiểu diễn bởi mảng hai chiều I(n,p): n là biểu thị số dòng, p là biểu thị cột Nói cáchkhác ảnh gồm n x p pixels Người ta thường ký hiệu I(x,y) để chỉ một pixel Thườngmột giá trị của n chọn bằng p và bằng 256 Hình 1.2 cho thấy việc biểu diễn ảnh với
độ phân giải khác nhau Một pixel có thể lưư trữ trên 1,2,4 hay 24 bit
Gray level: Mức xám.
Mức xám là kết quả sự mã hoá tương ứng một cường độ sáng của mỗi điểmảnh với một giá trị số-kết quả của quá trình lượng hoá Cách mã hoá kinh điểnthường dung 16,32,64 mức Mã hoá 256 mức là mức phổ dụng do lý do kỹ thuật Vì
28 = 256( 0,1,2…255) nên với 256 mức mỗi pixel sẽ được mã hoá bởi 8 bit
Trang 12ĐỒ ÁN TỐT NGHIỆP LỜI MỞ ĐẦU
1.2.2 Biểu diễn ảnh
Trong biểu diễn ảnh người ta thường dung các phần tử đăc chưng của ảnh làpixel Nhìn chung có thể xem một hàm hai biến chứa các thôg tin như biểu diễn củamột ảnh Các mô hình biểu diễn ảnh cho ta một mô tả logic hay định lượng các tínhchất của hàm này Trong biểu diễn ảnh cần chú ý đến tính trung thực của ảnh hoặccác tiêu chuẩn thong minh để đo chất lượng ảnh hoặc tính hiệu quả của các kỹ thuật
xử lý
Việc xử lý ảnh số yêu cầu ảnh phải được mẫu hoá và lượng tử hoá Thí dụmột ảnh ma trận 512 dòng gồm khoảng 512 x 512 pixel Việc lượng tử hoá ảnh làchuyển đổi tín hiệu tương tự sang tín hiệu số (analog digital convert) của một ảnh
đã lấy mẫu sang một số hữu hạn mức xám
Một số mô hình thường được dung trong biểu diễn ảnh: mô hình toán học,
mô hình thống kê Trong mô hình toán ảnh hai chiều được biểu diễn nhờ các hàmhai biến trực giao gọi là các hàm cơ sở Với mô hình thống kê một ảnh được coi nhưmột phần tử của một tập hợp đặc chưng bởi các đại lượng như: Kỳ vọng toán học,hiệp biến, phương sai, moment…
1.2.3 Tăng cường ảnh - khôi phục ảnh
Tăng cường ảnh là bước quan trọng tạo tiền đề cho xử lý ảnh Nó gồm mộtloạt các kỹ thuật như: lọc độ tương phản, khử nhiễu, nổi màu…
hệ thống thu nhận
1
Trang 13ĐỒ ÁN TỐT NGHIỆP LỜI MỞ ĐẦU
- η(x,y) là hàm biểu diễn nhiễu cộng
- F(α,β) là hàm biểu diễn đối tượng.) là hàm biểu diễn đối tượng
- G(x,y) là ảnh thu nhận
- H((x,y),(α,β) là hàm biểu diễn đối tượng.)) là hàm tán xạ điểm (Point Spread Function)
Một vấn đề khôi phục ảnh tiêu biểu là tìm một xấp xỉ của f(α,β) là hàm biểu diễn đối tượng.) khi PSF của nó
có thể đo lường hay quan sát được, ảnh mờ và có tính chất xác xuất của quá trình nhiễu
1.2.4 Biến đổi ảnh
Thuật ngữ biến đổi ảnh (Image Transform) thường dùng để nói tới một lớpcác ma trận đơn vị và các kỹ thuật dung để biến đổi ảnh Cũng như các tín hiệu mộtchiều được biểu diễn bởi một chuỗi các hàm cơ sở, ảnh cũng có thể được biểu diễn bởimột chuỗi rời rạc các ma trận cơ sở gọi là ảnh cơ sở Phương trình ảnh cơ sở có dạng:
A*k,l = ak al*TVới ak là cột thứ k của ma trận A, A là ma trận đơn vị Có nghĩa là
A A*T = I Các A*k,l định nghĩa ở trên với k,l = 0,1,2…N-1 là ảnh cơ sở Có nhiềuloại biến đổi được dùng như :
- Biến đổi Fourier, Sin, Cosin, Hadamard,…
Trang 14ĐỒ ÁN TỐT NGHIỆP LỜI MỞ ĐẦU
(*) Trong xử lý ảnh, việc phân tích có thể được đơn giản đi khá nhiều do làmviệc với ma trận khối gọi là tích Kronecker
Ma trận khối là ma trận mà các phần tử của nó là một ma trận
V ới A i,j là ma trận m x n ; i = 1,2,3,…m; v à j = 1,2,3,…n M 1 x M 2
Tích Kronecker
Cho A là ma trận kích thước và B là ma trận kích thước N 1 x N 2
Tích Kronecker của A và B ký hiệu là A B là ma trận khối được định nghĩa
2 1
Phân tích ảnh liên quan đến việc xác định các độ đo định lượng của một ảnh
để đưa ra một mô tả đầy đủ về ảnh Các kỹ thuật được sử dụng ở đây nhằm mụcđích xác định biên của ảnh Có nhiều kỹ thuật khác nhau như lọc vi phân hay dòtheo quy hoạch động Vấn đề xác định biên cùng các kỹ thuật liên quan sẽ đượctrình bày chi tiết
Người ta cũng dung các kỹ thuật để phân vùng ảnh Từ ảnh thu được, người
ta tiến hành kỹ thuật tách ( split) hay hợp ( fusion) dựa theo các tiêu chuẩn đánh giánhư màu sắc cường độ…Các phương pháp được biết đến như Quad-tree, mảnh hoábiên, nhị phân hoá đường biên Cuối cùng phải kể đến kỹ thuật phân lớp dựa theocấu trúc
Trang 15ĐỒ ÁN TỐT NGHIỆP LỜI MỞ ĐẦU
1.2.6 Nhận dạng ảnh
Nhận dạng ảnh là quá trình liên quan đến các mô tả đối tượng mà người tamuốn đặc tả nó Quá trình nhận dạng thường đi sau quá trình trích chọn các đặc tínhchủ yếu của đôi tượng
Có hai kiểu mô tả đối tượng:
- Mô tả tham số ( nhận dạng theo tham số)
- Mô tả theo cấu trúc ( nhận dạng theo cấu trúc)
Trên thực tế, người ta đã áp dụng kỹ thuật nhận dạng khá thành công vớinhiều đối tượng khác nhau như: nhận dạng ảnh vân tay, nhận dạng chữ ( chữ cái,chữ số, chữ có dấu)
Nhận dạng chữ in hoặc đánh máy phục vụ cho việc tự động hoá quá trình đọctài liệu, tăng nhanh tốc độ và chất lượng thu nhận thông tin từ máy tính
Nhận dạng chữ viết tay ( với mức độ rang buộc khác nhau về cách viết, kiểuchữ…) phục vụ cho nhiều lĩnh vực
Ngoài hai kỹ thuật nhận dạng trên, hiện nay một kỹ thuật nhận dạng mới dựavào kỹ thuật nhận dạng mạng nơ ron đang được áp dụng và cho kỹ thuật khả quan
1.2.7 Nén ảnh
Dữ liệu ảnh cũng như các dữ liệu khác cần phải được truyền đi hay lưu trữtrên mạng Như đã nói ở trên lượng thông tin để biểu diễn cho một ảnh là rất lớn.Trong phần 1.1 chúng ta đã thấy một ảnh đen trắng cỡ 512 x 512 với 256 mức xámchiếm 256 kbs Do đó làm giảm lượng thong tin hay nén dữ liệu là một nhu cầu cầnthiết Nhiều phương pháp nén dữ liệu đã được nghiên cứu và áp dụng cho loại dữliệu đặc biệt này
1.3 KẾT LUẬN
Như vậy các vấn đề cơ bản nhất liên quan đến xử lý ảnh đã được trình bàychi tiết ở chương 1 Những vấn đề cơ bản và chung đó sẽ là tiền đề cho chúng tathực hiện nghiên cứu sâu hơn về vấn đề tách chữ nhúng trong ảnh
Trang 16ĐỒ ÁN TỐT NGHIỆP Chương 2: CÁC PHƯƠNG PHÁP XÁC ĐỊNH VÙNG
CHỨA CHỮ TRONG ẢNH
Chương 2 CÁC PHƯƠNG PHÁP XÁC ĐỊNH VÙNG CHỨA CHỮ TRONG ẢNH
Chương 1 đồ án đã trình bày một cách tổng quan nhất về xử lý ảnh Tiếp theo trong chương này đồ án sẽ trình bày mô hình của hệ thống tách thông tin về chữ nhúng trong ảnh TIE (Text Information Extraction) và một số phương pháp thường sử dụng trong việc xác định vùng chứa chữ trong ảnh
2.1 GIỚI THIỆU
Dữ liệu text được trình bày trong ảnh và video bao gồm những thông tin hữudụng cho việc cấu trúc chỉ mục và đánh chỉ mục cho ảnh Việc tách thông tin nàybao gồm dò tìm xác định theo dõi tách làm nổi và xác nhận vùng text chứa trongảnh Tuy nhiên một vài text có sự khác nhau về kích cỡ về hướng cũng như về kiểuchữ, cũng như ảnh có độ tương phản thấp và nền phức tạp làm cho vấn đề tách texttrong ảnh trở lên rất khó khăn Trong khi rất nhiều vấn đề liên quan như nhận dạngmặt người, phân tích tài liệu và index của ảnh và video có thể dễ dàng được tìmthấy thì vấn đề nhận dạng thông tin chữ nhúng trong ảnh không được nghiên cứunhiều Có một số công nghệ được đề xuất để giải quyết vấn đề Một trong số đóđược tôi thực hiện và giải quyết thành công cho bài toán này
Nội dung ảnh có thể được chia thành hai mục chính: nội dung trực giác vànội dung ngữ nghĩa Nội dung trực giác bao gồm các thuộc tính như : màu cường độhình thù Trong khi đó nội dung ngữ nghĩa là các đối tượng sự kiện liên quan đếnchúng Có rất nhiều cách tiếp cận cho việc tách thông tin về text(TIE) từ ảnh vàvideo đã được đề xuất Mặc dù có nhiều như vậy nhưng cũng không dễ dàng để đưa
ra một mô hình hệ thống TIE thông thường Bởi vì có rất nhiều dữ liệu có thể thayđổi khi tách chữ từ những ảnh phức tạp, từ những ảnh có độ tương phản thấp hoặc
từ những ảnh có sự khác nhau về kích cỡ, về kiểu, màu về hướng, và định dạng.Những vấn đề này làm cho vấn đề tách chữ trong ảnh trở lên rất khó khăn
Trang 17ĐỒ ÁN TỐT NGHIỆP Chương 2: CÁC PHƯƠNG PHÁP XÁC ĐỊNH VÙNG
CHỨA CHỮ TRONG ẢNH
Hình vẽ dưới đây đưa ra một vài ví dụ về text nhúng trong ảnh Hình một cho tamột ví dụ về ảnh tài liệu Ảnh dạng này có thể thu được bằng cách scan những trangsách, những CD, hoặc những tài liệu khác có cùng đặc điểm như ảnh tài liệu Tuynhiên ảnh tài liệu còn có một dạng khác đó là nhưng ảnh về trang vẽ kỹ thuật nhưhình hai Còn có một dạng khác là ảnh tài liệu có nhiều màu sắc kích cỡ chữ khácnhau như hình ba
Hình 2.1: ảnh tài liệu đen trắng:a, chữ trong ảnh một trang báo.b, chữ trong ảnh của hai
trang và c là chữ trong bản vẽ kỹ thuật.
Hình 2.2: Ảnh tài liệu nhiều vào Mỗi dòng chữ có thể cùng màu hoặc không cùng màu
Trang 18ĐỒ ÁN TỐT NGHIỆP Chương 2: CÁC PHƯƠNG PHÁP XÁC ĐỊNH VÙNG
CHỨA CHỮ TRONG ẢNH
Hình 2.3: Ảnh trong video với phụ đề là text.a, phụ đề nằm trực tiếp trên nền ảnh b,và c, phụ
đề nằm trên nên ảnh với độ tương phản cao hơn và c, phụ đề nằm trên nền ảnh với nhiều
màu sắc.
Hình 2.4: Ảnh phong cảnh với rất nhiều chữ tự nhiên nhúng trong nó.
Một vài cách tiếp cận nhằm tách thông tin về chữ trong ảnh và video frame
đã được đưa ra bao gồm tách các dòng text trong ảnh tài liệu, xác định được cácvùng chứa chữ trong ảnh thông thường, xác định các index trong video frame Mặc
Trang 19ĐỒ ÁN TỐT NGHIỆP Chương 2: CÁC PHƯƠNG PHÁP XÁC ĐỊNH VÙNG
CHỨA CHỮ TRONG ẢNH
dù đã có rất nhiều nghiên cứu như vậy nhưng vẫn không dễ dàng để đưa ra một hệthống Tách thông tin về chữ (Text Information Extraction) tổng quát và chính xácbởi vì sự khó khăn trong việc thực hiện tách chữ từ ảnh Những khó khăn có thể kể
ra như: ảnh có nền quá phức tạp so với chữ nhúng trong nó hay chữ nhúng trongảnh có sự khác nhau về kích thức, màu sắc độ tương phản cả về hướng và font chữ.Những khó khăn kể trên làm cho hệ thống TIE rất khó thực hiện
Có một số lượng lớn các ứng dụng có thể áp dụng hệ thống TIE bao gồmphân tích tài liệu, phân tích các tài liệu kỹ thuật và nén dữ liệu hướng đối tượng.Dưới đây là một số ứng dụng như thế:
Máy tính cầm tay: với tốc độ phát triển của công nghệ phần cứng, máy tínhxách tay hiện nay đang rất phát triển Một hệ thống TIE gồm một thiết bị cầm tay vàmột camera được áp dụng như là một ứng dụng cho một hệ thống có khả năng quansát ảnh
Mã hóa video dựa trên nội dung và mã hóa tài liệu Chuẩn MPEG-4 hỗ trợviệc giải mã dựa trên đối tượng khi mà vùng text được tách ra khỏi vùng vùng kháctrong ảnh Nó có thể cung cấp một cách nén ảnh tốc độ cao hơn và chất lượng ảnhtốt hơn
Miền ảnh nén: dựa trên ý tưởng rằng toàn bộ ảnh số và video frame đều đượclưu trữ xử lý và chuyển đổi đều ở dạng nén Phương thức TIE có thể xử lý trực tiếptrên ảnh nén định dạng MPEG hoặc JPG Những thuật toán đó chỉ yêu cầu một sốlượng nhỏ việc giải mã và cho nên kết quả thực hiện thuật toán rất nhanh
2.2 THẾ NÀO LÀ MỘT HỆ THỐNG TIE
Vấn đề hệ thống TIE cần được định nghĩa chính xác trước khi tiến tới nhữngbước nghiên cứu xa hơn Một hệ thống TIE nhận dữ liệu đầu vào là những ảnhthông thường hoặc những ảnh video liên tiếp nhau Đầu vào có thể là những ảnh đentrắng, những ảnh màu những ảnh nén hoặc ảnh không nén, text trong ảnh có thể dichuyển hoặc không di chuyển Vấn đề TIE có thể được chia thành những vấn đề nhỏ:
Trang 21Hình 2.5: Kiến trúc của hệ thống TIE
2.3 CÁC PHƯƠNG PHÁP XÁC ĐỊNH VÙNG CHỨA CHỮ TRONG ẢNH
2.3.1 Xác định vùng chứa chữ trong ảnh dựa trên đặc chưng về kết cấu.
2.3.1.1 Đặc trưng về kết cấu:
Có thể hiểu một cách đơn giản, kết cấu là phần còn lại của ảnh sau khi đãxem xét màu sắc và các hình dạng trong ảnh Không những mang thông tin về độ sángtối, kết cấu của ảnh còn có thể đặc trưng cho chất liệu của đối tượng trong ảnh Một sốđối tượng như cây cối, mặt nước, tóc… thì đặc trưng chính của nó là kết cấu
Có rất nhiều các kỹ thuật khác nhau để phân tích và biểu diễn kết cấu củaảnh Theo Tuceryan và Jain [29], có 5 phương pháp chính để thể hiện cấu trúc củaảnh là : xử lý thống kê, xử lý hình họa, xử lý cấu trúc, xử lý dựa trên mô hình và xử
lý tín hiệu Các kỹ thuật hay được sử dụng có thể kể đến là : Ma trận mức xám đồngthời (Gray Level Co-occurrence Matrix), Mô hình Markop ẩn và MRSAR (Mô hình
tự hồi quy đồng thời hỗ trợ nhiều độ phân giải )
Phương pháp dựa trên kết cấu sẽ dựa vào sự khác biệt giữa text và nền ảnhnhằm tách text Một số phương pháp được sử dụng như dựa trên bộ lọc Gabor,Wavelet, FFT có thể được sử dụng để tìm ra các đăc tính về kết cấu của vùng texttrong ảnh
2.3.1.2 Một số phương pháp được đề xuất:
Trong lĩnh vực tách chữ trong ảnh, một số phương pháp sau đây đã được dùng
Ảnh, Video clip
Trang 22để xác định đặc trưng về kết cấu của vùng text trong ảnh và cho kết quả khả quan.
Zhong [30] đã sử dụng sự biến đổi về mặt không gian trong ảnh mức xám để
dò tìm ra vùng chứa text với độ chính xác khá cao Họ đã sử dụng một của sổ ngangkích cỡ 1 x 21 để tính toán sự khác nhau về mặt pixel với anh hàng xóm cục bộ Sau
đó bờ ngang trong ảnh sẽ được xác định nhờ sử dụng bộ lọc Canny Những thànhphần bờ nhỏ này sẽ được kết hợp lại với nhau để tạo ta những đường dài hơn Từchính ảnh sau khi xác định bờ này, những bờ ảnh với những hướng đối diện sẽ đượcghép cặp thành vùng text Mặc dù vậy, cách tiếp cận này chỉ dò tìm được ra cácvùng chứa text nằm ngang và có sự khác biệt tương đối rõ rang so với nền ảnh
Trái ngược lại thì Wu [31,32] đã sử dụng phương pháp phân chia một bứcảnh đầu vào sử dụng một lược đồ phân chia ảnh theo kết cấu sử dụng các giá trịmức khác nhau Những vùng text tiềm năng nhất sẽ được tìm thấy dựa trên bộ lọcGaussian Một phép biến đổi không tuyến tính sẽ được áp dụng cho mỗi bức ảnh.Ảnh đầu ra sau đó được xử lý sử dụng thuật toán K-mean Thao tác này được gọi là
sự phân vùng ảnh dựa trên đặc trưng về kết cấu (texture segmentation) Bước tiếp theo gọi là chip generation Bước này bao gồm 5 bước nhỏ hơn là:
i stroke generation
ii stroke filtering
iii stroke aggregation
iv chip filtering
v chip extension
Kết quả được cài đặt và chạy thử trên 48 bức ảnh khác nhau bao gồm cácvideo frame, các trang báo, tạp chí…Chương trình thực hiện mất 10 giây cho nhữngảnh có kích cỡ 320 x 240 trên máy PC Pentium vói tốc độ 200MHz và 128 Mb bộnhớ Phương pháp này có nhược điểm là để mất những vùng chữ rất nhỏ
Trang 23(a) (b) (c) (d)
Hình 2.6 Một ví dụ về phương pháp dựa trên kết cấu: (a) ảnh đầu vào, (b) clustering, (c) Vùng text sau khi thực hiện toán tử morphological (Nhìn thấy trong vùng đen in đậm), (d) stroke generation, (e) stroke filtering, (f) stroke aggregation, (g) chip filtering and extension,
và (h) Vùng text được tìm ra (Wu, Manmatha, and Riseman [31, 32]).
2.3.2 Phương pháp xác định vùng chứa chữ dựa trên đặc chưng về vùng ảnh.
2.3.2.1 Dựa trên vùng ảnh.
Phương pháp này sử dụng cách tiếp cận bottom up bằng cách thực hiệnnhóm các vùng nhỏ lại với nhau cho đến khi tất cả các biên ảnh được xác định mộtcách rõ rang trong ảnh Một phân tích về mặt hình học sau đó sẽ được áp dụng sửdụng sự sắp xếp về mặt không gian giữa các thành phần trong ảnh để lọc ra cácthành phần text và thành phần non-text
Lienhart [33, 34] đã coi các vùng text như là các vùng có sự giống nhau vềmàu và kích thước và áp dụng một phương pháp phân tích về sự di chuyển của cáctext trong video frame để tách ra text Ảnh đầu vào được phân đoạn dựa trên đặctính về sự cùng màu của các text sự dụng thuật toán phân chia cũng như kết hợp.Những vùng nào quá nhỏ hoặc quá lớn sau đó sẽ được lọc ra Sau đó những đặctrưng về độ tương phản, sự di chuyển của các text trong các đoạn video… sẽ được
sử dụng nhằm đạt được kết quả tách tốt nhất Một thuật toán liên kết các khối được
áp dụng nhằm tìm ra text trong video
2.3.2.2 Dựa trên biên ảnh.
Trang 24Trong phương pháp xác định vùng chứa chữ dựa theo đường biên, đặc trưngcủa mỗi vùng sẽ là đường biên bao quanh vùng đó Quá trình phân vùng ảnh dựa theođường biên thường tuân theo các bước : xác định biên, xử lý biên và mô tả biên.
a,Xác định biên
Xác định biên của ảnh là một kỹ thuật cơ bản trong phân tích ảnh Một điểmảnh sẽ được coi là cạnh (điểm biên) nếu ở đó có sự thay đổi đột ngột về mức xám.Xuất phát từ định nghĩa này người ta thường sử dụng hai phương pháp phát hiệnbiên [30] là :
- Phương pháp phát hiện biên trực tiếp: Phương pháp này nhằm làm nổi biên
dựa vào sự biến thiên về giá trị độ sáng của điểm ảnh Kỹ thuật chủ yếudùng phát hiện biên ở đây là kỹ thuật đạo hàm (kỹ thuật dò biên cục bộ), nếulấy đạo hàm bậc nhất của ảnh ta có phương pháp dò biên gradient, nếu lấyđạo hàm bậc 2 ta có kỹ thuật Laplace
- Phương pháp phát hiện biên gián tiếp: Phương pháp phát hiện biên kiểu này
dựa vào mối quan hệ giữa biên và các vùng trong ảnh, nếu bằng cách nào đấy,
ta phân ảnh thành các vùng thì đường ranh giới giữa các vùng chính là biên
c,Mô tả biên.
Khi đã xác định được các điểm biên thì kỹ thuật mô tả biên đơn giản nhấtchính là sử dụng chuỗi tọa độ của các điểm biên này để mô tả Tuy nhiên cách thứcnày có chi phí lớn và không cô đọng Do vậy người ta phải nghĩ đến các cách mãhóa đường biên
Các phương pháp mã hóa hay được dùng là : mã hóa theo tọa độ Đề các, mãhóa Freeman hay xấp xỉ bởi đoạn thẳng Biên sau khi được mô tả sẽ trở thành mộtđặc trưng quan trọng của vùng mà nó bao quanh
Dựa vào các thuộc tính của text trong ảnh, phương pháp dựa trên biên ảnhlàm nổi bật “sự tương phản giữa các đoạn text với nền của ảnh” Các cạnh của
Trang 25đường biên vùng text sẽ được xác định và kết hợp lại với nhau, sau đó sẽ lọc ra cácmiền không phải text ở trong ảnh Các bộ lọc về bờ của vùng text (ví dụ: Cannyoperator) thường được dùng để dò tìm bờ bao quanh vùng chứa chữ, các phươngpháp làm mịn và các toán tử hình thái được sử dụng kết hợp các tầng lại.
d,Các phương pháp
Smith và Kanade [35] áp dụng bộ lọc khác nhau chiều ngang 3x3 cho ảnhnhập vào và bước đầu thực hiện tìm bờ dọc Sau khi thực hiện phương pháp làmmịn, thường dùng để loại bỏ các bờ nhỏ, các bờ ở liền kề nhau sẽ kết hợp với nhau
và một hộp ranh giới sẽ được dựng lên Sau một vài thử nghiệm, bao gồm: aspectratio, lọc số, kích thước hộp ranh giới được áp dụng để lọc ra vùng không chưa chữ.một biểu đồ về cường độ các cụm sẽ được kiểm tra và sau đó sẽ xác định các cụmgiống như text hoặc cách đặc điểm về các hình thù
Sự khác nhau chính giữa phương pháp Sato et al [36] và phương pháp dựavào bờ miền đó là phân đoạn kí tự Họ sử dụng kết quả nhận biết ra các kí tự để đưa raquyết định phân đoạn và vị trí của các chữ riêng lẻ, bằng cách ấy sẽ tăng độ chính xácphân đoạn kí tự Khi mà kết hợp với phương pháp phân vùng text của Smith vàKanade, thời gian xử lí cho việc nhận biết chỉ mất 0.8s cho ảnh kích thước 352 x 242
Hasan va Karam [37] sẽ mô phỏng một hình thái tiếp cận với lấy ra text Cácthành phần R,G,B của ảnh mầu được kết hợp lại vói nhau để cho ra cường độ vùngảnh Y như sau:
Y=0.299R + 0.587G + 0.114B
Ở đây thì RGB tương ứng với các thành phần màu đỏ, xanh nhạt, xanh đậm.mặc dù cách này đơn giản và rất nhiều nhà nghiên cứu đã đưa ra để giải quyết choảnh màu, nó gặp phải khó khăn là xử lí các đối tượng mà nó tương tự với màu xám,
và các màu khác trong không gian màu Hình 8a và 8b sẽ cho bạn xem ảnh màu vàảnh xám một số đoạn text mà nhô lên ở trong ảnh màu thì sẽ rất khó khăn với ảnhxám Sau khi chuyển đổi màu, bờ ảnh được xác định sử dụng phương phápmorphological gradient kết quả của việc xác định bờ ảnh là điểm bắt đầu được chứa
Trang 26đựng trong bờ ảnh số Điểm bắt đầu sẽ được xử lí cho mỗi miền ứng cử thích hợptrong cường độ ảnh Thành phần không phải text được lọc ra nhờ việc sử dụng kíchthức ảnh, độ giày, tỷ lệ so với bên ngoài, sự đồng nhất màu xám
2.4 KẾT LUẬN
Vấn đề tách chữ nhúng trong ảnh quả thực là một vấn đề không hề đơn giản,tuy nhiên lại là vấn đề có nhiều cách tiếp cận khác nhau Mặc dù lịch sử của bàitoán còn khá ngắn ngủi (khoảng từ năm 1997 trở đi) xong những thành tựu trongviệc nghiên cứu vấn đề này mang lại là rất hữu dụng Chương 2 của đồ án đã trìnhbày một số phương pháp để giải quyết vấn đề tách chữ nhúng trong ảnh, mặc dùmỗi phương pháp đều có những ưu nhược điểm riêng nhưng đây đều là nhữngphương pháp cho độ chính xác khá cao và khá tổng quát Đồng thời, việc nghiêncứu và tìm hiểu các phương pháp này sẽ mang lại những kiến thức cơ bản và gợi ýcho cách tiếp cận nhằm giải quyết bài toán tách chữ nhúng trong ảnh ở chương sau
Chương 3
Trang 27XÁC ĐỊNH VÙNG CHỨA CHỮ TRONG ẢNH THÔNG THƯỜNG
VÀ ẢNH VIDEO
Như đã trình bày trong chương 2 đồ án đã nêu ra những phương pháp chungnhất trong việc xác định vùng chứa chữ trong ảnh Trong chương này đồ án xintrình bày một phương pháp được áp dụng trong bài toán này Đây là một cách tiếpcận của Jain và Yu [38] dựa trên phương pháp xác định vùng chứa chữ dựa theovùng ảnh
3.1 ĐẶT VẤN ĐỀ
Text là một phương tiện thuận tiện và thường được sử dụng để truyền đạt vàtrao đổi thông tin Đó là thuộc tính rất quan trọng của những ứng dụng nhìn thấyđược trên máy tính như hiểu hình ảnh, lập bảng chú giải cơ sở dữ liệu và chuyển tàiliệu giấy sang dạng điện tử Xác định vùng chứa chữ tự động trong ảnh (bước đầutiên cho nhiều ứng dụng) mà không có khả năng nhận dạng ký tự bằng cách tríchnhững vùng chứa text Những vùng chứa chữ này có thể được truyền đến cácmodule nhận dạng ký tự quang học hoặc được đánh dấu cho người sử dụng Chúng
ta đọc text chủ yếu từ các tài liệu giấy, màn hình tivi và máy tính, video và nhữngtext xuất hiện trong quang cảnh tự nhiên Text có thể xuất hiện có màu hoặc đơnsắc Nói chung text được mô tả dưới dạng số hóa như ảnh mức xám có nhiều giá trịảnh màu hoặc ảnh màu giả (pseudo-color) Do vậy, một phương pháp phân tích ảnh
có nhiều giá trị và giảm bớt màu trong ảnh được đưa ra để đơn giản vấn đề từ vùngmàu sang vùng nhị phân nơi sử dụng kỹ thuật phân tích thành phần liên kết để xácđịnh vùng chứa chữ một cách tự động Việc thực hiện thuật toán xác định vùngchứa chữ trong ảnh được thể hiện trong 4 ứng dụng sau:
i Chuyển các quảng cáo đã được phân loại từ tài liệu giấy sang tài liệudạng điện tử
ii Tìm kiếm ảnh trên World Wide Web dựa vào chữ nhúng trong ảnh.iii Xác định title trong ảnh thông thường
iv Xác định title trong ảnh video
Trang 28So với những phương pháp xác định vùng chứa chữ truyền thống dựa trênphân tích kết cấu thì phương pháp của đồ án có một số đặc trưng sau:
i Tốc độ tính toán nhanh (0,1 –0,2 giây);
ii Không để ý đến cỡ phông chữ
iii Độ chính xác cao
3.2 GIỚI THIỆU
Dữ liệu text mang thông tin quan trọng và hữu ích Hàng ngày con người đọctext trên tài liệu giấy, trên màn hình tivi và qua Internet Đồng thời những kỹ thuậtnhận dạng ký tự quang học (OCR) đã phát triển đến mức mà chúng ta có thể tựđộng đọc text trong nhiều môi trường So sánh với những bài toán nhận dạng vật thểnói chung (như nhận dạng mặt người ), text bao gồm một bộ ký hiệu được sắp xếptheo một số quy tắc cho trước Do đó dễ hơn cho máy hiểu, thể hiện và mô phỏng
dữ liệu text Nói chung, đồ án có 2 mục đích trong xử lý text tự động Một là để tựđộng chuyển đổi text từ dạng tài liệu giấy sang dạng điện tử, một nhiệm vụ khónhọc và buồn tẻ cho những người làm việc bằng chân tay và được ứng dụng choviệc chuyển đổi tài liệu kỹ thuật và báo Mục đích khác đó là tự động tìm kiếmthông tin hữu ích về tài liệu (như hình ảnh, video, tài liệu giấy) có chứa text Ứngdụng này đóng vai trò quan trong trong tìm kiếm Web, chú thích hình ảnh màu, tổchức cơ sở dữ liệu, chú giải tự động và chú thích video Xác định vùng chứa chữ tựđộng không có khả năng nhận dạng ký tự (bước đầu đối với việc đọc text tự động vàbán tự động) để định vị những khoảng chứa text từ những vật mang text đa dạngnhưng không nhận dạng được ký tự chứa trong text Những dạng khác nhau của text
về mặt phông, cỡ chữ và kiểu dáng, định hướng, sắp hàng, kết cầu và màu sắc đượcgắn vào những hình ảnh nền phức tạp và có độ tương phản thấp làm cho việc xácđịnh vùng chứa chữ tự động trở nên khó khăn Hơn nữa, xác định vùng chứa chữvới tốc độ thực hiện cao là mong ước của phần lớn những ứng dụng
Chúng ta có thể định nghĩa text tồn tại ở hai dạng Thứ nhất ta định nghĩatext là text mã hoá (coded text) nếu nó được thể hiện bằng một số mã mà từ đó hìnhảnh của nó có thể được mô phỏng bằng thư viện phông chữ đã xác định trước Ví dụcủa text mã hoá có thể được tìm thấy trong các file đã được định dạng Postscript và
Trang 29các file được sử dụng trong nhiều phần mềm xử lý text trong đó các ký tự được thểhiện bằng mã ASCII Mặt khác, text được gọi là text điểm ảnh (pixel text) nếu nóđược thể hiện bằng các điểm ảnh (pixel) Nói cách khác, text điểm ảnh được chứatrong các file ảnh Đôi khi cả hai loại text này đều xuất hiện trong cùng một tài liệu.
Ví dụ, một trang Web thường có cả text mã hoá và text điểm ảnh Hình 3.1 miêu tảmột phần của trang Web có 2 ảnh và 1 dòng text mã hoá “Department of ComputerScience” giống như được thể hiện bằng mã nguồn trong Hình 3.2 Mã ASCII đốivới text mã hoá có thể đọc được trực tiếp từ mã nguồn, trong khi đó text ảnh điểm
“Michigan State University” được chứa trong ảnh có tên “msurev1.gif” Vấn đề củaxác định vùng chứa chữ tự động chủ yếu liên quan đến text điểm ảnh
Hình 3.1: Một phần của trang Web
Trang 30Hình 3.2: Mã nguồn của trang Web trong hình 1
Một số hướng tiếp cận được đưa ra cho việc đọc text tự động trên tài liệugiấy [2] và trong video [3] Đối với việc xác định vùng chứa chữ trên ảnh, có haiphương pháp chính Phương pháp thứ nhất coi text như những vật thể có kết cấu và
sử dụng phương pháp phân tích text nổi tiếng [4] như lọc Gabor [5] và thay đổikhông gian [6] để tự động định vị những khoảng có text Sử dụng kết cấu để xácđịnh vùng chứa chữ trên ảnh dễ bị ảnh hưởng bởi phông cỡ chữ và kiểu dáng Hơnnữa, phương pháp này không thể thường xuyên xác định vùng chứa chữ chính xác
và nói chung rất tốn thời gian Hình 3.3(b) thể hiện sự biến đổi không gian theochiều ngang đối với ảnh trong hình 3.3(a) do Zhong et al đưa ra [6] Kết quả xácđịnh vùng chứa chữ được thể hiện trong hình 3.3(c), trong đó có một số khoảngtrống không thể dự đoán được
Hình 3.3: xác định vùng chứa chữ bằng phân tích kết cầu: (a) ảnh gốc; (b) biến đổi không gian theo chiều ngang; (c) xác định vùng chứa chữ (thể hiện trong những khối hình chữ nhật).
Phương pháp xác định vùng chứa chữ thứ hai sử dụng phân tích thành phầnliên kết [7, 8, 9, 2, 10] Phương pháp này có tốc độ xử lý và độ định vị chính xáccao hơn tuy nhiên chỉ dùng được đối với những ảnh nhị phân Phần lớn các tài liệuđen trắng có thể được coi như ảnh có hai giá trị Mặt khác, tài liệu màu, các khung