GIỚI THIỆU

XÁC ĐỊNH VÙNG CHỨA CHỮ TRONG ẢNH THÔNG THƯỜNG VÀ ẢNH VIDEO

3.2 GIỚI THIỆU

Dữ liệu text mang thông tin quan trọng và hữu ích. Hàng ngày con người đọc text trên tài liệu giấy, trên màn hình tivi và qua Internet. Đồng thời những kỹ thuật nhận dạng ký tự quang học (OCR) đã phát triển đến mức mà chúng ta có thể tự động đọc text trong nhiều môi trường. So sánh với những bài toán nhận dạng vật thể nói chung (như nhận dạng mặt người ), text bao gồm một bộ ký hiệu được sắp xếp theo một số quy tắc cho trước. Do đó dễ hơn cho máy hiểu, thể hiện và mô phỏng dữ liệu text. Nói chung, đồ án có 2 mục đích trong xử lý text tự động. Một là để tự động chuyển đổi text từ dạng tài liệu giấy sang dạng điện tử, một nhiệm vụ khó nhọc và buồn tẻ cho những người làm việc bằng chân tay và được ứng dụng cho việc chuyển đổi tài liệu kỹ thuật và báo. Mục đích khác đó là tự động tìm kiếm thông tin hữu ích về tài liệu (như hình ảnh, video, tài liệu giấy) có chứa text. Ứng dụng này đóng vai trò quan trong trong tìm kiếm Web, chú thích hình ảnh màu, tổ chức cơ sở dữ liệu, chú giải tự động và chú thích video. Xác định vùng chứa chữ tự động không có khả năng nhận dạng ký tự (bước đầu đối với việc đọc text tự động và bán tự động) để định vị những khoảng chứa text từ những vật mang text đa dạng nhưng không nhận dạng được ký tự chứa trong text. Những dạng khác nhau của text về mặt phông, cỡ chữ và kiểu dáng, định hướng, sắp hàng, kết cầu và màu sắc được gắn vào những hình ảnh nền phức tạp và có độ tương phản thấp làm cho việc xác định vùng chứa chữ tự động trở nên khó khăn. Hơn nữa, xác định vùng chứa chữ với tốc độ thực hiện cao là mong ước của phần lớn những ứng dụng.

Chúng ta có thể định nghĩa text tồn tại ở hai dạng .Thứ nhất ta định nghĩa text là text mã hoá (coded text) nếu nó được thể hiện bằng một số mã mà từ đó hình ảnh của nó có thể được mô phỏng bằng thư viện phông chữ đã xác định trước. Ví dụ

của text mã hoá có thể được tìm thấy trong các file đã được định dạng Postscript và các file được sử dụng trong nhiều phần mềm xử lý text trong đó các ký tự được thể hiện bằng mã ASCII. Mặt khác, text được gọi là text điểm ảnh (pixel text) nếu nó được thể hiện bằng các điểm ảnh (pixel). Nói cách khác, text điểm ảnh được chứa trong các file ảnh. Đôi khi cả hai loại text này đều xuất hiện trong cùng một tài liệu. Ví dụ, một trang Web thường có cả text mã hoá và text điểm ảnh. Hình 3.1 miêu tả một phần của trang Web có 2 ảnh và 1 dòng text mã hoá “Department of Computer Science” giống như được thể hiện bằng mã nguồn trong Hình 3.2. Mã ASCII đối với text mã hoá có thể đọc được trực tiếp từ mã nguồn, trong khi đó text ảnh điểm “Michigan State University” được chứa trong ảnh có tên “msurev1.gif”. Vấn đề của xác định vùng chứa chữ tự động chủ yếu liên quan đến text điểm ảnh.

Hình 3.2: Mã nguồn của trang Web trong hình 1

Một số hướng tiếp cận được đưa ra cho việc đọc text tự động trên tài liệu giấy [2] và trong video [3]. Đối với việc xác định vùng chứa chữ trên ảnh, có hai phương pháp chính. Phương pháp thứ nhất coi text như những vật thể có kết cấu và sử dụng phương pháp phân tích text nổi tiếng [4] như lọc Gabor [5] và thay đổi không gian [6] để tự động định vị những khoảng có text. Sử dụng kết cấu để xác định vùng chứa chữ trên ảnh dễ bị ảnh hưởng bởi phông cỡ chữ và kiểu dáng. Hơn nữa, phương pháp này không thể thường xuyên xác định vùng chứa chữ chính xác và nói chung rất tốn thời gian. Hình 3.3(b) thể hiện sự biến đổi không gian theo chiều ngang đối với ảnh trong hình 3.3(a) do Zhong et al đưa ra. [6]. Kết quả xác định vùng chứa chữ được thể hiện trong hình 3.3(c), trong đó có một số khoảng trống không thể dự đoán được.

Hình 3.3: xác định vùng chứa chữ bằng phân tích kết cầu: (a) ảnh gốc; (b) biến đổi không gian theo chiều ngang; (c) xác định vùng chứa chữ (thể hiện trong những khối hình chữ nhật).

Phương pháp xác định vùng chứa chữ thứ hai sử dụng phân tích thành phần liên kết [7, 8, 9, 2, 10]. Phương pháp này có tốc độ xử lý và độ định vị chính xác cao hơn tuy nhiên chỉ dùng được đối với những ảnh nhị phân. Phần lớn các tài liệu đen trắng có thể được coi như ảnh có hai giá trị. Mặt khác, tài liệu màu, các khung

video, tài liệu tích trữ trong máy tính và ảnh quang cảnh tự nhiên là những ảnh có nhiều giá trị (multivalued image). Tác giả xác định vùng chứa chữ thông qua việc phân tích hình ảnh có nhiều giá trị. Trong chương này ta sẽ thảo luận:

i. Phân tích hình ảnh có nhiều giá trị. ii. Thế hệ ảnh tiền cảnh và lựa chọn. iii. Giảm khoảng màu.

iv. Xác định vùng chứa chữ sử dụng các tính năng thống kê. Phương pháp này được áp dụng cho vấn đề xác định vùng chứa chữ trong nhiều vùng khác nhau, bao gồm các quảng cáo đã phân loại, được gắn text vào cỏc hỡnh Web tổng hợp, các ảnh màu và khung video.

Tầm quan trọng của xác định vùng chứa chữ tự động trong những vấn đề này được tóm tắt dưới đây.

PHÂN CHIA ẢNH ĐA GIÁ TRỊ

Ảnh màu và khung video