Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 60 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
60
Dung lượng
8,69 MB
Nội dung
MỤC LỤC Tài liệu tham khảo 54 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Cụm từ, ký hiệu Ý nghĩa TIE Text information extraction : Vấn đề tách thông tin về chữ FI Foreground Identification : Xác định tiền cảnh BAG Blog Adjacency Graph : Đồ thị khối liền kề OCR Optical Character Recognization : Hệ thống nhận dạng ký tự quang học DANH MỤC HÌNH VẼ Tài liệu tham khảo 54 LỜI MỞ ĐẦU Ảnh là phương tiện truyền tải thông tin có ý nghĩa vô cùng lớn trong cuộc sống. Ảnh truyền tải trong môi trường World Wide Web hiện nay được sử dụng khá nhiều, tồn tại ở nhiều dạng khác nhau và vô cùng phong phú. Một yêu cầu đặt ra là tìm kiếm, phân loại, cũng như xác định nội dung ảnh muốn truyền tải điều gì đang là vấn đề cấp thiết hiện nay. Ta có thể kể ra một số ứng dụng như thế như tìm kiếm ảnh theo nội dung trong môi trường World Wide Web hay lọc spam ảnh…vv. Ảnh thường được nhúng kèm theo text trong nó và những text này thường quyết định đến nội dung ảnh muốn truyền tải. Tất cả các ứng dụng kể trên như lọc spam ảnh hay tìm kiếm ảnh trên web…vv đều sử dụng đến đặc tính text kèm theo ảnh để giải quyết. Và như thế bài toán tách chữ nhúng trong ảnh được quan tâm. Đã có rất nhiều phương pháp được đưa ra, tuy nhiên do dữ liệu ảnh là quá phong phú và text nhúng kèm theo nó cũng rất phức tạp như kích cỡ, màu, chiều của chữ…Nờn mỗi phương pháp đều có sự hạn chế riêng và đây vẫn là một bài toán mở đang được nhiều người quan tâm. Xuất phát từ thực tế đó, mục tiêu của đồ án này là nghiên cứu phương pháp xác định vùng chứa chữ nhúng trong ảnh có độ chính xác cao đồng thời là tiền đề cho việc lọc spam ảnh. Với mục tiêu đó, đồ án được thực hiện dựa trên phương pháp nghiên cứu: trước hết là ảnh đầu vào được thực hiện giảm màu (color reduction) bao gồm cả giảm bit (drop bit) gộp màu và phân tích ảnh có nhiều giá trị, sau đó được phân tích thành nhiều ảnh tiền cảnh (foreground image). Những ảnh tiền cảnh được tập hợp để nhận dạng vị trí của text trong ảnh đầu vào . Xác định vùng chứa chữ được thể hiện giống các toạ độ hộp ranh giới của nó. Nội dung của đồ án được chia thành 4 phần, ở đó, chương 1 và chương 2 sẽ trình bày các kiến thức cơ bản cho cách tiếp cận ở chương 3 và chương 4. Bố cục chi tiết của đồ án như sau : Chương 1 : “Tổng quan về xử lý ảnh” : Chương này trình bày tổng quan về một hệ thống xử lý ảnh,và các vấn đề liên quan. Chương 2 : “Cỏc phương pháp xác định vùng chứa chữ trong ảnh” : Chương này sẽ trình bày về các phương pháp xác định vùng chứa chữ trong ảnh hiện có, đưa ra phương pháp phân loại mới và phân tích tính chính xác và hiệu năng của mỗi phương pháp. Chương 3 : “Xác định vùng chứa chữ trong ảnh thông thường và ảnh video” : Đây là chương quan trọng nhất của đồ án vỡ nó sẽ nêu lên một phương pháp Xác định vùng chứa chữ trong ảnh dựa trên các đặc trưng về thành phần của ảnh. Chương 4 : “Thử nghiệm và kết quả” : Chương 4 sẽ trình bày chi tiết quá trình thực hiện, đưa ra các con số thống kê về độ chính xác của phương pháp. Ơ Chương 1 TỔNG QUAN VỀ XỬ LÝ ẢNH Xử lý ảnh là một ngành khoa học cũn khỏc mới và có rất nhiều ứng dụng. Trong chương 1 đồ án sẽ trình bày một cách tổng quan về xử lý ảnh, các vấn đề liên quan và các khái niệm cơ bản nhất trong khoa học xử lý ảnh. 1.1 TỔNG QUAN VỀ MỘT HỆ THỐNG XỬ LÝ ẢNH Xử lý ảnh là khoa học còn tương đối mới mẻ so với nhiều ngành khoa học khác. nhất là trên quy mô công nghiệp, song trong xử lý ảnh đã bắt đầu xuất hiện những máy tính chuyên dụng. Để có thể hình dung cấu hình của một hệ thống xử lý ảnh chuyên dụng hay một hệ thống xử lý ảnh dùng trong nghiên cứu, đào tạo, trước hết chúng ta sẽ xem xét các bước cần thiết trong xử lý ảnh. Trước hết là quá trình thu nhận ảnh. Ảnh có thể thu được qua camera. Thường ảnh thu được qua camera là tín hiệu tương tự(loại camera ống kiểu CCIR), nhưng cũng có thể là tín hiệu số hoỏ(loại CCD-charge couped device). Lưu trữ Hình 1.1a Các giai đoạn chính trong xử lý ảnh Ảnh cũng có thể thu nhận từ vệ tinh qua các bộ cảm ứng(sensor), hay ảnh, tranh được quột trờn scanner. Tiếp theo là quá trình số hoá (Digitalizer) để biến đổi tín hiệu tương tự sang tín hiệu rời rạc (lấy mẫu) và số hoá bằng lượng hoá trước khi chuyển sang giai đoạn xử lý, phân tích hay lưu trữ lại. Nhận dạng ảnh CAMERA Lư u trữ SENSOR Thu nhận ảnh Số hóa Phân tích ảnh Hệ Q.định Quá trình phân tích ảnh thực chất bao gồm nhiều công đoạn nhỏ. Trước hết là công việc tăng cường ảnh để nâng cao chất lượng ảnh. Do những nguyên nhân khác nhau: có thể do chất lượng các thiết bị thu nhận ảnh, do nguồn sang hay do nhiễu ảnh có thể bị suy biến. Do vậy phải tăng cường và khôi phục lại ảnh để làm nổi bật một số đặc tính chính của ảnh, hay làm cho ảnh gần giống với trạng thái gốc- trạng thái trước khi bị biến dạng. Giai đoạn tiếp theo là xác định các đặc tính như biên, phân vùng ảnh, trích chọn các đặc tính, …vv. Cuối cùng tuỳ vào mục đích của ứng dụng, sẽ là giai đoạn nhận dạng, phân lớp hay các quyết định khỏc. Cỏc giai đoạn chính của quá trình xử lý ảnh có thể mô tả như hình 1.1.a. Với các giai đoạn trên một quá trình xử lý ảnh (cấu trúc phần cứng theo chức năng) gồm các thành phần tối thiểu như hình 1.1.b. Đối với một hệ thống xử lý ảnh thu nhận qua camera-camera như là con mắt của hệ thống. Có hai loại camera : camera ống loại CCIR và camera CCD. Loại camera ứng với chuẩn CCIR quét ảnh với tần số 1/25 và mỗi ảnh gồm 625 dòng. Loại CCD gồm các photo diot và làm tương ứng một cường độ sang tại một điểm ảnh ứng với một phần tử ảnh (pixel). Như vậy ảnh là tập hợp các điểm ảnh. Số pixel tạo nên một điểm ảnh gọi là độ phân giải (resolution). Bộ xử lý tương tự (analog processor) bộ phận này thực hiện các chức năng sau: - Chọn camera thích hợp nếu hệ thống có nhiều camera - Chọn màu hiển thị tín hiệu. - Thu nhận tín hiệu video thu nhận bởi bộ số hoá (digitalizer). Thực hiện lấy mẫu và mó hoỏ. - Tiền xử lý ảnh khi thu nhận: dung kỹ thuật bảng tra (Look Up Table LUT) Hình 1.1.b Các thành phần chính của hệ thống xử lý ảnh Bộ xử lý ảnh số: gồm nhiều bộ xử lý chuyên dụng: xử lý lọc, trích chọn đường bao, nhị phân hoá ảnh. Các bộ xử lý này làm việc với tốc độ 1/25 giây. Máy chủ : đóng vai trò điều khiển các thành phần miêu tả ở trên. Bộ nhớ ngoài: Dữ liệu ảnh cũng như các dữ liệu khác, để có thể chuyển giao cho các quá trình khỏc, nó cần được lưu trữ. Để có một ước lượng, xét ví dụ sau: một ảnh đen trắng cỡ 512 x 512 với 256 mức xám chiếm 256 k bytes. Với một ảnh màu cùng kích thước dung lượng sẽ tăng gấp 3 lần. 1.2 CÁC VẤN ĐỀ CƠ BẢN TRONG XỬ LÝ ẢNH Như đã đề cập trong phần giới thiệu, chúng ta đã thấy được một cách tổng quát các vấn đề chính trong xử lý ảnh. Để hiểu chi tiết hơn, trước tiên ta xem xét hai khái niệm (thuật ngữ) thường dung trong xử lý ảnh: đó là pixel (phần tử ảnh) và gray level (mức xám), tiếp theo là tóm tắt các vấn đề chính. Màn hình đồ họa Bộ xử lý tương tự Camera Bộ nhớ ảnh Máy chủ Bộ nhớ ngoài Bộ xử lý ảnh số Màn hình Bàn phím Máy in 1.2.1 Một số khái niệm Pixel (picture element) phần tử ảnh Ảnh trong thực tế là một ảnh liên tục về không gian và về giá trị độ sang. Để có thể xử lý ảnh bằng máy tính cần thiết phải tiến hành số hoá ảnh. Trong quá trình số hoá, người ta biến đổi tín hiệu liên tục dạng tín hiệu rời rạc thong qua quá trình lấy mẫu ( rời rạc hoá về không gian) và lượng hoá thành phần giá trị mà vì thế về nguyên tắc bằng mắt thường không phân biệt được hai điểm kề nhau. Trong quá trình này người ta sử dụng khái niệm picture element mà ta quen gọi hay viết tắt là pixel - phần tử ảnh. Ở đây cũng cần phân biệt khỏi niờm pixel hay đề cập đến trong kỹ thuật đồ hoạ máy tính. Để tránh nhầm lẫn ta tạm gọi pixel này là pixel của thiết bị. Khái niệm pixel thiết bị có thể xem xét như sau: Khi ta quan sát màn hình trong chế độ đồ hoạ, màn hình không liên tục mà gồm nhiều điểm nhỏ gọi là pixel. Mỗi pixel gồm một cặp toạ độ x,y và màu. Cặp toạ độ x,y tạo nên độ phân giải ( resolution ). Như màu màn hình máy tính có nhiều loại với độ phân giải khác nhau: như màn hình CGA với độ phân giải là 320 x 200, màn hình VGA là 640 x 350,… Như vậy một ảnh là tập hợp các điểm ảnh. Khi được số hoỏ nó, nó thường được biểu diễn bởi mảng hai chiều I(n,p): n là biểu thị số dòng, p là biểu thị cột. Nói cách khác ảnh gồm n x p pixels. Người ta thường ký hiệu I(x,y) để chỉ một pixel. Thường một giá trị của n chọn bằng p và bằng 256. Hình 1.2 cho thấy việc biểu diễn ảnh với độ phân giải khác nhau. Một pixel có thể lưư trữ trên 1,2,4 hay 24 bit. Gray level: Mức xám. Mức xám là kết quả sự mã hoá tương ứng một cường độ sáng của mỗi điểm ảnh với một giá trị số-kết quả của quá trình lượng hoỏ. Cỏch mó hoỏ kinh điển thường dung 16,32,64 mức. Mó hoỏ 256 mức là mức phổ dụng do lý do kỹ thuật. Vì 2 8 = 256( 0,1,2…255) nên với 256 mức mỗi pixel sẽ được mó hoỏ bởi 8 bit. 1.2.2 Biểu diễn ảnh Trong biểu diễn ảnh người ta thường dung các phần tử đăc chưng của ảnh là pixel. Nhìn chung có thể xem một hàm hai biến chứa cỏc thụg tin như biểu diễn của một ảnh. Các mô hình biểu diễn ảnh cho ta một mô tả logic hay định lượng các tính chất của hàm này. Trong biểu diễn ảnh cần chú ý đến tính trung thực của ảnh hoặc các tiêu chuẩn thong minh để đo chất lượng ảnh hoặc tính hiệu quả của các kỹ thuật xử lý. Việc xử lý ảnh số yêu cầu ảnh phải được mẫu hoá và lượng tử hoá. Thí dụ một ảnh ma trận 512 dòng gồm khoảng 512 x 512 pixel. Việc lượng tử hoá ảnh là chuyển đổi tín hiệu tương tự sang tín hiệu số (analog digital convert) của một ảnh đã lấy mẫu sang một số hữu hạn mức xám. Một số mô hình thường được dung trong biểu diễn ảnh: mô hình toán học, mô hình thống kê. Trong mô hình toán ảnh hai chiều được biểu diễn nhờ các hàm hai biến trực giao gọi là các hàm cơ sở. Với mô hình thống kê một ảnh được coi như một phần tử của một tập hợp đặc chưng bởi các đại lượng như: Kỳ vọng toán học, hiệp biến, phương sai, moment… 1.2.3 Tăng cường ảnh - khôi phục ảnh Tăng cường ảnh là bước quan trọng tạo tiền đề cho xử lý ảnh. Nó gồm một loạt các kỹ thuật như: lọc độ tương phản, khử nhiễu, nổi màu… h(x,y; α,β) ảnh đầu ảnh đầu vào f(α,β) ra g(x,y) f(α,ò) ò g(x,y) nhiễu ò hệ thống thu nhận [...]... nghiên cứu sâu hơn về vấn đề tách chữ nhúng trong ảnh Chương 2 CÁC PHƯƠNG PHÁP XÁC ĐỊNH VÙNG CHỨA CHỮ TRONG ẢNH Chương 1 đồ án đã trình bày một cách tổng quan nhất về xử lý ảnh Tiếp theo trong chương này đồ án sẽ trình bày mô hình của hệ thống tách thông tin về chữ nhúng trong ảnh TIE (Text Information Extraction) và một số phương pháp thường sử dụng trong việc xác định vùng chứa chữ trong ảnh 2.1... trình bày một số phương pháp để giải quyết vấn đề tách chữ nhúng trong ảnh, mặc dù mỗi phương pháp đều có những ưu nhược điểm riêng nhưng đây đều là những phương pháp cho độ chính xác khá cao và khá tổng quát Đồng thời, việc nghiên cứu và tìm hiểu các phương pháp này sẽ mang lại những kiến thức cơ bản và gợi ý cho cách tiếp cận nhằm giải quyết bài toán tách chữ nhúng trong ảnh ở chương sau Chương... 2.3.2 Phương pháp xác định vùng chứa chữ dựa trên đặc chưng về vùng ảnh 2.3.2.1 Dựa trờn vùng ảnh Phương pháp này sử dụng cách tiếp cận bottom up bằng cách thực hiện nhúm các vùng nhỏ lại với nhau cho đến khi tất cả các biên ảnh được xác định một cách rừ rang trong ảnh Một phõn tớch về mặt hình học sau đó sẽ được áp dụng sử dụng sự sắp xếp về mặt không gian giữa các thành phần trong ảnh để lọc ra các. .. VÙNG CHỨA CHỮ TRONG ẢNH THÔNG THƯỜNG VÀ ẢNH VIDEO Như đã trình bày trong chương 2 đồ án đã nêu ra những phương pháp chung nhất trong việc xác định vùng chứa chữ trong ảnh Trong chương này đồ án xin trình bày một phương pháp được áp dụng trong bài toán này Đây là một cách tiếp cận của Jain và Yu [38] dựa trên phương pháp xác định vùng chứa chữ dựa theo vùng ảnh 3.1 ĐẶT VẤN ĐỀ Text là một phương tiện thuận... đồng thời hỗ trợ nhiều độ phân giải ) Phương pháp dựa trên kết cấu sẽ dựa vào sự khác biệt giữa text và nền ảnh nhằm tách text Một số phương pháp được sử dụng như dựa trên bộ lọc Gabor, Wavelet, FFT có thể được sử dụng để tỡm ra các đăc tớnh về kết cấu của vùng text trong ảnh 2.3.1.2 Một số phương pháp được đề xuất: Trong lĩnh vực tách chữ trong ảnh, một số phương pháp sau đây đã được dùng để xác định... Hình 2.4: Ảnh phong cảnh với rất nhiều chữ tự nhiên nhúng trong nó Một vài cách tiếp cận nhằm tách thông tin về chữ trong ảnh và video frame đã được đưa ra bao gồm tỏch cỏc dũng text trong ảnh tài liệu, xác định được cỏc vựng chứa chữ trong ảnh thông thường, xác định các index trong video frame Mặc dự đã có rất nhiều nghiờn cứu như vậy nhưng vẫn không dễ dàng để đưa ra một hệ thống Tách thông tin về chữ... và các màu khác trong không gian màu Hình 8a và 8b sẽ cho bạn xem ảnh màu và ảnh xám một số đoạn text mà nhô lên ở trong ảnh màu thì sẽ rất khó khăn với ảnh xám Sau khi chuyển đổi màu, bờ ảnh được xác định sử dụng phương pháp morphological gradient kết quả của việc xác định bờ ảnh là điểm bắt đầu được chứa đựng trong bờ ảnh số Điểm bắt đầu sẽ được xử lí cho mỗi miền ứng cử thích hợp trong cường độ ảnh. .. định vùng chứa chữ một cách tự động Việc thực hiện thuật toán xác định vùng chứa chữ trong ảnh được thể hiện trong 4 ứng dụng sau: i Chuyển các quảng cáo đã được phân loại từ tài liệu giấy sang tài liệu dạng điện tử ii Tỡm kiếm ảnh trên World Wide Web dựa vào chữ nhúng trong ảnh iii Xác định title trong ảnh thông thường iv Xác định title trong ảnh video So với những phương pháp xác định vùng chứa... 2.1: ảnh tài liệu đen trắng:a, chữ trong ảnh một trang bỏo.b, chữ trong ảnh của hai trang và c là chữ trong bản vẽ kỹ thuật Hình 2.2: Ảnh tài liệu nhiều vào Mỗi dòng chữ có thể cùng màu hoặc không cùng màu Hình 2.3: Ảnh trong video với phụ đề là text.a, phụ đề nằm trực tiếp trên nền ảnh b,và c, phụ đề nằm trờn nờn ảnh với độ tương phản cao hơn và c, phụ đề nằm trên nền ảnh với nhiều màu sắc Hình 2.4: Ảnh. .. các, mã hóa Freeman hay xấp xỉ bởi đoạn thẳng Biên sau khi được mô tả sẽ trở thành một đặc trưng quan trọng của vùng mà nó bao quanh Dựa vào các thuộc tính của text trong ảnh, phương pháp dựa trên biờn ảnh làm nổi bật “sự tương phản giữa các đoạn text với nền của ảnh Các cạnh của đường biên vùng text sẽ được xác định và kết hợp lại với nhau, sau đó sẽ lọc ra các miền không phải text ở trong ảnh Các . hơn về vấn đề tách chữ nhúng trong ảnh. Chương 2 CÁC PHƯƠNG PHÁP XÁC ĐỊNH VÙNG CHỨA CHỮ TRONG ẢNH Chương 1 đồ án đã trình bày một cách tổng quan nhất về xử lý ảnh. Tiếp theo trong chương này. vùng chứa chữ nhúng trong ảnh có độ chính xác cao đồng thời là tiền đề cho việc lọc spam ảnh. Với mục tiêu đó, đồ án được thực hiện dựa trên phương pháp nghiên cứu: trước hết là ảnh đầu vào được. lý ảnh : Chương này trình bày tổng quan về một hệ thống xử lý ảnh, và các vấn đề liên quan. Chương 2 : “Cỏc phương pháp xác định vùng chứa chữ trong ảnh : Chương này sẽ trình bày về các phương