.30 Ảnh nhị phân của con thằn lằn với phép chiếu ngang và dọc

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Trang 61)

Phép chiếu H[i] dọc theo dòng (phép chiếu ngang) và phép chiếu V[j] dọc theo cột của một bức ảnh (phép chiếu dọc) nhị phân được tính theo công thức sau:

(2.3.19) 1 [ ] [ , ] n V j B i j   1 0 [ ] [ , ] m j H i B i j    

2.4. Đối sánh những đặc trưng trong hệ thống đề xuất

2.4.1. Tỉ lệ về chiều cao và chiều rộng (Width to Height Ratio)

Sau khi chúng ta đã xác định được vùng của từ trong ảnh tài liệu. Để xác định tỉ lệ này ta dựa vào hình chữ nhật bao bao quanh vùng của từ. Đặc trưng này là thông tin quan trọng liên quan đến hình dạng của từ.

Hình 2.31 Xác định tỉ lệ chiều rộng và cao dựa vào hình chữ nhật bao của vùng trong từ

2.4.2. Mật độ vùng của từ (Word Area Density)

Đây là đặc trưng được biểu diễn bằng phần trăm số điểm ảnh đen có trong Hình chữ nhật bao của vùng trong từ. Phần trăm này được tính sử dụng công thức sau: ( ) 100 ( )( ) BP E IW IH  (2.4.1) Trong đó:

 (BP) là số điểm ảnh đen có trong Hình chữ nhật bao của từ

 (IW) là chiều rộng của Hình chữ nhật bao của từ

 (IH) là chiều cao của Hình chữ nhật bao của từ

2.4.3. Điểm trọng tâm của từ ( Center of Gravity )

Điểm này được biểu diễn bởi khoảng cách Euclidean từ điểm trọng tâm của từ đến điểm tận cùng bên trái của Hình chữ nhật bao. Để tính khoảng cách này, điểm trọng tâm theo chiều ngang và dọc phải được xác định theo công thức sau:

(1,0)

x

M C

(0,1) (0,0) y M C M  (2.4.3)

Trong đó là điểm trọng tâm theo chiều ngang và là điểm trọng tâm theo chiều dọc và là moment hình học với bậc p + q và được tính theo công thức sau: ( , ) ( , ) w q p p q x y x y M f x y idth height               (2.4.4)

Trong đó, x và y là tọa độ điểm ảnh trong ảnh. Bởi vì ảnh chúng ta xử lý là ảnh nhị phân nên hàm bằng một khi điểm ảnh có tọa độ x, y là điểm ảnh đen và bằng không khi điểm ảnh là trắng. Việc chia x và y cho chiều rộng và chiều cao của Hình chữ nhật bao của một từ đưa ra một moment hình học được chuẩn hóa và không thay đổi với kích thước của từ. Cuối cùng, đặc trưng về điểm trọng tâm được xác định bằng khoảng cách Euclidean so với điểm tận cùng bên trái của Hình chữ nhật bao như sau:

2 2

x y

COGCC

(2.4.5)

2.4.4. Phép chiếu dọc (Vertical Projection)

Đặc trưng này bao gồm một vector với hai mươi phần tử lấy ra từ phép chiếu dọc đã được chuẩn hóa và làm trơn. Những thành phần này tương ứng với hệ số của hai mươi thành phần đầu tiên của phép biến đổi cosin rời rạc( Discrete Cosine Transform ) trong phép chiếu dọc đã được chuẩn hóa và làm trơn. Phép chiếu dọc ứng với từ được làm trơn sử dụng ma trận mặt nạ kích thước 5×1. Với cách này, phép chiếu cuối cùng có tác động nhiều đến sự thay đổi về kích cỡ và loại font chữ.

Hình 2.32 Ảnh tính toán phép chiếu dọc : (a) là ảnh gốc; (b) là phép chiếu dọc; (c) là phép chiếu đã được làm trơn và sử dụng ma trận mặt nạ 5×1.

Dưới đây sẽ đưa ra khái niệm làm trơn ảnh và phép biến đổi cosin rời rạc để phục vụ cho việc trích trọn đặc trưng này và sử dụng cho việc trích chọn các đặc trưng.

* Làm trơn ảnh

Xuất phát từ nguyên nhân thực tế, một bộ phận các điểm ảnh (tùy vào tỷ lệ nhiễu) sẽ biến đổi cường độ sáng, dẫn đến chất lượng ảnh bị giảm đáng kể. Đối với những hệ thống xử lý ảnh số, việc lọc nhiễu, làm trơn ảnh được xem là bước tiền xử lý quan trọng và chất lượng của giai đoạn này ảnh hưởng rất lớn đến tính hiệu quả của các xử lý tiếp hay nói cách khác đó là quá trình nâng cao chất lượng ảnh.

Ví dụ, một mô h́ình đơn giản đó là những điểm ảnh lấy ra từ vùng ảnh của cùng một đối tượng nào đó có giá trị, trong đó một vài mức xám có thể trong điều kiện bức ảnh lý tưởng và là nhiễu Gaussian của giá trị 0 và có độ lệch chuẩn. Hình 2.33 (bên trái trên cùng ) đưa ra một bàn cờ lý tưởng với những vùng đồng nhất. Nhiễu Gaussian đã được thêm vào bức ảnh để tạo ra bức ảnh có nhiễu ở vị trí trung tâm, chú ý rằng những giá trị nhiễu đã được giảm để giữ trong khoảng từ [0-255]. Ở bức ảnh trên cùng phía bên phải là một bức vẽ các giá trị điểm ảnh dọc theo một dòng đơn của bức ảnh.

Nhiễu mà biến thiên ngẫu nhiên bên trên và bên dưới giá trị mức sáng bình thường đối với một vùng có thể được giảm đi bằng cách tính trung bình các giá trị gần nó ( tức là giá trị kề của nó)

Ảnh đầu ra[r,c] = giá trị trung bình của một vài hàng xóm của ảnh đầu vào [r,c]

2 2 2 2 [ , ] [ , ] 25 In r i c j Out r c        (2.4.6)

Hình 2.33 Ảnh bàn cờ lý tưởng và ảnh bàn cờ có nhiễu. Sau đó ảnh được khử nhiễu bằng cách làm trơn ảnh sử dụng ma trận mặt nạ 5x5

Biểu thức 2.4.6 định nghĩa một bộ lọc mà tính trung bình giá trị của 25 điểm ảnh trong ma trận 5×5 các điểm láng giềng của ảnh đầu vào để tạo ra một bức ảnh đã được làm trơn. Hình 2.33( ảnh ở trung tâm bức ảnh phía dưới) giải thích ích lợi của việc làm trơn trên bức ảnh bàn cờ : dòng của ảnh ở bức ảnh bàn cờ phía dưới cùng bên phải được làm trơn hơn so với dòng của bức ảnh đầu vào phía bên phải trên cùng. Cũng chú ý là trong khi ảnh được làm trơn thì rõ ràng hơn so với ảnh gốc, nhưng nó không có độ nét bằng như ảnh gốc.

* Biến đổi cosin rời rạc (Discrete Cosin Transform)

Xem xét một tín hiệu s(n) gồm N điểm được coi như là vector kích thước N như sau:

Phép biến đổi ngược nói rằng S có thể được biểu diễn như là tổng của N vector cơ bản sau:

(2.4.8)

Trong đó tương đương với hệ số biến đổi thứ k trong vector sau: (2.4.9)

Phép biến đổi xuôi nói rằng hệ số mở rộng có thể được xác định bằng cách nhân s với .

(2.4.10)

Phép biến đổi cosin rời rạc (Discrete Cosin Transform) xác định như sau: (2.4.11)

Trong đó, , Như vậy cuối cùng

(2.4.12)

2.4.5. Phép chiếu hình dạng trên và dưới (Top – Bottom Shape Projections)

Phép chiếu hình dạng trên và dưới như được mô tả ở hình 2.34 bên dưới có thể được xem như là dấu hiệu để xác định hình dạng của từ. Dấu hiệu này đưa đến một vector đặc trưng gồm 50 thành phần, trong đó 25 giá trị đầu là 25 hệ số đầu tiên của

trên đã được chuẩn hóa và làm trơn (hình 2.34d) và 25 giá trị còn lại là 25 hệ số của phép biến đổi cosin rời rạc trong phép chiếu hình dạng dưới đã được chuẩn hóa và làm trơn (hình 2.34e).

Để tính toán phép chiếu hình dạng trên, ảnh của từ được quét từ trên xuống dưới. Quan sát ở hình 2.34b, bất cứ khi nào điểm ảnh đen được tìm thấy thì các điểm ảnh sau đó trong cùng một cột, xét theo chiều từ trên xuống dưới được chuyển thành điểm ảnh đen.

Phép chiếu hình dạng dưới cũng được thao tác tương tự. Như quan sát ở hình 2.34c, ảnh của từ được quét từ dưới lên trên. Tất cả điểm ảnh trong cùng một cột sẽ chuyển thành điểm ảnh đến khi một điểm ảnh đen được tìm thấy.

Hình 2.34 Ảnh biểu diễn thao tác với đặc trưng phép chiếu trên và dưới của từ

Cuối cùng hai phép chiếu này được tính toán giống như đặc trưng phép chiếu dọc trước đó.

2.4.6. Những đặc trưng phần bên trên và bên dưới của từ (Upper - Down Grid Features )

Phần bên trên của từ là phần mà các chữ cái bình thường có phần nhô ra hướng lên trên như chữ ‘d’, ‘t’, ‘b’...v.v. Đặc trưng lấy ở đây gồm 10 thành phần

với giá trị nhị phân lấy ra từ phần bên trên của từ. Để tính toán những đặc trưng này, ban đầu chúng ta phải có phép chiếu ngang của ảnh. Sau đó, từ phép chiếu ngang này, phần bên trên của từ được xác định theo thuật toán sau:

Bước 1: Áp dụng phép làm trơn cho phép chiếu ngang với ma trận mặt nạ 5×1.

Bước 2: Bắt đầu từ trên, tìm vị trí i trong biểu đồ phép chiếu ngang V[i] sao cho V[i] ≥ 3

2H như Hình bên dưới. Trong đó, H là chiều cao lớn nhất của phép chiếu ngang (max{V[i]}). Nếu như vị trí i là nằm nửa bên dưới của phép chiếu ngang thì từ đó không có phần bên trên.

Bước 3: Tìm vị trí k (0,i) trong lược đồ phép chiếu ngang V[i] khi V(k) V(k-1) 0. Thì k định nghĩa vị trí phần bên trên của từ, Nếu k có giá trị nhỏ ( 3 hoặc 2 ) thì từ không có phần bên trên.

Hình 2.35 Ảnh biểu diễn thao tác với đặc trưng thông tin về phần bên trên và phần bên dưới của từ

thì giá trị tương đối của vector đặc trưng sẽ đặt là 1; ngược lại đặt là 0. Vector đặc trưng thu được như ở hình 2.35d.

Phần bên dưới của từ là phần mà các chữ cái bình thường có phần nhô hướng xuống dưới ra như chữ ‘y’, ‘p’, ‘g’...v.v. Đặc trưng này được tính toán tương tự như đặc trưng phần trên của từ. Nhưng việc tìm kiếm phần bên dưới bắt đầu từ dưới lên trên.

Cuối cùng tổng hợp từ các đặc trưng lấy ra ta có vector đặc trưng gồm 93 thành phần theo thứ tự cấu trúc như hình 2.36 bên dưới.

Hình 2.36 Mô hình 93 thành phần theo thứ tự cấu trúc

2.5. Thực hiện công việc đối sánh trong hệ thống đề xuất

Thủ tục đối sánh từ có thể xác định ảnh từ của tài liệu mà có độ tượng tự cao so với từ truy vấn thông qua cấu trúc vector đặc trưng.

Đầu tiên, một mô tả được tạo ra là một vector gồm các đặc trưng bao gồm 93 thành phần đã được đề xuất hình 2.36. Thành phần đầu tiên là đặc trưng về tỉ lệ

1 ( ) ( ) 100 ax( ) MD i R i m MD  

chiều rộng và chiều cao; đặc trưng thứ hai là đặc trưng về mật độ diện tích và thứ ba là điểm trọng tâm của từ. Đặc trưng tiếp theo là 20 thành phần được lấy ra từ phép chiếu dọc và 50 thành phần tiếp theo là đặc trưng của phép chiếu trên và dưới. Cuối cùng, 20 thành phần cuối được lấy ra từ phần bên trên và phần bên dưới của từ.

Tiếp theo, khoảng cách Minskowski (Mahatan) được tính toán theo vector đặc trưng mô tả cho mỗi từ trong cơ sở dữ liệu:

  93 1 ( ) ( ) W( , ) MD i  Q kk i (2.5.1)

Trong đó MD(i) là khoảng cách Minkowski của từ i. Q(k) là vector đặc trưng mô tả của từ truy vấn và W(k,i) là mô tả của từ thứ i.

Hình 2.37 Thủ tục đối sánh từ

Sau đó, tỉ lệ đối sánh với các từ còn lại trong cơ sở dữ liệu được chuẩn hóa trong giá trị từ 0 đến 100, giá trị này thể hiện độ tương tự của từ truy vấn với từ trong cơ sở là thấp hay cao. Tỉ lệ cho mỗi từ được tính toán như sau:

(2.5.2)

Cuối cùng, hệ thống hiển thị các ảnh tài liệu có chứa các từ theo thứ tự giảm dần đối với tỷ lệ tương ứng. Trong quá trình thực hiện, các ảnh tài liệu được hiển thị cho người dùng là những ảnh tài liệu có tỷ lệ tương tự trên 70%.

Kết luận

Chương này chủ yếu trình bày các thao tác dùng để nhận dạng các từ trong văn bản của hình ảnh tài liệu và tìm hiểu hiểu được các đặc trưng chung hay dùng để đối sánh đối tượng.

CHƯƠNG 3:

CHƯƠNG TRÌNH THỬ NGHIỆM TÌM KIẾM TỪ TRONG ẢNH TÀI LIỆU TRÊN CƠ SỞ LÝ THUYẾT ĐÃ XÂY DỰNG

Trong chương này sẽ xây dựng chương trình thử nghiệm nhằm mục đích tìm kiếm các ảnh tài liệu trong cơ sở dữ liệu (CSDL). Dữ liệu vào là 100 bức ảnh ngôn ngữ tiếng anh được tham khảo từ trang web http://orpheus.ee.duth.gr/irs2_5 . Sau đó, những bức ảnh này được tiền xử lý và đưa vào cơ sở dữ liệu.

Đầu vào

1) Cơ sở dữ liệu các ảnh tài liệu: Những ảnh đầu vào (ảnh đa mức xám) sẽ được chuyển sang ảnh nhị phân và đồng thời nhận dạng các ký tự trong từ có trong ảnh tài liệu rồi mới được đưa vào CSDL.

2) Từ: chương trình thử nghiệm cho phép nhập vào một từ, chương trình sẽ tạo ra ảnh từ và tìm kiếm các bức ảnh có chứa ảnh từ này trong CSDL ảnh tài liệu. Đầu ra: Các tệp ảnh trong có chứa ảnh từ trong cơ sở dữ liệu tài liệu.

3.1.Môi trường cài đặt

+ Hệ thống đề xuất được cài đặt với sự giúp đỡ của công cụ lập trình Visual Studio 2010 và phát triển dựa trên Microsoft.NET Framework 3.5.

+ Ngôn ngữ lập trình C#

+ Cơ sở dữ liệu sử dụng là Microsoft SQL Server 2012

3.2. Hệ thống mô tả chương trình thử nghiệm

Hệ thống đề xuất tìm kiếm từ trong ảnh tài liệu dựa trên sự phát hiện từ, tìm kiếm ảnh tài liệu bằng cách sử dụng một thủ tục kết hợp từ, thực hiện khớp từ trực tiếp trong các hình ảnh tài liệu bỏ qua phương pháp nhận dạng ký tự quang học (OCR - optical character recognition) và sử dụng các hình ảnh từ như các truy vấn. Toàn bộ hệ thống bao gồm các thủ tục A và thủ tục B.

Hình 3.1. Cấu trúc tổng thể của hệ thống tìm kiếm từ trong ảnh tài liệu

Trong thủ tục B, các hình ảnh tài liệu được phân tích để xác định vị trí các giới hạn từ bên trong chúng. Sau đó, một bộ các đặc trưng có khả năng bắt hình dạng từ và loại bỏ sự khác biệt chi tiết do nhiễu hoặc phông chữ và kết quả được lưu trữ trong cơ sở dữ liệu. Người sử dụng, trong thủ tục A, nhập một từ truy vấn và sau đó hệ thống đề xuất tạo ra một hình ảnh của nó và trích chọn ra cùng một bộ các đặc trưng. Do đó, các đặc trưng này được sử dụng để tìm những từ tương tự thông qua thủ tục kết hợp. Cuối cùng, các ảnh tài liệu có chứa những từ tương tự này được hiện thị cho người dùng. Hình ảnh từ hình ảnh truy vấn là hình ảnh nhân tạo mô tả từ tìm kiếm của người dùng và nó được tạo ra bởi hệ thống đề xuất với chiều cao chữ bằng chiều cao trung bình của tất cả các ảnh văn bản thu được thông qua giai đoạn phân đoạn từ của thủ tục B.

Hệ thống tìm kiếm từ trong ảnh tài liệu đã xây dựng thì chiều cao trung bình là 50, loại phông chữ của hình ảnh truy vấn là Arial. Tuy nhiên, việc làm trơn và các đặc trưng khác nhau được mô tả trước khi loại bỏ sự khác biệt nhỏ giữa các loại phông chữ. Cuối cùng, hình ảnh truy vấn được tạo ra được xử lý giống hệt như hình ảnh từ tài liệu.

3.3. Giao diện chính của chương trình tìm kiếm từ trong ảnh tài liệu

Chương trình được thiết kế gồm hai chức năng chính là thêm ảnh tài liệu vào CSDL và tìm kiếm từ trong ảnh tài liệu.

Khi thực hiện thêm ảnh tài liệu vào cơ sở dữ liệu, chương trình sẽ xuất hiện một hộp thoại như hình 3.2 và hình 3.3

Hình 3.2 và hình 3.3 giao diện chức năng thêm ảnh vào CSDL

Chức năng chính ở trong giao diện này là duyệt file, lưuhủy. Khi ta chọn chức năng duyệt file chương trình sẽ hiển thị đường dẫn để tìm đến file có chứa các ảnh tài liệu trong máy tính, chúng ta chỉ có thể chọn một ảnh tài liệu duy nhất không thể chọn nhiều ảnh tài liệu cùng một lúc. Khi chọn xong ảnh tài liệu cần thêm vào cơ sở dữ liệu thì chương trình sẽ tự động hiển thị lên bức ảnh tài liệu tương ứng.

Otsu và tách ra các từ có trong ảnh tài liệu. Vì vậy quá trình xử lý sẽ mất một thời gian nhất định tùy thuộc vào ảnh tài liệu đầu vào. Sau khi quá trình xử lý xong sẽ hiện lên thông báo là cập nhật thành công như hình 3.4, nhấn vào nút ok thì ảnh tài liệu qua xử

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Trang 61)

Tải bản đầy đủ (PDF)

(82 trang)