3. Cấu trúc luận văn
2.4. Các phép lọc hình thái học ứng dụng cho ảnh OCR
Mặc dù phần lớn các tài liệu được tạo ra và lưu dưới dạng kỹ thuật số, nhưng chúng ta vẫn thường xuyên tương tác với các tài liệu giấy. Tài liệu giấy và kỹ thuật số có những điểm mạnh bổ sung cho nhau: giấy nhẹ, dễ mang theo, dễ vận chuyển, dễ đọc và dễ dàng chú thích. Trái lại, tài liệu điện tử lại có thể được tìm kiếm, lưu trữ trong cơ sở dữ liệu và dễ dàng được chia sẻ qua mạng.
Một cách lý tưởng, người ta có thể chuyển đổi giữa các phiên bản giấy và kỹ thuật số của một tài liệu để mang lại lợi ích từ những ưu điểm của từng phương tiện làm cho điều này khả thi, cần một cách đơn giản, nhanh chóng để quét chính xác tài liệu giấy
49
vào máy tính, máy quét phẳng cùng với phần mềm đáp ứng được nhu cầu này, nhưng máy quét có thể cồng kềnh, chậm chạp. Mặt khác máy ảnh điện thoại cầm tay với webcam nhỏ, có thể chụp nhanh ảnh tài liệu và dễ sử dụng trong cài đặt di động.
Màu nền trước và nền sau của văn bản khá đồng nhất và các ký tự này nằm trong bảng chữ cái chuẩn mực. Thách thức là chụp và nhận dạng văn bản một cách chính xác, do chất lượng ảnh tài liệu thường kém do được chụp bởi các hệ thống dựa trên camera có sẵn.
Đối với hình ảnh cung cấp đủ độ phân giải một cách chính xác phân đoạn ký tự in (chẳng hạn như hình ảnh từ máy quét hoặc máy ảnh độ phân giải cao với ánh sáng được kiểm soát) các phương pháp OCR hiện tại có độ chính xác cao. Ngoài ra, ảnh ghép có độ phân giải cao có thể được tạo từ loạt hình ảnh camera độ phân giải thấp. Ta cần tìm kiếm một phương pháp có thể nhận dạng trực tiếp văn bản từ một hình ảnh duynhất.
2.4.2. Lọc hình thái học
2.4.2.1. Toán tử hình thái trên không gian đồthị
Từ quan điểm chính thức, xử lý hình ảnh kỹ thuật số trước đây ao gồm phân tích các phép biến đổi trên các tập con của Z2 (tập hợp các điểm ảnh trong một hình ảnh nhị phân) và các phép biến đổi hoạt động trên các ánh xạ từ Z2đến N (hình ảnh đơn lẻ). Theo quan điểm như vậy, các toán tử hình thái toán học cung cấp một bộ công cụ lọc và phân đoạn rất hữu ích trong các ứng dụng.[7]
Mặt khác, ngày càng có nhiều sự quan tâm đến việc xem xét các đối tượng kỹ thuật số không chỉ bao gồm các điểm mà còn bao gồm các phần tử nằm giữa chúngvà mang thông tin cấu trúc về cách các điểm được ghép lại với nhau. Đơn giản nhất trong số các biểu diễn này là đồ thị (không trọng số). Miền của một hình ảnh được coi là một đồ thị có đỉnh tập hợp được tạo bởi các điểm ảnh và tập hợp cạnh của nó được cung cấp bởi một quan hệ dựa trên các điểm ảnh này. Trong bối cảnh này, cần phải xem xét các phép biến đổi tác động trên tập hợp tất cả các đồ thị con và không chỉ hành động trên tập hợp tất cả tập hợp con của các điểm ảnh.
Khi xử lý đồ thị G, thường cầnđể xem xét đồ thị được tạo ra bởi một tập hợp con S các đỉnh của G. Cuối cùng, sự kết hợp với S là tập con lớn nhất của các cạnh của G sao cho cặp thu được là một đồ thị. Trong khác trường hợp, phải xét một đồ thị được tạo bởi một tập con các cạnh của G.
50
Được thúc đẩy bằng cách phân loại và hiểu các hoạt động này và kết hợp, vậy đề xuất một nghiên cứu có hệ thống về các toán tử cơ bản là được sử dụng để lấy một tập hợp các cạnh từ một tập các đỉnh và một tập các đỉnh từ một tập hợp các cạnh. Nó chỉ ra rằng các toán tử này là sự giãn nở và ăn mòn. Chúng cho phép khôi phục khái niệm cổ điển về sự giãn nở / xói mòn của một tập hợp con đỉnh và để mở rộng nó đến các đồ thị con. Từ đó, có thể đề xuất một số xử lý ăn mòn và giãn nở thực hiện được trên các tập con của các đỉnh và trên các đồ thị con.
2.4.2.2. Toán tử hình thái trên các phức hợp đơn giản
Mục tiêu của ở đây là tìm hiểu sự giãn nở và ăn mòn hình thái tác động lên các phức hợp (trong đó cả đầu vào và đầu ra của các toán tử đều là phức hợp) và điều đó tạo ra phép đo hạt không tầm thường, (tức là đo độ hạt trong đó độ giãn nở không phải là đơn vị)1. Thật vậy, những phép đo hạt tầm thường như vậy đã được biết đến là quan trọng trong hình thái toán học để phân tích và lọc kỹ thuật số đối tượng theo kích thước của chúng. Sau một lời nhắc ngắn gọn về các tính từ hình thái trong khuôn khổ mạng, ở đây tác giả trình bày các toán tử cổ điển cho xử lý các không gian topo như các phức chất đơn giản. Sau đó, chỉ ra rằng giãn nở, ăn mòn và đo hạt đáp ứng các đặc tính nêu trên có thể thu được bằng cách cẩn thận việc tạo ra các toán tử tôpô này.
Trong hình thái toán học, bất kỳ toán tử nào liên kết các phần tử của mạng tinh thể L1 với các phần tử của mạng tinh thể L2 được gọi là sự giãn nở nếu nó đi cùng với đỉnh. Tương tự, một toán tử giao tiếp với cận dưới đỉnh được gọi là một sự xói mòn. Khái niệm về tính từ, được nhắc lại dưới đây, cho phép phân loại sự giãn nở và ăn mòn thành các cặp toán tử dẫn đến phép đo hạt.
Gọi L1 và L2 là hai mạng có quan hệ thứ tự và siêu tối đa được ký hiệu bởi ≤1, ≤2, V1 và V2. Hai toán tử α: L2 → L1 và αA: L1 → L2 tạo thành một tính từ (αA; α) nếu α (a) ≤1, a ≤2 αA (b) với mọi phần tử a trong L2 và b trong L1. Người ta đã iết rõ rằng, với hai toán tử α và αA, nếu cặp (αA.; α) là một tính từ, thì αAlà một xói mòn và α là một sự giãn nở. Hơn nữa, nếu α là một sự giãn nở, thì quan hệ sau đặc trưng cho mối liên kết của nó xói mòn αA:
1Phép đo hạt (Granulometry) là một cách tiếp cận để tính toán phân bố kích thước của các hạt trong hình ảnh nhị phân
51
∀𝑎 ∈ ℒ1, 𝛼𝐴(𝑎) = 𝑉2{𝑏 ∈ ℒ2 ∣ 𝛼(𝑏) ≤1 𝛼 (2.23) Ở đây việc trình bày hai cặp toán tử liền kề, chúng cổ điển trong cấu trúc liên kết, và điều đó sẽ phục vụ để có được các phép đo hạt tầm thường trên các phức hợp. Cho x là một đơn vị trong C, đặt: 𝑥ˆ = {𝑦 ∣ 𝑦 ⊆ 𝑥, 𝑦 ≠ ∅}̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅𝑥ˇ = {𝑦 ∈ ℂ ∣ 𝑥 ⊆ 𝑦}and . Các toán tử Cl: 𝑃(ℂ) → 𝑃(ℂ) và St: 𝑃(ℂ) → 𝑃(ℂ) được xác định bởi:
∀𝑋 ∈ 𝒫(ℂ), 𝐶𝑙(𝑋) =∪ { 𝑥ˆ ∣ 𝑥 ∈ 𝑋 }; (2.24) ∀𝑋 ∈ 𝒫(ℂ), 𝑆𝑡(𝑋) =∪ { 𝑥˘ ∣ 𝑥 ∈ 𝑋 }; (2.25) Theo định nghĩa, các toán tửCl và St đi cùng với nhau. Do đó, nó là độ giãn trên 𝑃(ℂ). Và bằng cách áp dụng trực tiếp công thức (2.10), sự ăn mòn liền kề ClA và StA của Cl và St được chobởi:
∀𝑋 ∈ 𝒫(ℂ), 𝐶𝑙𝐴(𝑋) =∪ { 𝑌 ∈ 𝒫(ℂ) ∣ 𝐶𝑙(𝑌) ⊆ 𝑋 }; (2.26) ∀𝑋 ∈ 𝒫(ℂ), 𝑆𝑡𝐴(𝑋) =∪ { 𝑌 ∈ 𝒫(ℂ) ∣ 𝑆𝑡(𝑌) ⊆ 𝑋 }; (2.27) Bốn toán tử được trình bày ở trên được minh họa trong Hình 2.28, trong đó các tập con X, Y, Z, V và W, được làm bằng các đơn giản màu xám trong Hình 2.28(a), 2.28(b), 2.28(c), 2.28(d), và 2.28(e), thỏa mãn các quan hệ sau Y = St (X), Z = StA (X), V = Cl (Y), W = ClA (Z).
Cho 𝑋 ∈ 𝑃(ℂ)Tập hợp Cl (X) (tương ứng St (X)) là phức nhỏ nhất (tương ứng
sao) chứa X và tập hợp ClA (X) (tương ứng với StA (X)) là phức lớn nhất (tương ứng sao) chứa trong X. Do đó, rõ ràng, C (tương ứng S) là bất biến miền của Cl và ClA (tương ứng với St và StA): 𝐶 = {𝑋 ∈ 𝑃(ℂ)|Cl(X) = X} = {𝑋 ∈ 𝑃(ℂ)|Cl𝐴(𝑋) = 𝑋} (tương ứng với 𝑆 = {𝑋 ∈ 𝑃(ℂ)|St(X) = X} = {𝑋 ∈ 𝑃(ℂ)|St𝐴(𝑋) = 𝑋}). Các dữ kiện này được biết đến nhiều trong ngữ cảnh của không gian tôpô nơi các tập St (X), ClA (X) và StA (X) được gọi là tương ứng là phần đóng (đơn giản), hình sao, lõi và phần bên trong của X.
Vì các toán tử Cl và St là độ giãn nở, chúng tạo thành một lựa chọn đơn giản để khảo sát hình thái phức hợp. Tuy nhiên, những sự giãn nở này là: Cl ◦ Cl (X) = Cl (X) và St ◦ St (X) = St (X). Do đó, dẫn đến đo hạt tầm thường. Để có được các phép đo hạt không tầm thường, người ta có thể coi thành phần Dil = Cl ◦ St. Thật vậy, toán tử Dil là sự giãn nở (vì nó là một thành phần của các chất pha loãng), nói chung, không phải là
52
đơn vị, kết quả của chúng luôn là phức tạp. Theo định lý về thành phần của các tính từ xói mòn liền kề được đưa ra bởi Er = DilA = StA ◦ ClA. Do những nhận xét của đoạn trước, đặt Er (X) luôn là một hình sao. Như vậy, về tổng thể, tập Er(X) không phức tạp. Do đó, cặp (Er; Dil) không dẫn đến việc đo hạt tác dụng lên phức chất. Để có được các phép đo hạt tầm thường trên các phức hợp, hạn chế toán tử. Chính xác hơn, định nghĩa các toán tử: S → C và C → S bởi:
∀𝑋 ∈ 𝒮,⋄ (𝑋) = 𝐶𝑙(𝑋); (2.28) ∀𝑋 ∈ 𝐶,⋆ (𝑌) = St(𝑌). (2.29) Sự khác biệt duy nhất giữa ⋄ và Cl là các lĩnh vực hoạt động của các toán tử. Một nhận xét tương tự đúng cho⋆và St. Các toán tử này vàcũng rõ ràng là hai độ giãn. Sau đó, sử dụng lại công thức 2.10, sự ăn mòn liền kề ⋆𝐴 và ⋄𝐴 của ⋄ và ⋆ được đưa ra bởi:
∀𝑋 ∈ 𝒞,⋄𝐴(𝑋) = ⋃{ 𝑌 ∈ 𝒮 ∣⋄ (𝑌) ⊆ 𝑋 }; (2.30) ∀𝑌 ∈ 𝒮,⋆𝐴(𝑌) = ⋃{ 𝑋 ∈ 𝒞 ∣⋆ (𝑋) ⊆ 𝑌 }. (2.31) Có thể dễ dàng nhận thấy sao ⋄𝐴(𝑋) là phần bên trong của phức chất X và phức hợp⋆𝐴(𝑌) là lõi của hình sao Y. Do đó, người ta suy ra một cách đơn giản thuộc tính sau liên kết phần phụ của ⋆, ⋄, St và Cl một cách đơn giản hơn.
Thuộc tính 1: Hai mệnh đề sau đây đúng:
∀𝑋 ∈ 𝐶,⋄𝐴(𝑋) = 𝐶𝑙𝐴(𝑋); (2.32) ∀𝑋 ∈ 𝒮,⋆𝐴 (𝑌) = 𝐶𝑙𝐴(𝑌). (2.33) Nó được biết trong cấu trúc liên kết rằng các toán tử đóng và toán tử bên trong là kép với phần bổ sung. Do đó, suy ra kết quả sau đây.
Thuộc tính 2: Các toán tử ⋄ và ⋄𝐴 (tương ứng ⋆ và ⋆𝐴 ) là kép w.r.t. phần bù trong 𝑃(ℂ) : ta có ⋄𝐴 (𝑋) =⋄ (𝑋̅)̅̅̅̅̅̅̅ với bất kỳ 𝑋 ∈ 𝐶 (tương ứng ⋆𝐴 (𝑌) =⋆ (𝑌̅)̅̅̅̅̅̅̅, cho bất kỳ 𝑌 ∈ 𝑆).
Lưu ý rằng sử dụng trực tiếp công thức 2.30, 2.31, tính toán ⋄𝐴(𝑋) (tương ứng ⋆𝐴(𝑌)) yêu cầu một thời gian hàm mũ vì tất cả các hình sao (phức hợp) phải được xem xét. Mặt khác, vì các toán tử Cl và St được xác định cục bộ, ⋄ (𝑋) và ⋆ (𝑋) có thể
53
được tính theo thời gian tuyến tính. Do đó theo hệ quả của 2 thuộc tính, ⋄ (𝑋) và ⋆ (𝑋) cũng có thể được tính theo thời gian tuyến tính.
Bây giờ hãy tìm các phần giãn nở của ⋄ và ⋆ , cũng như các phần phụ của chúng, để có được một cặp giãn nở và ăn mòn liền kề tác động lên phức chất.
Hình 2.28. Minh họa về sự giãn nở và ăn mòn hình thái trên các phức hợp
2.4.2.3. Bộ lọc đóng và mở khu vực hình thái
Bộ lọc loại bỏ khỏi hình ảnh nhị phân, các thành phần được kết nối của nó có diện tích nhỏ hơn một tham số được gọi là khu vực mở. Từ góc độ hình thái học, bộ lọc này là một mở đại số, và nó có thể được mở rộng để hình ảnh thang độ xám. Các thuộc tính của khu vực mở và đóng cửa khu vực kép của họ được thu hồi. Cụ thể, điều đó đã được chứng minh rằng việc khu vực mở của tham số của hình ảnh là tối cao của thang độ xám hình ảnh nhỏ hơn có cực đại khu vực có diện tích lớn hơn hoặc bằng. Định lý này là cơ sở của một thuật toán hiệu quả cho máy tính khu vực thang độ xám mở và đóng. Việc thực hiện của nó ao gồm quét các điểm ảnh theo thứ tự phụ thuộc cả về vị trí và giá trị của chúng. Đối với mục đích này, sử dụng các điểm ảnh được đề xuất. Cấu trúc dữ liệu này là hiển thị và không yêu cầu cao về bộ nhớ. Ngoài ra, nó có thể được sử dụng trong tính toán của biến đổi hình thái phức tạp khác nhau. Các ứng dụng các khu vực mở và đóng được minh họa trên nhiệm vụ lọc ảnh và phân đoạn.
2.5. Phương pháp đánh giá chất lượngảnh2.5.1. Sai số bình phương trung bình (MSE) 2.5.1. Sai số bình phương trung bình (MSE)
Sai số bình phương trung bình - MSE (Mean Squared Error) là một khái niệm được sử dụng trong thống kê. MSE đánh giá chất lượng của một ước lượng (ví dụ, một hàm toán học lập bản đồ mẫu dữ liệu của một tham số của dân số từ đó các dữ liệu được lấy mẫu) hoặc một yếu tố dự báo (ví dụ, một bản đồ chức năng có số liệu vào tùy ý để một mẫu của các giá trị của một số biến ngẫu nhiên). Chỉ số MSE của một phép ước lượng
54
là trung bình của bình phương các sai số, tức là sự khác biệt giữa các ước lượng và những gì được đánh giá.
Chỉ số này dùng để đánh giá mức độ sai khác của các điểm ảnh giữa ảnh gốc và ảnh khôi phục. Chỉ số MSE được tính theo công thức sau:
MSE =𝑚𝑛1 ∑𝑖=1𝑚 ∑𝑗=1𝑛 (𝑥𝑖𝑗− 𝑦𝑖𝑗)2 (2.34) Trong đó:
xij: biểu thị giá trị điểm ảnh gốc.
yij: biểu thị giá trị điểm ảnh đã được biến đổi. m và n lần lượt là chiều rộng và chiều cao của ảnh.
2.5.2. Tỷ số tín hiệu cực đại/ nhiễu (PSNR)
PSNR (Peak Signal to Noise Ratio) –là chỉ số dùng để tính tỉ lệ giữa giá trị năng lượng tối đa của một tín hiệu và năng lượng nhiễu ảnh hướng đến độ chính xác của thông tin. PSNR được sử dụng để đo chất lượng tín hiệu khôi phục của các thuật toán nén có mất mát dữ liêu (lossy compression) như nén ảnh. Tín hiệu trong trường hợp này là dữ liệu gốc, và nhiễu là các lỗi xuất hiện khi nén.
Hệ số PSNR (đơn vị deciben, dB), thường được sử dụng trong nghiên cứu xử lý hình ảnh được tính như sau [22]:
PSNR = 10∗log 10 (2552
𝑀𝑆𝐸) (2.35) Thông thường, nếu PSNR > 40 dB thì hệ thống mắt người gần như không phân biệt được giữa ảnh gốc và ảnh khôi phục. PSNR càng cao thì chất lượng ảnh khôi phục càng tốt.
Khi hai hình ảnh giống hệt nhau, MSE sẽ bằng 0 và PSNR đi đến vô hạn.
2.5.3. Chỉ số tương đồng về cấu trúc SSIM
Khác với các chỉ số MSE và PSRN, so sánh giá dựa trên việc so sánh sự sai khác giữa các pixcel. Chỉ số SSIM là một trong các chỉ số đánh giá dựa trên hệ thống thị giác của con người HVS (human visual system) [21]
Chỉ số này được sử dụng để đo mức độ giống nhau giữa ảnh gốc và ảnh khôi phục. Chỉ số này được tính như sau:
55
SSIM(𝑥, 𝑦) = (2𝜇𝑥𝜇𝑦+ 𝑐1)(2𝜎𝑥𝑦+ 𝑐2)
(𝜇𝑛2 + 𝜇𝑦2+ 𝑐1)(𝜎𝑥2+ 𝜎𝑦2+ 𝑐2) (2.36) Trong đó:
𝜇𝑥: biểu thị giá trị trung bình của x 𝜇𝑦: biểu thị giá trị trung bình của y 𝜎𝑥2: biểu thị giá trị phương sai của x 𝜎𝑦2: biểu thị giá trị phương sai của y
𝜎𝑥𝑦: biểu thị hiệp phương sai (covariance) của x và y.
𝑐1 = (𝑘1𝐿)2, 𝑐2 = (𝑘2𝐿)2: 2 biến ổn định phép chia có mẫusố yếu với k1=0.01 và k2=0.03 là giá trị mặc đinh.
Công thức SSIM dựa trên 3 thông số để so sánh: độ chói (luminance), tương phản (contranst) và cấu trúc (structure) [23]
𝑙(𝑥, 𝑦) = 𝜇2𝜇𝑥𝜇𝑦 + 𝑐1 ∗ 2+ 𝜇𝑦2 + 𝑐1 (2.37) 𝑐(𝑥, 𝑦) =𝜎2𝜎𝑥𝜎𝑦+ 𝑐2 𝑥2+ 𝜎𝑦2+ 𝑐2 (2.38) 𝑠(𝑥, 𝑦) = 𝜎𝑥𝑦 + 𝑐3 𝜎𝑥𝜎𝑦 + 𝑐3 (2.39) Từ đó, chúng ta có công thức sau[21][22][23]: SSIM (𝑥, 𝑦) = [𝑙(𝑥, 𝑦)]𝛼 ⋅ [𝑐(𝑥, 𝑦)]𝛽 ⋅ [𝑠(𝑥, 𝑦)]𝛾 (2.40) Giá trị SSIM sẽ trong khoảng từ -1 đến 1, đạt giá trị bằng 1 trong trường hợp ảnh giống nhau.
2.6. Kết luận
Trong chương này chúng ta đã tìm hiểu một cách khái quát nhất về các phép toán hình thái ứng dụng cho các loại ảnh khác nhau. Nhìn chung thuật ngữ “hình thái học” được hiểu một cách nôm na là “hình dạng và cấu trúc” của đối tượng. Phần lớn các phép toán hình thái dựa trên hai phép toán cơ bản là phép co và giãn ảnh và đa phần là được thực hiện trên ảnh nhị phân
Đối với ảnh nhị phân, mức xám chỉ có hai giá trị là 0 hay 1. Do vậy ta coi một phần tử ảnh như một phần tửlôgic và có thể áp dụng các phép toán hình thái học dựa trên khái niệm biến đổi hình học của một ảnh bởi một phần tử cấu trúc. Phép giãn ảnh nhằm loại bỏ những điểm ảnh đen bị vây quanh bởi các điểm ảnh trắng và phép co ảnh
56
là thao tác đối ngẫu của giãn ảnh nhằm loại bỏ những điểm trắng bị vây bởi các điểm ảnh đen. Do đó người ta thường vận dụng các kĩ thuật này cho các ảnh nhị phân như