Phân đoạn
ảnh
Phân loại Ảnh đầu vào cho
quá trình tiền xử lý
Phân loại Phân tích
Phương pháp phát hiện biên trực tiếp là làm nổi biên dựa vào sự biến thiên về độ sáng của ảnh. Kỹ thuật chủ yếu được dùng là dựa vào đạo hàm. Nếu lấy đạo hàm bậc nhất của ảnh ta có phương pháp Gradient, nếu lấy đạo hàm bậc hai ta có phương pháp Laplace.
Phương pháp phát hiện biên gián tiếp. Nếu bằng một cách nào đó ta phân biệt được ảnh bằng các vùng thì đường phân ranh giới giữa các vùng đó chính là biên. Hai kỹ thuật dò biên và phân vùng các đối tượng là hai bài tốn đối ngẫu nhau. Thật vậy, dị biên để phân lớp một đối tượng ảnh, nhưng nếu phân lớp xong thì thì có nghĩa là đã phân vùng được các đối tượng ảnh và ngược lại, khi đã phân vùng được các đối tượng ảnh thì cũng phân lớp được các đối tượng ảnh và ta có thể phát hiện biên.
Phương pháp phát hiện biên trực tiếp tỏ ra khá hiệu quả và ít chịu ảnh hưởng của nhiễu, song nếu sự vật có sự biến đổi độ sáng không đột ngột phương pháp này tỏ ra rất kém hiệu quả.
Phương pháp dò biên gián tiếp tuy khó cài đặt nhưng lại áp dụng tốt cho những ảnh có sự biến thiên độ sáng ít.
2.2. Các phương pháp dị biên trực tiếp
2.2.1. Phương pháp Gradient
Phương pháp Gradient là phương pháp dò biên cục bộ dựa vào cực đại của đạo hàm. Theo định nghĩa, Gradient là một vector biểu thị tốc độ thay đổi giá trị của điểm ảnh theo 2 hướng x và y. Các thành phần của Gradient được tính bởi: dx y x f y dx x f x y x f fx ( , ) ( , ) ( , ) dy y x f dy y x f y y x f fy ( , ) ( , ) ( , ) (13)
Với dx, dy là khoảng cách giữa các điểm theo hướng x và y (được tính bằng số điểm ảnh). Trong hệ toạ độ cực ta có:
f(x,y) = f(r.cos, r.sin)
x = r.cos, y = r.sin. ⇒ r y y f r x x f r f fxcos + fysin và y y f x x f f r.fx.sin + r.fy.cos.
Trong thực tế, khi ta nói lấy đạo hàm của ảnh thực ra chỉ là mô phỏng và xấp xỉ đạo hàm bằng các kỹ thuật nhân chập hay phép cuộn. Do ảnh số là tín hiệu rời rạc nên đạo hàm không tồn tại.
* Kỹ thuật PreWitt: Kỹ thuật này sử dụng 2 mặt nạ theo hai hướng x và
y như sau:
Q trình tính tốn được thực hiện qua 2 bước: * Bước 1: Tính I Hx và I Hy
* Bước 2: Tính (I Hx ) + (I Hy)
* Kỹ thuật Sobel: Tương tự như kỹ thuật PreWitt, kỹ thuật Sobel sử dụng 2 ma trận mặt nạ nhân chập là: -1 0 1 Hx = -2 0 2 -1 0 1 -1 -2 -1 Hy = 0 0 0 1 2 1 -1 0 1 Hx = -1 0 1 -1 0 1 -1 -1 -1 Hy = 0 0 0 1 1 1 dx = dy = 2 (14) (15)
2.2.2. Phương pháp Laplace
Các phương pháp đánh giá Gradient ở trên làm việc rất tốt khi độ sáng thay đổi rõ nét. Tuy nhiên, khi mức xám thay đổi chậm, miền chuyển tiếp trải rộng, phương pháp Gradient lại kém hiệu quả so với phương pháp đạo hàm bậc 2 Laplace [11]. Theo định nghĩa, toán tử Laplace như sau:
2f = 2 2 2 2 y f x f Ta có: x y x f y x f x f x x f ( ( 1, ) ( , )) ) ( 2 2
[f(x+1,y) - f(x,y)] - [f(x,y) - f(x-1,y)]
= f(x+1,y) – 2f(x,y) + f(x-1,y). Tương tự: 2 2 y f
f(x,y+1) - 2f(x,y) + f(x,y-1).
Mặt nạ nhân chập:
Trong thực tế, người ta thường sử dụng một số biến dạng khác của toán tử Laplace bằng cách sử dụng một số mặt nạ sau:
2.3. Phương pháp dò biên tổng quát
2.3.1. Khái niệm chu tuyến
Chu tuyến của đối tượng ảnh E được định nghĩa là dãy các điểm ảnh P0,P1,P2,...Pn của E thoả mãn: Với i=1,2,...,n Q E với Q là 4-láng giềng
0 1 0 H = 1 -4 1 0 1 0 0 -1 0 H1 = -1 4 -1 0 -1 0 -1 -1 -1 H2 = -1 8 -1 -1 -1 -1 1 -2 1 H3 = -2 4 -2 1 -2 1 (16) (17)
của Pi và Pi-1,Pi-1 là 8-láng giềng của Pi. Trong đó P0=Pn. Khi đó, ta cũng gọi n là độ dài hay chu vi của chu tuyến.
Trong đó, 4-láng giềng được định nghĩa là các điểm trực tiếp bên trên, dưới, trái, phải của một điểm. Và 8-láng giềng là những điểm 4-láng giềng
hoặc các điểm trên trái, trên phải, dưới trái, dưới phải trực tiếp của một điểm.
* Chu tuyến đối ngẫu
Hai chu tuyến C = <p1,p2,...pn> và C’ = <q1,q2,...qn> được gọi là hai chu tuyến đối ngẫu của nhau nếu và chỉ nếu:
i j sao cho pi và qj là 8 láng giềng của nhau. Các điểm pi là ảnh thì qj là nền và ngược lại.
* Chu tuyến trong
Chu tuyến C được gọi là chu tuyến trong nếu và chỉ nếu:
Chu tuyến đối ngẫu C’ của nó là chu tuyến của các điểm nền. Độ dài của chu tuyến C’ nhỏ hơn độ dài của chu tuyến C.
* Chu tuyến ngoài
Chu tuyến C được gọi là chu tuyến ngồi (hình 2.7) nếu và chỉ nếu: Chu tuyến đối ngẫu C’ của C là chu tuyến các điểm nền. Độ dài của chu tuyến C’ lớn hơn độ dài chu tuyến C.
Từ định nghĩa, ta thấy chu tuyến ngoài của một đối tượng là một đa giác có độ dày bằng một bao quanh đối tượng.
P Hình 2.5 Các 4- láng giềng của điểm ảnh P P Hình 2.6 Các 8- láng giềng của điểm ảnh P
2.3.2. Phương pháp dò biên tổng quát
Giả sử ảnh đã được phân vùng. Về cơ bản thuật tốn dị biên trong một vùng bao gồm các bước cơ bản sau:
+ Bước 1: Xác định điểm biên xuất phát. + Bước 2: Dự báo điểm biên tiếp theo:
bn+1 = T(bn)
+ Bước 3: Lặp lại bước hai cho đến khi nào gặp điểm xuất phát
Do xuất phát từ một tiêu chuẩn và định nghĩa khác nhau về điểm biên, quan hệ liên thơng [3], nên các tốn tử dò biên cho ta những đường biên với sắc thái khác nhau.
Kết quả tác động của tốn tử dị biên lên một điểm biên (bn) là một
điểm biên (bn+1), là điểm 8-láng giềng của bn. Thơng thường các tốn tử này được xây dựng như một hàm đại số bool trên các 8-láng giềng của bn. Mỗi
cách xây dựng toán tử đều phụ thuộc vào định nghĩa quan hệ liên thơng về Hình 2.8 Chu tuyến trong và chu tuyến ngoài của một đối tượng
Chu tuyến trong
Chu tuyến ngoài
Chu tuyến C
Chu tuyến C’
Hình 2.7 Ví dụ về các chu tuyến đối ngẫu
điểm biên, và sẽ gây khó khăn cho việc khảo sát các tính chất của đường biên. Ngồi ra vì mỗi bước dị biên đều phải kiểm tra tất cả 8 - láng giềng của mỗi điểm nên toán tử thường kém hiệu quả. Để khắc phục hạn chế trên ta sẽ phân tích tốn tử dị biên thành hai bước:
+ Xác định cặp nền vùng tiếp theo. + Lựa chọn điểm biên.
* Bởi vậy thuật toán tổng quát sẽ trở thành: + Bước 1: Xác định cặp nền vùng xuất phát. + Bước 2: Xác định cặp nền vùng tiếp theo.
+ Bước 3: Lặp lại bước hai cho đến khi gặp cặp nền vùng xuất phát. Khái niệm cặp vùng nền được định nghĩa gồm một điểm vùng và một điểm nền, trong đó nếu điểm vùng đi được một vịng chu tuyến thì điểm nền cũng đi được một vòng chu tuyến đối ngẫu.
Các bước được mô tả cụ thể như sau:
- Bước 1: Việc xác định cặp nền vùng xuất phát được xác định bằng
cách duyệt ảnh lần lượt từ trên xuống dưới, từ trái qua phải, rồi kiểm tra điều kiện theo định nghĩa ánh xạ cặp nền vùng (chỉ mang tính quy ước). Ở đây ta chọn điểm vùng xuất phát là điểm vùng đầu tiên duyệt đến. Điểm nền xuất phát là điểm ngay sau điểm vùng xuất phát (theo chiều ngang).
- Bước 2: Ta gọi ánh xạ cặp nền vùng tiếp theo là tốn tử dị biên. Cách
tìm cặp nền vùng tiếp theo như sau: lấy tâm là điểm vùng hiện tại, ta xoay theo chiều kim đồng hồ bắt đầu từ điểm nền hiện tại, cho đến khi gặp một điểm vùng là 8-láng giềng của điểm vùng hiện tại thì dừng lại, điểm đó chính là điểm vùng tiếp theo. Vẫn lấy tâm là điểm vùng hiện tại, điểm nền tiếp theo là điểm 8-láng giềng của điểm vùng hiện tại ngay sau điểm vùng tiếp theo xoay ngược chiều kim đồng hồ.
- Bước 3: Cặp nền vùng tiếp theo tìm được trong bước hai được coi là
cặp nền vùng hiện tại. Sau đó lặp lại bước hai. Bước 3 được lặp lại cho đến khi gặp lại cặp nền vùng xuất phát.
2.4. Một số phương pháp dò biên nâng cao
2.4.1. Phương pháp Canny
Phương pháp này do John Canny [6] ở phịng thí nghiệm MIT khởi xướng vào năm 1986. Canny đã đưa một tập hợp các ràng buộc mà một phương pháp phát hiện biên phải đạt được. Ơng đã trình bày một phương pháp tối ưu nhất để thực hiện được các ràng buộc đó. Và phương pháp này được gọi là phương pháp Canny.
* Ý tưởng của phương pháp này là định vị đúng vị trí bằng cách cực tiểu hoá phương sai δ2 của vị trí các điểm cắt "Zero" hoặc hạn chế số điểm cực trị cục bộ để chỉ tạo ra một đường bao.
Các ràng buộc mà phương pháp phát hiện biên Canny đã thực hiện được đó là: mức lỗi, định vị và hiệu suất. Trong đó:
+ Mức lỗi: có ý nghĩa là một phương pháp phát hiện biên chỉ và phải tìm tất cả các biên, khơng biên nào được tìm bị lỗi.
+ Định vị: Điều này nói đến độ chênh lệch cấp xám giữa các điểm trên cùng một biên phải càng nhỏ càng tốt.
+ Hiệu suất: là làm sao cho khi tách biên không được nhận ra nhiều biên trong khi chỉ có một biên tồn tại.
Ràng buộc mức lỗi và định vị được dùng để đánh giá các phương pháp phát hiện biên. Còn ràng buộc về hiệu suất thì tương đương với mức lỗi dương.
Canny đã giả thiết rằng nhiễu trong ảnh tuân theo phân bố Gauss và đồng thời ông cũng cho rằng một phương pháp phát hiện biên thực chất là
một bộ lọc nhân xoắn có khả năng làm mịn nhiễu và định vị được cạnh. Vấn đề là tìm một bộ lọc sao cho thoả mãn tối ưu nhất các ràng buộc ở trên.
2.4.2. Phương pháp Shen – Castan
Shen và Castan [7] có cùng quan điểm với Canny về một mẫu chung trong việc tách các đường biên. Đó là: nhân xoắn ảnh với một mặt nạ làm mịn, sau đó tìm ra điểm biên. Tuy nhiên trong những phân tích của họ lại tạo ra một hàm khác để tối ưu, đó là việc đề xuất cực tiểu hoá hàm sau trong khơng gian một chiều:
Nói một cách khác là hàm mà làm cực tiểu ở trên là bộ lọc mịn tối ưu cho việc tách biên. Tuy nhiên, Shen và Castan lại không đề cập đến việc thuật toán sẽ nhận ra được nhiều cạnh trong khi chỉ có một cạnh tồn tại.
Hình 3.1 Xác định hình chữ nhật ngoại tiếp các đối tượng
CHƯƠNG 3. ỨNG DỤNG BIẾN ĐỔI HOUGH PHÁT HIỆN GÓC NGHIÊNG VĂN BẢN.
3.1. Tiền xử lý và phát hiện góc nghiêng văn bản từ biên của đối tượng
Qua nghiên cứu bài tốn góc nghiêng văn bản và một số phương pháp giải quyết, tôi nhận thấy rằng hầu hết các thuật toán chỉ làm việc tốt cho một số trường hợp cụ thể. Có những thuật tốn chỉ làm việc tốt với các ảnh có góc lệch bé hoặc có kích ảnh thước bé, có thuật tốn khơng chính xác với những ảnh có ít ký tự chữ cái hoặc nhiều nhiễu, có thuật tốn phụ thuộc vào font chữ, kích cỡ chữ và nhìn chung rất nhiều thuật tốn có chi phí tính tốn lớn. Có những thuật tốn vượt qua được giới hạn của góc lệch nhưng lại gặp vấn đề độ phức tạp hoặc yêu cầu số lượng ký tự trong văn bản lớn. Và tất cả các thuật toán đều mới chỉ làm việc với các ảnh văn bản hai màu, trong đó một màu là nền và một màu là vùng, chưa đề cập đến phát hiện góc nghiêng văn bản trong ảnh nhiều màu.
Tư tưởng để phát hiện góc nghiêng của thuật tốn khơng khác nhiều so với những thuật toán dùng biến đổi Hough. Trước hết, ta dùng kỹ thuật dò biên để xác định chu tuyến cho các đối tượng ảnh. Các hình chữ nhật chứa các đối tượng này được lưu lại cho các quá trình xử lý tiếp theo. Lựa chọn một số đối tượng có kích thước chủ đạo trong ảnh rồi dùng biến đổi Hough áp dụng cho các điểm đại diện là trung điểm cạnh đáy của hình chữ nhật ngoại tiếp các đối tượng này. Cuối cùng, góc nghiêng văn bản sẽ được ước lượng từ mảng tích luỹ của biến đổi Hough.
3.2. Xác định đường thẳng Hough trên trang văn bản
Mỗi đường thẳng trong toạ độ cực được xác định bởi cặp (r, ) như hình vẽ:
Giả sử (x,y) là một điểm thuộc đường thẳng thì ta tìm cơng thức ràng buộc giữa x, y, r và . Ta có: r = (m + y) . sin Mặt khác ta có: tg = x/m sin / cos = x/m m.sin = x.cos
Do đó ta có mối liên hệ giữa ( x, y ) và (r, ) như sau :
r = x.cos + y.sin
x y
m
Hình 3.2 Đường thẳng trong toạ độ cực
r
Như vậy, nếu n điểm (xi, yi) nằm trên một đường thẳng thì ta có phương trình :
r = xi.cos + yi.sin , với mọi i = 0.. n
Biến đổi Hough ánh xạ n điểm này thành n đường sin trong toạ độ cực mà các đường này đều đi qua (r, ). Giao điểm (r, ) của n đường sin sẽ xác định một đường thẳng trong mặt phẳng. Như vậy, mỗi đường thẳng đi qua điểm (x, y) sẽ cho duy nhất một cặp (r, ) và có bao nhiêu đường qua (x, y) thì có bấy nhiêu cặp giá trị (r, ).
3.3. Áp dụng biến đổi Hough phát hiện góc nghiêng văn bản
Ý tưởng của việc áp dụng biến đổi Hough trong phát hiện góc nghiêng văn bản là dùng một mảng tích luỹ để đếm số điểm ảnh nằm trên một đường thẳng trong khơng gian ảnh. Mảng tích luỹ là một mảng hai chiều với chỉ số hàng của mảng cho biết góc lệch của một đường thẳng và chỉ số cột chính là giá trị r khoảng cách từ gốc toạ độ tới đường thẳng đó. Sau đó tính tổng số điểm ảnh nằm trên những đường thẳng song song nhau theo các góc lệch thay đổi. Góc nghiêng văn bản tương ứng với góc có tổng giá trị mảng tích luỹ cực đại.
Theo biến đổi Hough, mỗi một đường thẳng trong mặt phẳng tương ứng sẽ được biểu diễn bởi một cặp (r, ). Giả sử ta có một điểm ảnh (x, y) trong mặt phẳng, vì qua điểm ảnh này có thể xác định được vô số đường thẳng mà mỗi đường thẳng lại cho một cặp (r, ) nên với mỗi điểm ảnh ta sẽ xác định được một số cặp (r, ) thoả mãn phương trình Hough.
Hình vẽ trên minh hoạ cách dùng biến đổi Hough để phát hiện góc nghiêng văn bản. Giả sử ta có một số điểm ảnh, đây là những điểm giữa đáy các hình chữ nhật ngoại tiếp các đối tượng đã được lựa chọn từ các bước trước (các đối tượng được chọn là những đối tượng tiêu biểu được xác định từ thao tác dò biên và xây dựng hình chữ nhật ngoại tiếp). Ở đây, ta thấy trên mặt phẳng có hai đường thẳng song song nhau cùng thoả mãn phương trình Hough. Đường thẳng thứ nhất có ba điểm ảnh nên giá trị mảng tích luỹ bằng 3, đường thẳng thứ hai đi qua 4 điểm ảnh nên có giá trị mảng tích luỹ bằng 4. Do đó, tổng giá trị mảng tích luỹ cho cùng góc trường hợp này bằng 7.