BIẾN ĐỔI HOUGH VÀ ỨNG DỤNG PHÁT HIỆN GÓC NGHIÊNG VĂN BẢN
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG
HỌC VIỆN KỸ THUẬT QUÂN SỰ
NGUYỄN THỊ HỒNG HÀ
BIẾN ĐỔI HOUGH VÀ ỨNG DỤNG PHÁT HIỆN GÓC
NGHIÊNG VĂN BẢNChuyên ngành: Khoa học máy tính
LUẬN VĂN THẠC SĨ KỸ THUẬT
Hà Nội - năm 2011
Trang 2Häc viÖn Kü thuËt Qu©n sù
Trang 3Cỏn bộ chấm phản biện 2:
Luận văn thạc sĩ đợc bảo vệ tại:
hội đồng chấm luận văn thạc sĩhọc viện kỹ thuật quân sựNgày tháng năm 2011
HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HềA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Hà Nội, ngày thỏng năm 2011
NHIệM Vụ LUậN VĂN THạC Sĩ
Họ tên học viên: Nguyễn Thị Hồng Hà Giới tính: Nữ
Ngày, tháng, năm sinh: 27/11/1985 Nơi sinh: Hải DơngChuyên ngành: Khoa học máy tính Mã số: 60 48 01
I- TÊN Đề TàI: biến đổi hough và ứng dụng phát hiện nghiêng văn bản
II- NHIệM Vụ Và NộI DUNG:
Sử dụng thuật toỏn biến đổi Hough trong bài toỏn phỏt hiện gúcnghiờng văn bản
Chương trỡnh được viết bằng ngụn ngữ Matlab trờn bộ cụng cụ ImageProcessing Toolbox để xõy dựng, thiết kế chương trỡnh theo thuật toỏn đónghiờn cứu
Trang 4III- NGàY GIAO NHIệM Vụ :…………
IV- NGàY HOàN THàNH NHIệM Vụ:
V- CáN Bộ HƯớNG DẫN: TS Trần Nguyên Ngọc CáN Bộ HƯớNG DẫN CHủ NHIệM Bộ MÔN (Học hàm, học vị, họ tên và chữ ký) QL CHUYÊN NGàNH Nội dung và đề cơng luận văn thạc sĩ đã đợc Hội đồng chuyên ngành thông qua Ngày tháng năm 2011 TRƯởNG PHòNG SĐH TRƯởNG KHOA QL NGàNH MỤC LỤC Trang phụ bỡa
Nhiệm vụ luận văn
Mục lục
Túm tắt luận văn
Danh mục cỏc ký hiệu
Danh mục cỏc bảng
Danh mục cỏc hỡnh vẽ
MỞ ĐẦU 1
Chương 1 ĐẶT VẤN ĐỀ 1.1 Bài toỏn xử lý văn bản và cỏc ứng dụng trong thực tế 7
1.2 Vai trũ của tiền xử lý trong nhận dạng văn bản 8
1.3 Bài toỏn phỏt hiện gúc nghiờng văn bản 13
Chương 2 CÁC THUẬT TOÁN PHÁT HIỆN GểC NGHIấNG VĂN BẢN 2.1 Phỏt hiện gúc nghiờng dựa vào phương phỏp Base-point 15
2.1.1 Lựa chọn của một phõn vựng và đối tượng 15
Trang 52.1.2 Tập các điểm cơ sở 17
2.1.3 Độ phức tạp 19
2.2 Phát hiện góc nghiêng dựa vào biến đổi Fourier 23
2.2.1 Phép biến đổi Fourier và các đặc trưng hình học 23
2.2.2 Biến đổi Fourier trong định dạng văn bản 25
2.3 Phát hiện góc nghiêng dựa vào phương pháp Scanline 26
2.3.1 Thuật toán Scanline 27
2.3.2 Biến đổi Hough 32
2.3.3 Độ phức tạp 36
Chương 3 THUẬT TOÁN BIẾN ĐỔI HOUGH VÀ KHẢ NĂNG KHAI THÁC TRONG MÔI TRƯỜNG MATLAB 3.1 Thuật toán biến đổi Hough và một số đặc điểm tính toán 37
3.2 Hàm biến đổi Hough trong Matlab 39
3.2.1 Một số hàm biến đổi ảnh 39
3.2.1 Hàm biến đổi Hough 41
3.3 Bài toán phát hiện đường thẳng và mối quan hệ với góc nghiêng trong văn bản 42
Chương 4 ÁP DỤNG THUẬT TOÁN HOUGH TRONG PHÁT HIỆN GÓC NGHIÊNG VĂN BẢN 4.1 Ứng dụng biến đổi Hough phát hiện góc nghiêng văn bản 46
4.2 Chuẩn hóa dữ liệu vào, ra 47
4.3 Cài đặt ứng dụng 48
4.4 Kết quả, đánh giá, nhận xét 49
KẾT LUẬN VÀ KIẾN NGHỊ 1 Kết luận……… 50
2 Kiến nghị……….51
TÀI LIỆU THAM KHẢO 52
Trang 6DANH MỤC CÁC BẢNG
Bảng 2.1: so sánh kết quả độ nghiêng văn bản quét của tài liệu khác nhautính toán góc ban đầu sử dụng phương pháp Base – point ………13Bảng 2.2: so sánh kết quả độ nghiêng văn bản quét của tài liệu khácnhau tính toán góc ban đầu sử dụng phương pháp Scanline ………26
Trang 7DANH MỤC CÁC HÌNH VẼ
Hình 2.1: Hộp bao quanh và điểm cơ sở của một ký tự 12Hình 2.2: Quét tài liệu từ sách với phương pháp Base – poin 14Hình 2.3: Ảnh quét từ bài thi với phương pháp Base – point 15Hình 2.4: Ảnh quét từ danh mục điện thoại với phương pháp Base – point 16Hình 2.5: Ảnh quét từ danh mục điện thoại với phương pháp Base – point 17Hình 2.6: Quét tài liệu từ sách với phương pháp scanline 22
Trang 8Hình 2.7: Ảnh quét từ bài thi với phương pháp scanline 23Hình 2.8: Ảnh quét từ danh mục điện thoại với phương pháp scanline 24Hình 2.9: Ảnh quét từ danh mục điện thoại với phương pháp scanline 25
MỞ ĐẦU
Ngày nay, do sự thịnh hành của máy tính cá nhân, phương tiện đã làmcho kỹ thuật chế bản điện tử trở nên vô cùng phổ biến, số lượng những tài liệulưu trữ trên giấy đã tăng đến một số lượng đáng kể Hàng tỷ tỷ những tranggiấy được tạo ra mỗi năm dưới nhiều hình thức khác nhau như sách, tạp chí,bản tin, báo, thư từ, biểu mẫu, bảng ghi nhớ, … trên khắp thế giới Mặc khác,việc lưu trữ, phân phối, phục hồi những thông tin trên giấy là một công việcđòi hỏi nhiều công sức, thậm chí không thể thực hiện được một cách thủcông
Trang 9Trong khi quét văn bản, bị nghiêng là không tránh khỏi đối với các vănbản in, viết tay, văn bản hình ảnh… Phát hiện độ nghiêng là một trong nhữngvấn đề đầu tiên được áp dụng để quét các văn bản khi chuyển đổi dữ liệu sangdạng số Một hệ thống xử lý ảnh văn bản thường phải giải quyết bài toán pháthiện góc nghiêng như một bước đầu tiên và tất yếu của công đoạn tiền xử lý.Chính vì vậy, cùng với sự phát triển của xử lý ảnh nói chung và xử lý, nhậndạng văn bản nói riêng, bài toán phát hiện góc nghiêng văn bản cũng đượcquan tâm ngày càng nhiều và dưới nhiều góc độ khác nhau Có rất nhiềuhướng tiếp cận bài toán như: thuật toán dựa vào phân tích hình chiếu, phântích láng giềng, biến đổi Hough, phương pháp dùng các phép toán hình thái,biến đổi Fourier… Sử dụng biến đổi Hough phát hiện góc nghiêng văn bản làmột kỹ thuật phân biệt tốt các ký tự chữ cái và những đối tượng không phảichữ cái như nhiễu, đối tượng đồ hoạ, đường thẳng… do đó độ chính xác của
kỹ thuật này cũng được cải thiện hơn Xuất phát từ những yêu cầu trên, em
chọn đề tài nghiên cứu: “Biến đổi Hough và ứng dụng phát hiện góc
nghiêng văn bản”.
Các thuật toán phát hiện độ nghiêng được thực hiện Bước đầu tiên làquét dòng cơ bản phát hiện độ nghiêng Trong phương thức này, hình ảnh ướclượng ở nhiều góc cạnh và phương sai về số lượng các điểm ảnh màu đen ướclượng mỗi dòng được xác định Các góc mà tại đó phương sai lớn nhất tìmthấy là góc nghiêng
Bước thứ 2 là dựa trên biến đổi Hough Biến đổi Hough là thực hiện trênảnh văn bản đã quét và phương sai trong các giá trị ρ là tính toán cho mỗi giátrị của θ Góc mà cho giá trị phương sai lớn nhất là góc nghiêng
Bước thứ 3 là dựa trên phương thức base-point Sau khi Base-point liêntiếp trong từng dòng văn bản trong khoảng thời gian thích hợp như một vùng
Trang 10đã được chọn làm mẫu cho khớp đường thẳng Tỷ lệ trung bình của đường cơbản được tính toán, tương ứng với mức độ nghiêng của toàn bộ văn bản hìnhảnh.
Chương trình được viết bằng ngôn ngữ Matlab trên bộ công cụ ImageProcessing Toolbox để xây dựng, mẫu nhận dạng được thu thập từ các vănbản in, viết tay và quét vào bằng máy quét ảnh với các kích cỡ và định dạngkhác nhau, thiết kế chương trình theo thuật toán đã nghiên cứu
Chương 1 ĐẶT VẤN ĐỀ 1.1 Bài toán xử lý văn bản và các ứng dụng trong thực tế
Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóngvai trò quan trọng nhất Con người sử dụng hệ thống thị giác để xem hoặc cóđược thông tin mà thị giác thu được, cảm nhận xử lý và hiểu nó sau đó suy
ra kết luận từ việc cảm nhận thông tin Các lĩnh vực xử lý ảnh tập trung vào tựđộng hoá quá trình thu tập và xử lý thông tin thị giác Quá trình tiếp nhận vàphân tích thông tin thị giác của máy tính kỹ thuật số được gọi là xử lý ảnh kỹthuật số
Một bức ảnh có thể được mô tả như là một hàm 2 chiểu I:
I=f (x , y ) (1.1)
Trong đó: x và y là toạ độ không gian Biên độ f tại bất kỳ cặp toạ độ(x,y) được gọi là cường độ I hoặc giá trị màu xám của ảnh Khi toạ độ khônggian và giá trị biên độ, số lượng là hữu hạn rời rạc Ảnh gọi là ảnh số
Xử lý ảnh số có thể được phân thành các nhánh con khác nhau dựa trênđịnh nghĩa
Đầu vào và ra là ảnh
Trang 11Đầu vào có thể là hình ảnh mà kết quả đầu ra được trích chọn từ nhữngthuộc tính hình ảnh.
Sau đây là danh sách các chức năng xử lý khác nhau dựa trên hình ảnh ởtrên hai lớp
do đó kỹ thuật hoạt động tốt trong một lĩnh vực có thể không đầy đủ trongmột Các giải pháp thực tế của một vấn để cụ thể vẫn còn đòi hỏi một nghiêncứu đáng kể và phát triển
1.2 Vai trò của tiền xử lý trong nhận dạng văn bản.
Có rất nhiều yếu tố ảnh hưởng đến kết quả của phương pháp nhận dạngvăn bản như kích cỡ chữ, góc nghiêng, nhiễu, dấu, hay sự phức tạp của bố cụcvăn bản, … Những yếu tố này có thể được giải quyết trong giai đoạn tiền xử
lý Tuy nhiên, những kết quả trung gian trong giai đoạn tiền xử lý có ảnh
Trang 12hưởng quan trọng đến độ chính xác của kết quả cuối cùng của những hệ thốngOCR Một trong những bước tiền xử lý quan trọng là phân trang ảnh văn bản,nghĩa là, xác định cấu trúc vật lý của một văn bản là bao gồm nhiều khối,những khối này có thể là vùng văn bản (text), hình ảnh hay bảng biểu; ở đâychúng tôi chỉ quan tâm đến những vùng text
Phương pháp được tạo ra và lưu trữ liên tục của văn bản đã tồn tại từLưỡng Hà dạng viên đất sét, các tác phẩm Trung Quốc về tre và tơ lụa cũngnhư Ai Cập viết trên giấy cói Đối với việc tìm kiếm và phục hồi, phươngpháp để lưu trữ có hệ thống tài liệu hoàn chỉnh trọng một thư viên được pháttriển bởi các nhà sư, những người chuyên ghi chép sổ sách cho các vị vua,hoàng đế trong nhiều nền văn hoá Lưu truyền theo thời gian nó không cònnguyên vẹn Việc chỉnh sửa các văn bản gặp không ít vấn đề Tuy nhiên, phầnmền xử lý văn bản sẽ chỉ đối phó với một số hữu hạn các định dạng văn bản
kỹ thuật số Các chuyển đổi hình ảnh của một tài liệu giấy hiện có – màkhông mất nội dung hoặc bố cục – thành một định dạng số mà nó có thể được
xử lý nguyên vẹn là điều khó khăn và thường không thể Người sử dụng củachúng tôi cố gắng phá vỡ các vấn đề bằng cách sử dụng một số phần mềnđóng gói Nhận dạng ký tự quang học (optical character recognition - OCR).Hiện nay phần mềm đóng gói OCR sẽ làm công việc hợp lý giúp người sửdụng chuyển đổi hình ảnh sang một dạng tài liệu mà có thể được xử lý bởi hệthống xử lý văn bản thường xuyên cung cấp cho nó có những điều kiện tối ưuvới:
Chất lượng hình ảnh
Phân chia các văn bản từ hình nền của nó
Sự hiện diện của các font ký tự
Không có kịch bản viết tay được connected-cursive và bố cục trangđơn giản
Trang 13Hình 1.1: Các giai đoạn chính trong xử lý ảnh
Thu
nhận
ảnh
Tiền xử lý
Phân đoạn
Tách các đặc tính
Nhận dạng và giải thích
Mô hình quá trình xử lý ảnh được mô tả như sau:
Thu nhận ảnh: Đây là công đoạn đầu tiên mang tính quyết định đối vớiquá trình xử lý ảnh Ảnh đầu vào sẽ được thu nhận qua các thiết bị nhưcamera, sensor, máy scanner,v.v… và sau đó các tín hiệu này sẽ được số hóa.Việc lựa chọn các thiết bị thu nhận ảnh sẽ phụ thuộc vào đặc tính của các đốitượng cần xử lý Các thông số quan trọng ở bước này là độ phân giải, chấtlượng màu, dung lượng bộ nhớ và tốc độ thu nhận ảnh của các thiết bị
Tiền xử lý: Ở bước này, ảnh sẽ được cải thiện về độ tương phản, khử
nhiễu, khử bóng, khử độ lệch,v.v… với mục đích làm cho chất lượng ảnh trởlên tốt hơn nữa, chuẩn bị cho các bước xử lý phức tạp hơn về sau trong quátrình xử lý ảnh Quá trình này thường được thực hiện bởi các bộ lọc
Phân đoạn ảnh: phân đoạn ảnh là bước then chốt trong xử lý ảnh Giai
đoạn này phân tích ảnh thành những thành phần có cùng tính chất nào đó dựatheo biên hay các vùng liên thông Tiêu chuẩn để xác định các vùng liênthông có thể là cùng màu, cùng mức xám v.v… Mục đích của phân đoạn ảnh
là để có một miêu tả tổng hợp về nhiều phần tử khác nhau cấu tạo lên ảnh thô
Vì lượng thông tin chứa trong ảnh rất lớn, trong khi đa số các ứng dụng chúng
ta chỉ cần trích một vài đặc trưng nào đó, do vậy cần có một quá trình để giảmlượng thông tin khổng lồ đó Quá trình này bao gồm phân vùng ảnh và tríchchọn đặc tính chủ yếu
Trang 14Tách các đặc tính: Kết quả của bước phân đoạn ảnh thường được chodưới dạng dữ liệu điểm ảnh thô, trong đó hàm chứa biên của một vùng ảnh,hoặc tập hợp tất cả các điểm ảnh thuộc về chính vùng ảnh đó Trong cả haitrường hợp, sự chuyển đổi dữ liệu thô này thành một dạng thích hợp hơn choviệc xử lý trong máy tính là rất cần thiết Để chuyển đổi chúng, câu hỏi đầutiên cần phải trả lời là nên biểu diễn một vùng ảnh dưới dạng biên hay dướidạng một vùng hoàn chỉnh gồm tất cả những điểm ảnh thuộc về nó Biểu diễndạng biên cho một vùng phù hợp với những ứng dụng chỉ quan tâm chủ yếuđến các đặc trưng hình dạng bên ngoài của đối tượng, ví dụ như các góc cạnh
và điểm uốn trên biên chẳng hạn Biểu diễn dạng vùng lại thích hợp chonhững ứng dụng khai thác các tính chất bên trong của đối tượng, ví dụ nhưvân ảnh hoặc cấu trúc xương của nó Sự chọn lựa cách biểu diễn thích hợpcho một vùng ảnh chỉ mới là một phần trong việc chuyển đổi dữ liệu ảnh thôsang một dạng thích hợp hơn cho các xử lý về sau Chúng ta còn phải đưa ramột phương pháp mô tả dữ liệu đã được chuyển đổi đó sao cho những tínhchất cần quan tâm đến sẽ được làm nổi bật lên, thuận tiện cho việc xử lýchúng
Nhận dạng và giải thích: Đây là bước cuối cùng trong quá trình xử lýảnh Nhận dạng ảnh có thể được nhìn nhận một cách đơn giản là việc gánnhãn cho các đối tượng trong ảnh Ví dụ đối với nhận dạng chữ viết, các đốitượng trong ảnh cần nhận dạng là các mẫu chữ, ta cần tách riêng các mẫu chữ
đó ra và tìm cách gán đúng các ký tự của bảng chữ cái tương ứng cho các mẫuchữ thu được trong ảnh Giải thích là công đoạn gán nghĩa cho một tập cácđối tượng đã được nhận biết
Chúng ta cũng có thể thấy rằng, không phải bất kỳ một ứng dụng xử lýảnh nào cũng bắt buộc phải tuân theo tất cả các bước xử lý đã nêu ở trên, ví
dụ như các ứng dụng chỉnh sửa ảnh nghệ thuật chỉ dừng lại ở bước tiền xử lý
Trang 15Một cách tổng quát thì những chức năng xử lý bao gồm cả nhận dạng và giảithích thường chỉ có mặt trong hệ thống phân tích ảnh tự động hoặc bán tựđộng, được dùng để rút trích ra những thông tin quan trọng từ ảnh, ví dụ nhưcác ứng dụng nhận dạng ký tự quang học, nhận dạng chữ viết tay v.v…
Quả thực, trong mỗi trường hợp hạn chế nghiêm ngặt về nội dung, hìnhdạng ký tự và bố cụ hiện tại, phương pháp hiện tại thậm chí là công việc khátốt trong việc chuyển đổi chính xác hình ảnh ký tự để các chuỗi tương ứngcủa các ký tự số trong bảng mã ASCII hay Unicode Ví dụ về các ứng dụngnhư vậy là bưu điện đọc địa chỉ hoặc chữ số để xác nhận kiểm tra ngân hàng.Mặt khác, nếu người dùng muốn xử lý kỹ thuật số quyển nhật ký viết taycủa ông bà hoặc một đoạn của tờ báo từ thế kỷ 18, cơ hội thành công vẫn cònchưa rõ ràng Thư viện và nhà nghiên cứu nhân văn trên toàn thế giới vẫnthích loại văn bản cổ viết bằng tay vào máy tính của họ trong khi sao chép từgiấy hơn là uỷ thác tài liệu của họ lưu hành các thuật nhận dạng văn bản.Không chỉ là xử lý các hình ảnh văn bản tuỳ ý, nguồn gốc là một vấn đề đáng
kể Ngay cả khi mục tiêu có thể được giảm đến chỉ là tìm kiếm và phục hồivăn bản có liên quan từ một lượng lưu trữ số các văn bản hình ảnh có nhiềuvật chướng ngại Hơn nữa, đáng ngạc nhiên, không chỉ các văn bản cổ xưađang đặt ra vấn đề
Ngay cả việc xử lý văn bản kỹ thuật số hiện đại tạo ra, trong các địnhdạng khác nhau như tổ hợp các trang web với nội dung văn bản của họ và mãhoá dựa trên hình ảnh sẽ yêu cầu kỹ thuật trước khi đảo ngược một tài liệunhư kỹ thuật số có thể được nạp vào bộ xử lý từ Trong những năm gần đây,thêm một thách thức thú vị trong nghiên cứu nhận dạng Đọc văn bản từnhừng hình ảnh tự nhiên ghi bằng máy ảnh, nhiều vấn đề được đặt ra, ta đangfải đối phó với một số hạn chế ứng dụng như: việc nhận dạng tự động của các
Trang 16chữ số trong bức ảnh chụp của tấm giấy phép ôtô trở thành một vấn để kỹthuật đơn thuần, cách đọc dựa trên camera của văn bản ví dụ, trong hệ thống
hỗ trợ cho người mù, chỉ bắt đầu hiển thị kết quả sơ bộ
1.3 Bài toán phát hiện góc nghiêng văn bản.
Xử lý văn bản hình ảnh có nhiều nhiệm vụ khác nhau và có các phươngpháp để thực hiện các nhiệm vụ này Trong khi quét văn bản, nghiêng làkhông tránh khỏi khi văn bản hình ảnh được đưa vào Góc nghiêng là sự sailệch bất kỳ của hình ảnh từ văn bản gốc, mà không song song với chiều nganghoặc dọc Góc nghiêng văn bản là một trong những nhiệm vụ quan trọng cầnđược sửa chữa trong xử lý văn bản
Góc nghiêng văn bản là một bài toán kinh điển trong xử lý ảnh văn bản.Một hệ thống xử lý ảnh văn bản thường phải giải quyết bài toán phát hiện gócnghiêng như một bước đầu tiên và tất yếu Chính vì vậy, cùng với sự pháttriển của xử lý ảnh nói chung và xử lý ảnh văn bản nói riêng, bài toán gócnghiêng văn bản cũng được quan tâm ngày càng nhiều và dưới nhiều góc độkhác nhau Có rất nhiều hướng tiếp cận cho bài toán góc nghiêng văn bản từtrước tới nay Các thuật toán phát hiện góc nghiêng thường được xây dựngcho các hệ thống phân tích ảnh văn bản khác nhau nên chỉ giải quyết chonhững loại ảnh văn bản cụ thể Có thể chia ra một số hướng tiếp cận cơ bảncho bài toán góc nghiêng văn bản như sau:
- Các thuật toán dựa vào phương pháp Base - point
- Các thuật toán dựa vào biến đổi Hough (Hough Transform)
- Các thuật toán dựa vào biến đổi Fourier (Fourier Transform)
- Các thuật toán phân tích láng giềng (Nearest Neighbour Clustering)
- Các thuật toán dựa vào phương pháp scanline…
Trang 17Dựa vào tính chất mỗi đối tượng ảnh có duy nhất một chu tuyến ngoài vàquan niệm con người nhận ra độ nghiêng của văn bản dựa vào cỡ chữ chiếmchủ đạo trong văn bản Mục này đề cập đến việc tính toán kích thước chủ đạocủa các đối tượng ảnh trong văn bản thông qua kỹ thuật tính biểu đồ tần xuấtkích thước hình chữ nhật nhỏ nhất bao quanh đối tượng ảnh Việc xác địnhgóc nghiêng văn bản sẽ được xác định nhờ phép biến đổi Hough cho nhữngđiểm giữa đáy của hình chữ nhật nhỏ nhất bao quanh đối tượng ảnh cho cácđối tượng ảnh có kích thước chủ đạo.
Kết luận
Nội dung chương 1 đã giới thiệu tổng quan các bước tiền xử lý văn bản,vai trò của nó trong việc nhận dạng văn bản Bước đầu tiếp cận với bài toánphát hiện góc nghiêng văn bản
Qua nghiên cứu có rất nhiều cách tiếp cận khác nhau đối với bài toánphát hiện góc nghiêng văn bản Một số thuật toán tiêu biểu sẽ được trình bàychi tiết hơn trong chương 2
Chương 2 CÁC THUẬT TOÁN PHÁT HIỆN GÓC NGHIÊNG VĂN BẢN
Có nhiều phương pháp khác nhau để phát hiện góc nghiêng hình ảnh vănbản quét Trong chương này chúng tôi nghiêng cứu 3 thuật toán phát hiện gócnghiêng văn bản tiêu biêu nhất là: Phát hiện góc nghiêng dựa vào phươngpháp Base-point, dựa vào biến đổi Fourier và phát hiện góc nghiêng dựa vàophương pháp Scanline
Trang 182.1 Phát hiện góc nghiêng dựa vào phương pháp Base-point.
Đầu tiên chúng ta sẽ thảo luận về các phương pháp pháp hiện gócnghiêng bằng cách sử dụng thuật toán staight line phù hợp Các bước liênquan và cộng thêm tiêu chuẩn khác nhau mà nó tăng hiệu quả của các thuậttoán đã được thảo luận Cuối cùng đưa ra các ví dụ thích hợp
2.1.1 Lựa chọn của một phân vùng và đối tượng
2.1.1.1 Lựa chọn phân vùng
Dòng văn bản trong một tài liệu nói chung là song song với nhau theohướng ngang và khoảng cách giữa hai dòng văn bản liên tiếp là tương đối cốđịnh Từ khi quét tất cả các điểm ảnh trong toàn bộ ảnh văn bản là tốn thờigian, nó thích hợp để chọn phân vùng phù hợp để tính toán theo hướng dòngvăn bản mà tương ứng với góc nghiêng của ảnh
Mặc dù các điểm ảnh trong một trang hình ảnh thể hiện các thông tin vềnhiều mặt, nó tốn thời gian để phân tích tất cả các điểm ảnh trong hình ảnh.Thành phần kết nối, cái mà tập hợp có liên quan đến các điểm ảnh, cũng cóthể thể hiện thông tin trong nhiều mặt như bố cục trang.[5]
Trong một văn bản hình ảnh được quét, có một số cạnh đen mà khôngchỉ ảnh hưởng đến tính chính xác của thuật toán mà còn tăng chi phí tính toán.Mục đích để tránh những ảnh hưởng tiêu cực của các cạnh đen, các cạnh củavăn bản hình ảnh không cần phải lựa chọn bao gồm cả vùng Hơn nữa, kíchthước của vùng cần phải chon cẩn thận để đạt được tốc độ cao hơn và độ
chính xác tốt hơn Cách lựa chon vùng R cần phải thoả mãn điều kiện sau:
R={(x , y)∨w1≤ x ≤ w2, h1≤ y ≤ h2,(w1−w2)≥ W c ,(h1−h2)≥T h} (2.1)
Ở đây W c là trung bình chiều rộng của các ký tự chữ và số, và T h làkhoảng ngưỡng giữa những dòng kế tiếp Cho độ rộng của văn bản hình ảnh
Trang 19là W và chiều cao là H, đường biên trái của vùng nên là w1=W /3, đường biênphải w2=W 2/3, biên trên h1=H /3, biên dưới h2=H 2/3 Theo thống kê, số lượng
thành phần kết nối trong một dòng văn bản n nên lớn hơn 10, và số lượng của
các dòng văn bản trong vùng k nên lớn hơn 3, mà có thể đảm bảo độ chính
xác của thuật toán này
Đồng thời mối quan hệ giữa các thành phần liên kết liền kề phân tích vớimột số thuật toán như là phép chiếu, mà nó có thể chắc chắn được lựa chọnvùng chỉ bao gồm một cột văn bản
2.1.1.2 Lựa chọn đối tượng
Hộp ranh giới của tất cả các thành phần liên kết được tạo ra trước tiên
Và một ký tự đơn hoặc các ký tự chạm vào được chứa trong hộp ranh giớiđược coi như là một đối tượng
Theo thống kê, phần lớn đáy các đối tượng chữ số đều nằm trên mộtđường cơ sở, như là: A, s, x, ect Chỉ có rất ít đối tượng chữ số đi xuyên quamột hộp ranh giới đường cơ sở, như là: p, q, g,… Kích thước của các đốitượng đánh dấu chấm câu là rõ ràng nhỏ hơn so với những chữa số Để loại bỏnhững tác động tiêu cực của đánh dấu chấm câu, các đối tượng chỉ có thể thoảmãn các điều kiện sau đây có thể được lựa chọn là ứng cử viên cho thuật toánphát hiện độ nghiêng
C={C i∨W (C i)≥ D w V H (C i)≥ D h ,1 ≤ x ≤ k } (2.2)
Ở đây C là tập hợp các ứng viên cho các thuật toán phát hiện gócnghiêng, W (C i) và H (C i) có chiều rộng và chiều cao của hộp ranh giới của đốitượng C i, tương ứng D w là ngưỡng của độ rộng, D h là ngưỡng của chiều cao
của đối tượng hộp ranh giới, và k là số đối tượng ứng cử viên.
Trang 20Hình 2.1 Hộp bao quanh và điểm cơ sở của một ký tự 2.1.2 Tập các điểm cơ sở.
Bước 1: Khởi tạo mỗi điểm cơ sở để nó không có trong bất kỳ nhóm cơ
sở nào, và thiết lập k = 0.
Bước 2: Trong phân vùng đã chọn R, nếu điểm cơ sở P i(x i , y i) phía trên
trái không tìm thấy trong bất kỳ nhóm cơ sơ nào, thiết lập k++ và đưa P i vàonhóm mới G(k)
Bước 3: Trong phạm vi hình chữ nhật {(x i , y i−T h/2)},{(w 2, yi+T h/ 2)}, nếuđiểm cơ sở trái nhất P j(x j , y j) không tìm thấy trong bất kỳ nhóm cơ sở nào,
Trang 21đưa P j vào G(k) và thiết lập P i=P j(i e x i=x j , y i=y j) Lặp lại bước này cho đếnkhi tất cả các điểm cơ sở nằm trong nhóm cơ sở nhất định trong phạm vi hìnhchữ nhật này.
Bảng 2.1: so sánh kết quả độ nghiêng văn bản quét của tài liệu khácnhau tính toán góc ban đầu sử dụng phương pháp Base – point
Góc =>
Tính góc nghiêng
(θ¿¿s)¿
Góc nghiêng banđầu (θ)
-86-71516-18Bước 4: quay lại bước 2 cho đến khi tất cả các điểm cơ sở trong vùng R
đã được đưa vào trong các nhóm cơ sở khác nhau
Áp dụng cho đường thẳng phù hợp, sử dụng phương pháp tối ưu, đối vớimỗi nhóm thu được ở cuối bước 4 để có được độ nghiêng của đường đó phùhợp nhất cho mỗi nhóm Lấy giá trung bình tất cả các giá trị độ nghiêng thuđược trong bước trước đó Đây là góc nghiêng của chúng tôi
2.1.3 Độ phức tạp
Cho số điểm ảnh trong vùng R là N R Sau thuật toán các điểm cơ sở thìcho độ phức tạp thời gian O(N R)
Trang 22(a) Ảnh đầu tiên quét từ sách (b) kết quả hiệu chỉnh từ (a)
(c) ảnh thứ 2 quét từ sách (d) kết quả hiệu chỉnh (c)
Hình 2.2: Quét tài liệu từ sách với phương pháp Base - point
Trang 23(a) ảnh đầu tiên quét từ bài thi (b) kết quả hiệu chỉnh (a)
(c) Ảnh thứ 2 quét từ bài thi (d) kết quả hiệu chỉnh (c)
Hình 2.3: Ảnh quét từ bài thi với phương pháp Base – point
Trang 24(a) Ảnh quét từ danh mục điện thoại (b) kết quả hiệu chỉnh từ (a)
(c) Ảnh thứ 2 quét từ danh mục điện thoại (d) kết quả hiệu chỉnh từ (c)Hình 2.4: Ảnh quét từ danh mục điện thoại với phương pháp Base – point
Trang 25(a) Ảnh thứ 3 quét từ danh mục điện thoại (b) kết quả hiệu chỉnh (b)
(c) Ảnh thứ 4 quét từ DM điện thoại (d) kết quả hiệu chỉnh (c)Hình 2.5: Ảnh quét từ danh mục điện thoại với phương pháp Base – point
Trang 262.2 Phát hiện góc nghiêng dựa vào biến đổi Fourier
Biến đổi Fourier là một công cụ quan trọng trong xử lý hình ảnh được
sử dụng để phân hủy một hình ảnh thành hình sin của nó và các thành phầncosin Kết quả của biến đổi đại diện cho hình ảnh trong fourier hoặc miền tần
số, trong khi hình ảnh đầu vào là các miền không gian tương đương Trongnhững hình ảnh miền Fourier, mỗi điểm đại diện cho một tần số đặc biệt chứatrong hình ảnh miền không gian Việc chuyển đổi Fourier được sử dụng trongmột loạt các ứng dụng như: phân tích hình ảnh, hình ảnh lọc tái tạo ảnh, nénảnh…
2.2.1 Phép biến đổi Fourier và các đặc trưng hình học
Biến đổi fourier rời rạc không chứa tất cả các tần số tạo thành một hìnhảnh, nhưng chỉ có một tập hợp các mẫu là đủ lớn để mô tả đầy đủ hình ảnhmiền không gian Số lượng các tần số tương ứng với số lượng điểm ảnh tronghình ảnh miền không gian, tức là hình ảnh trong và Fourier miền không gian
thu được bằng cách nhân các hình ảnh không gian với các chức năng cơ bảntương ứng và tổng hợp kết quả
Theo cách tương tự thì hình ảnh Fourier có thể được tái chuyển vào miềnkhông gian Biến đổi Fourier ngược cho bởi
Trang 27N=2 n trong đó n là một số nguyên
Trong xử lý hình ảnh, thường thì chỉ có độ lớn của biến đổi Fourier đượchiển thị, vì nó chứa hầu hết các thông tin về cấu trúc hình học của hình ảnhmiền không gian Tuy nhiên, nếu chúng ta muốn tái biến đổi hình ảnh Fouriervào miền trong không gian chính xác sau khi một số xử lý trong lĩnh vực tầnsố
Việc chuyển đổi Fourier được sử dụng nến chúng ta muốn truy cập cácđặc tính hình học của một hình ảnh miền không gian Bởi vì hình ảnh tronglĩnh vực Fourier bị phân hủy thành các thành phần hình sin của nó, nó rất dễ