Ta thu được ảnh đã lọc nhiễu và nhị phân hóa như trong hình vẽ Hình 1-4: a Ảnh scan; b Ảnh sau lần lọc thứ nhất; c Ảnh sau lần lọc cuối cùng; d Ảnh sau khi nhị 1.2 Xác định góc nghiêng
Trang 1MỤC LỤC
MỤC LỤC i
MỘT SỐ THUẬT NGỮ ANH-VIỆT iii
DANH MỤC HÌNH VẼ iv
DANH MỤC BẢNG vi
MỞ ĐẦU 1
1.1 Đặt vấn đề 1
1.2 Nội dung và cấu trúc của khóa luận 3
Mở đầu 3
Chương 1: Đề xuất giải pháp tiền xử lý ảnh 4
Chương 2: Đề xuất giải pháp phân vùng và nhận dạng ảnh 4
Chương 3: Xây dựng hệ thống tích hợp 5
Chương 4: Thực nghiệm 5
Kết luận 5
CHƯƠNG 1 – ĐỀ XUẤT GIẢI PHÁP TIỀN XỬ LÝ ẢNH 6
1.1 Lọc nhiễu và nhị phân hoá 6
Mô tả thuật toán 6
1.2 Xác định góc nghiêng của ảnh 11
1.2.1 Phương pháp xác định góc nghiêng dựa trên phép chiếu 13
1.2.2 Phương pháp xác định góc nghiêng dựa trên các block 18
CHƯƠNG 2 – ĐỀ XUẤT GIẢI PHÁP PHÂN VÙNG VÀ NHẬN DẠNG ẢNH 21 2.1 Tách vùng nhập dữ liệu trên ảnh 21
2.1.1 Đặc trưng bài toán 21
2.1.2 Xác định vùng nhập liệu dựa trên các mốc quy chiếu 22
2.1.3 Xác định vùng dựa vào vị trí tương đối đến các các mốc quy chiếu trên form 23
2.1.4 Xác định vùng nhận dạng dựa trên vị trí tương đối đến các đường thẳng 29
2.2 Nhận dạng vùng nhập liệu 42
2.2.1 Nhận dạng vùng đánh dấu 43
2.2.2 Nhận dạng vùng nhập liệu dạng số 48
CHƯƠNG 3 - XÂY DỰNG HỆ THỐNG TÍCH HỢP 55
3.1 Phân tích bài toán 55
3.2 Xây dựng hệ thống 62
3.2.1 Xác định các đối tượng 62
3.2.2 Mô hình khái niệm 63
3.2.3 Biểu đồ các quy trình thiết kế, nhận dạng 67
CHƯƠNG 4 – THỰC NGHIỆM 72
4.1 Môi trường thực nghiệm 72
Trang 24.2 Thực nghiệm về Lọc nhiễu, tách nền và tìm ngưỡng nhị phân hóa 72
4.3 Thực nghiệm về xác định góc nghiêng của ảnh dựa trên phép chiếu 73
4.4 Thực nghiệm về xác định góc nghiêng của ảnh dựa trên block 75
4.5 Thực nghiệm về phân vùng ảnh dựa trên block 76
4.6 Thực nghiệm về phân vùng ảnh dựa trên đường thẳng 77
4.6.1 Thực nghiệm 1: Xác định các đường thẳng 77
4.6.2 Thực nghiệm 2: Tìm cặp các đường thẳng giữa ảnh scan với ảnh mẫu 78
4.6.3 Thực nghiệm 3: Xác định các vùng cần nhận dạng 78
4.6.4 Thực nghiệm 4: tìm kích thước trung bình trên ảnh 79
4.7 Thực nghiệm nhận dạng 80
4.7.1 Thực nghiệm nhận dạng ô đánh dấu 80
4.7.2 Thực nghiệm nhận dạng số 81
4.8 Thực nghiệm tích hợp các thành phần 81
KẾT LUẬN 83
TÀI LIỆU THAM KHẢO 85
Trang 3MỘT SỐ THUẬT NGỮ ANH-VIỆT
chiều thẳng đứng hoặc theo chiều ngang trên ảnh
liền kề nhau
khối các đối tượng
inch
tạo nên một đối tượng như chữ cái, đường thẳng, điểm, …
Trang 4DANH MỤC HÌNH VẼ
Hình 1-1: Lược đồ mức xám của ảnh 7
Hình 1-2: Đồ thị biến đổi mức xám 8
Hình 1-3: Ảnh trước (a) và sau biến đổi lần 1 (b) 9
Hình 1-4: (a) Ảnh scan; (b) Ảnh sau lần lọc thứ nhất; (c) Ảnh sau lần lọc cuối cùng; (d) Ảnh sau khi nhị phân hóa 11
Hình 1-5: (a) ảnh sau khi khử nhiễu và tách nền; (b) ảnh sau khi khử nghiêng 12
Hình 1-6: (a)ảnh với góc nghiêng bằng không; (b) đồ thị của phép chiếu ngang trên ảnh (a) 13
Hình 1-7: (a) ảnh với góc nghiêng 5 0 ; (b) đồ thị của phép chiếu ngang trên ảnh (a) 13
Hình 1-8: (a) Ảnh scan, các đường màu đỏ là các đường chiếu ở góc nghiêng θ (b) Ảnh được xấp xỉ bởi các hình bình hành 15
Hình 19: (a) Ảnh scan (b) (c) (d) Ảnh các đường chiếu đen và trắng ở các góc nghiêng -2.5, -3.5, 2 15
Hình 1-10: (a) Ảnh scan (b) Ảnh sau khi chính xác góc nghiêng 17
Hình 1-11: Một phần ảnh mẫu với các block ở lề phải 18
Hình 1-12: block trong mẫu và block bị nghiêng trong ảnh scan 19
Hình 1-13: (a) ảnh scan bị nghiêng; (b) các đối tượng tìm được trên ảnh; (c) sau khi loại các đối tượng quá lớn, bé; (d) sau khi loại các đối tượng rỗng; (e) sau khi loại các đối tượng không sát lề; (f) xấp xỉ đường thẳng qua các block 20
Hình 2-1: form mẫu và các vùng nhập dữ liệu được định nghĩa 21
Hình 2-2: Form sau khi được in ra, điền thông tin và scan vào máy tính 22
Hình 2-3: (a) ảnh gốc; (b) ảnh scan sau khi tiền xử lý 23
Hình 2-4: Nội suy block bị mất 25
Hình 2-5: Khoảng cách các block trong mẫu và trong ảnh scan 25
Hình 2-6: Tương ứng các mốc quy chiếu trong ảnh scan và trong mẫu 26
Hình 2-7: Mốc quy chiếu gần nhất đến các vùng nhập liệu 27
Hình 2-8: Vùng tìm kiếm được xác định trên ảnh 27
Hình 2-9: Vùng nhập liệu được sử dụng làm mốc quy chiếu 28
Hình 2-10: Cập nhật khoảng cách đến mốc quy chiếu gần nhất 28
Hình 2-11: (a)ảnh sau khi tiền xử lý; (b)ảnh sau khi lọc các black run ngắn theo chiều ngang (c) ảnh sau khi hợp cách black run dài theo chiều ngang; (d) ảnh sau khi lọc các black run ngắn theo chiều thẳng đứng (e)ảnh sau khi hợp các black run dài theo chiều thẳng đứng (f)các đường thẳng xác định được trên ảnh 30
Hình 2-12: (a) đường thẳng mờ và bị đứt doạn (b) đường thẳng xác định được khi tính đến mật độ 31
Hình 2-13: xác định nhầm đường thẳng do phân bố không đều trên đường 31
Hình 2-14: chia đường thẳng thành các đoạn ngắn rồi tính mật độ trên các đoạn này 32
Hình 2-15: Ảnh cần xác định kích thước font chữ trung bình 36
Hình 2-16: Hình chữ nhật bao các đối tượng tìm được trên ảnh 36
Hình 2-17: Hình chữ nhật bao quanh các đối tượng chữ tìm được trên ảnh 36
Hình 2-18: Đối tượng tạo bởi các black run 37
Trang 5Hình 2-19: gán nhãn các đối tượng trên ảnh nhị phân 38
Hình 2-20: ảnh sau khi giảm bớt các điểm đen 39
Hình 2-21: Kết quả xác định các đối tượng 40
Hình 2-22: Hình chữ nhật bao quanh các đôi tượng tìm được 40
Hình 2-23: (a) vùng nhập dữ liệu trên ảnh mẫu; (b) ảnh scan; (c) các đường thẳng gần vùng nhập dữ liệu nhất; (d) kết quả tách vùng trên ảnh scan 42
Hình 2-24: Những kiểu vùng nhập dữ liệu giải quyết trong luận văn 43
Hình 2-25: Vùng đánh dấu trả lời câu hỏi trong bài thi trắc nghiệm 43
Hình 2-26: Kết quả phép chiếu theo chiều ngang 44
Hình 2-27: Các phân đoạn tiềm năng 45
Hình 2-28: Các phân đoạn đúng tìm được 45
Hình 2-29: (a) Kết quả phép chiếu theo chiều dọc, (b) các phân đoạn tiềm năng, (c) các phân đoạn đúng tìm được 45
Hình 2-30: Vùng nhập số 48
Hình 2-31: (a) vùng tìm kiếm bị mất đường bao; (b) vùng tìm kiếm được mở rộng 48
Hình 2-32: Các đường thẳng trong vùng 49
Hình 2-33: Các đường thẳng sau bước 2 49
Hình 2-34: Các đường thẳng sau bước 3 49
Hình 2-35: Các đường đứng xác định được sau bước 4 49
Hình 2-36: Kết quả tách ô bởi các đường thẳng bước 3,4 50
Hình 2-37: Vùng nhập số trong mẫu và trong ảnh scan 50
Hình 2-38: Ảnh trước và sau khi lọc nhiễu 51
Hình 2-39: Hình bao xác định được trên ảnh 51
Hình 2-40: Các nét cơ bản tạo nên số dạng nét thẳng 51
Hình 2-41: Các số mẫu từ 0 đến 9 51
Hình 2-42: Các nét ngang 52
Hình 2-43: Các nét đứng 52
Hình 3-1: Mẫu form nhập liệu “Sample Dta Etry Form” 57
Hình 3-2: Mẫu form nhập liệu “Sample Data Entry Form” có sử dụng block 58
Hình 3-3: Mẫu form nhập liệu “Mẫu Dữ Liệu Số” với các block và vùng định danh form 59
Hình 3-4: Mẫu form nhập liệu “Mẫu Phiếu Trả Lời Bài Thi Trắc Nghiệm” 60
Hình 3-5: Mẫu form nhập liệu “Phiếu Đánh giá môn học” 61
Hình 3-6: Mô hình khái niệm 64
Hình 3-7: Quy trình thiết kế mẫu phiếu 68
Hình 3-8: Vùng mã form trên ảnh 69
Hình 3-9: Quy trình nhận dạng mẫu phiếu khi chưa biết mã phiếu 70
Hình 3-10: Quy trình nhận dạng mẫu phiếu khi đã biết mã phiếu 71
Hình 4-2: Vùng cần xác định bị lệch so với vùng xác định thực tế 79
Hình 4-3: (a) Ảnh mẫu (b) Kết quả thu được sau khi phân vùng 79
Hình 4-1: (a) ảnh thử nghiệm; (b) Một phần của ảnh được phóng to 80
Trang 6
DANH MỤC BẢNG
Bảng 1: Bảng phân loại ảnh 72
Bảng 2: Lọc nhiễu 73
Bảng 3: Góc nghiêng với ảnh 150DPI 74
Bảng 4: độ lệch trung bình so với góc thực tế 74
Bảng 5: So sánh hiệu năng của phương pháp phép chiếu tối ưu với phương pháp phép chiếu 75
Bảng 6: Kết quả xác định góc nghiêng bằng block 76
Bảng 7: Thời gian xâc định block 76
Bảng 8: Độ chính xác phương pháp tách vùng dựa trên block 77
Bảng 9: Độ chính xác của phương pháp xác định đường thẳng 77
Bảng 10: Độ chính xác của phương pháp ghép cặp các đường thẳng trong tập mẫu và tập ảnh mới 78
Bảng 11: Độ chính xác phương pháp tách vùng dựa trên đường thẳng 79
Bảng 12: Kết quả xác định kích thước trung bình của các đối tượng 80
Bảng 13: Thời gian xác định kích thước trung bình 80
Bảng 14: Độ chính xác phương pháp tách vùng dựa trên đường thẳng 81
Bảng 15: Kết quả thực nghiệm nhận dạng số 81
Bảng 16: Kết quả thực nghiệm tích hợp 82
Trang 7MỞ ĐẦU
1.1 Đặt vấn đề
Nhận dạng là bài toán đã xuất hiện khá lâu và đã đạt được nhiều thành tựu Tuy nhiên nhận dạng một văn bản bất kì bao gồm cả các văn bản có lẫn chữ viết tay hoặc hình ảnh luôn là một bài toán khó mà cho đến nay vẫn chưa thật sự có giải pháp hoàn chỉnh Để giải quyết bài toán nhận dạng hiện đang có nhiều xu hướng tiếp cận khác nhau tương ứng với những loại văn bản khác nhau, trong đó nhập dữ liệu tự động
là phương pháp tiếp cận về nhận dạng đối với các văn bản kiểu form nhập liệu
Càng ngày nhu cầu xử lý dữ liệu của con người trên máy tính càng tăng lên Chính vì lý do đó bài toán nhập dự liệu tự động đang ngày càng thu hút được nhiều sự chú ý và đầu tư Nó đã vượt ra ngoài khuôn khổ các lĩnh vực nghiên cứu và đang dần được áp dụng vào thực tế bởi khả năng áp dụng rộng rãi cùng những hiệu quả mà nó
có thể mang lại
Trên thế giới, hiện đã có nhiều ứng dụng liên quan đến vấn đề nhận dạng văn bản hay nhập dữ liệu tự động Có thể kể đến như : sản phẩm FineReader, Scan To Office của hãng ABBYY, Smart scan Xpress của Pegasus Image, các ứng dụng chấm thi tự động …Ở Việt Nam cũng đã có các ứng dụng nhận dạng văn bản như VNDocR của Viện Công nghệ Thông tin hay ImageScan của CardPro Đây là các ứng dụng nhận dạng chữ in Việc nhận dạng chữ viết tay đang còn là một thách thức Đã có một
số nghiên cứu về nhận dạng chữ viết tay và chữ viết tay tiếng Việt như đề tài "Ứng dụng mạng Neural trong nhận dạng văn bản"[1] Tuy nhiên các nghiên cứu này vẫn còn rất nhiều hạn chế do khả năng nhận dạng chữ viết tay chưa đạt được độ chính xác cần thiết để có thể áp dụng trên thực tế một cách rộng rãi
Cùng với sự phát triển của công nghệ thông tin hiện nay, các thuật toán nhận dạng cũng ngày càng chính xác và đưa ra được các kết quả đáng tin cậy Ngay cả đối với chữ viết tay cũng có thể đạt được độ chính xác cao với điều kiện là chỉ nhận dạng từng chữ riêng biệt và chữ viết đẹp Với các văn bản thông thường ta khó có thể đạt được điều này Tuy nhiên, Các form nhập liệu là kiểu văn bản có cấu trúc và ta có thể đưa ra một số quy tắc ràng buộc để tăng độ chính xác cho việc nhận dạng - chẳng hạn như: các chữ được viết riêng rẽ trên các ô riêng biệt của các vùng nhập liệu Mặt khác, việc nhận dạng không cần thiết phải tiến hành trên toàn bộ ảnh của tài liệu mà chỉ giới hạn ở những vùng nhập dữ liệu Đặc điểm này cũng cho phép ta tiếp cận bài toán một cách hiệu quả hơn, chẳng hạn có thể sử dụng các thông tin sẵn có từ form mẫu như định dạng vùng nhập liệu, kích thước ô,…làm tham số nhận dạng Một khía cạnh khác của nhận dạng form nhập liệu là các dữ liệu nhận dạng được của mỗi vùng trên form
sẽ phải được tự động gắn vào một trường dữ liệu xác định của ứng dụng
Trang 8Bài toán nhập liệu tự động từ form tài liệu bao gồm các vấn đề sau :
Quản trị form: thiết kế form nhập liệu ; quản lý và lưu trữ tự động các tham
số của form để có thể cung cấp dữ liệu cho quá trình nhận dạng sau này nhanh chóng và tin cậy ; tích hợp với cơ sở dữ liệu
Nhận dạng các vùng dữ liệu (bài toán phát hiện và phân vùng dữ liệu)
Nhận dạng chữ viết tay trên các vùng dữ liệu ; xử lý từ vựng và ghi nhận vào cơ sở dữ liệu
Nhưng trước hết phải tiền xử lý ảnh để làm tốt ảnh, phục vụ cho quá trình nhận dạng, đảm bảo độ tin cây
- Thuật toán lọc nhiễu, khử nền và nhị phân hóa ảnh
- Thuật toán xác định góc nghiêng dựa trên phép chiếu
- Thuật toán xác định góc nghiêng dựa trên các block
Tách các vùng nhập dữ liệu (bài toán phát hiện và phân vùng dữ liệu)
- Thuật toán xác định các đường thẳng trong văn bản phục vụ cho việc xác định các vùng nhận dạng
Trang 9- Phân vùng ảnh dựa trên các đường thẳng xác định được
- Phân vùng ảnh dựa trên vị trí tương đối đến các mốc quy chiếu
Nhận dạng các vùng nhập liệu
- Nhận dạng số viết tay dạng nét thẳng
- Nhận dạng các ô đánh dấu
Quản trị form
- Thiết kế form nhập liệu
- Quản lý và lưu trữ tự động các tham số của form để có thể cung cấp thông tin cho quá trình nhận dạng sau này nhanh chóng và tin cậy ; hỗ trợ các thông tin để tích hợp với cơ sở dữ liệu
1.2 Nội dung và cấu trúc của khóa luận
Hệ thống mà tôi thực hiện như đã giới thiệu ở trên là bài toán xác định dữ liệu được nhập vào form sau khi có ảnh từ máy quét Quy trình xử lý bao gồm : tiền xử lý ảnh, phân vùng ảnh, nhận dạng ảnh và quản trị form Nắm bắt được khó khăn cũng như những đặc trưng của bài toán này, hệ thống được xây dựng đã áp dụng các giải pháp có độ chính xác cao, phù hợp với đặc trưng ảnh của form nhập dữ liệu với các giả thiết, ràng buộc của loại ảnh này sẽ được nêu cụ thể ở từng chương tương ứng
Với nội dung chính là trình bày những lý thuyết cơ bản về xử lý ảnh, về các bước trong quy trình xử lý của hệ thống và lựa chọn các giải pháp áp dụng vào bài toán, khóa luận được tổ chức như sau :
Mở đầu
Phần mở đầu giới thiệu về bài toán nhập dữ liệu tự động nói chung: tình hình Việt Nam và thế giới, các thành tựu đã đạt được trong lĩnh vực nhận dạng chữ viết, những khó khăn cũng như các đặc trưng của bài toán nhận dạng form nhập dữ liệu so với các bài toán nhận dạng khác Phần tiếp theo giới thiệu về hệ thống mà tôi đang tiến hành nghiên cứu và xây dựng : Tách và nhận dạng số viết tay trong phiếu nhập dữ liệu cùng với quy trình nhập dữ liệu tự động bằng nhận dạng quang học, phạm vi giới hạn
và trình tự giải quyết bài toán Từ đó nêu lên nội dung mà tôi nghiên cứu và thực hiện thông qua việc trình bày nội dung và cấu trúc của khóa luận
Trang 10Chương 1: Đề xuất giải pháp tiền xử lý ảnh
Chương này trình bày về các phần việc chính liên quan đến tiền xử lý ảnh trong hệ thống đó là : Giải pháp lọc nhiễu, khử nền và nhị phân hóa thông qua giãn độ tương phản kết hợp loại bỏ nền lặp lại nhiều lần trên lược đồ histogram; Giải pháp cho việc khử nghiêng ảnh bằng phép chiếu, bằng các block với các biện pháp tối ưu hóa và xác định ảnh ngược
Nội dung của chương tập trung vào:
Phân tích những đặc trưng của ảnh dạng form nhập liệu từ đó đưa ra giải
pháp cho việc tiền xử lý ảnh
Quy trình thực hiện các giải pháp này
Đánh giá ưu và nhược điểm của các phương pháp
Chương 2: Đề xuất giải pháp phân vùng và nhận dạng ảnh
Chương này trình bày về các giải pháp tách vùng nhập liệu trên ảnh dựa vào các thông tin cung cấp bởi các form mẫu Tập trung vào hai hướng chính là xác định vị trí các vùng theo tọa độ tương đối từ các đường thẳng trên form và từ các mốc quy chiếu
Sau khi tách các vùng nhập liệu trên ảnh, các vùng này sẽ được nhận dạng Trong khuôn khổ luận văn chỉ trình bày về nhận dạng số viết tay dạng nét thẳng và các
ô đánh dấu là các đối tượng nhập liệu phổ biến nhất
Nội dung của chương tập trung vào:
Phân tích những đặc trưng của ảnh dạng form nhập liệu từ đó đưa ra giải
pháp cho việc tách vùng và nhận dạng
Xác định các đối tượng làm mốc quy chiếu trên ảnh( đường thẳng, các block bên cạnh form)
Tách vùng nhập liệu
Nhận dạng số viết tay và các ô đánh dấu
Đánh giá ưu và nhược điểm của các phương pháp
Trang 11Chương 3: Xây dựng hệ thống tích hợp
Chương 4 trình bày về module quản trị form nhập liệu cho các nhóm form với các đặc điểm mà các giải pháp ở các chương trước hướng đến
Nội dung của chương tập trung vào:
Giới thiệu đặc trưng của các form nhập liệu mà luận văn này tập trung giải
quyết
Thiết kế form nhập liệu
Quản lý và lưu trữ tự động các tham số của form để có thể cung cấp thông tin cho quá trình nhận dạng ảnh sau này nhanh chóng và tin cậy ; hỗ trợ các thông tin để tích hợp với cơ sở dữ liệu
Chương 4: Thực nghiệm
Chương 5 mô tả chi tiết quá trình thực nghiệm với các giải pháp đề xuất trong luận văn cùng với thực nghiệm về hệ thống chung Đồng thời chương cũng đề cập đến quá trình thu thập và xây dựng cơ sở dữ liệu ảnh dạng form sử dụng cho thực nghiệm
Kết luận
Tổng kết lại những kết quả đạt được và chưa đạt được trong quá trình nghiên cứu và thực hiện khóa luận Từ đó nêu lên những kết quả cần hướng tới và hướng nghiên cứu, phát triển trong tương lai
Trang 12CHƯƠNG 1 – ĐỀ XUẤT GIẢI PHÁP TIỀN XỬ LÝ ẢNH
Sau khi nhận được ảnh từ máy quét, ảnh thu được có thể bị nghiêng do đặt lệch giấy trong quá trình quét hoặc có thể có nhiễu nền Những nguyên nhân này làm cho các vùng nhập liệu trên ảnh bị thay đổi vị trí, biến dạng Do đó tiền xử lý là một bước rất quan trọng, tạo tiền đề để có thể nhận dạng ảnh chính xác và hiệu quả Các giải pháp được áp dụng trong hệ thống bao gồm : lọc nhiễu và nhị phân hóa [3], xác định góc nghiêng dựa trên phép chiếu [3] và xác định góc nghiêng dựa trên các block
1.1 Lọc nhiễu và nhị phân hoá
Thông thường văn bản được quét và lưu trữ dưới dạng ảnh đa mức xám trong khi đó hầu hết các thuật toán về xử lý và phân tích văn bản đều dựa trên ảnh nhị phân Việc sử dụng ảnh nhị phân chỉ với hai mức trắng và đen giảm bớt được khối lượng tính toán và đơn giản hoá các phương pháp phân tích so với ảnh xám( 256 mức) Do vậy việc tìm ra một thuật toán nhị phân hóa nhanh và hiệu quả là một điều rất cần thiết
Nhiều phương pháp về nhị phân hóa ảnh đã được phát triển, trong số đó có những phương pháp đem lại kết quả rất tốt Có thể kể đến như thuật toán dựa trên sự biến thiên về cường độ mức xám ở các vùng khác nhau của văn bản [24], thuật toán về tính ngưỡng nhị phân cục bộ [18] hay thuật toán dựa trên đa độ phân giải [17] … Tuy nhiên các phương pháp này thường áp dụng đối với những hình ảnh tổng quát và đòi hỏi tính toán phức tạp bởi vì đều phải tính đến cấu trúc của ảnh
Trong bài toán này, chúng tôi chỉ xử lý trên các văn bản kiểu form nhập liệu, vốn dĩ là các ảnh đơn giản chỉ gồm hai mức đen (để thể hiện chữ) và trắng (nền của văn bản); văn bản cũng thường phân bố khá đồng đều Chính vì vậy việc nhị phân hóa ảnh có thể được thực hiện chỉ dựa trên lược đồ xám của ảnh mà không phụ thuộc vào cấu trúc Trên cơ sở này, chúng tôi đã kết hợp các kỹ thuật thực hiện nhiều lần tăng cường độ tương phản bằng cách điều chỉnh mức xám, phân ngưỡng tự động để nhị phân hoá ảnh
Mô tả thuật toán
Ảnh của văn bản gốc vốn dĩ là ảnh nhị phân, tức là chỉ có hai ngưỡng đen, trắng cho chữ và nền Song sau khi in ra và quét lại vào máy tính, nó trở thành ảnh đa mức xám tức là có 256 ngưỡng khác nhau Một số vùng nền có thể xám hơn, ngược lại một số đối tượng chữ, bảng và dòng kẻ có thể mờ đi Nhiệm vụ của chúng ta ở đây là tách các đối tượng cần xử lý ra khỏi hình nền
Thuật toán được xây dựng dựa trên giả thiết tổng diện tích của hình( chữ và đối tượng trên form) so với diện tích ảnh là nhỏ ,và tuy có sự biến đổi về ngưỡng nhưng vẫn có sự khác biệt tương đối giữa ngưỡng của chữ và của nền Thông qua việc
Trang 13tăng cường độ tương phản lặp lại nhiều lần, ta hi vọng rằng có thể khuyếch đại sự khác biệt này một cách đáng kể
Ảnh là một tập các điểm ảnh, được biểu diễn bởi công thức :
Sau bước biến đổi này ta thu được một ảnh mới:
}) 255 { ] , 0 [ ' ( ' ) , ( ' x y n n T
I
Công thức 1-3
Trang 14Tiếp đó để tăng cường độ tương phản của ảnh sau khi chọn T là ngưỡng để tách nền, ta tăng cường độ tương phản của ảnh mới thông qua việc giãn khoảng của mức xám [2] của các điểm ảnh có mức xám nhỏ hơn mức xám trung bình từ [0,T] lên [0,255]
1 ( ')
255 ' ( ')
) ,
Trang 15Hình 1-3: Ảnh trước (a) và sau biến đổi lần 1 (b)
Công việc trên được thực hiện lặp đi lặp lại cho đến khi hình ảnh đạt được đến một độ sạch cần thiết Điều kiện kết thúc là khi mức xám trung bình của ảnh trước và sau khi biến đổi không thay đổi
Ta có thể tóm tắt quy trình lọc nhiễu như sau :
I x y T
Trang 16Tk, giá trị của Tk chỉ phụ thuộc vào giá trị của Ik(x,y) chứ không phụ thuộc vào vị trí
Nếu ta lưu lại được giá trị này thì sẽ không cần đọc lại ảnh trong mỗi bước lặp
Để giảm chi phí tính toán cho phép lọc này chúng ta chỉ tính lược đồ histogram của ảnh, sau đó tất cả các tính toán đều thực hiện trên lược đồ histogram với
256 phần tử( so với 1241x1755 điểm ảnh của ảnh trang A4 scan với độ phân giải 150DPI) Phép lọc ảnh được thực hiện nhiều lần chỉ trên lược đồ mức xám và cuối cùng mới thực hiện phép biến đổi tăng độ tương phản( công thức 2-7) cho ảnh cuối
Ifinal
Ta có thể hình dung các bước thực trên lược đồ mức xám như sau:
Bước 1 : Xác định lược đồ mức xám của ảnh
Bước 2 : Tính giá trị trung bình Tk, dựa vào lược đồ mức xám
Bước 3 : Biến đổi lược đồ mức xám dựa trên Tk
Bước 4 : Lặp lại bước 2, cho tới khi Tk và Tk-1 gần như nhau
Bước 5 : Thực hiện điều chỉnh độ tương phản cho ảnh gốc cuối cùng dựa
trên kết quả của lược đồ mức xám ở bước cuối
Sau cùng, khi ảnh đã được lọc nền và làm sạch, ta tiến hành nhị phân hóa ảnh Ngưỡng nhị phân được chọn là:
N T
Trang 17Ta thu được ảnh đã lọc nhiễu và nhị phân hóa như trong hình vẽ
Hình 1-4: (a) Ảnh scan; (b) Ảnh sau lần lọc thứ nhất; (c) Ảnh sau lần lọc cuối cùng; (d) Ảnh sau khi nhị
1.2 Xác định góc nghiêng của ảnh
Văn bản bị nghiêng xảy ra trong quá trình copy hoặc khi quét vào máy tính, điều này ảnh hưởng đến toàn bộ các đối tượng có trong văn bản nhất là các vùng mà ta cần phải nhận dạng Văn bản bị nghiêng là một điều không thể tránh khỏi, và trong nhiều trường hợp gây ảnh hưởng không tốt đến độ chính xác đối với kết quả phân vùng và nhận dạng ký tự Cũng có một số phương pháp về phân vùng ảnh không yêu cầu văn bản phải có góc nghiêng bằng không [5, 25] Tuy nhiên các phương pháp này vẫn đòi hỏi góc nghiêng của văn bản nằm trong một khoảng giới hạn cho phép Bên cạnh đó, đơn giản hóa vấn đề này sẽ dẫn tới phức tạp hóa cũng như tốn thời gian xử lý đối với các nhiệm vụ khác Do đó chính xác lại góc nghiêng của ảnh là một việc làm tất yếu và phải được thực hiện trước khi tiến hành phân vùng và nhận dạng ảnh
Trang 18Hình 1-5: (a) ảnh sau khi khử nhiễu và tách nền; (b) ảnh sau khi khử nghiêng
Các văn bản có rất nhiều đặc trưng khác nhau như đặc trưng về hướng, về cấu trúc phân bố các đối tượng Từ đó cũng có một số phương pháp xác định góc nghiêng cho ảnh của văn bản tương ứng như các phương pháp dựa trên phép biến đổi Hough [9,19,14,29,34], hàng xóm gần nhất( Nearest Neighbour) [7,30,37], phép chiếu [6,8,22,36] , đối tượng liên kết [28,31], và một số phương pháp khác [10,15,32,38] Mỗi phương pháp có một cách tiếp cận khác nhau cùng những ưu điểm và nhược điểm nhất định Một số phương pháp có khả năng tìm góc nghiêng trong khoảng [-50,+50] cho đến [-450
,+450] Một số phương pháp khác cho phép tìm góc nghiêng bất kỳ đối với nhiều loại văn bản đa dạng và phức tạp
Bên cạnh đó còn một số phương pháp đặc thù như sử dụng đường thẳng dày [4], sử dụng khung [11] …Các phương pháp này gắn chặt với một vài loại form văn bản nhất định đã được định nghĩa từ trước Góc nghiêng tìm được thông qua việc tìm các đối tượng đánh dấu trên form
Trong bài toán mà ta đang xem xét, khi nhận dạng để nhập dữ liệu tự động, ta thu được một tập ảnh của cùng một loại form mẫu để nhận dạng, thông thường là qua quét ảnh theo lô Góc nghiêng của ảnh chỉ có thể lên đến nhiều nhất là ±200 Cộng với cấu trúc của không quá phức tạp và yêu cầu về tốc độ xử lý Do đó tôi đã lựa chọn hai phương pháp trình bày dưới đây khi xây dựng hệ thống, những phương pháp này tuy còn một số hạn chế nhưng phù hợp với đặc trưng ảnh của bài toán, cho thời gian tính toán nhanh và chính xác
Trang 191.2.1 Phương pháp xác định góc nghiêng dựa trên phép chiếu
Đây là phương pháp mà tôi và tác giả Đinh Văn Phương đã cùng xây dựng và tối ưu trong quá trình nghiên cứu khoa học sinh viên
Tư tưởng cơ bản của phương pháp này dựa trên đặc trưng của văn bản đó là các dòng chữ hoặc các đối tượng khác như bảng hoặc các đoạn thẳng thường được đặt một cách có thứ tự Các chữ thường được đặt theo từng dòng, giữa các dòng có khoảng cách; các bảng hoặc hình hộp cũng thường được đặt theo chiều ngang Do đặc trưng này nên khi ta chiếu các điểm đen của một văn bản với góc nghiêng bằng không theo chiều ngang thì ta sẽ thu được một đồ thị rất sắc và có độ biến thiên lớn Với các văn bản bị nghiêng, ta có thể thấy là phép chiếu sẽ tạo ra một đồ thị trơn và thấp hơn Dựa trên việc đánh giá các đồ thị này ta sẽ tìm được góc nghiêng chính xác của ảnh
Hình 1-6: (a)ảnh với góc nghiêng bằng không; (b) đồ thị của phép chiếu ngang trên ảnh (a)
Hình 1-7: (a) ảnh với góc nghiêng 5 0 ; (b) đồ thị của phép chiếu ngang trên ảnh (a)
Mô tả phương pháp phép chiếu [23] :
Các điểm đen trên hình ảnh sẽ được chiếu theo các đường thẳng song song vào một mảng tích lũy( A) Mỗi phần tử của mảng tương ứng với một đường chiếu và giá trị của nó là số điểm đen nằm trên đường chiếu đó
Sử dụng phép chiếu đối với mỗi góc nghiêng giả định, ta thu được một tập các mảng tích lũy( Aθ) Dựa vào hàm đánh giá F( Aθ) với MINANGLE ≤ θ
≤ MAXANGLE, ta tìm được góc nghiêng chính xác θ của ảnh là góc làm cho giá trị của hàm đánh giá F( Aθ) đạt cực đại
Trang 20Dựa trên các đặc trưng của văn bản ta có hai hàm đánh giá :
A A
F
1
2
Công thức 1-10: Đánh giá độ biến thiên trên đồ thị của phép chiếu
(Dựa trên đặc điểm : đồ thị phép chiếu của văn bản với góc nghiêng chính xác thường có độ biến thiên lớn)
1 1
) (
) ]) [ ( 1 ( )
(
0 2
x if
x if x
u
i A u A
Công thức 1-11: Đánh giá các khoảng trống trên đồ thị của phép chiếu
(Dựa trên đặc điểm : đồ thì phép chiếu của văn bản với góc nghiên chính xác thường có nhiều khoảng trống và có khoảng trống rộng hơn)
Áp dụng phương pháp phép chiếu, ta thử với từng góc θ nằm trong khoảng ( MINANGLE, MAXANGLE) Góc θ tìm được là góc có hàm đánh giá tương ứng đạt giá trị cực đại
1.2.1.1 Tối ƣu thuật toán
Từ thực tế nghiên các loại Form khác nhau, chúng tôi nhận thấy các văn bản dạng Form có nhiều đường thẳng, nhiều hình chữ nhật song song với hướng của văn bản; khi văn bản bị nghiêng với một góc θ, thì các hình này không bị biến dạng nhiều Cùng với cách làm như trên, chi phí tính toán tập trung nhiều vào việc tính tổng số điểm đen trên đường chiếu Để khắc phục nhược điểm này ta có thể không cần tính đến tất cả các điểm đen trên đường chiếu mà chỉ xét xem đường chiếu đường chiếu thuộc về kiểu nào trong hai loại: đường chiếu có chứa ít nhất một điểm đen (gọi là đường chiếu đen – gọi tắt là đường đen) và đường chiếu không có chứa điểm đen(gọi
là đường chiếu trắng – gọi tắt là đường trắng)
Với giả thiết ở trên, chúng ta sẽ phân tích ảnh ở tất cả các góc nghiêng θ có thể bằng cách vẽ các đường chiếu song song trên ảnh ở các góc nghiêng này, và xác định các đường chiếu là đường đen hay đường trắng Theo đó các đối tượng (như textline, đường thẳng, hình chữ nhật, bảng…) có thể được xấp xỉ bằng các hình bình hành – Hình 1-8 b Việc ước lượng góc nghiêng của ảnh dựa trên diện tích các hình bình hành hoặc phần bù của các hình bình hành đó [16]
Trang 21Hình 1-8: (a) Ảnh scan, các đường màu đỏ là các đường chiếu ở góc nghiêng θ (b) Ảnh được xấp xỉ bởi
các hình bình hành
Để tăng cường độ chính xác chúng ta có thể chia nhỏ đường chiếu bằng cách chia ảnh thành các vùng có độ rộng như nhau – Hình 1-9 a Ta coi mỗi vùng như là một ảnh con, và việc phân tích ảnh được áp dụng trên mỗi một ảnh con này
Hình 1-9: (a) Ảnh scan (b) (c) (d) Ảnh các đường chiếu đen và trắng ở các góc nghiêng -2.5, -3.5, 2
Đặt A(θ) là diện tích các hình bình hành tương ứng với góc nghiêng θ, T là tổng diện tích của toàn bộ ảnh và B(θ) = T-A(θ) là diện tích phần bù của các hình bình hành Khi đó góc nghiêng của ảnh sẽ được ước lượng bởi giá trị lớn nhất của tất cả các B(θ ) hay θ* = Max B(θ)
Để tính được kích thước của vùng trắng, đơn giản chúng ta chỉ việc đếm số điểm ảnh trên đường trắng Với mỗi một đường chiếu ta làm như sau:
Trang 22IF nếu là điểm ảnh màu đen THEN
Chúng ta dừng lại, trả lại giá trị 0, và chuyển sang duyệt đường chiếu tiếp theo
Nhận thấy các đường chiếu là các đường song song nhau, nên hệ số góc của các đường chiếu này là như nhau, do vậy chúng ta chỉ cần tính một lần hệ số góc cho mỗi một lần phân tích ảnh ở góc nghiêng θ Để tránh tính toán trên các số thực chúng tôi sử dụng các đường chiếu là các đường thẳng Bresenham Với mỗi một góc nghiêng
θ, chúng ta sẽ tính trước các điểm trên đường thẳng Bresenham Sau đó, với mỗi đường chiếu ta sẽ sử dụng lại tập điểm đã tính trước
Tuy nhiên độ chính xác phụ thuộc vào việc ảnh đó được chia làm bao nhiêu phần Nếu chia quá nhỏ thì đối với các góc nghiêng gần nhau (chỉ cách nhau 0.2 o hoặc 0.3 o) sẽ gần như không có sự sai khác nhau về tổng diện tích vùng trắng Do vậy, việc xác định góc nghiêng sẽ không chính xác trong trường hợp này Để khắc phục nhược điểm đó, chúng ta sẽ sử dụng phương pháp này để ước lượng nhanh một góc A, sau đó
sử dụng phương pháp như đã trình bày ở đầu, để chính xác hóa góc nghiêng của ảnh
1.2.1.2 Tối ƣu các tham số
Văn bản sau khi qua máy quét thường tạo ra một hình ảnh bị nghiêng với góc nghiêng nằm trong khoảng [-150, 150] Ta sẽ tìm góc nghiêng của ảnh trong khoảng này ( MINANGLE = -15, MAXANGLE = 15) Đây là một khoảng xác định phù hợp,
vì nếu khoảng tìm kiếm quá lớn sẽ làm tăng thời gian xử lý, ngược lại nếu khoảng quá nhỏ thì có nhiều khả năng góc nghiêng sẽ nằm ngoài khoảng Trong trường hợp góc nghiêng của hình ảnh vượt quá khoảng tìm kiếm thì điều đó cũng sẽ được phát hiện trong bước xử lý tiếp theo( phân vùng ảnh), khi đó ta sẽ thực hiện tìm kiếm lại góc nghiêng với một khoảng tìm kiếm rộng hơn
Độ chênh lệch trong việc chọn từng góc θ trong khoảng tìm kiếm cũng có ảnh hưởng quan trọng đối với hiệu năng và độ chính xác Ví dụ như nếu mỗi góc θ cách nhau một khoảng 0.1 và khoảng tìm kiếm là ±150 thì cần xét với 300 trường hợp, độ chính xác của góc nghiêng thu được là ±0.10 Việc tính hàm ước lượng đối với tất cả các góc nghiêng có thể như vậy là không cần thiết, thay vào đó chúng tôi sử dụng khoảng cách 20 để ước lượng ở bước đầu tiên Sau đó dựa vào kết quả thu được, chúng tôi thu hẹp khoảng tìm kiếm và khoảng cách giữa các góc cần ước lượng để đạt được
độ chính xác cao hơn
Trang 23Cụ thể là sau bước đầu tiên, ta đã ước lượng được góc nghiên của ảnh là β với
độ chính xác ±2o, Bước tiếp theo sẽ tiếp tục tìm kiếm góc nghiêng trong khoảng (β -
2o, β + 2o) với khoảng cách giữa các góc cần ước lượng là 0.4o Sau bước này ta lại có một ước lượng về góc nghiêng mới là β’ với độ chính xác là ±0.4o Cứ tiếp tục như vậy cho đến khi ta đạt được độ chính xác cần thiết là ±0.1o
Hình 1-10: (a) Ảnh scan (b) Ảnh sau khi chính xác góc nghiêng
Ưu điểm của phương pháp :
Phương pháp phép chiếu để xác định góc nghiêng của ảnh cho kết quả rất chính xác đối với ảnh của form nhập dữ liệu do có nhiều đường thẳng
Tư tưởng của phép chiếu trong sáng, dễ cài đặt
Tuy phép chiếu đòi hỏi tính toán phức tạp nhưng ta có thể tăng tốc được bằng cách sử dụng đường thẳng theo phương pháp Bresenham và kỹ thuật
sử dụng bảng lookup table
Trang 24Nhược điểm :
Cho kết quả không chính xác lắm đối với các ảnh có kích thước nhỏ do ta
sử dụng các đường chiếu là các đường thẳng trong hệ tọa độ số nguyên nên các đường thẳng này chỉ là xấp xỉ, ảnh càng lớn thì các đường thẳng này càng chính xác sẽ càng cho kết quả chính xác hơn
Các hàm ước lượng về biểu đồ của phép chiếu chưa thể hiện được hết bản chất của phép chiếu Mỗi công thức chỉ mô tả được một khía cạch cụ thể
1.2.2 Phương pháp xác định góc nghiêng dựa trên các block
Một trong các xu hướng gần đây trong việc thiết kế form nhập liệu là thêm vào ảnh các blocks( các ô đánh dấu đen) để giúp xác định vị trí của các vùng nhập liệu Các block này thường là những hình chữ nhật, elip hoặc hình tròn được tô kín, có mức xám bằng không và nằm ở biên của ảnh như hình 1-11 Một số form sử dụng bốn hình vuông lớn ở bốn góc hay một số đối tượng có đặc điểm nổi bật khác Tuy nhiên bàn về tính hiệu quả cũng như tính thẩm mỹ của form nhập liệu, trong khuôn khổ luận văn này tôi chỉ tập trung vào chuỗi các ô đen cách đều nhau ở hai biên bên cạnh của ảnh
Hình 1-11: Một phần ảnh mẫu với các block ở lề phải
Ngoài chức năng xác định vị trí, với đặc điểm nổi bật trên form, các block còn rất hiệu quả trong việc xác định góc nghiêng và thậm chí là xác định được ảnh ngược một cách dễ dàng
Tư tưởng chung của phương pháp này là trước hết xác định tất cả các đối tượng trên form, mỗi đối tượng là một vùng liên thông các điểm ảnh có mức xám nhỏ hơn ngưỡng nhị phân Trên tập các đối tượng tìm được, loại bỏ các đối tượng quá nhỏ hoặc quá lớn, các đối tượng có mật độ điểm đen thấp ( mật độ điểm đen của một đối tượng là thương của tổng số điểm đen trên diện tích bao)
Sau khi xác định được các đối tượng ta xét lần lượt hai bên lề trái phải( xét cả hai bên lề vì ảnh có thể bị ngược) Với mỗi lề chỉ để lại các đối tượng gần lề nhất Trên
Trang 25các đối tượng còn lại, xấp xỉ một đường thẳng qua tâm các đối tượng này Nếu tồn tại một đường thẳng như thế thì góc nghiêng của đường thẳng này chính là góc nghiêng của ảnh
Với mỗi form nhập dữ liệu, để đảm bảo chức năng xác định góc nghiêng và xác định vị trí chỉ cần dãy các ô đen ở một bên cạnh của form Do đó dựa vào vị trí của dãy block đen nằm ở phía bên nào của trang giấy mà ta có thể xác định được ảnh có bị ngược hay không
Xác định mật độ điểm đen cho phép
Hình 1-12: block trong mẫu và block bị nghiêng trong ảnh scan
Khi ảnh không bị nghiêng mật độ điểm đen của block là 1/1( 1 điểm đen trên 1 pixel) đối với block dạng hình chữ nhật và hình vuông Với block dạng hình tròn mật
độ điểm đen là π/4
Khi ảnh bị nghiêng một góc α, với hình tròn thì mật độ điểm đen không thay đổi, tuy nhiên với hình vuông và hình chữ nhật như hình vẽ trên thì mật độ điểm đen trên hình bao quanh block sẽ bị giảm đi
1
2
h w Density wh
Trình tự các bước thực hiện thuật toán như sau :
Bước 1 : xác định tất cả các đối tượng ở một bên lề ảnh
Trang 26Bước 2 : loại tất cả các đối tượng quá lớn hoặc quá bé
Bước 3 : loại tất cả các đối tượng có mật độ điểm đen nhỏ hơn ngưỡng density Bước 4 : loại tất cả các đối tượng không phải ở phía trái/phải nhất của lề
Bước 5 : xấp xỉ một đường thẳng qua tâm các đối tượng còn lại Nếu không
tìm được, quay lại bước 1 với các đối tượng ở lề đối diện
Bước 6 : góc nghiêng của ảnh chính là góc nghiên của đường thẳng tìm được
ở bước 5 Nếu đã biết thông tin về ảnh thuộc form mẫu nào, dựa trên thông tin đã biết trước để xác định ảnh ngược
(a) (b) (c)
(d) (e) (f) Hình 1-13: (a) ảnh scan bị nghiêng; (b) các đối tượng tìm được trên ảnh; (c) sau khi loại các đối tượng quá lớn, bé; (d) sau khi loại các đối tượng rỗng; (e) sau khi loại các đối tượng không sát lề; (f) xấp xỉ đường
thẳng qua các block
Trang 27CHƯƠNG 2 – ĐỀ XUẤT GIẢI PHÁP PHÂN VÙNG VÀ NHẬN DẠNG ẢNH
2.1 Tách vùng nhập dữ liệu trên ảnh
2.1.1 Đặc trƣng bài toán
Sau các bước tiền xử lý lọc nhiễu, xác định góc nghiêng, công việc tiếp theo cần tiến hành đó là xác định các vùng văn bản cần xử lý, đây cũng chính là đầu vào cho phần nhận dạng dữ liệu
Văn bản tôi xử lý trong khuôn khổ luận văn này là văn bản dạng form nhập dữ liệu dựa trên mẫu form đã có sẵn Sau khi form được nhập dữ liệu và quét lại vào máy tính, dựa trên mẫu có sẵn và đối chiếu với ảnh scan, ta tìm các vùng trên ảnh scan được nhập dữ liệu và xử lý nhận dạng trên các vùng này Dữ liệu sau khi nhận dạng sẽ được lưu lại tương ứng với các trường dữ liệu trong form mẫu Khi xử lý văn bản, ta không cần nhận dạng toàn bộ văn bản mà chỉ giới hạn nhận dạng trên các vùng mà thông tin được nhập vào
Điểm khác biệt trong việc phân vùng ảnh trên form nhập dữ liệu và phân vùng ảnh trên văn bản tổng quát là : đối với form nhập dữ liệu, ta thực hiện phân vùng trên ảnh đã biết trước cấu trúc và ta chỉ cần tách ra các vùng đã được định nghĩa từ trước là
sẽ được nhập dữ liệu để sau đó tiến hành nhận dạng trên các vùng này Chính nhờ việc biết trước một số thông tin mà kết quả phân vùng chính xác hơn rất nhiều cũng như thời gian xử lý giảm đi đáng kể do ta chỉ cần tách ra một số vùng cần thiết
Hình 2-1: form mẫu và các vùng nhập dữ liệu đƣợc định nghĩa
Trang 28Hình 2-2: Form sau khi được in ra, điền thông tin và scan vào máy tính
Khi tách vùng trên ảnh scan, ta luôn phải đối chiếu với ảnh mẫu để xác định vị trí tương ứng của các vùng trên ảnh scan so với các vùng trên ảnh mẫu
Xác định các vùng cần nhận dạng luôn luôn là công việc quan trọng nhất trong nhận dạng form nhập dữ liệu Các phương pháp hiện nay thường dùng một số đối tượng có đặc điểm nổi bật trên form để làm mốc quy chiếu
2.1.2 Xác định vùng nhập liệu dựa trên các mốc quy chiếu
Phân vùng ảnh theo hướng tiếp cận này, ta đặt một hệ trục tọa độ vào ảnh mẫu
và tương ứng với nó là một hệ trục tọa độ trên ảnh scan Sau khi khớp được hai hệ trục tọa độ này cũng như tìm được tỉ lệ chính xác giữa kích thước của hai ảnh, ta sẽ có tương ứng 1:1 giữa một điểm trên ảnh mẫu và một điểm trên ảnh scan
scale y
y
scale x
x
i i
i i
' '
Công thức 2-1: Tọa độ tương ứng giữa 1 điểm trên ảnh scan và 1 điểm trên ảnh gốc trong đó x i ,y i là tọa độ
của điểm i trong ảnh mẫu, x’ i ,y’ i là tọa độ của điểm tương ứng với nó trong ảnh scan
Trên cơ sở sự tương ứng này, ta tách được được các vùng cần xử lý trên ảnh scan tương ứng với các vùng đã được xác định trước trên ảnh mẫu
Để khớp hai hệ trục tọa độ giữa hai ảnh, ta đưa vào ảnh mẫu một số đối tượng đặc biệt( như một đường thẳng dày, khung bao quanh …) Khi nhận dạng được các đối tượng này trên ảnh scan, ta có thể khớp được hai hệ trục tọa độ
Trang 29Dưới đây là hình vẽ minh họa ảnh gốc và ảnh scan, sau khi khớp hai hệ trục tọa độ ta tách được vùng cần nhận dạng
Hình 2-3: (a) ảnh gốc; (b) ảnh scan sau khi tiền xử lý
Nhận xét :
Ưu điểm : đơn giản, dễ hiểu, dễ cài đặt, tính toán đơn giản
Nhược điểm : độ chính xác không cao nhất là trên những ảnh có kích thước lớn
2.1.3 Xác định vùng dựa vào vị trí tương đối đến các các mốc quy chiếu trên form
Trong phương pháp phân vùng trình bày ở trên, do trong quá trình scan, ảnh
có thể bị biến dạng làm cho vị trí các vùng thay đổi Thêm vào đó, sai số trong việc xác định góc quay và độ dịch của ảnh cũng ảnh hưởng đến vị trí tuyệt đối của các vùng Theo phương pháp này, các vùng càng xa gốc tọa độ thì sai số về vị trí càng lớn Tuy nhiên phương pháp này đơn giản và dễ cài đặt
Để giảm bớt sai số, tách vùng ảnh thường được thực hiện thông qua vị trí tương đối đến các mốc quy chiếu Việc chọn các đối tượng làm mốc quy chiếu có ảnh hưởng rất lớn đến độ chính xác Một số phương pháp có thể kể đến như [12] sử dụng chuỗi ký tự được nhận dạng trên form, [27] sử dụng ma trận giao điểm của các đường thẳng, [20] [21] sử dụng danh sách các khối đối tượng( cụm ký tự, ảnh,…) Các phương pháp này một mặt khá nhạy cảm với nhiễu và biến dạng của ảnh, mặt khác có thể kém chính xác khi không xác định được đầy đủ các đối tượng trong danh sách
Trang 30Khối lượng tính toán lớn cũng là một trong những vấn đề cần cân nhắc Tuy nhiên các phương pháp này có thể áp dụng được trên form tổng quát
Phương pháp tách vùng tôi trình bày trong phần này sử dụng các block là các hộp đen hoặc các ô tròn bên lề form Đây là các đối tượng bền vững với nhiễu và biến dạng ảnh Chi phí tính toán nhỏ cùng với độ chính xác cao là lý do tôi lựa chọn phương pháp này
Theo đó, Vị trí của vùng sẽ được tính thông qua vị trí tương đối, là vị trí tới
đối tượng lân cận đã được phát hiện trên ảnh Vị trí này thay đổi tùy thuộc vào đối
tượng và kết quả xác định những đối tượng trước đó Những đối tượng đầu tiên cần được phát hiện trên ảnh là những đối tượng có đặc điểm nổi bật nhất - các block đen bên lề của form Trong phần xác định góc nghiêng ở chương trước, các block đen trên ảnh có một vai trò rất quan trọng, dựa vào các ô này ảnh có thể được khử nghiêng và phát hiện ảnh ngược nhanh hơn rất nhiều so với các phương pháp tổng quát Bên cạnh
đó, ý nghĩa chính của việc sử dụng các ô đen là để cung cấp một mốc quy chiếu từ đó xác định vị trí các vùng nhập dữ liệu
2.1.3.1 Phát hiện các block đen bên cạnh ảnh
Trong phần trước, để tìm được góc nghiêng của ảnh, chỉ cần xác thực sự tồn tại của dãy ô đen bên cạnh ảnh Tuy nhiên để có thể dựa vào các đối tượng này để xác định những vùng nhập liệu thì trước hết phải biết được ảnh là ảnh của form mẫu nào
và thứ tự tương ứng của các block so với các block của mẫu
Trình tự thực hiện như sau :
Bước 1: xác định tất cả các block bên lề của ảnh( thực hiện ở chương trước) Bước 2: nội suy các ô bị mất
Blocks là những đối tượng có kích thước tương đối, có mức xám bằng không
do đó khá bền vững trước những biến dạng của ảnh cũng như không bị ảnh hưởng bởi nhiễu trừ những trường hợp đặc biệt Tuy nhiên block đầu tiên và cuối cùng có thể bị mất nếu các block đặt quá sát lề và khi scan ảnh bị đặt lệch
Những block không tìm thấy sẽ được nội suy từ những block khác với khoảng cách đến block gần nhất bằng khoảng cách trung bình giữa các block
Trang 31
Hình 2-4: Nội suy block bị mất
Bước 3: đối chiếu khoảng cách giữa các block này với các block trong mẫu để
xác định tỉ lệ co giãn ảnh với giả thiết là ảnh co giãn theo cùng một tỉ lệ ở cả chiều dọc
và chiều ngang
Hình 2-5: Khoảng cách các block trong mẫu và trong ảnh scan
Tỉ lệ co giãn giữa ảnh so với mẫu ở trên là
1
H scale
H
Công thức 2-2: độ co giãn của ảnh scan so với ảnh mẫu
Sau các bước trên ta đã có được sự tương ứng 1:1 giữa các block trên ảnh và trên mẫu cũng như tỉ lệ co giãn ảnh Những thông tin này sẽ được sử dụng để xác định các vùng nhập liệu
Trang 322.1.3.2 Xác định vùng nhập liệu
Như đã phân tích ở trên, khoảng cách của một đối tượng đến một đối tượng khác càng gần thì việc sử dụng đối tượng này để suy ra vị trí của đối tượng kia càng chính xác Với các thông tin đã biết trước về vị trí tuyệt đối của các vùng nhập liệu và các mốc quy chiếu trong mẫu, ta cần suy ra vị trí tương đối của từng vùng nhập liệu đến mốc quy chiếu gần nhất để tìm vị trí của các vùng này trên ảnh
Với hướng tiếp cận của giải pháp này, sau tiền xử lý ảnh các mốc quy chiếu đầu tiên là các block đen bên cạnh ảnh Các vùng nhập liệu tìm được bởi các mốc quy chiếu này sẽ tiếp tục được đưa vào danh sách quy chiếu và có thể được sử dụng để tìm
vị trí các vùng nhập liệu khác Việc xác định các vùng được thực hiện như vậy cho đến khi xác định được tất cả các vùng nhập liệu trên ảnh
Trình tự thực hiện như sau :
Bước 1: tương ứng các block trên ảnh với các block trong mẫu, đưa vào tập
Hình 2-6: Tương ứng các mốc quy chiếu trong ảnh scan và trong mẫu
Bước 2: Chọn ra vùng nhập liệu trong mẫu có mốc quy chiếu gần nhất
Tập vùng nhập liệu được định nghĩa trong mẫu là A, tìm vùng nhập liệu
i i
a a A sao cho tồn tại một mốc quy chiếu q q j( jQ) thỏa mãn khoảng cách từ q j
đến a ilà gần nhất nghĩa là Distance( , )q a j i min Distance( q a q k, l) kQ a, lA
Trang 33Hình 2-7: Mốc quy chiếu gần nhất đến các vùng nhập liệu
Ví dụ như trong mẫu trên, block 1 là đối tượng mốc quy chiếu gần nhất của vùng 1 và vùng 2 Vùng 1 được chọn do khoảng cách của nó đến mốc quy chiếu là gần nhất
Bước 3: xác định vùng tìm kiếm cho vùng nhập liệu được chọn ra ở bước 2
được suy ra từ mốc quy chiếu gần vùng này nhất và tỉ lệ co giãn tìm được ở trên
Trên mẫu vùng a iđược giởi hạn bởi hình bao H X a( mina ,Ymina ,Xmaxa ,Ymaxa ), q j được giới hạn bởi hình bao H q(Xminq ,Yminq ,Xmaxq ,Ymaxq ), mốc quy chiếu tương ứng với q j tìm được trên ảnh là '
j
q được giởi hạn bởi hình bao ' ' ' '
' ( minq , minq , maxq , maxq )
H X Y X Y được suy ra bởi H a,H q, H q' và
tỉ lệ co giãn ảnh scalenhư sau :
Công thức 2-3: Vùng tìm kiếm được suy ra từ mốc quy chiếu và độ co giãn ảnh
Làm tương tự với các cạnh còn lại ta sẽ xác định được H a'
Hình 2-8: Vùng tìm kiếm được xác định trên ảnh
Trang 34Bước 4: Nhận dạng vùng này, đánh dấu vùng này đã được xác định và thêm
vùng này vào danh sách quy chiếu Quay lại bước 2
Nhận dạng vùng nhập liệu được xác định bởi hình bao H a' theo các phương pháp được trình bày trong 3.2 Sau khi nhận dạng vùng baoH a' sẽ được chính xác hóa
Ta thêm vùng nhập liệu a ivà vùng nhập liệu đã nhận dạng '
Hình 2-9: Vùng nhập liệu được sử dụng làm mốc quy chiếu
Hình 2-10: Cập nhật khoảng cách đến mốc quy chiếu gần nhất
Kết luận : qua quá trình nghiên cứu, giải pháp này đã chứng minh được tính
hiệu quả và thực dụng trong việc nhận dạng form dữ liệu, đặc biệt là trong việc nhận dạng với số lượng lớn Những ưu điểm và nhược điểm của phương pháp
Ưu điểm :
Cho độ chính xác cao, thời gian xử lý nhanh
Dễ kiểm soát và bảo trì
Nhược điểm :
Ảnh buộc phải có các block ở bên lề, có thể tạo ra một số vấn đề về mặt thẩm mỹ
Trang 352.1.4 Xác định vùng nhận dạng dựa trên vị trí tương đối đến các đường thẳng
Đặc điểm của kiểu form nhập dữ liệu là dữ liệu được nhập vào các ô trên form, các ô này được bao quanh bởi các đường thẳng, thêm vào đó trên form còn có thể có khung hoặc các đường phân cách khu vực, đường trang trí Do đó chúng tôi đã đưa ra giải pháp xác định vùng nhập dữ liệu thông qua việc xác định các đường thẳng [3]
Trong phương pháp này, trước tiên ta tìm tất cả các đường thẳng có trong ảnh Sau đó các đường thẳng này sẽ được đối chiếu với các đường thẳng có trong form mẫu
để xác định thứ tự chính xác và khử nhiễu Cuối cùng sau khi nhận dạng được các đường thẳng, vùng nhập dữ liệu sẽ được tính thông qua tọa độ gián tiếp tới các đường thẳng đó Và bởi vì các tọa độ gián tiếp này là các tọa độ địa phương nên độ chính xác trong việc xác định các vùng là rất cao
2.1.4.1 Mô tả thuật toán xác định đường thẳng:
Trong ảnh của văn bản cần xử lý, các đường thẳng thường không phải là các đường thẳng lý tưởng mà chỉ là một tập hợp các điểm ảnh có thể xấp xỉ bởi một đường thẳng Trong bài toán này, do việc tính toán vị trí các vùng nhận dạng sử dụng hệ tọa
độ tương đối theo chiều thẳng đứng và theo chiều ngang nên trong việc xác định đường thẳng không cần xem xét đến các đường thẳng theo các hướng khác
Theo giả thiết ở trên chúng tôi đưa ra thuật toán xác định đường thẳng dựa vào
số lượng các điểm ảnh đen kề nhau liên tiếp theo chiều thẳng đứng và theo chiều ngang( còn gọi là các black run) Một đường thẳng bao gồm một tập các black run liền
kề nhau Ngưỡng nhận dạng cũng được áp dụng để loại bỏ các black run quá ngắn ( các black run thuộc về đường thẳng hay thuộc về chữ hoặc các đối tượng đồ họa khác) Sau khi duyệt toàn bộ ảnh để lọc ra các black run đủ dài, các black run này sẽ được nhóm lại để tạo thành các đường thẳng
2.1.4.2 Thuật toán xác định đường thẳng
Thuật toán được thực hiện qua bốn bước
Bước 1: Duyệt toàn bộ ảnh, loại bỏ các black run ngắn, chỉ giữ lại các black
run đủ dài( lớn hơn ngưỡng)
Bước 2 : Hợp các black run gần nhau lại để tạo thành đường thẳng
Bước 3 : Sau khi hợp các black run lại thành đường thẳng, thực hiện lại
bước lọc với ngưỡng nhận dạng lớn hơn để giữ lại các đường thẳng đủ dài
Trang 36 Bước 4 : Lọc các đường thẳng còn lại dựa theo tỉ lệ giữa độ rộng và độ cao
của đường Các đường thẳng đạt tiêu chẩn là các đường thẳng có tỉ lê : độ rộng/độ cao > 10 hoặc độ cao/độ rộng > 10 ( bởi vì các đường thẳng của ta
có đặc điểm là dài và hẹp) Bước này sẽ lọc được chữ hoặc hình ảnh có kích
cỡ lớn trong văn bản
Kết quả của việc lọc các đường thẳng :
Hình 2-11: (a)ảnh sau khi tiền xử lý; (b)ảnh sau khi lọc các black run ngắn theo chiều ngang
(c) ảnh sau khi hợp cách black run dài theo chiều ngang;
(d) ảnh sau khi lọc các black run ngắn theo chiều thẳng đứng (e)ảnh sau khi hợp các black run dài theo chiều thẳng đứng
(f)các đường thẳng xác định được trên ảnh
Trong việc lọc các đường thẳng, nếu lấy ngưỡng nhận dạng quá lớn thì các đường thẳng thu được sẽ không đầy đủ, ngược lại nếu lấy ngưỡng quá nhỏ thì sẽ còn lại rất nhiều nhiễu do chữ và các đối tượng đồ họa Khi xử lý với những ảnh chứa các
Trang 37đường thẳng có độ dày ≥ 2 pixel, ta có thể lấy ngưỡng tương đối lớn mà không làm mất thông tin trong việc nhận dạng đường Tuy nhiên, bởi vì chúng ta phải xử lý với cả những ảnh scan có chất lượng kém nên cần tìm ra giải pháp để khắc phục việc mất thông tin
2.1.4.3 Biện pháp khắc phục việc xác định các đường thẳng mờ hoặc đứt đoạn
Theo trên, ta đã coi đường thẳng như một tập các điểm đen kề nhau Để giảm bớt việc mất thông tin trong những trường hợp đường thẳng bị đứt đoạn hoặc quá mờ,
ta có thể xem xét lại đường thẳng như là một tập các điểm đen có thể rời rạc, tuy nhiên phải thỏa mãn điều kiện : mật độ điểm đen trên một đường phải lớn hơn một ngưỡng α xác định ( trong bài toán này chúng tôi lấy là 0.7)
Kết quả của việc xác định đường thẳng có tính đến mật độ :
Hình 2-12: (a) đường thẳng mờ và bị đứt doạn (b) đường thẳng xác định được khi tính đến mật độ
Việc tính đến mật độ của đường thẳng có thể dẫn đến việc nhận dạng lầm một
số dòng chữ đậm hoặc viết sát là đường thẳng Do đó sau khi xác định các đường thẳng theo thuật toán ở trên (mục 2.2.1.1) với ngưỡng nhận dạng tương đối lớn để lọc hết các đối tượng chữ và đồ họa ta mới áp dụng biện pháp này trên các đường thẳng xác định được để giảm bớt mức độ mất mát thông tin
Một vấn đề nữa trong việc tính đến mật độ của đường thẳng đó là việc dồn cục không đồng đều về mật độ dẫn đến việc xác định nhầm độ dài đường thẳng Như hình dưới, số đường thẳng cần xác định là hai đường mặc dù mật độ điểm giữa điểm đầu và điểm cuối của đường thẳng xác định được vẫn lớn hơn ngưỡng
Hình 2-13: xác định nhầm đường thẳng do phân bố không đều trên đường
Để giải quyết vấn đề này, ta chỉ xét mật độ trên các đoạn ngắn, sau đó ghép các đoạn ngắn đó lại với nhau để tạo thành đường Như vậy, theo cách này thì: một đường được coi là đường thẳng nếu nó là tập hợp các điểm đen theo chiều thẳng đứng
Trang 38hay theo chiều ngang với một độ dài đủ lớn, các điểm đen này có thể không cần chạm nhau tuy nhiên phải đảm bảo mật độ của đường và của từng phần cục bộ trên đường lớn hơn một ngưỡng xác định
Hình 2-14: chia đường thẳng thành các đoạn ngắn rồi tính mật độ trên các đoạn này
2.1.4.4 Đối chiếu các đường thẳng xác định được với Form mẫu
Trong bước xác định đường thẳng, ta đã cố gắng để giảm sự mất thông tin ít nhất có thể được cũng như giảm tối đa nhiễu Tuy nhiên không bỏ qua giả thiết có một
số đường tương ứng với form mẫu mà ta không xác định được hoặc xác định thừa một
số đường do ảnh hưởng của nhiễu Nhiệm vụ của bước đối chiếu đường thẳng là tìm đúng vị trí và thứ tự của các đường xác định được tương ứng với các đường trong form mẫu, để trên cơ sở đó tính tọa độ tương đối
Phương pháp đối chiếu các đường thẳng
Việc đối chiếu các đường thẳng được thực hiện độc lập theo chiều thẳng đứng
và theo chiều ngang
Xét trường hợp đối chiếu các đường theo chiều ngang, giả sử trong form mẫu
ta có N đường thẳng, ta tìm được N’ đường thẳng trong ảnh scan Như vậy, ta cần xác định các cặp tương ứng nhiều nhất có thể được giữa N đường trong form mẫu và N’ đường trong ảnh scan Ta cũng biết rằng tồn tại một tỉ lệ giữa form gốc và ảnh scan, các cặp đường thẳng tương ứng được xác định dựa trên tỉ lệ này
Do tỉ lệ giữa hai ảnh là không biết trước( tỉ lệ của kích thước ảnh không phải
là tỉ lệ chính xác và chỉ có thể sử dụng như một tham số để ước lượng), để xác định tỉ
lệ này ta giả định một cặp đường thẳng trong form mẫu tương ứng với một cặp đường thẳng trên ảnh scan Từ đây ta xác định được một tỉ lệ ước lượng, tỉ lệ này được đánh giá dựa trên số đường thẳng còn lại từ hai tập thỏa mãn tỉ lệ ước lượng này Tỉ lệ nào cho số cặp thỏa mãn nhiều nhất là tỉ lệ giữa hai ảnh
Cách xác định tỉ lệ như trên dựa trên giả thiết là có ít nhiễu và không bị mất nhiều thông tin trên ảnh scan Các nhiễu nếu có cũng phân bố một cách ngẫu nhiên và
có kích thước nhỏ so với các đường thẳng xác định đúng Để chính xác hóa hơn nữa trong việc ghép cặp các đường thẳng, chúng tôi đưa ra thêm một tham số ước lượng về khoảng cách và kích thước
Trang 39Ước lượng về khoảng cách và kích thước :
Khoảng cách và kích thước của một đường được ước lượng dựa trên tất cả các đường thẳng trong một tập Bởi vì tồn tại một tỉ lệ giữa hai tập đường thẳng nên ta phải đưa ra một tham số ước lượng độc lập với tỉ lệ của hai tập để so sánh
i i
l
l l
L
1
) (
Công thức 2-4: ước lượng độ dài tương đối của một đường trong tập mẫu
1'
' )
' (
j j
j j
l
l l
L
Công thức 2-5: công thức ước lượng độ dài tương đối của một đường trong tập đích
(li : là độ dài tuyệt đối của đường thứ i trong tập mẫu; l ’ j : là độ dài tuyệt đối của đường thứ j trong tập đích)
Hai đường thẳng tương ứng nhau sẽ có tham số ước lượng về độ dài xấp xỉ nhau
j j
l h C
Trang 401 '
j j
Công thức 2-7: tọa độ tâm của tập các đường trong tập đích
Công thức để ước lượng khỏang cách của một đường thẳng tới tâm :
y i
i h C
D
Công thức 2-8: khoảng cách tới tâm của đường thẳng i trong tập gốc
y j
D ' ' '
Công thức 2-9: khoảng cách tới tâm của đường thẳng j trong tập đích
(hi : là độ cao của đường thứ i trong tập mẫu; h ’ j : là độ cao của đường thứ j trong tập đích)
Hai đường thẳng tương ứng nhau sẽ có tỉ lệ tham số ước lượng về khoảng cách tới tâm bằng với tỉ lệ giữa hai ảnh
KL : Với giả thiết việc xác định các đường thẳng có ít nhiễu, nhiễu có kích
thước nhỏ và các đường thẳng không bị mất thông tin, dựa vào các tham số đánh giá
về kích thước và khoảng cách, ta biết được việc ghép cặp các đường thẳng trên hai tập cho kết quả có chính xác hay không
Xác định tỉ lệ co giãn ảnh
Xét với các đường thẳng ngang, Sau khi đối chiếu ta loại bỏ được các đường thẳng nhiễu(trong tập đường thẳng trên ảnh scan) và các đường thẳng không đối chiếu được(trong tập đường thẳng trên mẫu) ta thu được hai tập đường thẳng l l1, , ,2 l nvà