Mẫu có thể là bất kỳ thực thể nào cần được nhận ra, ví dụ: chữ in, chữ viết tay, vân tay, khuôn mặt, tiếng nói, hình dạng,… Cùng với sự phát triển của khoa học kỹ thuật, các ứng dụng của
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
LÊ ĐỨC HIẾU
ỨNG DỤNG MỘT SỐ KỸ THUẬT XỬ LÝ ẢNH TRONG PHÂN TÍCH CHỨNG MINH THƯ NHÂN DÂN
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội – 2012
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
LÊ ĐỨC HIẾU
ỨNG DỤNG MỘT SỐ KỸ THUẬT XỬ LÝ ẢNH TRONG PHÂN TÍCH CHỨNG MINH THƯ NHÂN DÂN
Ngành: Công nghệ thông tin
Chuyên ngành: Công nghệ phần mềm
Mã số: 60 48 10
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS NGÔ QUỐC TẠO
Hà Nội – 2012
Trang 3Mục lục
Lời cam đoan 2
Lời cảm ơn 3
Mục lục 4
Danh mục hình vẽ 6
Danh mục bảng biểu 8
Danh mục thuật toán 9
Mở đầu 10
Chương 1: Tổng quan về phân tích ảnh tài liệu 12
1.1 Tổng quan về hệ thống nhận dạng ảnh tài liệu 12
1.2 Phân tích ảnh tài liệu 13
1.2.1 Bố cục tự nhiên và cấu trúc lôgic 14
1.2.2 Phân loại ảnh tài liệu 15
1.3 Phân tích bố cục 16
1.3.1 Hướng tiếp cận trên-xuống 17
1.3.2 Hướng tiếp cận dưới-lên 18
1.4 Phân tích cấu trúc 19
1.5 Kết luận chương 20
Chương 2: Một số thuật toán tiền xử lý ảnh 21
2.1 Nhị phân ảnh 21
2.1.1 Phân loại các phương pháp xác định ngưỡng T 23
2.1.2 Một số phương pháp xác định ngưỡng T 23
2.1.3 Nhận xét 26
2.2 Hiệu chỉnh độ nghiêng của trang văn bản 28
2.2.1 Phương pháp dựa trên biến đổi Hough 29
2.2.2 Phương pháp láng giềng gần nhất (nearest neighbours) 31
2.2.3 Phương pháp sử dụng chiếu nghiêng (project profile) 33
2.2.4 Nhận xét 34
2.3 Các toán tử hình thái (Morphological operations) 34
2.4 Kết luận chương 37
Trang 4Chương 3: Phương pháp phân tích Giấy chứng minh nhân dân 38
3.1 Giới thiệu bài toán 38
3.2 Tách các trường thông tin ở mặt trước 39
3.2.1 Tiền xử lý ảnh 40
3.2.2 Tách trường Số CMND 43
3.2.3 Tách các trường thông tin còn lại 46
3.3 Tách các trường thông tin ở mặt sau 51
3.3.1 Tiền xử lý ảnh 51
3.3.2 Xác định cấu trúc bảng 52
3.3.3 Tách trường thông tin 53
3.4 Kết luận chương 54
Chương 4: Cài đặt thử nghiệm và đánh giá 55
4.1 Môi trường cài đặt 55
4.2 Dữ liệu kiểm thử 55
4.3 Kết quả thực nghiệm 55
4.4 Đánh giá 56
Kết luận 58
Tài liệu tham khảo 59
Trang 5Danh mục hình vẽ
Hình 1 1 Sơ đồ hệ thống nhận dạng 12
Hình 1 2 Ví dụ ảnh tài liệu có bố cục phức tạp 14
Hình 1 3 Sơ đồ hệ thống phân tích bố cục và cấu trúc ảnh tài liệu 15
Hình 1 4 Các loại ảnh tài liệu 16
Hình 1 5 Hình chiếu ngang và dọc của ảnh tài liệu 17
Hình 1 6 Thuật toán whitespace 18
Hình 1 7 Thuật toán Docstrum 19
Hình 1 8 Thuật toán Voronoi 20
Hình 2 1 Nhị phân ảnh 22
Hình 2 2 So sánh các phương pháp nhị phân ảnh đối với có độ sáng thay đổi 27
Hình 2 3 So sánh các phương pháp nhị phân ảnh đối với ảnh Chứng minh nhân dân 28 Hình 2 4 Biến đổ Hough 30
Hình 2 5 Phương pháp láng giếng gần nhất 32
Hình 2 6 Phương pháp chiếu nghiêng 33
Hình 2 7 Phần tử cấu trúc 3x3 34
Hình 2 8 Phép giãn ảnh với phần tử cấu trúc 3x3 35
Hình 2 9 Phép co ảnh với phần tử cấu trúc 3x3 36
Hình 2 10 Phép toán opening 36
Hình 2 11 Phép toán closing 37
Hinh 3 1 Mẫu “Giấy Chứng minh nhân dân” 38
Hinh 3 2 Vùng thông tin cần tách ở mặt trước CMND 39
Hinh 3 3 Tiền xử lý ảnh mặt trước CMND 41
Hinh 3 4 Xác định vùng Số CMND 44
Hinh 3 5 Phân đoạn vùng Số CMND 45
Hinh 3 6 Mặt nạ dòng mặt trước 47
Hinh 3 7 Xoá phần tiêu đề 49
Hinh 3 8 Kết quả lấy lại các ký tự bị mất 50
Hinh 3 9 Các vùng thông tin cần tách ở mặt sau 51
Hinh 3 10 Tiền xử lý mặt sau CMND 52
Trang 6Hinh 3 11 Xác định cấu trúc bảng 53 Hình 4 1 So khớp khối đúng và khối tách được 56 Hình 4 2 Trường hợp tách bị lỗi 57
Trang 7Danh mục bảng biểu
Bảng 2 1 So sánh phương pháp Niblack và Otsu 28Bảng 3 1 Đặc trưng các trường thông tin ở mặt trước CMND 40Bảng 4 1 Kết quả phân tích ảnh CMND 56
Trang 8Danh mục thuật toán
Thuật toán 2.1. Nhị phân ảnh 21
Thuật toán 2.2. Phương pháp phân ngưỡng Niblack 23
Thuật toán 2.3. Phương pháp phân ngưỡng Otsu 25
Thuật toán 2.4. Hiệu chỉnh độ nghiêng của ảnh tài liệu 29
Thuật toán 2.5. Xoay ảnh 29
Thuật toán 2.6. Xác định góc nghiêng dựa vào biến đổi Hough 30
Thuật toán 2.7. Phương pháp láng giềng gần nhất 31
Thuật toán 2.8. Sử dụng chiếu nghiêng để xác định góc nghiêng 33
Thuật toán 3.1. Xác định các vùng có thể là Trường Số CMND 43
Thuật toán 3.2. Tìm và tách trường Số CMND 44
Thuật toán 3.3. Phân đoạn vùng Số CMND 45
Thuật toán 3.4. Ước lượng bề dày đường lượn sóng 46
Thuật toán 3.5. Tách các ký tự thuộc mỗi dòng 48
Thuật toán 3.6. Xoá phần tiêu đề 49
Thuật toán 3.7. Tìm các đường kẻ ngang trong ảnh 52
Trang 9Mở đầu
Nhận dạng mẫu là một ngành khoa học của học máy (hay trí tuệ nhân tạo) nhằm phân loại dữ liệu (các mẫu) vào một số lớp [4] Mẫu có thể là bất kỳ thực thể nào cần được nhận ra, ví dụ: chữ in, chữ viết tay, vân tay, khuôn mặt, tiếng nói, hình dạng,… Cùng với sự phát triển của khoa học kỹ thuật, các ứng dụng của nhận dạng mẫu ngày càng được mở rộng, từ việc tự động hoá một số quy trình trong sản xuất công nghiệp cho đến dự báo thời tiết, dự báo cháy rừng hay là một phần quan trọng trong các hệ thống máy tính thông minh…
Một trong những ứng dụng phổ biến của nhận dạng mẫu hiện nay là phân tích và nhận dạng ảnh tài liệu (có nguồn gốc từ hệ thống nhận dạng ký tự quang học), nhằm số hoá các trang tài liệu giấy như sách, báo, tạp chí,… Cho đến nay, bài toán phân tích và nhận dạng ảnh tài liệu đã được giải quyết gần như trọn vẹn và cũng đã có những sản phẩm thương mại, như VnDOCR của Viện công nghệ thông tin hay FineReader của hãng ABBYY,…
Bên cạnh lớp bài toán phân tích và nhận dạng ảnh tài liệu một cách tổng quát ở trên còn có lớp bài toán riêng biệt cho từng ngành, từng lĩnh vực cụ thể, như: phân tích và nhận dạng bảng biểu, phiếu điều tra, mẫu điền thông tin, danh thiếp, hộ chiếu,… Đối với lớp bài toán này thì việc phân tích cấu trúc của ảnh tài liệu là đặc biệt quan trọng, bởi vì nó sẽ quyết định đến việc tách và nhận dạng chính xác các trường thông tin cần thiết cho từng ứng dụng cụ thể
Trên thế giới đã có nhiều sản phẩm phần mềm phân tích và nhận dạng ảnh thẻ chứa thông tin cá nhân (như hộ chiếu, danh thiếp,…) và được ứng dụng trong nhiều lĩnh vực, như: làm thủ tục hải quan, các giao dịch ở các cửa hàng, khách sạn,… Ở Việt Nam loại thẻ chứa thông tin các nhân được sử dụng nhiểu nhất là Giấy chứng minh nhân dân (CMND), nhưng hiện nay chưa có một giải pháp nào được đưa ra cho việc phân tích và nhận dạng CMND Do đó, trong luận văn này, tôi xin đề xuất một phương pháp phân tích ảnh CMND dựa trên việc phân tích và nhận dạng biểu mẫu Luận văn gồm bốn chương với các nội dung như sau:
Chương 1: Tổng quan về phân tích ảnh tài liệu Giới thiệu tổng quan về hệ thống
nhận dạng ảnh tài liệu nói chung và hệ thống phân tích ảnh tài liệu nói riêng Giới thiệu các hướng tiếp cận trong phân tích bố cục và cấu trúc của ảnh tài liệu
Chương 2: Một số thuật toán tiền xử lý ảnh Giới thiệu một số thuật toán tiền xử lý
ảnh thường được áp dụng trong các hệ thống phân tích và nhận dạng ảnh tài liệu, như: nhị phân ảnh, căn chỉnh độ nghiêng, các toán tử hình thái
Trang 10Chương 3: Phương pháp phân tích Giấy chứng minh nhân dân Giới thiệu bài toán
và các vấn đề cần giải quyết, từ đó áp dụng các kỹ thuật xử lý ảnh và phân tích ảnh tài liệu ở trên để phân tích ảnh CMND
Chương 4: Cài đặt thử nghiệm và đánh giá Đánh giá hiệu quả của giải pháp đưa ra
trên tập ảnh CMND thu thập được
Trang 11Chương 1: Tổng quan về phân tích ảnh tài liệu
1.1 Tổng quan về hệ thống nhận dạng ảnh tài liệu
Một hệ thống nhận dạng ảnh tài liệu gồm các bước sau (Hình 1 1):
Hình 1 1 Sơ đồ hệ thống nhận dạng
Thu nhận và lưu trữ ảnh: Các trang tài liệu được thu nhận thông qua các thiết
bị ghi nhận hình ảnh (máy quét, máy ảnh kỹ thuật số,…) và được lưu trữ dưới dạng các file hình ảnh (*.bmp, *.jpg, *.tif,…) Tuỳ từng ứng dụng cụ thể mà chọn định dạng file và kiểu ảnh (ảnh mầu, ảnh đa cấp xám, ảnh đen/trắng,…) cho phù hợp
Trang 12 Tiền xử lý ảnh: Do các tài liệu gốc thường có chất lượng khác nhau (có thể bị
mờ, ố,…) hoặc quá trình thu nhận ảnh chịu ảnh hưởng của môi trường nên ảnh thu nhận được thường có chất lượng không đồng nhất Để đảm bảo kết quả nhận dạng được chính xác cần áp dụng các kỹ thuật xử lý ảnh để nâng cao chất lượng của ảnh đầu vào Các kỹ thuật thường được sử dụng là khử nền, xoá nhiễu, làm trơn ảnh, căn chỉnh độ nghiêng của trang tài liệu…
Phân tích ảnh: Là quá trình phân ly ảnh thành các vùng (văn bản, hình ảnh,
bảng biểu,…) và hiểu vai trò chức năng của mỗi vùng cũng như mối quan hệ của
nó với các vùng khác Đây là một trong những công đoạn quan trọng nhất của
một hệ thống nhận dạng vì nó ảnh hưởng rất lớn đến kết quả nhận dạng
Nhận dạng: Đây là thao tác gán nhãn các đối tượng dựa trên các tri thức đã được
học, hay nói cách khác là việc tìm một lớp mẫu phù hợp nhất với đối tượng đầu vào
Hậu xử lý: Bao gồm các công việc như: ghép các ký tự đã được nhận dạng thành
các từ, các câu, các đoạn nhằm khôi phục lại văn bản như ban đầu, đồng thời phát hiện các lỗi nhận dạng bằng việc kiểm tra chính tả dựa trên cấu trúc và ngữ nghĩa của câu, đoạn văn
Lưu văn bản: Sau khi đã tái tạo được nguyên bản của tài liệu, cần lưu chúng ở
các định dạng file được hệ thống hỗ trợ (như: *.doc, *.docx, *.rtf,…)
1.2 Phân tích ảnh tài liệu
Một ảnh tài liệu bao gồm nhiều thành phần khác nhau như các khối văn bản, hình ảnh, bảng biểu, sơ đồ, công thức,… và chúng có thể được gán cho các nhãn lôgic hay chức
năng khác nhau như nhan đề, tiêu đề, tên và địa chỉ tác giả,… Quá trình phân tích ảnh tài liệu là việc cố gắng phân ly tài liệu thành các vùng và hiểu vai trò chức năng cũng
như mối quan hệ giữa các vùng [5]
Các ảnh tài liệu thường được tạo ra từ các tài liệu thực bởi quá trình số hoá sử dụng máy quét hoặc máy ảnh kỹ thuật số Nhiều tài liệu như báo, tạp chí, quảng cáo có bố cục rất phức tạp do sự sắp đặt của hình ảnh, nhan đề và đầu đề, nền phức tạp, định dạng văn bản có tính nghệ thuật,… (Hình 1 2) Một người đọc sử dụng một loạt các thông tin bổ xung như ngữ cảnh, quy ước và thông tin ngôn ngữ/kịch bản, cùng với quá trình lý luận phức tạp để giải mã nội dung của tài liệu Tự động phân tích một tài liệu tuỳ ý với bố cục phức tạp là một nhiệm vụ vô cùng khó khăn và vượt ngoài khả năng của các hệ thống phân tích bố cục và cấu trúc tài liệu tiên tiến Bởi vì các tài liệu này được thiết kế để hiệu quả và rõ ràng đối với sự phân tích của con người hơn các ảnh có trong tự nhiên
Trang 13Hình 1 2 Ví dụ ảnh tài liệu có bố cục phức tạp Như vậy, chúng ta cần phân biệt giữa bố cục tự nhiên và cấu trúc lôgic của tài liệu, và cũng có thể chia quá trình phân tích ảnh tài liệu làm hai phần tương ứng Hình 1 3 mô
tả các bước của một hệ thống phân tích ảnh tài liệu
1.2.1 Bố cục tự nhiên và cấu trúc lôgic
Bố cục tự nhiên của ảnh tài liệu là đề cập đến hình bao và vị trí tự nhiên của các vùng khác nhau trong ảnh tài liệu Phân tích bố cục tự nhiên là quá trình phân ly ảnh tài
liệu thành các dãy các vùng đồng nhất, như: hình ảnh, khối văn bản, dòng văn bản, từ,
ký tự,… Có hai hướng tiếp cận chính để phân tích bố cục:
Hướng tiếp cận bottom-up (dưới-lên): bắt đầu từ các thành phần nhỏ nhất của tài
liệu (như điểm ảnh, thành phần liên thông), lặp đi lặp lại quá trình gom nhóm chúng thành các khối đồng nhất lớn hơn
Ngược lại, hướng tiếp cận top-down (trên-xuống) lại bắt đầu từ cả trang ảnh tài
liệu, cố gắng chia nó thành các vùng nhỏ hơn
Mỗi cách tiếp cận đều có ưu/nhược điểm riêng và làm việc tốt trong những trường hợp nhất định, tuỳ thuộc vào từng bài toán cụ thể mà chọn phương pháp thích hợp Ngoài
ra một số tác giả còn đề xuất các hướng tiếp cận lai, sử dụng cả hai cách tiếp cận ở trên
Ngoài bố cục tự nhiên, các tài liệu còn chứa các thông tin bổ xung về nội dung của nó như: nhan đề, tiêu đề,… Mặt khác, mỗi tài liệu có các thứ tự đọc khác nhau (như: các ngôn ngữ Ả Rập đọc từ trái qua phải, tiếng Trung Quốc lại đọc từ trên xuống dưới,…), giúp cho việc hiểu tài liệu dễ dàng hơn Một tập các thực thể lôgic hoặc chức năng trong tài liệu, với các quan hệ bên trong của nó được hiểu là cấu trúc lôgic của tài liệu
Trang 14Phân tích cấu trúc lôgic là việc biểu diễn kết quả của phân tích cấu trúc bố cục Tuy
nhiên trong nhiều tài liệu phức tạp, phân tích bố cục cũng cần một số thông tin lôgic
để việc phân đoạn được chính xác
Hình 1 3 Sơ đồ hệ thống phân tích bố cục và cấu trúc ảnh tài liệu
1.2.2 Phân loại ảnh tài liệu
Dựa trên mức độ phụ thuộc của tài liệu vào bố cục tự nhiên hay cấu trúc lôgic, người
ta chia làm 4 loại ảnh tài liệu (Hình 1 4) [6]:
Loại 1: Quá phụ thuộc vào bố cục tự nhiên Vị trí, độ dài của các trường dữ liệu là được ấn định trước Ví dụ như các biễu mẫu ứng dụng, ngân phiếu, danh sách câu hỏi,…
Loại 2: Phụ thuộc vào cấu trúc lôgic hơn là bố cục tự nhiên Cụ thể, vị trí của mỗi trường có thể di chuyển lên/xuống hoặc sang trái/phải từ vị trí bình thường so với các trường có liên quan hoặc các trường trước đó Ví dụ như thẻ danh mục, thư từ, danh thiếp
Loại 3: Phụ thuộc vào bố cục tự nhiên như loại 1, nhưng cấu trúc phức tạp hơn (các trường phân cấp hoặc lặp đi lặp lại) hoặc bố cục được hướng dẫn bởi các yếu tố khác (ví dụ như các đoạn thẳng, các vùng trống,…) Vị trí, độ dài mỗi trường là gần như cố định Ví dụ như bảng biểu
Loại 4: Vị trí và độ dài của các trường phụ thuộc vào mối quan hệ của các trường Nói chung, mặc dù cấu trúc chung của tài liệu là đã được định nghĩa trước bởi bố cục tự
Nhị phân ảnh
Tài liệu
đã phân đoạn
Trang 15nhiên, nhưng cấu trúc thực tế lại phụ thuộc vào mối quan hệ giữa các trường Cụ thể, loại này liên quan đến bố cục tự nhiên của toàn bộ tài liệu, cũng như cấu trúc lôgic về
vị trí và hình dạng Ví dụ như các trang báo, các bài báo
Hình 1 4 Các loại ảnh tài liệu
Các bước của phân tích bố cục bao gồm:
Phân đoạn vùng: Là việc chia một hình ảnh tài liệu thành các vùng thành phần,
khi mà thuộc tính của tính đồng nhất không còn thoả mãn nữa Tính đồng nhất thường được định nghĩa dựa trên một vectơ tham số, , có vai trò quan trọng trong sự thành công của thuật toán Điều này cũng đúng cho phương pháp tiếp cận từ dưới lên, khi chúng ta cố gắng để nhóm các thành phần nhỏ hơn vào các vùng Tính toán vectơ tham số, , hoạt động tốt cho tất cả các tài liệu thường là điều không thể Các phương pháp hiện nay cố gắng điều chỉnh các thông số dựa trên thông tin phản hồi từ các bước xử lý phía sau như nhận dạng ký tự
biểu mẫu ứng dụng, ngân phiếu,
danh sách câu hỏi,…
[Loại 1]
bảng biểu,…
[Loại 3]
thẻ danh mục, thư từ,
danh thiếp,…
[Loại 2]
trang báo, bài báo, … [Loại 4]
Bố cục
tự nhiên
Cấu trúc lôgic
Trang 16 Phân loại vùng: Là việc quyết định xem các vùng đã phân đoạn được thuộc loại
nào Bài toán điển hình là phân loại các vùng vào khối văn bản hay hình ảnh và nhận ra đâu là các đối tượng đồ hoạ, đâu là các bảng biểu Phân loại vùng là điều kiện kiên quyết để xử lý nhiều loại vùng, vì mỗi loại vùng thì có các đặc trưng khác nhau nên cần các thuật toán khác nhau để xử lý
Có rất nhiều thuật toán đã được đề xuất để thực hiện phân tích bố cục của ảnh tài liệu Bây giờ chúng ta sẽ xem xét một số thuật toán phổ biến để minh họa cho các hướng tiếp cận ở trên
1.3.1 Hướng tiếp cận trên-xuống
Hình 1 5 Hình chiếu ngang và dọc của ảnh tài liệu Một kỹ thuật cơ bản của hướng tiếp cận trên-xuống là sử dụng hình chiếu theo phương ngang và dọc để chia ảnh tài liệu đầu vào thành các vùng nhỏ hơn Ví dụ điển hình của
kỹ thuật này là thuật toán X-Y Cut [7], bắt đầu chia ảnh tài liệu thành các phần dựa vào
các khe lõm của các hình chiếu (Hình 1 5) Thuật toán lặp đi lặp lại với các phần của tài liệu bằng cách chiếu lần lượt các vùng của phân đoạn hiện thời lên các trục ngang
và dọc Quá trình phân tách dừng khi bề rộng của khe lõm nhỏ hơn một ngưỡng đã được xác định từ trước Các kỹ thuật dựa trên hình chiếu là cực kỳ nhạy với độ nghiêng của ảnh Chỉ cần ảnh bị nghiêng với một góc nhỏ là có thể thay đổi hoàn toàn bản chất của hình chiếu, kết quả là khe lõm không còn được rõ ràng nữa Do đó phải đặc biệt chú ý đến khâu quét tài liệu hoặc sử dụng một thuật toán chỉnh nghiêng ảnh đáng tin cậy trước khi tiến hành phân đoạn
Một kỹ thuật khác của hướng tiếp cận này là dựa vào hình học để phân tích cấu trúc nền của ảnh tài liệu Ý tưởng chính của kỹ thuật này là cố gắng tìm một tập hợp các
Trang 17hình chữ nhật lớn nhất có thể sao cho không chứa bất kỳ điểm ảnh nào của đối tượng (chỉ chứa nền) Các hình chữ nhật này chia ảnh tài liệu thành các vùng có chứa văn bản, hình ảnh hoặc đồ hoạ Tiếp đó là sử dụng một thuật toán phân lớp để phân loại các vùng này trước khi chuyển sang bước tiếp theo Phương pháp này hiệu quả và chính xác với các tài liệu có nền mầu trắng và các vùng được bố cục dưới dạng hình chữ nhật (manthatan) Ví dụ như thuật toán bao phủ hình dạng định hướng của Baird [8] và phân đoạn dựa trên dòng trắng của Pavlidis và Zhou [9] Tuy nhiên các thuật toán này cài đặt rất phức tạp do phải miêu tả các kết quả trung gian và các trường hợp đặc biệt cần được xử lý Thuật toán khoảng trắng bao phủ (whitespace) của Breuel [10] là một biến thể hiệu quả của ý tưởng tương tự sử dụng nguyên lý hình học, khi đã
bỏ đi các trường hợp đặc biệt (Hình 1 6)
Hình 1 6 Thuật toán whitespace
1.3.2 Hướng tiếp cận dưới-lên
Hướng tiếp cận dưới-lên sử dụng các thành phần nguyên thuỷ để bắt đầu quá trình gom nhóm Thuật toán Docstrum của O’Gorman [11], coi một tập hợp các thành phân liên thông trong ảnh tài liệu như là các thành phần nguyên thuỷ Các nhiễu lớn hoặc các thành phần không phải là văn bản được loại bỏ khỏi tập này K láng giềng gần nhất của mỗi thành phần được xác định và các dòng văn bản được tạo thành dựa trên một ngưỡng của góc giữa tâm các thành phần Biểu đồ khoảng cách giữa các thành phần là được sử dụng để xác định khoảng cách giữa các ký tự trong từ và giữa các từ Khoảng các giữa các thành phần liên thông trong dòng và giữa các dòng được tính toán để tạo thành các dòng và các khối văn bản Thuật toán có một tập các tham số được thiết lập bởi các thí nghiệm trên một các tài liệu Thuật toán thực hiện tốt với nhiều bố cục của
Trang 18các văn bản tiếng Anh Hình 1 7 cho chúng ta thấy thuật toán xử lý tốt các phông chữ với kích cỡ và kiểu khác nhau, và có bố cục tương đối phức tạp
Hình 1 7 Thuật toán Docstrum Thuật toán dựa trên biển đồ Voronoi của Kise [12] là một phương pháp hiệu quả khác bằng cách gom nhóm các thành phân liên thông trong một trang Bắt đầu với việc tính toán một lưới tổ ong Voronoi của ảnh tài liệu Đồ thị láng giềng của các thành phần liên thông là được tính toán từ sơ đồ Voronoi Sau đó, thuật toán sử dụng một ngưỡng dựa trên diện tích và khoảng cách giữa các thành phần liền kề trong biểu đồ Voronoi
để quyết định đường bao của vùng Dòng văn bản được xác định dựa trên một ngưỡng được tính toán từ khoảng các giữa các thành phần bên trong đồ thị láng giềng của nó Các kết quả thu được có độ chính xác cao và rất đáng tin cậy trên các tài liệu có nền trắng, khi mà các thành phần liên thông được xác định một cách đáng tin cậy Cũng giống như Docstrum, thuật toán dựa trên Voronoi có thể xử lý các bố cục phức tạp và thực hiện tốt trên hầu hết các văn bản bằng tiếng Anh (Hình 1 8)
1.4 Phân tích cấu trúc
Cấu trúc lôgic của ảnh tài liệu là một ánh xạ từ các vùng tự nhiên trong tài liệu đến các nhãn lôgic của chúng Phân tích cấu trúc lôgic của ảnh tài liệu (sau đây gọi tách là
phân tích cấu trúc) là quá trình gán các nhãn lôgic cho các vùng tự nhiên đã xác định ở
bước phân tích bố cục Các nhãn lôgic bao gồm tiêu đề, đoạn tóm tắt, tiêu đề con, đoạn văn, câu, từ, đầu trang, cuối trang, chú thích, số trang,…
Một trong các hướng tiếp cận phổ biến để xác định cấu trúc lôgic của tài lại là coi tập các vùng trong tài liệu như là một chuỗi các ký hiệu Một ngữ pháp định nghĩa thông qua các ký hiệu này để miêu tả cấu trúc lôgic của một tài liệu bất kỳ được xem xét Sau đó, quá trình phân tích cấu trúc sẽ tìm một phân tích cú pháp có khả năng nhất (một tập các quy tắc ngữ pháp) được tạo ra từ chuỗi các ký hiệu được quan sát Vấn đề phát sinh là khi có nhiều phân tích cú pháp tương ứng với một tài liệu xác định và chúng ta phải quyết định chọn phân tích cú pháp nào Các quy tắc ngữ pháp được tăng
Trang 19cường thêm các thuộc tính của các vùng và các mối quan hệ của chúng để thích ứng với tình trạng này Phân tích cú pháp có khả năng nhất có thể được định nghĩa bằng cách sử dụng một hàm chi phí được đưa vào các tính toán và các giá trị thuộc tính Hoặc cũng có thể sử dụng một ngữ pháp sác xuất ngẫu nhiên, mà có thể cung cấp một giá trị có khả năng cho phân tích cú pháp, tuỳ thuộc vào các luật sử dụng và các thuộc tính cuối cùng Các luật của ngữ pháp xác suất ngẫu nhiên cũng có thể chứa xác suất liên kết với nó, mà có thể được sử dụng để xác định phân tích cú pháp có khả năng nhất, cùng với các thuộc tính của vùng
Hình 1 8 Thuật toán Voronoi Hướng tiếp cận thứ hai là áp dụng sự hiểu biết về cấu trúc và bố cục dựa trên kết quả nhận dạng ký tự quang học và nhận dạng các đối tượng đồ hoạ của tài liệu Các tiếp cận này giả định rằng đã xác định chính xác bố cục của các vùng văn bản, và sau đó được nhận dạng bằng một thuật toán nhận dạng ký tự quang học Các tiếp cận này là rất mạnh mẽ, vì nó sử dụng chính nội dung của văn bản để quyết định chức năng của
nó, mà điều này không có trong phương pháp ở trên Ví dụ, hướng tiếp cận dựa trên nhận dạng ký tự quang học có thể sử dụng các từ trong dòng văn bản gần với một hình ảnh để quyết định xem nó có phải là một chú thích hay không
1.5 Kết luận chương
Trong chương này, luận văn đã trình bầy một cách tổng quan về hệ thống phân tích và nhận dạng ảnh tài liệu, đặc biệt là bước phân tích ảnh tài liệu Phân biệt sự khác nhau giữa bố cục tự nhiên và cấu trúc lôgic, giới thiệu các hướng tiếp cận và một số thuật toán trong phân tích bố cục và cấu trúc của ảnh tài liệu Trong chương tiếp theo sẽ trình bầy một số thuật toán tiền xử lý ảnh thường được sử dụng trong phân tích ảnh tài liệu
Trang 20Chương 2: Một số thuật toán tiền xử lý ảnh
Đầu vào của các hệ thống xử lý ảnh thường là các tệp ảnh được thu nhận từ các thiết bị như: máy quét, máy ảnh, thiết bị ghi hình hay các thiết bị thu nhận hình ảnh khác Các ảnh này thường có chất lượng thấp (bị lẫn các nhiễu, mất các chi tiết của đối tượng, hay bị lệch so với ảnh gốc một góc bất kỳ,…) Nguyên nhân là do: thiết bị thu nhận không đảm bảo, điều kiện thu nhận không tốt (độ sáng thay đổi, thu nhận trong khi di chuyển,…) hay quá trình sao lưu bị mất mát thông tin
Để các bước xử lý tiếp theo thu được kết quả tốt cần phải có quá trình tiền xử lý để nâng cao chất lượng ảnh đầu vào Quá trình này bao gồm các công đoạn khôi phục và tăng cường ảnh:
Khôi phục ảnh nhằm mục đích loại bỏ hay giảm thiểu các ảnh hưởng của môi
trường tác động lên ảnh Bao gồm các bước: lọc ảnh, khử nhiễu, xoay ảnh,… nhằm giảm bớt các biến dạng của ảnh và đưa ảnh về trạng thái gần như ban đầu
Tăng cường ảnh không phải làm tăng lượng thông tin trong ảnh mà là làm nổi
bật các đặc trưng của ảnh giúp cho công việc phía sau được hiệu quả hơn Công đoạn này bao gồm các việc như: lọc độ tương phản, làm trơn ảnh, nhị phân ảnh,…
Trong đó các thao tác nhị phân ảnh, căn chỉnh độ nghiêng và xóa nhiễu là các thao tác
cơ bản nhất và thường được áp dụng Trong các phần tiếp theo của chương này sẽ trình bầy một số thuật toán trong các thao tác đó
2.1 Nhị phân ảnh
Ảnh nhận được từ các thiết bị thu nhận hình ảnh như máy ảnh hay camera thường là ảnh mầu hay ảnh đa cấp xám, các thành phần trong ảnh là rất phức tạp (mầu sắc, kết cấu…) Do đó muốn làm nổi bật các đặc trưng trong ảnh thì phải chuyển về dạng ảnh nhị phân, ảnh chỉ có hai mầu (đen và trắng) – tương ứng với nền và tiền cảnh (đối tượng “quan tâm”) Nhị phân ảnh (hay còn gọi là phân ngưỡng) là thao tác chuyển từ ảnh đa cấp xám (hoặc ảnh mầu) về ảnh nhị phân (Thuật toán 2.1)
Thuật toán 2.1 Nhị phân ảnh
INPUT: Ảnh mầu hoặc ảnh đa cấp xám
OUTPUT: Ảnh nhị phân
1 Xác định ngưỡng T
2 Chuyển ảnh về dạng nhị phân
Trang 21Như vậy, cơ bản của thuật toán nhị phân ảnh là xác định một ngưỡng T để phân tách giữa nền và đối tượng trong ảnh Giả sử với ảnh đầu vào I(x, y), có giá trị tại điểm (x, y) là g(x, y) (đối với ảnh đa cấp xám: g(x, y) [0, 255]) Khi đó giá trị của điểm ảnh (x, y) trong ảnh nhị phân I'(x, y) sẽ được xác định như sau:
T y x g u ê n y
x g
),(1
),(0
),(
Việc xác định một ngưỡng T thích hợp luôn là một quá trình khó khăn và dễ gây ra lỗi
(Hình 2 1) Điều này sẽ đặc biệt khó khăn khi độ tương phản giữa các đối tượng và
nền thấp hay khi ảnh có độ chiếu sáng không đồng đều khi thu nhận Nếu ngưỡng T
quá thấp thì các đối tượng thu được có thể bị xóa mất các chi tiết của ảnh, ngược lại
nếu ngưỡng T quá cao thì có thể chứa các điểm ảnh nhiễu
Hình 2 1 Nhị phân ảnh
Có rất nhiều phương pháp để xác định ngưỡng phân tách T Ngưỡng T có thể được xác
định cho toàn bộ ảnh (ngưỡng tổng quát) hay được xác định cho mỗi điểm ảnh cụ thể
Trang 22(ngưỡng cục bộ) Trong phần tiếp theo sẽ phân loại và giới thiệu một số phương pháp
xác định ngưỡng T
2.1.1 Phân loại các phương pháp xác định ngưỡng T
Căn cứ vào phương pháp được áp dụng, có thể chia ra làm 6 nhóm sau [13]:
1 Các phương pháp dựa vào hình dạng của histogram (Histogram
Shape-Based Thresholding Methods) Căn cứ vào hình dáng của histogram như: các
đỉnh, các khe và độ cong (peaks, valleys and curvatures) để xác định ngưỡng Vị
trí lấy ngưỡng có thể là khe lõm nhất giữa hai đỉnh hay điểm cách xa đường thẳng nối hai đỉnh
2 Các phương pháp dựa vào việc chia nhóm (Clustering-Based Thresholding
Methods) Các phương pháp loại này cố gắng chia ảnh ra làm hai nhóm tương
ứng với nền và đối tượng dựa trên một số tiêu trí đánh giá “khoảng cách” giữa hai nhóm hay giữa các phần tử trong mỗi nhóm
3 Các phương pháp dựa vào entropy (Entropy-Based Thresholding Methods)
Trong kỹ thuật này người ta chọn ngưỡng dựa vào entropy dựa trên một số cơ sở như: cực đại các entropy (nền và đối tượng), cực tiểu các entropy lai (giữa ảnh gốc và ảnh nhị phân) hay độ đo entropy mờ
4 Các phương pháp dựa vào thuộc tính giống nhau (Thresholding Based on
Attribute Similarity) Ngưỡng được xác định dựa độ đo các thuộc tính giống
nhau của ảnh gốc và ảnh nhị phân, chẳng hạn như căn cứ vào các cạnh thỏa mãn,
độ chặt của hình dáng, momen mức xám, khả năng liên kết, kết cấu,…
5 Các phương pháp căn cứ vào không gian (Spatial Thresholding Methods) Sử
dụng sự tương liên hoặc/và phân phối thông kê bậc cao giữa các pixel để chọn ngưỡng
6 Các phương pháp ngưỡng thích ứng cục bộ (Locally Adaptive Thresholding)
Kỹ thuật này sẽ xác định ngưỡng t(x, y) cho từng điểm ảnh (x, y) riêng biệt căn
cứ vào mối tương quan giữa điểm ảnh đó và các láng giềng của nó
2.1.2 Một số phương pháp xác định ngưỡng T
Trong phần này sẽ trình bầy hai phương pháp thường được sử dụng để xác định
ngưỡng nhị phân T Phương pháp Niblack xác định ngưỡng T cho mỗi điểm ảnh riêng biệt, trong khi phương pháp Otsu ngưỡng T được xác định cho toàn bộ ảnh
1/ Phương pháp Niblack
Đây là phương pháp xác định ngưỡng cục bộ dựa trên việc tính toán giá trị trung bình
và độ lệch chuẩn cục bộ Thuật toán được mô tả như sau:
Thuật toán 2.2 Phương pháp phân ngưỡng Niblack
Trang 23INPUT: Giá trị mức xám của các điểm ảnh g(x, y)
OUTPUT: Ngưỡng nhị phân cho mỗi điểm ảnh T(x, y)
Với mỗi điểm ảnh, xác định một cửa sổ kích thước (w × w) bao quanh nó Giá trị
ngưỡng được tính toán dựa trên giá trị trung bình và độ lệch chuẩn trong cửa sổ đó
Với điểm ảnh ở vị trí (x, y) giá trị ngưỡng được xác định như sau [14]:
) , ( ) , ( ) , (x y m x y k x y
w x
w x i
w y
w y j
j i g w
y x m
2
w x
w x i
w y
w y j
y x m j i g w
y x
k là tham số dùng để xác định đường biên của đối tượng chiếm bao nhiêu phần trong
đối tượng trả về Kích thước của cửa sổ phải đủ nhỏ để giữ lại các chi tiết và cũng phải
đủ lớn để khử các điểm nhiễu Theo [13] thì tham số k = -0.2, kích thước của sổ w =
x m y x
Trong đó: R là giá trị lớn nhất của độ lệch chuẩn (với ảnh đa cấp xám: R = 128), k là tham số nằm trong khoảng [0.2, 0.5], m(x, y) và σ(x, y) là giá trị đáp ứng các mức
ngưỡng khác nhau tùy theo các điểm lân cận Với một vài vùng ảnh có độ tương phản
cao thì σ(x, y) ≈ R, khi đó T(x, y) ≈ m(x, y) Kết quả này giống như phương pháp
Trang 24Niblack Trong trường hợp T(x, y) nhỏ hơn giá trị trung bình thì sẽ xóa đi một vài vùng tối của nền Tham số k dùng để điểu chỉnh giá trị ngưỡng so với giá trị trung bình m(x, y) (lớn hơn hay nhỏ hơn một tỷ lệ k)
Như vậy ngưỡng của mỗi điểm ảnh được xác định dựa trên việc đánh giá giá trị của các điểm ảnh lân cận với nó, do đó rất thích hợp cho những ảnh có độ sáng thay đổi (ví
dụ như ảnh chụp từ camera) Nhưng thời gian tính toán là rất chậm, tùy thuộc vào kích thước của cửa sổ
2/ Phương pháp Otsu
Đây là phương pháp xác định ngưỡng cho toàn bộ ảnh Phương pháp này sẽ tìm một ngưỡng để phân chia các điểm ảnh vào hai lớp tiền cảnh (đối tượng) và nền Giá trị ngưỡng được xác định sao cho “khoảng cách” giữa các điểm ảnh trong mỗi lớp là nhỏ nhất, điều này tương đương với khoảng giữa hai lớp là lớn nhất Việc phân chia này dựa trên các giá trị trong histogram của ảnh Các bước để xác định ngưỡng t Otsu của ảnh được tiến hành như sau:
Thuật toán 2.3 Phương pháp phân ngưỡng Otsu
INPUT: Ảnh đa cấp xám
OUTPUT: Ngưỡng nhị phân cho toàn bộ ảnh: t Otsu
1 Tính histogram của ảnh: {p i}
2 Duyệt tất cả mức xám của ảnh: t
a Tính lũy tích cho nền P B t và tiền cảnh P F t
b Tính trị số trung bình của nền và tiền cảnh B t t
class within
var
e Ngưỡng t Otsu là đối số để hàm t
class between
var lớn nhất Hoặc hàm t
class within
var đạt giá trị nhỏ nhất
Với ảnh đầu vào là ảnh đa cấp xám, mỗi điểm ảnh có giá trị cường độ nằm trong
khoảng [0, L] (L= 255) Giả định rằng {p i} (i = [0, L-1]) là lược đồ mức xám của ảnh
– tỷ số giữa số lượng điểm ảnh có mức xám i so với toàn bộ ảnh và t là giá trị mức xám của ngưỡng lựa chọn Sử dụng F và B để ký hiệu cho lớp tiền cảnh và nền, khi đó việc tính toán xác suất nền và tiền cảnh bởi ngưỡng t được xác định bởi các hàm sau
[16]:
Hàm lũy tích của tiền cảnh và nền:
Trang 25
t
i i
t
B p P
t B
var
t F
t B
t F
t B
t F
t F
t B
t B
t class between
P P
P P
t F
t B
t B
t class within P P
là giá trị trung bình của toàn ảnh
Khi đó ngưỡng t Otsu được xác định là đối số để hàm t
class between
var đạt giá trị lớn nhất hoặc hàm t
class within
t
t class between L
t Otsu
arg
var max
arg
1 1
Đây là phương pháp được sử dụng phổ biến trong xử lý ảnh vì nó phân đoạn và làm nổi bật ảnh khá tốt Tuy nhiên phương pháp này sẽ thất bại khi số điểm ảnh tiền cảnh nhỏ hơn 5%
2.1.3 Nhận xét
Nhị phân ảnh là một thao tác cơ bản để phân tách giữa nền và đối tượng Trong đó việc xác định ngưỡng nhị phân là thao tác quan trọng và khó khăn nhất Có thể xác định ngưỡng cho toàn bộ ảnh (phương pháp Otsu) hay xác định ngưỡng cho từng điểm ảnh riêng biệt (phương pháp Niblack) tùy vào yêu cầu của bài toán và tích chất ảnh đầu vào
Hình 2 2 và Hình 2 3 mô tả kết quả phân ngưỡng của hai phương pháp trên hai ảnh
có tính chất khác nhau Hình 2 2 ảnh có độ chiếu sáng thay đổi, ta thấy phương pháp Niblack cho kết quả tốt hơn phương pháp Otsu Trong khi Hình 2 3 kết quả của
Trang 26phương pháp Otsu lại tốt hơn phương pháp Niblack Kết quả so sánh giữa hai phương pháp này được chỉ ra trong Bảng 2 1
a Ảnh gốc
b Phương pháp Niblack
c Phương pháp Otsu (ngưỡng 148) Hình 2 2 So sánh các phương pháp nhị phân ảnh đối với có độ sáng thay đổi
Trang 27a Ảnh gốc
b Phương pháp Niblack c Phương pháp Otsu (ngưỡng 154) Hình 2 3 So sánh các phương pháp nhị phân ảnh đối với ảnh Chứng minh nhân dân
Bảng 2 1 So sánh phương pháp Niblack và Otsu
Độ phức tạp của thuật toán O(N2)O(W2) O(N2)
Ảnh có độ sáng thay đổi Tốt Không tốt (Mất một số
vùng thông tin) Phụ thuộc vào kích thước của
2.2 Hiệu chỉnh độ nghiêng của trang văn bản
Đối với những chương trình nhận dạng, có ảnh đầu vào là những trang tài liệu dạng văn bản thì các ảnh thu nhận được thường bị lệch so với ảnh gốc một góc bất kỳ Nguyên nhân là do trong quá trình thu nhận: ảnh gốc bị đặt lệch, thiết bị ghi nhận hình ảnh đặt không đúng vị trí hay thu nhận ảnh bị xê dịch…, điều này là không thể tránh khỏi Do đó, để cho các bước xử lý tiếp theo (phân tích và nhận dạng) được chính xác
Trang 28cần phải có thao tác hiệu chỉnh độ nghiêng của ảnh thu nhận được Các bước hiệu chỉnh độ nghiêng của ảnh được mô tả trong Thuật toán 2.4
Thuật toán 2.4 Hiệu chỉnh độ nghiêng của ảnh tài liệu
INPUT: Ảnh (nhị phân) bị nghiêng
OUTPUT: Ảnh đã chỉnh độ nghiêng
1 Xác định góc nghiêng
2 Xoay ảnh với góc nghiêng
Trong đó, xác định góc nghiêng là thao tác quan trọng nhất và khó khăn nhất Có rất nhiều phương pháp khác nhau để xác định góc nghiêng: có thể trực tiếp dựa vào các thống kê, đánh giá góc nghiêng của các đối tượng trong ảnh hay phân tích, đánh giá trên ảnh đã được biến đổi Trong đó có 3 phương pháp thường được sử dụng: phương pháp dựa trên biến đổi Hough, phương pháp láng giềng gần nhất (nearest neighbours)
và phương pháp sử dụng chiếu nghiêng (project profile) Các phương pháp này sẽ được trình bầy ở các phần tiếp theo
Sau khi xác định được góc nghiêng của ảnh sẽ thực hiện thao tác xoay ảnh với góc nghiêng đã xác định được quanh một vị trí gốc (tâm xoay) Tâm xoay thường lấy là điểm chính giữa của ảnh (w/2, h/2) Các bước để xoay ảnh được thực hiện như sau:
Thuật toán 2.5 Xoay ảnh
Duyệt tất cả các điểm ảnh g(x, y) trong ảnh I
1 Xác định vị trí mới g'(x', y') trong ảnh I'
x' = x 0 + (x-x 0 ).cos() - (y-y 0 ).sin()
y' = y 0 + (x-x 0 ).sin() + (y-y 0 ).cos()
2 Chuyển giá trị điểm ảnh: g'(x', y') = g(x, y)
2.2.1 Phương pháp dựa trên biến đổi Hough
Biến đổi Hough là phép biến đổi điểm ảnh từ hệ tọa độ đề các Oxy sang hệ tọa độ cực
ρ-θ Thay vì biểu diễn một tập các điểm (x i , y i ) (thuộc đường thẳng) trong mặt phẳng x-y thì ta có thể biểu diễn bằng một cặp (ρ, θ) trong mặt phẳng ρ-θ Công thức của
phép chuyển đổi là:
x.cosθ + y.sinθ = ρ
Trang 29Trong đó: x và y được thay thế bởi x i và y i , θ là góc giữa vector khoảng cách (tính từ gốc tọa độ đến điểm gần nhất thuộc đường thẳng) và trục x, ρ là khoảng cách từ gốc
tọa độ tới đường thẳng (Hình 2 4)
Hình 2 4 Biến đổ Hough Như vậy, biến đổi Hough rất hữu ích cho việc dò tìm đường thẳng trong ảnh vì thế rất thích hợp cho việc xác định góc nghiêng của ảnh có chứa các thành phần là các dòng văn bản Việc xác định góc nghiêng của ảnh dựa vào biến đổi Hough gồm hai bước chính:
Thực hiện phép biến đổi Hough
Tính toán luỹ tích để tìm góc nghiêng
Thuật toán 2.6 thể hiện một các xác định góc nghiêng dựa vào biến đổi Hough Trong
đó bước 1 và bước 2 là thực hiện phép biến đổi Hough, bước 3 và bước 4 thể hiện một cách thống kê để tìm góc nghiêng
Thuật toán 2.6 Xác định góc nghiêng dựa vào biến đổi Hough
INPUT: Ảnh (nhị phân) bị nghiêng I
4 là trị số trung bình của các góc trong k phân tử trên
(Tính góc nghiêng chung bình của k đường thẳng)