CHƯƠNG 1: HỆ PHÂN TÍCH TRANG TÀI LIỆU ẢNH VÀ BÀI TOÁN PHÁT HIỆN BẢNG
1.1. Giới thiệu chung hệ phân tích trang tài liệu và bài toán phát hiện bảng…
1.1.4. Phân tích các đối tượng văn bản trong tài liệu
1.1.4.2. Phân tích sơ đồ trình bày của trang tài liệu
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Hình 1.8: Kết quả phân tích cấu trúc và chức năng các khối của một trang tài liệu.
Sau khi xác định được độ nghiêng của trang tài liệu, ảnh sẽ được quay một góc để độ nghiêng của trang bằng 0, sau đó quá trình phân tích sơ đồ trình bày của trang được thực hiện. Phân tích cấu trúc trình bày được thực hiện để lấy ra được cấu trúc các khối văn bản (các đoạn văn bản) trong tài liệu. Tuỳ thuộc vào định dạng của từng loại tài liệu, quá trình phân đoạn có thể thực hiện phân tách các từ, các dòng văn bản hay cấu trúc các khối (nhóm các dòng văn bản, chẳng hạn các đoạn văn bản hay các bảng danh mục). Thông thường người ta dựa vào
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
quy tắc sắp xếp thông tin trong trang tài liệu để nhận dạng từng khối và gán nhãn cho chúng. Một thí dụ đưa ra kết quả sau khi phân tích trang đầu tiên của một tài liệu kỹ thuật bao gồm: tên tài liệu, tác giả, tóm tắt, từ khoá, các đoạn trong thân văn bản .v.v.. Hình 1.8 đưa ra một thí dụ với kết quả sau khi đã thực hiện phân tích cấu trúc và gán nhãn cho các khối trên một trang tài liệu ảnh Hai phương pháp phân tích theo hướng cấu trúc vật lý thường được sử dụng để tiến hành phân tích trang là tiếp cận từ trên xuống (top-down) hoặc tiếp cận từ dưới lên (bottom-up). Hai phương pháp này có tính đối ngẫu lẫn nhau. Nhưng người ta thường áp dụng phối hợp theo hướng kế thừa sản phẩm của nhau để cùng phân tích trang tài liệu. Thông thường phương pháp từ trên xuống sẽ đi phân tích những khối cấu trúc lớn đến những khối và thành phần cấu trúc hay đối tượng nhỏ hơn. Thí dụ một trang có thể được phân tích thành các khối phần trên, khối phần giữa và khối phần chân của trang, rồi thì các khối này lại được phân tích thành các đoạn văn bản và đối tượng ảnh, tiếp đến các đoạn này lại được tách thành các dòng, các cụm từ, các từ, các ký tự. Trong khi đó phương pháp tiếp cận dưới lên lại phân tích theo chiều hướng quy nạp ngược lại, cụ thể là nó đối ngẫu bằng cách xuất phát từ các khoảng trắng liên thuộc được giao kết với các ký tự để phát hiện các từ, tiếp đến các từ này lại được giao kết với nhau để nhận dạng được từng dòng, cứ tiếp tục như vậy để phát hiện được các thành phần lớn hơn của trang.
1.1.5. Nhận dạng ký tự quang học (OCR)
Phát hiện ký tự quang học (OCR) là một công nghệ thuộc lĩnh vực nhận dạng, công nghệ này được áp dụng để nhận dạng các chuỗi kỹ tự dựa trên cơ sở là các bảng chữ cái. Trên thực tế các nước lại có một kiểu chữ khác nhau, các ký tự trong bảng chữ cái cũng thường có các kiểu viết khác nhau. Do đó có sự đa dạng của các nét chữ viết tay, của các kiểu phông chữ, kích thước chữ khác nhau. Vì thế để nhận dạng ra các chuỗi ký tự đa dạng như vậy người ta phải xây
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
dựng các quy tắc xác định để nhận biết từng ký tự. Theo đó OCR luôn cố gắng tích hợp cả kỹ thuật, thuật toán và xây dựng hệ thống phần mềm để từng bước nhận dạng được chữ viết với khả năng ngày một giống như con người hơn.
Tuy nhiên, với dữ liệu đầu vào là các chữ viết, nó được tạo ra tự do, không theo một quy tắc xác định, một sự ràng buộc nào đó về độ lớn, đường nét, độ đậm nhạt, các nét đứt… khi chúng ta viết chữ. Ngay cả khi chúng ta đánh máy thì mỗi loại văn bản lại có quy định bởi các phông chữ, cỡ chữ và cách trình bày khác nhau. Đây chính là khó khăn rất lớn cho OCR trong khi nhận dạng nếu gặp phải tài liệu chữ viết có nhiều điểm nhiễu, các nét đứt, các chữ viết không được nắn nót. Ví dụ như số “ 6 “ và số “ 0 “ rất dễ nhầm lẫn nhau, chữ “ u” giống chữ “ v” khi chữ viết không được nắn nót. Và trên thực tế sẽ càng khó khăn hơn khi các từ ngữ lại thường được xây dựng cả con số lẫn các chữ cái ví dụ như số tài khoản ngân hàng do máy tính tạo ra hoặc khi người ta viết tay các ký tự dính nét nhau khi tạo thành một từ.
Hình 1.9: Để phân tách và nhận dạng hai số 4,2 có các nét nối liền nhau như trên dễ gây nhầm lẫn. Nguồn Dengel (2001)