- 8 - TÌM HIỂU MỘT SỐPHƯƠNGPHÁPPHÂNTÍCH TRANG TÀILIỆU Sinh viên: Nguyễn văn Dũng Cán bộ hướng dẫn: Mã SV: 0220056 PGS.TS: Ngô Quốc Tạo Email: dungnv1984@yahoo.com 1. Tổng quan Hầu hết tất cả tàiliệu hiện nay của con người đều đã được số hóa và được lưu trữ trong máy tính. Nhưng tàiliệu giấy thì vẫn và sẽ còn tồn tại vì nó vẫn không thể thiếu được trong cuộc sống hằng ngày. Việc chuyển đổi từ tàiliệu điện tử sang tàiliệu giấy có thể đựợc thực hiện dễ dàng bằng máy in, máy fax. Nhưng làm thế nào để chuyển từ tàiliệu giấy sang tàiliệu điện tử để máy tính có thể hiểu được? Câu hỏi đó đã khiến các chuyên gia trong lĩnh vực công nghệ thông tin phải đầu tư, nghiên cứu trong nhiều thập kỷ qua, và rồi hệ thống nhận dạng quang học (OCR - Optical Character Recognize system) đã ra đời và đáp ứng được phần nào nhu cầu của cuộc sống. Bên cạnh đó vẫn còn bao thách thức lớn lao cho nghành xử lý ảnh, vì xử lý ảnh chính là giai đoạn mấu chốt trong hệ thống nhận dạng quang học (OCR). Phântíchtrangtàiliệu (Document layout analysis) là một ứng dụng của xử lý ảnh, nó sẽ giải quyết bài toán của ta ở trên, tức là làm thế nào để có thể chuyển đổi từ tàiliệu giấy thành tài liệ u điện tử. Tàiliệu giấy sau khi được scan bằng máy scaner thành một file ảnh, công việc của phântíchtrangtàiliệu sẽ phântích file ảnh đó để nhận biết nội dung của tàiliệu đó là gì. Tức là sau khi phântích thì chúng ta thực sự có được mộttàiliệu điện tử mà cả con người và máy tính đều có thể hiểu được. 2. Cấu trúc của trangtàiliệu Cấu trúc của mộttrangtàiliệu bao gồm hai phần: + Cấu trúc vật lý (hay cấu trúc hình học). + Cấu trúc logic. 2.1 Cấu trúc vật lý Mộttrangtàiliệu được hợp thành từ nhiều khối, nhiều đoạn. Mỗi khối này là tập hợp của các thành phần có các thuộc tính giống nhau như: font chữ, kích thuớc, màu,.v v. Và mỗi khối đều mang một ý nghĩa riêng. Cấu trúc vật lý là thể hiện được thông tin của các khối và mối quan hệ giữa chúng trong trangtài liệu. Hình dướ i đây sẽ minh họa cấu trúc vật lý của mộttrangtài liệu: (Hình 1:Hình minh họa cấu trúc vật lý của trangtài liệu) 2.2 Cấu trúc logic Cấu trúc logic nói lên ý nghĩa của các thành phần đó trong trangtàiliệu ấy, tức là mỗi khối, mỗi thành phần trong trangtàiliệu sẽ nói lên điều gì. Mộttrangtàiliệu có thể được tạo bởi rất nhiều đoạn, nhiều thành phần khác nhau, mỗi thành phần đó đều nói lên một ý nghĩa nào đó cho người đọc. Thông thường mộttrangtàiliệu có thể có các phần sau: phần đầu (header), phần cuối (footer), phần tiêu đề trang (title), phần tóm tắt trang (abstract), các đoạn trong thân trang (paragraph), .v v. 3. Các phươngphápphântích 1H 2B 10H 11B 3B 4H 18H 5H 1 2 B 14B 1 6 B 15 6B 8B 7B 9B 1 3 B 17B - 9 - Dựa vào mô hình phân tích, người ta chia các phươngphápphântích trang tàiliệu thành ba loại: + Mô hình phântích từ trên xuống (Top- down). Mô hình phântích từ trên xuống (top-down) là mô hình được tiến hành phântích bắt đầu từ toàn bộ trangtài liệu, sau đó sẽ phântíchtrangtàiliệu đó thành các vùng nhỏ hơn, các vùng nhỏ hơn này lại được phântích thành các vùng nhỏ hơn nữa, thủ tục tách cứ được lặp đi, lặp lại nhiều lần cho đến khi thỏa mãn các tiêu chuẩn đề ra của bài toán. + Mô hình phântích từ dưới lên (Bottom-up). Mô hình phântích từ dưới lên là mô hình được tiến hành phântích từ một hay một nhóm các pixel liền nhau, sau đó lại nhóm các pixel nhỏ liền nhau đó thành một khối lớn hơn (có thể là ký tự), rồi lại nhóm các khối pixel này lại thành một khối lớn hơn nữa, và cứ tiếp tục như vậy cho đến khi phântích được toàn bộ trangtài liệu. + Mô hình phântích lai (Kết hợp hai phươngpháp Top-down và Bottom-up). Mô hình phântích lai (hybrid) là mô hình kết hợp cả hai mô hình top-down và bottom-up, nó tận dụng các ưu điểm và khắc phục các khuyết điểm của cả hai mô hình trên. Nổi bật là hai ưu điểm: không yêu cầu thông tin về ảnh, và giảm được thời gian tính toán. 4. Các phươngpháp và kỹ thuật tiền xử lý Mục đích của việc tiền xử lý này là làm sạch tài liệu, để việc phântích được chính xác và hiệu quả hơn. Có thể kể đến mộtsố vi ệc như: lọc nhiễu (Noise Cleaning), dò và xử lý độ nghiêng của trangtàiliệu (Skew Detecting and Processing). 4.1. Lọc nhiễu. Nhiễu ảnh thường xuất hiện khi scan ảnh, photo ảnh hay do ảnh lâu ngày bị nhạt đi. Nhiễu thường gặp trong các ảnh nhị phân, chúng có thể là các đốm đen, nhỏ, phân bố ngẫu nhiên trên nền trắng hoặc những đốm trắngphân bố ngẫu nhiên trên nền đen. Trước khi tiến hành phântíchtrangtàiliệu thì ph ải tiến hành công việc loại bỏ nhiễu, đây là bước hết sức quan trọng. Có thể loại bỏ nhiễu bằng cách xử lý sau khi ảnh đã được nhị phân hóa hoặc sử dụng mộtsố kỹ thuật như: kỹ thuật hình thái (morphological methods)…. 4.2 Xử lý độ nghiêng của trangtài liệu. Mộttrangtàiliệu chuẩn là trangtàiliệu có góc nghiêng bằng không, tức là các dòng văn bản theo hướng ngang hay hướng dọc đều song song với các cạnh của trangtài liệu, tuy nhiên, trong quá trình scan hoặc copy mà độ nghiêng của trangtàiliệu khác không và dẫn tới hiện tượng văn bản trong trangtàiliệu bị nghiêng so với lề của trang. Dò và xử lý độ nghiêng của tàiliệu là tìm các dòng bị nghiêng và xử lý chúng sao cho thẳng hàng. Có mộtsốphươngpháp dò và xử lý độ nghiêng của văn bản, + Phươngpháp dựa trên phép chiếu nghiêng (Projection Profiles). + Phươngpháp dựa vào phép biến đổi Hough (Hough Transform). + Phươngpháp láng giềng gần nhất (Nearest -Neighbor Methods). + Phươngpháp dựa vào sự tương quan chéo (Cross Correlation). + Mộtsốphươngpháp khác thì dựa vào sự phântích gradient (Gradient Analysis), dựa vào phân bố Fourier, .v v. 5. Tàiliệu tham khảo [1]. R. Cattoni, T. Coianiz, S. Messelodi, C. M. Modena. Geometric Layout Analysis Techniques for Document Image Understanding. January 1998, tr.1- 68. [2]. Roberto Bedola, Davide Bordo, Franc Vojtech. Report of Document Analysis Group. 2001, tr 1-13. [3]. Boulos Waked. Page Segmentation and Identification for Document Image Analysis. September 2001, tr. 28-37. [4]. Zhixin Shi and Venu Govindaraju. Multi-scale Techniques for Document Page Segmentation. Tr.1-5. [5]. Miroslav Halas. Document classification. Tr.1-8. … . hình phân tích, người ta chia các phương pháp phân tích trang tài liệu thành ba loại: + Mô hình phân tích từ trên xuống (Top- down). Mô hình phân tích. từ tài liệu giấy thành tài liệ u điện tử. Tài liệu giấy sau khi được scan bằng máy scaner thành một file ảnh, công việc của phân tích trang tài liệu sẽ phân