Các kỹ thuật phân lớp khối

Một phần của tài liệu Nhận dạng các biểu mẫu tài liệu (Trang 45 - 52)

2.2 Các kỹ thuật thƣờng đƣợc sử dụng trong nhận dạng cấu trúc biểu

2.2.2.4.Các kỹ thuật phân lớp khối

Các kỹ thuật phân lớp khối đƣợc mô tả trong phần này có thể chia thành các nhóm sau :

 Phân lớp biệt số tuyến tính và trích chọn các đặc trƣng.  Cây phân lớp nhị phân.

 Mạng neural.

2.2.2.4 .1 Phân lớp biệt số tuyến tính

Thuật toán phân lớp của Wong [63] tính một số đặc trƣng cơ bản từ các khối thu đƣợc từ bƣớc phân vùng sử dụng kỹ thuật smearing và các biệt số giữa vùng văn bản và hình ảnh theo phân lớp tuyến tính . Một bƣớc phân lớp tiếp theo giải quyết sự phân lớp không chắc chắn giữa các dòng ký tự đơn, đƣờng thẳng liền

48

nét và hình ảnh. Những thông số dƣới đây đƣợc tính toán cho từng khối: tổng số điểm đen (BC) sau khi smearing; các chiều của hình bao của khối (Δx,Δy); tổng số điểm đen trong vùng tƣơng ứng ở trong trang văn bản đầu vào (DC); số biến đổi điểm đen/trắng theo chiều ngang trong ảnh gốc (TC). Chúng tham gia vào quá trình tính toán các đặc trƣng sau:

 Độ cao của khối (H = Δy) ;

 Độ lêch tâm của hình bao khối (E = Δx /Δy) ;

 Tỉ lệ số điểm đen ở khu vực trong hình bao (S = BC / (Δx /Δy) ) ;  Độ dài các vệt đen theo chiều ngang của dữ liệu gốc (R = DC / TC).

Những đặc trƣng này đƣợc sử dụng để phân lớp các khối. Ý tƣởng cơ bản ở đây là các khối ký tự đƣợc thể hiện bởi độ cao H và độ dài vệt đen R. Đầu tiên, một cụm trong không gian (H,R) đƣợc lựa chọn sao cho nó chỉ chứa các khối ký tự với xác suất cao. Nó thu đƣợc nhờ việc sử dụng một số thông tin biết trƣớc về kích cỡ trung bình của các ký tự. Sau đó, với các khối trong cụm, giá trị của các đặc tính H

R đƣợc xác định : và . Các phép logic sau đây sử dụng để phân lớp các khối : 21 22 (RC R)  (HC H) Ký tự 21 22 (RC R)  (HC H) Đƣờng thẳng ngang liền nét 22 23 ( 1 ) ( ) E H C H C

    Các khoảng trung gian và hình vẽ

22 23 ( 1 ) ( ) E H C H C     Các đƣờng thẳn dọc liền nét

Trong đó C11 , C22, C33 là các tham số đƣợc định nghĩa trƣớc. Các giá trị thu đƣợc từ thực nghiệm là : C11 = 3, C22 = 3, C33 = 5. Một số vấn đề có thể nảy sinh khi có sự xuất hiện của việc đƣờng thẳng quá gần hoặc dính liền với các ký tự, khi đó khối liên quan đến chúng có thể bị đƣa vào lớp hình ảnh trung gian và hình vẽ. Vì lý do này, một luật để phân lại lớp đƣợc đƣa ra cho các khối trong lớp hình

49

ảnh trung gian và hình vẽ. Luật này sử dụng các thông tin về các yếu tố hình học của các thành phần trong khối.

Shih và Chen [87] mô tả một biến thể của phƣơng pháp phân lớp do Wong đề xuất. Họ cũng dùng những đặc trƣng cơ bản tƣơng tự, có thêm các đặc trƣng liên quan đến việc thay đổi trạng thái trắng/đen của các điểm ảnh theo chiều dọc : độ cao của khối (H), tỉ lệ (R), mật độ điểm đen (D), số thay đổi trạng thái điểm đen/trắng theo chiều ngang trên một đơn vị chiều ngang (THx), số thay đổi trạng thái trắng đen theo chiều dọc trên một đơn vị chiều ngang (TVx), số thay đổi trạng thái trắng / đen theo chiều ngang trên một đơn vị chiều cao (THy). Các luật phân lớp sau đây, không phụ thuộc vào kích cỡ của ký tự và độ phân giải khi quét, đƣợc sử dụng để phân các khối khác nhau : 1Hm H c H2 m c    Ký tự 1 1 2 (HcHm) ( chTHxch ) Ký tự 3 4 3 (THxch ) ( R cR) ( cTV cx ) Đƣờng thẳng ngang 3 4 3 ( 1 ) ( 1) ( ) x y R h TV c TH R c c c        Đƣờng thẳng dọc 2 1 2 1 2 (Hxc Hm) ( chTHxch ) ( cvTVxcv ) Ký tự 5 D c  Hình vẽ Các trƣờng hợp còn lại  Tranh

Trong đó, Hm là độ cao trung bình của các khối và c’s là 11 tham số đƣợc định nghĩa là sự phân tách bề mặt. Giá trị của chúng có đƣợc sau khi xem xét các đặc trƣng của các lớp khác nhau và ký tự với kích cỡ, kiểu khác nhau.

Thuật toán đƣợc trình bày bởi Wang ở trên có một số giới hạn, liên quan đến các thông tin cần thiết về các đặc trƣng của các dòng ký tự. Trong một số trƣờng hợp (ảnh bị nghiêng, nhiễu, các đƣờng thẳng bị dính....), thuật toán phân vùng sẽ không tách chính xác đƣợc các dòng ký tự, và một khối bao gồm hai hay

50

nhiều dòng ký tự có thể bị phân lớp sai vào lớp hình ảnh trung gian và hình vẽ. Để hạn chế điều này, một tập hợp các đặc trƣng độc lập với kích cỡ của khối đƣợc sử dụng. Những đặc trƣng này dựa trên tính chất văn bản tự nhiên của nôi dung khối. Chúng đƣợc tính bằng việc dịch hai ma trận BW (vệt đen / trắng) và BW B(vệt đen / trắng / đen). Ma trận BW thể hiện các đặc tính cấu trúc của một khối ký tự : Các dòng với độ các khác nhau do khác nhau về font chữ, và các dòng kết hợp lại với mật độ nào đó. Một phần vệt đen / trắng là một tập hợp của các điểm đen liên tục theo chiều ngang, gọi là m, và độ dài của nó là tổng số điểm ảnh n+m. Ma trận BW (i,j), với i = 1,...,9, chỉ ra số lần mà khối có chứa một vết đen / trắng có độ dài j,

trong hƣớng theo chiều ngang, với m/j chạy tới i/10. Ma trận BW B sẽ cố gắng tìm các đặc trƣng khác thƣờng của các khối drawing line : tồn tại một số khoảng trắng lớn giữa các đƣờng thẳng đen. Vệt kết hợp đen/trắng/đen là một chuỗi điểm ảnh mà hai điểm đen đƣợc phân cách bởi một điểm trắng. Độ dài của nó đƣợc định nghĩa theo độ dài của vệt trắng. Độ dài của các vệt đen đƣợc lƣợng tử hoá vào ba nhóm : 1 nếu độ dài trong khoảng (1,4), 2 nếu độ dài trong khoảng (5,8), 3 nếu độ dài trong khoảng (9,12). Ma trận BW B (i,j) với i = 1,2,3, xác định số lần khối chứa các vệt đen giống nhƣ trong nhóm i. Hai đặc trƣng , F1F2, thể hiện các vệt ngắn và vệt dài, nhận đƣợc từ ma trận (BW), và một đặc trƣng , F3, nhấn mạnh các vệt dài, có đƣợc từ ma trận BW B. Một số ngƣỡng đƣợc sử dụng trong tính toán đặc trƣng để mà tăng sự đóng góp của các ma trận nhỏ và độ dài các vệt ngắn. Ba đặc trƣng đƣợc gửi cho sự phân lớp tuyến tính với năm lớp đầu ra : các ký tự nhỏ (nhỏ hơn hoặc bằng cỡ 14), các ký tự trung bình (từ cỡ 14 đến 32), các ký tự lớn (từ cỡ 32 trở lên), các hình vẽ và vùng trung gian. Tiêu chuẩn phân lớp dựa vào các khối thu thập đƣợc từ năm nhóm khác nhau. Sự phân tách trong không gian (F1,F2,F3) đƣợc xác định theo thực nghiệm bởi việc sử dụng hàm sửa lỗi trên tập hợp đào tạo lại.

Trong bài báo của Pavlidis và Zhou [69], các khối đƣợc phân vào trong ba lớp : ký tự, hình ảnh trung gian và lược đồ. Việc xem xét cho lớp trung gian chống lại các lớp khác là dựa vào hàm tín hiệu tƣơng quan cross đƣợc tính trên ảnh nhị phân. Nó đƣợc định nghĩa giữa các dòng, yy + r nhƣ sau :

51   1 0 1-2 ( , )) XOR ( , ) 1 ( , ) L k p y k p y r k C r y L     

trong đó, L là độ dài của các đƣờng quét và p(y,k) là giá trị của điểm ảnh tại vị trí

(y,k). Tác giả quan sát thấy rằng tại sự thay đổi của r, C(r,y) là khác trên các khối ký tự hoặc lƣợc đồ đối với các hình ảnh trung gian. Bình thƣờng, sự tƣơng quan của các đƣờng quét liên tiếp là cao và giảm nhanh cho ký tự và lƣợc đồ, trong khi đó nó dẹt và thể hiện chu kỳ cho các khối trung gian. Bốn đặc trƣng đƣợc trích chọn để mô tả tƣơng quan hành động và một hàm phân biệt tuyến tính đƣợc sử dụng để phân lớp một khối có phải là trung gian hay không. Trong trƣờng hợp khác, số lƣợng các điểm đen đối với số lƣợng các điểm trắng, b/w, đƣợc coi nhƣ là một đặc tính có thể phân biệt vùng ký tự với vùng đồ thị. Các tham số cho hàm phân biệt và ngƣỡng tỉ lệ b/w là rất quan trọng.

2.2.2.4 .2 Cây phân lớp nhị phân.

Sivaramaakrishnan [88] mô tả một kỹ thuật thống kê cho việc phân lớp các vùng đồng nhất tách ra đƣợc từ một trang văn bản. Các khối đƣợc coi nhƣ là các hình chữ nhật với các chiều dọc và chiều ngang. Sụ phân lớp dựa vào một tập hợp của 67 các đặc trƣng đƣợc chích chọn từ từng khối : Số lƣợng vệt trắng và vệt đen tính theo bốn hƣớng (8 đặc trƣng); giá trị và sự thay đổi của độ dài của các vệt trắng và đen theo bốn hƣớng khác nhau (16 đặc trƣng); giá trị và sự thay đổi của các hình phổ phép chiếu theo bốn chiều (8 đặc trƣng); mối tƣơng quan tự động của bốn chức năng: phổ phép chiếu, số lƣợng của các vệt đen trong từng dòng, giá trị không gian của các điểm đen trên từng dòng và giá trị độ dài của từng dòng. Sự thay đổi vị trí mà hàm tƣơng quan tự động bị thay đổi 10% giá trị lớn nhất sẽ đƣợc tính. Hai đặc trƣng này đƣợc tính toán tách biệt cho bốn chức năng và cho bốn hƣớng (32 đặc trƣng). Mật độ điểm đen, vị trí của khối và tỉ lệ độ cao của khối và độ cao của cột trong nó, thể hiện 3 đặc trƣng cuối cùng. Sự phân lớp đƣợc thực hiện bằng cách duyệt một cây phân lớp nhị phân, các đỉnh là lá đƣợc gán nhãn một lớp đơn. Cây quyết định đƣợc xây dựng từ một tập hợp đào tạo các khối đƣợc gán nhãn lớp đúng

52

(là một trong: ký tự nhỏ, ký tự to, công thức toán, bảng, vùng trung gian, bản đồ/hình vẽ, các luật, biểu tƣợng...). Quá trình xây dựng đƣợc đệ quy: bắt đầu từ gốc cây bao gồm tất cả các vectơ đặc trƣng (67 đặc trƣng). Một tiêu chuẩn phân chia đƣợc định nghĩa để chia các đỉnh thành hai tập con nhằm phân tách các đỉnh theo các lớp khác nhau. Nó dựa vào sự lớn nhất của một hàm đối tƣợng, gọi là purity, đƣợc định nghĩa là tổng entropy của sự phân tán lớp ở đỉnh con bên trái và bên phải, sau đó các đỉnh đƣợc phân chia. Các đỉnh đƣợc phân chia bằng cách lựa chọn một đặc trƣng và một giá trị ngƣỡng: nếu giá trị đặc trƣng này nhỏ hơn giá trị ngƣỡng thì đỉnh đó đƣợc gán nhãn thành đỉnh con bên trái, trong các trƣờng hợp khác, nó là đỉnh con bên phải. Quá trình phân tách kết thúc khi tất cả các đỉnh con đƣợc đƣa vào cùng một lớp hoặc khi số lƣợng của các đỉnh con nhỏ hơn một ngƣỡng cho trƣớc. Từng đỉnh lá đƣợc gán nhãn là lớp hiện tại của đỉnh. Một khối chƣa xác định đƣợc phân lớp bằng việc duyệt cây quyết định cho tới khi gặp một lá: khối đƣợc gán nhãn là lớp của đỉnh. Tại từng đỉnh các khối tiếp theo sẽ trở thành con bên trái hoặc phải, phụ thuộc vào đặc trƣng phân biệt và ngƣỡng liên quan tới đỉnh. (adsbygoogle = window.adsbygoogle || []).push({});

2.2.2.4 .3 Phân lớp sử dụng mạng Neural.

Le [89] trình bày một phƣơng pháp mới cho việc phân lớp các khối tách ra từ một ảnh nhị phân. Tác giả thực nghiệm và so sánh bốn cách tiếp cận mạng neural khác nhau cho việc phân các khối vào 2 lớp: ký tự và không là ký tự. Bốn mô hình mạng neural đƣợc sử dụng là Back progapation, Radial basis functions, Probabilistic neural networks và Kohonen’s self organizing features map. Hƣớng phát triển cơ bản là loại trừ một số lựa chọn các tham số mà là nhiêm vụ tiêu chuẩn thƣờng đƣợc yêu cầu ở các cách tiếp cận khác. Bƣớc phân vùng đƣợc thực hiện theo thuật toán RLSA. Từng khối với hai chiều Dx Dy, ta sẽ tính các giá trị sau, số các điểm đen sau khi smearing BC, số các điểm đen trong dữ liệu gốc DC, số lƣợng sự thay đổi trạng thái đen/trắng trong dữ liệu gốc TC. Các đặc trƣng sau đây đƣợc tính và đƣợc sử dụng cho việc phân lớp các khối :

53 E = Dx / Dy S = BC / (Dx Dy) R = DC/TC HR = H . R ER = E . R SR = S . R

54

Một phần của tài liệu Nhận dạng các biểu mẫu tài liệu (Trang 45 - 52)