Phƣơng pháp phân tích láng giềng

Một phần của tài liệu tìm hiểu một số kỹ thuật phát hiện góc nghiêng văn bản và ứng dụng (Trang 43 - 45)

2.4.1 Phương pháp

Dùng kỹ thuật xác định biên cho các đối tƣợng riêng lẻ. Sau đó, với mỗi một đối tƣợng, xác định một số láng giềng gần nó nhất, dùng một vector định hƣớng với hai đầu là hai điểm đƣợc chọn từ hai trong số các đối tƣợng này để xác định góc nghiêng. Hai đối tƣợng là các láng giềng thân cận của nhau nếu kích thƣớc của chúng phải thuộc một khoảng náo đó và khoảng cách giữa chúng cũng thỏa mãn bé hơn một ngƣỡng nào đó đƣợc định nghĩa trƣớc. Hai điểm đại diện cho hai đối tƣợng có thể là các tọa độ giữa đáy của chúng, có thể là các tọa độ dƣới trái nhƣng cũng có thể là tâm của các hình chữ nhật chứa các đối tƣợng đó tùy theo từng thuật toán cụ thể. Vector của mỗi một nhóm láng giềng thân cận sẽ cho một góc lệch tƣơng ứng cho nhóm đó. Thông

36

Số hóa bởi Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

thƣờng, các thuật toán theo phƣơng pháp này dùng một mảng tích lũy để lƣu histogram cho các góc lệch này. Nghĩa là, giá trị của một phần tử mảng tích lũy sẽ cho biết số nhóm láng giềng mà vector định hƣớng cho góc bằng với chỉ số của phần tử mảng đó. Góc lệch của văn bản là góc tƣơng ứng với phần tử histogram lớn nhất.

Việc gom các đối tƣợng thành các cặp láng giềng gần nhất mục đích để gom các cặp ký tự kề nhau trong các dòng văn bản và vector giữa các đối tƣợng này cho biết góc của đƣờng thẳng đi qua đáy của nhóm ký tự đó. Tuy nhiên, theo đó, trong trƣờng hợp ảnh có nhiều nhiễu hoặc với ảnh có độ phân giải thấp, các ký tự chữ cái đƣợc chia thành nhiều phần riêng biệt thì các vector định hƣớng sẽ không phản ánh đƣợc đúng hƣớng lệch của văn bản.

Hashizume lựa chọn số đối tƣợng trong một nhóm láng giềng là hai. Trong khi đó O' Gorman đề xuất một phƣơng pháp gom các láng giềng với số lƣợng lớn hơn, K đối tƣợng trong một cụm láng giềng. Mục đích để gom các ký tự trong một từ thành một cụm và vector định hƣớng là vector đi qua nhiều nhất các điểm đại diện của các đối tƣợng. Vì vậy vector định hƣớng sẽ phản ánh chính xác hơn góc lệch của các dòng văn bản.

Tuy nhiên, phƣơng pháp của O' Gorman vẫn gặp khó khăn khi các ký tự đƣợc chia thành nhiều phần và đặc biệt với những góc nghiêng khá lớn. Khi khoảng cách giữa các ký tự trong văn bản lớn thì rất có thể các láng giềng tìm đƣợc trong thuật toán không phải là những ký tự nằm trên cùng một dòng văn bản, thay vào đó là những ký tự nằm trên các dòng văn bản khác. Và khi đó thuật toán sẽ cho kết quả sai về góc lệch.

Cũng theo hƣớng cải tiến của O' Gorman, Liobios đề xuất một phƣơng pháp gom các láng giềng theo số lƣợng nhiều nhất có thể. Phƣơng pháp này tƣơng tự nhƣ giải quyết bài toán xác định các dòng cho một văn bản. Vì vậy, hạn chế của O' Gorman là sự phụ thuộc vào cả khoảng cách các từ trong văn bản lẫn font chữ tức là các các đối tƣợng phải có kích thƣớc gần bằng nhau và chỉ nên áp dụng với những văn bản chứa nhiều đối tƣợng chữ.

37

Số hóa bởi Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Một thuật toán đƣợc xem là có nhiều cải tiến nhất cho hƣớng tiếp cận này đƣợc đề xuất bởi hai tác giả Yue Lu và Chew Lim Tan thuộc khoa Khoa học máy tính trƣờng đại học Quốc gia Singapore. Thuật toán này cải tiến cách gom các đối tƣợng thành các láng giềng gần nhất theo một số tiêu chí đồng thời cho phép thay đổi số láng giềng trong quá trình xử lý. Đại diện cho lớp các thuật toán cùng liên quan đến hƣớng tiếp cận láng giềng gần nhất, ta sẽ trình bày nội dung của thuật toán này.

Một phần của tài liệu tìm hiểu một số kỹ thuật phát hiện góc nghiêng văn bản và ứng dụng (Trang 43 - 45)