CHƢƠNG 1 : KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ FORM TÀI LIỆU
2.2 PHÁT HIỆN VÀ HIỆU CHỈNH GÓC NGHIÊNG
2.2.3. Phƣơng pháp láng giềng gần nhất (Nearest Neighbor)
Phƣơng pháp này đƣợc đề xuất lần đầu tiên bởi Hashizume vào năm 1986, trƣớc hết là việc phát hiện các thành phần liên thông. Vectơ có hƣớng của tất cả các cặp NN của các thành phần liên thông đƣợc tính toán trong 1 biểu đồ và đỉnh của biểu đồ chỉ ra góc nghiêng trội nhất (ƣu thế nhất). Phƣơng pháp này đƣợc tổng quát hoá bới O’Gorman năm 1993, trong đó các nhóm NN đƣợc mở rộng tới K láng giềng đối với mỗi thành phần liên thông. Do việc sử dụng liên thông K láng giềng có thể đc tạo thành các dòng văn bản ngang, nên đỉnh của biểu đồ kết quả có thể không đƣợc chính xác tuyệt đối. Năm 1999, Jiang và các cộng sự đƣa ra 1 phƣơng
đƣợc tập trung vào 1 tập con các láng giềng đáng tin cậy. Việc điều chỉnh dòng bằng phƣơng pháp bình phƣơng bé nhất đƣợc thực hiện trên những láng giềng đáng tin cậy này và góc nghiêng tƣơng ứng với đƣờng thẳng đƣợc sử dụng để xây dựng nên biểu đồ. Lúc này, đỉnh của biểu đồ đƣợc coi nhƣ góc nghiêng của ảnh tài liệu đã quét vào. Thuật toán đƣợc đƣa ra bởi Liolios và các cộng sự năm 2001 thực nghiệm việc nhóm tất cả các thành phần cùng thuộc về 1 dòng văn bản trong 1 cụm. Bởi vì chiều cao và chiều rộng trung bình của các thành phần đƣợc sử dụng trong tiến trình, nên phƣơng pháp này chỉ có thể phù hợp cho các tài liệu có kích thƣớc font chữ tƣơng đối đồng đều nhau
Mặc dù các phƣơng pháp dựa trên NN không đòi hỏi sự có mặt của 1 vùng văn bản nổi trội hay những phƣơng pháp này không phải là đối tƣợng để giới hạn góc nghiêng, nhƣng tính chính xác của những phƣơng pháp này lại không hoàn toàn cao. Một trong những lý do là do sự ảnh hƣởng của các cặp NN bao gồm 1 phần phụ dƣới (descender) hoặc 1 phần phụ trên (ascender) hƣớng đến các dòng liên thông không song song với hƣớng văn bản. Lý do khác là do khoảng cách nhỏ và các nhiễu vị trí của các cặp NN
Để phát triển phƣơng pháp ƣớc lƣợng góc nghiêng có tính chính xác đƣợc cải tiến, luận văn sẽ trình bày phƣơng pháp tiếp cận dựa trên chuỗi NN (NNC), do Yue Lu, Chew Lin Tan đề xuất năm 2003. Giới hạn kích cỡ đƣợc đƣa ra để xác định NN. Khi chuỗi NN (NNCs) đƣợc trích ra, trong đó độ dốc của chuỗi NN cùng với 1 con số lớn nhất có thể của các thành phần đợc tính toán để đƣa ra đƣợc góc nghiêng của ảnh tài liệu. Các kết quả thí nghiệm trên nhiều loại tài liệu bao gồm các bản mẫu khác nhau chỉ ra rằng phƣơng pháp đƣợc đƣa ra đã đạt tính chính xác cao trong việc ƣớc lƣợng góc nghiêng tài liệu.