Chọn các giá trị ngưỡng phù hợp

Một phần của tài liệu Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ (Trang 41 - 44)

Thông qua các bước thực hiện, ngoài sự tham gia của các biến số thì thuật toán đã sử dụng đến chín giá trị tham số từ TS1 đến TS9. Hiệu quả của thuật toán phụ thuộc nhiều vào việc thực nghiệm nhằm chọn ra các giá trị tham số phù hợp. Việc chọn các giá trị tham số cũng chính là phương pháp kiểm chứng để chọn ra được các giá trị ngưỡng phù hợp nhất. Việc này được thực hiện độc lập hoặc dựa vào một số thuộc tính của ảnh tài liệu đầu vào. Bài luận này dựa vào phương pháp chọn giá trị tham số được trình bày trong tài liệu tham khảo (Zhaoyang-1998) cũng như một số kết quả thực nghiệm ban đầu, các tham số được chọn cụ thể như sau:

Trong đó, CTB (độ cao trung bình) là giá trị thể hiện chiều cao trung bình của ký tự tính theo số lượng điểm ảnh, các tham số TS1, TS4, TS5, TS7 và TS8 phụ thuộc vào giá trị của CTB, còn các tham số TS2, TS3, TS6, TS9 ở đây được xem như các hằng số cho trước. Như vậy, ta quy về từ việc phụ thuộc nhiều giá trị của các tham số thành chỉ phụ thuộc vào một giá trị đầu vào CTB. Giá trị CTB này có thể được tính toán một cách thủ công hoặc sử dụng phương pháp tính Histogram để tính tự động. Để đơn giản ở đây chúng ta áp dụng phương pháp tính thủ công. Nhằm mục đích bảo đảm tính hiệu quả của thuật toán cũng như xử lý được các trường hợp ngẫu nhiên của ảnh tài liệu đầu vào, và tạo hiệu suất với các ảnh tài liệu là các bản vẽ kỹ thuật cơ khí, thì người ta thường sử dụng phương pháp chọn độ cao trung bình của ký tự làm cơ sở cho quá trình tính toán.

TS1 = 1.5 *CTB TS2 = 0.3 TS3 = 4.5 TS4 = 0.35 *CTB TS5 = 0.6 *CTB TS6 = 0.3 TS7 = 0.7*CTB TS8 = 0.25*CTB TS9 = 5

2.5 Kết luận chương 2

Từ cách thức xây dựng ban đầu gồm có chín tham số tham gia vào quá trình xử lý, thuật toán lựa chọn đã quy về việc chỉ phụ thuộc vào mỗi một giá trị đó là CTB. Giá trị CTB này có thể thay đổi được nên tạo được sự thuận tiện trong việc ứng dụng thuật toán. Như đã mô tả trong phần 2.4.7 rằng giá trị CTB thuộc miền giá trị là độ cao trung bình của ký tự nên kết quả đầu ra (output) của thuật toán không bị ảnh hưởng nhiều bởi giá trị này. Ngoài ra, thông qua các bước xử lý, thuật toán có thể xử lý trường hợp ảnh đầu vào có hiện tượng kết dính giữa văn bản và hình ảnh, xác định được hướng của các chuỗi văn bản, phát hiện được các ký tự đặc biệt như chữ Trung Quốc cũng như không bị ảnh hưởng nhiều bởi hiện tượng nhiễu. Bên cạnh đó, thuật toán còn gặp phải một số khó khăn và chưa xử lý được như mật độ điểm ảnh của đối tượng văn bản quá thấp và mật độ điểm ảnh của đối tượng ảnh quá cao thì sẽ làm cho thuật toán nhầm lẫn rằng đối tượng hình ảnh chính là văn bản. Thuật toán có lặp lại một số bước xóa đối tượng sau khi đã xếp chúng vào lớp phù hợp (lớp văn bản hoặc lớp hình ảnh), vì vậy đôi khi xóa đi những đối tượng thuần túy phát hiện nhầm và không hồi phục được nó. Vì thuật toán sử dụng vùng bao quanh hình chữ nhật, mật độ điểm ảnh trắng thưa thớt và mật độ điểm ảnh đen dày đặc của các chuỗi văn bản và tạo nét bút LT8LG để phát hiện chúng, theo đó nếu hai dòng văn bản có cùng độ nghiêng và được trình bày quá sát nhau thì thuật toán cũng nhầm lẫn và phát hiện chúng chỉ là một chuỗi văn bản. Hoặc khi phát hiện được các đoạn thẳng thuần túy, xếp chúng vào lớp đối tượng ảnh và xóa chúng khỏi ảnh tài liệu thì gặp phải một vài trường hợp như đoạn thẳng đó đang nối liền với một số đối tượng ảnh nhỏ khác (có lợi và được tạo ra một cách có chủ ý) để thực hiện nhiệm vụ biểu diễn một lô-gic nào đó như hình chiếu trong bản vẽ kỹ thuật hay hình mũi tên chẵng hạn. Như vậy sau khi đoạn thẳng được xóa đi thì đối tượng ảnh nhỏ có liên quan này trở thành rời rạc hóa mà thuật toán không thể kiểm soát nó, dẫn đến kết quả cuối cùng không nhận dạng được đối tượng này một cách đầy đủ. Có thể đề xuất rằng để khắc phục trường hợp này thì ngay sau khi phát hiện được đoạn thẳng thuần túy, ta lồng ghép việc phát hiện biên của đoạn thẳng này và xếp toàn bộ vùng bao quanh (vùng biên) của đoạn thẳng vào lớp hình ảnh. Nếu như các đối tượng nhỏ có liên quan chỉ là những ký tự bị kết dính với các đoạn thẳng này thì ta phải lồng ghép thực hiện các phép toán co giãn ảnh để loại bỏ sự kết dính

này. Bài luận cũng đề xuất hướng hoàn thiện thuật toán là cần có thời gian để phải tiếp tục lặp lại nhiều lần quá trình thực nghiệm hiệu quả hơn nhằm tìm được các bộ tham số phù hợp với các lớp ảnh tài liệu đầu vào khác nhau, bằng cách tiến hành xây dựng các thủ tục (procedure) để máy tính có thể tính toán nhanh (đánh giá sơ lược tổng thể) tỷ lệ và khả năng xuất hiện của hình ảnh và văn bản trong ảnh đầu vào, từ đó chọn ra được một bộ tham số tối ưu nhất.

CHƯƠNG 3

Một phần của tài liệu Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ (Trang 41 - 44)

Tải bản đầy đủ (PDF)

(65 trang)