Dưới đõy, chỳng tụi trỡnh bày thuật toỏn phõn tớch trang văn bản pageANALYSIS* dựa vào mẫu nhờ kỹ thuật phõn tớch trang văn bản pageANALYSIS [1] theo tiếp cận dưới lờn nhờ sử dụng quan hệ Qθ và việc đỏnh giỏ độ lệch cấu trỳc văn bản theo mẫu ở mục trờn.
Vào: Ảnh văn bản I cần phõn tớch,
Tập cấu trỳc văn bản mẫu tempStructs Ngưỡng Tolerance
Ra: Cấu trỳc trang văn bản cầu phõn tớch pageStruct
Phương phỏp: Thuật toỏn gồm cỏc bước cơ bản sau
Tớnh biểu đồ tần xuất theo khoảng cỏch Hausdorff + Tỏch cỏc đối tượng dựa vào chu tuyến ngoài
3125 , 0 16 5 4 4 3 / 2 6 / 1 2 / 1 4 / 1 * 4 = = + + + + = S
+ Xõy dựng biểu đồ tần xuất theo khoảng cỏch đó tớnh
Với biểu đồ tần xuất đó xõy dựng lựa chọn ngưỡng θ
Phõn tớch trang văn bản theo thuật toỏn pageANALYSIS theo quan hệ Qθ với ngưỡng θ lựa chọn dựa vào biểu đồ tần xuất ở bước 2
Đỏnh giỏ lệch của cấu trỳc trang văn bản vừa được phõn tớch ở bước 3 với cỏc cấu trỳc trang văn bản mẫu và tỡm ra cấu trỳc trang tương ứng cú độ lệch nhỏ nhất.
Lặp lại bước 2 đến bước 4 chừng nào cũn lựa chọn được θ theo cỏc đỉnh biểu đồ tần xuất theo khoảng cỏch Hausdorff giữa cỏc đối
tượng ảnh.
Chọn ra mẫu cú độ lệch nhỏ nhất trong số cỏc độ lệch nhỏ nhất tỡm được trong bước 4 ứng với cỏc θ lựa chọn.
Kiểm tra nếu độ lệch nhỏ nhất tỡm được trong bước 6 nhỏ hơn ngưỡng Tolerance thỡ cú thể kết luận văn bản cần phõn tớch cú dạng là mẫu cú độ lệch nhỏ nhất tương ứng và cấu trỳc trang phõn tớch thu được cấu trỳc tương ứng thu được ở bước 2 sau bước phõn tớch theo thuật toỏn pageANALYSIS theo quan hệ Qθ. Trong trường hợp ngược lại cú thể kết luận văn bản khụng nằm trong cỏc mẫu văn bản cho trước, để nõng cao chất lượng cho bước sau cú thể bổ sung thờm văn bản với cỏc cấu trỳc tỡm được tương ứng vào tập mẫu cấu trỳc văn bản.
Mệnh đề 6.2: Thuật toỏn phõn tớch trang văn bản pageANALYSIS* dựa vào mẫu là dừng và cho kết quả đỳng.
Chứng minh:
Vỡ số điểm của chu tuyến và đối tượng xỏc định bởi chu tuyến là hữu hạn nờn bước xột duyệt chu tuyến là dừng do đú bước cụ lập cỏc đối tượng sẽ dừng. Số cỏc đối tượng thu được là hữu hạn nờn việc tớnh biểu đồ tần xuất theo khoảng cỏch Hausdorff là dừng. Do đú, cỏc bước lựa chọn ngưỡng θ dựa vào cỏc đỉnh của biểu đồ tần xuất là hữu hạn.
Vỡ thuật toỏn phõn tớch trang văn bản pageANALYSIS* dựa vào mẫu nhờ kỹ thuật phõn tớch trang văn bản pageANALYSIS theo tiếp cận dưới lờn nhờ sử dụng quan hệ Qθ và việc đỏnh giỏ độ lệch cấu trỳc văn bản theo mẫu. Tớnh đỳng đắn của thuật toỏn pageANALYSIS đó được chỉ ra trong [1] và từ mục 6.2.3.1 ta thấy tớnh đỳng đắn của việc đỏnh giỏ độ lệch văn bản theo mẫu dẫn đến tớnh đỳng đắn của thuật toỏn pageANALYSIS*.
Tổng hợp cỏc bước ở trờn ta cú thuật toỏn pageANALYSIS* là dừng và cho kết quả đỳng .
Cỏc bước tiến hành phõn phõn vựng và đối sỏnh mẫu
Hỡnh 6.10: Cỏc bước tiến hành phõn vựng và đối sỏnh mẫu