Giao diện chức năng chương trình

Một phần của tài liệu (LUẬN văn THẠC sĩ) đánh giá sự ảnh hưởng của tham số đến kết quả phân tách của thuật toán whitespace (Trang 72 - 74)

73

Sau khi thực hiện chương trình cho kết quả với:

- Time: Thời gian thực hiện chương trình tính bằng mini giây. - xheight: Chiều cao trung bình của các ký tự.

- char_spacing: Khoảng cách giữa các ký tự. - word_spacing: Khoảng cách giữa các từ. - line_spacing: Khoảng cách giữa các dòng. - Loop: Số lần lặp.

- CCs: Số các thành phần liên thông.

- Whitespace: Số các khoảng trắng thực tế tìm được. - Wcut:

- Pageblock:

3.3. Thực nghiệm 3.3.1. Dữ liệu 3.3.1. Dữ liệu

Trong luận văn này sử dụng tập dữ liệu UW-III [16] để đánh giá thực nghiệm. Tập dữ liệu này đều có ground-truth ở cấp độ đoạn văn bản và cấp độ các dòng chữ, được biểu diễn bởi các đa giác không giao nhau. Tập dữ liệu UW-III có 1600 bức ảnh nhị phân được scand ở độ phân giải 300 DPI và đã được căn trỉnh lại độ nghiêng. Đây là một tập dữ liệu rất đa dạng có nhiều các trang ảnh về sách, báo, tạp chí, thư, ...rất nhiều trang ảnh có nhiễu (những chấm nhỏ, nhiễu lề trang ảnh hoặc những phần chữ không xác định được bởi các thành phần lân cận, ...). Đây là tập dữ liệu thường được sử dụng trong nhiều các đánh giá của thuật toán phân tách trang. Vì vậy, UW-III là một tập dữ liệu rất phù hợp để thực hiện việc đánh giá.

3.3.2. Giới thiệu độ đo PSET

Độ đo PSET là độ đo chính xác thuật toán dựa trên lí thuyết tập hợp của S. Mao [16]. Thước đo độ này dựa trên giả thiết là các khối văn bản có thể dễ dàng tách thành các dòng văn bản. Độ đo PSET được định nghĩa dựa

74

trên các kiểu lỗi cơ bản trong phân tích trang như sau : lỗi tách dòng chữ (split, trong đó, lỗi split lại có bài loại là, tách dòng theo chiều ngang (Horizontally Split), tách dòng theo chiều dọc (Vertically Split), tách hình bao của một dòng chữ theo chiều dọc (Vertically Split on Bounding Box)), lỗi gồm các dòng chữ (merge, trong đó lỗi gồm dòng lại có hai kiểu gồm dòng là, gồm dòng chữ theo chiều ngang (Horizontally Merged), gồm dòng chữ theo chiều dọc (Vertically Merged)), lỗi quên dòng chữ (Missed detection) và lỗi xác định nhầm dòng chữ (False Alarm). Cho G là tập tất cả các dòng văn bản chuẩn trong một trang ảnh, ba tập con của G được định nghĩa như sau:

Một phần của tài liệu (LUẬN văn THẠC sĩ) đánh giá sự ảnh hưởng của tham số đến kết quả phân tách của thuật toán whitespace (Trang 72 - 74)

Tải bản đầy đủ (PDF)

(89 trang)