Phân tích cấu trúc hình ảnh trang ảnh tài liệu dựa trên phương pháp ngưỡng thích nghi

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	111
Dung lượng	13,01 MB

Nội dung

VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CƠNG NGHỆ PHÂN TÍCH CẤU TRÚC HÌNH HỌC TRANG ẢNH TÀI LIỆU DỰA TRÊN PHƯƠNG PHÁP NGƯỠNG THÍCH NGHI LUẬN ÁN TIẾN SỸ TỐN HỌC Hà Nội - 08/02/2018 Lời cam đoan Tôi xin cam đoan luận án tiến sĩ "Phân tích cấu trúc hình học trang ảnh tài liệu dựa phương pháp ngưỡng thích nghi" cơng trình nghiên cứu riêng Các số liệu tài liệu luận án trung thực chưa công bố cơng trình nghiên cứu Tất tài liệu tham khảo trích dẫn tham chiếu đầy đủ Hà Nội, ngày 08 tháng 02 năm 2018 Tác giả luận án i Lời cảm ơn Luận án Tiến sĩ hoàn thiện nỗ lực nghiêm túc tơi q trình nghiên cứu, q trình ln hỗ trợ, giúp đỡ tận tình Thầy giáo hướng dẫn khoa học, Ban lãnh đạo Học viện Khoa học Công nghệ, Ban lãnh đạo Trường THPT Chuyên Hạ Long - Quảng Ninh, đồng nghiệp, chuyên gia nhà khoa học, bạn bè người thân gia đình tơi Trước tiên, xin trân trọng cảm ơn Thầy giáo hướng dẫn khoa học ln dành nhiệt tình, ân cần, bảo định hướng cho đường nghiên cứu khoa học từ ngày đầu học tập trình nghiên cứu năm qua Chân thành cảm ơn Học viện Khoa học Công nghệ - Viện Hàn Lâm Khoa học Công Nghệ Việt Nam ủng hộ, giúp đỡ tơi q trình học tập nghiên cứu Đặc biệt, xin dành tặng tình cảm biết ơn cao quý đến bạn bè thành viên gia đình: Bố, mẹ, anh chị, vợ hai yêu quý chấp nhận nhiều hy sinh vất vả, sát cánh tơi sống, q trình học tập nghiên cứu để tơi có thành cơng ii Mục lục Lời cam đoan i Lời cảm ơn ii Danh mục hình vẽ vi Lời mở đầu xi Chương Tổng quan phân tích cấu trúc hình học trang ảnh tài liệu 1.1 Các thành phần hệ thống nhận dạng văn 1.1.1 Tiền xử lý 1.1.1.1 Nhị phân hóa 1.1.1.2 Phát phân loại thành phần liên thông 1.1.1.3 Lọc nhiễu 1.1.1.4 Căn chỉnh độ nghiêng 1.1.2 Phân tích trang ảnh tài liệu 1.1.3 Nhận dạng kí tự quang học 1.1.4 Hậu xử lý 1.2 Các thuật tốn phân tích cấu trúc hình học (phân tách) trang ảnh tài liệu tiêu biểu 1.2.1 Hướng tiếp cận từ xuống 1.2.2 Hướng tiếp cận từ lên 1.2.3 Hướng tiếp cận lai ghép 1.2.4 Các thuật toán tiêu biểu 1.3 Các phương pháp tập liệu đánh giá thuật toán phân tách trang ảnh tài liệu 1.3.1 Độ đo F-Measure 1.3.2 Độ đo PSET 1.3.3 Độ đo PRImA 1.3.4 Dữ liệu 1.4 Vấn đề nghiên cứu, hướng tiếp cận đóng góp luận án 1.5 Kết luận chương iii 1 4 9 11 12 15 16 16 18 23 26 27 Chương Thuật toán nhanh phát trang ảnh tài liệu 2.1 Phân tách trang ảnh tài liệu dựa trang ảnh 2.2 Bài toán phát trang ảnh 2.2.1 Định nghĩa vùng trắng lớn 2.2.2 Thuật tốn tìm vùng trắng lớn 2.2.3 Thuật toán phát trang ảnh 2.3 Tăng tốc thuật toán phát trang ảnh 2.4 Thuật toán WhiteSpace Fast-WhiteSpace 2.4.1 Thuật toán WhiteSpace 2.4.2 Thuật toán Fast-WhiteSpace 2.5 Thực nghiệm thảo luận 2.6 Kết luận chương Chương Thuật toán phân tách trang ảnh tài liệu HP2S AOSM 3.1 Mơ hình phân tách trang hai thuật toán HP2S AOSM 3.2 Thuật toán HP2S 3.2.1 Phát đường phân tách 3.2.2 Xác định dòng chữ 3.2.3 Gom cụm dòng chữ thành vùng chữ 3.3 Thuật toán AOSM 3.3.1 Xác định vùng chữ ứng cử viên 3.3.1.1 Phát đối tượng phân tách 3.3.1.2 Xác định biên vùng chữ ứng cử viên 3.3.1.3 Gom kí tự thành dòng chữ ứng cử viên 3.3.2 Gom cụm vùng chữ bị "tách quá" 3.3.2.1 Hạn chế phương pháp truyền thống 3.3.2.2 Phương pháp ngưỡng thích nghi 3.4 Thuật toán Fast-AOSM 3.5 Xác định đoạn văn 3.5.1 Định nghĩa dòng chữ phân tách 3.5.2 Tách vùng chữ thành đoạn văn 3.6 Thực nghiệm thảo luận 3.6.1 Các thuật toán, tập liệu độ đo 3.6.2 Các kết thực nghiệm thảo luận 3.7 Kết luận chương 28 28 29 29 32 34 34 36 36 37 38 39 42 42 44 44 45 50 52 52 52 56 58 59 60 63 65 67 67 68 70 70 72 82 Kết luận hướng phát triển 85 Danh mục cơng trình công bố tác giả 88 iv Danh mục chữ viết tắt Từ viết tắt AOSM Từ gốc Giải thích nghĩa An adaptive over-split and Thuật tốn phân tích trang tách merge algorithm for page gom cụm phương segmentation HP2S pháp ngưỡng thích nghi A hybrid paragraph-level Một thuật tốn lai ghép phân tích page segmentation trang ảnh tài liệu cấp độ đoạn văn "tách quá" over segmentation Lỗi phân tích vùng liệu chuẩn (được chuẩn bị sắn) thành vùng nhỏ "gộp" under segmentation Lỗi gộp vùng ảnh lại với tab-stop tab-stop Kí tự đầu cuối dòng chữ FRE FineReader Sản phẩm thương mại nhận dạng văn hãng ABBYY TO Tesseract Open Source Bộ mã nguồn mở phát triển OCR Engine tập đồn cơng nghệ thơng tin HP ground-truth ground-truth dòng chữ (vùng chữ) chuẩn bị sắn v Danh sách hình vẽ Trang chủ thi phân tích trang quốc tế năm 2009, 2015 2017 xii 1.1 1.2 1.3 1.4 Các bước xử lý hệ thống nhận dạng văn Hệ thống nhận dạng VnDOCR.4.0 Một ví dụ xác định hình bao thành phần liên thông Minh họa trang ảnh tài liệu với nhiễu chấm nhỏ, vệt dài đen lề trang ảnh Một ví dụ minh họa ảnh đầu vào bị nghiêng so với trục tọa độ Minh họa kết trình phân tích trang Minh họa kết phân tích trang phân tích trang sai trang ảnh đầu vào Kết phân tích hình a), b) xem phân tích Kết phân tích hình c) có hai lỗi: lỗi gộp hai cột văn lỗi gộp vùng chữ với vùng ảnh Kết nhận dạng sai phân tích trang sai a) kết phân tích trang sai, b) kết nhận dạng sai vùng ảnh xem chữ Kết nhận dạng sai phân tích trang sai a) kết phân tích trang sai b) kết q trình nhận dạng trộn vùng chữ hai cột lại với Minh họa trường hợp phân tích lỗi thuật tốn WhiteSpace Do thuật tốn khơng xử lý vùng ảnh có cấu trúc khơng phải hình chữ nhật nên mắc lỗi "tách quá" Minh họa trường hợp phân tích lỗi thuật tốn Docstrum Thuật toán mắc lỗi "gộp" lỗi "tách quá" ngưỡng khoảng cách không đánh giá Minh họa trường hợp phân tích lỗi thuật tốn Tab-Stop Thuật toán Tab-Stop mắc lỗi "gộp" xác định thiêu đối tượng phân tách cột văn a) Các thành phần liên thông xác định từ thuật toán PAL b) Các vùng trắng xen kẽ thành phần liên thông xác định c), d) Các vùng trắng lọc Kết lọc vùng trắng dây chuyền vùng trắng tạo thành phân tách cột văn bản, dòng chữ tạo thành Các kiểu lỗi phân tách trang ảnh tài liệu định nghĩa PSET Cơng cụ đánh giá thuật tốn phân tách trang thư viên PRImA (phiên 1.51) Lỗi "gộp" vùng theo phương ngang lỗi "gộp" vùng theo phương dọc, a) kiểu lỗi, b) vùng ảnh chuẩn ảnh tương ứng 1.5 1.6 1.7 1.8 1.9 1.10 1.11 1.12 1.13 1.14 1.15 1.16 1.17 vi 2 6 10 10 11 14 15 17 18 19 1.18 Lỗi "tách" vùng theo phương ngang lỗi "tách" vùng theo phương dọc, a) kiểu lỗi, b) vùng ảnh chuẩn ảnh tương ứng 1.19 Lỗi "quên/quên phần" vùng ảnh, a) kiểu lỗi, b) vùng ảnh chuẩn ảnh tương ứng 1.20 Lỗi "phân loại sai" vùng ảnh, a) kiểu lỗi, b) vùng ảnh chuẩn ảnh tương ứng 1.21 Sự phụ thuộc kiểu lỗi vào trọng số, a) kiểu lỗi cấu hình đánh giá, b) kiểu lỗi lại phụ thuộc vào tập trọng số 1.22 Một số ảnh minh họa tập liệu UWIII 1.23 Một số ảnh minh họa tập liệu PRImA 1.24 Một số ảnh minh họa tập liệu UNLV 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 2.12 2.13 3.1 3.2 Một trang ảnh có cấu trúc trang cấu trúc đơn giản Minh họa trường hợp vùng chữ trang ảnh phân tách hoàn toàn dựa vùng trắng trang ảnh a) hình chữ nhật thể cho vùng trắng trang ảnh, b) kết phân tách trang Thời gian thực thi trung bình thuật tốn tiêu biểu [TPAMI2008][62] Hình chữ nhật có đường bao màu xanh thể hiển cho vùng trắng lớn tìm Sơ đồ thuật toán tìm vùng trắng lớn Mô tả bước chia trang ảnh thành bốn miền thuật tốn tìm vùng trắng lớn nhất, (a) hình bao hình chữ nhật, (b) điểm chốt tìm được, (c, d) miền trái/phải trên/dưới Sơ đồ thuật tốn tìm vùng trắng bao phủ trang ảnh Hạn chế dẫn đến làm giảm tốc độ thực thi thuật toán WhiteSpaceDetection Miền ZCTR , ZCRT miền chúng xét lại nhiều lần Minh họa trường hợp sinh miền thuật toán WhiteSpaceDetection thuật toán Fast-WhiteSpaceDetection a) thuật toán WhiteSpaceDetection b) thuật toán Fast-WhiteSpaceDetection Sơ đồ thuật toán WhiteSpace Minh họa bước thuật tốn WhiteSpace Hình a) thể ảnh gốc đầu vào, b) thể hình bao thành phần liên thơng (CCs), c) hình chữ nhật vùng trắng bao phủ trang ảnh, d) hình chữ nhật đối tượng phân tách ngang dọc sử dụng để phân đoạn trang ảnh thành vùng, e) thể kết trình phân tách Biểu đồ thể thời gian thực thi trung bình thuật tốn WhiteSpace Fast-WhiteSpace Biểu đồ so sánh độ xác thuật tốn Fast-Whitespace với thuật toán WhiteSpace thuật toán phân tách trang tiên tiến nay: Tab-stop RAST 20 20 21 22 24 25 26 30 30 31 31 33 34 35 36 37 38 39 40 41 Mơ hình chung hai thuật toán HP2S AOSM 43 Các bước q trình xác định vùng chữ thuật toán HP2S 44 vii 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13 3.14 3.15 3.16 3.17 3.18 3.19 3.20 3.21 Các hình chữ nhật kề trái, phải, kí tự a), b) e) a) b) kí tự xét đến tab−stop ứng cử viên ; c) d) kí tự xét đến khơng phải tab−stop ứng cử viên Minh họa bước xác định đường phân tách: a) ảnh đầu vào với hình bao kí tự, b) tab−stop ứng cử viên, c) tab−stop, d) tab−stop mở rộng, e) tab−line Minh họa dòng chữ phần tiêu đề bị phân mảnh dòng chữ cột bị gộp lại với Minh họa bước q trình xác định dòng chữ thuật tốn HP2S Các đường phân tách sử dụng trình xác định dòng chữ a) minh họa dòng chữ ứng cử viên Các kí tự nằm phía khác đường phân tách thuộc dòng chữ khác b) Các dòng chữ kết xác định thuật toán a) dòng chữ ứng cử viên, b) trường hợp không tồn đường phân tách, dw sử dụng để tách kí tự thành dòng chữ Lỗi quên gộp kí tự gần kề vào dòng chữ a) đường phân tách, b) số bị tách khỏi dòng chữ đường phân tách a) minh họa kí tự gán nhãn m− tabs, b) minh họa dòng chữ phục hồi lại a) Ảnh gốc, b) đường phân tách, c) vùng chữ xác định Minh họa khoảng cách theo phương ngang hai dòng chữ linei linej Các bước q trình xác định vùng chữ thuật tốn AOSM Hình minh họa phân tách vật lý, tab−stop vùng trắng phân cách cột văn Lỗi "gộp" bị gây tham số "ngưỡng" khoảng cách không phù hợp cho vùng khác trang ảnh Lỗi "gộp" bị gây thuật toán theo hướng tiếp cận từ xuống khơng xử lý vùng ảnh có cấu trúc "khơng phải hình chữ nhật" Hình a) minh họa lỗi "gộp" bị gây thuật toán RAST (thuật toán lai ghép) xác định thiếu đường phân tách Hình b) minh họa lỗi "tách quá" bị gây thuật toán PAL (thuật toán lai ghép) xác định sai đường phân tách Các bước giai đoạn 1: a) ảnh gốc đầu vào ; b) hình chữ nhật thể vùng trắng tìm ; c) kết trình "đổ mực" ; d) vùng chữ ứng cử viên Minh họa điểm xem điểm biên, điểm góc a) minh họa điểm với lân cận điểm Một điểm điểm biên, điểm trắng lân cận có điểm đen b), c), d) Một điểm điểm góc điểm trắng lân cận có điểm đen c), d) Hình minh họa thuật tốn Ray-Casting xác định điểm đa giác Các bước q trình gom cụm kí tự thành dòng chữ viii 45 46 46 48 49 49 49 50 51 51 52 53 54 55 56 57 58 59 60 3.22 Minh họa kết phân tách giai đoạn 1: a) vùng ảnh "đổ mực" thể cho vùng chữ ; b) vùng chữ xem bị "tách quá" 3.23 Kết phân tách thuật toán RLSA ảnh UWIII-A005BIN, RSLA quên không xác định dòng chữ dính vào thành nhiễu 3.24 Kết phân tách thuật toán Docstrum Voronoi ảnh UWIIIA005BIN, hai thuật toán Docstrum Voronoi mắc lỗi "tách quá" vùng chữ phần tiêu đề 3.25 Chiều cao x −height ước lượng dòng chữ 3.26 Minh họa trường hợp dòng chữ nhóm lại với phương pháp ngưỡng thích nghi 3.27 Kết q trình nhóm dòng chữ bị "tách quá": a) dòng chữ bị "tách quá" ; b) kết sau gom cụm 3.28 Minh họa trường hợp phân tách tốt thuật toán Fast-AOSM với bước xác định loại bỏ vùng trắng a) hình chữ nhật thể cho vùng trắng phát hiện, b) kết phân tách 3.29 Dòng chữ liền trước (pre− line) liền sau (next− line) dòng chữ (current− line) 3.30 Hình chữ nhật "nét đứt" thể dòng chữ bắt đầu đoạn văn 3.31 Các chữ nhật "nét đứt" thể dòng chữ nằm phía a) nằm phía b) cột văn 3.32 Dòng chữ bắt đầu đoạn với "symbol" a), dòng chữ bắt đầu tài liệu tham khảo b) 3.33 Các khối văn gần Dòng chữ có hình bao nét đứt nằm bắc ngang qua hai cột văn có khoảng cách gần với dòng chữ hai cột bên Các thuật tốn truyền thống hầu hết thất bại tình gây lỗi "gộp" 3.34 Tách vùng chữ thành đoạn văn bản: a) ảnh gốc, b) kết phân tách không sử dụng dòng chữ phân tách, c) dòng chữ "tơ đậm" dòng chữ phân tách, d) vùng chữ tách áp dụng dòng chữ phân tách, e) kết phân tách cuối 3.35 Độ xác thuật toán với độ đo PSET, tập liệu UW-III and ICDAR2009 3.36 Độ xác thuật toán với độ đo F-Measure tập liệu ICDAR2009 3.37 Độ xác thuật tốn HP2S AOSM so với kết tốp đầu công bố thi ICDAR2009 [4] với độ đo PRImA tập liệu ICDAR2009 3.38 Độ xác thuật toán Fast-AOSM kết tốp đầu công bố thi ICDAR2015 [9] với độ đo PRImA tập liệu thi 3.39 Độ xác thuật toán HP2S, Fast-AOSM, hệ thống tốp đầu thi phân tích trang năm 2015 (ICDAR2015), mã nguồn mở Tesseract-3.03 Fine Reader 12 thực nghiệm tập UNLV với bốn ngữ cảnh khác độ đo PRImA ix 61 62 63 64 65 65 66 67 67 68 69 69 71 73 74 74 75 75 Chương Thuật toán phân tách trang ảnh tài liệu HP2S AOSM (Docstrum) (WhiteSpace) (Tab-Stop) (MHS) (AOSM) (Ground-truth) 82 Hình 3.48 – Kết phân tách ảnh PRImA-00000769 3.7 Kết luận chương Trong chương này, luận án trình bày hai thuật toán phân tách trang ảnh tài liệu HP2S, AOSM thuật toán Fast-AOSM cải tiến tốc độ thực thi thuật toán AOSM Mục tiêu hai thuật toán HP2S AOSM giảm đồng thời hai kiểu lỗi thường gặp thuật toán phân tách trang ảnh tài liệu, lỗi "gộp" "tách quá" bị gây đa dạng kích cỡ phơng chữ, khoảng cách vùng chữ cấu trúc trang ảnh Cả hai thuật toán phát triển theo hướng tiếp cận lai ghép áp dụng phương pháp phân tích ngữ cảnh để tách vùng chữ thành đoạn văn Để xác định vùng chữ thuật toán HP2S áp dụng hướng tiếp cận từ lên, với kết Chương Thuật toán phân tách trang ảnh tài liệu HP2S AOSM (Voronoi) (Docstrum) (WhiteSpace) (Tab-Stop) (AOSM) (Ground-truth) 83 Hình 3.49 – Kết phân tách ảnh UWIII-A005 hợp tab−stop, phép biến đổi hough tham số khoảng cách ước lượng lân cận theo phương ngang kí tự Trong đó, AOSM kết hợp hướng tiếp cận từ xuống phương pháp ngưỡng thích nghi Trước tiên, AOSM sử dụng tập vùng trắng bao phủ trang ảnh làm đối tượng phân tách, thay đổi thú vị hiệu so với cách sử dụng đối tượng phân tách thơng thường, tab−stop hay whitespace để tìm cấu trúc cột trang ảnh Chiến lược không giải vấn đề phát đối tượng phân tách mà giải hiệu lỗi "gộp" Lỗi "tách quá" thường bị gây thay đổi nhiều kích cỡ phơng chữ khoảng cách lớn kí tự, dòng chữ lớn Phương pháp ngưỡng thích nghi AOSM khắc phục hiệu lỗi Cuối cùng, vùng chữ tách thành đoạn văn cách sử dụng dòng chữ phân tách Các kết thực nghiệm cho thấy hai thuật toán HP2S AOSM cho độ Chương Thuật toán phân tách trang ảnh tài liệu HP2S AOSM 84 xác cao so với thuật tốn phân tách trang tiêu biểu thuật toán tốp đầu thi phân tích trang năm 2009, đồng thời phân tích tốt trường hợp khó mà hầu hết thuật tốn phân tích trang thuật bại Đặc biệt thuật toán Fast-AOSM kết hợp AOSM với mơ đun tìm nhanh trang ảnh tài liệu cho kết với tốc độ thực thi nhanh độ xác đứng thứ ba thi phân tích trang năm 2015 2017, cao sản phẩm thương mai hàng đầu, mã nguồn mở tiếng cao hệ thống giành chiến thắng thi năm 2013, giảm đồng thời hai kiểu lỗi "tách quá" "gộp" hiệu hệ thống phân tách trang MHS (là hệ thống đứng đầu thi năm 2015 2017) So với HP2S AOSM Fast - AOSM thực hiểu phân tích trang ảnh mà khoảng cách ký tự, dòng chữ nhỏ, đặc biệt Fast-AOSM cho tốc độ thực thi nhanh nhiều so với HP2S Tuy nhiên, thuật toán Fast - AOSM dễ mắc lỗi gộp vùng chữ thiếu phần vùng trắng nhỏ phân tách vùng chữ Trong tương lại, luận án tiếp tục phát triển để khắc phục lỗi để làm cho Fast-AOSM hoàn thiện tộc độ thực thi độ xác a) b) Hình 3.50 – Minh họa kết phân tích hai thuật toán HP2S Fast - AOSM trang ảnh PRImA-00000801, a) kết phân tích thuật tốn HP2S, b) kết phân tích thuật tốn Fast - AOSM Kết luận hướng phát triển Kết luận Luận án nghiên cứu tổng quan hệ thống nhận dạng văn bản, bao gồm bước như: tiền xử lý, phân tích trang (phân tích cấu trúc hình học phân tích cấu trúc logic), nhận dạng hậu xử lý Các kết luận án tập trung vào bước phân tích trang Trong đó, trọng tâm phân tích cấu trúc hình học trang ảnh Đây khâu quan trọng hệ thống nhận dạng, kết đầu bước phân tích trang đầu vào q trình nhận dạng Hai vấn đề phân tích trang tốc độ độ xác thuật tốn Trong đó, vấn đề tăng độ xác thuật toán nhận quan tâm nhiều từ nhà khoa học Hai lỗi thuật tốn phân tích trang "tách quá" "gộp" Vì vây, mục tiêu luận án đồng thời mục tiêu chung thuật tốn phân tích trang giảm đồng thời hai kiểu lỗi Luận án đạt kết cụ thể sau : Đánh giá so sánh thuật tốn phân tích trang tiêu biểu tập liệu PRImA Các kết đánh giá cung cấp vấn đề tổng quan phân tích trang, điểm mạnh, điểm yếu hướng tiếp cận Từ làm định hướng cho mục tiêu nghiên cứu Kết công bố [4] Đề xuất giải pháp làm tăng tốc thuật toán phát trang ảnh tài liệu cách áp dụng kĩ thuật nhánh cận để từ hạn chế số nhánh khơng cần thiết Kết công bố [3] Đề xuất giải pháp việc phát sử dụng đối tượng phân tách Đề xuất phương pháp ngưỡng thích nghi cho q trình gom cụm Định nghĩa dòng chữ phân tách để phân tách vùng chữ thành đoạn văn Các đề xuất áp dụng để phát triển thành công hai thuật tốn phân tích trang với độ xác cao : HP2S AOSM Các kết liên quan công bố [1, 2, 5, 6] 85 Hướng phát triển Phân tích trang ảnh tài liệu bước quan trọng hệ thống nhận dạng Kết phân tích trang ảnh hưởng nhiều đến kết nhận dạng Các vấn đề phân tích trang vấn toán thu hút nhiều quan tâm nhà nghiên cứu Vì vậy, việc tiếp tục phát triển thuật tốn phân tích trang để giải vấn đề như: phát vùng ảnh, vùng bảng, vùng biểu đồ, phân tích cấu trúc logic, cần thiết Trong tương lại luận án tiếp tục phát triển theo hướng sau: Các kết đánh giá tập liệu cho thấy thuật toán đề xuất giảm đồng thời hai kiểu lỗi "gộp" "tách" tốt thuật tốn hàng đầu từ làm tăng độ xác thuật tốn Tuy nhiên, số trường hợp thiếu vùng trắng phân tách dẫn đến thuật toán AOSM vấn bị mắc lỗi "gộp" nặng Vì tương lại luận án tiếp tục phát triển luận án để vượt qua hạn chế Các vùng ảnh bán sắc xác định luận án dựa phép biến đổi hình thái để xác định mầm ảnh từ suy ngược lại vùng ảnh Vì vậy, số trường hợp kí từ phần tiêu đề có kích cỡ lớn lại in đậm nên thương bị phát nhầm vùng ảnh, điều làm thông tin quan trọng từ gây lỗi "tách" vùng chữ phân tiêu Trong tương lại luận án tiếp tục phát triển để vượt qua hạn chế Kết bước tiền xử lý, phân loại thành phân liên thông tao đầu vào thuận lợi cho thuật tốn phân tích trang Trong khn khổ luận án bước tiền xử lý, phân loại thành phần liên thông cách đơn giản dựa vào kích cỡ thành phần liên thơng liệu đầu vào gây nhiều khó khắn cho thuật tốn phân tích trang Trong tương lai luận án tiếp tục phát triển để đề xuất thuật toán mạnh cho bước tiền xử lý Phát phân tích cấu trúc vùng bảng trang ảnh có ý nghĩa quan trọng Vì nhiều trang ảnh đầu vào thông tin vùng bảng thông tin quan trọng trang ảnh Trong luận án tác giả chưa đề xuất phát triển thuật tốn phát phân tích cấu trúc vùng bảng Trong tương lai luận án thực đánh giá thuật tốn phân tích bảng Từ đề xuất thuật tốn phân tích bảng Mục tiêu luận án tạo hệ thông mạnh trích rút thơng tin cần thiêt từ trang ảnh đầu vào, tạo hệ thơng hồn thiện cho mục tiêu phân 86 tích trang Vì tương lai luận án tiếp tục phát triển thuật toán phát vùng ảnh sắc, phát chữ trắng đên, phân tích cấu trúc logic 87 Danh mục cơng trình cơng bố tác giả Tham số tự cho toán phân tích trang ảnh tài liệu, Hội nghị Quốc gia lần thứ Nghiên cứu ứng dụng Công Nghệ thông tin (FAIR2014), 2014 Over-Splitted and Merged for Geometry Document Layout Analysis, Hội nghị Quốc gia lần thứ Nghiên cứu ứng dụng Công Nghệ thông tin (FAIR2015), 2015 Cải tiến thuật toán phân tách trang ảnh tài liệu sử dụng phân tích cấu trúc nền, Hội thảo quốc gia lần thứ XIX : Một số vấn đề chọn lọc Công nghệ thông tin truyền thông (@2016), pp 49-53, 2016 So sánh đánh giá thuật toán phân tách ảnh tài liệu, Tạp chí Khoa học Tự nhiên Công nghệ, Đại học Thái Nguyên, Vol 120, No 06, pp 03-08, 2014 A hybrid paragraph-level page segmentation, Journal of Computer Science and Cybernetics, Vol 32, No 02, pp 153-167, 2016 An adaptive over-split and merge algorithm for page segmentation, Pattern Recognition Letters, Vol 80, pp 137-143, 2016 88 Tài liệu tham khảo [1] In Isri ocr evaluation tools https ://code.google.com/p/isri-ocr-evaluation-tools/ downloads/list [2] In https ://code.google.com/archive/p/leptonica/ [3] In http ://www.isri.unlv.edu/ISRI/OCRtk [4] A Antonacopoulos, S Pletschacher, D Bridson, and C Papadopoulos Page segmentation competition In 2009 10th International Conference on Document Analysis and Recognition, pages 1370–1374 IEEE, 2009 [5] A Antonacopoulos, C Clausner, C Papadopoulos, and S Pletschacher Competition on historical newspaper layout analysis (hnla 2013) In Proc of 12th International Conference on Document Analysis and Recognition (ICDAR), pages 1454–1458 IEEE, 2013 [6] Apostolos Antonacopoulos Page segmentation using the description of the background Computer Vision and Image Understanding, 70(3) :350–369, 1998 [7] Apostolos Antonacopoulos, David Bridson, Christos Papadopoulos, and Stefan Pletschacher A realistic dataset for performance evaluation of document layout analysis In 2009 10th International Conference on Document Analysis and Recognition, pages 296–300 IEEE, 2009 [8] Apostolos Antonacopoulos, Christian Clausner, Christos Papadopoulos, and Stefan Pletschacher Historical document layout analysis competition In 2011 International Conference on Document Analysis and Recognition, pages 1516–1520 IEEE, 2011 [9] Apostolos Antonacopoulos, Christian Clausner, Christos Papadopoulos, and Stefan Pletschacher Icdar2015 competition on recognition of documents with complex 89 layouts-rdcl2015 In Document Analysis and Recognition (ICDAR), 2015 13th International Conference on, pages 1151–1155 IEEE, 2015 [10] Henry S Baird Background structure in document images International Journal of Pattern Recognition and Artificial Intelligence, 8(18) :1013–1030, 1994 [11] Henry S Baird, Susan E Jones, and Steven J Fortune Image segmentation by shape-directed covers In Pattern Recognition, 1990 Proceedings., 10th International Conference on, volume 1, pages 820–825 IEEE, 1990 [12] Philippine Barlas, Sébastien Adam, Clément Chatelain, and Thierry Paquet A typed and handwritten text block segmentation system for heterogeneous and complex documents In Document Analysis Systems (DAS), 2014 11th IAPR International Workshop on, pages 46–50 IEEE, 2014 [13] Thomas M Breuel A practical, globally optimal algorithm for geometric matching under uncertainty Electronic Notes in Theoretical Computer Science, 46 :188–202, 2001 [14] Thomas M Breuel Two geometric algorithms for layout analysis In International workshop on document analysis systems, pages 188–199 Springer, 2002 [15] Thomas M Breuel High performance document layout analysis In Proceedings of the Symposium on Document Image Understanding Technology, pages 209–218, 2003 [16] Thomas M Breuel The ocropus open source ocr system DRR, 6815, 2008 [17] R Cattoni, T Coianiz, S Messelodi, and C Modena Geometric layout analysis techniques for document image understanding : a review, a review IRST, Trento, Italy, 1998 [18] Fu Chang, Chun-Jen Chen, and Chi-Jen Lu A linear-time component-labeling algorithm using contour tracing technique computer vision and image understanding, 93(2) :206–220, 2004 [19] Kai Chen, Fei Yin, and Cheng-Lin Liu Hybrid page segmentation with efficient whitespace rectangles extraction and grouping In Document Analysis and Recognition (ICDAR), 2013 12th International Conference on, pages 958–962 IEEE, 2013 [20] C Clausner, A Antonacopoulos, and S Pletschacher Icdar2017 competition on recognition of documents with complex layouts–rdcl2017 90 [21] Christian Clausner, Stefan Pletschacher, and Apostolos Antonacopoulos Scenario driven in-depth performance evaluation of document layout analysis methods In 2011 International Conference on Document Analysis and Recognition, pages 1404– 1408 IEEE, 2011 [22] Christian Clausner, Stefan Pletschacher, and Apostolos Antonacopoulos Efficient ocr training data generation with aletheia In Short Paper Booklet of the 11th IAPR Workshop DAS, volume 14, pages 19–20, 2014 [23] Amit Kumar Das, Sanjoy Kumar Saha, and Bhabatosh Chanda An empirical measure of the performance of a document image segmentation algorithm International Journal on Document Analysis and Recognition, 4(3) :183–190, 2002 [24] Jing Fang, Liangcai Gao, Kun Bai, Ruiheng Qiu, Xin Tao, and Zhi Tang A table detection method for multipage pdf documents via visual seperators and tabular structures In Document Analysis and Recognition (ICDAR), 2011 International Conference on, pages 779–783 IEEE, 2011 [25] Stefano Ferilli, Marenglen Biba, Floriana Esposito, and Teresa MA Basile A distance-based technique for non-manhattan layout analysis In Document Analysis and Recognition, 2009 ICDAR’09 10th International Conference on, pages 231–235 IEEE, 2009 [26] Stefano Ferilli, Teresa Basile, and Floriana Esposito A histogram-based technique for automatic threshold assessment in a run length smoothing-based algorithm In Proceedings of the 9th IAPR International Workshop on Document Analysis Systems, pages 349–356 ACM, 2010 [27] Basilios Gatos, Nikos Papamarkos, and Christodoulos Chamzas Skew detection and text line position determination in digitized documents Pattern Recognition, 30(9) :1505–1519, 1997 [28] Max Găobel, Tamir Hassan, Ermelinda Oro, and Giorgio Orsi Icdar 2013 table competition In Document Analysis and Recognition (ICDAR), 2013 12th International Conference on, pages 1449–1453 IEEE, 2013 [29] Jaekyu Ha, Robert M Haralick, and Ihsin T Phillips Recursive xy cut using bounding boxes of connected components In Document Analysis and Recognition, 1995., Proceedings of the Third International Conference on, volume 2, pages 952–955 IEEE, 1995 91 [30] Stuart Inglis and Ian H Witten Document zone classification using machine learning In Proc Digital Image Computing : Techniques and Applications, pages 631– 636, 1995 [31] Junichi Kanai, Thomas A Nartker, S Rice, and George Nagy Performance metrics for document understanding systems In Document Analysis and Recognition, 1993., Proceedings of the Second International Conference on, pages 424–427 IEEE, 1993 [32] Daniel Keysers, Faisal Shafait, and Thomas M Breuel Document image zone classification-a simple high-performance approach In in 2nd Int Conf on Computer Vision Theory and Applications Citeseer, 2007 [33] Koichi Kise, Akinori Sato, and Motoi Iwata Segmentation of page images using the area voronoi diagram Computer Vision and Image Understanding, 70(3) :370–382, 1998 [34] Iuliu Vasile Konya Adaptive methods for robust document image understanding 2012 [35] Hyung Il Koo Text-line detection in camera-captured document images using the state estimation of connected components IEEE Transactions on Image Processing, 25(11) :5358–5368, 2016 [36] Hyung Il Koo and Nam Ik Cho State estimation in a document image and its application in text block identification and text line extraction In European Conference on Computer Vision, pages 421–434 Springer, 2010 [37] Hyung-Il Koo, Young-Ki Baik, and Beom-Su Kim Efficient blending methods for ar applications September 23 2014 US Patent 8,842,909 [38] Boontee Kruatrachue, Narongchai Moongfangklang, and Kritawan Siriboon Fast document segmentation using contour and xy cut technique In WEC (5), pages 27–29, 2005 [39] Jia Li, Amir Najmi, and Robert M Gray Image classification by a two-dimensional hidden markov model IEEE transactions on signal processing, 48(2) :517–533, 2000 [40] Jisheng Liang, Ihsin T Phillips, Jaekyu Ha, and Robert M Haralick Document zone classification using sizes of connected components In Electronic Imaging : Science & Technology, pages 150–157 International Society for Optics and Photonics, 1996 92 [41] Jisheng Liang, Ihsin T Phillips, and Robert M Haralick Performance evaluation of document structure extraction algorithms Computer Vision and Image Understanding, 84(1) :144–159, 2001 [42] G Louloudis, B Gatos, I Pratikakis, and K Halatsis A block-based hough transform mapping for text line detection in handwritten documents In Tenth International Workshop on Frontiers in Handwriting Recognition Suvisoft, 2006 [43] Song Mao and Tapas Kanungo Empirical performance evaluation methodology and its application to page segmentation algorithms IEEE Transactions on Pattern Analysis and Machine Intelligence, 23(3) :242–256, 2001 [44] Song Mao and Tapas Kanungo Software architecture of pset : A page segmentation evaluation toolkit International Journal on Document Analysis and Recognition, (3) :205–217, 2002 [45] Julien Marquegnies Document layout analysis in scribo In Tech Rep CSI Seminar 1102, 2011 [46] George Nagy Twenty years of document image analysis in pami IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(1) :38–62, 2000 [47] George Nagy, Sharad Seth, and Mahesh Viswanathan A prototype document image analysis system for technical journals Computer, 25(7) :10–22, 1992 [48] Anoop M Namboodiri and Anil K Jain Document structure and layout analysis In Digital Document Processing, pages 29–48 Springer, 2007 [49] Lawrence O’Gorman The document spectrum for page layout analysis IEEE Transactions on Pattern Analysis and Machine Intelligence, 15(11) :1162–1173, 1993 [50] Oleg Okun, David Dœrmann, and Matti Pietikainen Page segmentation and zone classification : the state of the art Technical report, DTIC Document, 1999 [51] Yucun Pan, Qunfei Zhao, and Seiichiro Kamata Document layout analysis and reading order determination for a reading robot In TENCON 2010-2010 IEEE Region 10 Conference, pages 1607–1612 IEEE, 2010 [52] A Papandreou and Basilios Gatos A novel skew detection technique based on vertical projections In Document Analysis and Recognition (ICDAR), 2011 International Conference on, pages 384–388 IEEE, 2011 93 [53] Theo Pavlidis and Jiangyin Zhou Page segmentation by white streams In Proc 1st Int Conf Document Analysis and Recognition (ICDAR), Int Assoc Pattern Recognition, pages 945–953, 1991 [54] Worapoj Peerawit and Asanee Kawtrakul Marginal noise removal from document images using edge density In 4th Information and Computer Engineering Postgraduate Workshop, Phuket, Thailand, 2004 [55] I Phillips Users’ reference manual CD-ROM, UW-III Document Image DatabaseIII, 1995 [56] Priti P Rege and Chanchal A Chandrakar Text-image separation in document images using boundary/perimeter detection ACEEE International Journal on Signal and Image Processing, 3(1) :10–14, 2012 [57] Jaakko Sauvola and Matti Pietikăainen Adaptive document image binarization Pattern recognition, 33(2) :225–236, 2000 [58] Faisal Shafait Geometric layout analysis of scanned documents 2008 [59] Faisal Shafait and Thomas M Breuel A simple and effective approach for border noise removal from document images In Multitopic Conference, 2009 INMIC 2009 IEEE 13th International, pages 1–5 IEEE, 2009 [60] Faisal Shafait and Thomas M Breuel The effect of border noise on the performance of projection-based page segmentation methods IEEE Transactions on Pattern Analysis and Machine Intelligence, 33(4) :846–851, 2011 [61] Faisal Shafait, Joost Van Beusekom, Daniel Keysers, and Thomas M Breuel Page frame detection for marginal noise removal from scanned documents In Scandinavian Conference on Image Analysis, pages 651–660 Springer, 2007 [62] Faisal Shafait, Daniel Keysers, and Thomas Breuel Performance evaluation and benchmarking of six-page segmentation algorithms IEEE Transactions on Pattern Analysis and Machine Intelligence, 30(6) :941–954, 2008 [63] Faisal Shafait, Daniel Keysers, and Thomas M Breuel Efficient implementation of local adaptive thresholding techniques using integral images In Electronic Imaging 2008, pages 681510–681510 International Society for Optics and Photonics, 2008 94 [64] Zhixin Shi and Venu Govindaraju Multi-scale techniques for document page segmentation In Document Analysis and Recognition, 2005 Proceedings Eighth International Conference on, pages 1020–1024 IEEE, 2005 [65] Anikó Simon, J-C Pret, and A Peter Johnson A fast algorithm for bottom-up document layout analysis IEEE Transactions on Pattern Analysis and Machine Intelligence, 19(3) :273–277, 1997 [66] Raymond W Smith Hybrid page layout analysis via tab-stop detection In 2009 10th International Conference on Document Analysis and Recognition, pages 241– 245 IEEE, 2009 [67] Hung-Ming Sun et al Enhanced constrained run-length algorithm for complex layout document processing International Journal of Applied Science and Engineering, 4(3) :297–309, 2006 [68] Chew Lim Tan and Zheng Zhang Text block segmentation using pyramid structure In Photonics West 2001-Electronic Imaging, pages 297–306 International Society for Optics and Photonics, 2000 [69] Tuan-Anh Tran, In-Seop Na, and Soo-Hyung Kim Separation of text and non-text in document layout analysis using a recursive filter KSII Transactions on Internet and Information Systems (TIIS), 9(10) :4072–4091, 2015 [70] Tuan Anh Tran, In Seop Na, and Soo Hyung Kim Page segmentation using minimum homogeneity algorithm and adaptive mathematical morphology International Journal on Document Analysis and Recognition (IJDAR), 19(3) :191–209, 2016 [71] Rafael Grompone Von Gioi, Jeremie Jakubowicz, Jean-Michel Morel, and Gregory Randall Lsd : A fast line segment detector with a false detection control IEEE transactions on pattern analysis and machine intelligence, 32(4) :722–732, 2010 [72] Yalin Wang, Robert Haralick, and Ihsin T Phillips Improvement of zone content classification by using background analysis In Fourth IAPR International Workshop on Document Analysis Systems.(DAS2000), 2000 [73] Yalin Wang, Ihsin T Phillips, and Robert M Haralick Document zone content classification and its performance evaluation Pattern Recognition, 39(1) :57–73, 2006 95 Chương Thuật toán phân tách trang ảnh tài liệu HP2S AOSM 96 [74] Yalin Wangt, IT Phillipst, and Robert Haralick Automatic table ground truth generation and a background-analysis-based table structure extraction method In Document Analysis and Recognition, 2001 Proceedings Sixth International Conference on, pages 528–532 IEEE, 2001 [75] Kwan Y Wong, Richard G Casey, and Friedrich M Wahl Document analysis system IBM journal of research and development, 26(6) :647–656, 1982 [76] Berrin A Yanikoglu and Luc Vincent Ground-truthing and benchmarking document page segmentation In Document Analysis and Recognition, 1995., Proceedings of the Third International Conference on, volume 2, pages 601–604 IEEE, 1995 ... ảnh tài liệu Chương Tổng quan phân tích cấu trúc hình học trang ảnh tài liệu Ảnh đầu vào Kết phân tích Hình 1.6 – Minh họa kết q trình phân tích trang a) b) c) Hình 1.7 – Minh họa kết phân tích. .. cấu trúc hình học trang ảnh tài liệu hầu hết trường hợp, góc nghi ng trang ảnh nhỏ có ảnh hưởng bất lợi rõ ràng đến độ xác bước phân tích cấu trúc hình học phân tích cấu trúc logic trang ảnh. .. phải hình chữ nhật" Phân tích cấu trúc hình học hay biết nhiều đến giảng với tên gọi phân tích cấu trúc vật lý hay phân tách trang ảnh tài liệu Nhiệm vụ phân tách trang ảnh tài liệu thành miền phân

Ngày đăng: 12/02/2018, 15:53