1. Trang chủ
  2. » Thể loại khác

Nghiên cứu ứng dụng thuật toán nhận dạng cấu trúc bảng dựa trên phát hiện đối tượng

12 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 12
Dung lượng 3,05 MB

Nội dung

Bài báo khoa học Nghiên cứu ứng dụng thuật toán nhận dạng cấu trúc bảng dựa phát đối tượng Ngô Đại Dương1, Hải Hồng Phan1*, Phạm Lê Phương2 Học Viện Kỹ thuật Quân Sự; hongpth@lqdtu.edu.vn; daiduong28789@hotmail.com Trung tâm Thông tin Dữ liệu KTTV; phuongpl80@gmail.com *Tác giả liên hệ: hongpth@lqdtu.edu.vn; Tel: +84–372576968 Ban Biên tập nhận bài: 05/3/2021; Ngày phản biện xong: 10/5/2021; Ngày đăng bài: 25/7/2021 Tóm tắt: Nhận dạng cấu trúc bảng vấn đề quan trọng số hóa tài liệu Với phát triển kỹ thuật học sâu việc phát bảng có nhiều bước tiến lớn, nhận dạng cấu trúc bảng gặp nhiều khó khăn cấu trúc bảng phức tạp, đặc biệt với liệu thực tế Bài báo đề xuất phương pháp ứng dụng mơ hình Cascade mask R–CNN x101FPN deconv để nhận dạng hàng cột Bài báo đề xuất sử dụng mơ hình Faster R–CNN để nhận dạng bảng, từ đưa cấu trúc bảng Thuật toán đề xuất đánh giá tập liệu phổ biến TabStructDB tài liệu thu thập từ trạm Khí tượng thủy văn Kết thực nghiệm đạt 90% độ xác tập liệu Thuật tốn có khả áp dụng hiệu vào việc nhận dạng cấu trúc bảng tài liệu thông thường; đặc biệt thuật tốn có khả xử lý với tài liệu lịch sử chữ viết tay, phù hợp với đặc điểm tài liệu ngành Khí tượng thủy văn Từ góp phần vào việc số hóa tài liệu, lưu trữ truy xuất thơng tin liệu ngành Khí tượng thủy văn Từ khóa: Nhận dạng cấu trúc bảng; Nhận dạng ơ; Khí tượng thủy văn Mở đầu Hiện nay, chuyển đổi số mục tiêu phát triển quốc gia lợi ích mà mang lại cho phát triển kinh tế, xã hội Một nhiệm vụ quan trọng chuyển đổi số số hóa tài liệu Các tài liệu sổ sách scan chụp ảnh lưu vào máy tính dạng định dạng ảnh Tuy nhiên, để khai thác liệu hiệu cần số hóa file thành dạng văn Tài liệu chia thành nhiều vùng như: vùng đoạn văn bản, vùng tiêu đề, vùng ảnh, vùng bảng Trong đó, vùng bảng thường chứa nhiều thông tin, với tài liệu sổ sách, kỹ thuật Do đó, trích rút thơng tin bảng tài liệu khâu quan trọng, định số hóa tài liệu Cấu trúc bảng tài liệu đa dạng với nhiều kích thước khác nhiều loại khác (như bảng có viền, bảng viền, bảng khơng viền) Ngồi bảng từ tài liệu mới, cũ khác có nhiều loại cấu trúc phức tạp Nhận dạng cấu trúc bảng xác định ô (cell), hàng, cột mối quan hệ phân cấp ô Đây toán phức tạp chưa có giải pháp tổng thể giải toàn liệu bảng thực tế kết nhận dạng chưa cao Một số nghiên cứu tiêu biểu lĩnh vực kể tới như: Năm 1997, nghiên cứu [1] lần đầu đề xuất phương pháp trích rút bảng dựa cấu trúc liệu gọi đồ thị chỉnh ký tự (CAG–Charater Alignment Graph), đồ thị chỉnh ký tự hình thành cách kiểm tra liên kết khoảng trắng khối văn liền kề Một số Tạp chí Khí tượng Thủy văn 2021, 727, 1-12; doi:10.36335/VNJHM.2021(727).1-12 http://tapchikttv.vn/ Tạp chí Khí tượng Thủy văn 2021, 727, 1-12; doi:10.36335/VNJHM.2021(727).1-12 tham số khác lỗ (số khoảng trống cột) khoảng trống (số khoảng trống liền kề dòng) sử dụng để kiểm tra cấu trúc khoảng trống khối liệu Cùng với phát triển kỹ thuật học sâu, năm 2017, nghiên cứu [2] đề xuất hệ thống từ đầu đến cuối để hiểu bảng tài liệu gọi DeepDeSRT Đầu tiên, nghiên cứu sử dụng mơ hình mạng Faster–RCNN [3] cho nhiệm vụ phát bảng, sử dụng mơ hình phân đoạn ngữ nghĩa FCN [4] thực nhiệm vụ nhận dạng hàng cột bảng Nghiên cứu thực huấn luyện tập liệu Marmot [5], đánh giá tập liệu ICDAR 2013 [6] Kết đạt F1 96,67% cho nhiệm vụ phát bảng 91,44% cho nhiệm vụ nhận dạng cấu trúc bảng Năm 2019, nghiên cứu [7] đề xuất mơ hình học sâu hội nghị quốc tế phân tích nhận dạng tài liệu (ICDAR) dựa vào phép tích chập biến dạng để nhận dạng hàng cột bảng, từ xác định cấu trúc bảng Nghiên cứu [8] đề xuất mô hình học sâu CascadeTabNet sử dụng để phát nhận dạng cấu trúc bảng từ đầu đến cuối Các thử nghiệm nghiên cứu thực tập liệu ICDAR 2013, ICDAR 2019 [9], Tablebank [10] Các phương pháp kể phần lớn giải ảnh tài liệu xây dựng cho thi, chưa xử lý chứng minh tính hiệu với liệu thực tế Hai là, liệu thường có loại lịch sử đại Trong liệu cần số hóa thực tế gồm hai Dữ liệu trạm Khí tượng thủy văn liệu vậy, bao gồm tài liệu cũ Bài báo đề xuất phương pháp dựa kỹ thuật phát đối tượng theo hướng học sâu để giải toán thực tế Phương pháp đề xuất đánh giá tập liệu phổ biến TabStructDB mở rộng [1] cho nhiệm vụ nhận dạng hàng cột, đánh giá nhận dạng ô cột tập liệu DetectCell tự xây dựng tập liệu Khí tượng thủy văn Mục đích nghiên cứu nhằm: (1) đề xuất thuật toán nhận dạng cấu trúc bảng dựa mơ hình Cascade mask R–CNN x101FPN deconv cho nhiệm vụ nhận dạng hàng cột Faster R–CNN cho nhiệm vụ nhận dạng ô từ cột bảng; (2) phương pháp đề xuất chứng minh hiệu tập liệu, đặc biệt liệu thực tế tài liệu Khí tượng thủy văn Phương pháp nghiên cứu 2.1 Dữ liệu nghiên cứu 2.1.1 Tập liệu TabStructDB mở rộng DetectCell Với nhiệm vụ nhận dạng cấu trúc bảng, báo sử dụng liệu TabStructDB mở rộng để tăng cường liệu Dữ liệu gán nhãn cho hàng cột bảng Tổng cộng bao gồm có 2079 ảnh (ban đầu có 1081 ảnh) có tăng cường thêm 868 ảnh từ tập liệu Tablebank [10] 130 ảnh tập liệu quan trắc KTTV Dữ liệu sử dụng để nhận dạng hàng cột cho bảng Với nhiệm vụ nhận dạng ô (cell), báo đề xuất tập liệu DetectCell với 1.172 ảnh Mỗi ảnh gán nhãn cho ô, liệu gồm tập liệu mở rộng tập liệu quan trắc KTTV 2.1.2 Tập liệu quan trắc KTTV Tập liệu Khí tượng thủy văn thu thập bao gồm sổ sách, bảng biểu từ nhiều năm trước, bao gồm liệu đại lịch sử Có 13 loại sổ sách kỹ thuật khác nhau: sổ quan trắc khí tượng bản, sổ quan trắc mực nước, sổ dùng đo độ sâu, tổng xạ giờ, sổ quan trắc bốc GGI–3000…, loại sổ sách thường có bảng thông thường bảng đặc trưng cho loại sổ Tạp chí Khí tượng Thủy văn 2021, 727, 1-12; doi:10.36335/VNJHM.2021(727).1-12 Hình Ảnh tập liệu TabStrucDB tập liệu DetectCell (a) bảng có cấu trúc hàng sát tập liệu TabStrucDB (b) Một cột bảng đo lưu lượng máy ADCP tập liệu DetectCell Bảng Danh sách sổ liệu KTTV STT Tên sổ Đặc điểm Số mẫu SKT–1 Sổ quan trắc khí tượng SKT–2 Sổ quan trắc khí tượng SKT–3 Sổ quan trắc nhiệt độ đất SKT–13a Sổ quan trắc bốc GGI–3000 BKT11 Tổng lượng xạ BKT11a Cường độ xạ ADCP Số ghi chép máy ADCP Tài liệu chỉnh biên Tài liệu chỉnh biên 41 Sổ dùng đo độ sâu 16 10 Sổ ghi quan trắc mực nước 19 11 Sổ ghi đo lưu lượng nước số 11 12 Biểu XL mẫu nước chất lơ lửng 13 Biểu ghi tốc độ tính chất lưu lượng triều Tổng 642 784 Tạp chí Khí tượng Thủy văn 2021, 727, 1-12; doi:10.36335/VNJHM.2021(727).1-12 Với liệu ban đầu, phân tập liệu KTTV bảng cũ sổ quan trắc khí tượng có từ năm 1969 đến năm 1985, có bảng sổ quan trắc khí tượng từ năm 2000 trở Hình mơ tả hai loại bảng nhiều loại bảng tập liệu KTTV Nghiên cứu cho thấy liệu bảng, ngồi mực in, cịn có chữ viết tay, dành cho hai loại bảng lịch sử đại Ngồi ra, cịn số bảng kẻ tay xử lý báo Bước đầu nghiên cứu sử dụng 130 ảnh đưa vào tập TabStructDB để tiến hành đánh giá thuật tốn Hình Một số loại bảng thuộc tập liệu Khí tượng thủy văn (a) bảng đại, có số viết tay (b) bảng lịch sử, có số viết tay 2.2 Phương pháp nghiên cứu Nghiên cứu sử dụng mơ hình Cascade mask r–cnn_r101 fpn dconv c3–c5 để nhận dạng hàng cột Do kết thực nghiệm ban đầu cho thấy kết nhận dạng hàng tệ, kết nhận dạng cột tốt Điều hàng chứa nhiều phần nền, đặc trưng cần thiết để nhận dạng hàng có khoảng cách gần Nghiên cứu đề xuất phương pháp tiếp tục sử dụng mạng Faster R–CNN để nhận dạng cell tách từ cột vừa nhận dạng Ý tưởng xuất phát từ việc nhận thấy cell hàng có khả dễ dàng nhận dạng toàn bảng, cell nhận dạng cột tương đương với hàng bảng Việc lựa chọn Faster R–CNN mục đích muốn lựa chọn mơ hình nhẹ có hiệu cao Ảnh Mơ hình Cascade mask rcnn x101 fpn deconv Các cột Faster RCNN Hình Mơ hình nhận dạng cấu trúc bảng Cấu trúc bảng Tạp chí Khí tượng Thủy văn 2021, 727, 1-12; doi:10.36335/VNJHM.2021(727).1-12 Sau đây, mô tả số kỹ thuật sử dụng nhận dạng cấu trúc bảng cụ thể mơ hình Cascade R–CNN kết hợp với tích chập biến dạng (Cascade mask r–cnn_r101 fpn dconv c3–c5) Mơ hình xuất phát từ số nghiên cứu trước R–CNN [11], Fast R–CNN [12], Faster R–CNN [4], Mask R–CNN [13], Cascade R–CNN [14], tích chập biến dạng [15], ResNet [16], FPN [17] Mơ hình huấn luyện trước với tập liệu COCO [18] trước tinh chỉnh lại với liệu nghiên cứu Điểm khác biệt mơ hình so với mơ hình khác [3, 8] sử dụng tích chập biến đổi Ta có, phép tốn tích chập thơng thường sau: K ( F * I )( i , j )  K   F ( m , n )  I (i  m , j  n )  i  1, , H , j  1, , H (1) m K n K Dấu * thể phép tốn tích chập, F lọc mà học, I ảnh, K giá trị tính sau:  F /  F kích thước lọc H chiều cao ảnh, W chiều rộng ảnh, i, j đại diện cho vị trí thực phép tích chập đề xuất sử dụng phép tốn tích chập biến dạng vào nhận dạng hàng cột bảng Phép tích chập biến dạng sử dụng hệ số mở rộng thay sử dụng lưới cố định cho phép lớp tự điều chỉnh Các hệ số tính tốn dựa tập hợp tầng tích chập khác, chúng học Cơng thức phép tích chập biến dạng 2–D mơ tả cơng thức sau: ( F  I )( i , j )  K K   h orizontal F ( i , j )  I ( i  m   iv, erj ,tical )  i=1 H,  j =1 W m , n , j  n  i , j , m , n (2) m K n K Kí hiệu  thể cho phép tích chập biến dạng, tham số khác hoàn toàn giống với horizontal cơng thức tích chập thơng thường  iv,erj ,tical kí hiệu cho tham số mở rộng m , n ,  i , j , m, n Hình thể phép tích chập biến đổi Hình độ lệch (offset) đạt cách áp dụng lớp tích chập đồ đặc trưng đầu vào Hạt nhân tích chập sử dụng độ phân giải, độ giãn nở không gian lớp tích chập Trường độ lệch (offset) đầu có độ phân giải đồ đặc trưng đầu vào có 2N kênh 2N tương ứng với N hiệu số 2D Kết hợp tích chập biến đổi với mạng ResNet–101 [16] với Cascade Mask R–CNN [14], FPN [17] ta có mơ hình mạng Hình Trong “I” ảnh đầu vào, “conv” tích chập khung xương, “pool” trích rút đặc trưng vùng, “H” đầu mạng, “B” hộp giới hạn “C” phân loại “B0” đề xuất toàn kiến trúc Hình Biểu diễn trực quan phép tích chập biến đổi Tạp chí Khí tượng Thủy văn 2021, 727, 1-12; doi:10.36335/VNJHM.2021(727).1-12 Hình Mơ hình mạng Cascade mask r–cnn_r101 dconv Kết thảo luận 3.1 Tập liệu đánh giá độ đo Nghiên cứu đánh giá hai tập liệu TabStructDB mở rộng với 130 bảng thuộc tập liệu KTTV, DetectCell hiển thị số kết nhận dạng cấu trúc bảng tập liệu KTTV Nghiên cứu chia tập liệu theo tỷ lệ 60% cho tập huấn luyện, 10% cho tập kiểm định, 30 % cho tập kiểm tra Kết thực nghiệm thực tập kiểm tra Độ đo sử dụng dựa tham số IoU (Intersection over Union) [19] phép đo Precision, Recall, F1 IoU diện tích vùng chồng lấn hộp dự đoán hộp (ground truth) chia cho diện tích vùng tạo hợp hộp dự đoán hộp IoU  IA (DA  GA  IA) (3) Hình Mơ tả IoU Công thức độ đo P, R, F1 trung bình: N P   ( IAi / DAi ) (4) N i 1 N R   ( IAi / GAi ) (5) N i 1 F1  2*(( P * R) / ( P  R)) (6) Trong IA diện tích vùng giao hộp dự đoán hộp đúng, DA diện tích hộp dự đốn, GA diện tích hộp đúng, N số ảnh tập kiểm tra 3.2 Kết đánh giá Nghiên cứu sử dụng ngơn ngữ lập trình Python, thư viện PyTorch, MMdetection [20] xây dựng chương trình mơ hình thử nghiệm Các thực nghiệm nghiên cứu thực tảng Google Colaboratory Pro với Tesla V100–SXM2 có nhớ GPU 16GB, Intel(R) Xeon(R) CPU @2.30GHz 24 GB Ram Tạp chí Khí tượng Thủy văn 2021, 727, 1-12; doi:10.36335/VNJHM.2021(727).1-12 3.2.1 Đánh giá kết nhận dạng hàng cột Thực nghiệm việc nhận dạng cấu trúc bảng Ta thấy theo bảng 2, mơ hình cho phép nhận dạng cột tốt, tỷ lệ nhận dạng lên tới 97,20 % độ đo F1 theo IOU lên tới 94,04 % (độ tin cậy 0,7) Tuy nhiên, việc nhận dạng hàng chưa tốt có 49,77% (độ tin cậy 0,4) hàng nhận ra, hàng có khả nhận có ngưỡng IoU trùng khớp cao F1 = 89,19 % (độ tin cậy 0,4) Các bảng có hàng cách xa (lớn độ rộng ký tự) có xu nhận dạng tốt, hàng gần thường phân biệt nhận dạng d = (số đối tượng phát có ngưỡng IoU > 0,5)/(số đối tượng thực có) Bảng Kết nhận dạng hàng cột IoU Row Column All P R F1 d P R F1 d P R F1 d 0,4 90,72 87,71 89,19 49,77 94,19 93,23 93,71 97,78 86,82 85,16 85,98 62,03 0,5 91,17 88,59 89,86 47,94 94,32 93,35 93,83 97,78 87,03 85,61 86,31 60,87 0,6 91,54 89,20 90,36 46,12 94,42 93,51 93,96 97,53 87,16 85,95 86,55 59,64 0,7 92,03 89,92 90,97 44,43 94,47 93,61 94,04 97,20 87,34 86,27 86,80 58,53 Nghiên cứu sử dụng thủ thuật nhỏ thay đổi kích thước ảnh theo chiều cao Nghiên cứu kéo dãn ảnh lần theo chiều cao h=h*3, kết thực nghiệm cho thấy việc kết hợp kéo dãn ảnh dự đoán hàng giữ nguyên ảnh gốc cho dự đoán cột cho kết tốt bảng Ta thấy mơ hình tốt so với mơ hình Cascade mask hrnetv2pw40 Bảng Kết thực nghiệm nhận dạng hàng cột sử dụng kéo dãn ảnh Phương pháp Kéo dãn ảnh IoU Mơ hình Cascade mask r–cnn x101 dconv Ảnh gốc (cột) Cascade mask r–cnn kéo dãn (hàng) x101 dconv Ảnh gốc (cột) Cascade kéo dãn (hàng) hrnetv2pw40 mask Wavg 0,6 0,7 0,8 0,9 83,87 84,40 85,06 85,67 84,75 84,75 85,34 85,58 86,65 85,58 82,53 83,55 84,52 86,08 84,17 Hình minh họa kết nhận dạng hàng cột tốt Điều hàng có khoảng cách đủ để nhận dạng Trong hình 8, mơ hình nhận dạng thiếu hàng nhiều Áp dụng kỹ thuật kéo dãn ảnh kết thực nghiệm nhận dạng tốt hình Sau kết nhận dạng cụ thể: Hình Kết nhận dạng hàng cột tốt Tạp chí Khí tượng Thủy văn 2021, 727, 1-12; doi:10.36335/VNJHM.2021(727).1-12 Hình Bảng nhận thiếu hàng Hình Bảng nhận đủ hàng sau thực phép kéo dãn 3.2.2 Kết nhận dạng ô bảng Sau đó, nghiên cứu tiến hành thực nghiệm việc nhận dạng ô với cột kết hợp chúng lại với Bảng 4, thể kết nhận dạng ô với tập liệu cột Bảng Kết nhận dạng cell Mơ hình Faster R–CNN IoU 0,6 0,7 0,8 0,9 88,52 88,60 88,60 88,82 WAvg 88,63 Tạp chí Khí tượng Thủy văn 2021, 727, 1-12; doi:10.36335/VNJHM.2021(727).1-12 Dưới số kết thực nghiệm nhận dạng cấu trúc bảng từ đầu đến cuối Qua trình xử lý gồm: phát hàng, cột phát cell bảng Qua kết thực nghiệm, thuật tốn có khả nhận dạng cấu trúc bảng tương đối tốt Theo bảng 10, ô nhận dạng xác bảng đại, đặc biệt với chữ viết tay Bảng 11, bảng đại với chữ đánh máy, kết nhận dạng xác Bảng 12, bảng vẽ tay có tính chất lịch sử, chữ viết tay, nhận dạng xác Bảng 13, bảng lịch sử, giấy có vết gập, chữ viết tay đánh máy, thuật toán cho phép ta xác định xác Bảng 10 Kết nhận dạng cấu trúc bảng kết đo lưu lượng máy ADCP Bảng 11 Kết nhận dạng cấu trúc bảng đo xạ Tạp chí Khí tượng Thủy văn 2021, 727, 1-12; doi:10.36335/VNJHM.2021(727).1-12 Bảng 12 Kết nhận dạng bảng kiểm tra Q lịch sử viết tay Bảng 13 Kết nhận dạng bảng trắc đồ ngang 10 Tạp chí Khí tượng Thủy văn 2021, 727, 1-12; doi:10.36335/VNJHM.2021(727).1-12 11 Kết luận Nghiên cứu đề xuất thuật tốn nhận dạng cấu trúc bảng dựa mơ hình Cascade mask R–CNN x101FPN deconv để nhận dạng hàng cột, sau sử dụng mơ hình Faster R– CNN để nhận dạng bảng từ đưa cấu trúc bảng Thuật toán cho thấy hiệu cao nhận dạng cấu trúc bảng với gần 90% độ xác Trong thời gian tới, báo tiếp tục nghiên cứu phát triển thuật toán thông tin hàng để nâng cao kết nhận dạng Đồng thời tiếp tục thử nghiệm liệu khác KTTV để ứng dụng tốt thực tế Đóng góp tác giả: Xây dựng ý tưởng nghiên cứu: H.H.P., N.D.D., P.L.P.; Lựa chọn phương pháp nghiên cứu: H.H.P., N.D.D.; Xử lý số liệu: N.D.D.; Phân tích mẫu: N.D.D.; Lấy mẫu: H.H.P., P.L.P.; Viết thảo báo: H.H.P., N.D.D.; Chỉnh sửa báo: H.H.P., N.D.D., P.L.P Lời cam đoan: Tập thể tác giả cam đoan báo cơng trình nghiên cứu tập thể tác giả, chưa công bố đâu, không chép từ nghiên cứu trước đây; khơng có tranh chấp lợi ích nhóm tác giả Tài liệu tham khảo Pyreddy, P.; Croft, W.B Tinti: A system for retrieval in text tables title2 Technical report, USA, 1997 Schreiber, S.; Agne, S.; Wolf, I.; Dengel, A.; Ahmed, S DeepDeSRT: deep learning for detection and structure recognition of tables in document images Proceeding of the14th IAPR International Conference on Document Analysis and Recognition (ICDAR), 2017 Ren, S.; He, K.; Girshick, R.; Sun, J Faster R–CNN: Towards real–time object detection with region proposal networks IEEE Trans Pattern Anal Mach Intell 2015, 39, 1137–1149 Dai, J.; Li, Y.; He, K.; Sun, J R–FCN: Object detection via region–based fully convolutional networks Proceeding of the 30th Conference on Neural Information Processing Systems (NIPS 2016), Barcelona, Spain, 2016, 379–387 Marmot Dataset Institute of Computer Science and Techonology of Peking University and Institute of Digital Publishing of Founder R&D Center, China, http://www.icst.pku.edu.cn/cpdp/data/ marmot_data.htm, 2010 Göbel, M.; Hassan, T.; Oro, E.; Orsi, G ICDAR 2013 Table Competition Proceeding of the 12th International Conference on Document Analysis and Recognition, 2013, 1449–1453 Siddiqui, S.A.; Fateh, I.A.; Rizvi, S.T.R.; Dengel, A.; Ahmed, S DeepTabStR: Deep Learning based Table Structure Recognition International Conference on Document Analysis and Recognition (ICDAR), 2019, 1403–1409 Prasad, D.; Gadpal, A.; Kapadni, K.; Visave, M.; Sultanpure, K CascadeTabNet: An approach for end to end table detection and structure recognition from image–based documents IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2020 Gao, G.; Huang, Y.; Dejean, H.; Meunier, J.; Yan, Q.; Fang, Y.; Kleber, F.; Lang, E Icdar 2019 competition on table detection and recognition (ctdar) International Conference on Document Analysis and Recognition (ICDAR), 2019, 1510–1515 10 Li, M.; Cui, L.; Huang, S.; Wei, F.; Zhou, M.; Li, Z Tablebank: Table benchmark for image–based table detection and recognition Proceedings of the 12th Conference on Language Resources and Evaluation, 2020, 1918–1925 11 Girshick, R.; Donahue, J.; Darrell, T.; Malik, J Rich feature hierarchies for accurate object detection and semantic segmentation Proceedings of the IEEE conference on computer vision and pattern recognition, 2014 ISBN:978-1-4799-5118-5 Tạp chí Khí tượng Thủy văn 2021, 727, 1-12; doi:10.36335/VNJHM.2021(727).1-12 12 12 Girshick, R Fast R–CNN Proceedings of the IEEE international conference on computer vision, 2015 13 He, K.; Gkioxari, G.; Dollar, P.; Girshick, R Mask r–cnn ICCV IEEE 2017, 2980– 2988 14 Cai, Z.; Vasconcelos, N Cascade R–CNN: high quality object detection and instance segmentation IEEE Trans Pattern Anal Mach Intell 2019, 43, 1483–1498 15 Dai, J.; Qi, H.; Xiong, Y.; Li, Y.; Zhang, G.; Hu, H.; Wei, Y Deformable convolutional networks IEEE International Conference on Computer Vision (ICCV) 2017, 1, pp 1-3 16 He, K.; Zhang, X.; Ren, S.; Sun, J Deep residual learning for image recognition Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, 770–778 17 Lin, T.; Dollár, P.; Girshick, R.; He, K.; Hariharan, B.; Belongie, S Feature Pyramid Networks for Object Detection IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, 936–944, doi: 10.1109/CVPR.2017.106 18 Lin, T.Y.; Maire, M.; Belongie, S.; Hays, J.; Perona, P.; Ramanan, D.; Dollár, P.; Zitnick, C.L Microsoft coco: Common objects in context In: Fleet D., Pajdla T., Schiele B., Tuytelaars T (eds) Computer Vision – ECCV 2014 ECCV 2014 Lecture Notes in Computer Science, vol 8693 Springer, Cham 2014, pp 740–755 https://doi.org/10.1007/978-3-319-10602-1_48 19 Rezatofighi, H.; Tsoi, N.; Gwak, J.Y.; Sadeghian, A.; Reid, I.; Savarese, S Generalized intersection over union: A metric and a loss for bounding box regression Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp 658–666 20 Chen, K.; Wang, J.; Pang, J.; Cao, Y.; Xiong, Y.; Li, X.; Sun, S.; Feng, W.; Liu, Z.; Xu, J.; Zhang, Z.; Cheng, D.; Zhu, C.; Cheng, T.; Zhao, Q.; Li, B.; Lu, X.; Zhu, R.; Wu, Y.; Dai, J.; Wang, J.; Shi, J.; Ouyang, W.; Loy, C.C.; Lin, D Mmdetection: Open MMLab detection toolbox and benchmark CoRR, abs/1906.07155, 2019 Research and apply table structure recognition algorithm based on object detection Ngo Dai Duong1, Hai–Hong Phan1*, Pham Le Phuong2 Military Technical Academy, Viet Nam; hongpth@lqdtu.edu.vn; daiduong28789@hotmail.com Hydro–Meteorological Information and Data Center; phuongpl80@gmail.com Abstract: Table structure identification is an important issue in document digitization With the development of current deep learning techniques, the detection of tables has made great strides, while table structure identification still faces many difficulties due to complex table structure, especially with real data practice This article proposes a method to apply the Cascade mask model R–CNN x101FPN deconv to identify rows and columns The paper also proposes to use the Faster R–CNN model to identify the cells in the table, thereby giving out the table structure The proposed algorithm is evaluated on popular datasets such as TabStructDB and documents collected from Hydrometeorology stations The experimental results reached 90% accuracy on these datasets The algorithm is capable of effectively applying to the identification of the table structure of common documents; especially, the algorithm is capable of dealing with historical documents and handwriting, in accordance with the document characteristics of the hydrometeorology industry Since then, it contributes to the digitization of documents, storage and data retrieval of hydrometeorology industry Keywords: Structure table recognition; Cell recognition; Meteorological and hydrological ... nghiệm, thuật toán có khả nhận dạng cấu trúc bảng tương đối tốt Theo bảng 10, nhận dạng xác bảng đại, đặc biệt với chữ viết tay Bảng 11, bảng đại với chữ đánh máy, kết nhận dạng xác Bảng 12, bảng. .. để nhận dạng hàng cột bảng, từ xác định ô cấu trúc bảng Nghiên cứu [8] đề xuất mơ hình học sâu CascadeTabNet sử dụng để phát nhận dạng cấu trúc bảng từ đầu đến cuối Các thử nghiệm nghiên cứu. .. sử dụng mơ hình Faster R– CNN để nhận dạng ô bảng từ đưa cấu trúc bảng Thuật toán cho thấy hiệu cao nhận dạng cấu trúc bảng với gần 90% độ xác Trong thời gian tới, báo tiếp tục nghiên cứu phát

Ngày đăng: 08/12/2022, 16:25

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN