1. Trang chủ
  2. » Cao đẳng - Đại học

ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu

62 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 62
Dung lượng 3,16 MB

Nội dung

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MÈM TRƯƠNG DIỆU LINH BÁO CÁO ĐỒ ÁN PHÁT HIỆN BẢNG TRONG TÀI LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP HỌC SÂU Table Detection in Document Image Using Deep Learning KỸ SƯ NGÀNH CƠNG NGHỆ PHẦN MỀM TP HỒ CHÍ MINH, 2021 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM TRƯƠNG DIỆU LINH – 17520691 BÁO CÁO ĐỒ ÁN PHÁT HIỆN BẢNG TRONG TÀI LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP HỌC SÂU Table Detection in Document Image Using Deep Learning KỸ SƯ NGÀNH CÔNG NGHỆ PHẦN MỀM GIẢNG VIÊN HƯỚNG DẪN NGUYỄN TẤN TRẦN MINH KHANG TP HỒ CHÍ MINH, 2021 NHẬN XÉT CỦA GIẢNG VIÊN ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… ………………………………………………………………………………… LỜI CẢM ƠN Để hoàn thành khóa luận này, lời đầu tiên, tơi xin chân thành cảm ơn sâu sắc đến thầy TS Nguyễn Tấn Trần Minh Khang – giảng viên hướng dẫn môn đồ án lần Thầy quan tâm, lo lắng, nhắc nhở hỗ trợ suốt q trình thực đồ án mơn học Thầy người truyền cảm hứng giúp định hướng đường học tập nghiên cứu khoa học Đồng thời, xin gửi lời cảm ơn đến thầy ThS Võ Duy Nguyên giúp đỡ, hướng dẫn tận tình, sửa chữa đóng góp nhiều ý kiến q báu giúp tơi hồn thành thật tốt báo cáo mơn học Bên cạnh đó, tơi xin gửi lời cảm ơn chân thành đến em, bạn, anh chị nhóm nghiên cứu ln đồng hành, giúp đỡ động viên suốt q trình tơi thực đồ án Tơi xin chân thành cảm ơn tập thể quý thầy cô trường Đại học Cơng nghệ Thơng tin nói chung đặc biệt quý thầy cô khoa Công nghệ Phần mềm, phịng thí nghiệm Truyền thơng Đa phương tiện MMLab nói riêng truyền đạt kiến thức cho tơi suốt q trình tơi học tập trường Cuối cùng, muốn gửi lời cảm ơn chân thành đến bố mẹ người thân gia đình – người động viên, giúp đỡ, tạo điều kiện niềm cảm hứng chặng đường Trong trình làm đồ án mơn học, dù có hồn chỉnh đến đâu giới hạn kiến thức khơng tránh khỏi sai sót, hạn chế đề tài Tôi mong nhận góp ý quý thầy bạn để hồn thiện Một lần nữa, tơi xin chân thành cảm ơn! Sinh viên thực Trương Diệu Linh TP.Hồ Chí Minh, ngày 15 tháng 01 năm 2021 MỤC LỤC Chương TỔNG QUAN ĐỀ TÀI 13 1.1 Động lực nghiên cứu 13 1.2 Mục tiêu đề tài 14 1.3 Phát biểu toán 15 1.4 Đối tượng phạm vi nghiên cứu 16 1.5 Nội dung thực 16 1.6 Kết đề tài 16 1.7 Cấu trúc báo cáo đề tài 17 Chương CÁC NGHIÊN CỨU LIÊN QUAN 18 2.1 Giới thiệu tổng quan 18 2.2 Computer Vision 20 2.2.1 Giới thiệu 20 2.2.2 Phân loại 20 2.2.3 Ứng dụng 21 2.3 Object Detection 22 2.3.1 Giới thiệu 22 2.3.2 Phân loại 23 2.3.3 Ứng dụng 24 2.4 Mô hình mạng học sâu 24 2.4.1 Mạng nơ-ron nhân tạo 24 2.4.2 Convolutional Neural Network 26 2.5 Region Proposal Network 30 2.6 Feature Pyramid Network 31 2.7 Mơ hình phát đối tượng R-CNN 32 2.7.1 Tổng quan 32 2.7.2 R-CNN 32 2.8 Mơ hình phát đối tượng YOLO 33 2.8.1 Tổng quan 33 2.8.2 YOLOv1 34 2.8.3 YOLOv2 35 2.8.4 YOLOv3 37 2.8.5 YOLOv4 38 2.8.6 Loss Function 40 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ 41 3.1 Mô tả tập liệu thực nghiệm 41 3.1.1 Bộ liệu huấn luyện 41 3.1.2 Giới thiệu lớp đối tượng 42 3.1.3 Đặc điểm lớp đối tượng liệu 43 3.2 Mơ tả quy trình thực nghiệm 44 3.2.1 Thu thập tiền xử lý liệu 45 3.2.2 Cài đặt môi trường huấn luyện 45 3.2.3 Cài đặt tham số cho trình huấn luyện 46 3.2.4 Tiến hành huấn luyện model 47 3.3 Phương pháp đánh giá 48 3.3.1 Intersection over Union (IoU) 48 3.3.2 Average Precision (AP) 49 3.3.3 Mean Average Precision (mAP) 51 3.4 Đánh giá mơ hình 51 3.5 Kết 51 3.5.1 Trực quan hóa kết 52 3.5.2 Đánh giá kết 54 3.5.3 Phân tích đánh giá 55 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 57 4.1 Kết luận 57 4.2 Khó khăn 57 4.3 Thuận lợi 57 4.4 Hướng phát triển 58 4.5 Demo sản phẩm ứng dụng thực tế 58 4.5.1 Demo sản phẩm 58 4.5.2 Môi trường phát triển triển khai phần mềm ứng dụng 59 DANH MỤC HÌNH Hình 1-1: Ảnh chứa đối tượng nghiên cứu đề tài Màu đỏ : bảng (table) ; màu xanh lá: ảnh (figure) ; màu xanh dương: thích (caption) 13 Hình 1-2: Đầu vào đầu toán phát bảng tài liệu dạng ảnh a) Ảnh đầu vào ; b) Ảnh đầu 16 Hình 2-1: Mối quan hệ AI, Machine Learning Deep Learning [13] 19 Hình 2-2: Sơ đồ mối liên hệ tác vụ computer vision 21 Hình 2-3: Ví dụ phân biệt kỹ thuật Computer Vision.[14] 23 Hình 2-4: Hình so sánh khác mơ hình one-stage two-stage.[18] 24 Hình 2-5: Hình nơ ron thần kinh [12] 25 Hình 2-6: Kiến trúc mạng nơ ron nhân tạo.[8] 25 Hình 2-7: Cấu trúc nốt mạng nơ-ron nhân tạo.[8] 26 Hình 2-8: Ý tưởng Local receptive fields mơ hình CNN.[9] 27 Hình 2-9: Kiến trúc tổng quan mơ hình CNN.[15] 28 Hình 2-10: Ví dụ tính tốn tầng tích chập với đầu vào 5x5, sử dụng hàm ReLU để tính tốn bước trượt cho lọc 28 Hình 2-11: Ví dụ phép tổng hợp lớn (maxpooling) cho đầu vào 5x5 lọc 3x3 với hai dạng bước trượt 29 Hình 2-12: Ví dụ phép tổng hợp trung bình (averagepooling) cho đầu vào 5x5 lọc 3x3 với hai dạng bước trượt 29 Hình 2-13: Model Region Proposal Network.[11] 30 Hình 2-14: Các mơ hình trích xuất đặc trưng.[10] 31 Hình 2-15: Kiến trúc mơ hình R-CNN.[5] 33 Hình 2-16: Hình minh họa hoạt động mơ hình one-stage (YOLO) [1] 35 Hình 2-17: Kiến trúc mơ hình YOLOv3.[17] 37 Hình 2-18: Kết so sánh đánh giá mơ hình phát đối tượng YOLOv4 với mơ hình state-of-the-art khác.[4] 38 Hình 2-19: Kiến trúc mơ hình object detection 39 Hình 2-20: Kiến trúc mạng Dense (DenseNet) [19] 39 Hình 3-1: Bảng phân chia liệu 41 Hình 3-2: Bảng phân phối lớp toàn tập liệu 42 Hình 3-3: Luồng xử lý trình cài đặt, chạy thực nghiệm với mơ hình YOLOv4 44 Hình 3-4: Cơng thức minh họa để tính IoU [16] 49 Hình 3-5: Precision and recall [20] 50 Hình 3-6: Biểu đồ thể giá trị độ lỗi sau vòng lặp độ đo mAP đánh giá trình huấn luyện tập liệu đánh giá (validation) 52 Hình 3-7: Ảnh kết dự đốn tốt tập liệu kiểm thử (test) a) ảnh đầu vào; b) ảnh dự đoán với iteration = 1000; c) ảnh dự đoán với iteration = 2000 53 Hình 3-8: Ảnh kết dự đốn xấu tập liệu kiểm thử (test) a) ảnh đầu vào; b) ảnh dự đoán với iteration = 1000; c) ảnh dự đoán với iteration = 2000 53 Hình 3-9: Biểu đồ phân phối lớp tập liệu huấn luyện 56 Hình 3-10: Biểu đồ phân phối lớp tập liệu kiểm thử 56 Hình 3-11: Biểu đồ phân phối lớp tập liệu kiểm thử 56 Hình 4-1: Phần giao diện app “table-detection” a) Màn hình chụp ảnh ; b) Màn hình chọn ảnh từ file ; c) Lịch sử ảnh dự đoán 58 DANH MỤC BẢNG Bảng 1-1: Bảng kết dự đoán dựa mơ hình YOLOv4 17 Bảng 03-1: Mơ tả ý nghĩa giá trị thuộc tính file annotations định dạng txt 45 Bảng 03-2: Bảng đánh giá kết dự đoán dựa mơ hình YOLOv4 51 !./darknet detector train yolo.data cfg/yolov4custom.cfg yolov4.conv.137 -dont_show -map Nếu gặp lỗi : • Kiểm tra phiên CUDA máy command sau: /usr/local/cuda/bin/nvcc –version • Sửa lỗi cách thêm command sau Lỗi gây đường dẫn CUDA không thêm cách đắn export PATH=/usr/local/cuda-//bin${PATH:+:${PATH}} export LD_LIBRARY_PATH=/usr/local/cuda-/lib${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}} 3.3 Phương pháp đánh giá 3.3.1 Intersection over Union (IoU) Intersection over Union (IoU) tiêu chuẩn tốt dùng để đánh giá overlap (trùng lắp) bouding boxes mơ hình phát đối tượng Để đánh giá độ đo IoU, ta cần giá trị sau: • Ground-truth bounding boxes: vị trí thực tế đối tượng • Predicted bounding boxes: vị trí dự đoán đối tượng sau model dự đoán 48 Hình 3-4: Cơng thức minh họa để tính IoU [16] Trong đó: • Area of Overlap vùng overlap (giao) ground-truth bounding boxes predicted bounding boxes • Area of Union vùng union (hợp) ground-truth bounding boxes predicted bounding boxes Kết IoU cho tốt >=0.5 3.3.2 Average Precision (AP) Chúng ta đánh giá mơ hình dựa việc thay đổi ngưỡng quan sát giá trị Precision Recall Khái niệm AP (Average Precision) định nghĩa dùng độ đo phổ biến việc đo lường độ xác mơ hình Object Detection Chúng ta tìm hiểu định nghĩa TP / FP / FN • TP (True Positive): số lượng điểm liệu model dự đốn • FP (False Positive): số lượng điểm liệu sai model dự đoán 49 • FN (False Negative): số lượng điểm liệu model dự đốn sai • TN (True Negative): số lượng điểm liệu sai model dự đốn Hình 3-5: Precision and recall [20] Theo cơng thức, Precision tỉ lệ model dự đốn tích cực với thực tế chia cho tỉ lệ model dự đốn tích cực với thực tế + tỉ lệ dự đoán tiêu cực sai với thực tế Nếu Precision cao đồng nghĩa với việc độ xác điểm tìm cao Recall tỉ lệ model dự đốn tích cực với thực tế chia cho tỉ lệ model dự đốn tích cực với thực tế + tỉ lệ dự đoán tiêu cực sai với thực tế Recall cao đồng nghĩa với việc tỉ lệ True Positive cao, tức tỉ lệ bỏ sót điểm thực Positive thấp Precision Recall nằm đoạn giá trị [0,1] Tuy nhiên ta dựa vào điểm Precision cao hay Recall cao để đánh giá mơ hình thật tốt, tốn giá trị có ý nghĩa riêng 50 3.3.3 Mean Average Precision (mAP) Mean Average Precision (mAP) trung bình điểm số AP (AP score) n class định nghĩa công thức sau: 𝑁 𝑚𝐴𝑃 = ∑ 𝐴𝑃𝑖 𝑁 𝑖=1 3.4 Đánh giá mơ hình • Tính giá trị mAP tồn tập test command sau: /darknet detector map yolo.data cfg/yolov4-custom.cfg backup/yolov4-custom_final.weights • Chạy kiểm thử tồn tập liệu lưu lại kết vào file txt: /darknet detector test yolo.data cfg/yolov4-custom.cfg backup/yolov4-custom_final.weights -ext_output dont_show -out result.json < data/test.txt 3.5 Kết Kết thúc phần huấn luyện, kết thu là: AP Iteration number mAP Table Figure Caption 1,000 37.09 33.82 67.44 10 2,000 20.92 17.52 32.85 12.38 Bảng 3-2: Bảng đánh giá kết dự đoán dựa mơ hình YOLOv4 51 3.5.1 Trực quan hóa kết Hình 3-6: Biểu đồ thể giá trị độ lỗi sau vòng lặp độ đo mAP đánh giá trình huấn luyện tập liệu đánh giá (validation) 52 • Trường hợp model dự đốn tốt (good case) Hình 3-7: Ảnh kết dự đoán tốt tập liệu kiểm thử (test) a) ảnh đầu vào; b) ảnh dự đoán với iteration = 1000; c) ảnh dự đốn với iteration = 2000 • Trường hợp model dự đốn xấu (bad case) Hình 3-8: Ảnh kết dự đoán xấu tập liệu kiểm thử (test) a) ảnh đầu vào; b) ảnh dự đoán với iteration = 1000; c) ảnh dự đoán với iteration = 2000 53 3.5.2 Đánh giá kết Từ kết thực nghiệm cho thấy mơ hình YOLOv4 cho kết thấp lớp Table Caption Sau thực trực quan hóa kết ảnh dự đốn tơi nhận thấy: • Về lớp đối tượng : o Table dễ bị dự đoán nhầm thành Figure tương quan cao hai đối tượng o Table dễ bị dự đoán nhầm có đường thẳng đầu báo cuối báo o Mặc dù phân phối lớp Caption chiếm tỉ lệ cao liệu lại đối tượng khó dự đốn nhất, khoảng 10% với 𝑖𝑡𝑒𝑟𝑎𝑡𝑖𝑜𝑛 = 1000 khoảng 12% 𝑖𝑡𝑒𝑟𝑎𝑡𝑖𝑜𝑛 = 2000 o Caption có vị trí bảng / hình bảng / hình nên mơ hình dự đốn khơng xác, dễ bị dự đoán nhầm thành tiêu đề, đề mục bên ảnh / table bị nhầm thành đoạn văn bên dưới, dẫn đến kết thấp o Đối tượng Figure cho kết dự đoán khoảng 39%, dễ bị dự đốn nhầm hình chụp trang giấy bị in nhòe ảnh từ trang sau • Về liệu: o Số lượng phân phối liệu cho lớp đối tượng Table, Figure, Caption không Figure chiếm đa số báo khoa học 54 o Chất lượng ảnh chụp bị ảnh hưởng chất lượng giấy bị in nhòe, nhiều yếu tố khác ảnh hưởng khiến cho mô hình khó dự đốn ảnh chụp tay thay ảnh chụp hình từ file pdf 3.5.3 Phân tích đánh giá Mặc dù trình huấn luyện, model YOLOv4 cho kết cao với độ xác gần 98% tập huấn luyện (trainning) tập đánh giá (validation) hình 03.6 Nhưng áp dụng dụng thực tiễn với ảnh gần thực tế hơn, lại cho độ xác thấp Theo tơi thấy, có nhiều ngun nhân dẫn đến điều số là: • Các ảnh huấn luyện khác với ảnh thực tế khía cạnh: độ phân giải, cường độ màu sắc, chất lượng ảnh, độ to nhỏ, chiều, hướng… đối tượng ảnh • Bộ liệu huấn luyện chưa đại diện cho tồn lớp đối tượng huấn luyện • Phân phối tập liệu huấn luyện khác nhiều so với thực tế Trong tập huấn luyện, số lượng table nhiều số lượng lớp figure, số lượng table chiếm 50% số lượng lớp caption Thì tập kiểm thử (test), lớp đối tượng table chiếm 30% so với figure gần 20% so với lớp caption Chi tiết phân phối lớp đối tượng hình 3-9, 3-10, 3.11 55 Trainning Dataset 3000 2430 2500 2000 1500 1303 1157 1000 500 table figure caption Hình 3-9: Biểu đồ phân phối lớp tập liệu huấn luyện Test Dataset 1000 906 800 711 600 400 219 200 table figure caption Hình 3-10: Biểu đồ phân phối lớp tập liệu kiểm thử Validation Dataset 1400 1260 1200 1000 800 731 537 600 400 200 table figure caption Hình 3-11: Biểu đồ phân phối lớp tập liệu kiểm thử 56 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 4.1 Kết luận Trong đề tài này, chúng tơi hồn thành mục tiêu đặt ra: • Hiểu trình thu thập, gán nhãn liệu, thấy thuận lợi khó khăn thực nghiệm liệu • Tìm hiểu tốn Object Detection • Tiến hành nghiên cứu thuật tốn bản: CNN, YOLO,… • Cài đặt model môi trường colab, máy local biết cách điều chỉnh tham số model • Đánh giá kết dựa độ đo AP, IoU,… • Xây dựng phần giao diện cho ứng dụng table-detection với chức năng: o Chọn load ảnh từ thư viện ảnh o Chụp hình (chưa ổn định) o Danh sách lịch sử ảnh 4.2 Khó khăn • Tìm hiểu cách hoạt động tốn Object Detection cịn gặp nhiều khó khăn chưa có đủ kiến thức tảng • Việc luyện liệu YOLOv4 tốn nhiều thời gian gặp số khó khăn thiết lập cấu hình chạy thực nghiệm • Kết thực nghiệm chưa đạt mong đợi 4.3 Thuận lợi • Trong suốt q trình tìm hiểu, tơi nhận nhiều giúp đỡ thầy, anh chị, em nhóm nghiên cứu hỗ trợ 57 • Qúa trình thực nghiệm nhận hỗ trợ sử dụng GPU phòng MMLab giúp giảm tối đa thời gian huấn luyện 4.4 Hướng phát triển Một số hướng phát triển cho đồ án bao gồm: • Mở rộng liệu với nhiều lớp đối tượng văn • Tìm hiểu phương pháp để tăng cường liệu (data augumentation) • Thống kê lỗi, tìm cách giải để cải thiện mơ hình • Tiếp tục tìm hiểu cài đặt thêm thuật tốn OD khác để tìm phương pháp đạt kết tốt • Tiếp tục xây dựng phần back-end kết nối sở liệu cho phần mềm table-detection 4.5 Demo sản phẩm ứng dụng thực tế 4.5.1 Demo sản phẩm • Front-end: React Native Hình 4-1: Phần giao diện app “table-detection” a) Màn hình chụp ảnh ; b) Màn hình chọn ảnh từ file ; c) Lịch sử ảnh dự đoán 58 4.5.2 Môi trường phát triển triển khai phần mềm ứng dụng • Link demo app: https://github.com/Liinhleo/table-detection-app • Link model phát bảng: https://github.com/Liinhleo/table-detectionmodel • Environment: Android 10 (Android Pie) • Bộ nhớ trống tối thiểu để cài đặt phần mềm: 500MB TÀI LIỆU THAM KHẢO 59 [1] Redmon J, Divvala S, Girshick R, et al “You only look once: Unified, realtime object detection” [C]//Proceedings of the IEEE conference on computer vision and pattern recognition 2016: 779-788 [2] Redmon J, Farhadi A “YOLO9000: better, faster, stronger” [C]//Proceedings of the IEEE conference on computer vision and pattern recognition 2017: 7263-7271 [3] Redmon J, Farhadi A Yolov3: An incremental improvement[J] arXiv preprint arXiv:1804.02767, 2018 [4] Alexey Bochkovskiy, Chien-Yao Wang, Hong-Yuan Mark Liao “YOLOv4: Optimal Speed and Accuracy of Object Detection” 23 Apr 2020 :arXiv:2004.10934 [5] Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik “Rich feature hierarchies for accurate object detection and semantic segmentation”[C]// The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014, pp 580-587 [6] Y LeCun, Y Bengio, and G Hinton, "Deep learning," NATURE, vol 521, no.7553, pp 436-444, 2015 [7] Vaibhaw Singh Chandel, “Selective Search for Object Detection (C++ / Python)” 18 09 2017 [Online] Available: https://www.learnopencv.com/selective-search-for-object-detection-cpppython/ [8] Arden Dertat, "Applied Deep Learning - Part 1: Artificial Neural Networks," 08 08 2017 [Online] Available: https://towardsdatascience.com [9] Oleksii Sheremet, “Intersection over union (IoU) calculation for evaluating an image segmentation model 60 ”Jul 25 2020 [Online] Available:https://towardsdatascience.com/intersection-over-union-ioucalculation-for-evaluating-an-image-segmentation-model-822e2e84686 [10] Tsung-Yi Lin, Piotr Dollar , Ross Girshick , Kaiming He, Bharath Hariharan , and Serge Belongie, “Feature Pyramid Networks for Object Detection” [C]//Proceedings of the IEEE conference on computer vision and pattern recognition 2017: 1063-6919 [11] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun, “Faster RCNN: Towards Real-Time Object Detection with Region Proposal Networks” [C]//Proceedings of the IEEE conference on computer vision and pattern recognition arXiv:1506.01497v3, 2016 [12] Stanford CS class CS231n: Convolutional Neural Networks for Visual Recognition, “Neural Networks Part 1: Setting up the Architecture ” [Online] Available: https://cs231n.github.io/neural-networks-1/ [13] Michael Copeland, “What’s the Difference Between Artificial Intelligence, Machine Learning and Deep Learning?” , July 29, 2016 [Online] Available:https://blogs.nvidia.com/blog/2016/07/29/whats- difference-artificial-intelligence-machine-learning-deep-learning-ai/ [14] Arthur Ouaknine, “Review of Deep Learning Algorithms for Object Detection”, Feb 5, 2018 [Online] Available: https://medium0.com/zylapp/review-of-deep-learning-algorithms-forobject-detection-c1f3d437b852 [15] Prabhu, “Understanding of Convolutional Neural Network (CNN) — Deep Learning” , Mar 4, 2018 [Online] Available: https://medium0.com/@RaghavPrabhu/understanding-of-convolutionalneural-network-cnn-deep-learning-99760835f148 [16] Adrian Rosebrock , “Intersection over Union (IoU) for object detection”, 2016 [Online] 61 Available: https://www.pyimagesearch.com/2016/11/07/intersection-over-union-ioufor-object-detection/ [17] Paolo F Valdez, “Apple defect detection using deep learning-based object detection for better post har-vest handling”, ICLR Conference, arXiv:2005.06089, May 2020 [18] Patrick Poirson, Phil Ammirato,… “Fast Single Shot Detection and Pose Estimation” 2016 Fourth International Conference on 3D Vision, (3DV) – IEEE, arXiv:1609.05590v, Sep 2016 [19] Gao Huang, Zhuang Liu, Laurens van der Maaten, Kilian Q Weinberger , “Densely Connected Convolutional Networks”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, arXiv:1608.06993, Jan 2018 62 ...ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM TRƯƠNG DIỆU LINH – 17520691 BÁO CÁO ĐỒ ÁN PHÁT HIỆN BẢNG TRONG TÀI LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP HỌC SÂU... tơi định thực đề tài phát bảng tài liệu dạng ảnh phương pháp học sâu, ứng dụng nghiên cứu, mơ hình tiếng từ báo giới để tìm giải pháp tối ưu việc phát nhận dạng bảng loại tài liệu khác bao gồm... đề tài • Nghiên cứu xử lý ảnh cho toán phát bảng tài liệu dạng ảnh • Nghiên cứu cài đặt thực nghiệm phương pháp YOLOv4 liệu xây dựng 14 • Xây dựng app demo ứng dụng thực tế cho phát bảng tài liệu

Ngày đăng: 05/09/2021, 20:46

HÌNH ẢNH LIÊN QUAN

09 AP Độ đo đánh giá mô hình Object Detection – Average Precision   - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
09 AP Độ đo đánh giá mô hình Object Detection – Average Precision (Trang 11)
Hình 1-1: Ảnh chứa các đối tượng nghiên cứu trong đề tài. Màu đỏ : bảng (table) ; màu xanh lá: ảnh (figure) ; màu xanh dương: chú thích (caption)  - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
Hình 1 1: Ảnh chứa các đối tượng nghiên cứu trong đề tài. Màu đỏ : bảng (table) ; màu xanh lá: ảnh (figure) ; màu xanh dương: chú thích (caption) (Trang 13)
• Xây dựng app demo ứng dụng thực tế cho phát hiện bảng trong tài liệu dạng ảnh với model đã huấn luyện - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
y dựng app demo ứng dụng thực tế cho phát hiện bảng trong tài liệu dạng ảnh với model đã huấn luyện (Trang 15)
o Bảng tổng hợp các kết quả thực nghiệm và nhận xét về model đã xây dựng được.  - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
o Bảng tổng hợp các kết quả thực nghiệm và nhận xét về model đã xây dựng được. (Trang 17)
Hình 2-1: Mối quan hệ giữa AI, Machine Learning và Deep Learning. [13] - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
Hình 2 1: Mối quan hệ giữa AI, Machine Learning và Deep Learning. [13] (Trang 19)
Hình 2-2: Sơ đồ các mối liên hệ giữa các tác vụ trong computer vision - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
Hình 2 2: Sơ đồ các mối liên hệ giữa các tác vụ trong computer vision (Trang 21)
Hình 2-3: Ví dụ phân biệt các kỹ thuật trong Computer Vision.[14] - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
Hình 2 3: Ví dụ phân biệt các kỹ thuật trong Computer Vision.[14] (Trang 23)
Hình 2-4: Hình so sánh sự khác nhau của mô hình one-stage và two-stage.[18] - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
Hình 2 4: Hình so sánh sự khác nhau của mô hình one-stage và two-stage.[18] (Trang 24)
Hình 2-5: Hình 1 nơ ron thần kinh. [12] - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
Hình 2 5: Hình 1 nơ ron thần kinh. [12] (Trang 25)
Hình 2-6: Kiến trúc mạng nơ ron nhân tạo.[8] - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
Hình 2 6: Kiến trúc mạng nơ ron nhân tạo.[8] (Trang 25)
Hình 2-7: Cấu trúc trong từng nốt của mạng nơ-ron nhân tạo.[8] - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
Hình 2 7: Cấu trúc trong từng nốt của mạng nơ-ron nhân tạo.[8] (Trang 26)
Hình 2-8: Ý tưởng Local receptive fields trong mô hình CNN.[9] - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
Hình 2 8: Ý tưởng Local receptive fields trong mô hình CNN.[9] (Trang 27)
Hình 2-9: Kiến trúc tổng quan của mô hình CNN.[15] - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
Hình 2 9: Kiến trúc tổng quan của mô hình CNN.[15] (Trang 28)
Hình 2-13: Model Region Proposal Network.[11] - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
Hình 2 13: Model Region Proposal Network.[11] (Trang 30)
2.6. Feature Pyramid Network - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
2.6. Feature Pyramid Network (Trang 31)
• Vùng đề xuất hình ảnh (Region proposal): Có tác dụng tạo và trích xuất các vùng đề xuất chứa vật thể được bao bởi các bounding box - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
ng đề xuất hình ảnh (Region proposal): Có tác dụng tạo và trích xuất các vùng đề xuất chứa vật thể được bao bởi các bounding box (Trang 33)
Hình 2-17: Kiến trúc mô hình YOLOv3.[17] - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
Hình 2 17: Kiến trúc mô hình YOLOv3.[17] (Trang 37)
Hình 2-18: Kết quả so sánh đánh giá mô hình phát hiện đối tượng YOLOv4 với các mô hình state-of-the-art khác.[4]  - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
Hình 2 18: Kết quả so sánh đánh giá mô hình phát hiện đối tượng YOLOv4 với các mô hình state-of-the-art khác.[4] (Trang 38)
Hình 2-19: Kiến trúc mô hình object detection - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
Hình 2 19: Kiến trúc mô hình object detection (Trang 39)
Hình 3-1: Bảng phân chia bộ dữ liệu - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
Hình 3 1: Bảng phân chia bộ dữ liệu (Trang 41)
Hình 3-2: Bảng phân phối các lớp của toàn bộ tập dữ liệu - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
Hình 3 2: Bảng phân phối các lớp của toàn bộ tập dữ liệu (Trang 42)
o yolov4-custom.cf g: file cấu hình. - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
o yolov4-custom.cf g: file cấu hình (Trang 47)
Hình 3-4: Công thức minh họa để tính IoU. [16] Trong đó:   - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
Hình 3 4: Công thức minh họa để tính IoU. [16] Trong đó: (Trang 49)
Hình 3-5: Precision and recall [20] - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
Hình 3 5: Precision and recall [20] (Trang 50)
3.4. Đánh giá mô hình - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
3.4. Đánh giá mô hình (Trang 51)
Hình 3-7: Ảnh kết quả dự đoán tốt trên tập dữ liệu kiểm thử (test) a) ảnh đầu vào; b) ảnh dự đoán với iteration = 1000; c)  ảnh dự đoán với iteration = 2000  - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
Hình 3 7: Ảnh kết quả dự đoán tốt trên tập dữ liệu kiểm thử (test) a) ảnh đầu vào; b) ảnh dự đoán với iteration = 1000; c) ảnh dự đoán với iteration = 2000 (Trang 53)
Hình 3-8: Ảnh kết quả dự đoán xấu trên tập dữ liệu kiểm thử (test) a) ảnh đầu vào; b) ảnh dự đoán với iteration = 1000; c)  ảnh dự đoán với iteration = 2000  - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
Hình 3 8: Ảnh kết quả dự đoán xấu trên tập dữ liệu kiểm thử (test) a) ảnh đầu vào; b) ảnh dự đoán với iteration = 1000; c) ảnh dự đoán với iteration = 2000 (Trang 53)
Hình 3-10: Biểu đồ phân phối các lớp của tập dữ liệu kiểm thử - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
Hình 3 10: Biểu đồ phân phối các lớp của tập dữ liệu kiểm thử (Trang 56)
Hình 3-9: Biểu đồ phân phối các lớp của tập dữ liệu huấn luyện - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
Hình 3 9: Biểu đồ phân phối các lớp của tập dữ liệu huấn luyện (Trang 56)
Hình 4-1: Phần giao diện của app “table-detection”. a) Màn hình chính chụp ảnh ; b) Màn hình chọn ảnh từ file ; c) Lịch sử ảnh dự đoán  - ĐỒ án PHÁT HIỆN BẢNG TRONG tài LIỆU DẠNG ẢNH BẰNG PHƯƠNG PHÁP học sâu
Hình 4 1: Phần giao diện của app “table-detection”. a) Màn hình chính chụp ảnh ; b) Màn hình chọn ảnh từ file ; c) Lịch sử ảnh dự đoán (Trang 58)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN