1. Trang chủ
  2. » Cao đẳng - Đại học

Phát hiện đối tượng trong ảnh tài liệu dựa trên phương pháp học sâu

106 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MÈM TRƯƠNG DIỆU LINH KHÓA LUẬN TỐT NGHIỆP PHÁT HIỆN ĐỐI TƯỢNG TRONG ẢNH TÀI LIỆU DỰA TRÊN PHƯƠNG PHÁP HỌC SÂU Page Object Detection Based On Deep Learning KỸ SƯ NGÀNH CƠNG NGHỆ PHẦN MỀM TP HỒ CHÍ MINH, 2021 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM TRƯƠNG DIỆU LINH – 17520691 KHÓA LUẬN TỐT NGHIỆP PHÁT HIỆN ĐỐI TƯỢNG TRONG ẢNH TÀI LIỆU DỰA TRÊN PHƯƠNG PHÁP HỌC SÂU Page Object Detection Based On Deep Learning KỸ SƯ NGÀNH CÔNG NGHỆ PHẦN MỀM GIẢNG VIÊN HƯỚNG DẪN TS NGUYỄN TẤN TRẦN MINH KHANG TP HỒ CHÍ MINH, 2021 THƠNG TIN HỘI ĐỒNG CHẤM KHĨA LUẬN TỐT NGHIỆP Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số …………………… ngày ………………… Hiệu trưởng Trường Đại học Công nghệ Thông tin LỜI CẢM ƠN Để hồn thành khóa luận này, lời đầu tiên, xin chân thành cảm ơn sâu sắc đến thầy TS Nguyễn Tấn Trần Minh Khang – giảng viên hướng dẫn tơi khóa luận Thầy ln quan tâm, lo lắng, nhắc nhở hỗ trợ tơi suốt q trình thực khóa luận Thầy người truyền cảm hứng giúp định hướng đường học tập nghiên cứu khoa học Đồng thời, xin gửi lời cảm ơn đến thầy ThS Võ Duy Nguyên giúp đỡ, hướng dẫn tận tình, sửa chữa đóng góp nhiều ý kiến q báu giúp tơi hồn thành thật tốt báo cáo khóa luận Bên cạnh đó, tơi xin gửi lời cảm ơn chân thành đến em, bạn, anh chị nhóm nghiên cứu ln đồng hành, giúp đỡ động viên suốt trình tơi thực khóa luận Tơi xin chân thành cảm ơn tập thể quý thầy cô trường Đại học Cơng nghệ Thơng tin nói chung đặc biệt quý thầy cô khoa Công nghệ Phần mềm, phịng thí nghiệm Truyền thơng Đa phương tiện MMLab nói riêng truyền đạt kiến thức, hỗ trợ cho suốt q trình tơi học tập trường Cuối cùng, muốn gửi lời cảm ơn chân thành đến bố mẹ người thân gia đình tơi – người ln động viên, giúp đỡ, tạo điều kiện niềm cảm hứng tơi chặng đường Trong q trình thực khóa luận, dù có hồn chỉnh đến đâu giới hạn kiến thức khơng tránh khỏi sai sót, hạn chế đề tài Tôi mong nhận góp ý quý thầy bạn để hồn thiện Một lần nữa, tơi xin chân thành cảm ơn! Sinh viên thực Trương Diệu Linh TP.Hồ Chí Minh, ngày 20 tháng 06 năm 2021 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN ĐỀ CƯƠNG CHI TIẾT TÊN ĐỀ TÀI TIẾNG VIỆT: Phát đối tượng ảnh tài liệu dựa phương pháp học sâu TÊN ĐỀ TÀI TIẾNG ANH: Page Object Detection Based On Deep Learning Cán hướng dẫn: TS Nguyễn Tấn Trần Minh Khang Thời gian thực hiện: Từ ngày 01/03/2021 đến ngày 20/06/2021 Sinh viên thực hiện: Trương Diệu Linh – 17520691 Nội dung đề tài ● Động lực nghiên cứu: Sự phát triển mạnh mẽ điện thoại thông minh máy quét khiến cho nhu cầu lưu trữ tài liệu định dạng PDF (Portable Document Format) dạng ảnh chụp trở nên phổ biến tiện lợi mà mang lại Các tài liệu PDF hay tài liệu ảnh chụp điện thoại cơng cụ hữu ích giúp lưu trữ thông tin quan trọng để dễ trao đổi trích xuất Mặc dù tài liệu PDF, dạng ảnh giúp giữ nguyên yếu tố văn ký tự, đường kẻ, phơng chữ, hình ảnh, v.v nhiên lại định dạng mà máy móc đọc hiểu Trong việc trích xuất liệu phương pháp thủ công lại tốn nhân lực, thời gian, chi phí… Đứng trước thời đại bùng nổ Big Data, AI, việc số hóa liệu tự động vô quan trọng, cấp thiết trở thành thách thức lớn cho nhiều ngành công nghiệp giới… Trong đó, trở ngại lớn việc đọc hiểu tài liệu ảnh (Document Image Understanding) việc phát nhận dạng đối tượng trang (Page Object Detection – bao gồm bảng, hình ảnh, thích, cơng thức…từ hình ảnh tài liệu) Đây nhiệm vụ high-level cho việc trích xuất, tóm tắt truy vấn liệu sau ● Mục tiêu đề tài: o Nghiên cứu xử lý ảnh cho toán phát đối tượng ảnh tài liệu o Khảo sát liệu cho toán phát đối tượng ảnh tài liệu giới o Xây dựng liệu ảnh tài liệu khoa học tiếng Việt đa dạng gồm PDF, tài liệu scan, ảnh scan điện thoại o Nghiên cứu cài đặt thực nghiệm phương pháp học sâu dựa dự liệu xây dựng so sánh phương pháp sử dụng o Đề xuất số phương pháp cải thiện kết thực nghiệm o Xây dựng demo với phương pháp cài đặt o Tổng hợp kết viết báo cáo ● Đối tượng phạm vi nghiên cứu: o Ảnh PDF scan báo khoa học tiếng Việt o File nhãn ảnh gồm lớp đối tượng: table, figure, caption, formula o Phương pháp thực nghiệm: Nghiên cứu phương pháp học sâu “state-of-the-art” cho toán phát đối tượng ● Phương pháp thực hiện: o Khảo sát, tìm hiểu tổng quan toán Phát đối tượng tài liệu dạng ảnh từ nghiên cứu giới o Tiến hành thu thập gán nhãn cho liệu ảnh tài liệu khoa học tiếng Việt o Nghiên cứu cài đặt thực nghiệm phương pháp học sâu dựa liệu xây dựng so sánh phương pháp sử dụng o Nghiệm thu kết quả, đánh giá, phân tích kết mơ hình thực nghiệm để đề xuất cải tiến mơ hình o Tổng hợp viết báo cáo o Xây dựng demo với phương pháp tốt ● Kết mong đợi: o Xây dựng thành công liệu chuẩn dựa vào liệu ICDAR2019, Mamot, DocBank … o Tài liệu khảo sát, phân tích tốn dựa nghiên cứu liệu có o Tài liệu tổng hợp toán, phương pháp học sâu tiên tiến o Tài liệu chi tiết cách cài đặt môi trường, chi tiết thay đổi tham số, cải tiến kết so với tham số mặc định o Bảng báo cáo tổng hợp kết thực nghiệm, đánh giá nhận xét model xây dựng o Báo cáo đánh giá, phân tích thực nghiệm với phương pháp “state-of-the-art” liệu xây dựng Kế hoạch thực hiện: ● Giai đoạn 1: Từ 03/2020 – 04/2020 o Khảo sát tình hình nghiên cứu toán “Phát đối tượng tài liệu dạng ảnh” từ nghiên cứu có o Khảo sát chạy thử phương pháp thực nghiệm đề xuất o Tổng hợp kết khảo sát tiến hành đánh giá, lựa chọn phương hướng ● Giai đoạn 2: Từ 04/2020 – 05/2020 o Tìm hiểu liệu chuẩn ICDAR2017, ICDAR2019, Marmot… để tiến hành phân tích, thu thập, gán nhãn liệu ảnh tài liệu khoa học tiếng Việt o Nghiên cứu phương pháp học sâu lĩnh vực xử lý ảnh o Tiến hành cài đặt, thử nghiệm phương pháp dựa liệu xây dựng o Xây dựng demo với mơ hình đạt kết tốt ● Giai đoạn 3: Từ 05/2020 – 20/06/2020 o Tổng hợp kết thực nghiệm, nhận xét, phân tích so sánh kết đạt được, viết báo cáo o Hoàn thiện sản phẩm demo Xác nhận CBHD TP.HCM, ngày 10 tháng 03 năm 2021 (Ký tên ghi rõ họ tên) Sinh viên (Ký tên ghi rõ họ tên) TS Nguyễn Tấn Trần Minh Khang Trương Diệu Linh MỤC LỤC Chương TỔNG QUAN ĐỀ TÀI 1.1 Động lực nghiên cứu 1.2 Phát biểu toán 1.3 Các thách thức .4 1.4 Mục tiêu phạm vi nghiên cứu 1.5 Đóng góp khóa luận .6 1.6 Cấu trúc báo cáo đề tài Chương CÁC NGHIÊN CỨU LIÊN QUAN 2.1 Phát đối tượng 2.1.1 Giới thiệu 2.1.2 Phân loại 2.1.3 Ứng dụng 10 2.2 Các phương pháp rút trích đặc trưng ảnh 10 2.2.1 Phương pháp rút trích đặc trưng truyền thống 10 2.2.1.1 PCA 10 2.2.1.2 HOG .11 2.2.2 Phương pháp rút trích đặc trưng dựa học sâu 12 2.2.2.1 Mạng học sâu – DNN 12 2.2.2.2 Convolutional Neural Network - CNN 13 2.2.2.3 LeNet-5 14 2.2.2.4 VGG .15 2.2.2.5 ResNet 16 2.2.2.6 DenseNet 17 2.3 Các hướng tiếp cận liên quan tới toán 17 2.3.1 Hướng tiếp cận theo phương pháp truyền thống 18 2.3.2 Hướng tiếp cận theo phương pháp học sâu 18 2.4 Phương pháp phát đối tượng họ R-CNN .19 2.4.1 R-CNN 19 2.4.2 Fast R-CNN 21 2.4.3 Faster R-CNN .21 2.5 Phương pháp phát đối tượng họ YOLO .23 2.5.1 YOLOv1 .23 2.5.2 YOLOv2 .24 2.5.3 YOLOv3 .26 2.5.4 YOLOv4 .27 2.5.5 YOLOv4x-mish 28 2.6 Phương pháp phát đối tượng CascadeTabNet .30 Chương XÂY DỰNG BỘ DỮ LIỆU PHÁT HIỆN ĐỐI TƯỢNG TRONG ẢNH TÀI LIỆU TIẾNG VIỆT 32 3.1 Khảo sát liệu 32 3.1.1 Khảo sát 32 3.1.2 Lý xây dựng liệu 34 3.2 Thu thập tiền xử lý 36 3.2.1 Thu thập liệu 36 3.2.2 Tiền xử lý liệu 37 3.3 Quy tắc tổ chức gán nhãn liệu 37 3.4 Quy trình thu thập gán nhãn 39 76 77 78 79 80 81 Bài báo khoa học nộp Hội nghị Khoa học Quốc gia “Nghiên cứu ứng dụng Công nghệ Thông tin” lần thứ XIV – FAIR'2021 82 83 84 85 86 87 88 PHỤ LỤC B – HƯỚNG DẪN CÀI ĐẶT Các yêu cầu hướng dẫn cài đặt ứng dụng Page Object Detection Cài đặt môi trường sử dụng dành cho nhà phát triển a Yêu cầu hệ thống • Hệ điều hành: Windows 10 64-bit: Pro, Enterprise, or Education (Build 16299 phiên hơn) o 64-bit processor (được đề xuất) o 8GB RAM trở lên (được đề xuất) b Cài đặt tiên • Chocolatey: https://chocolatey.org/ • NodeJS (v12 hơn) : https://nodejs.org/en/ • Java SE Development Kit (JDK): https://openjdk.java.net/projects/jdk8/ • Android Studio: Android SDK, Android SDK Platform, Android Virtual Device (Android 10 trở lên) (https://developer.android.com/studio) • Cài đặt biến môi trường để chạy ứng dụng với mã nguồn native c Hướng dẫn cài đặt bước • Tải mã nguồn đính kèm khóa luận • Giải nén làm theo dẫn bên • Mở terminal repo pod-mobile chạy lệnh: npm install npm start • Mở thêm terminal chạy lệnh: npm run android • Nếu thiếu thư viện, sử dụng lệnh “pip install” để cài đặt thư viện 89 • Lấy IP server thay vào biến SERVER_URL file podmobile/constant.ts (Cú pháp: http://:5000) • Mở terminal repo pod-server chạy lệnh: python -m flask run – host=0.0.0.0 • Có thể sử dụng thiết bị Android (physical device) máy ảo (virtual device) Mở terminal sử dụng lệnh sau để kiểm tra thiết bị có sẵn adb devices Cài đặt mơi trường sử dụng dành cho người dùng a Yêu cầu hệ thống • Hệ điều hành: Android 10 trở lên • Yêu cầu phần cứng: o Bộ nhớ trống tối thiểu 200MB (được đề xuất) o RAM > 4GB (được đề xuất) b Hướng dẫn cài đặt bước • Tải mã nguồn đính kèm khóa luận • Mở terminal repo pod-server chạy lệnh: python -m flask run – host=0.0.0.0 • Trên thiết bị Android (Physical device), tải file apk đính kèm khóa luận • Sau tải xong, nhấn chọn “cài đặt” (install) để cài đặt phần mềm máy • Sau cài đặt thành công, chọn mở phần mềm cấp quyền sử dụng để bắt đầu sử dụng 90 ... xử lý ảnh cho toán phát đối tượng ảnh tài liệu o Khảo sát liệu cho toán phát đối tượng ảnh tài liệu giới o Xây dựng liệu ảnh tài liệu khoa học tiếng Việt đa dạng gồm PDF, tài liệu scan, ảnh scan... thực đề tài ? ?Phát đối tượng tài liệu dạng ảnh phương pháp học sâu? ?? 1.2 Phát biểu toán Phát đối tượng tài liệu dạng ảnh toán nhận nhiều quan tâm Nhằm thúc đẩy nhà nghiên cứu tìm phương pháp tốt... dựng liệu ảnh tài liệu khoa học tiếng Việt giới – UIT-DODV Trình bày phương pháp phát đối tượng ảnh dựa học sâu bao gồm phương pháp họ R-CNN, họ YOLO CascadeTabNet Thực huấn luyện phương pháp liệu

Ngày đăng: 05/09/2021, 20:54

Xem thêm:

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w