Microsoft Word LV THS TRANG 3 docx i LỜI CAM ĐOAN Sau quá trình học tập tại Trƣờng Đại học Quy Nhơn, với những kiến thức lý thuyết và thực hành đã tích lũy đƣợc, với việc vận dụng các kiến thức vào th[.]
i LỜI CAM ĐOAN Sau trình học tập Trƣờng Đại học Quy Nhơn, với kiến thức lý thuyết thực hành tích lũy đƣợc, với việc vận dụng kiến thức vào thực tế, tự nghiên cứu tài liệu, cơng trình nghiên cứu, đồng thời có phân tích, tổng hợp, đúc kết phát triển để hoàn thành luận văn thạc sĩ mình, Tơi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chƣa đƣợc cơng bố cơng trình khác Tác giả Lê Minh Nhật ii LỜI CẢM ƠN Để hồn thành đề tài luận văn thạc sĩ, tơi xin tỏ lòng biết ơn sâu sắc Thầy, Cô Trƣờng Đại học Quy Nhơn, đặc biệt Thầy, Cô Khoa Công nghệ Thông tin tận tình truyền đạt kiến thức quý báu nhƣ tạo điều kiện thuận lợi cho suốt trình học tập, nghiên cứu thực đề tài luận văn Đặc biệt, xin gửi đến giáo viên hƣớng dẫn TS Lê Xuân Vinh tận tình hƣớng dẫn, giúp đỡ tơi hồn thành luận văn với lời cảm ơn sâu sắc Cuối cùng, xin chân thành cảm ơn đến anh, chị em bạn đồng nghiệp hỗ trợ cho tơi nhiều suốt q trình học tập, nghiên cứu thực đề tài luận văn thạc sĩ cách hoàn chỉnh Quy Nhơn, ngày tháng năm 2022 Học viên thực Lê Minh Nhật ii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC ii DANH MỤC CÁC TỪ VIẾT TẮT v DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH vii LỜI MỞ ĐẦU 1 Lý chọn đề tài Tổng quan tình hình nghiên cứu đề tài Mục đích nhiệm vụ nghiên cứu Đối tƣợng phạm vi nghiên cứu Phƣơng pháp nghiên cứu Cấu trúc luận văn CHƢƠNG 1: CƠ SỞ LÝ THUYẾT 1.1 GIỚI THIỆU TỔNG QUAN 1.2 THỊ GIÁC MÁY TÍNH (COMPUTER VISION) 1.3 PHÁT HIỆN ĐỐI TƢỢNG (OBJECT DETECTION) 1.4 MẠNG NƠ-RON 1.5 MẠNG NƠ-RON TÍCH CHẬP (CONVOLUTIONAL NEURAL NETWORK) 12 1.5.1 Tổng quát 12 1.5.2 Lớp tích chập (Convolutional Layer) 13 1.5.3 Lớp tổng hợp (Pooling layer) 14 1.5.4 Lớp kết nối đầy đủ (Fully Connected Layer) 14 1.5.5 Hàm Softmax 15 iii 1.5.6 Lớp đầu 16 1.6 NHẬN DIỆN KÝ TỰ QUANG HỌC 16 1.6.1 Khái niệm 16 1.6.2 Cơ chế hoạt động 17 1.6.3 Nhận diện text (Text Recognition) 19 1.6.4 Tái cấu trúc (Restructing) 20 KẾT LUẬN CHƢƠNG 20 CHƢƠNG 2: THUẬT TOÁN PHÁT HIỆN ĐỐI TƢỢNG, CÔNG CỤ TESSRACT OCR 21 2.1 THUẬT TOÁN PHÁT HIỆN ĐỐI TƢỢNG 21 2.1.1 Mô hình RetinaNet 21 2.1.2 Mơ hình YOLO 23 2.2 CÔNG CỤ TESSERACT OCR 30 2.2.1 Khái quát 30 2.2.2 Cơ chế hoạt động 30 KẾT LUẬN CHƢƠNG 32 CHƢƠNG 3: XÂY DỰNG ỨNG DỤNG NHẬN DIỆN BIỂN SỐ XE 33 3.1 THU THẬP VÀ PHÂN CHIA DỮ LIỆU 34 3.1.1 Thu thập liệu 34 3.1.2 Phân chia liệu 35 3.2 HUẤN LUYỆN MƠ HÌNH 36 3.2.1 Đánh giá mơ hình huấn luyện 36 3.2.2 Kết mơ hình huấn luyện 39 3.3 CHUYỂN ĐỔI WEIGHT SANG TENSORFLOW 40 3.4 NHẬN DIỆN KÝ TỰ BIỂN SỐ XE 41 3.5 HIỂN THỊ THÔNG TIN 43 iv KẾT LUẬN CHƢƠNG 44 KẾT LUẬN CHUNG 45 DANH MỤC TÀI LIỆU THAM KHẢO 47 QUYẾT ĐỊNH GIAO ĐỀ TÀI (bản sao) v DANH MỤC CÁC TỪ VIẾT TẮT Chữ viết tắt CNN RNN CTC SVM YOLO AP mAP FPS RPN SSD IoU Chữ viết đầy đủ Mạng Nơ-ron tích chập Convolution Neural Network Mơ hình mạng nơ-ron tái tạo – Recurrent Neural Network Phân loại thời gian kết nối – Connectionist temporal classification Thuật toán Vec-tơ hỗ trợ – Support Vector Machine Thuật toán Phát đối tƣợng YOLO – You only look once Độ đo đánh giá mơ hình Object Detection – Average Precision Độ đo trung bình AP Measure Average Precision Độ đo tốc độ xử lý khung hình giây – Frame per second Mạng đề xuất khu vực – Region Proposal Network Thuật toán Phát đối tƣợng – Single Shot Detection Tỷ lệ trùng Box Intersection over Union vi DANH MỤC CÁC BẢNG Ký hiệu Bảng 3.1 Bảng 3.2 Nội dung Mô tả ý nghĩa giá trị thuộc tính file annotations định dạng txt Bảng phân chia tập liệu Trang 37 38 vii DANH MỤC CÁC HÌNH Ký hiệu Nội dung Trang Hình 1.1 Mối quan hệ AI, Machine Learning Deep Learning Hình 1.2 Sơ đồ mối liên hệ tác vụ computer vision Hình 1.3 Ví dụ phát đối tƣợng Hình 1.4 So sánh khác mơ hình one-stage two-stage Hình 1.5 Mối quan hệ đầu vào đầu node Hình 1.6 Đồ thị hàm sigmoid (a) hàm (b) 10 Hình 1.7 Đồ thị hàm ReLU 11 Hình 1.8 Đồ thị hàm Leaky ReLU 11 Hình 1.9 Đồ thị hàm Mish 12 Hình 1.10 Cấu trúc CNN 13 Hình 1.11 Minh họa việc áp dụng phép tính Conv 14 Hình 1.12 Lớp tổng hợp sử dụng Max pooling 14 Hình 1.13 Phép flatten đƣa tensor thành vector 15 Hình 1.14 Ví dụ đầu vào đầu hàm softmax 16 Hình 1.15 Một mơ hình OCR Pipeline 17 Hình 1.16 Hình ảnh thu đƣợc sau qua bƣớc tiền xử lý 17 Hình 1.17 Những cách nhận dạng OCR 18 Hình 1.18 Kết ký tự đƣợc nhận dạng 19 viii Hình 2.1 Mơ hình kiến trúc RetinaNet 23 Hình 2.2 Chuyển lớp Fully Connected cuối thành lớp tích chập 26 Hình 2.3 Vị trí thơng tin vật thể đƣợc trì đến lúc cuối 26 Hình 2.4 Mơ tả grid system tốn nhận diện biển báo 27 Hình 2.5 Phần giao box A B 28 Hình 2.6 Tâm vật thể trùng nằm grid 29 Hình 2.7 Thuật tốn đƣợc áp dụng đầu 31 Hình 2.8 Chia nhỏ ký tự từ (fixed word) 32 Hình 3.1 Cơng thức minh họa để tính IoU 39 Hình 3.2 Precision and recall 40 Hình 3.3 Biểu đồ giá trị độ lỗi sau vòng lặp độ đo mAP đánh giá trình huấn luyện tập đánh giá (validation) với YOLOv4 41 Hình 3.4 Kết 99% biển số xe máy 42 Hình 3.5 Kết dự đoán 94% với biển số xe tơ đƣợc đặt với góc nghiêng 42 Hình 3.6 Cấu trúc thƣ mục sau chuyển đổi Darknet Weight sang Tensorflow 43 Hình 3.7 Lấy bounding box biển số xe 43 Hình 3.8 Hình ảnh sau tăng kích thƣớc gấp lần 44 Hình 3.9 Hình ảnh thu đƣợc sau áp dụng ngƣỡng Otsu’s 44 Hình 3.10 Tạo đƣờng bao xung quanh ký tự 44 ix Hình 3.11 Hiển thị thơng tin biển số xe xe máy 45 Hình 3.12 Hiển thị thơng tin biển số xe xe ô tô 45 ... 34 3. 1.1 Thu thập liệu 34 3. 1.2 Phân chia liệu 35 3. 2 HUẤN LUYỆN MƠ HÌNH 36 3. 2.1 Đánh giá mô hình huấn luyện 36 3. 2.2 Kết mơ hình huấn luyện 39 3. 3... 23 2.2 CÔNG CỤ TESSERACT OCR 30 2.2.1 Khái quát 30 2.2.2 Cơ chế hoạt động 30 KẾT LUẬN CHƢƠNG 32 CHƢƠNG 3: XÂY DỰNG ỨNG DỤNG NHẬN DIỆN BIỂN SỐ XE 33 3. 1... 2.7 Thuật tốn đƣợc áp dụng đầu 31 Hình 2.8 Chia nhỏ ký tự từ (fixed word) 32 Hình 3. 1 Cơng thức minh họa để tính IoU 39 Hình 3. 2 Precision and recall 40 Hình 3. 3 Biểu đồ giá trị độ lỗi sau vòng