Nhận dạng phương tiện giao thông sử dụng kỹ thuật học sâu (tt)

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - BÙI TRẦN TIẾN NHẬN DẠNG PHƯƠNG TIỆN GIAO THÔNG SỬ DỤNG KỸ THUẬT HỌC SÂU CHUYÊN NGÀNH : KHOA HỌC MÁY TÍNH MÃ SỐ: 8.48.01.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT HÀ NỘI - 2019 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS NGUYỄN NGỌC ĐIỆP Phản biện 1: ……………………………………………………… Phản biện 2: ……………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Trong thời đại ngày công nghệ thơng tin thâm nhập vào tồn lĩnh vực đời sống xã hội Xã hội ngày phát triển nhu cầu áp dụng tiến công nghệ thông tin vào sống ngày cao để giải vấn đề phức tạp y tế, giáo dục, giao thông… Ở nước ta năm gần đấy, với phát triển kinh tế xã hội số lượng phương tiện giao thơng đường tăng lên nhanh chóng liền với vấn đề tai nạn giao thơng ùn tắc giao thông, đặc biệt giao thông đường bộ, số vụ giao thông không ngừng tăng quy mô số lượng Đặc biệt vấn nạn ùn tắc giao thông số tuyến đường xuyên tâm đường Đê La Thành, Trần Đại Nghĩa, Kim Liên, Nguyễn Lương Bằng, Nguyễn Trãi, Giải Phóng… lâm vào cảnh ùn tặc kéo dài, ùn tặc trầm trọng gây ảnh hưởng đến sống người dân thiệt hại lớn kinh tế xã hội Với mục đích đưa tiến công nghệ vào phục vụ cho sống, xin chọn đề tài nghiên cứu “Nhận dạng phương tiện giao thông sử dụng kỹ thuật học sâu” Hy vọng kết đề tài tiền đề quan trọng việc xây dựng hệ thống giám sát phương tiện giao thông hệ thống cảnh báo ùn tắc giao thông ở nước ta Mục tiêu luận văn Nghiên cứu phương pháp phát đối tượng kỹ thuật học sâu áp dụng phát phương tiện giao thông Việt Nam Mục tiêu cụ thể bao gồm: - Nắm số phương pháp học sâu quan trọng - Áp dụng đánh giá hiệu liệu ảnh, video thu thập Việt Nam Do thời gian có hạn nên luận văn tập trung phát phương tiện giao thông từ ảnh video - Ảnh video giao thông tai Việt Nam quay điều kiện ánh sáng tốt - Phương tiện cần phát ô tô xe máy Nội dung luận văn bố cục thành chương sau:  CHƯƠNG 1: KỸ THUẬT HỌC SÂU VÀ BÀI TOÁN PHÁT HIỆN PHƯƠNG TIỆN GIAO THÔNG  CHƯƠNG 2: PHÁT HIỆN PHƯƠNG TIỆN GIAO THÔNG SỬ DỤNG KỸ THUẬT HỌC SÂU YOLO  CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ CHƯƠNG 1: KỸ THUẬT HỌC SÂU VÀ BÀI TOÁN PHÁT HIỆN PHƯƠNG TIỆN GIAO THÔNG 1.1 Giới thiệu học sâu 1.1.1 Học sâu Học sâu (deep learning) nhánh ngành máy học, dựa tập hợp thuật toán để cố gắng mơ hình liệu để trừu tượng hóa ở mức cao cách sử dụng nhiều lớp xử lý với cấu trúc phức tạp, cách khác bao gồm nhiều lớp biến đổi phi tuyến để trích tách đặc trưng chuyển đổi[23] Mỗi lớp dùng đâu lớp trước làm đầu vào Các thuật tốn giám sát khơng cần giám sát ứng dụng bao gồm mơ hình phân tích (khơng giám sát) phân loại (giám sát) Một phương pháp học sâu thành cơng mơ hình mạng nơ-ron nhân tạo (Arificial Neural Network)[23] Mạng nơ-ron nhân tạo lấy cảm hứng từ mơ hình sinh học năm 1959 đề xuất bởi người đoạt giải Nobel David H Hubel & Torsten Wiesel, người tìm thấy hai loại tế bào vỏ não thị giác chính: tế bào đơn giản tế bào phức tạp Nhiều mạng nơ-ron nhân tạo xem mơ hình ghép tầng tế bào loại lấy cảm hứng từ quan sát sinh học Mạng nơ-ron nhân tạo kết hợp tầng perceptron hay gọi perceptron đa tầng (multilayer perceptron) hình bên dưới: Hình 1.4: Mạng nơ-ron nhân tạo Kiến trúc chung mạng nơ-ron nhân tạo bao gồm thành phần: Lớp đầu vào, Lớp ẩn Lớp đầu  Lớp đầu vào (Input layer): Là nơi để nạp liệu vào Mỗi nơ-ron tương ứng với thuộc tính (attribute) đặc trưng (feature) liệu đầu vào  Lớp ẩn (Hidden layer): Là nơi xử lý liệu trước đưa output Thường hàm tổng (Summation function) để đưa giá trị nơ-ron hidden layer Có thể có nhiều hidden layer Khi đầu hidden layer đầu vào cho hidden layer  Lớp đầu (Output layer): Là giá trị đầu mạng nơ-ron Sau qua hidden layer cuối cùng, liệu chuyển hóa hàm số gọi hàm kích hoạt (Activation function) đưa output cuối Hàm chuyển đổi thường hàm tanh(x), sigmoid(x) softmax(x)[17] 1.1.2 Mạng nơ-ron tích chập – Convolutional neural network (CNN) Convolutional Neural Network (CNN – Mạng nơ-ron tích chập) mơ hình Deep Learning tiên tiến giúp cho xây dựng hệ thống thơng minh với độ xác cao như hệ thống xử lý ảnh lớn Facebook, Google hay Amazon đưa vào sản phẩm chức thơng minh nhận diện khuôn mặt người dùng, phát triển xe tự lái hay drone giao hàng tự động CNN sử dụng nhiều toán phát object ảnh 4 1.2 Các kỹ thuật liên quan đến xử lý ảnh nhận diện đối tượng 1.2.1 Tổng quan xử lý ảnh Quá trình xử lý ảnh xem trình thao tác ảnh đầu vào nhằm tạo kết mong muốn Kết đầu trình xử lý ảnh ảnh tốt kết luận Hình 1.13: Các bước hệ thống xử lý ảnh Sơ đồ tổng quát hệ thống xử lý ảnh:  Khối thu nhận ảnh: Có nhiệm vụ tiếp nhận ảnh đầu vào  Khối tiền xử lý: Có nhiệm vụ xử lý nâng cao chất lượng ảnh giảm nhiễu, phân vùng, tìm biên …  Khối dự đốn: Có nghiệm vụ đưa dự đoán từ ảnh tiền xử lý đưa kết dự đoán sử dụng cho bước hậu xử lý đưa định  Khối hậu xử lý: Có nhiệm vụ xử lý kết khối dự đốn, lược bỏ biến đổi kết để phù hợp với ký thuật cụ thể sử dụng trọng hệ định  Khối hệ định lưu trữ: Có nhiệm vụ đưa định(phân loại, phát hiện) dựa liệu học  Khối kết luận: Đưa kết luận dựa vào định khối định 1.2.2 Các vấn đề xử lý ảnh  Nắn chỉnh biến dạng:  Khử nhiễu:  Chỉnh số mức xám  Nén ảnh 1.2.3 Nhận diện phân loại ảnh Các hệ thông phát nhận dạng đối tượng thường có ba bước xử lý - Bước 1: Sử dụng mơ hình thuật tốn để tạo vùng ứng viên, khu vực quan tâm Các vùng ứng viên tập hợp lớn hộp giới hạn để xác định đối tượng - Bước 2: Trích xuất đặc trưng từ hộp giới hạn tìm được, chúng đánh giá xác định xem đối tượng có mặt hộp giới hạn (tức thành phần phân loại đối tượng) hay không - Bước 3: Trong bước hậu xử lý cuối cùng, hộp chồng chéo kết hợp thành hộp giới hạn sử dụng số thuật toán Non-maximum suppression, … 1.3 Các kỹ thuật hạn chế 1.3.1 R-CNN, Fast R-CNN a R-CNN Sau nghiên cứu kỹ thuật học sâu thu nhiều kết rõ ràng kỹ thuật phân loại dựa HOG[2] dần thay kỹ thuật học sâu CNN cho kết xác Tuy nhiên, có vấn đề CNN q chậm tính tốn tốn Khơng chạy CNN nhiều cửa sổ tạo bởi thuật toán cửa sổ trượt (sliding window detector) R-CNN[12] giải vấn đề cách chạy thuật toán gọi Selective Search để giảm số hộp giới hạn (bounding box) đưa vào phân loại Selective Search sử dụng dấu hiệu bố cục kết cấu, cường độ, màu sắc để tạo vị trí chứa đối tượng Sau cung cấp hộp giới hạn cho phân loại dựa CNN b Fast R-CNN Fast R-CNN[5] sử dụng ý tưởng SPP-net, R-CNN sửa vấn đề SPPnet như: Fast R-CNN thực từ đầu đến cuối (end-to-end) Một điều họ thêm tính tốn hồi quy để tìm hộp giới hạn vào việc huấn luyện Vì mạng có hai đầu đầu phân loại đầu đâu dự đoán hộp giới hạn Mục tiêu tính bật Fast R-CNN[5] khơng cịn u cầu huấn luyện mạng độc lập để tìm vị trí phân loại đối tượng Hai thay đổi làm giảm bớt thời gian huấn luyện tổng thể tăng độ xác so với SPP-net 6 Hình 1.16: Mơ hình mạng Fast R-CNN 1.3.2 Faster R-CNN Faster R-CNN[14] phiên cải tiến Fast R-CNN[5] Nó thay phần chậm Fast R-CNN Selective search mạng CNN nhỏ gọi mạng đề xuất khu vực(Region Proposal network-RPN) để đề xuất vùng quan tâm ảnh Hình 1.17: Mơ hình mạng Faster R-CNN 1.3.3 YOLO, SSD a You Only Look Once YOLO chia hình ảnh đầu vào thành lưới có SxS dự đốn N hộp giới hạn độ tin cậy Độ tin cậy phản ảnh độ xác hộp giới hạn liệu hộp giới hạn có thực chứa đối tượng(khơng phân biệt lớp) YOLO dự đoán xác suất lớp cho hộp Chúng ta kết hợp hai xác suất để có xác suất lớp cho hộp giới hạn dự đoán 7 Hình 1.18: Q trình dự đốn YOLO Một số lợi ích YOLO: - Nhanh Tốt cho hệ thơng xử lý thời gian thực - Dự đốn vị trí loại đối tượng mạng nên huấn luyện end-to-end để tối ưu độ xác - YOLO tổng qt hóa tốt Nó hoạt động tốt phương pháp khác tổng qt hóa từ hình ảnh tự nhiên sang miền khác tác phẩm nghệ thuật b Single Shot Detector (SSD) Hình 1.19: Mơ hình mạng SSD SSD[10] đạt cân tốt tốc độ độ xác SSD chạy mạng CNN hình ảnh đầu vào lần tính tốn đồ đặc trưng Bây chạy filter có kích thước nhỏ 3x3 tồn đồ đặc trưng để dự đoán hộp giới hạn xác suất phân loại SSD sử dụng hộp neo ở tỷ lệ khung hình khác tượng tự Faster R-CNN[14] Để xử lý tỷ lệ, SSD dự đoán hộp giới hạn sau nhiều lần co dãn 1.4 Kết luận chương Qua phần giới thiệu đánh giá ở có nhiều phương pháp để phát phương tiện giao thông Nhưng tốc độ di chuyển phương tiện giao thông thường cao nên cần phương pháp có tốc độ xử lý nhanh độ xác tốt điều kiện ánh sáng tốt 8 CHƯƠNG 2: PHÁT HIỆN PHƯƠNG TIỆN GIAO THÔNG SỬ DỤNG KỸ THUẬT HỌC SÂU YOLO 2.1 Bài toán phát phương tiện giao thơng 2.1.1 Tổng quan tốn Phát phương tiện giao thơng tốn khó phức tạp cần xác định vị trí phân loại phương tiện giao thông Một hệ thống phát phương tiện giao thông bao gồm ba bước xử lý chính: Bước 1: Thu nhận ảnh từ hệ thống camera giao thông thực tiền xử lý liệu đầu vào Bước 2: Sử dụng mô hình phát huấn luyện để phát (YOLO, RCNN, SSD…) trả kết bao gồm hộp giới hạn đối tượng xuất hộp giới hạn Bước 3: Thực hậu xử lý để loại bỏ hộp chồng chéo, theo dõi phương tiện… Hình 2.1 Bài tốn phát phương tiện giao thông 2.1.2 Các điều kiện ràng buộc Để thu kết phát xác cao hệ thống camera cần đặt vị trí phù hợp xe để có góc nhìn rộng tránh trường hợp phương tiện bị che khuất, vị trí có ánh sáng tốt Các hệ thống xử lý trung tâm cần hỗ trợ máy tính xử lý có nhiều CPU GPU giúp cho việc phát phương tiện nhanh xác đảm bảo thời gian thực 2.2 Hệ thống phát đối tượng thời gian thực YOLO 2.2.1 Tổng quan hệ thống phát đối tượng YOLO YOLO phương pháp phát đối tượng thời gian thực đại Với GPU[21] Titan X mô hình YOLO có tốc độ 30 FPS với độ xác trung bình 57.9% tập liệu tiêu chuẩn COCO[20] YOLO phù hợp cho tốn địi hỏi tốc độ xử lý theo thời gian thực giám sát giao thông, xe tự lại, hệ thống giám sát an ninh 9 2.2.2 Các thành phần hệ thống YOLO Mơ hình YOLO sử dụng phương pháp tiếp cận hồn tồn khác Nó thực cho ảnh đầu vào qua mạng CNN Mạng CNN chia hình ảnh thành khu vực dự đoán hộp giới hạn xác suất khu vực Trong ví dụ phía kết trả cuối mơ hình thu ma trận chiều có kích thước 7x7x30 Tương ứng YOLO chia hình ảnh đầu vào thành lưới 7x7 (SxS) Mỗi dự đốn đối tượng Như ví dụ dưới: màu vàng cố gắng dự đốn đối tượng tơ có tâm(điểm màu xanh) nằm lưới Hình 2.3: Ơ chịu trách nhiệm dự đốn đối tượng xe ô tô 2.2.3 Kiến trúc mô hình YOLO qua phiên a YOLO version Hình 2.5: YOLO version YOLOv2 có 24 lớp convolutional theo sau lớp fully connected (FC) Một vài lớp convolutional sử dụng lớp giảm có kích thước 1x1 để giảm độ sâu features map Đối với lớp convolutional cuối cùng, xuất tensor có kích thước (7x7x1024) Tensor sau dàn phẳng Sử dụng fully connected dạng hồi quy tuyến tính tạo 10 output có kích thước 7x7x30 tương ứng với dự đoán hộp giới hạn cho 20 lớp dự đốn ví dụ b YOLO version Để cải thiện độ xác YOLOv2 thực cải tiến phương pháp sau - Loại bỏ lớp fully connected chịu trách nhiệm dự đốn hộp giới hạn Hình 2.6: Loại bỏ phần kết nối đầy đủ YOLOv2 - YOLO di chuyển lớp dự đốn từ cấp độ lên cấp độ hộp giới hạn Bây dự đoán bao gồm tham số cho hộp giới hạn, điểm tin cậy hộp C xác suất lớp, tức với hộp giới hạn với 25 tham số cho hộp giới hạn ta có 125 tham số cho Hình 2.7: Kết dự đốn YOLO - Để tạo dự đốn với kích thước 7x7x125, thay lớp convolutional cuối ba filter có kích thước 3x3 cho đầu có 1024 giá trị Sau ở lớp convolutional cuối ta áp dụng filter có kích thước 1x1 để chuyển từ 7x7x1024 output 7x7x125 - Thay đổi kích thước ảnh đầu vào từ 448x448 xuống 416x416 - Loại bỏ lớp pooling để làm cho đầu mạng có kích thước 13x13 (thay 7x7) c YOLO version 11 YOLOv3 sử dụng biến thể Darknet[25, 26], ban đầu có 53 lớp đào tạo Imagenet Đối với nhiệm vụ phát hiện, 53 lớp khác xếp chồng lên nó, tạo cho kiến trúc hoàn toàn dựa 106 lớp cho YOLOv3 Hình 2.8: Mơ hình YOLO phiên thứ Hình dạng kernel phát 1x1x(Bx(5+C)) Ở B số lượng hộp giới hạn ma trậ đặc trưng dự đốn, thuộc tính hộp giới hạn điểm tin cậy C số lớp Ma trậ đặc trưng tạo bởi kernel có chiều rộng chiều cao giống hệt ma trậ đặc trưng trước có thơng tin dọc theo chiều sâu mơ tả hình bên 12 Hình 2.9: Kết dự đốn YOLOv3 2.2 Phương pháp huấn luyện YOLO sử dụng hàm sum-squared error dự đốn giá trị mong muốn để tính mát Hàm mát bao gồm: - Classification loss: Nếu đối tượng phát hiện, classification loss ở sai số bình phương (squared error) xác suất có điều kiện cho lớp 𝑆2 𝑜𝑏𝑗 ∑ 1𝑖 𝑖=0 ∑ (𝑝𝑖 (𝑐 ) − 𝑝̂𝑖 (𝑐 )) 𝑐∈𝐶𝑙𝑎𝑠𝑠𝑒𝑠 Trong đó: - obj 1i = đối tượng xuất ô i nểu khơng có đối tượng xuất - p̂i (c): Xác suất có điều kiện lớp c ô i 13 - Localization loss: Localization loss tính cách tính lỗi vị trí kích thước hộp giới hạn dự đốn Chúng ta đếm chịu trách nhiệm dự đốn đối tượng 𝑆2 𝐵 𝑜𝑏𝑗 𝜆𝑐𝑜𝑜𝑟𝑑 ∑ ∑ 1𝑖𝑗 [(𝑥𝑖 − 𝑥̂𝑖 )2 + (𝑦𝑖 − 𝑦̂𝑖 )2 ] 𝑖=0 𝑗=0 𝑆2 + 𝐵 𝑜𝑏𝑗 𝜆𝑐𝑜𝑜𝑟𝑑 ∑ ∑ 1𝑖𝑗 [(√𝑤𝑖 𝑖=0 𝑗=0 2 − √𝑤 ̂) + (√ℎ𝑖 − √ℎ̂𝑖 ) ] 𝑖 Trong đó: - obj 1ij = hộp giới hạn thứ j ô i chịu trách nhiệm dự đoán đối tượng ngược lại - λcoord tăng trọng số cho hàm mát tọa độ hộp giới hạn - x̂, ŷ, w ̂, ĥ : Tọa độ hộp giới hạn dự đoán Để tránh việc lỗi dự đoán cho hộp có kích thước to nhỏ hộp thực có giá trị lỗi ví dụ hộp to hộp nhỏ lớn nhỏ hộp thực pixel YOLO lấy bậc hai chiều rộng chiều cao hộp giới hạn thay giữ ngun Ngồi ra, để nhấn mạnh vào độ xác hộp giới hạn YOLO nhân localization loss với 𝜆𝑐𝑜𝑜𝑟𝑑 (mặc định 5) - Confidence loss: Nếu đối tượng phát hộp confidence loss tính là: 𝑆2 𝐵 𝑜𝑏𝑗 ∑ ∑ 1𝑖𝑗 (𝐶𝑖 − 𝐶̂𝑖 ) 𝑖=0 𝑗=0 Trong đó: - Ĉi : Độ tin cậy hộp giới hạn j ô i - 1ij = hộp giới hạn thứ j chịu trách nhiệm phát đối tượng ngược lại obj - Nếu đối tượng không phát hộp confidence loss là: 14 𝑆2 𝐵 𝑛𝑜𝑜𝑏𝑗 𝜆𝑛𝑜𝑜𝑏𝑗 ∑ ∑ 1𝑖𝑗 (𝐶𝑖 − 𝐶̂𝑖 ) 𝑖=0 𝑗=0 Trong đó: noobj obj phần bổ sung cho 1ij - 1ij - Ĉi : Độ tin cậy hộp giới hạn j ô i - λnoobj: Giảm trọng số lỗi phát Hầu hết hộp không chưa đối tượng nào, điều gây cân chũng ta đào tạo mơ hình phát thường xun phát đối tượng Để khắc phục vấn đề này, YOLO đề xuất thêm tham số 𝜆𝑛𝑜𝑜𝑏𝑗 (mặc định: 0.5) Cuối hàm mát YOLO có dạng: 𝑆2 𝐵 𝑜𝑏𝑗 𝜆𝑐𝑜𝑜𝑟𝑑 ∑ ∑ 1𝑖𝑗 [(𝑥𝑖 − 𝑥̂𝑖 )2 + (𝑦𝑖 − 𝑦̂𝑖 )2 ] 𝑖=0 𝑗=0 𝑆2 + 𝑜𝑏𝑗 𝜆𝑐𝑜𝑜𝑟𝑑 ∑ ∑ 1𝑖𝑗 𝑖=0 𝑗=0 𝑆2 + 𝐵 [(√𝑤𝑖 − √𝑤 ̂) + (√ℎ𝑖 − √ℎ̂𝑖 ) ] 𝑖 𝑆2 𝐵 𝑜𝑏𝑗 ∑ ∑ 1𝑖𝑗 (𝐶𝑖 𝑖=0 𝑗=0 2 𝐵 2 𝑛𝑜𝑜𝑏𝑗 − 𝐶̂𝑖 ) + 𝜆𝑛𝑜𝑜𝑏𝑗 ∑ ∑ 1𝑖𝑗 (𝐶𝑖 − 𝐶̂𝑖 ) 𝑖=0 𝑗=0 𝑆2 𝑜𝑏𝑗 + ∑ 1𝑖 𝑖=0 ∑ (𝑝𝑖 (𝑐 ) − 𝑝̂𝑖 (𝑐 )) 𝑐∈𝐶𝑙𝑎𝑠𝑠𝑒𝑠 2.3 Kết luận chương YOLO mơ hình đại phát đối tượng Nó có tốc độ xử lý nhanh cần độ xác tốc độ YOLO phù hợp cho hệ thông phát thời gian thực phát phương tiện giao thông lưu thông đường phố Các phương tiện giao thông thu thập để áp dụng mơ hình YOLO bao gồm tơ xe máy phương tiên phổ biến giao thông Việt Nam 15 CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ 3.1 Thu thập tiền xử lý liệu Bộ liệu thử nghiệm thu thập từ video giao thông cung cấp bởi hệ thống camera giao thông thành phố Đà Nẵng, video chuyển thành hình ảnh có kích thước 720x1280 Bộ liệu bao gồm 600 ảnh 500 ảnh sử dụng cho trình huấn luyện 100 ảnh cho trình kiểm tra Tất ảnh tiền xử lý để tạo file txt thích thể vị trí đối tượng ảnh theo định dạng sau 3.2 Cài đặt thử nghiệm 3.2.1 Môi trường thử nghiệm Trong luận văn cầu hình phần cứng thử nghiệm là: - Hệ điều hành: Linux - Bộ xử lý: Intel Core i5 7400 @ 3.40GHz - Bộ nhớ Ram: 8GB - Bộ xử lý đồ họa GPU: Nvidia 1060 3GB 3.2.2 Huấn luyện liệu Đầu vào: Tập liệu đầu vào mơ hình hình ảnh file mơ tả vị trí loại đối tượng ảnh mơ tả phần tiền xử lý Đầu ra: Tập ma trận trọng số w bias mơ hình YOLO 3.2.3 Phương pháp đánh giá Các mơ hình phát đối tượng thường huấn luyện nhóm lớp cố định mơ hình định vị phân loại lớp hình ảnh Ngồi ra, vị trí đối tượng thường ở dạng hình nhật bị ràng buộc Vì vậy, phát đối tượng liên quan đến vị trí đối tượng hình ảnh phân loại đối tượng Để tính tốn Precision Recall, giống toán học máy cần xác định điểm True Positives, False Positives, True Negatives False Negatives 3.3 Đề xuất phương pháp cải tiến đánh giá 3.3.1 Đề xuất phương pháp cải tiến 16 Trong luận văn sử dụng phương pháp thay đổi số lượng filter convolutional YOLO Quá trình thay đổi giúp tăng tốc độ dự đốn huấn luyện mơ hình YOLO mà độ xác không giảm nhiều Số lượng filter phương pháp cải tiền thự thay đổi số lượng filter lớp convolutional từ lớp 27 đến lớp 66, thay đổi số lượng filter xuống 512 256 filter 3.3.2 Đánh giá phương pháp cải tiến a Tốc độ xử lý Speed 12.5 12 11.5 11 FPS 10.5 10 9.5 YOLO Full YOLO 512 YOLO 256 Hình 3.9: Tốc độ xử lý b Thời gian huấn luyện Total loss 100 Total loss 80 60 40 20 0 20000 40000 YOLO Full Epochs YOLO 512 60000 YOLO 256 Hình 3.10: Tốc độ hội tụ hai cấu hình 80000 17 Time training 100000 Epochs 80000 60000 40000 20000 10 15 20 25 30 35 Hours YOLO Full YOLO 512 YOLO 256 Hình 3.11: Thời gian huấn luyện hai cấu hình c Độ xác mAP & Speed Accuracy 90 80 70 60 50 40 30 20 10 mAP(%) speed(FPS) YOLO Full YOLO 512 YOLO 256 85.71 82.8 81.5 10 10.8 12 Hình 3.12: Kết mơ hình YOLO sau thay đổi số filter 3.4 Kết luận chương Chương III giới thiệu liệu thử nghiệm, xây dựng mơ hình, cài đặt thử nghiệm đề xuất phương pháp tiến mơ hình YOLO tốn phát phương tiện giao thông giúp tăng tốc độ xử lý mà khơng làm độ xác mơ hình đáng kể 18 KẾT LUẬN Với mục tiêu nghiên cứu xây dựng mơ hình phát phương tiện giao thơng áp dụng Việt Nam Luận văn tập trung nghiên cứu phương pháp phát nhận dạng phương tiện giao thông sử dụng kỹ thuật học sâu dựa mô hình YOLO Luận văn đạt số kết sau: - Nghiên cứu tổng quan số vấn đề kỹ thuật học sâu xử lý ảnh, giới thiệu số mơ hình sử dụng phổ biến nhiều toán phát - Nghiên cứu sâu mơ hình YOLO, mơ hình đại Thử nghiệm đánh giá phương pháp cải tiến cho mơ hình YOLO giúp cải thiện tốc độ huấn luyện tốc độ dự đoán - Thu thập liệu huấn luyện, thử nghiệm đánh giá kết phương pháp Kết thực nghiệm cho thấy việc thay đổi số filter lớp convolutional mơ hình YOLO thực đem lại hiệu giúp tăng tốc độ huấn luyện tốc độ dự đoán điều kiện ánh sang tốt ảnh đầu vào Trong tương lai, Luận văn tiếp tục nghiên cứu theo hướng ứng dụng phục vụ cho hệ thống giám sát giao thông Việt Nam ... KỸ THUẬT HỌC SÂU VÀ BÀI TOÁN PHÁT HIỆN PHƯƠNG TIỆN GIAO THÔNG  CHƯƠNG 2: PHÁT HIỆN PHƯƠNG TIỆN GIAO THÔNG SỬ DỤNG KỸ THUẬT HỌC SÂU YOLO  CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ CHƯƠNG 1: KỸ THUẬT HỌC... cứu ? ?Nhận dạng phương tiện giao thông sử dụng kỹ thuật học sâu? ?? Hy vọng kết đề tài tiền đề quan trọng việc xây dựng hệ thống giám sát phương tiện giao thông hệ thống cảnh báo ùn tắc giao thông. .. TIỆN GIAO THÔNG SỬ DỤNG KỸ THUẬT HỌC SÂU YOLO 2.1 Bài tốn phát phương tiện giao thơng 2.1.1 Tổng quan tốn Phát phương tiện giao thơng tốn khó phức tạp cần xác định vị trí phân loại phương tiện giao

Định dạng
Số trang	20
Dung lượng	1,58 MB