Nghiên cứu ứng dụng học sâu trong nhận dạng phương tiện giao thông di chuyển trên một đoạn đường

MỤC LỤC

LỜI NểI ĐẦU

CƠ SỞ LÝ THUYẾT

  • Tổng quan về học máy, học sâu 1. Học máy
    • Mạng nơ-ron
      • Mạng nơ-ron tích chập

        Phân tích thành phần chính (PCA -Principal component analysis) và phân tích giá trị đơn lẻ (SVD - Singular value decomposition) là hai cách tiếp cận phổ biến cho việc này.Các thuật toán khác được sử dụng trong học tập không giám sát bao gồm mạng nơ-ron, phân cụm k-means và các phương pháp phân cụm theo xác suất. Nhiều kiến trúc học sâu khác nhau như mạng nơ-ron nhân tạo (Artificial Neural Network - ANN), mạng nơ-ron tích chập (Convolutional Neural Network - CNN) và mạng nơ-ron tái phát (Recurrent Neural Network - RNN) đã được áp dụng cho các lĩnh vực như thị giác máy tính, tự động nhận dạng giọng nói, xử lý ngôn ngữ tự nhiên, nhận dạng âm thanh ngôn ngữ và tin sinh học, chúng đã được chứng minh là tạo ra các kết quả rất tốt đối với nhiều nhiệm vụ khác nhau. (Trọng số đôi khi còn được gọi là tham số của một lớp.) Trong ngữ cảnh này, việc học có nghĩa là tìm một tập hợp các giá trị cho trọng số của tất cả các lớp trong mạng, sao cho mạng sẽ ánh xạ chính xác đầu vào ví dụ tới các mục tiêu được liên kết của chúng.

        Các nơ-ron có nhiều đặc điểm chung với các tế bào khác trong cơ thể, ngoài ra chúng còn có những khả năng mà các tế bào khác không có được, đó là khả năng nhận, xử lý và truyền các tín hiệu điện hóa trên các đường mòn nơ-ron, các con đ đường này tạo nên hệ thống giao tiếp của bộ não. Mạng nơron có thể tổ chức theo kiểu liên kết đầy đủ tức là đầu ra của các nơron lớp trước sẽ có liên kết với tất cả các nơron ở lớp tiếp theo hoặc ngược lại theo kiểu không đầy đủ-mỗi đầu ra chỉ liên kết với một số nơron của lớp tiếp theo tuỳ theo chức năng của mạng. Chức năng của CNN tương tự như quy trình biểu diễn đặc trưng thủ công, với điểm khác biệt chính là tự động học hệ thống phân cấp các biểu diễn tính năng hữu ích và tích hợp các giai đoạn phân loại và trích xuất tính năng trong một quy trình duy nhất có thể huấn luyện từ đầu đến cuối thái độ.

        Đưa ra bản đồ đặc trưng đầu vào 2D và bộ lọc tích chập có kích thước ma trận lần lượt là 4x4 và 2x2, lớp tích chập nhân bộ lọc 2x2 với một bản vá được đánh dấu (cũng là 2x2) của bản đồ đặc trưng đầu vào và tính tổng tất cả các giá trị để tạo một giá trị trong bản đồ đặc trưng đầu ra. Trường hợp có kích thước cao (High Dimensional Cases): Trường hợp 2D là trường hợp đơn giản nhất, trong đó bộ lọc chỉ có một kênh duy nhất (được biểu thị dưới dạng ma trận) được kết hợp với các kênh tính năng đầu vào để tạo ra phản hồi đầu ra. Đối với các trường hợp có nhiều chiều hơn, ví dụ: khi đầu vào của các lớp CNN là các tensor (ví dụ: khối 3D trong trường hợp biểu diễn thể tích), các bộ lọc cũng là các khối 3D được tích hợp dọc theo chiều cao, chiều rộng và chiều sâu của tính năng đầu vào maps để tạo bản đồ đặc trưng đầu ra 3D tương ứng.

        Hình 1.2. Mối quan hệ giữa AI, Machine Learning và Deep Learning [14].
        Hình 1.2. Mối quan hệ giữa AI, Machine Learning và Deep Learning [14].

        MÔ HÌNH PHÁT HIỆN ĐỐI TƯỢNG

        • Máy dò phát hiện đối tượng hai giai đoạn 1. R-CNN
          • Máy dò phát hiện đối tượng một giai đoạn 1. YOLO family
            • Một số thách thức chính trong phát hiện đối tượng 1. Những thách thức liên quan đến độ chính xác

              Fast R-CNN trích xuất các đặc điểm từ toàn bộ hình ảnh đầu vào và sau đó chuyển lớp tổng hợp vùng quan tâm (ROI) để lấy các đặc điểm có kích thước cố định làm đầu vào của phân loại và hồi quy hộp giới hạn sau các lớp được kết nối đầy đủ. Trên các đầu ra (bản đồ đặc trưng) của lớp tích chập được chia sẻ cuối cựng, trượt một cửa sổ cú kớch thước cố định (3 ì 3), điểm trung tâm của mỗi cửa sổ đặc trưng tương ứng với một điểm của hình ảnh đầu vào ban đầu là điểm trung tõm của k ( 3 ì 3) hộp neo. He và cộng sự sử dụng Faster R-CNN với ResNet-FPN (mạng kim tự tháp tính năng, xương sống trích xuất các tính năng Rol từ các cấp khác nhau của kim tự tháp tính năng theo tỷ lệ của chúng) để trích xuất các tính năng đạt được độ chính xác và tốc độ xử lý tuyệt vời.

              Vì các bản đồ tính năng có độ phân giải cao hơn rất quan trọng để phát hiện các đối tượng nhỏ trong khi các bản đồ tính năng có độ phân giải thấp hơn rất giàu thông tin ngữ nghĩa, mạng kim tự tháp tính năng trích xuất các tính năng quan trọng. SSD [9], công cụ phát hiện một lần cho nhiều danh mục trong một giai đoạn dự đoán trực tiếp điểm số danh mục và độ lệch hộp cho một tập hợp cố định các hộp giới hạn mặc định có tỷ lệ khác nhau tại mỗi vị trí trong một số bản đồ đặc trưng có tỷ lệ khác nhau, như minh họa trong Hình 2.7. Trong các bản đồ đối tượng khác nhau, tỷ lệ của các hộp giới hạn mặc định được tính toán với khoảng cách đều đặn giữa lớp cao nhất và lớp thấp nhất nơi mỗi bản đồ đối tượng cụ thể học cách phản ứng với tỷ lệ cụ thể của các đối tượng.

              Đối với số lượng lớn hộp mặc định là âm bản, các tác giả áp dụng khai thác tiêu cực cứng bằng cách sử dụng mức độ mất tin cậy cao nhất cho mỗi hộp mặc định, sau đó chọn những hộp trên cùng để tạo tỷ lệ giữa âm bản và dương tính nhiều nhất là 3:1. Các biến thể về điều kiện hình ảnh được gây ra bởi các tác động đáng kể mà môi trường không bị hạn chế có thể có đối với hình thức của đối tượng, chẳng hạn như ánh sáng (bình minh, ban ngày, hoàng hôn, trong nhà), vị trí thực tế, điều kiện thời tiết, máy ảnh, nền, ánh sáng, che khuất và chế độ xem điệu nhảy. Các thách thức về hiệu quả xuất phát từ nhu cầu bản địa hóa và nhận dạng, độ phức tạp tính toán tăng lên với số lượng (có thể lớn) các loại đối tượng và với số lượng vị trí và tỷ lệ (có thể rất lớn) trong một hình ảnh.

              Hình 2.2. Cấu trúc máy dò phát hiện đối tượng [8].
              Hình 2.2. Cấu trúc máy dò phát hiện đối tượng [8].

              KẾT QUẢ THỬ NGHIỆM CỦA BÀI TOÁN NHẬN DẠNG CÁC PHƯƠNG TIỆN GIAO THÔNG

              • Thu thập cơ sở dữ liệu về phương tiện giao thông 1. Cơ sở dữ liệu
                • Huấn luyện mô hình 1. Mô hình YOLOv8
                  • Phân tích và đánh giá kết quả thu được 1. Đánh giá độ chính xác của mô hình

                    - Hỗ trợ hệ thống điều khiển giao thông thông minh: Nhận dạng phương tiện giao thông có thể cung cấp thông tin về lưu lượng giao thông thời gian thực, từ đó hỗ trợ hệ thống điều khiển giao thông thông minh để tối ưu hóa luồng giao thông và giảm ùn tắc. Cơ sở dữ liệu 5 phương tiện giao thông: Cơ sở dữ liệu này bao gồm 2.500 hình ảnh của 5 loại phương tiện giao thông đường bộ phổ biến, bao gồm: xe đạp, xe máy, xe hơi, xe buýt và xe tải. Trong lĩnh vực trí tuệ nhân tạo và học máy đang phát triển nhanh chóng, việc có sẵn dữ liệu được gán nhãn chất lượng cao là rất quan trọng để huấn luyện và phát triển các mô hình chính xác.

                    Với giao diện dễ sử dụng và các tính năng tiên tiến, Make Sense giúp người dùng gán nhãn và gắn kết dữ liệu hình ảnh và video một cách hiệu quả, tạo điều kiện thuận lợi cho nhiều ứng dụng như phát hiện đối tượng, phân loại hình ảnh và phân đoạn ngữ nghĩa. Giao diện người dùng thân thiện, hỗ trợ gán nhãn đa lớp, gán nhãn phân cấp, gán nhãn đồng thời và gán nhãn tương tác giúp công cụ trở thành sự lựa chọn xuất sắc cho nhà nghiên cứu, nhà khoa học dữ liệu và nhà phát triển. Với khả năng tích hợp mượt mà và tùy chọn xuất dữ liệu đa dạng, Make Sense giúp người dùng tạo ra các bộ dữ liệu đã được gán nhãn chất lượng cao, cần thiết để huấn luyện và phát triển các mô hình trí tuệ nhân tạo chính xác.

                    Cho dù bạn đang làm việc trong phát hiện đối tượng, phân loại hình ảnh hay phân đoạn ngữ nghĩa, Make Sense là một công cụ quý giá giúp tăng tốc quá trình làm việc và đạt được kết quả tốt hơn. YOLOv8 được thiết kế để trở nên nhanh chóng, chính xác và dễ sử dụng, khiến nó trở thành lựa chọn tuyệt vời cho nhiều tác vụ phát hiện đối tượng, phân đoạn hình ảnh và phân loại hình ảnh. Tuy nhiên, trong quá trình thu thập dữ liệu, đã xác định được 12 giao lộ có tín hiệu video, trong khi có 3 giao lộ không có tín hiệu video, bao gồm: Lương Ngọc Quyến-LTV; Minh Cầu-HVT; Quảng trường Vừ Nguyên Giáp (Tên các điểm giao lộ ghi theo tên trên ứng dụng C-Thái Nguyên).

                    Hình 3.2. Minh họa ảnh 2 lớp đối tượng: Xe đạp và xe máy.
                    Hình 3.2. Minh họa ảnh 2 lớp đối tượng: Xe đạp và xe máy.