1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo môn học Xử lý ảnh: PHÁT HIỆN PHƯƠNG TIỆN TRÊN ĐƯỜNG VÀ ĐẾM SỐ LƯỢNG XE

36 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

chương trình phát hiện ra 3 lớp: Ô tô, xe tải và xe máy. Khi tâm của đối tượng đi qua vạch bắt đầu. Hệ thống sẽ phát hiện đối tượng sau đó sẽ hiển thị các lớp và sự chính xác của đối tượng đó. Khi tâm của đối tượng đi qua vạch kết thúc, số lượng của đối tượng sẽ tăng thêm một đơn vị.

BỘ GIÁO DỤC & ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA ĐIỆN – ĐIỆN TỬ BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH - BÁO CÁO MÔN HỌC ĐỀ TÀI: PHÁT HIỆN PHƯƠNG TIỆN TRÊN ĐƯỜNG VÀ ĐẾM SỐ LƯỢNG XE GVHD: ThS Nguyễn Duy Thảo SVTH: Phạm Văn Dũng Nguyễn Chính Tùng TP Hồ Chí Minh – 4/2022 - 19161216 - 19161026 MỤC LỤC CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 1.1 Phát đối tượng 1.2 Mạng nơ-ron tích chập 1.2.1 Định nghĩa 1.2.2 Phép tốn tích chập 1.2.3 Các đơn vị tuyến tính chỉnh lưu 2.2.4 Lớp gộp 1.3 Thuật toán YOLO 10 1.3.1 Giới thiệu 10 1.3.2 Kiến trúc mạng YOLO 11 1.3.3 Bước YOLO 12 1.3.4 Đầu YOLO 14 1.3.5 Chồng chéo Union 15 1.3.6 Hộp neo 16 1.3.7 Triệt tiêu không tối đa 17 1.4 Bộ liệu MS COCO 18 CHƯƠNG 2: CHƯƠNG TRÌNH .20 PHÁT HIỆN PHƯƠNG TIỆN TRÊN ĐƯỜNG VÀ ĐẾM SỐ LƯỢNG XE 20 2.1 Chương trình .20 2.2 Giải thích chương trình: 24 CHƯƠNG 3: KẾT QUẢ .32 TÀI LIỆU THAM KHẢO 36 CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 1.1 Phát đối tượng Phát đối tượng chủ đề phổ biến lĩnh vực thị giác máy tính xử lý hình ảnh với mục đích phát nhiều đối tượng cụ thể (người, xe cộ, đồ vật, động vật, kiến trúc, ) hình ảnh video Hầu hết nghiên cứu chủ đề liên quan đến nhận diện khuôn mặt nhận dạng người Phát đối tượng có ứng dụng nhiều lĩnh vực thị giác máy tính, bao gồm nhận dạng đối tượng, đếm đối tượng, nhận dạng hoạt động đối tượng theo dõi hoạt động đối tượng Phương pháp: nay, có hai phương pháp để phát đối tượng bao gồm dựa mạng nơ-ron dựa mạng khơng nơ-ron • Phương pháp tiếp cận không nơ-ron: - Khung phát đối tượng Viola – Jones dựa tính Haar Biến đổi đặc trưng bất biến theo tỷ lệ (SIFT) Biểu đồ tính gradient định hướng (HOG) • Phương pháp tiếp cận nơ-ron: - Đề xuất khu vực (R-CNN, Fast R-CNN, Faster R-CNN, cascade R-CNN.) Thuật toán Single Shot MultiBox Detector (SSD) You Only Look Once (YOLO) Mạng nơ-ron sàng lọc lần để phát đối tượng (RefineDet) Retina-Net Mạng tích chập biến dạng Đề tài áp dụng phương pháp dựa mạng nơ-ron cụ thể sử dụng thuật toán YOLO để phát đối tượng phân loại đối tượng Đối tượng phương tiện 1.2 Mạng nơ-ron tích chập 1.2.1 Định nghĩa Mạng nơ-ron tích chập (CNN) sử dụng tích chập thay phép nhân ma trận tổng quát trong lớp chúng Thơng qua phép chập, tính từ hình ảnh trích xuất chuyển thành tích chập lớp Mỗi lớp tích chập bao gồm nhiều đơn vị dẫn đến đơn vị phép biến đổi tích chập từ lớp trước thơng qua phép nhân chập với lọc Hình 1: Tổng qt mạng nơ-ron tích chập 1.2.2 Phép tốn tích chập Đầu tiên, đặt câu hỏi: "Làm để người nhận vật thể" Ví dụ, với hình ảnh mèo, người nhìn vào phận tai, mắt, mũi, miệng hình dáng đầu đầu mèo Tương tự, nhìn vào chân mèo xác định thân mèo Cuối cùng, đầu thân mèo định hình, não đưa kết luận tranh hoàn chỉnh mèo Tại thời điểm này, phận coi đặc điểm não người phát đặc điểm sau kết hợp chúng lại đưa kết luận cuối Tương tự mạng nơron chập, cách mà mạng nơron chập nhận đặc điểm nhỏ tương tự ví dụ sử dụng khái niệm lọc Lấy ví dụ hình bên dưới, trích xuất hình ảnh thành hình ảnh pixel với giá trị -1 (lưu ý: giá trị không thiết phải -1) Và từ hình có lọc khác bao gồm: Bộ lọc hình vịng lặp, Bộ lọc đường dọc Bộ lọc đường chéo Hình 2: Ví dụ phép tốn chập Hình 3: Chuyển đổi thành ảnh pixel Hình 4: Trích xuất lọc Tiếp theo, sử dụng hình ảnh đầu vào với lọc, cụ thể lọc Mẫu tiền sảnh áp dụng phép tốn tích chập (hoạt động lọc) Cách hoạt động phép tốn tích chập dựa thuộc tính gọi kết nối trượt Khơng giống mạng nơron khác, thay kết nối với toàn ảnh đầu vào, mạng nơron chập kết nối với vùng cục tương đương với kích thước lọc ảnh Các lọc trượt hình ảnh từ trái sang phải từ xuống tính tốn giá trị tích chập điền vào đồ kích hoạt Sẽ dễ hình dung dựa hình 5 Hình 5: Minh họa tốn tử tích chập Dựa nguyên tắc ta có kết đồ đối tượng hình Ưu điểm phương pháp thu đồ đối tượng, điểm có số thứ tự gần điểm đặc trưng để phát Nói chung, lọc phát đặc tính Hình 6: Kết đồ đặc tính Hình 7: Bản đồ đặc tính đầy đủ ví dụ Cấu trúc lớp mạng nơron không thiết phải ma trận 2D, lớp mạng nơron biểu diễn dạng ma trận 3D với ba tham số gồm chiều cao, chiều rộng chiều sâu Đối với giá trị chiều rộng chiều cao lớp phụ thuộc vào kích thước lọc, chiều rộng chiều cao lớp trước đó, chiều rộng đường viền trang trình bày lọc Riêng giá trị độ sâu, giá trị không phụ thuộc vào thông số mà số lượng đơn vị lớp Q trình tính tốn đồ kích hoạt dựa lọc tạo ma trận 2D Như vậy, áp dụng cho n lọc khác nhau, lọc có đơn vị mạng nơron, nhận n ma trận 2D có kích thước Khi ma trận chồng lên nhau, đầu khối nơ-ron 3D Thông thường để xử lý ảnh, lớp đầu vào ảnh có màu RBG độ sâu = (số kênh) Hình 8: Cấu trúc khối thần kinh 3D mạng Alexnet 1.2.3 Các đơn vị tuyến tính chỉnh lưu Đơn vị tuyến tính chỉnh lưu chức kích hoạt sử dụng phổ biến mơ hình học sâu Hàm trả nhận đầu vào âm nào, với giá trị dương x, trả giá trị trở lại Vì vậy, viết là: f ( x) max(0, x ) Hình 9: Đồ thị ReLU Giải thích cách đơn giản, ReLU lấy đồ đặc trưng biến đổi giá trị nhỏ thành giữ giá trị lớn Tóm lại, ReLU giúp làm cho mơ hình phi tuyến tính Hình 10: Áp dụng ReLU vào đồ đặc tính 2.2.4 Lớp gộp Tổng hợp phần thiếu mạng nơ-ron tích chập Đây coi dạng lấy mẫu xuống phi tuyến mạng nơron tích chập sử dụng phổ biến thuật tốn gộp tối đa Nói cách dễ hiểu, phương pháp gộp tối đa sử dụng để giảm kích thước Hãy lấy ví dụ đơn giản có hình ảnh với kích thước = 1280 x 720 x Lớp nơ8 ron có giá trị = 1280 x 702 x = ~ triệu Giá trị vô số lớp tế bào thần kinh ẩn ~ triệu Khi trọng số đầu vào lớp ẩn rơi vào khoảng x = triệu Chúng ta thấy giá trị lớn nhiều thời gian để máy tính xử lý Thơng qua phương pháp gộp tối đa giúp giảm giá trị giúp máy tính xử lý thông tin nhanh Đầu tiên, xem ví dụ hiển thị bên giả sử có lọc có kích thước 2x2 Tương tự cách lọc hoạt động hoạt động tích chập, ngoại trừ việc lọc không trượt qua ô, chúng kết nối với vùng cục có kích thước tương tự sử dụng lọc lọc lại Và phương pháp gộp tối đa, lấy giá trị lớn khu vực cục Kết thấy hình đây, sau sử dụng lọc 2x2, ta giảm kích thước hình ảnh 4x4 thành hình ảnh 2x2 Hình 11: Ví dụ phương pháp gộp tối đa Hình 12: Tổng quan đầy đủ phép tốn nơ-ron tích chập Lợi ích việc áp dụng phương pháp tổng hợp tối đa: - Giảm kích thước tính tốn Giảm thiểu tràn giá trị có tham số Mơ hình có khả chịu đựng biến đổi, biến dạng 1.3 Thuật toán YOLO 1.3.1 Giới thiệu YOLO viết tắt "You only look once" Đây thuật toán phát triển cho lĩnh vực phát vật thể Thuật toán YOLO coi thuật tốn khơng có độ xác cao lại có tốc độ nhanh so với mơ hình thuật tốn khác Mục tiêu YOLO khơng nhận dạng đối tượng mà xác định vị trí đối tượng ảnh video Do YOLO phát nhiều đối tượng gắn nhãn khác hình ảnh thay phân loại nhãn cho hình ảnh YOLO phát triển lần Joseph Redmon cộng vào năm 2015 có phiên YOLO phát hành Phiên YOLOv5 phiên thuật toán 10

Ngày đăng: 20/09/2023, 23:15

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w