1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Kỹ thuật máy tính: Hệ thống ước tính vận tốc phương tiện

66 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Hệ Thống Ước Tính Vận Tốc Phương Tiện
Tác giả Vũ Minh Diện, Lam Ly Sơn
Người hướng dẫn ThS. Phan Đình Duy
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành Kỹ thuật Máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2020
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 66
Dung lượng 39,84 MB

Nội dung

Trong bài khóa luận này, nhóm đề xuất cách tiếp cận đo tốc độ phương tiện dựa trên video thu được bằng cách sử dụng xử lý ảnh.. Trên thực tế, Radar vẫn được sử dụng trong một số thiết bị

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KY THUAT MAY TINH

VŨ MINH DIEN LAM LY SON

KHOA LUAN TOT NGHIEP

SPEED ESTIMATION SYSTEM

KỸ SU KY THUAT MAY TÍNH

TP HO CHÍ MINH, 2020

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KỸ THUẬT MÁY TÍNH

VŨ MINH DIEN - 16520210

LAM LY SON -— 16521029

KHOA LUAN TOT NGHIEP

HE THONG UOC TINH VAN TOC PHUONG TIEN

SPEED ESTIMATION SYSTEM

KY SU KY THUAT MAY TINH

GIANG VIEN HUONG DAN

ThS PHAN DINH DUY

TP HO CHi MINH, 2020

Trang 3

THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP

Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số 64/QD-DHCNTT

ngày 26 tháng 01 năm 2021 của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

Trang 4

LỜI CẢM ƠN

Chúng em xin chân thành cảm ơn thầy Phan Đình Duy, cảm ơn thầy đã nhận làm giáoviên hướng dan dé tài của chúng em Cảm ơn thay đã luôn hỗ trợ chúng em trong quátrình làm khoá luận Cảm ơn những nhận xét, lời khuyên và kiến thức hữu ích củathầy Cảm ơn thầy đã chia sẻ những kinh nghiệm quý báu cùng những chỉ dẫn và

động viên chúng em trong quá trình làm khoá luận.

Chúng em cũng xin gửi lời tri ân đến quý thầy cô trường Đại học Công nghệ Thông

tin và Khoa Kỹ thuật Máy tính đã nhiệt tình giảng dạy và truyền đạt những kiến thức

bồ ích trong những năm qua

Cuối cùng chúng em rất mong nhận được sự đóng góp, nhận xét và phê bình của quý

thầy cô

Trang 5

MỤC LỤCChương 1 = TONG QUAN -52- 2 E2 2E EEE1211211211211 2111111111 c0 3

1.1 Tổng quan về bài toán - 2 2 £+ESE‡EESEEEEEEEEEE1211211211171E1 1.1 1ee, 3

1.1.1 Cac công nghệ hiện nay - G111 kg 3

I.1.2 Cac nghiên cứu tương TỰ - - + Sc 1v ngư 4

1.1.3 Téng quan khóa luận -. ©2¿©+¿+2++2+++E+++Ex++rxrrxeerkesree 61.2 Mục tiêu và phạm vi đề tầi -¿- c5 sex 211211212111 21 111.1 cyee, 7

IE W0 ch 8

1.4 Cấu trúc của báo cáo Khóa TUẬN - - ĂĂG 2 111111199 1111 11 92111 kg, 8

Chương2 CO SỞ LÝ THUYỀÊT -:- + ©E+SE+E££E2E££EeEEeEEeEErrxrrerei 9

2.1 Thu viện xử lý ảnh Open - St SH HH HH re, 9

2.2 Những mô hình tiêu biéu có thé ứng dụng trong nhận diện phương tién 10

2.2.1 Mạng nơ ron tích chập - - - 5 S5 kg eiey 10

2.2.2 R-CNN (2014) [10] - cà kg HH gi, 12

2.2.3 Fast R-CNN (2015) HH Hết 14

2.2.4 Faster R-CNN (2016) SH nghệ, 15

2.2.5 YOLO (2015) SH HH TH ng TH ng Hết 18

2.2.6 YOLOv2 (2016) và YOLOV3 (2018) - ác csccssssseree 19

2.2.7 Mô hình SSD (Single Shot Multibox Detecfor) -. 21

2.3 Object Tracking ch HH rry 29

2.3.1 Một số thuật toán tracking phổ St 5c tt E2 crErksrrrrkeree 302.4 Các kỹ thuật tính vận tốc phương tiỆn -2- 22 5¿22+2++cx++zxszeeee 35Chương3 XÂY DỰNG HE THÓNG - 2-52 52+S£+E+E££EerEeEEerxersrree 36

3.1 So sánh, đánh giá các mô hình nhận diện trên nên tảng Máy học 36

Trang 6

3.1.1 _ Tốc độ và độ chính xác - ¿+ Et+E+E£EEEE+EEEEEEEEEEEEErkrEererkererrx 4I3.2 Thiết kế hệ thống phần mềm 2-22 5¿2+2£+++E++2Ex+E++zx++rxzreees 42

3.2.1 — Cài đặt thư viện -©2c2ckerkeckcEErererkrrrrerrrrkerkee 42

3.2.2 Quá trình dao tạo mô hình - - ¿2 E221 1133213 Ex2xxxxe+ 42

4.3 Cài thư viện OD€ICV - G1121 11121 TH HH ng ngư, 47

4.4 Đánh giá nhận diện phương tIỆn c5 2c 13+ E+*EE+eeeEeeerreeeereere 47

4.5 Kết quả vận tỐC -2:-©2¿22+2EE92E1221127121171127121121111 2112111 cre 48

Chương 5 KET LUẬN -©E<2E22EESEEEEEEEEErEkerkrrkrrex 51

5.1 Kết quả dat được -¿22+¿©c+22c22x 22k 2112211221211 crrree 515.2 Ưu-Nhược điêm khóa luận 2- 22 +¿+++2+++Ex++Ex++Extzxeerxesrxrrseee 515.3 Hướng phát triỀn +- k+Sk9Et+E12EE2EEEEEEEE71511521211211211171 1111 ce 53

Tai Lidu Tham Khao 11111757 54

Trang 7

DANH MỤC HÌNH

Hình 1-1 Mô hình chuyên đổi từ khoảng cách thực sang khoảng cách ảo 5Hình 1-2 Bộ dữ liệu được thu thập ở 2 tuyén đường -: -: +22 6Hình 1-3 Đầu ra kết quả thực nghiệm ước tính vận tốc trên hai phương tiện 7Hình 2-1 Một luồng CNN hoàn chỉnh dé xử lý hình ảnh đầu vào 11Hình 2-2 Sơ đồ pipeline xử lý trong mô hình mạng R-CNN - 13Hình 2-3 Kiến trúc single model Fast R-CNN 2- 22222 x+£x+zEezEzrxerxrex 15Hình 2-4 Kiến trúc mô hình Faster R-CNN -ccc-cc+cccccxerrrrtrrrrrrerrre 17

Hình 2-5 Các bước xử lý trong mô hình YOLO - 6 +ccs+c+scssesseseeske 19

Hình 2-6 Sơ đồ tao prior bounding box -: -¿¿©+++¿++2x++zx++zxezrxerxeeres 20

Hinh 2-7 Dinh nghia loU 0 23

Hình 2-8 Cách thức phan chia feature map dé nhận diện các vat thê 23Hình 2-9 Sơ đồ kiến trúc của mang SSD ooc.ececcsceesesseessessessessessesseesessessessessesseeseess 24

Hình 2-10 Vị trí của các default bounding box trên bức ảnh gốc - 27

Hình 2-11 Hình ảnh cho thấy sự chuyên động của qua bóng qua 5 frames 3l

Hình 2-12 Mô hình xử dụng deep learning trong object tracking - 32

Hình 2-13 Mô hình ROUO - c6 1 1 11kg TH HH ng HH gà 33

Hình 2-14 Tổng quan về cách tiếp cận CSR-DCE - 2-2 2+2 E+£E+£x+zezsse2 34

Hình 3-1 Hiệu suất YOL/Ov3 ¿-252c22ttt2E trttEktrtttrtrrrrtirrrriirerrirriio 38

Hình 3-2 So sánh độ chính xác các mô hình - - 5-5555 = + ++zs£+zeeczzeeecsz 39

Hình 3-3 So sánh tốc độ xử lý ¿- + 2+SE+E E SE EEE1211211211211 211111111111 cxe 40

Hình 3-4 So sánh độ chính xác trên COCO dataset - 5555255 <s++<<<s+++s 40

Hình 3-5 So sánh sự cân bằng giữa độ chính xác và tốc độ, - 41Hình 3-6 Sơ đồ giải thuật tổng thé của hệ thống 2-2 2 2©+£x+£x+zzzsse2 43

Hình 3-7 Phân vùng ảo với khoảng cách được đo sẵn - + 5 2 cs+cz+xccz 45

Hình 4-1 Kết quả nhận diện phương tIỆN - 5 5 2+ +3 E + EESeseeEssrssersee 47

Trang 8

DANH MỤC BANG

Bảng 1-1 Thống kê kết quả một số bài báo 2- 2 2 2 2+ +E££E+EE+EE+Ezrzrezes 5Bảng 2-1 Bảng so sánh tốc độ xử lý và độ chính xác của các lớp model 22Bảng 3-1 Kết quả các mô hình được đánh giá trên bộ PASCAL VOC 2012 36Bảng 3-2 Kết quả đánh giá trên MS COCO - 2: ©2225222+2EvEEtcExrzrxerrecree 36Bảng 3-3 Kết quả đánh giá thời gian trên bộ PASCAL VOC 2007 36Bang 3-4 Kết quả đánh giá mô hình trên 3 bộ dữ liệu -2- 2 5+2 37

Bảng 3-5 Kết quả nhận diện trên bộ dự liệu COCO test-dev2015 37

Bang 3-6 Két qua 09900990 .<a 38Bảng 4-1 Kết qua thực nghiệm ướt tính vận tốc của mộ số phương tiện 48Bảng 4-2 So sánh kết quả khóa luận với một số bài báo .: -:¿5: 49

Trang 9

STD SVM

VOC

VOT

YOLO

DANH MỤC TU VIET TAT

Berkeley Software Distribution

Convolutional Neural Network

Discriminative Correlation Filter Tracker with Channel and Spatial Reliability

Fully Connected

Frames Per Second

The ImageNet Large Scale Visual Recognition

Challenge Internet of Things

Intersection over Union

Intelligent Transportation System

Light Imaging, Detection, And Ranging

Long Short Term Memory

Multiple Object Tracking

Mean Squared Error

Radio Detection and Ranging

Regions with CNN features

Region of Interest

Region Proposal Network

Simple Online Realtime Object Tracking

Single Object Tracking

Spatial Pyramid Pooling Networks

Single Shot Multibox Detector

Standard Deviation

Support vector machine

The PASCAL Visual Object Classes Challenge

Visual Object Tracking Challenge

You Only Look Once

Trang 10

TÓM TẮT KHÓA LUẬN

Vận tốc phương tiện là thông số quan trọng không chỉ với người tham gia giao thông

mà còn với công an giao thông, nhằm theo dõi và phát hiện phương tiện vượt quá tốc

độ cho phép Từ đó cải thiện tình hình giao thông và giảm thiêu tai nạn do vượt quátốc độ cho phép Hiện nay, có hai phương pháp đo tốc độ phố biến là Radar và Lidar.Tuy nhiên, hai phương pháp này tồn tại một số hạn chế như chi phí dat đỏ, thiếu tính

hệ thống, tự động hóa và đo đơn lẻ Trong bài khóa luận này, nhóm đề xuất cách tiếp

cận đo tốc độ phương tiện dựa trên video thu được bằng cách sử dụng xử lý ảnh Déxuất này sẽ giải quyết được các nhược điểm của phương pháp hiện nay như sử dụng

cơ sở hạ tầng camera giao thông sẵn có, theo dõi và phát hiện trường hợp phương tiện

vượt quá tốc độ tốt hơn, có tính hệ thống và tự động hóa cao giúp giảm nguồn lực lao

động Tuy nhiên, vẫn còn những hạn chế như cần cung cấp, đo đạc các tham số ứng

mỗi camera và các điều kiện thời tiết đều có thể ảnh hưởng đến kết quả Trong bài

khóa luận nay nhóm cũng giới thiệu bộ dữ liệu tự tạo có tên là vn_vehicle Day là bộ

dữ liệu nhóm thu thập trên hai tuyến đường lớn dé ghi lai quá trình di chuyên của cácphương tiện phô biến như xe máy, xe hơi Nhóm cũng thực hiện so sánh, đánh giácác model nhận diện và các thuật toán tracking Đồng thời, nhóm cũng đánh giá hiệusuất của phương pháp băng cách so sánh với vận tốc thực tế và đạt được kết quả mongmuốn với fps trung bình phụ thuộc vào mật độ là 14 - 18fps, sai số trung bình là4,61% với sai số nhỏ nhất là 0% và sai số lớn nhất là 9.8%

Trang 11

MỞ ĐẦU

Với sự tiến bộ nhanh chóng của công nghệ 4.0, đặc biệt là trong lĩnh vực Internet ofThings (IOT) với Intelligent Transportation System (ITS) đã thúc đây cộng đồngnghiên cứu công nghệ quan tâm đến việc áp dụng các kỹ thuật để tạo ra những công

cụ quản lý đô thị thông minh hơn, hệ thống hơn

Tai nạn giao thông là một nguyên nhân gây tử vong hàng đầu Việt Nam Văn phòng

Ủy ban ATGT Quốc gia vừa có báo cáo về tình hình tai nạn giao thông tháng 9/2020

(từ ngày 15/8/2020 đến 14/9/2020) và 9 tháng đầu năm 2020 (tính từ ngày 15/12/2019đến 14/9/2020) Theo đó, 9 tháng đầu năm toàn quốc xảy ra hơn 10.000 vụ TNGT,

làm chết hơn 4.800 người, bị thương hơn 7.600 người [1] Do vậy cần những phươngpháp quản lý, giám sát tốc độ giao thông hiệu quả

Hiện nay, phương pháp dé đo vận tốc gồm Radar và Lidar Đặc biệt là Lidar, đây làphương pháp hiện được sử dụng dé đo vận tốc phương tiện đang lưu thông ở ViệtNam Bên cạnh những khuyết điểm của các phương pháp trên ta có thê tận dụng hìnhảnh thu về từ các camera giám sát trên đường kết hợp với phương pháp xử lý ảnh đểphân tích tốc độ xe Tóm lại, dé tăng cường khả năng giám sát giao thông trên cáctuyến đường thì giải pháp xử lý ảnh đang được nhiều học giả nghiên cứu tới

Từ việc nhận thấy đưa công nghệ vào trong quản lý đô thị có thê xây dựng thành phốthông minh cũng như thúc đây quá trình hiện đại hóa độ thị hóa đất nước Nhóm đãnảy ra ý tưởng về việc nghiên cứu tạo ra một hệ thống camera ngoài chức năng giám

sát mà còn có thê đo vận tôc tự động.

Trang 12

Chương 1 TONG QUAN

Trong chương này, chúng em giới thiệu tong quan về khái niệm bài toán ước tinh vậntốc phương tiện dựa trên xử lý ảnh và các thách thức mà bài toán gặp phải Đồng thời,

chúng em cũng giới thiệu các nghiên cứu liên quan của các nhà khoa học trong và

ngoài nước Qua đó, chúng em đưa ra mục tiêu, nội dung và phương pháp thực hiện

của đề tài này so với các nghiên cứu trên Cấu trúc của khóa luận cũng đươc đề cập

ở chương này.

1.1 Tổng quan về bài toán

1.1.1 Các công nghệ hiện nay

Thiết bị đo tốc độ trong xử lý vi pham giao thông đã xuất hiện từ rất lâu ở thế kỷtrước Những thiết bị đo tốc độ đã được phát minh ở cuối những thập kỷ 1940 Dùtồn tại lâu đời, nhưng nguyên lý hoạt động cốt lõi của nó vận không thay đổi suốtnhiều thập kỷ

Trên thực tế, Radar vẫn được sử dụng trong một số thiết bị đo tốc độ vì công nghệnày rất đáng tin cậy và độ chính xác cao Theo đó, thiết bị sẽ băn tín hiệu vô tuyến

vào một vật thé chuyên động với tan số đã biết Tín hiệu dội lai từ vật thé quay trở lại

thiết bị ở một tần số khác và sự khác biệt là tốc độ của vật thê đang đến gần hoặc rời

đi Nó được gọi là hiệu ứng Doppler Mặc dù vậy, Radar cũng có những hạn chế do

đó một công nghệ đo tốc độ mới sử dụng cách giải thích hiện đại về nguyên tắc tương

tự ra đời.

Trong khi thiết bị đo tốc độ bằng Radar vẫn tồn tại, công nghệ Lidar đã dần dần thaythế nó trong những năm đầu của thế kỷ 21 như một thiết bị đo tốc độ vi phạm giaothông ưa chuộng Thay vì tín hiệu vô tuyến, thiết bị đo tốc độ bằng Lidar bắn các

xung ánh sáng vào xe và đo thời gian chúng quay trở lại Các thiết bị Lidar tỉnh vi có

thê đo chính xác các xung được chiếu cũng như các xung phản xạ từ phương tiện mụctiêu Nói một cách đơn giản, thiết bị tính toán sự thay đôi về khoảng cách trong mộtkhoảng thời gian rất ngắn từ đó tính ra vận tốc Nguồn ánh sáng của Lidar là tia laser

Trang 13

cực mạnh không thé nhìn thấy bằng mắt thường nhưng đủ mạnh dé dội lại từ cácphương tiện cách xa hàng trăm mét Không giống như Radar, tia laser nhắm mục tiêuchính xác hơn, cho phép cảnh sát nhắm mục tiêu vào một phương tiện cụ thể đangtham gia giao thông và các xung ánh sáng giống như một dấu hiệu khó có thé “giảmao’ hoặc đánh lừa bởi các thiết bị khác Tia laser cũng là một tần số ánh sáng rất cụ

thé, do đó, nó không dễ bị nhằm lẫn bởi các nguồn khác.

Người vận hành thường nhắm mục tiêu vào biên số đăng ký của xe vì điều này tạo ramột bề mặt phản chiếu phăng ở một góc vuông và phản xạ tia laser trực tiếp trở lạiđiểm gốc của nó và với hơn 100 phép đo được thực hiện trong nửa giây, quá trình đo

gan như tức thì

1.1.2 Các nghiên cứu tương tự

Trong khi đó, việc do tốc độ giao thông dựa trên camera giám sát được lắp đặt vẫn làmột bài toán còn trong giai đoạn nghiên cứu mà chưa được triển khai Bài toán dang

được quan tâm bởi cộng đồng các nhà khoa học với mục đích triển khai hệ thong do

vận tốc phương tiện giao thông trên diện rộng với số lượng lớn, thông minh hơn, kếtnối tốt hơn Tuy nhiên vẫn còn tôn tại những thách thức lớn khiến dự án vẫn chưa théthương mại Một trong những thách thức lớn nhất là khả năng hoạt động đa góc, vớimỗi camera đều phải cung cấp, đo đạc các tham số thủ công do đó tiêu tốn về công

sức và chi phi.

Các nghiên cứu về đề tài này đều đề xuất những phương pháp, kỹ thuật đề tính đoạn

đường di chuyên của phương tiện Đề tính toán khoảng cách di chuyên của phương

tiện là một vấn đề khó khăn do khoảng cách trong video 2 chiều và khoảng cách trongthời gian thực 3 chiều là khác nhau Do đó cần một bước căn chỉnh dé khớp tọa độ

của camera giám sát, tọa độ thực và tọa độ trên ảnh Nhìn chung, các bài báo nghiên

cứu khoa học đều thực hiện phép biến đổi từ hệ tọa độ ảnh với đơn vị pixel sang hệ

tọa độ thực với đơn vi khoảng cách là mét như ở hình 1-1.

Trang 14

Hình 1-1 Mô hình chuyền đổi từ khoảng cách thực sang khoảng cách ảo [2]

Bài báo [2] đê xuât mục đích của việc hiệu chuân camera chính là đê tính toán khoảng

cách thực d giữa 2 điểm (P1, P2 ) trên mặt đường thông qua phép chiếu (p1, p2) trên

không gian ảnh.

Bảng 1-1 Thống kê kết quả một số bài báo [3] [4] [5] [6]

mm BAI BAO SAI SO VAN TÓC

Automatic Camera +2% 1920 x 1080 Low traffic: 24.98

Calibration for Traffic High traffic: 19.64

NSGA-II Based Auto- Largest MSE: 16.69 1280 x 720 25 fps

Calibration of Automatic Smallest MSE: 3.56

Nhìn chung, với độ phân giải FullHD, bài báo của nhóm tác gia Markéta Dubska [3]

dat FPS từ 19fps đến 25fps tùy thuộc vào mật độ giao thông và có sai số là +2% so

Trang 15

VỚI Vận tốc thực Bài báo [4] của nhóm tác giả Lazaros và cộng sự có độ phân giải

thấp hơn va fps đạt được cao hơn, nhóm tac giả đưa ra sai số là 2 km/h Nhóm tác

giả của bài báo [5] thực hiện rất nhiều đánh giá dựa trên rất nhiều các yếu tố và đưa

ra MSE và STD lớn nhất và nhỏ nhất như bảng 1-1 Trong khi bài báo [6], có sai sốtrung bình lớn nhất với +3.325 km/h

1.1.3 Tổng quan khóa luận

Trong khóa luận này, chúng em tiến hành tìm hiểu và áp dung mô hình máy học cũngnhư các phương pháp huấn luyện dé nhận diện phương tiện cũng như đưa ra một sốđánh giá về các mô hình và các thuật toán tracker Cuối cùng, chúng em đưa raphương pháp dé tính vận tốc phương tiện bằng xử lý ảnh được áp dụng trên bộ dit

liệu mà chúng em thu thập.

= `j ẢJ.

Hình 1-2 Bộ dữ liệu được thu thập ở 2 tuyển đường

Chúng em tự tạo một bộ đữ liệu có tên là vn_vehicle, được quay ở hai điểm tại Thành

phố Hỗ Chí Minh là đường Hoàng Văn Thụ, Tân Binh và Điện Biên Phủ, Binh Thanh

Bộ dữ liệu video được quay vào ban ngày trong khoảng thời gian từ (13h-16h) với

tổng thời gian hơn 2 tiếng định dạng mp4, độ phân giải 1920x1080 và 30 FPS Đốitượng chúng em thu thập là phương tiện lưu thông chủ yếu là: xe máy, ô tô, xe buýt.Sau đó chúng em đã sử dụng hơn 10000 mau (samples) dé tiến hành training model

Số còn lại chúng em sử dụng mục đích xử lý và thử nghiệm

Những đóng góp của khóa luận này gồm:

Trang 16

e Tu xây dựng bộ di liệu riêng phù hợp với giao thông Việt Nam đặc biệt là bộ

dữ liệu về xe máy

e Dé xuất và xây dựng hệ thong nhận diện, theo dõi phương tiện bằng ứng dụng

mạng neural kết hợp thuật toán Tracking và xử lý ảnh

e_ Tiến hành thực hiện ước tính vận tốc trên bộ dữ liệu dé đánh giá và so sánh

kết quả

Hình 1-3 Đầu ra kết quả thực nghiệm ước tính vận tốc trên hai phương tiện.

1.2 Mục tiêu và phạm vi đề tài

Mục tiêu: nhóm đưa ra mục tiêu là thực hiện ước tính tốc độ phương tiện trên hai

tuyến đường trong Thành phó Hồ Chí Minh Cụ thé:

e Tìm hiểu, khảo sát và thực hiện các phương pháp nhận diện phương tiện giao

thông Kết quả mong muốn chỉ số sai lệch xấp xi 1

e Tìm hiểu, khảo sát và thực hiện các thuật toán tracking

e - Nghiên cứu và thực hiện phương pháp tinh vận tốc phương tiện Kết quả mong

muốn đạt sai số 10%

e Fps mong muốn dat từ 15fps đến 25fps tùy thuộc mật độ giao thông

Phạm vi: Thử nhiệm và ứng dụng các thuật toán nhận diện, tracking và ước tính vận

tốc phương tiện trên bộ dữ liệu là các video đã thu thập ở hai tuyền đường có độ phân

giải FullHD.

Trang 17

1.3 Thách thức

Bài toán gặp một số thách thức khi nhóm triển khai thực hiện và một trong những

thách thức lớn nhất khiến phương pháp này chưa thể áp dụng rộng rãi là mỗi camera

đều phải cung cấp và đo đạc các tham số thủ công Nghĩa là mỗi camera riêng biệtphải cấu hình riêng biệt Ngoài ra, vẫn có một số nguyên nhân khách quan khiến sai

số vận tốc lớn như thời tiết, điều kiện thiếu ánh sáng hay những trường hợp phươngtiện di chuyển không theo đường thang Đó cũng là hạn chế của đề tài khóa luận này

cũng như các công trình nghiên cứu trước.

1.4 Câu trúc của báo cáo Khóa luận

Phần còn lại của Khóa luận tốt nghiệp được tổ chức như sau, trong Chương 2 chúng

em trình bày những cơ sơ lý thuyết liên quan đến đề tài Khóa luận Chương 3 chúng

em trình bày chỉ tiết các kiến trúc và phương pháp liên quan đến quy trình xây dựng

hệ thống ước lượng vận tốc phương tiện Chương 4 chúng em trình bày các thựcnghiệm, kết quả thu được và đánh giá Cuối cùng Chương 5 chúng em đưa ra kết luận

và hướng phát triển

Trang 18

Chương 2 CƠ SỞ LY THUYET

Ở Chương này chúng em trình bày tổng quan cơ sở lý thuyết liên quan đến bài toán

ước tính vận tôc phương tiện dựa trên xử lý ảnh mà chúng em nghiên cứu.

2.1 Thư viện xử lý ảnh OpenCV [7]

OpenCV là một thư viện mã nguồn mở hàng đầu cho thị giác máy tính (computer

vision), xử lý ảnh và máy học, và các tính năng tăng tốc GPU trong hoạt động thời

gian thực.

OpenCV được phát hành theo giấy phép BSD, do đó nó hoàn toàn miễn phí cho cả

học thuật và thương mại OpenCV có các interface C++, C, Python, Java va hỗ trợ

Windows, Linux, Mac OS, iOS và Android OpenCV được thiết kế đề tính toán hiệuquả và với sự tập trung nhiều vào các ứng dụng thời gian thực Được viết bang tối ưu

hóa C/C++, thư viện có thể tận dụng lợi thế của xử lý đa lõi

Một số ứng dụng OpenCV:

e Hình anh street view

e Kiểm tra và giám sát tự động

e Robot và xe hơi tự lái

e Phân tích hình ảnh y tế

e Tìm kiếm và phục hồi hình ảnh/video

e Phim - cấu trúc 3D từ chuyển động

e Nghệ thuật sắp đặt tương tác

Chức năng chính của OpenCV:

e Image/video I/O, xử lý, hiển thị (core, imgproc, highgui)

e Phát hiện các vat thé (objdetect, features2d, nonfree)

e Geometry-based monocular or stereo computer vision (calib3d,

e stitching, videostab)

e Computational photography (photo, video, superres)

Trang 19

e Machine learning & clustering (ml, flann)

e CUDA acceleration (gpu)

Ngôn ngữ lập trình Python với thư viện OpenCV:

e Ngôn ngữ lập trình Python là một ngôn ngữ có hình thức dễ nhìn, cau trúc rõ

ràng cùng cú pháp ngắn gọn phù hợp cho mọi đối tượng đặc biệt là nhữngngười mới học lập trình Bên cạnh đó việc hỗ trợ trên tất cả các nền tảng hệđiều hành từ Unix, MS-DOS, MAC OS, Windows, Linux cùng các OS thuộc

họ Unix khác giúp đa dạng nên tảng lập trình

e Tương thích mạnh với UNIX, hardware, third-party software cùng theo đó là

thư viện không 16 có sẵn như: numpy, Pandas, Scikit-learn,

© Với tốc độ xử lý nhanh, Python dễ dàng tạo ra những chương trình từ những

script nhỏ đến những phần mềm lớn như Blender 3D

e Ứng dụng thực tế của Python rất nhiều đặc biệt trong đó phải kê đến 3 ứng

dụng lớn nhất:

o Khoa học máy tính: OpenCV, Numpy, Scipy,

o Máy học: Tensorflow, scikit-learn,

o Lập trình cho bo mach: Arduino, Raspberry Pi,

OpenCV hỗ trợ trên nhiều ngôn ngữ lập trình khác nhau như C++, Python, hayOpenGL của C# Python được chon trong đề tài này vì tính dé sử dụng, dé cài đặtcùng việc hỗ trợ trên nhiều hệ điều hành khác nhau giúp đây là một sự chọn lựa tốtnhất của đề tài

2.2 Những mô hình tiêu biểu có thé ứng dụng trong nhận diện phương tiện

2.2.1 Mạng nơ ron tích chập

Mạng nơ-ron tích chập (CNN) là mạng nơ-ron phổ biến nhất được dùng cho bài toán

xử lí ảnh Bên cạnh các lớp fully connected, mạng nơ-ron tích chập còn bao gồm các

lớp an đặc biệt (hidden layer) giúp phát triển và trích xuất các đặc trưng xuất hiện

trong ảnh được gọi là lớp tích chập (convolutional layer) Chính những lớp tích chập

10

Trang 20

này làm mạng nơ-ron trở nên khác biệt so với mạng nơ-ron truyên thông và tạo ra

hiệu quả cao trong bài toán phân tích hình anh [8].

MPUT CONVOLUTION » E#LU PGGLiti0 CONVOLUTION « EEL POOLING FLATTEN

¬

Y Y FEATURE LEARNING CLASSIFICATION

Hình 2-1 Một luồng CNN hoàn chỉnh dé xử ly hình ảnh đầu vào [9]

Về mặt kỹ thuật mỗi ảnh đầu vào sẽ chuyên qua một loạt các lớp tích chập với các bộ

lọc, Pooling, lớp Fully Connected (FC) và áp dụng hàm Softmax dé phân loại một

đối tượng với các giá trị xác suất giữa 0 va 1

+ Lớp/tầng tích chập (Conv layer) là lớp đầu tiên dé trích xuất các đặc trưng từ một

ảnh đầu vào Lớp Conv duy trì mối quan hệ giữa các pixel bằng cách học các đặc

trưng ảnh Đây là một phép toán học có hai đầu vào: ma trận hình ảnh và bộ lọc/hạt

nhân [9].

+ Lớp/tầng pooling là một phép downsampling, thường được sử dụng sau tầng tíchchập, làm giảm số lượng tham số khi ảnh quá lớn nhưng vẫn giữ được thông tin quantrọng (tính bất biến không gian) Max pooling sẽ lấy giá trị lớn nhất trong khu vực nó

đang được sử dụng còn average pooling tính trung bình các giá trị trong khu vực nó

Trang 21

2.2.2 R-CNN (2014) [10]

R-CNN (regions with CNN features) là lớp các mô hình xác định vùng đặc trưng dựa

trên các mang CNN được phát trién bởi Ross Girshick và các cộng sự Lớp các môhình này gồm 3 mô hình chính là R-CNN, Fast R-CNN và Faster-RCNN được thiết

kê cho các nhiệm vụ định vi vật thê và nhận diện vật thê.

R-CNN được giới thiệu lần đầu vào 2014 bởi Ross Girshick và các cộng sự ở UC

Berkeley một trong những trung tâm nghiên cứu AI hàng đầu thế giới trong bài báo

[11].

R-CNN có thé là một trong những ứng dụng nền móng đầu tiên của mang no ron tíchchập đối với vẫn đề định vị, phát hiện và phân đoạn đối tượng Cách tiếp cận đã đượcchứng minh trên các bộ dữ liệu điểm chuẩn, đạt được kết quả tốt nhất trên bộ dữ liệu

The PASCAL Visual Object Classes Challenge (VOC-2012) và bộ dir liệu phát hiện

đối tượng (The ImageNet Large Scale Visual Recognition Challenge) ILSVRC-2013

gồm 200 lớp [11]

Kiến trúc của R-CNN gồm 3 thành phan đó là:

e Vùng đề xuất hình ảnh (Region proposal): Có tác dụng tao và trích xuất các

vùng dé xuất chứa vật thé được bao bởi các bounding box

e Trích lọc đặc trưng (Feature Extractor): Trích xuất các đặc trưng giúp nhận

điện hình ảnh từ các region proposal thông qua các mang deep convolutional

neural network.

e Phan loại (classifier): Dựa vào input là các features ở phần trước để phân loại

hình ảnh chứa trong region proposal về đúng nhãn

Kiên trúc của mô hình được mô tả trong biêu đô bên dưới:

12

Trang 22

R-CNN: Regions with CNN features

SBS weed region — — aeroplane? no

2 Extract region 3 Compute 4 Classify

image proposals (~2k) CNN features regions

Hình 2-2 Sơ đồ pipeline xử lý trong mô hình mang R-CNN [11]

Ta có thể nhận thấy các hình ảnh con được trích xuất tại bước 2 với số lượng rất lớn

(khoảng 2000 region proposals) Tiếp theo đó áp dụng một mạng deep CNN để tínhtoán các feature tại bước 3 và trả ra kết quả dự báo nhãn ở bước 4 như một tác vụ

image classification thông thường.

Một kỹ thuật được sử dụng dé đề xuất các region proposal hoặc các bounding boxchứa các đối tượng tiềm năng trong hình ảnh được gọi là “selective search”, cácregion proposal có thể được phát hiện bởi đa dạng những thuật toán khác nhau Điểmchung là đều dựa trên ty lệ Intersection over Union (IoU) giữa bounding box và

ground truth box.

Trích xuất đặc trưng về bản chất là một mạng CNN học sâu, ở đây là AlexNet, mạng

đã giành chiến thắng trong cuộc thi phân loại hình ảnh ILSVRC-2012 Đầu ra củaCNN là một vectơ 4096 chiều mô tả nội dung của hình ảnh được đưa đến một môhình Support vector machine (SVM) tuyến tính dé phân loại

Nhược điểm của phương pháp này là chậm, đòi hỏi phải vượt qua nhiều module độc

lập trong đó có trích xuất đặc trưng từ một mạng CNN học sâu trên từng regionproposal được tạo bởi thuật toán đề xuất vùng chứa ảnh Đây là một vấn đề chính cầngiải quyết vì bài viết mô tả mô hình hoạt động trên khoảng 2000 vùng được đề xuấtcho mỗi hình ảnh tại thời điểm thử nghiệm

13

Trang 23

2.2.3 Fast R-CNN (2015)

Dựa trên thành công của R-CNN, Ross Girshick đề xuất một mở rộng để giải quyết

vấn đề của CNN trong một bài báo vào năm 2015 với tiêu đề rất ngắn gọn Fast

R-CNN [12].

Bài báo chỉ ra những han chế của R-CNN đó là:

e Training qua một pipeline gồm nhiều bước: Pipeline liên quan đến việc chuẩn

bị và vận hành ba mô hình riêng biệt.

e_ Chi phí training tốn kém về số lượng bounding box và thời gian huấn luyện:

Mô hình huấn luyện một mạng CNN học sâu trên rất nhiều region proposalcho mỗi hình ảnh nên rất chậm

© Phát hiện đối tượng chậm: Tốc độ xử lý không thể đảm bảo realtime

Trước đó một bài báo đã đề xuất phương pháp dé tăng tốc kỹ thuật được gọi là mạng

tong hợp kim tự tháp - Spatial Pyramid Pooling in Deep Convolutional Networks forVisual Recognition [13] hoặc SPPnets vào năm 2014 Phương pháp nay đã tăng tốc

độ trích xuất features nhờ lan truyền thuận trên bộ nhớ đệm

Điểm đột phá của Fast R-CNN là sử dụng một single model thay vì pipeline dé phát

hiện region va classification cùng lúc.

Kiến trúc của mô hình trích xuất từ bức ảnh một tập hợp các region proposals làmđầu vào được truyền qua mạng deep CNN Một pretrained-CNN, chăng hạn VGG-

16, được sử dụng để trích lọc features Phần cuối của deep-CNN là một custom layer

được gọi là layer vùng quan tâm (Region of Interest Pooling - RoI Pooling) có tác

dụng trích xuất các features cho một vùng anh input nhất định

Sau đó các features được kết bởi một lớp fully connected Cuối cùng mô hình chia

thành hai đầu ra, một đầu ra cho dự đoán nhãn thông qua một softmax layer và một

đầu ra khác dự đoán bounding box (kí hiệu là bbox) dựa trên hồi qui tuyến tính Quá

14

Trang 24

trình này sau đó được lặp lại nhiều lần cho mỗi vùng Rol trong một hình ảnh Kiến

trúc của mô hình được tóm tắt trong hình dưới đây, được lấy từ bài báo

Hình 2-3 Kiên trúc single model Fast R-CNN

Ở bước đầu ta áp dụng một mạng Deep CNN dé trích xuất ra feature map Thay vì

warp image của region proposal như ở R-CNN chúng ta xác định ngay vi trí hình

chiếu của region proposal trên feature map thông qua phép chiếu Rol projection Vị

trí này sẽ tương đối với vị trí trên ảnh gốc Sau đó tiếp tục truyền output qua các layer

Rol pooling layer và các Fully Connected layers dé thu được Rol feature véc tơ Sau

đó kết quả đầu ra sẽ được chia làm 2 nhánh 1 Nhánh giúp xác định phân phối xác

suất theo các class của 1 vùng quan tâm Rol thông qua hàm softmax và nhánh còn

xác định tọa độ của bounding box thông qua hồi quy các offsets

Mô hình này nhanh hơn đáng kê cả vê huân luyện và dự đoán, tuy nhiên vần cân một

tập hợp các region proposal được đề xuất cùng với mỗi hình ảnh đầu vào

2.2.4 Faster R-CNN (2016)

Kiến trúc mô hình đã được cải thiện hon nữa về cả tốc độ huấn luyện và phát hiện

được đề xuất bởi Shaoqing Ren và các cộng sự tại Microsoft Research trong bài báo

năm 2016 có tiêu đề Faster R-CNN: Towards Real-Time Object Detection with

Region Proposal Networks [14] Dịch nghĩa là “Faster R-CNN: Hướng tới phát hiện

đôi tượng theo thời gian thực với các mạng đê xuât khu vực”.

15

Trang 25

Kiến trúc này mang lại độ chính xác cao nhất đạt được trên cả hai nhiệm vụ phát hiện

và nhận dạng đối tượng tại các cuộc thi ILSVRC-2015 và MS COCO-2015.

Kiến trúc được thiết kế dé đề xuất và tinh chỉnh các region proposals như là một phan

của quá trình huấn luyện, được gọi là mạng đề xuất khu vực (Region Proposal

Network), hoặc RPN Cac vùng nay sau đó được sử dung cùng với mô hình Fast

R-CNN trong một thiết kế mô hình duy nhất Những cải tiến này vừa làm giảm số lượngregion proposal vừa tăng tốc hoạt động trong thời gian thử nghiệm mô hình lên gần

thời gian thực với hiệu suất tốt nhất Tốc độ là 5fps trên một GPU

Mặc dù là một mô hình đơn lẻ duy nhất, kiến trúc này là kết hợp của hai modules:

e Mạng đề xuất khu vực (Region Proposal Network, viết tắt là RPN) Mạng

CNN dé đề xuất các vùng và loại đối tượng cần xem xét trong vùng

e Fast R-CNN: Mang CNN đề trích xuất các features từ các region proposal và

trả ra các bounding box va nhãn.

Cả hai modules hoạt động trên cùng một output của một mạng deep CNN Mạng RPN

hoạt động như một cơ chế attention cho mạng Fast R-CNN, thông báo cho mạng thứ

hai về nơi cân xem hoặc chú ý.

Kiến trúc của mô hình được tong kết thông qua sơ đồ bên dưới:

16

Trang 26

Hình 2-4 Kiến trúc mô hình Faster R-CNN [14].

Ở giai đoạn sớm sử dụng một mang deep CNN dé tạo ra một feature map Khác với

Fast R-CNN, kiến trúc này không tao Rol ngay trên feature map mà sử dung feature

maps làm đầu vào dé xác định các region proposal thông qua một RPN network.Đồng thời feature maps cũng là đầu vào cho classifier nhằm phân loại các vật thé của

region proposal xác định được từ RPN network.

RPN hoạt động bằng cách lấy đầu ra của một mạng pre-trained đeep CNN, chăng hạnnhư VGG-16, và truyền feature map vào một mạng nhỏ và đưa ra nhiều region

proposals và nhãn dự đoán cho chúng Region proposals là các bounding boxes, dựa

trên các anchor boxes hoặc hình dạng được xác định trước được thiết kế dé tăng tốc

và cải thiện khả năng đề xuất vùng Dự đoán của nhãn được thê hiện dưới dạng nhịphân cho biết region proposal có xuất hiện vật thé hoặc không

Một quy trình huấn luyện xen kẽ được sử dụng trong đó cả hai mạng con được đàotạo cùng một lúc Điều này cho phép các tham số trong feature detector của deep

CNN được tinh chỉnh cho cả hai tác vụ cùng một lúc.

17

Trang 27

2.2.5 YOLO (2015)

Một họ mô hình nhận dang đối tượng phô biến khác được gọi chung là YOLO Các

mô hình R-CNN nói chung có thé chính xác hơn, tuy nhiên họ mô hình YOLO nhanhhơn rất rất nhiều so với R-CNN, và thậm chí đạt được việc phát hiện đối tượng trong

thời gian thực.

Mô hình YOLO được mô tả lần đầu tiên bởi Joseph Redmon, và các cộng sự trongbài viết năm 2015 có tiêu đề Bạn chỉ nhìn một lần: Phát hiện đối tượng theo thời gian

thực - You Only Look Once: Unified, Real-Time Object Detection [15].Trong công

trình này thì một lần nữa Ross Girshick, người phát triển mạng R-CNN, cũng là mộttác giả và người đóng góp khi ông chuyền qua Facebook AI Research

Phương pháp chính dựa trên một mạng neural network duy nhất được huấn luyệndạng end-to-end model Mô hình lấy input là một bức ảnh và dự đoán các bounding

box và nhãn lớp cho mỗi bounding box Do không sử dụng region proposal nên kỹ

thuật này có độ chính xác thấp hơn (ví dụ: nhiều lỗi định vi vật thé - localization error

hơn).

Mô hình hoạt động băng cách trước tiên phân chia hình ảnh đầu vào thành một lưới các 6 (grid of cells), trong đó mỗi ô chịu trách nhiệm dự đoán các bounding boxes

nếu tâm của nó năm trong ô Mỗi grid cell (tức 1 ô bất kì nằm trong lưới 6) dự đoán

các bounding boxes được xác định dựa trên tọa độ x, y (thông thường là tọa độ tâm,

một số phiên bản là tọa độ góc trên cùng bên trái) và chiều rộng (width) và chiều cao(height) và độ tin cậy (confidence) về khả năng chứa vật thể bên trong Ngoài ra các

dự đoán nhãn cũng được thực hiện trên mỗi một bonding box.

Ví dụ: một hình ảnh có thê được chia thành lưới 7 x 7 và mỗi ô trong lưới có thể dự

đoán 2 bounding box, kết quả trả về 98 bounding box được đề xuất Sau đó, một sơ

đồ xác suất nhãn (gọi là class probability map) với các confidence được kết hợp thành

một tập hop bounding box cuối cùng và các nhãn Hình ảnh được lấy từ bài báo dướiđây tóm tắt hai kết quả đầu ra của mô hình

18

Trang 28

oT te

SxS grid on input Final detections

Class probability map

- Hình 2-5 Các bước xử lý trong mô hình YOLO [15].

Đầu tiên mô hình chia hình ảnh thành một grid search kích thước SxS Trên mỗi mộtgrid cell ta dự báo một số lượng B bounding boxes và confidence cho những boxesnày và phân phối xác suất của C classes Như vậy output các dự báo là một tensor

kích thước SxSx(Bx5+C) Giá trị 5 là các tham số của offsets của bounding box gồm

x, y, w, h và confidence C là số lượng tham số của phân phối xác suất

2.2.6 YOLOv2 (2016) và YOLOv3 (2018)

Mô hình YOLOv2 được Joseph Redmon và Ali Farhadi cập nhật nhằm cải thiện honnữa hiệu suất trong bài báo năm 2016 có tựa dé là YOLO9000: Better, Faster,

Stronger [16].

Mặc dù biến thé của YOLO được gọi là YOLOv2, một instance của mô hình theo

như mô tả đã được đảo tạo trên hai bộ dữ liệu nhận dạng đối tượng, và có khả năng

dự đoán lên tới 9000 loại đối tượng khác nhau, do đó được đặt tên là YOLO9000.Với con số này thì mô hình này đã tiến xa hơn rất nhiều so với mọi mô hình trước đó

về sô lượng các loại đôi tượng có khả năng phát hiện.

Một sô thay đôi vê huan luyện và kiên trúc đã được thực hiện, chăng hạn như việc sử

dụng batch normalization cho hàng loạt và hình ảnh đầu vào phân giải cao

19

Trang 29

Giống như Faster R-CNN, mô hình YOLOv2 sử dụng anchor boxes, bounding box

được xác định trước với hình dạng và kích thước hợp lý được tùy chỉnh trong quá

trình huấn luyện Sự lựa chọn các bounding boxes cho hình ảnh được xử lý trướcbằng cách sử dụng thuật toán phân cụm k-mean trên tập dữ liệu huấn luyện

Điều quan trọng, các predicted bounding box được tinh chỉnh dé cho phép các thay

đổi nhỏ có tác động ít hơn đến các dự đoán, dẫn đến mô hình 6n định hơn Thay vì

dự đoán trực tiếp vị trí và kích thước, các offsets (tức tọa độ tâm, chiều dài và chiều

rộng) được dự đoán dé di chuyên và định hình lại các pre-defined anchor boxes tại

mỗi một grid cell thông qua hàm logistic.

mmmmmmhmmmmWmH

Hình 2-6 Sơ đồ tạo prior bounding box [16]

Sơ đồ Hình 2-6 giúp tao prior bounding box có chiều rộng và chiều cao đã xác định

từ grid cell có tọa độ Khi đó tọa độ tâm được tính theo mức độ tịnh tiễn hàm sigmoid.Đồng thời, chiều rộng và chiều cao được tính như công thức scale số mũ của cơ số tự

nhiên.

20

Trang 30

2.2.7 Mô hình SSD (Single Shot Multibox Detector)

Đầu vào của SSD là tọa độ bounding box của vật thé (hay còn gọi là offsets của

bounding box) và nhãn của vật thê chứa trong bounding box Điểm đặc biệt làm nên

tốc độ của SSD model là mô hình sử dụng một mạng neural duy nhất Cách tiếp cận

của nó dựa trên việc nhận diện vật thé trong các features map (là một output shape3D của một mạng deep CNN sau khi bỏ các fully connected layers cuối) có độ phân

giải khác nhau Mô hình sẽ tạo ra một lưới các ô vuông gọi là grid cells trên các

feature map, mỗi ô được gọi là một cell và từ tâm của mỗi cell xác định một tập hợp

các boxes mặc định (default boxes) dé dự đoán khung hình có khả năng bao quanhvật thê Tại thời điểm dự báo, mạng neural sẽ trả về 2 giá trị đó là: phân phối xác suấtnhãn của vật thé chứa trong bounding box và một tọa độ gọi là offsets của boundingbox Quá trình huấn luyện cũng là quá trình tỉnh chỉnh xác suất nhãn và boundingbox về đúng với các giá trị ground truth input của mô hình (gồm nhãn và offsets

bounding box).

Thêm nữa, network được kết hợp bởi rất nhiều các feature map với những độ phângiải khác nhau giúp phát hiện được những vat thé đa dạng các kích thước và hình

dang Trái với mô hình fast R-CNN, SSD bỏ qua bước tạo mặt nạ region proposal

network dé đề xuất vùng vật thé Thay vào đó tat cả quá trình phát hiện vật thé và

phân loại vật thé được thực hiện trong cùng | mạng Bản thân tên của mô hình Single Shot MultiBox Detector cũng nói lên được răng mô hình sử dụng nhiều khunghình box với tỷ lệ scales khác nhau nhằm nhận diện vùng vật thể và phân loại vật thể,

-giảm thiểu được bước tạo region proposal network so với fast R-CNN nên tăng tốc

độ xử lý lên nhiều lần mà tốc độ xử ly vẫn đảm bảo Bên dưới là bảng so sánh tốc độ

running của các mô hình object detection.

21

Trang 31

Ta thấy SSD512 (mô hình SSD với kích thước đầu vào của ảnh là 512 x 512 x 3) có

độ chính xác mAP là cao nhất trong khi tốc độ xử lý gần đạt mức real-time là 22 fps.Tóm gọn lại mô hình SSD sẽ là kết hợp của 2 bước:

e_ Trích xuất các feature map từ mang CNN

° Áp dụng convolutional filters (hoặc kernel filters) dé phát hiện vật thé trên các

feature map có độ phân giải (revolution) khác nhau.

Một số định nghĩa

e_ scale: Ty lệ chiều dài và chiều rộng so với khung hình gốc ví dụ: Nếu khung

hình gốc có giá trị là (w.h) thì sau scale khung hình mới có kích thước là

(sw,sh) Giá trị của s thường năm trong khoảng s €(0,1] Scale sẽ kết hợp với

aspect ratio dé nhận được các khung hình có tỷ lệ cạnh w/h khác nhau

e© aspect ratio: Tỷ lệ cạnh, được do bằng tỷ lệ giữa w/h nhằm xác định hình

dạng tương đối của khung hình bao chứa vật thé Chang hạn nếu vật thé là

người thường có aspect ratio = 1:3 hoặc xe cộ nhìn từ phía trước là 1:1.

e bounding box: Khung hình bao chứa vật thé được xác định trong quá trình

huấn luyện

e ground truth box: Khung hình được xác định trước từ bộ dữ liệu thông qua

tọa độ (Cx, Cy, w, h) giúp xác định vật thể

e offsets: Các tọa độ (Cx, Cy, w, h) dé xác định vật thé

e loU: Tỷ lệ Intersection of Union là tỷ lệ đo lường mức độ giao nhau giữa 2

khung hình (thường là khung hình dự báo và khung hình ground truth) để nhằm

22

Trang 32

xác định 2 khung hình overlap không Tỷ lệ này được tính dựa trên phần diệntích giao nhau giữa 2 khung hình với phần tổng diện tích giao nhau và không

giao nhau giữa chúng.

Area of Overlap

loU =

Area of Union

Hình 2-7 Dinh nghĩa IoU [17].

e positive matching prediction: Khung được dự báo (predicted box) là vùng

có vật thé là đúng, được xác định dựa trên tỷ lệ IoU > 0.5 giữa predicted box

với ground truth box.

e negative matching prediction: Khung được dự báo (predicted box) là vùng

không chứa vật thê là đúng, cũng được xác định dựa trên loU < 0.5 giữa

predicted box với ground truth box.

Single Shot Detector

r=

[1 II II == =

isi N poles Mimm uM - 1 =a SIE be Ve = +— 1 1

loc: A(cz, cy, w, h)

conf : (c1, éa, - „ Cp)

(a) Image with GT boxes (b) 8 x 8 feature map (c) 4 x 4 feature map

Hình 2-8 Cách thức phân chia feature map dé nhận diện các vật thé [17]

(a) SSD chỉ cần duy nhất đầu vào là 1 bức ảnh và các ground truth boxes xác định vị

trí bounding box các vật thể trong suốt quá trình huấn luyện Trong quá trình phát

hiện vật thể, trên mỗi một feature map, chúng ta đánh giá các một tợp hợp nhỏ gồm

23

Trang 33

những default boxes tương ứng với các tỷ lệ cạnh khác nhau (aspect ratio) lên các

features map có kích thước (scales) khác nhau (chăng hạn kích thước 8x8 và 4x4

trong hình (b) và (c)) Đối với mỗi default box (các boxes nét đứt trong hình) ta cần

dự báo một phân phối xác suất c= (cl, c2, , en) tương ứng với các class C= (Cl,C2, , Cn) Tại thời điểm huấn luyện, đầu tiên chúng ta cần match default boxes vớiground truth boxes sao cho mức độ sai số được đo lường qua localization loss là nhỏ

nhất Sau đó ta sẽ tìm cách tối thiểu hóa sai số của nhãn dự báo tương ứng với mỗi

vật thé được phát hiện trong default boxes thông qua confidence loss

Như vay loss function của object detection sẽ khác với loss function của các tác vu image classification ở cho có thêm localization loss vê sai sô vi trí của predicted boxes

so voi ground truth boxes.

Kiên trúc của mô hình

SSD Š Detections:8732 per Class Non-Maximum Suppression a>

Hình 2-9 So đồ kiến trúc của mang SSD [17]

SSD dựa trên một tiến trình lan truyền thuận của một kiến trúc chuẩn (chăng hạn

VGG16) dé tao ra một khối feature map output gồm 3 chiều ở giai đoạn sớm Chúng

ta gọi kiến trúc mạng này là base network (tính từ input Image đến Conv7 trong hình

3) Sau đó chúng ta sẽ thêm những kiến trúc phía sau based network dé tiễn hànhnhận diện vật thé như phan Extra Feature Layers trong sơ đồ Cac layers này được

diễn giải đơn giản như sau:

e Cac layer của mô hình SSD:

24

Ngày đăng: 02/10/2024, 03:56

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN