Trong bài khóa luận này, nhóm đề xuất cách tiếp cận đo tốc độ phương tiện dựa trên video thu được bằng cách sử dụng xử lý ảnh.. Trên thực tế, Radar vẫn được sử dụng trong một số thiết bị
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KY THUAT MAY TINH
VŨ MINH DIEN LAM LY SON
KHOA LUAN TOT NGHIEP
SPEED ESTIMATION SYSTEM
KỸ SU KY THUAT MAY TÍNH
TP HO CHÍ MINH, 2020
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KỸ THUẬT MÁY TÍNH
VŨ MINH DIEN - 16520210
LAM LY SON -— 16521029
KHOA LUAN TOT NGHIEP
HE THONG UOC TINH VAN TOC PHUONG TIEN
SPEED ESTIMATION SYSTEM
KY SU KY THUAT MAY TINH
GIANG VIEN HUONG DAN
ThS PHAN DINH DUY
TP HO CHi MINH, 2020
Trang 3THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP
Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số 64/QD-DHCNTT
ngày 26 tháng 01 năm 2021 của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Trang 4LỜI CẢM ƠN
Chúng em xin chân thành cảm ơn thầy Phan Đình Duy, cảm ơn thầy đã nhận làm giáoviên hướng dan dé tài của chúng em Cảm ơn thay đã luôn hỗ trợ chúng em trong quátrình làm khoá luận Cảm ơn những nhận xét, lời khuyên và kiến thức hữu ích củathầy Cảm ơn thầy đã chia sẻ những kinh nghiệm quý báu cùng những chỉ dẫn và
động viên chúng em trong quá trình làm khoá luận.
Chúng em cũng xin gửi lời tri ân đến quý thầy cô trường Đại học Công nghệ Thông
tin và Khoa Kỹ thuật Máy tính đã nhiệt tình giảng dạy và truyền đạt những kiến thức
bồ ích trong những năm qua
Cuối cùng chúng em rất mong nhận được sự đóng góp, nhận xét và phê bình của quý
thầy cô
Trang 5MỤC LỤCChương 1 = TONG QUAN -52- 2 E2 2E EEE1211211211211 2111111111 c0 3
1.1 Tổng quan về bài toán - 2 2 £+ESE‡EESEEEEEEEEEE1211211211171E1 1.1 1ee, 3
1.1.1 Cac công nghệ hiện nay - G111 kg 3
I.1.2 Cac nghiên cứu tương TỰ - - + Sc 1v ngư 4
1.1.3 Téng quan khóa luận -. ©2¿©+¿+2++2+++E+++Ex++rxrrxeerkesree 61.2 Mục tiêu và phạm vi đề tầi -¿- c5 sex 211211212111 21 111.1 cyee, 7
IE W0 ch 8
1.4 Cấu trúc của báo cáo Khóa TUẬN - - ĂĂG 2 111111199 1111 11 92111 kg, 8
Chương2 CO SỞ LÝ THUYỀÊT -:- + ©E+SE+E££E2E££EeEEeEEeEErrxrrerei 9
2.1 Thu viện xử lý ảnh Open - St SH HH HH re, 9
2.2 Những mô hình tiêu biéu có thé ứng dụng trong nhận diện phương tién 10
2.2.1 Mạng nơ ron tích chập - - - 5 S5 kg eiey 10
2.2.2 R-CNN (2014) [10] - cà kg HH gi, 12
2.2.3 Fast R-CNN (2015) HH Hết 14
2.2.4 Faster R-CNN (2016) SH nghệ, 15
2.2.5 YOLO (2015) SH HH TH ng TH ng Hết 18
2.2.6 YOLOv2 (2016) và YOLOV3 (2018) - ác csccssssseree 19
2.2.7 Mô hình SSD (Single Shot Multibox Detecfor) -. 21
2.3 Object Tracking ch HH rry 29
2.3.1 Một số thuật toán tracking phổ St 5c tt E2 crErksrrrrkeree 302.4 Các kỹ thuật tính vận tốc phương tiỆn -2- 22 5¿22+2++cx++zxszeeee 35Chương3 XÂY DỰNG HE THÓNG - 2-52 52+S£+E+E££EerEeEEerxersrree 36
3.1 So sánh, đánh giá các mô hình nhận diện trên nên tảng Máy học 36
Trang 63.1.1 _ Tốc độ và độ chính xác - ¿+ Et+E+E£EEEE+EEEEEEEEEEEEErkrEererkererrx 4I3.2 Thiết kế hệ thống phần mềm 2-22 5¿2+2£+++E++2Ex+E++zx++rxzreees 42
3.2.1 — Cài đặt thư viện -©2c2ckerkeckcEErererkrrrrerrrrkerkee 42
3.2.2 Quá trình dao tạo mô hình - - ¿2 E221 1133213 Ex2xxxxe+ 42
4.3 Cài thư viện OD€ICV - G1121 11121 TH HH ng ngư, 47
4.4 Đánh giá nhận diện phương tIỆn c5 2c 13+ E+*EE+eeeEeeerreeeereere 47
4.5 Kết quả vận tỐC -2:-©2¿22+2EE92E1221127121171127121121111 2112111 cre 48
Chương 5 KET LUẬN -©E<2E22EESEEEEEEEEErEkerkrrkrrex 51
5.1 Kết quả dat được -¿22+¿©c+22c22x 22k 2112211221211 crrree 515.2 Ưu-Nhược điêm khóa luận 2- 22 +¿+++2+++Ex++Ex++Extzxeerxesrxrrseee 515.3 Hướng phát triỀn +- k+Sk9Et+E12EE2EEEEEEEE71511521211211211171 1111 ce 53
Tai Lidu Tham Khao 11111757 54
Trang 7DANH MỤC HÌNH
Hình 1-1 Mô hình chuyên đổi từ khoảng cách thực sang khoảng cách ảo 5Hình 1-2 Bộ dữ liệu được thu thập ở 2 tuyén đường -: -: +22 6Hình 1-3 Đầu ra kết quả thực nghiệm ước tính vận tốc trên hai phương tiện 7Hình 2-1 Một luồng CNN hoàn chỉnh dé xử lý hình ảnh đầu vào 11Hình 2-2 Sơ đồ pipeline xử lý trong mô hình mạng R-CNN - 13Hình 2-3 Kiến trúc single model Fast R-CNN 2- 22222 x+£x+zEezEzrxerxrex 15Hình 2-4 Kiến trúc mô hình Faster R-CNN -ccc-cc+cccccxerrrrtrrrrrrerrre 17
Hình 2-5 Các bước xử lý trong mô hình YOLO - 6 +ccs+c+scssesseseeske 19
Hình 2-6 Sơ đồ tao prior bounding box -: -¿¿©+++¿++2x++zx++zxezrxerxeeres 20
Hinh 2-7 Dinh nghia loU 0 23
Hình 2-8 Cách thức phan chia feature map dé nhận diện các vat thê 23Hình 2-9 Sơ đồ kiến trúc của mang SSD ooc.ececcsceesesseessessessessessesseesessessessessesseeseess 24
Hình 2-10 Vị trí của các default bounding box trên bức ảnh gốc - 27
Hình 2-11 Hình ảnh cho thấy sự chuyên động của qua bóng qua 5 frames 3l
Hình 2-12 Mô hình xử dụng deep learning trong object tracking - 32
Hình 2-13 Mô hình ROUO - c6 1 1 11kg TH HH ng HH gà 33
Hình 2-14 Tổng quan về cách tiếp cận CSR-DCE - 2-2 2+2 E+£E+£x+zezsse2 34
Hình 3-1 Hiệu suất YOL/Ov3 ¿-252c22ttt2E trttEktrtttrtrrrrtirrrriirerrirriio 38
Hình 3-2 So sánh độ chính xác các mô hình - - 5-5555 = + ++zs£+zeeczzeeecsz 39
Hình 3-3 So sánh tốc độ xử lý ¿- + 2+SE+E E SE EEE1211211211211 211111111111 cxe 40
Hình 3-4 So sánh độ chính xác trên COCO dataset - 5555255 <s++<<<s+++s 40
Hình 3-5 So sánh sự cân bằng giữa độ chính xác và tốc độ, - 41Hình 3-6 Sơ đồ giải thuật tổng thé của hệ thống 2-2 2 2©+£x+£x+zzzsse2 43
Hình 3-7 Phân vùng ảo với khoảng cách được đo sẵn - + 5 2 cs+cz+xccz 45
Hình 4-1 Kết quả nhận diện phương tIỆN - 5 5 2+ +3 E + EESeseeEssrssersee 47
Trang 8DANH MỤC BANG
Bảng 1-1 Thống kê kết quả một số bài báo 2- 2 2 2 2+ +E££E+EE+EE+Ezrzrezes 5Bảng 2-1 Bảng so sánh tốc độ xử lý và độ chính xác của các lớp model 22Bảng 3-1 Kết quả các mô hình được đánh giá trên bộ PASCAL VOC 2012 36Bảng 3-2 Kết quả đánh giá trên MS COCO - 2: ©2225222+2EvEEtcExrzrxerrecree 36Bảng 3-3 Kết quả đánh giá thời gian trên bộ PASCAL VOC 2007 36Bang 3-4 Kết quả đánh giá mô hình trên 3 bộ dữ liệu -2- 2 5+2 37
Bảng 3-5 Kết quả nhận diện trên bộ dự liệu COCO test-dev2015 37
Bang 3-6 Két qua 09900990 .<a 38Bảng 4-1 Kết qua thực nghiệm ướt tính vận tốc của mộ số phương tiện 48Bảng 4-2 So sánh kết quả khóa luận với một số bài báo .: -:¿5: 49
Trang 9STD SVM
VOC
VOT
YOLO
DANH MỤC TU VIET TAT
Berkeley Software Distribution
Convolutional Neural Network
Discriminative Correlation Filter Tracker with Channel and Spatial Reliability
Fully Connected
Frames Per Second
The ImageNet Large Scale Visual Recognition
Challenge Internet of Things
Intersection over Union
Intelligent Transportation System
Light Imaging, Detection, And Ranging
Long Short Term Memory
Multiple Object Tracking
Mean Squared Error
Radio Detection and Ranging
Regions with CNN features
Region of Interest
Region Proposal Network
Simple Online Realtime Object Tracking
Single Object Tracking
Spatial Pyramid Pooling Networks
Single Shot Multibox Detector
Standard Deviation
Support vector machine
The PASCAL Visual Object Classes Challenge
Visual Object Tracking Challenge
You Only Look Once
Trang 10TÓM TẮT KHÓA LUẬN
Vận tốc phương tiện là thông số quan trọng không chỉ với người tham gia giao thông
mà còn với công an giao thông, nhằm theo dõi và phát hiện phương tiện vượt quá tốc
độ cho phép Từ đó cải thiện tình hình giao thông và giảm thiêu tai nạn do vượt quátốc độ cho phép Hiện nay, có hai phương pháp đo tốc độ phố biến là Radar và Lidar.Tuy nhiên, hai phương pháp này tồn tại một số hạn chế như chi phí dat đỏ, thiếu tính
hệ thống, tự động hóa và đo đơn lẻ Trong bài khóa luận này, nhóm đề xuất cách tiếp
cận đo tốc độ phương tiện dựa trên video thu được bằng cách sử dụng xử lý ảnh Déxuất này sẽ giải quyết được các nhược điểm của phương pháp hiện nay như sử dụng
cơ sở hạ tầng camera giao thông sẵn có, theo dõi và phát hiện trường hợp phương tiện
vượt quá tốc độ tốt hơn, có tính hệ thống và tự động hóa cao giúp giảm nguồn lực lao
động Tuy nhiên, vẫn còn những hạn chế như cần cung cấp, đo đạc các tham số ứng
mỗi camera và các điều kiện thời tiết đều có thể ảnh hưởng đến kết quả Trong bài
khóa luận nay nhóm cũng giới thiệu bộ dữ liệu tự tạo có tên là vn_vehicle Day là bộ
dữ liệu nhóm thu thập trên hai tuyến đường lớn dé ghi lai quá trình di chuyên của cácphương tiện phô biến như xe máy, xe hơi Nhóm cũng thực hiện so sánh, đánh giácác model nhận diện và các thuật toán tracking Đồng thời, nhóm cũng đánh giá hiệusuất của phương pháp băng cách so sánh với vận tốc thực tế và đạt được kết quả mongmuốn với fps trung bình phụ thuộc vào mật độ là 14 - 18fps, sai số trung bình là4,61% với sai số nhỏ nhất là 0% và sai số lớn nhất là 9.8%
Trang 11MỞ ĐẦU
Với sự tiến bộ nhanh chóng của công nghệ 4.0, đặc biệt là trong lĩnh vực Internet ofThings (IOT) với Intelligent Transportation System (ITS) đã thúc đây cộng đồngnghiên cứu công nghệ quan tâm đến việc áp dụng các kỹ thuật để tạo ra những công
cụ quản lý đô thị thông minh hơn, hệ thống hơn
Tai nạn giao thông là một nguyên nhân gây tử vong hàng đầu Việt Nam Văn phòng
Ủy ban ATGT Quốc gia vừa có báo cáo về tình hình tai nạn giao thông tháng 9/2020
(từ ngày 15/8/2020 đến 14/9/2020) và 9 tháng đầu năm 2020 (tính từ ngày 15/12/2019đến 14/9/2020) Theo đó, 9 tháng đầu năm toàn quốc xảy ra hơn 10.000 vụ TNGT,
làm chết hơn 4.800 người, bị thương hơn 7.600 người [1] Do vậy cần những phươngpháp quản lý, giám sát tốc độ giao thông hiệu quả
Hiện nay, phương pháp dé đo vận tốc gồm Radar và Lidar Đặc biệt là Lidar, đây làphương pháp hiện được sử dụng dé đo vận tốc phương tiện đang lưu thông ở ViệtNam Bên cạnh những khuyết điểm của các phương pháp trên ta có thê tận dụng hìnhảnh thu về từ các camera giám sát trên đường kết hợp với phương pháp xử lý ảnh đểphân tích tốc độ xe Tóm lại, dé tăng cường khả năng giám sát giao thông trên cáctuyến đường thì giải pháp xử lý ảnh đang được nhiều học giả nghiên cứu tới
Từ việc nhận thấy đưa công nghệ vào trong quản lý đô thị có thê xây dựng thành phốthông minh cũng như thúc đây quá trình hiện đại hóa độ thị hóa đất nước Nhóm đãnảy ra ý tưởng về việc nghiên cứu tạo ra một hệ thống camera ngoài chức năng giám
sát mà còn có thê đo vận tôc tự động.
Trang 12Chương 1 TONG QUAN
Trong chương này, chúng em giới thiệu tong quan về khái niệm bài toán ước tinh vậntốc phương tiện dựa trên xử lý ảnh và các thách thức mà bài toán gặp phải Đồng thời,
chúng em cũng giới thiệu các nghiên cứu liên quan của các nhà khoa học trong và
ngoài nước Qua đó, chúng em đưa ra mục tiêu, nội dung và phương pháp thực hiện
của đề tài này so với các nghiên cứu trên Cấu trúc của khóa luận cũng đươc đề cập
ở chương này.
1.1 Tổng quan về bài toán
1.1.1 Các công nghệ hiện nay
Thiết bị đo tốc độ trong xử lý vi pham giao thông đã xuất hiện từ rất lâu ở thế kỷtrước Những thiết bị đo tốc độ đã được phát minh ở cuối những thập kỷ 1940 Dùtồn tại lâu đời, nhưng nguyên lý hoạt động cốt lõi của nó vận không thay đổi suốtnhiều thập kỷ
Trên thực tế, Radar vẫn được sử dụng trong một số thiết bị đo tốc độ vì công nghệnày rất đáng tin cậy và độ chính xác cao Theo đó, thiết bị sẽ băn tín hiệu vô tuyến
vào một vật thé chuyên động với tan số đã biết Tín hiệu dội lai từ vật thé quay trở lại
thiết bị ở một tần số khác và sự khác biệt là tốc độ của vật thê đang đến gần hoặc rời
đi Nó được gọi là hiệu ứng Doppler Mặc dù vậy, Radar cũng có những hạn chế do
đó một công nghệ đo tốc độ mới sử dụng cách giải thích hiện đại về nguyên tắc tương
tự ra đời.
Trong khi thiết bị đo tốc độ bằng Radar vẫn tồn tại, công nghệ Lidar đã dần dần thaythế nó trong những năm đầu của thế kỷ 21 như một thiết bị đo tốc độ vi phạm giaothông ưa chuộng Thay vì tín hiệu vô tuyến, thiết bị đo tốc độ bằng Lidar bắn các
xung ánh sáng vào xe và đo thời gian chúng quay trở lại Các thiết bị Lidar tỉnh vi có
thê đo chính xác các xung được chiếu cũng như các xung phản xạ từ phương tiện mụctiêu Nói một cách đơn giản, thiết bị tính toán sự thay đôi về khoảng cách trong mộtkhoảng thời gian rất ngắn từ đó tính ra vận tốc Nguồn ánh sáng của Lidar là tia laser
Trang 13cực mạnh không thé nhìn thấy bằng mắt thường nhưng đủ mạnh dé dội lại từ cácphương tiện cách xa hàng trăm mét Không giống như Radar, tia laser nhắm mục tiêuchính xác hơn, cho phép cảnh sát nhắm mục tiêu vào một phương tiện cụ thể đangtham gia giao thông và các xung ánh sáng giống như một dấu hiệu khó có thé “giảmao’ hoặc đánh lừa bởi các thiết bị khác Tia laser cũng là một tần số ánh sáng rất cụ
thé, do đó, nó không dễ bị nhằm lẫn bởi các nguồn khác.
Người vận hành thường nhắm mục tiêu vào biên số đăng ký của xe vì điều này tạo ramột bề mặt phản chiếu phăng ở một góc vuông và phản xạ tia laser trực tiếp trở lạiđiểm gốc của nó và với hơn 100 phép đo được thực hiện trong nửa giây, quá trình đo
gan như tức thì
1.1.2 Các nghiên cứu tương tự
Trong khi đó, việc do tốc độ giao thông dựa trên camera giám sát được lắp đặt vẫn làmột bài toán còn trong giai đoạn nghiên cứu mà chưa được triển khai Bài toán dang
được quan tâm bởi cộng đồng các nhà khoa học với mục đích triển khai hệ thong do
vận tốc phương tiện giao thông trên diện rộng với số lượng lớn, thông minh hơn, kếtnối tốt hơn Tuy nhiên vẫn còn tôn tại những thách thức lớn khiến dự án vẫn chưa théthương mại Một trong những thách thức lớn nhất là khả năng hoạt động đa góc, vớimỗi camera đều phải cung cấp, đo đạc các tham số thủ công do đó tiêu tốn về công
sức và chi phi.
Các nghiên cứu về đề tài này đều đề xuất những phương pháp, kỹ thuật đề tính đoạn
đường di chuyên của phương tiện Đề tính toán khoảng cách di chuyên của phương
tiện là một vấn đề khó khăn do khoảng cách trong video 2 chiều và khoảng cách trongthời gian thực 3 chiều là khác nhau Do đó cần một bước căn chỉnh dé khớp tọa độ
của camera giám sát, tọa độ thực và tọa độ trên ảnh Nhìn chung, các bài báo nghiên
cứu khoa học đều thực hiện phép biến đổi từ hệ tọa độ ảnh với đơn vị pixel sang hệ
tọa độ thực với đơn vi khoảng cách là mét như ở hình 1-1.
Trang 14Hình 1-1 Mô hình chuyền đổi từ khoảng cách thực sang khoảng cách ảo [2]
Bài báo [2] đê xuât mục đích của việc hiệu chuân camera chính là đê tính toán khoảng
cách thực d giữa 2 điểm (P1, P2 ) trên mặt đường thông qua phép chiếu (p1, p2) trên
không gian ảnh.
Bảng 1-1 Thống kê kết quả một số bài báo [3] [4] [5] [6]
mm BAI BAO SAI SO VAN TÓC
Automatic Camera +2% 1920 x 1080 Low traffic: 24.98
Calibration for Traffic High traffic: 19.64
NSGA-II Based Auto- Largest MSE: 16.69 1280 x 720 25 fps
Calibration of Automatic Smallest MSE: 3.56
Nhìn chung, với độ phân giải FullHD, bài báo của nhóm tác gia Markéta Dubska [3]
dat FPS từ 19fps đến 25fps tùy thuộc vào mật độ giao thông và có sai số là +2% so
Trang 15VỚI Vận tốc thực Bài báo [4] của nhóm tác giả Lazaros và cộng sự có độ phân giải
thấp hơn va fps đạt được cao hơn, nhóm tac giả đưa ra sai số là 2 km/h Nhóm tác
giả của bài báo [5] thực hiện rất nhiều đánh giá dựa trên rất nhiều các yếu tố và đưa
ra MSE và STD lớn nhất và nhỏ nhất như bảng 1-1 Trong khi bài báo [6], có sai sốtrung bình lớn nhất với +3.325 km/h
1.1.3 Tổng quan khóa luận
Trong khóa luận này, chúng em tiến hành tìm hiểu và áp dung mô hình máy học cũngnhư các phương pháp huấn luyện dé nhận diện phương tiện cũng như đưa ra một sốđánh giá về các mô hình và các thuật toán tracker Cuối cùng, chúng em đưa raphương pháp dé tính vận tốc phương tiện bằng xử lý ảnh được áp dụng trên bộ dit
liệu mà chúng em thu thập.
= `j ẢJ.
Hình 1-2 Bộ dữ liệu được thu thập ở 2 tuyển đường
Chúng em tự tạo một bộ đữ liệu có tên là vn_vehicle, được quay ở hai điểm tại Thành
phố Hỗ Chí Minh là đường Hoàng Văn Thụ, Tân Binh và Điện Biên Phủ, Binh Thanh
Bộ dữ liệu video được quay vào ban ngày trong khoảng thời gian từ (13h-16h) với
tổng thời gian hơn 2 tiếng định dạng mp4, độ phân giải 1920x1080 và 30 FPS Đốitượng chúng em thu thập là phương tiện lưu thông chủ yếu là: xe máy, ô tô, xe buýt.Sau đó chúng em đã sử dụng hơn 10000 mau (samples) dé tiến hành training model
Số còn lại chúng em sử dụng mục đích xử lý và thử nghiệm
Những đóng góp của khóa luận này gồm:
Trang 16e Tu xây dựng bộ di liệu riêng phù hợp với giao thông Việt Nam đặc biệt là bộ
dữ liệu về xe máy
e Dé xuất và xây dựng hệ thong nhận diện, theo dõi phương tiện bằng ứng dụng
mạng neural kết hợp thuật toán Tracking và xử lý ảnh
e_ Tiến hành thực hiện ước tính vận tốc trên bộ dữ liệu dé đánh giá và so sánh
kết quả
Hình 1-3 Đầu ra kết quả thực nghiệm ước tính vận tốc trên hai phương tiện.
1.2 Mục tiêu và phạm vi đề tài
Mục tiêu: nhóm đưa ra mục tiêu là thực hiện ước tính tốc độ phương tiện trên hai
tuyến đường trong Thành phó Hồ Chí Minh Cụ thé:
e Tìm hiểu, khảo sát và thực hiện các phương pháp nhận diện phương tiện giao
thông Kết quả mong muốn chỉ số sai lệch xấp xi 1
e Tìm hiểu, khảo sát và thực hiện các thuật toán tracking
e - Nghiên cứu và thực hiện phương pháp tinh vận tốc phương tiện Kết quả mong
muốn đạt sai số 10%
e Fps mong muốn dat từ 15fps đến 25fps tùy thuộc mật độ giao thông
Phạm vi: Thử nhiệm và ứng dụng các thuật toán nhận diện, tracking và ước tính vận
tốc phương tiện trên bộ dữ liệu là các video đã thu thập ở hai tuyền đường có độ phân
giải FullHD.
Trang 171.3 Thách thức
Bài toán gặp một số thách thức khi nhóm triển khai thực hiện và một trong những
thách thức lớn nhất khiến phương pháp này chưa thể áp dụng rộng rãi là mỗi camera
đều phải cung cấp và đo đạc các tham số thủ công Nghĩa là mỗi camera riêng biệtphải cấu hình riêng biệt Ngoài ra, vẫn có một số nguyên nhân khách quan khiến sai
số vận tốc lớn như thời tiết, điều kiện thiếu ánh sáng hay những trường hợp phươngtiện di chuyển không theo đường thang Đó cũng là hạn chế của đề tài khóa luận này
cũng như các công trình nghiên cứu trước.
1.4 Câu trúc của báo cáo Khóa luận
Phần còn lại của Khóa luận tốt nghiệp được tổ chức như sau, trong Chương 2 chúng
em trình bày những cơ sơ lý thuyết liên quan đến đề tài Khóa luận Chương 3 chúng
em trình bày chỉ tiết các kiến trúc và phương pháp liên quan đến quy trình xây dựng
hệ thống ước lượng vận tốc phương tiện Chương 4 chúng em trình bày các thựcnghiệm, kết quả thu được và đánh giá Cuối cùng Chương 5 chúng em đưa ra kết luận
và hướng phát triển
Trang 18Chương 2 CƠ SỞ LY THUYET
Ở Chương này chúng em trình bày tổng quan cơ sở lý thuyết liên quan đến bài toán
ước tính vận tôc phương tiện dựa trên xử lý ảnh mà chúng em nghiên cứu.
2.1 Thư viện xử lý ảnh OpenCV [7]
OpenCV là một thư viện mã nguồn mở hàng đầu cho thị giác máy tính (computer
vision), xử lý ảnh và máy học, và các tính năng tăng tốc GPU trong hoạt động thời
gian thực.
OpenCV được phát hành theo giấy phép BSD, do đó nó hoàn toàn miễn phí cho cả
học thuật và thương mại OpenCV có các interface C++, C, Python, Java va hỗ trợ
Windows, Linux, Mac OS, iOS và Android OpenCV được thiết kế đề tính toán hiệuquả và với sự tập trung nhiều vào các ứng dụng thời gian thực Được viết bang tối ưu
hóa C/C++, thư viện có thể tận dụng lợi thế của xử lý đa lõi
Một số ứng dụng OpenCV:
e Hình anh street view
e Kiểm tra và giám sát tự động
e Robot và xe hơi tự lái
e Phân tích hình ảnh y tế
e Tìm kiếm và phục hồi hình ảnh/video
e Phim - cấu trúc 3D từ chuyển động
e Nghệ thuật sắp đặt tương tác
Chức năng chính của OpenCV:
e Image/video I/O, xử lý, hiển thị (core, imgproc, highgui)
e Phát hiện các vat thé (objdetect, features2d, nonfree)
e Geometry-based monocular or stereo computer vision (calib3d,
e stitching, videostab)
e Computational photography (photo, video, superres)
Trang 19e Machine learning & clustering (ml, flann)
e CUDA acceleration (gpu)
Ngôn ngữ lập trình Python với thư viện OpenCV:
e Ngôn ngữ lập trình Python là một ngôn ngữ có hình thức dễ nhìn, cau trúc rõ
ràng cùng cú pháp ngắn gọn phù hợp cho mọi đối tượng đặc biệt là nhữngngười mới học lập trình Bên cạnh đó việc hỗ trợ trên tất cả các nền tảng hệđiều hành từ Unix, MS-DOS, MAC OS, Windows, Linux cùng các OS thuộc
họ Unix khác giúp đa dạng nên tảng lập trình
e Tương thích mạnh với UNIX, hardware, third-party software cùng theo đó là
thư viện không 16 có sẵn như: numpy, Pandas, Scikit-learn,
© Với tốc độ xử lý nhanh, Python dễ dàng tạo ra những chương trình từ những
script nhỏ đến những phần mềm lớn như Blender 3D
e Ứng dụng thực tế của Python rất nhiều đặc biệt trong đó phải kê đến 3 ứng
dụng lớn nhất:
o Khoa học máy tính: OpenCV, Numpy, Scipy,
o Máy học: Tensorflow, scikit-learn,
o Lập trình cho bo mach: Arduino, Raspberry Pi,
OpenCV hỗ trợ trên nhiều ngôn ngữ lập trình khác nhau như C++, Python, hayOpenGL của C# Python được chon trong đề tài này vì tính dé sử dụng, dé cài đặtcùng việc hỗ trợ trên nhiều hệ điều hành khác nhau giúp đây là một sự chọn lựa tốtnhất của đề tài
2.2 Những mô hình tiêu biểu có thé ứng dụng trong nhận diện phương tiện
2.2.1 Mạng nơ ron tích chập
Mạng nơ-ron tích chập (CNN) là mạng nơ-ron phổ biến nhất được dùng cho bài toán
xử lí ảnh Bên cạnh các lớp fully connected, mạng nơ-ron tích chập còn bao gồm các
lớp an đặc biệt (hidden layer) giúp phát triển và trích xuất các đặc trưng xuất hiện
trong ảnh được gọi là lớp tích chập (convolutional layer) Chính những lớp tích chập
10
Trang 20này làm mạng nơ-ron trở nên khác biệt so với mạng nơ-ron truyên thông và tạo ra
hiệu quả cao trong bài toán phân tích hình anh [8].
MPUT CONVOLUTION » E#LU PGGLiti0 CONVOLUTION « EEL POOLING FLATTEN
¬
Y Y FEATURE LEARNING CLASSIFICATION
Hình 2-1 Một luồng CNN hoàn chỉnh dé xử ly hình ảnh đầu vào [9]
Về mặt kỹ thuật mỗi ảnh đầu vào sẽ chuyên qua một loạt các lớp tích chập với các bộ
lọc, Pooling, lớp Fully Connected (FC) và áp dụng hàm Softmax dé phân loại một
đối tượng với các giá trị xác suất giữa 0 va 1
+ Lớp/tầng tích chập (Conv layer) là lớp đầu tiên dé trích xuất các đặc trưng từ một
ảnh đầu vào Lớp Conv duy trì mối quan hệ giữa các pixel bằng cách học các đặc
trưng ảnh Đây là một phép toán học có hai đầu vào: ma trận hình ảnh và bộ lọc/hạt
nhân [9].
+ Lớp/tầng pooling là một phép downsampling, thường được sử dụng sau tầng tíchchập, làm giảm số lượng tham số khi ảnh quá lớn nhưng vẫn giữ được thông tin quantrọng (tính bất biến không gian) Max pooling sẽ lấy giá trị lớn nhất trong khu vực nó
đang được sử dụng còn average pooling tính trung bình các giá trị trong khu vực nó
Trang 212.2.2 R-CNN (2014) [10]
R-CNN (regions with CNN features) là lớp các mô hình xác định vùng đặc trưng dựa
trên các mang CNN được phát trién bởi Ross Girshick và các cộng sự Lớp các môhình này gồm 3 mô hình chính là R-CNN, Fast R-CNN và Faster-RCNN được thiết
kê cho các nhiệm vụ định vi vật thê và nhận diện vật thê.
R-CNN được giới thiệu lần đầu vào 2014 bởi Ross Girshick và các cộng sự ở UC
Berkeley một trong những trung tâm nghiên cứu AI hàng đầu thế giới trong bài báo
[11].
R-CNN có thé là một trong những ứng dụng nền móng đầu tiên của mang no ron tíchchập đối với vẫn đề định vị, phát hiện và phân đoạn đối tượng Cách tiếp cận đã đượcchứng minh trên các bộ dữ liệu điểm chuẩn, đạt được kết quả tốt nhất trên bộ dữ liệu
The PASCAL Visual Object Classes Challenge (VOC-2012) và bộ dir liệu phát hiện
đối tượng (The ImageNet Large Scale Visual Recognition Challenge) ILSVRC-2013
gồm 200 lớp [11]
Kiến trúc của R-CNN gồm 3 thành phan đó là:
e Vùng đề xuất hình ảnh (Region proposal): Có tác dụng tao và trích xuất các
vùng dé xuất chứa vật thé được bao bởi các bounding box
e Trích lọc đặc trưng (Feature Extractor): Trích xuất các đặc trưng giúp nhận
điện hình ảnh từ các region proposal thông qua các mang deep convolutional
neural network.
e Phan loại (classifier): Dựa vào input là các features ở phần trước để phân loại
hình ảnh chứa trong region proposal về đúng nhãn
Kiên trúc của mô hình được mô tả trong biêu đô bên dưới:
12
Trang 22R-CNN: Regions with CNN features
SBS weed region — — aeroplane? no
2 Extract region 3 Compute 4 Classify
image proposals (~2k) CNN features regions
Hình 2-2 Sơ đồ pipeline xử lý trong mô hình mang R-CNN [11]
Ta có thể nhận thấy các hình ảnh con được trích xuất tại bước 2 với số lượng rất lớn
(khoảng 2000 region proposals) Tiếp theo đó áp dụng một mạng deep CNN để tínhtoán các feature tại bước 3 và trả ra kết quả dự báo nhãn ở bước 4 như một tác vụ
image classification thông thường.
Một kỹ thuật được sử dụng dé đề xuất các region proposal hoặc các bounding boxchứa các đối tượng tiềm năng trong hình ảnh được gọi là “selective search”, cácregion proposal có thể được phát hiện bởi đa dạng những thuật toán khác nhau Điểmchung là đều dựa trên ty lệ Intersection over Union (IoU) giữa bounding box và
ground truth box.
Trích xuất đặc trưng về bản chất là một mạng CNN học sâu, ở đây là AlexNet, mạng
đã giành chiến thắng trong cuộc thi phân loại hình ảnh ILSVRC-2012 Đầu ra củaCNN là một vectơ 4096 chiều mô tả nội dung của hình ảnh được đưa đến một môhình Support vector machine (SVM) tuyến tính dé phân loại
Nhược điểm của phương pháp này là chậm, đòi hỏi phải vượt qua nhiều module độc
lập trong đó có trích xuất đặc trưng từ một mạng CNN học sâu trên từng regionproposal được tạo bởi thuật toán đề xuất vùng chứa ảnh Đây là một vấn đề chính cầngiải quyết vì bài viết mô tả mô hình hoạt động trên khoảng 2000 vùng được đề xuấtcho mỗi hình ảnh tại thời điểm thử nghiệm
13
Trang 232.2.3 Fast R-CNN (2015)
Dựa trên thành công của R-CNN, Ross Girshick đề xuất một mở rộng để giải quyết
vấn đề của CNN trong một bài báo vào năm 2015 với tiêu đề rất ngắn gọn Fast
R-CNN [12].
Bài báo chỉ ra những han chế của R-CNN đó là:
e Training qua một pipeline gồm nhiều bước: Pipeline liên quan đến việc chuẩn
bị và vận hành ba mô hình riêng biệt.
e_ Chi phí training tốn kém về số lượng bounding box và thời gian huấn luyện:
Mô hình huấn luyện một mạng CNN học sâu trên rất nhiều region proposalcho mỗi hình ảnh nên rất chậm
© Phát hiện đối tượng chậm: Tốc độ xử lý không thể đảm bảo realtime
Trước đó một bài báo đã đề xuất phương pháp dé tăng tốc kỹ thuật được gọi là mạng
tong hợp kim tự tháp - Spatial Pyramid Pooling in Deep Convolutional Networks forVisual Recognition [13] hoặc SPPnets vào năm 2014 Phương pháp nay đã tăng tốc
độ trích xuất features nhờ lan truyền thuận trên bộ nhớ đệm
Điểm đột phá của Fast R-CNN là sử dụng một single model thay vì pipeline dé phát
hiện region va classification cùng lúc.
Kiến trúc của mô hình trích xuất từ bức ảnh một tập hợp các region proposals làmđầu vào được truyền qua mạng deep CNN Một pretrained-CNN, chăng hạn VGG-
16, được sử dụng để trích lọc features Phần cuối của deep-CNN là một custom layer
được gọi là layer vùng quan tâm (Region of Interest Pooling - RoI Pooling) có tác
dụng trích xuất các features cho một vùng anh input nhất định
Sau đó các features được kết bởi một lớp fully connected Cuối cùng mô hình chia
thành hai đầu ra, một đầu ra cho dự đoán nhãn thông qua một softmax layer và một
đầu ra khác dự đoán bounding box (kí hiệu là bbox) dựa trên hồi qui tuyến tính Quá
14
Trang 24trình này sau đó được lặp lại nhiều lần cho mỗi vùng Rol trong một hình ảnh Kiến
trúc của mô hình được tóm tắt trong hình dưới đây, được lấy từ bài báo
Hình 2-3 Kiên trúc single model Fast R-CNN
Ở bước đầu ta áp dụng một mạng Deep CNN dé trích xuất ra feature map Thay vì
warp image của region proposal như ở R-CNN chúng ta xác định ngay vi trí hình
chiếu của region proposal trên feature map thông qua phép chiếu Rol projection Vị
trí này sẽ tương đối với vị trí trên ảnh gốc Sau đó tiếp tục truyền output qua các layer
Rol pooling layer và các Fully Connected layers dé thu được Rol feature véc tơ Sau
đó kết quả đầu ra sẽ được chia làm 2 nhánh 1 Nhánh giúp xác định phân phối xác
suất theo các class của 1 vùng quan tâm Rol thông qua hàm softmax và nhánh còn
xác định tọa độ của bounding box thông qua hồi quy các offsets
Mô hình này nhanh hơn đáng kê cả vê huân luyện và dự đoán, tuy nhiên vần cân một
tập hợp các region proposal được đề xuất cùng với mỗi hình ảnh đầu vào
2.2.4 Faster R-CNN (2016)
Kiến trúc mô hình đã được cải thiện hon nữa về cả tốc độ huấn luyện và phát hiện
được đề xuất bởi Shaoqing Ren và các cộng sự tại Microsoft Research trong bài báo
năm 2016 có tiêu đề Faster R-CNN: Towards Real-Time Object Detection with
Region Proposal Networks [14] Dịch nghĩa là “Faster R-CNN: Hướng tới phát hiện
đôi tượng theo thời gian thực với các mạng đê xuât khu vực”.
15
Trang 25Kiến trúc này mang lại độ chính xác cao nhất đạt được trên cả hai nhiệm vụ phát hiện
và nhận dạng đối tượng tại các cuộc thi ILSVRC-2015 và MS COCO-2015.
Kiến trúc được thiết kế dé đề xuất và tinh chỉnh các region proposals như là một phan
của quá trình huấn luyện, được gọi là mạng đề xuất khu vực (Region Proposal
Network), hoặc RPN Cac vùng nay sau đó được sử dung cùng với mô hình Fast
R-CNN trong một thiết kế mô hình duy nhất Những cải tiến này vừa làm giảm số lượngregion proposal vừa tăng tốc hoạt động trong thời gian thử nghiệm mô hình lên gần
thời gian thực với hiệu suất tốt nhất Tốc độ là 5fps trên một GPU
Mặc dù là một mô hình đơn lẻ duy nhất, kiến trúc này là kết hợp của hai modules:
e Mạng đề xuất khu vực (Region Proposal Network, viết tắt là RPN) Mạng
CNN dé đề xuất các vùng và loại đối tượng cần xem xét trong vùng
e Fast R-CNN: Mang CNN đề trích xuất các features từ các region proposal và
trả ra các bounding box va nhãn.
Cả hai modules hoạt động trên cùng một output của một mạng deep CNN Mạng RPN
hoạt động như một cơ chế attention cho mạng Fast R-CNN, thông báo cho mạng thứ
hai về nơi cân xem hoặc chú ý.
Kiến trúc của mô hình được tong kết thông qua sơ đồ bên dưới:
16
Trang 26Hình 2-4 Kiến trúc mô hình Faster R-CNN [14].
Ở giai đoạn sớm sử dụng một mang deep CNN dé tạo ra một feature map Khác với
Fast R-CNN, kiến trúc này không tao Rol ngay trên feature map mà sử dung feature
maps làm đầu vào dé xác định các region proposal thông qua một RPN network.Đồng thời feature maps cũng là đầu vào cho classifier nhằm phân loại các vật thé của
region proposal xác định được từ RPN network.
RPN hoạt động bằng cách lấy đầu ra của một mạng pre-trained đeep CNN, chăng hạnnhư VGG-16, và truyền feature map vào một mạng nhỏ và đưa ra nhiều region
proposals và nhãn dự đoán cho chúng Region proposals là các bounding boxes, dựa
trên các anchor boxes hoặc hình dạng được xác định trước được thiết kế dé tăng tốc
và cải thiện khả năng đề xuất vùng Dự đoán của nhãn được thê hiện dưới dạng nhịphân cho biết region proposal có xuất hiện vật thé hoặc không
Một quy trình huấn luyện xen kẽ được sử dụng trong đó cả hai mạng con được đàotạo cùng một lúc Điều này cho phép các tham số trong feature detector của deep
CNN được tinh chỉnh cho cả hai tác vụ cùng một lúc.
17
Trang 272.2.5 YOLO (2015)
Một họ mô hình nhận dang đối tượng phô biến khác được gọi chung là YOLO Các
mô hình R-CNN nói chung có thé chính xác hơn, tuy nhiên họ mô hình YOLO nhanhhơn rất rất nhiều so với R-CNN, và thậm chí đạt được việc phát hiện đối tượng trong
thời gian thực.
Mô hình YOLO được mô tả lần đầu tiên bởi Joseph Redmon, và các cộng sự trongbài viết năm 2015 có tiêu đề Bạn chỉ nhìn một lần: Phát hiện đối tượng theo thời gian
thực - You Only Look Once: Unified, Real-Time Object Detection [15].Trong công
trình này thì một lần nữa Ross Girshick, người phát triển mạng R-CNN, cũng là mộttác giả và người đóng góp khi ông chuyền qua Facebook AI Research
Phương pháp chính dựa trên một mạng neural network duy nhất được huấn luyệndạng end-to-end model Mô hình lấy input là một bức ảnh và dự đoán các bounding
box và nhãn lớp cho mỗi bounding box Do không sử dụng region proposal nên kỹ
thuật này có độ chính xác thấp hơn (ví dụ: nhiều lỗi định vi vật thé - localization error
hơn).
Mô hình hoạt động băng cách trước tiên phân chia hình ảnh đầu vào thành một lưới các 6 (grid of cells), trong đó mỗi ô chịu trách nhiệm dự đoán các bounding boxes
nếu tâm của nó năm trong ô Mỗi grid cell (tức 1 ô bất kì nằm trong lưới 6) dự đoán
các bounding boxes được xác định dựa trên tọa độ x, y (thông thường là tọa độ tâm,
một số phiên bản là tọa độ góc trên cùng bên trái) và chiều rộng (width) và chiều cao(height) và độ tin cậy (confidence) về khả năng chứa vật thể bên trong Ngoài ra các
dự đoán nhãn cũng được thực hiện trên mỗi một bonding box.
Ví dụ: một hình ảnh có thê được chia thành lưới 7 x 7 và mỗi ô trong lưới có thể dự
đoán 2 bounding box, kết quả trả về 98 bounding box được đề xuất Sau đó, một sơ
đồ xác suất nhãn (gọi là class probability map) với các confidence được kết hợp thành
một tập hop bounding box cuối cùng và các nhãn Hình ảnh được lấy từ bài báo dướiđây tóm tắt hai kết quả đầu ra của mô hình
18
Trang 28oT te
SxS grid on input Final detections
Class probability map
- Hình 2-5 Các bước xử lý trong mô hình YOLO [15].
Đầu tiên mô hình chia hình ảnh thành một grid search kích thước SxS Trên mỗi mộtgrid cell ta dự báo một số lượng B bounding boxes và confidence cho những boxesnày và phân phối xác suất của C classes Như vậy output các dự báo là một tensor
kích thước SxSx(Bx5+C) Giá trị 5 là các tham số của offsets của bounding box gồm
x, y, w, h và confidence C là số lượng tham số của phân phối xác suất
2.2.6 YOLOv2 (2016) và YOLOv3 (2018)
Mô hình YOLOv2 được Joseph Redmon và Ali Farhadi cập nhật nhằm cải thiện honnữa hiệu suất trong bài báo năm 2016 có tựa dé là YOLO9000: Better, Faster,
Stronger [16].
Mặc dù biến thé của YOLO được gọi là YOLOv2, một instance của mô hình theo
như mô tả đã được đảo tạo trên hai bộ dữ liệu nhận dạng đối tượng, và có khả năng
dự đoán lên tới 9000 loại đối tượng khác nhau, do đó được đặt tên là YOLO9000.Với con số này thì mô hình này đã tiến xa hơn rất nhiều so với mọi mô hình trước đó
về sô lượng các loại đôi tượng có khả năng phát hiện.
Một sô thay đôi vê huan luyện và kiên trúc đã được thực hiện, chăng hạn như việc sử
dụng batch normalization cho hàng loạt và hình ảnh đầu vào phân giải cao
19
Trang 29Giống như Faster R-CNN, mô hình YOLOv2 sử dụng anchor boxes, bounding box
được xác định trước với hình dạng và kích thước hợp lý được tùy chỉnh trong quá
trình huấn luyện Sự lựa chọn các bounding boxes cho hình ảnh được xử lý trướcbằng cách sử dụng thuật toán phân cụm k-mean trên tập dữ liệu huấn luyện
Điều quan trọng, các predicted bounding box được tinh chỉnh dé cho phép các thay
đổi nhỏ có tác động ít hơn đến các dự đoán, dẫn đến mô hình 6n định hơn Thay vì
dự đoán trực tiếp vị trí và kích thước, các offsets (tức tọa độ tâm, chiều dài và chiều
rộng) được dự đoán dé di chuyên và định hình lại các pre-defined anchor boxes tại
mỗi một grid cell thông qua hàm logistic.
mmmmmmhmmmmWmH
Hình 2-6 Sơ đồ tạo prior bounding box [16]
Sơ đồ Hình 2-6 giúp tao prior bounding box có chiều rộng và chiều cao đã xác định
từ grid cell có tọa độ Khi đó tọa độ tâm được tính theo mức độ tịnh tiễn hàm sigmoid.Đồng thời, chiều rộng và chiều cao được tính như công thức scale số mũ của cơ số tự
nhiên.
20
Trang 302.2.7 Mô hình SSD (Single Shot Multibox Detector)
Đầu vào của SSD là tọa độ bounding box của vật thé (hay còn gọi là offsets của
bounding box) và nhãn của vật thê chứa trong bounding box Điểm đặc biệt làm nên
tốc độ của SSD model là mô hình sử dụng một mạng neural duy nhất Cách tiếp cận
của nó dựa trên việc nhận diện vật thé trong các features map (là một output shape3D của một mạng deep CNN sau khi bỏ các fully connected layers cuối) có độ phân
giải khác nhau Mô hình sẽ tạo ra một lưới các ô vuông gọi là grid cells trên các
feature map, mỗi ô được gọi là một cell và từ tâm của mỗi cell xác định một tập hợp
các boxes mặc định (default boxes) dé dự đoán khung hình có khả năng bao quanhvật thê Tại thời điểm dự báo, mạng neural sẽ trả về 2 giá trị đó là: phân phối xác suấtnhãn của vật thé chứa trong bounding box và một tọa độ gọi là offsets của boundingbox Quá trình huấn luyện cũng là quá trình tỉnh chỉnh xác suất nhãn và boundingbox về đúng với các giá trị ground truth input của mô hình (gồm nhãn và offsets
bounding box).
Thêm nữa, network được kết hợp bởi rất nhiều các feature map với những độ phângiải khác nhau giúp phát hiện được những vat thé đa dạng các kích thước và hình
dang Trái với mô hình fast R-CNN, SSD bỏ qua bước tạo mặt nạ region proposal
network dé đề xuất vùng vật thé Thay vào đó tat cả quá trình phát hiện vật thé và
phân loại vật thé được thực hiện trong cùng | mạng Bản thân tên của mô hình Single Shot MultiBox Detector cũng nói lên được răng mô hình sử dụng nhiều khunghình box với tỷ lệ scales khác nhau nhằm nhận diện vùng vật thể và phân loại vật thể,
-giảm thiểu được bước tạo region proposal network so với fast R-CNN nên tăng tốc
độ xử lý lên nhiều lần mà tốc độ xử ly vẫn đảm bảo Bên dưới là bảng so sánh tốc độ
running của các mô hình object detection.
21
Trang 31Ta thấy SSD512 (mô hình SSD với kích thước đầu vào của ảnh là 512 x 512 x 3) có
độ chính xác mAP là cao nhất trong khi tốc độ xử lý gần đạt mức real-time là 22 fps.Tóm gọn lại mô hình SSD sẽ là kết hợp của 2 bước:
e_ Trích xuất các feature map từ mang CNN
° Áp dụng convolutional filters (hoặc kernel filters) dé phát hiện vật thé trên các
feature map có độ phân giải (revolution) khác nhau.
Một số định nghĩa
e_ scale: Ty lệ chiều dài và chiều rộng so với khung hình gốc ví dụ: Nếu khung
hình gốc có giá trị là (w.h) thì sau scale khung hình mới có kích thước là
(sw,sh) Giá trị của s thường năm trong khoảng s €(0,1] Scale sẽ kết hợp với
aspect ratio dé nhận được các khung hình có tỷ lệ cạnh w/h khác nhau
e© aspect ratio: Tỷ lệ cạnh, được do bằng tỷ lệ giữa w/h nhằm xác định hình
dạng tương đối của khung hình bao chứa vật thé Chang hạn nếu vật thé là
người thường có aspect ratio = 1:3 hoặc xe cộ nhìn từ phía trước là 1:1.
e bounding box: Khung hình bao chứa vật thé được xác định trong quá trình
huấn luyện
e ground truth box: Khung hình được xác định trước từ bộ dữ liệu thông qua
tọa độ (Cx, Cy, w, h) giúp xác định vật thể
e offsets: Các tọa độ (Cx, Cy, w, h) dé xác định vật thé
e loU: Tỷ lệ Intersection of Union là tỷ lệ đo lường mức độ giao nhau giữa 2
khung hình (thường là khung hình dự báo và khung hình ground truth) để nhằm
22
Trang 32xác định 2 khung hình overlap không Tỷ lệ này được tính dựa trên phần diệntích giao nhau giữa 2 khung hình với phần tổng diện tích giao nhau và không
giao nhau giữa chúng.
Area of Overlap
loU =
Area of Union
Hình 2-7 Dinh nghĩa IoU [17].
e positive matching prediction: Khung được dự báo (predicted box) là vùng
có vật thé là đúng, được xác định dựa trên tỷ lệ IoU > 0.5 giữa predicted box
với ground truth box.
e negative matching prediction: Khung được dự báo (predicted box) là vùng
không chứa vật thê là đúng, cũng được xác định dựa trên loU < 0.5 giữa
predicted box với ground truth box.
Single Shot Detector
r=
[1 II II == =
isi N poles Mimm uM - 1 =a SIE be Ve = +— 1 1
loc: A(cz, cy, w, h)
conf : (c1, éa, - „ Cp)
(a) Image with GT boxes (b) 8 x 8 feature map (c) 4 x 4 feature map
Hình 2-8 Cách thức phân chia feature map dé nhận diện các vật thé [17]
(a) SSD chỉ cần duy nhất đầu vào là 1 bức ảnh và các ground truth boxes xác định vị
trí bounding box các vật thể trong suốt quá trình huấn luyện Trong quá trình phát
hiện vật thể, trên mỗi một feature map, chúng ta đánh giá các một tợp hợp nhỏ gồm
23
Trang 33những default boxes tương ứng với các tỷ lệ cạnh khác nhau (aspect ratio) lên các
features map có kích thước (scales) khác nhau (chăng hạn kích thước 8x8 và 4x4
trong hình (b) và (c)) Đối với mỗi default box (các boxes nét đứt trong hình) ta cần
dự báo một phân phối xác suất c= (cl, c2, , en) tương ứng với các class C= (Cl,C2, , Cn) Tại thời điểm huấn luyện, đầu tiên chúng ta cần match default boxes vớiground truth boxes sao cho mức độ sai số được đo lường qua localization loss là nhỏ
nhất Sau đó ta sẽ tìm cách tối thiểu hóa sai số của nhãn dự báo tương ứng với mỗi
vật thé được phát hiện trong default boxes thông qua confidence loss
Như vay loss function của object detection sẽ khác với loss function của các tác vu image classification ở cho có thêm localization loss vê sai sô vi trí của predicted boxes
so voi ground truth boxes.
Kiên trúc của mô hình
SSD Š Detections:8732 per Class Non-Maximum Suppression a>
Hình 2-9 So đồ kiến trúc của mang SSD [17]
SSD dựa trên một tiến trình lan truyền thuận của một kiến trúc chuẩn (chăng hạn
VGG16) dé tao ra một khối feature map output gồm 3 chiều ở giai đoạn sớm Chúng
ta gọi kiến trúc mạng này là base network (tính từ input Image đến Conv7 trong hình
3) Sau đó chúng ta sẽ thêm những kiến trúc phía sau based network dé tiễn hànhnhận diện vật thé như phan Extra Feature Layers trong sơ đồ Cac layers này được
diễn giải đơn giản như sau:
e Cac layer của mô hình SSD:
24