1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Kỹ thuật máy tính: Hiện thực mô hình phát hiện và tránh vật cản trên đường trong điều khiển xe tự hành

98 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Hiện thực mô hình phát hiện và tránh vật cản trên đường trong điều khiển xe tự hành
Tác giả Nguyen Ve Huu Phuc, Pham Minh Quan
Người hướng dẫn Ths. Tran Hoang Loc, Ths. Pham Minh Quan
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Kỹ thuật Máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2023
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 98
Dung lượng 61,54 MB

Nội dung

Phát triển và ứng dụng máy học vào cuộc sống đang được coi là kỳ lân công nghệ trong kỷ nguyên mới, các thuật toán máy học đã được ứng dụng và thành công trong các lĩnh vực khác nhau từ

Trang 1

ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KỸ THUẬT MÁY TÍNH

NGUYEN VÕ HỮU PHÚC - 19522043

PHẠM MINH QUẦN - 19522084

KHÓA LUẬN TÓT NGHIỆP

HIỆN THỰC MÔ HÌNH PHÁT HIỆN VÀ TRÁNH VAT CAN TREN DUONG TRONG DIEU KHIEN XE

TU HANH

IMPLEMENTATION OF OBSTACLE DETECTION AND

EVASION ON ROAD IN AUTO-DRIVING CAR

KY SƯ KỸ THUAT MAY TÍNH

GIANG VIEN HUONG DAN Ths TRAN HOANG LOC Ths PHAM MINH QUAN

TP HO CHi MINH, 2023

Trang 2

LỜI CẢM ƠN

Để có thể thực hiện và hoàn thành khóa luận tốt nghiệp này chúng em xin chân thành gửi lời cảm ơn đến thầy cô Trường Đại học Công nghệ Thông tin — Đại học Quốc gia Thành phố Hồ Chí Minh nói chung và thầy cô trực

thuộc khoa Kỹ thuật Máy tính nói riêng đã giúp đỡ và hỗ trợ và giúp đỡ

chúng em trong suốt quá trình 4 năm học tập và nghiên cứu tại trường Đại

học này.

Xin gửi lời cảm ơn chân thành đến giảng viên Ths Trần Hoàng Lộc

và giảng viên Ths Phạm Minh Quân đã là người đồng hành và cung cấp

kiến thức đồ thời cũng hỗ trợ chúng em suốt thời gian thực hiện dé tài này

từ lúc phát triển và bắt đầu nghiên cứu ở môn đồ án 1 đến tận khi hoàn thành

khóa luận tốt nghiệp này.

Xin chân thành cảm ơn đến những bạn bè và anh chị đã giúp đỡ cung

cấp những tài liệu và chỉ dẫn tận tình giúp cung cấp nhiều nguồn uy tín và

phủ hợp trong suốt quá trình thực hiện khóa luận này.

Một lần nữa xin gửi lời cảm ơn đến tất cả những người đã giành thời

gian và công sức giúp đỡ chúng em hoàn thành khóa luận tốt nghiệp Trong

quá trình thực hiện khóa luận tất nhiên chúng em cũng sẽ không tránh khỏi những thiết sót mong các quý thầy cô và các bạn, anh chị bỏ qua và thứ lỗi.

Sinh viên thực hiện

Nguyễn Võ Hữu Phúc

Phạm Minh Quân Khoa Kỹ thuật Máy Tính - MTCL2019.3

Trang 3

1.3 Giới thiệu về Machine Learning . -+©222++++22vv+reerrvvrrrsrrvrcree 5

Chương 2 CƠ SỞ LÝ THUYÉT 22+22EE+2+22EEEE+tEE2EEEtEEEEErrrtrrkrcree 6

2.1.

2.1.1 Neural Network.

Kiến trúc Machine Learning

2.1.1.1 Neural Network là gì?.

2.1.1.2 Artificial Neural Network

2.1.1.3 Multi-layer PerceptrOn - «Street 8

2.1.1.4 Convolutional Neural Network - «s55 5cccccscsrerreexeee 9 2.1.2 — Single Shot MultiBox Detector cccccceceseseeeeseeeeeseeteeeeeeeeeeeeeeneneee 17

2.1.2.1 Giới thiệu về SSD vveessssssssssscsssscsesessssensssssssssssssssssseeeeeeeeseeeeeeeees 17 2.1.2.2 Kiến trúc mô hình SSD cccsessssesssseessssessssesssseesssvessssesssseessseesssvees 17 2.1.2.3 Ưu điểm và nhược điểm của SSD -:cccccccvevvvececccee 19

2.1.2.4 Quá trình phát triển và cải tiễn của SSD -.-cce: 20 2.1.2.5 Ứng dụng của SSD :-222222vvvcrrttEEErktrrrrrrrrrrrrrerrree 21

Trang 4

2.3.1.1 Thuật toán lan truyền ngược (Backpropagation algorithm) 32

2.3.1.2 Hàm kích hoạt (Activation function) -++<<<<<cc+<<s<s 33

2.3.1.3 Hàm mất mát (bi 37

2.3.1.4 Độ chính xác của mô hình ¿ 2+ ©++x++zx+zx++zx+zzxzrxeex 39

2.4 Phần mềm và thư viện hỗ trợ -¿ 2 + x2x++E++Ex+rxerxvrrerxerxerseee 41

2.4.1.1 PyfOrCh Q Go ng 41 2.4.1.2 Google COlabOTAfOYY - S5 s1 ng ng Hy 42 2.4.1.3 CARLA (Car Learning to AC) - s1 HH, 43 QALA .“ 44

Chương 3 NỘI DUNG THUC HIỆN -2¿ 22 522++2£++£++ezx++zxesrxeee 47

3.1 Mô hình nhận diện vật thé c.cccccccscsscsscessesseesesssessessessessessessesseesesseeseesess 47

3.1.1 SSDlite voi backbone MobileNetV3 ::cccccsssccccesssssseeeceesesseeees 47

3.1.1.1 Giới thiệu mô hình 2 222++++£x£+E£+E++Extrxezkerreerxerkeres 41

3.1.1.2 Kiến trúc và kích thước mô hình - - s+s+s+ze+s+E+zezszx+zezs 48

3.1.1.3 Đánh giá mô hình và nhận Xét ¿55+ 5+ ++++++s++ex+sxsss+ 48

3.1.2 Mô hình SSDIite với MobileNetV3 cắt giảm 2 lớp cuối của mạng 49

3.1.2.1 Giới thiệu mô hình 2¿©+++£+x++E+Ex++rx+rxerreerxerrxee 49

3.1.2.2 Kiến trúc mô hình sau khi cắt giảm - 2-2 2 s2 s+zs+++£s 493.1.2.3 Chi tiết mô hình ¿- +: + 2E2E2+EE£EEtEEEEEEEEEEEEEErrkerkerkrrei 50

3.2.1 _ Tệp dataset COCO HH TH HH HH nh 51

3.2.2 Tiền xử lý ảnh -. -+c£+E+keEEEEESEEE 21121212121 EE.cree 53

3.2.2.1 Tại sao phải tiền xử lý ảnh c5 sS<cEt+E2EccEerkerxerxrreres 533.2.2.2 Xử lý ảnh băng thư viện Pytorch -¿-s++cx+cx+scxcezxez 543.3 Huấn luyện và đánh giá mô hình -¿- ¿+ +++x++z++zx++zx++zxzzxeex 56

3.3.1 Khởi tạo mô hình tùy chỉnh - - «+ kg re 56

3.3.2 Huấn luyện mô hình - 2-22 E+EE+EE++EE+EEtEEerEezErrxerkerree 58

3.3.3 Lưu mô hình - ¿+ 2 5 +22 3332111125311 231 199 1v vn re rưy 60

3.3.4 _ Đánh giá mô hìnhh 5 5+ E313 2E E£EEEESEESEsrerseerreeerevre 61

Trang 5

3.4 Phần mềm mô phỏng CARLA -2¿-5¿©2+2222++2£+vzx+ezxesrxesreees 62

3.4.1 _ Thiết lập môi trường mô phỏng 2- 2 2 s+++£x£+£++zx+rxezsez 62

3.4.2 Khoi chạy CARLA S€TV€T GÀ LH HH HH ệt 63

3.4.3 Kết nối máy khách -©2+22+EE+EEtEEEEEEEEEEEEEEEEErrkerkerree 64

3.4.4 Tương tác với mô phỏng - - - s xxx vn g gre 65

3.5 Chương trình điều khiỂn ¿- 2 2 2 +k+SE£EE#EEEEESEEEEE2EEEEEEEEEEErkrrkrrree 70

3.5.1 Luồng xử lý nhận diện vật cản - - ¿+ + ++kssksesserseersrke 70

3.5.2 Ludng xử lý tín hiệu Lidar -¿-c+5cxceccccxesrxesrxee 72

3.5.3 Luồng xử lý tín hiệu điều khiển xe - 2 2+s+x+cxerxersssez 74

3.5.4 — Xử lý đa luỗng c 2S 2T Hee 71

Chương 4 THỰC NGHIỆM 2-2 ©5£+S22EE2EE£EEtEEEEEEEEEEEErrkrrrkerkerrrree 78

4.1 Thiết kế phần cứng c¿©k2EE+EE+EEEE£+E+EEEEEEESEEEEEEEEEEEEEEEEEEkerkrrkrree 78

4.2 Chương trình mô phỏng CAIRLA: - 5 555 1s series 79

4.3 Thực nghiệm mô hình trên phan cứng JetsonNano - : -: s 80

4.3.1 Độ chính xác của mô hình - << 2+ + + +‡+++++e++ezzzzzzzzz.xx 80

4.3.2 Hiệu năng của mô hình trên phần cứng JetsonNano 81Chương 5 KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIÉN - 82

5.1 Kết Luận c.ccc2cc 2S 2Sc 2c SE TH HE 1111 1111 crrereee 82

5.1.1 Thực hiện mô phỏng - - (2 3232133 E*ESEESEEESErekeskrsekrsee 82 5.1.2 Mô hình sử dụng 2-©2¿+2£+EE+EECEEEEEEEEEEEEEEErrrrrkerkerree 82

5.2 Định hướng phát triỂn ¿- 2 +++E£+EE+EE£EEEEEEEEEEEEEEEEEEEEEErrkerkerreee 83

TÀI LIEU THAM KHẢO - - St ESEESE+EEEEEEEEEEEEESEEEEEESESEEEESESEEEErkekrrrrkrree 84

Trang 6

Hình 1.1:

DANH MỤC HÌNH

Quy mô thị trường trí tuệ nhân tạo Bắc Mỹ, 2019-2030 (Ty USD) [10] 4Hình 2.1: Tế bào nơ-ron sinh học trong não người [ Í]| «<< <+<see+sseesses 7Hình 2.2: TẾ bào nơ-ron nhân tao sử dung trong kiến trúc ANN [1] 7Hình 2.3: Kiến trúc ANN cơ bản [1] - -c¿-+cc++tstEkxrrtrktrrtrrtrrrrrtrrrrrrrrrrrk 8Hình 2.4: Kết cầu của một mạng Perceptron đa lớp cơ bản [2] - ‹ + 9Hình 2.5: Kết quả mang CNN nhận diện chữ viết tay [3] . - 55552 10Hình 2.6: Kiến trúc LeNet-5 nhận diện chữ viết tay [20] -¿ -: -5+ 10Hình 2.7: Kiến trúc AlexNet được giới thiệu vào năm 2012 [2I] 11Hình 2.8: Khối Inception, a) Phiên bản cơ bản; b) Sử dụng những lớp Conv1x1

giảm số chiều và kích thước dit liệu đầu vào [23] - 2-2 2+sz+x+zxezzzszse2 13

Hình 2.9: Mô hình R-CNN với ba bước chính [4] -. - +5 << +++<<ss+++<exc++ss 14 Hình 2.10: Mô hình Fast R-CNN [24] - 2< 1111112222111 11111 ke 15 Hình 2.11: Anchor boxes trong RPN áp dụng vào mô hình Faster R-CNN [25] 15 Hình 2.12: Mô hình YOLO cơ bản [Š]| - 6 5c 2511 *seererereressererrsee 16

Hình 2.13: Kiến trúc mô hình YOLO cơ bản [5] -cc::-ccccc+sccxecrsrrrreer 16Hình 2.14: Kiến trúc SSD sử dụng VGG-16 làm mang Backbone [6T] 18

Hình 2.15: Mô hình MobileNet được sử dụng vào các ứng dụng di động [32] 22 Hình 2.16: MobileNetV2 layer (Inverted Residual and Linear Bottleneck) [34] 25 Hình 2.17: MobileNetV2 + Squeeze-and-Excite [34] - c5 ccscc<scsseesee 26

Hình 2.18: Hiệu xuất của các phiên bản MobileNetV3 [34] - « -5 28Hình 2.19: Kết cấu của hệ thống Lidar cơ bản [37] - <5 c5 << ££cc<£ssss<+ 30Hình 2.20: Biểu đồ hàm kích hoạt Sigmoid [41] c¿-ccc++cxxccscxxeeere 34Hình 2.21: Sơ đồ hàm kích hoạt ReLU [42] - - 2c x ++x£E+E£EE+EeExeEerxexzxers 34Hình 2.22: Ví dụ của hàm softmax với dữ liệu đầu vào và kết quả tương ứng 35Hình 2.23: Đồ thi ham swish [43] - ¿2111111222331 1111 1 E833 1 1 E19 11 key 36Hình 2.24: Đồ thị hàm ReLU6 [33] , 2-22 5¿©5+2E++£x+2Ext2EEtzx+zrxezrxerresree 36Hình 2.25: Đồ thi ham swish so với hardswish [33] - - 55555 22< << <<sccesexs 37

Hình 2.26: Pytorch ÏOO 0 Gv Hg H T g Hi hrưn 41

Trang 7

Hình 2.27: Google colaboratory ÏOBO - - 5 + kh HH gtưệt 42 Hình 2.28: CARLA ÏOEO Gv HH TT Hà HH HH gà 43 Hình 2.29: Môi trường mô phỏng của CA RÌA - s- cccs+csecsvessessessesske 44 Hình 2.30: Mô phỏng tính hiệu Lidar của CARLA - - 5 5< 5< <<<+s<+sx2 44 Hình 2.31: Workflow của Socket trong pythON - 55c + series 45

Hình 3.1: Kiến trúc SSDlite với backbone MobileNetV3 -c5c55+ 48Hình 3.2: Kiến trúc SSDlite với backbone MobileNetV3 đã được giảm số lớp và

giới hạn loại vật thé cần nhận diện 2-2 ¿+ 2+E+EE+EE+2EE£EE+EEtEEEEErEkrrxrrrrrex 49Hình 3.3: Tệp dataset sử dụng trong đề tài này 5-2 z+ce+xecxerxerxerxersrree 53

Hình 3.4: Ham Resize của Pytorch + 1 111kg 54 Hình 3.5: Grayscale của PVfOTCH - - c1 11121191 1 TH HH 55 Hình 3.6: CenterCrop của PyfOTC c ¿+ ss + c1 1321131011911 1191111 1 9 1 ng 55

Hình 3.7: FiveCrop của Pytorch (cắt vào 4 góc và trung tâm ảnh) - 55

Hình 3.8: RandomCrop của Py{OTCh - óc <6 3E 11 1 1 nh ngư 55

Hình 3.9: Kết hợp các hàm tiền xử ly ảnh và áp dụng vào mô hình 56

Hình 3.10: Lớp khởi tạo cho từng lớp trong mô hình tùy chỉnh . - 57 Hình 3.11: Hàm chỉnh backbone MobileNetV3 - cv sessesee 58

Hình 3.12: Hàm tông hợp kiến trúc mô hình hoàn chỉnh ¿2-5 s52 s2 58Hình 3.13: Kết nối với google drive trên Colab -¿ ¿«¿©++2x++zx+zzx+zxesrsz 59

Hình 3.14: Tach tệp dataset lớp ra thành các tệp con: Train, Test và Validate 59

Hình 3.15: Khởi tạo dataloader dé đưa dữ liệu vào mô hình huấn luyện 59Hình 3.16: Chon phan cứng dé huấn luyện - 2-2 2 2 £+E££x+zx+£x+rszrszsez 60Hình 3.17: Lưu mô hình huấn luyện tai checkpoint - 2 2s s2 s2zs+£s2 s2 60Hình 3.18: Tải lại mô hình huấn luyện từ checkpoint : ¿sz+=s+ 60Hình 3.19: Hàm bat đầu huấn luyện mô hình -. -2¿- ¿+2 5++x2z++zx+zz+z 60

Hình 3.20: Hàm đánh giá độ chính xác của mô hình - - -«- -«£+<<+sx+se+sx+ 61

Hình 3.21: Ảnh môi trường mô phỏng - - 2 2 E+E+2E£+EE+EE+EEerEEzEEzrxerxerez 63Hình 3.22: Flowchart client khởi tạo kết nối với S€TVeT s- - + s+x+xezezxzxez 64

Hình 3.23: Tesla Model 3 - - - << + << << E1 EEEEEE11111111EEE11895555555551 511k kkkkkkkree 65

Trang 8

Hình 3.24: Flowchart client giao tiếp và nhận dữ liệu từ cảm biến 68Hình 3.25: Flowchart luồng xử lý dit liệu ảnh 2- ¿2+ ©+2+++zxzzx+zxesrxz 70Hình 3.26: Hàm nhận diện vật thê 2-22 +¿++2E++Ex+2EEt2EEtEE+erxrzrxrrrecree 71Hình 3.27: Khởi tạo lớp xử lý ảnh nhằm chia luồng - 2-22 55552 55+c52 72Hình 3.28: Flowchart luồng xử lý đữ liệu Lidar 2- 2 2 2 s>x+£x+zzzszse2 72Hình 3.29: Khởi tạo lớp xử lý Lidar nhằm chia luỗng 2-5-5 52 s52 5+2 73Hình 3.30: Flowchart luồng điều khiển xe 2-22 5¿22+2++2x++zxrzzxerxesrxz 74

Hình 3.31: Flowchart thuật toán xử lý tránh né vat cắn .- - «<< cseese 75

Hình 3.32: Flowchart xử lý đa luỗng -¿- + ¿2£ E+EE+EE+EE£EE+EEEEEerkerkerkrrkrree 77Hình 4.1: Sơ đồ thiết kế phần cứng 2 2¿©2+¿+SE+2EE+EE+SEEEEEEEEESrkrrrrrrerree 78

Hình 4.2: Chương trình mô phỏng CC arÌa - 5 5< 325 E 33+ vveeeerrereersrerrre 79

Hình 4.3: Kết quả evaluate mô hình được điều chỉnh 2- 2 2 s2 s2 s+£s2 s2 80

Trang 9

DANH MỤC BANG

Bảng 2-1: Cấu hình kiến trúc VGGNet [22] -:¿-55+¿2c5vvtsccxvrsrrrrrrsrrrerrre 12

Bảng 2-2: Mô hình GoogLeNet sử dụng khối Inception [23] -« 13

Bang 2-3: Kết quả nhận diện hình ảnh trên tệp PASCAL VOC2012 [6] 20Bảng 2-4: Kết quả nhận diện hình ảnh trên tệp COCO test-dev2012 [6] 20Bang 2-5: Kết quả nhận diện trên thiết bi di động iPhone XS Max của mô hình

MobileNetV2-SSD có sử dụng BlazeBlock và không sử dụng BlazeBlock [31] 21

Bảng 2-6: Sườn kiến trúc của MobileNet [32] - ¿5-5 ecx+EvEeEerkerxrxerxererxee 23

Bảng 2-7: Depthwise Separable vs Full Convolution MobileNet [32] 24 Bảng 2-8: MobileNet Width Multiplier [32] - 555 + +ssksseeesseesesers 24 Bang 2-9: MobileNet Resolution Multiplier [32] . 555555 <<++<s<<+seesssess 24

Bang 2-10: Kiến trúc MobileNetV3-large [33] - - c7 sSSssreeersesrreses 26Bảng 2-11: Kiến trúc MobileNetV3-small [33] - + + =scxsxssezezszezererssressz 27Bang 3-1: Chi tiết kiến trúc mô hình từ Sequential 2 — l -s¿sz=s+ 50Bảng 3-2: Chỉ tiết kiến trúc mô hình từ ModuleList 2 — 2 -: -sc:-:+ 5IBang 4-1: Kết quả so sánh giữa mô hình Modified với các mô hình khác 81Bang 4-2: Kết quả so sánh giữa mô hình Pre-trained với Modified - 81

Trang 10

DANH MỤC TỪ VIET TAT

IoT Internet of Things

GPT Generative Pre-trained Transformer

GPU Graphics processing unit

CPU Central processing unit

ANN Artificial Neural Network [1]

MLP Multi-layer Perceptron [2]

CNN Convolutional Neural Network [3]

R-CNN Region-based Convolutional Neural Network [4]

RPN Region Proposal Network

YOLO You Only Look Once [5]

SSD Single Shot MultiBox Detector [6]

VOC Visual Object Classes

COCO Common Objects in Context

CVPR Conference on Computer Vision and Pattern Recognition

SE Squeeze and Excitation

ReLU Rectified Linear Units

MSE Mean Squared Error

IoU Intersection over Union

mAP Mean Average Precision

FPS Frames per second

Trang 11

TÓM TẮT KHÓA LUẬN

Thuật ngữ "xe tự hành" đã xuất hiện từ lâu trong lịch sử phát triển công nghệ

tự động hóa và đã trải qua nhiều giai đoạn phát triển Ý tưởng ban đầu về xe tự hành

xuất hiện trong văn học khoa học viễn tưởng Sau đó, từ năm 1920 [7], các nhà khoa

học và kỹ su đã nghiên cứu dé tạo ra các hệ thống tự động hóa dé giúp lái xe Day làcác bước đột phá đáng ké trong lĩnh vực này, khi các hệ thống điều khiển tự độngphức tạp hơn được phát triển để giúp xe tự di chuyền và phát hiện các vật thé

Mục tiêu của xe tự hành là giảm thiểu sự cố va cham và tai nạn, tăng tính antoàn và tối ưu hóa hiệu quả vận chuyền Trên thị trường hiện nay đã có nhiều nghiêncứu và sản phẩm liên quan đến xe tự hành, như dịch vụ xe taxi tự hành của Waymo

và Cruise Các công ty này trang bị nhiều công nghệ tiên tiến như Lidar, Radar,Camera, GPS (Global Positioning System), Ultrasonic dé hỗ trợ hệ thống xe tự hành

Ở Việt Nam, cũng đã có nghiên cứu về xe tự hành, bao gồm xây dựng chươngtrình điều khiển xe tự hành sử dụng Deep Learning [8] và hệ thống tránh vật cản sử

dụng công nghệ Lidar [9].

Do đó trong đề tài này, nhóm chúng em đề xuất một mô hình sử dụng cảm

biến Camera va Lidar dé nghiên cứu tiếp Anh từ Camera sẽ được sử dụng dé nhận

diện vật cản như người và phương tiện giao thông thông qua mô hình Deep Learning.

Trong khi đó, Lidar sẽ đo khoảng cách đến các vật cản xung quanh xe tự hành

Trong dé tài này chúng em sử dụng mô hình SSDlite kết hop backbone của

MobilenetV3 Tuy nhiên có sự điều chỉnh và cắt giảm số vật thé cần phát hiện cùngvới các lớp nhỏ trong mạng backbone của MobilenetV3 Mô hình đã cắt giảm còn

61% so với kích thước ban dau (từ 3,44 triệu param xuống còn 2,1 triệu param) Việccắt giảm kích thước đã giúp tăng tốc độ xử lý từ 3,8 FPS lên 11 FPS (cải thiện 2,89lần so với mô hình gốc trên cùng phần cứng jetson nano)

Môi trường thực nghiệm sẽ là môi trường mô phỏng trên phần mềm Carla có

sự kết hợp giữa cam biến Lidar và Camera Việc sử dụng Lidar nhằm đo đạt và nhậnbiết khoảng cách từ xe đến vật cản tuy nhiên lidar sẽ không phân biệt được vật cản

Trang 12

với môi trường xung quanh nên chúng em quyết định tích hợp camera có nhận diện

vật thé dé có thé nhận biết vật cản cần tránh soi với môi trường

Trong dé tài này chúng em đã xây dựng được mô hình với độ chính xác 73,1

AP% so với 75,9 AP% của mô hình ban đầu Tuy nhiên độ chính xác này vẫn chưa

đủ dé có thé áp dụng vào xe tự hành trên thực tế Môi trường mô phỏng cũng đã xâydựng đầy đủ các kịch bản cần thiết đã được nêu trên đề cương tóm tắt đồng thời có

thé cai đặt các cảm biến Lidar phù hợp với thông số của cảm biến Lidar trên thực tế

Trong tương lai chúng em sẽ có thê phát triển hệ thống đề có thể chạy trực tiếptrên jetson nano và tương lai xa hơn có thể áp dụng vào xe tự hành trên thực tế Tuynhiên dé làm được điều đó chúng em cần cải thiện mô hình nhận diện vật thé và tốimáy trạng thái trong việc điều khiển xe tự hành

Trang 13

Chương 1 TONG QUAN ĐÈ TÀI

1.1 Tình hình ngoài nước:

Hiện nay AI đang có sự thu hút sự quan tâm cảng ngày càng tăng của các

ngành công nghiệp, chính phủ, tổ chức nghiên cứu và công chúng Các công

ty công nghệ lớn như Google, Microsoft, Amazone, Facebook và Apple đã

đầu tư mạnh mẽ vào thị trường AI cả về nghiên cứu phát triển và ứng dụng AIvào thực tế

Su phát truén của công nghệ trực tiếp thúc day các công trình nghiên cứu về

AI dang được công bố ngày càng nhiều và phát triển nhanh chóng Các kỹ

thuật và công nghệ mới như Deep Learning (Học sâu), Reinforcement

Learning (Học tăng cường) va Deep Neural Networks (Mạng nơ-ron học sâu)

đã mang lại những đóng góp trực tiếp góp phan phát triển đáng ké lĩnh vực

này.

AI cũng đã được ứng dụng rộng rãi trong nhiều lĩnh vực từ: y tế, tự động hóa,giao thông vận tải, tài chính, quản lý, marketing, giáo dục và rất nhiều lĩnh vực

khác Các ứng dụng của AI đã mang lại hiệu suất đáng ké và mang lại những

tiện ít và giá trị đáng ké cho các ngành công nghiệp và cuộc sống hằng ngày

Theo trang Fortune Business Insights, quy mô thị trường trí tuệ nhân tạo đã đạt được 428 tỷ đô vào năm 2022 và được dự đoán tăng trưởng vượt bật từ 513,31 tỷ đô năm 2023 lên 2.025,12 tỷ đô và năm 2030 Đạt tỷ lệ tăng trưởng

hằng năm hợp thành là 21,6% trong thời gian dự báo [10] Đặc biệt khi trải

qua đại dịch COVID-19 đã thúc day áp dụng các công nghệ tiên tiễn như trí

tuệ nhân tạo AI, máy học, điện toán đám mây, IoT và các công nghệ tiên tiễn

khác.

Trang 14

134.64 (| |

=~ oo

2019 2020 2021 2022 2023 2024 2025 2026 2027 2028 2029 2030

Hình 1.1: Quy mô thi trường trí tuệ nhân tao Bắc Mỹ, 2019-2030 (Tỷ USD) [10]

- Từ khi ChatGPT được công bố đã thu hút được rất nhiều sự quan tâm và hưởng

ứng của cộng đồng Theo OpenAI, ChatGPT đã nhanh chóng trở thành ứng

dụng được sử dụng nhiều nhất trong lịch sử với ước tính có hơn 100 triệu lượt

truy cập trong vòng | tháng [11].

- Với việc sử dụng công nghệ AI vào xe tự hành cũng đang là định hướng va

mục tiêu phát triển trọng yếu ở hiện tại và trong tương lai Tích hợp AI vàophương tiện di chuyên như xe ô tô không chi đề hỗ trợ con người khi tham gia

giao thông mà trong tương lai có thê thay thế con người thực hiện quá trình

điều khiển và vận chuyên thay thế cho con người

1.2 Tình hình trong nước:

- Nước ta đang trong quá trình thực hiện công cuộc tiến đến công nghiệp hóa

4.0 hướng đến nền công nghiệp áp dụng công nghệ hiện đại, tự động hóa nhưIoT và AI nham gia tăng sản xuất và thúc day phát triển Tuy nhiên nước tavẫn còn nhiều hạn chế về kỹ thuật và công nghệ mặt khác lại ân chứa nhiều

tiềm năng để phát triển và thúc đây nền công nghiệp nước nhà

- Thời gian qua Đảng và nhà nước đã ban hành chỉ thị 52-NQ/TW (ngày 27

tháng 9 năm 2019) [12] nhằm nâng cao năng lực tiếp cận cuộc Cách mạngcông nghiệp lần thứ tư và phê duyệt Đề án thúc đây mô hình kinh tế chia sẻ.Xây dựng chính phủ điện tử tiến tới chính phủ só, tích cực xây dựng và hoànthiện bộ pháp luật về môi trường kinh doanh sé Triển khai cơ sở hạ tang băngthông rộng khắp cả nước đồng thời khuyến khích các trường đại học, việnnghiên cứu tập trung phát triển công nghệ

Trang 15

- _ Tận dụng thời cơ từ thị trường và hỗ trợ từ nhà nước, quá trình phát triển của

nên công nghiệp hiện đại ứng dụng AI đang thu hút rất nhiều nguồn nhân lực

và cơ hội dé nghiên cứu va phát triển không chỉ ở hiện tại mà còn trong tương

lai.

- Nam bắt được xu hướng đó, ngay tại Trường Đại hoc Công nghệ và Thông tin

— thuộc Dai học Quốc gia thành phố Hồ Chi Minh cũng đã có các dé tài nghiên

cứu chuyên sâu về nhiều lĩnh vực từ Blockchain, IoT và đặc biệt nhất là phát

trién mang Machine Learning áp dụng vào cuộc sống con người

1.3 Giới thiệu về Machine Learning

- Machine learning là một nhánh được phát triển từ việc nghiên cứu thuật toán

mô phỏng trí thông minh và cách não bộ con hoạt động khi học hỏi từ môi

trường xung quanh [13] Phát triển và ứng dụng máy học vào cuộc sống đang

được coi là kỳ lân công nghệ trong kỷ nguyên mới, các thuật toán máy học đã

được ứng dụng và thành công trong các lĩnh vực khác nhau từ những bài toán

nhận diện mẫu (Sampling), thị giác máy tính (Computer Vision), kỹ thuật tàu

vũ trụ và du hành không gian, kinh tế và tài chính, giải trí, sinh — hóa học và y

té,

- _ Các hệ thông máy học có khả năng tự động "hoc" từ dữ liệu mà không can

phải được lập trình cụ thể Thay vào đó, chúng sử dụng các thuật toán và môhình để phân tích và rút ra các mẫu, thông tin từ dữ liệu đầu vào và sử dụngnhững thông tin này dé đưa ra dự đoán, phân loại hoặc ra quyết định trong cáctác vụ mới Các phương pháp máy học bao gồm nhiều kỹ thuật và thuật toán

như học có giám sát (supervised learning), học không giám sát (unsupervised

learning) và học bán giám sát (semi-supervised learmng) [14].

- Muc tiêu của máy học là phát triển các mô hình và thuật toán có khả năng tự

học và cải thiện theo thời gian, từ đó giúp máy tính hiểu và xử lý thông tinphức tạp, đưa ra dự đoán chính xác và đưa ra quyết định thông minh dựa trên

dữ liệu [13].

Trang 16

Chuong 2 CƠ SỞ LÝ THUYET

2.1 Kiến trúc Machine Learning

Kiến trúc mô hình máy học đầu tiên được phát triển là Artificial NeuralNetwork (ANN) được phát triển và những năm 1940 — 1950 [15] đã đề xuất

một mô hình mô phỏng hệ thống thần kinh trong não người Mô hình gồm cácnơ-ron nhân tạo được kết nối với nhau thông qua các liên kết có trọng số nhămthực hiện các phép tính đơn giản trên từng nơ-ron và tạo ra kết quả dựa trêncác trọng số và ngưỡng

Tuy nhiên vì sự hạn chế của kiến trúc phức tạp thời đó và từ thuật toán đến

phần cứng chưa đáp ứng tài nguyên tính toán khiến sự phát triển của mạng

no-ron bị gián đoạn Đến những năm 1980, với sự xuất hiện của thuật toán lantruyền ngược (backpropagation algorithm), mạng nơ-ron đã trở thành lĩnh vựcnghiên cứu trọng yêu trong suốt quá trình phát triển máy học đến tận bây giờ

2.1.1 Neural Network

2.1.1.1 Neural Network là gi?

Khi cần giải một bai toán ta thường sử dung các biện pháp tính toán thôngthường có công thức và điều kiện xác định cho trước, tuy nhiên khi đối diệnvới những bài toán đặc biệt yêu mang tính trù tượng nhất định ta cần phươngpháp linh hoạt hơn đề giải quyết bài toán đó Mạng lưới thần kinh (NeuralNetwork) là một đại diện tiêu biểu cho phương pháp đó với giải pháp của van

đề được huấn luyện và học tập dựa trên một tệp hoặc một nhóm mẫu cho sẵn

từ đó có thê đưa ra các dự đoán và giải pháp mang tính logic dựa trên những

gì được học trước đó [16].

Não người là một kiến trúc mạng thần kinh sinh học phức tạp với gần 100 tỉ

tế bào nơ-ron và gấp mười số đó với tế bào thần kinh đệm [17] dé phuc vu

chức năng quan trong nhất của con người, quyết định suy nghĩ, tinh cách và

hành vi của từng cá nhân dựa trên cấu trúc riêng biệt và đặc trưng của não bộảnh hưởng bởi kiến thức và nhận thức của từng người riêng biệt

Trang 17

- Bằng cách mô phỏng lại quá trình hoạt động của bộ não con người và cách

thức các nơ-ron giao tiếp và tính toán cho ra các kết quả và quyết định, mộtkiến trúc mạng thần kinh nhân tạo (ANN) được ra đời như một giải pháp thaythế cho các phương thức giải quyết vấn đề trước đó

2.1.1.2 Artificial Neural Network

- Lấy cảm hứng từ mang than kinh sinh học của bộ não con người, mang thần

kinh nhân tạo cũng là một bộ tính toán song song đồng thời gồm một số lượnglớn tế bào xử lý đơn giản

Hinh 2.1: Té bao no-ron sinh học trong não người [1]

- Tế bào nơ-ron sinh học bao ngồm nhiều đầu vào với các trọng số cho mỗi giá

trị đầu vào đó Sau đó sẽ được đi qua hạt nhân trung tâm nhằm tính toán vàđưa ra kết quả sau đó truyền đi tới các tế bào nơ-ron khác Bằng cách mô phỏng

gân giông mộ nơ-ron sinh học, câu trúc của nơ-ron nhân tạo như sau:

weights inputs

Trang 18

-_ Một tế bào nơ-ron nhân tao cũng sở hữu nhiều đầu vào với các trọng số đi kèm

theo từng giá tri đầu vào Các tín hiệu đầu vào sẽ được đi qua một hàm kích

hoạt bao gồm tham số (Bias) và ngưỡng đầu ra (Threshold) Bằng cách thay

đổi các trọng số trên từng nơ-ron nhân tạo, chúng ta có thé nhận được nhữngkết quả mong muốn với từng giá trị đầu vào cụ thể Mục tiêu của việc huấnluyện nhằm tìm ra trọng số phù hợp dé kết quả dau ra có sai số thấp nhất

- _ Một mô hình Neural Network hoàn chỉnh được bao gồm nhiều lớp bao gồm:

lớp đầu vào, lớp đầu ra và có hoặc không các lớp ân giữa 2 lớp trên Mô hìnhNeural Network cơ bản sẽ có kiến trúc như Hình 2.3

Input layer Hidden layer Hidden layer Output layer

- OHinh 2.3, mỗi hình tròn tượng trưng cho từng no-ron trong kiến trúc mạng

ANN và những mũi tên đen tượng trưng cho các kết nối (channel) giữa từngnơ-ron (Hình 2.2) qua các lớp trong kiến trúc ANN Một kiến trúc cụ thể hơn

của ANN sử dụng nhiều lớp mạng được gọi à Multi-layer perceptron (MLP)

2.1.1.3 Multi-layer Perceptron

- Multi-layer Perceptron (MLP) là một kiến trúc mạng nơ-ron truyền thăng

(feedforward neural network) với ít nhất hai lớp nơ-ron (một lớp đầu vào vàmột lớp đầu ra) và nhiều hơn một lớp an giữa chúng MLP được coi là mộttrong những kiến trúc cơ bản và phô biến nhất của mạng nơ-ron

- Các lớp nơ-ron sử dụng trong MLP được gọi là lớp Perceptron, sử dụng

Perceptron Algorithm dựa vào các lớp kernel để chuyên ma trận đầu vào sang

không gian nhiêu chiêu hơn, tăng cường thông tin và dữ liệu đâu ra cải thiện

Trang 19

độ chính xác hơn so với các thuật toán trước đó Phương thức áp dụng

Perceptron Algorithm được đề xuất từ năm 1958 bo Frank Rosenblatt [2] bao

gồm một lớp đầu vào, một lớp đầu ra và một hàm kích hoạt đơn giảm nhằm

thực hiện các phép toán tuyến tính và các bài toán phân loại đơn giản

Unidirectional Unidirectional Bidirectional

information flow information flow information flow

Hình 2.4: Kết cấu của một mang Perceptron đa lớp cơ bản [2]

- Sau khi có sự ra đời của Perceptron, các nhà nghiên cứu thấy răng có thé kết

hợp nhiều Perceptron khác nhau đề tạo ra một mô hình mạnh mẽ hơn và phức

tạp hơn được gọi là Multi-layer Perceptron [19] Tuy nhiên vì hạn chế về kiến

trúc và hiệu năng xử lý và mục đích ban đầu dé phục vụ những bài toán tuyến

tính và các bài toán phân loại nên MLP thường không được áp dụng vào việc

nhận diện hình ảnh với kích thước dữ liệu lớn và bố cục vật thé phức tạp Vìthé dé có thé giải quyết các bài toán nhận diện hình ảnh một kiến trúc mạngnơ-ron mới được ra đời được gọi là Mạng thần kinh tích chập (Convolutional

Neural Network).

2.1.1.4 Convolutional Neural Network

- Mang thần kinh tích chập (Convolutional Neural Network) là một kiến trúc

mô hình trí tuệ nhân tạo được sử dụng chủ yếu vào xử lý ảnh CNN được thiết

kế đặc biệt dé xử lý và phân tích dữ liệu không gian như hình ảnh và video

- CNN được nghiên cứu và phát triển từ những năm 1980 và lần đầu được dé

cập chính thức trong bài báo cáo áp dụng NN vào nhận diện chữ viết [3]

Trang 20

0123456789 OUTPUTLAYER

i (EMM 3,000 Conn eval by DSP

4 HIDDEN LAYERS

130,000 Connections eval by NN-Chip

if INPUT (20x20 Pixels)

Hình 2.5: Kết qua mang CNN nhận diện chữ viết tay [3]

- C6 rất nhiều kiến trúc CNN khác nhau được phát triển dé phục vụ từng nhu

cầu và mục đích cụ thê từ khi được giới thiệu:

o LeNet-5: là một trong những kiến trúc CNN đầu tiên được phát triển

bởi Yann LeCun và nhóm nghiên cứu của ông vào năm 1998 Kiến trúc

LeNet-5 được áp dụng vào nhận diện tài liệu viết tay [20] từ bộ dữ liệu

cua MNIST (Modified National Institute of Standards and

Technology) Cau trúc của LeNet-5 bao gồm 3 lớp chính: Lớp tích chập(Convolution), lớp tổng hợp (Pooling) và lớp kết nối đầy đủ (Fully

connected).

S C3 ! maps 16@10x10

INPUT cl feature maps S4: † m 16405x5%

C5 layer rọ:xey OUTPUT

60@?14x1 120 B4 10

Full connecton Gaussian connections

Convolutions Subsampling Convolutions Subsampling Full connection

Hình 2.6: Kiến trúc LeNet-5 nhận diện chữ viết tay [20]

10

Trang 21

o AlexNet: Được giới thiệu và 2012 bởi Alex Krizhevsky, Ilya Sutskever

và Geoffrey Hinton AlexNet đã gây ra sự chú ý cực kì lớn trong lĩnh

vực nhận diện hình ảnh khi chiến thắng cuộc thi ImageNet Large Scale

Visual Recognition Challenge (ILSVRC) năm 2012 [21] Kiến trúc

AlexNet được sử dụng một số cải tiễn quan trọng như hàm kích hoạt

ReLU và kỹ thuật Dropout để giảm overfitting và kỹ thuật Data

augmentation nhằm tăng cường dữ liệu trong quá trình huấn luyện

Hình 2.7: Kiến trúc AlexNet được giới thiệu vào năm 2012 [21]

o VGGNet: Là một kiến trúc đơn giản và hiệu quả với việc sử dụng những

lớp tích chập nhỏ có kích thước 3x3 và các lớp tổng hợp 2x2 được giới

thiệu lần đầu vào năm 2014 bởi Karen Simonyan và Andrew Zisserman

từ Đại học Oxford [22] Tuy nhiên do số lượng tham số của VGGNet

khá lớn nên việc huấn luyện và triển khai mô hình tốn nhiều thời gian

và tài nguyên tính toán làm cho mô hình này thường không được sử

dụng trong các ứng dụng yêu cầu tài nguyên hạn chế

11

Trang 22

Bang 2-1: Cấu hình kiến trúc VGGNet [22]

ConvNet Configuration

[AT AIRNT BT c | D | —&

ll weight | 11 weight | 13 weight | 16 weight 16 weight 19 weight

layers layers layers layers layers

input (224 x 224 RGB image)

conv3-64 conv3-64 conv3-64

LRN conv3-64 conv3-64

maxpool conv3-128 | conv3-128 | conv3-128 | conv3-128 | conv3-128 | conv3-128

conv3-128 | conv3-128 | conv3-128 | conv3-128

conv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256

conv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256

convl-256 | conv3-256 | conv3-256

conv3-256

conv3-512 conv3-512 | conv3-512 | conv3-512 | conv3-512

conv3-512 conv3-512 | conv3-512 | conv3-512 | conv3-512

convl-512 | conv3-512 | conv3-512

conv3-512

o GoogLeNet (Inception): Được phát trién bởi nhóm nghiên cứu Google

DeepMind và công bố vào năm 2014 tại cuộc thi ImageNet Large Scale

Visual Recognition Challenge trong cùng năm Kiến trúc GoogLeNetđược tôi ưu hóa bằng cách áp dụng các khối Inception, bao gồm nhiềulớp tích chập được thực hiện song song và kết hợp kết quả từ những lớpsong song đó qua một lớp tổng hợp tạo thành đầu ra cuối cùng Việc sử

dụng các lớp song song giúp mô hình có khả năng không bị overfitting

và có thê học được những đặt trưng phức tạp và cải thiện hiệu suất mô

hình [23].

12

Trang 23

(a) Inception module, naive version

1x1 convolutions 3x3 convolutions 5x5 convolutions 3x3 max pooling

1x1 convolutions

i

Filter concatenation

(b) Inception module with dimension reductions

Hình 2.8: Khối Inception, a) Phiên bản cơ bản; b) Sử dụng những lớp Conv1x1

giảm số chiều và kích thước đữ liệu đầu vào [23]

Bảng 2-2: Mô hình GoogLeNet sử dụng khối Inception [23]

type patch sia? —~ depth | #1x1 ax #3x3 are #5x5 mi params | ops

inception (4a) 14x14x512 2 192 96 208 16 48 64 364K 73M

inception (4b) 14x14x512 mi” 160 112 224 24 64 64 437K 88M

inception (4c) 14x14x512 2 128 128 256 24 64 64 463K 100M inception (4d) 14x14x528 2 112 144 288 32 64 64 580K 119M inception (4e) 14x 14x 832 22 256 160 320 32 128 128 840K 170M

o Region-based Convolutional Neural Network (R-CNN): là một phương

pháp nhận diện vat thể trong hình ảnh được giới thiệu bởi RossGirshick, et al vào năm 2014 [4] Phương pháp R-CNN đã đề xuất một

chương trình bao gồm ba bước chính: Selective Search dé tạo ra các

vùng đề xuất (region proposals) dựa trên việc kết hợp các vùng có đặc

trưng tương tự dé tạo ra vùng có khả năng cao chứa đối tượng đó, CNN

Features Extraction dùng các vùng đề xuất ở bước trước qua một lớpCNN để trích xuất đặc trưng của ảnh dựa trên vùng đề xuất, SVM

13

Trang 24

(Support Vector Machine) Classification: kết quả từ mạng CNN được

dua qua SVM dé phân lớp và xác định loại của vật thể tương ứng trongảnh Tuy nhiên, phương pháp này còn hạn chế vì tập trung nhận diệnvật thé trong một vùng dé xuất và đưa các vùng đó qua từng lớp CNN

dé nhận diện Vì thé để khắc phục nhược điểm của mô hình, các phiênbản cải tiến hơn đã được công bố như Fast R-CNN va Faster R-CNN

mm \|

: -⁄

1

>| person? yes

1 Input 2 Extract region 3 Compute 4 Classify

image proposals (~2k) CNN features regions

Hình 2.9: Mô hình R-CNN với ba bước chính [4]

o Fast R-CNN và Faster R-CNN: Là hai phiên bản cải tiến của R-CNN

và được công bố vào cùng năm 2015 Với Fast R-CNN [24] thay vi

trích xuất đặc trưng cho khu vực đề xuất (region proposals) Fast CNN thực hiện trích xuất đặc trưng cho toàn bộ hình ảnh và dùng mộtlớp CNN nhăm trích xuất ra các vùng đặc trưng (Roi features) Còn vớiFaster R-CNN [25] đưa ra một giải pháp tong thé dé tạo ra các vùng đề

xuất và nhận diện đối tượng một cách nhanh chóng Mô hình Faster

R-CNN sử dụng một lớp R-CNN được sử dụng dé trích xuất đặc trưng vàmột mang Region Proposal Network (RPN) dé tao ra các vung dé xuat.RPN sử dung các Anchor Boxes va các phép biến đổi dé dé xuất vi trí

và kích thước cho các vùng dé xuất Các vùng dé xuất nay sau đó đượcđưa vào các lớp CNN nhăm dự đoán vị trí và loại của đối tượng cần

nhận diện trong hình ảnh.

14

Trang 25

2k scores | 4k coordinates <j [anchor boxes

cls layer ‘ f reg layer

256-d + intermediate layer ~

CJ

conv feature map

Hình 2.11: Anchor boxes trong RPN áp dung vào mô hình Faster R-CNN [25]

o YOLO (You Only Look Once) [5]: là một kiến trúc mạng nơ-ron sử

dụng trong bài toán nhận diện vật thé trong hinh anh bang cach chia

ảnh đầu vào thành một lưới 6 vuông va áp dụng thuật toán phân loại vanhận diện đối tượng trong các vùng ô vuông được phân lưới đó Hình

2.12 Đây là một mạng nơ-ron đơn giản và hiệu quả tuy nhiên còn hạn

chế trong việc nhận diện những vật thé nhỏ và nhận diện nhiều vật thểvới kích thước khác nhau Vì thế YOLO đã được phát triển và nhiềuphiên bản nhăm cải thiện hiệu năng và độ chính xác của mô hình như:

YOLOv2 (2016) [26] cải thiện khả năng phát hiện và định vi đối tượng

bang cách sử dụng mang residual và kỹ thuật skip connection; YOLOv3

(2018) [27] sử dụng mạng nơ-ron Darknet-53 với 53 lớp tích chập,

mô-đun kết hợp (feature pyramid) và thêm các lớp convolutional dé phát

15

Trang 26

112

hiện các đối tượng ở các tỷ lệ khác nhau; YOLOv4 (2020) [28] giới

thiệu nhiều cải tiến, bao gồm mô-đun CSPDarknet53, PANet, Path

Aggregation Network, và các kỹ thuật như Mish activation function va

SAM (Spatial Attention Module); YOLOvS (2020) [29] là một phiên

ban YOLO được thiết kế dé có kích thước nhỏ gon nhằm tăng tốc độ

xử lý, đồng thời áp dụng các phương pháp giảm mat mát Focal Loss, tỷ

lệ học tập Cosine annealing, và data augmentation dé tăng cường dit

liệu huân luyện.

S x S grid on input Final detections

Hinh 2.12: M6 hinh YOLO co ban [5]

Trang 27

2.1.2 Single Shot MultiBox Detector

2.1.2.1 Giới thiệu về SSDSSD (Single Shot MultiBox Detector) là một kiến trúc mạng nơ-ron được sử

dụng phô biến trong lĩnh vực nhận diện đối tượng trong hình ảnh Nó được

giới thiệu bởi Wei Liu và đồng nghiệp vào năm 2016 [6]

SSD là một kiến trúc mạng CNN nhằm giải quyết vấn đề hiệu năng và tăng

tốc độ nhận diện hình ảnh và đối tượng so với các mô hình truyền thống như

R-CNN hay Faster R-CNN Đối với bài toán phát hiện đối tượng truyền thống,các phương pháp cần thực hiện nhiều bước riêng biệt như phát hiện các vùngtiềm năng (region proposals) và sau đó áp dụng các thuật toán phân loại để xácđịnh đối tượng Tuy nhiên, SSD khác biệt với việc thực hiện cả hai công việcnày trong một mạng neural duy nhất Đã có nhiều nỗ lực nhằm tăng hiệu suất

và tốc độ của các mô hình R-CNN trước đó nhưng chỉ tập trung can thiệp vào

từ giai đoạn của quá trình nhận diện hình ảnh [6] tuy nhiên cải thiện tốc độ vàhiệu năng sẽ phải đánh đổi bằng độ chính xác

Mục tiêu của SSD nhằm tạo ra một mô hình có thé áp dụng vào các thiết bị diđộng và hệ thống nhúng với phần cứng và hiệu năng hạn chế nhưng vẫn giữđược khả năng nhận điện hình ảnh với độ chính xác cần thiết SSD đã đạt đượcnhững thành tựu đáng ké trong việc phát hiện và định vị đối tượng trong hình

ảnh với tốc độ nhanh và độ chính xác cao Nó đã được áp dụng rộng rãi trong

các ứng dụng thực tế như giám sát an ninh, xe tự hành, nhận dạng khuôn mặt

và nhiều lĩnh vực khác

2.1.2.2 Kiến trúc mô hình SSD

SSD được xây dựng dựa trên Feed-forward Convolutional Network tương tự

như R-CNN hay Faster R-CNN Tuy nhiên với R-CNN và Faster R-CNN sử

dụng bước trích xuất vùng đề xuất (region proposal) đề tìm các vùng chứa đối

tượng trong hình ảnh [4] [24] [25] như ở Hình 2.9, tuy nhiên quá trình này đi

qua nhiều bước trung gian phức tạp và làm giảm tốc độ xử lý Nhằm cải thiện

tốc độ và độ chính xác, SSD đã kết hợp cả việc trích xuất vùng đề xuất và nhận

17

Trang 28

diện đối tượng vào một mạng nơ-ron backbone duy nhất Mạng backbone sử

dụng cho vùng đê xuât và nhận diện ảnh.

Kiến trúc SSD sẽ bao gồm 2 phần chính: mạng Backbone và SSD Head

©

le)

Hình

Mạng Backbone thường là một mô hình phân loại hình ảnh được

pretrained dé str dung như một bộ trích xuất đặc trưng của hình ảnh

SSD Head là một hoặc một mạng các lớp tích chập được thêm vào sau

mô hình Backbone và các kết quả của mô hình là một bounding boxcùng với class của vật thé xuất hiện trong hình anh

Extra Feature Layers

VGG-16 r A

~—-through Pools layer Classifier : Conv: 3x3x(4x(Classes+4))

N ` | Classifier : Conv: 3x3x(6x(Classes+4))

CHENB_2 *

`8 `8 N10 `" 10 2 Canv11 2

` Ị N N N| sz 1024 NỈ 1024 512 256 258 256 _ ll N N NỈzN

Conv: 3x3x1024 Conv: 1%1x1024 Conv: 1x1x256 Conv: 1x1x128 Conv: 1x1x128 Conv: 1x1x128

Conv: 3x3x512-s2 Conv: 3x3x256-s2 Conv: 3x3x256-s† Conv: 3x3x256-s1

2.14: Kiến trúc SSD sử dụng VGG-16 làm mang Backbone [6]

Tuy nhiên SSD cũng tích hợp nhiều phương pháp khác nhau nhằm cải thiện

toc độ và hiệu năng của mô hình như:

© Tích hợp End-to-end: kết hợp quá trình phát hiện đối tượng và định vị

đối tượng trong một mạng nơ-ron backbone duy nhất Điều này giúptăng tốc độ xử lý và giảm độ phức tạp của quá trình nhận diện vật thê

Dùng các lớp tích chập đa tỉ lệ (multi-scale feature maps): với các kích

thước khác nhau dé trích xuất đặc trưng từ hình ảnh với nhiều tỉ lệ khácnhau giúp phát hiện đối tượng với nhiều tỉ lệ khác nhau trong mạng

Sử dụng các anchor boxes: như ở Hình 2.11 dé dự đoán vi trí và kíchthước của các đối tượng trong hình ảnh Các anchor boxes sẽ được địnhnghĩa trước với tỉ lệ khác nhau dé phù hợp với nhiều tỉ lệ vật thể trong

hình ảnh.

Multi-layer detection: áp dụng dự đoán đa lớp tức mô hình có thể xác

đinh các lớp đối tượng khác nhau trong một lớp đầu ra duy nhất Điều

18

Trang 29

này cho phép phát hiện đa lớp một các hiệu quả trong cùng một quá trình.

o Multi-layer processor: xử lý đồng thời nhiều anchor boxes và dự đoán

các vị trí và lớp đối tượng tương ứng Điều này giúp tăng tốc độ pháthiện và định vị đối tượng

2.1.2.3 Uu điểm và nhược điểm của SSD

Phát hiện đa lớp va đa tỉ lệ: SSD có khả năng phát hiện đa lớp cho phép xác

định các đối tượng thuộc nhiều lớp khác nhau trong cùng một lần phát hiện

Kiến trúc SSD đã được chứng minh có khả năng phát hiện và định vị đối tượng

với độ chính xác cao trên các bộ dữ liệu phô biến như COCO và Pascal VOC.Khả năng triển khai trên nhiều nền tảng và thiết bị khác nhau, bao gồm máytính cá nhân, các máy tính nhúng và các hệ thống với phần cứng hạn chế khác.Điều này tạo điều kiện thuận lợi cho việc sử dụng và triển khai SSD trong cácứng dụng thực tế

b Nhược điểm:

Kiến trúc của SSD có độ phức tạp cao, với nhiều lớp và nhiều tham số khiênviệc huấn luyện và tinh chỉnh mô hình có thể đòi hỏi nhiều công sức và thời

gian.

Khả năng nhận diện các đối tượng nhỏ trong hình ảnh gặp nhiều khó khăn

Điều này dã đến việc bỏ sót một số đối tượng hoặc gây ra sai sót trong việc

định vị chính xác những vật thể có trong hình

19

Trang 30

2.1.2.4 Quá trình phát triển và cai tiến của SSDSSD lần đầu được giới thiệu bởi Wei Liu và đồng nghiệp vào năm 2016 [6]

với hai phiên bản SSD300 và SSD512 với từng cấu hình mạng no-ron cho

từng độ phân giải khác nhau SSD300 sử dụng một mạng CNN với độ phân

giải đầu vào là 300x300 pixel, trong khi đó SSD512 sử dụng độ phân giải đầuvào là 512x512 pixel Cả hai phiên bản đều đạt được hiệu xuất nhất định trongviệc phát hiện đối tượng trên các bộ dit liệu phô biến VOC va COCO

Bảng 2-3: Kết quả nhận diện hình ảnh trên tệp PASCAL VOC2012 [6]

Method data mAP| aero bike bird boat bottle bus car cat chai cow table dog horse mbike person plant sheep sofa train tv

Fast [6] 07 66.9|74.5 78.3 69.2 53.2 36.6 77.3 78.2 82.0 40.7 72.7 67.9 79.6 79.2 73.0 69.0 30.1 65.4 70.2 75.8 65.8 Fast [6] 07412 70.0|77.0 78.1 69.3 59.4 38.3 81.6 78.6 86.7 42.8 78.8 68.9 84.7 82.0 76.6 69.9 31.8 70.1 74.8 80.4 70.4

SSD512 07+12 |76.8|82.4 84.7 78.4 73.8 53.2 86.2 87.5 86.0 57.8 83.1 70.2 84.9 85.2 83.9 79.7 50.3 77.9 73.9 82.5 75.3 SSD512 |07+12+COCO | 81.5] 86.9 87.5 82.0 75.5 66.4 88.2 88.7 89.3 65.2 88.3 74.4 87.1 88.9 85.9 84.5 57.6 84.6 80.7 87.1 81.7

— Fast and Faster R-CNN được sử dung hình anh có kích thước tối tiểu600x600 trong khi đó YOLO sử dụng hình ảnh có kích thước cô định 448x448 Dữ

liệu: “07++12”: là hợp giữa tệp VOC2007 trainval và VOC2012 trainval;

“07++12+COCO”: Mô hình sẽ được huấn luyện trên tệp COCO trainval13Sk sau đó

fine-tune trên 07++12.

Bang 2-4: Két quả nhận diện hình ảnh trên tệp COCO test-dev2012 [6]

Method Data Mean average precision

0.5 0.75 | 0.5:0.95

Fast R-CNN [6] train 35.9 | - 19.7 Fast R-CNN [21] | train 39.9 20.5 | 19.4 Faster R-CNN [2] | train 42.1 - 21.5 Faster R-CNN [2] trainval 42.7 | - 21.9 Faster R-CNN [22] | trainval 45.3 24.2 | 23.5 ION [21] train 42.0 23.0 | 23.0

SSD300 trainval35k | 41.2 | 23.2 | 23.4 SSD512 trainval35k | 46.4 | 26.7 | 27.7

20

Trang 31

- _ Đã có nhiều nỗ lực cải thiện tốc độ của SSD bằng cách thay thế các mạng

nơ-ron backbone Ngoài ra, kĩ thuật điều chỉnh tham số tnơ-rong quá trình huấn luyện

và sử dụng các kỹ thuật tối ưu hóa như ngẫu nhiên hóa dữ liệu (Randomizer)

đầu vào giúp tăng hiệu quả huấn luyện va kha năng nhận diện của mô hình

2.1.2.5 Ứng dụng của SSD

- Vị độ nhỏ gọn và hiệu quả của mô hình, SSD có nhiều ứng dụng thực tiễn và

tiền năng phát triển cao trong đời sống hang ngày:

o Nhận diện thời gian thực trong bảo mật an ninh ngân hàng [30] sử dụng

mô hình SSD với backbone VGG-16 làm mô hình chính được huấnluyện trên tệp dữ liệu của COCO với tổng cộng 330.000 ảnh (200.000ảnh đã được gan nhãn làm tệp huấn luyện), có hơn 1,5 triệu vật thé đượcgán 80 nhãn vật thé, 91 nhãn vật dụng hằng ngày và 5 chú thích chomỗi hình ảnh Mô hình đề xuất sử dụng 90 lớp phát hiện đối tượng và

được tối ưu nhằm chạy trên server có định Hình anh CCTV

(Closed-Circuit Television) của ngân hàng được đưa qua mô hình nhận diện vật

thé nhằm đánh giá mức độ an toàn va tăng khả năng bảo mật của ngân

hang đó [30].

o Sự dung trong nhận diện khuôn mặt trên các thiết bị di động như

BlazeFace [31] BlazeFace sử dụng kiến trúc SSD với backboneMobilenetV2 đồng thời thiết kế riêng một BlazeBlock như là bottleneck

cho các lớp abstraction cao hơn của mô hình.

Bảng 2-5: Kết quả nhận diện trên thiết bị đi động iPhone XS Max của mô hình

MobileNetV2-SSD có sử dụng BlazeBlock và không sử dụng BlazeBlock [31]

Inference Time, ms

Model Average Precision

(iPhone XS) MobileNetV2-SSD 97,95% 2.1

MobileNetV2-SSD-BlazeBlock 98,61% 0.6

- Tóm lai SSD vân còn nhiêu tiêm năng phat triên và cải tiên dé cải thiện kha

năng nhận diện và tăng tốc độ xử lý Các nghiên cứu về mô hình này vẫn đang

21

Trang 32

được nghiên cứu dé đạt được hiệu suất và độ chính xác tốt hơn trong tương

lai.

2.1.3 MobileNet

2.1.3.1 Giới thiệu về MobileNet

- MobileNet là một kiến trúc mang CNN được thiết kế đặc biệt dé đạt hiệu suất

cao trên các thiết bị di động có tài nguyên tính toán hạn chế MobileNet sự

dụng một kĩ thuật được gọi là depthwise separable convolution nhằm giảm số

lượng tham số và tính toán

- Kiến trac MobileNet được phát triển bởi Google AI và lần đầu tiên được công

bố vào hội nghị CVPR [32] đã nhận được sự quan tâm lớn đến từ cộng đồngnghiên cứu trong lĩnh vực thị giác máy tinh MobileNet đã thé hiện bản thân

là một mô hình có kiến trúc mạng nơ-ron nhẹ, mục tiêu của MobileNet đã cung

cấp một giải pháp hiệu quả về tính toán và giải quyết vấn đề về kích thước mô

hình cho các ứng dụng nhận diện hình ảnh trên các thiết bị di động

Phoio by Sharon Vanderkaay (CC BY 20)

Hình 2.15: Mô hình MobileNet được sử dung vào các ứng dung di động [32]

- _ Trong bản gốc của bài báo, MobileNet đã được đánh giá và so sánh với các

kiến trúc mạng khác với cùng bộ dữ liệu ImageNet MobileNet [32] đã chứng

minh khả năng vượt trội trong việc đạt được độ chính xác cao với kích thước

mô hình và tài nguyên tính toán thấp hơn so với các mạng truyền thống Đặc

biệt MobileNet [32] có khả năng đạt độ chính xác tương đương với các mạng

học sâu với kích thước lớn hơn như VGG và ResNet.

22

Trang 33

2.1.3.2 Kiến trúc của mạng MobileNet

Bảng 2-6: Sườn kiến trúc của MobileNet [32]

Type / Stride Filter Shape Input Size

Conv / s2 3x3x3x32 224x224x3

Conv dw /sĨ 3x3x32dw 112 x 112 x 32

Conv/s1 1x 1x 32x 64 112 x 112 x 32 Conv dw / s2 3x3x64dw 112 x 112 x 64

Conv /sl 1x1x 64x 128 56 x 56 x 64

Conv dw/ sl 3x3 x 128 dw 56 x 56 x 128 Conv /sl1 1x 1x 128 x 128 56 x 56 x 128

Conv dw / s2 3x3 x 128 dw 56 x 56 x 128

Conv / sĨ 1Ix1xI1I28x256 28 x 28 x 128

Conv dw/ sl 3 x3 x 256 dw 28 x 28 x 256

Conv/ sl 1x 1 x 256 x 256 28 x 28 x 256 Conv dw / s2 3 x 3 x 256 dw 28 x 28 x 256

Softmax / s1 Classifier 1 x 1 x 1000

- MobileNet có kiến trúc co ban của một CNN bao gồm nhiều lớp tích chập

Tuy nhiên MobileNet sử dụng một Depthwise Separable Convolution bao gồm

hai lớp depthwise convolution va pointwise convolution Depthwise

convolution áp dung convolution lên từng kênh riêng biệt của đầu vào, giúp

23

Trang 34

giảm sô lượng tham sô và tính toán Pointwise convolution sau đó sử dụng một

convolution 1x1 dé kết hợp các kênh lại với nhau Kỹ thuật này giúp giảm tảitính toán mà vẫn giữ được độ chính xác [32].

Bảng 2-7: Depthwise Separable vs Full Convolution MobileNet [32]

ImageNet Million Mult- Million

Model

Accuracy Adds Parameters

Full Convolution MobileNet 71.7% 4866 29.3 Depthwise Separable MobileNet 70.6% 569 4.2

- Width Multiplier va Resolution Multiplier [32]:

o Width Multiplier: có mục đích quyết định số lượng kênh của mô hình

Bằng cách điều chỉnh Width Multiplier,ta có thé điều chỉnh kích thước

mô hình và độ phức tạp tính toán.

Bang 2-8: MobileNet Width Multiplier [32]

ImageNet Million Width Multiplier Million Mult-Adds

Accuracy Parameters 1.0 MobileNet-224 70.6% 569 4.2

0.75 MobileNet-224 68.4% 325 2.6 0.5 MobileNet-224 63.7% 149 1.3 0.25 MobileNet-224 50.6% 41 0.5

o Resolution Multiplier: quyết định số kích thước đầu vào của mạng

Bằng cách điều chỉnh Resolution Multiplier, ta có thé điều chỉnh độphân giải đầu vào cho ảnh Điều này giúp kiểm soát tài nguyên tính

toàn và bộ nhớ được sử dụng.

Bang 2-9: MobileNet Resolution Multiplier [32]

Width Multiplier | ImageNet Accuracy | Million Mult-Adds | Million Parameters 1.0 MobileNet-224 70.6% 569 4.2

1.0 MobileNet-192 69.1% 418 4.2

1.0 MobileNet-160 67.2% 290 4.2

24

Trang 35

MobileNetV3 là phiên bản cải tiến của cùng kiến trúc MobileNet được giới

thiệu lần đầu vào năm 2019 [33] MobileNetV3 tiếp tục khai thác ý tưởng củaDepthwise Separable Convolution và tập trung vào việc cải thiện hiệu suất và

hiệu quả tính toán của mô hình.

Ngoài ra MobileNetV3 cũng áp dụng những giải pháp từ MobileNetV2 như

hàm linear bottleneck và inverted residual [34] khiến hiệu năng mô hình cảithiện, kết hợp giữa các lớp tích chập có kích thước 1x1 và 3x3 để giảm sốlượng trọng số và tăng khả năng học của mô hình

+

Hình 2.16: MobileNetV2 layer (Inverted Residual and Linear Bottleneck) [34]

Cơ chế Squeeze and Excitation (SE) [35] đã được áp dụng vào kiến trúcMobileNet từ phiên bản MobileNetV3 vào mô hình dé tăng cường khả nănghọc và hiệu suất mô hình Cụ thể, SE được áp dụng sau phép tích chapDepthwise convolution trong mỗi khối chuyền đổi của MobileNetV3 để tạo ra

một cân bằng giữa các kênh và tăng cường sự tương tác giữa các khối Việc

áp dụng SE giúp MobileNetV3 có khả năng học các đặc trưng quan trọng và

tạo ra các bộ lọc tối ưu cho từng kênh, từ đó cải thiện độ chính xác và khả năngtổng quát hóa của mô hình

25

Trang 36

Hình 2.17: MobileNetV2 + Squeeze-and-Excite [34]

MobileNetV3 được giới thiệu với hai kiến trúc chính được dùng với mục dich

riêng biệt: MobileNetV3-large và MobileNetV3-small:

o MobileNetV3-large: có kích thước lớn hơn so với MobileNetV3-small,

có nhiều lớp hơn và số lượng tham số lớn hơn MobileNetV3-large sử

dụng các khối chuyên đổi bottleneck có kích thước lớn và sâu hơn với

nhiều lớp tích chập và kích thước đặc trưng tăng dần large được thiết kế dé có hiệu xuất tốt hơn trong việc phân loại và phát

MobileNetV3-hiện đôi tượng nhưng yêu câu nhiêu tài nguyên tính toán và bộ nhớ lớn hơn.

26

Trang 37

o MobileNetV3-small: có kích thước nhỏ hơn so với MobileNetV3-large,

với ít lớp hơn và số lượng tham số cũng ít hơn đáng kể

MobileNetV3-small sử dung các khối chuyên đổi bottleneck nhỏ hon và it lớp tích

chập hơn, với kích thước đặc trưng giảm dần MobileNetV3-small cóđược thiết kế dé đạt hiệu suất vừa phải và đòi hỏi ít tài nguyên tính toán

và bộ nhớ hơn Đây là lựa chọn tốt khi cần một mô hình nhỏ gọn và cókhả năng triển khai trên các thiết bị có tài nguyên hạn chế

Bảng 2-11: Kiến trúc MobileNetV3-small [33]

Input Operator exp size | #out | SE | NL | s

2242 x 3 conv2d, 3x3 - 16 - | HS |2 112? x 16 bneck, 3x3 16 16 ⁄ | RE|2

7? x 96 conv2d, Ix] “ 576 | v | HS] 1

72 x 576 pool, 7x7 - : 2 + |]

1? x 576 | conv2d 1x1, NBN - 1280 | - | HS | 1

12 x 1280 | conv2d 1x1, NBN = k = =x | 4

- O Hình 2.18 thé hiện sự đánh đổi giữa Width Multiplier và Resolution

Multiplier Bước thực nghiệm này sử dung mô hình với Width Multiplier ở

0.35, 0.5, 0.75, 1.0 và 1.25 với độ phân giải cô định ở 224 Độ phân giải ở 96,

128, 160, 192, 224 và 256 với Width Multiplier cố định ở 1.0 Top-1 accuracyđược đo trên ImageNet và độ trễ do bằng ms Phần cứng được đo trên thiết bị

Google Pixel 1.

27

Trang 38

80 Comparison for V3, large vs V3 small vs V2

ö e=e MobilenetV3 large/multiplier

c 6ol- _|®—=e MobilenetV3 small/multiplier ||

Đ *«s+ MobilenetV3 large/resolution

< 55L w= MobilenetV3 small/resolution ||

MobilenetV2/multiplier 50|- -| *=-« MobilenetV2/resolution

0 10 20 30 40 50 60 70 80 90 100

Latency, Pixel 1

Hình 2.18: Hiệu xuất của các phiên bản MobileNetV3 [34]

- Với kết quả ở Hình 2.18 đã thể hiện hiệu năng vượt trội khi so hiệu xuất với

độ chính xác, đồng thời việc thay đổi Resolution sẽ có sự đánh đổi hợp lý hơnvới độ chính xác van dam bảo và độ trễ được giảm thiểu Tuy nhiên việc quyếtđịnh độ phân giải sẽ quyết định vào mục tiêu của bài toán, với những bài toán

yêu cần phân loại và phát hiện vật thé nhỏ cần độ phân giải lớn hơn

2.1.3.4 Ưu và nhược điểm của MobileNetV3

- Ưu điểm của MobileNetV3:

o_ Hiệu xuất cao trong việc phân loại và phát hiện đối tượng trên các tác

vụ nhận diện hình ảnh.

o_ MobileNetV3 được thiết kế dé sử dụng ít tài nguyên tính toán hơn so

với các kiến trúc truyền thống

o_ Kiến trúc linh hoạt với nhiều phiên bản với các kích thước và độ phức

tạp khác nhau, bao gồm hai phiên bản được công bố chính thức là

MobileNetV3-large và MobileNetV3-small.

o MobileNetV3 sử dung các kỹ thuật tiên tiến như Depthwise Separable

Convolution và Squeeze-and-Excitation để tăng cười hiệu xuất và khả

năng học của mô hình.

- Nhược điểm của MobileNetV3:

28

Trang 39

o Độ chính xác hạn chế: Mặc dù MobileNetV3 có hiệu suất tốt, nó có thé

không đạt được độ chính xác cao (Hình 2.18) như một số kiến trúc phức

tạp hơn Điều này có thể đặc biệt đáng chú ý trong các ứng dụng yêu

cầu độ chính xác cao

o_ Hạn chế đối với dữ liệu phức tạp: Do kích thước nhỏ hơn và ít tham số

hơn, MobileNetV3 có thê không đủ mạnh dé xử lý dữ liệu phức tạp và

có cấu trúc đặc biệt trong một số tác vụ yêu cầu khả năng học sâu mạnh

mé.

2.2 Lidar

2.2.1.1 Giới thiệu về Lidar

- Lidar (Light Detection and Ranging) là một công nghệ sử dung tia laser dé tạo

ra hình ảnh 3 chiều (3D) và đo khoảng cách đến các đối tượng trong môi trường

xung quanh.

- _ Công nghệ Lidar được phát triển từ những năm 1960 [36] Ban đầu Lidar được

sử dụng trong các ứng dụng quân sự và khoa học như đo đạc địa hình, nghiên

cứu khí quyên và tạo bản đồ quân sự Tuy nhiên những năm gần đây, với sựphát triển của công nghệ và giảm giá thành sản xuất, Lidar đã trở nên phố biếnhơn và được ứng dụng trong nhiều lĩnh vực, bao gồm xe tự hành, công nghiệpsản xuất và nghiên cứu hoa học và quản lý môi trường

- _ Trong lĩnh vực xe tự hành, việc sử dung Lidar đã trở nên quan trọng hơn trong

những năm gần đây, đặc biệt với sự phát triển của công nghệ lái tự động và xe

tự hành Lidar đã được sử dụng để tạo ra bản đồ 3D của môi trường xung

quanh và phát hiện các vật thể trong thời gian thực, giúp các hệ thống lái tựđộng và xe tự hành có thể nhận biết va phản ứng đúng cách với các tình huống

giao thông.

2.2.1.2 Cách thức hoạt động

- Lidar hoạt động dựa trên nguyên lý tán xạ ánh sáng và đo lường thời gian bay

của tia sáng laser được phản xạ từ các vật thé trong môi trường xung quanh

Sau đây là cách thức hoạt động của một hệ thống lidar cơ bản [37]:

29

Trang 40

RX and (array)

circuitry

Hình 2.19: Kết cau của hệ thông Lidar cơ bản [37]

o Phát tia laser: Hệ thống Lidar sử dụng một bộ phát tia laser đơn sắc có

bước sóng cô định Dé điều chỉnh hướng laser, người ta cho tia sáng điqua một gương táng xạ có thể điều chỉnh góc linh hoạt

o Ghi nhận thời gian bay: Tia laser sau khi được phat di và chạm vào vật

thé trong môi trường sẽ bị phản xạ và quay trở lại hệ thống Lidar Một

bộ thu sóng hap thy tia laser phản xạ đó và ghi lại thời gian dé ánh sáng

đi từ hệ thống đến vật thể và trở lại cảm biến

o Do khoảng cách: Dựa vào thời gian bay của tia laser, hệ thống Lidar sẽ

tính toán được khoảng cách từ hệ thống đến vật thể Thông qua việc

biết vận tốc ánh sáng và thời gian bay, khoảng cách có thể được tínhtoán bằng cách áp dụng công thức:

R=" 1

2

Trong đó: R là khoảng cách từ hệ thống Lidar đến vật thé, c là van tốc

ánh sáng có giá tri có định (299.792.458 m/s), t là thời gian ghi nhận

từ lúc phát tính hiệu đến khi nhận được tính hiệu phản xạ

o Quét và tiếp tục thu thập dữ liệu: Hệ thống sẽ tiếp tục tiến hành quét và

tính toán khoảng cách trên toàn bộ không gian xung quanh hoặc vùng

quét có định dé có thé thu thập toàn bộ dữ liệu trong khu vực chó phép

o Xử lý dit liệu: Từ thông tin thu thập từ hệ thống Lidar, kết hợp với dữ

liệu góc và hướng quét, hệ thống sẽ có thé tao ra một dữ liệu môi trường

3D chỉ tiết về môi trường xung quanh Quá trình này cũng bao gồm lọc

30

Ngày đăng: 23/10/2024, 00:10

w