Phát triển và ứng dụng máy học vào cuộc sống đang được coi là kỳ lân công nghệ trong kỷ nguyên mới, các thuật toán máy học đã được ứng dụng và thành công trong các lĩnh vực khác nhau từ
Trang 1ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KỸ THUẬT MÁY TÍNH
NGUYEN VÕ HỮU PHÚC - 19522043
PHẠM MINH QUẦN - 19522084
KHÓA LUẬN TÓT NGHIỆP
HIỆN THỰC MÔ HÌNH PHÁT HIỆN VÀ TRÁNH VAT CAN TREN DUONG TRONG DIEU KHIEN XE
TU HANH
IMPLEMENTATION OF OBSTACLE DETECTION AND
EVASION ON ROAD IN AUTO-DRIVING CAR
KY SƯ KỸ THUAT MAY TÍNH
GIANG VIEN HUONG DAN Ths TRAN HOANG LOC Ths PHAM MINH QUAN
TP HO CHi MINH, 2023
Trang 2LỜI CẢM ƠN
Để có thể thực hiện và hoàn thành khóa luận tốt nghiệp này chúng em xin chân thành gửi lời cảm ơn đến thầy cô Trường Đại học Công nghệ Thông tin — Đại học Quốc gia Thành phố Hồ Chí Minh nói chung và thầy cô trực
thuộc khoa Kỹ thuật Máy tính nói riêng đã giúp đỡ và hỗ trợ và giúp đỡ
chúng em trong suốt quá trình 4 năm học tập và nghiên cứu tại trường Đại
học này.
Xin gửi lời cảm ơn chân thành đến giảng viên Ths Trần Hoàng Lộc
và giảng viên Ths Phạm Minh Quân đã là người đồng hành và cung cấp
kiến thức đồ thời cũng hỗ trợ chúng em suốt thời gian thực hiện dé tài này
từ lúc phát triển và bắt đầu nghiên cứu ở môn đồ án 1 đến tận khi hoàn thành
khóa luận tốt nghiệp này.
Xin chân thành cảm ơn đến những bạn bè và anh chị đã giúp đỡ cung
cấp những tài liệu và chỉ dẫn tận tình giúp cung cấp nhiều nguồn uy tín và
phủ hợp trong suốt quá trình thực hiện khóa luận này.
Một lần nữa xin gửi lời cảm ơn đến tất cả những người đã giành thời
gian và công sức giúp đỡ chúng em hoàn thành khóa luận tốt nghiệp Trong
quá trình thực hiện khóa luận tất nhiên chúng em cũng sẽ không tránh khỏi những thiết sót mong các quý thầy cô và các bạn, anh chị bỏ qua và thứ lỗi.
Sinh viên thực hiện
Nguyễn Võ Hữu Phúc
Phạm Minh Quân Khoa Kỹ thuật Máy Tính - MTCL2019.3
Trang 31.3 Giới thiệu về Machine Learning . -+©222++++22vv+reerrvvrrrsrrvrcree 5
Chương 2 CƠ SỞ LÝ THUYÉT 22+22EE+2+22EEEE+tEE2EEEtEEEEErrrtrrkrcree 6
2.1.
2.1.1 Neural Network.
Kiến trúc Machine Learning
2.1.1.1 Neural Network là gì?.
2.1.1.2 Artificial Neural Network
2.1.1.3 Multi-layer PerceptrOn - «Street 8
2.1.1.4 Convolutional Neural Network - «s55 5cccccscsrerreexeee 9 2.1.2 — Single Shot MultiBox Detector cccccceceseseeeeseeeeeseeteeeeeeeeeeeeeeneneee 17
2.1.2.1 Giới thiệu về SSD vveessssssssssscsssscsesessssensssssssssssssssssseeeeeeeeseeeeeeeees 17 2.1.2.2 Kiến trúc mô hình SSD cccsessssesssseessssessssesssseesssvessssesssseessseesssvees 17 2.1.2.3 Ưu điểm và nhược điểm của SSD -:cccccccvevvvececccee 19
2.1.2.4 Quá trình phát triển và cải tiễn của SSD -.-cce: 20 2.1.2.5 Ứng dụng của SSD :-222222vvvcrrttEEErktrrrrrrrrrrrrrerrree 21
Trang 42.3.1.1 Thuật toán lan truyền ngược (Backpropagation algorithm) 32
2.3.1.2 Hàm kích hoạt (Activation function) -++<<<<<cc+<<s<s 33
2.3.1.3 Hàm mất mát (bi 37
2.3.1.4 Độ chính xác của mô hình ¿ 2+ ©++x++zx+zx++zx+zzxzrxeex 39
2.4 Phần mềm và thư viện hỗ trợ -¿ 2 + x2x++E++Ex+rxerxvrrerxerxerseee 41
2.4.1.1 PyfOrCh Q Go ng 41 2.4.1.2 Google COlabOTAfOYY - S5 s1 ng ng Hy 42 2.4.1.3 CARLA (Car Learning to AC) - s1 HH, 43 QALA .“ 44
Chương 3 NỘI DUNG THUC HIỆN -2¿ 22 522++2£++£++ezx++zxesrxeee 47
3.1 Mô hình nhận diện vật thé c.cccccccscsscsscessesseesesssessessessessessessesseesesseeseesess 47
3.1.1 SSDlite voi backbone MobileNetV3 ::cccccsssccccesssssseeeceesesseeees 47
3.1.1.1 Giới thiệu mô hình 2 222++++£x£+E£+E++Extrxezkerreerxerkeres 41
3.1.1.2 Kiến trúc và kích thước mô hình - - s+s+s+ze+s+E+zezszx+zezs 48
3.1.1.3 Đánh giá mô hình và nhận Xét ¿55+ 5+ ++++++s++ex+sxsss+ 48
3.1.2 Mô hình SSDIite với MobileNetV3 cắt giảm 2 lớp cuối của mạng 49
3.1.2.1 Giới thiệu mô hình 2¿©+++£+x++E+Ex++rx+rxerreerxerrxee 49
3.1.2.2 Kiến trúc mô hình sau khi cắt giảm - 2-2 2 s2 s+zs+++£s 493.1.2.3 Chi tiết mô hình ¿- +: + 2E2E2+EE£EEtEEEEEEEEEEEEEErrkerkerkrrei 50
3.2.1 _ Tệp dataset COCO HH TH HH HH nh 51
3.2.2 Tiền xử lý ảnh -. -+c£+E+keEEEEESEEE 21121212121 EE.cree 53
3.2.2.1 Tại sao phải tiền xử lý ảnh c5 sS<cEt+E2EccEerkerxerxrreres 533.2.2.2 Xử lý ảnh băng thư viện Pytorch -¿-s++cx+cx+scxcezxez 543.3 Huấn luyện và đánh giá mô hình -¿- ¿+ +++x++z++zx++zx++zxzzxeex 56
3.3.1 Khởi tạo mô hình tùy chỉnh - - «+ kg re 56
3.3.2 Huấn luyện mô hình - 2-22 E+EE+EE++EE+EEtEEerEezErrxerkerree 58
3.3.3 Lưu mô hình - ¿+ 2 5 +22 3332111125311 231 199 1v vn re rưy 60
3.3.4 _ Đánh giá mô hìnhh 5 5+ E313 2E E£EEEESEESEsrerseerreeerevre 61
Trang 53.4 Phần mềm mô phỏng CARLA -2¿-5¿©2+2222++2£+vzx+ezxesrxesreees 62
3.4.1 _ Thiết lập môi trường mô phỏng 2- 2 2 s+++£x£+£++zx+rxezsez 62
3.4.2 Khoi chạy CARLA S€TV€T GÀ LH HH HH ệt 63
3.4.3 Kết nối máy khách -©2+22+EE+EEtEEEEEEEEEEEEEEEEErrkerkerree 64
3.4.4 Tương tác với mô phỏng - - - s xxx vn g gre 65
3.5 Chương trình điều khiỂn ¿- 2 2 2 +k+SE£EE#EEEEESEEEEE2EEEEEEEEEEErkrrkrrree 70
3.5.1 Luồng xử lý nhận diện vật cản - - ¿+ + ++kssksesserseersrke 70
3.5.2 Ludng xử lý tín hiệu Lidar -¿-c+5cxceccccxesrxesrxee 72
3.5.3 Luồng xử lý tín hiệu điều khiển xe - 2 2+s+x+cxerxersssez 74
3.5.4 — Xử lý đa luỗng c 2S 2T Hee 71
Chương 4 THỰC NGHIỆM 2-2 ©5£+S22EE2EE£EEtEEEEEEEEEEEErrkrrrkerkerrrree 78
4.1 Thiết kế phần cứng c¿©k2EE+EE+EEEE£+E+EEEEEEESEEEEEEEEEEEEEEEEEEkerkrrkrree 78
4.2 Chương trình mô phỏng CAIRLA: - 5 555 1s series 79
4.3 Thực nghiệm mô hình trên phan cứng JetsonNano - : -: s 80
4.3.1 Độ chính xác của mô hình - << 2+ + + +‡+++++e++ezzzzzzzzz.xx 80
4.3.2 Hiệu năng của mô hình trên phần cứng JetsonNano 81Chương 5 KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIÉN - 82
5.1 Kết Luận c.ccc2cc 2S 2Sc 2c SE TH HE 1111 1111 crrereee 82
5.1.1 Thực hiện mô phỏng - - (2 3232133 E*ESEESEEESErekeskrsekrsee 82 5.1.2 Mô hình sử dụng 2-©2¿+2£+EE+EECEEEEEEEEEEEEEEErrrrrkerkerree 82
5.2 Định hướng phát triỂn ¿- 2 +++E£+EE+EE£EEEEEEEEEEEEEEEEEEEEEErrkerkerreee 83
TÀI LIEU THAM KHẢO - - St ESEESE+EEEEEEEEEEEEESEEEEEESESEEEESESEEEErkekrrrrkrree 84
Trang 6Hình 1.1:
DANH MỤC HÌNH
Quy mô thị trường trí tuệ nhân tạo Bắc Mỹ, 2019-2030 (Ty USD) [10] 4Hình 2.1: Tế bào nơ-ron sinh học trong não người [ Í]| «<< <+<see+sseesses 7Hình 2.2: TẾ bào nơ-ron nhân tao sử dung trong kiến trúc ANN [1] 7Hình 2.3: Kiến trúc ANN cơ bản [1] - -c¿-+cc++tstEkxrrtrktrrtrrtrrrrrtrrrrrrrrrrrk 8Hình 2.4: Kết cầu của một mạng Perceptron đa lớp cơ bản [2] - ‹ + 9Hình 2.5: Kết quả mang CNN nhận diện chữ viết tay [3] . - 55552 10Hình 2.6: Kiến trúc LeNet-5 nhận diện chữ viết tay [20] -¿ -: -5+ 10Hình 2.7: Kiến trúc AlexNet được giới thiệu vào năm 2012 [2I] 11Hình 2.8: Khối Inception, a) Phiên bản cơ bản; b) Sử dụng những lớp Conv1x1
giảm số chiều và kích thước dit liệu đầu vào [23] - 2-2 2+sz+x+zxezzzszse2 13
Hình 2.9: Mô hình R-CNN với ba bước chính [4] -. - +5 << +++<<ss+++<exc++ss 14 Hình 2.10: Mô hình Fast R-CNN [24] - 2< 1111112222111 11111 ke 15 Hình 2.11: Anchor boxes trong RPN áp dụng vào mô hình Faster R-CNN [25] 15 Hình 2.12: Mô hình YOLO cơ bản [Š]| - 6 5c 2511 *seererereressererrsee 16
Hình 2.13: Kiến trúc mô hình YOLO cơ bản [5] -cc::-ccccc+sccxecrsrrrreer 16Hình 2.14: Kiến trúc SSD sử dụng VGG-16 làm mang Backbone [6T] 18
Hình 2.15: Mô hình MobileNet được sử dụng vào các ứng dụng di động [32] 22 Hình 2.16: MobileNetV2 layer (Inverted Residual and Linear Bottleneck) [34] 25 Hình 2.17: MobileNetV2 + Squeeze-and-Excite [34] - c5 ccscc<scsseesee 26
Hình 2.18: Hiệu xuất của các phiên bản MobileNetV3 [34] - « -5 28Hình 2.19: Kết cấu của hệ thống Lidar cơ bản [37] - <5 c5 << ££cc<£ssss<+ 30Hình 2.20: Biểu đồ hàm kích hoạt Sigmoid [41] c¿-ccc++cxxccscxxeeere 34Hình 2.21: Sơ đồ hàm kích hoạt ReLU [42] - - 2c x ++x£E+E£EE+EeExeEerxexzxers 34Hình 2.22: Ví dụ của hàm softmax với dữ liệu đầu vào và kết quả tương ứng 35Hình 2.23: Đồ thi ham swish [43] - ¿2111111222331 1111 1 E833 1 1 E19 11 key 36Hình 2.24: Đồ thị hàm ReLU6 [33] , 2-22 5¿©5+2E++£x+2Ext2EEtzx+zrxezrxerresree 36Hình 2.25: Đồ thi ham swish so với hardswish [33] - - 55555 22< << <<sccesexs 37
Hình 2.26: Pytorch ÏOO 0 Gv Hg H T g Hi hrưn 41
Trang 7Hình 2.27: Google colaboratory ÏOBO - - 5 + kh HH gtưệt 42 Hình 2.28: CARLA ÏOEO Gv HH TT Hà HH HH gà 43 Hình 2.29: Môi trường mô phỏng của CA RÌA - s- cccs+csecsvessessessesske 44 Hình 2.30: Mô phỏng tính hiệu Lidar của CARLA - - 5 5< 5< <<<+s<+sx2 44 Hình 2.31: Workflow của Socket trong pythON - 55c + series 45
Hình 3.1: Kiến trúc SSDlite với backbone MobileNetV3 -c5c55+ 48Hình 3.2: Kiến trúc SSDlite với backbone MobileNetV3 đã được giảm số lớp và
giới hạn loại vật thé cần nhận diện 2-2 ¿+ 2+E+EE+EE+2EE£EE+EEtEEEEErEkrrxrrrrrex 49Hình 3.3: Tệp dataset sử dụng trong đề tài này 5-2 z+ce+xecxerxerxerxersrree 53
Hình 3.4: Ham Resize của Pytorch + 1 111kg 54 Hình 3.5: Grayscale của PVfOTCH - - c1 11121191 1 TH HH 55 Hình 3.6: CenterCrop của PyfOTC c ¿+ ss + c1 1321131011911 1191111 1 9 1 ng 55
Hình 3.7: FiveCrop của Pytorch (cắt vào 4 góc và trung tâm ảnh) - 55
Hình 3.8: RandomCrop của Py{OTCh - óc <6 3E 11 1 1 nh ngư 55
Hình 3.9: Kết hợp các hàm tiền xử ly ảnh và áp dụng vào mô hình 56
Hình 3.10: Lớp khởi tạo cho từng lớp trong mô hình tùy chỉnh . - 57 Hình 3.11: Hàm chỉnh backbone MobileNetV3 - cv sessesee 58
Hình 3.12: Hàm tông hợp kiến trúc mô hình hoàn chỉnh ¿2-5 s52 s2 58Hình 3.13: Kết nối với google drive trên Colab -¿ ¿«¿©++2x++zx+zzx+zxesrsz 59
Hình 3.14: Tach tệp dataset lớp ra thành các tệp con: Train, Test và Validate 59
Hình 3.15: Khởi tạo dataloader dé đưa dữ liệu vào mô hình huấn luyện 59Hình 3.16: Chon phan cứng dé huấn luyện - 2-2 2 2 £+E££x+zx+£x+rszrszsez 60Hình 3.17: Lưu mô hình huấn luyện tai checkpoint - 2 2s s2 s2zs+£s2 s2 60Hình 3.18: Tải lại mô hình huấn luyện từ checkpoint : ¿sz+=s+ 60Hình 3.19: Hàm bat đầu huấn luyện mô hình -. -2¿- ¿+2 5++x2z++zx+zz+z 60
Hình 3.20: Hàm đánh giá độ chính xác của mô hình - - -«- -«£+<<+sx+se+sx+ 61
Hình 3.21: Ảnh môi trường mô phỏng - - 2 2 E+E+2E£+EE+EE+EEerEEzEEzrxerxerez 63Hình 3.22: Flowchart client khởi tạo kết nối với S€TVeT s- - + s+x+xezezxzxez 64
Hình 3.23: Tesla Model 3 - - - << + << << E1 EEEEEE11111111EEE11895555555551 511k kkkkkkkree 65
Trang 8Hình 3.24: Flowchart client giao tiếp và nhận dữ liệu từ cảm biến 68Hình 3.25: Flowchart luồng xử lý dit liệu ảnh 2- ¿2+ ©+2+++zxzzx+zxesrxz 70Hình 3.26: Hàm nhận diện vật thê 2-22 +¿++2E++Ex+2EEt2EEtEE+erxrzrxrrrecree 71Hình 3.27: Khởi tạo lớp xử lý ảnh nhằm chia luồng - 2-22 55552 55+c52 72Hình 3.28: Flowchart luồng xử lý đữ liệu Lidar 2- 2 2 2 s>x+£x+zzzszse2 72Hình 3.29: Khởi tạo lớp xử lý Lidar nhằm chia luỗng 2-5-5 52 s52 5+2 73Hình 3.30: Flowchart luồng điều khiển xe 2-22 5¿22+2++2x++zxrzzxerxesrxz 74
Hình 3.31: Flowchart thuật toán xử lý tránh né vat cắn .- - «<< cseese 75
Hình 3.32: Flowchart xử lý đa luỗng -¿- + ¿2£ E+EE+EE+EE£EE+EEEEEerkerkerkrrkrree 77Hình 4.1: Sơ đồ thiết kế phần cứng 2 2¿©2+¿+SE+2EE+EE+SEEEEEEEEESrkrrrrrrerree 78
Hình 4.2: Chương trình mô phỏng CC arÌa - 5 5< 325 E 33+ vveeeerrereersrerrre 79
Hình 4.3: Kết quả evaluate mô hình được điều chỉnh 2- 2 2 s2 s2 s+£s2 s2 80
Trang 9DANH MỤC BANG
Bảng 2-1: Cấu hình kiến trúc VGGNet [22] -:¿-55+¿2c5vvtsccxvrsrrrrrrsrrrerrre 12
Bảng 2-2: Mô hình GoogLeNet sử dụng khối Inception [23] -« 13
Bang 2-3: Kết quả nhận diện hình ảnh trên tệp PASCAL VOC2012 [6] 20Bảng 2-4: Kết quả nhận diện hình ảnh trên tệp COCO test-dev2012 [6] 20Bang 2-5: Kết quả nhận diện trên thiết bi di động iPhone XS Max của mô hình
MobileNetV2-SSD có sử dụng BlazeBlock và không sử dụng BlazeBlock [31] 21
Bảng 2-6: Sườn kiến trúc của MobileNet [32] - ¿5-5 ecx+EvEeEerkerxrxerxererxee 23
Bảng 2-7: Depthwise Separable vs Full Convolution MobileNet [32] 24 Bảng 2-8: MobileNet Width Multiplier [32] - 555 + +ssksseeesseesesers 24 Bang 2-9: MobileNet Resolution Multiplier [32] . 555555 <<++<s<<+seesssess 24
Bang 2-10: Kiến trúc MobileNetV3-large [33] - - c7 sSSssreeersesrreses 26Bảng 2-11: Kiến trúc MobileNetV3-small [33] - + + =scxsxssezezszezererssressz 27Bang 3-1: Chi tiết kiến trúc mô hình từ Sequential 2 — l -s¿sz=s+ 50Bảng 3-2: Chỉ tiết kiến trúc mô hình từ ModuleList 2 — 2 -: -sc:-:+ 5IBang 4-1: Kết quả so sánh giữa mô hình Modified với các mô hình khác 81Bang 4-2: Kết quả so sánh giữa mô hình Pre-trained với Modified - 81
Trang 10DANH MỤC TỪ VIET TAT
IoT Internet of Things
GPT Generative Pre-trained Transformer
GPU Graphics processing unit
CPU Central processing unit
ANN Artificial Neural Network [1]
MLP Multi-layer Perceptron [2]
CNN Convolutional Neural Network [3]
R-CNN Region-based Convolutional Neural Network [4]
RPN Region Proposal Network
YOLO You Only Look Once [5]
SSD Single Shot MultiBox Detector [6]
VOC Visual Object Classes
COCO Common Objects in Context
CVPR Conference on Computer Vision and Pattern Recognition
SE Squeeze and Excitation
ReLU Rectified Linear Units
MSE Mean Squared Error
IoU Intersection over Union
mAP Mean Average Precision
FPS Frames per second
Trang 11TÓM TẮT KHÓA LUẬN
Thuật ngữ "xe tự hành" đã xuất hiện từ lâu trong lịch sử phát triển công nghệ
tự động hóa và đã trải qua nhiều giai đoạn phát triển Ý tưởng ban đầu về xe tự hành
xuất hiện trong văn học khoa học viễn tưởng Sau đó, từ năm 1920 [7], các nhà khoa
học và kỹ su đã nghiên cứu dé tạo ra các hệ thống tự động hóa dé giúp lái xe Day làcác bước đột phá đáng ké trong lĩnh vực này, khi các hệ thống điều khiển tự độngphức tạp hơn được phát triển để giúp xe tự di chuyền và phát hiện các vật thé
Mục tiêu của xe tự hành là giảm thiểu sự cố va cham và tai nạn, tăng tính antoàn và tối ưu hóa hiệu quả vận chuyền Trên thị trường hiện nay đã có nhiều nghiêncứu và sản phẩm liên quan đến xe tự hành, như dịch vụ xe taxi tự hành của Waymo
và Cruise Các công ty này trang bị nhiều công nghệ tiên tiến như Lidar, Radar,Camera, GPS (Global Positioning System), Ultrasonic dé hỗ trợ hệ thống xe tự hành
Ở Việt Nam, cũng đã có nghiên cứu về xe tự hành, bao gồm xây dựng chươngtrình điều khiển xe tự hành sử dụng Deep Learning [8] và hệ thống tránh vật cản sử
dụng công nghệ Lidar [9].
Do đó trong đề tài này, nhóm chúng em đề xuất một mô hình sử dụng cảm
biến Camera va Lidar dé nghiên cứu tiếp Anh từ Camera sẽ được sử dụng dé nhận
diện vật cản như người và phương tiện giao thông thông qua mô hình Deep Learning.
Trong khi đó, Lidar sẽ đo khoảng cách đến các vật cản xung quanh xe tự hành
Trong dé tài này chúng em sử dụng mô hình SSDlite kết hop backbone của
MobilenetV3 Tuy nhiên có sự điều chỉnh và cắt giảm số vật thé cần phát hiện cùngvới các lớp nhỏ trong mạng backbone của MobilenetV3 Mô hình đã cắt giảm còn
61% so với kích thước ban dau (từ 3,44 triệu param xuống còn 2,1 triệu param) Việccắt giảm kích thước đã giúp tăng tốc độ xử lý từ 3,8 FPS lên 11 FPS (cải thiện 2,89lần so với mô hình gốc trên cùng phần cứng jetson nano)
Môi trường thực nghiệm sẽ là môi trường mô phỏng trên phần mềm Carla có
sự kết hợp giữa cam biến Lidar và Camera Việc sử dụng Lidar nhằm đo đạt và nhậnbiết khoảng cách từ xe đến vật cản tuy nhiên lidar sẽ không phân biệt được vật cản
Trang 12với môi trường xung quanh nên chúng em quyết định tích hợp camera có nhận diện
vật thé dé có thé nhận biết vật cản cần tránh soi với môi trường
Trong dé tài này chúng em đã xây dựng được mô hình với độ chính xác 73,1
AP% so với 75,9 AP% của mô hình ban đầu Tuy nhiên độ chính xác này vẫn chưa
đủ dé có thé áp dụng vào xe tự hành trên thực tế Môi trường mô phỏng cũng đã xâydựng đầy đủ các kịch bản cần thiết đã được nêu trên đề cương tóm tắt đồng thời có
thé cai đặt các cảm biến Lidar phù hợp với thông số của cảm biến Lidar trên thực tế
Trong tương lai chúng em sẽ có thê phát triển hệ thống đề có thể chạy trực tiếptrên jetson nano và tương lai xa hơn có thể áp dụng vào xe tự hành trên thực tế Tuynhiên dé làm được điều đó chúng em cần cải thiện mô hình nhận diện vật thé và tốimáy trạng thái trong việc điều khiển xe tự hành
Trang 13Chương 1 TONG QUAN ĐÈ TÀI
1.1 Tình hình ngoài nước:
Hiện nay AI đang có sự thu hút sự quan tâm cảng ngày càng tăng của các
ngành công nghiệp, chính phủ, tổ chức nghiên cứu và công chúng Các công
ty công nghệ lớn như Google, Microsoft, Amazone, Facebook và Apple đã
đầu tư mạnh mẽ vào thị trường AI cả về nghiên cứu phát triển và ứng dụng AIvào thực tế
Su phát truén của công nghệ trực tiếp thúc day các công trình nghiên cứu về
AI dang được công bố ngày càng nhiều và phát triển nhanh chóng Các kỹ
thuật và công nghệ mới như Deep Learning (Học sâu), Reinforcement
Learning (Học tăng cường) va Deep Neural Networks (Mạng nơ-ron học sâu)
đã mang lại những đóng góp trực tiếp góp phan phát triển đáng ké lĩnh vực
này.
AI cũng đã được ứng dụng rộng rãi trong nhiều lĩnh vực từ: y tế, tự động hóa,giao thông vận tải, tài chính, quản lý, marketing, giáo dục và rất nhiều lĩnh vực
khác Các ứng dụng của AI đã mang lại hiệu suất đáng ké và mang lại những
tiện ít và giá trị đáng ké cho các ngành công nghiệp và cuộc sống hằng ngày
Theo trang Fortune Business Insights, quy mô thị trường trí tuệ nhân tạo đã đạt được 428 tỷ đô vào năm 2022 và được dự đoán tăng trưởng vượt bật từ 513,31 tỷ đô năm 2023 lên 2.025,12 tỷ đô và năm 2030 Đạt tỷ lệ tăng trưởng
hằng năm hợp thành là 21,6% trong thời gian dự báo [10] Đặc biệt khi trải
qua đại dịch COVID-19 đã thúc day áp dụng các công nghệ tiên tiễn như trí
tuệ nhân tạo AI, máy học, điện toán đám mây, IoT và các công nghệ tiên tiễn
khác.
Trang 14134.64 (| |
=~ oo
2019 2020 2021 2022 2023 2024 2025 2026 2027 2028 2029 2030
Hình 1.1: Quy mô thi trường trí tuệ nhân tao Bắc Mỹ, 2019-2030 (Tỷ USD) [10]
- Từ khi ChatGPT được công bố đã thu hút được rất nhiều sự quan tâm và hưởng
ứng của cộng đồng Theo OpenAI, ChatGPT đã nhanh chóng trở thành ứng
dụng được sử dụng nhiều nhất trong lịch sử với ước tính có hơn 100 triệu lượt
truy cập trong vòng | tháng [11].
- Với việc sử dụng công nghệ AI vào xe tự hành cũng đang là định hướng va
mục tiêu phát triển trọng yếu ở hiện tại và trong tương lai Tích hợp AI vàophương tiện di chuyên như xe ô tô không chi đề hỗ trợ con người khi tham gia
giao thông mà trong tương lai có thê thay thế con người thực hiện quá trình
điều khiển và vận chuyên thay thế cho con người
1.2 Tình hình trong nước:
- Nước ta đang trong quá trình thực hiện công cuộc tiến đến công nghiệp hóa
4.0 hướng đến nền công nghiệp áp dụng công nghệ hiện đại, tự động hóa nhưIoT và AI nham gia tăng sản xuất và thúc day phát triển Tuy nhiên nước tavẫn còn nhiều hạn chế về kỹ thuật và công nghệ mặt khác lại ân chứa nhiều
tiềm năng để phát triển và thúc đây nền công nghiệp nước nhà
- Thời gian qua Đảng và nhà nước đã ban hành chỉ thị 52-NQ/TW (ngày 27
tháng 9 năm 2019) [12] nhằm nâng cao năng lực tiếp cận cuộc Cách mạngcông nghiệp lần thứ tư và phê duyệt Đề án thúc đây mô hình kinh tế chia sẻ.Xây dựng chính phủ điện tử tiến tới chính phủ só, tích cực xây dựng và hoànthiện bộ pháp luật về môi trường kinh doanh sé Triển khai cơ sở hạ tang băngthông rộng khắp cả nước đồng thời khuyến khích các trường đại học, việnnghiên cứu tập trung phát triển công nghệ
Trang 15- _ Tận dụng thời cơ từ thị trường và hỗ trợ từ nhà nước, quá trình phát triển của
nên công nghiệp hiện đại ứng dụng AI đang thu hút rất nhiều nguồn nhân lực
và cơ hội dé nghiên cứu va phát triển không chỉ ở hiện tại mà còn trong tương
lai.
- Nam bắt được xu hướng đó, ngay tại Trường Đại hoc Công nghệ và Thông tin
— thuộc Dai học Quốc gia thành phố Hồ Chi Minh cũng đã có các dé tài nghiên
cứu chuyên sâu về nhiều lĩnh vực từ Blockchain, IoT và đặc biệt nhất là phát
trién mang Machine Learning áp dụng vào cuộc sống con người
1.3 Giới thiệu về Machine Learning
- Machine learning là một nhánh được phát triển từ việc nghiên cứu thuật toán
mô phỏng trí thông minh và cách não bộ con hoạt động khi học hỏi từ môi
trường xung quanh [13] Phát triển và ứng dụng máy học vào cuộc sống đang
được coi là kỳ lân công nghệ trong kỷ nguyên mới, các thuật toán máy học đã
được ứng dụng và thành công trong các lĩnh vực khác nhau từ những bài toán
nhận diện mẫu (Sampling), thị giác máy tính (Computer Vision), kỹ thuật tàu
vũ trụ và du hành không gian, kinh tế và tài chính, giải trí, sinh — hóa học và y
té,
- _ Các hệ thông máy học có khả năng tự động "hoc" từ dữ liệu mà không can
phải được lập trình cụ thể Thay vào đó, chúng sử dụng các thuật toán và môhình để phân tích và rút ra các mẫu, thông tin từ dữ liệu đầu vào và sử dụngnhững thông tin này dé đưa ra dự đoán, phân loại hoặc ra quyết định trong cáctác vụ mới Các phương pháp máy học bao gồm nhiều kỹ thuật và thuật toán
như học có giám sát (supervised learning), học không giám sát (unsupervised
learning) và học bán giám sát (semi-supervised learmng) [14].
- Muc tiêu của máy học là phát triển các mô hình và thuật toán có khả năng tự
học và cải thiện theo thời gian, từ đó giúp máy tính hiểu và xử lý thông tinphức tạp, đưa ra dự đoán chính xác và đưa ra quyết định thông minh dựa trên
dữ liệu [13].
Trang 16Chuong 2 CƠ SỞ LÝ THUYET
2.1 Kiến trúc Machine Learning
Kiến trúc mô hình máy học đầu tiên được phát triển là Artificial NeuralNetwork (ANN) được phát triển và những năm 1940 — 1950 [15] đã đề xuất
một mô hình mô phỏng hệ thống thần kinh trong não người Mô hình gồm cácnơ-ron nhân tạo được kết nối với nhau thông qua các liên kết có trọng số nhămthực hiện các phép tính đơn giản trên từng nơ-ron và tạo ra kết quả dựa trêncác trọng số và ngưỡng
Tuy nhiên vì sự hạn chế của kiến trúc phức tạp thời đó và từ thuật toán đến
phần cứng chưa đáp ứng tài nguyên tính toán khiến sự phát triển của mạng
no-ron bị gián đoạn Đến những năm 1980, với sự xuất hiện của thuật toán lantruyền ngược (backpropagation algorithm), mạng nơ-ron đã trở thành lĩnh vựcnghiên cứu trọng yêu trong suốt quá trình phát triển máy học đến tận bây giờ
2.1.1 Neural Network
2.1.1.1 Neural Network là gi?
Khi cần giải một bai toán ta thường sử dung các biện pháp tính toán thôngthường có công thức và điều kiện xác định cho trước, tuy nhiên khi đối diệnvới những bài toán đặc biệt yêu mang tính trù tượng nhất định ta cần phươngpháp linh hoạt hơn đề giải quyết bài toán đó Mạng lưới thần kinh (NeuralNetwork) là một đại diện tiêu biểu cho phương pháp đó với giải pháp của van
đề được huấn luyện và học tập dựa trên một tệp hoặc một nhóm mẫu cho sẵn
từ đó có thê đưa ra các dự đoán và giải pháp mang tính logic dựa trên những
gì được học trước đó [16].
Não người là một kiến trúc mạng thần kinh sinh học phức tạp với gần 100 tỉ
tế bào nơ-ron và gấp mười số đó với tế bào thần kinh đệm [17] dé phuc vu
chức năng quan trong nhất của con người, quyết định suy nghĩ, tinh cách và
hành vi của từng cá nhân dựa trên cấu trúc riêng biệt và đặc trưng của não bộảnh hưởng bởi kiến thức và nhận thức của từng người riêng biệt
Trang 17- Bằng cách mô phỏng lại quá trình hoạt động của bộ não con người và cách
thức các nơ-ron giao tiếp và tính toán cho ra các kết quả và quyết định, mộtkiến trúc mạng thần kinh nhân tạo (ANN) được ra đời như một giải pháp thaythế cho các phương thức giải quyết vấn đề trước đó
2.1.1.2 Artificial Neural Network
- Lấy cảm hứng từ mang than kinh sinh học của bộ não con người, mang thần
kinh nhân tạo cũng là một bộ tính toán song song đồng thời gồm một số lượnglớn tế bào xử lý đơn giản
Hinh 2.1: Té bao no-ron sinh học trong não người [1]
- Tế bào nơ-ron sinh học bao ngồm nhiều đầu vào với các trọng số cho mỗi giá
trị đầu vào đó Sau đó sẽ được đi qua hạt nhân trung tâm nhằm tính toán vàđưa ra kết quả sau đó truyền đi tới các tế bào nơ-ron khác Bằng cách mô phỏng
gân giông mộ nơ-ron sinh học, câu trúc của nơ-ron nhân tạo như sau:
weights inputs
Trang 18-_ Một tế bào nơ-ron nhân tao cũng sở hữu nhiều đầu vào với các trọng số đi kèm
theo từng giá tri đầu vào Các tín hiệu đầu vào sẽ được đi qua một hàm kích
hoạt bao gồm tham số (Bias) và ngưỡng đầu ra (Threshold) Bằng cách thay
đổi các trọng số trên từng nơ-ron nhân tạo, chúng ta có thé nhận được nhữngkết quả mong muốn với từng giá trị đầu vào cụ thể Mục tiêu của việc huấnluyện nhằm tìm ra trọng số phù hợp dé kết quả dau ra có sai số thấp nhất
- _ Một mô hình Neural Network hoàn chỉnh được bao gồm nhiều lớp bao gồm:
lớp đầu vào, lớp đầu ra và có hoặc không các lớp ân giữa 2 lớp trên Mô hìnhNeural Network cơ bản sẽ có kiến trúc như Hình 2.3
Input layer Hidden layer Hidden layer Output layer
- OHinh 2.3, mỗi hình tròn tượng trưng cho từng no-ron trong kiến trúc mạng
ANN và những mũi tên đen tượng trưng cho các kết nối (channel) giữa từngnơ-ron (Hình 2.2) qua các lớp trong kiến trúc ANN Một kiến trúc cụ thể hơn
của ANN sử dụng nhiều lớp mạng được gọi à Multi-layer perceptron (MLP)
2.1.1.3 Multi-layer Perceptron
- Multi-layer Perceptron (MLP) là một kiến trúc mạng nơ-ron truyền thăng
(feedforward neural network) với ít nhất hai lớp nơ-ron (một lớp đầu vào vàmột lớp đầu ra) và nhiều hơn một lớp an giữa chúng MLP được coi là mộttrong những kiến trúc cơ bản và phô biến nhất của mạng nơ-ron
- Các lớp nơ-ron sử dụng trong MLP được gọi là lớp Perceptron, sử dụng
Perceptron Algorithm dựa vào các lớp kernel để chuyên ma trận đầu vào sang
không gian nhiêu chiêu hơn, tăng cường thông tin và dữ liệu đâu ra cải thiện
Trang 19độ chính xác hơn so với các thuật toán trước đó Phương thức áp dụng
Perceptron Algorithm được đề xuất từ năm 1958 bo Frank Rosenblatt [2] bao
gồm một lớp đầu vào, một lớp đầu ra và một hàm kích hoạt đơn giảm nhằm
thực hiện các phép toán tuyến tính và các bài toán phân loại đơn giản
Unidirectional Unidirectional Bidirectional
information flow information flow information flow
Hình 2.4: Kết cấu của một mang Perceptron đa lớp cơ bản [2]
- Sau khi có sự ra đời của Perceptron, các nhà nghiên cứu thấy răng có thé kết
hợp nhiều Perceptron khác nhau đề tạo ra một mô hình mạnh mẽ hơn và phức
tạp hơn được gọi là Multi-layer Perceptron [19] Tuy nhiên vì hạn chế về kiến
trúc và hiệu năng xử lý và mục đích ban đầu dé phục vụ những bài toán tuyến
tính và các bài toán phân loại nên MLP thường không được áp dụng vào việc
nhận diện hình ảnh với kích thước dữ liệu lớn và bố cục vật thé phức tạp Vìthé dé có thé giải quyết các bài toán nhận diện hình ảnh một kiến trúc mạngnơ-ron mới được ra đời được gọi là Mạng thần kinh tích chập (Convolutional
Neural Network).
2.1.1.4 Convolutional Neural Network
- Mang thần kinh tích chập (Convolutional Neural Network) là một kiến trúc
mô hình trí tuệ nhân tạo được sử dụng chủ yếu vào xử lý ảnh CNN được thiết
kế đặc biệt dé xử lý và phân tích dữ liệu không gian như hình ảnh và video
- CNN được nghiên cứu và phát triển từ những năm 1980 và lần đầu được dé
cập chính thức trong bài báo cáo áp dụng NN vào nhận diện chữ viết [3]
Trang 200123456789 OUTPUTLAYER
i (EMM 3,000 Conn eval by DSP
4 HIDDEN LAYERS
130,000 Connections eval by NN-Chip
if INPUT (20x20 Pixels)
Hình 2.5: Kết qua mang CNN nhận diện chữ viết tay [3]
- C6 rất nhiều kiến trúc CNN khác nhau được phát triển dé phục vụ từng nhu
cầu và mục đích cụ thê từ khi được giới thiệu:
o LeNet-5: là một trong những kiến trúc CNN đầu tiên được phát triển
bởi Yann LeCun và nhóm nghiên cứu của ông vào năm 1998 Kiến trúc
LeNet-5 được áp dụng vào nhận diện tài liệu viết tay [20] từ bộ dữ liệu
cua MNIST (Modified National Institute of Standards and
Technology) Cau trúc của LeNet-5 bao gồm 3 lớp chính: Lớp tích chập(Convolution), lớp tổng hợp (Pooling) và lớp kết nối đầy đủ (Fully
connected).
S C3 ! maps 16@10x10
INPUT cl feature maps S4: † m 16405x5%
C5 layer rọ:xey OUTPUT
60@?14x1 120 B4 10
Full connecton Gaussian connections
Convolutions Subsampling Convolutions Subsampling Full connection
Hình 2.6: Kiến trúc LeNet-5 nhận diện chữ viết tay [20]
10
Trang 21o AlexNet: Được giới thiệu và 2012 bởi Alex Krizhevsky, Ilya Sutskever
và Geoffrey Hinton AlexNet đã gây ra sự chú ý cực kì lớn trong lĩnh
vực nhận diện hình ảnh khi chiến thắng cuộc thi ImageNet Large Scale
Visual Recognition Challenge (ILSVRC) năm 2012 [21] Kiến trúc
AlexNet được sử dụng một số cải tiễn quan trọng như hàm kích hoạt
ReLU và kỹ thuật Dropout để giảm overfitting và kỹ thuật Data
augmentation nhằm tăng cường dữ liệu trong quá trình huấn luyện
Hình 2.7: Kiến trúc AlexNet được giới thiệu vào năm 2012 [21]
o VGGNet: Là một kiến trúc đơn giản và hiệu quả với việc sử dụng những
lớp tích chập nhỏ có kích thước 3x3 và các lớp tổng hợp 2x2 được giới
thiệu lần đầu vào năm 2014 bởi Karen Simonyan và Andrew Zisserman
từ Đại học Oxford [22] Tuy nhiên do số lượng tham số của VGGNet
khá lớn nên việc huấn luyện và triển khai mô hình tốn nhiều thời gian
và tài nguyên tính toán làm cho mô hình này thường không được sử
dụng trong các ứng dụng yêu cầu tài nguyên hạn chế
11
Trang 22Bang 2-1: Cấu hình kiến trúc VGGNet [22]
ConvNet Configuration
[AT AIRNT BT c | D | —&
ll weight | 11 weight | 13 weight | 16 weight 16 weight 19 weight
layers layers layers layers layers
input (224 x 224 RGB image)
conv3-64 conv3-64 conv3-64
LRN conv3-64 conv3-64
maxpool conv3-128 | conv3-128 | conv3-128 | conv3-128 | conv3-128 | conv3-128
conv3-128 | conv3-128 | conv3-128 | conv3-128
conv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256
conv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256
convl-256 | conv3-256 | conv3-256
conv3-256
conv3-512 conv3-512 | conv3-512 | conv3-512 | conv3-512
conv3-512 conv3-512 | conv3-512 | conv3-512 | conv3-512
convl-512 | conv3-512 | conv3-512
conv3-512
o GoogLeNet (Inception): Được phát trién bởi nhóm nghiên cứu Google
DeepMind và công bố vào năm 2014 tại cuộc thi ImageNet Large Scale
Visual Recognition Challenge trong cùng năm Kiến trúc GoogLeNetđược tôi ưu hóa bằng cách áp dụng các khối Inception, bao gồm nhiềulớp tích chập được thực hiện song song và kết hợp kết quả từ những lớpsong song đó qua một lớp tổng hợp tạo thành đầu ra cuối cùng Việc sử
dụng các lớp song song giúp mô hình có khả năng không bị overfitting
và có thê học được những đặt trưng phức tạp và cải thiện hiệu suất mô
hình [23].
12
Trang 23(a) Inception module, naive version
1x1 convolutions 3x3 convolutions 5x5 convolutions 3x3 max pooling
1x1 convolutions
i
Filter concatenation
(b) Inception module with dimension reductions
Hình 2.8: Khối Inception, a) Phiên bản cơ bản; b) Sử dụng những lớp Conv1x1
giảm số chiều và kích thước đữ liệu đầu vào [23]
Bảng 2-2: Mô hình GoogLeNet sử dụng khối Inception [23]
type patch sia? —~ depth | #1x1 ax #3x3 are #5x5 mi params | ops
inception (4a) 14x14x512 2 192 96 208 16 48 64 364K 73M
inception (4b) 14x14x512 mi” 160 112 224 24 64 64 437K 88M
inception (4c) 14x14x512 2 128 128 256 24 64 64 463K 100M inception (4d) 14x14x528 2 112 144 288 32 64 64 580K 119M inception (4e) 14x 14x 832 22 256 160 320 32 128 128 840K 170M
o Region-based Convolutional Neural Network (R-CNN): là một phương
pháp nhận diện vat thể trong hình ảnh được giới thiệu bởi RossGirshick, et al vào năm 2014 [4] Phương pháp R-CNN đã đề xuất một
chương trình bao gồm ba bước chính: Selective Search dé tạo ra các
vùng đề xuất (region proposals) dựa trên việc kết hợp các vùng có đặc
trưng tương tự dé tạo ra vùng có khả năng cao chứa đối tượng đó, CNN
Features Extraction dùng các vùng đề xuất ở bước trước qua một lớpCNN để trích xuất đặc trưng của ảnh dựa trên vùng đề xuất, SVM
13
Trang 24(Support Vector Machine) Classification: kết quả từ mạng CNN được
dua qua SVM dé phân lớp và xác định loại của vật thể tương ứng trongảnh Tuy nhiên, phương pháp này còn hạn chế vì tập trung nhận diệnvật thé trong một vùng dé xuất và đưa các vùng đó qua từng lớp CNN
dé nhận diện Vì thé để khắc phục nhược điểm của mô hình, các phiênbản cải tiến hơn đã được công bố như Fast R-CNN va Faster R-CNN
mm \|
: -⁄
1
>| person? yes
1 Input 2 Extract region 3 Compute 4 Classify
image proposals (~2k) CNN features regions
Hình 2.9: Mô hình R-CNN với ba bước chính [4]
o Fast R-CNN và Faster R-CNN: Là hai phiên bản cải tiến của R-CNN
và được công bố vào cùng năm 2015 Với Fast R-CNN [24] thay vi
trích xuất đặc trưng cho khu vực đề xuất (region proposals) Fast CNN thực hiện trích xuất đặc trưng cho toàn bộ hình ảnh và dùng mộtlớp CNN nhăm trích xuất ra các vùng đặc trưng (Roi features) Còn vớiFaster R-CNN [25] đưa ra một giải pháp tong thé dé tạo ra các vùng đề
xuất và nhận diện đối tượng một cách nhanh chóng Mô hình Faster
R-CNN sử dụng một lớp R-CNN được sử dụng dé trích xuất đặc trưng vàmột mang Region Proposal Network (RPN) dé tao ra các vung dé xuat.RPN sử dung các Anchor Boxes va các phép biến đổi dé dé xuất vi trí
và kích thước cho các vùng dé xuất Các vùng dé xuất nay sau đó đượcđưa vào các lớp CNN nhăm dự đoán vị trí và loại của đối tượng cần
nhận diện trong hình ảnh.
14
Trang 252k scores | 4k coordinates <j [anchor boxes
cls layer ‘ f reg layer
256-d + intermediate layer ~
CJ
conv feature map
Hình 2.11: Anchor boxes trong RPN áp dung vào mô hình Faster R-CNN [25]
o YOLO (You Only Look Once) [5]: là một kiến trúc mạng nơ-ron sử
dụng trong bài toán nhận diện vật thé trong hinh anh bang cach chia
ảnh đầu vào thành một lưới 6 vuông va áp dụng thuật toán phân loại vanhận diện đối tượng trong các vùng ô vuông được phân lưới đó Hình
2.12 Đây là một mạng nơ-ron đơn giản và hiệu quả tuy nhiên còn hạn
chế trong việc nhận diện những vật thé nhỏ và nhận diện nhiều vật thểvới kích thước khác nhau Vì thế YOLO đã được phát triển và nhiềuphiên bản nhăm cải thiện hiệu năng và độ chính xác của mô hình như:
YOLOv2 (2016) [26] cải thiện khả năng phát hiện và định vi đối tượng
bang cách sử dụng mang residual và kỹ thuật skip connection; YOLOv3
(2018) [27] sử dụng mạng nơ-ron Darknet-53 với 53 lớp tích chập,
mô-đun kết hợp (feature pyramid) và thêm các lớp convolutional dé phát
15
Trang 26112
hiện các đối tượng ở các tỷ lệ khác nhau; YOLOv4 (2020) [28] giới
thiệu nhiều cải tiến, bao gồm mô-đun CSPDarknet53, PANet, Path
Aggregation Network, và các kỹ thuật như Mish activation function va
SAM (Spatial Attention Module); YOLOvS (2020) [29] là một phiên
ban YOLO được thiết kế dé có kích thước nhỏ gon nhằm tăng tốc độ
xử lý, đồng thời áp dụng các phương pháp giảm mat mát Focal Loss, tỷ
lệ học tập Cosine annealing, và data augmentation dé tăng cường dit
liệu huân luyện.
S x S grid on input Final detections
Hinh 2.12: M6 hinh YOLO co ban [5]
Trang 272.1.2 Single Shot MultiBox Detector
2.1.2.1 Giới thiệu về SSDSSD (Single Shot MultiBox Detector) là một kiến trúc mạng nơ-ron được sử
dụng phô biến trong lĩnh vực nhận diện đối tượng trong hình ảnh Nó được
giới thiệu bởi Wei Liu và đồng nghiệp vào năm 2016 [6]
SSD là một kiến trúc mạng CNN nhằm giải quyết vấn đề hiệu năng và tăng
tốc độ nhận diện hình ảnh và đối tượng so với các mô hình truyền thống như
R-CNN hay Faster R-CNN Đối với bài toán phát hiện đối tượng truyền thống,các phương pháp cần thực hiện nhiều bước riêng biệt như phát hiện các vùngtiềm năng (region proposals) và sau đó áp dụng các thuật toán phân loại để xácđịnh đối tượng Tuy nhiên, SSD khác biệt với việc thực hiện cả hai công việcnày trong một mạng neural duy nhất Đã có nhiều nỗ lực nhằm tăng hiệu suất
và tốc độ của các mô hình R-CNN trước đó nhưng chỉ tập trung can thiệp vào
từ giai đoạn của quá trình nhận diện hình ảnh [6] tuy nhiên cải thiện tốc độ vàhiệu năng sẽ phải đánh đổi bằng độ chính xác
Mục tiêu của SSD nhằm tạo ra một mô hình có thé áp dụng vào các thiết bị diđộng và hệ thống nhúng với phần cứng và hiệu năng hạn chế nhưng vẫn giữđược khả năng nhận điện hình ảnh với độ chính xác cần thiết SSD đã đạt đượcnhững thành tựu đáng ké trong việc phát hiện và định vị đối tượng trong hình
ảnh với tốc độ nhanh và độ chính xác cao Nó đã được áp dụng rộng rãi trong
các ứng dụng thực tế như giám sát an ninh, xe tự hành, nhận dạng khuôn mặt
và nhiều lĩnh vực khác
2.1.2.2 Kiến trúc mô hình SSD
SSD được xây dựng dựa trên Feed-forward Convolutional Network tương tự
như R-CNN hay Faster R-CNN Tuy nhiên với R-CNN và Faster R-CNN sử
dụng bước trích xuất vùng đề xuất (region proposal) đề tìm các vùng chứa đối
tượng trong hình ảnh [4] [24] [25] như ở Hình 2.9, tuy nhiên quá trình này đi
qua nhiều bước trung gian phức tạp và làm giảm tốc độ xử lý Nhằm cải thiện
tốc độ và độ chính xác, SSD đã kết hợp cả việc trích xuất vùng đề xuất và nhận
17
Trang 28diện đối tượng vào một mạng nơ-ron backbone duy nhất Mạng backbone sử
dụng cho vùng đê xuât và nhận diện ảnh.
Kiến trúc SSD sẽ bao gồm 2 phần chính: mạng Backbone và SSD Head
©
le)
Hình
Mạng Backbone thường là một mô hình phân loại hình ảnh được
pretrained dé str dung như một bộ trích xuất đặc trưng của hình ảnh
SSD Head là một hoặc một mạng các lớp tích chập được thêm vào sau
mô hình Backbone và các kết quả của mô hình là một bounding boxcùng với class của vật thé xuất hiện trong hình anh
Extra Feature Layers
VGG-16 r A
~—-through Pools layer Classifier : Conv: 3x3x(4x(Classes+4))
N ` | Classifier : Conv: 3x3x(6x(Classes+4))
CHENB_2 *
`8 `8 N10 `" 10 2 Canv11 2
` Ị N N N| sz 1024 NỈ 1024 512 256 258 256 _ ll N N NỈzN
Conv: 3x3x1024 Conv: 1%1x1024 Conv: 1x1x256 Conv: 1x1x128 Conv: 1x1x128 Conv: 1x1x128
Conv: 3x3x512-s2 Conv: 3x3x256-s2 Conv: 3x3x256-s† Conv: 3x3x256-s1
2.14: Kiến trúc SSD sử dụng VGG-16 làm mang Backbone [6]
Tuy nhiên SSD cũng tích hợp nhiều phương pháp khác nhau nhằm cải thiện
toc độ và hiệu năng của mô hình như:
© Tích hợp End-to-end: kết hợp quá trình phát hiện đối tượng và định vị
đối tượng trong một mạng nơ-ron backbone duy nhất Điều này giúptăng tốc độ xử lý và giảm độ phức tạp của quá trình nhận diện vật thê
Dùng các lớp tích chập đa tỉ lệ (multi-scale feature maps): với các kích
thước khác nhau dé trích xuất đặc trưng từ hình ảnh với nhiều tỉ lệ khácnhau giúp phát hiện đối tượng với nhiều tỉ lệ khác nhau trong mạng
Sử dụng các anchor boxes: như ở Hình 2.11 dé dự đoán vi trí và kíchthước của các đối tượng trong hình ảnh Các anchor boxes sẽ được địnhnghĩa trước với tỉ lệ khác nhau dé phù hợp với nhiều tỉ lệ vật thể trong
hình ảnh.
Multi-layer detection: áp dụng dự đoán đa lớp tức mô hình có thể xác
đinh các lớp đối tượng khác nhau trong một lớp đầu ra duy nhất Điều
18
Trang 29này cho phép phát hiện đa lớp một các hiệu quả trong cùng một quá trình.
o Multi-layer processor: xử lý đồng thời nhiều anchor boxes và dự đoán
các vị trí và lớp đối tượng tương ứng Điều này giúp tăng tốc độ pháthiện và định vị đối tượng
2.1.2.3 Uu điểm và nhược điểm của SSD
Phát hiện đa lớp va đa tỉ lệ: SSD có khả năng phát hiện đa lớp cho phép xác
định các đối tượng thuộc nhiều lớp khác nhau trong cùng một lần phát hiện
Kiến trúc SSD đã được chứng minh có khả năng phát hiện và định vị đối tượng
với độ chính xác cao trên các bộ dữ liệu phô biến như COCO và Pascal VOC.Khả năng triển khai trên nhiều nền tảng và thiết bị khác nhau, bao gồm máytính cá nhân, các máy tính nhúng và các hệ thống với phần cứng hạn chế khác.Điều này tạo điều kiện thuận lợi cho việc sử dụng và triển khai SSD trong cácứng dụng thực tế
b Nhược điểm:
Kiến trúc của SSD có độ phức tạp cao, với nhiều lớp và nhiều tham số khiênviệc huấn luyện và tinh chỉnh mô hình có thể đòi hỏi nhiều công sức và thời
gian.
Khả năng nhận diện các đối tượng nhỏ trong hình ảnh gặp nhiều khó khăn
Điều này dã đến việc bỏ sót một số đối tượng hoặc gây ra sai sót trong việc
định vị chính xác những vật thể có trong hình
19
Trang 302.1.2.4 Quá trình phát triển và cai tiến của SSDSSD lần đầu được giới thiệu bởi Wei Liu và đồng nghiệp vào năm 2016 [6]
với hai phiên bản SSD300 và SSD512 với từng cấu hình mạng no-ron cho
từng độ phân giải khác nhau SSD300 sử dụng một mạng CNN với độ phân
giải đầu vào là 300x300 pixel, trong khi đó SSD512 sử dụng độ phân giải đầuvào là 512x512 pixel Cả hai phiên bản đều đạt được hiệu xuất nhất định trongviệc phát hiện đối tượng trên các bộ dit liệu phô biến VOC va COCO
Bảng 2-3: Kết quả nhận diện hình ảnh trên tệp PASCAL VOC2012 [6]
Method data mAP| aero bike bird boat bottle bus car cat chai cow table dog horse mbike person plant sheep sofa train tv
Fast [6] 07 66.9|74.5 78.3 69.2 53.2 36.6 77.3 78.2 82.0 40.7 72.7 67.9 79.6 79.2 73.0 69.0 30.1 65.4 70.2 75.8 65.8 Fast [6] 07412 70.0|77.0 78.1 69.3 59.4 38.3 81.6 78.6 86.7 42.8 78.8 68.9 84.7 82.0 76.6 69.9 31.8 70.1 74.8 80.4 70.4
SSD512 07+12 |76.8|82.4 84.7 78.4 73.8 53.2 86.2 87.5 86.0 57.8 83.1 70.2 84.9 85.2 83.9 79.7 50.3 77.9 73.9 82.5 75.3 SSD512 |07+12+COCO | 81.5] 86.9 87.5 82.0 75.5 66.4 88.2 88.7 89.3 65.2 88.3 74.4 87.1 88.9 85.9 84.5 57.6 84.6 80.7 87.1 81.7
— Fast and Faster R-CNN được sử dung hình anh có kích thước tối tiểu600x600 trong khi đó YOLO sử dụng hình ảnh có kích thước cô định 448x448 Dữ
liệu: “07++12”: là hợp giữa tệp VOC2007 trainval và VOC2012 trainval;
“07++12+COCO”: Mô hình sẽ được huấn luyện trên tệp COCO trainval13Sk sau đó
fine-tune trên 07++12.
Bang 2-4: Két quả nhận diện hình ảnh trên tệp COCO test-dev2012 [6]
Method Data Mean average precision
0.5 0.75 | 0.5:0.95
Fast R-CNN [6] train 35.9 | - 19.7 Fast R-CNN [21] | train 39.9 20.5 | 19.4 Faster R-CNN [2] | train 42.1 - 21.5 Faster R-CNN [2] trainval 42.7 | - 21.9 Faster R-CNN [22] | trainval 45.3 24.2 | 23.5 ION [21] train 42.0 23.0 | 23.0
SSD300 trainval35k | 41.2 | 23.2 | 23.4 SSD512 trainval35k | 46.4 | 26.7 | 27.7
20
Trang 31- _ Đã có nhiều nỗ lực cải thiện tốc độ của SSD bằng cách thay thế các mạng
nơ-ron backbone Ngoài ra, kĩ thuật điều chỉnh tham số tnơ-rong quá trình huấn luyện
và sử dụng các kỹ thuật tối ưu hóa như ngẫu nhiên hóa dữ liệu (Randomizer)
đầu vào giúp tăng hiệu quả huấn luyện va kha năng nhận diện của mô hình
2.1.2.5 Ứng dụng của SSD
- Vị độ nhỏ gọn và hiệu quả của mô hình, SSD có nhiều ứng dụng thực tiễn và
tiền năng phát triển cao trong đời sống hang ngày:
o Nhận diện thời gian thực trong bảo mật an ninh ngân hàng [30] sử dụng
mô hình SSD với backbone VGG-16 làm mô hình chính được huấnluyện trên tệp dữ liệu của COCO với tổng cộng 330.000 ảnh (200.000ảnh đã được gan nhãn làm tệp huấn luyện), có hơn 1,5 triệu vật thé đượcgán 80 nhãn vật thé, 91 nhãn vật dụng hằng ngày và 5 chú thích chomỗi hình ảnh Mô hình đề xuất sử dụng 90 lớp phát hiện đối tượng và
được tối ưu nhằm chạy trên server có định Hình anh CCTV
(Closed-Circuit Television) của ngân hàng được đưa qua mô hình nhận diện vật
thé nhằm đánh giá mức độ an toàn va tăng khả năng bảo mật của ngân
hang đó [30].
o Sự dung trong nhận diện khuôn mặt trên các thiết bị di động như
BlazeFace [31] BlazeFace sử dụng kiến trúc SSD với backboneMobilenetV2 đồng thời thiết kế riêng một BlazeBlock như là bottleneck
cho các lớp abstraction cao hơn của mô hình.
Bảng 2-5: Kết quả nhận diện trên thiết bị đi động iPhone XS Max của mô hình
MobileNetV2-SSD có sử dụng BlazeBlock và không sử dụng BlazeBlock [31]
Inference Time, ms
Model Average Precision
(iPhone XS) MobileNetV2-SSD 97,95% 2.1
MobileNetV2-SSD-BlazeBlock 98,61% 0.6
- Tóm lai SSD vân còn nhiêu tiêm năng phat triên và cải tiên dé cải thiện kha
năng nhận diện và tăng tốc độ xử lý Các nghiên cứu về mô hình này vẫn đang
21
Trang 32được nghiên cứu dé đạt được hiệu suất và độ chính xác tốt hơn trong tương
lai.
2.1.3 MobileNet
2.1.3.1 Giới thiệu về MobileNet
- MobileNet là một kiến trúc mang CNN được thiết kế đặc biệt dé đạt hiệu suất
cao trên các thiết bị di động có tài nguyên tính toán hạn chế MobileNet sự
dụng một kĩ thuật được gọi là depthwise separable convolution nhằm giảm số
lượng tham số và tính toán
- Kiến trac MobileNet được phát triển bởi Google AI và lần đầu tiên được công
bố vào hội nghị CVPR [32] đã nhận được sự quan tâm lớn đến từ cộng đồngnghiên cứu trong lĩnh vực thị giác máy tinh MobileNet đã thé hiện bản thân
là một mô hình có kiến trúc mạng nơ-ron nhẹ, mục tiêu của MobileNet đã cung
cấp một giải pháp hiệu quả về tính toán và giải quyết vấn đề về kích thước mô
hình cho các ứng dụng nhận diện hình ảnh trên các thiết bị di động
Phoio by Sharon Vanderkaay (CC BY 20)
Hình 2.15: Mô hình MobileNet được sử dung vào các ứng dung di động [32]
- _ Trong bản gốc của bài báo, MobileNet đã được đánh giá và so sánh với các
kiến trúc mạng khác với cùng bộ dữ liệu ImageNet MobileNet [32] đã chứng
minh khả năng vượt trội trong việc đạt được độ chính xác cao với kích thước
mô hình và tài nguyên tính toán thấp hơn so với các mạng truyền thống Đặc
biệt MobileNet [32] có khả năng đạt độ chính xác tương đương với các mạng
học sâu với kích thước lớn hơn như VGG và ResNet.
22
Trang 332.1.3.2 Kiến trúc của mạng MobileNet
Bảng 2-6: Sườn kiến trúc của MobileNet [32]
Type / Stride Filter Shape Input Size
Conv / s2 3x3x3x32 224x224x3
Conv dw /sĨ 3x3x32dw 112 x 112 x 32
Conv/s1 1x 1x 32x 64 112 x 112 x 32 Conv dw / s2 3x3x64dw 112 x 112 x 64
Conv /sl 1x1x 64x 128 56 x 56 x 64
Conv dw/ sl 3x3 x 128 dw 56 x 56 x 128 Conv /sl1 1x 1x 128 x 128 56 x 56 x 128
Conv dw / s2 3x3 x 128 dw 56 x 56 x 128
Conv / sĨ 1Ix1xI1I28x256 28 x 28 x 128
Conv dw/ sl 3 x3 x 256 dw 28 x 28 x 256
Conv/ sl 1x 1 x 256 x 256 28 x 28 x 256 Conv dw / s2 3 x 3 x 256 dw 28 x 28 x 256
Softmax / s1 Classifier 1 x 1 x 1000
- MobileNet có kiến trúc co ban của một CNN bao gồm nhiều lớp tích chập
Tuy nhiên MobileNet sử dụng một Depthwise Separable Convolution bao gồm
hai lớp depthwise convolution va pointwise convolution Depthwise
convolution áp dung convolution lên từng kênh riêng biệt của đầu vào, giúp
23
Trang 34giảm sô lượng tham sô và tính toán Pointwise convolution sau đó sử dụng một
convolution 1x1 dé kết hợp các kênh lại với nhau Kỹ thuật này giúp giảm tảitính toán mà vẫn giữ được độ chính xác [32].
Bảng 2-7: Depthwise Separable vs Full Convolution MobileNet [32]
ImageNet Million Mult- Million
Model
Accuracy Adds Parameters
Full Convolution MobileNet 71.7% 4866 29.3 Depthwise Separable MobileNet 70.6% 569 4.2
- Width Multiplier va Resolution Multiplier [32]:
o Width Multiplier: có mục đích quyết định số lượng kênh của mô hình
Bằng cách điều chỉnh Width Multiplier,ta có thé điều chỉnh kích thước
mô hình và độ phức tạp tính toán.
Bang 2-8: MobileNet Width Multiplier [32]
ImageNet Million Width Multiplier Million Mult-Adds
Accuracy Parameters 1.0 MobileNet-224 70.6% 569 4.2
0.75 MobileNet-224 68.4% 325 2.6 0.5 MobileNet-224 63.7% 149 1.3 0.25 MobileNet-224 50.6% 41 0.5
o Resolution Multiplier: quyết định số kích thước đầu vào của mạng
Bằng cách điều chỉnh Resolution Multiplier, ta có thé điều chỉnh độphân giải đầu vào cho ảnh Điều này giúp kiểm soát tài nguyên tính
toàn và bộ nhớ được sử dụng.
Bang 2-9: MobileNet Resolution Multiplier [32]
Width Multiplier | ImageNet Accuracy | Million Mult-Adds | Million Parameters 1.0 MobileNet-224 70.6% 569 4.2
1.0 MobileNet-192 69.1% 418 4.2
1.0 MobileNet-160 67.2% 290 4.2
24
Trang 35MobileNetV3 là phiên bản cải tiến của cùng kiến trúc MobileNet được giới
thiệu lần đầu vào năm 2019 [33] MobileNetV3 tiếp tục khai thác ý tưởng củaDepthwise Separable Convolution và tập trung vào việc cải thiện hiệu suất và
hiệu quả tính toán của mô hình.
Ngoài ra MobileNetV3 cũng áp dụng những giải pháp từ MobileNetV2 như
hàm linear bottleneck và inverted residual [34] khiến hiệu năng mô hình cảithiện, kết hợp giữa các lớp tích chập có kích thước 1x1 và 3x3 để giảm sốlượng trọng số và tăng khả năng học của mô hình
+
Hình 2.16: MobileNetV2 layer (Inverted Residual and Linear Bottleneck) [34]
Cơ chế Squeeze and Excitation (SE) [35] đã được áp dụng vào kiến trúcMobileNet từ phiên bản MobileNetV3 vào mô hình dé tăng cường khả nănghọc và hiệu suất mô hình Cụ thể, SE được áp dụng sau phép tích chapDepthwise convolution trong mỗi khối chuyền đổi của MobileNetV3 để tạo ra
một cân bằng giữa các kênh và tăng cường sự tương tác giữa các khối Việc
áp dụng SE giúp MobileNetV3 có khả năng học các đặc trưng quan trọng và
tạo ra các bộ lọc tối ưu cho từng kênh, từ đó cải thiện độ chính xác và khả năngtổng quát hóa của mô hình
25
Trang 36Hình 2.17: MobileNetV2 + Squeeze-and-Excite [34]
MobileNetV3 được giới thiệu với hai kiến trúc chính được dùng với mục dich
riêng biệt: MobileNetV3-large và MobileNetV3-small:
o MobileNetV3-large: có kích thước lớn hơn so với MobileNetV3-small,
có nhiều lớp hơn và số lượng tham số lớn hơn MobileNetV3-large sử
dụng các khối chuyên đổi bottleneck có kích thước lớn và sâu hơn với
nhiều lớp tích chập và kích thước đặc trưng tăng dần large được thiết kế dé có hiệu xuất tốt hơn trong việc phân loại và phát
MobileNetV3-hiện đôi tượng nhưng yêu câu nhiêu tài nguyên tính toán và bộ nhớ lớn hơn.
26
Trang 37o MobileNetV3-small: có kích thước nhỏ hơn so với MobileNetV3-large,
với ít lớp hơn và số lượng tham số cũng ít hơn đáng kể
MobileNetV3-small sử dung các khối chuyên đổi bottleneck nhỏ hon và it lớp tích
chập hơn, với kích thước đặc trưng giảm dần MobileNetV3-small cóđược thiết kế dé đạt hiệu suất vừa phải và đòi hỏi ít tài nguyên tính toán
và bộ nhớ hơn Đây là lựa chọn tốt khi cần một mô hình nhỏ gọn và cókhả năng triển khai trên các thiết bị có tài nguyên hạn chế
Bảng 2-11: Kiến trúc MobileNetV3-small [33]
Input Operator exp size | #out | SE | NL | s
2242 x 3 conv2d, 3x3 - 16 - | HS |2 112? x 16 bneck, 3x3 16 16 ⁄ | RE|2
7? x 96 conv2d, Ix] “ 576 | v | HS] 1
72 x 576 pool, 7x7 - : 2 + |]
1? x 576 | conv2d 1x1, NBN - 1280 | - | HS | 1
12 x 1280 | conv2d 1x1, NBN = k = =x | 4
- O Hình 2.18 thé hiện sự đánh đổi giữa Width Multiplier và Resolution
Multiplier Bước thực nghiệm này sử dung mô hình với Width Multiplier ở
0.35, 0.5, 0.75, 1.0 và 1.25 với độ phân giải cô định ở 224 Độ phân giải ở 96,
128, 160, 192, 224 và 256 với Width Multiplier cố định ở 1.0 Top-1 accuracyđược đo trên ImageNet và độ trễ do bằng ms Phần cứng được đo trên thiết bị
Google Pixel 1.
27
Trang 3880 Comparison for V3, large vs V3 small vs V2
ö e=e MobilenetV3 large/multiplier
c 6ol- _|®—=e MobilenetV3 small/multiplier ||
Đ *«s+ MobilenetV3 large/resolution
< 55L w= MobilenetV3 small/resolution ||
MobilenetV2/multiplier 50|- -| *=-« MobilenetV2/resolution
0 10 20 30 40 50 60 70 80 90 100
Latency, Pixel 1
Hình 2.18: Hiệu xuất của các phiên bản MobileNetV3 [34]
- Với kết quả ở Hình 2.18 đã thể hiện hiệu năng vượt trội khi so hiệu xuất với
độ chính xác, đồng thời việc thay đổi Resolution sẽ có sự đánh đổi hợp lý hơnvới độ chính xác van dam bảo và độ trễ được giảm thiểu Tuy nhiên việc quyếtđịnh độ phân giải sẽ quyết định vào mục tiêu của bài toán, với những bài toán
yêu cần phân loại và phát hiện vật thé nhỏ cần độ phân giải lớn hơn
2.1.3.4 Ưu và nhược điểm của MobileNetV3
- Ưu điểm của MobileNetV3:
o_ Hiệu xuất cao trong việc phân loại và phát hiện đối tượng trên các tác
vụ nhận diện hình ảnh.
o_ MobileNetV3 được thiết kế dé sử dụng ít tài nguyên tính toán hơn so
với các kiến trúc truyền thống
o_ Kiến trúc linh hoạt với nhiều phiên bản với các kích thước và độ phức
tạp khác nhau, bao gồm hai phiên bản được công bố chính thức là
MobileNetV3-large và MobileNetV3-small.
o MobileNetV3 sử dung các kỹ thuật tiên tiến như Depthwise Separable
Convolution và Squeeze-and-Excitation để tăng cười hiệu xuất và khả
năng học của mô hình.
- Nhược điểm của MobileNetV3:
28
Trang 39o Độ chính xác hạn chế: Mặc dù MobileNetV3 có hiệu suất tốt, nó có thé
không đạt được độ chính xác cao (Hình 2.18) như một số kiến trúc phức
tạp hơn Điều này có thể đặc biệt đáng chú ý trong các ứng dụng yêu
cầu độ chính xác cao
o_ Hạn chế đối với dữ liệu phức tạp: Do kích thước nhỏ hơn và ít tham số
hơn, MobileNetV3 có thê không đủ mạnh dé xử lý dữ liệu phức tạp và
có cấu trúc đặc biệt trong một số tác vụ yêu cầu khả năng học sâu mạnh
mé.
2.2 Lidar
2.2.1.1 Giới thiệu về Lidar
- Lidar (Light Detection and Ranging) là một công nghệ sử dung tia laser dé tạo
ra hình ảnh 3 chiều (3D) và đo khoảng cách đến các đối tượng trong môi trường
xung quanh.
- _ Công nghệ Lidar được phát triển từ những năm 1960 [36] Ban đầu Lidar được
sử dụng trong các ứng dụng quân sự và khoa học như đo đạc địa hình, nghiên
cứu khí quyên và tạo bản đồ quân sự Tuy nhiên những năm gần đây, với sựphát triển của công nghệ và giảm giá thành sản xuất, Lidar đã trở nên phố biếnhơn và được ứng dụng trong nhiều lĩnh vực, bao gồm xe tự hành, công nghiệpsản xuất và nghiên cứu hoa học và quản lý môi trường
- _ Trong lĩnh vực xe tự hành, việc sử dung Lidar đã trở nên quan trọng hơn trong
những năm gần đây, đặc biệt với sự phát triển của công nghệ lái tự động và xe
tự hành Lidar đã được sử dụng để tạo ra bản đồ 3D của môi trường xung
quanh và phát hiện các vật thể trong thời gian thực, giúp các hệ thống lái tựđộng và xe tự hành có thể nhận biết va phản ứng đúng cách với các tình huống
giao thông.
2.2.1.2 Cách thức hoạt động
- Lidar hoạt động dựa trên nguyên lý tán xạ ánh sáng và đo lường thời gian bay
của tia sáng laser được phản xạ từ các vật thé trong môi trường xung quanh
Sau đây là cách thức hoạt động của một hệ thống lidar cơ bản [37]:
29
Trang 40RX and (array)
circuitry
Hình 2.19: Kết cau của hệ thông Lidar cơ bản [37]
o Phát tia laser: Hệ thống Lidar sử dụng một bộ phát tia laser đơn sắc có
bước sóng cô định Dé điều chỉnh hướng laser, người ta cho tia sáng điqua một gương táng xạ có thể điều chỉnh góc linh hoạt
o Ghi nhận thời gian bay: Tia laser sau khi được phat di và chạm vào vật
thé trong môi trường sẽ bị phản xạ và quay trở lại hệ thống Lidar Một
bộ thu sóng hap thy tia laser phản xạ đó và ghi lại thời gian dé ánh sáng
đi từ hệ thống đến vật thể và trở lại cảm biến
o Do khoảng cách: Dựa vào thời gian bay của tia laser, hệ thống Lidar sẽ
tính toán được khoảng cách từ hệ thống đến vật thể Thông qua việc
biết vận tốc ánh sáng và thời gian bay, khoảng cách có thể được tínhtoán bằng cách áp dụng công thức:
R=" 1
2
Trong đó: R là khoảng cách từ hệ thống Lidar đến vật thé, c là van tốc
ánh sáng có giá tri có định (299.792.458 m/s), t là thời gian ghi nhận
từ lúc phát tính hiệu đến khi nhận được tính hiệu phản xạ
o Quét và tiếp tục thu thập dữ liệu: Hệ thống sẽ tiếp tục tiến hành quét và
tính toán khoảng cách trên toàn bộ không gian xung quanh hoặc vùng
quét có định dé có thé thu thập toàn bộ dữ liệu trong khu vực chó phép
o Xử lý dit liệu: Từ thông tin thu thập từ hệ thống Lidar, kết hợp với dữ
liệu góc và hướng quét, hệ thống sẽ có thé tao ra một dữ liệu môi trường
3D chỉ tiết về môi trường xung quanh Quá trình này cũng bao gồm lọc
30