Mục tiêu:e Nghiên cứu cách thức vận hành của các hệ thống thông tin liên lac sử dụng đèn LED để truyền đữ liệu và camera quang học ghi nhận thông tin cho các phương tiện tự hành e_ Nghiê
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG ĐẠI HỌC CÔNG NGHỆ THONG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
VÕ HOÀNG THÔNG NGUYÊN NGÂN LINH
KHÓA LUẬN TÓT NGHIỆP
NHẬN DIỆN BANG LED SU DUNG MÔ HÌNH HỌC SÂU
CHO HỆ THÓNG GIAO TIẾP PHƯƠNG TIỆN GIAO
THÔNG SỬ DỤNG CAMERA-LED
An LED Detection Method Based on Deep Learning in Vehicle
Optical Camera Communication
CỬ NHÂN KHOA HỌC NGÀNH KHOA HỌC DỮ LIỆU
TP HÒ CHÍ MINH, 2022
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG ĐẠI HỌC CÔNG NGHỆ THONG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
VÕ HOÀNG THÔNG - 18521462 NGUYÊN NGÂN LINH - 18520989
KHÓA LUẬN TÓT NGHIỆP
NHAN DIEN BANG LED SỬ DỤNG MÔ HÌNH HỌC SÂU
CHO HỆ THÓNG GIAO TIẾP PHƯƠNG TIỆN GIAO
THÔNG SỬ DỤNG CAMERA-LED
An LED Detection Method Based on Deep Learning in Vehicle
Optical Camera Communication
CỬ NHÂN KHOA HỌC NGÀNH KHOA HỌC DỮ LIỆU
GIẢNG VIÊN HƯỚNG DẪN
TS DO TRỌNG HỢP
TS NGUYEN THANH BÌNH
TP HÒ CHÍ MINH, 2022
Trang 3DANH SÁCH HOI DONG BẢO VỆ KHÓA LUẬN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
ngây của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
¬ cece ec eenee nents ee eeneenen eee — Chủ tịch.
II = ~ Thư ký.
Boece — eee eee e cess eee eeneeeneenes ~— Ủy viên.
— eeneneegs — Ủy viên.
Trang 4LOI CAM ON Nhóm ching em xin gửi lời cảm ơn chân thành tới TS Đỗ Trọng Hợp và TS Nguyễn Thanh Binh đã dong hành và theo sát nhóm chúng em dé hướng dẫn, quan tâm, lo lắng
và chỉnh sửa để có được khóa luận tốt nghiệp tốt nhất Hai Thay là hai người truyền
nguồn cảm hứng và kiến thức để nhóm có đủ nhiệt huyết để thực hiện khóa luận tới cuối
cùng.
Nhóm chúng em cũng gửi lời cảm ơn tới các anh, chị và các bạn trong nhóm nghiên cứu
Thay Phạm Minh Quân, Khoa Kỹ thuật Máy tinh đã hỗ trợ chia sẻ kinh nghiệm cùng các
góp ý quý giá cho nhóm để nhóm có kết quả chỉnh chu nhất.
Tiếp theo, chúng em muốn cảm ơn tới quý thay cô ở Đại học Công nghệ Thông tin
PHOG-HCM nói chung và các thay, cô trong Khoa Khoa học và Kỹ thuật Thông tin nói
riêng, đã truyền đạt các kiến thức quý báu từ khi bước chân vào nhà trường, kién thức
chúng em tích lũy được từ quý thây cô đã giúp ích cho chúng em thực hiện khóa luận tốt
nghiệp rất nhiều.
Cuối cùng, chúng em xin cảm ơn đến gia đình và bạn bè đã động viên, khuyến khích và
truyền năng lượng tích cực cho nhóm dé hoàn thành khóa luận.
Xin chân thành cảm ơn!
Nhóm tác giả
V6 Hoàng Thông
Nguyễn Ngân Linh
Trang 5ĐẠI HỌC QUOC GIA TP HO CHÍ MINH CONG HOA XÃ HOI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN
DE CƯƠNG CHI TIẾT
TEN DE TÀI: NHAN DIỆN BANG LED SỬ DỤNG MÔ HÌNH HỌC SÂU CHO HE
THONG GIAO TIẾP PHƯƠNG TIEN GIAO THONG SỬ DỤNG CAMERA-LED
TEN DE TAI (tiếng Anh): AN LED DETECTION METHOD BASED ON DEEP
LEARNING IN VEHICLE OPTICAL CAMERA COMMUNICATION
Cán bộ hướng dẫn:
TS Đỗ Trọng Hợp
TS Nguyễn Thanh Bình
Thời gian thực hiện: Từ ngày /2022 đến ngày /2022
Sinh viên thực hiện:
Võ Hoàng Thông — 18521462 Lớp: KHDL2018
Email: 18521462@gm.uit.edu.vn Số điện thoại: 0522004060
Nguyễn Ngân Linh — 18520989 Lớp: KHDL2018
Email: 18520989@gm.uit.edu.vn Số điện thoại: 0356316235
Nội dung đề tài:(Mô ta chỉ tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện,
kết quả mong đợi của đề tài)
Giới thiệu:
Theo ReportLinker [1], quy mô thị trường ô tô tự lái dự kiến sẽ tang từ 20,3 triệu chiếc
vào năm 2021 lên 62,4 triệu chiếc vào năm 2030, với tốc độ tăng trưởng hằng năm kép
(CAGR) là 13,3% Có thể thấy rằng một lượng lớn xe tự hành không có người lái lưu
thông trong mạng lưới giao thông cần nhu cầu liên lạc với nhau Ngoài ra, với tốc độ
Trang 6tăng trưởng hằng năm các phương tiện giao thông như hiện nay thì tình trạng kẹt xe sẽ
xảy ra thường xuyên hơn gây ảnh hưởng đến nền kinh tế đặc biệt là ngành logistic và
chuỗi cung ứng trong khu vực.
Các giải pháp truyền thông không dây hiện nay gặp một số hạn chế về mặt băng thông,
tương tác trong liên lạc gặp nhiễu và các vấn đề khác Hệ thống liên lạc sử dụng các đèn LED [2-3] dé truyền thông tin và các camera thu nhận thông tin là một giải pháp giải quyết các hạn chế của vấn đề trên và đáp ứng nhu cầu liên lạc giữa các phương tiện tự hành cũng như giải quyết tình trạng ùn tắc giao thông trong thành phố Mặc dù hệ thống
giao tiếp camera quang học cho phương tiện giao thông có nhiều ưu điểm nhưng vẫn có
một số thách thức cho sự phát triển của hệ thống giao tiếp quang học giữa các phương
tiện giao thông Thách thức thứ nhất là sự nhiễu nguồn sáng từ mặt trời, các nguồn sáng
trên đường, và một số nhiễu từ nền sáng của ảnh Ngoài ra hiện tượng mờ ảnh có thé làm
giảm sự chính xác của việc nhận diện độ chính xác của đèn LED Thách thức thứ hai là
tốc độ dữ liệu thấp do giới hạn băng thông của máy ảnh Thách thức thứ ba là độ trễ của các mô hình nhận diện vật thé đòi hỏi cau hình tính toán mạnh.
Một số thuật toán nhận diện vật thé hiện đại được công bé gan đây [4-9] đạt kết quả cao
trên bộ dữ liệu điểm chuẩn COCO [10] Mô hình không chi đạt độ chính xác cao trong
tác vụ nhận diện vật thê mà tốc độ suy luận và độ trễ cũng đạt hiệu suất đáng kinh ngạc.
Trong dé tài nay, chúng tôi nghiên cứu các thuật toán [4-9] hiện có và áp dung chúng
trong việc nhận diện các đèn LED được trang bị trên các phương tiện tự hành Cụ thể:
Input: Hình ảnh thực tế về đèn LED được gắn trên xe
Output: Hình ảnh đèn LED trong môi trường thực tế với đường viền bounding box như
mô tả minh họa
Trang 7Mục tiêu:
e Nghiên cứu cách thức vận hành của các hệ thống thông tin liên lac sử dụng đèn
LED để truyền đữ liệu và camera quang học ghi nhận thông tin cho các phương
tiện tự hành
e_ Nghiên cứu xây dựng bộ dit liệu cho hệ thống giao tiếp phương tiện giao thông sử
dụng giao tiếp Camera-LED e_ Nghiên cứu thuật toán nhận diện vật thé [4-9] hiện có và áp dụng trong việc nhận
diện bảng LED trong ảnh, xây dựng ứng dụng (prototype) minh họa.
Phạm vi:
e Hình ảnh bảng LED được gắn trên xe ô tô trong ngữ cảnh giao thông thực tế tại
Việt Nam
Đối tượng:
e Nghiên cứu các thuật toán YOLOv§ [4], PP-YOLO [5], PP-YOLOv2 [6],
PP-PicoDet [7], YOLOF [8], YOLOX [9] trên ảnh có độ phân giải cao có thé
điều chỉnh đầu vào.
e Tự xây dựng bộ dữ liệu mới cho hệ thống giao tiếp phương tiện giao thông sử
dụng giao tiếp Camera-LED để mô hình có thể học từ tập dữ liệu và nhận diện
các vật thể là bảng LED trong ngữ cảnh thực tế
e Nghiên cứu hệ thống giao thông phương tiện giao thông sử dụng giao tiếp
Camera-LED
Phương pháp:
Trang 8Tìm hiểu cấu trúc các mô hình nhận diện vật thể hiện đại YOLOv5 [4],
PP-YOLO [5], PP-YOLOv2 [6], PP-PicoDet [7], YOLOF [8] và YOLOX [9]
Nghiên cứu cách thức truyền thông tin của hệ thống liên lạc giữa các phương tiện
tự hành sử dụng LEDs để truyền tải dữ liệu và camera để thu nhận dữ liệu
Tìm hiểu cách thức xây dựng bộ dữ liệu dựa trên quy trình xây dựng và đánh giá
của các bộ dữ liệu điểm chuẩn COCO và PASCAL VOC [10-11] và các kỹ thuật
sinh anh image augmentation dé làm giàu về sự đa dạng và độ khó của dữ liệu Tìm hiểu cách đảm bảo chất lượng bộ dữ liệu bằng kiểm định chéo giữa những
người gán nhãn với nhau và đánh giá bộ dữ liệu dựa trên các tiêu chí về tính
chính xác, tính liên quan, tính hoàn chỉnh, tính kịp thời, tính nhất quán
Tìm hiểu cách đánh giá một mô hình nhận diện vật thể bằng độ đo mean Average
Precision (mAP) va Bit Error Rate (BER)
Huấn luyện các mô hình YOLOv5 [4], PP-YOLO [5], PP-YOLOv2 [6],
PP-PicoDet [7], YOLOF [8] và YOLOX [9] chạy trên bộ dữ liệu đã được thu
thập, so sánh và đánh giá kết quả dựa trên độ đo mAP và BER.
Xây dựng chương trình ứng dụng cho phép người dùng với đầu vào là hình ảnh
và đầu ra là hình ảnh nhận diện bảng LED với bounding box
Kết quả dự kiến:
e Báo cáo các phương pháp và kỹ thuật của các phương pháp nhận điện vật thé
được sử dụng trong bải toán nhận diện bảng LED cho hệ thống giao thông
phương tiện giao thông sử dụng giao tiếp Camera-LED Kết quả thực nghiệm, so
sánh và đánh giá của các phương pháp.
Bộ dữ liệu gồm hơn 2000 ảnh sử dụng cho bài toán với đa dạng ngữ nghĩa về
khoảng cách camera tới vật thể trong khoảng 10 - 30 m, độ sáng, độ chói và độ
Trang 9[1] The global self-driving cars market size is projected to grow from 20.3 million units
in 2021 to 62.4 million units by 2030, at a CAGR of 13.3%, Report Linker, link:
https://www.reportlinker.com/p04901893/Semi-Autonomous-and-Autonomous- Vehicles
-Market-by-Technology-Components-Powertrain-and-Region-Global-Forecast-to.html
2] Shaaban, Khaled, Md Hosne Mobarok Shamim, and Khadija Abdur-Rouf "Visible
ight communication for intelligent transportation systems: A review of the latest
technologies." Journal of traffic and transportation engineering (English edition) 8.4
(2021): 483-492.
3] Sun, Xu, et al "An LED Detection and Recognition Method Based on Deep
Learning in Vehicle Optical Camera Communication." JEEE Access (2021).
4] G Jocher, K Nishimura, T Mineeva, R Vilarifio - Code repository
https://github.com/ultralytics/yolovS, 2020
5] Long, Xiang, et al "PP-YOLO: An effective and efficient implementation of object
detector." arXiv preprint arXiv:2007.12099 (2020).
6] Huang, Xin, et al "PP-YOLOv2: A Practical Object Detector." arXiv preprint
arXiv:2104.10419 (2021).
7] Yu, Guanghua, et al "PP-PicoDet: A Better Real-Time Object Detector on Mobile
Devices." arXiv preprint arXiv:2111.00902 (2021).
8] Chen, Qiang, et al "You only look one-level feature." Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition 2021.
9] Ge, Zheng, et al "Yolox: Exceeding yolo series in 2021." arXiv preprint
arXiv:2107.08430 (2021).
10] Lin, Tsung-Yi, et al "Microsoft coco: Common objects in context." European
conference on computer vision Springer, Cham, 2014.
11] Everingham, Mark, et al "The pascal visual object classes (voc) challenge."
International journal of computer vision 88.2 (2010): 303-338.
Trang 10Kế hoạch thực hiện:(Mô ta kế hoạch làm việc và phân công công việc cho từng sinh
viên tham gia)
+ Tuần 1 - 6: Tìm hiểu hệ thống giao tiếp phương tiện giao thông sử dụng giao tiếp
Camera-LED, các thuật toán nhận diện vật thể phù hợp và xây dựng bộ dữ liệu.
Kết quả dự kiến:
e Tài liệu chi tiết về cách thức vận hành và hoạt động của hệ thống giao
phương tiện giao thông sử dụng giao tiếp Camera-LED.
e Tài liệu chỉ tiết cấu trúc các mô hình YOLOv5 [4], PP-YOLO [5],
PP-YOLOv2 [6], PP-PicoDet [7], YOLOF [8] và YOLOX [9].
e Tài liệu độ đo mAP và BER.
e Tập dữ liệu cho bài toán.
+ Tuần 3 - 12: Huấn luyện các thuật toán nhận diện vật thể, ghi chép lại kết quả kèm
đánh giá và so sánh.
Kết quả dự kiến:
e Bảng kết quả đánh giá và theo dõi thực nghiệm của các thuật toán nhận
diện vật thể dựa trên bộ dữ liệu đã xây dựng.
+ Tuần 10 - 16: Xây dựng chương trình demo tương tự như
https://traffic-flow-counter.herokuapp.com/
Két qua dy kién:
e Chương trình minh họa + Phân công công việc: cả nhóm cùng nhau làm và thảo luận.
Xác nhận của CBHD TP HCM, ngày tháng năm 2022
(Ký tên và ghi rõ họ tên) Sinh viên
Trang 11TS Đỗ Trọng Hợp
TS Nguyễn Thanh Bình
(Ký tên và ghi rõ họ tên)
Trang 12MỤC LỤC
TOM TAT KHÓA LUẬN - <5 <5 533 231% essersee 1
Chương 1 MO DAU
.1 Phát biểu bài toán - + «+23 tre, 5
2 Đối tượng và phạm vi nghién cứu «+ «se 8
3 Ý nghĩa của nghiên cứu ccssseceessscceessecceesseceessseeceseeeeesseeeeenee 10
.4 Động lực nghiên cứu . -«« cc HH nh nh han 11
5 Đóng góp của luận VAN . - -« «n9 n1 như II
6 Phương pháp luận . -«« c= «s3 111111 1£ 2s‡x 11
7 Cầu trúc của TUAN VAN 1 ằee 12
Chương 2 CO SỞ LÝ THUYET VA CAC CONG TRÌNH NGHIÊN CỨU
LIÊN QUAN
2.1 Các bộ dữ liệu liên quan .- - - «<< s33 3 31 13111 1511 se 13
2.1.1 Công trình trên thế giới: c«- +< + ke 13
2.1.2 Công trình trong NUGC: - «- -«- «« «s1 91 115512 15
2.2 Phát hiện đối tượng - ‹ + 11v ng ng ng 15
2.3 Transfer Ï€arning «-«- «c0 Hi ng thờ 18
2.4 Các mô hình Deep Learning áp dụng cho bài toán nhận diện bảng LED 20
2.5 Cơ sở của hệ thống giao tiếp thông tin liên lạc giữa các phương tiện
(VOCC) ĂcQQ ni 20
Chương 3 TONG QUAN NGHIÊN CỨU CUA KHÓA LUẬN 23
3.1 Phương pháp đề xuất
3.2 Quy trình thực nghiệm . - «« c«{c «211 115 1 815 3 25
3.3 Mô tả bộ dữ liệu . - « «Ăn me 26
3.3.1 Phần cứng của cả hai 2 loại bảng LED 8x8 và 4x4: - 26
3.3.2 Dữ liệu video 8Xổ: co như 27
3.3.3 Dữ liệu video 4X4: c9 SH SH Ki th 29
Trang 133.4 Quy trình xây dựng bộ dữ liệu . . - «<< S 1< 30
3.4.1 Công cụ gắn nhãn: «- «<2 13v Y1 v1 snes 30
3.4.2 Bộ dữ liệu LED panel của cả 8x8 và 4x4: «.«-scsceeeeesesesesree 31
3.4.3 Bộ dữ liệu thông tin bit của 4x4 và 8xổ: - << << 32
3.4.4 Bộ dữ liệu classification của 4X4: «s2 22555 33
3.5 Phân tích nhận xét tổng quan bộ dữ liệu „+ 35 Chương 4 CÀI ĐẶT, THU NGHIỆM VÀ ĐÁNH GIÁ - «+ 37
4.1 Cài đặt thử nghiệm «5c nh nh re 37
4.1.1 Mô hình nhận diện bảng LED 8x8 và 4x4: -«-<-ses<c«s 37
4.1.2 Mô hình classification cho 4X4: - -<- «<< «<< s3 <s <3 s2 39
4.1.3 Thử nghiệm phân loại chuỗi bit của dit liệu 4x4:
4.1.3.1 Phương pháp classification kết hợp prediction smoothing: 41
4.1.3.2 Phương pháp clustering: -. -. - «-< «<< << <<<*<s*<+ 42
4.2 Phương pháp đánh giá .ccceeeccseeeceseeeeeeceeeeeceeneceeeeeceeeeseeeeees 44
4.2.1 Hiệu suất về đánh giá nhận diện bảng LED: «- «« 44
4.2.2 Hiệu suất về đánh giá phân loại chuỗi bit: -s««<- 45
4.3 Kết quả thực nghiệm . (c5 33222131 51s 45
4.3.1 Nhận diện bang LED trên dữ liệu 8x8: - «<< =-«<= 45
4.3.2 Nhận diện bang LED trên dữ liệu 4x4: - - -« «« «<< 48
4.3.3 Phân loại chuỗi bit trên dữ liệu 8X8: « .««+<-«<<<<+e 49
4.3.4 Phân loại chuỗi bit trên dữ liệu 4x4 bằng 2 phương pháp:
4.3.4.1 Phương pháp classification kết hợp prediction smoothing: 53
4.3.4.2 Phương pháp clustering: -. -<««s «<< se 54
4.4 Phân tích kết quả . << +3 1332213 2 EEEEESEEEeeeeeeeerrexe 54
4.4.1 Nhận diện bang LED 8X8: -. c5 c2 54
4.4.2 Nhận diện bang LED 4x4: c1 S111 55
4.4.3 Phân loại chuỗi bit trên dữ liệu 8x8: « «<< «<< <e+ 55 4.4.4 Phân loại chuỗi bit trên dit liệu 4x4: << «<< << << << << << <<<e 55
Trang 144.5 can 56
4.6 Hướng phat triỂn - cc c1 391 199 111119 1 1g re, 57
Trang 15Hình 1.1.c: Minh họa nhận diện bit LED từ hình anh bảng LED được phát hiện
thông qua mô hình nhận điện vật thể
Hình 2.1.1.a: Minh họa bộ dữ liệu của tập huấn luyện [20].
Hình 2.1.1.b: Mô tả bộ dữ liệu trong tập kiểm thử ở các điều kiện chiếu sáng vào
ban ngày và ban đêm [22]
Hình 2.2: Phát hiện các đối tượng xe ô tô và phân lớp các xe ô tô có trong ảnh
Hình 2.3 : Ví dụ về các đặc trưng đã học trên các lớp khác nhau của CNN
Hình 2.5: Kiến trúc hệ thong VOCC [20]
Hình 3.1.a: Quy trình thực nghiệm xây dựng bộ dữ liệu và các phương pháp đề xuất
cho hệ thống VOCC end-to-end tổng quát cho hai tác vụ phát hiện bảng LED và
phân loại bit LED
Hình 3.1.b: Kiến trúc hệ thong VOCC chúng tôi đề xuất xử lý cho hai tác vụ phát
hiện bang LED và phát hiện bit LED
Hình 3.1: Quy trình tổng quan xây dựng và phân tích bộ dữ liệu
Hình 3.2.2.a: Vi dụ về một anh trong tập training của bộ dữ liệu 8x8 (ban ngày)
Hình 3.2.2.b: Ví dụ về một anh trong tập training của bộ dit liệu 8x8 (ban đêm)
Hình 3.3.3.a: Ví dụ về một ảnh trong tập training của bộ dữ liệu 4x4 (khoảng cách
Trang 16Hình 3.4.1.b: Ví dụ về kiểm tra tên file, ảnh cắt còn viên, ảnh cắt không viên, shape của ảnh, ma trận đã cho sẵn (do đây là giai đoạn sau khi nhận điện bảng LED và trước khi phân loại chuỗi bit cho nên ảnh cắt còn viễn được sinh từ bước nhận diện
bảng LED)
Hình 3.4.3: Các tín hiệu bit tạo sẵn và LED gắn trên xe sẽ phát theo những tín hiệu
này Đâu file này ghi 100 nghĩa là có sẵn 100 tin hiệu khác nhau, khi phát hết sẽ
quay lại từ đầu và phát tiếp tín hiệu.
Hình 3.4.4.a: Quy trình tạo ra bộ dit liệu dành riêng cho phương pháp classification của thực nghiệm 4x4.
Hình 3.4.4.b: 10 hình đại điện mỗi lớp trong 16 lớp phân loại chuỗi bit được sinh
ra.
Hình 3.4.4.c: Thống kê số ảnh 2x2 mỗi lớp (dòng trên là tên lớp, dòng dưới là số
lượng ảnh)
Hình 4.1.1: Mô tả quy trình nhận điện bảng LED.
Hình 4.1.2.a: Mô tả sơ bộ mô hình phân loại chuỗi bit 2x2 bằng CNN
Hình 4.1.2.b: Kiến trúc mô hình CNN classification dành cho phương pháp
“classification” của phân loại chuỗi bit dữ liệu 4x4.
Hình 4.1.3.1.a: Mô tả quy trình thực thi của phương pháp nhận diện chuỗi bit bằng
Hình 4.1.3.2.b: Minh hoa việc cắt vùng nhỏ tại tâm mỗi bit để xác định màu trung
bình và đưa vào clustering (bên trái là bit off, bên phải là bit on).
Hình 4.3.3.a: Phân loại chuỗi bit 8x8 phương pháp clustering trên video ban ngày Hình 4.3.3.b: Phân loại chuỗi bit 8x8 phương pháp clustering trên video ban đêm
Hình 4.3.3.c: Việc camera đặt nghiêng so với mặt phẳng ảnh hưởng độ lỗi trên
bảng LED.
Trang 17Hình 4.3.4: Các lỗi xảy ra trong quá trình phân loại chudi bit 4x4
Hình 4.3.4.1: Ảnh cắt từ video demo của phương pháp classification kết hợp
prediction smoothing
Hình 4.3.4.2: Anh cắt từ video demo của phương pháp classification kết hợp
prediction smoothing
Trang 18DANH MỤC BANG
Bảng 3.4.2: Thống kê số lượng dữ liệu và các thuộc tính cho các tập training,
validation, test cho hai bộ dit liệu 4x4 và 8x8 cho tác vụ phát hiện bảng LED
Bảng 4.3.1.a: Bảng đánh giá hiệu suất bằng FPS giữa 5 mô hình sau khi chạy
Bảng 4.3.1.b: Bảng kết quả đánh giá mAP(IOU=0.50:0.95) trên tập test với 10
trường hợp và 5 mô hình nhận diện bảng LED
Bảng 4.3.2: Kết quả đánh giá hiệu suất FPS và độ đo mAP(IOU=0.50:0.95) các mô
hình phát hiện bảng LED trên bộ dữ liệu test của bảng LED 4x4
Bảng 4.43: So sánh kết quả BER và FPS của phương pháp clustering trong phânloại chuỗi bit video ban ngày và đêm
Bảng 4.4.4: So sánh kết quả BER và FPS của 2 phương pháp chính trong phân loạichuỗi bit
Trang 19DANH MỤC TỪ VIET TAT
FPN Feature Pyramid Network
:
-aaa PaddlePaddle
VOCC Vehicular optical camera communication
SVM Support vector machines
Trang 20Regional Proposal Network
Region-based Fully Convolutional Networks
Single shot detector
Exponential moving average
Intersection over Union
Constraint satisfaction problems
Path Integral Based Convolution for Deep Graph Neural Networks
Vertical federated learning
Generalized Intersection over Union
Efficient Symmetric Network
Neural architecture search
Optical camera communication
Intelligent Transportation System
Compound annual growth rate
Trang 21United State Dollar
Common Objects in Context
Vehicle-to-everything
Trang 22TOM TAT KHÓA LUẬN
Nhận thấy nguồn dé liệu đồi dao từ Internet về các hình ảnh nói chung và các hìnhảnh về lĩnh vực giao thông nói riêng, trong khi đó lại có sự thiếu hụt và không cónhiều da dạng về các tập dữ liệu cho nghiên cứu các hệ thống giao tiếp thông tinliên lạc cho các phương tiện tự hành Trong khóa luận tốt nghiệp này, chúng tôi đãxây dựng hai bộ dữ liệu điểm chuẩn được xây dựng, thu thập, tạo lập và thí nghiệmtrong ngữ cảnh thực tế với các thuộc tính đa dạng và phức tạp về ngữ nghĩa cho các
tác vụ phát hiện bang LED và phân lớp bit LED phục vụ cho các xe tự hành giao
tiếp trong mạng lưới giao thông với nhau Bộ dữ liệu của chúng tôi được tạo rathông qua quy trình nghiêm ngặt dé đảm bảo chất lượng của bộ dit liệu
Bên cạnh đó, chúng tôi tiễn hành đánh giá bộ dữ liệu thông qua các mô hình hiện
đại nhất như mô hình PP-PicoDet, PP-YOLO, YOLOF, YOLOX, YOLOv5,
YOLOv7 Các đánh giá và các phân tích này như bước đầu dé kiểm chứng, và xemxét có đủ chất lượng đề đáp ứng các nghiên cứu sau này Kết quả đánh giá của các
mô hình được chúng tôi so sánh để chọn ra kết quả tốt nhất Sau một loạt các thửnghiệm của chúng tôi, chúng tôi thấy được mô hình YOLOv5 và mô hìnhPP-PicoDet cho kết quả của mAP lớn nhất trên tập kiểm tra (test set) của hai bộ diliệu lần lượt với 90.5% và 81.83% với tốc độ FPS lần lượt là 76 và 33.7 Ngoài ra,đánh giá trên tác vụ phân lớp bit, trong hai phương pháp đề xuất, phương phápclustering nồi trội về cả độ chính xác và hiệu suất với BER là 0.027 và FPS là 34.2
Dé hiểu rõ hơn các mô hình, chúng tôi đã phân tích kết quả của các mô hình theo
các khía cạnh khác nhau của bộ đữ liệu Từ các mô hình đã thực nghiệm cho hai tác
vụ phát hiện bảng LED và phát hiện bit LED được nói phía trên, chúng tôi đề xuấtmột hệ thống end-to-end VOCC kết hợp từ hai mô hình cho hai tác vụ có thé đượctích hợp và triển khai trong thực tế với tốc độ suy luận trong thời gian thực với hiệusuất cao Cuối cùng, chúng tôi cũng đã xây dựng một demo dé có cái nhìn trực quancho vấn đề chúng tôi thực hiện
Trang 24Chương 1 MỞ ĐẦU
Trong những năm gần đây, hệ thống giao thông thông minh (ITS) đóng vai trò cực
kỳ quan trọng không chỉ trên thế giới mà còn ở tại các khu vực đang có tốc độ pháttriển nhanh như Đông Nam Á nói chung và Việt Nam nói riêng Trong bối cảnh dân
số đang gia tăng nhanh chóng và các vấn đề cấp bách cần được giải quyết như nhu
cầu nhà ở, hạ tầng giao thông, kẹt xe, 6 nhiém méi truong, an ninh thanh phó, chất
lượng cuộc sống và các vẫn đề liên quan khác Đề giải quyết các vấn đề trên, khái
niệm thành phố thông minh (Smart City) được ra đời [1, 2] và là một trong những
giải pháp hiện có Theo tác giả Ayca Kirimtat [1], khái niệm thành phố thông minh
là thành phố quản lý sự phát triển bằng cách xây dựng và phát huy các lĩnh vực nhưkinh tế, giao thông, môi trường, con người, cuộc sông và chính phủ một cách vượttrội, nói cách khác; thành phố thông minh là tập hợp của các thành phần cụ thể là
“con người thông minh”, “kinh tế thông minh”, “chính phủ thông minh", “hệ thốnggiao thông thông minh", “môi trường thông minh", và “cuộc sống thông minh" Làmột trụ cột quan trọng trong thành phố thông minh, ITS [4] giúp hỗ trợ và giảiquyết đáng ké các van đề thách thức xảy ra trong các đô thị tập trung mật độ dân sốlớn trong bối cảnh cách mạng công nghiệp lần thứ 4 và tình hình phát triển chungcủa các nước trên thế giới
Các vấn đề tắc nghẽn, tai nạn và ô nhiễm do giao thông ngày càng trở nên nghiêmtrọng do sự gia tăng mạnh mẽ của các nhu cầu đi lại khác nhau, bao gồm cả giaothông xe cộ, giao thông công cộng, vận chuyền hàng hóa và thậm chí cả giao thôngcho người đi bộ Nhăm giải quyết các thách thức đó, ITS đã được phát triển với khảnăng tích hợp nhiều hệ thống, bao gồm cảm biến, liên lạc, phổ biến thông tin vàkiểm soát giao thông Các công nghệ mới nổi những năm trở lại đây như giao tiếp
thông tin cho các phương tiện giao thông (V2V) [5-7] đã giúp cho việc thu thập, lưu
trữ, phân tích, sử dụng và chia sẻ dir liệu đa nguôn trở nên dễ dang và rẻ hon.
Trang 25Không những vậy, công nghệ giao tiếp V2V còn là đặc trưng đặc biệt dé kích hoạttrong việc hỗ trợ và phát triển ITS đối với các vấn đề thách thức nêu trên Bằng việckết nối dựa trên sự kết hợp giữa hệ thống định vị GPS và hệ giao tiếp không dâygiữa các phương tiện giao thông, các tín hiệu được chia sẻ đến tất cả phương tiệnlưu thông trên đường như vi tri, tốc độ, các tín hiệu chuyên làn, mật độ và tình hìnhgiao thông hiện tại Từ đó các xe trong mạng lưới nhờ vào việc trao đôi thông tinqua lại mà di chuyền linh hoạt và an toàn, tiết kiệm thời gian, và tránh các tai nạn.Ngoài ra, ITS tận dụng lợi thế của công nghệ giao tiếp V2V phục vụ cho việc phân
tích dự báo tình trạng kẹt xe, định tuyến các nút giao thông, và mức độ ô nhiễm môi
trường.
Theo ReportLinker [3], quy mô thị trường ô tô tự lái dự kiến sẽ tăng từ 20,3 triệuchiếc vào năm 2021 lên 62,4 triệu chiếc vào năm 2030, với tốc độ tăng trưởng képhang năm (CAGR) là 13,3% Có thé thay rang một lượng lớn xe tự hành không cóngười lái lưu thông trong mạng lưới giao thông cần nhu cầu liên lạc với nhau Ngoài
ra, với tốc độ tăng trưởng hăng năm các phương tiện giao thông như hiện nay thìtình trạng kẹt xe sẽ xảy ra thường xuyên hơn gây ảnh hưởng đến nền kinh tế đặc
biệt là ngành logistic và chuỗi cung ứng trong khu vực.
Các giải pháp truyền thông không dây hiện nay gặp một số hạn chế về mặt băngthông, tương tác trong liên lạc gặp nhiễu và các van đề khác Hệ thống giao tiếp(V2V) sử dụng các đèn LED [53-54] để truyền thông tin và các camera thu nhậnthông tin là một giải pháp giải quyết các hạn chế của vấn đề trên và đáp ứng nhucầu liên lạc giữa các phương tiện tự hành cũng như giải quyết tình trạng ùn tắc giaothông trong thành phố Mặc dù hệ thống giao tiếp camera quang học cho phươngtiện giao thông có nhiều ưu điểm nhưng vẫn có một số thách thức cho sự phát triểncủa hệ thống giao tiếp quang học giữa các phương tiện giao thông Thách thức thứnhất là sự nhiễu nguồn sáng từ mặt trời, các nguồn sáng trên đường, và một số
nhiêu từ nên sáng của ảnh Ngoài ra hiện tượng mờ ảnh có thê làm giảm sự chính
Trang 26xác của việc nhận diện độ chính xác của đèn LED Thách thức thứ hai là tốc độ dữliệu thấp do giới hạn băng thông của máy ảnh Thách thức thứ ba là độ trễ của các
mô hình nhận diện vật thé đòi hỏi cấu hình tính toán mạnh
Trong nghiên cứu này, chúng tôi nghiên cứu xây dựng hai bộ dữ liệu điểm chuẩntrong thế giới thực cho hệ thống giao tiếp camera quang học cho mạng lưới xe tự
hành Ngoài ra, chúng tôi nghiên cứu các thuật toán nhận diện bảng LED hiện đại
và áp dụng chúng trong việc nhận diện các đèn LED được trang bị trên các phương
tiện tự hành Bên cạnh đó, chúng tôi đề xuất mô hình phân lớp bit LED với tốc độsuy luận nhanh và độ chính xác cao Từ đó, chúng tôi dé xuất hệ thống end-to-endbao gồm phát hiện bảng LED và nhận diện bit LED cho các hệ thống VOCC
1.1 Phát biểu bài toán
Liên lạc thông tin trên phương tiện giao thông (V2V) là một loại hệ thốngthông tin liên lạc tam ngắn đến trung bình dé trao đổi các thông tin về giao thông vacảnh báo an toàn giữa các phương tiện [53, 54] Giao tiếp các phương tiện giao
thông có rất nhiều ứng dụng hữu ích Ví dụ, một chiếc xe có thể truyền tín hiệu xin
phép chuyền làn và chờ xác nhận từ các phương tiện khác Khi cần phanh khan cấp,tăng hoặc giảm tốc độ, các tín hiệu cảnh báo có thể được truyền cho các phương
tiện khác thông qua liên lạc của các phương tiện Khi được sử dụng với tính năng
theo dõi phương tiện, ID của phương tiện có thể được gửi cho các phương tiện khác
dé xây dựng bản đồ giao thông trên đường phô Kết nối giao tiếp giữa các phươngtiện với theo đõi phương tiện và các công nghệ cảm biến khác như theo déi phươngtiện, phát hiện làn đường, phát hiện người di bộ, v.v., sẽ tao điều kiện cho các mạnglưới giao thông phối hợp an toàn hơn, và cuối cùng sẽ thúc đây mạng lưới phươngtiện tự hành và hệ thống giao thông thông minh (ITS) Trong vài năm gần đây, một
công nghệ mới nổi được gọi là giao tiếp camera quang học (OCC) đã được coi là
một ứng cử viên tiêm năng cho giao tiêp xe cd nhờ nhiêu ưu diém [55 - 57].
Trang 27Trong giao tiếp camera quang học dành cho các phương tiện giao thông (VOCC),tín hiệu ánh sáng nhìn thấy được truyền bằng bảng LED và được nhận bằng cameratrên bảng điều khiển, cả hai đều được trang bị sẵn trên xe Sự sẵn có của bảng LEDtruyền thông tin và máy thu hình tao ra lợi thé lớn về chi phi cho VOCC Tuy nhiên,
ưu điểm quan trọng nhất giúp phân biệt VOCC với các công nghệ liên lạc trênphương tiện khác là khả năng tương thích hoàn hảo với các công nghệ thiết yếukhác cho các hệ thống giao thông thông minh và mạng lưới phương tiện tự hành.Trong tương lai gần, nhiều khả năng các công nghệ dựa trên tầm nhìn như phát hiệnbiển báo giao thông, phát hiện làn đường, phát hiện người đi bộ và theo dõi phươngtiện, có thể được triển khai trên mọi phương tiện Những công nghệ này sử dụngcùng một máy ảnh và bộ xử lý hình ảnh cần thiết cho VOCC [58, 59] Đặc biệt,VOCC có thé được tích hop và hoạt động “trơn tru" với tính năng theo dõi xe, mộttrong những thành phần quan trọng nhất trong mạng lưới xe tự lái Điều này là docác quy trình quan trọng trong theo dõi phương tiện, cụ thé là phát hiện tọa độ hình
ảnh phương tiện va nhận dạng phương tiện, đã đạt được hiệu suất tốt thông qua
VOCC [60] Do đó, cả chi phí triển khai phan cứng và phần mềm cho hệ thống theodõi và liên lạc trên toàn xe có thé được giảm đáng kể bang cách sử dụng VOCC dé
liên lạc trên xe so với các công nghệ khác.
Transmitted data Received data
LED panel detection
LED pane Camera Captured images Image processing
Hình 1.1a: Kiến trúc hệ thong giao tiếp phương tiện giao thông sử dung Camera
-LED [21]
Kiến trúc hệ thống VOCC được mô ta ở Hình 1.1a Bang LED va camera ghi nhận
thông tin hình ảnh được trang bị trên các phương tiện giao thông Các phương tiện
Trang 28sẽ truyền tín hiệu bang bảng LED đồng thời sẽ thu nhận tín hiệu bang camera bằng
các kỹ thuật xử lý ảnh.
Trong luận văn này, chúng tôi nghiên cứu xây dựng bộ dữ liệu cho hai tác vụ phát
hiện bảng LED và nhận dạng bit LED cho hệ thống VOCC Đồng thời, luận văn
nghiên cứu các mô hình hoc sâu nhận diện bảng LED và bit LED hiện đại và thực
nghiệm các mô hình trên để nhận diện các bang LED và bit LED trang bị trên các
phương tiện tự hành Cuối cùng, luận văn nghiên cứu tích hợp hai thuật toán phát
hiện bảng LED và nhận diện bit LED để xây dựng hệ thống VOCC end-to-end cho
xe tự hành.
Vấn đề đầu tiên: Phát hiện bảng LED trang bị trên xe tự hành
Input: Hình ảnh thực tế về đèn LED được gan trên xe
Output: Hình ảnh đèn LED trong môi trường thực tế với đường viền bounding box
như mô tả minh họa
Hình 1 _1.b: Minh họa mô hình phát hiện bang LED trên anh và vẽ bounding box
màu vàng xung quanh bảng LED
Vấn đề thứ hai: Phát hiện bit LED từ bảng LED thu được thông qua thị giác máy
tính
Input: Hình ảnh thực tế về bảng LED được gắn trên xe đã thông qua xử lý thuật
toán phát hiện bảng LED
Output: Doan mã 0 và 1 được mã hóa và hiển thị trên bảng LED
Trang 29Hình 1.1.c: Minh họa nhận diện bit LED từ hình anh bang LED được phat hiện
thông qua mô hình nhận điện vật thể
1.2 Đối tượng và phạm vi nghiên cứu
e Đối tượng nghiên cứu:
o Nghiên cứu các thuật toán các thuật toán PP-YOLO [13], PP-PicoDet
[15], YOLOF [16], YOLOX [17], YOLOv5 [12], YOLOv7 [14] trên
ảnh có độ phân giải cao có thé điều chỉnh đầu vao
o Nghiên cứu xây dựng bộ dữ liệu mới cho hệ thống giao tiếp phương
tiện giao thông sử dụng giao tiếp Camera-LED để mô hình có thé học
từ tập dữ liệu và nhận diện các vật thể là bảng LED và bit LED trongngữ cảnh thực tế
o Nghiên cứu hệ thống giao thông phương tiện giao thông sử dung giao
tiếp Camera-LED
o Nghiên cứu xây dựng hệ thống tích hợp thuật toán phát hiện bang
LED và bit LED end-to-end cho giao tiếp các phương tiện giao thông
cho xe tự hành
e Nội dung nghiên cứu:
Trang 30o Tìm hiểu cấu trúc các mô hình nhận diện vật thé hiện đại các thuật
toán PP-YOLO [13], PP-PicoDet [15], YOLOF [16], YOLOX [17], YOLOvS [12], YOLOv7 [14]
o Nghiên cứu cách thức truyền thông tin của hệ thống liên lạc giữa các
phương tiện tự hành sử dung LEDs dé truyền tai dit liệu và camera dé
thu nhận dữ liệu
o Tìm hiểu cách thức xây dựng bộ dữ liệu dựa trên quy trình xây dựng
và đánh giá của các bộ dữ liệu điểm chuẩn COCO và PASCAL VOC[26, 52] và các kỹ thuật sinh ảnh image augmentation dé làm giàu về
sự đa dạng và độ khó của đữ liệu
© Tìm hiểu cách đảm bảo chất lượng bộ dữ liệu băng kiểm định chéo
giữa những người gan nhãn với nhau và đánh gia bộ dữ liệu dựa trên
các tiêu chí về tính chính xác, tính liên quan, tính hoàn chỉnh, tinh kipthời, tính nhất quán
© Tìm hiểu cách đánh giá một mô hình nhận diện vật thé bằng độ đo
mean Average Precision (mAP) và Bit Error Rate (BER)
o Huấn luyện các mô hình YOLOvS [4], PP-YOLO [5], PP-YOLOv2
[6], PP-PicoDet [7], YOLOF [8] va YOLOX [9] chạy trên bộ dữ liệu
đã được thu thập, so sánh và đánh giá kết qua dựa trên độ do mAP và
BER
o Xây dựng chương trình ứng dung cho phép người dùng với đầu vào là
hình ảnh và đầu ra là hình ảnh nhận diện bảng LED với bounding box
e Phạm vi về thời gian nghiên cứu: Nghiên cứu tập trung vào các khoảng thời
gian và cường độ ánh sáng đa dạng trong ngày cụ thé là sáng và tối, với bồi
cảnh trong và ngoài trời.
e Phạm vi về không gian nghiên cứu: Bối cảnh nghiên cứu là các phương tiện
giao thông có 4 bánh và chủ yếu là xe ô tô
Trang 311.3 Ý nghĩa của nghiên cứu.
Lĩnh vực nghiên cứu V2V và hệ thống VOCC có tính ứng dụng rất lớn tronglĩnh vực giao thông thông minh và nhiều lĩnh vực liên ngành khác Nghiên cứu
đóng góp những nội dung sau cho các lĩnh vực liên ngành:
e Theo ReportLinker [1], quy mô thị trường ô tô tự lái dự kiến sẽ tăng từ 20,3
triệu chiếc vào năm 2021 lên 62,4 triệu chiếc vào năm 2030, với tốc độ tăngtrưởng kép hằng năm (CAGR) là 13,3% Có thê thấy rằng một lượng lớn xe
tự hành không có người lái lưu thông trong mạng lưới giao thông cần nhucầu liên lạc với nhau Ngoài ra, với tốc độ tăng trưởng hằng năm các phương
tiện giao thông như hiện nay thì tinh trạng ket xe sẽ xảy ra thường xuyên hơn
gây ảnh hưởng đến nền kinh tế đặc biệt là ngành logistic và chuỗi cung ứngtrong khu vực V2V và cụ thê là hệ thống VOCC đóng góp một giải pháp
quan trọng nhăm giải quyét nhu câu liên lac của các xe tự hành.
e Theo dự báo cua Grand View Research & Fortune Business Insights, quy mô
thị trường hệ thống giao thông thông minh (ITS) toàn cầu được định giá là25,378.2 triệu USD vào năm 2020 và dự kiến sẽ mở rộng với tốc độ tăngtrưởng kép hàng năm (CAGR) là 7,0% từ năm 2021 đến năm 2028 với vốnhóa là 42,936.1 triệu USD Sự phát triển nhanh chóng của ITS và sự quantâm của các chính phủ trên khắp thế giới sẽ giúp công nghệ V2V mang lại lợinhuận kinh tế trong tương lai của ngành và đóng góp một phần vào sự pháttriển chung của ITS
e Vấn nạn ket xe là một van đề nhức nhối không chỉ ở Việt Nam mà còn trên
toàn thế giới Với sự trợ giúp của công nghệ V2V và hệ thống VOCC, sựchia sẻ thông tin giữa mạng lưới các xe trong khu vực và dữ liệu chia sẻ đếnITS là một trong những cách thức giải quyết và làm giảm tỷ lệ kẹt xe ở cácthành phố lớn
10
Trang 321.4 Động lực nghiên cứu.
Với mong muốn đóng góp một phần sức lực vào công cuộc phát triển và xâydựng ITS, bồi đắp và mở rộng tri thức nhân loại cho ngành liên lạc phương tiện giaothông (V2X), giải quyết các van nạn kẹt xe, giảm thiểu và đóng góp kinh tế vào lĩnhvực giao thông vận tải Từ những lý do trên đã tiếp sức cho chúng tôi rất nhiều vàoquá trình hình thành động lực và bước những đi bước đi đầu tiên trong việc nghiên
cứu và hình thành dé tai của luận văn.
1.5 Đóng góp của luận văn.
Trong nghiên cứu này, luận văn đóng góp những điểm chính sau đây:
e Hai bộ dữ liệu điểm chuẩn cho bài toán phát hiện bảng LED và phân lớp bit
LED cho hệ thống thông tin liên lạc giữa các phương tiện giao thông
e Dé xuất hệ thong end-to-end phát hiện bảng LED và phân loại bit LED cho
hệ thống VOCC
e Thực nghiệm các mô hình state-of-the-art phát hiện bảng LED trên bộ dữ
liệu xây dựng.
e Đề xuất thuật toán phân loại bit LED đạt độ chính xác cao và tốc độ suy luận
nhanh trên bộ dữ liệu.
1.6 Phương pháp luận.
Ban đầu chúng tôi nghiên cứu các công trình để khởi tạo bộ đữ liệu cho bàitoán V2V sử dụng các phương pháp học sâu phát hiện đối tượng
Luận văn thực hiện theo phương pháp nghiên cứu ứng dụng Phương pháp
nghiên cứu ứng dụng liên quan đến việc giải quyết các vấn đề thực tế băng cáchtham khảo các nghiên cứu đi trước và dữ liệu trong thế giới thực [11] Trong côngtrình này, chúng tôi dựa trên các nghiên cứu trước đó dé xây dựng bộ dit liệu V2V
từ thế giới thực và nghiên cứu các phương pháp phát hiện đối tượng cụ thể là nhận
diện các đèn LED được trang bị trên các phương tiện giao thông sao cho vẫn đảm
bảo tốc độ suy luận theo thời gian thực và độ chính xác chấp nhận được
11
Trang 33Đối với luận văn, phương pháp nghiên cứu thực nghiệm cũng được sử dụng.Chúng tôi cố găng thiết lập các mối quan hệ và quan hệ nhân quả giữa các biếnkhác nhau thông qua thực nghiệm [11] Các phương pháp phát hiện phát hiện đối
tượng khác nhau được thực hiện trong luận văn được so sánh và tác động của các
thông số khác nhau đối với các phương pháp được so sánh định lượng
1.7 Cau trúc của luận văn
Cấu trúc của luận văn gồm 5 chương Chương 1 mở đầu giới thiệu tong quan baitoán, động lực nghiên cứu, đóng góp của luận văn, phương pháp luận và cấu trúccủa luận văn Chương 2 cơ sở lý thuyết bao gồm nghiên cứu các công trình về các
bộ dữ liệu trong nước và quốc tế, các thuật toán phát hiện đối tượng, kỹ thuậttransfer learning, và cơ sở của hệ thống giao tiếp thông tin liên lạc giữa các phươngtiện giao thông Chương 3 trình bay mô hình, phương pháp và hệ thống đề xuất,
việc xây dung và phân tích bộ dữ liệu Chương 4 cài đặt, thử nghiệm và đánh gia kêt quả của các bộ dữ liệu và mô hình.
12
Trang 34Chương 2 CƠ SỞ LÝ THUYET VÀ CÁC CÔNG TRÌNH NGHIÊN
CỨU LIÊN QUAN
2.1 Các bộ dữ liệu liên quan.
Trong lĩnh vực thị giác máy tính, các bộ dữ liệu cho các tác vụ phát hiện đối tượng
và phân loại hình ảnh đã được xây dựng rất nhiều và được ứng dụng trong đa dạngcác lĩnh vực Trong chương này, chúng tôi sẽ trình bày các công trình nghiên cứu về
bộ dữ liệu được sử dụng cho lĩnh vực giao thông thông minh mà cụ thé là giao tiếpthông tin liên lạc giữa các phương tiện giao thông Chúng tôi tiến hành khảo sát cáccông trình công bố dữ liệu trên thé giới cũng như trong nước để có cái nhìn tổngquát về các bộ đữ liệu hiện nay
2.1.1 Công trình trên thé giới:
Các bộ đữ liệu phục vụ cho các nghiên cứu VOCC trên thế giới hiện nay có sự đadạng về loại cũng như về kích thước của bộ đữ liệu Nhóm tác giả Tung Lam Pham
và các cộng sự [20] trong nghiên cứu của mình đã đề xuất một hệ thống nhằm pháthiện và truy vết đèn LED sau các xe ô tô, bài báo có đề cập đến việc sử dụng dữ liệuđược lấy từ các frame trong video trên các đường cao tốc, tuy nhiên dữ liệu khôngnói chỉ tiết về số lượng và phân tích các thuộc tính đặc điểm cu thé của bộ dit liệu.Hình 2.1.1.a, mô tả tập huấn luyện của bộ dữ liệu đèn LED sau xe ô tô được gán
nhãn trên công cụ chú thích đữ liệu Tác giả Trong-Hop Do và cộng sự trong công
trình [21] đã đề xuất một bộ đữ liệu mô phỏng thực nghiệm dựa trên các cấu trúcphục vụ cho tác vụ phát hiện các Bit LED và bảng LED Bộ dữ liệu cho tập huấnluyện bao gồm 1000 ảnh, mỗi bảng LED trong ảnh có kích thước 8x8 LEDs con và
có hai trạng thái là 0 hoặc 1 Công trình của nhóm tác gia [21] đề cập rất chi tiết vềcác yếu tô vật lý tác động ảnh hưởng đến bộ dữ liệu, cũng như cách thức xây dựng
bộ đữ liệu mô phỏng Tuy nhiên công trình có điểm hạn chế là bộ dữ liệu được mô
13
Trang 35phỏng theo các yếu tố cảm biến và cau tạo vật lý trong phòng thí nghiệm vi vậychưa thé áp dụng và triển khai trong thực tiễn Trong công trình [22], bộ dữ liệu baogồm 30000 hình ảnh, được thiết lập và mô tả chỉ tiết các thuộc tính Tuy vậy, bộ ditliệu mô tả ở Hình 2.1.1.b, được xây dựng với khoảng cách từ camera đến bảng LEDvới khoảng cách tối đa là 8m Trong thực tế, khoảng cách giữa các xe có thé xa hơnnhư vậy Với khoảng cách tối đa là 8m là một hạn chế của bộ dữ liệu [22] khi màviệc giao tiếp giữa các phương tiện giao thông trong thực tiễn có khi rất xa thậm chí
vài chục mét.
14
Trang 36Hình 2.1.1.b: Mô tả bộ dit liệu trong tập kiểm thử ở các điều kiện chiếu sảng vào
ban ngày và ban đêm [22]
2.1.2 Công trình trong nước:
Ngành giao tiếp phương tiện giao thông cho xe tự hành trong nước hiện nay còn rất
hạn chế vì nhiều lý do Các công nghệ chưa đáp ứng kịp, hạn chế về cơ sở vật chất
và thiết bị nghiên cứu, kinh phí cho các đề tài nghiên cứu thiếu hụt dẫn đến nguồnnhân lực làm nghiên cứu đều được dao tạo ở nước ngoài Vì thế, các nghiên cứu và
công trình từ chuyên ngành này đa sô đêu đên từ các cơ sở nghiên cứu ngoải nước.
2.2 Phát hiện đối tượng
Bài toán phát hiện đối tượng được xây dựng dựa trên hai bai toán nhỏ hơn là xácđịnh vị trí của vật thé va phân lớp vật thể thuộc đối tượng nào Gia sử chúng ta cómột số lớp đối tượng quan tâm và một hình anh dé phân tích, mục tiêu của chúng ta
là phát triển một hệ thống có thể phát hiện các trường hợp của lớp đối tượng này
trong hình ảnh và trả về vị trí của chúng Bộ phát hiện đối tượng thường trả về một
danh sách các điểm vị trí và số phân lớp tương ứng Ví dụ, khi đối tượng mục tiêucủa chúng ta là một chiếc ô tô, đầu ra của mô hình có thể trông giống như hình ảnhchú thích được hiển thị trong Hình 2.2
15
Trang 37Hình 2.2: Phát hiện các đối tượng xe ô tô và phân lớp các xe ô tô có trong ảnh
Khó khăn quan trọng nhất trong việc xây dựng một mô hình phát hiện vật thé có độ
chính xác cao phụ thuộc rất lớn vào số lượng vật thể trong hình ảnh và video Cácyếu tố quan trọng góp phần vào sự biến đồi (độ khó) của bài toán phát hiện vật thénày bao gồm vị trí, khoảng cách hoặc hướng di chuyên của đối tượng so với máyảnh, phương sai lớn trong lớp của các lớp đối tượng, sự phức tạp của nên, sự khácbiệt về màu sắc, thay đổi về độ chiếu sáng Mục tiêu của các thuật toán phát hiện
đối tượng là phát hiện các đối tượng trong mọi điều kiện bat ké với các yếu tố đặc
điểm của vật thé trong ảnh Phép đo chất lượng của thuật toán phát hiện đối tượngđược đưa ra dựa trên độ chính xác phát hiện và tốc độ phát hiện: mục tiêu của cácnhà nghiên cứu là muốn phát hiện đối tượng mục tiêu trong mọi trường hợp càngnhanh càng tốt Chúng ta có thể coi bộ phát hiện đối tượng là sự kết hợp của haithành phan chính: thuật toán trích xuất đối tượng mã hóa các vùng ảnh và phân loạiquyết định nhãn lớp của các vùng con trong ảnh dựa trên biểu diễn đối tượng [10]
Nói cách khác, nhiệm vụ đâu tiên là chuân bị một biêu diễn thông tin đê mô tả các
16
Trang 38vùng hình ảnh, tức là các vectơ đặc trưng hoặc bộ mô tả Sau khi trích xuất các đặctrưng, chúng tôi áp dụng một thuật toán học máy dé phân loại các vùng hình ảnh
nhăm xác định sự hiện diện của các đôi tượng nhat định.
Có hai phương pháp chính đối với bài toán phát hiện đối tượng là single-stage vàtwo-stage Đối với phương pháp two-stage, các mô hình tiêu biểu như là [31, 32,
33, 34, 35, 40] cùng với các nghiên cứu về các lớp trích xuất đặc trưng và phân lớp
hình ảnh [36, 41, 44] thường dựa trên các anchor box nhằm tạo ra các đề xuất khu
vực hình ảnh chưa đối tượng và sinh ra các bounding box từ các vùng đề xuất này.Phương pháp two-stage đạt được hiệu suất cao trong việc định vị đối tượng trongảnh, tuy nhiên hạn chế lớn của phương pháp này là khó đạt tốc độ thời gian thựctrên các thiết bị CPU và ARM (điện thoại thông minh, máy tính bảng, đồng hồthông minh và các thiết bị nhúng) Đối với phương pháp single-stage, các mô hìnhtiêu biểu như là [19, 37, 38, 39, 49] cũng dựa trên anchor box, tuy nhiên điểm mạnhcủa phương pháp này là đạt được sự cân bằng hiệu suất về độ chính xác và tốc độthực thi của mô hình, vì thế các mô hình được sử dụng rộng rãi trong thế giới thực
và các ngành công nghiệp vì hiệu suât suy luận nhanh và độ chính xác ôn định.
Trong nghiên cứu này, chúng tôi tiếp cận vấn đề phát hiện đối tượng bằng phươngpháp single-stage bởi vì sự cân bằng giữa hiệu suất phát hiện đối tượng và tốc độsuy luận của mô hình Dựa trên tiền đề của các mô hình single-stage tiền nhiệm [ 19,
37, 38, 39], các mô hình PP-YOLO [13], PP-PicoDet [15], YOLOF [16], YOLOX [17], YOLOvS5 [12], YOLOv7 [14] được chúng tôi lựa chọn vì đây là những mô
hình state-of-the-art, kế thừa từ các mô hình single-stage trước đó, và là những mô
hình có những cải tiên vượt bậc so với các nghiên cứu trước.
Trong luận văn này, chúng tôi tập trung thực hiện xây dựng và huấn luyện các môhình học sâu Cụ thé là các thuật toán PP-YOLO [13], PP-PicoDet [15], YOLOF
[16], YOLOX [17], YOLOv5 [12], YOLOv7 [14] cho bài toán phát hiện bảng LED.
17
Trang 39Các mô hình được lựa chọn bởi vì đây là các mô hình single-stage, hiệu suat của các
mô hình này 6n định về độ chính xác và tốc độ suy luận trong thời gian thực
2.3 Transfer learning.
Một vấn đề với mạng nơ-ron học sâu là lượng dữ liệu cần thiết dé đào tạo một môhình Đối với học sâu có giám sát, như phân loại hình ảnh, người ta ước tính răngtập huấn luyện yêu cầu khoảng 5.000 mẫu được gắn nhãn cho mỗi danh mục dé đạtđược mức độ tổng quát hóa mô hình có thể chấp nhận được [45, p.20] Việc thu thập
một tập dữ liệu chất lượng như vậy cho một tác vụ cụ thé có thé khó khăn Kỹ thuật
transfer learning có thé được sử dung dé giảm lượng dit liệu cần thiết cho việc đàotạo nhằm đạt được kết quả tốt hơn Transfer learning là một hình thức đào tạo trước
có giám sát Trong transfer learning, kiến thức về mô hình cơ sở được sử dung décải thiện hiệu suất của mô hình mới với điều kiện là mô hình cơ sở đã được đảo tạo
cho một nhiệm vụ tương tự [46-48] Transfer learning đặc biệt hữu ích cho các
nhiệm vụ nhận dạng đối tượng với các mô hình CNN [47-48] Tiếp theo, chúng tôitập trung vào việc triển khai transfer learning với các mô hình học sâu CNN Khi
một mô hình CNN với nhiều lớp được đào tao dé phân loại hình ảnh, các lớp của nó
sẽ học đặc điểm thứ bậc của các hình ảnh [45, p.6] Các lớp đầu tiên của mạng học
các đặc trưng chung hơn như các cạnh và các hình dạng trừu tượng khác Các lớp
cuối cùng của mạng tìm hiểu thêm các đặc trưng cụ thể của tác vụ Để minh họa,
một CNN đơn giản được sử dụng để phân loại hình ảnh thành ba loại được thé hiệntrong Hình 2.3 Lớp an đầu tiên phát hiện các cạnh trừu tượng trong khi lớp ân cuối
cùng phát hiện các đặc điêm dé nhận biệt hơn của các đôi tượng.
18
Trang 40Output (object identity)
Hình 2.3 : Vi dụ về các đặc trưng đã học trên các lớp khác nhau cua CNN [45,
dạng hình ảnh, các mô hình CNN sâu đã được dao tao với dữ liệu ImageNet là lựa
chọn tốt làm mô hình cơ sở Mặc dù các bộ đữ liệu sẽ rất khác nhau, kỹ thuậttransfer learning đã được quan sát dé cải thiện tính tổng quát hóa [48]
Có hai chiến lược dé triển khai kỹ thuật transfer learning, đó là trích xuất đặc trưng
và tinh chỉnh siêu tham số Trong trích xuất đặc trưng, các lớp của mô hình cơ sởđược giữ nguyên Các lớp có định được sử dụng dé trích xuất các đặc trưng chung
dựa trên các đặc trưng đã được học trong nhiệm vụ trước Trong quá trình
backpropagation, các tham số của mô hình được đóng băng và không được cậpnhật Khi tinh chỉnh siêu tham số, các lớp của mô hình cơ sở không bị đóng băng và
19