1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận diện bảng led sử dụng mô hình học sâu cho hệ thống giao tiếp phương tiện giao thông sử dụng camera-led

88 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 88
Dung lượng 55,32 MB

Nội dung

Mục tiêu:e Nghiên cứu cách thức vận hành của các hệ thống thông tin liên lac sử dụng đèn LED để truyền đữ liệu và camera quang học ghi nhận thông tin cho các phương tiện tự hành e_ Nghiê

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG ĐẠI HỌC CÔNG NGHỆ THONG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

VÕ HOÀNG THÔNG NGUYÊN NGÂN LINH

KHÓA LUẬN TÓT NGHIỆP

NHẬN DIỆN BANG LED SU DUNG MÔ HÌNH HỌC SÂU

CHO HỆ THÓNG GIAO TIẾP PHƯƠNG TIỆN GIAO

THÔNG SỬ DỤNG CAMERA-LED

An LED Detection Method Based on Deep Learning in Vehicle

Optical Camera Communication

CỬ NHÂN KHOA HỌC NGÀNH KHOA HỌC DỮ LIỆU

TP HÒ CHÍ MINH, 2022

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG ĐẠI HỌC CÔNG NGHỆ THONG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

VÕ HOÀNG THÔNG - 18521462 NGUYÊN NGÂN LINH - 18520989

KHÓA LUẬN TÓT NGHIỆP

NHAN DIEN BANG LED SỬ DỤNG MÔ HÌNH HỌC SÂU

CHO HỆ THÓNG GIAO TIẾP PHƯƠNG TIỆN GIAO

THÔNG SỬ DỤNG CAMERA-LED

An LED Detection Method Based on Deep Learning in Vehicle

Optical Camera Communication

CỬ NHÂN KHOA HỌC NGÀNH KHOA HỌC DỮ LIỆU

GIẢNG VIÊN HƯỚNG DẪN

TS DO TRỌNG HỢP

TS NGUYEN THANH BÌNH

TP HÒ CHÍ MINH, 2022

Trang 3

DANH SÁCH HOI DONG BẢO VỆ KHÓA LUẬN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

ngây của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

¬ cece ec eenee nents ee eeneenen eee — Chủ tịch.

II = ~ Thư ký.

Boece — eee eee e cess eee eeneeeneenes ~— Ủy viên.

— eeneneegs — Ủy viên.

Trang 4

LOI CAM ON Nhóm ching em xin gửi lời cảm ơn chân thành tới TS Đỗ Trọng Hợp và TS Nguyễn Thanh Binh đã dong hành và theo sát nhóm chúng em dé hướng dẫn, quan tâm, lo lắng

và chỉnh sửa để có được khóa luận tốt nghiệp tốt nhất Hai Thay là hai người truyền

nguồn cảm hứng và kiến thức để nhóm có đủ nhiệt huyết để thực hiện khóa luận tới cuối

cùng.

Nhóm chúng em cũng gửi lời cảm ơn tới các anh, chị và các bạn trong nhóm nghiên cứu

Thay Phạm Minh Quân, Khoa Kỹ thuật Máy tinh đã hỗ trợ chia sẻ kinh nghiệm cùng các

góp ý quý giá cho nhóm để nhóm có kết quả chỉnh chu nhất.

Tiếp theo, chúng em muốn cảm ơn tới quý thay cô ở Đại học Công nghệ Thông tin

PHOG-HCM nói chung và các thay, cô trong Khoa Khoa học và Kỹ thuật Thông tin nói

riêng, đã truyền đạt các kiến thức quý báu từ khi bước chân vào nhà trường, kién thức

chúng em tích lũy được từ quý thây cô đã giúp ích cho chúng em thực hiện khóa luận tốt

nghiệp rất nhiều.

Cuối cùng, chúng em xin cảm ơn đến gia đình và bạn bè đã động viên, khuyến khích và

truyền năng lượng tích cực cho nhóm dé hoàn thành khóa luận.

Xin chân thành cảm ơn!

Nhóm tác giả

V6 Hoàng Thông

Nguyễn Ngân Linh

Trang 5

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH CONG HOA XÃ HOI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN

DE CƯƠNG CHI TIẾT

TEN DE TÀI: NHAN DIỆN BANG LED SỬ DỤNG MÔ HÌNH HỌC SÂU CHO HE

THONG GIAO TIẾP PHƯƠNG TIEN GIAO THONG SỬ DỤNG CAMERA-LED

TEN DE TAI (tiếng Anh): AN LED DETECTION METHOD BASED ON DEEP

LEARNING IN VEHICLE OPTICAL CAMERA COMMUNICATION

Cán bộ hướng dẫn:

TS Đỗ Trọng Hợp

TS Nguyễn Thanh Bình

Thời gian thực hiện: Từ ngày /2022 đến ngày /2022

Sinh viên thực hiện:

Võ Hoàng Thông — 18521462 Lớp: KHDL2018

Email: 18521462@gm.uit.edu.vn Số điện thoại: 0522004060

Nguyễn Ngân Linh — 18520989 Lớp: KHDL2018

Email: 18520989@gm.uit.edu.vn Số điện thoại: 0356316235

Nội dung đề tài:(Mô ta chỉ tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện,

kết quả mong đợi của đề tài)

Giới thiệu:

Theo ReportLinker [1], quy mô thị trường ô tô tự lái dự kiến sẽ tang từ 20,3 triệu chiếc

vào năm 2021 lên 62,4 triệu chiếc vào năm 2030, với tốc độ tăng trưởng hằng năm kép

(CAGR) là 13,3% Có thể thấy rằng một lượng lớn xe tự hành không có người lái lưu

thông trong mạng lưới giao thông cần nhu cầu liên lạc với nhau Ngoài ra, với tốc độ

Trang 6

tăng trưởng hằng năm các phương tiện giao thông như hiện nay thì tình trạng kẹt xe sẽ

xảy ra thường xuyên hơn gây ảnh hưởng đến nền kinh tế đặc biệt là ngành logistic và

chuỗi cung ứng trong khu vực.

Các giải pháp truyền thông không dây hiện nay gặp một số hạn chế về mặt băng thông,

tương tác trong liên lạc gặp nhiễu và các vấn đề khác Hệ thống liên lạc sử dụng các đèn LED [2-3] dé truyền thông tin và các camera thu nhận thông tin là một giải pháp giải quyết các hạn chế của vấn đề trên và đáp ứng nhu cầu liên lạc giữa các phương tiện tự hành cũng như giải quyết tình trạng ùn tắc giao thông trong thành phố Mặc dù hệ thống

giao tiếp camera quang học cho phương tiện giao thông có nhiều ưu điểm nhưng vẫn có

một số thách thức cho sự phát triển của hệ thống giao tiếp quang học giữa các phương

tiện giao thông Thách thức thứ nhất là sự nhiễu nguồn sáng từ mặt trời, các nguồn sáng

trên đường, và một số nhiễu từ nền sáng của ảnh Ngoài ra hiện tượng mờ ảnh có thé làm

giảm sự chính xác của việc nhận diện độ chính xác của đèn LED Thách thức thứ hai là

tốc độ dữ liệu thấp do giới hạn băng thông của máy ảnh Thách thức thứ ba là độ trễ của các mô hình nhận diện vật thé đòi hỏi cau hình tính toán mạnh.

Một số thuật toán nhận diện vật thé hiện đại được công bé gan đây [4-9] đạt kết quả cao

trên bộ dữ liệu điểm chuẩn COCO [10] Mô hình không chi đạt độ chính xác cao trong

tác vụ nhận diện vật thê mà tốc độ suy luận và độ trễ cũng đạt hiệu suất đáng kinh ngạc.

Trong dé tài nay, chúng tôi nghiên cứu các thuật toán [4-9] hiện có và áp dung chúng

trong việc nhận diện các đèn LED được trang bị trên các phương tiện tự hành Cụ thể:

Input: Hình ảnh thực tế về đèn LED được gắn trên xe

Output: Hình ảnh đèn LED trong môi trường thực tế với đường viền bounding box như

mô tả minh họa

Trang 7

Mục tiêu:

e Nghiên cứu cách thức vận hành của các hệ thống thông tin liên lac sử dụng đèn

LED để truyền đữ liệu và camera quang học ghi nhận thông tin cho các phương

tiện tự hành

e_ Nghiên cứu xây dựng bộ dit liệu cho hệ thống giao tiếp phương tiện giao thông sử

dụng giao tiếp Camera-LED e_ Nghiên cứu thuật toán nhận diện vật thé [4-9] hiện có và áp dụng trong việc nhận

diện bảng LED trong ảnh, xây dựng ứng dụng (prototype) minh họa.

Phạm vi:

e Hình ảnh bảng LED được gắn trên xe ô tô trong ngữ cảnh giao thông thực tế tại

Việt Nam

Đối tượng:

e Nghiên cứu các thuật toán YOLOv§ [4], PP-YOLO [5], PP-YOLOv2 [6],

PP-PicoDet [7], YOLOF [8], YOLOX [9] trên ảnh có độ phân giải cao có thé

điều chỉnh đầu vào.

e Tự xây dựng bộ dữ liệu mới cho hệ thống giao tiếp phương tiện giao thông sử

dụng giao tiếp Camera-LED để mô hình có thể học từ tập dữ liệu và nhận diện

các vật thể là bảng LED trong ngữ cảnh thực tế

e Nghiên cứu hệ thống giao thông phương tiện giao thông sử dụng giao tiếp

Camera-LED

Phương pháp:

Trang 8

Tìm hiểu cấu trúc các mô hình nhận diện vật thể hiện đại YOLOv5 [4],

PP-YOLO [5], PP-YOLOv2 [6], PP-PicoDet [7], YOLOF [8] và YOLOX [9]

Nghiên cứu cách thức truyền thông tin của hệ thống liên lạc giữa các phương tiện

tự hành sử dụng LEDs để truyền tải dữ liệu và camera để thu nhận dữ liệu

Tìm hiểu cách thức xây dựng bộ dữ liệu dựa trên quy trình xây dựng và đánh giá

của các bộ dữ liệu điểm chuẩn COCO và PASCAL VOC [10-11] và các kỹ thuật

sinh anh image augmentation dé làm giàu về sự đa dạng và độ khó của dữ liệu Tìm hiểu cách đảm bảo chất lượng bộ dữ liệu bằng kiểm định chéo giữa những

người gán nhãn với nhau và đánh giá bộ dữ liệu dựa trên các tiêu chí về tính

chính xác, tính liên quan, tính hoàn chỉnh, tính kịp thời, tính nhất quán

Tìm hiểu cách đánh giá một mô hình nhận diện vật thể bằng độ đo mean Average

Precision (mAP) va Bit Error Rate (BER)

Huấn luyện các mô hình YOLOv5 [4], PP-YOLO [5], PP-YOLOv2 [6],

PP-PicoDet [7], YOLOF [8] và YOLOX [9] chạy trên bộ dữ liệu đã được thu

thập, so sánh và đánh giá kết quả dựa trên độ đo mAP và BER.

Xây dựng chương trình ứng dụng cho phép người dùng với đầu vào là hình ảnh

và đầu ra là hình ảnh nhận diện bảng LED với bounding box

Kết quả dự kiến:

e Báo cáo các phương pháp và kỹ thuật của các phương pháp nhận điện vật thé

được sử dụng trong bải toán nhận diện bảng LED cho hệ thống giao thông

phương tiện giao thông sử dụng giao tiếp Camera-LED Kết quả thực nghiệm, so

sánh và đánh giá của các phương pháp.

Bộ dữ liệu gồm hơn 2000 ảnh sử dụng cho bài toán với đa dạng ngữ nghĩa về

khoảng cách camera tới vật thể trong khoảng 10 - 30 m, độ sáng, độ chói và độ

Trang 9

[1] The global self-driving cars market size is projected to grow from 20.3 million units

in 2021 to 62.4 million units by 2030, at a CAGR of 13.3%, Report Linker, link:

https://www.reportlinker.com/p04901893/Semi-Autonomous-and-Autonomous- Vehicles

-Market-by-Technology-Components-Powertrain-and-Region-Global-Forecast-to.html

2] Shaaban, Khaled, Md Hosne Mobarok Shamim, and Khadija Abdur-Rouf "Visible

ight communication for intelligent transportation systems: A review of the latest

technologies." Journal of traffic and transportation engineering (English edition) 8.4

(2021): 483-492.

3] Sun, Xu, et al "An LED Detection and Recognition Method Based on Deep

Learning in Vehicle Optical Camera Communication." JEEE Access (2021).

4] G Jocher, K Nishimura, T Mineeva, R Vilarifio - Code repository

https://github.com/ultralytics/yolovS, 2020

5] Long, Xiang, et al "PP-YOLO: An effective and efficient implementation of object

detector." arXiv preprint arXiv:2007.12099 (2020).

6] Huang, Xin, et al "PP-YOLOv2: A Practical Object Detector." arXiv preprint

arXiv:2104.10419 (2021).

7] Yu, Guanghua, et al "PP-PicoDet: A Better Real-Time Object Detector on Mobile

Devices." arXiv preprint arXiv:2111.00902 (2021).

8] Chen, Qiang, et al "You only look one-level feature." Proceedings of the IEEE/CVF

Conference on Computer Vision and Pattern Recognition 2021.

9] Ge, Zheng, et al "Yolox: Exceeding yolo series in 2021." arXiv preprint

arXiv:2107.08430 (2021).

10] Lin, Tsung-Yi, et al "Microsoft coco: Common objects in context." European

conference on computer vision Springer, Cham, 2014.

11] Everingham, Mark, et al "The pascal visual object classes (voc) challenge."

International journal of computer vision 88.2 (2010): 303-338.

Trang 10

Kế hoạch thực hiện:(Mô ta kế hoạch làm việc và phân công công việc cho từng sinh

viên tham gia)

+ Tuần 1 - 6: Tìm hiểu hệ thống giao tiếp phương tiện giao thông sử dụng giao tiếp

Camera-LED, các thuật toán nhận diện vật thể phù hợp và xây dựng bộ dữ liệu.

Kết quả dự kiến:

e Tài liệu chi tiết về cách thức vận hành và hoạt động của hệ thống giao

phương tiện giao thông sử dụng giao tiếp Camera-LED.

e Tài liệu chỉ tiết cấu trúc các mô hình YOLOv5 [4], PP-YOLO [5],

PP-YOLOv2 [6], PP-PicoDet [7], YOLOF [8] và YOLOX [9].

e Tài liệu độ đo mAP và BER.

e Tập dữ liệu cho bài toán.

+ Tuần 3 - 12: Huấn luyện các thuật toán nhận diện vật thể, ghi chép lại kết quả kèm

đánh giá và so sánh.

Kết quả dự kiến:

e Bảng kết quả đánh giá và theo dõi thực nghiệm của các thuật toán nhận

diện vật thể dựa trên bộ dữ liệu đã xây dựng.

+ Tuần 10 - 16: Xây dựng chương trình demo tương tự như

https://traffic-flow-counter.herokuapp.com/

Két qua dy kién:

e Chương trình minh họa + Phân công công việc: cả nhóm cùng nhau làm và thảo luận.

Xác nhận của CBHD TP HCM, ngày tháng năm 2022

(Ký tên và ghi rõ họ tên) Sinh viên

Trang 11

TS Đỗ Trọng Hợp

TS Nguyễn Thanh Bình

(Ký tên và ghi rõ họ tên)

Trang 12

MỤC LỤC

TOM TAT KHÓA LUẬN - <5 <5 533 231% essersee 1

Chương 1 MO DAU

.1 Phát biểu bài toán - + «+23 tre, 5

2 Đối tượng và phạm vi nghién cứu «+ «se 8

3 Ý nghĩa của nghiên cứu ccssseceessscceessecceesseceessseeceseeeeesseeeeenee 10

.4 Động lực nghiên cứu . -«« cc HH nh nh han 11

5 Đóng góp của luận VAN . - -« «n9 n1 như II

6 Phương pháp luận . -«« c= «s3 111111 1£ 2s‡x 11

7 Cầu trúc của TUAN VAN 1 ằee 12

Chương 2 CO SỞ LÝ THUYET VA CAC CONG TRÌNH NGHIÊN CỨU

LIÊN QUAN

2.1 Các bộ dữ liệu liên quan .- - - «<< s33 3 31 13111 1511 se 13

2.1.1 Công trình trên thế giới: c«- +< + ke 13

2.1.2 Công trình trong NUGC: - «- -«- «« «s1 91 115512 15

2.2 Phát hiện đối tượng - ‹ + 11v ng ng ng 15

2.3 Transfer Ï€arning «-«- «c0 Hi ng thờ 18

2.4 Các mô hình Deep Learning áp dụng cho bài toán nhận diện bảng LED 20

2.5 Cơ sở của hệ thống giao tiếp thông tin liên lạc giữa các phương tiện

(VOCC) ĂcQQ ni 20

Chương 3 TONG QUAN NGHIÊN CỨU CUA KHÓA LUẬN 23

3.1 Phương pháp đề xuất

3.2 Quy trình thực nghiệm . - «« c«{c «211 115 1 815 3 25

3.3 Mô tả bộ dữ liệu . - « «Ăn me 26

3.3.1 Phần cứng của cả hai 2 loại bảng LED 8x8 và 4x4: - 26

3.3.2 Dữ liệu video 8Xổ: co như 27

3.3.3 Dữ liệu video 4X4: c9 SH SH Ki th 29

Trang 13

3.4 Quy trình xây dựng bộ dữ liệu . . - «<< S 1< 30

3.4.1 Công cụ gắn nhãn: «- «<2 13v Y1 v1 snes 30

3.4.2 Bộ dữ liệu LED panel của cả 8x8 và 4x4: «.«-scsceeeeesesesesree 31

3.4.3 Bộ dữ liệu thông tin bit của 4x4 và 8xổ: - << << 32

3.4.4 Bộ dữ liệu classification của 4X4: «s2 22555 33

3.5 Phân tích nhận xét tổng quan bộ dữ liệu „+ 35 Chương 4 CÀI ĐẶT, THU NGHIỆM VÀ ĐÁNH GIÁ - «+ 37

4.1 Cài đặt thử nghiệm «5c nh nh re 37

4.1.1 Mô hình nhận diện bảng LED 8x8 và 4x4: -«-<-ses<c«s 37

4.1.2 Mô hình classification cho 4X4: - -<- «<< «<< s3 <s <3 s2 39

4.1.3 Thử nghiệm phân loại chuỗi bit của dit liệu 4x4:

4.1.3.1 Phương pháp classification kết hợp prediction smoothing: 41

4.1.3.2 Phương pháp clustering: -. -. - «-< «<< << <<<*<s*<+ 42

4.2 Phương pháp đánh giá .ccceeeccseeeceseeeeeeceeeeeceeneceeeeeceeeeseeeeees 44

4.2.1 Hiệu suất về đánh giá nhận diện bảng LED: «- «« 44

4.2.2 Hiệu suất về đánh giá phân loại chuỗi bit: -s««<- 45

4.3 Kết quả thực nghiệm . (c5 33222131 51s 45

4.3.1 Nhận diện bang LED trên dữ liệu 8x8: - «<< =-«<= 45

4.3.2 Nhận diện bang LED trên dữ liệu 4x4: - - -« «« «<< 48

4.3.3 Phân loại chuỗi bit trên dữ liệu 8X8: « .««+<-«<<<<+e 49

4.3.4 Phân loại chuỗi bit trên dữ liệu 4x4 bằng 2 phương pháp:

4.3.4.1 Phương pháp classification kết hợp prediction smoothing: 53

4.3.4.2 Phương pháp clustering: -. -<««s «<< se 54

4.4 Phân tích kết quả . << +3 1332213 2 EEEEESEEEeeeeeeeerrexe 54

4.4.1 Nhận diện bang LED 8X8: -. c5 c2 54

4.4.2 Nhận diện bang LED 4x4: c1 S111 55

4.4.3 Phân loại chuỗi bit trên dữ liệu 8x8: « «<< «<< <e+ 55 4.4.4 Phân loại chuỗi bit trên dit liệu 4x4: << «<< << << << << << <<<e 55

Trang 14

4.5 can 56

4.6 Hướng phat triỂn - cc c1 391 199 111119 1 1g re, 57

Trang 15

Hình 1.1.c: Minh họa nhận diện bit LED từ hình anh bảng LED được phát hiện

thông qua mô hình nhận điện vật thể

Hình 2.1.1.a: Minh họa bộ dữ liệu của tập huấn luyện [20].

Hình 2.1.1.b: Mô tả bộ dữ liệu trong tập kiểm thử ở các điều kiện chiếu sáng vào

ban ngày và ban đêm [22]

Hình 2.2: Phát hiện các đối tượng xe ô tô và phân lớp các xe ô tô có trong ảnh

Hình 2.3 : Ví dụ về các đặc trưng đã học trên các lớp khác nhau của CNN

Hình 2.5: Kiến trúc hệ thong VOCC [20]

Hình 3.1.a: Quy trình thực nghiệm xây dựng bộ dữ liệu và các phương pháp đề xuất

cho hệ thống VOCC end-to-end tổng quát cho hai tác vụ phát hiện bảng LED và

phân loại bit LED

Hình 3.1.b: Kiến trúc hệ thong VOCC chúng tôi đề xuất xử lý cho hai tác vụ phát

hiện bang LED và phát hiện bit LED

Hình 3.1: Quy trình tổng quan xây dựng và phân tích bộ dữ liệu

Hình 3.2.2.a: Vi dụ về một anh trong tập training của bộ dữ liệu 8x8 (ban ngày)

Hình 3.2.2.b: Ví dụ về một anh trong tập training của bộ dit liệu 8x8 (ban đêm)

Hình 3.3.3.a: Ví dụ về một ảnh trong tập training của bộ dữ liệu 4x4 (khoảng cách

Trang 16

Hình 3.4.1.b: Ví dụ về kiểm tra tên file, ảnh cắt còn viên, ảnh cắt không viên, shape của ảnh, ma trận đã cho sẵn (do đây là giai đoạn sau khi nhận điện bảng LED và trước khi phân loại chuỗi bit cho nên ảnh cắt còn viễn được sinh từ bước nhận diện

bảng LED)

Hình 3.4.3: Các tín hiệu bit tạo sẵn và LED gắn trên xe sẽ phát theo những tín hiệu

này Đâu file này ghi 100 nghĩa là có sẵn 100 tin hiệu khác nhau, khi phát hết sẽ

quay lại từ đầu và phát tiếp tín hiệu.

Hình 3.4.4.a: Quy trình tạo ra bộ dit liệu dành riêng cho phương pháp classification của thực nghiệm 4x4.

Hình 3.4.4.b: 10 hình đại điện mỗi lớp trong 16 lớp phân loại chuỗi bit được sinh

ra.

Hình 3.4.4.c: Thống kê số ảnh 2x2 mỗi lớp (dòng trên là tên lớp, dòng dưới là số

lượng ảnh)

Hình 4.1.1: Mô tả quy trình nhận điện bảng LED.

Hình 4.1.2.a: Mô tả sơ bộ mô hình phân loại chuỗi bit 2x2 bằng CNN

Hình 4.1.2.b: Kiến trúc mô hình CNN classification dành cho phương pháp

“classification” của phân loại chuỗi bit dữ liệu 4x4.

Hình 4.1.3.1.a: Mô tả quy trình thực thi của phương pháp nhận diện chuỗi bit bằng

Hình 4.1.3.2.b: Minh hoa việc cắt vùng nhỏ tại tâm mỗi bit để xác định màu trung

bình và đưa vào clustering (bên trái là bit off, bên phải là bit on).

Hình 4.3.3.a: Phân loại chuỗi bit 8x8 phương pháp clustering trên video ban ngày Hình 4.3.3.b: Phân loại chuỗi bit 8x8 phương pháp clustering trên video ban đêm

Hình 4.3.3.c: Việc camera đặt nghiêng so với mặt phẳng ảnh hưởng độ lỗi trên

bảng LED.

Trang 17

Hình 4.3.4: Các lỗi xảy ra trong quá trình phân loại chudi bit 4x4

Hình 4.3.4.1: Ảnh cắt từ video demo của phương pháp classification kết hợp

prediction smoothing

Hình 4.3.4.2: Anh cắt từ video demo của phương pháp classification kết hợp

prediction smoothing

Trang 18

DANH MỤC BANG

Bảng 3.4.2: Thống kê số lượng dữ liệu và các thuộc tính cho các tập training,

validation, test cho hai bộ dit liệu 4x4 và 8x8 cho tác vụ phát hiện bảng LED

Bảng 4.3.1.a: Bảng đánh giá hiệu suất bằng FPS giữa 5 mô hình sau khi chạy

Bảng 4.3.1.b: Bảng kết quả đánh giá mAP(IOU=0.50:0.95) trên tập test với 10

trường hợp và 5 mô hình nhận diện bảng LED

Bảng 4.3.2: Kết quả đánh giá hiệu suất FPS và độ đo mAP(IOU=0.50:0.95) các mô

hình phát hiện bảng LED trên bộ dữ liệu test của bảng LED 4x4

Bảng 4.43: So sánh kết quả BER và FPS của phương pháp clustering trong phânloại chuỗi bit video ban ngày và đêm

Bảng 4.4.4: So sánh kết quả BER và FPS của 2 phương pháp chính trong phân loạichuỗi bit

Trang 19

DANH MỤC TỪ VIET TAT

FPN Feature Pyramid Network

:

-aaa PaddlePaddle

VOCC Vehicular optical camera communication

SVM Support vector machines

Trang 20

Regional Proposal Network

Region-based Fully Convolutional Networks

Single shot detector

Exponential moving average

Intersection over Union

Constraint satisfaction problems

Path Integral Based Convolution for Deep Graph Neural Networks

Vertical federated learning

Generalized Intersection over Union

Efficient Symmetric Network

Neural architecture search

Optical camera communication

Intelligent Transportation System

Compound annual growth rate

Trang 21

United State Dollar

Common Objects in Context

Vehicle-to-everything

Trang 22

TOM TAT KHÓA LUẬN

Nhận thấy nguồn dé liệu đồi dao từ Internet về các hình ảnh nói chung và các hìnhảnh về lĩnh vực giao thông nói riêng, trong khi đó lại có sự thiếu hụt và không cónhiều da dạng về các tập dữ liệu cho nghiên cứu các hệ thống giao tiếp thông tinliên lạc cho các phương tiện tự hành Trong khóa luận tốt nghiệp này, chúng tôi đãxây dựng hai bộ dữ liệu điểm chuẩn được xây dựng, thu thập, tạo lập và thí nghiệmtrong ngữ cảnh thực tế với các thuộc tính đa dạng và phức tạp về ngữ nghĩa cho các

tác vụ phát hiện bang LED và phân lớp bit LED phục vụ cho các xe tự hành giao

tiếp trong mạng lưới giao thông với nhau Bộ dữ liệu của chúng tôi được tạo rathông qua quy trình nghiêm ngặt dé đảm bảo chất lượng của bộ dit liệu

Bên cạnh đó, chúng tôi tiễn hành đánh giá bộ dữ liệu thông qua các mô hình hiện

đại nhất như mô hình PP-PicoDet, PP-YOLO, YOLOF, YOLOX, YOLOv5,

YOLOv7 Các đánh giá và các phân tích này như bước đầu dé kiểm chứng, và xemxét có đủ chất lượng đề đáp ứng các nghiên cứu sau này Kết quả đánh giá của các

mô hình được chúng tôi so sánh để chọn ra kết quả tốt nhất Sau một loạt các thửnghiệm của chúng tôi, chúng tôi thấy được mô hình YOLOv5 và mô hìnhPP-PicoDet cho kết quả của mAP lớn nhất trên tập kiểm tra (test set) của hai bộ diliệu lần lượt với 90.5% và 81.83% với tốc độ FPS lần lượt là 76 và 33.7 Ngoài ra,đánh giá trên tác vụ phân lớp bit, trong hai phương pháp đề xuất, phương phápclustering nồi trội về cả độ chính xác và hiệu suất với BER là 0.027 và FPS là 34.2

Dé hiểu rõ hơn các mô hình, chúng tôi đã phân tích kết quả của các mô hình theo

các khía cạnh khác nhau của bộ đữ liệu Từ các mô hình đã thực nghiệm cho hai tác

vụ phát hiện bảng LED và phát hiện bit LED được nói phía trên, chúng tôi đề xuấtmột hệ thống end-to-end VOCC kết hợp từ hai mô hình cho hai tác vụ có thé đượctích hợp và triển khai trong thực tế với tốc độ suy luận trong thời gian thực với hiệusuất cao Cuối cùng, chúng tôi cũng đã xây dựng một demo dé có cái nhìn trực quancho vấn đề chúng tôi thực hiện

Trang 24

Chương 1 MỞ ĐẦU

Trong những năm gần đây, hệ thống giao thông thông minh (ITS) đóng vai trò cực

kỳ quan trọng không chỉ trên thế giới mà còn ở tại các khu vực đang có tốc độ pháttriển nhanh như Đông Nam Á nói chung và Việt Nam nói riêng Trong bối cảnh dân

số đang gia tăng nhanh chóng và các vấn đề cấp bách cần được giải quyết như nhu

cầu nhà ở, hạ tầng giao thông, kẹt xe, 6 nhiém méi truong, an ninh thanh phó, chất

lượng cuộc sống và các vẫn đề liên quan khác Đề giải quyết các vấn đề trên, khái

niệm thành phố thông minh (Smart City) được ra đời [1, 2] và là một trong những

giải pháp hiện có Theo tác giả Ayca Kirimtat [1], khái niệm thành phố thông minh

là thành phố quản lý sự phát triển bằng cách xây dựng và phát huy các lĩnh vực nhưkinh tế, giao thông, môi trường, con người, cuộc sông và chính phủ một cách vượttrội, nói cách khác; thành phố thông minh là tập hợp của các thành phần cụ thể là

“con người thông minh”, “kinh tế thông minh”, “chính phủ thông minh", “hệ thốnggiao thông thông minh", “môi trường thông minh", và “cuộc sống thông minh" Làmột trụ cột quan trọng trong thành phố thông minh, ITS [4] giúp hỗ trợ và giảiquyết đáng ké các van đề thách thức xảy ra trong các đô thị tập trung mật độ dân sốlớn trong bối cảnh cách mạng công nghiệp lần thứ 4 và tình hình phát triển chungcủa các nước trên thế giới

Các vấn đề tắc nghẽn, tai nạn và ô nhiễm do giao thông ngày càng trở nên nghiêmtrọng do sự gia tăng mạnh mẽ của các nhu cầu đi lại khác nhau, bao gồm cả giaothông xe cộ, giao thông công cộng, vận chuyền hàng hóa và thậm chí cả giao thôngcho người đi bộ Nhăm giải quyết các thách thức đó, ITS đã được phát triển với khảnăng tích hợp nhiều hệ thống, bao gồm cảm biến, liên lạc, phổ biến thông tin vàkiểm soát giao thông Các công nghệ mới nổi những năm trở lại đây như giao tiếp

thông tin cho các phương tiện giao thông (V2V) [5-7] đã giúp cho việc thu thập, lưu

trữ, phân tích, sử dụng và chia sẻ dir liệu đa nguôn trở nên dễ dang và rẻ hon.

Trang 25

Không những vậy, công nghệ giao tiếp V2V còn là đặc trưng đặc biệt dé kích hoạttrong việc hỗ trợ và phát triển ITS đối với các vấn đề thách thức nêu trên Bằng việckết nối dựa trên sự kết hợp giữa hệ thống định vị GPS và hệ giao tiếp không dâygiữa các phương tiện giao thông, các tín hiệu được chia sẻ đến tất cả phương tiệnlưu thông trên đường như vi tri, tốc độ, các tín hiệu chuyên làn, mật độ và tình hìnhgiao thông hiện tại Từ đó các xe trong mạng lưới nhờ vào việc trao đôi thông tinqua lại mà di chuyền linh hoạt và an toàn, tiết kiệm thời gian, và tránh các tai nạn.Ngoài ra, ITS tận dụng lợi thế của công nghệ giao tiếp V2V phục vụ cho việc phân

tích dự báo tình trạng kẹt xe, định tuyến các nút giao thông, và mức độ ô nhiễm môi

trường.

Theo ReportLinker [3], quy mô thị trường ô tô tự lái dự kiến sẽ tăng từ 20,3 triệuchiếc vào năm 2021 lên 62,4 triệu chiếc vào năm 2030, với tốc độ tăng trưởng képhang năm (CAGR) là 13,3% Có thé thay rang một lượng lớn xe tự hành không cóngười lái lưu thông trong mạng lưới giao thông cần nhu cầu liên lạc với nhau Ngoài

ra, với tốc độ tăng trưởng hăng năm các phương tiện giao thông như hiện nay thìtình trạng kẹt xe sẽ xảy ra thường xuyên hơn gây ảnh hưởng đến nền kinh tế đặc

biệt là ngành logistic và chuỗi cung ứng trong khu vực.

Các giải pháp truyền thông không dây hiện nay gặp một số hạn chế về mặt băngthông, tương tác trong liên lạc gặp nhiễu và các van đề khác Hệ thống giao tiếp(V2V) sử dụng các đèn LED [53-54] để truyền thông tin và các camera thu nhậnthông tin là một giải pháp giải quyết các hạn chế của vấn đề trên và đáp ứng nhucầu liên lạc giữa các phương tiện tự hành cũng như giải quyết tình trạng ùn tắc giaothông trong thành phố Mặc dù hệ thống giao tiếp camera quang học cho phươngtiện giao thông có nhiều ưu điểm nhưng vẫn có một số thách thức cho sự phát triểncủa hệ thống giao tiếp quang học giữa các phương tiện giao thông Thách thức thứnhất là sự nhiễu nguồn sáng từ mặt trời, các nguồn sáng trên đường, và một số

nhiêu từ nên sáng của ảnh Ngoài ra hiện tượng mờ ảnh có thê làm giảm sự chính

Trang 26

xác của việc nhận diện độ chính xác của đèn LED Thách thức thứ hai là tốc độ dữliệu thấp do giới hạn băng thông của máy ảnh Thách thức thứ ba là độ trễ của các

mô hình nhận diện vật thé đòi hỏi cấu hình tính toán mạnh

Trong nghiên cứu này, chúng tôi nghiên cứu xây dựng hai bộ dữ liệu điểm chuẩntrong thế giới thực cho hệ thống giao tiếp camera quang học cho mạng lưới xe tự

hành Ngoài ra, chúng tôi nghiên cứu các thuật toán nhận diện bảng LED hiện đại

và áp dụng chúng trong việc nhận diện các đèn LED được trang bị trên các phương

tiện tự hành Bên cạnh đó, chúng tôi đề xuất mô hình phân lớp bit LED với tốc độsuy luận nhanh và độ chính xác cao Từ đó, chúng tôi dé xuất hệ thống end-to-endbao gồm phát hiện bảng LED và nhận diện bit LED cho các hệ thống VOCC

1.1 Phát biểu bài toán

Liên lạc thông tin trên phương tiện giao thông (V2V) là một loại hệ thốngthông tin liên lạc tam ngắn đến trung bình dé trao đổi các thông tin về giao thông vacảnh báo an toàn giữa các phương tiện [53, 54] Giao tiếp các phương tiện giao

thông có rất nhiều ứng dụng hữu ích Ví dụ, một chiếc xe có thể truyền tín hiệu xin

phép chuyền làn và chờ xác nhận từ các phương tiện khác Khi cần phanh khan cấp,tăng hoặc giảm tốc độ, các tín hiệu cảnh báo có thể được truyền cho các phương

tiện khác thông qua liên lạc của các phương tiện Khi được sử dụng với tính năng

theo dõi phương tiện, ID của phương tiện có thể được gửi cho các phương tiện khác

dé xây dựng bản đồ giao thông trên đường phô Kết nối giao tiếp giữa các phươngtiện với theo đõi phương tiện và các công nghệ cảm biến khác như theo déi phươngtiện, phát hiện làn đường, phát hiện người di bộ, v.v., sẽ tao điều kiện cho các mạnglưới giao thông phối hợp an toàn hơn, và cuối cùng sẽ thúc đây mạng lưới phươngtiện tự hành và hệ thống giao thông thông minh (ITS) Trong vài năm gần đây, một

công nghệ mới nổi được gọi là giao tiếp camera quang học (OCC) đã được coi là

một ứng cử viên tiêm năng cho giao tiêp xe cd nhờ nhiêu ưu diém [55 - 57].

Trang 27

Trong giao tiếp camera quang học dành cho các phương tiện giao thông (VOCC),tín hiệu ánh sáng nhìn thấy được truyền bằng bảng LED và được nhận bằng cameratrên bảng điều khiển, cả hai đều được trang bị sẵn trên xe Sự sẵn có của bảng LEDtruyền thông tin và máy thu hình tao ra lợi thé lớn về chi phi cho VOCC Tuy nhiên,

ưu điểm quan trọng nhất giúp phân biệt VOCC với các công nghệ liên lạc trênphương tiện khác là khả năng tương thích hoàn hảo với các công nghệ thiết yếukhác cho các hệ thống giao thông thông minh và mạng lưới phương tiện tự hành.Trong tương lai gần, nhiều khả năng các công nghệ dựa trên tầm nhìn như phát hiệnbiển báo giao thông, phát hiện làn đường, phát hiện người đi bộ và theo dõi phươngtiện, có thể được triển khai trên mọi phương tiện Những công nghệ này sử dụngcùng một máy ảnh và bộ xử lý hình ảnh cần thiết cho VOCC [58, 59] Đặc biệt,VOCC có thé được tích hop và hoạt động “trơn tru" với tính năng theo dõi xe, mộttrong những thành phần quan trọng nhất trong mạng lưới xe tự lái Điều này là docác quy trình quan trọng trong theo dõi phương tiện, cụ thé là phát hiện tọa độ hình

ảnh phương tiện va nhận dạng phương tiện, đã đạt được hiệu suất tốt thông qua

VOCC [60] Do đó, cả chi phí triển khai phan cứng và phần mềm cho hệ thống theodõi và liên lạc trên toàn xe có thé được giảm đáng kể bang cách sử dụng VOCC dé

liên lạc trên xe so với các công nghệ khác.

Transmitted data Received data

LED panel detection

LED pane Camera Captured images Image processing

Hình 1.1a: Kiến trúc hệ thong giao tiếp phương tiện giao thông sử dung Camera

-LED [21]

Kiến trúc hệ thống VOCC được mô ta ở Hình 1.1a Bang LED va camera ghi nhận

thông tin hình ảnh được trang bị trên các phương tiện giao thông Các phương tiện

Trang 28

sẽ truyền tín hiệu bang bảng LED đồng thời sẽ thu nhận tín hiệu bang camera bằng

các kỹ thuật xử lý ảnh.

Trong luận văn này, chúng tôi nghiên cứu xây dựng bộ dữ liệu cho hai tác vụ phát

hiện bảng LED và nhận dạng bit LED cho hệ thống VOCC Đồng thời, luận văn

nghiên cứu các mô hình hoc sâu nhận diện bảng LED và bit LED hiện đại và thực

nghiệm các mô hình trên để nhận diện các bang LED và bit LED trang bị trên các

phương tiện tự hành Cuối cùng, luận văn nghiên cứu tích hợp hai thuật toán phát

hiện bảng LED và nhận diện bit LED để xây dựng hệ thống VOCC end-to-end cho

xe tự hành.

Vấn đề đầu tiên: Phát hiện bảng LED trang bị trên xe tự hành

Input: Hình ảnh thực tế về đèn LED được gan trên xe

Output: Hình ảnh đèn LED trong môi trường thực tế với đường viền bounding box

như mô tả minh họa

Hình 1 _1.b: Minh họa mô hình phát hiện bang LED trên anh và vẽ bounding box

màu vàng xung quanh bảng LED

Vấn đề thứ hai: Phát hiện bit LED từ bảng LED thu được thông qua thị giác máy

tính

Input: Hình ảnh thực tế về bảng LED được gắn trên xe đã thông qua xử lý thuật

toán phát hiện bảng LED

Output: Doan mã 0 và 1 được mã hóa và hiển thị trên bảng LED

Trang 29

Hình 1.1.c: Minh họa nhận diện bit LED từ hình anh bang LED được phat hiện

thông qua mô hình nhận điện vật thể

1.2 Đối tượng và phạm vi nghiên cứu

e Đối tượng nghiên cứu:

o Nghiên cứu các thuật toán các thuật toán PP-YOLO [13], PP-PicoDet

[15], YOLOF [16], YOLOX [17], YOLOv5 [12], YOLOv7 [14] trên

ảnh có độ phân giải cao có thé điều chỉnh đầu vao

o Nghiên cứu xây dựng bộ dữ liệu mới cho hệ thống giao tiếp phương

tiện giao thông sử dụng giao tiếp Camera-LED để mô hình có thé học

từ tập dữ liệu và nhận diện các vật thể là bảng LED và bit LED trongngữ cảnh thực tế

o Nghiên cứu hệ thống giao thông phương tiện giao thông sử dung giao

tiếp Camera-LED

o Nghiên cứu xây dựng hệ thống tích hợp thuật toán phát hiện bang

LED và bit LED end-to-end cho giao tiếp các phương tiện giao thông

cho xe tự hành

e Nội dung nghiên cứu:

Trang 30

o Tìm hiểu cấu trúc các mô hình nhận diện vật thé hiện đại các thuật

toán PP-YOLO [13], PP-PicoDet [15], YOLOF [16], YOLOX [17], YOLOvS [12], YOLOv7 [14]

o Nghiên cứu cách thức truyền thông tin của hệ thống liên lạc giữa các

phương tiện tự hành sử dung LEDs dé truyền tai dit liệu và camera dé

thu nhận dữ liệu

o Tìm hiểu cách thức xây dựng bộ dữ liệu dựa trên quy trình xây dựng

và đánh giá của các bộ dữ liệu điểm chuẩn COCO và PASCAL VOC[26, 52] và các kỹ thuật sinh ảnh image augmentation dé làm giàu về

sự đa dạng và độ khó của đữ liệu

© Tìm hiểu cách đảm bảo chất lượng bộ dữ liệu băng kiểm định chéo

giữa những người gan nhãn với nhau và đánh gia bộ dữ liệu dựa trên

các tiêu chí về tính chính xác, tính liên quan, tính hoàn chỉnh, tinh kipthời, tính nhất quán

© Tìm hiểu cách đánh giá một mô hình nhận diện vật thé bằng độ đo

mean Average Precision (mAP) và Bit Error Rate (BER)

o Huấn luyện các mô hình YOLOvS [4], PP-YOLO [5], PP-YOLOv2

[6], PP-PicoDet [7], YOLOF [8] va YOLOX [9] chạy trên bộ dữ liệu

đã được thu thập, so sánh và đánh giá kết qua dựa trên độ do mAP và

BER

o Xây dựng chương trình ứng dung cho phép người dùng với đầu vào là

hình ảnh và đầu ra là hình ảnh nhận diện bảng LED với bounding box

e Phạm vi về thời gian nghiên cứu: Nghiên cứu tập trung vào các khoảng thời

gian và cường độ ánh sáng đa dạng trong ngày cụ thé là sáng và tối, với bồi

cảnh trong và ngoài trời.

e Phạm vi về không gian nghiên cứu: Bối cảnh nghiên cứu là các phương tiện

giao thông có 4 bánh và chủ yếu là xe ô tô

Trang 31

1.3 Ý nghĩa của nghiên cứu.

Lĩnh vực nghiên cứu V2V và hệ thống VOCC có tính ứng dụng rất lớn tronglĩnh vực giao thông thông minh và nhiều lĩnh vực liên ngành khác Nghiên cứu

đóng góp những nội dung sau cho các lĩnh vực liên ngành:

e Theo ReportLinker [1], quy mô thị trường ô tô tự lái dự kiến sẽ tăng từ 20,3

triệu chiếc vào năm 2021 lên 62,4 triệu chiếc vào năm 2030, với tốc độ tăngtrưởng kép hằng năm (CAGR) là 13,3% Có thê thấy rằng một lượng lớn xe

tự hành không có người lái lưu thông trong mạng lưới giao thông cần nhucầu liên lạc với nhau Ngoài ra, với tốc độ tăng trưởng hằng năm các phương

tiện giao thông như hiện nay thì tinh trạng ket xe sẽ xảy ra thường xuyên hơn

gây ảnh hưởng đến nền kinh tế đặc biệt là ngành logistic và chuỗi cung ứngtrong khu vực V2V và cụ thê là hệ thống VOCC đóng góp một giải pháp

quan trọng nhăm giải quyét nhu câu liên lac của các xe tự hành.

e Theo dự báo cua Grand View Research & Fortune Business Insights, quy mô

thị trường hệ thống giao thông thông minh (ITS) toàn cầu được định giá là25,378.2 triệu USD vào năm 2020 và dự kiến sẽ mở rộng với tốc độ tăngtrưởng kép hàng năm (CAGR) là 7,0% từ năm 2021 đến năm 2028 với vốnhóa là 42,936.1 triệu USD Sự phát triển nhanh chóng của ITS và sự quantâm của các chính phủ trên khắp thế giới sẽ giúp công nghệ V2V mang lại lợinhuận kinh tế trong tương lai của ngành và đóng góp một phần vào sự pháttriển chung của ITS

e Vấn nạn ket xe là một van đề nhức nhối không chỉ ở Việt Nam mà còn trên

toàn thế giới Với sự trợ giúp của công nghệ V2V và hệ thống VOCC, sựchia sẻ thông tin giữa mạng lưới các xe trong khu vực và dữ liệu chia sẻ đếnITS là một trong những cách thức giải quyết và làm giảm tỷ lệ kẹt xe ở cácthành phố lớn

10

Trang 32

1.4 Động lực nghiên cứu.

Với mong muốn đóng góp một phần sức lực vào công cuộc phát triển và xâydựng ITS, bồi đắp và mở rộng tri thức nhân loại cho ngành liên lạc phương tiện giaothông (V2X), giải quyết các van nạn kẹt xe, giảm thiểu và đóng góp kinh tế vào lĩnhvực giao thông vận tải Từ những lý do trên đã tiếp sức cho chúng tôi rất nhiều vàoquá trình hình thành động lực và bước những đi bước đi đầu tiên trong việc nghiên

cứu và hình thành dé tai của luận văn.

1.5 Đóng góp của luận văn.

Trong nghiên cứu này, luận văn đóng góp những điểm chính sau đây:

e Hai bộ dữ liệu điểm chuẩn cho bài toán phát hiện bảng LED và phân lớp bit

LED cho hệ thống thông tin liên lạc giữa các phương tiện giao thông

e Dé xuất hệ thong end-to-end phát hiện bảng LED và phân loại bit LED cho

hệ thống VOCC

e Thực nghiệm các mô hình state-of-the-art phát hiện bảng LED trên bộ dữ

liệu xây dựng.

e Đề xuất thuật toán phân loại bit LED đạt độ chính xác cao và tốc độ suy luận

nhanh trên bộ dữ liệu.

1.6 Phương pháp luận.

Ban đầu chúng tôi nghiên cứu các công trình để khởi tạo bộ đữ liệu cho bàitoán V2V sử dụng các phương pháp học sâu phát hiện đối tượng

Luận văn thực hiện theo phương pháp nghiên cứu ứng dụng Phương pháp

nghiên cứu ứng dụng liên quan đến việc giải quyết các vấn đề thực tế băng cáchtham khảo các nghiên cứu đi trước và dữ liệu trong thế giới thực [11] Trong côngtrình này, chúng tôi dựa trên các nghiên cứu trước đó dé xây dựng bộ dit liệu V2V

từ thế giới thực và nghiên cứu các phương pháp phát hiện đối tượng cụ thể là nhận

diện các đèn LED được trang bị trên các phương tiện giao thông sao cho vẫn đảm

bảo tốc độ suy luận theo thời gian thực và độ chính xác chấp nhận được

11

Trang 33

Đối với luận văn, phương pháp nghiên cứu thực nghiệm cũng được sử dụng.Chúng tôi cố găng thiết lập các mối quan hệ và quan hệ nhân quả giữa các biếnkhác nhau thông qua thực nghiệm [11] Các phương pháp phát hiện phát hiện đối

tượng khác nhau được thực hiện trong luận văn được so sánh và tác động của các

thông số khác nhau đối với các phương pháp được so sánh định lượng

1.7 Cau trúc của luận văn

Cấu trúc của luận văn gồm 5 chương Chương 1 mở đầu giới thiệu tong quan baitoán, động lực nghiên cứu, đóng góp của luận văn, phương pháp luận và cấu trúccủa luận văn Chương 2 cơ sở lý thuyết bao gồm nghiên cứu các công trình về các

bộ dữ liệu trong nước và quốc tế, các thuật toán phát hiện đối tượng, kỹ thuậttransfer learning, và cơ sở của hệ thống giao tiếp thông tin liên lạc giữa các phươngtiện giao thông Chương 3 trình bay mô hình, phương pháp và hệ thống đề xuất,

việc xây dung và phân tích bộ dữ liệu Chương 4 cài đặt, thử nghiệm và đánh gia kêt quả của các bộ dữ liệu và mô hình.

12

Trang 34

Chương 2 CƠ SỞ LÝ THUYET VÀ CÁC CÔNG TRÌNH NGHIÊN

CỨU LIÊN QUAN

2.1 Các bộ dữ liệu liên quan.

Trong lĩnh vực thị giác máy tính, các bộ dữ liệu cho các tác vụ phát hiện đối tượng

và phân loại hình ảnh đã được xây dựng rất nhiều và được ứng dụng trong đa dạngcác lĩnh vực Trong chương này, chúng tôi sẽ trình bày các công trình nghiên cứu về

bộ dữ liệu được sử dụng cho lĩnh vực giao thông thông minh mà cụ thé là giao tiếpthông tin liên lạc giữa các phương tiện giao thông Chúng tôi tiến hành khảo sát cáccông trình công bố dữ liệu trên thé giới cũng như trong nước để có cái nhìn tổngquát về các bộ đữ liệu hiện nay

2.1.1 Công trình trên thé giới:

Các bộ đữ liệu phục vụ cho các nghiên cứu VOCC trên thế giới hiện nay có sự đadạng về loại cũng như về kích thước của bộ đữ liệu Nhóm tác giả Tung Lam Pham

và các cộng sự [20] trong nghiên cứu của mình đã đề xuất một hệ thống nhằm pháthiện và truy vết đèn LED sau các xe ô tô, bài báo có đề cập đến việc sử dụng dữ liệuđược lấy từ các frame trong video trên các đường cao tốc, tuy nhiên dữ liệu khôngnói chỉ tiết về số lượng và phân tích các thuộc tính đặc điểm cu thé của bộ dit liệu.Hình 2.1.1.a, mô tả tập huấn luyện của bộ dữ liệu đèn LED sau xe ô tô được gán

nhãn trên công cụ chú thích đữ liệu Tác giả Trong-Hop Do và cộng sự trong công

trình [21] đã đề xuất một bộ đữ liệu mô phỏng thực nghiệm dựa trên các cấu trúcphục vụ cho tác vụ phát hiện các Bit LED và bảng LED Bộ dữ liệu cho tập huấnluyện bao gồm 1000 ảnh, mỗi bảng LED trong ảnh có kích thước 8x8 LEDs con và

có hai trạng thái là 0 hoặc 1 Công trình của nhóm tác gia [21] đề cập rất chi tiết vềcác yếu tô vật lý tác động ảnh hưởng đến bộ dữ liệu, cũng như cách thức xây dựng

bộ đữ liệu mô phỏng Tuy nhiên công trình có điểm hạn chế là bộ dữ liệu được mô

13

Trang 35

phỏng theo các yếu tố cảm biến và cau tạo vật lý trong phòng thí nghiệm vi vậychưa thé áp dụng và triển khai trong thực tiễn Trong công trình [22], bộ dữ liệu baogồm 30000 hình ảnh, được thiết lập và mô tả chỉ tiết các thuộc tính Tuy vậy, bộ ditliệu mô tả ở Hình 2.1.1.b, được xây dựng với khoảng cách từ camera đến bảng LEDvới khoảng cách tối đa là 8m Trong thực tế, khoảng cách giữa các xe có thé xa hơnnhư vậy Với khoảng cách tối đa là 8m là một hạn chế của bộ dữ liệu [22] khi màviệc giao tiếp giữa các phương tiện giao thông trong thực tiễn có khi rất xa thậm chí

vài chục mét.

14

Trang 36

Hình 2.1.1.b: Mô tả bộ dit liệu trong tập kiểm thử ở các điều kiện chiếu sảng vào

ban ngày và ban đêm [22]

2.1.2 Công trình trong nước:

Ngành giao tiếp phương tiện giao thông cho xe tự hành trong nước hiện nay còn rất

hạn chế vì nhiều lý do Các công nghệ chưa đáp ứng kịp, hạn chế về cơ sở vật chất

và thiết bị nghiên cứu, kinh phí cho các đề tài nghiên cứu thiếu hụt dẫn đến nguồnnhân lực làm nghiên cứu đều được dao tạo ở nước ngoài Vì thế, các nghiên cứu và

công trình từ chuyên ngành này đa sô đêu đên từ các cơ sở nghiên cứu ngoải nước.

2.2 Phát hiện đối tượng

Bài toán phát hiện đối tượng được xây dựng dựa trên hai bai toán nhỏ hơn là xácđịnh vị trí của vật thé va phân lớp vật thể thuộc đối tượng nào Gia sử chúng ta cómột số lớp đối tượng quan tâm và một hình anh dé phân tích, mục tiêu của chúng ta

là phát triển một hệ thống có thể phát hiện các trường hợp của lớp đối tượng này

trong hình ảnh và trả về vị trí của chúng Bộ phát hiện đối tượng thường trả về một

danh sách các điểm vị trí và số phân lớp tương ứng Ví dụ, khi đối tượng mục tiêucủa chúng ta là một chiếc ô tô, đầu ra của mô hình có thể trông giống như hình ảnhchú thích được hiển thị trong Hình 2.2

15

Trang 37

Hình 2.2: Phát hiện các đối tượng xe ô tô và phân lớp các xe ô tô có trong ảnh

Khó khăn quan trọng nhất trong việc xây dựng một mô hình phát hiện vật thé có độ

chính xác cao phụ thuộc rất lớn vào số lượng vật thể trong hình ảnh và video Cácyếu tố quan trọng góp phần vào sự biến đồi (độ khó) của bài toán phát hiện vật thénày bao gồm vị trí, khoảng cách hoặc hướng di chuyên của đối tượng so với máyảnh, phương sai lớn trong lớp của các lớp đối tượng, sự phức tạp của nên, sự khácbiệt về màu sắc, thay đổi về độ chiếu sáng Mục tiêu của các thuật toán phát hiện

đối tượng là phát hiện các đối tượng trong mọi điều kiện bat ké với các yếu tố đặc

điểm của vật thé trong ảnh Phép đo chất lượng của thuật toán phát hiện đối tượngđược đưa ra dựa trên độ chính xác phát hiện và tốc độ phát hiện: mục tiêu của cácnhà nghiên cứu là muốn phát hiện đối tượng mục tiêu trong mọi trường hợp càngnhanh càng tốt Chúng ta có thể coi bộ phát hiện đối tượng là sự kết hợp của haithành phan chính: thuật toán trích xuất đối tượng mã hóa các vùng ảnh và phân loạiquyết định nhãn lớp của các vùng con trong ảnh dựa trên biểu diễn đối tượng [10]

Nói cách khác, nhiệm vụ đâu tiên là chuân bị một biêu diễn thông tin đê mô tả các

16

Trang 38

vùng hình ảnh, tức là các vectơ đặc trưng hoặc bộ mô tả Sau khi trích xuất các đặctrưng, chúng tôi áp dụng một thuật toán học máy dé phân loại các vùng hình ảnh

nhăm xác định sự hiện diện của các đôi tượng nhat định.

Có hai phương pháp chính đối với bài toán phát hiện đối tượng là single-stage vàtwo-stage Đối với phương pháp two-stage, các mô hình tiêu biểu như là [31, 32,

33, 34, 35, 40] cùng với các nghiên cứu về các lớp trích xuất đặc trưng và phân lớp

hình ảnh [36, 41, 44] thường dựa trên các anchor box nhằm tạo ra các đề xuất khu

vực hình ảnh chưa đối tượng và sinh ra các bounding box từ các vùng đề xuất này.Phương pháp two-stage đạt được hiệu suất cao trong việc định vị đối tượng trongảnh, tuy nhiên hạn chế lớn của phương pháp này là khó đạt tốc độ thời gian thựctrên các thiết bị CPU và ARM (điện thoại thông minh, máy tính bảng, đồng hồthông minh và các thiết bị nhúng) Đối với phương pháp single-stage, các mô hìnhtiêu biểu như là [19, 37, 38, 39, 49] cũng dựa trên anchor box, tuy nhiên điểm mạnhcủa phương pháp này là đạt được sự cân bằng hiệu suất về độ chính xác và tốc độthực thi của mô hình, vì thế các mô hình được sử dụng rộng rãi trong thế giới thực

và các ngành công nghiệp vì hiệu suât suy luận nhanh và độ chính xác ôn định.

Trong nghiên cứu này, chúng tôi tiếp cận vấn đề phát hiện đối tượng bằng phươngpháp single-stage bởi vì sự cân bằng giữa hiệu suất phát hiện đối tượng và tốc độsuy luận của mô hình Dựa trên tiền đề của các mô hình single-stage tiền nhiệm [ 19,

37, 38, 39], các mô hình PP-YOLO [13], PP-PicoDet [15], YOLOF [16], YOLOX [17], YOLOvS5 [12], YOLOv7 [14] được chúng tôi lựa chọn vì đây là những mô

hình state-of-the-art, kế thừa từ các mô hình single-stage trước đó, và là những mô

hình có những cải tiên vượt bậc so với các nghiên cứu trước.

Trong luận văn này, chúng tôi tập trung thực hiện xây dựng và huấn luyện các môhình học sâu Cụ thé là các thuật toán PP-YOLO [13], PP-PicoDet [15], YOLOF

[16], YOLOX [17], YOLOv5 [12], YOLOv7 [14] cho bài toán phát hiện bảng LED.

17

Trang 39

Các mô hình được lựa chọn bởi vì đây là các mô hình single-stage, hiệu suat của các

mô hình này 6n định về độ chính xác và tốc độ suy luận trong thời gian thực

2.3 Transfer learning.

Một vấn đề với mạng nơ-ron học sâu là lượng dữ liệu cần thiết dé đào tạo một môhình Đối với học sâu có giám sát, như phân loại hình ảnh, người ta ước tính răngtập huấn luyện yêu cầu khoảng 5.000 mẫu được gắn nhãn cho mỗi danh mục dé đạtđược mức độ tổng quát hóa mô hình có thể chấp nhận được [45, p.20] Việc thu thập

một tập dữ liệu chất lượng như vậy cho một tác vụ cụ thé có thé khó khăn Kỹ thuật

transfer learning có thé được sử dung dé giảm lượng dit liệu cần thiết cho việc đàotạo nhằm đạt được kết quả tốt hơn Transfer learning là một hình thức đào tạo trước

có giám sát Trong transfer learning, kiến thức về mô hình cơ sở được sử dung décải thiện hiệu suất của mô hình mới với điều kiện là mô hình cơ sở đã được đảo tạo

cho một nhiệm vụ tương tự [46-48] Transfer learning đặc biệt hữu ích cho các

nhiệm vụ nhận dạng đối tượng với các mô hình CNN [47-48] Tiếp theo, chúng tôitập trung vào việc triển khai transfer learning với các mô hình học sâu CNN Khi

một mô hình CNN với nhiều lớp được đào tao dé phân loại hình ảnh, các lớp của nó

sẽ học đặc điểm thứ bậc của các hình ảnh [45, p.6] Các lớp đầu tiên của mạng học

các đặc trưng chung hơn như các cạnh và các hình dạng trừu tượng khác Các lớp

cuối cùng của mạng tìm hiểu thêm các đặc trưng cụ thể của tác vụ Để minh họa,

một CNN đơn giản được sử dụng để phân loại hình ảnh thành ba loại được thé hiệntrong Hình 2.3 Lớp an đầu tiên phát hiện các cạnh trừu tượng trong khi lớp ân cuối

cùng phát hiện các đặc điêm dé nhận biệt hơn của các đôi tượng.

18

Trang 40

Output (object identity)

Hình 2.3 : Vi dụ về các đặc trưng đã học trên các lớp khác nhau cua CNN [45,

dạng hình ảnh, các mô hình CNN sâu đã được dao tao với dữ liệu ImageNet là lựa

chọn tốt làm mô hình cơ sở Mặc dù các bộ đữ liệu sẽ rất khác nhau, kỹ thuậttransfer learning đã được quan sát dé cải thiện tính tổng quát hóa [48]

Có hai chiến lược dé triển khai kỹ thuật transfer learning, đó là trích xuất đặc trưng

và tinh chỉnh siêu tham số Trong trích xuất đặc trưng, các lớp của mô hình cơ sởđược giữ nguyên Các lớp có định được sử dụng dé trích xuất các đặc trưng chung

dựa trên các đặc trưng đã được học trong nhiệm vụ trước Trong quá trình

backpropagation, các tham số của mô hình được đóng băng và không được cậpnhật Khi tinh chỉnh siêu tham số, các lớp của mô hình cơ sở không bị đóng băng và

19

Ngày đăng: 03/11/2024, 19:02