1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Mạng máy tính và truyền thông dữ liệu: Xây dựng ứng dụng tra cứu thông tin vi phạm giao thông dựa trên các loại mô hình máy học

91 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 91
Dung lượng 91,32 MB

Nội dung

Khoá luận về đề tài "XÂY DỰNG HE THONG NHAN DIỆN VI PHAM VA ỨNG DỤNG TRA CỨU THÔNG TIN VI PHẠM GIAO THÔNG DỰA TREN CÁC LOẠI MÔ HÌNH MAY HỌC" nhằm mục dich phát hiện hành vi vi phạm giao

Trang 1

ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA MẠNG MAY TÍNH VÀ TRUYEN THONG

TRAN DIEM MY NGỌC - 20521668

TRAN MINH QUAN - 20521796

KHOA LUAN TOT NGHIEP XAY DUNG HE THONG NHAN DIEN VI PHAM VA

UNG DUNG TRA CUU THONG TIN VI PHAM GIAO

THONG DỰA TREN CÁC LOẠI MO HÌNH MAY HOC

Building a detection system and developing an application to look

up traffic violation information based on various types of machine

learning models.

CU NHANNGANH MANG MAY TINH VA TRUYEN THONG DU LIEU

GIANG VIEN HUONG DAN

TS PHAN XUAN THIEN

TP HO CHÍ MINH, 2024

Trang 2

LỜI CẢM ƠN

Kính gửi thầy Phan Xuân Thiện,

Chúng tôi xin gửi lời cảm ơn chân thành đến Thầy Phan Xuân Thiện khoa Mạngmáy tính và Truyền thông vì những kiến thức quý báu và sự hướng dẫn tận tâm,nhiệt tình của Thầy trong quá trình thực hiện khóa luận tốt nghiệp Thầy đã luônsẵn sàng hỗ trợ và giải đáp các thắc mắc của chúng tôi trong suốt thời gian qua,

giúp chúng tôi hiểu rõ hơn về khóa luận và hoàn thành khóa luận một cách tốt

nhất

Chúng tôi cảm thấy may mắn khi được học tập và làm việc dưới sự chỉ dẫn của

Thay, những kinh nghiệm và kiến thức ma Thay truyền đạt sẽ luôn là tài sản quýgiá của chúng tôi trong sự nghiệp phát triển sau này

Một lần nữa, chúng tôi xin chân thành cảm ơn Thay Phan Xuân Thiện

Trang 3

TOM TAT KHÓA LUẬN

Với tinh trạng thường xuyên xảy ra các vụ tai nạn giao thông lớn nhỏ giữa các loại phương tiện với nhau do mật độ các phương tiện lưu thông cao và ý thức của ngườitham gia giao thông chấp hành chưa tốt, các hành vi vượt đèn đỏ, không đội mũ bảo

hiểm, đặc biệt và hay diễn ra tại các tuyến đường cao điểm luôn có xe may và xe

6 tô cỡ lớn hoạt động liên tục lân cận các trường đại học Vi du như: “Doan đườngđài khoảng 1km, từ ngã ba 621 (xa lộ Hà Nội) vào bến xe buýt Đại học Quốc gia

TP.HCM được xem là “điểm đen” về tai nạn giao thông.”! , “Trong năm qua tại

Khu đô thị ĐH Quốc gia đã xảy ra 18 vụ tai nạn giao thông Trong đó có 6 vụ liên

quan đến xe buýt và có hai vụ gây chết hai người”

Khoá luận về đề tài "XÂY DỰNG HE THONG NHAN DIỆN VI PHAM VA

ỨNG DỤNG TRA CỨU THÔNG TIN VI PHẠM GIAO THÔNG DỰA

TREN CÁC LOẠI MÔ HÌNH MAY HỌC" nhằm mục dich phát hiện hành vi

vi phạm giao thông trong phạm vi nội đô đại học Quốc gia Hồ Chí Minh, cụ thé

là hành vi vượt đèn đỏ, bằng cách áp dụng các kỹ thuật Học sâu tiên tiễn Nghiên

cứu này sử dụng dữ liệu giao thông kết hợp với các kỹ thuật tiền xử lý dữ liệu để

làm sạch và chuẩn bị dữ liệu cho việc huấn luyện mô hình Các mô hình máy học

như Học sâu (Deep Learning), Mạng nơ-ron tích chập (Convolutional Neural

Networks - CNN), và Máy học tăng cường (Reinforcement Learning) được áp

dụng đề phát hiện hành vi vi phạm giao thông Kết quả cho thấy mô hình Học sâu

cho kết quả tốt nhất trong việc phát hiện vi phạm vượt đèn đỏ với độ chính xác

cao và khả năng xử lý dữ liệu hình ảnh hiệu qua.

Từ đó, khoá luận đề xuất triển khai hệ thống giám sát giao thông tự động sử dụng

các mô hình máy hoc tại các giao lộ quan trong và có tỷ lệ vi phạm cao, tích hợp

các mô hình này vào hệ thông quan lý giao thông hiện có dé cung cấp cảnh báo

sớm về các hành vi vi phạm, dong thời tăng cường công tác tuyên truyện va giáo

! Trích dẫn từ bài báo Tai nạn giao thông rình rập “làng đại học” Thủ Đức - Tuổi Trẻ Online (tuoitre.vn)

? Trích dẫn từ bai báo Khu đô thị DH Quốc gia TP.HCM: Một năm có 18 vụ tai nan giao thông

(thanhnien.vn)

Trang 4

dục về việc áp dụng công nghệ trong giám sát giao thông nhằm nâng cao ý thứcchấp hành luật giao thông của người dân.

Việc áp dụng các mô hình máy học trong giám sát và quản ly giao thông mở ra

những cơ hội mới trong việc phát hiện vi phạm, đặc biệt là hành vi vượt đèn đỏ Các mô hình này không chỉ giúp tang cường hiệu quả giám sát mà còn đóng vaitrò quan trọng trong việc giảm thiểu tai nạn và đảm bảo an toàn giao thông Sự

phối hợp chặt chẽ giữa các cơ quan chức năng và việc áp dụng công nghệ tiên

tiến sẽ góp phần tạo ra một môi trường giao thông an toàn và văn minh hơn

Cấu trúc của Khoá luận tốt nghiệp

Chúng tôi xin trình bày nội dung của Khóa luận tốt nghiệp theo cấu trúc như sau:

- Chương 1: Giới thiệu

- _ Chương 2: Trình bày cơ sở lý thuyết

- _ Chương 3: Thiết kế và triển khai mô hình hệ thống

- _ Chương 4: Đánh giá và bàn luận kết quả

- _ Chương 5: Kết luận và hướng phát triển

Trang 5

ABSTRACT Frequent accidents between motorbikes, large vehicles, and pedestrians Dense

traffic, combined with some drivers' disregard for traffic laws (like running red

lights) and motorcyclists not wearing helmets, creates a risky environment This is especially true on busy university roads where motorbikes weave between larger

vehicles For instance, the 1km stretch from junction 621 to Ho Chi Minh City

National University's bus station is a notorious accident zone In the National

University Urban Area alone, 18 accidents occurred last year, with 6 involving

buses and tragically resulting in 2 deaths.

Thesis on the topic "BUILDING A DETECTION SYSTEM AND DEVELOPING

AN APPLICATION TO LOOK UP TRAFFIC VIOLATION INFORMATION

BASED ON VARIOUS TYPES OF MACHINE LEARNING MODELS." aims to

detect traffic violations within the inner city of Ho Chi Minh National University ,

specifically red light running behavior, by applying advanced Deep Learning

techniques This study uses traffic data combined with data preprocessing

techniques to clean and prepare data for model training Machine learning models

such as Deep Learning, Convolutional Neural Networks (CNN), and Reinforcement Learning are applied to detect traffic violations The results show that the Deep

Learning model gives the best results in detecting red light violations with high

accuracy and the ability to process image data effectively.

Hence, the thesis proposes the implementation of an automated traffic monitoring

system using machine learning models at key intersections with high violation rates These models should be integrated into the existing traffic management system to

provide early warnings of violations Additionally, efforts to promote and educate

the public about the use of technology in traffic monitoring should be intensified to enhance public awareness and compliance with traffic laws.

The application of machine learning models in traffic monitoring and management opens up new opportunities for detecting violations, particularly red-light running These models not only help enhance monitoring efficiency but also play a crucial

Trang 6

role in reducing accidents and ensuring traffic safety The close coordination between relevant authorities and the adoption of advanced technologies will contribute to creating a safer and more civilized traffic environment.

Structure of the Graduation Thesis

We present the content of the Graduation Thesis according to the following

structure:

- Chapter 1: Introduction

- Chapter 2: Presentation of Theoretical Basis

- Chapter 3: Design and Implementation of the System Model

- Chapter 4: Evaluation and Discussion of Results

- Chapter 5: Conclusion and Development Direction

Trang 7

MỤC LỤC

Chương 1 GIỚI THIỆU -s- 22s ss©ssesseessessessessee 1

1.1 Tổng quan -2-°=©EV+e+EEE+eEEE+EeEEE+etEEEAetEErxeertrxerrrrreerrrreerrrree 11.2 Lý do chọn đề tài -2 ccce©CEvveeeEEEEAeetrErExkerrrrrrkrrrrrrrkerrrrrrrerrrrrree 2

1.3 Mure 0 0008/12 2

1.4 Đối tượng nghiên cứu -2-°£++e+EE+xe+£EvxerErxeerrrreerrrreerrrree 2

1.5 Phạm vi nghiên CỨU - - - - «+ + xxx SESESESEESEEEkEkEkEkEkEkerrrrsrsre 3

1.6 Các nghiên cứu liên quann -5- 5-5-5 5< 5< SE E*EEEEkEEEkekekekeesersrkrsrsre 3

1.6.1 TTO'E TƯỚC: - G1 TH HH Hệ 3 1.6.2 NgOài nƯỚC LH HH HH ni 31.6.3 Những vấn đề còn tỒn tại - 2 +SE2 E211 2122112121 Eecre 4

1.6.4 Những van đề cần tập trung giải quyẾt - 2 2©52+cz+sz+xezxered 4

Chương2 CƠ SỞ LÝ THUYẾT e -° s2 ©cssssecsseesserssesse 1

2.1 Cơ sở lý fUYẾT -22-222<SEVSE22EE++EEELSEEE151E11312113311111311211322113 113eei, 1

2.1.1 SSD MobileNet v2 - LH HH ng ngà 1 2.1.2 MobileNet v2 Gà H nH ngư 22.1.3 Kết hợp SSD và MobileNet v2 ¿- 2-5 St+SEcEE‡EEE2EEErErrrrrei 4

"vi o6 5 2.1.5 Inception ModuÌes -c + 11199319919 1 11v ng ng rệt 8 2.1.6 Reduction MOdull€s - - «- «+ x11 ng ng ng ngư 9 2.1.7 Auxiliary CÏaSSIÍI€T G SG SH TH ng ng ng 9 2.1.8 Output LAY€T Go HH 102.1.9 Các kỹ thuật tối ưu của Inceptionv3 -¿-s¿©cx2sxszxszzseeex 102.1.10 Nguyên Lý Hoạt Động Hough Transform, Hough Line Transform 12 2.1.11 Probabilistic Hough Line Transform - 55s ss+sssess+ 15 2.1.12 Hough Line Segment TransfÍOrm - 5+5 + + + ++seseeeesseess 16

Trang 8

2.2 Mô hình Deep Learning YOlUO - «5-5-5 17 2.3 Mô hình mạng YOLOVŠ - << 1101110111 gen, 20 2.4 Phân loại YOOV5 5< HH HH 11H11 ung 23

2.5 OC HH HH TH TT Họ TH TH TH 24

2.5.1 Kiến trúc va Pipeline của OCR ¿ -©¿+s+x+zEzExerkerxzrkerxee 24

2.5.2 Ứng dụng của OCR -©2¿+2+++cx2Ekt2EEE2EEE211271E221211 21 282.5.3 Các mô hình OCR 5 2s 2x 23 2312119319912 1219 ng nrệp 28

Chuong3 THIET KE VÀ TRIEN KHAI MÔ HÌNH HỆ THÓNG 1

3.1 Tổng quan mô hình 2 2£ ©+£+£EE+e££EExettxeeerrxeerrrrxerrrrrerrre 1

3.2 Xây dựng bộ dữ liệu - ©5555 St HH HH gu ru 3

3.2.1 Nguồn dữ liệu ©tScSE9E1Ek E111 1e 1c rk, 33.2.2 Gn nhãn dữ LGU 2c E2 921111111E231 111111 9821111 kg re 5

3.3 Tiền xử lý dữ liệu 2e++2EV2++xeeetttEEEExxeertrtrkkrrerrrrrrrrreerree 63.4 Chỉ tiết thành phần xây dung hệ thống °-ezscee 6

3.4.1 Nhận diện và phân loại đèn giao thông . -«++s<+++s++ss2 6 3.4.2 Nhận diện vạch dùng chờ đèn đỏ va vùng vi phạm của phương tiện 123.4.3 Xác định vùng nhận diện và phát hiện đường vạch trắng ¬— 143.4.4 Xác định và vẽ vùng nhận diện phương tiện vi phạm - 163.4.5 Nhận diện và doc thông tin biển số xe vi phạm -«<+ 193.4.6 Thuật toán nhận diện ký tự OC 55+ S+xs+xsersersrrsrrsrrrke 22

3.5 Xây dựng cơ sở dit lỆU - «5-5 << HH ghen 24

3.6 Xây dựng ứng dụng tra CỨU s- << << SE kEkEEEEkEkEkEkekeeesesrrsrerer 26

3.6.1 Framework SỬ Ụng - Ăn HH HH ng nh 263.6.2 Kết nối đến database -¿- 2 5t2E2EESEEEEE 2212217112112 re 26Chương4 ĐÁNH GIA KET QUA HỆ THÓNG 5 55s 27

4.1 Đánh giá các mô hình bằng các kỹ thuật đánh giá 27

Trang 9

4.1.1 Mô hình Nhận diện và phân loại đèn giao thông 274.1.2 Mô hình nhận diện biển số Xe 2-©22 2 +2E£2£++£xczxzreerxees 39

Chuong5 KET LUẬN VA HƯỚNG PHAT TRIÊN - 42

SV KGt Wa 8n .ẽ.ẽ ẽ ẽẽ ẽ dQLHH 42

5.1.1 UU điểm -2-2+2E2EEEEEEEEEEEEEEE21211211 21.211.111 ectxe 425.1.2 Nhược điểm ¿-©+©E2+EEEEEEE2EEE21211221211211211 1111 1xx 425.2_ Hướng phát triỄn -2-ee©E+xeeEEExxerErxxererrxerrrrxerrrrrerrrrrrerrrrsee 42

Trang 10

DANH MỤC HÌNH

Hình 2.1 SSD có thé phát hiện đa dang trong một ảnh 2-2 2 2 2s: 1Hình 2.2 Kiến trúc chung của mô hình SSD - ¿2-2 2£ +2 £+E+2E++E£z£zEzEzez 2Hình 2.3 Kiến trúc của MobileNet v1 và MobileNet v2 -cccccccvcccrrreee 3Hình 2.4 Hệ tọa độ cực Polar - - - < E1 2111111111211 11 1811118811118 1 1881k re 13Hình 2.5 Biểu diễn điểm -.: 55t 22 tt tt tri 14Hình 2.6 Đường sin trong không gian tham $6 -2- 2 5¿©++2+22++cs+ze- 14Hình 2.7 Phát hiện đường thắng bằng giao điểm -2 2¿5¿©2x+2z+ccscee: 15Hình 2.8 Đường chấm trong hình là đường kết hợp tính năng mặc định 21

Hình 2.9 Chuỗi các bước (pipeline) dé chuyên đổi hình anh chứa văn bản thành văn

Hình 2.10 Tiền xử lý hình ảnh -2- 2: 2£ +E2£S£+EE££E££EE£EEtEEEEEEEEEerkerrkrrkeee 25Ib0)08185ii 82000 26 Hình 2.12 Nhận diện văn bản - ¿©2221 1122111115111 1 1921111911111 k tre 27Hình 2.13 Tái cầu triết Nà me 27Hình 3.1 Mô tả chỉ tiết hệ thống - 2: 2£ ©52£©S£2E££EE2EEtEEEEEEEEEEEvEEevrkrrrrrrreee |Hình 3.2 Lớp ‘go’ tập dữ liệu TLCD + 11x EsEEEeEekerkeskeskererkee 4

Hình 3.3 Lớp ‘stop’ tập dữ liệu TCTD - 5c +2 **+*£+*£+e+eeEeereeresereserees 4

Hình 3.4 Lớp ‘warning’ tập dữ liệu TCÌD - 5 5 3s ++ssererrrererrrrseerke 4Hình 3.5 Nhận diện biển số xe -22+-22++E tt reeg 5

Hình 3.6 Các table trong cơ sở dữ lIỆU - - 6 S5 3S St E+EEerseerrrerrrrrsrrrsvee 25

Hình 3.7 Truy van thông tin bảng Vehicles - 2-2 + 2+++£++£++zzxzxezez 26

Hình 3.8 Ứng dụng sẽ hiển thị dữ liệu từ database - - c x+x+zeEx+xererxzxsrs 26Hình 4.1 Confusion MafTIX c- 5 s11 0v ng nh ng ng ng 32Hình 4.2 Output đầu vào -¿- ¿- 252222 +E22EEE21271217111111111111111 111 re 34Hình 4.3 Nhận diện đèn giao thong băng mô hình SSD MobileNet v2 35

Hình 4.4 Phân loại đèn giao thông băng mô hình Inceptionv3 -. - 35

Hình 4.5 Output đầu vào ¿- + 2522 32121121 1121712111111111 1.1.1 re 36Hình 4.6 Nhận diện đèn giao thông bằng mô hình SSD MobileNetv2 36

Trang 11

Hình 4.7 Phân loại đèn giao thông bang mô hình InceptionV3 - 37Hình 4.8 Output đầu vào -¿- 2-52 2+2 EEEEEEEE1E21711111111111 1111111 re 37Hình 4.9 Nhận diện đèn giao thông băng mô hình SSD MobileNetv2 38Hình 4.10 Phân loại đèn giao thông bằng mô hình Inceptionv3 - - 38

Trang 12

DANH MỤC BANG

Bang 2.1 Thông tin tóm tắt về một số kiến trúc CNN 2-2 2 2+cz+£z+xee: 7Bang 2.2 So sánh các loại phiên bản YOLLOVŠ - 5 S113 Sisseesesrersee 24Bảng 3.1 Chì tiết các thuộc tính của tập dữ liệu TLCD và CLPID - 3Bảng 4.1 Các Độ Do Hiệu Suất của Mô Hình InceptionV3 - 27

Trang 13

DANH MỤC TU VIET TAT

Danh mục từ viết tắt Y nghĩa

YOLO You Only Look Once

OCR Optical Character Recognition

SSD Single Shot MultiBox Detector

Trang 14

Chương 1 GIỚI THIEU

1.1 Tổng quan

Với số lượng các phương tiện tham gia giao thông cũng đang ngày một gia

tăng một cách chóng mặt, cùng với đó các cơ sở hạ tang và ban ngành quan

lý về trật tự giao thông cũng đang không thể đáp ứng đủ với sự gia tăng đó

Chính điều này đã giúp cho nhận diện vi phạm giao thông là một lĩnh vực

đang thu hút nhiều sự quan tâm, với mục tiêu cải thiện hiệu quả giám sát và

xử ly các hành vi vi phạm giao thông.

Với cơ hội rộng mở như vậy, Công nghệ học máy (Machine Learning) và

học sâu (Deep Learning) đã tăng khả năng cho máy tính nhận diện, hiểu và

xử lý hình ảnh một cách thông minh Nhờ việc học thông qua huấn luyện

mà các mô hình máy học có thể nhận diện vật thé và hiểu hình anh theo cách

tự động tương tự như cách con người nhìn và xử lý chúng Trong hệ thống,

thị giác máy tính giúp nhận diện và khoanh vùng được phạm vi hình anh

cần nhận diện như đèn giao thông, tín hiệu dén giao thông, vạch dừng vàbiển số xe

Sự kết hợp giữa Học sâu và thị giác máy tính dé nhận diện vi phạm giaothông dựa trên tín hiệu đèn giao thông Tuy nhiên, nghiên cứu nay đặt ranhiều thách thức, từ việc thiết kế mô hình Học sâu phù hợp, khả năng nhậndiện các vật thê, đến việc tối ưu hóa hiệu suất và độ chính xác khi ứng dụngthực tế

Tóm lại, nghiên cứu về thị giác máy tính và mô hình Học sâu dé xây dung

hệ thống giao thông thông minh, khả năng nhận diện được hành vi vi phạmgiao thông tại các đèn giao thông đặc biệt tại vi trí Dai học Quốc Gia TPHCM, đóng góp phần nhiều vào lĩnh vực an toàn giao thông, hạn chế tối đacác tai nạn có thê xảy ra.

Trang 15

1.2 Lý do chọn đề tài

Chưa được triển khai rộng rãi tại Đại học Quốc Gia — TP HCM, có thétriển khai và ứng dụng tại địa điểm này

Giải quyết được tối đa van đề thực tế đang xảy ra: không tuân thủ luật

giao thông dễ gây nên tai nạn giao thông.

Tiết kiệm được sức người, hệ thống có thể tự động giám sát và phát hiện

hành vi vi phạm.

1.3 Mục tiêu nghiên cứu

Mục đích chính của đề tài này là phát triển “XÂY DỰNG HỆ THÓNG NHẬN

DIỆN VI PHẠM VÀ ỨNG DỤNG TRA CỨU THÔNG TIN VI PHẠM GIAO

THÔNG DỰA TRÊN CÁC LOẠI MÔ HÌNH MÁY HỌC”, nhằm tự động hóa quá

trình phạt nguội và giữ trật tự an toàn giao thông Hệ thống sẽ sử dụng đa dạng cácloại mô hình Deep Learning đề xử lý đữ liệu được thu thập các camera giám sát,

cho phép xử lý một cách tự động.

1.4 Đối tượng nghiên cứu

Thu thập dữ liệu:

Hình ảnh đèn giao thông: Dữ liệu ban đầu được thu thập hình ảnh của 3 loại

đèn giao thông (go, stop, warning — xanh, đỏ, vàng).

Hình ảnh biển số xe: Dữ liệu ban đầu được thu thập hình ảnh của biển số xecác loại ở nhiều nơi

Gắn nhãn dữ liệu: Quá trình gan nhãn được thực hiện dé xác định biển số xetrong từng hình ảnh, tạo ra một bộ đữ liệu đã được gán nhãn phục vụ cho việchuấn luyện mô hình

Xây dựng và phát triển các loại mô hình Deep Learning:

Sử dụng các mô hình học sâu: SSD MobileNet v2, Inceptionv3 dé nhận diện

và phân loại đèn giao thông và phương tiện vi phạm.

Sử dụng thuật toán Hough Line Transform: nhận diện vạch dừng chờ đèn đỏ.

Sử dụng mô hình YOLOv5: nhận diện biển số xe

Sử dung module OCR dé nhận diện ký tự trên biển số xe

Trang 16

15 Phạm vi nghiên cứu

Phần offline:

Xây dựng bộ đữ liệu: Thu thập, gán nhãn và tăng cường đữ liệu dé tạo ra một

bộ dữ liệu phong phú và đa dạng.

Huấn luyện mô hình: Sử dụng bộ dữ liệu đã xây dựng đề huấn luyện và đánhgiá các mô hình SSD MobileNet v2, YOLOv5

Phần online: Đánh giá và cải tiến: Liên tục đánh giá hiệu suất của hệ thốngtrong môi trường thực tê và cải tiên đê đảm bảo độ chính xác và hiệu quả.

1.6 Cac nghiên cứu liên quan

Trong nghiên cứu này, nhóm đã sử dụng các mô hình học sâu, cụ thé là

YOLOv4, dé xác định vi trí biển số xe trong ảnh Kết qua cho thấy mô hìnhđạt độ chính xác cao, với mAP (mean Average Precision) lên tới 91% và tốc

độ xử lý đạt 31,2 FPS, cho thấy khả năng áp dụng hiệu quả của mô hình trongcác hệ thống nhận diện biển số xe thời gian thực.”

Đề xuất sử dụng mô hình YOLOv4 dé phát hiện và nhận diện biển báo và tínhiệu đèn giao thông Họ sử dụng phần cứng Jetson TX2 để tối ưu thời gianhuấn luyện Dữ liệu sử dụng bao gồm 32 lớp với hơn 1500 ảnh được thu thập

từ Los Angeles Hệ thống đạt được chỉ số mAP 91% và tốc độ 31.2 FPS trêntập dữ liệu kiểm tra.*

Ngoài nước

Đề xuất một hệ thống nhận diện đèn giao thông sử dụng kỹ thuật học sâu(deep learning) và bản đồ trước (prior maps) trên nền tảng xe tự hành IARA

Họ sử dụng mô hình YOLOv3 dé phát hiện và phân loại trạng thái đèn giao

3 Ứng dụng máy học trong xác định vị trí biển số xe; Trần Văn Bình, Nguyễn Hữu Tùng, và Lê Thị Thu Hà; Tạp chí khoa học Đại học Tây Nguyên số 57; 2022.

* Nhận diện biển báo và tín hiệu đèn giao thông sử dụng Yolov4 trên phần cứng Jetson TX2; Bùi Quốc Tú,

Nguyễn Huy Hoàng, Trương Quang Phúc, Lê Quang Bình, Hồ Nhut Minh; Tạp chí Khoa học Công nghệ và Thực phẩm; 2022.

Trang 17

thông từ hình ảnh camera Kết quả cho thấy hệ thống có thé nhận diện chínhxác các đèn giao thông liên quan trong các tuyến đường được định trước tạithành phố Vitoria.Š

- Trong nghiên cứu này, nhóm tác giả đã sử dụng mô hình học sâu

Inception-V3 dựa trên phương pháp học chuyên giao dé phát hiện và nhận diện đèngiao thông Quá trình thực hiện bao gồm việc huấn luyện và kiểm tra môhình trên bộ dữ liệu LISA traffic light, được tăng cường bởi các phươngpháp tiền xử lý dữ liệu Kết qua cho thay mô hình đạt được độ chính xác

98,6% trong việc nhận diện đèn giao thông.”

1.6.3 Những vấn đề còn tôn tại

- Mac dù có nhiều nghiên cứu đã được thực hiện nhằm cải thiện chất lượng và

hiệu quả của các hệ thống giám sát vi phạm giao thông, vẫn còn tồn tại một sốvấn đề chưa được giải quyết hoàn toàn:

e Độ chính xác và hiệu suất của mô hình: Mặc dù các mô hình học sâu như

CNN và YOLO đã dat được nhiều thành công, vẫn còn tồn tại vấn đề về

độ chính xác và hiệu suất khi áp dụng trong môi trường thực tế, đặc biệt là

với các hình ảnh có nhiễu và điều kiện ánh sáng khác nhau

e Kha năng mở rộng và tính linh hoạt: Hau hết các nghiên cứu tập trung

vào một loại mô hình xử lý cho một công việc cụ thé nhất dinhhj, chưa có

nhiều sự kết hợp dé tạo nên một hệ thống.

1.6.4 Những vấn đề cần tập trung giải quyết

- Dựa trên các van dé còn tồn tại đã được xác định, nghiên cứu này sẽ tập trung

vào việc giải quyết các vấn đề sau:

e Xây dựng bộ dữ liệu đa dạng và phong phú: Thu thập và gán nhãn dữ

liệu cho 2 bộ đữ liệu phân loại đèn giao thông và nhận diện biển số phương

tiện vi phạm.

> Traffic Light Recognition Using Deep Learning and Prior Maps for Autonomous Cars; Lucas C Possatti và

nhóm nghiên cứu từ Universidade Federal do Espirito Santo, Brazil; 2019 International Joint Conference on

Neural Networks (IJCNN); 30 September 2019.

6 Transfer Learning Based Traffic Sign Recognition Using Inception-v3 Model; Mohammed Qader Kheder,

Aree Ali Mohammed; Periodica Polytechnica Transportation Engineering; August 2018

Trang 18

e_ Phát triển và tối ưu hoá mô hình: Nghiên cứu, huấn luyện 2 mô hình

Inceptionv3 (cho nhiệm vụ phân loại đèn giao thông) và YOLOvS (cho nhiệm vụ nhận diện biên sô xe).

Trang 19

Chương2 CƠ SỞ LÝ THUYET

2.1 Cơ sở lý thuyết

2.1.1 SSD MobileNet v2

SSD (Single Shot MultiBox Detector) là một phương pháp hiện đại dé nhận

diện vật thé trong anh, được phát triển bởi Wei Liu và các đồng nghiệp vào

năm 2016 SSD nồi bật với khả năng thực hiện nhận diện vật thể nhanh chóng

và chính xác, thích hợp cho các ứng dụng yêu cầu thời gian thực

Đặc điểm:

e Phat hiện đối tượng nhanh: SSD có thể phát hiện nhiều vật thể trong một

ảnh mà không cần qua giai đoạn đề xuất đối tượng như các mô hình trước

đây.

e Sử dụng multi-scale feature maps: SSD sử dụng các feature maps ở nhiều

kích thước khác nhau dé phát hiện các vật thể có kích thước và tỉ lệ đa

dạng.

e Direct prediction: SSD trực tiếp dự đoán bounding boxes và các nhãn phân

loại từ các feature maps mà không cần thêm bước xử lý trung gian

e Không cần giai đoạn dé xuất vùng: Tăng tốc độ xử lý và giảm độ phức tạp

của mô hình.

29.9 FPS

Hình 2.1 SSD có thé phat hiện đa dang trong một anh

Trang 20

- _ Kiến trúc: SSD có kiến trúc bao gồm hai phan chính: Backbone va Detector.

e Backbone: Phan này thường là một mạng CNN như VGG-16 hoặc ResNet,

có nhiệm vụ trích xuất các đặc trưng từ ảnh đầu vào Các đặc trưng nàybao gồm ca high-resolution features và low-resolution features

e Detector: Phan này bao gồm các extra feature layers và predic-tion layers

Cac extra feature layers duoc thém vao sau backbone dé trích xuất các đặctrưng ở các kích thước khác nhau Prediction layers dự đoán bounding boxes và scores cho môi lớp vật thê từ các feature maps.

Extra Feature Layers

VGG-16 '

_ through ConvS, 3 layer Classifier : Conv: 3x3x(4x(Classes+4))

Classifier : Conv: 3x3x(6x(Classes+4))

§ > Detections:8732 per Class | Non-Maximum Suppression

Conv: 3x3x1024 Conv: tx1x1024 Conv: 1x1x256 “Com:fxixf28 Con

Conv: 3x3x512-s2 Conv: 3x3x256-s2 Com

|

Hình 2.2 Kiến trúc chung của mô hình SSD

- Lotich:

e Hiệu suất cao: SSD có thé đạt được độ chính xác cao trong việc nhận diện

vật thể mà vẫn duy trì được tốc độ xử lý nhanh

e Linh hoạt: SSD có thé sử dụng nhiều loại backbone khác nhau tùy theo yêu

cầu về độ chính xác và tốc độ, chang hạn như MobileNet cho các ứng dung

di động.

e _ Thực thi trong thời gian thực: Với tốc độ xử lý nhanh, SSD có thé được sử

dụng trong các ứng dụng yêu cầu thời gian thực như xe tự lái, an ninh, và

robot.

2.1.2 MobileNet v2

- MobileNet v2 là một mô hình neural network được thiết kế dé hoạt động hiệu

quả trên các thiết bị đi động và nhúng Được phát triển bởi Google, MobileNetv2 cải tiến dựa trên MobileNet vl bang cách giới thiệu các khối Inverted Re-siduals và Linear Bottlenecks.

Trang 21

- Dac điểm:

e Inverted Residuals: Các khối residual dao ngược giúp giảm số lượng tính

toán và tham số trong mô hình

e Linear Bottlenecks: Các lớp bottleneck sử dụng các lớp convolu-tion 1x1

với các lớp linear thay vì activation function phi tuyến tính để giữ nguyênthông tin.

e - Hiệu quả tính toán cao: MobileNet v2 được thiết kế dé giảm thiểu số lượng

tính toán mà vẫn duy trì độ chính xác cao.

- Kiến trúc: Kiến trúc của MobileNet v2 bao gồm các khối Inverted Residuals

và Linear Bottlenecks.

e Inverted Residuals: Mỗi khối nay bao gồm một lớp convolution 1x1 dé mở

rong SỐ lượng channels, một lớp depthwise convolution dé trích xuất đặctrưng, và một lớp convolution 1x1 khác dé nén số lượng channels

e Linear Bottlenecks: Giúp giữ nguyên thông tin đặc trưng bằng cách sử

dụng các lớp linear thay vì các hàm kích hoạt phi tuyến tính

conv 1x1, Relu6 Add conv 1x1, Linear

Trang 22

e Nhẹ và nhanh: MobileNet v2 có số lượng tham số và tính toán ít hơn nhiều

so với các mô hình deep learning truyền thống, phù hợp cho các ứng dụngtrên thiết bi di động và nhúng

e Độ chính xác cao: Mặc dù giảm thiểu số lượng tính toán, Mo-bileNet v2

van duy trì độ chính xác cao trong các nhiệm vụ nhận diện va phân loại

hình ảnh.

e Dễ triển khai: Với thiết kế gọn nhẹ, MobileNet v2 dé dàng triển khai trên

các thiết bị có tài nguyên hạn chế

2.1.3 Kết hợp SSD và MobileNet v2

Việc kết hợp SSD và MobileNet v2 tận dụng được ưu điểm của cả hai mô

hình: khả năng nhận diện vật thể hiệu quả cua SSD và tính toán nhanh gọn nhẹ

của MobileNet v2.

Đặc điểm:

© Tốc độ và hiệu quả: Kết hợp MobileNet v2 lam backbone giúp giảm thiêu

sỐ lượng tính toán mà vẫn đảm bảo hiệu suất cao của SSD

e Linh hoat trong ứng dụng: Có thé sử dụng cho các thiết bi di động và nhúng

mà không ảnh hưởng đến độ chính xác của việc nhận diện vật thẻ

Kiến trúc:

e Backbone: MobileNet v2 được sử dụng thay cho VGG-16 để trích xuất các

đặc trưng từ ảnh đầu vào

e Detector: Cac extra feature layers va prediction layers của SSD được thêm

vao sau MobileNet v2 dé du doan bounding boxes va scores cho mỗi lớp

vật thê

Phiên bản SSD được điều chỉnh phù hợp cho các ứng dụng di động gọi là

SSDLite SSDLite thay thế các lớp convolution thông thường bằng depthwise

separable convolution trong các lớp dự đoán của SSD, giúp giảm thiểu số

lượng tham số và tính toán

Lợi ích: Tối ưu cho nhận diện đèn giao thông:

Trang 23

e Hiệu suất cao: Sự kết hợp giữa SSD và MobileNet v2 cho phép hệ thống

phát hiện và phân loại đèn giao thông với tốc độ nhanh và độ chính xáccao Điều này đảm bảo hệ thống có thể nhận diện trạng thái của đèn giaothông kịp thời, phục vụ cho các tình huống giao thông phức tạp

e Phân loại màu sắc đèn giao thông: Hệ thống không chỉ phát hiện mà còn

phân loại chính xác các màu sắc đèn giao thông (đỏ, vàng, xanh), giúp đưa

ra các phản hồi phù hợp (dừng, chạy, cảnh báo)

Hiệu quả trên thiết bị di động và nhúng:

Nhẹ và nhanh: Sự kết hợp này giảm thiểu số lượng tính toán, giúp hệ thốnghoạt động hiệu quả trên các thiết bị có tài nguyên hạn chế như các hệ thốnggiám sát giao thông trên xe hoặc các thiết bị đi động

Thực thi thời gian thực: Đảm bảo hệ thống có thé xử lý và đưa ra quyết địnhtrong thời gian thực, rất quan trọng cho các ứng dụng như xe tự lái

Linh hoạt và mở rộng: Hệ thống dễ dàng triển khai trên nhiều nền tảng và cóthể mở rộng đề nhận diện và phân loại nhiều loại đèn giao thông và các đốitượng giao thông khác nhau.

Tối ưu hóa tài nguyên: Sử dụng ít tài nguyên tính toán và bộ nhớ, phù hợp chocác ứng dụng yêu cau thời gian thực và tính di động cao

InceptionV3Inception v3 là kết quả của nhiều cải tiến từ các phiên bản trước đó, đặc biệt

là Inception v1 (còn gọi là GoogLeNet) và Inception v2 Mục tiêu chính cuacác phiên bản này là tăng cường hiệu suất và độ chính xác của các mạng neuronsâu trong khi giảm thiểu độ phức tạp tính toán

Kiến trúc GoogleNet — Inception V1 này đã giải quyết một câu hỏi lớn trongmang CNN đó là sử dụng kernel_size với kích thước bao nhiêu thì hợp lý.Trong khi các kiến trúc mạng nơ ron trước đó đều sử dụng các bộ lọc với đadạng các kích thước 11x11, 5x5, 3x3 cho tới nhỏ nhất là 1x1

Trang 24

- Inception-V3 là phiên bản kế thừa của Inception-V1, với 24 triệu tham sé.

Tất cả các layer tích chập của Inception-V3 đều đi kèm với batchnormalization và ReLU activation Batch normalization giúp tăng tốc quátrình huân luyện băng cách chuân hóa đâu vào của môi layer theo phân

phối N(0,1)

- Inception-V3 giải quyết van dé thắt cổ chai trong mạng no-ron bằng cách duy

trì kích thước các layers ôn định và cải thiện hiệu suất tính toán nhờ phươngpháp nhân tố hóa

Kiến trúc | Năm phát Đặc điểm chính Số lượng Đóng góp

hành tham số chính

(triệu)

LeNet-5 1998 2 Conv layers, 3 FC 0,06 Mang CNN

layers, Average- dau tién choPooling , Dau vào nhỏ phân loại

VGG-16 2014 3 Conv layers, 3 FC 138 Khoi dau xu

layers, bộ loc 3x3 hướng mang

sâu, kiếntrúc block

GoogleNet - 2014 Khối Inception, bộ lọc 5 Định hình

Inception- 1x1, 3x3, 5x5 kién trac

VI khối, tham

Trang 25

sô ít hơn

VGG-16Inception- 2015 Batch normalization, 24 Giai quyét

V3 phương pháp nhân tố thắt cổ chai,

tăng hiệu quả tính

toán.

ResNet-50 2015 Kết nồi tat (skip 26 Mạng sâu

connection), Batch với tham số

50Bảng 2.1 Thông tin tóm tắt về một số kiên trac CNN

- _ Kiến trúc: Inception v3 là một trong những mô hình học sâu tiên tiến được

phát triển bởi Google, nồi tiếng với khả năng nhận diện hình ảnh chính xác vàhiệu quả Được thiết kế để cân băng giữa độ sâu và độ rộng của mạng,Inception v3 kết hợp nhiều kỹ thuật tiên tiến dé cải thiện hiệu suất mà vẫn duytrì tính hiệu quả về mặt tính toán

- Cac thành phan chi tiết và các cải tiến chính trong kiến trúc của Inception v3:

e Stem cua Inception v3: Phan stem chịu trách nhiệm trích xuất các đặc trưng

cơ bản từ hình ảnh đầu vào Cấu trúc của stem bao gồm:

e_ Conv (3x3, stride 2): Convolution 3x3 với stride 2 để giảm kích thước không

gian của đầu vào từ 299x299 xuống còn 149x149

Trang 26

Max Pooling (3x3, stride 2): Max pooling 3x3 với stride 2 để giảm kích thước

không gian xuống 73x73

Conv (1x1): Convolution 1x1 để giảm kích thước không gian của các đặc

trưng.

Conv (3x3): Convolution 3x3, kích thước sau lớp này là 71x71.

Conv (3x3, stride 2): Convolution 3x3 với stride 2, giảm kích thước xuống còn35x35.

Inception ModulesCac Inception modules là phần cốt lõi của Inception v3, được thiết kế dé trích

xuất các đặc trưng từ nhiều góc độ khác nhau bằng cách sử dụng các nhánh

song song.

Inception Module A: Module nay bao gồm nhiều nhánh song song, Các nhánh

này được kết hợp lại bằng phép nối (concatenation) Module A được lặp lại 3

lần trong kiến trúc Inception v3:

e Branch 1: Conv lxI.

e Branch 2: Conv 1x1 + Conv 5x5.

e Branch 3: Conv 1x1 + Conv 3x3 + Conv 3x3.

e Branch 4: Average Pooling + Conv 1x1.

Inception Module B: Module nay có cau trúc phức tap hơn với các volution bat đối xứng, Các nhánh nay cũng được kết hợp lại bang phép nối

con-(concatenation) Module B được lặp lại 4 lần:

e Branch 1: Conv lxI.

e Branch 2: Conv 1x1 + Conv 7x1 + Conv 1x7.

e Branch 3: Conv 1x1 + Conv 7x1 + Conv 1x7 + Conv 7x1 + Conv 1x7.

Trang 27

2.1.7

e Branch 4: Average Pooling + Conv 1x1.

Inception Module C: Cac nhánh này cũng được kết hop lại bằng phép nối

(concatenation) Module C được lặp lại 2 lần:

e Branch 1: Conv 1x1.

e Branch 2: Conv 1x1 + Conv 3x3.

e Branch 3: Conv 1x1 + Conv 3x3 + Conv 3x3.

e Branch 4: Average Pooling + Conv 1x1.

Reduction ModulesReduction Modules được sử dung để giảm kích thước không gian của đặc

trưng mà vẫn giữ được các thông tin quan trọng.

Reduction Module A: Các nhánh này được kết hợp lại bằng phép nối

(concatenation).

e Branch 1: Max Pooling (3x3, stride 2).

e Branch 2: Conv 3x3 với stride 2.

e Branch 3: Conv 1x1 + Conv 3x3 với stride 2.

Reduction Module B: Cac nhánh này cũng được kết hợp lại bằng phép nối(concatenation).

e Branch 1: Max Pooling (3x3, stride 2).

e Branch 2: Conv 1x1 + Conv 3x3 với stride 2.

e Branch 3: Conv 1x1 + Conv 7x1 + Conv 1x7 + Conv 3x3 với stride 2.

Auxiliary ClassifierLớp phân loại phụ trợ được thêm vào giữa mang dé cải thiện gradient trongquá trình huấn luyện và giúp mạng học tốt hơn Nó bao gồm:

e Average Pooling (5x5): Pooling toàn cục với kích thước 5x5.

e Conv (1x1): Convolution 1x1.

e Fully Connected: Lớp fully connected với số neuron bang số lớp đầu ra

¢ Softmax: Lớp softmax dé tao ra xác suất cho mỗi lớp đầu ra

Trang 28

2.1.9

Output Layer Phân cuôi cùng cua mang là các lớp fully connected và softmax dé du đoán dau ra cuôi cùng:

Global Average Pooling: Pooling toàn cục để chuyên đổi các đặc trưng

thành vector.

Fully Connected: Lớp fully connected với số lượng neuron bằng số lớp đầu

Ta.

Softmax: Lớp softmax dé tạo ra xác suất cho mỗi lớp dau ra

Các kỹ thuật tối ưu của Inceptionv3Inception v3 sử dụng nhiều kỹ thuật tối ưu hóa dé cải thiện hiệu suất:

Factorized Convolutions: Thay vì sử dụng các convolution lớn, Inception

v3 sử dụng kỹ thuật phân tách các convolution lớn thành các convolution

nhỏ hon dé giảm chi phi tính toán và tăng hiệu qua Vi du, một convolution

5x5 có thể được thay thế bằng hai convolution 3x3, giảm số lượng tham số

và tính toán cần thiết

Asymmetric Convolutions: Sử dung convolution bất đối xứng dé tối ưuhóa kích thước Thay vì sử dụng convolution vuông truyền thống (ví dụ:3x3, 5x5), Inception v3 sử dụng các convolution bất đối xứng như 1x3 va3x1 Điều này giúp giảm chi phí tính toán và tăng hiệu quả

Label Smoothing: Kỹ thuật này giúp tránh hiện tượng overfitting bang cáchlàm mềm các nhãn huấn luyện Thay vi gan giá trị 1 hoặc 0 tuyệt đối chocác nhãn, label smoothing gán các giá trị mềm hơn, làm cho mô hình trởnên tổng quát hơn và ít nhạy cảm hơn với nhiễu trong đữ liệu huấn luyện.Auxiliary Classifiers: Sử dụng các lớp phân loại phụ trợ để cải thiệngradient trong quá trình huấn luyện và giúp mạng học tốt hon Các lớp nàygiúp làm giảm hiện tượng vanishing gradient, giúp mạng học tốt hơn vànhanh hơn.

10

Trang 29

e_ Batch Normalization: Ap dụng normalization trên từng batch giúp mạng

hội tụ nhanh hơn và ổn định hơn Điều này cũng giúp giảm hiện tượngoverfitting.

- Hiệu suất của Inception v3: Inception v3 là một mô hình học sâu tiên tiến được

biết đến với hiệu suất vượt trội trong các nhiệm vụ nhận diện hình ảnh Dưới

đây là các khía cạnh chỉ tiết về hiệu suất của mô hình này:

e Hiệu suất trên Tap Dữ liệu ImageNet: Inception v3 đã được thử nghiệm và

đạt kết quả ấn tượng trên tập dữ liệu ImageNet, một trong những tap dirliệu lớn và phổ biến nhất cho các bài toán nhận diện hình anh Cụ thé,Inception v3 đã đạt:

e Độ chính xác top-5 khoảng 96.1%: Điều này có nghĩa là trong 96.1%

trường hợp, nhãn chính xác của hình ảnh nằm trong số 5 nhãn dự đoánhàng đầu của mô hình

e Độ chính xác top-1 khoảng 78.8%: Điều này có nghĩa là trong 78.8%

trường hợp, nhãn chính xác của hình ảnh là nhãn dự đoán hàng đầu của mô

hình.

e Hiệu suất So với Các Mô Hình Khác: So với các mô hình trước đó như

VGGNet và GoogLeNet, Inception v3 đã cải thiện hiệu suất đáng ké trong

khi vẫn giữ được mức độ phức tạp tính toán hợp lý.

e Hiệu suất trong các ứng dụng thực tế: Nhờ vào hiệu suất cao và tính hiệu

quả, Inception v3 được sử dụng rộng rãi trong nhiều ứng dụng thực tế:

- Cac thử nghiệm trên ImageNet cho thấy Inception v3 vượt trội hơn so với các

phiên bản trước và các mô hình khác”:

e Hiệu suất trên tập dữ liệu ImageNet 2012: Inception v3 dat 21.2% top-1

error và 5.6% top-5 error với một lần đánh giá đơn khung hình

7 Rethinking the Inception Architecture for Computer Vision; Christian Szegedy, Vincent Vanhoucke, Sergey

loffe, Jon Shlens, Zbigniew Wojna; Conference on Computer Vision and Pattern Recognition (CVPR); 2016

11

Trang 30

e Ensemble Performance: Khi kết hợp 4 mô hình Inception v3 và sử dụng

đánh giá đa khung hình, hiệu suất đạt được là 17.3% top-1 error và 3.5%top-5 error, đặt một tiêu chuẩn mới trong lĩnh vực nhận diện hình ảnh

- Ứng dụng: Inception v3 được sử dung rộng rãi trong nhiều lĩnh vực khác nhau:

e Nhận diện hình ảnh: Sử dụng để phân loại hình ảnh và nhận diện các đối

tượng trong hình ảnh với độ chính xác cao.

e_ Chuyên đổi phong cách: Dùng trong các ứng dụng nghệ thuật dé chuyên

đổi phong cách hình ảnh

e Phát hiện đối tượng: Ap dụng trong các hệ thống phát hiện đối tượng dé

nhận diện và phân loại các đối tượng trong thời gian thực.

2.1.10 Nguyên Lý Hoạt Động Hough Transform, Hough Line Transform

- Hough Transform là một kỹ thuật phân tích hình ảnh được sử dụng rộng rãi dé

phát hiện các đường thang trong anh số Kỹ thuật này đặc biệt hữu ich trongviệc phát hiện các cấu trúc hình học trong các ảnh có nhiều nhiễu hoặc cáccạnh không rõ ràng Phép biến đồi Hough được đặt theo tên của nhà toán hoc

người Anh Richard Hough, người đầu tiên đề xuất kỹ thuật này vào năm 1962

- Hough Line Transform là một kỹ thuật quan trọng trong xử lý anh kỹ thuật sd,

dùng để phát hiện các đường thắng trong ảnh Kỹ thuật này được phát triển

bởi Richard Duda và Peter Hart vào năm 1972 và đã trở thành một công cụ

phổ biến trong lĩnh vực thị giác máy tính Mục tiêu chính của Hough

Transform là biến đổi không gian điểm trong ảnh sang không gian tham số dé

phát hiện các đặc trưng hình học như đường thăng.

- _ Biểu Diễn Đường Thăng trong không gian tham số: Một đường thang trong

không gian ảnh có thé được biéu diễn bang hai hệ tọa độ khác nhau:

e Hệ toa độ Descartes: Phương trình đường thang:

y=mx+c

Trong đó: m là hệ sé góc; c là đoạn chắn trục y

e Hé tọa độ cực Polar: Phương trình đường thăng

12

Trang 31

- _ Trong hệ tọa độ cực, mỗi điểm trong không gian ảnh sẽ được biểu diễn dưới

dạng một đường cong sin trong không gian tham số (r,0) Điều này giúp tránhcác van đề về độ đốc vô cùng và dé dàng hơn trong việc phát hiện giao điểm

- - Trong Hough Transform, chúng ta sử dụng hệ tọa độ cực dé biểu diễn các

đường thang Phương trình đường thắng được viết lại như sau :

R = xcos0+ysin9

- Biéu diễn một điểm trong không gian tham số

© Mỗi điểm (xo,yo) trong không gian anh có thé biểu diễn dưới dạng một

tập các đường thăng di qua điểm đó trong không gian tham số (r,Ô)

Phương trình được viết lại như sau:

r = xocos@ + yosin0

13

Trang 32

a oe Leas)

Hinh 2.5 Biéu dién diém

Đường sin trong không gian tham số: Nếu vẽ ho các đường thang di qua

một điểm (xo,yo) trong không gian 0—r, chúng ta sẽ nhận được một đường

Hình 2.6 Đường sin trong không gian tham số

Đồ thị trên thé hiện mỗi quan hệ giữa 9 và r với r = 8cos0 + 6sin0

(>0 and 0<9<2r.)Phát hiện đường thăng bằng giao điểm:

e Lap lại quá trình trên cho tất cả các điểm trong ảnh Nếu các đường cong

của hai điểm khác nhau giao nhau trong không gian 0-1, điều đó có nghĩa

là cả hai điêm đêu năm trên cùng một đường thăng Ví dụ, nêu chúng ta có

thêm hai điểm x1=4, y1=9 và x2=12, y2=3 và vẽ đồ thị của chúng, chúng

ta sẽ nhận được các đường cong giao nhau tại một điểm duy nhất

14

Trang 33

e Để phát hiện đường thang, Hough Transform theo dõi số lần giao nhau

giữa các đường cong của tất cả các điểm trong ảnh Nếu số lần giao nhautại một điểm vượt qua một ngưỡng nhất định, hệ thống sẽ xác định rằng cómột đường thang với các tham số (0,r) tại điểm giao đó

2.1.11 Probabilistic Hough Line Transform

- Phép biến đổi Hough xác suất là một phiên bản cải tiến của phương pháp

Hough tiêu chuẩn, nhằm giảm thiểu lượng tính toán và tăng hiệu quả

- _ Khác biệt chính:

e Phương pháp này chi xem xét một tập hợp con của các điểm biên thay

vì toàn bộ các điểm trong ảnh, giúp giảm khối lượng tính toán và tăngtốc độ xử lý

e Thay vì trả về các tham số (r,0) của toàn bộ đường thang, nó trả về các

đoạn thăng với các điểm đầu và cuối

- Quá trình hoạt động:

e Phát hiện cạnh: Sử dụng thuật toán phát hiện cạnh dé tìm các điểm biên

e Lấy mẫu ngẫu nhiên: Chọn ngẫu nhiên một tập hợp con các điểm biên

e Xây dựng ma trận tích lũy: Tạo ma trận tích lũy và bỏ phiếu cho các

đoạn thắng đi qua các điểm biên này

15

Trang 34

e Lọc kết quả: Các đoạn thắng với số lượng giao nhau vượt ngưỡng sẽ được

coi là các đoạn thăng hợp lệ

Kết quả: Trả về các điểm đầu và cuối của các đoạn thắng được phát hiện, thay

vì toàn bộ đường thăng

2.1.12 Hough Line Segment Transform

Phép biến đổi Hough phát hiện đoạn thắng là một biến thể khác nhằm pháthiện các đoạn thăng thay vì các đường thăng vô hạn

e Phát hiện cạnh: Sử dụng thuật toán phát hiện cạnh để tìm các điểm biên

e Xây dựng ma trận tích lũy: Tạo ma trận tích lũy và bỏ phiếu cho các đoạn

thăng đi qua các điểm biêne© Lọc kết quả: Lọc các đoạn thắng dựa trên các điều kiện về độ đài và khoảng

cách giữa các đoạn thăng

Kết quả: Trả về các đoạn thăng được xác định bằng các điểm đầu và cuối củachúng.

Chi Tiết Kỹ Thuật

e p\rhop (rho): Độ phân giải của tham số p\rhop trong không gian tham số

Thông thường, giá tri nay là 1 pixel.

e 0\theta0 (theta): Độ phân giải của tham số 0\theta0 trong không gian tham

số Giá trị thông thường là 1 độ (CV_PI/180 radians)

e Ngưỡng (Threshold): Số lượng giao điểm tối thiểu dé xác định một đường

thăng Ngưỡng này phải được điều chỉnh tùy thuộc vào yêu cầu và chất

lượng của ảnh.

16

Trang 35

e Min Line Length: Độ dài tối thiểu của một đoạn thăng Thường được sử

dụng trong Probabilistic Hough Transform dé loại bỏ các đoạn thắng ngắn

không mong muốn.

e©_ Max Line Gap: Khoảng cách tôi đa giữa hai điểm dé chúng được coi là một

đoạn thắng liên tục

Ứng Dụng:

e Phat hiện làn đường trong hệ thống lái tự động: Sử dụng dé phát hiện các

làn đường trên đường, giúp hệ thống lái tự động xác định và điều khiển xe

di chuyên đúng làn

e Nhận diện văn ban trong ảnh: Giúp phát hiện các đường kẻ, đoạn văn ban

trong các tài liệu số hóa

e Phân tích cau trúc hình học trong các ứng dụng kỹ thuật: Sử dụng trong

các ứng dung kỹ thuật dé phân tích và kiêm tra các cấu trúc hình học

e©_ Xử lý anh y tế: Phát hiện các đặc trưng tuyến tinh trong ảnh y tế như ảnh

X-quang, giúp trong việc chân đoán và phân tích

2.2 Mô hình Deep Learning YOLO

YOLO là một thuật toán điển hình dùng trong nhiệm vu phát hiện đối tượngtrong lĩnh vực thị giác máy tính Nó được nghiên cứu và phát triển bởi JosephRedmon va Ali Farhadi tại dai học Washington — Hoa Kỳ và được phát hànhlần đầu vào năm 2015 Ké từ đó YOLO đã được hoan nghênh và đón nhậnrộng rãi bởi cộng đồng trí tuệ nhân tạo trên khắp thế giới

Kiến trúc: YOLO sử dụng mạng CNN với các lớp convolutional và connected Đặc biệt, phiên bản YOLOv3 sử dụng mạng Darknet-53 gồm 53lớp convolutional kết nối liên tiếp, với mỗi lớp convolutional được theo saubởi một batch normalization và một activation Leaky Relu Mô hình này tríchxuất các đặc trưng của ảnh đầu vào và dự đoán bounding box cùng với nhãn

fully-của các đôi tượng trong ảnh.

17

Trang 36

Nguyên lý hoạt động: YOLO chia ảnh đầu vào thành các ô lưới (grid cells).Mỗi ô dự đoán một số bounding box cố định và xác suất thuộc về các lớp đốitượng khác nhau Đầu ra của mô hình là một ma trận 3 chiều với kích thướcSxSx(BxN+C), trong đó S là sé lượng 6 lưới, B là sỐ bounding box mỗi 6, N

là số thông số mỗi bounding box, va C là số lớp đối tượng

Output: xác suất dự báo vật thé xuất hiện trong bounding box, tọa độ tâm vàkích thước của bounding box, và xác suất của các lớp đối tượng

Dự báo trên nhiều feature map: YOLO dự báo trên nhiều feature map với cáckích thước khác nhau dé phát hiện các vật thé ở nhiều tỉ lệ Điều này giúp môhình có thể nhận diện được cả các vật thé lớn và nhỏ trong ảnh

Anchor box: dự đoán bounding box cho các vật thể Mỗi vật thể trong ảnhhuấn luyện được gan vào một anchor box có IoU cao nhất với ground truthbounding box.

Hàm mất mát (Loss Function): classification loss, localization loss, và

confidence loss Classification loss tính độ lỗi giữa nhãn dự đoán va nhãn thật

của đối tượng Localization loss tính độ lỗi giữa bounding box dự đoán và

bounding box thật Confidence loss tính độ lỗi giữa dự đoán bounding box có

chứa đối tượng hay không

Non-max suppression: Đề giảm số lượng bounding box dự đoán, YOLO sửdụng thuật toán non-max suppression dé lọc bỏ các bounding box có xác suấtthấp và giữ lại bounding box có xác suất cao nhất

Các phiên bản YOLO:

e YOLOv2, phát hành năm 2016, đã cải thiện mô hình gốc bằng cách tích

hợp bình thường hóa theo lô (batch normalization), hộp neo (anchor boxes), và các cụm kích thước (dimension clusters).

e YOLOv3, ra mắt năm 2018, tiếp tục nâng cao hiệu suất của mô hình bằng

cách sử dụng mạng lưới xương sống hiệu quả hơn, nhiều hộp neo và gộp

không gian kim tự thấp (spatial pyramid pooling).

18

Trang 37

YOLOv4 được phát hành năm 2020, giới thiệu các cải tiễn như tăng cường

dữ liệu Mosaic, một đầu phát hiện không cần neo mới (anchor-freedetection head), và hàm mất mát mới (new loss function)

YOLOv5 tiép tục cải thiện hiệu suất của mô hình và thêm các tính năngmới như tối ưu hóa siêu tham số (hyperparameter optimization), theo dõithí nghiệm tích hợp và xuất tự động sang các định dạng phổ biến

YOLOv6 được mã nguồn mở bởi Meituan vào năm 2022 và đang được sử

dụng trong nhiều robot giao hàng tự động của công ty

YOLOv7 bổ sung thêm các nhiệm vụ như ước lượng tư thế (poseestimation) trên bộ dit liệu điểm then chốt COCO (COCO keypoints

dataset).

YOLOvs8 là phiên bản mới nhất của YOLO do Ultralytics phát triển La

một mô hình tiên tiến, hiện đại, YOLOv8 xây dựng trên thành công của

các phiên bản trước, giới thiệu các tính năng và cải tiễn mới dé tăng cường

hiệu suất, tính linh hoạt, và hiệu quả YOLOv§ hỗ trợ đầy đủ các nhiệm vụ

AI về thị giác, bao gồm phát hiện (detection), phân đoạn (segmentation),

ước lượng tư thế (pose estimation), theo dõi (tracking), và phân loại

(classification) Sự đa dang nay cho phép người dùng tận dung kha năng

của YOLOv§ trong nhiều ứng dụng và lĩnh vực khác nhau

'YOLOv9 giới thiệu các phương pháp sáng tạo như Thông tin Gradient Lập

trình được (Programmable Gradient Information - PGI) và Mạng Tổng hợp

Lớp Hiệu quả Tổng quát (Generalized Efficient Layer Aggregation

Ưu điểm của YOLO:

19

Trang 38

e Hiệu quả thời gian thực: Với khả năng xử lý hàng chục khung hình mỗi

giây, YOLO là lựa chọn lý tưởng cho các ứng dụng yêu cầu thời gian thực

e Độ chính xác cao: Mặc dù có tốc độ nhanh, YOLO van duy trì được độ

chính xác cao trong việc phát hiện và phân loại đối tượng

e Khả năng tông quát hóa tốt: YOLO có khả năng tổng quát hóa tốt với các

hình ảnh khác nhau và các ngữ cảnh khác nhau nhờ vào cách nó xử lý toàn

bộ hình ảnh.

- Han chế của YOLO:

e Gặp khó khăn trong việc phát hiện các đối tượng nhỏ nằm trong một ô của

lưới.

e - Hộp giới hạn không chính xác: các bounding boxes có thé không hoàn toàn

chính xác so với các đôi tượng thực tê.

2.3 Mô hình mạng YOLOv§5

- Kiến trúc: Kiến trúc của YOLOv§ bao gồm ba thành phan chính: Backbone,

Neck, và Head Mỗi thành phần đóng một vai trò quan trọng trong việc trích

xuất và xử lý các đặc trưng từ ảnh đầu vào dé đưa ra dự đoán cuối cùng

e©_ Backbone: CSP-Darknet53: Đây là phần chính của mô hình, dùng dé trích

xuất các đặc trưng từ ảnh đầu vào YOLOvS sử dụng các mô hình họcchuyền giao (transfer learning) như VGGIó, ResNet-50 làm Backbone.Backbone giúp mô hình học các đặc trưng và vị trí của đối tượng trongảnh.

Công thức CSP:

XI:I=F(X2)+X»kp

XI: Đầu vào của tang 1

F: Ham phi tuyến

Xskip: Đầu vào được bỏ qua (skip connection)

e Neck: Path Aggregation Network (PANet): PANet được sử dung dé tổng

hợp các đặc trưng từ nhiều mức độ khác nhau của Backbone PANet giúp

20

Trang 39

cải thiện hiệu suất tong hợp đặc trưng và tăng khả năng phát hiện đối tượng

ở nhiều kích thước khác nhau

Công thức PANet:

Fou=Concat(Fiow, Upsample(Fhigh))

Flow: Đặc trưng từ lop dưới.

Fhigh: Đặc trưng từ lớp trên.

Upsample: Phép nội suy tăng kích thước.

Hình 2.8 Đường chấm trong hình là đường kết hợp tính năng mặc định

e Head: Anchor-based Prediction

o Sử dụng các anchor boxes dé đự đoán các hộp giới hạn và xác suất lớp

Mỗi anchor box đại điện cho một kích thước và tỉ lệ cụ thể của đối tượng

o Công thức Anchor-based Prediction:

21

Trang 40

SSS: Kích thước cua lưới.

BBB: Số lượng hộp giới hạn được dự đoán cho mỗi ô lưới

CCC: Xác suất có đối tượng trong hộp giới hạn

obj,

Ti Chỉ báo có đối tượng trong ô lưới thứ ¡ và hộp giới hạn thứ j

Xcoorđ,Aobj,Ànoobj : Trọng số cho các thành phan loss

- Dac điểm:

e Hiệu suất cao: YOLOv5 được tối ưu hóa dé hoạt động hiệu quả trên cả

CPU và GPU, giúp đễ đàng triển khai trên nhiều loại phần cứng khác nhau

e Dễ sử dụng: Cung cấp các tập lệnh huấn luyện và dự đoán đơn giản, dễ

hiểu, kèm theo tài liệu hướng dẫn chỉ tiết

e Chất lượng dự đoán cao: Cung cấp các dự đoán chính xác với độ trễ thấp,

phù hợp cho các ứng dụng thời gian thực.

e Khả năng tùy chỉnh: Hỗ trợ nhiều tùy chọn dé điều chỉnh các tham số huấn

luyện và dự đoán, giúp người dùng dễ dàng tinh chỉnh mô hình theo nhu

cầu cụ thé

- _ Những cải tiến của YOLOVS so với các phiên bản trước:

22

Ngày đăng: 06/12/2024, 15:22

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN