Luận văn thạc sĩ Khoa học máy tính: Nghiên cứu, xây dựng các giải thuật dự báo tốc độ phương tiện của dòng xe dựa vào dữ liệu camera

Trong đó, phát hiện vàước lượng vận tốc của phương tiện là hai yếu tố cơ sở để giải quyết một số bàitoán liên quan như ước lượng vận tốc của dòng phương tiện đang lưu thông,nhận diện loạ

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA

———————————–

NGUYỄN VĂN TRUNG

NGHIÊN CỨU, XÂY DỰNG CÁC GIẢI THUẬT

DỰ BÁO TỐC ĐỘ PHƯƠNG TIỆN

CỦA DÒNG XE DỰA VÀO DỮ LIỆU CAMERA

Chuyên ngành: Khoa Học Máy Tính

Mã số: 8.48.01.01

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH, tháng 01 năm 2024

Trang 2

TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐHQG-HCM

Cán bộ hướng dẫn khoa học 1: PGS TS Trần Minh Quang

Cán bộ chấm nhận xét 1: PGS TS Nguyễn Tuấn Đăng

2 Thư Ký: TS Nguyễn Thị Ái Thảo

3 GV Phản Biện 1: PGS TS Nguyễn Tuấn Đăng

4 GV Phản Biện 2: PGS TS Nguyễn Văn Vũ

5 Ủy Viên: PGS TS Trần Minh Quang

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lýchuyên ngành sau khi luận văn đã được sửa chữa (nếu có)

CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA

KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH

Trang 3

TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự Do - Hạnh Phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ

I TÊN ĐỀ TÀI:

– Nghiên cứu, xây dựng các giải thuật dự báo tốc độ phương tiện của dòng xe dựa vào

dữ liệu camera / Research and develop solutions to estimate traffic flow velocity fromtraffic cameras/videos

II NHIỆM VỤ VÀ NỘI DUNG :

– Khảo sát các nghiên cứu và các giải pháp hiện có Từ đó, chọn giải pháp phù hợpthực tiễn, đề xuất các cải tiến phù hợp với thực tiễn tại TP HCM

– Xây dựng demo để đánh giá các giải pháp trên dữ liệu thật ở TP.HCM

III NGÀY GIAO NHIỆM VỤ: 04/09/2023

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 28/12/2023

V CÁN BỘ HƯỚNG DẪN: PGS TS Trần Minh Quang

TP HCM, ngày tháng năm 20 CÁN BỘ HƯỚNG DẪN HỘI ĐỒNG NGÀNH

TRƯỞNG KHOA KH&KT MÁY TÍNH

Trang 4

Lời đầu tiên, tôi xin bày tỏ lòng biết ơn và gửi đến thầy PGS.TS Trần MinhQuang lời cảm ơn chân thành Thầy đã tận tình chỉ bảo, hướng dẫn và địnhhướng cho tôi trong suốt quá trình thực hiện luận văn.

Tôi cũng xin gửi lời cám ơn chân thành đến quý thầy cô Khoa Khoa học và

Kỹ thuật Máy Tính vì đã hết lòng truyền dạy cho tôi những kiến thức trongsuốt thời gian học tập tại trường Đại học Bách Khoa – Đại học Quốc Gia Tp

Hồ Chí Minh

Sau cùng tôi xin được gửi lời cám ơn chân thành nhất đến gia đình tôi, bạn

bè, những người đã luôn động viên, khuyến khích và tạo điều kiện thuận lợi chotôi trong toàn bộ quá trình học tập cũng như thực hiện đề tài nghiên cứu này

Học viên thực hiện đề tài

Nguyễn Văn Trung

Trang 5

Hiện nay ở Việt Nam, hệ thống camera giám sát giao thông là một công cụquan trọng giúp nâng cao an toàn và quản lý giao thông hiệu quả Việc triểnkhai hệ thống camera giám sát giao thông mang lại nhiều lợi ích thiết thực cho

xã hội Việc giám sát vi phạm giao thông, an ninh trật tự và quản lý giao thông

là những nhiệm vụ chính của hệ thống giám sát này Trong đó, phát hiện vàước lượng vận tốc của phương tiện là hai yếu tố cơ sở để giải quyết một số bàitoán liên quan như ước lượng vận tốc của dòng phương tiện đang lưu thông,nhận diện loại phương tiện hoặc xác định phương tiện chạy quá tốc độ cho phép.Theo tác giả, hệ thống này đang sử dụng nhiều chủng loại camera đặt ở các vịtrí khác nhau để thu thập, phân tích và xử lý dữ liệu, tuy nhiên một số giảipháp liên quan đến ước lượng vận tốc phương tiện chỉ áp dụng vào một số vị trí

cụ thể chưa mang tính toàn diện

Trên cơ sở đó, luận văn này sẽ tập trung nghiên cứu, hiện thực các giải phápnhận diện, ước lượng vận tốc của các phương tiện giao thông dựa vào dữ liệucủa camera giám sát giao thông đặt cố định trên các tuyến đường một cách tựđộng Bộ dữ liệu sử dụng trong luận văn bao gồm hình ảnh và video từ hệ thốngcamera giám sát giao thông của sở Giao thông vận tải (GTVT) TP Hồ ChíMinh (TP HCM)

Nghiên cứu đã tìm ra phương pháp tối ưu và phù hợp với bài toán thực tế

ở Việt Nam nói chung và TP HCM nói riêng Phương pháp này đã được hiệnthực, đánh giá và áp dụng vào bộ dữ liệu thực tế có gắn tốc độ Kết quả đạtđược của đề tài:

(1) Cung cấp cho người tham gia giao thông cái nhìn tổng quan về tình trạnggiao thông theo các khu vực có gắn camera giám sát ở địa bàn TP HCM Từ

đó, giúp người tham gia giao thông có thể lựa chọn hướng di chuyển phù hợpvới nhu cầu của họ, góp phần hạn chế nguy cơ ùn tắc giao thông

(2) Hỗ trợ cho cơ quan chức năng giám sát được tình trạng giao thông hoặchành vi vi phạm giao thông từ đó có thể đưa ra các đối sách quản lý phù hợp

Từ khoá: xử lý ảnh, giám sát giao thông, vận tốc phương tiện, hệ số tỉ lệ.

Trang 6

Currently in Vietnam, the traffic surveillance camera system is an importanttool to improve traffic safety and manage traffic effectively The implementation

of the traffic surveillance camera system brings many practical benefits to society.Monitoring traffic violations, public security and traffic management are themain tasks of this surveillance system In particular, detecting and estimating thevelocity of vehicles are two fundamental factors to solve some related problemssuch as estimating the speed of the current traffic flow, identifying vehicle types,

or identifying vehicles running over the speed limit According to the author, thissystem is currently using many types of cameras placed in different positions tocollect, analyze and process data, however some solutions related to estimatingthe velocity of vehicles are only applied to some specific locations that are notcomprehensive

Based on this, this thesis will focus on researching and implementing solutions

to identify and estimate the speed of vehicles based on data from fixed trafficsurveillance cameras on roads automatically The data used in the thesis includesimages and videos from the traffic surveillance system of the Department ofTransportation (GTVT) of Ho Chi Minh City (HCMC)

The study found the optimal and suitable method for the practical problem inVietnam in general and HCMC in particular This method has been implemented,evaluated and applied to the actual data with attached speed The results of thetopic:

(1) Provide traffic participants with an overview of the traffic situation inthe areas with surveillance cameras in the HCMC area From there, help trafficparticipants to choose the appropriate moving direction to meet their needs,contributing to reducing the risk of traffic congestion

(2) Support for the authorities to monitor the traffic situation or trafficviolations from which they can make appropriate management measures

Keywords: image processing, traffic surveillance, velocity vehicle, pixel per meter.

Trang 7

Tôi xin cam đoan đây là công trình nghiên cứu khoa học tôi đã tự thực hiện.

Dữ liệu được sử dụng trong toàn bộ quá trình phân tích của luận văn có nguồngốc rõ ràng và minh bạch, được công bố theo đúng quy định và đạo đức nghiêncứu khoa học Các kết quả đạt được của nghiên cứu trong luận văn này, tôi đã

tự thực hiện một cách trung thực và khách quan Kết quả luận văn được công

bố lần đầu tiên trong bản báo cáo này và chưa từng được công bố trước đó

TP Hồ Chí Minh, Ngày 20 Tháng 01 Năm 2024

Học viên

Nguyễn Văn Trung

Trang 8

Lời cám ơn i

Thuật ngữ & từ viết tắt x

1 Giới thiệu bài toán 1

1.1 Lý do chọn đề tài 1

1.2 Tổng quan về bài toán 2

1.3 Mục tiêu nghiên cứu 3

1.4 Ý nghĩa khoa học và thực tiễn 5

1.4.1 Ý nghĩa khoa học 5

1.4.2 Ý nghĩa thực tiễn 6

1.5 Bố cục luận văn 6

2 Các nghiên cứu liên quan 8 2.1 Tổng quan về tình hình giao thông ở TP HCM 8

2.2 Các nghiên cứu liên quan 9

2.2.1 Hướng nghiên cứu đối với bài toán nhận diện phương tiện giao thông 10

2.2.2 Hướng nghiên cứu đối với bài toán ước lượng tốc độ phương tiện giao thông 14

3 Nền tảng lý thuyết 19 3.1 Khái niệm về thị giác máy tính - học máy 19

3.1.1 Định nghĩa 19

3.1.2 Phương pháp ước lượng hệ số tỉ lệ (δ) dựa vào đối tượng tham chiếu 20

3.1.3 Kỹ thuật hiệu chuẩn camera sử dụng các điểm ảo (vanishing point) 22 3.1.4 Giải thuật ước lượng vận tốc phương tiện 25

3.2 Phương pháp phát hiện và theo dõi đối tượng 27

3.2.1 Phương pháp phát hiện đối tượng - Object detection 27

3.2.2 Phương pháp theo dõi đối tượng - Object Tracking 32

3.2.3 SORT - Simple Online Realtime Object Tracking 33

Trang 9

3.2.4 Deep SORT 35

4 Giải pháp đề xuất 38 4.1 Bước xác định ba điểm ảo và hiệu chuẩn camera 40

4.2 Bước xây dựng 3D bouding box cho các phương tiện 42

4.3 Bước tính toán hệ số tỉ lệ δ dựa vào các chiều của 3D bouding box 46

4.4 Ước lượng vận tốc của phương tiện bằng hệ số tỉ lệ δ 48

5 Hiện thực 51 5.1 Môi trường thử nghiệm 52

5.2 Module thu thập dữ liệu 52

5.3 Module huấn luyện và đánh giá mô hình YOLOv7 segmentation 54

5.4 Đánh giá khả năng theo dõi phương tiện của mô hình DeepSORT 59

5.5 Module xác định ba điểm ảo và hiệu chuẩn camera 62

5.6 Module ước lượng vận tốc các phương tiện 63

6 Đánh giá và tổng kết nghiên cứu 66 6.1 Về độ chính xác của vận tốc thu được 66

6.1.1 Đánh giá trên tập dữ liệu BrnoComspeed 67

6.1.2 Đánh giá trên tập dữ liệu ở TP HCM 68

6.2 Kết quả đạt được 71

6.3 Hạn chế và đề xuất hướng mở rộng 72 Tài liệu tham khảo 74

Trang 10

1.1 Mô hình hệ thống thử nghiệm của giải pháp 5

2.1 Hệ thống camera đo tốc độ có ghi hình ảnh [1] 9

2.5 Các nghiên cứu liên quan đến bài toán tốc độ 10

2.6 Mô hình camera 15

2.7 Mục đích hiệu chuẩn camera 16

3.1 Ví dụ minh hoạ về đối tượng tham chiếu [2] 21

3.2 Minh hoạ về hệ số tỉ lệ 22

3.3 Mô hình hoá 3 điểm ảo được mô phỏng 24

3.4 Hình ảnh minh họa về thuật toán tính vận tốc [3] 25

3.5 HOG 28

3.6 Chu trình phát hiện đối tượng với Mạng nơ-ron tích chập dựa trên khu vực 28

3.7 Minh họa mô hình Faster R-CNN 29

3.8 Mô hình thuật toán YOLO [4] 31

3.9 So sánh tốc độ YOLOv7 [5] 32

3.10 So sánh hiệu suất YOLOv7 [5] 32

3.11 Các mô hình trạng thái và mô hình quan sát của SORT 34

3.12 Các mô hình trạng thái và mô hình quan sát của deep SORT [6] 36

4.1 Giải pháp đề xuất 40

4.2 Tìm kiếm diểm ảo VP1 41

4.3 kết quả khi áp dụng giải thuật Candy để tìm kiếm các cạnh 42

4.4 Giải thuật tìm tiếp tuyến 43

4.5 Các bước xây dựng 3D bounding Box cho ô tô 44

4.6 Hình ảnh 3D bounding box của phương tiện từ một số video sau khi áp dụng phương pháp trên 46

4.7 Tính toán toạ độ thật trên mặt phẳng đường 46

4.8 Tính toán hệ số tỉ lệ δ với ô tô 48

4.9 Ví dụ về khoảng cách d và tính toán vận tốc 48

4.10 Ví dụ về ngữ cảnh giữa ô tô với camera 49

5.1 Mô hình thực nghiệm của hệ thống đề xuất 52

5.2 Thư mục chứa hình ảnh đã thu thập được 53

5.3 Giao diện của nền tảng Roboflow 55

5.4 Giao diện chức năng gắn nhãn vùng phân đoạn (segementation) của Roboflow 56

Trang 11

5.5 Hệ số Loss trong kết quả huấn luyện lại 56

5.6 Metrics của box và mask từ kết quả huấn luyện 57

5.7 Ví dụ kết quả phát hiện phương tiện khi áp dụng mô hình tại đầu Hầm Thủ Thiêm ban ngày 57

5.8 Ví dụ kết quả phát hiện phương tiện khi áp dụng mô hình tại đầu Hầm Thủ Thiêm ban đêm 58

5.9 Ví dụ kết quả phát hiện phương tiện khi áp dụng mô hình tại đường Nguyễn Thái Học, Quận 1 thời điểm đông xe 58

5.10 Kết quả thử nghiệm DeepSORT 60

5.13 Các bước xác định ba điểm ảo 62

5.14 Kết quả dự báo vận tốc từ một số camera 65

6.1 Vị trí cầu đi bộ tại đường Nguyễn Văn Cừ, Quận 5, TP HCM 68

6.2 Hình ảnh từ video kết quả thực nghiệm 1 69

6.3 Hình ảnh từ video kết quả thực nghiệm 2 70

Trang 12

2.1 Ưu và nhược điểm của các hướng tiếp cận dựa vào mạng CNN 14

2.2 Ưu và nhược điểm của các hướng tiếp cận hiệu chuẩn camera 18

4.1 Thống kê kích thước các loại phương tiện phổ biến tại TP.HCM 47

5.1 Kết quả thực nghiệm với một số camera tại TP.HCM 64

6.1 Bảng thống kê tỉ lệ lỗi vận tốc ước lượng với vận tốc thật của từng phương tiện trong bộ dataset 67

6.2 Bảng thống kê sai số vận tốc của thực nghiệm 1 69

6.3 Bảng thống kê sai số vận tốc của thực nghiệm 2 70

Trang 13

CCTV Closed-Circuit Television

YOLO You Only Look Once

GPUs Graphics Processing Units

TTGT Tình trạng giao thông

LOS Level Of Service

TP HCM Thành Phố Hồ Chí Minh

GTVT Giao Thông Vận Tải

OSM Open Street Map

ĐHBK Đại Học Bách Khoa

CNN Convolutional Neural Network

SORT Simple Online Realtime Object Tracking

DL Deep Learning

FPS Frames Per Second

PPM Pixel Per Meter

Trang 14

Giới thiệu bài toán

1.1 Lý do chọn đề tài

Trong những năm gần đây, giao thông đô thị là một trong những vấn đề đượcquan tâm hàng đầu tại Việt Nam bởi vì nó ảnh hưởng trực tiếp đến cuộc sốngcủa người dân đặc biệt là những người sống ở thành phố lớn như Hà Nội vàTP.HCM Trong đó, ùn tắc giao thông ảnh hưởng đến nhiều mặt của đời sống

xã hội như làm tăng thời gian di chuyển, tiêu hao nhiều nhiên liệu, hao mònphương tiện và trực tiếp làm ô nhiễm môi trường, thậm chí còn ảnh hưởng chấtlượng cuộc sống của người dân

Bên cạnh vấn đề ùn tắc, tình trạng tai nạn giao thông vẫn đang ở mức cao

và gây ra nhiều tác động đến xã hội và kinh tế Theo tổng cục thống kê, sốlượng tai nạn giao thông năm 2022 là 11.400 vụ, trong đó làm chết 6.384 người,

bị thương 7.804 người [7] Nguyên nhân chính của những vụ tai nạn giao thôngthường là chạy quá tốc độ, chạy sai làn đường quy định hoặc vi phạm các quytắc lưu thông đường bộ khác Để hạn chế tình trạng này, TP.HCM đã thựchiện nhiều biện pháp khác nhau, trong đó có tăng cường lắp đặt các cameragiám sát giao thông (CCTV) với mục đích theo dõi và giám sát tình trạng giaothông cũng như xử lý phạt nguội các trường hợp vi phạm Theo như đề án "Xâydựng hệ thống giám sát hình ảnh camera tập trung của TP.HCM - Giai đoạn2019-2025", toàn thành phố hiện có hơn 37,000 camera giám sát Hệ thống này

có đặc điểm đa dạng, đủ các chủng loại camera, đầu ghi hình, phương thức kếtnối khác nhau [8]

Đồng thời, các ứng dụng trí tuệ nhân tạo (AI) đã được áp dụng để cải thiệnhiệu quả của việc quản lý và điều hành giao thông đô thị, ví dụ ứng dụng nhậndiện biển số xe, xác định và theo dõi phương tiện lưu thông trên đường Thêm

Trang 15

vào đó, sự bùng nổ của thiết bị di động và dữ liệu lớn đã góp phần mang đếnnhiều hơn những giải pháp tiềm năng để giải quyết những vấn đề của xã hội nhưvấn đề giao thông của TP HCM Cùng với sự tiến bộ của khoa học công nghệ,nguồn dữ liệu được thu thập từ nhiều nguồn khác nhau và được chia sẻ từ cộngđồng Tuy nhiên, không phải cá nhân nào cũng sẵn sàng chia sẻ thông tin cánhân như vị trí của mình, phương tiện sử dụng, Từ những thách thức trên, tácgiả nhận thấy rằng những hình ảnh, video thu được từ hệ thống camera giámsát giao thông là một nguồn dữ liệu đủ lớn và hữu ích cho việc nghiên cứu vàphát triển một số giải pháp giúp ích cho công tác điều hành cũng như giám sátphương tiện giao thông như giám sát lưu lượng dòng phương tiện hay ước lượngvận tốc của phương tiện hoặc dòng xe Chính vì vậy, trong luận văn này, tác giả

đề xuất nghiên cứu và xây dựng một giải pháp dự báo tốc độ phương tiện củadòng xe tham gia giao thông trên các tuyến đường có gắn CCTV tại TP HCM

1.2 Tổng quan về bài toán

Bài toán ước lượng vận tốc phương tiện tham gia giao thông là bài toán cănbản trong lĩnh vực giám sát giao thông thông minh Đây không phải là bài toánmới Tuy nhiên, đối với các thành phố lớn của Việt Nam như ở Hà Nội, TP.HCM, bài toán này còn gặp phải nhiều thách thức, cụ thể như sau:

• Các loại phương tiện tham gia giao thông đa dạng, số lượng phương tiệnlưu thông lớn, đặc biệt là tại giờ cao điểm Tình trạng kẹt xe kéo dài khiếnviệc di chuyển của người dân tốn nhiều thời gian cũng như việc nhận diện

và theo dõi các phương tiện của cơ quan quản lý trở nên khó khăn hơn

• Các camera giám sát giao thông gồm nhiều chủng loại được đặt ở độ cao vàgóc quay khác nhau Điều này đòi hỏi phương pháp đề xuất phải linh hoạt,

có thể áp dụng được trên hầu hết các camera

• Với điều kiện thời tiết xấu như mưa lớn, ngập đường khiến cho chất lượnghình ảnh thu thập từ camera bị giảm sút Điều này làm ảnh hưởng đến độchính xác của việc ước lượng vận tốc

Với những thách thức nêu trên, luận văn này đề xuất một giải pháp ước lượngvận tốc phương tiện tham gia giao thông dựa trên phương pháp học máy và xử

Trang 16

lý ảnh Giải pháp này có những ưu điểm sau:

• Phương pháp có khả năng nhận diện và theo dõi được nhiều loại phươngtiện phổ biến ở địa bàn TP HCM (gồm xe máy, ô tô con, xe tải, xe buýt

và xe van) ở những thời điểm khác nhau trong ngày

• Phương pháp có thể áp dụng được trên nhiều loại camera giám sát giaothông khác nhau Đồng thời, giải pháp này không phụ thuộc vào vị trí vàgóc quay của camera

• Khả năng ước lượng vận tốc chính xác trong nhiều điều kiện ánh sáng vàthời tiết khác nhau

1.3 Mục tiêu nghiên cứu

Từ những mô tả tổng quan về bài toán đã trình bày, mục tiêu luận văn nàyhướng đến là tập trung nghiên cứu các giải pháp ước lượng, dự báo vận tốc củadòng phương tiện giao thông dựa vào dữ liệu từ camera giám sát trên thế giới

Từ đó tìm ra phương pháp tối ưu và phù hợp với thực tế ở Việt Nam để hiệnthực và thử nghiệm, áp dụng vào thực tế điều kiện cụ thể tại TP.HCM Đồngthời, luận văn phải xây dựng được một chương trình thử nghiệm trên các tập

dữ liệu thật trên thế giới và cụ thể tại TP HCM để có cơ sở đưa ra một số đánhgiá để có thể gắn giải pháp này vào hệ thống Utraffic [9] Đây là hệ thống dựbáo tình trạng giao thông đô thị dựa vào dữ liệu từ cộng đồng đã nghiên cứu

và đề xuất các giải pháp hợp lý, vận dụng sức mạnh của công nghệ 4.0 và sứcmạnh của cộng đồng nhằm giải quyết các vấn đề cốt lõi, mới và chưa được giảiquyết tốt bởi các giải pháp hiện có, góp phần giảm thiểu ùn tắt giao thông.Với những mục tiêu đặt ra, luận văn này sẽ tập trung giải quyết ba vấn đềchính sau đây:

• Đề xuất một phương pháp thu thập dữ liệu đảm bảo chất lượng dữ liệu đầuvào nhằm phục vụ cho quá trình học máy và phân tích dữ liệu một cáchhiệu quả

• Đề xuất được một mô hình phát hiện, theo dõi các phương tiện lưu thôngtrên đường

Trang 17

• Đề xuất một phương pháp ước lượng được vận tốc của phương tiện gồm xemáy, ô-tô con, xe buýt và xe tải một cách tự động trên đa số các camerađặt cố định bằng cách sử dụng hoặc cải tiến các nghiên cứu và giải pháphiện có.

• Xây dựng một chương trình thử nghiệm làm cơ sở đánh giá tính hiệu quả

và khả thi trong điều kiện thực tế ở TP.HCM Đồng thời, có thể gắn giảipháp này vào hệ thống Utraffic Hệ thống đề xuất gồm ba thành phần chínhgồm:

(1) Thu thập dữ liệu (Data Collection) với chức năng chính là thu thập

và lưu trữ dữ liệu tự động từ hệ thống CCTV của sở GTVT TP HCM.(2) Huấn luyện dữ liệu (Training Data) đây là thành phần với nhiệm vụchính là xử lý hình ảnh, gắn nhãn và huấn luyện lại mô hình YOLOv7 sửdụng công cụ Roboflow [10]

(3) Phần chức năng quan trọng nhất là ước lượng vận tốc phương tiệntheo giải pháp đã đề xuất, cụ thể được mô tả ở hình 1.1 dưới đây

Trang 18

có gắn camera giám sát trên địa bàn TP HCM.

Trang 19

1.4.2 Ý nghĩa thực tiễn

Từ kết quả của bài toán cung cấp các thông tin hữu ích như các đoạn đường

có TTGT giống nhau tại một thời điểm và thời gian kéo dài của tình trạng đó,các thông tin này sẽ giúp ích cho người dùng đầu cuối trong một số trường hợpnhư:

• Người quản lý giao thông (ví dụ cảnh sát giao thông, nhân viên đài VOVgiao thông): có cái nhìn tổng quan về tình trạng giao thông thay vì cục bộ,

từ đó có thể điều tiết giao thông một cách hợp lý

• Người dùng phổ thông: có thể lựa chọn các tuyến đường di chuyển hợp lý

để tiết kiệm thời gian, chi phí

Bên cạnh đó, để có thể phát hiện những trường hợp chạy vượt quá tốc độ quyđịnh, nhiều tuyến đường đã trang bị các máy bắn tốc độ sử dụng laser Thiết bịnày có chi phí rất đắt đỏ và việc trang bị số lượng lớn trên nhiều tuyến đường

là không khả thi, thay vào đó, tận dụng hình ảnh thu đuợc từ các video giámsát giao thông từ đó sử dụng các phuơng pháp xử lý ảnh để tính toán tốc độ xeđang là giải pháp ý nghĩa

1.5 Bố cục luận văn

Luận văn được trình bày theo các thành phần chính như sau:

• Chương 1 "Giới thiệu bài toán": Phần này gồm những nội dung chính là: Lý

do chọn đề tài, Mô tả tổng quan về bài toán, Mục đích nghiên cứu, Ý nghĩakhoa học và thực tiễn, Bố cục luận văn

• Chương 2 "Các nghiên cứu liên quan": Trong chương này, tác giả trình bàynhững nội dung liên quan đến tổng quan về tình hình giao thông ở Tp.HCM, các nghiên cứu ở Việt Nam, các nghiên cứu nước ngoài từ đó hìnhthành ý tưởng để xây dựng nội dung nghiên cứu của tác giả

• Chương 3 "Nền tảng lý thuyết": Trong chương này tác giả trình bày nhữngkiến thức cơ bản được sử dụng trong đề tài, bao gồm: khái niệm liên quanđến thị giác máy tính, học máy, các phương pháp phát hiện và theo dõi đốitượng trong ảnh Cụ thể gồm những chủ điểm sau:

Trang 20

– Định nghĩa về thị giác máy tính và học máy

– Phương pháp ước lượng hệ số tỉ lệδ dựa vào kích thước đối tượng thamchiếu

– Định nghĩa và mô tả kỹ thuật hiệu chuẩn camera sử dụng các điểm ảo(hoặc điểm biến mất) trong trường hợp camera đặt cố định

– Định nghĩa phương pháp phát hiện và theo dõi đối tượng Trình bàytổng quan về kỹ thuật phát hiện đối tượng cũng như kiến trúc mô hìnhYOLO để nhận nhận điện đối tượng Đòng thời, giới thiệu về mô hìnhSORT và DeepSORT để theo dõi đối tượng

– Trình bày tổng quan giải thuật ước lượng vận tốc phương tiện

• Chương 4 "Giải pháp đề xuất": Trong chương này, tác giả đưa ra giải pháp

để giải quyết bài toán đặt ra gồm các bước sau (1) Xác định ba điểm ảo;(2) Xây dựng 3D bouding box cho mỗi phương tiện; (3) Tính toán hệ số tỉ

lệ δ dựa vào kích thước 3D box của phương tiện; (4) Ước lượng vận tốc dựavào hệ số ti lệ δ

• Chương 5 "Hiện thực": Hiện thực và cách hoạt động của các chức năng đãđược đề xuất tại chương 4

• Chương 6 "Đánh giá và tổng kết nghiên cứu": Chương này sẽ tiến hành đánhgiá trên tập dữ liệu thật, từ đó có cơ sở để tổng kết kết quả đạt được cũngnhư đề xuất hướng mở rộng cho đề tài

Trang 21

Các nghiên cứu liên quan

2.1 Tổng quan về tình hình giao thông ở TP.

HCM

Ở Việt Nam, cùng với với sự phát triển về kinh tế và tốc độ đô thị hoá nhanh,dân cư ở các thành phố lớn không ngừng gia tăng do sự thu hút các nguồn lựclao động từ các vùng miền khác nhau về lao động và sinh sống Bên cạch sự

đi lên về kinh tế, đời sống người dân ngày càng được nâng cao thì nhu cầu đilại của người dân ngày càng tăng lên Cụ thể, theo báo cáo của Sở GTVT TP.HCM năm 2022 trên địa bàn có hơn 8,7 triệu phương tiện, trong đó có hơn 850ngàn ô tô và gần 7,8 triệu xe máy và con số này dự báo còn tiếp tục tăng lên.Điều này sẽ tạo áp lực rất lớn lên hạ tầng giao thông của thành phố [1]

Hiện nay, TP HCM đã thực hiện nhiều biện pháp khác nhau nhằm giải quyếtcác vấn đề về giao thông đang tồn tại trên địa bàn Bên cạnh việc thực hiện chủtrương đẩy mạnh sự phát triển của phương tiện giao thông công cộng, thì cácgiải pháp về công nghệ thông tin và truyền thông (ICT) nhằm giám sát, điềukhiển và vận hành hướng đến xây dựng các hệ thống giao thông thông minh(Intelligent Trasportation System - ITS) cũng đang được tập trung nghiên cứu

và triển khai

Theo đề án "Xây dựng hệ thống giám sát hình ảnh camera tập trung củaTP.HCM - Giai đoạn 2019-2025", hệ thống giám sát hình ảnh camera tập trungcủa TP HCM hiện có hơn 37,000 camera Hệ thống này có đặc điểm đa dạng,bao gồm nhiều chủng loại camera, đầu ghi hình và phương thức kết nối khácnhau [8] Mục đích chủ yếu của hệ thống này là giám sát tình hình giao thông

và an ninh trật tự theo khu vực, còn chưa áp dụng được nhiều những công nghệtiên tiến vào để giám sát các hành vi vi phạm của người và phương tiện tham gia

Trang 22

giao thông như dừng đỗ xe sai quy định, vượt quá tốc độ hay vượt quá đườngcho phép

Thêm vào đó, để có thể phát hiện những trường hợp phương tiện chạy vượtquá tốc độ quy định, nhiều tuyến đường ở TP HCM đã trang bị các camerabắn tốc độ sử dụng công nghệ laser Thiết bị này có chi phí rất đắt đỏ và việctrang bị số lượng lớn trên nhiều tuyến đường là không khả thi, thay vào đó, tậndụng hình ảnh thu được từ các video giám sát giao thông từ đó sử dụng cácphương pháp xử lý ảnh để phân tích tốc độ xe đang là giải pháp được cơ quanchức năng và nhiều nhà nghiên cứu quan tâm

Hình 2.1: Hệ thống camera đo tốc độ có ghi hình ảnh [1]

Vì vậy, trong luận văn này, chúng tôi xin đề xuất giải pháp sử dụng thị giácmáy tính kết hợp với một số công nghệ hiện đại về học sâu (Deep Learning) vàmáy học (Machine Learning) để tìm ra các giải pháp dự báo vận tốc của phươngtiện giao thông dựa vào dữ liệu camera (video và hình ảnh) Từ đó, chọn lựagiải pháp phù hợp với thực tế để hiện thực và thử nghiệm, áp dụng vào thựctiễn ở TP HCM

2.2 Các nghiên cứu liên quan

Các nghiên cứu liên quan đến bài toán tốc độ trong những năm gần đây cóthể chia làm hai bài toán nhỏ là: (1) nhận diện phương tiện và (2) ước lượng

Trang 23

vận tốc di chuyển của phương tiện Có thể thấy đầu vào của 2 bài toán đều làvideo thu được từ các camera giám sát đặt ở một vị trí cố định trên đường Đốivới bài toán (1) kết quả là các bounding box của phương tiện kèm theo nhãn,nhãn ở đây là loại phương tiện gồm xe máy, ô tô con, xe bus hoặc xe tải Đốivới bài toán (2) thì đầu ra chính là tốc độ của phương tiện trong video ở bàitoán số (1) Cụ thể ở hình 2.5, mô tả các kết quả đầu vào đầu ra của hai bàitoán đã nêu.

Hình 2.5: Hình (a) là đầu vào của bài toán nhận diện phương tiện tham giagiao thông; Hình (b) là đầu ra của bài toán nhận diện phương tiện; Hình (c) làkết quả của bài toán ước lượng phận tốc phương tiện tham gia giao thông

Phần này nhằm khảo sát các phương pháp tiếp cận đối với hai bài toán đãnêu ở trên là nhận diện phương tiện và ước lượng tốc độ của phương tiện thamgia giao thông dựa trên hình ảnh thu được từ camera quan sát [11]

2.2.1 Hướng nghiên cứu đối với bài toán nhận diện

phương tiện giao thông

Đối với bài toán nhận diện phương tiện tham gia giao thông bao gồm hai bàitoán con là xác định vị trí của phương tiện (localization) và phân loại phươngtiện (classification) Nhận diện phương tiện là bước cơ bản đầu tiên để có thểthực hiện những chức năng giám sát như theo dõi hay phân tích sau này Cóhai hướng tiếp cận chính trong bài toán này đó là nhận diện dựa trên hình dángbên ngoài và chuyển động của tiền cảnh (phần gần nhất với camera) Hướngtiếp cận này dựa vào việc trích xuất các đặc trưng kết cấu, màu sắc hay hìnhdạng của phương tiện

Trang 24

1) Phương pháp dựa trên đặc điểm hình dáng

Con người có thể nhận biết các vật thể khác nhau một cách chính xác nhờvào những đặc điểm về hình dáng bên ngoài của chúng, chẳng hạn như màusắc, kết cấu, hình dạng Các bộ nhận dạng thông qua thị giác máy tính cũng

có thể phân biệt và nhận diện các vật thể dựa trên những đặc điểm này, cụ thể

là phương tiện giao thông Các mô hình sử dụng phương pháp này thường cầnđược huấn luyện và đánh giá trên một bộ dữ liệu trước khi đưa vào sử dụng Về

cơ bản, phương pháp này so sánh các đặc trưng trong ảnh hai chiều với các đặctrưng trong không gian thực ba chiều bằng cách sử dụng các bộ trích xuất đặctrưng

• Hướng tiếp cận từ đặc điểm từng phần

Trong hướng tiếp cận này, các phương tiện được chia thành những phầnnhỏ hơn và mô hình nhận diện sẽ được xây dựng trên các thành phần này Cácphương tiện sẽ được nhận diện dựa trên những khác biệt về mặt không gian giữacác thành phần Theo như nghiên cứu [12], để cải thiện được khả năng nhậndiện và xử lý vấn đề chồng lấp, các phương tiện trong ảnh được tách thành cácphần nhỏ gồm phía trước, phía sau và bên cạnh

• Hướng tiếp cận đặc trưng cấp thấp

Đặc trưng cấp thấp là những đặc trưng cơ bản nhất, chỉ mô tả hình dáng bênngoài của đối tượng, chẳng hạn như các cạnh, góc, màu sắc,

Sajib và các cộng sự [13] đã đề xuất một mô hình sử dụng mô hình Bag ofVisual Words (BoVW) để xây dựng một bộ từ điển thị giác biểu diễn phươngtiện giao thông sử dụng đặc trưng SURF Bộ từ điển này bao gồm các từ khóa

mô tả các đặc trưng SURF của các phương tiện giao thông Sau đó, nhóm tácgiả sử dụng bộ phân loại đa lớp Support Vector Machine (SVM) để phân loạicác đối tượng trong ảnh dựa trên bộ từ điển này

Bên cạnh đặc trưng SURF, còn có các loại đặc trưng khác cũng có thể được

sử dụng để biểu diễn đối tượng trong ảnh, chẳng hạn như:

Scale Invariant Feature Transformation (SIFT): đặc trưng này được sửdụng để nhận diện biển số xe, do khả năng chống biến đổi kích thước của chúng[14]

Trang 25

Histogram of Oriented Gradients (HOG): đặc trưng này được sử dụng đểnhận diện phương tiện giao thông, do khả năng mô tả hình dáng tổng thể củacác đối tượng [15].

Harr-like Feature: đặc trưng này được sử dụng để nhận diện phương tiệngiao thông, do khả năng mô tả các góc và cạnh của các đối tượng [16]

2) Phương pháp dựa trên đặc trưng chuyển động

Trong video giám sát giao thông, cảnh nền luôn cố định, như một bức ảnhtĩnh Đối tượng cần quan tâm là các phương tiện giao thông đang di chuyểntrên cảnh nền này Mục tiêu của phương pháp tách phương tiện giao thôngtrong video giám sát giao thông là tách các phương tiện đang di chuyển ra khỏicảnh nền tĩnh Phương pháp này có thể được tiếp cận theo ba hướng chính:Dựa vào sự khác biệt giữa các khung hình liên tiếp: Phương pháp này tínhtoán sự khác biệt giữa các pixel trong hai hoặc ba khung hình liên tiếp để pháthiện các pixel chuyển động

Tách bỏ ảnh nền: Phương pháp này xây dựng cảnh nền từ các khung hìnhtrước đó, sau đó sử dụng cảnh nền này để phát hiện các pixel chuyển động [17].Thông qua luồng sáng (optical flow): Phương pháp này sử dụng luồng sáng đểphát hiện các pixel chuyển động Luồng sáng là sự thay đổi vị trí của các điểmảnh trong thời gian [18]

3) Phương pháp dựa trên mạng nơ-ron

Với sự phát triển của lĩnh vực trí tuệ nhân tạo nói chung và thị giác máytình nói riêng, các mô hình mạng nơ-ron ngày càng được sử dụng rộng rãi trongnhiều lĩnh vực khác nhau trong đó có xử lý video giám sát giao thông Giốngnhư phương pháp nhận diện dựa trên các đặc trưng về hình dáng, các phươngpháp dựa trên mạng nơ-ron yêu cầu có một bộ dữ liệu để huấn luyện và đánhgiá trước khi đưa vào sử dụng mô hình Các mô hình mạng được sử dụng trongphương pháp này có thể được xây dựng từ đầu, chuyển tiếp hoặc tinh chỉnh từnhững mạng đã có sẵn với một vài thay đổi nhất định trong kiến trúc mạng.Trong số các mô hình trong phương pháp này thì có hai hướng tiếp cận tiêu biểu

Trang 26

có thể kể đến là hướng tiếp cận dựa trên mô hình Region-based ConvolutionalNeural Networks (R-CNN) [19] với kỹ thuật xử lý 2 bước và hướng tiếp cậndựa trên kỹ thuật nhìn một lần single shot như Single Shot MultiBox Detector(SSD) [20] hay YOLO [21]

• Dựa trên mô hình 2-stage

Mô hình R-CNN là kết quả của sự kết hợp 2 thành phần gồm mạng RegionProposal để đề xuất vị trí của vật thể và một mạng CNN để phân lớp các vậtthể Theo [22], Yilmaz và nhóm tác giả đã đề xuất 6 bước thực hiện để đánh giá

mô hình Mô hình mạng R-CNN bao gồm nhiều lớp và biểu diễn hình dạng cácbản đồ đặc trưng (feature map) ở mức độ khác nhau Các lớp mạng bên dướidùng để nhận dạng những đặc trưng đơn giản như cạnh, các góc, trong khi đócác lớp mạng ở bên trên sẽ có khả năng nhận dạng các đặc trưng phức tạp hơn

từ việc kết hợp các đặc trưng ở lớp dưới [23]

• Dựa trên kỹ thuật nhìn một lần (single-shot)

Phương pháp R-CNN kết hợp hai mô hình Region Proposal và CNN, dẫn đếntăng chi phí tính toán và giảm hiệu suất giám sát Hướng tiếp cận nhìn một lầnnhư SSD [24] và YOLO [25] khắc phục nhược điểm này bằng cách chỉ sử dụngmột mạng CNN để trích xuất ảnh đầu vào Các mô hình này duyệt qua từngphần tử trên feature map, thực hiện hồi quy trên các hộp giới hạn được tínhtoán trước có kích thước và vị trí khác nhau (priors) để xác định vị trí và phânlớp cho từng đối tượng Kết quả cuối cùng là các hộp giới hạn hình chữ nhật baobọc xung quanh một đối tượng trong hình ảnh (bounding box) cho các phươngtiện giao thông trong ảnh

Phương pháp dựa trên mạng nơ-ron thể hiện khả năng tính toán tốt với độchính xác cao Tuy nhiên nhược điểm của phương pháp này nằm ở việc cầnlượng tài nguyên tính toán lớn và yêu cầu một tập huấn luyện đủ đa dạng để cóthể phát huy tốt khả năng tự học của mô hình Bảng 2.1 thể hiện điểm mạnh

và điểm yếu của hướng tiếp cận dựa vào mạng CNN

Trang 27

Bảng 2.1: Ưu và nhược điểm của các hướng tiếp cận dựa vào mạng CNNHướng

Nhược

điểm

- Tốc độ thực thi chậm - Độ chính xác phụ thuộc

vào việc định nghĩa

- Tốn tài nguyên - Tốn tài nguyên

2.2.2 Hướng nghiên cứu đối với bài toán ước lượng tốc

độ phương tiện giao thông

Đo tốc độ phương tiện tham gia giao thông là một bài toán quan trọng trongcông tác giám sát giao thông Hiện nay, ở Việt Nam, việc đo tốc độ phương tiệnvẫn chủ yếu dựa vào các công cụ chuyên dụng sử dụng công nghệ RADAR vàLIDAR [26] Tuy nhiên, các công nghệ này có giá thành cao và khó triển khaitrên diện rộng Một giải pháp thay thế là sử dụng camera giám sát để đo tốc

độ phương tiện Giải pháp này có ưu điểm là chi phí thấp và dễ triển khai Tuynhiên, việc đo tốc độ phương tiện dựa trên camera giám sát còn gặp một sốthách thức, bao gồm:

• Khả năng hoạt động tự động: Hệ thống đo tốc độ phải có khả năng tự độnghiệu chuẩn camera để tính toán tốc độ phương tiện chính xác Một trong nhữngmục đích của việc hiệu chuẩn camera là trích xuất các thông số của camera ghihình, với một số phương pháp hiện có thì cần phải tiến hành đo đạc thủ cônghình ảnh thu được tương ứng với từng camera nên việc này sẽ gây tốn thời gian

và chi phí

• Khả năng hoạt động ở các góc nhìn khác nhau: Hệ thống đo tốc độ phải cókhả năng hoạt động ở các góc nhìn khác nhau để tận dụng tối đa các cameragiám sát đã được lắp đặt Những thách thức này cần được giải quyết để việc đotốc độ phương tiện tham gia giao thông dựa trên camera giám sát có thể đượctriển khai rộng rãi

Trang 28

Để đo tốc độ phương tiện tham gia giao thông, cần thực hiện các bước sau:(1) Xác định phương tiện, sử dụng các kỹ thuật nhận diện phương tiện đã khảosát ở phần I (2) Tính toán đoạn đường di chuyển của phương tiện (3) Tínhtốc độ bằng cách lấy khoảng cách di chuyển chia cho thời gian Thời gian có thể

dễ dàng tính toán từ video Tuy nhiên, khoảng cách di chuyển trong video là 2chiều, trong khi khoảng cách trong không gian thực là 3 chiều Do đó, cần cóbước căn chỉnh tọa độ của camera giám sát, tọa độ thực và tọa độ trên ảnh đểtính toán chính xác khoảng cách di chuyển

Hình 2.6: Mô hình camera bao gồm 3 hệ toạ độ là: hệ toạ độ ảnh U-V (imageplane), hệ toạ độ camera Xc, Yv, Zc và hệ toạ độ không gian thực X-Y-Z (trafficlane)

Theo hình 2.6, xử lý ảnh trên camera bao gồm 2 bước: đầu tiên là biển đổi

hệ toạ độ không gian thực thành hệ toạ độ camera, sau đó là biến đổi hệ toạ

độ camera thành hệ toạ độ ảnh Để thực hiện được 2 bước trên, ta phải thựchiện tính toán các nội tham số (tiêu cự, tâm điểm, độ lệch ống kính) và ngoạitham số camera (ma trận quay và vector tịnh tiến), quá trình này gọi là hiệuchuẩn camera Theo nghiên cứu [27], mục đích của hiệu chuẩn camera chính là

để tính toán khoảng cách thực tế d giữa 2 điểm (P1,P2) trên mặt đường thôngqua phép chiếu (p1, p2) trên không gian ảnh Các trục X, Y, Z mô tả khônggian thực, K đại diện các nội tham số, R và T là ngoại tham số, được mô tảbằng hình 2.7

Trang 29

Hình 2.7: Mục đích hiệu chuẩn camera

Nhóm tác giả [27] đề xuất mô hình tổng quan cho việc hiệu chuẩn camera cóthể được biểu diễn dưới dạng một ma trận chiếu P = K [ R T], trong đó K là

ma trận nội tham số của camera, R là ma trận quay và T là vector tịnh tiến.Với cách tiếp cận này, tác giả thường chấp nhận một số giải định sau: phươngtiện di chuyển theo đường thằng, ít nhất là trong một phạm vi xác định, tâmđiểm của camera ở giữa khung hình camera và độ lệch ống kính bằng 0 Trên

cơ sở giả định này, các phương pháp đo tốc độ phương tiện dựa trên hiệu chuẩncamera thành 4 hướng tiếp cận:

1) Hướng tiếp cận từ vạch kẻ đường

Để hiệu chuẩn camera, You và các đồng nghiệp [28] đề xuất phương pháp xácđịnh hai điểm ảo Các đường thẳng song song trong ảnh sẽ giao nhau tại mộtđiểm ảo khi kéo dài đến vô cực Điểm ảo đầu tiên được xác định bằng cách lấygiao điểm của các làn đường, và điểm ảo thứ hai được tính toán bằng cách lấygiao điểm của các cột đèn hoặc các đường thẳng đứng Hai điểm ảo này được

sử dụng để hiệu chuẩn tự động các tham số trong camera bằng ước tính bìnhphương tối thiểu thay vì tính toán dạng đóng (closed-form computation).Trong [29], nhóm tác giả giả định camera chỉ nghiêng theo trục Y Họ giảđịnh điểm ảo thứ hai nằm ở vô cực và điểm ảo thứ nhất được tính toán bằngcách lấy giao điểm của các vạch kẻ đường Các phương tiện giao thông đượcnhận diện bằng cách tách bỏ ảnh nền và theo dõi bằng kỹ thuật tương quanchéo chuẩn hóa Phương pháp này có thể được sử dụng trên những con đườnglớn, nhưng không thể sử dụng trên những con đường nhỏ ở vùng quê hoặc khuvực đường nội bộ không có vạch kẻ đường

Trang 30

2) Hướng tiếp cận từ chuyển động của phương tiện

Filipiak và cộng sự [30] đề xuất sử dụng chuyển động của biển số xe để tínhtoán tham số camera thông qua giải thuật tiến hóa Công bố [30] sử dụng biếnđổi Hough xếp tầng và tọa độ song song để theo dõi các đặc trưng cục bộ vàphân tích quỹ đạo di chuyển Phương pháp này không phụ thuộc vào vạch kẻđường nhưng cần nhiều phương tiện di chuyển để đảm bảo độ chính xác

3) Hướng tiếp cận từ đo lường thủ công

Hướng tiếp cận này yêu cầu biết trước một số thông số trong thế giới thực

để thực hiện việc hiệu chuẩn Công bố [31] yêu cầu cần phải biết trước 2 góctùy ý trên mặt đất và độ dài của các vạch kẻ đường trong thực tế Trong khi

đó, Công bố [32] tập trung vào việc đo tốc độ phương tiện giao thông vào buổitối Nhóm tác giả nhận diện phương tiện bằng cách phát hiện cặp đèn xe, sau

đó theo dõi chuyển động và tính toán tốc độ

4) Hướng tiếp cận tự động điều chỉnh tham số camera dựa trên thống kê các chiều

Để tiết kiệm chi phí triển khai, việc tự động hóa quá trình hiệu chuẩn camera

là một giải pháp hiệu quả Phương pháp này không yêu cầu biết trước bất kỳthông tin nào và có thể thực hiện hoàn toàn tự động

Dubska và cộng sự [33] đề xuất phương pháp hiệu chuẩn camera dựa trên 2điểm ảo Đầu tiên, họ sử dụng một phương pháp đơn giản để tách lấy tiền cảnh

để phát hiện những khu vực chuyển động Điểm ảo đầu tiên là hướng di chuyểncủa phương tiện, được tính toán bằng cách theo dõi các điểm đặc trưng trênphương tiện sử dụng bộ phát hiện điểm cực tiểu và bộ theo dõi KLT Chuyểnđộng của điểm bị theo dõi được biến đổi bằng biến đổi Hough line-to-line vàđược tham số hóa bằng cách tọa độ song song Điểm cực đại toàn cục tương ứngvới điểm ảo đầu tiên trên ảnh

Điểm ảo thứ hai được trích xuất từ các cạnh mạnh trên phương tiện đang dichuyển và phải đáp ứng một vài điều kiện từ điểm ảo đầu tiên Các cạnh tương

tự cũng sẽ được biến đổi Hough với giá trị cực đại mạnh nhất ứng với điểm ảothứ hai Từ 2 điểm ảo được xác định như trên, mô hình có thể tính toán đượccác nội và ngoại tham số của camera

Trang 31

Tốc độ của phương tiện được tính toán dựa trên việc theo dõi 3D boundingbox xung quanh đối tượng.

Bốn hướng tiếp cận trên đều có thể đo tốc độ xe chính xác khi được áp dụngtrong môi trường phù hợp Tuy nhiên, trong thực tế, có nhiều camera được lắpđặt ở các vị trí khác nhau, và việc đo lường thủ công sẽ rất tốn thời gian và côngsức Do đó, hướng tiếp cận tự động hiệu chuẩn dựa trên thống kê các chiều thểhiện tính khả thi cao khi áp dụng trong môi trường thực tế Bảng 2.2 thể hiệnđiểm mạnh và điểm yếu của các hướng tiếp cận dựa vào hiệu chuẩn camera.Bảng 2.2: Ưu và nhược điểm của các hướng tiếp cận hiệu chuẩn cameraHướng

tiếp cận

Vạch kẻ đường Chuyển động

của phươngtiện

Đo lường thủcông

Tự độnghiệuchuẩn

Ưu điểm - Đơn giản, dễ

thực hiện

- Các thông số

tự động hiệuchuẩn

- Đơn giản, dễhiện thực

- Áp dụngtrên quy

mô lớn

- Phù hợp vớinhững đoạnđường rộng,vạch kẻ rõ ràng

- Có hiệuquả

Nhược

điểm

- Trường hợpkhông có vạch

kẻ đường thìkhông áp dụngđược

- Cần quan sátphương tiện

- Không ápdụng được quy

mô lớn

Tính toánphức tạp

Trang 32

Nền tảng lý thuyết

Từ kết quả khảo sát và những yêu cầu đặt ra của bài toán, phần này, tác giảxin trình bày một số nền tảng lý thuyết tiền đề trước khi đề xuất giải pháp đểgiải quyết bài toán đặt ra trong luận văn này

3.1 Khái niệm về thị giác máy tính - học máy

3.1.1 Định nghĩa

Thị giác máy tính (computer vision) và học máy (machine learning) là hailĩnh vực quan trọng của trí tuệ nhân tạo (AI) Thị giác máy tính là lĩnh vựcnghiên cứu cách thức máy tính có thể hiểu và xử lý thông tin từ thế giới thựcthông qua thị giác Học máy là lĩnh vực nghiên cứu cách thức máy tính có thểhọc hỏi từ dữ liệu và cải thiện hiệu suất của mình theo thời gian [34]

Thị giác máy tính và học máy có mối quan hệ chặt chẽ với nhau Học máyđược sử dụng rộng rãi trong thị giác máy tính để thực hiện các nhiệm vụ như[34]:

• Nhận dạng đối tượng: Học máy có thể được sử dụng để phát hiện và xácđịnh các đối tượng trong ảnh hoặc video

• Phân loại ảnh: Học máy có thể được sử dụng để phân loại ảnh thành cácnhóm khác nhau, chẳng hạn như ảnh chụp người, ảnh chụp cảnh quan,

• Theo dõi đối tượng: Học máy có thể được sử dụng để theo dõi vị trí của cácđối tượng trong ảnh hoặc video

• Tìm kiếm đối tượng: Học máy có thể được sử dụng để tìm kiếm các đốitượng trong ảnh hoặc video

Trang 33

Dưới đây là một số thư viện thị giác máy tính tiêu biểu:

+ OpenCV: OpenCV là một thư viện mã nguồn mở cung cấp các chức năng

xử lý ảnh và video OpenCV được sử dụng rộng rãi trong nhiều lĩnh vực, baogồm thị giác máy tính, ứng dụng robot tự động, [35]

+ TensorFlow: TensorFlow là một thư viện mã nguồn mở được phát triểnbởi Google TensorFlow cung cấp các chức năng học máy và trí tuệ nhân tạo.TensorFlow được sử dụng rộng rãi trong thị giác máy tính để thực hiện cácnhiệm vụ như nhận dạng đối tượng, phân loại ảnh, theo dõi đối tượng [36].+ PyTorch: PyTorch là một thư viện mã nguồn mở được phát triển bởiFacebook PyTorch cung cấp các chức năng học máy và trí tuệ nhân tạo PyTorchđược sử dụng rộng rãi trong thị giác máy tính để thực hiện các nhiệm vụ tương

tự như TensorFlow [37]

+ Scikit-image: Scikit-image là một thư viện mã nguồn mở được phát triểnbởi cộng đồng Scikit-image cung cấp các chức năng xử lý ảnh và video Scikit-image thường được sử dụng trong nghiên cứu thị giác máy tính [38]

+ Dlib: Dlib là một thư viện mã nguồn mở được phát triển bởi CarnegieMellon University Dlib cung cấp các chức năng nhận dạng khuôn mặt và nhậndạng đối tượng Dlib thường được sử dụng trong ứng dụng thị giác máy tínhthực tế [39]

Các thư viện thị giác máy tính này cung cấp các chức năng xử lý ảnh và họcmáy khác nhau Việc lựa chọn thư viện phù hợp phụ thuộc vào nhu cầu cụ thểcủa bài toán áp dụng

3.1.2 Phương pháp ước lượng hệ số tỉ lệ ( δ ) dựa vào đối

tượng tham chiếu

Có một câu hỏi đặt ra là với những đối tượng đã được xác định được trong ảnhthì làm cách nào ta có thể xác định được kích thước thật của đối tượng mà không

sử dụng các phương pháp đo lường thủ công Qua tìm hiểu, một trong nhữngphương pháp được sử dụng là dùng đối tượng tham chiếu (reference object).Đối tượng tham chiếu phải thoả mãn 2 đặc điểm sau:

• Đặc điểm 1: Kích thước thật của đối tượng này có thể biết được dễ dànghoặc có thể xác định dựa trên các phương pháp thống kê và thường được

Trang 34

theo tính các đơn vị đo lường như: mét, kilomet hoặc inch.

• Đặc điểm 2: Chúng ta có thể dễ dàng tìm thấy đối tượng tham chiếu trongảnh, có thể dựa trên vị trí của đối tượng hoặc có thể thông qua một đốitượng có đặc điểm đặc biệt khác với các đối tượng khác trong ảnh Trong

cả 2 trường hợp này thì tham chiếu phải được xác định là chính xác Vớibài toán liên quan luận văn này thì đối tượng tham chiếu có thể là phươngtiện tham gia giao thông trong ảnh có thể là ô tô hoặc xe máy vì các đốitượng này thoả mãn 2 đặc điểm trên là dễ dàng phát hiện và có kích thướcthật trung bình theo từng loại [40]

Hình 3.1: Minh hoạ về đối tượng tham chiếu trong ảnh là đồng xu maldives vớikích thước khoảng 20mm [41]

Theo [2], Ta có công thức tính hệ số tỉ lệ:

δ = realW idthobjectW idth (3.1)

Trong đó: objectW idth là độ rộng của đối tượng tính toán được theo pixel;

realW idth là độ rộng thực tế của đồng xu

Từ δ có được công thức 3.1, ta dễ dàng tính toán được kích thước thật củađối tượng còn lại là usb trong hình 3.1 Kết quả kích thước usb thể hiện ở hình3.2

Trang 35

Hình 3.2: Minh hoạ về sử dụng đối tượng tham chiếu (đồng xu) để tính kíchthước các đối tượng khác trong ảnh như usb có chiều dài: 40.7mm, chiều rộng:17.1mm.

Tuy nhiên, phương pháp sử dụng đối tượng tham chiếu để tính δ sẽ có độchính xác không cao vì:

• Góc nhìn của camera đến đối tượng trong ảnh không vuông góc từ trênxuống, thường bị lệch và có góc nghiêng

• Hình ảnh thu được có thể bị biến dạng và lệch so với thực tế Dẫn đến tínhtoán hệ số δ sẽ có sai số lớn

Vì vậy, để khắc phục được nhược điểm trên, có 2 phương pháp thường được

sử dụng là kỹ thuật homogaphy để chuyển ảnh về góc nhìn từ trên xuống hoặcphương pháp tự động hiệu chuẩn camera Trong đó, phương pháp tự động hiệuchuẩn camera sẽ được trình bày ở phần tiếp theo

3.1.3 Kỹ thuật hiệu chuẩn camera sử dụng các điểm ảo

(vanishing point)

Hiệu chuẩn camera (camera calibration) là phương pháp tính toán và thựcnghiệm nhằm tìm ra các tham số của camera để tái tạo không gian 3D của mộtcảnh, một vật thể nào đó trong thực tế bằng những ảnh mà camera đó ghi lạiđược Có hai cách để tính toán được những tham số này là thủ công và tự động.Đối với phương pháp thủ công sử dụng các biện pháp thủ công đo đạc hoặcthống kê cụ thể từng loại camera Còn đối với phương pháp tự động, một trongnhững phương pháp được sử dụng giải quyết bài toán hiệu chuẩn liên quan đến

Trang 36

đối tượng giao thông là kỹ thuật tự động hiệu chuẩn camera dựa trên ba điểm

ảo được công bố bởi Dubska và các công sự [33]

Nhóm tác giả xây dựng giải thuật dựa trên việc phát hiện hai điểm ảo trênmặt đất Mô hình đưa ra một số giả định cơ bản về độ lệch ống kính bằng 0 và

vị trí điểm chính giữa camera nằm ở giữa khung ảnh Kết hợp với nghiên cứu[42], nhóm tác giả đã chứng minh rằng từ hai điểm ảo trực giao có thể tính toánđược các thông số bên trong và bên ngoài của camera Với hai điểm ảo đã tìmđược và điểm chính giữa camera là điểm trung tâm của ảnh, từ đó có thể tínhtoán tiêu cự của camera cũng như điểm VP3 còn lại dựa vào các công thức đượctrình bày trong nghiên cứu [33] Các toạ độ thực tế trong không gian 3D của cácđiểm ảo cũng có thể được tính toán bằng các công thức định nghĩa dưới đây:

f + px,w

′ y

w ′ z

Để dễ hình dung thì điểm ảo là một điểm trên mặt phẳng ảnh của một bản

vẽ phối cảnh trong đó các hình chiếu (hoặc bản vẽ) phối cảnh hai chiều của cácđường thẳng song song với nhau trong không gian ba chiều dường như hội tụ

Về cơ bản mọi thứ trong ảnh dường như hội tụ tại một điểm, điểm này đượcgọi là điểm ảo Như trong ảnh minh hoạ 3.3, điểm màu đỏ ở giữa hình là điểm

ảo đầu tiên của ảnh Ngoài ra, hãy lưu ý rằng không nhất thiết điểm ảo luônnằm bên trong ảnh Các đối tượng của ảnh có thể hội tụ tại một điểm bên ngoài

Trang 37

ảnh Ngoài ra, có thể có nhiều hơn một điểm ảo trong một ảnh Với bài toánđặt ra thì chúng ta cần xác định thêm điểm ảo thứ hai và điểm có thể là điểmhội tụ của các cạnh rõ nét của phương tiện song song với nhau của phương tiệngiao thông như ôtô, xe buýt.

Hình 3.3: Minh họa ba điểm ảo trực giao được tính toán dựa vào thuật toán [43]trên đoạn đường Phạm Văn Đồng Mũi tên màu đỏ hướng về điểm biến mất thứnhất và mũi tên xanh lá cây hướng tới điểm biến mất thứ hai Điểm biến mấtthứ ba được biểu thị bằng mũi tên màu xanh dương

Trang 38

3.1.4 Giải thuật ước lượng vận tốc phương tiện

Hình 3.4: Hình ảnh minh họa về thuật toán tính vận tốc [3]

Từ hình minh hoạ 3.4, để tính vận tốc của phương tiện sau khi theo dõi đượcchúng, nhóm đã chia đoạn đường quan sát thành 3 đoạn AB, BC và CD ứngvới các khoảng cách thực tế (theo đơn vị meters) Chúng ta biết rằng FPS làthời gian chuyển đổi giữa 2 frame liên tục nhau Vì vậy, thời gian duy chuyểngiữa 2 điểm bất kỳ ví dụ từ điểm A sang điểm B sẽ bằng số:

∆t ab = ∆f rameab

F P S (s)

Trong đó:

• ∆frame ab: số frame để 1 điểm duy chuyển từ điểm A sang điểm B

• FPS : số frame trên giây của camera

Các phương trình sau đây biểu diễn cho thuật toán tính vận tốc:

Trang 39

Trong đó:

dab : khoảng cách thực tế giữa 2 điểm A và B theo đơn vị meters

vt : vận tốc trung bình khi đi qua 3 đoạn AB, BC và CD

Như vậy với minh hoạ trên thì bài toán đo tốc độ phương tiện giao thông cơbản sẽ có hai bước xử lý gồm các bước, đầu tiên là xác định được phương tiện,tiếp theo là theo dõi để tìm kiếm đoạn đường di chuyển của phương tiện, cuốicùng tốc độ sẽ được tính toán bằng khoảng cách di chuyển chia cho thời gian.Vấn đề thời gian có thể dễ dàng tính toán được khi đầu vào bài toán là các video

có FPS (Frames Per Second) Tuy nhiên, để tính được khoảng cách di chuyểnlại là một vấn đề khó khăn, do khoảng cách trong video hai chiều và khoảngcách trong không gian thực lại là ba chiều, hai khoảng cách này là không giốngnhau Do đó, cần phải có một bước hiệu chuẩn camera, như mô tả ở mục 3.1.3

để khớp toạ độ phát hiện trên ảnh với toạ độ trong thực tế

Từ thông số thu được ở bước hiệu chuẩn camera, để tính toán khoảng cáchphương tiện di chuyển được từ frame thứ t đến frame t + τ trong video (τ là sốframe liên tiếp nhau) bằng cách xác định vị trí của phương tiện phát hiện được

ở mỗi frame từ giải thuật theo dõi DeepSORT (phần này sẽ trình bày ở mục tiếptheo) Như vậy, vận tốc υ được tính toán bằng công thức bên dưới 3.10 Với P

là toạ độ điểm nằm trên phương tiện chiếu xuống mặt phẳng đường và δ là hệ

số tỉ lệ Giá trị tuyệt đối của | Pt+τ − Pt | được hiểu là đoạn đường mà phươngtiện đi được trên mặt đất từ frame t đến frame t + τ trong khoảng thời gian ∆t

∆t được xác định bằng hệ số giữa số frame liên tiếp τ chia cho FPS

υ = δ | Pt+τ − Pt|

∆t =

δ | Pt+τ − Pt | F P S

τ (3.10)

Trang 40

3.2 Phương pháp phát hiện và theo dõi đối

tượng

3.2.1 Phương pháp phát hiện đối tượng - Object

detection

Phát hiện đối tượng là một thuật ngữ chung để mô tả một tập hợp các nhiệm

vụ thị giác máy tính có liên quan liên quan đến việc xác định các đối tượngtrong ảnh kỹ thuật số

Phân loại hình ảnh liên quan đến việc dự đoán lớp của một đối tượng trongmột hình ảnh Định vị vật thể đề cập đến việc xác định vị trí của một hoặcnhiều đối tượng trong một hình ảnh và vẽ bounding box xung quanh chúng.Phát hiện đối tượng kết hợp hai nhiệm vụ trên và thực hiện cho một hoặc nhiềuđối tượng trong hình ảnh Chúng ta có thể phân biệt giữa ba nhiệm vụ thị giácmáy tính cơ bản trên thông qua input và output của chúng như sau:

• Phân loại hình ảnh: Dự đoán nhãn của một đối tượng trong một hình ảnh

• Định vị đối tượng: Xác định vị trí hiện diện của các đối tượng trong ảnh vàcho biết vị trí của chúng bằng bounding box

• Phát hiện đối tượng: Xác định vị trí hiện diện của các đối tượng trongbounding box và nhãn của các đối tượng nằm trong một hình ảnh

Các mô hình phát hiện đối tượng thường được đào tạo để phát hiện sự hiệndiện của các đối tượng cụ thể trong hình ảnh, video hoặc hoạt động thời gianthực (real time) Ngay cả trước khi có phương pháp học sâu và công nghệ xử lýhình ảnh hiện đại, việc phát hiện đối tượng vẫn được quan tâm rất nhiều Khi

đó người ta thường ứng dụng một số phương pháp xử lý ảnh như SIFT và HOGvới kỹ thuật trích xuất cạnh của vật thể [44]

Sự ra đời của mạng nơ-ron tích chập (CNN) và những tiến bộ của công nghệthị giác máy tính (Computer Vision), đã mang đến nhiều cách tiếp cận cũngnhư nhiều thuật toán phát hiện đối tượng hiệu quả hơn Dưới đây là một sốthuật toán phát hiện đối tượng phổ biến:

) Phương pháp mô tả đặc trưng (Histogram of Oriented Gradients – HOG)

Tiêu đề	Nghiên cứu, xây dựng các giải thuật dự báo tốc độ phương tiện của dòng xe dựa vào dữ liệu camera
Tác giả	Nguyễn Văn Trung
Người hướng dẫn	PGS. TS Trần Minh Quang
Trường học	Trường Đại học Bách Khoa, Đại học Quốc Gia Tp. HCM
Chuyên ngành	Khoa Học Máy Tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2024
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	95
Dung lượng	2,92 MB