1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Công nghệ thông tin: Đếm phương tiện giao thông sử dụng phân tích dữ liệu lớn thời gian thực và học sâu

73 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Đếm phương tiện giao thông sử dụng phân tích dữ liệu lớn thời gian thực và học sâu
Tác giả Nguyen Van Viet
Người hướng dẫn TS. Do Trong Hop
Trường học Đại học Quốc gia TP HCM
Chuyên ngành Công nghệ thông tin
Thể loại Luận văn thạc sĩ
Năm xuất bản 2023
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 73
Dung lượng 30,28 MB

Nội dung

Sự bùng nỗ của thông tin trên toàn cầu đó cũng chính là sự bão hòa về dữ liệu thực tại và có một thuật ngữ được gọi là dữ liệu lớn hay còn gọi là Big data được sinh ra dé khái quát hóa v

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

NGUYEN VAN VIET

DUNG PHAN TÍCH DU LIEU LON THỜI

GIAN THUC VÀ HỌC SAU

Trang 2

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

NGUYEN VĂN VIET

GIAN THUC VA HOC SAU

LUAN VAN THAC Si

NGANH CONG NGHE THONG TIN

Trang 3

Tôi xin cam đoan rằng luận văn “Đếm phương tiện giao thông sử dụng phân

tích dữ liệu lớn thời gian thực và học sâu” là công trình nghiên cứu của bản thân tôi.

Luận văn có sử dụng trích dẫn và thông tin từ các nguồn khác nhau, các thông

tin đều được trích dẫn và ghi rõ nguồn gốc.

Không có sản phâm hoặc công trình nghiên cứu nào của người khác được sử

dụng trong luận văn này mà không được trích dẫn bên dưới theo đúng quy định

TPHCM, ngày 22 tháng 3 năm 2023

Tác giả

Nguyễn Văn Viết

Trang 4

Lời đầu tiên tôi xin gửi lời cảm ơn chân thành tới TS Đỗ Trọng Hợp đã tậntình hướng dẫn cho tôi trong suốt quá trình thực hiện luận văn này.

Tôi cũng xin bày tỏ lòng biết ơn tới các thầy cô giáo, cán bộ Viện đảo tạo.Sau Đại học Công nghệ Thông tin đã truyền đạt cho tôi những kiến thức quý báutrong suốt quá trình học tập và nghiên cứu tại trường

Tôi cũng xin cảm ơn tới gia đình, bạn bè và người thân đã luôn quan tâm,

giúp đỡ tôi trong suốt quá trình học tập và nghiên cứu đề có thể hoàn thành luận văn

này.

Do thời gian có hạn và kiến thức còn nhiều hạn chế nên luận văn sẽ không

tránh khỏi những sai sót nhất định Vì vậy, tôi rất mong sẽ nhận được sự góp ý, đánh giá quý báu của quý thầy cô.

Trang 5

1.2 Mục tiêu nghiên cứu

1.3 Đối tượng nghiên cứu

1.4 Phạm vi nghiên cứu

1.5 Nội dung nghiên cứu

1.6 Cấu trúc luận văn poo ie

CHƯƠNG 2 CƠ SỞ LÝ THUYET seesssssssssssesecccssssssseesecnsesssees

2.1 Tổng quan về phân tích dữ liệu lớn

2.1.1 Dữ liệu lớn qua khái niệm 5V.

2.1.2 Mục tiê

2.1.3 Quy trình.

2.1.4 Các loại phân tích dữ liệu lớn

2.1.5 Các công cụ phân tích dữ liệu lớn

2.1.6 Ứng dụng của phân tích dữ liệu dữ liệu lớn.

Trang 6

2.2 Bài toán phân tích dữ liệu lớn theo thời gian thực

2.3 Bài toán phát hiện và theo dõi đối tượng sử dụng phương pháp học sâu

2.3.1 Các định nghĩa

2.3.2 Phát biểu bài toán 2.3.3 Các thuật toán phát hiện đối tượng

2.3.4 Các thuật toán theo dõi đối tượng

CHƯƠNG 3 ỨNG DỤNG YOLOv7 VÀ STRONGSORT TRONG BÀI TOÁN PHÁT

HIỆN, THEO DÕI VÀ ĐẾM PHƯƠNG TIỆN GIAO THÔNG THỜI GIAN THỰC

3.1 Các định nghĩa

3.2 Thuật toán YOLOv7

3.2.1 Thuật toán chỉ tiết

3.2.2 Ứng dung của YOLOv7

3.3 Áp dụng YOLOv7 và StrongSORT trong bài toán đếm phương tiện giao thông

theo thời gian thực

3.4 Thuật toán đếm phương tiện giao théng

CHƯƠNG 4 THỰC NGHIỆM

4.1 Môi trường thực nghiệm.

4.2 Kiến trúc thử nghiệm

4.3 Các bộ dữ liệu

4.4 Kết quả thực nghiệm, so sánh và phân tích -. - 5 5< Sc«sxexesceese Ø5,

CHƯƠNG 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 69

5.1 Kết luận .69

Trang 7

TÀI LIỆU THAM KHẢO.

DANH MỤC CÁC KÝ HIỆU VA CHỮ VIET TA’

Ký hiệu viết tắt | Ý nghĩa tiếng Việt Ý nghĩa tiếng Anh

Phương pháp mô tả đặc Histogram of Oriented HOG ề

RPN Mạng đề xuất vùng Region Proposal Network

Rol Ving quan tâm Region of Interest

IoU Hi Hộ điện tích giữa vùng Intersection over Union

giao va ving hop

YOLO | mô hinh CNN de phat You only look once

hién vat thé

Độ chính xác trong theo Multiple Object Tracking MOTP Z3 nhiền ake el

đõi nhiêu đôi tượng Precision

ELAN Mạng nơ rơn tông hợp Efficient Layer

lớp Efficient Aggregation Network

ar A Spatial Pyramid Pooling

SPP Lop tong hop Pyramid Layer

FPN Mang đặc trưng Pyramid | Feature Pyramid Network

Trang 8

Hình 2.1: SV của dữ liệu lớn -:cccccccoecvvvvvvvEErrrErttrrrtriirrrrrrrrrrrrrrrie 18

Hình 2.2: Quy trình xữ lý Bigdata [29] -.¿-5-5+2c+ccrrererrrrrrrrrrerrerrer 20

Hình 2.3: Kết hợp bài toán phân lớp và định vị đối tượng - 28

Hình 2.4: Mô hình phát hiện đối tượng sử dụng đặc trưng HOG

Hình 2.5: Ví dụ Efficient GraphBased Image Segmentation [2] 31

Hình 2.6: Giải thuật Hierarchical Grouping được sử dung trong R-CNN 32

Hình 2.7: Kiến trúc của gba ge CC NNNG, ; 2222.2.2/02.2.2222222222022)3/)4)0323202/3192412333433333 33

Hình 2.§: Kiến trúc của mạng Fast R-CNN [4]

Hình 2.9: Kiến trúc của mạng Faster R-CNN .ccccccccccceeecererrrrrrrrree 35

Hình 2.10: Kiến trúc của mạng YOLO đầu tiên cccccccccccccccccccezez 37

Hình 2.11: So sánh trọng tâm giữa các đối tượng được phát hiện trên 2 khung hình

để theo dõi chuyển động -c:¿¿¿-22222222+22222223222ttEEEEEEvvrrrrrrrrrrrrrrree 39

Hình 2.12: Luồng xử lí của SORT -5cccvccccvveeeeeeeeeeeeeeerrrreee ., 41

Hình 2.13: Ludng xử lý của DeepSORT .cccvcccvvvvccerrrerrrrrrrrrrree 4

Hình 2.14: Các lớp của mang no ron WRN trong tác vụ Cosine Metric Learing 44

Hình 2.15: Tham số của bộ phân lớp softmax tiêu chuẩn (trên) va cosine softmax

Hình 2.16: Mã giả so khớp theo tầng [7| -222czz2222222vvzccerrcvcrver 45

Hình 2.17: So sánh StrongSORT và StrongSORT++ trên bộ thử nghiệm MOT17 và

MOT20 [1 1] 46

Trang 9

MOTA, AssA 2 kết quả tốt nhất được làm nổi bằng màu đỏ va màu xanh [11].

Hình 3.1: các kỹ thuật model scaling, từ trái qua phải lần lượt là: cơ bản, chiều rộng,

chiều sâu, độ phân giải, hợp nhất [ 15] -.-.:¿¿¿-522v52cccesvcvvvvveccee 49

Hình 3.2: Model scaling cho concatenation-based models [10] SL

Hình 3.3: Kiến trúc mạng ELAN và E-ELAN [10] 52

Hình 3.4: Kiến trúc của SPPCSPC 25222vvvvtkkvtrrrtrrrrrrrrrrrrrrrrrrrree 53

Hình 4.1: Kiến trúc của kịch bản thử HGHIỆH (0 (2122 000 ,270

Hình 4.2: Cấu trúc của gói tin gửi Kafka .:.-cccccccccvvcccccecccrrrrrrrrrree 59

Hình 4.3: Tạo Apache Kafka trên Docker 60

Hình 4.4: Đối tượng JSON được gửi tới Kafka container thong qua KafkaProducer

Hình 4.5: SparkStreaming nhận gói tin từ Kafka . . - OO

Hình 4.6: Cấu trúc RDD 2-22 tri 61 Hình 4.7: Giải mã và tiền xử lý RDDooeceesessscsssesssssssssecceeeesssssssnennsnnsssceeeeesesseeeeee 6l

Hình 4.8: Nạp và cầu hình YOLOV7 -22ccccvvvvvvvvvevrevrrrrrrrrrrrrrrree 62

Hình 4.9: Khởi tạo StrongSORT với nr_sources là số lượng camera giám sát 62

Hình 4.10: Load YOLOv7 và khởi tạo StrongSORIT - ¿555cc 5+5+ 63

Hình 4.11: Phát hiện và theo dõi phương tiện giao thông trên từng batch 64

Hình 4.12 Cấu trúc dataset đã được tiền xử lý

Hình 4.13 Thông số mô hình học sâu ccc¿2cc+++++c+++++++++z+ttttetvvrrrrrrs 65

Trang 10

Hình 4.16 Mean Average Precision

Hình 4.17: Xuất output theo thời gian thực

Trang 11

Dữ liệu hay còn gọi là tập các thông tin về các dữ kiện, video, hình ảnh hay

các câu từ so sánh, miêu tả, đánh giá, đo lường, quan sát một sự vật hay hiện tượng

nao đó và chỉ ra được các tính chất đặc trưng của đối tượng, vật thể được quan sát.

Sự bùng nỗ của thông tin trên toàn cầu đó cũng chính là sự bão hòa về dữ liệu thực

tại và có một thuật ngữ được gọi là dữ liệu lớn (hay còn gọi là Big data) được sinh

ra dé khái quát hóa về van dé này, nó là một hệ thống cơ sở dữ liệu mang một khốilượng khổng lồ và có tính chất rất phức tạp yêu cầu các nhà nghiên cứu phải đặt ranhiều bài toán phù hợp đề có thể xử lý và từ đó có thể ứng dụng vào nhu cầu thựctiễn và khai thác được các van đề tiềm năm xuất phát từ Big data Trong kỷ nguyêncủa công nghệ số hiện đại đang từng bước được khai sáng và kỳ vọng rằng sẽ mang

lại những bước đột phá Trong công cuộc cách mạng công nghiệp trên cần có sự tham gia của các hệ thống tô chức dữ liệu cùng với IoT, các công nghệ thực tế ảo,

trí tuệ nhân tạo, các mô hình học máy và học sâu Việc triển khai các mô hình học

máy hay học sâu giúp ích rất nhiều cho các bài toán với khối lượng lớn dữ liệu, nhận biết sự thay đồi, sự khác nhau đối với nhu cầu của con người trong các bài toán kinh doanh, ngoài ra còn giúp nhận dạng các phương tiện giao thông hay thống kế, quản

lý được trong từng môi trường đặc thù nhất định.

Cùng với áp dụng đữ liệu lớn, việc sử dụng phương pháp học sâu nói chung,

và mạng tích chập nói riêng (Convolutional Neural Network) cho các bài toán có

đầu vào là ảnh, video là một phương hướng tiếp cận mạng lại kết quả rat tốt trongcác nghiên cứu gần đây

Đối với luận văn này, tôi sẽ thực hiện nghiên cứu phương pháp đếm phương

tiện giao thông sử dụng phân tích dữ liệu lớn thời gian thực và mô hình học sâu dé

xử lý thông tin video Trong đó, kết hợp mô hình học máy, học sâu — cụ thé là nghiên

cứu, tìm hiểu chuyên sâu về mô hình mạng no ron tích chập và áp dụng dé đánh giá

Trang 12

dụng đếm các phương tiện giao thông trong thời gian thực.

Trang 13

CHƯƠNG 1 TONG QUAN

1.1 Lý do chọn đề tài

Hiện nay, các quốc gia trên thế giới đang ngày càng phát triển kèm với sựbùng nỗ dân số tăng một cách đáng kể làm tăng thêm nhu cầu phát triển cơ sở hạtầng cho chỗ ở và các tiện ích khác như giáo dục, giải trí, y tế, v.v Do đó, đất đai

liên tục được phát triển cho các mục đích như khu dân cư và công nghiệp, khu phức

hợp thương mai, cơ sở giải trí Những phát triển này đòi hỏi phải có các tuyến đườngmới, các liên kết giao thông mới đề tăng khả năng phục vụ của các mạng lưới giao

thông hiện có Trong quá trình phê duyệt này, vai trò của các nhà quy hoạch giao

thông vận tải khi phân tích hệ thống giao thông dé đánh giá các van đề mà mạng

lưới giao thông hiện tại đang gặp phải và dự báo các tình huống trong tương lai nhằm phân tích tính khả thi của sự phát triển mới về các tuyến đường, sự phân bố

làn đi cho các phương tiện một cách phù hợp Ngoài ra, các nhà hoạch định giao

thông cũng cần giám sát các thành phần khác nhau của hệ thống giao thông, ví dụ, lưu lượng và mật độ giao thông trên các liên két riêng lẻ của hệ thống Vậy nên, việc đếm được các phương tiện tại một điểm nóng hoặc tại một giao lộ là rất quan trọng

bởi đây là dữ liệu cơ bản mà các nhà hoạch định giao thông yêu cầu để phân tích vàgiám sát hệ thống giao thông là dữ liệu về số lượng giao thông

Tuy nhiên, đó là một thách thức lớn đối với các nhà quy hoạch bởi mạng lướigiao thông là một hệ thóng lớn, phức tạp và phụ thuộc theo sự phát triển của từng

khu vực Nhằm giải quyết những thách thức này, các kỹ thuật dựa trên học sâu được

đề xuất đề phát hiện và đếm chính xác số lượng phương tiện trong các điều kiện môi trường khác nhau Trong số tat cả các vấn đề liên quan đến việc đếm, một van đề

nồi bật nhất sẽ là sự tắc nghẽn trong các video lưu lượng truy cập Chúng xuất hiệnkhá thường xuyên trên hầu hết các con đường đô thị thường xuyên xảy ra tắc nghẽn

Điều này dẫn đến sự mơ hồ trong việc đếm phương tiện, từ đó có thể làm sai sót và

Trang 14

giảm chất lượng của các nghiên cứu giao thông dựa trên các kế hoạch đếm dựa trên

tầm nhìn để ước tính lưu lượng giao thông.

Vậy nên, một trong các mục tiêu quan trọng trong luận văn này đó là đưa ra

được một phương pháp đếm phương tiện đủ mạnh để giải quyết vấn đề tắc nghẽn

và có thé đưa ra giải pháp đếm chính xác các phương tiện gặp phải tắc nghẽn nhiều

phương tiện Cụ thể, trong luận văn này sẽ trình bày một phương pháp đếm sé lượng

phương tiện giao thông đang lưu hành trên đường bộ sử dụng phân tích dữ liệu lớn

thời gian thực và học sâu, cụ thể là trình bày các bước cơ bản đề có thể đếm và nhận

dạng hình ảnh (phương tiện giao thông), sau đó nghiên cứu để có thể nhận dạng và

đếm được số lượng xe giúp ích cho việc thống kê, điều phối và phân chia một cáchợp lý về mật độ phương tiện trên mạng giao thông Kết quả đầu ra của nghiên cứu

này sẽ là một chương trình khi đầu vào là video hình ảnh được lấy từ camera giám sát giao thông (CCTV) từ các tuyến đường giao thông thé hiện các phương tiện giao thông đang lưu thông, kết quả đầu ra là số lượng và phân loại phương tiện giao

thông đếm được ngay tại mỗi khung hình từ đầu vào

1.2 Mục tiêu nghiên cứu

Mục tiêu tổng quan của dé tài đó là nghiên cứu các mô hình học sâu (đặc biệt

là mô hình mạng nơ ron tích chập) và các phương pháp phân tích dữ liệu lớn, nhằm

tìm hiểu và triển khai một hệ thống xữ lý dữ liệu lớn dạng video theo thời gian thựcbằng Kafka, Spark và học sâu Tìm hiểu các phương pháp đếm phương tiện như:

dựa trên vùng phát hiện ảo (virtual detection area); dựa trên trên việc theo dõi

phương tiện (vehicle tracking) Sử dụng YOLO kết hợp StrongSORT trong xử lý ảnh đề nhận đạng, phân loại và đếm số lượng phương tiện.

1.3 Đối tượng nghiên cứu

Luỗng dữ liệu đầu vào: Video từ thiết bị nguồn (camera giao thông) đượcđọc thành chuỗi khung hình (frame), các khung hình được chuyền đổi về dạng bytes

Trang 15

và được đóng gói trong các gói tin JSON Các gói tin được này được gửi và nhận thông qua một message broker, tạo thành các dòng chảy dữ liệu (còn gọi là data streaming) Message broker được sử dụng trong mô hình thử nghiệm là Apache

Kafka Apache Kafka là một nền tảng streaming phân tán, nó giúp hiện thực hóaviệc streaming nhiều video nguồn với dung lượng lớn mã vẫn đáp ứng yêu cầu real-

time.

Nghiên cứu các mô hình học sâu trong phát hiện và theo dõi đối tượng như:

YOLO, R-CNN, DeepSORT, StrongSORT

Nghiên cứu Apache Spark va Spark Streaming trong xữ lý dữ liệu lớn Ápdung Spark trong xữ lý bài toán phân tích dữ liệu giao thông trên nền nang PySpark

Ngoài ra, cũng tìm hiểu về cách Kafka và SparkStreaming làm việc với nhau đề tạo một hệ thống thời gian thực Các thành phần của SparkStreaming như DStream,

Batch, hay Resilient Distributed Dataset (RDD).

Nghiên cứu một mô hình có sử dụng mô hình học sâu về xử lý ảnh trong một

kiến trúc dữ liệu lớn Cụ thể, nghiên cứu sẽ sử dụng mô hình YOLOv7 vaStrongSORT được chạy trên các Python Worker trong môi trường PySpark dé xử

lý bài toán phát hiện và đếm phương tiện giao thông

Dữ liệu kiểm nghiệm được trích từ bộ dữ liệu COCO và UA-DETRAC

1.4 Phạm vi nghiên cứu

Giới hạn trong phạm vi của nghiên cứu về chủ đề theo phương hướng sử dụng phương pháp học sâu dé xử lý bài toán phát hiện, theo doi đối tượng nói chung

và đếm phương tiện giao thông nói riêng; sử dụng SparkStreaming va Kafka dé xử

ly bài toán dit liệu lớn và đáp ứng thời gian thực.

1.5 Nội dung nghiên cứu

Dé hoàn thành được mục tiêu dé ra, nghiên cứu sẽ gồm những nội dung sau:

Trang 16

~ Nghiên cứu về dữ liệu lớn, các mô hình học sâu trong nhận dạng, phát hiện

và theo doi đối tượng

- Tìm hiểu và giới thiệu Apache Kafka, Spark Streaming, các phiên bản

YOLO.

- Xây dựng hệ thống dữ liệu lớn có dữ liệu đầu vào là các gói tin được gửi từ

một message broker.

- Triển khai và đánh giá kết quả mô hình phát hiện, phân loại và đếm số lượng

phương tiện giao từ video bằng phương pháp học sâu

- Phát triển mô hình ứng dụng nghiên cứu thời gian thực.

1.6 Cấu trúc luận văn

Luận văn được tổ chức gồm 5 chương cụ thể như sau:

+ Chương 1: Giới thiệu tổng quan tình hình thực tiễn và định hướng

nghiên cứu.

+ Chương 2: Cơ sở lý thuyết và các nghiên cứu liên quan

+ Chương 3: Trình bày phương pháp ứng dụng YOLOv7 và

StrongSORT trong giải quyết bài toán đếm phương tiện giao thông.

+ Chương 4: Giới thiệu về môi trường, quy trình và kết quả thực

nghiệm.

+ Chương 5: Kết luận và hướng phát triển

Trang 17

CHƯƠNG 2 CƠ SỞ LÝ THUYÉT

2.1 Tổng quan về phân tích dữ liệu lớn

2.1.1 Dữ liệu lớn qua khái niệm 5Vs

Dữ liệu lớn được định nghĩa ban đầu là tập hợp các tập dữ liệu có nội dunglớn và phức tạp mà vẫn đảm bảo các yếu tô bao gồm khả năng lưu trử lượng dữ liệu

khổng lồ, khả năng quản lý dữ liệu, khả năng lưu trữ và phân tích thời gian thực.

Trong đó, phân tích dit liệu lớn là quá trình khai phá và đánh giá với lượng lớn dit

liệu Kích thước của một dữ liệu lớn thường được đo bằng terabyte hoặc petabyte.Hiện tượng này được gọi là Bigdata Sau khi kiểm tra Bigdata, dữ liệu đã được khởi

chạy dưới dạng phân tích Dữ liệu lớn.

Dữ liệu lớn được khái quát đưới nhiều định nghĩa khác nhau Tuy nhiên, kháiniệm 5Vs là một trong những khái niệm có nhiều điểm nổi bật được nhiều nhà

nghiên cứu sử dụng để mô tả về những gì dữ liệu lớn có thê làm được và sức mạnh của nó Cụ thé, dữ liệu lớn có thé được mô tả bởi các đặc điểm 5Vs như sau:

'Volume (Tổng dung lượng lưu trữ): Đây là khía cạnh mà quan trọng khi nhắc đến dữ liệu lớn Nhiều hệ thống đã có một lượng lớn dữ liệu được lưu trữ dưới dạng

nhật ký (logging) nhưng những dữ liệu đó gần như không có khả năng để được xử

lý.

Velocity (Tốc độ): Là đang đề cập đến tốc độ ngày càng tăng mà dữ liệu lớn

tạo ra Vì dữ liệu ngày càng tăng nên tốc độ xử lý của các hệ thống lưu trữ dữ liệucũng cần phải được đáp ứng

Variety (Đa dang kiểu di liệu): Yếu tố này nhằm đề cập đến kiểu dữ liệu vàtính chất của dữ liệu bởi dữ liệu lớn không phải lúc nào cũng là dữ liệu có cấu trúc

và không phải lúc nào cũng dé dàng đưa dữ liệu lớn vào cơ sở dữ liệu quan hệ Điều

Trang 18

này có nghĩa là danh mục mà dữ liệu lớn thuộc về cũng là một thực tế rất cần thiết

mà các nhà phân tích dữ liệu cần biết.

Veracity (Tính xác thực): Khi đang xử lý khối lượng lớn, tốc độ và nhiều loại

dữ liệu, không thể có đầy đủ dữ liệu sạch Vậy nên, độ chính xác là yếu tố nhằm đảm bảo sự sai lệch ít nhất trong lưu trữ dữ liệu.

Value (Giá trị): Được xem là đặc trưng quan trọng nhất trong dit liệu lớn Mặc dù vậy, giá trị tiềm năng của dữ liệu lớn là rất lớn Việc triển khai các hệ thống

cơ sở hạ tầng CNTT dé lưu trữ dữ liệu lớn trở nên rất tốn kém và các doanh nghiệp

sẽ yêu cầu hoàn vốn đầu tư

Trang 19

2.1.3.

Mục tiêu

Dữ liệu lớn thường được sử dụng với mục đích chính nhằm trích xuất các giá

trị của dữ liệu trong quá trình phân tích Các dữ liệu này được tạo liên tục từ các

nguồn dữ liệu như các thiết bị thông minht (smart home, smart device ), các cảm biến (sensor), các hệ thống Internet of Things (IoT) hay thậm chí từ các mạng xã

hội, v.v Thông qua các kết quả đã được phân tích, tìm ra được các giải pháp đề giảiquyết các vấn đề của xã hội như ô nhiềm môi trường, tình trạng quá tải giao thông,van dé sức khỏe, giáo dục hay kinh tế Dữ liệu lớn còn có mục tiêu tạo ra các sản

phẩm hay các ứng dụng có tính sáng tạo cao trong các tác động tính cực tới các mối

quan tâm trong xã hội hiện nay Trong thời đại thông tin đại chúng có tầm ảnh hưởngrất lớn, việc sử dụng dữ liệu lớn trong các phân tích đưa ra quyết định cũng thúc đây

sự đổi mới, nâng cao hiệu suất sản xuất và tăng giá trị sản phẩm của các doanh

nghiệp có ứng dụng phân tích dit liệu lớn.

Quy trình

Trải qua bước chất lọc và tìm tòi, đúc kết ra được một hệ thống Big datathường được xử lý thông qua 4 bước chính, các giai đoạn sau sử dụng kết quả củagiai đoạn trước dé tiếp tục quy trình và hoàn thiện quy mô của hệ thống: thu thập

(acquire), tổ chức (organize), phân tích (analyze) và cuối cùng là quyết định

(decide):

Trang 20

a) Thu thập dữ liệu (acquire)

Thu thập dữ liệu thường được viết tắt là DAQ hoặc DAS, được hiéu là quá

trình thu thập, lọc và làm sạch dữ liệu trước khi dữ liệu được đưa vào kho dữ

liệu Việc thu thập dữ liệu lớn thường được điều chỉnh bởi bốn trong số 5Vslà: khối lượng, tốc độ, sự đa dạng và giá trị [16]

Hầu hết các kịch bản thu thập dữ liệu đều giả định dữ liệu có kích thước là

lớn, đảm bảo tốc độ cao, mang tính đa dạng nhưng có giá trị thấp Và điều

quan trọng là phải có các thuật toán thu thập, lọc và làm sạch có khả năng

thích ứng và tiết kiệm tài nguyên để đảm bảo rằng chỉ các đoạn dữ liệu có

giá trị cao thực sự được xử lý trong quá trình phân tích.

b) Tổ chức dữ liệu (organize)

Sau công đoạn tạo, thu thập hoặc bắt đầu thao tác với đữ liệu và tệp, chúng

có thể nhanh chóng trở nên vô tổ chức và việc thu thập từ đa dạng nguồn

khác nhau gây rối về cơ cấu, định dang của một bộ dữ liệu nhất định Để tiết

Trang 21

kiệm thời gian và hạn chế lỗi sau này, cần phải xem xét kỹ về cấu trúc cũng

như cách đặt tên các tệp và thư mục Bao gồm tài liệu (hoặc 'siêu dữ liệu') sẽ cho phép bộ dữ liệu được thêm các ngữ cảnh vào dữ liệu để có thẻ hiểu dữ

liệu đó trong ngắn hạn, trung hạn và dài hạn[ 17]

Phân tích dữ liệu

Phân tích dữ liệu lớn là phân ra, khám phá va phân tích lượng lớn dữ liệu để

khai thác xu hướng của thị trường, các thông tin chỉ tiết và mô hình có thểgiúp các doanh nghiệp đưa ra các quyết định cũng như các chiến lược kinhdoanh mang về giá trị tốt hơn Thông tin này cần phải có sẵn một cách nhanhchóng và dễ dàng để các doanh nghiệp có thể linh hoạt thay đổi trong việc

xây dựng các kế hoạch khác nhau nhằm duy trì lợi thế cạnh tranh của họ.

Ra quyết định (decide)Sau khi qua ba công đoạn trên thì bước cuối cùng sẽ dựa trên các kết quả thuđược từ việc đánh giá, so sánh, tính toán đề đưa ra phương hướng phát triển,

cải thiện cho các cơ quan tổ chức, doanh nghiệp.

Như vậy, có 4 giai đoạn trong quy trình bigdata và cả 4 giai đoạn đều quan trọng

Dé nâng cao được chất lượng tri thức, tiền tố quan trọng trong tat cả các quá trình

phân tích dữ liệu lớn thì việc thực hiện chỉnh chu từng giai đoạn là điều cần thiết

2.1.4 Các loại phân tích dữ liệu lớn

Phân tích mô tả

Dữ liệu có tính lịch sử được phân tích nhằm hiểu rõ hơn về các thay đổi đã

xảy ra trong quá khứ Từ đó rút ra được cái nhìn tổng thể về giá trị và xu hướngcủa dữ liệu đã được lưu trữ Phân tích mô tả thường là bước đầu tiên trong quy

trình phân tích dữ liệu của các doanh nghiệp nhằm ghi lại những sự kiện (dữ liệu

về thông tin) đã xảy ra.

Phân tích chan đoán

Trang 22

Đi sâu vào dữ liệu, nhằm tìm kiếm những thông tin chỉ tiét có giá trị, cũng,

như giải đáp được câu hỏi “đoạn dữ liệu này phản ánh điều gì? Và vì sao nó xảy ra?” Cuối cùng đưa ra được lý do xuất hiện của dữ liệu.

- Phân tích dự đoán

Phân tích chuẩn đoán giúp khai phá các dữ liệu từ quá khứ kết hợp với mô

hình thống kê, kỹ thuật khai thác dữ liệu và học máy để đưa ra các dự đoán của

xu hướng trong tương lai Các doanh nghiệp, tổ chức sử dụng phân tích dự đoánnhư một công cụ dé đánh giá rủi ro và cơ hội trong tương lai

tảng này hoạt động bằng cách phân phối các công việc phân tích và dữ liệu lớn của

Hadoop trên các nút trong một cụm máy tính, chia chúng thành các khối có lượngcông việc nhỏ hơn có thể chạy song song Một số lợi ích chính của Hadoop là khảnăng mở rộng, tính linh hoạt và khả năng phục hồi Hệ thống tệp phân tán Hadoop

(HDES) đảm bảo độ tin cậy cũng như khả năng phục hồi bằng cách sao chép bất kỳ nút (node) nào của cụm sang các nút khác của cụm để bảo vệ khỏi lỗi phần cứng

hoặc phần mềm Tính linh hoạt của Hadoop cho phép lưu trữ mọi định dạng dữ liệubao gồm cả dữ liệu có cau trúc và cả dữ liệu không cấu trúc [19]

Trang 23

2.1.5.2 Apache Spark

Apache Spark là một công cụ đa ngôn ngữ dé thực hiện kỹ thuật dữ liệu, khoa

học dữ liệu và học máy trên các máy hoặc cụm nút đơn Nó là một khung làm việc

dựa trên xử lý song song có mã nguồn mở hỗ trợ xử lý trên bộ nhớ Điều này nhằm cải thiện hiệu suất tính toán và xử lý của các ứng dụng có sử dụng phân tích dữ liệu

lớn Các giải pháp dữ liệu lớn được thiết kế để xử lý dữ liệu quá lớn hoặc phức tạpđối với cơ sở dữ liệu truyền thống Spark xử lý một lượng lớn dữ liệu trong bộ nhớ,nhanh hơn nhiều so với các giải pháp thay thế truyền thống sử dụng đĩa cứng

Spark Streaming là một công cụ truyền dữ liệu liên tục bằng cách chia dữliệu thành các phần di liệu nhỏ hơn (gọi là Batch) và truyền dẫn, được xây dựng

dựa trên Spark Core Vai trò của Spark Streaming trong Spark là xử lý lượng dữ liệu

lớn theo thời gian thực và đảm bảo khả năng chịu lỗi lớn Spark Streaming đã chứngminh được ưu điểm của mình thông qua các tính chất sau: khả năng scaling với sốlượng node lớn; giảm độ tré tới mức vài trăm mili giây; khả năng sửa lỗi khi một

node có vấn đề cao vì các tính toán được chia sẽ cho nhiều node thực hiện; khả năng tính hợp đa dang vì DStream hoạt động với hau hết các built-in function của Spark;

hồ trợ các thư viện MLIib, GraphX của Spark

2.1.6 Ứng dụng của phân tích dữ liệu dữ liệu lớn

Rất nhiều lĩnh vực có thé sử dụng dữ liệu lớn như:

e Di liệu lớn trong lĩnh vực giao thông

e Di liệu lớn trong việc phán đoán và đưa ra dự đoán thời tiết

© Dé liệu lớn trong nên y học

© Dir liệu lớn trong hoạt động chính trị và quyết định quân sự

e Dz liệu lớn trong phân tích xu hướng, hành vi trên các mạng xã hội

e Dir liệu lớn trong các dự phóng về tài chính, ngân hàng

© Di liệu lớn trong thị trường tiếp thị

Trang 24

e Di liệu lớn trong phân tích sức khỏe của doanh nghiệp và tổ chứcc

© Dé liệu lớn trong công tác kiểm định, thống kê

2.1.7 Những thách thức trong Phân tích dữ liệu lớn

Bên cạnh các lợi ích không nhỏ của phân tích di liệu lớn thì song song với

nó vẫn sẽ tồn tại các thách thức liên quan cần các nhà nghiên cứu xử lý và hạn chế

đó là:

- _ Trong khả năng truyền tải dữ liệu, vì lượng dữ liệu là rất lon nên các hệ thống dữ liệu lớn cần nguyễn tài nguyên cũng lớn, điều này làm tăng chỉ

phí vận hành Điều này được xem là “nút thắt cổ chai” (bottle neck” của

công việc tính toán dữ liệu lớn Việc cải thiện hiệu suất truyền tải dữ liệu lớn là một yếu tố quan trọng dé nâng cao hiệu quả tính toán trên dữ liệu

lớn.

- Tốc độ xử lý khi giải quyết các bài toán yêu cầu đảm bảo thời gian thựccũng là một thách thức của phân tích dữ liệu lớn Dữ liệu quá lớn đồ vàotheo thời gian thực khiến các tính toán bị giảm tốc độ xử lý

- Việc được ứng dụng ngày các nhiều với nhiều nguồn dữ liệu trong đócũng có rất nhiều dữ liệu nhạy cảm, quyền riêng tư và sự bảo mật cũngđang là một thách thức của xử lý dữ liệu lớn Các nền tảng dữ liệu lớn

cần đạt được sự cân bằng tốt giữa việc truy cập dữ liệu và sau đó là xử

lý đữ liệu phù hợp với độ chính xác của việc xử lý từng tập dữ liệu lớn tương ứng.

Như vậy, dữ liệu lớn ngày càng có vai trò hết sức quan trọng Giải quyết được bài toán trong dữ liệu lớn cần đòi hỏi sự tổng hợp tri thức về nhiều lĩnh công

nghệ và sử dụng các kỹ thuật khác nhau Các kỹ thuật cũng như công nghệ được cải

thiện ngày qua ngày, nhưng vẫn cần một khoảng thời gian để hoàn thiện Do vậy,

mặc dù dễ dàng trông thấy được nhiều lợi ích và tiềm năng của dữ liệu lớn, nhưng vẫn còn rất nhiều vấn đề và thách thức mà dữ liệu lớn cần phải đối mặt và giải quyết.

Trang 25

2.2 Bài toán phân tích dữ liệu lớn theo thời gian thực

Với việc bùng né về kích thước cũng như thông tin của dữ liệu trong khônggian thông tin theo thời gian thực của những năm gần đây, điều này yêu cầu giới

nghiên cứu cũng như các nhà khoa học dữ liệu cần tìm ra các phương pháp nhằm

phân tích dữ liệu với khối lượng lớn mà vẫn đảm bảo tốc độ lẫn hiệu suất Nhiềucông cụ được được giới thiệu bởi các tổ chức lớn nhằm hồ trợ việc phân tích dữ liệu

lớn theo thời gian thực như là Apache Spark Streaming Việc áp dụng các công cụ

tiên tiến trong các ứng dụng thực tiễn hiện nay nhằm giải quyết một phần các khó

khăn hay hạn chế về mặt kỹ thuật khi làm việc với dữ liệu lớn, điều này cũng đang

mang tới nhiều thành công cho lĩnh vực Trong đề tài này sẽ tập trung ứng dụngApache Spark Streaming kết hợp với Apache Kafka để giải bài toán phân tích dữ

liệu lớn theo thời gian thực.

Kích thước của một batch khi làm việc với mô hình xử lý dữ liệu phân tán

theo dạng micro-batch là một yếu tố quan trọng ảnh hưởng đến hiệu suất của hệ

thống real-time Dé xác định kích thước của batch, trước tiên cần đo tốc độ xử lý của hệ thống Spark Độ trễ thấp nhất của một hệ thống thời gian thực sử dụng

SparkStreaming đạt được khi kích thước mỗi batch bằng với khả năng xử lý của hệthống trong khoảng thời gian trễ chấp nhận được Ví dụ độ trễ chấp nhận là 1 giâythì kích thước của batch bằng dung lượng dữ liệu có thể xử lý của hệ thống trong

một giây Nếu kích thước của batch lớn hơn tốc độ xử lý hoặc quá lớn sẽ gây ra hiện tượng nghẽn cô chai và không đáp ứng được yêu cầu thời gian thực.

2.3 Bài toán phát hiện và theo dõi đối tượng sử dụng phương pháp học sâu

Các phương pháp học sâu được ứng dụng trong nhiều nghiên cứu cho kết quả

tốt, như đang ngày càng khẳng định được vai trò quan trọng của nó Cũng như việc thế giới đang đưa ra các hiệu chỉnh nhằm nâng cao hiệu quả chung cho các mô hình

trí tuệ nhân tạo Phương pháp học sâu được xem như một chìa khóa then chốt trong

Trang 26

từ cách bồ trí và hoạt động chức năng của não bộ con người Học sâu giúp tăng hiệu

suất của mô hình dựa trên sự gia tăng lượng dữ liệu, điều mà là thách thức của các

mô hình truyền thống Theo dõi đối tượng theo thời gian thực được xem là đi dẫnđầu trong các chủ đề nghiên cứu được tìm kiếm nhiều nhất trong các ứng dụng thịgiác máy tính Bất kể những tién bộ đã được công nhận trong bài toán này, hiệu quả

và độ chính xác trong việc theo dõi đối tượng vẫn là một thách thức lớn Phát hiện

và theo dõi đối tượng thường được sử dụng trong các ứng dụng giám sát và bảo mật

sử dụng hình ảnh và video Một số thuật toán học sâu phổ biến cho bài toán này

như: You Only Look Once (YOLO), Region-based Convolutional Neural Networks (RCNN), Faster RCNN (F-RCNN).

Cac dinh nghia

Định nghĩa 2.1 - Phát hiện đối tượng (object detection)

Phát hiện đối tượng là việc nhận diện và định vị các đối tượng thuộc một lớp

nhất định bên trong một hình ảnh Các phương pháp nhận dạnh stage-of-the-art hiện

nay được chia thành 2 loại chính: phương pháp one-stage và phương pháp

two-stages Phương pháp one-stage ưu tiên tốc độ suy luận, các mô hình điển hình của

phương pháp này là: YOLO, SSD và RetinaNet Trong khi đó, two-stages ưu tiên

độ chính xác trong phát hiện, các mô hình ví dụ của phương pháp này là: R-CNN, Mask R-CNN and Cascade R-CNN.

Định nghĩa 2.2 - Theo dõi đái tượng (object tracking)

Theo dõi đối tượng là việc sử dụng một bộ phát hiện đối tượng ban đầu, tạo

một ID duy nhất (unique ID) cho mỗi lần phát hiện ban đầu, sau đó theo dõi từng đối tượng khi chúng di chuyển quanh các khung hình trong video và duy trì việc

gán ID Phương pháp state-of-the-art của bài toán này sử dụng kết hợp thông tin từảnh RGB và camera dựa trên sự kiện để nâng cao mức độ tin cậy của khả năng theodoi đối tượng Các mô hình dự trên nên nảng mạng tích chập CNN (convolutional

Trang 27

2.3.3.

neural network) chỉ sữ dụng thông tin ảnh RGB làm đầu vào cũng cho kết quả tốt

Các metric thường dùng để đánh giá một mô hình theo doi đối tượng bao gồm:

HOTA, MOTA, IDFI, and Track-mAP.

Phát biểu bài toán

Theo dõi đối tượng là một trong những công việc quan trọng nhất trong thị

giác máy tính Có nhiều ứng dụng thực tế, bao gồm như giám sát giao thông, người máy, hình ảnh y tế và theo dõi phương tiện tự động.

Phát hiện đối tượng là việc cần thiết đầu tiên dé bắt đầu quá trình theo dõi

Ap dụng liên tiếp trên mỗi khung hình Một cách tiếp cận phổ biến dé phát hiện các đối tượng đang chuyển động là sử dụng thông tin thời gian được trích xuất từ chuỗi

hình ảnh Ví dụ: tính toán sự khác biệt về mặt vị trí giữa các khung hình hoặc môhình học tập trong các cảnh nền Tìm chuyền động tĩnh và so sánh với cảnh hiện tại

hoặc các khu vực có giá trị cao

Khi một đối tượng được phát hiện, công việc của trình theo dõi là so khớptrên khung hình tiếp theo trong khi xây dựng quỹ đạo của đối tượng Trình theo dõi

đối tượng cũng có thể cung cấp tổng diện tích trong ảnh mà đối tượng chiếm giữ.

Sau đó, ứng dụng đầu ra của bài toán theo dõi đối tượng dé giải quyết các bài toánkhác dựa trên yêu cầu đã được đưa ra

Các thuật toán phát hiện đối tượng

Thuở dau, bài toán phát hiện một đối tượng trên một ảnh được coi như là tìm lời giải kết hợp cho bài toán phân lớp (classification) và định vị (localization).

Trang 28

Classification + Localization Goroct abet

Class Scores |

Fully Cat: 0.9 Softmax

Connected: „Dog:005 Loss

.> Cá 001 |

+ —+LossOften pretained on ImageNet VSS" Connactods |

(Transfer learning) Sot Box

© Tập dữ liệu đầu vào có dạng (X,y) Trong đó, X là hình ảnh, y là

mảng chứa nhãn lớp (class label), (x, y, w, h) Với x là tọa độ x góc

trên trái của hộp chứa đối tượng, y là tọa độ y của góc trên trái của

hộp chứa đói tượng, w là chiều rộng của hộp chứa, h là chiều cao của

hộp chứa.

Mô hình:

e Mô hình có nhiều đầu ra, với mỗi đầu ra là một cặp nhãn lớp và bộ

(x,y,w,h) là tọa độ tương ứng của hộp chứa đối tượng được gán

nhãn.

Loss:

© Mất mát là một định lượng quan trọng trong bài toán này Thông

thường, mất mát là tổng trọng số mắt mát Softmax (từ bài toán phânloại) và mat mat mát quy hồi L2 (từ tọa độ hộp giới han)

Loss = alpha * Soƒtma#as; + (1 — alpha) * L2ioss

Trang 29

Tuy nhiên, bài giải trên có một nhược điểm lớn là nếu nhiều đối tượng có cùng một gán nhãn, chúng chỉ tìm được duy nhất một đối tượng Một ý tưởng mới

có thể giải quyết khó khăn này là sử dụng một mô hình CNN với nhiều cắt ảnh

(cropped images), sau đó phát hiện các đội tượng trên những ảnh đã được cắt Tuy

nhiên, phương pháp này được đánh giá là tốn khá nhiều tài nguyên

2.3.3.1 Phương pháp mô tả đặc trưng (Histogram of Oriented Gradients - HOG)

Histogram of Oriented Gradients, còn được gọi là HOG, được giới thiệu năm

1986 là một bộ mô tả đặc trưng giống với các bộ mô tả đặc trưng đã được công bố

trước đây như: Canny Edge Detector, SIFT

HOG được ứng dụng nhiều trong thị giác máy tính và xữ lý ảnh đặc biệt là

cho mục đích phát hiện đối tượng Bộ mô tả HOG tập trung vào cấu trúc hoặc hình

dạng của một đối tượng Nó tốt hơn bat kỳ bộ mô tả cạnh (edge descriptor) nào vì

nó sử dụng độ lớn cũng như góc của gradient dé tính toán các đặc trưng Đối với

các vùng của hình ảnh, nó tạo biểu đồ sử dụng cường độ và hướng của historgram.

Current cell with the 4

ước classification! Detection

Hình 2.4: Mô hình phát hiện đối tượng sử dụng đặc trưng HOG

Gradient | [ uy

catcutation| ~]NstooreTM

HOG chia nhỏ ảnh thành các vùng con (cells) với các kích thước nhỏ hơn

hình ban đầu, mỗi cell HOG sẽ tính toán một một histogram về các hướng của

gradients Gộp các histogram này lại ta có được một historgram lớn thé hiện cho

ảnh ban đầu Các ngưỡng (threshold) được sử dụng trên từng histogram để chuẩn

hóa nhằm tối ưu hiệu quả nhận diện Cuối cùng, HOG thu được một véc-tơ đặc

Trang 30

trưng có tính bat biến với cường độ ánh sáng Véc-tơ này sau đó được đưa vào một

bộ phân lớp dé phát hiện đối tượng (ví dụ: Linear SVM).

2.3.3.2 Mạng nơ-ron tích chập theo vùng (R-CNN)

Vé sau các mạng nơ-ron CNN được ứng dụng vào đề giải bài toán phát hiệnđối tượng được cải tiền từ phương pháp sử dụng đặc trưng HOG và đặc trưng SIFT,

các mạng này cho các kết quả đầu ra khá hiệu quả Một trong những thuật toán tiên

phong sử dụng CNN trong bài toán này là R-CNN Thuật toán này cũng giới thiệu

hai khái niệm mới trong xử lý ảnh là vùng đề xuất (region proposal) và tìm kiếmchọn lọc (selective search) Selective search sẽ tìm kiếm cách cùng ảnh có thể xuấthiện đối tượng bang các đặc trưng tiêu biéu của đối tượng [1]

Selective search khởi tạo bằng một tập các vùng ban đầu sử dung EfficientGraphBased Image Segmentation [2] Các kỹ thuật phân đoạn ảnh dựa trên đồ thịthường biểu diễn van đề dưới dạng đồ thị G = (V, E) trong đó mỗi nút ø € V tương

ứng với một pixel trong ảnh và các cạnh trong E kết nói các cặp pixel lân cận nhất định Một trọng số được liên kết với mỗi cạnh dựa trên một số thuộc tính của các pixel mà nó kết nói, chăng hạn như cường độ hình ảnh của chúng Tùy thuộc vào phương pháp, có thể có hoặc không có cạnh nối từng cặp đỉnh Mỗi cạnh (, 1/) €

E có trọng số tương ứng Ww(¡, 1j)), là thước đo không âm về sự không giống nhau

giữa các phan tử lân cận 1; và 1 Trong trường hợp phân đoạn hình ảnh, các phần

tử trong W là các pixel và trọng số của một cạnh là thước đo sự không giống nhau

giữa hai pixel được kết nối bởi cạnh đó (ví dụ: sự khác biệt về cường độ, màu sắc,

chuyển động, vị trí hoặc một số yếu tố cục bộ khác) Trong cách tiếp cận dựa trên

đồ thị, phân đoạn S là phân vùng của V, được chia thành các thành phần sao chomỗi thành phần (hoặc vùng) C € E tương ứng với một thành phần được kết nốitrong biểu đồ

Trang 31

Hình 2.5: Ví du Efficient GraphBased Image Segmentation [2]

Nếu tạo các hộp giới hạn xung quanh các mặt nạ này, chúng ta sẽ mất rất

nhiều vùng Vì vậy trong trường hợp muốn có tắt cả các bộ phận của đối tượng

trong một hộp/khung giới hạn duy nhất, chúng ta cần nhóm các vùng ban đầu cầnthiết lại với nhau Efficient GraphBased Image Segmentation đã sử dụng giải thuật

Hierarchical Grouping để nhóm các vùng khởi tạo như ban đầu Trong thuật toán này, chúng hợp nhất hầu hết các vùng tương tự lại với nhau dựa trên các mô tả

khác nhau về sự tương đồng dựa trên các đặc trưng về kết cấu, kích thước và màu

sắc.

Trang 32

Algorithm 1: Hierarchical Grouping Algorithm Input: (colour) image

Output: Set of object location hypotheses L

Obtain initial regions R = {z,- - - ,r„} using [13]

Initialise similarity set S=0

foreach Neighbouring region pair (r¡,rj) do

Calculate similarity s(7;, r;)

| S= §UsÉ¡,r;)

while S ⁄ 0 do

Get highest similarity s(z¡,r;) = max(S)

Merge corresponding regions 7, = 7; Ur;

Remove similarities regarding z; : § = S\ s(r¡,rx) Remove similarities regarding r; : S = S\ s(rx,r;)

Calculate similarity set S; between r; and its neighbours S=SUS,

R=Rvur,

Extract object location boxes L from all regions in R

Hình 2.6: Giải thuật Hierarchical Grouping được sử dung trong R-CNN

Tổng quan hệ thông phát hiện đối tượng trong R-CNN được đề xuất nhưsau [3]: (1) lấy hình ảnh đầu vào, (2) trích xuất khoảng 2000 đề xuất vùng từ dướilên, (3) tính toán các đặc trưng cho từng đề xuất bằng cách sử dụng mạng thần

kinh tích chập (CNN), sau đó (4) phân loại từng vùng bằng bộ phân lớp SVM

tuyến tính [3]

Trang 33

R-CNN: Regions with CNN features

Fast R-CNN được đề xuất bởi tác giả của R-CNN, người hiểu được các vấn

đề mà R-CNN đang gặp phải Mạng Fast R-CNN lấy đầu vào là toàn bộ hình ảnh

và một tập hợp các đói tượng đề xuất Mạng nơ rơn đầu tiên sẽ xử lý tất cả hình ảnh

với vài lớp tích chập và lớp max-pooling để tạo ra các đặc trưng Sau đó, đối vớimỗi vùng đề xuất đối tượng, một lớp tổng hợp vùng quan tâm (Rol) được trích xuất

ra một vectơ đặc trưng có độ dài cố định từ bản đồ đặc trưng Mỗi vectơ đặc trưng được đưa vào một chuỗi các lớp được kết nối đầy đủ (fully-conected layer) cuối

cùng phân nhánh thành hai lớp đầu ra: một lớp tạo ra các ước tính xác suất softmaxtrên K lớp đối tượng cộng với lớp “nền” và một lớp khác tạo ra bốn giá trị thực Mỗi

bộ 4 giá trị các vị trí hộp giới hạn được tinh chỉnh cho một trong các lớp K [4].

Trang 34

Am: —— bhgy

softmax regressor

cae =

Rol feature feature map V€CEOF for each Ro!

Hình 2.8: Kiến trúc của mạng Fast R-CNN [4]

Mạng Fast R-CNN có hai lớp đầu ra anh chị em Cái đầu tiên xuất ra mộtphân phối xác suất riêng biệt (trên mỗi Rol), p = (po, Px), trên K + 1 danh

mục Như thường lệ, p được tính toán bằng softmax trên đầu ra K+1 của lớp đượckết nối đầy đủ Lớp thứ hai xuất ra độ lệch hồi quy hộp giới hạn, t =

(te ty, tw, tp), cho mỗi lớp đối tượng K Mỗi Rol huấn luyện được gắn nhãn với lớp sự thật cơ bản u và hộp giới hạn mục tiêu Sử dụng mắt mát đa mục tiêu trên mỗi được gan nhãn Rol dé cùng huấn luyện.

Lí,u,t”,9) = Lạass(p,w) + Alu > 1]L„c(t",9)

Trong đó, Leyass là mất mát Soft-max của sự phân lớp L;„¿ là mắt hồi quy

Tại u = 0 là mất mát cho ảnh nền (background).

Fast R-CNN vẫn có vấn đề với thời gian tính toán do vẫn sử dụng selective

search.

2.3.3.4 Faster R-CNN

Dé tăng hiệu suất tính toán của giải thuật, trong cải tiến Faster R-CNN

không còn sử dụng selective search, thay vào đó Faster R-CNN được thiết kế thêm

1 mạng con gọi là RPN (Region Proposal Network) Mạng con này có vai trò

nhằm trích rút các vùng trên ảnh có khả năng chứa đối tượng [Š].

Trang 35

Hình 2.9: Kiến trúc của mang Faster R-CNN

Kiến trúc này được kết hợp trên 2 modules: Region Proposal Network( RPN)

và Fast R-CNN như đã giới thiệu ở trên.

Ý tưởng chính của Faster R-CNN là ý tưởng về Mỏ neo (Anchor) Các

anchors là các hộp giới hạn cố định được đặt trong toàn bộ hình ảnh có kích thước

và tỷ lệ khác nhau sẽ được sử dụng dé tham khảo khi lần đầu tiên dự đoán vị trí đốitượng [5] Mỗi kiểu anchor được xác định sao cho phù hợp để tìm ra hộp giới hạn

cho 1 loại đối tượng có đặc trưng riêng biệt Các feature map sau khi được xử lý bởi

mạng PRN, sẽ tạo ra các proposals, các proposals này được đưa vài các lớp Rol

Pooling để xác định các vùng dé xuất có cùng 1 kích thước không đổi Các outputvùng đề xuất được đưa vào 2 nhánh đề xác định nhãn và hộp giới hạn cho đối tượng

Anchor box trong Faster R-CNN là thay vì dự đoán 2 góc ta sẽ dự đoán điểmtrung tâm (Xsener› Yeenter) và chiều rộng, chiều cao của hình chữ nhật Như vậy

mỗi anchor được xác định bằng 4 tham số (Xcenter» Yeenter» , h).

Trang 36

Sau khi tìm được anchor box, Faster R-CNN sẽ so khớp hộp dự đoán và hộp

đã được gan nhãn thông qua phép tính IoU (Intersection over Union).

2.3.3.5 YOLO — You only look once

YOLO là một cách tiếp cận mới trong giải quyết bài toán phát hiện đối tượng.Không giống như các mô hình phát hiện đối tượng two-stages như R-CNN, Fast-

CNN, Faster R-CNN, YOLO là mô hình one-stage Các phiên bản của Yolo tại thời

điểm giới thiệu luôn chứng minh là mô hình phát hiện đối tượng có tốc độ suy luận

nhanh nhất, mà vẫn đảm bảo được độ chính xác khá cao YOLO được giới thiệu lầnđầu vào năm 2015 [9] Cho tới nay đã có 7 phiên bản được giới thiệu bao gồm

YOLO (2015), YOLOv2 (2016), YOLOv3 (2018), YOLOv4 (2020), YOLOvS

(2021), YOLOv6(2022) và mới nhất là YOLOv7 (2022).

Ở phiên bản đầu tiên, cốt lõi của thuật toán phát hiện mục tiêu YOLO nằm ở

kích thước nhỏ và tốc độ tính toán nhanh của mô hình Cấu trúc của YOLO rất đơn giản Nó có thể xuất trực tiếp vị trí và danh mục của hộp giới hạn thông qua mạng

lưới thần kinh Tốc độ của YOLO nhanh vì YOLO chỉ cần đưa ảnh vào mạng là cóthể nhận được kết quả phát hiện cuối cùng, vì vậy YOLO cũng có thẻ phát hiện đốitượng trên video theo thời gian thực Thay vì sử dụng các bộ phân loại ở lớp đầu ra

dé phát hiện đối tượng theo tiếp cận truyền thống, YOLO đóng khung việc phát hiện

đối tượng như một vấn đề hồi quy đối với các hộp giới hạn (bounding box) riêngbiệt Một mạng nơ ron đơn dự đoán vị trí và kích thước các hộp giới hạn và xác xuấtphân lớp từ hình ảnh đầu vào trong một lần đánh giá Vì toàn bộ quy trình phát hiện

được thực hiện trên một mạng duy nhất nên nó có thể được tối ưu hóa trực tiếp từ đầu đến cuối dựa trên hiệu quả phát hiện [9] Kiến trúc YOLO ban đầu bao gồm 24

lớp tích chập, theo sau là hai lớp được kết nối đây đủ (FC) YOLO dự đoán nhiều

hộp giới hạn trên mỗi ô lưới nhưng những hộp giới hạn có Intersection over Union

(IOU) cao nhất với ground truth được chọn, hay được biết là non-maxima

suppression [9].

Ngày đăng: 08/11/2024, 17:25

w