Nghiên cứu về kỹ thuật theo dõi đối tượng và ứng dụng trong bài toán camera giám sát

60 Trang 11 LỜI NÓI ĐẦU Mạng nơ-ron sâu Deep neural networks đang được nghiên cứu tích cực và các mô hình học sâu đã được sử dụng rộng rãi trong lĩnh vực thị giác máy tính.. Giới thiệu

TỔNG QUAN HỌC SÂU TRONG MẠNG NƠ-RON

Tổng quan về học máy, học sâu

1.1.1.1 Giới thiệu về học máy

Học máy là một lĩnh vực của trí tuệ nhân tạo (Artificial Intelligence - AI) và khoa học máy tính, nghiên cứu về việc tạo ra các mô hình và thuật toán để cho máy tính học hỏi từ dữ liệu và cải thiện hiệu suất trong các nhiệm vụ cụ thể mà không cần phải được lập trình trực tiếp

Học máy giúp máy tính tự động học hỏi và điều chỉnh chính nó để cải thiện kết quả của nó khi xử lý các nhiệm vụ cụ thể Quá trình học được thực hiện bằng cách sử dụng các thuật toán và mô hình được đào tạo từ dữ liệu Để đào tạo một mô hình học máy, chúng ta cung cấp cho nó một tập dữ liệu đầu vào và kết quả đầu ra mong muốn Mô hình sẽ học từ các ví dụ này và sau đó có thể dự đoán đầu ra cho các dữ liệu mới mà nó chưa từng thấy trước đó

Học máy được sử dụng trong nhiều lĩnh vực như xử lý ngôn ngữ tự nhiên, xử lý ảnh, nhận dạng giọng nói, khai thác dữ liệu, tư vấn khách hàng, tự động hóa công việc, và đặc biệt là xe tự lái Học máy cũng là một trong những lĩnh vực được phát triển mạnh mẽ trong thời gian gần đây và được dự báo sẽ đóng vai trò quan trọng trong tương lai của công nghệ

1.1.1.2 Ứng dụng của học máy

Học máy được sử dụng rộng rãi trong nhiều lĩnh vực và có nhiều ứng dụng khác nhau, bao gồm:

- Xử lý ngôn ngữ tự nhiên: Học máy được sử dụng để phân loại văn bản, phát hiện ngôn ngữ, dịch thuật và tạo ra các chức năng tương tác giọng nói

- Xử lý ảnh và video: Học máy được sử dụng để phân loại hình ảnh, nhận diện khuôn mặt, phát hiện đối tượng và phân tích video

- Nhận dạng giọng nói: Học máy được sử dụng để nhận dạng giọng nói và chuyển đổi giọng nói thành văn bản

- Tư vấn khách hàng: Học máy được sử dụng để tạo ra các hệ thống tư vấn khách hàng tự động dựa trên dữ liệu về hành vi của khách hàng

- Tự động hóa công việc: Học máy được sử dụng để tự động hóa các nhiệm vụ công việc, như việc phân loại và phân tích dữ liệu hoặc tạo ra các báo cáo tự động

- Khai thác dữ liệu: Học máy được sử dụng để tìm ra các mẫu và quy luật trong dữ liệu và áp dụng chúng vào các quyết định kinh doanh

- Xe tự lái: Học máy được sử dụng để giúp các hệ thống xe tự động học hỏi và cải thiện khả năng lái và nhận biết tình huống trên đường

Trên thực tế, học máy được sử dụng trong hầu hết các lĩnh vực của cuộc sống hiện đại, từ dịch vụ ngân hàng đến y tế và sản xuất Học máy đang trở thành một công cụ mạnh mẽ và cần thiết để giúp cho các tổ chức và doanh nghiệp phát triển và cải thiện hiệu quả công việc của mình

1.1.1.3 Các phương pháp học máy

Các thuật toán dựa trên phương pháp học trong machine learning (Hình 1.1) bao gồm: Học có giám sát (Supervised learning), học không giám sát (Unsupervised learning), học bán giám sát (Semi-Supervised learning) và học củng cố (Reinforcement Learning)

Học có giám sát (Supervised learning): Học có giám sát được hiểu là cách sử dụng các tập dữ liệu được gắn nhãn để huấn luyện thuật toán phân loại hoặc dự đoán kết quả một cách chính xác.Học tập có giám sát giúp các tổ chức giải quyết nhiều vấn đề trong thực tế trên quy mô lớn Một số phương pháp được sử dụng trong học có giám sát bao gồm mạng nơ-ron, mô hình phân lớp (Naive bayes), hồi quy tuyến tính, hồi quy logistic, rừng ngẫu nhiên (Random forest) và máy hỗ trợ vectơ (SVM - support vector machine)

Học không giám sát (Unsupervised learning): Học không giám sát, còn được gọi là học máy không giám sát, sử dụng các thuật toán học máy để phân tích và phân cụm các tập dữ liệu không được gắn nhãn Các thuật toán này phát hiện ra các mẫu hoặc nhóm dữ liệu ẩn mà không cần sự can thiệp của con người

Khả năng phát hiện ra những điểm tương đồng và khác biệt trong dữ liệu của phương pháp này khiến nó trở nên lý tưởng cho việc phân tích dữ liệu khám phá, chiến lược bán chéo, phân khúc khách hàng cũng như nhận dạng hình ảnh và mẫu

Phương pháp này cũng được sử dụng để giảm số lượng các đặc trưng trong một mô hình thông qua quá trình giảm kích thước Phân tích thành phần chính (PCA -Principal component analysis) và phân tích giá trị đơn lẻ (SVD - Singular value decomposition) là hai cách tiếp cận phổ biến cho việc này.Các thuật toán khác được sử dụng trong học tập không giám sát bao gồm mạng nơ-ron, phân cụm k-means và các phương pháp phân cụm theo xác suất

Học bán giám sát (Semi-Supervised learning): Học bán giám sát là sự kết hợp hài hòa giữa học tập có giám sát và không giám sát Trong quá trình đào tạo, nó

Mạng nơ-ron

1.2.1 Khái niệm cơ bản về mạng nơ-ron

Neural Network đọc tiếng việt là mạng nơ-ron nhân tạo, đây là một chuỗi những thuật toán được đưa ra để tìm kiếm các mối quan hệ cơ bản trong tập hợp các dữ liệu Thông qua việc bắt bước cách thức hoạt động từ não bộ con người Nói cách khác, mạng nơ-ron nhân tạo được xem là hệ thống của các tế bào thần kinh nhân tạo Đây thường có thể là hữu cơ hoặc nhân tạo về bản chất

Mạng nơ-ron có khả năng thích ứng được với mọi thay đổi từ đầu vào Do vậy, nó có thể đưa ra được mọi kết quả một cách tốt nhất có thể mà bạn không cần phải thiết kế lại những tiêu chí đầu ra Khái niệm này có nguồn gốc từ trí tuệ nhân tạo, đang nhanh chóng trở lên phổ biến hơn trong sự phát triển của những hệ thống giao dịch điện tử

Mạng nơ-ron nhân tạo được xây dựng dựa trên cấu trúc của bộ não con người, giúp ta đưa ra một phương pháp mới trong lĩnh vực tiếp cận hệ thống thông tin Mạng nơ-ron nhân tạo có thể thực hiện các bài toán mẫu (Recognition), tối ưu, nhận dạng (Identiffication) và điều khiển (Control) cho các đối tượng tuyến tính và phi tuyến đạt hiệu quả hơn so với các phương pháp tính toán truyền thống

Mô phỏng sinh học, đặc biệt là mô phỏng nơ-ron thần kinh là một ước muốn từ lâu của nhân loại Với khoảng 10 25 nơ-ron ở não người, mỗi nơ-ron có thể nhận hàng vạn tín hiệu từ các khớp thần kinh và được coi là một cơ chế sinh học phức tạp nhất Não người có khả năng giải quyết những vấn đề như: nghe, nhìn, nói, hồi ức thông tin, phân biệt các mẫu mặc dù dữ liệu bị méo mó, thiếu hụt Não thực hiện những nhiệm vụ như vậy bởi có những phần tử xử lý tính toán gọi là nơ-ron Não phân bổ việc xử lý thông tin cho hàng tỉ nơ-ron có liên quan, điều khiển liên lạc giữa các nơ-ron Nơ-ron không ngừng nhận và truyền thông tin lẫn nhau

1.2.2 Mạng nơ-ron sinh học

Qua quá trình nghiên cứu về bộ não, người ta thấy rằng: bộ não con người bao gồm khoảng 10 11 nơ-ron tham gia vào khoảng 10 15 kết nối trên các đường truyền Mỗi đường truyền này dài khoảng hơn một mét Các nơ-ron có nhiều đặc điểm chung với các tế bào khác trong cơ thể, ngoài ra chúng còn có những khả năng mà các tế bào khác không có được, đó là khả năng nhận, xử lý và truyền các tín hiệu điện hóa trên các đường mòn nơ-ron, các con đường này tạo nên hệ thống giao tiếp của bộ não

Mỗi nơ-ron sinh học có 3 thành phần cơ bản (Hình 1.8 [1]):

- Thân tế bào (Cell body)

Các sợi nhánh truyền tín hiệu vào đến thân tế bào Thân tế bào tổng hợp và xử lý cho tín hiệu đi ra Sợi trục truyền tín hiệu ra từ thân tế bào này sang nơ-ron khác Điểm liên kết giữa sợi trục của nơ-ron này với sợi nhánh của nơ-ron khác gọi là synapse Liên kết giữa các nơ-ron và độ nhạy của mỗi synapse được xác định bởi quá

Hình 1.8 Cấu trúc của một nơ-ron sinh học điển hình trình hóa học phức tạp Một số cấu trúc của nơ-ron được xác định trước lúc sinh ra Một số cấu trúc được phát triển thông qua quá trình học Trong cuộc đời cá thể, một số liên kết mới được hình thành, một số khác bị hủy bỏ

Như vậy nơ-ron sinh học hoạt động theo cách thức sau: nhận tín hiệu đầu vào, xử lý các tín hiệu này và cho ra một tín hiệu output Tín hiệu output này sau đó được truyền đi làm tín hiệu đầu vào cho các nơ-ron khác Dựa trên những hiểu biết về nơ- ron sinh học, con người xây dựng nơ-ron nhân tạo với hy vọng tạo nên một mô hình có sức mạnh như bộ não

1.2.3 Mạng nơ-ron nhân tạo

Nơ-ron nhân tạo (Hình 1.9) là sự rút gọn hết sức đơn giản của nơ-ron sinh học

Nó có thể thực hiện nhờ chương trình máy tính hoặc bằng mạch phần cứng Mỗi nơ- ron thực hiện hai chức năng là chức năng đầu vào và chức năng kích hoạt đầu ra Do đó ta có thể coi mỗi nơ-ron như là một đơn vị xử lý Nó được xây dựng mô phỏng theo cấu trúc của các nơ-ron sinh học Mỗi nơ-ron có một số đầu vào giống như các dây thần kinh tiếp nhận Các đầu vào này làm nhiệm vụ tiếp nhận thông tin từ các nơ- ron khác hoặc từ tập số liệu gốc vào Tương tự như nơ-ron sinh học, mỗi đầu vào của nơ-ron nhân tạo có ảnh hưởng khác nhau đối với tín hiệu ra của nơ-ron (còn gọi là kết xuất của nơ-ron) Điều này được thực hiện nhờ các hệ số được gán cho từng đầu vào-w i : trọng số của đầu vào thứ i Giá trị của w i có thể dương hay âm tương tự như việc có hai loại khớp nối trong mạng nơ-ron sinh học Nếu w i có giá trị dương thì tương đương với khớp nối kích thích còn nếu w i âm thì tương đương với khớp nối ức chế Thân nơ-ron sẽ làm nhiệm vụ tổng hợp các tín hiệu đầu vào xử lý để đưa một tín hiệu ra đầu ra của nơ-ron Quá trình xử lý, tính toán này sẽ được đề cập cụ thể ở phần sau Đầu ra của nơ-ron nhân tạo tương tự như sợi trục axon của nơ-ron sinh học Tín hiệu ra cũng có thể tách ra thành nhiều nhánh theo cấu trúc hình cây để đưa đến đầu vào của các nơ-ron khác

1.2.3.2 Mạng nơ-ron nhân tạo

Các nơ-ron nhân tạo được tổ chức thành mạng nơ-ron nhân tạo Các nơ-ron thường được sắp xếp trong mạng thành từng lớp Đầu ra của mỗi nơ-ron sẽ được nối đến đầu vào của một số nơ-ron khác theo một cấu trúc phù hợp Tuy nhiên cấu trúc mạng nơ-ron nhân tạo chưa thể đạt được độ phức tạp như mạng nơ-ron sinh học Mạng nơ-ron nhân tạo hiện chỉ mới là sự mô phỏng hết sức đơn giản cấu trúc của mạng nơ-ron sinh học

Giữa mạng nơ-ron nhân tạo và mạng nơ-ron sinh học có 3 điểm chung là:

- Mạng được xây dựng bằng các phần tử tính toán đơn giản liên kết lại với nhau một cách phức tạp và hoạt động theo nguyên tắc song song

- Chức năng của mạng được xác định qua cấu trúc mạng, quá trình xử lý bên trong các phần tử và mức độ liên kết giữa các phần tử

- Mức độ liên kết giữa các phần tử được xác định thông qua quá trình học của mạng (hay còn gọi là quá trình huấn luyện mạng) Điểm khác nhau về căn bản giữa Mạng nơ-ron nhân tạo và mạng nơ-ron sinh học là ở tốc độ tính toán, độ phức tạp và tính song song Tuy xét về tốc độ xử lý của

Hình 1.9 Mô hình nơ-ron nhân tạo các máy tính hiện đại là cao hơn rất nhiều so với tốc độ xử lý của não bộ con người nhưng bộ não lại có thể đồng thời kích hoạt toàn bộ các nơ-ron để làm nhiều công việc khác nhau Điều này mạng nơ-ron nhân tạo không thể thực hiện được Với sự phát triển nhanh chóng của khoa học như hiện nay thì ta có thể hi vọng sẽ có những bước đột phá mới trong lĩnh vực mô phỏng mạng nơ-ron sinh học

1.2.3.3 Mô hình toán học của một nơ-ron nhân tạo

Dựa trên những kiến thức cơ bản về nơ-ron nhân tạo như đã trình bày ở phần trên, ta có thể xây dựng một mô hình toán học của nơ-ron nhân tạo như Hình 1.10 Các tín hiệu vào ( còn gọi là mẫu vào) p i (i=1 R) được đưa tới đầu vào của nơ-ron S tạo thành ma trận tín hiệu vào P Mỗi đầu vào của nơ-ron S sẽ có một trọng số kí hiệu là w s,i (i=1 R) và các trọng số này tạo thành một ma trận trọng số đầu vào W của nơ- ron Mức ngưỡng của nơ-ron có thể được biễu diễn trong mô hình toán học bằng hệ số bias b (gọi là thế hiệu dịch) Ta có b=- Hàm thế sau khớp nối (Post Synaptic Potential function - PSP) là tổng của các tín hiệu vào có trọng số và hệ số bias Như vậy tín hiệu vào là nnet sẽ được tính theo công thức sau:

𝑛 𝑛𝑒𝑡 = 𝑤 𝑠,1 𝑝 1 + 𝑤 𝑠,2 𝑝 2 + ⋯ + 𝑤 𝑠,𝑅 𝑝 𝑅 + 𝑏 (1.1) Viết dưới dạng ma trận sẽ là:

Xem các biểu thức trên thì ta có thể coi hệ số bias như trọng số của một đầu vào với tín hiệu bằng 1 Có một số loại nơ-ron có thể bỏ qua hệ số bias này

Hình 1.10 Mô hình toán học mạng nơ-ron nhân tạo

Hàm hoạt hoá (hay còn gọi là hàm truyền đạt) được kí hiệu là f sẽ biến đổi tín hiệu đầu vào net thành tín hiệu đầu ra nơ-ron a Ta có biểu thức:

Mạng nơ-ron tích chập

1.3.1 Giới thiệu về mạng nơ-ron tích chập

Chúng ta đã thảo luận về mạng nơ-ron trong Mục 1.2 Mạng nơ-ron tích chập (Convolutional Neural Network – CNN) là một trong những loại mạng nơ-ron phổ biến nhất, đặc biệt đối với dữ liệu nhiều chiều (ví dụ: hình ảnh và video) CNN hoạt động theo cách rất giống với các mạng nơ-ron tiêu chuẩn Tuy nhiên, một điểm khác biệt chính là mỗi đơn vị trong lớp CNN là bộ lọc hai chiều được tích hợp với đầu vào của lớp đó Điều này rất cần thiết cho các trường hợp chúng ta muốn tìm hiểu các mẫu từ phương tiện đầu vào có nhiều chiều, ví dụ: hình ảnh hoặc video Các bộ lọc CNN kết hợp bối cảnh không gian bằng cách có hình dạng không gian tương tự (nhưng nhỏ hơn) làm phương tiện đầu vào và sử dụng chia sẻ tham số để giảm đáng kể số lượng biến có thể học được Trước tiên, chúng ta thấy điều quan trọng là cung cấp một nền tảng lịch sử ngắn gọn về CNN [16]

Hình thức sớm nhất của CNN là mô hình Neocognitron do Kunihiko Fukushima đề xuất [11] Nó bao gồm nhiều lớp tự động học một hệ thống phân cấp các đặc trưng trừu tượng để nhận dạng mẫu Neocognitron được thúc đẩy bởi công trình quan trọng của Hubel và Wiesel [13] trên vỏ não thị giác sơ cấp chứng minh rằng các tế bào thần kinh trong não được sắp xếp theo dạng các lớp Các lớp này học cách nhận dạng các mẫu trực quan bằng cách trích xuất các đặc trưng cục bộ đầu tiên và sau đó kết hợp chúng để có được các biểu diễn cấp cao hơn Việc đào tạo mạng được thực hiện bằng quy tắc học tăng cường Một cải tiến lớn so với Neocognitron là mô hình LeNet được đề xuất bởi LeCun et al [27], trong đó các tham số mô hình được học bằng lan truyền ngược lỗi Mô hình CNN này đã được áp dụng thành công để nhận dạng các chữ số viết tay

CNN là một lớp mô hình hữu ích cho cả mô hình học tập có giám sát và không giám sát Cơ chế học có giám sát là cơ chế mà đầu vào của hệ thống và đầu ra mong muốn (nhãn thực) được biết và mô hình học một ánh xạ giữa hai cơ chế này Trong cơ chế học không giám sát, các nhãn thực sự cho một tập hợp đầu vào nhất định không được biết và mô hình nhằm mục đích ước tính phân phối cơ bản của các mẫu dữ liệu đầu vào Một ví dụ về nhiệm vụ học có giám sát (phân loại hình ảnh) được hiển thị trong Hình 1.17 CNN học cách ánh xạ một hình ảnh nhất định vào danh mục tương ứng của nó bằng cách phát hiện một số biểu diễn đặc trưng trừu tượng, từ đơn giản đến phức tạp hơn Các đặc trưng phân biệt này sau đó được sử dụng trong mạng để dự đoán danh mục chính xác của hình ảnh đầu vào Bộ phân loại mạng nơ-ron giống hệt với Multi Layer Perceptron (MLP) Chức năng của CNN tương tự như quy trình biểu diễn đặc trưng thủ công, với điểm khác biệt chính là tự động học hệ thống phân cấp các biểu diễn đặc trưng hữu ích và tích hợp các giai đoạn phân loại và trích xuất đặc trưng trong một quy trình duy nhất có thể huấn luyện từ đầu đến cuối thái độ Điều này làm giảm nhu cầu thiết kế thủ công và sự can thiệp của chuyên gia con người

1.3.2 Các lớp trong mạng nơ-ron tích chập

Một CNN bao gồm một số khối xây dựng cơ bản, được gọi là các lớp CNN Trong phần này, chúng ta nghiên cứu các khối xây dựng này và chức năng của chúng trong kiến trúc CNN Lưu ý rằng một số lớp này thực hiện các chức năng cơ bản như chuẩn hóa, tổng hợp, tích chập và các lớp được kết nối đầy đủ Các lớp cơ bản này được trình bày đầu tiên trong phần này để phát triển hiểu biết cơ bản về các lớp CNN

Hình 1.17 Mô hình CNN phân loại ảnh

1.3.2.1 Lớp tích chập (Convolutional Layers)

Lớp tích chập là thành phần quan trọng nhất của CNN Nó bao gồm một tập hợp các bộ lọc (còn được gọi là hạt nhân tích chập) được tích hợp với một đầu vào nhất định để tạo bản đồ đặc trưng đầu ra

Bộ lọc là gì? Mỗi bộ lọc trong một lớp tích chập là một lưới các số rời rạc Ví dụ, hãy xem xét bộ lọc 2x2 được hiển thị trong Hình 1.18 Trọng số của mỗi bộ lọc (các số trong lưới) được học trong quá trình đào tạo CNN Quy trình học tập này liên quan đến việc khởi tạo ngẫu nhiên các trọng số của bộ lọc khi bắt đầu đào tạo Sau đó, các cặp đầu vào-đầu ra đã cho, các trọng số của bộ lọc được điều chỉnh theo một số lần lặp lại khác nhau trong quy trình học

Hình 1.18 Một ví dụ về bộ lọc hình ảnh 2D

Hình 1.19 Minh họa hoạt động của một lớp tích chập

Hoạt động tích chập là gì? Chúng ta đã đề cập trước đó rằng lớp tích chập thực hiện tích chập giữa các bộ lọc và đầu vào của lớp Hãy xem xét một tích chập 2D trong Hình 1.19 để phát triển cái nhìn sâu sắc về hoạt động của lớp Đưa ra bản đồ đặc trưng đầu vào 2D và bộ lọc tích chập có kích thước ma trận lần lượt là 4x4 và 2x2, lớp tích chập nhân bộ lọc 2x2 với một bản vá được đánh dấu (cũng là 2x2) của bản đồ đặc trưng đầu vào và tính tổng tất cả các giá trị để tạo một giá trị trong bản đồ đặc trưng đầu ra Lưu ý rằng bộ lọc trượt dọc theo chiều rộng và chiều cao của bản đồ đặc trưng đầu vào và quá trình này tiếp tục cho đến khi bộ lọc không thể trượt thêm nữa

Trong ví dụ trên, để tính toán từng giá trị của bản đồ đặc trưng đầu ra, bộ lọc thực hiện bước 1 dọc theo vị trí ngang hoặc dọc (nghĩa là dọc theo cột hoặc hàng của đầu vào) Bước này được gọi là bước sải của bộ lọc tích chập, có thể được đặt thành giá trị khác (hơn 1) nếu cần Ví dụ, hoạt động tích chập với bước sải 2 được hiển thị trong Hình 1.20 So với bước sải 1 trong ví dụ trước, bước sải 2 dẫn đến bản đồ đặc trưng đầu ra nhỏ hơn Việc giảm kích thước này được gọi là hoạt động lấy mẫu phụ

Hình 1.20 Minh họa hoạt động của một lớp tích chập với phần đệm bằng 1 và bước sải bằng 2

Việc giảm kích thước như vậy mang lại sự bất biến vừa phải đối với tỷ lệ và tư thế của các đối tượng, đây là một thuộc tính hữu ích trong các ứng dụng như nhận dạng đối tượng Chúng ta sẽ thảo luận về các cơ chế lấy mẫu con khác trong phần mà chúng ta thảo luận về các lớp tổng hợp (Pooling layer)

Chúng ta đã thấy rằng trong Hình 1.20 kích thước không gian của bản đồ đặc trưng đầu ra bị giảm so với bản đồ đặc trưng đầu vào Chính xác, đối với bộ lọc có kích thước f x f, bản đồ đặc trưng đầu vào có kích thước h x w và độ dài bước sải s, kích thước đặc trưng đầu ra được đưa ra bởi:

Tuy nhiên, trong một số ứng dụng, chẳng hạn như khử nhiễu hình ảnh, siêu phân giải hoặc phân đoạn, chúng ta muốn giữ kích thước không gian không đổi (hoặc thậm chí lớn hơn) sau khi tích chập Điều này rất quan trọng vì các ứng dụng này yêu cầu các dự đoán dày đặc hơn ở cấp độ pixel Hơn nữa, nó cho phép chúng ta thiết kế các mạng sâu hơn (nghĩa là có nhiều lớp trọng số hơn) bằng cách tránh sự sụp đổ nhanh chóng của các kích thước đặc trưng đầu ra Điều này giúp đạt được hiệu suất tốt hơn và ghi nhãn đầu ra có độ phân giải cao hơn Điều này có thể đạt được bằng cách áp dụng zero-padding xung quanh bản đồ đặc trưng đầu vào

Như được hiển thị trong Hình 1.20, đệm không (zero-padding) vào chiều ngang và dọc cho phép chúng ta tăng kích thước đầu ra và do đó mang lại sự linh hoạt hơn trong thiết kế kiến trúc Ý tưởng cơ bản là tăng kích thước của bản đồ đặc trưng đầu vào sao cho thu được bản đồ đặc trưng đầu ra, với các kích thước mong muốn Nếu p biểu thị mức tăng trong bản đồ đặc trưng đầu vào dọc theo mỗi thứ nguyên (bằng cách đệm các số 0), thì chúng ta có thể biểu thị các thứ nguyên bản đồ đặc trưng đầu ra đã sửa đổi như sau:

Siêu tham số (Hyper-parameters): Các tham số của lớp chập cần được người dùng đặt (dựa trên xác thực chéo hoặc kinh nghiệm) trước khi học bộ lọc (chẳng hạn như bước sải và phần đệm) được gọi là siêu tham số Các siêu tham số này có thể được hiểu là các lựa chọn thiết kế cho kiến trúc mạng của chúng ta dựa trên một ứng dụng nhất định

Trường hợp có kích thước cao (High Dimensional Cases): Trường hợp 2D là trường hợp đơn giản nhất, trong đó bộ lọc chỉ có một kênh duy nhất (được biểu thị dưới dạng ma trận) được kết hợp với các kênh đặc trưng đầu vào để tạo ra phản hồi đầu ra Đối với các trường hợp có nhiều chiều hơn, ví dụ: khi đầu vào của các lớp CNN là các tensor (ví dụ: khối 3D trong trường hợp biểu diễn thể tích), các bộ lọc cũng là các khối 3D được tích hợp dọc theo chiều cao, chiều rộng và chiều sâu của đặc trưng đầu vào maps để tạo bản đồ đặc trưng đầu ra 3D tương ứng Tuy nhiên, tất cả các khái niệm mà chúng ta đã thảo luận ở trên cho trường hợp 2D vẫn có thể áp dụng cho việc xử lý đầu vào 3D và các chiều cao hơn (chẳng hạn như học biểu diễn không gian-thời gian 3D) Điểm khác biệt duy nhất là phép tích chập được mở rộng sang một chiều bổ sung, ví dụ: đối với trường hợp 3D, ngoài phép tích chập dọc theo chiều cao và chiều rộng trong trường hợp 2D, phép tích chập cũng được thực hiện dọc theo chiều sâu Tương tự, đệm không (zero-padding) và bước sải (striding) có thể được thực hiện dọc theo chiều sâu cho trường hợp 3D

Một lớp gộp hoạt động trên các khối của bản đồ đặc trưng đầu vào và kết hợp các kích hoạt đặc trưng Thao tác kết hợp này được xác định bởi một hàm tổng hợp chẳng hạn như hàm trung bình hoặc hàm tối đa Tương tự như lớp tích chập, chúng ta cần chỉ định kích thước của vùng gộp và bước sải Hình 1.21 cho thấy hoạt động gộp tối đa (max pooling), trong đó kích hoạt tối đa được chọn từ khối giá trị đã chọn Cửa sổ này được trượt trên các bản đồ đặc trưng đầu vào với kích thước bước được xác định bởi bước sải (1 trong trường hợp của Hình 1.21) Nếu kích thước của vùng gộp được cung cấp bởi f x f, với một bước sải s, kích thước của bản đồ đặc trưng đầu ra được cung cấp bởi:

Vấn đề về giám sát an ninh

Những năm gần đây, nhu cầu trang bị camera giám sát (Camera an ninh) dần phổ biến rộng rãi trong nhiều ngành nghề, lĩnh vực, từ các tòa nhà văn phòng, cơ quan hành chính, cho đến các cửa hàng buôn bán nhỏ lẻ, hộ gia đình dưới nhiều hình thức khác nhau Ngoài mục đích then chốt là đảm bảo an ninh, thì camera giám sát còn được sử dụng như một công cụ để doanh nghiệp phân tích thói quen, hành vi của con người, qua đó tăng cường trải nghiệm tích cực từ phía người dùng, cũng như đơn vị quản lý [31]

Trước nhu cầu đó, nhiều trường viện và tổ chức khoa học đã đẩy mạnh nghiên cứu và triển khai thử nghiệm việc tích hợp trí tuệ nhân tạo (AI) vào hệ thống camera giám sát, thông qua việc khai thác các lĩnh vực/công nghệ như thị giác máy tính, xử lý ngôn ngữ tự nhiên, robotics, biểu diễn tri thức và suy diễn; Từ đó cho phép tăng cường khả năng xử lý dữ liệu, phân tích và nhận diện con người với số lượng lớn tại cùng một thời điểm [22], [23]

Theo dõi đối tượng (Object tracking) là một những lĩnh vực nghiên cứu đầy tiềm năng của thị giác máy tính (Computer vision) Việc theo dõi chủ yếu dựa trên hình ảnh của các đối tượng thu được từ các camera giám sát Trong các thập niên gần đây, lĩnh vực này đã thu hút đáng kể các nhà nghiên cứu về thị giác máy tính nhờ vào sự đa dạng của các ứng dụng tiềm năng làm cho lĩnh vực này trở thành mục tiêu nghiên cứu hấp dẫn [26], [9], [15].

KỸ THUẬT THEO DÕI ĐỐI TƯỢNG (OBJECT TRACKING)

Tổng quan về theo kỹ thuật dõi đối tượng (Object Tracking)

Trong suốt thập kỷ qua, các vấn đề thực tế đã được giải quyết bằng các thuật toán dựa trên học sâu Trong những năm gần đây, chúng ta đã thấy rằng học sâu đã được sử dụng rộng rãi trong thị giác máy tính Theo dõi đối tượng là một trong những nhiệm vụ rất quan trọng trong thị giác máy tính Nó đến ngay sau khi phát hiện đối tượng Để hoàn thành nhiệm vụ theo dõi đối tượng, trước tiên đối tượng cần được bản địa hóa (Localized) trong một khung Sau đó, mỗi đối tượng được gán một ID duy nhất Sau đó, mỗi đối tượng giống nhau của các khung hình liên tiếp sẽ tạo quỹ đạo Ở đây, một đối tượng có thể là bất cứ thứ gì như người đi bộ, xe cộ, người chơi thể thao, chim trên trời, v.v Nếu chúng ta muốn theo dõi nhiều đối tượng trong một khung, thì nó được gọi là Theo dõi nhiều đối tượng (Multiple Object Tracking - MOT) Trong MOT, chúng ta có thể theo dõi tất cả các đối tượng của một lớp hoặc tất cả các đối tượng của các lớp nói trên Nếu chúng ta chỉ theo dõi một đối tượng, nó được gọi là Theo dõi đối tượng đơn lẻ (Single Object Tracking – SOT) MOT khó khăn hơn SOT Do đó, các nhà nghiên cứu đã đề xuất nhiều kiến trúc dựa trên học sâu để giải quyết các vấn đề liên quan đến MOT [3]

Thuật toán theo dõi dựa trên kết quả phát hiện đã phát triển và nhanh chóng được sử dụng làm khung tiêu chuẩn để theo dõi nhiều đối tượng do sự tiến bộ nhanh chóng của hiệu suất thuật toán phát hiện đối tượng Tuy nhiên, các mô-đun phụ theo dõi bằng cách phát hiện (Tracking by Detection – TBD), chẳng hạn như trích xuất đặc trưng, có thể được đưa vào mạng phát hiện đối tượng, từ quan điểm của cấu trúc mạng nơ-ron sâu Phát hiện và theo dõi khớp (Joint Detection and Tracking – JDT) sử dụng khung mạng sâu để thực hiện theo dõi đa đối tượng trực quan, đã nổi lên như một xu hướng phát triển mới dựa trên phản ứng tổng hợp mô-đun neutron TBD Gần đây, cơ chế chú ý đã được tích hợp vào các hệ thống thị giác máy tính vì nó có lợi ích là nắm bắt hiệu quả vùng quan tâm trong ảnh, nâng cao hiệu suất của toàn bộ mạng

Nó được sử dụng để giải quyết các vấn đề về tầm nhìn khác nhau, bao gồm theo dõi nhiều đối tượng Cấu trúc phân loại cụ thể cho ba loại khung theo dõi được thể hiện trong Hình 2.1 [12].

Thuật toán TBD dựa trên học sâu

Do khả năng biểu diễn đặc trưng mạnh mẽ của deep learning, các thuật toán phát hiện đối tượng gần đây đã hoạt động tốt hơn về mặt thiên văn Kết quả là tạo ra một kỹ thuật theo dõi đối tượng dựa trên phát hiện, kỹ thuật này đã nhanh chóng nổi lên như một tiêu chuẩn ngành để theo dõi nhiều đối tượng lái xe tự động Để hoàn thành nhiệm vụ theo dõi đối tượng, thuật toán MOT dựa trên TBD trước tiên sẽ nhận dạng đối tượng trong từng khung hình của chuỗi video, trích xuất các đặc điểm của đối tượng, sau đó liên kết chúng theo dữ liệu đặc điểm (Hình 2.2 mô tả lưu đồ của MOT dựa trên khung TBD)

Hình 2.1 Phân loại và thuật toán theo dõi đa đối tượng trực quan dựa trên học sâu

2.2.1 Thuật toán TBD dựa trên mô hình học sâu phát hiện đối tượng

Nhận kết quả phát hiện là bước đầu tiên trong TBD, như đã thảo luận Kết quả phát hiện đối tượng có tác động đáng kể đến mức độ hiệu quả của khung TBD theo dõi các đối tượng Hiện tại có nhiều kết quả nghiên cứu phát hiện đối tượng khá tiên tiến Các kỹ thuật phát hiện đối tượng truyền thống thường dựa vào các toán tử đặc trưng được tạo thủ công để mô tả hình ảnh Các ví dụ bao gồm các đặc trưng SIFT, biểu đồ hướng dốc các đặc trưng HOG, v.v Tuy nhiên, kết quả của nhiều công trình tài liệu liên quan đã chứng minh rằng so với các thuật toán truyền thống cho các đặc trưng học tập, Mạng nơ-ron tích chập (CNN) có khả năng biểu diễn đặc trưng mạnh nhất và chứa nhiều thông tin đặc trưng nhất so với các thuật toán học đặc trưng truyền thống

Các máy dò đối tượng chính là R-FCN, SSD, Faster R-CNN và dòng YOLO, đã thể hiện hiệu suất tốt để phát hiện các đối tượng, chẳng hạn như ô tô, người, và các chướng ngại vật khác nhau Mạng nơ-ron đã được sử dụng ngày càng nhiều trong những năm gần đây trong việc nhận dạng và phân loại hình ảnh Lợi ích của việc sử dụng mạng nơ-ron là khả năng đào tạo dữ liệu liên quan và tìm hiểu các thuộc tính độ sâu của các đối tượng được theo dõi, cho phép phát hiện và phân loại cực kỳ chính xác Dựa trên các khả năng phát hiện hình ảnh một khung hình được cải thiện, các nhiệm vụ của MOT thể hiện xu hướng khác với sự nhấn mạnh ban đầu vào các thuật toán tối ưu hóa liên kết dữ liệu đòi hỏi tính toán, chẳng hạn như Hiệp hội dữ liệu xác suất chung (JPDA) và Theo dõi đa giả thuyết (MHT) và hướng tới khung TBD phụ thuộc vào kết quả phát hiện

Hình 2.2 Các thủ tục chính của nền tảng TBD, bao gồm bốn thành phần cốt lõi

Một trong những thuật toán theo dõi nhiều đối tượng sớm nhất, SORT, sử dụng mạng nơ-ron tích chập để xác định người đi bộ Mạng phát hiện đối tượng R-CNN nhanh hơn được sử dụng thay cho phát hiện Đặc trưng kênh tổng hợp (ACF) trong kỹ thuật này, dựa trên phương pháp kết hợp thông thường của Hungary Độ chính xác theo dõi đa đối tượng đã được cải thiện trên tập dữ liệu với mức đáng kinh ngạc là 18,9% và thuật toán hiện hoạt động ở tần số lên đến 60 Hz Hiệu suất vượt trội của thuật toán này đã thu hút được rất nhiều sự quan tâm nghiên cứu Nhằm giải quyết vấn đề chất lượng phát hiện kém của Faster R-CNN, Jin và cộng sự [14] đã trích xuất các đặc trưng đa tỷ lệ và kết hợp ba mô hình Faster R-CNN với các cấu trúc xương sống khác nhau, giúp cải thiện hơn nữa độ chính xác và tốc độ của mô-đun phát hiện

Họ cũng chứng minh rằng, sau khi thu được kết quả phát hiện chất lượng cao, có thể đơn giản hóa phần liên kết dữ liệu theo dõi đa đối tượng và thu được kết quả theo dõi đa đối tượng có thể so sánh được

Một số nhà nghiên cứu cũng đã giới thiệu công cụ phát hiện mạng sâu để theo dõi đa đối tượng trực quan, bao gồm SSD và YOLO Để hoàn thành nhiệm vụ theo dõi nhiều đối tượng, Zhao và cộng sự [28] đã sử dụng SSD một tầng làm dữ liệu đào tạo phương pháp tiếp cận tăng cường đa quy mô và máy dò Phiên bản YOLO sau này đã đạt được sự thỏa hiệp giữa độ chính xác phát hiện đối tượng và tốc độ phát hiện và thường được sử dụng làm mô-đun phát hiện để theo dõi đa đối tượng trực quan do dòng YOLO có tốc độ phát hiện nhanh hơn Một kỹ thuật theo dõi đa đối tượng dựa trên YOLO đã được đề xuất bởi Li và cộng sự Luồng video lần đầu tiên được phát hiện nhiều đối tượng bằng thuật toán YOLO Để loại trừ các chi tiết không liên quan khỏi hình ảnh, trích xuất đặc trưng độ sâu được thực hiện sau khi có được kích thước, vị trí và các chi tiết khác của đối tượng Dữ liệu nhiễu của khu vực làm giảm thời gian xử lý và độ khó tính toán của đặc trưng khai thác

2.2.2 Thuật toán TBD dựa trên mô hình học sâu theo dõi đối tượng

Theo phân tích về phương pháp nền tảng TBD, nó bao gồm hai phần: mô hình tương quan và mô hình phát hiện Loại nghiên cứu thuật toán này liên quan đến việc cải thiện độ chính xác của mối tương quan nhận dạng của đối tượng và tìm ra các phương pháp hiệu quả nhất để ước tính trạng thái của đối tượng bằng cách sử dụng thông tin phát hiện Quy trình kết nối kết quả phát hiện với trình quản lý theo dõi được gọi là liên kết dữ liệu Dựa trên ràng buộc tiên quyết của phát hiện đối tượng, việc theo dõi đối tượng trong các hệ thống theo dõi đa đối tượng có thể được xem như một bài toán tìm lời giải tốt nhất Điều này liên quan đến việc xác định quỹ đạo chuyển động chính xác của một đối tượng bằng cách sử dụng các kỹ thuật tương quan trong khi tính đến các yếu tố như che phủ đối tượng lẫn nhau, thay đổi tỷ lệ biến dạng đối tượng, v.v Dựa trên kiến trúc TBD, phần sau đây sẽ đánh giá và cô đọng một số chiến lược liên kết dữ liệu phổ biến

2.2.2.1 Theo dõi đối tượng dựa trên SORT

Thuật toán theo dõi đối tượng SORT [5] là thuật toán theo dõi đa đối tượng, trực tuyến, theo thời gian thực, kết hợp các bộ lọc tương quan vào một thuật toán học sâu Nó dự đoán vị trí hiện tại bằng cách sử dụng bộ lọc Kalman, tương quan các khung phát hiện và đối tượng theo tương quan và sử dụng Giao lộ trên Liên kết (IoU) giữa mỗi lần phát hiện và tất cả các hộp giới hạn được dự đoán của một đối tượng hiện có làm thước đo cho mối quan hệ đối tượng giữa đối tượng trước đó và các khung sau Mặc dù phương pháp theo dõi đối tượng cho SORT nhanh chóng, nhưng nó hiếm khi giải quyết được vấn đề tắc nghẽn đối tượng, dẫn đến một số lượng lớn các chuyển đổi ID; độ chính xác tốt khi không có tắc nhưng thấp khi có tắc

Wojke và cộng sự [25] sau đó đã đề xuất thuật toán theo dõi đối tượng DeepSORT vào năm 2017, thuật toán này trích xuất các đặc trưng rõ ràng của đối tượng để so khớp theo tầng, cải thiện việc theo dõi đối tượng khi có hiện tượng tắc và cũng giảm bớt vấn đề chuyển đổi ID đối tượng, để bù đắp cho những thiếu sót này của thuật toán thuật toán SORT Ý tưởng chính đằng sau phương pháp này là kết hợp liên kết dữ liệu theo từng khung, lọc Kalman đệ quy và phương pháp theo dõi giả thuyết đơn thông thường Để nâng cao hiệu quả của thuật toán xếp hạng và giảm tần suất chuyển đổi ID, DeepSORT thêm một vectơ ngoại hình được đào tạo trước dựa trên trích xuất mạng ResNet và nhúng khoảng cách cosin giữa các đặc trưng dưới dạng ma trận chi phí vào thuật toán SORT Do đó, ngay cả khi đối tượng bị che phủ và sau đó xuất hiện lại, đối tượng vẫn có thể khớp ID thành công Nhiều nhà nghiên cứu khác đã sử dụng các mạng CNN có thể so sánh được bao gồm GoogleNet, ResNet và Inception-Net Bằng cách thay đổi dữ liệu huấn luyện liên quan đến nhiệm vụ, tăng cường chức năng mất mát liên quan, học cách xác định các đặc điểm rõ ràng có thể phân biệt giữa các đối tượng tương tự và cố gắng trích xuất các đặc điểm rõ ràng mạnh mẽ hơn, độ sâu của mạng đường trục trích xuất đặc điểm có thể được tăng lên, nhưng điều này không mang lại nhiều lợi nhuận Lin và cộng sự [18] cho rằng thuật toán TBD chủ yếu dựa vào thông tin xuất hiện Do đó, họ đã đề xuất thuật toán liên kết đường kết hợp (HTA), sử dụng khoảng cách xuất hiện trong khung đường theo dõi trước đó và bằng cách sử dụng mô hình hỗn hợp số cao gia tăng (IGMM) và kết hợp dữ liệu thống kê thu được từ đó, đáng kể nâng cao khả năng nhận dạng đối tượng DeepSORT được tối ưu hóa về mặt phát hiện, nhúng và liên kết, đồng thời đề xuất thuật toán StrongSORT, nhúng hai thuật toán nhẹ hơn và plug-and-play, một là mô hình liên kết không xuất hiện (AFLink), liên kết các quỹ đạo ngắn thành các quỹ đạo hoàn chỉnh, cách thứ hai là sử dụng phép nội suy làm mịn Gaussian (GSI) để bù cho các lần phát hiện bị bỏ lỡ và đạt được khả năng định vị đối tượng có độ chính xác cao hơn Thuật toán StrongSORT vẫn còn một số hạn chế Mối quan tâm chính là tốc độ chạy tương đối thấp của chúng so với các thiết bị theo dõi chung và một số thiết bị theo dõi riêng biệt không có ngoại hình Nghiên cứu sâu hơn về cải thiện hiệu quả tính toán là cần thiết

2.2.2.2 Theo dõi đối tượng dựa trên LSTM

Nhiều nghiên cứu trong tài liệu đã chứng minh rằng các phương pháp dựa trên LSTM có khả năng đảm bảo xử lý chính xác các phụ thuộc dài hạn trong khi giải quyết thành công vấn đề biến mất và bùng nổ độ dốc trong mạng nơ-ron thông qua

“đơn vị cổng” của nó Các kỹ thuật liên kết dữ liệu liên quan đến LSTM đã được áp dụng cho lĩnh vực theo dõi đa đối tượng

Hầu hết các kỹ thuật dựa trên LSTM để theo dõi các đối tượng kết hợp một số bộ phân loại xử lý không gian và hình dạng với các mô-đun LSTM có tính đến tính nhất quán theo thời gian Một giải pháp theo dõi dài hạn dựa trên các đặc điểm được thu thập bởi lớp LSTM được cung cấp bởi Milan và cộng sự [20] người đã sử dụng bộ phân loại dựa trên LSTM để theo dõi các đối tượng trong chuỗi video và nhận ra việc theo dõi lại các mục đã biến mất và xuất hiện lại trong tần số video Mặc dù thuật toán hoạt động thuận lợi so với các kỹ thuật khác, bao gồm cả sự kết hợp của bộ lọc Kalman với thuật toán Hungary, kết quả trên bộ thử nghiệm MOT15 không đạt độ chính xác cao nhất; tuy nhiên, thuật toán này có thể chạy nhanh hơn nhiều so với các thuật toán khác (~165 FPS) và không sử dụng bất kỳ loại đặc trưng ngoại hình nào, để lại cơ hội cho những cải tiến trong tương lai Ý tưởng này đã được khám phá thêm bởi [17], người đã sử dụng mạng LSTM song tuyến tính, trong đó một mạng LSTM theo dõi chuyển động và mạng kia xử lý thông tin về các tương tác của đối tượng, để xác định nhiều dấu hiệu để đánh giá các mối quan hệ lâu dài Kết quả so sánh hiệu suất cho thấy phương pháp này có độ bền cao hơn và hiệu suất tốt hơn so với các phương pháp thông thường, chẳng hạn như thuật toán Hungary và JPDA Hai yếu tố này được kết hợp để xác định điểm giống nhau giữa các khung hình Một phương pháp khác sử dụng nhiều LSTM, Ran và cộng sự đã đề xuất một mạng ba luồng dựa trên tư thế, kết hợp ba đầu ra mối quan hệ khác của ba LSTM để tính toán mối quan hệ: một cho sự tương đồng về ngoại hình, sử dụng các đặc trưng CNN và thông tin về tư thế được trích xuất bởi AlphaPose, một cho sự tương đồng về chuyển động, sử dụng tốc độ khớp tư thế và một cho tương tác tương tự, sử dụng lưới tương tác Sau đó, một thuật toán theo dõi tùy chỉnh được sử dụng để tương quan với việc phát hiện Khi theo dõi nhiều đối tượng, trình theo dõi sẽ ghi nhớ thông tin chuyển động và hình dáng của từng đối tượng Bộ nhớ này được sử dụng để so sánh quỹ đạo và kết quả dự đoán và kết quả là được cập nhật Để khắc phục vấn đề đồng thời tính đến tất cả các dấu vết trong quá trình cập nhật bộ nhớ, Kim và cộng sự đã thêm một mô-đun tổng hợp nhiều đường mới vào cấu trúc mô hình ban đầu, giúp giải quyết vấn đề và chỉ thêm một lượng nhỏ chi phí.

Thuật toán JDT dựa trên học sâu

Nghiên cứu được trình bày ở trên dựa trên kết quả của việc phát hiện đối tượng và liên kết dữ liệu để theo dõi nhiều đối tượng Các mô-đun phụ của phương pháp TBD (chẳng hạn như trích xuất đặc trưng, v.v.) có thể được tích hợp vào mạng phát hiện đối tượng, đặc biệt là thuật toán JDT, mặc dù thực tế nó vẫn là thuật toán được sử dụng rộng rãi nhất để theo dõi nhiều đối tượng

Thuật toán theo dõi của khung phát hiện và theo dõi chung gần đây đã trải qua quá trình phát triển mới Do đó, khung TBD trở nên ít phức tạp hơn và độ chính xác theo dõi đa đối tượng được tăng lên Nhìn chung, sự phát triển của khung này sẽ đi theo một trong ba hướng: thứ nhất, mạng phát hiện sẽ được chuyển đổi và tích hợp vào nhiệm vụ theo dõi để mô hình mạng được thiết kế có thể tìm hiểu xác suất tương quan của đối tượng giữa các khung trình tự; thứ hai, hợp nhất mô-đun con trong thuật toán phát hiện đối tượng hoặc hợp nhất đặc trưng sẽ được thực hiện để đạt được các tác vụ theo dõi đa đối tượng; và thứ ba, việc tích hợp các thuật toán xuất sắc trong lĩnh vực theo dõi đối tượng đơn lẻ sẽ là trọng tâm Tham khảo cấu trúc TBD từ Hình 2.2, chọn một số mô-đun con để hợp nhất trong Hình 2.3 để minh họa cách thức hoạt động của phương pháp JDT Phương pháp JDT dựa trên việc hợp nhất các mô-đun phụ TBD

Hình 2.3 Ba nền tảng thuật toán của JDT

2.3.1 Mô-đun theo dõi và phát hiện hợp nhất

Mạng phát hiện đối tượng mặt trước ảnh hưởng đáng kể đến mức độ hiệu quả của các chức năng theo dõi đa đối tượng, như có thể được chỉ ra từ phân tích ở trên Để tăng thêm tính đơn giản của thuật toán, việc chia sẻ trọng số giữa hai giai đoạn phát hiện và theo dõi được thực hiện và mạng phát hiện đối tượng hiệu suất cao được cải thiện để hỗ trợ nhiều tác vụ theo dõi đối tượng Gần đây, nghiên cứu về các thuật toán theo dõi đối tượng đã chuyển sự chú ý sang việc hợp nhất các mô-đun thuật toán theo dõi đa đối tượng

Feichtenhofer và cộng sự [10] ban đầu được đề xuất đưa mạng phát hiện đối tượng vào nhánh theo dõi vào năm 2017 Sau đó, họ đã triển khai nhiệm vụ phát hiện dòng chính bằng thuật toán R-FCN cải tiến, tương tác với các bản đồ đặc trưng đa tỷ lệ của giai đoạn đầu tiên dựa trên các thuộc tính của hai -giai đoạn phát hiện đối tượng Phương pháp này dựa trên khung mạng đôi truyền thống để theo dõi một đối tượng, nhưng mạng đôi ban đầu sử dụng bộ lọc tương quan 1:1, trong khi khung D&T sử dụng bộ lọc tương quan n:n Thuật toán đã được xác minh bằng thực nghiệm làm tăng đáng kể độ chính xác và tốc độ theo dõi nhiều đối tượng, nhưng về cơ bản nó vẫn là thuật toán theo dõi hai giai đoạn để tích hợp thêm các mô-đun phát hiện và theo dõi Bergmann và cộng sự [4] đã đề xuất một loại khung theo dõi và phát hiện khớp mới, Tracktor++, có cốt lõi nằm ở việc sử dụng khung theo dõi và khung quan sát thay vì mô-đun RPN ban đầu để có được khung quan sát thực sự Tiếp theo, tương quan dữ liệu được sử dụng để thiết lập sự phù hợp của khung theo dõi và khung quan sát Thực nghiệm đã chứng minh rằng việc cải thiện mạng phát hiện đối tượng không chỉ cải thiện hiệu ứng theo dõi mà còn tăng mức độ ảnh hưởng của mô-đun phát hiện hợp nhất đối với hiệu ứng theo dõi cuối cùng Lấy cảm hứng từ khung Tracktor ++, Zhang và cộng sự đã cải thiện hơn nữa mạng phát hiện bằng cách thêm mô-đun đặc trưng luồng quang dự đoán, biến khung theo dõi và khung quan sát trong Tracktor++ thành khung dự đoán và khung quan sát luồng quang Sau khi nâng cao mô hình chuyển động, mô hình tương tác và phần liên kết dữ liệu, Huang và cộng sự cũng hoạt động để tăng cường hiệu ứng theo dõi

Khi giám sát các đối tượng nhỏ hoặc một số lượng lớn đối tượng, hiệu quả theo dõi kém, số lượng tính toán quá nhiều và tốc độ phát hiện quá chậm đối với lái xe tự động Tất cả các kỹ thuật nhận dạng đối tượng của khung Tracktor++ đều sử dụng các hộp neo làm nền tảng Với đầu vào tối thiểu này để xác định vị trí các đối tượng và dự đoán mối liên hệ của chúng với khung hình trước đó, thuật toán theo dõi đa đối tượng CenterTrack của Zhou và cộng sự được áp dụng để phát hiện một cặp hình ảnh và khung hình trước đó Vấn đề theo dõi được chuyển thành theo dõi dựa trên điểm trung tâm của đối tượng và theo dõi đa đối tượng hai chiều và ba chiều của người đi bộ và phương tiện được thực hiện cùng một lúc

2.3.2 Liên kết dữ liệu và trích xuất đặc trưng hợp nhất

Các đặc trưng sâu được lấy từ mạng phát hiện đối tượng và các đặc trưng rõ ràng sâu được sử dụng để liên kết dữ liệu là khác biệt, như được thể hiện trong nghiên cứu về phương pháp DBT Hợp nhất có thể tăng cường khả năng của mạng nơ-ron để đạt được sự hợp nhất và tái sử dụng đặc trưng bằng cách phát hiện các đặc trưng độ sâu có liên quan, đặc trưng REID hoặc hợp nhất các đặc trưng gốc và đặc trưng chuyển động

Khung Tracktor++ nêu trên vẫn còn hạn chế trong việc theo dõi hiệu suất do mức độ tích hợp thấp giữa các mô-đun chức năng Để đối phó với tình hình này, Peng và cộng sự [21] đã đề xuất thuật toán CTrack, kết hợp ba mô-đun phát hiện đối tượng, trích xuất đặc trưng và liên kết dữ liệu Sự hợp nhất được tích hợp vào cấu trúc mạng đầu cuối và CTrack đơn giản và nhanh chóng với sự trợ giúp của cấu trúc chuỗi và công nghệ hồi quy chú ý theo cặp

Dựa trên phân tích trong khung TBD, có thể thấy rằng có sự khác biệt giữa các đặc điểm sâu được mạng phát hiện trích xuất và các đặc điểm rõ ràng sâu mà liên kết dữ liệu dựa vào Mô-đun phát hiện đối tượng hợp nhất các đặc trưng ngoại hình và đặc trưng chuyển động Wang và cộng sự [24] đã đề xuất một mô hình JDE dựa trên thuật toán phát hiện YOLOv3 Điểm khởi đầu của khung là tăng khả năng sử dụng lại các đặc trưng, thêm nhánh trích xuất đặc trưng rõ ràng vào nhánh phân loại và hồi quy ban đầu Mặc dù kỹ thuật hợp nhất làm tăng độ chính xác theo dõi đa đối tượng, nhưng nó làm chậm đáng kể thuật toán theo dõi

2.3.3 Thuật toán kết hợp theo dõi đối tượng đơn lẻ

Tác vụ theo dõi đối tượng đơn lẻ và tác vụ theo dõi đa đối tượng trực quan có mối quan hệ chặt chẽ Các đặc điểm hình ảnh và động học dự kiến của việc theo dõi một đối tượng duy nhất được bao gồm trong thuật toán theo dõi đối tượng duy nhất

Do sự tiến bộ nhanh chóng của lĩnh vực theo dõi đối tượng đơn lẻ, việc kết hợp theo dõi đối tượng đơn lẻ với theo dõi đa đối tượng đã tồn tại trong những năm gần đây

Bản thân phương pháp theo dõi đối tượng (SOT) có thông tin như vị trí và nhận dạng nhờ cấu trúc mạng kép Kết quả là, một số lần lặp lại thuật toán theo dõi đa đối tượng đã xuất hiện, tận dụng kỹ thuật theo dõi đối tượng đơn lẻ để thay thế mô hình chuyển động và mô hình ngoại hình Về lý thuyết, thuật toán theo dõi đa đối tượng dựa trên theo dõi một đối tượng có thể được so sánh với thuật toán theo dõi dựa trên phát hiện, vì vấn đề thiếu quan sát có một số tính mạnh mẽ và thông tin định vị đối tượng tạm thời có thể thu được bằng tìm kiếm khu vực

Zhu và cộng sự [29] đã đề xuất thuật toán DMAN để tích hợp các ưu điểm của phương pháp liên kết dữ liệu và theo dõi đối tượng đơn lẻ trong một khung thống nhất và khi kết hợp SOT vào MOT, họ đã giới thiệu tổn thất theo dõi nhạy cảm với chi phí để theo dõi trực quan nhằm giải quyết vấn đề tắc nghẽn và can thiệp lẫn nhau giữa các đối tượng Feng và cộng sự đã đề xuất thuật toán LSST cho vấn đề tắc nghẽn dẫn đến các đặc trưng quỹ đạo với phần dư và thậm chí cả công tắc ID, và trình theo dõi cơ sở là SiamRPN để phát hiện nhanh và chính xác trong lĩnh vực theo dõi một đối tượng, đạt được độ ổn định lâu dài theo dõi dựa trên thông tin tương tác được trích xuất bởi thuật toán ReID Chu và cộng sự đã đề xuất thuật toán KCF với cấu trúc tương đối phức tạp và thiết kế trình theo dõi SOT nhận biết sơ thẩm bằng cách mã hóa nhận thức cả bên trong và giữa mô hình đối tượng Sau đó, mô hình chung đã được thử nghiệm và sửa chữa, mô hình năng động đã được làm mới và quản lý mục tiêu thuộc hàng tốt nhất trong thử thách của MOT

Theo phần giới thiệu trước đó, chúng ta phát hiện ra rằng công nghệ kết hợp theo dõi một đối tượng và theo dõi nhiều đối tượng có cả lợi ích và nhược điểm rõ ràng Khi bố cục cảnh khiêm tốn, khả năng định vị và trích xuất đặc trưng nhanh chóng và chính xác của công nghệ theo dõi đối tượng đơn lẻ phần nào có thể thích ứng với các vấn đề phát hiện sai và phát hiện bỏ sót Điều này là tốt, nhưng khi có nhiều mục kịch bản, bộ theo dõi đối tượng cần được thêm vào mọi mục, dẫn đến các vấn đề lớn về hiệu suất và hiệu suất thời gian thực, đòi hỏi phải nghiên cứu sâu hơn về phương pháp này.

Thuật toán MOT dựa trên Transformer

Những mô hình dựa trên Transformer này với khả năng biểu diễn xuất sắc đã tạo ra bước đột phá trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) Các phương pháp chú ý lần đầu tiên được trình bày bởi [2] để ứng dụng vào dịch máy, đạt được hiệu suất cao trong các nhiệm vụ NLP

Mô hình CNN, kết hợp một số lớp tuyến tính và kích hoạt phi tuyến tính với khả năng biểu diễn đặc trưng mạnh mẽ, là cách tiếp cận dựa trên học sâu mà các chuyên gia thị giác máy tính sử dụng thường xuyên nhất Các lớp tích chập và tổng hợp được CNN giới thiệu để xử lý đầu vào bất biến thay đổi Convolution không thể sử dụng đầy đủ thông tin theo ngữ cảnh vì nó thiếu khả năng nắm bắt toàn diện về hình ảnh và không thể mô hình hóa mối quan hệ giữa các đặc trưng Các trọng số của Convolution cũng được cố định và không thể tự động điều chỉnh để đáp ứng với những thay đổi trong đầu vào Nghiên cứu gần đây đã sử dụng transformer trong lĩnh vực thị giác máy tính, lấy cảm hứng từ thành công to lớn của thiết kế transformer trong NLP Trái ngược với CNN, cơ chế tự chú ý của transformer không bị hạn chế bởi các tương tác cục bộ; thay vào đó, nó có thể tổng hợp dữ liệu từ tất cả các đầu vào và đạt được sự song song nhanh chóng Bộ nhớ hoàn hảo và sức mạnh tính toán toàn cầu của transformer cũng làm cho nó phù hợp hơn để xử lý các chuỗi dài Để nghiên cứu đầy đủ các đặc điểm của mạng nơ-ron sâu và nâng cao độ chính xác của mạng, độ sâu của transformer cũng có thể được nâng lên

Trong thập kỷ qua, các cơ chế chú ý đã đóng một vai trò ngày càng quan trọng trong thị giác máy tính và được sử dụng để giải quyết nhiều vấn đề về thị giác, bao gồm phát hiện đối tượng, phân đoạn ngữ nghĩa, tầm nhìn 3D, và đang bắt đầu đạt được thành công trong lĩnh vực theo dõi đa đối tượng

Hình 2.4 Kiến trúc bộ mã hóa-giải mã của transformer

Vấn đề theo dõi đa đối tượng bao gồm kiến trúc transformer, đã cho thấy thành công to lớn trong hồ sơ CV Chúng ta trình bày một mô tả đơn giản về kiến trúc bộ giải mã-bộ mã hóa trong Hình 2.4 để hiểu rõ hơn về việc tích hợp các thuật toán theo dõi đa đối tượng dựa trên transformer cho các truy vấn quỹ đạo trong các khối tự chú ý của bộ giải mã Bộ mã hóa Transformer nhận thông tin hình ảnh từ đường trục CNN và thêm mã hóa vị trí không gian vào truy vấn và khóa của mỗi lớp tự chú ý nhiều đầu Sau đó, bộ giải mã nhận truy vấn (ban đầu được đặt thành 0), tạo mã hóa vị trí (truy vấn đối tượng), truy cập bộ nhớ bộ mã hóa và sử dụng nhiều đầu tự chú ý và chú ý bộ giải mã để tạo ra tập hợp cuối cùng của nhãn lớp dự đoán và các hộp giới hạn

2.4.1 Thuật toán MOT dựa trên kiến trúc Transformer

DETR [6] là khuôn khổ đầu tiên đưa transformer thành công vào phát hiện đối tượng DETR sử dụng CNN để trích xuất ánh xạ đặc trưng hình ảnh, sử dụng các đặc trưng được trích xuất làm đầu vào cho bộ mã hóa biến đổi và thu được kết quả phát hiện thông qua bộ giải mã của transformer TransTrack lần đầu tiên đưa cơ chế chú ý vào theo dõi nhiều đối tượng Đầu tiên, hình ảnh khung hiện tại được nhập vào đường trục CNN để trích xuất các bản đồ đặc trưng của hình ảnh và sử dụng cơ chế Query–Key để phát hiện và theo dõi chung Thuật toán này kết hợp các đặc trưng của hai khung liền kề, truy vấn đối tượng được sử dụng để học cách phát hiện đối tượng mới, truy vấn theo dõi chịu trách nhiệm giữ dấu vết theo dõi, một trong hai bộ giải mã chịu trách nhiệm phát hiện và tạo khung phát hiện, còn lại là chịu trách nhiệm tạo khung theo dõi để truyền đối tượng Cuối cùng, khung theo dõi và khung phát hiện được liên kết trên cùng một khung bằng cách sử dụng chiến lược đối sánh IOU để hoàn thành nhiệm vụ theo dõi nhiều đối tượng Trước tiên, thuật toán hoạt động để giải quyết nhiệm vụ của MOT theo mô hình như vậy Nó cung cấp một viễn cảnh mới cho việc theo dõi nhiều đối tượng Meinhardt và cộng sự [19] đã đề xuất thuật toán TrackFormer, xử lý theo dõi đa đối tượng như một tập hợp các vấn đề dự đoán với việc phát hiện và theo dõi chung bằng sự chú ý Tương tự, dựa trên cơ chế Truy vấn–Khóa, kiến trúc bao gồm một CNN để trích xuất đặc trưng hình ảnh, bộ mã hóa

Transformer và bộ giải mã Transformer để mã hóa hình ảnh Bản đồ đặc trưng hình ảnh được trích xuất bằng CNN được mã hóa bằng các đặc trưng tự chú ý trong bộ mã hóa và các truy vấn được giải mã bằng cách tự chú ý và chú ý chéo trong bộ giải mã, dẫn đến đầu ra được nhúng với thông tin lớp và hộp giới hạn Việc kết hợp cơ chế chú ý đảm bảo rằng mô hình đồng thời xem xét các đặc trưng nhận dạng vị trí, tắc nghẽn và đối tượng, đồng thời hoạt động tốt trong các tình huống theo dõi dài so với TransTrack khi được thử nghiệm trong tập dữ liệu Xu và cộng sự đã kết luận rằng các phương pháp theo dõi dựa trên hộp giới hạn của cả hai thuật toán, TransTrack và TrackFormer, không phù hợp để xử lý các tình huống dày đặc, và do đó đã đề xuất thuật toán TransCenter, sử dụng truy vấn đa tỷ lệ dày đặc để thu được dữ liệu dựa trên trọng tâm biểu diễn bản đồ nhiệt đối tượng và phân phối Gaussian hai chiều để biểu thị vị trí và kích thước của đối tượng, ngoài ra, xem xét việc mất bộ nhớ, đã đề xuất bộ giải mã thay đổi và cuối cùng, kết hợp bản đồ nhiệt trung tâm và cấu trúc giải mã hai chiều với các đặc điểm hình học và các đặc điểm trực quan của bộ giải mã thông qua thuật toán Hungary để liên kết đối tượng

Chu và cộng sự [8] đã đề xuất thuật toán TransMOT, sử dụng thuật toán YOLOv5 làm mô hình bộ dò và mạng SiamFC làm mạng con trích xuất đặc trưng trực quan, sau đó đề xuất một cách sáng tạo một biến thể đồ thị không gian và thời gian để mô hình hóa nhiều đối tượng trong không gian và thời gian , để đạt được mục đích theo dõi lâu dài Cụ thể, các tác giả xây dựng một loạt các biểu đồ có trọng số thưa thớt dựa trên mối quan hệ không gian của đối tượng Dựa trên các biểu đồ có trọng số này, bộ mã hóa chú ý biểu đồ không gian, bộ mã hóa chú ý biểu đồ thời gian và bộ giải mã chú ý không gian được thiết lập để lập mô hình, cơ chế liên kết theo tầng cũng được thiết lập để xử lý các phát hiện có độ tin cậy thấp và tắc nghẽn dài hạn, để tiếp tục tối ưu hóa tốc độ và độ chính xác của TransMOT Xie và cộng sự đã đề xuất một mạng Nhánh kép giống như Siamese chỉ dựa trên transformer (DualTFR) để theo dõi đối tượng trực quan vào năm 2021 Các nhánh kép lần lượt là các mẫu và hình ảnh tìm kiếm, được chia thành các khía cạnh không chồng chéo và trích xuất một vectơ đặc trưng cho từng khía cạnh dựa trên kết quả khớp từng khía cạnh với các khía cạnh khác trong cửa sổ chú ý Ưu điểm của phương pháp này là các đặc trưng được học từ đối sánh và cuối cùng, mô-đun theo dõi được sử dụng để đối sánh để đạt được theo dõi đối tượng Zhu và cộng sự đã giới thiệu mô hình ViT cho lĩnh vực theo dõi đa đối tượng và đề xuất ViTT Nó sử dụng bộ mã hóa Transformer làm xương sống để trích xuất các đặc trưng trực tiếp với hình ảnh làm đầu vào So với các mạng tích chập, nó có thể lập mô hình bối cảnh toàn cầu tại mỗi bộ mã hóa ngay từ đầu và hoạt động tốt trong các thách thức về tắc nghẽn và các cảnh phức tạp Yang và cộng sự xem xét dự đoán vị trí đối tượng và đề xuất mô hình chuyển động đa đối tượng dựa trên transformer, mô hình này lấy sự khác biệt về vị trí lịch sử của đối tượng và vectơ bù giữa các khung liên tiếp làm đầu vào, đồng thời xem xét đối tượng Chuyển động của chính nó và máy ảnh cải thiện độ chính xác dự đoán của mô hình chuyển động trong phương pháp theo dõi đa đối tượng, từ đó cải thiện hiệu suất theo dõi

Kiến trúc transformer trong mạng nơ-ron nhằm mục đích thay thế mạng nơ- ron truyền thống dựa trên tìm kiếm toàn cục, đồng thời tăng tốc và cải thiện hiệu quả của việc huấn luyện mô hình bằng cách hướng dẫn mô hình tập trung nhiều sức mạnh tính toán hơn hoặc cập nhật độ dốc của các tham số nơi chúng ta muốn nó đến, trong khi bỏ qua thông tin không liên quan trong các lĩnh vực khác Hầu hết các bộ dữ liệu điểm chuẩn đã hoạt động tốt hơn so với kỹ thuật theo dõi cấu trúc CNN thông thường Điều này chứng tỏ rằng nên tiếp tục nghiên cứu các thuật toán với kiến trúc này

2.4.2 So sánh các thuật toán MOT dựa trên kiến trúc Transformer

Bốn cách tiếp cận không giống nhau: TransTrack, TrackFormer, TransCenter, TransMOT Phương pháp theo dõi đa đối tượng của cấu trúc transformer trước đó đã được tăng cường bởi TransCenter Theo tác giả, việc xử lý các cảnh dày đặc không phù hợp với các phương pháp theo dõi dựa trên các hộp giới hạn của hai thuật toán đầu tiên Do đó, nên sử dụng bản đồ nhiệt đối tượng dựa trên điểm trung tâm để thể hiện các đặc trưng hình ảnh, cải thiện việc xử lý các vấn đề tắc nghẽn TransCenter cũng có thể dự đoán toàn cầu các điểm trung tâm của từng đối tượng và liên kết chúng trong miền thời gian, cho thấy sự cân bằng FP–FN cao hơn, nhờ vào các đặc tính toàn cầu của transformer Để cải thiện hơn nữa độ chính xác và độ chính xác của việc theo dõi nhiều đối tượng, TransMOT tin rằng các phương pháp dựa trên transformer hiện tại không hiệu quả trong việc mô hình hóa mối quan hệ không gian và thời gian Kết quả là, một loạt các biểu đồ có trọng số thưa thớt được tạo ra để lập mô hình

Phương pháp theo dõi đa đối tượng dựa trên transformer vẫn đang ở giai đoạn đầu Transformer có lợi thế hơn CNN với tư cách là máy dò vì nó sử dụng khả năng tự chú ý để thu thập dữ liệu theo ngữ cảnh toàn cầu, xây dựng các phụ thuộc từ xa vào quá trình nhúng và trích xuất các đặc điểm ngữ nghĩa mạnh mẽ hơn Tuy nhiên, transformer cũng có một số nhược điểm nhất định: các mô hình dựa trên transformer cần bộ dữ liệu đào tạo khổng lồ để hoạt động tốt và hiệu suất theo dõi đối với các đối tượng nhỏ là phụ do độ phức tạp tính toán của toán tử tự chú ý tăng theo cấp số nhân khi vectơ nhúng tăng và kích thước của các bản vá bị hạn chế Để mở rộng khuôn khổ cho các trường hợp khó khăn hơn, chẳng hạn như hạng mục đa quy mô, điều kiện thời tiết khắc nghiệt, nhầm lẫn danh mục, v.v., phương pháp theo dõi đa đối tượng dựa trên transformer cần được nghiên cứu thêm.

Những thử thách chính của MOT

Theo dõi nhiều đối tượng có một số thách thức cần giải quyết Mặc dù sự che phủ là thách thức chính trong MOT, nhưng có một số thách thức khác mà người theo dõi phải giải quyết liên quan đến vấn đề của MOT

Hiện tượng che phủ xảy ra khi đối tượng mà chúng ta muốn xem bị che phủ hoàn toàn hoặc một phần hoặc bị che phủ bởi một đối tượng khác trong cùng một khung hình Hầu hết các phương pháp của MOT được thực hiện chỉ dựa trên camera mà không có dữ liệu cảm biến Đó là lý do tại sao có một chút khó khăn đối với trình theo dõi để theo dõi vị trí của một đối tượng khi chúng che phủ lẫn nhau Hơn nữa, tắc nghẽn trở nên nghiêm trọng hơn trong bối cảnh đông đúc để mô hình hóa sự tương tác giữa mọi người Theo thời gian, việc sử dụng các hộp giới hạn để định vị một đối tượng rất phổ biến trong cộng đồng MOT Tuy nhiên, trong những cảnh đông đúc, rất khó xử lý các vùng kín do các hộp giới hạn chân thực thường chồng lên nhau Vấn đề này có thể được giải quyết một phần bằng cách cùng giải quyết các nhiệm vụ theo dõi và phân đoạn đối tượng Trong tài liệu, chúng ta có thể thấy thông tin ngoại quan và thông tin đồ thị được sử dụng để tìm các thuộc tính toàn cục nhằm giải quyết các che phủ Tuy nhiên, sự che phủ thường xuyên có tác động đáng kể đến độ chính xác thấp hơn trong các bài toán MOT Do đó, các nhà nghiên cứu cố gắng tấn công vấn đề này mà không cần chuông và còi Hình 2.5(a) minh họa sự che phủ Trong Hình

Hình 2.5 Hình ảnh minh họa về sự che phủ

2.5(b), người phụ nữ mặc váy đỏ gần như bị cột đèn che phủ Đây là một ví dụ về sự che phủ

2.5.2 Những thử thách đối với kiến trúc nhẹ (Lightweight Architecture)

Mặc dù giải pháp gần đây cho hầu hết các vấn đề phụ thuộc vào kiến trúc nặng, nhưng chúng rất ngốn tài nguyên Do đó, trong MOT, kiến trúc nặng rất phản trực giác để đạt được khả năng theo dõi thời gian thực Do đó các nhà nghiên cứu luôn ấp ủ kiến trúc nhẹ Đối với kiến trúc nhẹ trong MOT, có một số thách thức bổ sung cần xem xét, đề cập đến ba thách thức đối với kiến trúc nhẹ như sau:

- Kiến trúc theo dõi đối tượng yêu cầu cả trọng số được đào tạo trước để khởi tạo tốt và dữ liệu theo dõi được tinh chỉnh Bởi vì các thuật toán NAS cần hướng từ tác vụ đích, đồng thời, khởi tạo vững chắc

- Các thuật toán NAS cần tập trung vào cả mạng trục chính và khai thác đặc trưng, để kiến trúc cuối cùng có thể phù hợp hoàn hảo cho nhiệm vụ theo dõi mục tiêu

- Kiến trúc cuối cùng cần biên dịch các khối xây dựng nhỏ gọn và có độ trễ thấp

2.5.3 Một số thử thách thường gặp

Kiến trúc MOT thường bị phát hiện đối tượng không chính xác Nếu các đối tượng không được phát hiện chính xác, thì toàn bộ nỗ lực theo dõi đối tượng sẽ trở nên vô ích Đôi khi tốc độ phát hiện đối tượng trở thành một yếu tố chính đối với kiến trúc của MOT Đối với biến dạng nền, việc phát hiện đối tượng đôi khi trở nên khá khó khăn Ánh sáng cũng đóng một vai trò quan trọng trong việc phát hiện và nhận dạng đối tượng Do đó, tất cả các yếu tố này trở nên quan trọng hơn trong việc theo dõi đối tượng Do chuyển động của máy ảnh hoặc đối tượng, hiện tượng nhòe chuyển động khiến MOT gặp nhiều khó khăn hơn Nhiều khi kiến trúc MOT khó quyết định một đối tượng có phải là người thu nhập thực sự hay không Một trong những thách thức là sự liên kết thích hợp giữa phát hiện và tracklet Phát hiện đối tượng không chính xác và không chính xác cũng là hệ quả của độ chính xác thấp trong nhiều trường hợp Ngoài ra còn có một số thách thức, chẳng hạn như ngoại hình tương tự thường gây nhầm lẫn cho các mô hình, khởi tạo và kết thúc các tuyến đường là một nhiệm vụ hơi quan trọng trong MOT, tương tác giữa nhiều đối tượng, Chuyển đổi ID (cùng một đối tượng được xác định là khác nhau trong các khung liên tiếp thông qua đối tượng không thoát ra ngoài) của khung) Do biến dạng không cứng và sự giống nhau giữa các lớp về hình dạng và các đặc tính bề ngoài khác, con người và phương tiện tạo ra một số thách thức bổ sung trong nhiều trường hợp Ví dụ, các phương tiện có hình dạng và màu sắc khác với quần áo của mọi người Cuối cùng nhưng không kém phần quan trọng, các đối tượng có kích thước nhỏ hơn tạo ra nhiều yếu tố trực quan theo tỷ lệ Liting et al cố gắng giải quyết vấn đề với hình ảnh có độ phân giải cao hơn với độ phức tạp tính toán cao hơn Họ cũng sử dụng bản đồ đặc trưng phân cấp với các kỹ thuật dự đoán đa tỷ lệ truyền thống.

KẾT QUẢ THỬ NGHIỆM TRONG BÀI TOÁN CAMERA GIÁM SÁT

Phát biểu bài toán camera giám sát người

Với sự phát triển nhanh chóng của công nghệ và sự gia tăng về mức độ quan tâm đến an ninh và an toàn công cộng, bài toán này đang trở thành một chủ đề nổi bật và được nghiên cứu rộng rãi Trong bối cảnh đô thị ngày càng phát triển, việc quản lý giao thông và đảm bảo an ninh là một thách thức lớn đối với các cơ quan chức năng và tổ chức xã hội Camera giám sát người đã trở thành công cụ hữu ích để giám

Phát hiện và theo dõi đối tượng

Kiểm tra đối tượng có trong vùng cảnh báo không

- Lưu lại quá trình di chuyển của đối tượng

Hình 3.1 Mô hình tổng quan của hệ thống đề xuất sát và phân tích hoạt động của con người trong các khu vực quan trọng như đường phố, ga tàu, sân bay, bệnh viện, trung tâm thương mại và nhiều nơi khác

Bài toán camera giám sát người có rất nhiều ứng dụng thực tế và tiềm năng

Ví dụ, trong lĩnh vực an ninh, hệ thống camera giám sát người có thể được sử dụng để phát hiện và ngăn chặn hành vi phạm pháp, giám sát các khu vực nhạy cảm và đảm bảo an toàn cho cộng đồng Trong lĩnh vực giao thông, hệ thống này có thể giúp quản lý luồng giao thông, đếm lưu lượng người và nhận diện vi phạm Ngoài ra, bài toán này còn có ứng dụng trong y tế, giám sát môi trường, quản lý sự kiện và nhiều lĩnh vực khác Tuy nhiên, cũng cần nhận thức rằng việc triển khai và sử dụng các hệ thống camera giám sát người đòi hỏi sự cân nhắc và quản lý cẩn thận Việc bảo vệ quyền riêng tư, đảm bảo an toàn thông tin và tuân thủ quy định pháp luật là những yếu tố quan trọng cần được xem xét và thực hiện

Mục tiêu chính của bài toán camera giám sát người là sử dụng hệ thống camera để theo dõi, nhận diện và phân loại các đối tượng con người trong các khung hình hoặc video Việc phát hiện và nhận dạng người có thể dựa trên các đặc điểm như khuôn mặt, dấu vân tay, hình dáng cơ thể và các đặc trưng hành vi di chuyển Để giải quyết bài toán này, nhiều phương pháp và thuật toán đã được đề xuất và phát triển Các phương pháp truyền thống như phát hiện biên cương, phân loại dựa trên các đặc trưng cụ thể và các mô hình học máy được áp dụng Ngoài ra, sự phát triển của trí tuệ nhân tạo và học sâu cũng đã mở ra những tiềm năng mới trong việc giải quyết bài toán này

Hình 3.1 thể hiện mô hình tổng quan của hệ thống đề xuất Dữ liệu đầu vào là các video tại các nơi cần giám sát Đầu tiên, hệ thống thực hiện trích xuất các khung ảnh liên tiếp từ video đầu vào để thực hiện xử lý trên các khung ảnh riêng biệt đó Tốc độ lấy mẫu là số khung hình trên 1 giây (Frame per second - fps) và được thiết lập tùy chỉnh Tiếp theo, mô hình mạng nơ-ron tích chập (CNN) được sử dụng để phát hiện các đối tượng trên mỗi hình ảnh Mô hình YOLOv8 [32] được sử dụng để thực hiện và phát triển hệ thống Mô hình này là một trong những mô hình phát hiện đối tượng tiên tiến và độ chính xác rất cao Mô hình YOLOv8 được huấn luyện mới để có thể phát hiện đối tượng người Bên cạnh đó, mô hình Deep SORT [33] được sử dụng để theo dõi đối tượng Sau đó, hệ thống kiểm tra xem đối tượng phát hiện được có trong vùng cảnh báo hay không Nếu hệ thống phát hiện người trong vùng cảnh báo và trong thời gian cảnh báo, hệ thống sẽ thực hiện cảnh báo ra loa và hiển thị trạng thái cảnh báo Đồng thời, hệ thống sẽ lưu lại quá trình di chuyển của đối tượng

Một trong những thách thức lớn của bài toán camera giám sát người là xử lý dữ liệu lớn và phức tạp từ các camera Với số lượng lớn các hình ảnh và video được thu thập hàng ngày, việc phân tích và rút trích thông tin quan trọng từ dữ liệu này đòi hỏi sự tính toán mạnh mẽ và hiệu quả Đồng thời, việc đảm bảo quyền riêng tư và an toàn của người dùng cũng là một yếu tố quan trọng cần được quan tâm trong quá trình triển khai các hệ thống camera giám sát người

Trong tương lai, với sự phát triển của công nghệ và trí tuệ nhân tạo, bài toán camera giám sát người có tiềm năng để tiếp tục nâng cao hiệu quả và tính ứng dụng của nó trong nhiều lĩnh vực khác nhau Sự kết hợp giữa các công nghệ mới, phân tích dữ liệu thông minh và việc xây dựng hệ thống an toàn và bảo mật sẽ đóng vai trò quan trọng trong tương lai của bài toán này.

Thu thập cơ sở dữ liệu

Cơ sở dữ liệu: Cơ sở dữ liệu này bao gồm 6.500 hình ảnh của đối tượng người

Cơ sở dữ liệu này được chia làm 2 phần là tập dữ liệu huấn luyện (Training dataset) và tập dữ liệu kiểm thử (Testing dataset), với tỉ lệ tương ứng là 70% và 30% Cơ sở dữ liệu này được tổng hợp từ một số nguồn dữ liệu khác nhau, bao gồm:

“Humans_data Image Dataset” [34] và thu thập dữ liệu thủ công Thông tin chi tiết cơ sở dữ liệu được thể hiện trong Bảng 3.1 Hình 3.2 và 3.3 minh họa ảnh trong cơ sở dữ liệu được tổng hợp từ các nguồn khác nhau

Bảng 3.1 Thông tin chi tiết cơ sở dữ liệu thực nghiệm

Stt Mã đối tượng Tên đối tượng Nguồn cơ sở dữ liệu Số lượng ảnh gốc

1 Person Người Humans_data Image Dataset

2 Person Người Thu thập dữ liệu thủ công 74

Hình 3.2 Minh họa ảnh trong cơ sở dữ liệu “Humans_data Image Dataset”

Hình 3.3 Minh họa ảnh trong cơ sở dữ liệu được thu thập thủ công

3.2.2 Công cụ gán nhãn dữ liệu

Trong quá trình tạo ra cơ sở dữ liệu, đầu tiên, dữ liệu thu thập được ở dạng thô (Raw data) là hình ảnh của đối tượng người cần phát hiện Sau đó, những hình ảnh này sẽ được gán nhãn (Data labeling) nhằm cung cấp thông tin để mô hình phát triển có thể học hỏi từ dữ liệu đó Trong nghiên cứu này, công cụ Make Sense [35] được sử dụng để gán nhãn các hình ảnh

Trong lĩnh vực trí tuệ nhân tạo và học máy đang phát triển nhanh chóng, việc có sẵn dữ liệu được gán nhãn chất lượng cao là rất quan trọng để huấn luyện và phát triển các mô hình chính xác Một trong những thách thức chính trong lĩnh vực này là việc gán nhãn cho hình ảnh và video, bao gồm việc gán nhãn chính xác cho các đối tượng và vùng quan tâm Để giải quyết nhu cầu này, công cụ gán nhãn tiên tiến "Make Sense" đã xuất hiện như một giải pháp mạnh mẽ Với giao diện dễ sử dụng và các đặc trưng tiên tiến, Make Sense giúp người dùng gán nhãn và gắn kết dữ liệu hình ảnh và video một cách hiệu quả, tạo điều kiện thuận lợi cho nhiều ứng dụng như phát hiện đối tượng, phân loại hình ảnh và phân đoạn ngữ nghĩa

Giao diện người dùng và quy trình làm việc:

Hình 3.4 thể hiện giao diện làm việc trên công cụ Make Sense Make Sense sở hữu một giao diện người dùng thân thiện và trực quan đảm bảo tính dễ sử dụng và quy trình gán nhãn mượt mà Khi mở công cụ, người dùng sẽ được trình bày một không gian làm việc hấp dẫn mắt nơi họ có thể dễ dàng tải lên hình ảnh hoặc video để gán nhãn Không gian làm việc này được trang bị một bộ công cụ gán nhãn toàn diện, cho phép người dùng vẽ các hộp giới hạn, đa giác, điểm nổi và nhiều công cụ khác Công cụ cung cấp cả tùy chọn gán nhãn thủ công và bán tự động, phù hợp với sở thích và yêu cầu của người dùng và dự án cụ thể

Gán nhãn đa lớp và gán nhãn phân cấp:

Make Sense hỗ trợ gán nhãn đa lớp, cho phép người dùng tạo và gán nhãn cho nhiều lớp đối tượng khác nhau trong một hình ảnh hoặc video Điều này rất hữu ích khi làm việc với các bộ dữ liệu phức tạp chứa nhiều đối tượng yêu cầu các nhãn riêng biệt Ngoài ra, công cụ còn hỗ trợ gán nhãn phân cấp, cho phép người dùng tạo mối quan hệ cha-con giữa các nhãn Đặc trưng này đặc biệt hữu ích trong các tình huống mà các đối tượng có cấu trúc phân cấp, ví dụ như gán nhãn các cấu trúc cơ thể hoặc kiến trúc

Hình 3.4 Giao diện làm việc trên công cụ Make Sense

Gán nhãn đồng thời và gán nhãn theo khung hình: Để tối ưu quá trình gán nhãn trong video, Make Sense cung cấp tính năng gán nhãn đồng thời và gán nhãn theo khung hình Người dùng có thể gán nhãn đồng thời nhiều khung hình trong một video, loại bỏ việc gán nhãn trùng lặp Tính năng này giúp giảm thời gian gán nhãn và cải thiện hiệu suất tổng thể, đặc biệt là khi làm việc với video dài hoặc bộ dữ liệu có tốc độ khung hình cao

Gán nhãn tương tác và điều chỉnh:

Make Sense cung cấp khả năng gán nhãn tương tác, cho phép người dùng tương tác với các nhãn đã được gán và điều chỉnh vị trí, kích thước và hình dạng của chúng Mức kiểm soát này đảm bảo việc gán nhãn chính xác và chính xác, nâng cao chất lượng của dữ liệu đã được gán nhãn Người dùng có thể dễ dàng điều chỉnh và cải thiện các nhãn, đảm bảo chúng phù hợp với các đối tượng quan tâm trong hình ảnh hoặc video Ngoài ra, công cụ hỗ trợ theo dõi gán nhãn, cho phép người dùng theo dõi đối tượng qua các khung hình trong một video, duy trì tính nhất quán và độ chính xác trong quá trình gán nhãn

Xuất dữ liệu và tích hợp:

Make Sense cho phép xuất dữ liệu gán nhãn dễ dàng với nhiều định dạng phổ biến như Pascal VOC, YOLO, COCO và nhiều định dạng khác Tính linh hoạt này giúp dễ dàng tích hợp với các framework và quy trình làm việc học máy hiện có Dữ liệu đã được xuất có thể được sử dụng trực tiếp cho huấn luyện mô hình, đánh giá hoặc phân tích tiếp theo Make Sense đảm bảo khả năng tương thích với các định dạng tiêu chuẩn của ngành, tạo điều kiện thuận lợi cho tương tác và sự hợp tác mượt mà giữa các nhà nghiên cứu, nhà phát triển và các nhà khoa học dữ liệu

Hợp tác và quản lý dự án:

Hợp tác và quản lý dự án là những khía cạnh cần thiết của một công cụ gán nhãn Make Sense giải quyết những yêu cầu này bằng cung cấp các chức năng quản lý dự án Người dùng có thể tạo và quản lý dự án, mời cộng tác viên và gán vai trò và quyền hạn Công cụ hỗ trợ hợp tác thời gian thực, cho phép nhiều người dùng làm việc đồng thời trên cùng một dự án, khuyến khích sự hợp tác và cải thiện năng suất

Tóm lại, Make Sense là một công cụ gán nhãn hình ảnh và video hiện đại và mạnh mẽ, đơn giản hóa quá trình gán nhãn và gắn kết dữ liệu cho các nhiệm vụ học máy khác nhau Giao diện người dùng thân thiện, hỗ trợ gán nhãn đa lớp, gán nhãn phân cấp, gán nhãn đồng thời và gán nhãn tương tác giúp công cụ trở thành sự lựa chọn xuất sắc cho nhà nghiên cứu, nhà khoa học dữ liệu và nhà phát triển Với khả năng tích hợp mượt mà và tùy chọn xuất dữ liệu đa dạng, Make Sense giúp người dùng tạo ra các bộ dữ liệu đã được gán nhãn chất lượng cao, cần thiết để huấn luyện và phát triển các mô hình trí tuệ nhân tạo chính xác Cho dù bạn đang làm việc trong phát hiện đối tượng, phân loại hình ảnh hay phân đoạn ngữ nghĩa, Make Sense là một công cụ quý giá giúp tăng tốc quá trình làm việc và đạt được kết quả tốt hơn.

Huấn luyện mô hình

Trong nghiên cứu này, mô hình YOLOv8 [32] được sử dụng để xây dựng hệ thống Mô hình YOLOv8 được phát triển bởi nhóm nghiên cứu Ultralytics – được thành lập bởi Glenn Jocher [36] Mô hình YOLOv8 là một mô hình tiên tiến, hiện đại (State-of-the-art) được xây dựng dựa trên sự thành công của các phiên bản YOLO trước đó Đồng thời, mô hình này giới thiệu các tính năng và cải tiến mới để tăng hiệu suất và tính linh hoạt hơn nữa YOLOv8 được thiết kế để trở nên nhanh chóng, chính xác và dễ sử dụng, khiến nó trở thành lựa chọn tuyệt vời cho nhiều tác vụ phát hiện đối tượng, phân đoạn hình ảnh và phân loại hình ảnh Cấu trúc của mô hình YOLOv8 được thể hiện như trong Hình 3.5 Mô hình YOLOv8 có một số phiên bản khác mô hình nhau, như: YOLOv8n, YOLOv8s, YOLOv8m, YOLOv8l và YOLOv8x

Trong tiến trình xây dựng hệ thống, pha đầu tiên là huấn luyện mô hình Trong pha này, chúng ta tiến hành thu thập và gán nhãn dữ liệu để tạo ra cơ sở dữ liệu phục vụ huấn luyện và kiểm thử mô hình Tiếp theo, mô hình YOLOv8n được lựa chọn và huấn luyện để phát triển hệ thống

Trong lĩnh vực phân tích hình ảnh và video, việc theo dõi đối tượng là một bài toán quan trọng và thách thức Deep SORT (Deep Simple Online and Realtime Tracking) [33] là một mô hình theo dõi đối tượng sâu sắc, đã được phát triển để đáp ứng nhu cầu này Với khả năng kết hợp giữa phân tích đặc trưng sâu sắc và thuật toán sắp xếp, Deep SORT cho phép theo dõi đối tượng một cách chính xác và ổn định trong thời gian thực Phần này sẽ giới thiệu về mô hình Deep SORT, cung cấp thông tin về nguyên lý hoạt động, ưu điểm và ứng dụng của nó

Hình 3.5 Cấu trúc mô hình YOLOv8

Deep SORT kết hợp giữa hai thành phần chính là mạng học sâu và thuật toán sắp xếp để thực hiện nhiệm vụ theo dõi đối tượng Đầu tiên, mô hình sử dụng mạng học sâu (thường là mạng convolutional neural network - CNN) để trích xuất đặc trưng từ các khung hình hình ảnh hoặc video Quá trình này giúp mô hình học được các đặc trưng quan trọng của đối tượng như hình dạng, màu sắc và vị trí

Sau đó, Deep SORT sử dụng thuật toán sắp xếp (thường là thuật toán Kalman Filter hoặc Hungarian algorithm) để ghép nối các đối tượng trong các khung hình liên tiếp và theo dõi chúng theo thời gian Thuật toán sắp xếp giúp phân loại và liên kết các đối tượng dựa trên đặc trưng đã được trích xuất Kết quả là một chuỗi các đối tượng đã được theo dõi, với thông tin về vị trí, tốc độ và đặc trưng của chúng Ưu điểm:

Deep SORT có nhiều ưu điểm nổi bật khi được áp dụng trong các hệ thống theo dõi đối tượng Một trong những ưu điểm quan trọng nhất của Deep SORT là khả năng xử lý thời gian thực Mô hình được thiết kế để hoạt động trong thời gian thực, đáp ứng yêu cầu của các ứng dụng theo dõi đối tượng trong thực tế

Deep SORT cũng đảm bảo tính chính xác và ổn định trong việc theo dõi đối tượng Sự kết hợp giữa mạng học sâu và thuật toán sắp xếp giúp mô hình nhận diện và theo dõi đối tượng chính xác, đồng thời giảm thiểu các sai sót và sai lệch

Ngoài ra, Deep SORT có khả năng xử lý các tình huống phức tạp như đối tượng bị che khuất, xâm lấn hoặc di chuyển nhanh Mô hình có thể ứng phó với các tình huống này và tiếp tục theo dõi đối tượng một cách hiệu quả Ứng dụng:

Deep SORT có nhiều ứng dụng quan trọng trong thực tế Một ứng dụng phổ biến của mô hình là trong lĩnh vực an ninh và giám sát Deep SORT có thể được sử dụng để theo dõi và phân loại đối tượng trong các hệ thống giám sát video, giúp cải thiện khả năng phát hiện và phản ứng đối với các hành vi xâm nhập hoặc đe dọa

Deep SORT cũng được áp dụng trong lĩnh vực giao thông vận tải để theo dõi và phân loại phương tiện di chuyển Mô hình có thể giúp giám sát giao thông, dự báo luồng xe và phát hiện các hành vi vi phạm luật giao thông

Ngoài ra, Deep SORT còn có ứng dụng trong lĩnh vực thể thao và giải trí Mô hình có thể được sử dụng để theo dõi và phân loại các vận động viên trong các sự kiện thể thao hoặc trong các sản phẩm giải trí như trò chơi điện tử

Tóm lại, Deep SORT là một mô hình theo dõi đối tượng sâu sắc mạnh mẽ và đáng tin cậy Với khả năng kết hợp giữa mạng học sâu và thuật toán sắp xếp, Deep SORT cho phép theo dõi đối tượng chính xác và ổn định trong thời gian thực Mô hình này có nhiều ưu điểm và được áp dụng rộng rãi trong các lĩnh vực như an ninh, giao thông và giải trí Deep SORT là một công cụ hữu ích cho việc giám sát, phân loại và phản ứng đối với các đối tượng trong môi trường thực tế

3.3.3 Kết quả huấn luyện mô hình

Sau khi thu thập được cơ sở dữ liệu, chúng ta sẽ tiến hành huấn luyện mô hình mạng YOLOv8n Nhiệm vụ huấn luyện mô hình này rất quan trọng vì nó ảnh hướng trực tiếp đến chất lượng của hệ thống đề xuất Trong phần này, thang đo độ chính xác trung bình (mAP - Mean Average Precision) được sử dụng để đánh giá chất lượng mô hình Thang đo này là một trong những thang đo phổ biến nhất được sử dụng để đánh giá hiệu suất của các mô hình trong phát hiện đối tượng, và được định nghĩa ở Công thức (3.1) Trong đó, AP i là độ chính xác trung bình ở lớp thứ i Hình 3.6 và 3.7 cho thấy độ chính xác của mô hình trong quá trình huấn luyện Độ chính xác được cải thiện sau mỗi epoch

Hình 3.6 Kết quả huấn luyện mô hình

Hình 3.7 Đường cong Precision – Recall

Hình 3.8 minh họa một số hình ảnh kết quả phát hiện người chính xác trong quá trình huấn luyện mô hình

Hình 3.8 Minh họa kết quả phát hiện người trong quá trình huấn luyện.

Phân tích và đánh giá kết quả thu được

Trong phần này, chúng ta đánh giá mô hình trong ứng dụng thực tế tại một số địa điểm khác nhau như: trước cửa hàng, trong cửa hàng thuốc, trước cổng bệnh viện Chúng ta thu thập video tại các địa điểm này và tiến hành thực nghiệm

Hình 3.9-3.11 là kết quả thực nghiệm tại 3 địa điểm Kết quả phát hiện và theo dõi đối tượng người thu được rất chính xác và hiệu quả Trong mỗi ảnh, vùng cảnh báo được đánh dấu bằng đường màu đỏ và nền vàng nhạt Hệ thống phát hiện có người trong vùng cảnh báo này nên đã hiển thị trạng thái cảnh báo Việc phát hiện đối tượng người là rất chính xác Bên cạnh đó, mỗi đối tượng còn kèm theo đường màu xanh lá chính là quá trình di chuyển của đối tượng người đó

Hình 3.9 Kết quả phát hiện và theo dõi đối tượng người ở cửa hàng thuốc

Hình 3.10 Kết quả phát hiện và theo dõi đối tượng người ở cửa hàng thuốc

Hình 3.11 Kết quả phát hiện và theo dõi đối tượng người ở cổng bệnh viện.

Tiêu đề	Nghiên Cứu Về Kỹ Thuật Theo Dõi Đối Tượng Và Ứng Dụng Trong Bài Toán Camera Giám Sát
Tác giả	Phạm Văn Hà
Người hướng dẫn	TS. Ngô Hữu Huy
Trường học	Đại học Thái Nguyên
Chuyên ngành	Khoa học máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2023
Thành phố	Thái Nguyên

Định dạng
Số trang	80
Dung lượng	4,43 MB