6 Tổng kết
3.4 Mơ hình Nối tắt Residual Neural Network [15]
nhỏ hơn nhưng vùng ảnh hưởng vẫn cùng giá trị. Đây là lợi thế thứ nhất của các tiếp cận nhiều cửa sổ kích thước nhỏ xếp chồng lên nhau. Tiếp theo, tính chất của ảnh là những điểm càng gần nhau thì càng quan trọng so với các điểm ảnh ở xa. Với các bộ lọc xếp chồng, các điểm ảnh gần với điểm ảnh trung tâm sẽ càng được tính tốn qua nhiều cửa sổ hơn. Điều này giúp tận dụng tốt hơn bản chất của hình ảnh. Đây là hướng tiếp cận tốt hơn nhưng vẫn có vấn đề khó giải quyết. Đó là sự biến mất của đạo hàm (Gradient Vanishing).
Residual Neural Network là một khái niệm quan trọng giúp cho các mạng CNN phức tạp có thể hoạt động tốt. Các kĩ thuật Neural Network đến hiện tại đều cần học các trọng số của mơ hình thơng qua cơ chế lan truyền ngược. Cơ chế lan truyền ngược trên cần đạo hàm để có thể học được giá trị tối ưu của mơ hình. Nhưng với một mạng CNN gồm nhiều lớp xếp chồng lên nhau, con đường để lan truyền đạo hàm từ tầng đầu ra đến tầng đầu vào rất dài. Điều này làm cho giá trị đạo hàm ở các lớp CNN càng xa so với đầu ra càng nhỏ, khiến cho mơ hình khơng thể học, khiến cho đạo hàm biến mất. Với Residual Neural Network, vấn đề này được giải quyết tốt hơn.
Với phương pháp nối tắt này, đạo hàm sẽ được lan truyền ngược tốt hơn mà không cần lo đến vấn đề đạo hàm triệt tiêu. Như hình 3.4, dù đạo hàm theo đườngF(x) bị triệt tiêu thì vẫn cịn đường nối tắt x truyền đạo hàm đến tầng trước đó. Điều này giúp đạo hàm được lan truyền tồn mơ hình mà không cần lo lắng đến vấn đề suy biến.
3.4 Các phương pháp đánh giá bài toán truy vếtnhiều đối tượng trong nhiều máy quay nhiều đối tượng trong nhiều máy quay
Bài toán truy vết nhiều đối tượng trong nhiều máy quay thường được coi là một bài tốn xác định nhiều đối tượng trong những khung hình liên tục. Vì vậy, bài tốn này này thường có các phương pháp đánh giá giống như bài tốn xác định và phân loại:
• true positives (tpt) là số đối tượng được truy dấu đúng ở khung hình t.
• false positives (f pt) là số đối tượng được truy dấu ở khung hình t nhưng khơng có thực ở thực tế.
• false negatives (f nt) là số đối tượng bị bỏ sót khơng được truy dấu ở khung hình
t.T P, F P, F N là tổng giá trị củatpt, f pt vàf pt trên tất cả các khung hình. • Precisionlà tỉ lệ số điểmtrue positive trong số những điểm được phân loại làpositive,
• Recall được định nghĩa là tỉ lệ số điểmtrue positive trong số những điểm thực sự là
positive R=T P/(T P+F N).
Ngồi ra, bài tốn truy vết cũng có những thơng số đặc trưng:
• Phân mảnh(fragmentation) thể hiện sự thay đổi danh tính của một quỹ đạo đường đi mà quỹ đạo đó thuộc về một người duy nhất. Số lượng phân mảnh trong khung hình t làφt, và φ=P
tφt.
• Kết hợp(merge) thể hiện việc truy vết ghép 2 đối tượng khác nhau thành một giữa khung hình t và t′. Số lượng ghép ở khung hình t làγt, và τ=P
tγt.
• Ghép sai là tổng giá trị phân mảnh và kết hợp. Số lượng ghép sai trong một khung hình là µt=φt+γt và giá trị trên cả đoạn video l M =P
tàt.
ã Chuyn tip sai (handover error) tp trung vào các trường hợp sai trên nhiều máy quay, và thể hiện qua hai thông số phân mảnh φh và kết hợp γh (h là viết tắt của handover). Trong đó các thơng số này lại tiếp tục được chia làm hai loại là sai khi băng qua các máy quay (φh
X và γXh) và sai khi các đối tượng quay lại máy quay sau một thời gian (φh
R và γh
R). Các thông số này thể hiện được các trường hợp truy vết sai thường gặp trong bài toán truy vết nhiều đối tượng giữa máy quay.
Từ những thơng số này, có thể tính được các chỉ số đánh giá đặc trưng của bài toán truy vết:
• Multiple Object Tracking Precision (MOTP) thể hiện tỉ lệ truy vết đúng đối tượng (true positive) trong số tất cả truy vết. Với ct là số đối tượng được xác định trong khung hình t và dt,i thể hiện một đối tượng được xác định đúng. MOTP sẽ được tính bằng cơng thức (3.2):
MOTP =Pt,idt,i
P
tct (3.2)
• Multiple Object Tracking Accuracy (MOTA) đánh giá kết quả truy vết nhiều đối tượng trên một máy quay, được tính bằng cơng thức (3.3):
MOTA = 1−F N+F P+φ
T (3.3)
MOTA phạt những trường hợp mơ hình truy vết xác định đối tượng sai (F N+F P) và phân mảnh (φ) trên tổng số lượng T khung hình đối tượng xuất hiện.
Kết quả theo dấu cũng còn đánh giá dựa trên các chỉ số về danh tính của các đối tượng được sinh ra trong quá trình theo dấu. Các chỉ số đó là Identification Precision (IDP), Identification Recall (IDR), và Identification F1-Score (IDF1). Các chỉ số này sẽ được tính dựa vào các thơng số False Negative Identities (IDFN), False Positive Identities (IDFP) and true True Positive Identities (IDTP), được tính theo những cơng thức (3.4):
IDFN = X τ∈AT X t∈Tτ m(τ, γm(τ), t) IDFP = X γ∈AC X t∈Tγ m(τm, γ(τ), t) IDTP = X τ∈AT kτk −IDFN = X γ∈AC kγk −IDFP (3.4)
vớiφ vàγ lần lượt là ký hiệu của quỹ đạo thực tế và quỹ đạo được truy vết, AT và AC là tất các danh tính thực tế và các danh tính được tính, và T là tập hợp các khung hìnhτ
của một quỹ đạo tương ứng. Biểu thứcm(τ, γ, t) sẽ tính số khung hình bao đóng bị bỏ lỡ
khơng được xác định giữaτ và γ theo thời thời gian. Ký hiệu γm(τ) và τm(γ) thể hiện số lượng các kết quả giống nhau giữaτ và γ. Các chỉ số sẽ được tính theo cơng thức (3.5):
IDP = IDT P
IDT P+IDF P
IDR = IDT P
IDT P+IDF N
IDF1 =2IDT P+2IDT P
IDF P +IDF N
(3.5)
Chỉ số IDF1 khơng tính dựa trên từng khung hình mà dựa trên từng danh tính trong cả các đoạn video trên tất cả máy quay. Vì vậy, IDF1 có thể giúp đánh giá kết quả truy vết trên nhiều máy quay có góc quay trùng lặp ít hoặc khơng trùng lặp.
Một chỉ số khác hay được dùng khác như:
• Mostly Tracked (MT): thể hiện một đối tượng được theo vết thành cơng trong ít
nhất 80% trên tổng số khung hình của đối tượng đó.
• Mostly Lost (ML): thể hiện một đối tượng chỉ được theo vết thành công trong
nhiều nhất 20% trên tổng số khung hình của đối tượng đó.
• Fragment (FM): thể hiện số lượng lần một kết quả truy vết bị đứt quãng khi so
với quỹ đạo thật (ground truth).
3.5 Attentive but Diverse Network [12]
Tìm kiếm đặc trưng ngoại hình của đối tượng giúp giải bài tốn tái định danh tính của đối tượng trong bài toán truy vết. Cụ thể là khi muốn xem xét một đối tượng tại một khung hình đã từng xuất hiện trong những khung hình cũ hay chưa ta sẽ thực hiện so sánh đặc trưng hình ảnh của đối tượng này với các đặc trưng hình ảnh khác của các đối tượng khác trong quá khứ mà đã được lưu lại. Bài toán tái định danh là một bài tốn quan trọng nhất của bài tốn theo dấu. Ví dụ trong trường hợp các truy vết trên mỗi máy quay đơn lẻ có thể bị đứt đoạn do đối tượng bị che khuất hoặc đối tượng có thể rời khỏi góc quay của máy quay và xuất hiện trở lại sau đó. Nếu trường hợp này xảy ra, các hình ảnh của đối tượng từ các truy vết cũ có thể được sử dụng để so sánh nó với các truy vết mới nhằm xác định lại danh tính của đối tượng đó. Để làm cho đặc trưng ngoại hình của đối tượng có thể so sánh được, hình ảnh của đối tượng được nhúng vào một vectơ đặc trưng ngoại hình bằng cách sử dụng mạng CNN. Thơng qua việc tính tốn khoảng cách giữa các vectơ đặc trưng ngoại hình nói trên, ta có thể xác định được sự giống nhau của các người.
Mặc dù với sự phát triển trong thời gian gần đây, bài tốn tái định danh vẫn cịn tồn tại những thử thách khi trong các tình huống thực tế việc xác định cùng một danh tính của một đối tượng trong hai khung hình khác nhau thường xuyên gặp những khó khăn như sai lệch cơ thể, che khuất, nhiễu nền, thay đổi góc nhìn, thay đổi tư thế,... Các vấn đề vừa nêu đặc biệt xảy ra thường xuyên trong bài toán theo dõi đối tượng trên nhiều máy quay khi mà ngoại hình và tư thế của đối tượng có sự khác biệt rất lớn giữa các máy quay có góc quay khác nhau.