Luận văn thạc sĩ Kỹ thuật điện tử: Theo vết đối tượng trong camera giám sát

MCMC-Trong luận văn này trình bày một giải thuật theo vết nhiều đối tượng dựa trên cở sở lọc hạt particle theo phương pháp chuỗi Markov Monte Carlo.. Kế tiếp, để tăng tính chính xác của

GIỚI THIỆU

Giới thiệu đề tài

Theo vết đối tượng hiểu một cách đơn giản nhất là xác định vị trí của đối tượng theo thời gian khi đối tượng di chuyển, và trong lĩnh vực thị giác máy tính có thể hiểu là xác định toạ độ của đối tượng tại mỗi khung hình trong đoạn video quan sát Để giải quyết bài toán theo vết ta cần giải quyết hai bài toán nhỏ bao hàm bên trong là: phát hiện đối tượng (có thể bất động hoặc di chuyển) và theo vết (bám sát) đối tượng khi đối tượng di chuyển theo thời gian

Các ứng dụng quan trọng của bài toán theo vết đối tượng đang được triển khai như:

- Giám sát tự động (Automated video surveillance): trong những ứng dụng này, hệ thống thị giác máy tính được thiết kế để giám sát những chuyển động trong một vùng, xác định đối tượng chuyển động và cảnh báo khi thấy bất kỳ tình huống khả nghi nào Hệ thống này đòi hỏi phải đủ thông minh để phân biệt được các thực thể tự nhiên và con người

- Robot vision: Hệ thống điều hướng trên robot tự động giúp nhận biết được chướng ngại vật trên đường đi Và nếu đó là những đối tượng di chuyển, robot sẽ kích hoạt hệ thống theo vết thời gian thực để tránh va chạm hoặc di chuyển theo đối tượng tùy ứng dụng

- Điều phối giao thông (traffic monitoring): Trên các giao lộ hoặc các trục đường chính, giao thông được giám sát liên tục qua hệ thống camera Hệ thống giám sát có tích hợp tính năng theo vết đối tượng giúp phát hiện các phương tiện vi phạm luật giao thông hoặc liên quan đến những hành vi phạm pháp khác

HVTH: Ngô Đình Phong Trang 4 MSHV: 12140035 Đặc biệt trong tình hình an ninh thế giới bất ổn như hiện nay thường xuyên diễn ra những cuộc khủng bố, tội phạm xảy ra ở những nơi công cộng nên nhu cầu giám sát an ninh được đặt ra rất cao Những khu vực công cộng thường rất rộng lớn, với lưu lượng người rất cao, vì vậy lực lượng an ninh rất khó kiểm soát toàn bộ khu vực nếu không có sự hỗ trợ Do đó, hệ thống giám sát được ra đời nhằm đáp ứng nhu cầu ấy Hệ thống giám sát sẽ tự động phát hiện, cảnh báo trước các đối tượng có hành vi bất thường và theo vết hướng di chuyển của đối tượng Đây cũng là nguyên nhân nảy sinh bài toán theo vết đối tượng

Hình 1.1: Những khu vực công cộng cần giám sát an ninh

HVTH: Ngô Đình Phong Trang 5 MSHV: 12140035

Nội dung đề tài

Bài toán được đặt ra là từ một đoạn video quan sát thu bởi một camera cố định, ta phát hiện được các đối tượng đang chuyển động, theo dõi sự di chuyển của các đối tượng Bài toán này có hai vấn đề cần giải quyết: một là phát hiện đối tượng mà cụ thể trong đề tài này là người đi bộ và hai là theo vết đối tượng khi người đi bộ di chuyển trong phạm vi camera quan sát thu được Để giải quyết bài toán theo vết đối tượng này, em tiến hành thực hiện nghiên cứu đề tài: Theo vết đối tượng trong camera giám sát Trong luận văn sẽ trình bày các bước xây dựng giải thuật theo vết đối bằng giải thuật lọc hạt (particle) trên cơ sở chuỗi Markov Monte Carlo

Hình 1.2: Một ví dụ theo vết nhiều đối tượng.

Khó khăn và thách thức

Hầu hết các hệ thống giám sát sử dụng camera gắn cố định, chỉ có thể cung cấp các thông tin về hình ảnh với với độ phân giải không cao, trong những điều

HVTH: Ngô Đình Phong Trang 6 MSHV: 12140035 kiện ánh sáng thay đổi khó kiểm soát Với đặc điểm như vậy, việc phát hiện đối tượng và theo vết sẽ gặp nhiều trở ngại

1.3.1 Độ phân giải Độ phân giải của camera quan sát ảnh hưởng đến chất lượng video thu được, độ phân giải camera càng thấp sẽ gây tỷ lệ lỗi sai càng cao trong quá trình theo vết đối tượng Trong đó khoảng cách từ camera quan sát đến đối tượng quan sát có ảnh hưởng lớn đến độ phân giải về ngoại hình của đối tượng Khoảng cách càng xa thì độ phân giải càng thấp và ngược lại Do các giải thuật thường dựa trên các đặc trưng về ngoại hình của đối tượng, nên độ phân giải quyết định mức độ mô tả chi tiết các đặc trưng của đối tượng

Hình 1.3: Một ví dụ về độ phân giải bị ảnh hưởng do khoảng cách giữa camera quan sát và các đối tượng

Sự che khuất hay chồng lấp xảy ra khi có người hoặc vật thể chắn giữa đối tượng và camera quan sát làm cho hình ảnh của đối tượng bị che mất một phần hoặc hoàn toàn Khi mật độ người đông đúc thì số lượng đối tượng bị che khuất sẽ tăng lên vì không gian của cá thể người bị thu hẹp lại Khi đó, việc tách đối tượng ra khỏi nền không dễ dàng, giải thuật theo vết sẽ phức tạp hơn Và đây là một trong những khó khăn thách thức nhất khi giải quyết bài toán theo vết đối tượng

Hình 1.4: Một ví dụ về sự che khuất giữa các đối tượng

Khi điều kiện sáng thay đổi sẽ ảnh hưởng đến màu sắc và độ tương phản của khung hình, do đó cũng ảnh hưởng lên ngoại hình của đối tượng (màu sắc, độ

HVTH: Ngô Đình Phong Trang 8 MSHV: 12140035 tương phản…) Đối với camera ngoài trời sẽ chịu ảnh hưởng của chu kỳ ngày, đêm và thời tiết Ví dụ trong các này mây nhiều thì hình ảnh thu được sẽ tương đối nhạt và tối, ngược lại trong những ngày nắng gắt thì cho hình ảnh sáng, độ tương phản tốt hơn Đối với camera trong nhà thì nguồn sáng ổn định hơn, tuy nhiên nó lại có thể đến từ nhiều nguồn khác nhau, nên có thể chia thành những khu vực có độ sáng khác nhau trong cùng khung ảnh Điều này có thể ảnh hưởng khi đối tượng di chuyển giữa các khu vực có độ sáng không đồng nhất này

Hình 1.5: Một ví dụ về ánh sáng không đồng nhất

1.3.4 Sự tương đồng về ngoại hình

Một khó khăn khác trong việc theo vết đối tượng là các đối tượng có ngoại hình giống nhau xuất hiện trong cùng một khung cảnh, thường xảy ra là do độ phân giải camera không cao chỉ phân biệt chủ yếu qua màu sắc trang phục của đối tượng Hai đối tượng có ngoại hình giống nhau sẽ có những đặc trưng mô tả giống nhau, điều này gây khó khăn trong việc xác định đối tượng tại thời điểm k là đối tượng nào tại thời điểm k-1

Hình 1.6: Một ví dụ về sự tương đồng về ngoại hình.

Giới hạn đề tài

Không có giải thuật nào giải quyết được tất cả các bài toán trong mọi điều kiện, do đó trong luận văn này đưa ra một số điều kiện ràng buộc nhất định Trong nghiên cứu này, luận văn chỉ xác định đối tượng cần theo vết là con người, di chuyển trong tư thế thẳng đứng, số lượng đối tượng thực nghiệm không quá lớn

(tối đa 6), dữ liệu thu từ một camera được xử lý offline (bộ dữ liệu chuẩn), và quan sát được thực hiện trong điều kiện ánh sáng tốt.

Mục tiêu đề tài

Thông qua tìm hiểu các hệ thống giám sát và các giải thuật theo vết, để xây dựng một thuật toán có thể theo vết nhiều đối tượng cùng lúc trong cùng một camera giám sát cố định Số lượng đối tượng không biết trước, có thể thay đổi theo thời gian Có khả năng tự động phát hiện và theo vết đối tượng mới, và quản lý các đối tượng biến mất khỏi khung ảnh

Nâng cao hiệu quả của giải thuật trong việc phân biệt các đối tượng khi xảy ra trường hợp các đối tượng có thể tương tác và bị che lấp một phần

Phương pháp nghiên cứu

Tham khảo các giải thuật liên quan đã được đề xuất trong các công trình nghiên cứu Đánh giá ưu điểm và hạn chế của từng thuật toán để chọn lọc và áp dụng cho nghiên cứu

Kế thừa và kết hợp các thế mạnh của các thuật toán, cải tiến một số bước để xây dựng một thuật toán giải quyết hiệu quả bài toán đặt ra

Mô phỏng giải thuật với công cụ Matlab Đánh giá tính hiệu quả của giải thuật

THỰC TRẠNG NGHIÊN CỨU

Thực trạng nghiên cứu ngoài nước

Bài toán theo vết đối tượng luôn là một bài toán thu hút mối quan tâm của khá nhiều các nhà nghiên cứu Đã có rất nhiều các phương pháp được đề xuất để giải quyết bài toán này theo các hướng tiếp cận khác nhau Hai báo cáo [1,2] đã làm cuộc khảo sát tổng hợp về các phương pháp theo vết đối tượng đã được công bố, giúp chúng ta có cái nhìn khái quát về các hướng tiếp cận giải quyết vấn đề này

Theo [1] các phương pháp theo vết chủ yếu được chia làm bốn nhóm chính như sau: theo vết dựa trên vùng đối tượng (Tracking based on a moving object region); theo vết dựa trên đường nét nổi bật của đối tượng (Tracking based on an active contour of a moving object); theo vết dựa trên mô hình hóa đối tượng (Tracking based on moving object model); Theo vết dựa trên xác định đặc trưng của đối tượng (Tracking based on selected features of moving object)

Còn trong [2] các phương pháp theo vết được phân loại thành ba phương pháp: Theo vết dựa trên điểm (Point tracking); theo vết dựa trên nhân (Kernel tracking); theo vết dựa trên hình chiếu (Silhouette tracking)

Tuy nhiên theo xu hướng hiện đại, các phương pháp theo vết này có thể chia một cách đơn giản nhất thành hai nhóm chính: theo vết dựa trên kết quả phát hiện đối tượng (Tracking-by-detection) và theo vết dựa trên các bộ lọc (Filter- based tracking) Phần tiếp theo của chương này sẽ trình bày một cách tổng quát các hướng tiếp cận này

2.1.1 Theo vết dựa trên vùng đối tượng

Giải thuật này chủ yếu dựa vào thuộc tính của blob như kích thước, màu sắc, hình dạng, vận tốc (velocity), trọng tâm (centroid) Ưu điểm của giải thuật là thời gian tính toán nhanh và hiệu quả với số lượng đối tượng ít Hạn chế của giải thuật là không hiệu quả khi đối tượng bị che khuất bởi đối tượng khác trong trường hợp nhiều đối tượng

2.1.2 Theo vết dựa trên đường nét nổi bật của đối tượng

Giải thuật chủ yếu dựa trên boundary của đối tượng Contour của đối tượng được biểu diễn bởi một snake Ưu điểm của phương pháp là có hiệu quả trong trường hợp theo vết người đi bộ (pedestrian) bằng cách lựa chọn đường nét ban đầu, giúp thể cải thiện thời gian tính toán Hạn chế của phương pháp là không giải quyết được bài toán khi đối tượng bị che khuất một phần (partial occlusion) và nếu đối tượng bị che khuất hoặc hai đối tượng chồng lấp lên nhau một phần trong quá trình khởi tạo (ở những frame đầu tiên) thì sẽ gây ra lỗi

2.1.3 Theo vết dựa trên mô hình hóa đối tượng

Mô hình của đối tượng thường được quy về mô hình hình học của đối tượng trong không gian 3D Giải thuật sẽ định nghĩa tham số để xác định đối tượng Giải thuật này giải quyết được bài toán che khuất một phần nhưng lại ảnh hưởng đến thời gian thực thi

2.1.4 Theo vết dựa trên xác định đặc trưng của đối tượng

Lựa chọn những đặc trưng tiêu biểu của đối tượng và xem xét các đặc trưng đó qua các frame liên tiếp để xác định đối tượng di chuyển và theo vết Khi đối tượng bị che khuất, thì một hoặc hai đặc trưng của đối tượng không thể sử dụng được nữa, tuy vậy vẫn có thể dựa vào một trong những đặc trưng còn lại để tiếp tục theo vết Tuy nhiên, lại nảy sinh bài toán khác là gom cụm đặc trưng (feature

HVTH: Ngô Đình Phong Trang 13 MSHV: 12140035 clustering), vấn đề là làm sao xác định được những đặc trưng nào là thuộc cùng một đối tượng trong suốt quá trình theo vết (trường hợp theo vết nhiều đối tượng)

2.1.5 Theo vết dựa trên điểm Đối tượng được biểu diễn bằng tập các điểm và các điểm này được liên kết dựa trên các ràng buộc về chuyển động, vị trí của đối tượng Hạn chế của phương pháp là cần có một cơ chế bên ngoài để phát hiện đối tượng trong mỗi frame Giải thuật tiêu biểu của phương pháp này là Kalman Filter, Particle Filter, Multi Hypothesis Tracking

2.1.6 Theo vết dựa trên nhân

Mô hình của đối tượng có thể được biểu diễn dưới dạng mẫu (template), hoặc mô hình mật độ (density based model) ví dụ như histogram Phương pháp theo vết được thực hiện bằng cách tính toán chuyển động của đối tượng qua các frame liên tiếp Giải thuật tiêu biểu của phương pháp này là Mean-shift, Simple Template Matching, Support Vector Machine (SVM)

2.1.7 Theo vết dựa trên hình chiếu

Sau khi ước lượng vùng đối tượng (Object region) trong mỗi frame, đối tượng được theo vết bằng cách sử dụng thông tin mã hóa trong vùng đối tượng

Các thông tin này có thể được mô tả dưới hình thức là mô hình về hình dạng hoặc mật độ của đối tượng Khi đã có được mô hình đối tượng, việc theo vết được thực hiện bằng phương pháp so khớp hình dạng (shape matching), hoặc mở rộng đường viền (contour evolutions) Các giải thuật tiêu biểu cho hướng tiếp cận này là Contour Tracking, Shape Matching

2.1.8 Theo vết dựa trên kết quả phát hiện đối tượng

Các giải thuật trong nhóm tiếp cận này thường dựa trên hai bước xử lý chính: (1) phát hiện đối tượng dựa trên các giải thuật trừ nền (background

HVTH: Ngô Đình Phong Trang 14 MSHV: 12140035 subtraction) hoặc giải thuật dựa trên huấn luyện (training-based object detection);

(2) theo vết những đối tượng đã được phát hiện

Một số nghiên cứu nổi bật theo hướng tiếp cận này có thể được đề cập đến như công trình của Okuma và cộng sự [3] Nhóm của Okuma đã kết hợp thuật toán theo vết đề xuất bởi Vermaak và cộng sự [4] với một bộ phát hiện đối tượng tăng cường (boosted object detector) Cai và cộng sự [5] mở rộng giải thuật này bằng cách sử dụng các tập bộ lọc phần tử độc lập cho mỗi mục tiêu để tăng tính ổn định trong bài toán theo vết nhiều đối tượng Ngoài ra, để xử lý tốt hơn trường hợp đối tượng bị che khuất, nhiều nhà nghiên cứu sử dụng thông tin 3D [6, 7] để huấn luyện bộ nhận dạng cho từng bộ phận riêng lẻ của cơ thể [8], hoặc bổ sung thêm những thông tin về mặt chuyển động của đối tượng [9]

Những giải thuật nêu trên chỉ tập trung xử lý bài toán theo vết một đối tượng (single object tracking), nên thường không cho kết quả tốt trong bài toán theo vết nhiều đối tượng (multiple objects tracking) hoặc theo vết trong trường hợp các đối tượng có tương tác với nhau (interacting targets) [10] Như vậy, để có thể áp dụng phương pháp này cho trường hợp theo vết nhiều đối tượng, Li và cộng sự [10] mở rộng thêm phần hậu xử lý offline Tương tự, việc theo vết có thể thực hiện bằng cách khai thác những bộ phân loại đã được huấn luyện để phân biệt giữa đối tượng và nền [11, 12] Các tiếp cận tương tự áp dụng các bộ phân loại với nhiều ngưỡng khác nhau [13, 14] hoặc xác suất phát hiện tích luỹ theo thời gian (accumulate detection probabilities temporally) [15, 16] Tuy nhiên, việc mở rộng những phương pháp này để tăng khả năng theo vết đa mục tiêu là thách thức không nhỏ Dựa vào mức độ tin cậy của bộ phát hiện trong mỗi tình huống có thể gây lỗi khi theo vết, đặc biệt là trong quá trình bị che lấp giữa các mục tiêu có sự tương tác (interacting targets) và trong các hoàn cảnh phức tạp, lộn xộn

2.1.9 Theo vết đựa trên việc sử dụng các bộ lọc

Các bộ lọc phần tử dùng để ước lượng phân bố nhiều hình thái của không gian trạng thái mục tiêu [17] Nhiều nghiên cứu mở rộng cho theo vết đa mục tiêu bằng cách đại diện cho tất cả mục tiêu dùng trong lọc hạt [4] hoặc mở rộng không gian trạng thái của mỗi mục tiêu bao gồm tất cả thành phần của mục tiêu khác [18] Trong cách tiếp cận đầu tiên, số lượng cố định các hạt đại diện cho một số mục tiêu khác nhau Do đó, mục tiêu mới phải lấy các hạt từ những bộ theo vết hiện có, giảm độ chính xác khi xấp xỉ Trong cách tiếp cận thứ hai, không gian trạng thái rộng hơn, nó đòi hỏi một lượng lớn các hạt để mô tả tốt Vì vậy, tính toán phức tạp tăng theo cấp số nhân của số lượng mục tiêu Để giải quyết vấn đề này, hầu hết phương pháp sử dụng một lọc hạt cho mỗi mục tiêu sử dụng một không gian trạng thái nhỏ và giải quyết tách biệt các mục tiêu tương tác [19, 20, 21]

Thực trạng nghiên cứu trong nước

Nhóm tác giả Lê Hoài Bắc, Nguyễn Phi Vũ đã đề xuất một bộ lọc hạt dựa trên màu sắc ứng dụng vào hệ thống theo dõi giao thông [31] Đối tượng theo vết của nghiên cứu này là các phương tiện xe lưu thông, sử dụng bộ lọc hạt cho phép theo vết nhiều đối tượng cùng lúc Nhóm tác giả sử dụng bộ lọc với phiên bản cải tiến gọi là – lọc hạt đa mô hình, nghĩa là nhóm tác giả xây dựng một tập nhiều mô hình con, và mỗi mô hình con sẽ được áp dụng lọc hạt một cách độc lập sau đó chúng sẽ được kết hợp với nhau thông qua trọng số kết hợp để cho ra mật độ hậu nghiệm đích Trong mô hình động của nhóm tác giả sử dụng cách tính đơn giản là dùng tọa độ tại thời điểm t k-1 cộng thêm một lượng di chuyển là một biến ngẫu nhiên tuân theo phân bố chuẩn N  0,  2  Về mô hình quan sát nhóm tác giả sử dụng khoảng cách Bhattachayya để tính likelihood giữa mô hình tham khảo và mô hình màu ứng viên

Qua đó nhóm tác giả xây dựng một chương trình ứng dụng thực tế giám sát giao thông với một số kết quả rất khả quan Chương trình có khả năng phát hiện và bám sát tốt các đối tượng Ngoài ra chương trình còn có một số chức năng thiết thực như phát hiện đối tượng lưu thông ngược chiều như ví dụ Hình 2.1, 2.2, 2.3, có khả năng tính toán được vận tốc di chuyển của đối tượng như Hình 2.4 phục vụ cho phát hiện vi phạm về tốc độ Chương trình cũng có khả năng lưu vết quỹ đạo di chuyển của đối tượng như Hình 2.5, giúp phát hiện các trường hợp lạng lách đánh võng, hay vượt tuyến trái quy định

Hình 2.1: Đối tượng đi ngược chiều mới được phát hiện

Hình 2.2: Tính toán trọng số kết hợp suy giảm nhanh

Hình 2.3: Đã xác định đối tượng đi ngược chiều

Hình 2.4: Tính vận tốc chuyển động của đối tượng

Hình 2.5: Lưu vết quỹ đạo di chuyển của đối tượng

Tuy nhiên nghiên cứu này vẫn còn một số hạn chế cần khắc phục như chưa xem xét đến trường hợp các đối tượng bị che khuất hay chồng lấp lên nhau Ngoài ra, nghiên cứu chưa khắc phục được hiện tượng bóng đổ và tán xạ ánh sáng gây ra bởi các phương tiện giao thông kích thước lớn

LÝ THUYẾT TỔNG QUAN

The Earth Mover’s Distance

Theo Peleg và cộng sự (1989) khoảng cách giữa hai hình ảnh màu xám được tính như sau: mỗi điểm ảnh được biểu diễn bởi n " pebbles" trong đó n là một số nguyên đại diện cho các cấp độ màu xám của pixel đó Sau khi chuẩn hóa hai hình ảnh để có cùng số pebbles, khoảng cách giữa chúng được tính là chi phí tối thiểu của các pebbles giữa hai hình ảnh Các chi phí với hai pebbles duy nhất được dựa trên khoảng cách của chúng trong mặt phẳng ảnh Ý tưởng này được áp dụng làm nền tảng cho phương pháp Earth Mover’s Distance (EMD), một phép đo hữu ích giữa các đặc trưng đối với truy xuất hình ảnh trong không gian đặc trưng khác nhau [32]

Cho P    p w 1 , p 1   , , p w m , pm   là đặc trưng thứ nhất với m cụm, với p i là đại diện cụm, w pm là trọng số của cụm Q    q w 1 , q 1  , ,  q w n , q n   đặc trưng thứ hai với n cụm; và D   d ij ma trận khoảng cách nền với d ij là khoảng cách nền giữa cụm p i và q j

Chúng ta cần tìm được luồng F    f ij , với f ij là luồng giữa p i và q j sao cho cực tiểu giá trị:

Phụ thuộc vào các ràng buộc sau:

Earth mover’s distance được định nghĩa như là kết quả của việc chuẩn hóa tổng của các luồng:

Histogram of oriented gradient

Giải thuật HOG (Histogram of oriented gradient) là một giải thuật mô tả đặc trưng được sử dụng trong lĩnh vực thị giác máy tính và xử lý ảnh với mục đích là phát hiện đối tượng Là một kỹ thuật tính toán hướng của gradient (gradient orientation) trong vùng được chia của một bức ảnh

Bản chất của mô tả HOG là vùng xuất hiện của đối tượng và hình dạng của nó có thể được mô tả bởi phân bố của mật độ các gradient và hướng của cạnh biên Ta chia bức ảnh thành các vùng nhỏ liên kết với nhau, được gọi là các cell, và trong mỗi cell tính toán histogram của các hướng gradient và cạnh biên cho mỗi pixel trong cell Và sự tổ hợp của các histogram này chính là mô tả mà ta cần tìm Để tăng tính hiệu quả, các histogram vùng có thể được contrast – normalized

HVTH: Ngô Đình Phong Trang 22 MSHV: 12140035 bằng cách tính toán trên một vùng lớn hơn của bức ảnh, được gọi là block, sau đó dùng giá trị này để chuẩn hóa tất cả các cell trong block [33]

Bước đầu tiên của giải thuật là tính toán các giá trị gradient Phương pháp chung nhất là áp dụng mặt nạ lọc để lọc chiều dọc và chiều ngang, và mặt nạ lọc được định nghĩa như sau:

Ta có một bức ảnh I , để tính đạo hàm theo chiều x và y ta dùng toán chập như sau: and

HVTH: Ngô Đình Phong Trang 23 MSHV: 12140035 b) Ảnh I X lọc theo chiều trục x c) Ảnh I Y lọc theo chiều trục y

Hình 3.1: Ví dụ của việc áp dụng mặt nạ lọc

Biên độ của gradient được cho bởi:

Và hướng của gradient được cho bởi: arctan Y

Hình 3.2: Biên độ của gradient

Bước tiếp theo trong tính toán là tạo các histogram của cell Mỗi pixel trong cell sẽ bầu chọn cho histogram dựa trên hướng mà được tính toán ở bước tính toán gradient Các cell bản thân là các khối hình vuông, và các kênh histogram đều được phân bố từ 0 o đến 180 o hoặc 0 o đến 360 o và nó phụ thuộc vào gradient là dạng có dấu hay không có dấu Còn đối với việc bầu chọn, phân bố pixel có thể là bản thân biên độ gradient hoặc căn bậc hai của nó

3.2.3 Descriptor blocks Để tính toán sự thay đổi về ánh sáng và độ tương phản, cường độ gradient phải được chuẩn hóa cục bộ với ràng buộc là nhóm các cell thành một khối lớn hơn gọi là block Mô tả HOG là vector của các thành phần cell histogram được chuẩn hóa từ tất cả các khối Các khối này thường sẽ bị trùng lắp, điều này có nghĩa là mỗi cell sẽ hiện diện nhiều hơn một lần trong mô tả cuối cùng Có hai dạng hình học của khối là: khối hình chữ nhật R-HOG và khối hình tròn C-HOG

Khối hình chữ nhật R-HOG thường có dạng là các lưới vuông, được biểu diễn bởi ba tham số: số cell trên mỗi block, số pixel trong mỗi cell, và số kênh trong mỗi cell histogram

Hình 3.3: Hai dạng hình học của khối

Có nhiều phương pháp khác nhau để chuẩn hóa khối Cho v là vector chưa chuẩn hóa chứa tất cả histogram của một khối cho trước Hệ số chuẩn hóa có thể tính theo một trong các cách sau đây:

Với e là một hằng số bé không ảnh hưởng đến kết quả

Hình 3.4: Ví dụ về việc chia cell

Hình 3.5: Mô tả Histogram of oriented gradient đã được chuẩn hóa trong mỗi cell.

Phân phối Wishart

Phân bố Wishart [34] là phần mở rộng đa chiều của phân bố gamma, mặc dù hầu hết các nhà thống kê sử dụng phân phối Wishart trong trường hợp đặc biệt bậc tự do số nguyên, trong trường hợp đó nó đơn giản chỉ là một trường hợp đa chiều của phân phối  2 Phân phối  2 được mô tả là tổng các bình phương của n rút ra từ một phân phối chuẩn đơn biến, phân bố Wishart được mô tả là tổng các bình phương của n rút ra từ phân bố chuẩn đa chiều

Cho S ~ Wish p  , v , với  là một ma trận xác định dương (có thể được xem như là một ma trận phương sai / hiệp phương sai từ một phân bố chuẩn đa chiều), với v là tham số biểu thị bậc tự do, và p thông số kích thước của S (có nghĩa là, S p p  ) Do dó, S là hàm mật độ xác suất (pdf) xác định dương:

 là một hàm suy rộng đa chiều của hàm gamma Lưu ý rằng chúng ta phải có v  p 1 để đảm bảo rằng S là khả nghịch Nếu v p 1 thỏa mãn, thì

Wish p  v được gọi là phân bố Wishart kỳ dị (Singular Wishart distribution) do

 là một ma trận suy biến.

Phân phối Wishart ngược

Phân bố Inverse-Wishart [34] là phần mở rộng đa chiều của phân phối inverse-gamma (hoặc, tương tự như phân bố Wishart, các inverse - 2 phân phối trong trường hợp bậc tự do số nguyên) Nhưng mặc dù phân bố Wishart tạo ra các tổng của ma trận bình phương, người ta có thể nghĩ đến phân phối Inverse-Wishart khi tạo ra các ma trận hiệp phương sai ngẫu nhiên Tuy nhiên, những ma trận hiệp phương sai sẽ là phần tử nghịch đảo của các ma trận hiệp phương sai được tạo ra dưới phân phối Wishart Vì vậy, các ma trận hiệp phương sai được tạo ra trong cả hai trường hợp (cũng như các thông số ma trận) có thể được coi như là (1) một

HVTH: Ngô Đình Phong Trang 28 MSHV: 12140035 ma trận hiệp phương sai, hoặc (2) một ma trận về độ chính xác Việc giải thích các biến ngẫu nhiên phụ thuộc vào bối cảnh nghiên cứu

Cho T ~ InvWish p , m  , với  biểu thị một ma trận xác định dương (có thể được coi như là tổng của ma trận bình phương từ một phân phối chuẩn đa chiều), với m là tham số biểu thị bậc tự do, và p thông số kích thước của T (có nghĩa là, T p p  ) Do dó, T là hàm mật độ xác suất (pdf) xác định dương:

Lưu ý rằng chúng ta phải có m p 1 để đảm bảo rằng S là khả nghịch

Nếu m p 1 là không chắc chắn, sau đó chúng ta phải sử dụng nghịch đảo Moore-Penrose là biến ngẫu nhiên của chúng ta và InvWish p , m  được gọi là một phân phối Generalized Inverse Wishart và được mở rộng ra là phân bố Inverse Wishart.

Phương pháp lọc hạt (particle filtering)

Lọc là bài toán ước lượng trạng thái của hệ thống ngay khi một tập các quan sát về hệ thống đó được thu nhận và có hiệu lực Các quan sát này có thể bao gồm các tín hiệu thu nhận từ: ra-đa, hệ thống định vị bằng sóng âm, thiết bị thu nhận hình ảnh (video), từ kế, gia tốc kế,…

Lọc hạt hiện đang được áp dụng trong rất nhiều lĩnh vực như mô hình hóa tài chính, kinh tế lượng (Econometrics), theo dõi đối tượng, dẫn đường cho tên lửa (Missle Guidance), di chuyển dựa vào địa hình (Terrain Navigation), thị giác máy tính, mạng neuron, máy học, robot, Ứng dụng của lọc hạt trong thị giác

HVTH: Ngô Đình Phong Trang 29 MSHV: 12140035 máy tính đang được rất nhiều người quan tâm, đặc biệt là trong lĩnh vực theo vết đối tượng dựa vào thông tin thị giác

Phương pháp lọc hạt dựa trên nền tảng là phương pháp tuần tự Monte Carlo (Sequential Monte Carlo – SMC) và sử dụng phương pháp lấy mẫu quan trọng (Importance Sampling - IS) để có thể tạo ra một tập các mẫu ngẫu nhiên từ phân phối xác suất

Số lượng hạt là một tham số quan trọng ảnh hưởng lớn nhất tới phương pháp Số lượng hạt càng lớn thì kết quả ước lượng càng chính xác nhưng chi phí tính toán sẽ tăng lên rất nhiều

Ta xem xét một hệ thống động thỏa mãn các giả định về mô hình Markov bậc nhất Để ước lượng các trạng thái của hệ thống động đó, ta cần xây dựng hai mô hình: Mô hình động (Dynamic model) và mô hình quan sát (Observation model)

Mô hình động: có chức năng mô tả sự biến đổi của trạng thái đối tượng theo thời gian và được khái quát như sau:

Với X k và X k  1 là trạng thái của hệ thống tương ứng tại thời điểm k và 1 k  V k 1 là vector nhiễu (ngẫu nhiên) hay phương sai của biến trạng thái Xác suất chuyển tiếp p X  k | X k  1  được tính từ mô hình này

Mô hình quan sát: có chức năng mô tả mối quan hệ giữa quan sát và trạng thái ở cùng thời điểm và được khái quát như sau:

Với Z k là quan sát ở thời điểm k, W k là là vector nhiễu (ngẫu nhiên) Mô hình này được dùng để tính likelihood p Z  k | X k 

Giải pháp Bayes cho rằng chúng ta có thể đạt được mật độ hậu nghiệm (posterior density) p X  k | Z0: k  qua hai bước là ước lượng và cập nhật

Có thể ước lượng trạng thái qua phương trình tổng quát sau:

Và sau khi ước lượng, biến trạng thái được cập nhật thông qua:

Chúng ta chỉ có thể áp dụng giải pháp Bayes trong trường hợp không gian trạng thái là rời rạc và hữu hạn Ngoài trường hợp này thì giải pháp chỉ mang tính lý thuyết vì không có phương pháp tính tích phân trong phương trình (3.12) và (3.14) trong trường hợp liên tục và nhiều chiều Vì thế, các phương pháp lọc phi tuyến (lọc Kalman mở rộng, lọc unscented Kalman, xấp xỉ mắt lưới, lọc tổng Gauss…) ra đời nhằm xấp xỉ cho giải pháp lý thuyết này Cùng mục tiêu trên, lọc hạt xấp xỉ hàm mật độ hậu nghiệm bằng một tập lớn các mẫu phát sinh từ một hàm mật độ đề suất (proposal density): X k i q X  k | X i k  1 , Z k  Mỗi mẫu được gắn với một trọng số được cập nhật một cách hồi quy như sau:

Với w k i  1 là trọng số đã được chuẩn hóa ở thời điểm k-1 và w k  là trọng số chưa được chuẩn hóa ở thời điểm k Và như vậy hàm mật độ hậu nghiệm sẽ được xấp xỉ như sau:

Với    là hàm Delta Dirac, và ước lượng trạng thái của hệ thống ở thời điểm k sẽ là:

Phương pháp Monte Carlo

Phương pháp Monte Carlo có thể xem là một lớp các thuật toán sử dụng việc lấy mẫu ngẫu nhiên để thu được các kết quả số (numerical result) Phương pháp này thường được sử dụng để giải quyết các bài toán phức tạp, liên quan đến nhiều biến số mà không thể dễ dàng giải quyết bằng các thuật toán tất định (deterministic algorithm)

Phương pháp Monte Carlo được xây dựng trên cơ sở các đặc tính sẽ được trình bày ngay sau đây

3.6.1 Cơ sở của phương pháp Monte Carlo

- Các số ngẫu nhiên (random numbers): đây là nền tảng quan trọng, góp phần hình thành nên tính hiệu quả của phương pháp Các số ngẫu nhiên không chỉ được sử dụng trong việc mô phỏng lại các hiện tượng ngẫu nhiên xảy ra trong thực tế mà còn được xử dụng để lấy mẫu ngẫu nhiên của một phân bố nào đó, chẳng hạn như trong tính toán các tích phân số (numerical integration)

- Luật số lớn (Law of large numbers): luật này đảm bảo rằng khi ta chọn ngẫu nhiên các giá trị (mẫu thử) trong một dãy các giá trị (quần thể), kích thước mẫu thử càng lớn thì đặc trưng thống kê (trung bình, phương sai…) của các mẫu thử càng gần với các đặc trưng thống kê của quần thể Luật số lớn rất quan trọng đối với phương pháp Monte Carlo vì nó đảm bảo cho sự ổn định của các giá trị trung bình của các biến ngẫu nhiên khi số phép thử đủ lớn

- Định lý giới hạn trung tâm (central limit theorem): định lý này phát biểu rằng dưới một số điều kiện cụ thể, trung bình số học của một lượng lớn các phép

HVTH: Ngô Đình Phong Trang 32 MSHV: 12140035 lặp của các biến ngẫu nhiên độc lập sẽ được xấp xỉ theo phân bố chuẩn Do phương pháp Monte Carlo là một chuỗi các phép thử được lặp lại, nên định lý giới hạn trung tâm giúp ta xấp xỉ được trung bình và phương sai của các kết quả thu được từ phương pháp

3.6.2 Các thành phân chính của phương pháp mô phỏng Monte Carlo

Hàm mật độ xác suất (probability density function – PDF): một hệ vật lý hay toán học phải được mô tả bằng một bộ các PDF

Nguồn phát số ngẫu nhiên: (random number generator – RNG) một nguồn phát các số ngẫu nhiên đồng nhất phân bố trong khoảng đơn vị

Quy luật lấy mẫu (sampling rule): mô tả việc lấy mẫu từ một hàm phân bố cụ thể

Ghi nhận (scoring): dữ liệu đầu ra phải được tích lũy trong các khoảng giá trị của đại lượng cần quan tâm Ước lượng sai số (error estimation): ước lượng sai số thống kê (phương sai) theo số phép thử và theo đại lượng quan tâm

Các kỹ thuật giảm phương sai (variance reduction technique): các phương pháp nhằm giảm phương sai của đáp số được ước lượng để giảm thời gian tính toán của mô phỏng Monte Carlo

Song song hóa (parallelization) và vector hóa (vectorization): các thuật toán cho phép phương pháp Monte Carlo được thực thi một cách hiệu quả trên một cấu trúc máy tính hiệu năng cao

3.6.3 Phương pháp Monte Carlo trong tính toán

Các giải pháp của nhiều vấn đề trong toán học có thể được biểu diễn dưới dạng một phép toán tích phân của một hàm Và chúng ta quan thường quan tâm

HVTH: Ngô Đình Phong Trang 33 MSHV: 12140035 đến kết quả tính toán từ phép tính, nhưng điều này thường rất khó khăn đặc biệt đối với các tích phân có dạng như sau:

Với  là vùng lấy tích phân, và phép toán tích phân I có thể liên quan đến một hàm kỳ vọng với biến ngẫu nhiên tương ứng với một phân bố xác suất nào đó Cho một hàm xác suất với biến ngẫu nhiên X có hàm mật độ là    x thì hàm kỳ vọng của nó có thể biểu diễn như sau:

Và tích phân I có thể được biểu diễn lại dưới dạng một hàm kỳ vọng, với ràng buộc    x  0 khi f x    0 như sau:

 , trong trường hợp vùng lấy tích phân  là hữu hạn, chúng ta luôn luôn có thể sử dụng biến ngẫu nhiên X phân bố đều trên vùng  với mật độ    x  1

 để thu được phép tính như sau:

HVTH: Ngô Đình Phong Trang 34 MSHV: 12140035 Điều tiện lợi của việc biểu diễn tích phân dưới dạng một hàm kỳ vọng có được là xuất phát từ Luật số lớn, trong đó nói rằng một tập các biến ngẫu nhiên phân bố giống nhau độc lập   X i i   1 :

  (3.28) Điều này cho phép ước lượng giá trị số của I một cách đặc biệt như sau:

- Lấy mẫu N biến ngẫu nhiên   X i i N  1 với phân bố    x trên vùng  - Xấp xỉ hàm kỳ vọng bằng cách sử dụng Luật số lớn:

Qua phần trình bày tính toán ở trên, chúng ta có thể đưa ra một phương pháp xác xuất dùng để tính toán (ước lượng) giá trị I một cách đơn giản hơn so với cách tính toán truyền thống

THEO VẾT NHIỀU ĐỐI TƯỢNG VỚI GIẢI THUẬT LỌC HẠT TRÊN CƠ SỞ CHUỖI MARKOV MONTE CARLO

Tổng quan thuật toán

Luận văn hướng đến việc giải quyết bài toán theo vết nhiều đối tượng với các tình huống thực tế phức tạp: số lượng đối tượng đối tượng không biết trước và có thể thay đổi theo thời gian do sự xuất hiện đối tượng mới hoặc sự biến mất của đối tượng trong phạm vi quan sát Xử lý các tình huống các đối tượng có thể tương tác và bị che lấp lẫn nhau một phần Việc sử dụng bộ lọc hạt kết hợp với chuỗi Markov Monte Carlo cho phép giải quyết được các vấn đề gặp phải trên một cách hiệu quả Do đó tôi chọn xây dựng giải thuật theo vết nhiều đối tượng dựa trên thuật toán lọc hạt trên cơ sở của chuỗi Markov Monte Carlo (MCMC) đã được trình bày bởi Septier và cộng sự [35, 36] với một vài cải tiến Để tăng độ chính xác của quá trình ước lượng, mô hình quan sát được xây dựng dựa trên đặc điểm về màu sắc của đối tượng, kết hợp thêm thông tin xác suất thu được từ giải thuật phát hiện đối tượng (dựa trên giải thuật HOG – SVM) Thuật toán lọc hạt dựa trên cơ sở MCMC được dùng để ước lượng phân bố hậu nghiệm của các biến trạng thái đối tượng từ đó giải quyết vấn đề theo vết đối tượng trong khung ảnh

Bài toán theo vết đối tượng được giải quyết bằng giải thuật lọc hạt trên cơ sở MCMC có thể được tóm tắt như sau:

6: Tính toán xác suất chấp nhận  

7: Chấp nhận  X k m , X m k  1 ,e ,e m k m k  1    X k  , X  k  1 ,e ,e * k * k  1  với xác suất chấp nhận  1

11: Chấp nhận e k n m , e k n * , và X k n m ,  X k n * , với xác suất chấp nhận

14: Chấp nhận c k n m , c * k n , với xác suất chấp nhận  3,n 15: Cho r k n  , q r 4  k n , | r k m  1, n ,c ,c m k n m k  1, n 

17: Chấp nhận r k n m , r k n * , với xác suất chấp nhận  4,n

19: Tính toán xác suất chấp nhận

20: Chấp nhận    m k n , * k n , với xác suất chấp nhận  5,n

21: Bỏ qua chuỗi khởi động N b và giữ lại chuỗi N p là kết quả cuối cùng S k j S k m của ước lượng biến trạng thái

Phần trên vừa trình bày giải thuật theo vết nhiều đối tượng bằng lọc hạt dựa trên MCMC, và chi tiết của thuật toán sẽ được trình bày theo từng bước ở phần sau

Do bài toán theo vết nhiều đối tượng cần đáp ứng được các tình huống thực tế là số lượng đối tượng theo vết có thể thay đổi theo thời gian vì vậy ta cần sử dụng một tập biến

,1 , max k k k N e  e e  đại diện cho tình trạng hiện diện của đối tượng trong phạm vi quan sát Trong đó, với k tương ứng với thời điểm t k , và N max là số đối tượng lớn nhất có thể theo vết Giá trị của e k n ,  n1 N max  được định nghĩa như sau:

1 0 đối tượng n có trong khung ảnh đối tượng n không có trong khung ảnh e k n 

Bên cạnh đó, để tiện cho việc theo vết và quan sát bằng hình ảnh một cách trực quan, các đối tượng cần theo vết được đánh dấu bởi một khung hình chữ nhật

Và khung hình chữ nhật này cũng là đại diện cho đối tượng theo vết, được tạo từ chính thông tin trạng thái của đối tượng được đặc trưng bởi biến vị trí – kích thước

X k được định nghĩa như sau: max max max max

Với  x k n , ,y k n ,  là biến đại diện cho thông tin vị trí trọng tâm của đối tượng thứ n, còn  rx k n , , ry k n ,  là biến đại diện cho kích thước của đối tượng thứ n, với số lượng đối tượng tối đa là N max Hình 4.1 là ví dụ cho khung đánh dấu hình chữ nhật đại diện cho đối tượng với các thông số vị trí – kích thước

Hình 4.1: Các đối tượng theo vết được đánh dấu khung hình chữ nhật

Với mục tiêu mà bài toán đặt ra đó là khả năng giám sát nhiều đối tượng trong cùng một khung ảnh Do đó mục tiêu quan trọng là ước lượng xác suất có điều kiện p S Z  k 0: k  của biến trạng thái S k   X e k , k  (đại diện cho các thông số trạng thái của đối tượng như: hiện diện, vị trí, kích thước) tại thời điểm k được cho bởi chuỗi quan sát Z 0:k =(Z 0, …,Z k ) Xác suất hậu nghiệm p S Z  k 0: k  có thể được biểu diễn đệ quy bởi phương trình:

Với S k  X e k , k  là tập hợp biến trạng thái của đối tượng cần theo vết Giả thiết đặt ra là các đối tượng di chuyển hoàn toàn độc lập với nhau, đồng thời biến vị trí – kích thước X k và biến hiện diện e k là hai biến độc lập, phân bố xác suất biến đổi (transition probability distribution) p S  k | S k  1  được xác định như sau:

Phương trình này có thể được triển khai như sau:

Với X k,n được định nghĩa như sau:

Trong phần sau sẽ trình bày mô tả chi tiết về mô hình động và mô hình quan sát được sử dụng trong giải thuật, và sau đó mô tả chi tiết đề xuất của thuật toán lọc hạt dựa trên MCMC để giải quyết bài toán theo vết đối tượng Nhưng trước hết ta cần xem xét phân bố tiên quyết của biến hiện diện e k n , , vì nó quyết định một đối có hiện diện hay không trong phạm vi quan sát

Phân bố tiên quyết của biến hiện diện

Trong giải thuật này, biến e k biểu thị cho khả năng hiện diện của đối tượng được mô hình hóa theo chuỗi Markov rời rạc Hai trạng thái xuất hiện và biến mất được đặc trưng bởi các giá trị xác suất là P B và P D Xác suất thay đổi trạng thái của biến hiện diện được xác định như sau:

Khi ta xem xét kết hợp biến hiện diện này tại hai thời điểm k và k-1 ta có thể đạt được ba kết quả tương ứng ba trường hợp như sau:

Trường hợp 1:  e k n , , e k  1, n     1,0 , thời điểm k-1 chưa có đối tượng, đến thời điểm k đối tượng mới xuất hiện, một cách lý tưởng tương ứng với tình huống có đối tượng mới đi vào phạm vi quan sát của camera được minh họa như ví dụ Hình 4.2

Hình 4.2: Trường hợp đối tượng mới đi vào phạm vi quan sát

Trường hợp 2:  e k n , ,e k  1, n  1,1 tương ứng với việc cập nhật trạng thái của đối tượng, nghĩa là đối tượng đang hiện diện thời điểm k và đã được theo vết tại thời điểm k-1

Trường hợp 3:  e k n , , e k  1, n     0,1 tương ứng với đối tượng biến mất, trong trường hợp này lý tưởng là đối tượng theo vết đi ra khỏi phạm vi quan sát của camera như ví dụ được minh họa trong Hình 4.3

Hình 4.3: Trường hợp đối tượng đi ra khỏi phạm vi quan sát.

Mô hình động và mô hình quan sát

Trong bài toán theo vết đối tượng thì việc xác định tọa độ của đối tượng là việc tất yếu Chỉ khi xác định được tọa độ của đối tượng ta mới có thể xem là phát hiện được đối tượng để theo vết Và thông qua tập tọa độ của đối tượng qua từng frame theo thời gian ta thu được quỹ đạo chuyển động của đối tượng Việc xác định tọa độ tại thời điểm hiện tại còn là cần thiết để ước lượng tọa độ của đối tượng tại thời điểm frame tiếp theo Và để ước lượng được vị trí đối tượng, giải thuật cần một mô hình động có khả năng dự đoán dựa trên cơ sở các thông số trạng thái đạt được trước đó Trong luận văn này sử dụng mô hình động với phân bố Gauss để ước lượng biến vị trí – kích thước X k của đối tượng kết hợp phân bố Wishart ngược để ước lượng ma trận hiệp phương sai  k thể hiện phạm vi thay đổi xung quanh biến X k

Bên cạnh tọa độ, thì việc xác định kích thước đối tượng cũng là việc thiết yếu giúp ta khoanh vùng đối tượng Dựa vào kích thước của đối tượng, ta xác định được đặc tính về ngoại hình của đối tượng mà cụ thể hơn là đặc trưng về màu sắc

HVTH: Ngô Đình Phong Trang 42 MSHV: 12140035 Điều này cần thiết cho việc tính toán likelihood giữa các mẫu của cùng một đối trong những thời điểm khác nhau

Cho vector vị trí – kích thước của đối tượng là X k n ,  c k n , ,r k n ,  T với

, , , , T k n k n k n c  x y  là tọa độ tâm của đối tượng (tương ứng vị trí của đối tượng) và

, , , , T k n k n k n r  rx ry  là kích thước (độ cao, rộng) của đối tượng Do đó, đối tượng cần theo vết được đặc trưng bởi một khung hình chữ nhật vừa là đại diện cho đối tượng, vừa là khung đánh dấu đối tượng Xác suất biến đổi X k n , của đối tượng thứ n được xác định có thể chia làm ba trường hợp tương ứng với các cặp giá trị của e k n , và e k n ,  1 như sau:

Trường hợp 1:  e k n , ,e k  1, n  1,0 tương ứng với có đối tượng mới xuất hiện, và có thể xuất hiện tại vị trí bất kỳ trong phạm vi quan sát Do đó xác xuất biến đổi của biến X k n , trong trường hợp này được xác định như sau:

Trong đó,  N N x , y  là kích thước của khung ảnh (phạm vi quan sát của camera), và  rm rm x , y ,  x , y  là các tham số cho trước tương ứng với giá trị trung bình và phương sai của kích thước khung hình chữ nhật đặc trưng cho đối tượng

Trường hợp 2:  e k n , ,e k  1, n  1,1 tương ứng với việc cập nhật trạng thái của đối tượng đang hiện diện thời điểm k và đã được theo vết tại thời điểm k-1 Để cập nhật biến vị trí - kích thước của đối tượng, ta sử dụng phân bố Gauss với phương trình xác định như sau:

Với  k là ma trận hiệp phương sai thể hiện phạm vi thay đổi xung quanh biến X k  k được xác định dựa trên thông tin giá trị  k 1 tại thời điểm trước đó qua phân bố Wishart ngược được thể hiện như sau:

Trong đó vector X k có phân bố Gauss với trung bình là X k-1 và ma trận phương sai k Với phân bố Gauss như trong công thức (4.9) ta dựa và thông tin trạng thái của đối tượng tại thời điểm k-1 là X k-1 và phương sai  k để ước lượng tọa độ mới tại thời điểm k là X k Ma trận hiệp phương sai k , với định nghĩa là vùng không chắc chắn xung quanh trạng thái hiện tại X k theo phân bố Wishart ngược với d là bậc tự do của ma trận k 1 Để ước lượng ma trận hiệp phương sai tại thời điểm k là k , ta sử dụng phương trình (4.10) dựa trên ma trận phương sai tại thời điểm k-1 là  k 1 thông qua phân bố Wishart ngược Như trong [37], ma trận hiệp phương sai được mô hình để có khả năng thay đổi ngẫu nhiên một cách tự động thích nghi với thay đổi chuyển động của đối tượng

Trường hợp 3:  e k n , , e k  1, n     0,1 tương ứng với đối tượng biến mất, trong trường hợp này lý tưởng là đối tượng theo vết đi ra khỏi phạm vi quan sát của camera và biến trạng thái của đối tượng được giữ lại tại biến lưu trữ X d

Trong ví dụ Hình 4.4 mô tả các đánh dấu đại diện cho các thông số của biến

X k n được ước lượng Với số hạt có biến hiện diện e k n , 1 sẽ có tương ứng các giá trị ước lượng biến X k n , kèm theo và được biểu hiện bằng các chấm đại diện cho giá trị thông tin vị trí trọng tâm của đối tượng, và các khung hình chữ nhật đại diện cho giá trị thông tin kích thước của đối tượng

Hình 4.4: Biểu diễn giá trị thông tin biến X k n ,

Sau khi ước lượng được thông số trạng thái của đối tượng, ta cần xác định tính chính xác của ước lượng để chọn những mẫu có xác suất đại diện cho đối tượng là tốt nhất Do đó cần một mô hình tham chiếu (từ quan sát) để đánh giá các mẫu ước lượng được tại thời điểm k

4.3.2 Mô hình quan sát Để đánh giá độ chính xác của vùng ứng cử vừa ước lượng được của các đối tượng đang theo vết và vùng tiềm năng xuất hiện đối tượng từ quan sát, chúng ta định nghĩa mô hình likelihood bằng cách tổng hợp hai nguồn thông tin: sự giống nhau dựa trên đặc trưng về màu sắc của đối tượng (màu sắc trang phục ngoại hình) bằng cách sử dụng histogram màu trên vùng so sánh, và thông tin phát hiện người thu được từ giải thuật HOG Mỗi bước này sẽ được mô tả chi tiết ở phần tiếp theo

4.3.2.1 Mô hình đặc trưng dựa trên màu sắc

Với mô hình đặc trưng dựa trên màu sắc, ta chủ yếu tính toán likelihood trong vùng chứa cùng một đối tượng giữa hai thời điểm k-1 và k Cụ thể, vùng

HVTH: Ngô Đình Phong Trang 45 MSHV: 12140035 chứa đối tượng tại thời điểm k-1 được chọn làm mô hình tham chiếu để đánh giá vùng chứa đối tượng ước lượng được tại thời điểm k

Vùng được quan tâm trước tiên được chia thành p4 band bằng nhau cố định theo chiều ngang bất kể vùng tham chiếu và vùng cần đánh giá có kích thước không bằng nhau Việc cố định số band tốt hơn kích thước của chúng cho phép thu được bất biến dù tỷ lệ vùng như thế nào Nguyên nhân chọn số band cố định mà không phải là cố định kích thước là do kích thước đối tượng là thông số ngẫu nhiên, thay đổi liên tục theo thời gian nên sẽ gây ra sự phức tạp trong tính toán

Theo vết hình ảnh qua bộ lọc hạt dựa trên MCMC

Như đề cập ở trên, việc theo vết đối tượng được dựa trên thuật toán lọc hạt dựa trên MCMC trong [35, 36] trong đó có xem xét đến phân bố hậu nghiệm chung S k và S k  1 như là phân bố của đối tượng:

Phương pháp MCMC được sử dụng để thực hiện việc suy ra từ phân phối có điều kiện này Phân phối hậu nghiệm p S  k  1|Z 0: k  1  tại thời điểm k-1 đầu tiên được ước lượng bằng một phân bố thực nghiệm dựa trên tập hạt hiện tại   S k j 1

Với N p là số hạt được sử dụng trong thuật toán, và j là số chỉ mục của hạt

Vì thế, sau khi tính nhiều lần phương trình (4.14), sử dụng sơ đồ MCMC thích hợp, ngõ ra MCMC hội tụ có thể được trích ra để cập nhật các hạt riêng biệt xấp xỉ với p S Z  k 0: k  Theo cách này, suy luận chuỗi có thể thu được biến trạng thái hiện tại

4.4.2 Bộ lọc hạt dựa trên MCMC

Trong bài toán, trạng thái được quan tâm là S k  X e k , k  và phân bố đối tượng là phân bố hậu nghiệm p X  k ,X k  1 ,e ,e k k  1 Z 0: k  Giải thuật theo vết sử dụng lọc hạt dựa trên MCMC bao gồm hai bước chính: bước ước lượng kết hợp thực hiện việc cập nhật đồng thời biến trạng thái của các đối tượng, và bước tinh chỉnh (Reﬁnement) thực hiện việc cập nhật độc lập biến trạng thái của từng đối tượng Ở mỗi vòng lặp MCMC, bước ước lượng kết hợp được đề xuất xử dụng phương

HVTH: Ngô Đình Phong Trang 49 MSHV: 12140035 pháp Metropolis – Hastings (MH) để cập nhật các giá trị  X k ,X k  1,e ,e k k  1  Sau đó X k và e k được cập nhật độc lập bằng cách sử dụng bước chính xác hóa

Metropolis within Gibbs Hai bước này được lặp lại  N b N p  lần, với N p là độ dài khởi động và N p là số hạt dùng trong giải thuật Chi tiết của lần lặp thứ m của thuật toán được đề xuất tại thời điểm k được trình bày chi tiết như sau:

Bước này thực hiện việc ước lượng mẫu  X k  , X  k  1 ,e ,e * k * k  1  từ hàm được đề xuất q X 1  k ,X k  1,e ,e k k  1|Z 0: k  được cho bởi phương trình:

Với q 11  X k | X k  1,e ,e k k  1  và q 12  e k | e k  1  là các hàm biến đổi trạng thái được định nghĩa trong các mục trên, q 13 X k  1,e k  1|Z 0: k  1  là ước lượng hạt của phân bố hậu nghiệm p X ,e k  1 k  1|Z 0: k  1  tại thời điểm trước đó ở bước k-1

Như vậy, giả sử rằng tại thời điểm k-1, ta có N p mẫu X k j 1,e k j 1  N p 1

  j  Sau đó, trong N p mẫu này ta chọn ngẫu nhiên một mẫu  X  k  1 ,e k   1  và dựa vào các hàm biến đổi trạng thái để thực hiện việc tính toán giống như đã trình bày ở mục phân bố tiên quyết của biến hiện diện và mô hình động để thu được mẫu ước lượng mới  X k  ,e k  

Các mẫu ước lượng mới  X k  ,e k   này có xác suất chấp nhận như sau:

Với m là chỉ số vòng lặp, tức vòng lặp thứ m (m1:  N b N p )

Sau khi có được xác suất chấp nhận  1 , vì đây là một xác suất ngẫu nhiên nên ta cần tiến hành việc xem xét nhận hay loại bỏ kết quả này Một cách đơn giản, ta dùng phân bố đều liên tục là một phân phối mà xác suất xảy ra như nhau cho mọi kết cục của biến ngẫu nhiên liên tục Hàm mật độ xác suất của một phân phối đều liên tục có dạng như sau:

Trong đó ta chỉ xét trong khoảng     a b ,  0,1 Ta sử dụng một hàm tạo biến ngẫu nhiên x với xác xuất tuân theo mô hình phân bố đều như trên Nếu trường hợp x 1 thì chấp nhận kết quả ước lượng biến trạng thái trên với xác xuất chấp nhận  1 , ngược lại thì loại bỏ kết quả ước lượng

1 1 chấp nhận kết quả ước lượng không chấp nhận kết quả ước lượng x x

Sau khi ước lượng được các hạt ta thu được biến trạng thái của đối tượng

 X k  ,e  k  với xác suất chấp nhận  1 , nhưng vì biến trạng thái là ngẫu nhiên phân bố theo xác suất nên để tăng độ chính xác của giải thuật, ta tiến hành bước tiếp theo là tinh chỉnh các thông số của các biến trạng thái Việc tinh chỉnh này thực hiện bằng cách thay đổi các thông số trạng thái đã thu được bằng việc ước lượng lại một lần nữa một cách độc lập và lần lượt các thông số biến trạng thái trên từng đối tượng và trên từng hạt Bước ước lượng này khác với bước ước lượng trong ước lượng kết hợp được trình bày ở mục ước lượng kết hợp khi mà nó ước lượng một cách đồng thời tất cả các thông số biến trạng thái và các hạt cùng lúc

Bước ước lượng này được thực hiện độc lập và lần lượt các biến, các mẫu đã chọn sẽ được xem xét lần lược các tham số biến hiện diện e k n , , biến vị trí – kích thước X k n , và ma trận hiệp phương sai  k n ,

- Tinh chỉnh biến hiện diện:

Thông số trạng thái này đại diện cho sự hiện diện của đối tượng, và chỉ khi nó có giá trị thì mới có thông số trạng thái X k n , của đối tượng, do đó ta bắt buộc cần tinh chỉnh thông số này

Biến hiện diện e k n m , được được tinh chỉnh dựa trên hàm q e 2  k n , | e k m  1, n  , có nghĩa là ta lặp lại việc ước lượng theo phương trình sau:

Khi tinh chỉnh lại biến e k n m , thành biến e * k n , , và biến e * k n , có thể có giá trị khác với biến e k n m , dẫn đến thay đổi trạng thái hiện diện của đối tượng, do đó làm ảnh hưởng đến giá trị biến X k n m , Sự thay đổi này sẽ được trình bày chi tiết ngay ở phần sau

Trường hợp 1:  e k m  1, n , e * k n ,     0,0 tức là đối tượng không hiện diện ở cả hai thời điểm k-1 và k Nếu giá trị của biến trước khi tinh chỉnh là e k n m , 0 thì các biến X k n m , và ma trận hiệp phương sai  k n , không có thay đổi Nhưng nếu giá trị của biến trước khi tinh chỉnh là e k n m , 1 mà e k n * , 0, thì biến X k n m , và ma trận hiệp phương sai  m k n , phải được thay bởi bộ thông số biến X k n * , và ma trận hiệp phương sai  * k n , có giá trị bằng 0 Sau đó ta lại tính toán các giá trị likelihood như đã trình bày ở phần mô hình quan sát

KẾT QUẢ

Kết quả

Giải thuật theo vết đối tượng dựa trên MCMC được kiểm nghiệm trên hai bộ cơ sở dữ liệu thông dụng là: bộ dữ liệu CAVIAR [40] và bộ dữ liệu PETS’06

[41] Hai bộ dữ liệu này là những video clip ghi lại những hình ảnh với những tình huống khác nhau nơi công cộng Đó có thể là những người đi bộ một mình, hay gặp gỡ người khác, mua sắm, vào và ra khỏi cửa hàng, cảnh đánh nhau, người bất tỉnh hoặc một đối tượng bỏ lại một gói đồ nơi công cộng… Hai bộ dữ liệu gần như có đầy đủ các tình huống thông dụng thường xảy ra nơi công cộng mà camera giám sát hoạt động Do đó, trong luận văn này bộ dữ liệu CAVIAR và bộ dữ liệu PETS’06 được dùng để thực nghiệm giải thuật theo vết đối tượng nhằm phục vụ cho việc giám sát nơi công cộng thông qua camera

Do mục tiêu ban đầu của giải thuật là tập trung vào việc theo vết đôi tượng với độ chính xác cao, nên ít quan tâm đến việc xử lý thời gian thực trên video Do đó, để đơn giản trong thực nghiệm, các video clip được xử lý tách thành các bức ảnh riêng biệt tương ứng với các frame Và giải thuật sẽ xử lý trên từng bức ảnh một cách tuần tự như các frame theo thời gian

Giải thuật được thực hiện với tổng số hạt N p 1500, độ dài khởi động b 500

N  và số đối tượng theo vết tối đa N max 6

Hình 5.1 trình bày kết quả thực nghiệm với đoạn video trích từ bộ cơ sở dữ liệu CAVIAR Đây là đoạn video ghi lại hình ảnh của một đoạn hành lang của một trung tâm mua sắm ở Bồ Đào Nha

HVTH: Ngô Đình Phong Trang 59 MSHV: 12140035 a) Frame 135 b) Frame 151 c) Frame 157 d) Frame 169 e) Frame 192 f) Frame 202

HVTH: Ngô Đình Phong Trang 60 MSHV: 12140035 g) Frame 210 h) Frame 226

Hình 5.1 Kết quả thực nghiệm với đoạn video trích từ bộ cơ sở dữ liệu

Kết quả hiển thị với các chấm xanh dương và khung hình chữ nhật màu đỏ bao quanh đối tượng vừa là để đại diện cho đối tượng (về vị trí – kích thước) vừa là đánh dấu đối tượng cần theo vết, các chấm xanh dương đại diện cho vị trí tâm của đối tượng, và con số màu xanh lá biểu thị cho số hạt tồn tại của đối tượng

Kết quả cho thấy giải thuật giải quyết tốt tình huống một đối tượng biến mất (đi ra khỏi khung hình) xảy ra ở frame 157 và một đối tượng khác xuất hiện (đi vào khung hình) ở frame 169 Hơn thế nữa, trong tình huống này các đối tượng có sự tương tác dẫn đến bị chồng lấp lên nhau một phần thì giải thuật vẫn cho một kết quả rất khả quan như ở từ frame 192 đến frame 210 Với các đối tượng ở quá xa phía cuối hành lang do độ phân giải không đủ để giải thuật xử lý nên không thể theo vết được Đối với đoạn video trích từ bộ dữ liệu PETS’06, tình huống diễn ra tương đối phức tạp hơn bởi số lượng đối tượng theo vết nhiều hơn, các đối tượng có hình dáng bề ngoài khá giống nhau, tình huống tương tác giữa các đối tượng cũng phức tạp hơn (vùng che lấp khá lớn), ngoài ra khung hình có vùng thiếu sáng hơn so với vùng khác (hành lang sát đoàn tàu)

HVTH: Ngô Đình Phong Trang 61 MSHV: 12140035 a) Frame 1018 b) Frame 1031 c) Frame 1047 d) Frame 1056 e) Frame 1060 f) Frame 1081

Hình 5.2 Kết quả thực nghiệm với đoạn video trích từ bộ cơ sở dữ liệu

Kết quả thực nghiệm cho thấy giải thuật xử lý tốt tình huống xuất hiện các đối tượng mới đi vào khu vực quan sát của camera như ở frame 1031 và frame 1047 Tuy nhiên, khi xảy ra tình huống các đối tượng tương tác với nhau, như ở frame 1060 thì bị lỗi không phân biệt được đó là hai đối tượng riêng biệt, do phần che lấp lớn, và đặc biệt là đặc điểm nhận dạng vẻ bề ngoài của hai đối tượng cũng khá giống nhau (tương đồng về màu sắc) Ngoài ra, với vùng ảnh bị thiếu sáng so với vùng khác và có vật che khuất (hành lang sát đoàn tàu) thì giải thuật không thể theo vết đối tượng được, nguyên nhân một phần do màu nền tối, có vật che lấp, cộng thêm đặc điểm bề ngoài của đối tượng (đặc trưng màu sắc) cũng khá gần với màu nền Ngoài các trường hợp đặc biệt kể trên, giải thuật xử lý tốt việc theo vết đối tượng.

Kết luận và phương hướng phát triển

Luận văn trình bày các bước xây dựng giải thuật theo vết nhiều đối tượng trong vùng quan sát của một camera cố định dựa trên cơ sở lọc hạt (particle filtering) theo mô hình MCMC Trong đó luận văn trình bày từng nội dung từ chương 1 giới thiệu đề tài, bài toán cần giải quyết cũng như những khó khăn thách thức phải đối mặt Chương 2 cho ta một cái nhìn tổng quát về các công trình nghiên cứu trong và ngoài nước có liên quan đến giải thuật theo vết đối tượng

Chương 3 nêu những lý thuyết tổng quan về các khái niệm quan trọng như phân bố Wishart ngược, cũng như những phương pháp mà thuật toán áp dụng như phương pháp Monte Carlo Chương 4 trình bày các bước xây dựng giải thuật với việc kết hợp hai nguồn thông tin về đặc điểm màu sắc của đối tượng theo vết và ma trận tin cậy phát hiện người từ giải thuật HOG nhằm tăng hiệu quả Sau đó giải thuật được xây dựng trên nguyên lý lọc hạt với việc ước lượng theo chuỗi Markov Monte Carlo Chương 5 trình bày kết quả thực nghiệm trên hai bộ cơ cở dữ liệu thông dụng là bộ dữ liệu CAVIAR và bộ dữ liệu PETS’06 với những tình

HVTH: Ngô Đình Phong Trang 63 MSHV: 12140035 huống phức tạp thường diễn ra nơi công cộng Kết quả thực nghiệm cho thấy tính hiệu quả và độ chính xác của giải thuật theo vết nhiều đối tượng

Một số triển vọng có thể xem xét để phát triển sau đề tài này:

- Hiện tại thuật toán giải quyết bài toán theo vết đối tượng theo hướng xử lý offline nên chưa đáp ứng nhu cầu giám sát thực tế Do đó, giải thuật có thể cải tiến để thời gian xử lý nhanh đáp ứng với xử lý thời gian thực

- Thuật toán chỉ theo vết nhiều đối tượng mà chưa đáp ứng được một số chức năng giám sát tự động cao cấp như nhận biết những hành vi bất thường của đối tượng (ví dụ như: đánh nhau, bất tỉnh, bỏ lại gói đồ khả nghi…) nhằm đưa ra những cảnh báo kịp thời Điều này cần những nghiên cứu chuyên sâu hơn về đặc điểm hành vi của con người

- Bài toán theo vết có thể kết hợp với bài toán tái nhận dạng để có thể theo vết không chỉ trong một camera cố định mà còn có thể theo vết đối tượng qua một hệ thống camera giám sát trong phạm vi rộng hơn Và đây là nhu cầu thực tế nhất của một hệ thống camera giám sát.

Những đóng góp của luận văn

- Luận văn có sự tổng hợp và tóm tắt những kiến thức liên quan đến hệ thống theo vết đối tượng, những khó khăn thách thức còn tồn tại

- Trong luận văn có trình bày cách thức phân loại các giải thuật theo một vài nghiên cứu trước đó, giúp đưa ra một một cách nhìn tổng quan để tiếp cận với bài toán

- Luận văn có trình bày một số khái niệm cũng như thuật toán có liên quan đến giải thuật theo vết đối tượng

- Luận văn xây dựng được một giải thuật nhằm giải quyết hiệu quả bài toán theo vết đối tượng

Tiêu đề	Theo Vết Đối Tượng Trong Camera Giám Sát
Tác giả	Ngô Đình Phong
Người hướng dẫn	TS. Trương Công Dung Nghi, TS. Chế Viết Nhật Anh
Trường học	Đại học Quốc gia TP.HCM
Chuyên ngành	Kỹ Thuật Điện Tử
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2016
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	82
Dung lượng	2,19 MB