Luận văn thạc sĩ Khoa học máy tính: Theo vết đối tượng trọng yếu trong đoạn video

Để phát hiện đối tượng chuyển động, hầu hết các phương pháp trước đây đều phân tách vùng đối tượng được pháp hiện khỏi mô hình nền đã định nghĩa trước đó.. đặc trưng thường là đường bao

GIỚI THIỆU

Giới thiệu đề tài

Các hệ thống giám sát dùng camera ngày càng được sử dụng rộng rãi trong nhiều lĩnh vực Hệ thống giám sát dùng camera theo cách truyền thống, con người theo dõi trực tiếp các hoạt động thông qua các camera quan sát, hoặc gián tiếp qua các video được lưu lại từ camera Do đó, hệ thống giám sát truyền thống tồn tại nhiều hạn chế như:

- Tốn nhiều nhân lực khi số lượng camera quan sát tăng lên và đặc biệt là nhu cầu giám sát 24/7

- Khi quan sát trong suốt thời gian dài, con người có thể mất tập trung và khó có thể bao quát hết các khung hình

- Không kịp thời phát hiện và ngăn chặn các tình huống phá hoại hay các sự cố nghiêm trọng

Vì vậy, hệ thống giám sát thông minh là nhu cầu thiết thực trong giai đoạn hiện nay, đang được quan tâm phát triển và hoàn thiện Hệ thống giám sát thông minh là hệ thống có tích hợp các giải thuật xử lý và phân tích hình ảnh nên cung cấp một giải pháp an ninh hơn với chi phí thấp hơn, và ngày càng trở nên phổ biến với nhiều ứng dụng từ giám sát giao thông đến nhận dạng hành vi con người

Hệ thống giám sát thông minh bao gồm bốn khối chức năng: Phát hiện đối tượng (Object detection), phân lớp đối tượng (Object classification), theo vết đối tượng (Object tracking) và nhận dạng hành vi (Action recognition) Các khối chức năng có quan hệ mật thiết và ảnh hưởng lẫn nhau, quyết định tính chính xác và hiệu quả của hệ thống Trong đó, phát hiện đối tượng là bước đầu tiên cần thực hiện Chức năng của khối phát hiện đối tượng là tách đối tượng chuyển động ra khỏi khung cảnh nền Đối tượng sau khi được phân tách, sẽ là dữ liệu cho bước tiếp theo

- Phân lớp đối tượng Khối phân lớp sẽ phân loại đối tượng thành những lớp đối tượng đã được định nghĩa trước như người, nhóm người, xe,… Bước phân lớp giúp ta phân tách ra đối tượng cần quan tâm để theo vết ở bước tiếp theo -Theo vết đối tượng Đặng Thị Thu Hoa 3

Theo vết đối tượng là bài toán xác định vị trí của đối tượng và những thông tin liên quan tại từng thời điểm khi đối tượng chuyển động trong đoạn video giám sát Nếu phát hiện đối tượng là bước cơ bản nhất thì theo vết đối tượng là bước quan trọng nhất trong hệ thống giám sát Nếu theo vết đối tượng thiếu chính xác, sẽ lạc mất những đối tượng cần theo dõi, gây hậu quả nghiêm trọng, đặc biệt là những ứng dụng trong an ninh hoặc phòng vệ quốc gia Nếu theo vết đối tượng không chính xác, bước dự đoán và nhận dạng hành vi cũng không còn ý nghĩa Do đó, theo vết đối tượng là khối chức năng luận văn sẽ tập trung phân tích và nghiên cứu

Bài toán theo vết đối tượng là bài toán phức tạp vì trong thế giới thực hình dáng và chuyển động của đối tượng rất đa dạng Khi đối tượng di chuyển ra xa camera hay đổi hướng, kích thước và hình dạng của đối tượng bị thay đổi Hơn nữa, Khi đối tượng có màu sắc giống cảnh nền hay đối tượng chuyển động với tốc độ nhanh, việc phát hiện và theo vết đối tượng rất khó thực hiện Ngoài ra, ở môi trường ngoài trời, những ảnh hưởng của điều kiện khách quan như thời tiết (mưa, gió, tuyết), sự thay đổi của độ chiếu sáng, góc chiếu sáng khiến hình ảnh thu được bị mờ, nhiễu Đặc biệt, trong quá di chuyển, đối tượng có thể bị che khuất hoặc chồng lấp (khi đi qua xe ô tô, biển quảng cáo hoặc khi đi qua một đối tượng khác) khiến đối tượng biến mất khỏi khung hình Vì những khó khăn trên, bài toán theo vết đối tượng đang dành được nhiều sự quan tâm, nghiên cứu Đặc biệt, vấn đề che khuất và chồng lấp giữa các đối tượng vẫn là thách thức lớn và chưa có giải thuật hiệu qủa

Sau khi theo vết thành công, xác định được vị trí chuyển động của đối tượng, việc nhận dạng hành vi là công đoạn cuối cùng trong quá trình xử lý của hệ thống giám sát thông minh Khối chức năng này sẽ làm nhiệm vụ phân tích chuỗi các hành động của đối tượng để đưa ra kết luận về hành vi của đối tượng Nếu hành vi đó là bất thường, hệ thống sẽ đưa ra báo động kịp thời Trong một số hệ thống giám sát an ninh cấp cao, khối nhận dạng hành vi còn có chức năng liên kết các hành động để đưa ra sự dự báo về hành vi, kịp thời ngăn chặn hành vi phá hoại

Khi theo vết đối tượng chính xác thì việc nhận dạng hành vi mới có hiệu quả và hệ thống giám sát thông minh mới thực hiện đúng vai trò, chức năng của nó Với sự phát triển mạnh mẽ của kỹ thuật công nghệ, đòi hỏi hệ thống giám sát phải Đặng Thị Thu Hoa 4 không ngừng cải tiến Đồng nghĩa với việc các khối chức năng của hệ thống, đặc biệt là chức năng theo vết đối tượng cần chính xác và hiệu quả hơn để nâng cao tính tự động hóa của hệ thống.

Mục tiêu và nội dung đề tài

Theo vết đối tượng là chức năng quan trọng của hệ thống giám sát thông minh, và kết quả của việc theo vết đối tượng ảnh hưởng rất lớn đến giai đoạn phân tích và nhận dạng hành vi Ngoài ra, theo vết đối tượng còn được ứng dụng trong nhiều lĩnh vực của thị giác máy tính như : giám sát an ninh, robotic, thể thao, điều phối giao thông, hệ thống hỗ trợ lái xe tự động,…

Quá trình theo vết đối tượng bao gồm hai giai đoạn Phát hiện đối tượng và Theo vết đối tượng Các phương pháp phổ biến để phát hiện đối tượng như background subtraction, statistical model, temporal differencing và optical flow [1] Trong đó, giải thuật dựa trên background subtraction là phương pháp được sử dụng phổ biến nhất để phát hiện đối tượng Nguyên lý cơ bản của background subtraction là so sánh sự khác biệt giữa mỗi frame ảnh với ảnh nền đã định nghĩa trước đó, xác định các vùng khác biệt và xem xét như vùng đối tượng chuyển động Các giải thuật tiêu biểu như: Median filter, Mean filter, Temporal Median filter, Eigen backgrounds, và Kalman filter [2] Nhược điểm của các phương pháp này là khi cảnh nền có nhiều đối tượng thì việc xây dựng mô hình nền rất khó khăn

Các phương pháp theo vết đối tượng được chia thành 4 nhóm chính : theo vết dựa trên mô hình (model-based tracking), dựa trên vùng (region-based tracking), dựa trên đường viền (contour-based tracking) và dựa trên đặc trưng (feature-based tracking) [3] Các giải thuật phổ biến như Kalman filter, Kanade-Lucas-Tomasi (KLT), Mean-Shift và Particle filter Tuy nhiên, hầu hết các phương pháp này đều phức tạp khi đối tượng bị chồng lấp Đối tượng trọng yếu là đối tượng nổi bật cần quan tâm theo dõi, chuyển động trong khung hình Đối tượng trọng yếu có thể là người, vật, phương tiện Vị trí có thể là trong nhà, ngoài trời, trên đường phố, tại giao lộ,

Mục tiêu của đề tài là theo dõi dấu vết của đối tượng trọng yếu chuyển động trong môi trường ngoài trời Luận văn đưa ra phương pháp theo vết đối tượng sử Đặng Thị Thu Hoa 5 dụng Bandelet Transform kết hợp với Boundary Energy Hình dạng của đối tượng có thể thay đổi qua các frame Đối tượng sẽ được xác định tại frame đầu tiên Luận văn sử dụng các giá trị thống kê của Bandelet như các đặc trưng nhằm tăng tính chính xác của quá trình theo vết Nội dung chính của luận văn bao gồm :

- Tìm hiểu các kiến thức có liên quan đến hệ thống giám sát thông minh nói chung và hệ thống theo vết đối tượng nói riêng

- Tìm hiểu, tổng hợp các giải thuật phát hiện đối tượng, theo vết chuyển động Phân tích các công trình nghiên cứu trong và ngoài nước nhằm đánh giá ưu, nhược điểm của từng giải thuật sử dụng

- Xây dựng giải thuật theo vết đối tượng ngoài trời sử dụng biến đổi bandalet kết hợp với năng lượng biên của đối tượng để giải quyết bài toán

- Hiện thực chương trình theo giải thuật đề xuất Đánh giá kết quả đạt được, rút ra ưu và nhược điểm của giải thuật.

Giới hạn đề tài

Như đã phân tích trong phần giới thiệu, có nhiều thách thức trong bài toán theo vết đối tượng khiến cho bài toán trở nên rất phức tạp Vì vậy, mỗi giải thuật đề xuất đều kèm theo những giả thiết quy định những điều kiện ràng buộc nhất định Phát hiện kết hợp nhiều loại đối tượng là một bài toán rất rộng và phức tạp Trong phạm vi có hạn về thời gian của luận văn tốt nghiệp và để thuận lợi cho việc đánh giá kết quả thử nghiệm, trong giai đoạn làm luận văn xin làm rõ một số giới hạn như sau:

- Theo vết đơn đối tượng

- Đối tượng chuyển động tuyến tính (không dừng lại và đổi hướng đột ngột)

- Đối tượng xuất hiện liên tục trong khung hình (khi đối tượng ra khỏi khung hình và quay trở lại sẽ được ghi nhận là một đối tượng mới)

- Các đối tượng được phát hiện trong khung cảnh ngoài trời, trên đường phố

- Đối tượng là người đi bộ hoặc xe hơi

- Dữ liệu video từ một camera Đặng Thị Thu Hoa 6

Phương pháp nghiên cứu

Luận văn sẽ đi từ việc tìm hiểu các cơ sở lý thuyết, tham khảo các công trình nghiên cứu trước đây liên quan đến bài toán theo vết thị giác

- Tổng hợp các giải thuật, phân tích các giải thuật theo từng giai đoạn

- Phân loại giải thuật dựa trên cách lựa chọn đặc trưng, biểu diễn đối tượng và giải thuật theo vết sử dụng

- Đánh giá ưu điểm của từng thuật toán cũng như những hạn chế còn tồn tại

Từ đó đưa ra phương pháp hiệu quả để theo vết đối tượng thành công trong môi trường ngoài trời với những ràng buộc đã nêu trên

Hiện thực giải thuật, so sánh kết quả đạt được với kết quả của các nghiên cứu trước đó để rút ra ưu và nhược điểm của giải thuật.

Cấu trúc luận văn

Luận văn được trình bày theo cấu trúc sau:

- Chương 1: Giới thiệu về bài toán theo vết đối tượng, mục tiêu và nội dung đề tài, giới hạn của đề tài

- Chương 2: Trình bày kiến thức nền tảng về hệ thống giám sát thông minh và các khối chức năng, các phương pháp theo vết đối tượng Phân tích các công trình nghiên cứu liên quan, đánh giá ưu- nhược điểm của từng hướng tiếp cận

- Chương 3: Trình bày tổng quan về quy trình của hệ thống theo vết đối tượng, hướng tiếp cận để giải quyết bài toán, các bước thực hiện giải thuật

- Chương 4: Trình bày quy trình thực nghiệm và kết quả kiểm chứng, đánh giá và so sánh kết quả

- Chương 5: Kết Luận: kết quả đạt được, ưu-nhược điểm, đóng góp của luận văn và hướng phát triển đề tài

Cuối cùng là phần liệt kê các tài liệu tham khảo trong quá trình nghiên cứu và hiện thực luận văn Đặng Thị Thu Hoa 7

CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

Tổng quan về hệ thống giám sát

Hệ thống giám sát thị giác (Visual surveillance strategies)[4] được sử dụng để thu thập thông tin, giám sát người, phương tiện, sự kiện và các hoạt động

Hệ thống giám sát thông minh không chỉ có tác dụng là thu thập và lưu trữ hình ảnh quay được mà tác dụng chính của nó là thực hiện các nhiệm vụ giám sát một cách hoàn toàn tự động Hệ thống giám sát tự động có thể được triển khai offline sử dụng các video được lưu trữ Ngoài ra, hệ thống giám sát online đang ngày càng phát triển và rất hữu dụng vì khả năng dự báo, phát hiện kịp thời, tránh xảy ra các sự cố và tình huống không mong muốn Các hệ thống này được ứng dụng rộng rãi trong nhiều lĩnh vực như phân tích lưu lượng và điều tiết giao thông, phân tích tổng hợp hình ảnh trong thi đấu thể thao, giám sát an ninh cho khu dân cư, quan sát con người và phương tiện tại các nơi công cộng Hệ thống giám sát tự động phát huy vai trò đặc biệt quan trọng trong các lĩnh vực như an ninh quân sự, tuần tra biên giới, phát hiện cháy rừng

Hệ thống giám sát thực hiện các công việc gồm phát hiện đối tượng chuyển động, phân lớp các đối tượng đã được phát hiện, theo vết các đối tượng đó thông qua chuỗi các ảnh và phân tích hành vi Một hệ thống giám sát gồm các khối chức năng:

- Mô hình nền (Surrounding of model)

- Biểu diễn và phân lớp đối tượng (Object representation and classification)

- Theo vết đối tượng (Object tracking)

- Nhận dạng hành động (Action recognition)

- Hiểu hành vi (behavior understanding) Đặng Thị Thu Hoa 8

Hình 2.1 Tổng quan về hệ thống giám sát [4]

Mô hình nền còn được gọi là background modelling bao gồm phát hiện đối tượng và phân tách đối tượng Khối này nhận dữ liệu đầu vào là đoạn video từ camera, chuyển dữ liệu từ video thành các chuỗi ảnh và tách các đối tượng chuyển động ra khỏi khung cảnh nền Đối tượng được tách gọi là foreground và khung cảnh còn lại gọi là background Các phương pháp thường được sử dụng là background subtraction, temporal differencing, optical flow

Background subtraction [5] là phương pháp được sử dụng phổ biến vì đơn giản và hiệu quả

Biểu diễn và phân lớp đối tượng

K Camera 2 Camera n Đặng Thị Thu Hoa 9 Đầu tiên, phải khởi tạo cảnh nền, đối tượng được tách khỏi cảnh nền bằng cách lấy frame ảnh tại thời điểm đó trừ cho cảnh nền Thực hiện trên từng pixel của frame ảnh Pixel thuộc đối tượng sẽ có hiệu số lớn hơn một ngưỡng T Một pixel tại vị trí (x,y) của frame ảnh tại thời điểm t được đánh dấu là foreground pixel nếu thỏa mãn

Giá trị ngưỡng T có thể được định nghĩa trước hoặc được cập nhật với mỗi frame Cảnh nền có thể được cập nhật bằng cách sử dụng công thức sau

Với α là hệ số thích ứng (adaptation coefficient)

Liên kết các foreground pixel sẽ có được các vùng đối tượng (object region) Qua các bước tiền xử lý để loại nhiễu, bóng, ta sẽ xác định được các vùng đối tượng chính xác hơn

(a) cảnh nền tại thời điểm t, (b) frame ảnh tại thời điểm t, (c) ảnh đối tượng sau khi tách khỏi cảnh nền, (d) kết quả vùng đối tượng sau phương pháp trừ nền

Hình 2.2 Minh họa quá trình trừ nền [6] Đặng Thị Thu Hoa 10

Một số phương pháp background subtraction là temporal media filter, mixture of Gaussians, kernel density estimation, eigenbackgrounds,

Background subtraction được sử dụng phổ biến vì có khả năng rút trích vùng đối tượng tương đối chính xác, kể cả khi đối tượng dừng di chuyển Nhưng lại không hiệu quả khi có sự thay đổi của ảnh nền khi đối tượng tĩnh ra khỏi cảnh nền (ví dụ chiếc xe đang dừng di chuyển ra khỏi bãi đậu xe) hay có sự thay đổi đột ngột về độ chiếu sáng [7] Một phương pháp khác thường sử dụng là Temporal differencing

Temporal differencing phát hiện đối tượng bằng cách so sánh từng pixel của frame ảnh với pixel tại vị trí tương ứng của frame ảnh trước nó

Phương pháp này hiệu quả với sự thay đổi của cảnh nền, nhưng đối tượng thu được thường không đầy đủ và không phát hiện được trong trường hợp đối tượng dừng di chuyển

Hình 2.3 Kết quả phương pháp temporal difference [7]

Vùng đối tượng được phát hiện hiện đánh dấu bằng các pixel màu đỏ Đối tượng bên trái được phát hiện chưa đầy đủ

Nhược điểm này có thể được cải thiện bằng cách so sánh frame hiện hành với frame trước nó 2 hoặc 3 frame Hoặc có thể kết hợp temporal difference với background subtraction để khắc phục hạn chế của 2 phương pháp trên Đặng Thị Thu Hoa 11

Background subtraction không hiệu quả khi vùng quan sát có nhiều đối tượng chuyển động gây khó khăn cho việc khởi tạo cảnh nền Optical flow là giải pháp cho vấn đề này

Optical flow là cách tiếp cận hướng vector, ước lượng chuyển động bằng cách so sánh các điểm tương ứng của đối tượng thông qua nhiều frame [8], sử dụng để tính toán sự di chuyển của pixel trong chuỗi frame ảnh Cụ thể hơn là xác định một pixel trong ảnh tại thời điểm t sẽ ở vị trí nào trong ảnh tại thời điểm t+1 Từ đó có thể rút trích các thông tin về hướng và vận tốc đi chuyển của từng đối tượng

Hạn chế của phương pháp này là độ phức tạp tính toán cao, dễ nhiễu và yêu cầu các thiết bị phần cứng chuyên dụng cho những ứng dụng thời gian thực [9] Các kỹ thuật phổ biến để tính Optical flow là phương pháp của Horn-Schunck, Lucas- Kanade

2.1.2 Biểu diễn và phân lớp đối tượng

Sau khi đã phát hiện các vùng chuyển động và tách khỏi cảnh nền, bước tiếp theo là cần phân loại các đối tượng đó Các vùng chuyển động được phát hiện và tách khỏi cảnh nền tương ứng với những loại đối tượng khác nhau trong thế giới thực Ví dụ, một đoạn video giám sát từ camera đặt ở giao lộ thì các đối tượng chuyển động có thể là người, phương tiện, nhóm người,cả đám động (gồm người, phương tiện,vật nuôi,…) Việc phân loại đối tượng giúp cho bước theo vết và nhận dạng hành vi được thực hiện dễ dàng và chính xác hơn Vì giữa các đối tượng sẽ có những đặc trưng khác nhau, việc sớm nhận biết loại đối tượng sẽ giúp áp dụng các phương pháp theo vết và nhận dạng hành vi sao cho phù hợp và hiệu quả

Quá trình gồm 2 giai đoạn: rút trích đặc trưng (feature extraction) và phân lớp dựa trên các đặc trưng đã rút trích

Có hai hướng tiếp cận chính để phân lớp đối tượng là dựa trên hình dạng (shape - based), dựa trên chuyển động (motion – based)

 Phân lớp dựa trên hình dạng (shape-based)

Phân lớp dựa trên hình dạng sẽ rút trích các đặc trưng liên quan đến đặc điểm hình học của đối tượng và phân lớp đối tượng dựa trên các đặc trưng này Các Đặng Thị Thu Hoa 12 đặc trưng thường là đường bao (bounding rectangle), màu sắc (color), tâm (center), vận tốc (velocity), góc (corner) [3]

Tư tưởng chung của phương pháp dựa trên hình dạng là so sánh thuộc tính của vùng chuyển động với thuộc tính của từng đối tượng trong tập mẫu Tập mẫu là tập chứa các đối tượng chuẩn đã được phân lớp Khi thấy sự xấp xỉ gần giống giữa các thuộc tính, ta sẽ biết vùng chuyển động đó gần giống nhất với đối tượng nào trong tập mẫu Từ đó xác định được đối tượng thuộc lớp nào

Hướng tiếp cận của theo vết đối tượng

2.2.1 Lựa chọn đặc trưng và biểu diễn đối tượng

Lựa chọn chính xác các đặc trưng đóng vai trò quan trọng trong theo vết đối tượng Việc chọn đặc trưng nào sẽ liên quan chặt chẽ đến phương pháp biểu diễn đối tượng Ví dụ màu sắc được sử dụng như đặc trưng cho cách biểu diễn dựa trên histogram, cách biểu diễn dựa trên đường viền (contour-based) sử dụng đặc trưng cạnh của đối tượng

Các đặc trưng thường sử dụng trong theo vết đối tượng như:

- Màu sắc (Color): các frame ảnh trong video được định dạng dựa trên các không gian màu sắc khác nhau như mức xám (gray scale), RGB (Red, Green, Blue), HSV(Hue, Saturation, Value) Dữ liệu được lưu trữ tại mỗi Đặng Thị Thu Hoa 17 frame là độ sáng của dải quang phổ (spectral band) Trong xử lý ảnh, không gian màu RGB thường được sử dụng để biểu diễn màu sắc

- Cạnh (Edges): cạnh là một bộ liên thông các pixel nằm trên đường phân tách hai vùng ảnh Đường biên của đối tượng là nơi có sự thay đổi trong cường độ ảnh hay là nơi cường độ ảnh là không liên tục Sự thay đổi này được xác định bằng các phương pháp phát hiện cạnh Thuộc tính quan trọng của cạnh là ít bị ảnh hưởng với sự thay đổi cường độ sáng so với đặc trưng màu sắc Hầu hết các giải thuật sẽ sử dụng cạnh như đặc trưng chính trong theo vết đối tượng

- Optical Flow: là trường vector thể hiện sự thay đổi của các pixel trong vùng, sử dụng các ràng buộc về độ sáng để tính toán Optical flow là đặc trưng được sử dụng phổ biến trong phân tách đối tượng dựa trên chuyển động

- Kết cấu (Texture): texture là thước đo sự thay đổi cường độ bề mặt với các thuộc tính định lượng như độ phẳng (smoothness), độ đồng đều (regularity) Giống đặc trưng cạnh, texture ít ảnh hưởng với sự thay đổi cường độ chiếu sáng hơn so với đặc trưng màu sắc

Một số cách biểu diễn đối tượng theo Alper Yimaz [16 ] là:

Hình 2.4 Các cách biểu diễn đối tượng [16] Đặng Thị Thu Hoa 18

- Điểm (Points): đối tượng được biểu diễn bởi một điểm (tâm đối tượng -a), hoặc tập các điểm (b)

- Hình dạng hình học (Geometric Shapes): hình dạng đối tượng được đại diện bởi hình chữ nhật (c) hoặc elip (d)

- Silhouette : hình dạng đối tượng là hình chiếu hay bóng của đối tượng (h)

- Ngoài ra còn có cách biểu diễn dựa trên Part-based shape (e), contour (g), skeleton (f)

2.2.2 Các giải thuật theo vết đối tượng

Theo vết có thể định nghĩa là bài toán xấp xỉ đường đi của một đối tượng trong mặt phẳng ảnh khi nó di chuyển trong khung cảnh [13] Cụ thể, mục tiêu của theo vết là hình thành lộ trình của đối tượng theo thời gian bằng cách tìm vị trí của nó tại mỗi frame trong chuỗi frame ảnh Có nhiều cách tiếp cận khác nhau trong theo vết đối tượng, có thể phân loại dựa trên: Cách biểu diễn đối tượng, đặc trưng được sử dụng, mô hình chuyển động, khuôn thức (appearance), hình dạng đối tượng [14]

Hình 2.5 Sơ đồ tổng quan quá trình theo vết đối tượng [15]

Phân lớp đối tượng Khởi tạo

Cập nhật Đặng Thị Thu Hoa 19

Alper Yilmaz [16] Phân loại theo vết đối tượng thành ba phương pháp:

 Point tracking Đối tượng được biểu diễn bằng tập các điểm và các điểm này được liên kết dựa trên các ràng buộc về chuyển động, vị trí của đối tượng Hạn chế của phương pháp là cần có một cơ chế bên ngoài để phát hiện đối tượng tại mỗi frame

Giải thuật tiêu biểu là Kalman Filter, Particle Filter, Multi Hypothesis Tracking

Kernel được hiểu là hình dạng hay khuôn dạng của đối tượng Mô hình của đối tượng thường được biểu diễn dưới dạng hình học (hình chữ nhật, elip) Theo vết được thực hiện bằng cách tính toán chuyển động của kernel qua các frame liên tiếp Các chuyển dộng này được tính toán dựa trên độ dịch chuyển, góc quay, affine Giải thuật tiêu biểu của kernel tracking là Mean-shift , Simple Template Matching, Support Vector Machine (SVM)

Với các đối tượng có hình dạng phức tạp thì biểu diễn bằng hình học không chính xác Phương pháp dựa trên silhouette sẽ cung cấp cách mô tả hình học chính xác hơn cho các đối tượng này Theo vết dựa trên silhouette là tìm kiếm vùng đối tượng tại mỗi frame dựa trên mô hình đối tượng được xây dựng từ frame trước đó bằng so khớp hình dạng (shape matching) hoặc mở rộng đường viền (contour evolutions) Mô hình có thể là lược đồ màu sắc (color histogram), cạnh hoặc đường viền của đối tượng

Tiêu biểu là Contour Tracking, Shape Matching Đặng Thị Thu Hoa 20

Hình 2.6 Các phương pháp theo vết đối tượng [16]

Theo vết đối tượng và những thách thức

Theo vết đối tượng thông thường là đề cập đến quá trình theo vết một đối tượng, tức dự đoán vị trí của nó trong trong chuỗi các frame Hầu hết các phương pháp theo vết đơn đối tượng phải kèm theo 2 giả định chính:

- Vị trí ban đầu của đối tượng phải được biết trước Ví dụ được đánh dấu bởi người dùng tại frame đầu tiên

- Có duy nhất một đối tượng được theo vết trong suốt đoạn video

Ngược lại, trong theo vết đa đối tượng, số đối tượng là không biết trước Hơn nữa, số lượng sẽ thay đổi theo thời gian khi đối tượng có xu hướng xuất hiện trong vùng quan sát (góc quay của camera) và biến mất tại một thời điểm sau đó Ngoài ra, hệ thống theo vết thường đòi hỏi khả năng theo vết tự động mà không cần bước khởi tạo thủ công ban đầu Có thể định nghĩa theo vết đa đối tượng tương đương với việc xây dựng lại quỹ đạo của mỗi đối tượng đơn di chuyển trong đoạn video Ngoài những vấn đề được đề cập đến ở phần mở đầu Cụ thể hơn, một giải thuật theo vết đối tượng sẽ gặp phải bốn thách thức lớn: Đặng Thị Thu Hoa 21

 Mô hình đối tượng (Object Modeling)

Một trong những vấn đề cơ bản nhất của theo vết đa đối tượng là mô hình đối tượng Tức là làm thế nào để định nghĩa một đối tượng là gì cho máy tính có thể hiểu được Ví dụ: nếu muốn theo vết một con mèo, ta cần cung cấp cho hệ thống một mô tả về hình ảnh con mèo Những mô tả này phải đủ tổng quát để nhận biết các giống mèo khác nhau, nhưng cũng đủ đặc trưng để chương trình có thể phân biệt được với các đối tượng khác Mô tả về đối tượng cũng cần đủ mạnh để không bị nhầm với đối tượng gần giống ( ví dụ: một con chó nhỏ với một con mèo), nhưng vẫn cho phép nhiều kích cỡ, hình dạng và màu sắc khác nhau của đối tượng

Mô hình đối tượng là bài toán tìm kiếm một mô tả thích hợp cho đối tượng Những phương pháp mô hình đối tượng thường sử dụng các đặc trưng quen thuộc với thị giác của con người để mô tả đối tượng như đặc trưng màu sắc, chuyển động, kết cấu, hình dạng và đặc trưng nền

 Liên kết dữ liệu (Data Association problem)

Bài toán liên kết dữ liệu là thách thức với theo vết đa đối tượng vì tính đa dạng của các đối tượng thuộc cùng lớp Theo vết nhiều đối tượng thuộc cùng một lớp đòi hỏi giải thuật theo vết phải nhận biết các đối tượng khác nhau để gán nhãn chính xác cho đối tượng Làm thế nào để xác định một đối tượng trong frame tại thời điểm t là đối tượng nào ở thời điểm t-1 để có thể gán nhãn thích hợp cho nó, hoặc là một đối tượng mới thì phải gán nhãn mới cho đối tượng Vấn đề này được gọi là bài toán liên kết dữ liệu Điều này có thể là một nhiệm vụ đặc biệt khó khăn khi đối tượng là tương tự xuất hiện Đòi hỏi các mô hình đối tượng phải có khả năng phân biệt giữa các đối tượng cùng lớp

Bằng việc mô hình đối tượng với các đặc trưng, liên kết dữ liệu là việc xác định đặc trưng của các đối tượng rút trích được tại thời điểm t, gần giống nhất với đặc trưng của đối tượng nào tại thời điểm t-1 trước đó Đối với theo vết trên nhiều camera, với vị trí và góc quay khác nhau, hình dạng thu được về đối tượng cũng khác nhau, làm sao để liên kết dữ liệu thu được từ các camera cũng cần những giải thuật chuyên biệt Đặng Thị Thu Hoa 22

 Ước lượng quỹ đạo (Trajectory Estimation)

Trajectory estimation là bài toán thiết lập lại một cách trọn vẹn lộ trình của mỗi đối tượng Trong thực nghiệm, công việc của giải thuật còn bao gồm việc lấp khoảng trống (gaps) trên lộ trình của đối tượng (khi tại frame này đối tượng không được phát hiện) và việc điều chỉnh lại quỹ đạo di chuyển (do việc định vị trí của đối tượng không chính xác)

Một vấn đề khác của theo vết đa đối tượng là bài toán che khuất Che khuất xuất hiện khi một đối tượng gần camera che một đối tượng khác xa camera hơn (đối tượng che khuất lẫn nhau) Hoặc đối tượng chuyển động bị che khuất bởi 1 vật khác có trong khung cảnh Có thể chia che khuất thành 2 hình thức: che khuất một phần (partially occlusion) hoặc che khuất toàn phần (fully occlusion) Để giải quyết bài toán che khuất, giải thuật theo vết phải có khả năng xác định được khi đối tượng bị che khuất và vẫn gán nhãn đúng cho đối tượng, và tái gán nhãn cho đối tượng sau khi đối tượng không còn bị che khuất (trong trường hợp che khuất toàn phần)

Hình 2.7 đối tượng che khuất lẫn nhau hoặc che khuất bởi cảnh nền [15] Đặng Thị Thu Hoa 23

Các công trình nghiên cứu liên quan

2.4.1 Theo vết đối tượng theo hướng tiếp cận hồi quy Bayesian

Phương pháp ước lượng hồi quy Bayesian (Recursive Bayesian Estimation) hay còn gọi là bộ lọc Bayesian (Bayesian Filter) mô hình hóa bài toán theo vết đối tượng bằng một đồ thị có hướng Trong đó, các đỉnh biểu diễn cho các biến ngẫu nhiên và các cạnh biểu diễn quan hệ phụ thuộc có điều kiện giữa các biến Đồ thị như vậy gọi là mạng Bayesian động (Dynamic Bayesian Network -DBN)

Theo [15], hai loại biến ngẫu nhiên được sử dụng trong cấu trúc mạng Bayesian:

- Biến ngẫu nhiên trạng thái X

Loại biến ngẫu nhiên thứ nhất thể hiện trạng thái đối tượng cần theo vết, bao gồm các thông tin như định danh, vị trí hoặc kích thước của đối tượng Biến ngẫu nhiên X là thông tin ẩn, không thể xác định chính xác, nên cần phải được ước lượng

- Biến ngẫu nhiên quan sát Z

Loại biến ngẫu nhiên thứ hai biểu diễn thông tin quan sát thu nhận từ hệ thống cần theo vết Trong khi biến X là thông tin ẩn, biến ngẫu nhiên quan sát Z lại thể hiện thông tin có thể đo đạc hoặc rút trích được Đối với bài toán theo vết thị giác, thông tin quan sát được thu nhận từ hình ảnh, phổ biến nhất là các đặc trưng như hình dáng, màu sắc, kết cấu hoặc chuyển động của đối tượng

Quan hệ giữa biến ngẫu nhiên trạng thái và biến ngẫu nhiên quan sát tại một thời điểm được minh họa trong Hình 2.8 Quan sát phụ thuộc vào trạng thái hiện tại của đối tượng, nên quan hệ phụ thuộc này biễu diễn bằng cạnh nối từ X đến Z

Hình 2.8 Quan hệ giữa biến ngẫu nhiên trạng thái và biến ngẫu nhiên quan sát

Trạng thái (ẩn) Đặng Thị Thu Hoa 24

Mở rộng mạng DBN trong Hình 2.8 theo chuỗi thời gian để mô hình hóa hoàn chỉnh bài toán theo vết thị giác như hình như trong Hình 2.9, với T là khoảng thời gian theo vết và t là chỉ số thời gian ∊ [1, ]

Hình 2.9 Mô hình mạng DBN cho bài toán theo vết thị giác

Giả thiết, các trạng thái của hệ thống tuân theo quy trình Markov bậc nhất, trạng thái hiện tại chỉ phụ thuộc vào trạng thái liền ngay trước đó , và quan sát chỉ phụ thuộc vào trạng thái tượng ứng :

Hệ thống trên được mô hình hóa bằng hai mô hình xác suất:

Trong đó, : R × R →R là hàm biến đổi trạng thái (transition function) biểu diễn quá trình phát triển của hệ thống, là nhiễu tiến trình (process noise), , là số chiều của biến ngẫu nhiên trạng thái và nhiễu tiến trình

Trong đó, : × → là hàm quan sát (observation function) biểu diễn mối tương quan giữa quan sát thu nhận được và trạng thái hiện tại, là nhiễu quan sát, , là số chiều biến ngẫu nhiên quan sát và nhiễu quan sát

Theo hướng tiếp cận Bayesian, bài toán theo vết đối tượng được giải quyết bằng cách xác định một mức độ tin cậy cho mỗi giả thiết về trạng thái hiện tại của hệ thống, dựa trên tất cả thông tin quan sát : cho đến thời điểm hiện tại Hàm mật độ xác suất (probability density function – pdf) ( | : ), hay mật độ hậu định (posterior pdf), được sử dụng để biểu diễn mức độ tin cậy này

Phương pháp ước lượng Bayesian xây dựng mật độ hậu định qua hai bước dự đoán và cập nhật Giả sử đã có mật độ hậu định ( | : ) tại thời điểm −1, bước dự đoán sử dụng mô hình biến đổi hệ thống để xây dựng mật độ tiền định (prior pdf) của trạng thái tại thời điểm t, theo khai triển Chapman-Kolmogorov công thức hồi quy biểu diễn mật độ hậu định của hệ thống là

( | : ) = ( | ) ( | ) ( | : ) (2.8) Áp dụng hồi quy, phương pháp ước lượng Bayesian đưa ra lời giải tối ưu cho việc xây dựng mật độ hậu định của trạng thái tại thời điểm t Mô hình hoạt động của phương pháp này được minh họa trong Hình 2.9

Hình 2.10 Mô hình hoạt động của Bayesian Filter Một số phương pháp theo vết dựa trên ước lượng Bayesian là Kalman Filter và Particle Filter

Kalman Filter là phương pháp kế thừa Bayesian Filter, bảo đảm lời giải tối ưu trong trường hợp hệ tuyến tính và nhiễu có phân phối Gaussian Trong trường hợp hệ phi tuyến và không phải nhiễu Gaussian, một số phương pháp mở rộng từ Kalman Filter là Extended Kalman Filter [19] và Unscented Kalman Filter có thể được sử dụng để tìm gần đúng với kết quả tối ưu Ưu điểm chung của các phương pháp trên là đơn giản và độ phức tạp thấp Tuy nhiên, Kalman Filter chỉ tối ưu khi áp dụng cho hệ tuyến tính Gaussian, còn Extended Kalman Filter và Unscented Đặng Thị Thu Hoa 26

Kalman Filter chỉ giải quyết tốt bài toán trong trường hợp phương trình biến đổi có bậc 2, không thích hợp cho hệ đa mô hình

 Một số nghiên cứu sử dụng Kalman filter để theo vết đối tượng: i Moving Object Tracking Using Kalman Filter [17]

Tác giả kết hợp giải thuật trừ nền cho bước phát hiện đối tượng và dùng Kalman Filter để theo vết đối tượng Thực nghiệm được thực hiện ở môi trường trong nhà và cả ngoài trời Theo vết đối tượng được thực hiện bằng cách dự báo vị trí của đối tượng từ những thông tin trước đó Vì vậy, hàm quan sát và mô hình chuyển động phải được khởi tạo trước đó từ một số frame đầu tiên trong chuỗi frame đầu vào Đầu tiên, sẽ lựa chọn số frame để khởi tạo Background Đối tượng cần theo vết được xác định ở frame kế tiếp bằng một mặt nạ (mask) và tâm sẽ được lựa chọn như đặc trưng để theo vết đối tượng Ở những frame tiếp theo, giải thuật background subtraction sẽ được dùng để tìm kiếm tất cả những vùng chuyển động trong frame và vùng có khoảng cách nhỏ nhất với vị trí của đối tượng ở frame trước đó sẽ được chọn Cập nhật thông tin cho mô hình chuyển động với các thông tin có được từ vị trí mới Liên kết các vị trí tìm được để xây dựng quỹ đạo chuyển động của đối tượng Ưu điểm của giải thuật là thành công cho theo vết đối tượng cả trong nhà và ngoài trời Nhược điểm là chỉ theo vết đơn đối tượng và không tự động phát hiện đối tượng ii Object tracking in an outdoor environment using fusion of features and cameras [18]

Bài báo thực hiện theo vết đối tượng ở môi trường ngoài trời sử dụng kết hợp nhiều camera Các thông tin như vị trí về không gian, hình dạng, màu sắc được kết hợp như đặc trưng để theo vết đối tượng Chuyển động của đối tượng thu được từ một camera sẽ được kết hợp bằng extended Kalman Filter (EKF) để giải quyết vấn đề chồng lấp Đầu tiên, sử dụng median filter với L frame đầu tiên để khởi tạo mô hình nền Dùng background subtraction cho bước phát hiện đối tượng Sau khi phân tách được các foreground blob, các đặc trưng của blob được rút trích bao gồm: màu sắc, tâm của đối tượng (vị trí trung bình của tất cả các pixel trong blob), hình dạng (gồm chiều Đặng Thị Thu Hoa 27 dài và rộng, diện tích, mật độ, hướng) Bước theo vết đối tượng sử dụng so khớp các vector đặc trưng để tìm được blob tương ứng và gán nhãn thích hợp Thực hiện cập nhật các vector đặc trưng cho bước theo vết ở các frame tiếp theo

Vấn đề chồng lấp được giải quyết bằng cách kết hợp thông tin chuyển động của đối tượng từ nhiều camera Dùng giải thuật Kalman filter để ước lượng trạng thái cuối cùng của đối tượng dựa trên các thông tin đo đạc được từ các camera

HƯỚNG TIẾP CẬN VÀ GIẢI THUẬT ĐỀ XUẤT

Mô hình tổng quát giải thuật đề xuất

Các giải thuật theo vết đối tượng trước đây chủ yếu là dùng phương pháp tách vùng đối tượng ra khỏi mô hình nền đã được định nghĩa và khởi tạo trước Giải thuật đề xuất phương pháp mới sử dụng bandelet transform để theo vết đối tượng chuyển động Hình dạng của đối tượng có thể thay đổi từ frame này qua frame khác

Hướng tiếp cận phổ biến cho theo vết đối tượng bao gồm 2 bước: phát hiện đối tượng và theo vết đối tượng như mô tả trong hình 3.1

Hình 3.1 Mô hình tổng quát hệ thống theo vết đối tượng Để phù hợp hơn với mức độ phức tạp của theo vết ở môi trường ngoài trời (video bị mờ nhiễu, đối tượng bị che khuất hoặc chồng lấp, ) luận văn kết hợp bandelet transform và năng lượng biên như hai đặc trưng cho bước biểu diễn đối tượng Giải thuật đề xuất gồm ba giai đoạn

- Giai đoạn 1: Xác định đối tượng

- Giai đoạn 2: Rút trích đặc trưng (bandelet và năng lượng biên)

- Giai đoạn 2: Theo vết đối tượng trong chuỗi frame ảnh

Một đoạn video là một chuỗi frame Mỗi frame có thể xem như một ảnh (image) Nếu giải thuật có thể theo vết đối tượng chuyển động giữa 2 ảnh thì cũng có thể theo vết đối tượng trong chuỗi video Hình 3.2 mô tả kiến trúc tổng quát của giải thuật đề xuất

Input video Frames Detecting Object TrackingObject

Bước 1 Bước 2 Đặng Thị Thu Hoa 37

Hình 3.2 Kiến trúc tổng quát của giải thuật đề xuất

So khớp đặc trưng Tính toán năng lượng biên

Kết thúc Xác định đối tượng Đặng Thị Thu Hoa 38

Bước phát hiện đối tượng được thực hiện thủ công tại frame đầu tiên Để theo vết đối tượng, luận văn sử dụng Bandelet và năng lượng biên như hai đặc trưng và sử dụng so khớp đặc trưng để theo vết đối tượng Để cải tiến độ chính xác của theo vết đối tượng trong video, hệ số bandelet và giá trị thống kê của chúng được rút trích như đặc trưng của ảnh đối tượng và áp dụng giải thuật được nêu trong [26] Quá trình theo vết đối tượng qua các bước sau:

- Bước 1: Ảnh từ chuỗi frame ảnh sẽ qua biến đổi wavelet trực giao 2 chiều (2D discrete orthogonal wavelets transform)

- Bước 2: Sử dụng Quad-tree segmentation để xây dựng Quad-tree cho ảnh đã biến đổi wavelet

- Bước 3: Với mỗi block của Quad-tree, tính toán geometric flow direction bằng hàm Lagarange

- Bước 4: Sau khi xác định được geometric flow direction cho mỗi block, thực hiện phép chiếu trực giao và sắp xếp lại vị trí các điểm theo hình chiếu lên trục chiếu để có được tín hiệu một chiều (1D discrete signal)

- Bước 5: Sử dụng ngưỡng để lọc nhiễu và thực hiện biến đổi Wavelet 1 chiều

(1D wavelet transform) để có được bandelet coefficient tương ứng

- Bước 6: Tính toán giá trị thống kê của các bandelet coefficient và và lựa chọn những giá trị này như đặc trưng của đối tượng

- Bước 7: Tính toán năng lượng biên của đối tượng (boundary energy) như đặc trưng thứ hai

- Bước 8: Dùng so khớp (matching) đặc trưng để tìm vị trí của đối tượng ở frame tiếp theo Đặng Thị Thu Hoa 39

Hình 3.3 Quy trình thực thi của giải thuật đề xuất

Với mỗi Geometric flow direction

Tính toán chi phí theo hàm Lagarange

Tối giản hàm năng lượng

Tính toán các giá trị thống kê

Bandelet coefficients Chiếu trực giao điểm

Xây dựng Quad-tree segmentation

Frame1: xác định đối tượng

So khớp đặc trưng Đặng Thị Thu Hoa 40

Quy trình thực thi chi tiết

Đoạn video dữ liệu đầu vào sẽ được phân tách thành chuỗi frame ảnh Đối tượng được xác định bằng tay tại frame đầu tiên Từ frame thứ hai, thực hiện rút trích hai đặc trưng là bandelet và năng lượng biên

Một ảnh đầu vào sẽ qua biến đổi wavelet 2 chiều để phân tách ảnh thành những phần có kích thước nhỏ hơn Mỗi block ở mức 1 có thể được phân tích tiếp ở các mức phân tích sâu hơn Quá trình phân tách sẽ lặp lại liên tiếp cho tới khi đạt được mức phân tích phù hợp để xây dựng nên Quad-tree segmentation Thực hiện tính toán chi phí Lagarange để xác định geometric flow direction của mỗi block con Sau khi xác định geometric flow direction, ta có được 1D discrete signal bằng phép chiếu trực giao điểm và thực hiện biến đổi 1D wavelet transform để có được Bandelet coefficient tương ứng Tính toán giá trị thống kê của các Bandelet coefficient và tính năng lương biên của đối tượng như đặc trưng của đối tượng và sử dụng giải thuật so khớp để theo vết đối tượng qua từng frame

Hình 3.3 mô tả quy trình thực thi của giải thuật đề xuất Trong đó, từng giai đoạn sẽ được mô tả chi tiết ở các phần tiếp theo

3.2.1 2D Wavelet transform và quad-tree segmentation

Hình 3.4 Giai đoạn 1- Biến đổi Wavelet transform và xây dựng Quad-tree

Xây d ựng Quad-tree segmentation 2D wavelet transform Video Đặng Thị Thu Hoa 41

Biến đổi wavelet 2 chiều thực hiện bằng cách phân chia ảnh thành các phần có kích thước bằng nhau Mỗi phần này được gọi là các block hoặc square Lần biến đổi đầu tiờn, ảnh gốc được chia thành 4 phần nhỏ Mỗi phần cú kớch thước bằng ẳ ảnh ban đầu Quá trình chia đôi từng phần này gọi là dyadic segmentation

Các block con ở mức 1 có thể được phân chia trong lần phân tích tiếp theo Lặp lại quá trình phân chia cho đến khi đạt được độ phân giải mong muốn Quá trình này gọi là phân chia đệ quy (recursive subdivision)

Hình 3.5 Quá trình phân chia đệ quy bằng dyadic segmentation [28]

Biểu diễn quá trình phân chia đệ quy dưới dạng cây, với các lá là các block có được sau mỗi mức phân tích, ta được quad-tree representation

(b)-(c) Quá trình phân chia đệ quy bằng cách phân đôi liên tiếp

(d) Minh họa Quad-tree Segmentation

Hình 3.6 Quá trình trình phân chia đệ quy và xây dựng Quad-tree [29] Đặng Thị Thu Hoa 42

Geometric flow direction của mỗi block sẽ được xác định khi xây dựng quad-tree segmentation Cụ thể, geometric flow direction được xác định bằng cách tối tiểu hóa chi phí Lagrangian (minimizing Lagrangian cost)

Hình 3.7 Giai đoạn 2- Xác định hướng hình học (Geometric Flow Direction)

Giải thuật tính toán chi phí Lagrangian gồm các bước sau:

Khởi tạo kích thước phân vùng tối thiểu là A

(1) Với mỗi block có S kích thước × Gọi chi phí Lagrangian thấp nhất là ( )

(2) Kí hiệu các block con của S là (S1, S2, S3, S4)

(3) Chi phí Lagarange cho việc kết hợp 4 block con là

( ) = ( ) + ( ) + ( ) + ( ) + ( ) + (3.1) (4) Chi phí Lagrangian thấp nhất được tính bằng hàm sau: s ( ) = ( ), ( ) (5) Nếu A nhỏ hơn kích thước phân vùng tối đa

Gán A* và lặp lại bước (3) đến (5)

( ) là kết quả cuối cùng của quá trình xây dựng Quad-tree segmentation Ta xác định được hướng hình học (geometric flow direction) của mỗi block

Tính toán chi phí theo hàm Lagarange

Geometric Flow Direction Giai Đoạn 1

Giai Đoạn 3 Đặng Thị Thu Hoa 43

Một geometric flow là một trường vector gần như song song với cạnh của đối tượng [29]

(c) zoom trên wavelet coefficients trong một block có chứa cạnh

Hình 3.8 Minh họa geometric flow [29]

Sau khi xác định được geometric flow của mỗi block, ta thực hiện quá trình rút trích điểm (extraction of point) như giải thuật mô tả trong [28] để xác định được bandelet coefficients tương ứng

Hình 3.9 Giai đoạn 3- Xác định Bandelet coefficients

Bandelet coefficients Chiếu trực giao điểm

Giai Đoạn 4 Giai Đoạn 2 Đặng Thị Thu Hoa 44

Quá trình này bao gồm ba giai đoạn:

- Tính toán Lagarange (Lagrangian) Đầu tiên, với mỗi block, ta lựa chọn một điểm mẫu x (sampling point) Như trong tài liệu tham khảo [30], điểm mẫu được lựa chọn là tâm của block Tiếp theo, thực hiện phép chiếu trực giao các điểm x của mỗi block lên đường vertical midline (d) để có được điểm mới Minh họa phép chiếu trực giao như hình 3.10

Hình 3.10 Phép chiếu trực giao các điểm lên trục d [30]

Sắp xếp lại các điểm này theo thứ tự của chúng trên trục d Kí hiệu điểm là điểm thứ i trên trục d Ta có được tín hiệu rời rạc 1 chiều (1D dsicrete signal) Kết quả sắp xếp lại các điểm theo thứ tự trên trục d của hình 3.10 là

Tín hiệu rời rạc 1 chiều (1D dsicrete signal) được định nghĩa như sau:

(a) 2D Wavelet transform (b) Chiếu trực giao các điểm lên trục d

Hình 3.11 Quá trình chiếu trực giao điểm và tín hiệu 1D discrete kết quả [28] Đặng Thị Thu Hoa 45

Việc lực chọn kích thước S phù hợp và hướng tối ưu d như trong thực nghiệm của công trình nghiên cứu [28]

Với mỗi tín hiệu 1D discrete , sử dụng 1D Wavelet transform để nén tín hiệu này, bỏ qua những tín hiệu dưới ngưỡng T, ta có được 1D wavelet coefficient tương ứng Hình 3.12 mô tả quá trình từ bước biến đổi 2D wavelet tới bước xác định được bandelet coefficient

(a) 2D Wavelet transform (b) Rút trích block con (c) Geometry directions

(d) Chiếu trực giao điểm (e) Tín hiệu 1D rời rạc (f) 1D wavelet transform

Hình 3.12 Quy trình từ 2D wavelet transform tới xác định bandelet coefficient [28]

Sau khi có được Bandelet coefficient từ bước trên, ta thực hiện tính toán các giá trị thống kê (statistical values) của Bandelet coefficient Các giá trị này được dùng như đặc trưng của ảnh đối tượng Như trong thực nghiệm [26] các đặc trưng được lựa chọn là energy, mean value, entropy, maximum Đặng Thị Thu Hoa 46

Hình 3.13 Giai đoạn 4- Rút trích đặc trưng

Hình 3.14 Giai đoạn 5- Tính năng lượng biên của đối tượng

Tính toán các giá trị thống kê

Rút trích đặc trưng Giai Đoạn 3

Tối giản hàm năng lượng

Tính toán năng lượng biên

Theo vết bằng so khớp đặc trưng

Kết thúc Đặng Thị Thu Hoa 47 i Tính toán năng lượng biên (boundary energy)

Mục tiêu của theo vết là thiết lập sự tương ứng giữa các đối tượng qua mỗi frame Các giải thuật theo vết tìm kiếm vị trí của đối tượng trong frame kế tiếp theo dựa trên đặc trưng bandelet và giá trị của năng lượng đường biên (boundary energy) của đối tượng Năng lượng biên của đối tượng được tính toán từ ba frame trước đó và hướng của chuyển động Giải thuật đề xuất có khả năng theo vết đối tượng có kích thước thay đổi trong một dãy những frame khác nhau Tương tự với kỹ thuật theo vết được phát triển bởi Shoichi [27], ta phát hiện đường biên của đối tượng bằng việc tối giản (minimizing) hàm năng lượng sau

Trong đó, là năng lượng nội (internal energy), là năng lượng ảnh (image energy) hay năng lượng cạnh (edge energy) và là năng lượng ngoại (external energy) hay năng lượng vùng (area energy) Các hàm năng lượng được tính như sau

Quy trình theo vết đa đối tượng theo các bước sau:

Từ đoạn video đầu vào, ta tạo chuỗi các ảnh I(T) T kí hiệu cho số frame (T =1, 2,

3, … ) Một mô hình đường viền (contour model) được biểu diễn bởi v (x (t), y (t)) với t là số lần lặp tại mỗi frame

Input hai ảnh I(T) và I(T+1) Nếu là lần đầu tiên, T được gán giá trị 1 Đặng Thị Thu Hoa 48

Ta gán t=0 tại mỗi frame Khi T=1, thiết lập đường viền khởi tạo v (x (0), y (0)) cho tất cả các đối tượng chuyển động

 Bước 2: Biến dạng của đường viền (Deformation of contour)

Trong bước này, ta loại bỏ tất cả điểm đường viền v (x (t), y (t)) (i=1,2,…,n) bằng việc tối giản năng lượng đường viền sử dụng giải thuật tham lam và gán t=t+1 Số điểm đã loại bỏ được lưu trữ trong C

 Bước 3: Phân tách các viền (Splitting contours)

Năng lượng ngoại của một mô hình contour v (x , y ) (i=1,2,3,….,n) được định nghĩa như sau:

Việc tối giản hàm năng lượng có thể gây ra việc giao nhau giữa các đối tượng Một mô hình contour tự giao (self-crossing contour model) được chia tách thành nhiều contour khép kín (closed contour) bằng cách chia cắt tại điểm giao Sự tự giao của mô hình contour v (x , y ) (i=1,2,3,….,n) được xác định khi hai segment khác nhau, kí hiệu là và (j ≠ i-1, i, i+1) , có một điểm giao Một mô hình contour được đánh giá là có điểm giao khi tồn tại giá trị p và q thỏa phương trình sau

Hình 3.15 Quy trình tách một single contour thành hai phần [27]

 Bước 4: Kết hợp các đường nét (Merging contour) Ở bước này, ta hợp hai contour thành một contour Những mô hình contour khác nhau của những đối tượng khác nhau được kết hợp thành một mô hình contour khi phát hiện có sự giao lẫn nhau (mutual crossing) ví dụ như khi hai đối tượng có sự Đặng Thị Thu Hoa 49 chồng lấp Mutual crossing có thể được phát hiện bằng cách tương tự với cách phát hiện self-crossing được mô tả ở công thức trên

 Bước 5: Xây dựng contour mới

Một contour mới sẽ được tạo giữa hai điểm liền kề và thỏa mãn điều kiện

THỰC NGHIỆM VÀ KẾT QUẢ KIỂM CHỨNG

Các thông số đầu vào và tập dữ liệu thử nghiệm

Ở chương này sẽ hiện thực quá trình theo vết đối tượng bằng giải thuật đã đề xuất: kết hợp bandelet transform với năng lượng biên của đối tượng

Quá trình thực nghiệm sử dụng ngưỡng cứng cho các hệ số sau khi phân tích ảnh trong miền bandelet Vùng đối tượng được xác định tại frame đầu tiên Quá trình theo vết được thực hiện bằng việc so khớp đặc trưng bandelet và năng lượng biên của đối tượng Để đánh giá hiệu xuất của giải thuật, quá trình thực nghiệm được thực hiện trên nhiều video chứa các đối tượng khác nhau như người, xe,… trong tập dữ liệu của PETS và những tập dữ liệu khác Kích thước các frame là không cố định Tập dữ liệu của PETS2001 với đối tượng là người và xe hơi, kích thước frame là 768x576 Tập dữ liệu quay tại đại học Bách Khoa với đối tượng là người đi bộ, kích thước frame là 720x576 Tập dữ liệu PETS2009, đối tượng là xe hơi, kích thước là 640x360 Tất cả các đoạn video thực nghiệm là video mờ Các đoạn video được phân tích với 24 frames/giây

 Đối tượng theo vết là xe hơi

Thực nghiệm được tiến hành trên đoạn video dài 648 frame trong tập dữ liệu PETS2009 Kích thước frame là 640x360 Đoạn video chứa đối tượng trọng yếu cần theo vết là xe hơi Trong đoạn video, quá trình di chuyển của đối tượng như sau: đối tượng sẽ di chuyển đến gần nơi đậu xe, dừng lại và từ từ chuyển hướng, cuối cùng sẽ di chuyển vào khu vực để xe Trên đường di chuyển, đối tượng bị che khuất hoàn toàn bởi cây xanh, là một đối tượng của cảnh nền Đoạn video quay ở môi trường ngoài trời với điều kiện ánh sáng tự nhiên Màu sắc của đối tượng không quá nổi bật so với cảnh nền (màu của đường đi) Hình dạng đối tượng có thay đổi khi đối tượng đổi hướng

Hình 4.1 minh họa cho quá trình theo vết đối tượng trong đoạn video được mô tả như trên Từ frame 65, đối tượng bắt đầu di chuyển vào vùng bị che khuất Từ Đặng Thị Thu Hoa 52 frame 75 đến frame 85, đối tượng bị che khuất hoàn toàn Frame 95, đối tượng xuất hiện trở lại và vẫn không bị mất dấu Từ frame 150 đến 200, đối tượng di chuyển chận và có lúc đứng yên Từ frame 250 đến 400, đối tượng từ từ đổi hướng và bắt đầu từ frame 500 đối tượng di chuyển thẳng vào nơi đậu xe và dừng lại

Hình 4.1 Kết quả thực nghiệm theo vết đối tượng là xe hơi

Trong quá trình thực nghiệm, đối tượng được xác định tại frame đầu tiên Khi đối tượng di chuyển và bị che khuất hoàn toàn bởi cây xanh, giải thuật vẫn không làm mất dấu đối tượng Khi đối tượng đổi hướng chậm, có sự thay đổi về hình dạng và Đặng Thị Thu Hoa 53 có lúc dừng di chuyển, quá trình theo vết vẫn diễn ra liên tục và đối tượng không bị mất dấu

 Đối tượng theo vết là người

Thực nghiệm được tiến hành trên đoạn video chứa các đối tượng di chuyển là người đi bộ trong tập cơ sở dữ liệu của PETS2001 Kích thước frame là 768x576 Ở thực nghiệm này, khái niệm đối tượng dùng để chỉ người đi bộ Và để phân biệt giữa đối tượng trọng yếu cần theo vết với các đối tượng còn lại, ta gọi đối tượng theo vết là target

Hình 4.2 Kết quả theo vết đối tượng là người đi bộ Đặng Thị Thu Hoa 54 Đoạn video thực nghiệm quay một nhóm người di chuyển qua lại tại một giao lộ trong khuôn viên của một trường đại học Trong quá trình di chuyển, target sẽ dừng lại nói chuyện với một đối tượng khác (frame 1 đến frame 20) Lúc đó, vị trí đứng của target bị che khuất bởi một vật khác có trong khung cảnh (biển chỉ đường), nên hình dạng của target không còn rõ ràng và đầy đủ (frame 40 đến 100) Trong lúc target dừng lại nói chuyện với một đối tượng khác, có một đối tượng thứ

2 có cùng màu sắc với target đi ngang qua (frame 100 đến 120) Khi target tiếp tục di chuyển và đi ra ngoài vùng bị che khuất (frame 150), lúc này một đối tượng thứ

3 đi ngang qua và che khuất hoàn toàn target (frame 162)

Hình 4.2 minh họa cho quá trình theo vết đối tượng trọng yếu (target) trong khung cảnh một đám đông với nhiều đối tượng Trong quá trình di chuyển có lúc đối tượng bị che khuất một phần bởi biển chỉ đường hoặc bị che khuất hoàn toàn bởi một đối tượng khác (cùng hoặc khác màu sắc) nhưng quá trình theo vết vẫn diễn ra liên tục và không để mất dấu đối tượng

Trong một thực nghiệm khác với dữ liệu là đoạn video quay tại đại học Bách Khoa Thực nghiệm thứ 3 được thực hiện trên video dài 380 frame có kích thước frame 720x576 Đoạn video quay tại sân trường với điều kiện ánh sáng ngoài trời, đối tượng cần theo vết sẽ đi ngang qua và bị che khuất bởi một đối tượng khác

Từ frame 150 đến 220, đối tượng di chuyển thẳng về phía trước Từ frame

225, đối tượng bắt đầu bị che khuất bởi một đối tượng khác Từ frame 250 đến 270, đối tượng bị chồng lấp bởi đối tượng khác nên hình dạng không còn rõ ràng Frame

280, đối tượng tiếp tục di chuyển và không còn bị che khuất

Thực nghiệm 3 đã khẳng định giải thuật có hiệu quả khi đối tượng thay đổi tốc độ di chuyển và thậm chí là dừng lại Ngay cả khi đối tượng bị che khuất và hình dạng bị thay đổi, giải thuật vẫn theo vết chính xác đối tượng

Frame 150 Frame 180 Frame 210 Frame 220 Đặng Thị Thu Hoa 55

Hình 4.3 Theo vết đối tượng với video tự thực hiện

So sánh với giải thuật khác

So sánh hiệu quả của giải thuật đề xuất với phương pháp wavelet transform và bandelet transform ta có được kết quả như bảng 4.4

Bảng 4.4 So sánh kết quả theo vết bằng Wavelet, Bandelet và giải thuật đề xuất

Bảng 4.4 so sánh kết quả theo vết đối tượng bằng phương pháp Wavelet Transform, Bandelet Transform và giải thuật đề xuất Để đánh giá về độ chính xác của giải thuật đề xuất (kết hợp bandelet và năng lượng biên) so với phương pháp sử dụng Wavelet và phương pháp chỉ sử dụng Bandelet, tính toán mức độ theo vết lỗi của ba giải thuật trong đoạn video dài 2000 frame Xác định tại các frame 100, 200, 300, 2000, “Error” là chỉ tại frame đó, giải thuật tương ứng đã theo vết lỗi, tức là xác định sai vị trí của đối tượng Kết quả tổng hợp cho thấy số frame theo vết sai trong ba phương pháp wavelet transform, bandelet transform và giải thuật đề xuất lần lượt là 40% với Wavelet, 25% với Bandelet và khi áp dụng giải thuật đề xuất là 10% Bảng 4.4 chỉ đưa ra sự đánh giá có tính ước lượng, nhưng cũng cho thấy được giải thuật đề xuất là có hiệu quả và giảm tỉ lệ theo vết lỗi trong theo vết đối tượng Thực nghiệm cũng chỉ ra rằng phương pháp đề xuất đạt hiệu quả khi theo vết đối tượng trên những đoạn video khác nhau Đặng Thị Thu Hoa 57

LUẬN

Kết quả đạt được

Khi nghiên cứu về bài toán theo vết đối tượng, tồn tại những khó khăn như: Làm sao để nhận biết đối tượng nào đang chuyển động và phân tách đối tượng khỏi cảnh nền? Phương pháp để tái gán nhãn chính xác cho đối tượng? Giải thuật nào để theo vết hiệu quả khi đối tượng chuyển động tuyến tính và không tuyến tính? Đặc biệt, khó khăn đang được quan tâm nhất khi nghiên cứu về bài toán theo vết là vấn đề che khuất (occlusion) và chồng lấp (overlap) Trong quá trình các đối tượng di chuyển, có thể đối tượng sẽ bị che khuất (một phần hoặc toàn bộ) bởi vật khác hoặc đối tượng khác, xảy ra các tình huống như 2 đối tượng thành 1 đối tượng (bắt tay, ôm nhau, ); đối tượng này bị chồng lấp bởi đối tượng khác (đi ngang qua nhau); hoặc phức tạp hơn, khó nhận biết hơn là khi đối tượng thay đổi hướng chuyển động

Có nhiều phương pháp được đề xuất để giải quyết bài toán theo vết đối tượng Tùy vào môi trường quan sát, ngữ cảnh, mục tiêu quan sát mà lựa chọn các giải thuật khác nhau

Các phương pháp theo vết trước đây như background subtraction, kalman filter, particle filter, optical flow đều có những ưu và nhược điểm nhất định Background subtraction là giải thuật theo vết được sử dụng rộng rãi bởi tính đơn giản của giải thuật Cơ chế của background subtraction là so khớp từng frame ảnh với ảnh nền đã được định nghĩa trước đó, các vùng sai biệt giữa 2 frame ảnh được xác định là vùng đối tượng Tuy nhiên, khi đối tượng dừng di chuyển, sẽ không có sự khác biệt giữa 2 frame ảnh, nên không thể xác định được vùng đối tượng hay mất đấu đối tượng Kalman filter là giải thuật có hiệu quả tốt trong trường hợp hệ tuyến tính và nhiễu có phân phối Gaussian Nhưng với hệ phi tuyến (tức đối tượng đổi hướng đột ngột) thì Kalman filter sẽ theo vết sai Particle filter có thể khác phục được nhược điểm này của Kalman filter Với tính chất dựa trên tập mẫu, muốn độ chính xác cao thì số mẫu phải đủ lớn, nhưng tập mẫu càng lớn thì độ phức tạp giải thuật càng tăng, nên nhược điểm của Particle filter là độ phức tạp của giải thuật Opticle flow là giải thuật dựa trên vector, lần lượt so sánh từng pixel của đối tượng qua các frame, từ đó xác định được hướng và vận tốc di chuyển của đối tượng Tuy Đặng Thị Thu Hoa 58 nhiên Opticle flow lại rất nhạy với sự thay đổi của ánh sáng nên gặp nhiều khó khăn trong theo vết ở môi trường ngoài trời Ở môi trường ngoài trời, hình ảnh thu được có thể bị mờ, nhiễu do các tác động khách quan của thời tiết và ánh sáng Hình dạng của đối tượng có thể thay đổi qua từng khung cảnh hoặc qua từng frame Do đó, theo vết đối tượng trong những trường hợp này là thách thức lớn Luận văn đã sử dụng một phương pháp mới, là áp dụng Bandelet transform trong xử lý ảnh cho bài toán theo vết đối tượng, kết hợp với năng lượng biên nhằm làm tăng độ mạnh của đặc trưng và tăng tính chính xác cho quá trình theo vết.

Ưu và nhược điểm của giải thuật đề xuất

Luận văn đã xây dựng một phương pháp mới cho bài toán theo vết đối tượng là sử dụng bandelet transform kết hợp với năng lượng biên của đối tượng Luận văn đã thành công trong theo vết đối tượng ở môi trường ngoài trời

Giải thuật đề xuất không chỉ cải thiện đáng kể độ chính xác của việc xác định cạnh đối tượng mà còn giảm tỉ lệ sai khi xác định vị trí của đối tượng tại mỗi frame Giải thuật thành công khi theo vết đối tượng ở môi trường mờ, nhiễu, khắc phục được những thách thức như đối tượng dừng di chuyển hay đối tượng bị che khuất, bị chồng lấp bởi khung cảnh hoặc bởi đối tượng khác trong đám đông

Nhược điểm của giải thuật là không tự động phát hiện đối tượng mà đối tượng theo vết sẽ được xác định tại frame đầu tiên của dữ liệu đầu vào

Giải thuật chưa thực sự hiệu quả với trường hợp đối tượng bị che khuất hoàn toàn và xuất hiện lại trong khung cảnh.

Đóng góp của luận văn

5.3.1 Đóng góp về mặt khoa học

Với sự phát triển của khoa học và công nghệ, các hệ thống thông minh ngày càng được cải tiến và ứng dụng rộng rãi Nhu cầu phân tích tự động video ngày Đặng Thị Thu Hoa 59 càng cao cùng với khả năng tính toán của máy tính cũng ngày được nâng cao, đòi hỏi các hệ thống thông minh cần được cải tiến và phát triển không ngừng

Trong hệ thống giám sát thông minh, bên cạnh chức năng phát hiện đối tượng và nhận dạng hành vi, chức năng theo vết đối tượng là hướng nghiên cứu đang nhận được nhiều sự quan tâm Bài toán theo vết đối tượng là thách thức lớn trong hệ thống theo vết thị giác bởi những khó khăn như: vấn đề che khuất và chồng lấp, sự chuyển động hỗn loạn của đối tượng, chất lượng hình ảnh trong các cảnh quay thực tế ngoài trời, số lượng đối tượng ở những cảnh quay đám đông, yêu cầu xử lý thời gian thực Bên cạnh đó, theo vết đối tượng ngày càng phát sinh những bài toán mới, đặt ra nhiều thách thức cho các nhà nghiên cứu Vì vậy, phát triển một giải thuật hiệu quả là vô cùng ý nghĩa và cấp thiết

Giải thuật đề xuất trong luận văn cũng đã được trình bày trong bài báo “Adaptive Object Tracking Technique Based on Bandelet Domain in Outdoor Environment” và được trình bày tại hội nghị International Conference on Advanced Computing and Applications (ACOMP 2014)

5.3.2 Đóng góp về mặt thực tiễn

Theo vết đối tượng được ứng dụng các lĩnh vực trọng tâm như:

- Giám sát an ninh: đối tượng theo vết là con người Mục tiêu chính là để phát hiện những hành vi khả nghi, đưa ra cảnh báo để kịp thời ngăn chặn những hành động có thể gây nguy hiểm cho con người và tài sản

- Giám sát giao thông: đối tượng theo vết là con người và phương tiện Mục tiêu là xác định mật độ lưu thông của người và phương tiện, phát hiện những vi phạm luật giao thông và kịp thời điều tiết để tránh ùn tắc và tránh gây tai nạn giao thông

- Theo vết đối tượng trong thể thao: dựng lại đường đi của bóng trong bóng đá, quần vợt, tennis để phát hiện lỗi, xử phạt hoặc tính điểm

Một hệ thống giám sát tự động giảm chi phí nhân lực, tăng tính chính xác, giảm chi phí vận hành so với hệ thống giám sát truyền thống Đồng thời, có thể áp dụng vào nhiều ngành công nghiệp như: ô tô, điện thoại thông minh, nhà thông minh, Đặng Thị Thu Hoa 60

Hướng phát triển trong tương lai

Trong tương lai, luận văn sẽ tiến hành thực nghiệm trên nhiều tập dữ liệu có tính chất khác nhau nhằm đánh giá đúng đắn hơn về hiệu quả của giải thuật đề xuất

Với những nhược điểm nêu trên, hướng mở rộng của giải thuật sẽ kết hợp với một phương pháp phát hiện đối tượng để có thể phát hiện đối tượng một cách tự động, nhưng vẫn không làm giải thuật giảm tốc độ tính toán và xử lý Đặng Thị Thu Hoa 61

Tiêu đề	Theo vết đối tượng trọng yếu trong đoạn video
Tác giả	Đặng Thị Thu Hoa
Người hướng dẫn	TS. Nguyễn Thanh Bình
Trường học	Đại học Quốc gia Tp. Hồ Chí Minh, Trường Đại học Bách Khoa
Chuyên ngành	Khoa học Máy Tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2014
Thành phố	Tp. Hồ Chí Minh

Định dạng
Số trang	73
Dung lượng	5,6 MB