1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video

70 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân loại đối tượng chuyển động trong đoạn video
Tác giả Hoàng Phương Thi
Người hướng dẫn TS. Phạm Trần Vũ, TS. Nguyễn Thanh Bình
Trường học Đại học Bách Khoa
Chuyên ngành Khoa học máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2014
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 70
Dung lượng 1,77 MB

Cấu trúc

  • Chương 1. TỔNG QUAN VỀ ĐỀ TÀI (13)
    • 1.1. Giới thiệu đề tài (13)
    • 1.2. Nội dung đề tài (13)
    • 1.3. Giới hạn của đề tài (14)
    • 1.4. Ý nghĩa khoa học và thực tiễn (14)
    • 1.5. Cấu trúc luận văn (14)
  • Chương 2. CƠ SỞ LÝ THUYẾT VÀ CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN (16)
    • 2.1. Cơ sở lý thuyết (16)
      • 2.1.1. Hệ thống giám sát thông minh (16)
      • 2.1.2. Optical Flow (25)
      • 2.1.3. Support Vector Machine (28)
    • 2.2. Các công trình nghiên cứu liên quan (34)
      • 2.2.1. Phân loại dựa trên hình dạng (Shape- based Classification) (34)
      • 2.2.2. Phân loại dựa trên chuyển động (Motion- based Classification) (37)
      • 2.2.3. Các loại đặc trưng khác (39)
  • Chương 3. HƯỚNG TIẾP CẬN VÀ GIẢI THUẬT ĐỀ XUẤT (41)
    • 3.1. Mô hình tổng quan (42)
      • 3.1.1. Phát hiện đối tượng chuyển động (43)
      • 3.1.2. Rút trích các đặc trưng (49)
      • 3.1.3. Phân loại đối tượng (52)
  • Chương 4. HIỆN THỰC HỆ THỐNG (57)
    • 4.1. Tập dữ liệu (57)
    • 4.2. Kết quả thực nghiệm và đánh giá (59)
      • 4.2.1. Phát hiện đối tượng chuyển động (59)
      • 4.2.2. Phân loại đối tượng chuyển động (61)
  • Chương 5. TỔNG KẾT (66)
    • 5.1. Kết luận (66)
      • 5.1.1. Kết quả đạt được (66)
      • 5.1.2. Ưu điểm và nhược điểm (66)
    • 5.2. Hướng phát triển trong tương lai (67)
  • TÀI LIỆU THAM KHẢO (68)
    • Hinh 2.8: Mũi tên chỉ ra vector tịnh tiến của một trái bóng dịch chuyển trong 5 (0)
    • Hinh 3.8: Ví dụ vectơ optical flow (0)
    • Hinh 3.9: Phương sai của vectơ optical flow (0)

Nội dung

Việc xử lý của hệ thống giám sát thông minh tóm lại có thể hiểu là việc phân tích và xử lý hình ảnh video qua việc giải quyết các bài toán sau: Bài toán 1: Phát hiện các đối tượng chuyển

TỔNG QUAN VỀ ĐỀ TÀI

Giới thiệu đề tài

Hệ thống giám sát thông minh đang là bài toán thu hút nhiều sự quan tâm và nghiên cứu trong những năm gần đây Phát hiện, phân loại và theo dõi đối tượng chuyển động là các quá trình cơ bản trong quá trình xử lý hình ảnh – cốt lõi của hệ thống giám sát thông minh bằng hình ảnh Các quá trình này có quan hệ mật thiết với nhau, quyết định hiệu quả, tính chính xác của hệ thống giám sát thông minh

Nhờ các hệ thống xử lý ảnh, con người đã giảm được khối lượng công việc cũng như tăng sự chính xác trong việc đưa ra các quyết định liên quan đến xử lý hình ảnh trên nhiều lĩnh vực: Nhận dạng mặt người, nhận dạng vân tay trong điều tra hình sự, xử lý ảnh vệ tinh, kiểm soát giao thông, xử lý ảnh chụp cắt lớp, chuẩn đoán tế bào trong y học, các chương trình nhận dạng chữ viết… đã đem lại nhiều ứng dụng tiện ích cho con người, đặc biệt là ứng dụng cho hệ thống xử lý giao thông

Phân loại đối tượng chuyển động là chức năng cơ bản trong hệ thống giám sát thông minh Nó đang là một hướng nghiên cứu mới và nhu cầu thực tế cao như: đếm số loại phương tiện lưu thông trên đường trong giám sát giao thông, đếm số người trong lớp học, trong cửa hàng, công ty,…

Vì vậy, luận văn này sẽ tập trung nghiên cứu hiện thực đề tài: Phân loại đối tượng trong đoạn video.

Nội dung đề tài

Đề tài thực hiện hai nội dung chính:

 Khảo sát và đánh giá các kỹ thuật phát hiện đối tượng chuyển động và phân loại đối tượng Tổng hợp các kết quả nghiên cứu nhằm tìm được phương pháp phù hợp với đề tài luận văn

 Hiện thực chương trình và đánh giá kết quả đạt được trên các phương pháp đã nghiên cứu.

Giới hạn của đề tài

Luận văn chủ yếu tập trung vào hiện thực giai đoạn phân loại đối tượng nên việc xử lý nhiễu do ảnh hưởng của môi trường (gió, ánh sáng,…) vẫn chưa hoàn toàn xử lý hết Do đó, trong một vài trường hợp sẽ bị phát hiện đối tượng sai và dẫn đến kết quả phân loại không đúng

Mặt khác, do thời gian còn hạn chế nên luận văn chỉ mới phân loại được hai loại đối tượng: người và xe.

Ý nghĩa khoa học và thực tiễn

Hệ thống giám sát thông minh ngày càng phát triển do nhu cầu thực tế với các ứng dụng như: hệ thống camera cho nhà thông minh, ghi nhận các thông số giao thông, … Trong đó, phân loại đối tượng là khâu trung gian và đóng vai trò quan trọng trong toàn hệ thống, vì đây là đầu vào của khối theo vết đối tượng và cũng là đầu ra của toàn bộ hệ thống Bởi vậy đây cũng là một phần không thể thiếu trong toàn bộ hệ thống Phân loại đối tượng trong các hình ảnh video là một vấn đề tương đối khó vì nó có nhiều vấn đề cần được giải quyết Vì vậy, đề tài phân loại đối tượng trong đoạn video có ý nghĩa khoa học và thực tiễn như sau: Ý nghĩa khoa học:

 Kết quả có thể dùng làm tài liệu tham khảo cho những ai có quan tâm đến phân loại đối tượng và là tiền đề cho những nghiên cứu sâu hơn trong các bài toán liên quan đến giao thông Ý nghĩa thực tiễn:

 Kết quả đề tài sẽ giúp phát hiện được các đối tượng chuyển động dùng trong camera giám sát

 Hướng nghiên cứu đề tài có thể mở rộng thêm các đặc trưng khác để tạo nên chương trình phân loại đối tượng phù hợp với thực tế.

Cấu trúc luận văn

Luận văn được tổ chức theo cấu trúc sau đây:

 Chương 1: Giới thiệu tổng quan về đề tài gồm: giới thiệu đề tài, nội dung đề tài, giới hạn, ý nghĩa khoa học và thực tiễn của đề tài và cấu trúc luận văn

 Chương 2: Trình bày một số kiến thức nền tảng: tổng quan về hệ thống giám sát thông minh và những lý thuyết căn bản về bộ huấn luyện dữ liệu Support Vector Machine (SVM) Và kết quả của các công trình nghiên cứu liên quan đến đề tài luận văn bao gồm: phân loại đối tượng dựa vào hình dạng, phân loại đối tượng dựa vào chuyển động và các phương pháp phân loại khác

 Chương 3: Trình bày chi tiết hướng tiếp cận và giải thuật đề xuất của luận văn

 Chương 4: Trình bày cách hiện thực hệ thống của luận văn gồm: tập dữ liệu huấn luyện và kiểm tra; kết quả phân loại và đánh giá trong từng bước

 Chương 5: Tổng kết và trình bày một số kết luận về ưu điểm, khuyết điểm cũng như hướng phát triển của luận văn

Cuối cùng là phần liệt kê các tài liệu tham khảo trong quá trình nghiên cứu và hiện thực của luận văn.

CƠ SỞ LÝ THUYẾT VÀ CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN

Cơ sở lý thuyết

2.1.1 Hệ thống giám sát thông minh

Một hệ thống giám sát thông minh là một tập hợp các bài toán nhỏ Nhìn một cách tổng quan:

- Đầu vào của hệ thống sẽ là hình ảnh thu được tại các điểm quan sát

- Đầu ra của hệ thống sẽ là các thông tin về chuyển động, hành vi, lớp… của các đối tượng được giám sát

Việc xử lý của hệ thống giám sát thông minh tóm lại có thể hiểu là việc phân tích và xử lý hình ảnh video qua việc giải quyết các bài toán sau:

Bài toán 1: Phát hiện các đối tượng chuyển động là bước cơ bản đầu tiên trong bài toán phân tích hình ảnh video, công việc này khái quát lại đó là việc tách các các đối tượng chuyển động từ các hình ảnh nền của các đối tượng đó Phương pháp thường được sử dụng trong bài toán này đó là: phương pháp trừ ảnh nền, các phương pháp dựa trên thống kê, phương pháp chênh lệch tạm thời, và các phương pháp dựa trên luồng thị giác [4]

Bài toán 2: Phân lớp đối tượng là công việc phân loại ra các lớp đối tượng đã được tìm ra theo các lớp đã được định nghĩa trước như: Lớp người, lớp phương tiện, lớp động vật,… Đây là bước cần thiết để có thể tiếp tục phân tích các hoạt động của chúng Hiện tại có hai hướng chính tiếp cận để giải quyết bài toán này đó là: Hướng tiếp cận dựa trên hình dáng của các vết và hướng tiếp cận dựa trên chuyển động của các đối tượng Hướng tiếp cận dựa trên hình dáng của đối tượng hoàn toàn dựa vào các tính chất 2D của các vết tìm được, trong khi đó hướng tiếp cận dựa trên chuyển động của đối tượng dựa trên các tính chất chuyển động của đối tượng theo thời gian

Bài toán 3: Theo dõi đối tượng đó là công việc đưa ra một chuỗi các hành vi của đối tượng chuyển động trong một thời gian từ các khung hình thu được Thủ tục này đưa ra các thông tin về đối tượng được theo dõi như đường đi của đối tượng, tốc độ hay hướng chuyển động của đối tượng Từ đó có thể dự đoán được hành động của các đối tượng và mô tả được hành động của chúng Đầu vào của quá trình này đó là các đầu ra các quá trình tìm và phân lớp đối tượng chuyển động

Các bài toán này không những được nghiên cứu và áp dụng trong các hệ thống giám sát mà còn được áp dụng trong các lĩnh vực khác như: thực tại ảo, nén hình ảnh, giao diện người máy, biên tập video và cơ sở dữ liệu đa phương tiện, là các hướng tiếp cận phát triển công nghệ đa phương tiện trong tương lai

Mô hình khái quát chung cho hệ thống giám sát thông minh:

Hình 2.1: Mô hình các bài toán cần giải quyết trong hệ thống giám sát

Trên đây là mô hình tuần tự các bước giải quyết trong một bài toán giám sát bằng hình ảnh Luận văn thực hiện giải quyết hai bài toán trong hệ thống giám sát thông minh gồm: Phát hiện đối tượng (Object Detection) và phân loại đối tượng (Object Classification) Đầu vào của bài toán là các khung hình video thu được Qua quá trình xử lý phát hiện đối tượng chuyển động (Object Detection) sẽ đưa ra các đối tượng chuyển động trong các khung hình video Các đối tượng được phát hiện (cụ thể là các vết chuyển động) sẽ qua quá trình phân lớp đối tượng (Object Classification) để phân

THÔNG TIN ĐỐI TƯỢNG CHUYỂN ĐỘNG lớp các đối tượng đó thuộc lớp nào, sự vật nào Và cuối cùng là quá trình xử lý để theo dõi đối tượng (Object Tracking) đó là việc tìm ra đường chuyển động của đối tượng, dự đoán chuyển động, và việc xử lý các nhập nhằng trong chuyển động của nhiều đối tượng khác nhau trong một đoạn video

Từ các khung hình thu được ở các nơi quan sát, qua khối xử lý phát hiện đối tượng chuyển động sẽ xác định được đâu là đối tượng chuyển động Cụ thể hơn, có thể chỉ ra được các đối tượng chuyển động trong đoạn video thu được một cách trực quan Đầu ra của quá trình này sẽ là các vết, hình dạng của đối tượng chuyển động để làm đầu vào của khối phân loại đối tượng chuyển động

Khối xử lý phát hiện đối tượng chuyển động có thể coi là khối xử lý đầu tiên trong hệ thống giám sát thông minh bằng hình ảnh Vì hiệu quả, tính chính xác của khối xử lý này sẽ ảnh hưởng đến đầu vào và đầu ra của các khối xử lý tiếp theo Chính vì thế nó ảnh hưởng lớn đến hiệu quả và tính tin cậy của toàn hệ thống giám sát thông minh

Phân loại đối tượng là khâu trung gian và đóng vai trò quan trọng trong toàn hệ thống, vì đây là đầu vào của khối theo vết đối tượng và cũng là đầu ra của toàn bộ hệ thống Bởi vậy đây cũng là một phần không thể thiếu trong toàn bộ hệ thống Vấn đề này đã được nghiên cứu và phát triển trong nhiều năm, song hướng phát triển hoàn thiện các khối xử lý phát hiện, phân loại và theo dõi đối tượng chuyển động vẫn đang được quan tâm Các hướng tiếp cận mới nhằm phát hiện, phân loại và theo dõi các đối tượng một cách hiệu quả, tính chính xác cao nhất với điều kiện môi trường, hoàn cảnh giám sát khác nhau Ở đây luận văn tốt nghiệp tập trung trình bày các nghiên cứu và thực nghiệm về bài toán phát hiện, phân loại đối tượng chuyển động trong hệ thống theo dõi, giám sát thông minh bằng video với hiệu quả tính chính xác cao

Bài toán phát hiện đối tượng chuyển động Đầu vào của bài toán phát hiện đối tượng chuyển động như đã trình bày ở trên đó là các khung hình video [5] thu được từ các điểm quan sát, theo dõi Như vậy để có thể giải quyết bài toán phát hiện đối tượng chuyển động ta cần nghiên cứu một số đặc điểm của video (đầu vào của bài toán)

 Các khái niệm cơ bản về video

Video là tập hợp các khung hình, mỗi khung hình là một ảnh Shot (lia) là đơn vị cơ sở của video Một lia là một đơn vị vật lý của dòng video, gồm các chuỗi các khung hình liên tiếp, không thể chia nhỏ hơn, ứng với một thao tác camera đơn Scene (cảnh) là các đơn vị logic của dòng video, một cảnh gồm các lia liên quan về không gian và liền kề về thời gian, cùng mô tả một nội dung ngữ nghĩa hoặc một tình tiết

Hình 2.2: Cấu trúc phân đoạn video Khi phim được chiếu, các khung hình lần lượt được hiển thị ở tốc độ nhất định Tốc độ thường thấy ở các định dạng video khác nhau là 30 và 25 hình/s Như vậy một giờ video sẽ có số khung hình tương ứng là 108000 hoặc là 90000 Dù là video ở định dạng nào thì nó cũng có dung lượng rất lớn và nếu xử lý với tất cả các khung hình thì thật không hiệu quả

Phân đoạn là quá trình phân tích và chia nội dung hình ảnh video thành các đơn vị cơ sở gọi là các lia (shot) Việc lấy mẫu chính là chọn gần đúng một khung video đại diện cho mỗi lia (hoặc nhiều hơn tùy theo mức độ phức tạp của nội dung hình ảnh của lia) và được gọi là các khung-khóa [5]

Khung – khóa là khung hình đại diện mô tả nội dung chính của shot

Quá trình phân đoạn dữ liệu video tiến hành phân tích, phát hiện sự chuyển đổi từ lia này sang lia khác hay chính là sự phát hiện ranh giới giữa các lia (đó chính là đo sự khác nhau giữa các khung hình liền kề) Trong hình dưới đây là ví dụ về sự chuyển đổi giữa các lia:

Hình 2.3: Chuyển đổi Lia giữa khung hình thứ 3 và thứ 4 Một số thuộc tính đặc trưng của video:

Video có 4 đặc trưng chính đó là: Color (màu), Texture (kết cấu), Shape (hình dạng), Motion (chuyển động) a) Color

Các công trình nghiên cứu liên quan

Phần này sẽ trình bày về các nghiên cứu đã được tiến hành liên quan đến nhận dạng hành vi con người

2.2.1 Phân loại dựa trên hình dạng (Shape- based Classification)

Cấu trúc tổng quan của phương pháp:

Hình 2.15: Tổng quan của một hệ thống xác định và theo dõi

Các đặc trưng thông thường được sử dụng trong việc phân loại dựa trên hình dạng là hình bao, diện tích, hình chiếu, và gradient của các vùng đối tượng phát hiện được

Cách tiếp cận trong [11] sử dụng độ dài đường viền hình chiếu của đối tượng và thông tin về diện tích để phân loại các đối tượng phát hiện được vào ba nhóm: người, xe cộ, và các loại khác Phương pháp xuất phát từ giả thuyết người nhỏ hơn các phương tiện (xe cộ) và có các hình dạng phức tạp Độ phân tán (dispersedness) được sử dụng như độ đo phân loại và nó được định nghĩa dưới dạng diện tích và độ dài (chu vi) đường viền như sau:

Một cách rõ ràng, một người, với hình dạng phức tạp hơn của nó, sẽ có độ phân tán lớn hơn một phương tiện Hình 2.16 chỉ sự phân bố của một mẫu học (training sample) của hơn 400 mục tiêu Ngoài ra, nó cũng chỉ ra một phân đoạn tuyến tính (linear segmentation) và một phân đoạn dựa trên khoảng cách Mahalanobis (Mahalanobis distance- based segmentation) - cái mà cung cấp một phương pháp phân đoạn tốt hơn cho mục đích phân loại

Hình 2.16: Dữ liệu phân loại bi- viriate mẫu training qua 400 ảnh Cả phân cụm tuyến tính và Mahalanobis đều được biểu diễn Một lợi ích của phương pháp này là nếu một đối tượng bị chồng chéo tạm thời, nó sẽ không ảnh hưởng bất lợi tới kết quả phân loại cuối cùng Hình 2.17 chỉ ra một tình huống trong đó một đối tượng bị phân loại sai bởi vì bị chồng chéo một phần, nhưng sau khi qua một khoảng thời gian, những số liệu thống kê phân loại sẽ phân loại lại nó một cách chính xác

Hình 2.17: Quá trình phân loại, phải sau một vài khung hình đối tượng mới được xác định đúng

Việc phân loại được thực hiện tại mỗi khung hình và các kết quả theo dõi đuợc sử dụng để cải thiện sự nhất quán thời gian của việc phân loại

Phương pháp phân loại phát triển bởi Collins [12] sử dụng các đặc trưng trực quan phụ thuộc của các đối tượng để huấn luyện một bộ lọc mạng nơron nhận biết bốn lớp đối tượng: người, nhóm người, xe cộ và các loại khác Đầu vào của mạng nơron là độ phân tán, diện tích và tỉ lệ bề ngoài của vùng đối tượng và độ phóng đại của camera Giống như phương pháp trước, việc phân loại được thực hiện tại mỗi khung hình Các kết quả được giữ trong một lưu đồ (histogram) để cải thiện sự nhất quán thời gian của việc phân loại

2.2.2 Phân loại dựa trên chuyển động (Motion- based Classification)

Một số phương pháp trong một số bài viết chỉ sử dụng các đặc trưng chuyển động theo thời gian của các đối tượng để thừa nhận các lớp của chúng [4], [21], [8] Một cách tổng quát, chúng được dùng để phân biệt các đối tượng cứng (như xe cộ) và không cứng (như người) Phương pháp này dựa trên cơ sở tính chất đặc biệt theo thời gian của các đối tượng chuyển động

Phương pháp phân loại phát triển bởi Y Bogomolov [3] xây dựng hệ thống trích rút các đặc trưng chuyển động từ các đường viền đích (Hình 2.18)

Hình 2.18: Các đường viền của mục tiêu được sử dụng cho việc trích rút các đặc trưng chuyển động Các đặc trưng phụ thuộc thời gian tác động đáng kể tới lượng thông tin cho sự toàn vẹn của một đối tượng Ví dụ tính chu kỳ của dáng đi của người rất hữu ích cho việc phân biệt một người đang đi với một chiếc ô tô đang chuyển động Tuy nhiên, các ràng buộc thời gian thực cho phép chúng ta làm việc ít hơn, đơn giản hơn, các đặc trưng phụ thuộc thời gian

Hình 2.19: (a) Elip vừa khớp (fitted elipse) (b) Khung hình sao

(c) Biểu đồ luồng phân loại

Sử dụng một tìm kiếm toàn diện chúng ta sẽ tìm được một tập con tối ưu tám đặc trưng được dựa trên các thuộc tính hình học của hình elip đều (Hình 2.19 (a)) và khung hình sao (Hình 2.19 (b)) được tạo bằng cách kết nối trung điểm của khối của đối tượng chuyển động với các điểm đường viền tương ứng với các cực đại cục bộ của hàm đo khoảng cách giữa đường viền với tâm khối Các đặc trưng sử dụng cho mô tả của các đặc tính thời gian của chuyển động bao gồm, ví dụ: độ nghiêng của trục nằm ngang của elip (ví dụ: góc 0 then csum+=hn[i] if csum≥ then lb=csum-hn[i]+1, ub=csum break end if end if end for return i, lb, ub

Tương tự như giải thuật chọn histogram ban đầu, khi hàm cộng dồn của histogram (csum) đạt tới giá trị ở giữa, lb có thể thu được bằng lb=csum-hn[i]+1, trong đó hn[i] là giá trị của histogram chỉ mục và ub bằng với csum Hình 3.4 chỉ ra một ví dụ hàm cộng dồn của histogram, và hiển nhiên giá trị ở giữa thỏa mãn điều kiện Chúng ta kiểm tra điều kiện để phát triển sơ đồ kiểm tra sự lặp lại

Hình 3.4 Ví dụ hàm cộng dồn của histogram

Tập dữ liệu chứa dữ liệu pixel trong N frame trước đó của frame thứ k Tập dữ liệu kế tiếp cho frame thứ (k+1) là:

{ } Trong đó, là dữ liệu pixel của frame thứ k Sự khác nhau của và là và Sự khác nhau này cho thấy rằng và có sự tương quan cao Do đó, nó có thể là giá trị trung vị (median) của hai tập dữ liệu bằng nhau, ta gọi là sự lặp lại giá trị trung vị Do đó, việc kiểm tra sự lặp lại của giá trị median giữa hai frame liên tiếp hứa hẹn sẽ giảm đáng kể về thời gian tính giá trị median

Chèn vào và xóa từ để thu được

{ } ( ) // gọi hàm repchk() để kiểm tra sự lặp lại if tf then

// nếu việc kiểm tra sự lặp lại là đúng else

{ } = medhist_bnd( ) // nếu việc kiểm tra sự lặp lại là sai endif return

Cho tập dữ liệu và các tham số của frame thứ k, và Thuật toán kiểm tra sự lặp lại đầu tiên sẽ tính toán tham số của frame kế tiếp, và Sự liên hệ giữa và cũng gồm 3 trường hợp Do đó, hai sự liên hện này tạo thành 9 phép hoán vị, nó được sử dụng để tính toán và từ và Cuối cùng, nếu , giá trị median của frame kế tiếp bằng với frame hiện hành,

HIỆN THỰC HỆ THỐNG

Tập dữ liệu

Để chứng tỏ tính hiệu quả của giải thuật đề xuất trong phân loại đối tượng, Luận văn dùng tập dữ liệu chuẩn PETS 2001 để test và đánh giá PETS là tập dữ liệu về video dành cho lĩnh vực thị giác máy tính Tập dữ liệu này được phân thành hai loại: TRAINING và TESTING Ở đây luận văn dùng hai video trong tập TRAINING 1 (PETS D1Trai1.avi, PETS D1Trai2.avi) để huấn luyện Mỗi đoạn video training có độ dài là 122s Và dùng 4 video trong TESTING 1 (PETS D1Tes1.avi, PETS D1Tes2.avi) và TESTING 2 (PETS D2Tes1.avi, PETS D2Tes2.avi) để phân loại Mỗi đoạn video testing có độ dài là 112s Các video này có góc nhìn khác nhau trong cùng một cảnh giám sát

Hai video huấn luyện trong tập Training 1 có góc nhìn đặt camera ở hai vị trí khác nhau

Hình 4.1: Hai video huấn luyện với góc nhìn khác nhau trong cùng một cảnh giám sát Bốn video kiểm thử trong tập Testing 1 và Testing 2 có góc nhìn đặt camera ở bốn vị trí khác nhau

Hình 4.2: Bốn video dùng để phân lớp với góc nhìn khác nhau

Ngoài ra, luận văn còn test trên một video được quay trong cảnh thực Video này được quay trước Khoa Xây dựng, trường Đại học Bách Khoa Tp HCM

Hình 4.3: Video dùng để phân lớp trong cảnh thực Để chứng tỏ tính chính xác của việc phân loại các đối tượng trong luận văn Luận văn test trên tập dữ liệu với các góc nhìn đặt camera khác nhau, do đó có thể xét hết các trường hợp đối tượng có hình dạng khác nhau

Hình 4.4: Ví dụ một số đối tượng phân loại có góc nhìn quan sát khác nhau

Kết quả thực nghiệm và đánh giá

Chương trình được hiện thực bằng ngôn ngữ C++ trên Microsoft Visual Studio 2012 Chương trình có sử dụng một số thư viện như: Opencv-2.4.3, bgslibrary, cvblob-0.10.4, google-diff-match-patch Kết quả kiểm thử của luận văn thu được trên máy tính laptop Sony Vaio VGN-CS36GJ có cấu hình như sau:

 Bộ vi xử lý: Intel(R) Core(TM) 2 Duo Processor P8700 2.53GHz

 Hệ điều hành: Window 8 Ultimate 64-bit

4.2.1 Phát hiện đối tượng chuyển động

Luận văn sử dụng phương pháp Fast temporal median filter để phát hiện đối tượng chuyển động (Hình 4.5) Với thông số được cài đặt: tham số ngưỡng: pixelDiffThreshold = 101 , tổng số pixel: totalPixels = 40 Thời gian xử lý của phương pháp tương đối tốt, các đối tượng được phát hiện tương đối rõ ràng Vì vậy, kết quả phát hiện đối tượng phù hợp làm dữ liệu đầu vào cho các bước xử lý sau này

Hình 4.5: Phát hiện đối tượng chuyển động Sau đây là bảng đánh giá kết quả phát hiện đối tượng trong từng đoạn video trong tập dữ liệu huấn luyện

Video Số người thực tế Số người được phát hiện Precision

Bảng 4.1: Bảng đánh giá kết quả thực nghiệm trong việc phát hiện đối tượng chuyển động khi sử dụng phương pháp Temporal Median Filter

Sau đây là kết quả phát hiện đối tượng chuyển động khi chạy với video training PETS D1Trai1 và PETS D1Trai2

Hình 4.6: Kết quả phát hiện đối tượng chuyển động khi chạy với video training

Hình 4.7: Kết quả phát hiện đối tượng chuyển động khi chạy với video PETS

Kết quả thu được trong việc phát hiện đối tượng chuyển động là tương đối tốt Tất cả các đối tượng đều được phát hiện Tuy nhiên trong một vài trường hợp sau thì việc phát hiện đối tượng sẽ không chính xác:

- Đối với một số vật có sự chuyển động bị ảnh hưởng của môi trường: gió, ánh sáng,… có thể bị phát hiện nhầm như: các cây xanh có lá rung rinh, ánh sáng thay đổi đột ngột, …

- Ngoài ra hệ thống cũng khó phát hiện được những đối tượng ở quá xa so với camera giám sát, có ít sự thay đổi chuyển động, …

4.2.2 Phân loại đối tượng chuyển động

Dữ liệu phần này được thu thập dưới dạng video gồm hai phần: tập video huấn luyện (PETS D1Trai1.avi, PETS D1Trai2.avi) và các video kiểm tra (PETS D1Tes1.avi, PETS D1Tes2.avi, PETS D2Tes1.avi, PETS D2Tes2.avi và một video trong môi trường cảnh thực Tes3.avi) Tập dữ liệu ảnh huấn luyện được trích ra từ các video huấn luyện Video kiểm tra gồm nhiều video, với nhiều ngữ cảnh khác nhau

Bảng 4.2: Kết quả của việc phân loại đối tượng bằng phương pháp phân lớp SVM đối với bộ dữ liệu

Do luận văn chủ yếu phân loại hai đối tượng là người và xe nên trong quá trình thử nghiệm kết quả, luận văn chỉ xét hai loại đối tượng này để đưa ra kết quả khách quan trong phạm vi giới hạn của luận văn Độ chính xác được thể hiện ở bảng trên

Bảng 4.2 thống kê kết quả phân loại trên tập dữ liệu test Bảng thống kê này gồm Groundtruth của tập dữ liệu và kết quả phân loại cho người (Human) và xe (Vehicles), gồm true positives (phân loại đúng) và false positives (phân loại sai) Phép đo độ chính xác được định nghĩa như sau:

Với: - Total number of true positives: tổng số đối tượng phân loại đúng

- Total number of grounthtruth: tổng số đối tượng

Hình 4.8: Kết quả phân loại khi chạy với video PETS D1Tes1.avi

Video PETS D1Tes1 gồm 9 đối tượng là người và 3 đối tượng là xe Kết quả phân loại đối tượng trong video này là 91,7 % Đây là kết quả phân loại chính xác nhất trong tập dữ liệu testing PETS 2001

Hình 4.9: Kết quả phân loại khi chạy với video PETS D1Tes2.avi

Video PETS D1Tes2 gồm 11 đối tượng là người và 3 đối tượng là xe Kết quả phân loại đối tượng trong video này là 64,3 %

Hình 4.10: Kết quả phân loại khi chạy với video PETS D2Tes1.avi

Video PETS D2Tes1 gồm 10 đối tượng là người và 6 đối tượng là xe Kết quả phân loại đối tượng trong video này là 81,3 %

Hình 4.11: Kết quả phân loại khi chạy với video PETS D2Tes2.avi

Video PETS D2Tes2 gồm 7 đối tượng là người và 2 đối tượng là xe Kết quả phân loại đối tượng trong video này là 88,9 %

Hình 4.12: Kết quả phân loại khi chạy với video trong cảnh thực Tes3.avi Video Tes3 chỉ gồm 6 đối tượng là người và không có đối tượng nào là xe Kết quả phân loại đối tượng trong video này là 99,9%

Tóm lại, phân loại đối tượng trong các hình ảnh video là một vấn đề tương đối khó Mỗi phương pháp có ưu và nhược điểm riêng phù hợp với từng hoàn cảnh, bài toán khác nhau Để đạt được hiệu quả tốt, ta cần phân tích bài toán, hoàn cảnh cụ thể và lựa chọn phương pháp thích hợp

Trong luận văn này, tôi áp dụng bộ phân lớp SVM cùng với các đặc trưng dựa vào hình dạng kết hợp với đặc trưng dựa vào chuyển động Kết quả phân loại cho thấy độ chính xác khá cao Tuy nhiên tốc độ xử lý còn khá chậm do chi phí trong việc tính toán các đặc trưng, huấn luyện là tương đối lớn Để cho mô hình SVM được chính xác và hiệu quả thì phụ thuộc rất nhiều vào tập dữ liệu huấn luyện Tập dữ liệu này phải thu thập đủ lớn và khách quan Một điều quan trọng nữa là kết quả của phương pháp này phụ thuộc rất lớn vào bưóc phát hiện đối tượng chuyển động Do đó trong các trường hợp mà đối tượng được phát hiện sai thì việc phân loại đối tượng sẽ không còn chính xác.

TỔNG KẾT

Kết luận

Luận văn đã đạt được các kết quả như sau:

 Tìm hiểu xong lý thuyết về các loại video, các loại chuyển động, các phương pháp biểu diễn đối tượng

 Khảo sát và đánh giá các công trình nghiên cứu liên quan đến phân loại đối tượng trong đoạn video

 Đề xuất ra giải pháp và xây dựng hoàn chỉnh hệ thống phân loại đối tượng chuyển động trong đoạn video gồm các bước từ phát hiện đối tượng chuyển động, rút trích các đặc trưng, huấn luyện và phân loại đối tượng

 Đề xuất hướng nghiên cứu phát triển trong tương lai

5.1.2 Ưu điểm và nhược điểm

 Kết quả phân loại khá tốt trong điều kiện ánh sáng ban ngày và cả trong các trường hợp có góc nhìn quan sát khác nhau

 Thời gian phân loại đối tượng nhanh

 Đưa ra so sánh và đánh giá cho các phương pháp được lựa chọn

Tuy nhiên luận văn còn tồn tại các hạn chế:

 Tốc độ xử lý còn hơi chậm

 Chưa xử lý hết được hoàn toàn nhiễu do sự thay đổi của ánh sáng, môi trường

 Chỉ phân loại được hai loại đối tượng chính là người (human) và xe (vehicle) Hệ thống chưa thực hiện phân loại các đối tượng khác như: nhóm người, xe đạp, xe gắn máy,…

Hướng phát triển trong tương lai

Hướng phát triển của luận văn cụ thể là khắc phục các hạn chế vừa nêu ở trên, cụ thể là:

 Tối ưu hóa xử lý để đạt thời gian thực

 Nghiên cứu và cải tiến các kỹ thuật giải quyết bài toán nhằm đạt được hiệu quả và tính chính xác cao nhất

 Phát hiện được đa dạng các loại đối tượng với nhiều ngữ cảnh khác nhau

 Từ luận văn phân loại đối tượng chuyển động trong đoạn video này, từ đó có thể tích hợp vào hệ thống giám sát giao thông tự động.

Ngày đăng: 09/09/2024, 16:19

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Võ Sỹ Bắc, Đỗ Huy Hoàng, Nguyễn Xuân Tường Huy, and Nguyễn Hoàng Vũ, “Báo cáo đề tài phân lớp và dự đoán,” pp. 80-91 Sách, tạp chí
Tiêu đề: Báo cáo đề tài phân lớp và dự đoán
[2] V. Caselles, et al., “Geodesic Active Contours”, International Journal of Computer Vision, Vol. 22, No. 1, 1997, pp. 61-79 Sách, tạp chí
Tiêu đề: Geodesic Active Contours
[3] Bogomolov Y., Dror G., Lapchev S. et al, “Classification of Moving Targets Based on Motion and Appearance”, British Machine Vision Conference, 2003, 2, pp. 429-438 Sách, tạp chí
Tiêu đề: Classification of Moving Targets Based on Motion and Appearance
[4] L. D. Cohen, “On active contour models and balloons,” CVGIP: Image Understanding, vol. 53, no. 2, 1991, pp. 211–218 Sách, tạp chí
Tiêu đề: On active contour models and balloons
[5] J. Canny, “A computational approach to edge detection,” IEEE Trans. Pattern Anal. Machine lntell., Vol. PAMI-8, Nov. 1986, pp. 679-698 Sách, tạp chí
Tiêu đề: A computational approach to edge detection
[6] Javed, O. and Shah, M., “Tracking and Object Classification for Automated Surveillance,” ECCV, 2002, pp. 343–357 Sách, tạp chí
Tiêu đề: Tracking and Object Classification for Automated Surveillance
[7] R. Goldenberg et al., “Fast Geodesic Active Contours,” IEEE Trans. Image Processing, vol.10, no. 10, 2001, pp. 1467–1475 Sách, tạp chí
Tiêu đề: Fast Geodesic Active Contours
[8] Li Zhihua et al, “High efficient moving object extraction and classification in traffic video surveillance”, Syst. Eng. Electron. 20(4), 2009, pp. 858-868 Sách, tạp chí
Tiêu đề: High efficient moving object extraction and classification in traffic video surveillance
[9] Tsuchiya M and Fujiyoshi H, “Evaluating feature importance for object classification in visual surveillance”, Proc. of the 18th IEEE International Conference on Pattern Recognition, 2006, pp. 978–981 Sách, tạp chí
Tiêu đề: Evaluating feature importance for object classification in visual surveillance
[10] A. Jaimes and Shin-Fu Chang, “Integrating multiple classifiers in visual object detectors learned from user input”, In ACCV 2000, Taiwan, January 8-12, 2000 Sách, tạp chí
Tiêu đề: Integrating multiple classifiers in visual object detectors learned from user input
[11] A. J. Lipton et al, “Moving target classification and tracking from real-time video”, In Proc. of Workshop Applications of Computer Vision, 1998, pp. 129–136 Sách, tạp chí
Tiêu đề: Moving target classification and tracking from real-time video
[12] R. T. Collins et al, “A system for video surveillance and monitoring: VSAM fi- nal report”, Technical report CMU-RI-TR-00-12, Robotics Institute, Carnegie Mellon University, 2000 Sách, tạp chí
Tiêu đề: A system for video surveillance and monitoring: VSAM fi-nal report
[13] M. Hung et al, “Speed Up Temporal Median Filter for Background Subtraction”, International Conference on Pervasive Computing, Signal Processing and Applications, 2010, pp. 297-300 Sách, tạp chí
Tiêu đề: Speed Up Temporal Median Filter for Background Subtraction
[14]Navneet Dalal and Bill Triggs, “Histograms of Oriented Gradients for Human Detection,” 2005, p. 6 Sách, tạp chí
Tiêu đề: Histograms of Oriented Gradients for Human Detection
[15]Paul Viola and Michael Jones, “Rapid Object Detection using a Boosted Cascade of Simple Features,” 2001, pp. 2-3 Sách, tạp chí
Tiêu đề: Rapid Object Detection using a Boosted Cascade of Simple Features
[16]Jiawei Han and Micheline Kamber, “Data Mining Concepts and Techniques,” 2001, pp. 337-344 Sách, tạp chí
Tiêu đề: Data Mining Concepts and Techniques
[18]Paul Viola and Michael Jones, “Robust Real-time Object Detection,” pp. 4-6 Sách, tạp chí
Tiêu đề: Robust Real-time Object Detection
[19] M. Piccardi, “Background subtraction techniques: a review”, In Proc.of IEEE International Conference on Systems, Man and Cybernetics, Vol. 4, 2004, pp. 3099- 3104 Sách, tạp chí
Tiêu đề: Background subtraction techniques: a review
[20] Wei Jiang, “Human Feature Extraction in VS image Using HOG Algorithm” Sách, tạp chí
Tiêu đề: Human Feature Extraction in VS image Using HOG Algorithm
[21] J. L. Barron, D. J. Fleet, and S. S. Beauchemin, “Performance of optical flow techniques,” International Journal of Computer Vision, 2004, pp. 43–77 Sách, tạp chí
Tiêu đề: Performance of optical flow techniques

HÌNH ẢNH LIÊN QUAN

Hình 2.1: Mô hình các bài toán cần giải quyết trong hệ thống giám sát - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Hình 2.1 Mô hình các bài toán cần giải quyết trong hệ thống giám sát (Trang 17)
Hình 2.7: Xử lý các vùng ảnh nổi (Foreground Processing) - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Hình 2.7 Xử lý các vùng ảnh nổi (Foreground Processing) (Trang 22)
Hình 2.9: Optical flow - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Hình 2.9 Optical flow (Trang 26)
Hình 2.10: Đường màu vàng trên hình là đường phân chia đối với tập dữ liệu gồm - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Hình 2.10 Đường màu vàng trên hình là đường phân chia đối với tập dữ liệu gồm (Trang 29)
Hình 2.11: Một bộ dữ liệu hai chiều được phân chia tuyến tính. - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Hình 2.11 Một bộ dữ liệu hai chiều được phân chia tuyến tính (Trang 30)
Hình 2.13: Các support vector trong SVM. Các support vector là những hình có - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Hình 2.13 Các support vector trong SVM. Các support vector là những hình có (Trang 32)
Hình 2.14: Một trường hợp đơn giản trên không gian 2 chiều. - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Hình 2.14 Một trường hợp đơn giản trên không gian 2 chiều (Trang 33)
Hình 2.15: Tổng quan của một hệ thống xác định và theo dõi. - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Hình 2.15 Tổng quan của một hệ thống xác định và theo dõi (Trang 35)
Hình 2.16: Dữ liệu phân loại bi- viriate mẫu training qua 400 ảnh. Cả phân cụm - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Hình 2.16 Dữ liệu phân loại bi- viriate mẫu training qua 400 ảnh. Cả phân cụm (Trang 36)
Hình 2.17: Quá trình phân loại, phải sau một vài khung hình đối tượng mới được - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Hình 2.17 Quá trình phân loại, phải sau một vài khung hình đối tượng mới được (Trang 36)
Hình 2.18: Các đường viền của mục tiêu được sử dụng cho việc trích rút các đặc - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Hình 2.18 Các đường viền của mục tiêu được sử dụng cho việc trích rút các đặc (Trang 37)
Hình 2.19: (a) Elip vừa khớp (fitted elipse)        (b) Khung hình sao - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Hình 2.19 (a) Elip vừa khớp (fitted elipse) (b) Khung hình sao (Trang 38)
Hình 3.1: Mô hình tổng quan của hệ thống - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Hình 3.1 Mô hình tổng quan của hệ thống (Trang 42)
Hình 3.3: Ví dụ về Temporal median filter  Các phương pháp của  phép tính giá trị trung vị (median) được phân thành 2  loại:  sort-based  và  selection-based - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Hình 3.3 Ví dụ về Temporal median filter Các phương pháp của phép tính giá trị trung vị (median) được phân thành 2 loại: sort-based và selection-based (Trang 44)
Hình 3.4. Ví dụ hàm cộng dồn của histogram - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Hình 3.4. Ví dụ hàm cộng dồn của histogram (Trang 46)
Hình 3.10: Lưu đồ bước phân loại đối tượng  Sau  khi  đã  rút  trích  đặc  trưng  cho  bộ  dữ  liệu  positve  và  negative  ta  sẽ  tiến  hành huấn luyện cho bộ phân lớp SVM - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Hình 3.10 Lưu đồ bước phân loại đối tượng Sau khi đã rút trích đặc trưng cho bộ dữ liệu positve và negative ta sẽ tiến hành huấn luyện cho bộ phân lớp SVM (Trang 52)
Hình 3.11: Quá trình phát hiện đối tượng bằng SVM và các đặc trưng dựa vào hình - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Hình 3.11 Quá trình phát hiện đối tượng bằng SVM và các đặc trưng dựa vào hình (Trang 53)
Hình 3.13: Hình chữ nhật bao quanh đối tượng phát hiện được - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Hình 3.13 Hình chữ nhật bao quanh đối tượng phát hiện được (Trang 55)
Hình 3.14: Kết quả cuối cùng của việc phân loại đối tượng - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Hình 3.14 Kết quả cuối cùng của việc phân loại đối tượng (Trang 56)
Hình 4.1: Hai video huấn luyện với góc nhìn khác nhau trong cùng một cảnh giám - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Hình 4.1 Hai video huấn luyện với góc nhìn khác nhau trong cùng một cảnh giám (Trang 57)
Hình 4.2: Bốn video dùng để phân lớp với góc nhìn khác nhau - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Hình 4.2 Bốn video dùng để phân lớp với góc nhìn khác nhau (Trang 58)
Hình 4.4: Ví dụ một số đối tượng phân loại có góc nhìn quan sát khác nhau - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Hình 4.4 Ví dụ một số đối tượng phân loại có góc nhìn quan sát khác nhau (Trang 59)
Bảng 4.1: Bảng đánh giá kết quả thực nghiệm trong việc phát hiện đối tượng - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Bảng 4.1 Bảng đánh giá kết quả thực nghiệm trong việc phát hiện đối tượng (Trang 60)
Hình 4.7: Kết quả phát hiện đối tượng chuyển động khi chạy với video PETS - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Hình 4.7 Kết quả phát hiện đối tượng chuyển động khi chạy với video PETS (Trang 61)
Bảng 4.2: Kết quả của việc phân loại đối tượng bằng phương pháp phân lớp SVM - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Bảng 4.2 Kết quả của việc phân loại đối tượng bằng phương pháp phân lớp SVM (Trang 62)
Hình 4.9: Kết quả phân loại khi chạy với video PETS D1Tes2.avi - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Hình 4.9 Kết quả phân loại khi chạy với video PETS D1Tes2.avi (Trang 63)
Hình 4.8: Kết quả phân loại khi chạy với video PETS D1Tes1.avi - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Hình 4.8 Kết quả phân loại khi chạy với video PETS D1Tes1.avi (Trang 63)
Hình 4.10: Kết quả phân loại khi chạy với video PETS D2Tes1.avi - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Hình 4.10 Kết quả phân loại khi chạy với video PETS D2Tes1.avi (Trang 64)
Hình 4.11: Kết quả phân loại khi chạy với video PETS D2Tes2.avi - Luận văn thạc sĩ Khoa học máy tính: Phân loại đối tượng chuyển động trong đoạn video
Hình 4.11 Kết quả phân loại khi chạy với video PETS D2Tes2.avi (Trang 64)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN