Việc xử lý của hệ thống giám sát thông minh tóm lại có thể hiểu là việc phân tích và xử lý hình ảnh video qua việc giải quyết các bài toán sau: Bài toán 1: Phát hiện các đối tượng chuyển
TỔNG QUAN VỀ ĐỀ TÀI
Giới thiệu đề tài
Hệ thống giám sát thông minh đang là bài toán thu hút nhiều sự quan tâm và nghiên cứu trong những năm gần đây Phát hiện, phân loại và theo dõi đối tượng chuyển động là các quá trình cơ bản trong quá trình xử lý hình ảnh – cốt lõi của hệ thống giám sát thông minh bằng hình ảnh Các quá trình này có quan hệ mật thiết với nhau, quyết định hiệu quả, tính chính xác của hệ thống giám sát thông minh
Nhờ các hệ thống xử lý ảnh, con người đã giảm được khối lượng công việc cũng như tăng sự chính xác trong việc đưa ra các quyết định liên quan đến xử lý hình ảnh trên nhiều lĩnh vực: Nhận dạng mặt người, nhận dạng vân tay trong điều tra hình sự, xử lý ảnh vệ tinh, kiểm soát giao thông, xử lý ảnh chụp cắt lớp, chuẩn đoán tế bào trong y học, các chương trình nhận dạng chữ viết… đã đem lại nhiều ứng dụng tiện ích cho con người, đặc biệt là ứng dụng cho hệ thống xử lý giao thông
Phân loại đối tượng chuyển động là chức năng cơ bản trong hệ thống giám sát thông minh Nó đang là một hướng nghiên cứu mới và nhu cầu thực tế cao như: đếm số loại phương tiện lưu thông trên đường trong giám sát giao thông, đếm số người trong lớp học, trong cửa hàng, công ty,…
Vì vậy, luận văn này sẽ tập trung nghiên cứu hiện thực đề tài: Phân loại đối tượng trong đoạn video.
Nội dung đề tài
Đề tài thực hiện hai nội dung chính:
Khảo sát và đánh giá các kỹ thuật phát hiện đối tượng chuyển động và phân loại đối tượng Tổng hợp các kết quả nghiên cứu nhằm tìm được phương pháp phù hợp với đề tài luận văn
Hiện thực chương trình và đánh giá kết quả đạt được trên các phương pháp đã nghiên cứu.
Giới hạn của đề tài
Luận văn chủ yếu tập trung vào hiện thực giai đoạn phân loại đối tượng nên việc xử lý nhiễu do ảnh hưởng của môi trường (gió, ánh sáng,…) vẫn chưa hoàn toàn xử lý hết Do đó, trong một vài trường hợp sẽ bị phát hiện đối tượng sai và dẫn đến kết quả phân loại không đúng
Mặt khác, do thời gian còn hạn chế nên luận văn chỉ mới phân loại được hai loại đối tượng: người và xe.
Ý nghĩa khoa học và thực tiễn
Hệ thống giám sát thông minh ngày càng phát triển do nhu cầu thực tế với các ứng dụng như: hệ thống camera cho nhà thông minh, ghi nhận các thông số giao thông, … Trong đó, phân loại đối tượng là khâu trung gian và đóng vai trò quan trọng trong toàn hệ thống, vì đây là đầu vào của khối theo vết đối tượng và cũng là đầu ra của toàn bộ hệ thống Bởi vậy đây cũng là một phần không thể thiếu trong toàn bộ hệ thống Phân loại đối tượng trong các hình ảnh video là một vấn đề tương đối khó vì nó có nhiều vấn đề cần được giải quyết Vì vậy, đề tài phân loại đối tượng trong đoạn video có ý nghĩa khoa học và thực tiễn như sau: Ý nghĩa khoa học:
Kết quả có thể dùng làm tài liệu tham khảo cho những ai có quan tâm đến phân loại đối tượng và là tiền đề cho những nghiên cứu sâu hơn trong các bài toán liên quan đến giao thông Ý nghĩa thực tiễn:
Kết quả đề tài sẽ giúp phát hiện được các đối tượng chuyển động dùng trong camera giám sát
Hướng nghiên cứu đề tài có thể mở rộng thêm các đặc trưng khác để tạo nên chương trình phân loại đối tượng phù hợp với thực tế.
Cấu trúc luận văn
Luận văn được tổ chức theo cấu trúc sau đây:
Chương 1: Giới thiệu tổng quan về đề tài gồm: giới thiệu đề tài, nội dung đề tài, giới hạn, ý nghĩa khoa học và thực tiễn của đề tài và cấu trúc luận văn
Chương 2: Trình bày một số kiến thức nền tảng: tổng quan về hệ thống giám sát thông minh và những lý thuyết căn bản về bộ huấn luyện dữ liệu Support Vector Machine (SVM) Và kết quả của các công trình nghiên cứu liên quan đến đề tài luận văn bao gồm: phân loại đối tượng dựa vào hình dạng, phân loại đối tượng dựa vào chuyển động và các phương pháp phân loại khác
Chương 3: Trình bày chi tiết hướng tiếp cận và giải thuật đề xuất của luận văn
Chương 4: Trình bày cách hiện thực hệ thống của luận văn gồm: tập dữ liệu huấn luyện và kiểm tra; kết quả phân loại và đánh giá trong từng bước
Chương 5: Tổng kết và trình bày một số kết luận về ưu điểm, khuyết điểm cũng như hướng phát triển của luận văn
Cuối cùng là phần liệt kê các tài liệu tham khảo trong quá trình nghiên cứu và hiện thực của luận văn.
CƠ SỞ LÝ THUYẾT VÀ CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN
Cơ sở lý thuyết
2.1.1 Hệ thống giám sát thông minh
Một hệ thống giám sát thông minh là một tập hợp các bài toán nhỏ Nhìn một cách tổng quan:
- Đầu vào của hệ thống sẽ là hình ảnh thu được tại các điểm quan sát
- Đầu ra của hệ thống sẽ là các thông tin về chuyển động, hành vi, lớp… của các đối tượng được giám sát
Việc xử lý của hệ thống giám sát thông minh tóm lại có thể hiểu là việc phân tích và xử lý hình ảnh video qua việc giải quyết các bài toán sau:
Bài toán 1: Phát hiện các đối tượng chuyển động là bước cơ bản đầu tiên trong bài toán phân tích hình ảnh video, công việc này khái quát lại đó là việc tách các các đối tượng chuyển động từ các hình ảnh nền của các đối tượng đó Phương pháp thường được sử dụng trong bài toán này đó là: phương pháp trừ ảnh nền, các phương pháp dựa trên thống kê, phương pháp chênh lệch tạm thời, và các phương pháp dựa trên luồng thị giác [4]
Bài toán 2: Phân lớp đối tượng là công việc phân loại ra các lớp đối tượng đã được tìm ra theo các lớp đã được định nghĩa trước như: Lớp người, lớp phương tiện, lớp động vật,… Đây là bước cần thiết để có thể tiếp tục phân tích các hoạt động của chúng Hiện tại có hai hướng chính tiếp cận để giải quyết bài toán này đó là: Hướng tiếp cận dựa trên hình dáng của các vết và hướng tiếp cận dựa trên chuyển động của các đối tượng Hướng tiếp cận dựa trên hình dáng của đối tượng hoàn toàn dựa vào các tính chất 2D của các vết tìm được, trong khi đó hướng tiếp cận dựa trên chuyển động của đối tượng dựa trên các tính chất chuyển động của đối tượng theo thời gian
Bài toán 3: Theo dõi đối tượng đó là công việc đưa ra một chuỗi các hành vi của đối tượng chuyển động trong một thời gian từ các khung hình thu được Thủ tục này đưa ra các thông tin về đối tượng được theo dõi như đường đi của đối tượng, tốc độ hay hướng chuyển động của đối tượng Từ đó có thể dự đoán được hành động của các đối tượng và mô tả được hành động của chúng Đầu vào của quá trình này đó là các đầu ra các quá trình tìm và phân lớp đối tượng chuyển động
Các bài toán này không những được nghiên cứu và áp dụng trong các hệ thống giám sát mà còn được áp dụng trong các lĩnh vực khác như: thực tại ảo, nén hình ảnh, giao diện người máy, biên tập video và cơ sở dữ liệu đa phương tiện, là các hướng tiếp cận phát triển công nghệ đa phương tiện trong tương lai
Mô hình khái quát chung cho hệ thống giám sát thông minh:
Hình 2.1: Mô hình các bài toán cần giải quyết trong hệ thống giám sát
Trên đây là mô hình tuần tự các bước giải quyết trong một bài toán giám sát bằng hình ảnh Luận văn thực hiện giải quyết hai bài toán trong hệ thống giám sát thông minh gồm: Phát hiện đối tượng (Object Detection) và phân loại đối tượng (Object Classification) Đầu vào của bài toán là các khung hình video thu được Qua quá trình xử lý phát hiện đối tượng chuyển động (Object Detection) sẽ đưa ra các đối tượng chuyển động trong các khung hình video Các đối tượng được phát hiện (cụ thể là các vết chuyển động) sẽ qua quá trình phân lớp đối tượng (Object Classification) để phân
THÔNG TIN ĐỐI TƯỢNG CHUYỂN ĐỘNG lớp các đối tượng đó thuộc lớp nào, sự vật nào Và cuối cùng là quá trình xử lý để theo dõi đối tượng (Object Tracking) đó là việc tìm ra đường chuyển động của đối tượng, dự đoán chuyển động, và việc xử lý các nhập nhằng trong chuyển động của nhiều đối tượng khác nhau trong một đoạn video
Từ các khung hình thu được ở các nơi quan sát, qua khối xử lý phát hiện đối tượng chuyển động sẽ xác định được đâu là đối tượng chuyển động Cụ thể hơn, có thể chỉ ra được các đối tượng chuyển động trong đoạn video thu được một cách trực quan Đầu ra của quá trình này sẽ là các vết, hình dạng của đối tượng chuyển động để làm đầu vào của khối phân loại đối tượng chuyển động
Khối xử lý phát hiện đối tượng chuyển động có thể coi là khối xử lý đầu tiên trong hệ thống giám sát thông minh bằng hình ảnh Vì hiệu quả, tính chính xác của khối xử lý này sẽ ảnh hưởng đến đầu vào và đầu ra của các khối xử lý tiếp theo Chính vì thế nó ảnh hưởng lớn đến hiệu quả và tính tin cậy của toàn hệ thống giám sát thông minh
Phân loại đối tượng là khâu trung gian và đóng vai trò quan trọng trong toàn hệ thống, vì đây là đầu vào của khối theo vết đối tượng và cũng là đầu ra của toàn bộ hệ thống Bởi vậy đây cũng là một phần không thể thiếu trong toàn bộ hệ thống Vấn đề này đã được nghiên cứu và phát triển trong nhiều năm, song hướng phát triển hoàn thiện các khối xử lý phát hiện, phân loại và theo dõi đối tượng chuyển động vẫn đang được quan tâm Các hướng tiếp cận mới nhằm phát hiện, phân loại và theo dõi các đối tượng một cách hiệu quả, tính chính xác cao nhất với điều kiện môi trường, hoàn cảnh giám sát khác nhau Ở đây luận văn tốt nghiệp tập trung trình bày các nghiên cứu và thực nghiệm về bài toán phát hiện, phân loại đối tượng chuyển động trong hệ thống theo dõi, giám sát thông minh bằng video với hiệu quả tính chính xác cao
Bài toán phát hiện đối tượng chuyển động Đầu vào của bài toán phát hiện đối tượng chuyển động như đã trình bày ở trên đó là các khung hình video [5] thu được từ các điểm quan sát, theo dõi Như vậy để có thể giải quyết bài toán phát hiện đối tượng chuyển động ta cần nghiên cứu một số đặc điểm của video (đầu vào của bài toán)
Các khái niệm cơ bản về video
Video là tập hợp các khung hình, mỗi khung hình là một ảnh Shot (lia) là đơn vị cơ sở của video Một lia là một đơn vị vật lý của dòng video, gồm các chuỗi các khung hình liên tiếp, không thể chia nhỏ hơn, ứng với một thao tác camera đơn Scene (cảnh) là các đơn vị logic của dòng video, một cảnh gồm các lia liên quan về không gian và liền kề về thời gian, cùng mô tả một nội dung ngữ nghĩa hoặc một tình tiết
Hình 2.2: Cấu trúc phân đoạn video Khi phim được chiếu, các khung hình lần lượt được hiển thị ở tốc độ nhất định Tốc độ thường thấy ở các định dạng video khác nhau là 30 và 25 hình/s Như vậy một giờ video sẽ có số khung hình tương ứng là 108000 hoặc là 90000 Dù là video ở định dạng nào thì nó cũng có dung lượng rất lớn và nếu xử lý với tất cả các khung hình thì thật không hiệu quả
Phân đoạn là quá trình phân tích và chia nội dung hình ảnh video thành các đơn vị cơ sở gọi là các lia (shot) Việc lấy mẫu chính là chọn gần đúng một khung video đại diện cho mỗi lia (hoặc nhiều hơn tùy theo mức độ phức tạp của nội dung hình ảnh của lia) và được gọi là các khung-khóa [5]
Khung – khóa là khung hình đại diện mô tả nội dung chính của shot
Quá trình phân đoạn dữ liệu video tiến hành phân tích, phát hiện sự chuyển đổi từ lia này sang lia khác hay chính là sự phát hiện ranh giới giữa các lia (đó chính là đo sự khác nhau giữa các khung hình liền kề) Trong hình dưới đây là ví dụ về sự chuyển đổi giữa các lia:
Hình 2.3: Chuyển đổi Lia giữa khung hình thứ 3 và thứ 4 Một số thuộc tính đặc trưng của video:
Video có 4 đặc trưng chính đó là: Color (màu), Texture (kết cấu), Shape (hình dạng), Motion (chuyển động) a) Color
Các công trình nghiên cứu liên quan
Phần này sẽ trình bày về các nghiên cứu đã được tiến hành liên quan đến nhận dạng hành vi con người
2.2.1 Phân loại dựa trên hình dạng (Shape- based Classification)
Cấu trúc tổng quan của phương pháp:
Hình 2.15: Tổng quan của một hệ thống xác định và theo dõi
Các đặc trưng thông thường được sử dụng trong việc phân loại dựa trên hình dạng là hình bao, diện tích, hình chiếu, và gradient của các vùng đối tượng phát hiện được
Cách tiếp cận trong [11] sử dụng độ dài đường viền hình chiếu của đối tượng và thông tin về diện tích để phân loại các đối tượng phát hiện được vào ba nhóm: người, xe cộ, và các loại khác Phương pháp xuất phát từ giả thuyết người nhỏ hơn các phương tiện (xe cộ) và có các hình dạng phức tạp Độ phân tán (dispersedness) được sử dụng như độ đo phân loại và nó được định nghĩa dưới dạng diện tích và độ dài (chu vi) đường viền như sau:
Một cách rõ ràng, một người, với hình dạng phức tạp hơn của nó, sẽ có độ phân tán lớn hơn một phương tiện Hình 2.16 chỉ sự phân bố của một mẫu học (training sample) của hơn 400 mục tiêu Ngoài ra, nó cũng chỉ ra một phân đoạn tuyến tính (linear segmentation) và một phân đoạn dựa trên khoảng cách Mahalanobis (Mahalanobis distance- based segmentation) - cái mà cung cấp một phương pháp phân đoạn tốt hơn cho mục đích phân loại
Hình 2.16: Dữ liệu phân loại bi- viriate mẫu training qua 400 ảnh Cả phân cụm tuyến tính và Mahalanobis đều được biểu diễn Một lợi ích của phương pháp này là nếu một đối tượng bị chồng chéo tạm thời, nó sẽ không ảnh hưởng bất lợi tới kết quả phân loại cuối cùng Hình 2.17 chỉ ra một tình huống trong đó một đối tượng bị phân loại sai bởi vì bị chồng chéo một phần, nhưng sau khi qua một khoảng thời gian, những số liệu thống kê phân loại sẽ phân loại lại nó một cách chính xác
Hình 2.17: Quá trình phân loại, phải sau một vài khung hình đối tượng mới được xác định đúng
Việc phân loại được thực hiện tại mỗi khung hình và các kết quả theo dõi đuợc sử dụng để cải thiện sự nhất quán thời gian của việc phân loại
Phương pháp phân loại phát triển bởi Collins [12] sử dụng các đặc trưng trực quan phụ thuộc của các đối tượng để huấn luyện một bộ lọc mạng nơron nhận biết bốn lớp đối tượng: người, nhóm người, xe cộ và các loại khác Đầu vào của mạng nơron là độ phân tán, diện tích và tỉ lệ bề ngoài của vùng đối tượng và độ phóng đại của camera Giống như phương pháp trước, việc phân loại được thực hiện tại mỗi khung hình Các kết quả được giữ trong một lưu đồ (histogram) để cải thiện sự nhất quán thời gian của việc phân loại
2.2.2 Phân loại dựa trên chuyển động (Motion- based Classification)
Một số phương pháp trong một số bài viết chỉ sử dụng các đặc trưng chuyển động theo thời gian của các đối tượng để thừa nhận các lớp của chúng [4], [21], [8] Một cách tổng quát, chúng được dùng để phân biệt các đối tượng cứng (như xe cộ) và không cứng (như người) Phương pháp này dựa trên cơ sở tính chất đặc biệt theo thời gian của các đối tượng chuyển động
Phương pháp phân loại phát triển bởi Y Bogomolov [3] xây dựng hệ thống trích rút các đặc trưng chuyển động từ các đường viền đích (Hình 2.18)
Hình 2.18: Các đường viền của mục tiêu được sử dụng cho việc trích rút các đặc trưng chuyển động Các đặc trưng phụ thuộc thời gian tác động đáng kể tới lượng thông tin cho sự toàn vẹn của một đối tượng Ví dụ tính chu kỳ của dáng đi của người rất hữu ích cho việc phân biệt một người đang đi với một chiếc ô tô đang chuyển động Tuy nhiên, các ràng buộc thời gian thực cho phép chúng ta làm việc ít hơn, đơn giản hơn, các đặc trưng phụ thuộc thời gian
Hình 2.19: (a) Elip vừa khớp (fitted elipse) (b) Khung hình sao
(c) Biểu đồ luồng phân loại
Sử dụng một tìm kiếm toàn diện chúng ta sẽ tìm được một tập con tối ưu tám đặc trưng được dựa trên các thuộc tính hình học của hình elip đều (Hình 2.19 (a)) và khung hình sao (Hình 2.19 (b)) được tạo bằng cách kết nối trung điểm của khối của đối tượng chuyển động với các điểm đường viền tương ứng với các cực đại cục bộ của hàm đo khoảng cách giữa đường viền với tâm khối Các đặc trưng sử dụng cho mô tả của các đặc tính thời gian của chuyển động bao gồm, ví dụ: độ nghiêng của trục nằm ngang của elip (ví dụ: góc 0 then csum+=hn[i] if csum≥ then lb=csum-hn[i]+1, ub=csum break end if end if end for return i, lb, ub
Tương tự như giải thuật chọn histogram ban đầu, khi hàm cộng dồn của histogram (csum) đạt tới giá trị ở giữa, lb có thể thu được bằng lb=csum-hn[i]+1, trong đó hn[i] là giá trị của histogram chỉ mục và ub bằng với csum Hình 3.4 chỉ ra một ví dụ hàm cộng dồn của histogram, và hiển nhiên giá trị ở giữa thỏa mãn điều kiện Chúng ta kiểm tra điều kiện để phát triển sơ đồ kiểm tra sự lặp lại
Hình 3.4 Ví dụ hàm cộng dồn của histogram
Tập dữ liệu chứa dữ liệu pixel trong N frame trước đó của frame thứ k Tập dữ liệu kế tiếp cho frame thứ (k+1) là:
{ } Trong đó, là dữ liệu pixel của frame thứ k Sự khác nhau của và là và Sự khác nhau này cho thấy rằng và có sự tương quan cao Do đó, nó có thể là giá trị trung vị (median) của hai tập dữ liệu bằng nhau, ta gọi là sự lặp lại giá trị trung vị Do đó, việc kiểm tra sự lặp lại của giá trị median giữa hai frame liên tiếp hứa hẹn sẽ giảm đáng kể về thời gian tính giá trị median
Chèn vào và xóa từ để thu được
{ } ( ) // gọi hàm repchk() để kiểm tra sự lặp lại if tf then
// nếu việc kiểm tra sự lặp lại là đúng else
{ } = medhist_bnd( ) // nếu việc kiểm tra sự lặp lại là sai endif return
Cho tập dữ liệu và các tham số của frame thứ k, và Thuật toán kiểm tra sự lặp lại đầu tiên sẽ tính toán tham số của frame kế tiếp, và Sự liên hệ giữa và cũng gồm 3 trường hợp Do đó, hai sự liên hện này tạo thành 9 phép hoán vị, nó được sử dụng để tính toán và từ và Cuối cùng, nếu , giá trị median của frame kế tiếp bằng với frame hiện hành,
HIỆN THỰC HỆ THỐNG
Tập dữ liệu
Để chứng tỏ tính hiệu quả của giải thuật đề xuất trong phân loại đối tượng, Luận văn dùng tập dữ liệu chuẩn PETS 2001 để test và đánh giá PETS là tập dữ liệu về video dành cho lĩnh vực thị giác máy tính Tập dữ liệu này được phân thành hai loại: TRAINING và TESTING Ở đây luận văn dùng hai video trong tập TRAINING 1 (PETS D1Trai1.avi, PETS D1Trai2.avi) để huấn luyện Mỗi đoạn video training có độ dài là 122s Và dùng 4 video trong TESTING 1 (PETS D1Tes1.avi, PETS D1Tes2.avi) và TESTING 2 (PETS D2Tes1.avi, PETS D2Tes2.avi) để phân loại Mỗi đoạn video testing có độ dài là 112s Các video này có góc nhìn khác nhau trong cùng một cảnh giám sát
Hai video huấn luyện trong tập Training 1 có góc nhìn đặt camera ở hai vị trí khác nhau
Hình 4.1: Hai video huấn luyện với góc nhìn khác nhau trong cùng một cảnh giám sát Bốn video kiểm thử trong tập Testing 1 và Testing 2 có góc nhìn đặt camera ở bốn vị trí khác nhau
Hình 4.2: Bốn video dùng để phân lớp với góc nhìn khác nhau
Ngoài ra, luận văn còn test trên một video được quay trong cảnh thực Video này được quay trước Khoa Xây dựng, trường Đại học Bách Khoa Tp HCM
Hình 4.3: Video dùng để phân lớp trong cảnh thực Để chứng tỏ tính chính xác của việc phân loại các đối tượng trong luận văn Luận văn test trên tập dữ liệu với các góc nhìn đặt camera khác nhau, do đó có thể xét hết các trường hợp đối tượng có hình dạng khác nhau
Hình 4.4: Ví dụ một số đối tượng phân loại có góc nhìn quan sát khác nhau
Kết quả thực nghiệm và đánh giá
Chương trình được hiện thực bằng ngôn ngữ C++ trên Microsoft Visual Studio 2012 Chương trình có sử dụng một số thư viện như: Opencv-2.4.3, bgslibrary, cvblob-0.10.4, google-diff-match-patch Kết quả kiểm thử của luận văn thu được trên máy tính laptop Sony Vaio VGN-CS36GJ có cấu hình như sau:
Bộ vi xử lý: Intel(R) Core(TM) 2 Duo Processor P8700 2.53GHz
Hệ điều hành: Window 8 Ultimate 64-bit
4.2.1 Phát hiện đối tượng chuyển động
Luận văn sử dụng phương pháp Fast temporal median filter để phát hiện đối tượng chuyển động (Hình 4.5) Với thông số được cài đặt: tham số ngưỡng: pixelDiffThreshold = 101 , tổng số pixel: totalPixels = 40 Thời gian xử lý của phương pháp tương đối tốt, các đối tượng được phát hiện tương đối rõ ràng Vì vậy, kết quả phát hiện đối tượng phù hợp làm dữ liệu đầu vào cho các bước xử lý sau này
Hình 4.5: Phát hiện đối tượng chuyển động Sau đây là bảng đánh giá kết quả phát hiện đối tượng trong từng đoạn video trong tập dữ liệu huấn luyện
Video Số người thực tế Số người được phát hiện Precision
Bảng 4.1: Bảng đánh giá kết quả thực nghiệm trong việc phát hiện đối tượng chuyển động khi sử dụng phương pháp Temporal Median Filter
Sau đây là kết quả phát hiện đối tượng chuyển động khi chạy với video training PETS D1Trai1 và PETS D1Trai2
Hình 4.6: Kết quả phát hiện đối tượng chuyển động khi chạy với video training
Hình 4.7: Kết quả phát hiện đối tượng chuyển động khi chạy với video PETS
Kết quả thu được trong việc phát hiện đối tượng chuyển động là tương đối tốt Tất cả các đối tượng đều được phát hiện Tuy nhiên trong một vài trường hợp sau thì việc phát hiện đối tượng sẽ không chính xác:
- Đối với một số vật có sự chuyển động bị ảnh hưởng của môi trường: gió, ánh sáng,… có thể bị phát hiện nhầm như: các cây xanh có lá rung rinh, ánh sáng thay đổi đột ngột, …
- Ngoài ra hệ thống cũng khó phát hiện được những đối tượng ở quá xa so với camera giám sát, có ít sự thay đổi chuyển động, …
4.2.2 Phân loại đối tượng chuyển động
Dữ liệu phần này được thu thập dưới dạng video gồm hai phần: tập video huấn luyện (PETS D1Trai1.avi, PETS D1Trai2.avi) và các video kiểm tra (PETS D1Tes1.avi, PETS D1Tes2.avi, PETS D2Tes1.avi, PETS D2Tes2.avi và một video trong môi trường cảnh thực Tes3.avi) Tập dữ liệu ảnh huấn luyện được trích ra từ các video huấn luyện Video kiểm tra gồm nhiều video, với nhiều ngữ cảnh khác nhau
Bảng 4.2: Kết quả của việc phân loại đối tượng bằng phương pháp phân lớp SVM đối với bộ dữ liệu
Do luận văn chủ yếu phân loại hai đối tượng là người và xe nên trong quá trình thử nghiệm kết quả, luận văn chỉ xét hai loại đối tượng này để đưa ra kết quả khách quan trong phạm vi giới hạn của luận văn Độ chính xác được thể hiện ở bảng trên
Bảng 4.2 thống kê kết quả phân loại trên tập dữ liệu test Bảng thống kê này gồm Groundtruth của tập dữ liệu và kết quả phân loại cho người (Human) và xe (Vehicles), gồm true positives (phân loại đúng) và false positives (phân loại sai) Phép đo độ chính xác được định nghĩa như sau:
Với: - Total number of true positives: tổng số đối tượng phân loại đúng
- Total number of grounthtruth: tổng số đối tượng
Hình 4.8: Kết quả phân loại khi chạy với video PETS D1Tes1.avi
Video PETS D1Tes1 gồm 9 đối tượng là người và 3 đối tượng là xe Kết quả phân loại đối tượng trong video này là 91,7 % Đây là kết quả phân loại chính xác nhất trong tập dữ liệu testing PETS 2001
Hình 4.9: Kết quả phân loại khi chạy với video PETS D1Tes2.avi
Video PETS D1Tes2 gồm 11 đối tượng là người và 3 đối tượng là xe Kết quả phân loại đối tượng trong video này là 64,3 %
Hình 4.10: Kết quả phân loại khi chạy với video PETS D2Tes1.avi
Video PETS D2Tes1 gồm 10 đối tượng là người và 6 đối tượng là xe Kết quả phân loại đối tượng trong video này là 81,3 %
Hình 4.11: Kết quả phân loại khi chạy với video PETS D2Tes2.avi
Video PETS D2Tes2 gồm 7 đối tượng là người và 2 đối tượng là xe Kết quả phân loại đối tượng trong video này là 88,9 %
Hình 4.12: Kết quả phân loại khi chạy với video trong cảnh thực Tes3.avi Video Tes3 chỉ gồm 6 đối tượng là người và không có đối tượng nào là xe Kết quả phân loại đối tượng trong video này là 99,9%
Tóm lại, phân loại đối tượng trong các hình ảnh video là một vấn đề tương đối khó Mỗi phương pháp có ưu và nhược điểm riêng phù hợp với từng hoàn cảnh, bài toán khác nhau Để đạt được hiệu quả tốt, ta cần phân tích bài toán, hoàn cảnh cụ thể và lựa chọn phương pháp thích hợp
Trong luận văn này, tôi áp dụng bộ phân lớp SVM cùng với các đặc trưng dựa vào hình dạng kết hợp với đặc trưng dựa vào chuyển động Kết quả phân loại cho thấy độ chính xác khá cao Tuy nhiên tốc độ xử lý còn khá chậm do chi phí trong việc tính toán các đặc trưng, huấn luyện là tương đối lớn Để cho mô hình SVM được chính xác và hiệu quả thì phụ thuộc rất nhiều vào tập dữ liệu huấn luyện Tập dữ liệu này phải thu thập đủ lớn và khách quan Một điều quan trọng nữa là kết quả của phương pháp này phụ thuộc rất lớn vào bưóc phát hiện đối tượng chuyển động Do đó trong các trường hợp mà đối tượng được phát hiện sai thì việc phân loại đối tượng sẽ không còn chính xác.
TỔNG KẾT
Kết luận
Luận văn đã đạt được các kết quả như sau:
Tìm hiểu xong lý thuyết về các loại video, các loại chuyển động, các phương pháp biểu diễn đối tượng
Khảo sát và đánh giá các công trình nghiên cứu liên quan đến phân loại đối tượng trong đoạn video
Đề xuất ra giải pháp và xây dựng hoàn chỉnh hệ thống phân loại đối tượng chuyển động trong đoạn video gồm các bước từ phát hiện đối tượng chuyển động, rút trích các đặc trưng, huấn luyện và phân loại đối tượng
Đề xuất hướng nghiên cứu phát triển trong tương lai
5.1.2 Ưu điểm và nhược điểm
Kết quả phân loại khá tốt trong điều kiện ánh sáng ban ngày và cả trong các trường hợp có góc nhìn quan sát khác nhau
Thời gian phân loại đối tượng nhanh
Đưa ra so sánh và đánh giá cho các phương pháp được lựa chọn
Tuy nhiên luận văn còn tồn tại các hạn chế:
Tốc độ xử lý còn hơi chậm
Chưa xử lý hết được hoàn toàn nhiễu do sự thay đổi của ánh sáng, môi trường
Chỉ phân loại được hai loại đối tượng chính là người (human) và xe (vehicle) Hệ thống chưa thực hiện phân loại các đối tượng khác như: nhóm người, xe đạp, xe gắn máy,…
Hướng phát triển trong tương lai
Hướng phát triển của luận văn cụ thể là khắc phục các hạn chế vừa nêu ở trên, cụ thể là:
Tối ưu hóa xử lý để đạt thời gian thực
Nghiên cứu và cải tiến các kỹ thuật giải quyết bài toán nhằm đạt được hiệu quả và tính chính xác cao nhất
Phát hiện được đa dạng các loại đối tượng với nhiều ngữ cảnh khác nhau
Từ luận văn phân loại đối tượng chuyển động trong đoạn video này, từ đó có thể tích hợp vào hệ thống giám sát giao thông tự động.