NGHIÊN cứu PHÂN TÍCH THUỘC TÍNH đám ĐÔNG TRONG VIDEO GIÁM sát loại tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  VÕ TẤN KHOA NGHIÊN CỨU PHÂN TÍCH THUỘC TÍNH ĐÁM ĐƠNG TRONG VIDEO GIÁM SÁT LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN MÃ SỐ: 60.48.02.01 GIẢNG VIÊN HƯỚNG DẪN: TS NGÔ ĐỨC THÀNH TP HỒ CHÍ MINH - NĂM 2018 LỜI CÁM ƠN Trước tiên, em xin gửi lời cảm ơn chân thành đến thầy TS Ngô Đức Thành Trong suốt trình làm luận văn, Thầy dành nhiều công sức giúp đỡ, đôn đốc hướng dẫn em tận tình để em hồn tất đề tài cách thuận lợi Bên cạnh đó, em xin cảm ơn anh chị đồng nghiệp Bộ mơn Khoa học Kỹ thuật Thơng tin, phòng Thí nghiệm Truyền thông Đa Phương tiện, trường ĐH Công nghệ Thông tin hỗ trợ em nhiều suốt thời gian em thực luận văn Em xin gửi lời cảm ơn đến thầy cô trường ĐH Công nghệ Thông tin, ĐHQG HCM tạo điều kiện cho em học tập hồn tất luận văn Em xin chân thành cảm ơn TP.HCM, tháng 01 năm 2018 Võ Tấn Khoa LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chưa cơng bố cơng trình khác, ngoại trừ tư liệu trích dẫn ghi mục tài liệu tham khảo Tác giả luận văn Võ Tấn Khoa TÓM TẮT Với gia tăng dân số nay, hoạt động đám đông diễn nơi công cộng nhà ga, trường học, đường phố diễn thường xuyên Để giám sát, quản lý nơi này, hệ thống camera lắp đặt Nhằm hỗ trợ việc giám sát thủ công truyền thống, thập kỷ qua, hệ thống giám sát tự động nghiên cứu đưa vào thực tế Mặc dù, có nhiều giải thuật phát triển để theo vết, nhận biết hiểu hành vi đối tượng khác video [9], giải thuật thiết kế cho cảnh với mật độ dân số thấp [5], [6], [10] Khi áp dụng lên cảnh đám đơng việc xử lý gặp khó khăn số lượng cá thể lớn, không bị sai lệch việc phát theo vết, mà làm cho q trình tính tốn trở nên phức tạp Với nhu cầu thực tế vậy, chủ đề nghiên cứu phân tích đám đơng trở thành hướng nghiên cứu quan trọng, đòi hỏi phải có đầu tư nghiên cứu đắn Bài tốn phân tích đám đơng mô tả sau: đầu vào video ảnh trích từ video, đầu thơng tin đám đông video đầu vào Các thông tin đám đông bao gồm nhiều kiểu từ đơn giản như: đám đơng có cấu trúc hay khơng có cấu trúc, đám đơng có cách di chuyển bền vững, hay xung đột… thuộc tính đám đơng phức tạp như: đám đông, họ làm gì, họ đâu Các nghiên cứu gần tập trung vào việc lựa chọn sử dụng đặc trưng (feature) để biểu diễn khái niệm đám đông video Tuy nhiên, đặc trưng sử dụng chưa thể độ phức tạp tính ngữ nghĩa cảnh đám đơng hầu hết đặc trưng chuyên gia thiết kế đề xuất (handcrafted) cảnh đám đông định Để giúp việc phân tích đám đơng đạt nhiều thơng tin số nghiên cứu gần đề xuất phân tích đám đơng dựa thuộc tính Các thuộc tính trả lời câu hỏi: “ai?”, “họ đâu?” “họ làm đó?” [2] Với số lượng thuộc tính nhiều, tính ngữ nghĩa cao dẫn đến q trình rút trích đặc trưng cho thuộc tính cần nhiều thời gian sử dụng đặc trưng thủ công Hiện nay, phương pháp học sâu (deep learning - DL) dần quen thuộc việc xây dựng hệ thống tự động học đặc trưng đối tượng DL khái niệm thuật toán máy học để xây dựng mơ hình đối tượng cách học theo nhiều cấp biểu diễn từ quan hệ phức tạp liệu học [1] Một tính bật DL khả tự học đặc trưng trực tiếp từ liệu đầu vào Tuy nhiên, theo khảo sát học viên nghiên cứu áp dụng DL liệu video áp dụng vào tốn phân tích đám đơng video bước sơ khởi Với tính cấp thiết vậy, nội dung luận văn tập trung vào việc tìm hiểu tổng quan tốn phân tích đám đơng video, tổng quan DL, áp dụng DL vào tốn phân tích thuộc tính đám đơng video theo đề xuất nghiên cứu [2] Đây tốn có nhiều thách thức độ lớn phức tạp liệu video, tính đa dạng mang tính ngữ nghĩa cao thuộc tính đám đơng Giải tốn tiền đề để xây dựng ứng dụng thực tế hệ thống giám sát cơng cộng, tìm kiếm video, phát kiện video … Thực nghiệm tiến hành tập liệu WWW_Crowd [2] Kết thực nghiệm cho thấy việc áp dụng DL với đặc trưng tự học (deep features – DF) tăng độ xác kết từ 7% đến 15% so với đặc trưng lấy thủ cơng (handcrafted features) Từ khóa: Crowd Analysis, Deep Learning, Crowded Understanding NHỮNG ĐĨNG GĨP CHÍNH • Nội dung luận văn hệ thống lại nghiên cứu tốn phân tích cảnh đám đơng, kiến thức sở DL, tài liệu tham khảo hữu ích cho nghiên cứu sau • Hiện thực lại phương pháp đề xuất nghiên cứu [2] tập liệu WWW_Crowd1 Ứng dụng DL vào rút trích đặc trưng tự động cho tốn phân tích thuộc tính đám đơng • Phân tích đánh giá kết thực nghiệm đề xuất phương pháp cải tiến • Xây dựng ứng dụng minh họa cho toán http://www.ee.cuhk.edu.hk/~jshao/WWWCrowdDataset.html Mục lục MỤC LỤC DANH SÁCH HÌNH VẼ i DANH SÁCH BẢNG ii DANH MỤC TỪ VIẾT TẮT iii Chương Mở đầu 1.1 Đặt vấn đề 1.2 Thách thức, mục tiêu phạm vi 1.2.1 Thách thức 1.2.2 Mục Tiêu 1.2.3 Phạm vi nghiên cứu 1.3 Cấu trúc luận văn Chương 2.1 Bài tốn phân tích đám đông nghiên cứu liên quan Giới thiệu toán 2.1.1 Mô tả toán 2.1.2 Một số nghiên cứu liên quan 2.2 Phân đoạn mẫu chuyển động 2.2.1 Phân đoạn dựa mơ hình trường dòng chảy 2.2.2 Gom cụm dựa đồng dạng 11 2.2.3 Gom cụm dựa mơ hình xác suất 12 2.3 Ghi nhận hành vi đám đông 13 2.3.1 Phương pháp Holistic 14 2.3.2 Phương pháp Object-based 15 2.4 Phát kiện bất thường 16 2.4.1 Phát bất thường toàn cục (Global anomaly detection) 16 2.4.2 Phát bất thường cục (Local anomaly detection) 17 2.5 Kết chương 18 Chương Ứng dụng Deep learning vào tốn phân tích thuộc tính đám đông video giám sát 20 3.1 Tổng quan Deep learning 20 3.1.1 Deep learning 20 3.1.2 Convolutional Neural Networks 26 Mục lục 3.2 Một số nghiên cứu sử dụng DL phân tích đám đơng 33 3.2.1 DL cho toán đếm người đám đông 34 3.2.2 DL cho toán phát kiện bất thường 35 3.3 Bài tốn phân tích thuộc tính đám đông 37 3.3.1 Giới thiệu toán 37 3.3.2 Kiến trúc hệ thống 40 3.4 Kết chương 42 Chương Thực nghiệm đánh giá 43 4.1 Tập liệu 43 4.2 Triển khai thực nghiệm phương pháp đánh giá 45 4.2.1 Tiền xử lý video 45 4.2.2 Cài đặt 46 4.2.3 Phương pháp đánh giá 47 4.3 Kết thực nghiệm phân tích đánh giá 47 4.3.1 Kết thực nghiệm 47 4.3.2 Phân tích đánh giá 50 4.4 Kết chương 56 Chương Kết luận hướng phát triển 57 5.1 Kết luận 57 5.2 Hướng phát triển 58 Tài liệu tham khảo 60 Danh mục hình vẽ DANH SÁCH HÌNH VẼ Hình 1-1 Ví dụ cảnh đám đơng: (a) đua xe đạp; (b) người quảng trường Hình 1-2 Ví dụ thuộc tính đám đông Hình 2-1 Mơ hình tốn phân tích đám đơng Hình 2-2 Các toán liên quan đến toán phân tích đám đơng Hình 2-3 Phân đoạn mẫu chuyển động Hình 2-4 Ví dụ ghi nhận hành vi đám đông; a) Đánh nhau, b) Chào 14 Hình 2-5 Ví dụ phát bất thường đám đông 16 Hình 3-1 Kết thi ILSVRC 2015 21 Hình 3-2 Ví dụ kiến trúc mạng RNNs 24 Hình 3-3 Ví dụ kiến trúc mạng DAs 25 Hình 3-4 Ví dụ mơ hình mạng CNN Lenet [28] 26 Hình 3-5 Cách thức hoạt động Conv 27 Hình 3-6 Minh họa việc sử dụng Conv xử lý ảnh 28 Hình 3-7 Các tham số Conv 29 Hình 3-8 Ví dụ tầng Conv ảnh 30 Hình 3-9 Ví dụ tầng pooling 32 Hình 3-10 Bài tốn đếm người video 34 Hình 3-11 Kiến trúc CNN tốn đếm người đám đơng [52] 35 Hình 3-12 Ví dụ phát bất thường đám đơng; dòng groundtruth, dòng kết dự đốn 36 Hình 3-13 Hệ thống tổng quát toán 37 Hình 3-14 Các nghiên cứu dựa thuộc tính 38 Hình 3-15 Ví dụ sử dụng thuộc tính mơ tả video 39 Hình 3-16 Mơ hình tổng quan tốn 40 Hình 3-17 Cấu trúc mạng CNN sử dụng 41 Hình 4-1 94 thuộc tính 44 Hình 4-2 Ví dụ cảnh đám đông video 45 Hình 4-3 Nội dung tập tin GroundTruth 46 Hình 4-4 Hình minh họa đường ROC 47 Hình 4-5 Kết AUC thu thuộc tính "ở đâu" (where) 49 Hình 4-6 Kết AUC thu thuộc tính "ai" (who) 49 Hình 4-7 Kết AUC thu thuộc tính "làm gì" (why) 50 Hình 4-8 Sự nhầm lẫn dự đốn thuộc tính "đứng" "ngồi" 51 Hình 4-9 Một số ví dụ kết dự đoán sai 51 Hình 4-10 Một số ví dụ dự đốn độ xác cao, thấp 51 Hình 4-11 Một số kết dự đoán thực tế 52 Hình 4-12 Kết AUC cho tập thuộc tính - đâu - làm 53 Hình 4-13 Biểu đồ so sánh kết học đa - đơn tác vụ 55 i Danh sách bảng DANH SÁCH BẢNG Bảng Tổng hợp kỹ thuật chủ đề phân loại mơ hình chuyển động 13 Bảng So sánh ác kỹ thuật nhận diện hành vi đám đông 15 Bảng So sánh kỹ thuật thuật phát bất thường 18 Bảng So sánh tập liệu video đám đông 43 Bảng Thống kê AUC thuộc tính Màu xanh dương, cam, xanh tương ứng với đâu, ai, kiện 48 Bảng So sánh AUC mơ hình học đơn tác vụ đa tác vụ 54 ii Chương Triển khai thực nghiệm đánh giá Hình 4-8 Sự nhầm lẫn dự đốn thuộc tính "đứng" "ngồi" Một số kết dự đốn thuộc tính xác cao thấp thể qua hình 4-9 Với hình, thuộc tính có kết dự đốn cao đưa Hình 4-9 Một số ví dụ kết dự đốn sai Ở hình số hình 4-9, thuộc tính 5-sàn chứng khốn bị dự đốn nhầm thành 22-trung tâm hội nghị Có thể giống cấu trúc đám đông người ảnh giống khán giả xem biểu diễn nên làm cho kết sai lệch từ sàn chứng khoán lại trở thành trung tâm hội nghị Hình 4-10 Một số ví dụ dự đốn độ xác cao, thấp 51 Chương Triển khai thực nghiệm đánh giá Trong hình 4-10 ví dụ kết dự đốn với đầy đủ thuộc tính Kết dự đốn 0.5 có màu xanh, người lại có màu đỏ Học viên nhận thấy, thuộc tính thang cuốn, khách hàng, mua sắm không đủ mẫu để học đặc trưng, khó mà phát khung cảnh bảo rộng lớn Một số kết dự đốn thuộc tính cảnh khác: Hình 4-11 Một số kết dự đoán thực tế Trên tất nhận định, phân tích học viên kết thực nghiệm thu Phần phần đánh giá phương pháp thực nghiệm 4.3.2.2 Đánh giá Ngoài việc đánh giá theo thuộc tính, luận văn đánh giá điểm AUC theo tập thuộc tính bao gồm: “ở đâu”, “ai”, “làm gì” Theo lớp “ở đâu” với 27 thuộc tính nơi chốn thu kết AUC 0.95, “ai” – 0.91 “làm gì” – 0.92 52 Chương Triển khai thực nghiệm đánh giá Hình 4-12 Kết AUC cho tập thuộc tính - đâu - làm Deep models mà luận văn xây dựng mơ hình học đa tác vụ - đa thuộc tính (multi-task learning), có nghĩa tập thuộc tính “ai”, “ở đâu”, “làm gì” huấn luyện song song lúc với Để so sánh, luận văn huấn luyện mơ hình theo chủ đề tương ứng tập thuộc tính, gọi mơ hình huấn luyện đơn tác vụ - đơn thuộc tính (single-task learning) Các mơ hình đơn tác vụ có kiến trúc mạng giống với mơ hình đa tác vụ, tầng fully-connected cuối cùng, số phần tử véc-tơ đầu tương ứng với đâu – 27, – 24, chuyện xảy – 43 Theo đó, kết kiểm tra mơ hình tập liệu thu thấp từ - 11% so với mơ hình huấn luyện mà luận văn xây dựng Điều diễn giải có đặc trưng thuộc tính liên kết ngữ nghĩa với Ví dụ “người bơi lội” “biển” “người bộ” “đường phố” khơng thể có ngược lại Khi tách rời thuộc tính để huấn luyện mơ hình khác nhau, 53 Chương Triển khai thực nghiệm đánh giá làm cho mối liên kết khơng còn, từ kết dự đốn thấp so với mơ hình đa tác vụ Bảng thể giá trị AUC trung bình tập thuộc tính, cột cuối thể số lượng thuộc tính có AUC cao mơ hình Bảng So sánh AUC mơ hình học đơn tác vụ đa tác vụ Đa tác vụ Đơn tác vụ #thắng Ở đâu 0.95 0.87 24/27 Ai 0.91 0.82 20/24 Làm 0.92 0.81 36/43 AUC 0.93 0.84 80/94 Với mơ hình học đa tác vụ giá trị AUC cải thiện từ 0.84 lên 0.93 Các giá trị AUC thuộc tính cải thiện đáng kể Ngồi ra, để đánh giá tính hiệu đặc trưng học sâu đặc trưng thủ công (handcrafted feature), luận văn tiến hành so sánh kết thực nghiệm mơ hình huấn luyện với mơ hình huấn luyện sử dụng đặc trưng thủ công Cụ thể đây, học viên so sánh giá trị AUC với phương pháp rút trích đặc trưng thủ cơng SIFT (Scale-Invariant feature transform) [2] Kết cho thấy mơ hình mà luận văn huấn luyện cho kết xác 15% so với sử dụng đặc trưng thủ công 54 Chương Triển khai thực nghiệm đánh giá 0.9 0.8 0.95 0.91 0.82 0.7 0.93 0.92 0.87 0.83 0.81 0.84 0.82 0.81 0.75 0.6 0.5 0.4 0.3 0.2 0.1 Ai Ở đâu DL đa tác vụ Làm DL đơn tác vụ AUC trung bình Đặc trưng cấp thấp (SIFT) Hình 4-13 Biểu đồ so sánh kết học đa - đơn tác vụ Việc tiến hành thực nghiệm cần nhiều thời gian tài nguyên lưu trữ, tính tốn để đạt kết tốt Với trình triển khai thử nghiệm nhiều lần, học viên nhận thấy có nhiều yếu tố ảnh hưởng đến kết dự đoán hệ thống: - Số thuộc tính cho lần huấn luyện phải phù hợp với kích thước đầu vào (batch-size) tầng nhập, phải đảm bảo số thuộc tính huấn luyện đa dạng Vì khơng đảm bảo được, mơ hình huấn luyện thu bị “overfitting” Có nghĩa mơ hình huấn luyện khơng tổng qt từ học: độ sai xót tập huấn luyện nhỏ, tập kiểm tra lớn - Thay đổi tỉ lệ base-learning trình huấn luyện, cho mơ hình thu có kết kiểm thử tốt - Tỉ lệ “dropout” tầng fully-connect ảnh hưởng lớn đến kết trình huấn luyện theo nghiên cứu [50] Trong mơ hình mạng học viên huấn luyện, không để tham số “dropout” tầng fully-connect 7, kết thu có độ xác thấp Giá trị “dropout” mà học viên sử dụng mạng huấn luyện 0.5 55 Chương Triển khai thực nghiệm đánh giá - Và yếu tố học viên nhận thấy ảnh hưởng đến kết huấn luyện mạng, phần cứng hỗ trợ huấn luyện Khi học viên sử dụng máy hỗ trợ đồ họa K-20 (Graphic Processing Unit - GPU) thời gian huấn luyện cho ảnh 0.5 giây Trong sử dụng máy thông thường 7s 4.4 Kết chương Nội dung chương tiến hành thực phương pháp đề xuất nghiên cứu [2] phân tích đánh giá kết thực nghiệm việc áp dụng đặc trưng DF từ mơ hình huấn luyện vào giải tốn phân tích đám đơng video Theo đó, từ video ta biến thành nhiều khung ảnh, sau thực việc rút trích đặc trưng trực tiếp từ khung ảnh Trong trình thực nghiệm, luận văn tiến hành theo phương pháp multi-task learning single-task learning để so sánh độ hiệu sử dụng tương quan thuộc tính đám đơng Kết thực nghiệm chứng minh việc sử dụng DF vào giải tốn phân tích đám đơng video nâng cao độ xác so với sử dụng đặc trưng hand-crafted từ 7% đến 15% 56 Chương Kết luận hướng phát triển Chương Kết luận hướng phát triển 5.1 Kết luận Nội dung luận văn tập trung vào tìm hiểu tốn phân tích thuộc tính đám đơng video cách áp dụng thuật toán cộng đồng giới quan tâm Deep learning Các đám đơng đề cập luận văn mô tả theo tập thuộc tính là: video có “ai”, họ “ở đâu”, “có kiện gì” Bài tốn mơ tả sau: đầu vào video yêu cầu đầu dự báo xem thuộc tính tập thuộc tính xuất video Đây tốn có ý nghĩa thực tế, tiền đề để xây dựng công cụ hỗ trợ phân tích nội dung video, kết áp dụng vào toán khác thu thập video, phát kiện video Bản thân tốn có nhiều thách thức độ phức tạp độ lớn liệu tính ngữ nghĩa việc biểu diễn thuộc tính đám đơng Bên cạnh đó, thuật tốn DL thuật tốn mới, việc tìm hiểu áp dụng DL vào liệu video mà cụ thể tốn phân tích đám đơng nhiều thách thức Theo đó, luận văn sử dụng đặc trưng tự học (deep feature – DF) từ mơ hình học viên huấn luyện theo multi-task learning đề cập nghiên cứu [2] để dự đốn thuộc tích đám đơng video đám đơng Q trình thực nghiệm chứng minh việc áp dụng DF từ mơ hình DL nâng cao độ xác so với mơ hình single-task learning từ 8-11% Dựa mục tiêu đặt luận văn có kết sau: - Tìm hiểu tổng quan tốn phân tích đám đơng video, phương pháp áp dụng tốn - Tìm hiểu tổng quan DL nghiên cứu liên quan Bên cạnh hệ thống lại kiến thức sở thuật toán DL CNN - Áp dụng DF từ mô hình multi-task learning việc phân tích, ghi nhận thuộc tính đám đơng video 57 Chương Kết luận hướng phát triển Xét phương diện thực tốn phân tích đám đơng DL, luận văn có số kết luận sau: - Việc áp dụng DL vào giải toán hướng tiềm DL mơ hình độ phức tạp ngữ nghĩa khái niệm kiện, đối tượng, thuộc tính - Đối với thuật tốn DL việc xây dựng (xác định kiến trúc mạng phù hợp) huấn luyện mơ hình DL cho tốn khó khăn chưa có lý thuyết cụ thể Bên cạnh DL có u cầu tài ngun tính tốn liệu huấn luyện lớn - Thiết kế tập liệu huấn luyện phù hợp với khả đáp ứng phần cứng trình huấn luyện thách thức thực Ngoài ra, việc thay đổi tham số tham gia mạng CNN ảnh hưởng lớn đến kết mơ hình huấn luyện - Hiện “Deep Learning for Crowded Scene Analysis” hướng thu hút nhiều nghiên cứu 5.2 Hướng phát triển DL thuật toán áp dụng cho nhiều lĩnh vực khác bao gồm xử lý ảnh, xử lý âm thanh, xử lý ngôn ngữ tự nhiên… Nội dung luận văn tập trung vào việc sử dụng DL cho đặc trưng thị giác Do đó, hướng nghiên cứu áp dụng DL vào phần xử lý đặc trưng âm kết hợp đặc trưng lại với hứa hẹn nâng cao độ xác hệ thống Ngoài ra, luận văn sử dụng đặc trưng ảnh tỉnh Chưa sử dụng đặc trưng chuyển động theo thời gian đám đơng Rút trích thêm đặc trưng chuyển động để bổ sung thêm thông tin huấn luyện hứa hẹn nâng cao độ xác mơ hình 58 Chương Kết luận hướng phát triển Kết nghiên cứu luận văn áp dụng vào tốn tìm kiếm video chứa cảnh đám đơng phát kiện video đám đông 59 Tài liệu tham khảo Tài liệu tham khảo Tiếng anh [1] Y Bengio, A Courville, and P Vincent, “Representation learning: A review and new perspectives,” IEEE Trans Pattern Anal Mach Intell., vol 35, no 8, pp 1798–1828, Aug 2013 [2] Jing Shao, Kai Kang, Chen Change Loy, and Xiaogang Wang "Deeply learned attributes for crowded scene understanding" in Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2015, oral) [3] I Saleemi, L Hartung, and M Shah, “Scene understanding by statistical modeling of motion patterns” in IEEE Conference on Computer Vision and Pattern Recognition, 2010, pp 2069–2076 [4] Y Yang, J Liu, and M Shah, “Video scene understanding using multiscale analysis,” in IEEE International Conference on Computer Vision, 2009, pp 1669–1676 [5] W Hu, X Xiao, Z Fu, D Xie, T Tan, and S Maybank, “A system for learning statistical motion patterns,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 28, no 9, pp 1450–1464, 2006 [6] W Hu, T Tan, L Wang, and S Maybank, “A survey on visual surveillance of object motion and behaviors,” IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, vol 34, no 3, pp 334–352, 2004 [7] B Zhou, X Wang, and X Tang, “Random field topic model for semantic region analysis in crowded scenes from tracklets,” in IEEE Conference on Computer Vision and Pattern Recognition, 2011, pp 3441–3448 [8] B Zhou, X Wang, and X Tang, “Understanding collective crowd behaviors: Learning a mixture model of dynamic pedestrian-agents,” in IEEE Conference on Computer Vision and Pattern Recognition, 2012, pp 2871–2878 60 Tài liệu tham khảo [9] C S Jacques Junior, S R Musse, and C R Jung, “Crowd analysis using computer vision techniques,” IEEE Signal Processing Magazine, vol 27, no 5, pp 66–77, 2010 [10] B T Morris and M M Trivedi, “A survey of vision-based trajectory learning and analysis for surveillance,” IEEE Transactions on Circuits and Systems for Video Technology, vol 18, no 8, pp 1114–1127, 2008 [11] S Wu, B E Moore, and M Shah, “Chaotic invariants of lagrangian particle trajectories for anomaly detection in crowded scenes,” in IEEE Conference on Computer Vision and Pattern Recognition, 2010, pp 2054–2060 [12] S Ali and M Shah, “A lagrangian particle dynamics approach for crowd flow segmentation and stability analysis,” in IEEE Conference on Computer Vision and Pattern Recognition, 2007, pp 1–6 [13] R Mehran, B E Moore, and M Shah, “A streakline representation of flow in crowded scenes,” in European Conference on Computer Vision, 2010, pp 439– 452 [14] B Solmaz, B E Moore, and M Shah, “Identifying behaviors in crowd scenes using stability analysis for dynamical systems,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 34, no 10, pp 2064–2070, 2012 [15] B Zhan, D N Monekosso, P Remagnino, S A Velastin, and L Xu, “Crowd analysis: a survey,” Machine Vision and Applications, vol 19, no 5-6, pp 345– 357, 2008 [16] N Amir Sjarif, S Shamsuddin, S Mohd Hashim, and S Yuhaniz, “Crowd analysis and its applications,” in Software Engineering and Computer Systems, 2011, vol 179, pp 687–697 [17] P.-M Jodoin, Y Benezeth, and Y Wang, “Meta-tracking for video scene understanding,” in IEEE International Conference on Advanced Video and Signal Based Surveillance, 2013, pp 1–6 61 Tài liệu tham khảo [18] H Su, H Yang, S Zheng, Y Fan, and S Wei, “The large-scale crowd behavior perception based on spatio-temporal viscous fluid field,” IEEE Transactions on Information Forensics and Security, vol 8, no 10, pp 1575–1589, 2013 [19] Y Benabbas, N Ihaddadene, and C Djeraba, “Motion pattern extraction and event detection for automatic visual surveillance,” Journal on Image and Video Processing, vol 7, pp 1–15, 2011 [20] R Mehran, A Oyama, and M Shah, “Abnormal crowd behavior detection using social force model,” in IEEE Conference on Computer Vision and Pattern Recognition, 2009, pp 935–942 [21] A Johansson, D Helbing, H Z Al-Abideen, and S Al-Bosta, “From crowd dynamics to crowd safety: A video-based analysis,” Advances in Complex Systems, vol 11, no 4, pp 497–527, 2008 [22] B Krausz and C Bauckhage, “Loveparade 2010: Automatic video analysis of a crowd disaster,” Computer Vision and Image Understanding, vol 116, no 3, pp 307–319, 2012 [23] J D Sime, “Crowd psychology and engineering,” Safety Science, vol 21, no 1, pp 114, 1995 [24] T Kretz, A Gră unebohm, and M Schreckenberg, “Experimental study of pedestrian flow through a bottleneck,” Journal of Statistical Mechanics: Theory and Experiment, vol 2006, no 10, pp 100–114, 2006 [25] R Berggren, “Simulating crowd behaviour in computer games,” Ph.D dissertation, Lule ˚ a University of Technology, 2005 [26] S Ali, “Taming crowded visual scenes,” Ph.D dissertation, University of Central Florida, 2008 [27] T M Hospedales, J Li, S Gong, and T Xiang, “Identifying rare and subtle behaviors: A weakly supervised joint topic model,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 33, no 12, pp 2451–2464, 2011 62 Tài liệu tham khảo [28] Y LeCun, L Bottou, Y Bengio, and P Haffner, “Gradient-based learning applied to document recognition,” Proceedings of the IEEE, vol 86, no 11, pp 2278–2324, 1998 [29] D Ciresan, U Meier, J Masci, and J Schmidhuber, “A committee of neural networks for traffic sign classification,” in Neural Networks (IJCNN), The 2011 International Joint Conference on, July 2011, pp 1918–1921 [30] J Schmidhuber, “Multi-column deep neural networks for image classification,” in Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), ser CVPR ’12 Washington, DC, USA: IEEE Computer Society, 2012, pp 3642–3649 [31] A Krizhevsky, I Sutskever, and G E Hinton, “Imagenet classification with deep convolutional neural networks,” in Advances in Neural Information Processing Systems 25, F Pereira, C Burges, L Bottou, and K Weinberger, Eds Curran Associates, Inc., 2012, pp 1097–1105 [32] P Turaga, R Chellappa, V S Subrahmanian, and O Udrea, “Machine recognition of human activities: A survey,” Circuits and Systems for Video Technology, IEEE Transactions on, vol 18, no 11, pp 1473–1488, 2008 [33] O Paul, G Awad, M Michel, J Fiscus, W Kraaij, A Smeaton, and G Quéenot, “Trecvid 2011-an overview of the goals, tasks, data, evaluation mechanisms and metrics,” In Proc TRECVID 2011, 2011 [34] M Rodriguez, J Sivic, I Laptev, and J.-Y Audibert “Datadriven crowd analysis in videos” In ICCV, 2011 [35] F Zhu, X Wang, and N Yu “Crowd tracking with dynamic evolution of group structures.” In ECCV 2014 [36] J Shao, C C Loy, and X Wang “Scene-independent group profiling in crowd.” In CVPR, 2014 63 Tài liệu tham khảo [37] B Zhou, X Tang, and X Wang “Measuring crowd collectiveness.” In CVPR, 2013 [38] B Solmaz, B E Moore, and M Shah, “Identifying behaviors in crowd scenes using stability analysis for dynamical systems,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 34, no 10, pp 2064–2070, 2012 [39] A Farhadi, I Endres, D Hoiem, and D Forsyth “Describing objects by their attributes.” In CVPR, 2009 [40] C H Lampert, H Nickisch, and S Harmeling “Learning to detect unseen object classes by between – class attribute transfer” In CVPR, 2009 [41] Y Fu, T M Hospedales, T Xiang, and S Gong “Attribute learning for understanding unstructured social activity” In ECCV 2012 [42] J Liu, B Kuipers, and S Savarese “Recognizing human actions by attributes.” In CVPR, 2011 [43] G Patterson and J Hays Sun attribute database: “Discovering, annotating, and recognizing scene attributes” In CVPR, 2012 [44] B Zhou, X Tang, and X Wang, “Coherent filtering: Detecting coherent motions from crowd clutters”, in European Conference on Computer Vision, 2012, pp 857–871 [45] L Song, F Jiang, Z Shi, and A K Katsaggelos, “Understanding dynamic scenes by hierarchical motion pattern mining”, in IEEE International Conference on Multimedia and Expo., 2011, pp 1–6 [46] W Fu, J Wang, Z Li, H Lu, and S Ma, “Learning semantic motion patterns for dynamic scenes by improved sparse topical coding,” in IEEE International Conference on Multimedia and Expo., 2012, pp 296–301 [47] M Hu, S Ali, and M Shah, “Detecting global motion patterns in complex videos,” in International Conference on Pattern Recognition, 2008 64 Tài liệu tham khảo [48] X Wang, X Yang, X He, Q Teng, and M Gao, “A high accuracy flow segmentation method in crowded scenes based on streakline”, International Journal for Light and Electron Optics, vol 125, no 3, pp 924–929, 2014 [49] S Wu and H San Wong, “Crowd motion partitioning in a scattered motion field”, IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, vol 42, no 5, pp 1443–1454, 2012 [50] N Srivastava, G Hinton, A Krizhevsky, I Sutskever, R Salakhutdinov “Dropout: A Simple Way to Prevent Neural Networks from Overfitting”, Journal of Machine Learning Research 15 (2014), 1929-1958 [51] T Li, H Chang, M Wang, B Ni, R Hong and S Yan, "Crowded Scene Analysis: A Survey," in IEEE Transactions on Circuits and Systems for Video Technology, vol 25, no 3, pp 367-386, March 2015 [52] Zhang, C., Li, H., Wang, X and Yang, X., 2015 “Cross-scene crowd counting via deep convolutional neural networks” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp 833-841) [53] Feng, Yachuang, Yuan Yuan, and Xiaoqiang Lu "Learning deep event models for crowd anomaly detection." Neurocomputing 219 (2017): 548-556 Tiếng Việt [54] Đỗ Văn Tiến, Lâm Quang Vũ, Phan Lê Sang, Ngơ Đức Thành, Lê Đình Duy, Dương Anh Đức, "Sử dụng Deep neural networks biểu diễn thuộc tính cho tốn phát cảnh bạo lực video", hội nghị khoa học Quốc gia lần thứ - Nghiên cứu Cơ Ứng dụng Công nghệ Thông tin FAIR - Fundamental and Applied IT Research (2016), tháng năm 2016, Cần Thơ - Việt Nam 65 ... phân tích thuộc tính đám đơng video 19 Chương Ứng dụng DL vào tốn phân tích thuộc tính đám đơng video Chương Ứng dụng Deep learning vào tốn phân tích thuộc tính đám đơng video giám sát Nội dung... Bài tốn phân tích đám đơng nghiên cứu liên quan Chương Bài tốn phân tích đám đông nghiên cứu liên quan 2.1 Giới thiệu tốn 2.1.1 Mơ tả tốn Bài tốn phân tích đám đơng với đầu vào hình ảnh video, ... hướng nghiên cứu quan trọng, đòi hỏi phải có đầu tư nghiên cứu đắn Bài tốn phân tích đám đông mô tả sau: đầu vào video ảnh trích từ video, đầu thơng tin đám đông video đầu vào Các thông tin đám đông

Định dạng
Số trang	76
Dung lượng	9,8 MB