Nghiên cứu và phát triển phương pháp định danh người trong hệ thống giám sát tự động bằng camera

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Nghiên cứu phát triển phương pháp định danh người hệ thống giám sát tự động camera Trần Đức Long duclong.pfiev@gmail.com Ngành Hệ thống thông tin Giảng viên hướng dẫn: PGS TS Lê Thị Lan Viện: Công nghệ thông tin truyền thông Chữ ký GVHD HÀ NỘI, 10/2020 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Trần Đức Long Đề tài luận văn: Nghiên cứu phát triển phương pháp định danh người hệ thống giám sát tự động camera Chuyên ngành: Hệ thống thông tin Mã số SV: CBC18018 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 31/10/2020 với nội dung sau: STT Yêu cầu hội đồng Nội dung chỉnh sửa, bổ sung Thay đổi lại bố cục luận văn cho hợp lý Luận văn chuyển từ chương thành chương với phần mở đầu kết luận Trong nội dung chương chương gộp lại Bổ sung tóm tắt nội dung cuối chương Các nội dung chương bổ sung vào Cụ thể trang 16, trang 31, trang 46 Chỉnh sửa bổ sung số nội dung khác luận văn thay đổi đại từ nhân xưng, bổ sung thông tin làm rõ vai trị đóng góp tác giả Thay đại từ nhân xưng “em” thành “tác giả” toàn luận văn Viết lại phần để làm rõ đóng góp tác giả Bổ sung thêm ràng buộc thời gian tối đa cho phép di chuyển hai camera để hệ thống định danh lại trang 38 Bổ sung thêm thông tin vào cách thực gán nhãn CSDL xây dựng trang 33 Bổ sung thêm thông tin thời gian chạy tốc độ đáp ứng module trang 47 Giáo viên hướng dẫn Ngày 04 tháng 11 năm 2020 Tác giả luận văn PGS.TS Lê Thị Lan Trần Đức Long CHỦ TỊCH HỘI ĐỒNG PGS.TS Lê Thanh Hương ĐỀ TÀI LUẬN VĂN Mã đề tài: 2018BHTTT-CLC01 Theo QĐ số 24/QĐ-ĐHBK-ĐT-SĐH Hiệu trưởng Trường Đại học Bách Khoa Hà Nội ký ngày 11 tháng năm 2019 Họ tên học viên: Trần Đức Long SHHV: CBC18018 Chuyên ngành: Hệ thống thông tin Lớp: Hệ thống thông tin (KH) Người hướng dẫn: PGS.TS Lê Thị Lan Đơn vị: Viện nghiên cứu quốc tế thông tin đa phương tiện truyền thông ứng dụng, Trường Đại học Bách Khoa Hà Nội Tên đề tài (tiếng Việt): Nghiên cứu phát triển phương pháp định danh người hệ thống giám sát tự động camera Tên đề tài (tiếng Anh): Person re-identification in automatic video surveillance systems Giáo viên hướng dẫn Ký ghi rõ họ tên Lời cảm ơn Đầu tiên, tác giả muốn dành lời cảm ơn tới PGS.TS Lê Thị Lan ln tận tình hướng dẫn thời gian tác giả thực luận văn Tiếp theo tác giả muốn gửi lời cám ơn tới anh chị nghiên cứu làm việc Viện nghiên cứu quốc tế thông tin đa phương tiện truyền thông ứng dụng MICA hỗ trợ tác giả q trình hoạt động nghiên cứu, giúp cơng việc tác giả trở nên thuận lợi Tác giả gửi lời cảm ơn tới Trường Đại học Bách Khoa Hà Nội giúp tác giả có nên tảng mặt kiến thức trình học tập thời gian sinh viên để thực luận văn Bên cạnh đó, tác giả gửi lời cám ơn tới đồng nghiệp Trung Tâm Mơ hình Mơ Phỏng – Tổng Công ty công nghệ cao Viettel ủng hộ tạo điều kiện cho tác giả trình tác giả thực luận văn Cuối tác giả gửi lời cảm ơn tới gia đình người bạn sát cánh làm việc tác giả trình học tập nghiên cứu Tóm tắt nội dung luận văn Luận văn tập trung vào toán định danh lại người hệ thống camera- toán nhằm kết nối chuỗi ảnh người người di chuyển mạng camera với trường nhìn khơng chồng lấn Định danh lại toán quan trọng hệ thống phân tích tự động video Tuy nhiên tốn có nhiều thách thức thay đổi điều kiện chiếu sáng, thể bề che khuất Có nhiều nghiên cứu đề xuất trước nhiên nhiều nghiên cứu dựa giả thiết vùng hình ảnh người xác định từ trước Trên thực tế trình thường thực cách thủ công Trong luận văn này, kế thừa nghiên cứu từ đồ án tốt nghiệp nghiên cứu phát theo vết người có để xây dựng hệ thống định danh lại hồn chỉnh Luận văn trình bày tổng quan toán định danh lại người nghiên cứu liên quan tới lĩnh vực Tiếp đến luận văn trình bày phương pháp định danh lại hoàn chỉnh kết hợp bước phát theo vết người Để đánh giá hệ thống đề xuất, sở liệu xây dựng khuôn khổ luận văn Kết thực nghiệm bước hệ thống hồn chỉnh trình bày phân tích chi tiết MỤC LỤC PHẦN MỞ ĐẦU CHƯƠNG TỔNG QUAN CÁC VẤN ĐỀ NGHIÊN CỨU 1.1 1.2 Phát theo vết đối tượng 1.1.1 Phát đối tượng 1.1.2 Theo vết đối tượng Định danh lại 1.2.1 Đặc trưng tự xây dựng 1.2.2 Đặc trưng sử dụng mạng học sâu 14 1.3 Tóm tắt nội dung 16 1.4 Phương pháp đề xuất 17 CHƯƠNG PHƯƠNG PHÁP ĐỀ XUẤT 18 2.1 Tổng quan hệ thống 18 2.2 Cơ sở lý thuyết phát đối tượng 19 2.3 2.4 2.5 2.2.1 Tổng quan mô hình YOLO 19 2.2.2 Kiến trúc mơ hình YOLO 20 Cơ sở lý thuyết theo vết đối tượng 22 2.3.1 Tổng quan thuật toán DeepSORT 22 2.3.2 Chi tiết thuật toán DeepSORT 22 Cơ sở lý thuyết định danh lại 25 2.4.1 Tổng quan đặc trưng GOG 25 2.4.2 Chi tiết đặc trưng GOG 26 2.4.3 Tính tốn độ tương tự định danh lại 29 Tóm tắt nội dung 31 CHƯƠNG KẾT QUẢ THỰC NGHIỆM 32 3.1 3.2 3.3 Các tập liệu 32 3.1.1 PRID-2011 32 3.1.2 Dữ liệu tự thu thập 33 Các phương pháp đánh giá 34 3.2.1 Đánh giá trình phát đối tượng 34 3.2.2 Đánh giá trình theo vết đối tượng 35 3.2.3 Đánh giá trình định danh lại 36 Môi trường thông số cài đặt 37 3.4 3.5 3.3.1 Môi trường cài đặt 37 3.3.2 Camera thu liệu 37 3.3.3 Ràng buộc lệ thuộc 38 Kết thử nghiệm 38 3.4.1 Kết định danh lại tập liệu dùng chung 38 3.4.2 Kết thực nghiệm hệ thống định danh hoàn chỉnh 40 Tóm tắt nội dung 46 KẾT LUẬN 47 TÀI LIỆU THAM KHẢO 48 DANH MỤC HÌNH VẼ Hình Định danh lại hệ camera nhiều góc nhìn [1] Hình Sơ đồ khối hệ thống định danh lại Hình Phát người thời điểm khác [2] Hình 1.1 Kiến trúc mạng R-CNN [4] Hình 1.2 Kiến trúc mạng Faster R-CNN [8] Hình 1.3 Bản đồ đặc trưng mạng SSD [5] Hình 1.4 đồ đặc trưng nhiều scale SSD [5] Hình 1.5 Các nhóm theo vết đối tượng [11] Hình 1.6 Các lọc kết cấu sử dụng đặc trưng ELF [14] Hình 1.7 Mơ tả phương pháp xây dựng đặc trưng LDFV [16] Hình 1.8 Tầm quan trọng phân bố cục [17] 10 Hình 1.9 Biểu đồ luồng xây dựng đặc trưng gBiCov [18] 11 Hình 1.10 Tầm quan trọng thông tin kỳ vọng [17] 11 Hình 1.11 So sánh đặc trưng LBP, LTP SILTP [20] 12 Hình 1.12 Phương pháp trích xuất đặc trưng LOMO [19] 13 Hình 1.13 Biểu đồ luồng thuật toán Retinex [21] 13 Hình 1.14 Kiến trúc mạng PersonNet [22] 14 Hình 1.15 Biểu đồ khối ứng dụng mạng GAN Person Re-ID [25] 15 Hình 1.16 Luồng hoạt động phương pháp RNN cho Person Re-ID [29] 16 Hình 2.1 Luồng hoạt động hệ thống định danh đề xuất 18 Hình 2.2 Nguyên lý mơ hình YOLO [10] 19 Hình 2.3 Kiến trúc mơ hình YOLO [10] 20 Hình 2.4 Sơ đồ khối lọc Kalman [32] 22 Hình 2.5 Các lớp đặc trưng DeepSORT [31] 24 Hình 2.6 Các bước trích xuất đặc trưng GOG [17] 25 Hình 2.7 Vector định hướng có trọng số [34] 26 Hình 2.8 Các chiến lược tính đặc trưng đại diện cho multishot [35] 28 Hình 2.9 Quá trình huấn luyện XQDA 30 Hình 3.1 Cách bố trí camera liệu PRID-2011 [36] 32 Hình 3.2 Chuỗi hành động người hai camera (PRID-2011) 32 Hình 3.3 Hình ảnh liệu với kịch thu ngày 33 Hình 3.4 Sự khác precision, recall IoU 35 Hình 3.5 Ví dụ đường cong CMC 37 Hình 3.6 Kết phát tập liệu outdoor_hard 41 Hình 3.7 Kết phát tập liệu 20191105_indoor_cross 41 Hình 3.8 Kết phát tập liệu 20191104_outdoor_cross 41 Hình 3.9 Một số ví dụ phát sai 42 Hình 3.10 Ví dụ đổi ID kết theo vết tập liệu FAPR 43 Hình 3.11 Ví dụ phân mảnh ID kết theo vết tập liệu FAPR 43 Hình 3.12 Ví dụ kết theo vết tốt tập liệu FAPR 44 Hình 3.13 Ví dụ kết theo vết có nhiều người track 44 Hình 3.14 Ví dụ tracklet tập truy vấn 44 Hình 3.15 Ví dụ tracklet tập tìm kiếm 45 Hình 3.16 Ví dụ tracklet chứa vùng thể 46 DANH MỤC BẢNG Bảng 3.1 Các video sở liệu FAPR 33 Bảng 3.2 Kết định danh lại thay đổi số regions từ rank-1 tới rank-20 38 Bảng 3.3 So sánh kết thử nghiệm GOG với phương pháp khác 39 Bảng 3.4 Kết module phát liệu FAPR 40 Bảng 3.5 Kết thử nghiệm module theo vết liệu FAPR 42 Bảng 3.6 Kết thành phần định danh lại liệu FAPR 45 Hình 3.5 Ví dụ đường cong CMC 3.3 Môi trường thông số cài đặt 3.3.1 Môi trường cài đặt Các thử nghiệm thực Server MICA với CPU Intel (R) Core(TM) i7-8700 3.2GHz, nhân, 12 luồng, 32GB RAM, GPU nVIDIA GTX 1080Ti Nền tảng lập trình dựa Keras với backend Tensorflow, mơi trường chạy hệ điều hành Ubuntu 18.04, ngôn ngữ lập trình Python Bên cạnh đó, riêng với phần định danh lại, ngơn ngữ lập trình sử dụng C++ với thư viện sau sử dụng: - Thư viện xử lý hình ảnh: Open source Computer Vision Library (OpenCV) thư viện mã nguồn mở dành cho ứng dụng học máy thị giác máy tính Những thuật tốn sử dụng để phát nhận dạng khuôn mặt, định danh vật thể, phân loại hành động người video, tracking chuyển động, trích chọn mơ hình 3D vật thể,… Thư viện có interface cho C++, Python, Java, MATLAB hỗ trợ hệ điều hành Windows, Linux, Android MacOS - Thư viện xử lý ma trận: dlib thư viện ma nguồn mở đa tảng viết ngôn ngữ C++ Dlib chứa thành phần để xử lý mạng, luồng, giao diện, cấu trúc liệu phức tạp, đại số tuyến tính, học máy thống kê, xử lý hình ảnh, khai phá liệu, phân tích cú pháp XML, mạng Bayesian số cơng việc khác Hiện dlib hoạt động OS X, MS Windows, Solaris, BSDs HP-UX 3.3.2 Camera thu liệu Camera sử dụng để thu liệu HKVISION, có độ phân giải 2MP Camera thuộc loại Cam-IP, sử dụng kết nối qua mạng TCP/IP tới máy chủ Camera cho phép đọc đầu theo hai định dạng MJPG H264 Camera có khớp cầu cho phép chỉnh góc quay vật lý, cho phép thiết lập góc nhìn thủ cơng Q trình thu liệu sử dụng hai camera, đặt đồng thời hai vị trí khác nhau, khơng chồng lấn tầm nhìn 37 3.3.3 Ràng buộc lệ thuộc Phương pháp định danh lại tác giả đề xuất sử dụng đặc trưng xử lý màu sắc trang phục, mặt lý thuyết, trình định danh lại xác người qua camera khơng thay đổi trang phục Đối với trường hợp người thay đổi trang phục, phương pháp định danh lại khơng thể định danh xác Luận văn giả định người qua camera lưu trữ liên tục, chưa tính tốn tới vấn đề thời gian lưu trữ, nhớ thực Hiện tại, tốc độ thành phần định danh lại 30 box/s, nên frame có nhiều box, thành phần định danh lại gây nút cổ chai Để khắc phục điều đó, thành phần định danh lại thực thi người chuẩn bị khỏi vùng quan sát camera 3.4 Kết thử nghiệm 3.4.1 Kết định danh lại tập liệu dùng chung Các thử nghiệm định danh lại thực tập liệu PRID 2011 Do tính chất tập liệu, thử nghiệm luận văn tập trung vào nhóm người xuất hai camera Trong trình đánh giá, 89 người tập liệu PRID 2011 chọn ngẫu nhiên, sử dụng đặc trưng GOG độ đo khoảng cách XQDA, cuối xây dựng đường cong CMC Làm tương tự q trình 10 lần, sau lấy kết trung bình đường cong CMC làm kết cuối Với thử nghiệm kết định danh lại, nhiều tham số mơ hình thay đổi đánh giá, tham số ảnh hưởng nhiều tới giá trị đường cong CMC số regions Kết thử nghiệm định danh lại thể Bảng 3.2 Bảng 3.2 Kết định danh lại thay đổi số regions từ rank-1 tới rank-20 rank 1-regions 3-regions 7-regions 15-regions 68.54 75.28 82.02 83.37 78.54 84.49 89.55 89.66 82.81 89.1 92.92 93.03 86.07 91.46 94.49 94.83 88.76 92.7 95.73 96.29 90.45 94.04 96.52 97.3 91.24 94.83 96.97 97.42 92.36 95.73 97.42 98.2 93.03 96.07 97.64 98.43 10 94.04 96.52 98.09 98.65 11 94.49 97.3 98.31 98.88 38 12 95.39 97.53 98.31 98.99 13 95.73 97.64 98.31 98.99 14 96.4 97.64 98.54 99.1 15 96.63 97.98 98.76 99.21 16 96.97 98.2 98.99 99.21 17 97.42 98.54 99.1 99.33 18 97.64 98.65 99.33 99.33 19 97.64 98.88 99.33 99.33 20 97.98 99.1 99.33 99.33 Bảng 3.2 cho thấy có thay đổi lớn kết định danh tăng số regions (giá trị rank-1 thay đổi từ 68.54% tới 83.37%) Kết giải thích số regions tăng lên, biểu diễn chi tiết hơn, bên cạnh đó, cách thiết kế GOG khơng tổng hợp đặc trưng regions, thay vào đặc trưng regions nối lại với thành vectors Bộ liệu PRID có tương đối giống camera đặt cố định, việc chia regions ảnh hưởng nhiều tới khả biểu diễn Bên cạnh việc đánh giá việc thay đổi tham số, luận văn tham chiếu kết định danh với phương pháp khác liệu PRID 2011 Kết tham chiếu thể Bảng 3.3 Bảng 3.3 So sánh kết thử nghiệm GOG với phương pháp khác Phương pháp rank-1 rank-5 rank-10 rank-20 TAPR [39] 68.6 94.6 97.4 98.9 STFV3D + KISSME [40] 64.1 87.3 89.9 92 HOG3D + DVR [41] 28.9 55.3 65.5 82.8 FAST3D [42] 31.2 60.3 76.4 88.6 RFA-Net [43] 53.6 82.9 92.8 97.9 Thử nghiệm 83.37 96.29 98.65 99.33 Bảng 3.3 phương pháp GOG có kết tốt rank, kể phương pháp sử dụng mạng học sâu RFA-Net Điểm quan trọng GOG việc sử dụng thông tin kỳ vọng, thông tin bị bỏ qua phương pháp trước Thêm vào việc thực trích chọn đặc trưng thông qua phân phối phân cấp cho kết tốt 39 3.4.2 Kết thực nghiệm hệ thống định danh hoàn chỉnh Các thử nghiệm đánh giá hệ thống định danh hoàn chỉnh thực liệu tự thu thập FAPR, với phát sử dụng mơ hình Yolov3, theo vết sử dụng mơ hình DeepSORT, phương pháp định danh lại sử dụng GOG Tuy nhiên, liệu FAPR có lượng người thấp, XQDA cần sử dụng lượng nhãn lớn làm học, sử dụng FAPR khơng hiệu cao Do đó, liệu FAPR, luận văn sử dụng độ đo tương tự cosine thay Các thành phần đánh giá tuần tự, kết thành phần trước đầu vào thành phần sau Cụ thể, đầu module phát đầu vào module theo vết, đầu module theo vết đầu vào module định danh lại Kết thực nghiệm module phát Đối với module phát hiện, thử nghiệm sử dụng tồn nhóm liệu tập FAPR Mỗi nhóm liệu qua phát tính độ đo precision recall Kết thử nghiệm module phát thể Bảng 3.4 với hai độ đo Recall Precision Bảng 3.4 Kết module phát liệu FAPR Tên liệu FP FN Recall Precision indoor 80 51 95.6 93.2 outdoor_easy 70 65 97.5 97.3 outdoor_hard 533 460 93.0 92.0 20191104_indoor_left 164 215 83.3 86.7 20191104_indoor_right 118 188 85.2 90.1 20191104_indoor_cross 142 244 76.9 85.1 20191104_outdoor_left 249 160 88.0 82.5 20191104_outdoor_right 203 297 86.0 85.6 20191104_outdoor_cross 213 134 85.7 79.1 20191105_indoor_left 66 276 81.6 94.9 20191105_indoor_right 106 291 74.0 88.7 20191105_indoor_cross 284 833 73.0 88.8 20191105_outdoor_left 104 104 93.4 93.4 20191105_outdoor_right 220 256 77.1 79.7 20191105_outdoor_cross 317 378 85.6 87.6 Overall 2869 3852 86.5 89.6 40 Xét toàn thử nghiệm, giá trị precision recall cao tập indoor, outdoor_easy, outdoor_hard Trong số đó, tập liệu outdoor_easy có kết cao với hai độ đo precision 97.3% recall 97.5% Lý kịch thử nghiệm tập liệu đơn giản, bị đan xen Hình 3.6 Kết phát tập liệu outdoor_hard Tiếp theo, với tập liệu nhóm 20191104 20191105, kịch liệu phức tạp với nhiều tình di chuyển đan xen, độ đo precision thay đổi từ 79.1% tới 90.1%, độ đo recall thay đổi từ 73.0% tới 93.4% Nhóm liệu có độ đo recall thấp nhất, 20191105_indoor_cross, kịch di chuyển có tính đan xen, cộng thêm ảnh hưởng ánh sáng mặt trời, dẫn tới phát thiếu nhiều box (Hình 3.7) Nhóm liệu có độ đo precision thấp nhất, 20191104_outdoor_cross, có đan xen cao, cộng thêm ánh sáng mức thấp, nhiều bóng nên phát sai nhiều (Hình 3.8) Hình 3.7 Kết phát tập liệu 20191105_indoor_cross Hình 3.8 Kết phát tập liệu 20191104_outdoor_cross Trong số tập liệu trên, tập liệu 20191105_outdoor_left cho kết hai độ đo cao với precision 93.4% recall 93.4% Tập liệu có đặc điểm giống với ba tập liệu indoor, outdoor_easy, outdoor_hard kịch di chuyển tuần tự, khơng đan xen Bên cạnh đó, việc kịch di chuyển đan xen khiến phát gặp khó khăn việc xác định xác bounding box đối tượng, dẫn tới vấn đề bounding box chứa hai người, bounding box phát chứa phần đối tượng (Hình 3.9) 41 Hình 3.9 Một số ví dụ phát sai Kết thực nghiệm module theo vết Đối với module theo vết, luận văn sử dụng đầu module phát làm đầu vào Các thử nghiệm thực toàn tập liệu tự thu thập Kết thử nghiệm module theo vết thể Bảng 3.5 Bảng 3.5 Kết thử nghiệm module theo vết liệu FAPR Tên liệu GT MT PT ML IDF1 IDP IDR IDs FM MOTA MOTP indoor 7 0 91.5 90.4 92.7 11 88.0 0.26 outdoor_easy 7 0 74.5 74.4 74.6 16 94.5 0.21 outdoor_hard 20 19 78.0 77.6 78.4 30 67 84.4 0.28 20191104_ind oor_left 10 83.8 85.5 82.1 24 70.0 0.34 20191104_ind oor_right 13 79.6 81.9 77.4 16 75.1 0.3 20191104_ind oor_cross 10 68.0 71.6 64.7 12 29 62.3 0.29 20191104_out door_left 10 73.5 71.2 76.0 10 48 68.6 0.33 20191104_out door_right 11 70.6 70.5 70.8 17 45 70.3 0.29 20191104_out door_cross 12 2 71.9 69.2 75 14 33 61.6 0.3 20191105_ind oor_left 11 84.1 90.9 78.2 14 34 76.3 0.29 20191105_ind oor_right 11 77.4 85.1 71 49 63.9 0.32 20191105_ind oor_cross 21 10 11 68.7 76.1 62.6 29 104 62.9 0.28 20191105_out door_left 11 10 92.1 92.1 92.1 24 86.2 0.27 20191105_out door_right 11 67.3 68.4 66.2 14 67 56.2 0.33 20191105_out door_cross 17 15 72.2 72.8 71.4 48 97 71.6 0.29 Overall 182 127 49 76.6 77.9 75.3 232 664 75.7 0.28 42 Tương tự module phát hiện, kết module theo vết với ba tập liệu indoor, outdoor_easy, outdoor_hard cho kết cao Nguyên nhân kịch di chuyển đơn giản, module phát hoạt động tốt tập liệu trên, dẫn tới kết theo vết cao Đối với tập liệu nhóm 20191104 20191105, giá trị MOTA thay đổi từ 56.2% tới 86.2% Trong số đó, tập liệu 20191105_outdoor_right cho kết MOTA thấp với giá trị 56.2%, tập liệu 20191105_outdoor_left cho kết MOTA cao với giá trị 86.2% Hai tập liệu thu camera khoảng thời gian, nhiên kịch di chuyển hai tập liệu khác nhau: tập liệu 20191105_outdoor_left có kịch di chuyển đơn giản, người một, không đan xen, tập 20191105_outdoor_right kịch di chuyển thành cặp, liên tục có che khuất, giao nhóm người di chuyển Do kịch di chuyển phức tạp, tập liệu có đan xen cao có độ đo IDs FM lớn Trong cao tập liệu 20191105_indoor_cross với giá trị IDs 29 tương ứng với số lần thay đổi ID tracket (Hình 3.10) và giá trị FM 104 ứng với phân mảnh tracket (Hình 3.11) Hình 3.10 Ví dụ đổi ID kết theo vết tập liệu FAPR Hình 3.11 Ví dụ phân mảnh ID kết theo vết tập liệu FAPR Do theo vết nhận đầu vào từ phát trước đó, số lỗi từ phát ảnh hưởng tới kết theo vết Điển hình dễ thấy trường hợp track chứa nhiều người (Hình 3.13) Tuy nhiên, với kịch di chuyển mình, khơng ghép nhóm, q trình theo vết diễn liên tục (Hình 5.7) 43 Hình 3.12 Ví dụ kết theo vết tốt tập liệu FAPR Hình 3.13 Ví dụ kết theo vết có nhiều người track Đánh giá thành phần định danh lại Khi đánh giá kết mô đun định danh lại sở liệu PRID 2011 kết phát theo vết CSDL thực thủ cơng với CSDL PRID 2011, luận văn khơng thực đánh giá kết bước trung gian phát theo vết Đối với CSDL FAPR, thục thành phần phát theo vết, người bị tách thành nhiều tracklets vùng nhìn camera đơn (do người đan xen nhiều, dẫn tới tracking không dự đốn xác vị trí người bộ) Do đó, đánh giá q trình định danh lại, trước ID tracklet theo ID người gán lại (thủ cơng), sau thực việc đánh giá ID tracklet, sau chuyển qua ID người tương ứng Hình 3.14 Ví dụ tracklet tập truy vấn 44 Hình 3.15 Ví dụ tracklet tập tìm kiếm Đối với trình đánh giá thành phần định danh lại, luận văn thực hai nhóm liệu 20191104 20191105, thử nghiệm sử dụng tập indoor làm tập truy vấn (Hình 3.14), tập outdoor làm tập tìm kiếm (Hình 3.15) Mỗi đặc trưng GOG tập truy vấn đo độ tương tự cosine với tất đặc trưng tập tìm kiếm, từ tìm tracklets tốt ứng với ID truy vấn Kết đánh giá định danh lại thể Bảng 3.6 Bảng 3.6 Kết thành phần định danh lại liệu FAPR scenarios globe gallery matching rate (%) 20191104_indoor_left 20191104_outdoor_left 73.33 20191104_indoor_right 20191104_outdoor_right 64.29 20191104_indoor_cross 20191104_outdoor_cross 77.27 20191104_indoor_full 20191104_outdoor_full 80.39 20191105_indoor_left 20191105_outdoor_left 100.00 20191105_indoor_right 20191105_outdoor_right 83.33 20191105_indoor_cross 20191105_outdoor_cross 71.43 20191105_indoor_full 20191105_outdoor_full 89.29 Xét toàn kết định danh lại liệu FAPR, nhóm liệu có kết cao 20191105_left với kết khớp rank-1 100.00%, nhóm liệu có kết thấp 20191104_right với kết khớp rank-1 64.29% Do đặc trưng GOG đặc trưng có khả mơ tả tốt, khác biệt hai nhóm liệu nằm kết module theo vết Với nhóm liệu 20191105_left, tracklet thu từ module theo vết đầy đủ người, không gặp tình trạng bounding cắt nửa thể hay có chứa vùng nhỏ thể Do GOG có khả mơ tả tốt nhóm liệu Mặt khác, với nhóm liệu 20191104_right, tracklet thu từ module theo vết chứa nhiều bounding box không đầy đủ người, chứa vùng nhỏ thể (Hình 3.16) Vì GOG khơng có khả mơ tả tốt nhóm liệu 45 Tiếp theo, nhóm liệu 20191104_full 2019105_full có giá trị khớp rank1 cao hầu hết nhóm liệu (ngoại trừ nhóm 20191105_left) với giá trị 80.39% 89.29% Lý việc trộn tập liệu vào làm tăng tập tìm kiếm, tăng khả tìm tracklet từ tập tìm kiếm có giá trị cosine cao so với tìm tập tìm kiếm nhỏ Hình 3.16 Ví dụ tracklet chứa vùng thể 3.5 Tóm tắt nội dung Chương trình bày chi tiết liệu thử nghiệm (bao gồm phương pháp thu thập liệu phương pháp đánh nhãn), môi trường thử nghiệm, độ đo đánh giá đánh giá chi tiết thành phần Đối với thành phần phát theo vết, thử nghiệm thực liệu tự thu thập, thành phần định danh lại, thử nghiệm thực hai tập liệu: (1) tập liệu dùng chung (2) tập liệu tự xây dựng Các thử nghiệm đánh giá tác động môi trường thu thực tế lên thành phần hệ thống, với ảnh hưởng thành phần trước lên thành phần sau Các trường hợp thành phần trước gây sai lệch cho thành phần sau tác giả phân tích kỹ 46 KẾT LUẬN Kết đạt Luận văn tập trung nghiên cứu giải vấn đề thách thức lĩnh vực thi giác máy tính, hệ thống định danh người Luận văn trình bày nghiên cứu lĩnh vực này, đồng thời đề xuất phương án thực hóa luồng định danh hồn chỉnh Trong trình làm luận văn, tác giả thu thập liệu sử dụng trình đánh giá hệ thống Các đánh giá tập trung phân tích vấn đề hệ thống định danh, bao gồm vấn đề tổng thể vấn đề cục thành phần hệ thống Sau trình nghiên cứu, luận văn thành cơng việc ghép nối ba thành phần độc lập module phát đối tượng, module theo vết đối tượng, module định danh lại, đánh giá độ đo tập liệu tự thu thập Tốc độ đáp ứng module hệ thống chạy môi trường thử nghiệm: tốc độ thành phần phát theo vết đạt 30 FPS, tốc độ thành phần định danh lại đạt 30 box/s Các kết nghiên cứu luận văn trình bày trong: Bài báo hội nghị: Thuy-Binh Nguyen, Duc-Long Tran, Thi-Lan Le, Thi Thanh Thuy Pham, Huong-Giang Doan, An effective implementation of Gaussian of Gaussian descriptor for person re-identification, The 5th NAFOSTED Conference on Information and Computer Science (NICS) (đã chấp nhận trình bày) Bài báo tạp chí nước: Hong-Quan Nguyen, Thuy-Binh Nguyen, DucLong Tran, Thi-Lan Le, A unified framework for automated person reidentification, Tạp chí Khoa học Giao thơng vận tải, Trường Đại học Giao thông vận tải (đã chấp nhận) Hướng phát triển Xuất phát từ tồn trình nghiên cứu hệ thống định danh lại hoàn chỉnh, hướng phát triển tác giả tối ưu độ xác thành phần phát hiện, theo vết, định danh lại Bên cạnh đó, tác giả tiếp tục thử nghiệm phương pháp nhằm tìm phương án tốt triển khai thực tế Thơng qua q trình nghiên cứu, tác giả nhận tồn module định danh lại độ phức tạp tính tốn lớn, khó đảm bảo khả hoạt động thực tế Từ vấn đề đó, hướng phát triển luận văn nghiên cứu phương pháp giảm độ phức tạp đặc trưng, cân độ xác với tốc độ tính tốn 47 TÀI LIỆU THAM KHẢO [1] A Bedagkar-Gala and S K Shah, “A survey of approaches and trends in person re-identification,” Image Vis Comput., vol 32, no 4, pp 270–286, Apr 2014, doi: 10.1016/j.imavis.2014.02.001 [2] J Temperton, “One nation under CCTV: the future of automated surveillance,” Wired UK, Aug 17, 2015 [3] F Sayadi, Y Said, M Atri, and R Tourki, “Real time human detection in video streams,” p [4] R Girshick, J Donahue, T Darrell, and J Malik, “Rich feature hierarchies for accurate object detection and semantic segmentation,” ArXiv13112524 Cs, Oct 2014, Accessed: Sep 25, 2020 [Online] Available: http://arxiv.org/abs/1311.2524 [5] W Liu et al., “SSD: Single Shot MultiBox Detector,” ArXiv151202325 Cs, vol 9905, pp 21–37, 2016, doi: 10.1007/978-3-319-46448-0_2 [6] J R R Uijlings, K E A van de Sande, T Gevers, and A W M Smeulders, “Selective Search for Object Recognition,” Int J Comput Vis., vol 104, no 2, pp 154–171, Sep 2013, doi: 10.1007/s11263-013-0620-5 [7] R Girshick, “Fast R-CNN,” ArXiv150408083 Cs, Sep 2015, Accessed: Sep 25, 2020 [Online] Available: http://arxiv.org/abs/1504.08083 [8] S Ren, K He, R Girshick, and J Sun, “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,” ArXiv150601497 Cs, Jan 2016, Accessed: Sep 25, 2020 [Online] Available: http://arxiv.org/abs/1506.01497 [9] K Simonyan and A Zisserman, “Very Deep Convolutional Networks for Large-Scale Image Recognition,” ArXiv14091556 Cs, Apr 2015, Accessed: Sep 25, 2020 [Online] Available: http://arxiv.org/abs/1409.1556 [10] J Redmon, S Divvala, R Girshick, and A Farhadi, “You Only Look Once: Unified, Real-Time Object Detection,” ArXiv150602640 Cs, May 2016, Accessed: Sep 25, 2020 [Online] Available: http://arxiv.org/abs/1506.02640 [11] A Yilmaz, O Javed, and M Shah, “Object tracking: A survey,” ACM Comput Surv., vol 38, no 4, p 13, Dec 2006, doi: 10.1145/1177352.1177355 [12] A Bewley, Z Ge, L Ott, F Ramos, and B Upcroft, “Simple Online and Realtime Tracking,” 2016 IEEE Int Conf Image Process ICIP, pp 3464– 3468, Sep 2016, doi: 10.1109/ICIP.2016.7533003 [13] T Roughgarden, “CS261: A Second Course in Algorithms Lecture #5: Minimum-Cost Bipartite Matching,” p 14 [14] D Gray and H Tao, “Viewpoint Invariant Pedestrian Recognition with an Ensemble of Localized Features,” in Computer Vision – ECCV 2008, vol 5302, D Forsyth, P Torr, and A Zisserman, Eds Berlin, Heidelberg: Springer Berlin Heidelberg, 2008, pp 262–275 [15] B Ma, Y Su, and F Jurie, “Local Descriptors Encoded by Fisher Vectors for Person Re-identification,” in Computer Vision – ECCV 2012 Workshops 48 and Demonstrations, vol 7583, A Fusiello, V Murino, and R Cucchiara, Eds Berlin, Heidelberg: Springer Berlin Heidelberg, 2012, pp 413–422 [16] S I R Costa, S A Santos, and J E Strapasson, “Fisher information distance: a geometrical reading,” ArXiv12102354 Math-Ph Stat, Jan 2014, Accessed: Sep 25, 2020 [Online] Available: http://arxiv.org/abs/1210.2354 [17] T Matsukawa, T Okabe, E Suzuki, and Y Sato, “Hierarchical Gaussian Descriptor for Person Re-identification,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, Jun 2016, pp 1363–1372, doi: 10.1109/CVPR.2016.152 [18] B Ma, Y Su, and F Jurie, “Covariance descriptor based on bio-inspired features for person re-identification and face verification,” Image Vis Comput., vol 32, no 6–7, pp 379–390, Jun 2014, doi: 10.1016/j.imavis.2014.04.002 [19] S Liao, Y Hu, Xiangyu Zhu, and S Z Li, “Person re-identification by Local Maximal Occurrence representation and metric learning,” in 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, USA, Jun 2015, pp 2197–2206, doi: 10.1109/CVPR.2015.7298832 [20] S Liao, G Zhao, V Kellokumpu, M Pietikainen, and S Z Li, “Modeling pixel process with scale invariant local patterns for background subtraction in complex scenes,” in 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, San Francisco, CA, USA, Jun 2010, pp 1301–1306, doi: 10.1109/CVPR.2010.5539817 [21] R Kimmel, M Elad, D Shaked, R Keshet, and I Sobel, “A Variational Framework for Retinex,” Int J Comput Vis., vol 52, no 1, pp 7–23, 2003, doi: 10.1023/A:1022314423998 [22] L Wu, C Shen, and A van den Hengel, “PersonNet: Person Reidentification with Deep Convolutional Neural Networks,” ArXiv160107255 Cs, Jun 2016, Accessed: Sep 25, 2020 [Online] Available: http://arxiv.org/abs/1601.07255 [23] D Cheng, Y Gong, S Zhou, J Wang, and N Zheng, “Person Reidentification by Multi-Channel Parts-Based CNN with Improved Triplet Loss Function,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, Jun 2016, pp 1335–1344, doi: 10.1109/CVPR.2016.149 [24] I J Goodfellow et al., “Generative Adversarial Networks,” ArXiv14062661 Cs Stat, Jun 2014, Accessed: Sep 25, 2020 [Online] Available: http://arxiv.org/abs/1406.2661 [25] Z Zheng, L Zheng, and Y Yang, “Unlabeled Samples Generated by GAN Improve the Person Re-identification Baseline in Vitro,” in 2017 IEEE International Conference on Computer Vision (ICCV), Venice, Oct 2017, pp 3774–3782, doi: 10.1109/ICCV.2017.405 [26] A Radford, L Metz, and S Chintala, “Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks,” ArXiv151106434 Cs, Jan 2016, Accessed: Sep 25, 2020 [Online] Available: http://arxiv.org/abs/1511.06434 49 [27] K He, X Zhang, S Ren, and J Sun, “Deep Residual Learning for Image Recognition,” ArXiv151203385 Cs, Dec 2015, Accessed: Sep 25, 2020 [Online] Available: http://arxiv.org/abs/1512.03385 [28] A Krizhevsky, I Sutskever, and G E Hinton, “ImageNet Classification with Deep Convolutional Neural Networks,” in Advances in Neural Information Processing Systems 25, F Pereira, C J C Burges, L Bottou, and K Q Weinberger, Eds Curran Associates, Inc., 2012, pp 1097–1105 [29] N McLaughlin, J Martinez del Rincon, and P Miller, “Recurrent Convolutional Network for Video-Based Person Re-identification,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, Jun 2016, pp 1325–1334, doi: 10.1109/CVPR.2016.148 [30] J Redmon and A Farhadi, “YOLOv3: An Incremental Improvement,” p [31] N Wojke, A Bewley, and D Paulus, “Simple Online and Realtime Tracking with a Deep Association Metric,” ArXiv170307402 Cs, Mar 2017, Accessed: Sep 25, 2020 [Online] Available: http://arxiv.org/abs/1703.07402 [32] A Becker (www.kalmanfilter.net), “Online Kalman Filter Tutorial.” https://www.kalmanfilter.net/ (accessed Sep 25, 2020) [33] L Zheng et al., “MARS: A Video Benchmark for Large-Scale Person ReIdentification,” in Computer Vision – ECCV 2016, vol 9910, B Leibe, J Matas, N Sebe, and M Welling, Eds Cham: Springer International Publishing, 2016, pp 868–884 [34] T Kobayashi and N Otsu, “Image Feature Extraction Using Gradient Local Auto-Correlations,” in Computer Vision – ECCV 2008, vol 5302, D Forsyth, P Torr, and A Zisserman, Eds Berlin, Heidelberg: Springer Berlin Heidelberg, 2008, pp 346–358 [35] T.-B Nguyen, T.-L Le, L Devillaine, T Pham, and N P Ngoc, “Effective multi-shot person re-identification through representative frames selection and temporal feature pooling,” Multimed Tools Appl., 2019, doi: 10.1007/s11042019-08183-y [36] “ICG - PRID11.” https://www.tugraz.at/institute/icg/research/teambischof/lrs/downloads/prid11/ (accessed Sep 25, 2020) [37] darrenl, tzutalin/labelImg 2020 [38] “The PASCAL Visual Object Classes Homepage.” http://host.robots.ox.ac.uk/pascal/VOC/ (accessed Nov 04, 2020) [39] C Gao, J Wang, L Liu, J.-G Yu, and N Sang, “Temporally aligned pooling representation for video-based person re-identification,” in 2016 IEEE International Conference on Image Processing (ICIP), Phoenix, AZ, USA, Sep 2016, pp 4284–4288, doi: 10.1109/ICIP.2016.7533168 [40] K Liu, B Ma, W Zhang, and R Huang, “A Spatio-Temporal Appearance Representation for Video-Based Pedestrian Re-Identification,” in 2015 IEEE International Conference on Computer Vision (ICCV), Santiago, Dec 2015, pp 3810–3818, doi: 10.1109/ICCV.2015.434 50 [41] T Wang, S Gong, X Zhu, and S Wang, “Person Re-identification by Video Ranking,” in Computer Vision – ECCV 2014, Cham, 2014, pp 688–703, doi: 10.1007/978-3-319-10593-2_45 [42] Z Liu, J Chen, and Y Wang, “A FAST ADAPTIVE SPATIOTEMPORAL 3D FEATURE FOR VIDEO-BASED PERSON REIDENTIFICATION,” p [43] Y Yan, B Ni, Z Song, C Ma, Y Yan, and X Yang, “Person ReIdentification via Recurrent Feature Aggregation,” ArXiv170106351 Cs, Jan 2017, Accessed: Sep 25, 2020 [Online] Available: http://arxiv.org/abs/1701.06351 51 ... vụ hệ thống lúc định danh lại người số số Tương tự với người số di chuyển từ camera sang camera người số 15 di chuyển từ camera tới camera Phương pháp chung hệ thống định danh lại Hệ thống định. .. phần định danh lại đồng ID qua camera hệ thống Một hệ thống định danh lại bao gồm ba thành phần chính: - Phát đối tượng: Đây vấn đề hệ thống camera giám sát thông minh, thành phần hệ thống định danh. .. – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Trần Đức Long Đề tài luận văn: Nghiên cứu phát triển phương pháp định danh người hệ thống giám sát tự động camera

Tiêu đề	Nghiên Cứu Và Phát Triển Phương Pháp Định Danh Người Trong Hệ Thống Giám Sát Tự Động Bằng Camera
Tác giả	Trần Đức Long
Người hướng dẫn	PGS. TS. Lê Thị Lan
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Hệ Thống Thông Tin
Thể loại	luận văn thạc sĩ
Năm xuất bản	2020
Thành phố	Hà Nội

Định dạng
Số trang	61
Dung lượng	1,39 MB