TÁI NHẬN DẠNG NGƯỜI KHÔNG GIÁM sát THÔNG QUA hệ THỐNG NHIỀU CAMERA có KHÔNG CHỒNG lấp

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI BÁO CÁO TÁI NHẬN DẠNG NGƯỜI KHÔNG GIÁM SÁT THÔNG QUA HỆ THỐNG NHIỀU CAMERA CĨ KHƠNG CHỒNG LẤP LÊ DUY ANH DŨNG Dung.lda198170@sis.hust.edu.vn Giảng viên hướng dẫn: TS Trần Đức Toàn Bộ mơn: An tồn bảo mật thơng tin Viện: Cơng nghệ thông tin Truyền thông MỤC LỤC I Giới thiệu Đặt vấn đề II Các nghiên cứu liên quan Unsupervised person Re-ID GAN (Generative Adversarial Networks) 3 Domain adaptation III Giải thuật đề xuất .4 Camera Style Transfer Model 1.1 Mơ hình starGAN .5 1.1.1 Generator .6 1.1.2 Discriminator 1.1.3 Cơng thức tính LOSS FUNCTION Iterative Re-ID Framework 2.1 Network with Repelled Loss .9 2.2 Cluster Merging 2.3 Dynamic Network Updating 10 Clustering Strategy 11 3.1 Clustering constraint 11 3.2 Diversity Regularization 12 IV Kết thực nghiệm .12 Tập sở liệu 12 1.1 The Market1501 dataset 13 1.2 The DuckMTMC-reID dataset 13 1.3 The MSMT17 dataset 13 Cách thức thực mô .13 Kết mô 14 V KẾT LUẬN .15 TÀI LIỆU THAM KHẢO .16 I Giới thiệu Đặt vấn đề Hiện nay, CCTV hay gọi camera an ninh phủ sóng rộng rãi nhiều khu vực giới nhằm đảm bảo an ninh cho người dân thực thi pháp luật cách xác Các camera hệ thống giám sát hàng trăm địa điểm, hàng trăm đến hàng nghìn người ngày nên việc xác định tìm kiếm đối tượng cần truy vấn cách thủ công khó khăn tốn nhiều thời gian, cơng sức Chính thế, để đảm bảo xác, tiết kiệm thời gian chi phí, toán tái nhận dạng đối tượng cần truy vấn thơng qua hệ thống AI hồn tồn tự động ngày trọng Tuy nhiên, đối mặt với nhiều thách thức: thay đổi điều kiện ánh sáng, điều kiện mơi trường, góc quay camera, hay tương đồng hình dáng bên ngồi, quần áo đối tượng … Vì cần giải pháp cho khắc phục nhược điểm camera dùng AI Do đó, phương pháp tái nhận dạng người không giám sát thông qua camera với góc độ khác đời II Các nghiên cứu liên quan Có nhiều nghiên cứu liên quan đến việc tái nhận dạng người hệ thống nhiều camera giám sát, bật gồm số công bố sau: Unsupervised person Re-ID Để thực việc tái nhận dạng người, hầu hết nghiên cứu trước dựa thông tin tồn cục thơng tin phân bố màu sắc, hướng tính (B.Prosser et al.,2010;Hizer Martin et al., 2011;W.Zheng, 2011;) Các phương pháp nhận dạng thường đạt hiệu cao góc nhìn khơng có thay đổi lớn đặc điểm hình dáng bên ngồi đối tượng tương đối khác Tuy nhiên, góc nhìn thay đổi đủ lớn, đặc tính hình dáng có nhiều điểm tương đồng miền ánh sáng giống hiệu suất nhận dạng đáng kể Gần đây, Lin et al đề xuất framework hợp làm tối ưu mạng lưới neuron tích hợp (CNN) mối quan hệ mẫu cá thể Tuy nhiên, phong cách người ảnh hưởng nhiều camera Chính vậy, tơi đề xuất đến việc khai thác hình ảnh khai thác camera với góc độ khác với nhân dạng ứng dụng Camera Style transfer model vào phương pháp GAN (Generative Adversarial Networks) Hiểu đơn giản generative model nghĩa mơ hình có khả sinh liệu Hay nói cách khác, GAN mơ hình có khả sinh liệu Ví dụ ảnh mặt người bạn thấy GAN sinh ra, mặt người thật Dữ liệu sinh nhìn thật khơng phải thật GAN cấu tạo gồm mạng Generator Discriminator Trong Generator sinh liệu giống thật Discriminator cố gắng phân biệt đâu liệu sinh từ Generator đâu liệu thật có Trong phương pháp dùng này, sử dụng StarGAN - phiên khác GAN giúp ta dễ dàng thay đổi phong cách đối tượng thông qua nhiều domain khác Hình 2: Ảnh tạo phương pháp StarGAN Domain adaptation Là mảng transfer learning phân bố (probability distribution) liệu gốc (source domain) khác (nhưng có liên hệ) với miền liệu cần transfer (target domain) Ví dụ điển hình domain adaptation ứng dụng lọc spam (Spam filtering problem) Mơ hình lọc spam học từ user (source distribution) sang user khác có khác biệt đáng kể email nhận Domain adaptation dùng để học nguồn liệu khơng có mối liên hệ trực tiếp Ngoài ra, domain adaptivation với nghiên nguồn liệu khác gọi multiple-source domain adaptation Chúng ta dùng phương pháp để chuyển kiểu từ hình ảnh nguồn thành hình ảnh mong muốn với chất lượng ảnh sắc nét III Giải thuật đề xuất Camera Style Transfer Model Với mục tiêu cài đặt AI cho camera, ta khai thác liệu huấn luyện giống camera chéo làm thông tin giám sát Tuy nhiên nhân dạng lại cho hình ảnh khác camera khác Để khắc phục sai sót này, ta ứng dụng Camera Style Transfer Model để thay đổi phong cách đối tượng đồng thời giữ nét đặc trưng đối tượng Trong đó, mơ hình Deep Learning StarGAN phương án tối ưu để làm việc 1.1 Mơ hình starGAN StarGAN thuộc tốn unsupervised uni-model image to image translation Thơng thường dùng cycleGAN chuyển thuộc tính từ ngựa thường sang ngựa vằn ngược lại Giả sử tốn chuyển từ ảnh người tóc đen sang tóc vàng, nam sang nữ, già sang trẻ, mặt trắng nhợt sang bình thường cần build model cycleGAN không hiệu đặc biệt số lượng domain tăng lên cần GAN model học chuyển đổi nhiều domain khác tóc, giới tính, tuổi, da,… Và StarGAN sinh để giải vấn đề Hình Ảnh sinh từ StarGAN Generator StarGAN mang ý tưởng giống với conditional GAN (cGAN) tức ta generate ảnh với condition vào điều kiện (ở thuộc tính muốn chuyển đổi sang) Input ảnh gốc target domain mà mong muốn chuyển thuộc tính sang, output ảnh sinh với target domain tương ứng (b) Ảnh sinh (b) truyền đến nhánh (c) (d) Hình Mơ hình StarGAN Sau ảnh fake sinh kết hợp với domain gốc ban đầu ảnh cho qua generator với mục đích học lại ảnh ban đầu Ví dụ: ảnh gốc tóc đen + domain tóc vàng cho ảnh tóc vàng Sau ảnh tóc vàng sinh + domain tóc đen cho ảnh tóc đen Ở có construction loss, tức ảnh sinh (c) giống với ảnh ban đầu input (b) Đối với Discriminator input ảnh (ảnh fake nhánh (b) sinh ảnh thật dataset) phân biệt ảnh thật hay ảnh fake Bên cạnh discriminator cịn phân loại ảnh tới domain (bài tốn multiple classification) ví dụ input ảnh tóc vàng đeo kính discriminator phân loại tóc vàng đeo kính Ta thấy StarGAN model gồm mạng Generator mạng Discriminator Có điểm khác so với GAN bình thường Thứ reconstruction thứ hai classification domain tương ứng ảnh để giúp StarGAN học chuyển đổi nhiều domain 1.1.1 Generator Input generator ảnh gốc (512*512*3) vector (5*1) dạng one-hot thể target domain mà mong muốn Vector 5*1 lặp lại giá trị thành tensor 3d kích thước 512*512*5 (cùng width height với ảnh) Mọi người tưởng tượng ma trận 512*512 chứa giá trị vector 5*1 thành tensor 3d 512*512*5 Sau ảnh gốc nối với tensor 3d sinh từ vector domain thành tensor 3d kích thước 512*512*(5+3) = 512*512*8 Sau tensor 3d cho vào mơ hình generator cho output ảnh màu kích thước 512 * 512 Mơ hình giống với pix2pix dạng U-net có dùng residual block 1.1.2 Discriminator Discriminator input ảnh có output:  Phân biệt ảnh thật với ảnh fake (binary classification)  Phân loại ảnh với domain (multiple classification) Cấu trúc Discriminator StarGAN giống Discriminator bình thường, nhiên layer gần cuối cho qua convolutional layers riêng outputs 1.1.3 Công thức tính LOSS FUNCTION V (G, D, c, c0 ) = VGAN (D, G, c, c0 ) + λVcyc(G, c, c0 ), Iterative Re-ID Framework Kế tiếp trình Style-transfered, ta thực phương thức Iterative Re-ID Framework để khai thác liệu từ camera cách ổn định Như hình ta thấy: Hình Sau thực Camera style transfer model, thực trình Iterative Re-ID FrameWork lặp lặp lại qua giai đoạn: - Tạo Network with repelled loss ( mạng lưới từ chối tổn thất ) cho phép liệu phân loại - Sau phân loại qua thuật toán CNN ,bằng cách khai thác đặc tính nhúng, lại hợp liệu lại với 2.1 Network with Repelled Loss Vì ta khơng có nhãn thực điểm test data, nên ta dán nhãn hình ảnh vào cụm ban đầu khác nhau, tức {yˆi = i | ≤ i ≤ N} y^i index for xi thay đổi động Lưu ý rằng, dù có nhiều hình ảnh xử lý qua Camera Style Transfer Model số lượng ảnh giai đoạn khơng tăng lên Thay vào đó, với hình ảnh xử lý ban đầu khơng dán nhãn, ta sử dụng ảnh người camera chọn ngẫu nhiên, ảnh gốc ảnh xử lý qua StarGAN Bằng cách này, trình khởi tạo, network học cách nhận ảnh xử lý camera thay nhân dạng người có khả phân biệt ban đầu Trong trình lặp lại sau đó, ta kết hợp tương đồng nhận dạng cách nhóm hình ảnh tương tự thành cụm Cụm sau giảm thiểu phương sai cụm tối đa hóa phương sai cụm Cơng thức tính xác suất hình ảnh x thuộc cụm thứ c là: 2.2 Cluster Merging Hình Sau giai đoạn huấn luyện đầu tiên, mẫu huấn luyện trở nên xa cách khơng gian đặc tính học Tuy nhiên, hình ảnh chuyển kiểu các hình ảnh có nhân dạng thường giống mặt hình ảnh hay cịn gọi tương đồng với Do vậy, áp dụng phương pháp miêu tả qua hình để đạt mục tiêu cách hợp hình ảnh lại thành class Trong vịng trịn biểu thị hình ảnh cá nhân cần xử lí, K biểu thị số lượng cụm lần lặp, sau lần xử lý lặp lại, ta hợp cụm dựa đặc tính tương tự giai đoạn cách hợp cụm từ lên dựa vào thuật tốn tối ưu CNN Bằng cách này, hình ảnh nhân dạng camera hợp thành cụm hình ảnh xử lí qua q trình Style-transfered dễ dàng hợp thành hình ảnh gốc 2.3 Dynamic Network Updating Hình Dynamic Network Updating Framework có tính lặp lại nhằm huấn luyện network hợp cụm Kết cụm sau cung cấp cho network để cập nhật thêm Toàn trình cập nhật thể thuật tốn hình Như vậy, giống camera khai thác cụm, network huấn luyện với nhiều giám sát để phân biệt ảnh nhiều Số lượng cụm khởi tạo số lượng ảnh huấn luyện Sau lần hợp cụm nhãn ảnh huấn luyện ( the labels of the traning images) đánh lại ID cụm Các lớp nhớ trình tối ưu hóa tái khởi tạo thành vector để tránh bị kẹt tiêu chuẩn tối ưu cục Ta huấn luyện liên tục network quan sát thấy sụt giảm hiệu valadition set (bộ liệu để giám sát mơ hình) Mơ hình thử nghiệm tạo kết tốt valadition set chọn làm mơ hình hồn chỉnh Clustering Strategy 3.1 Clustering constraint Để hợp cụm, khoảng cách ảnh tính tốn hình minh họa Hình Tuy nhiên, với hỗ trợ mơ hình Style Transfer Model, tập liệu huấn luyện phóng to L lần với hình ảnh fake tạo Style Transfer Model Khoảng cách hình ảnh sau chia thành loại: “fake-fake”, “realfake” “real-real” Các biến thể camera giảm nhờ tích hợp liên kết “realfake” vào cụm Tuy nhiên, việc hợp hình ảnh fake-fake đưa nhiễu vào framework, với thời gian tính tốn hình ảnh fakes nhiều thời gian Trong làm việc, ta phải áp dụng buộc cụm nhằm xem xét mối quan hệ hình ảnh “real-fake” “real-real” trình hợp nhất, bỏ qua trình hợp ảnh “fake-fake” Như hình 8, ta tính tốn khoảng cách hình ảnh “fake-fake” theo a) b) vòng tròn màu xanh lục hợp cụm chúng gần Tuy nhiên, với buộc hợp (Clustering constraint) theo c) hợp vịng tròn màu xanh lam vàng Sự khác biệt cụm D(A,B) tính tốn theo cơng thức: 3.2 Diversity Regularization Với cụm hợp nhất, số lượng class giảm dần, số lượng ảnh cụm tăng lên Mặc dù ta biết xác số lượng ảnh danh tính, ta đặt giả thiết ảnh phân bố đồng danh tính, danh tính khác nên phân bố rải rác cụm khác Điều ngụ ý cụm khơng nên chứa nhiều hình ảnh cụm khác Để tránh cụm dư thừa cụm nhỏ hợp với nhau, ta nên kết hợp Diversity Regularization thành tiêu chuẩn khoảng cách Ở đây, |A| biểu thị số lượng mẫu thuộc nhóm A Sau đó, khơng giống cuối tính bằng: Trong λ tham số nhằm cân tác động khoảng cách thay đổi Lí cần thêm Diversity Regularization tồn số hình ảnh nhân dạng giống mặc quần áo Nếu khơng có Diversity Regularization, thuật tốn hợp nhân dạng tương tự khác thành cụm bị nhầm lẫn Ta có xu hướng hợp cụm nhỏ lại với nhau, trừ khoảng cách d(xa,xb) nhỏ Quy trình minh họa hình 8b) 8c) Trong đó, hình 8b) cho thấy kết hợp mà thiếu Diversity Regularization: cụm màu vàng xanh lam có khoảng cách ngắn (bỏ qua khoảng cách fakes images) hợp hình trịn màu vàng xanh lam thành cụm màu vàng Tuy nhiên cụm lớn nên không nên để chúng hợp với Thay vào đó, hình 8c) nên hợp cụm màu xanh lam màu xanh với thay IV Kết thực nghiệm Tập sở liệu Dưới sở liệu sử dụng để làm sở liệu mô Tất sở liệu sở liệu với quy mô lớn sử dụng phổ biến rộng rãi để kiểm tra hiệu phương pháp tái nhận dạng đối tượng 1.1 The Market1501 dataset Là benchmark dataset với quy mô lớn cơng khai Nó bao gồm 1501 nhân dạng với camera có góc độ quay khác nhau, có 12.936 ảnh 751 nhân dạng huấn luyện 19.732 ảnh 750 nhân dạng kiểm thử Với style transfer model, ảnh tương ứng với camera style cho liệu huấn luyện Cuối cùng, ta thu tập hợp liệu gồm 77.616 ảnh 1.2 The DuckMTMC-reID dataset Là tập sở liệu DukeMTMC dataset, lưu trữ khoảng 1812 nhân dạng chụp lại camera Cứ camera có 1404 nhân dạng xuất có 408 nhân dạng cịn lại hình ảnh để đánh lạc hướng Bằng cách sử dụng giao thức “Unlabeled samples generated by gan improve the person re-identification baseline in vitro” tác giả, thử nghiệm huấn luyện kiểm thử có 702 nhân dạng Gồm có 2228 hình ảnh truy vấn, 16522 hình ảnh huấn luyện 17661 hình ảnh thư viện Với the style transfer model, hình ảnh tương ứng với camera style tạo ảnh huấn luyện Cuối ta thu tập hợp gồm 132.176 hình ảnh 1.3 The MSMT17 dataset Là tập sở liệu lớn re-ID, lưu trữ khoảng 126.441 ảnh 4101 nhân dạng chụp 15 camera Để thử nghiệm, 32.621 ảnh 1041 nhân dạng huấn luyện 93.820 ảnh 3.060 nhân dạng Với the style transfer model, 14 ảnh tạo thuật toán camera style tương ứng với ảnh huấn luyện Cách thức thực mô Để tái nhận dạng, tác giả sử dụng đường cong Cumulative Matching Characteristic (CMC) MAP (Mean Average Precision) Đây là độ đo tổng hợp kết nhiều query, sử dụng phổ biến dùng để đánh giá hiệu suất phương pháp Tác giả áp dụng phương pháp để chất lượng phân lớp dựa vào Precision & Recall: Precision & Recall curve F-score Đối với truy vấn, độ xác trung bình tính tốn phương pháp đánh giá số đường cong “prescision & recall curve” MAP tính tốn độ xác trung bình tất truy vấn Tơi báo cáo điểm RANK-1, RANK-5, RANK-10 để tượng trưng cho đường cong CMC Các điểm CMC phản ánh độ xác precision MAP phản ánh việc Recall Đối với phương pháp the style transfer model, tác giả sử dụng tập sở liệu Market-1501, DukeMTMC-reID and MSMT17 Trong huấn luyện, tác giả chọn phép lật cắt xén ngẫu nhiên Tác giả huấn luyện genetor discrimator cho 200 epochs, điểm đánh giá 0.0001 100 epochs đầu tiên, giảm tuyến tính 100 epochs lại Cuối cùng, với ảnh huấn luyện thu ảnh cho Market-1501, cho DukeMTMC-reID 14 cho MSMT17 Đối với re-ID network, tác giả sử dụng ResNet-50 làm xương sống CNN Khởi tạo trước hết ImageNet huấn luyện trước với loại bỏ lớp phân loại cuối Đối với tất thử nghiệm không định rõ, tác giả đặt số lượng số lượng epochs lần 20, huấn luyện epochs lần lặp sau Kết mơ Bảng 1: So sánh kết tái nhận dạng người với phương pháp khác sở liệu Market1501 DukeMTMC-ReID Bảng 2: So sánh kết tái nhận dạng người với phương pháp khác sở liệu MSM17 Hình 9: Đường cong hiệu suất với giá trị khác tham số điều chỉnh phân tập λ Market-1501 Hình biểu diễn kết đường CMC giải thuật MAP Nhìn vào đồ thị ta thấy so với giải thuật gốc ban đầu có cải tiến tương đối độ xác RANK-1 Bảng so sánh kết nhận dạng với phương pháp khác BOW(LIANG ZHEN ) , OIM, UMDL, PUL, EUG, Progressive, SPGAN, TJ-AIDL cho thấy kết phương pháp ta phương pháp tối ưu V KẾT LUẬN Trong báo cáo này, đề xuất phương pháp giải nhiệm vụ tái nhận dạng người không giám sát thông qua hệ thống camera không chồng lấp cách khai thác tương đồng camera khác đối tượng Cụ thể là, ta áp dụng mơ hình chuyển đổi phong cách đối tượng gọi “ The style transfer model ” hình ảnh huấn luyện để tạo hình ảnh chuyển đổi phong cách máy ảnh khác Sau đó, đào tạo mạng lưới cho phép liệu phân loại sau lại hợp vào thành cụm tương đồng Quá trình lặp lặp lại làm giảm hình ảnh nhiễu nhận dạng đối tượng mong muốn qua nhiều camera khác Phương pháp đạt hiệu suất cao so với phương pháp trước hoạt động thuận lợi tập liệu lớn công bố Đây giải pháp cho cách mạng AI 4.0 giúp nâng cao an toàn tiện dụng cho sống sau TÀI LIỆU THAM KHẢO Z Zheng, L Zheng, and Y Yang, “Unlabeled samples generated by gan improve the person re-identification baseline in vitro,” in ICCV, 2015 https://nttuan8.com/bai-9-stargan/ “StarGan gì?” https://topdev.vn/blog/thuat-toan-cnn-convolutional-neural-network/ “Tìm hiểu convolutional-neural-network” https://www.upgrad.com/blog/how-does-unsupervised-machine-learning-work? “Thuật tốn học khơng giám sát thực nào?” Trần Thanh Toàn, 2015 Tái nhận dạng người hệ thống nhiều camera giám sát, Luận văn thạc sĩ ngành Kỹ thuật điện tử, TrườngĐại học Bách Khoa,Đại học Quốc gia Tp HồChí Minh “Unsupervised Person Re-identification via Cross-camera Similarity Exploration” Yutian Lin, Yu Wu, Chenggang Yan, Mingliang Xu, and Yi Yang ... pháp tái nhận dạng người khơng giám sát thơng qua camera với góc độ khác đời II Các nghiên cứu liên quan Có nhiều nghiên cứu liên quan đến việc tái nhận dạng người hệ thống nhiều camera giám sát, ... báo cáo này, đề xuất phương pháp giải nhiệm vụ tái nhận dạng người không giám sát thông qua hệ thống camera không chồng lấp cách khai thác tương đồng camera khác đối tượng Cụ thể là, ta áp dụng... https://www.upgrad.com/blog/how-does-unsupervised-machine-learning-work? “Thuật tốn học khơng giám sát thực nào?” Trần Thanh Toàn, 2015 Tái nhận dạng người hệ thống nhiều camera giám sát, Luận văn thạc sĩ ngành Kỹ thuật điện tử, TrườngĐại

Định dạng
Số trang	16
Dung lượng	0,96 MB