1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tái định danh trong hệ thống camera giám sát tự động tt

27 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 1,72 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN THÚY BÌNH TÁI ĐỊNH DANH TRONG HỆ THỐNG CAMERA GIÁM SÁT TỰ ĐỘNG Ngành: Kỹ thuật điện tử Mã số: 9520203 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ Hà Nội −2020 Cơng trình hoàn thành tại: Trường Đại học Bách Khoa Hà Nội Người hướng dẫn khoa học: PGS.TS Phạm Ngọc Nam PGS.TS Lê Thị Lan Phản biện 1: PGS.TS Trần Đức Tân Phản biện 2: PGS.TS Lê Nhật Thăng Phản biện 3: PGS.TS Ngô Quốc Tạo Luận án bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Trường họp Trường Đại học Bách khoa Hà Nội: Vào hồi ., ngày tháng năm Có thể tìm hiểu luận án thư viện: Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội Thư viện Quốc gia Việt Nam GIỚI THIỆU Động lực nghiên cứu Sự phát triển kỹ thuật xử lý ảnh, nhận dạng cho phép xây dựng hệ thống phân tích tự động nội dung video Các hệ thống thường chia thành bốn bước chính: phát hiện, theo vết, tái định danh nhận dạng Trong tái định danh định nghĩa toán kết nối ảnh/chuỗi ảnh người người di chuyển vùng giám sát camera đến camera khác [7] Mặc dù đạt thành công định, tái định danh chưa triển khai rộng rãi thực tế độ xác chưa cao Tùy vào số ảnh sử dụng cho biểu diễn người, tái định danh chia thành tái định danh dựa thể (single-shot) tái định danh dựa nhiều thể (multi-shot) Biểu diễn toán học toán tái định danh Cho người truy vấn Qi N người tập tìm kiếm Gj , j = 1, N (l) , l = 1, ni Qi = qi (1) (k) Gj = gj , k = 1, mj ni mj số ảnh tương ứng người Qi Gj Danh tính người cần truy vấn Qi xác định sau [26]: j ∗ = arg d (Qi , Gj ) , (2) j d (Qi , Gj ) định nghĩa khoảng cách hai người Qi Gj Cũng sử dụng độ đo tương tự hai người thay cho việc tính khoảng cách Khi danh tính người cần truy vấn xác định: j ∗ = arg max Sim (Qi , Gj ) , j (3) Thách thức Tái định danh người mạng camera giám sát có nhiều thách thức Trong đó, ba thách thức (1) thay đổi lớn diện mạo bề người người quan sát điều kiện khác ánh sáng, góc quan sát tư (2) Một số lượng lớn ảnh dùng để biểu diễn người; (3) Chất lượng bước phát theo vết tự động ảnh hưởng đến hiệu tái định danh Mục tiêu Luận án có ba mục tiêu sau: • Xây dựng phương pháp biểu diễn hiệu cho toán tái định danh dựa nhiều thể (multi-shot) Mục tiêu luận án tìm giải pháp nhằm giảm chi phí tính tốn dung lượng nhớ cần cho việc lưu trữ liệu đảm bảo độ xác tốn tái định danh • Nâng cao độ xác tái định danh Nâng cao độ xác mục tiêu quan trọng nghiên cứu tái định danh Do đó, mục tiêu thứ hai luận án nâng cao độ xác tái định danh dựa chiến lược kết hợp đặc trưng khác nhằm khai thác ưu điểm đặc trưng • Tích hợp đánh giá ảnh hưởng phát theo vết lên hiệu hệ thống tái định danh Một hệ thống giám sát thực tế bao gồm ba khâu chính: phát người, theo vết tái định danh Tuy nhiên, nghiên cứu thường dựa kết phát theo vết thủ công Khi triển khai hệ thống thực tế, chất lượng phát theo vết ảnh hưởng đến hiệu tái định danh Với mục tiêu hướng đến triển khai kết nghiên cứu thực tế, luận án thực tích hợp đánh giá định lượng ảnh hưởng phát theo vết lên tái định danh Giới hạn phạm vi nghiên cứu Đối tượng luận án tái định danh có giám sát bao gồm tái định danh dựa thể nhiều thể Các nghiên cứu luận án dựa ràng buộc sau: • Dữ liệu hình ảnh video thu điều kiện ánh sáng ban ngày • Tái định danh thực khoảng thời gian ngắn, diện mạo bề ngồi quần áo người khơng thay đổi Trong phạm vi luận án không xét đến trường hợp người sở liệu mặc đồng phục • Tái định danh trường hợp sở liệu khép kín (close-set), người xuất trường quan sát hai camera khác Đóng góp Luận án bao gồm hai đóng góp sau: • Đóng góp 1: Đề xuất phương pháp hiệu cho toán tái định danh dựa nhiều thể Phương pháp đề xuất gồm bốn bước chính: lựa chọn khung hình đại diện, trích chọn đặc trưng, tổng hợp đặc trưng đối sánh Trong đề xuất này, thay việc sử dụng tồn khung hình, số khung hình đại diện lựa chọn để biểu diễn người Hai chiến lược đề xuất sử dụng khung hình chu kỳ bước chân bốn khung hình đại diện Giảm số lượng khung hình biểu diễn người, chi phí tính tốn dung lượng nhớ cần thiết cho việc lưu trữ liệu giảm đáng kể đảm bảo độ xác tái định danh • Đóng góp 2: Mỗi đặc trưng có hiệu riêng biểu diễn người, nhằm khai thác ưu điểm hạn chế nhược điểm đặc trưng, luận án đề xuất số chiến lược kết hợp cho toán tái định danh dựa nhiều thể thử nghiệm thực hai ngữ cảnh toán tái định danh Ngoài việc gắn trọng số cho đặc trưng, đóng góp đề cập tới trọng số thích nghi với người cần truy vấn Cấu trúc luận án Bên cạnh phần Giới thiệu Kết luận, luận án gồm bốn chương Chương đánh giá tổng hợp nghiên cứu ngồi nước nhằm có nhìn tổng quan tái định danh cách toàn diện Chương đề xuất phương pháp hiệu cho toán tái định danh dựa nhiều thể hiện, khắc phục khó khăn: chi phí tính tốn lớn, u cầu dung lượng nhớ lưu trữ lớn Chương giới thiệu số chiến lược kết hợp đặc trưng cho toán tái định danh, thử nghiệm thực hai ngữ cảnh toán tái định danh Chương trình bày hệ thống tái định danh hoàn toàn tự động bao gồm ba khâu chính: phát người, theo vết tái định danh Ảnh hưởng khâu phát phân đoạn ảnh tới chất lượng tái định danh đề cập tới luận án CHƯƠNG CÁC NGHIÊN CỨU LIÊN QUAN 1.1 1.1.1 Cơ sở liệu độ đo đánh giá Cơ sở liệu Nhằm đánh giá hiệu phương pháp đề xuất, luận án sử dụng năm sở liệu benchmark bao gồm: VIPeR, CAVIAR4REID, RAiD, PRID-2011 iLIDS-VID Trong số năm sở liệu này, CAVIAR4REID RAID sử dụng ngữ cảnh thứ tốn, ba sở liệu cịn lại sử dụng ngữ cảnh thứ hai Bảng 1.1 đưa số đặc điểm sở liệu dùng luận án Bảng 1.1 Một số sở liệu sử dụng luận án Datasets VIPeR CAVIAR4REID RAiD PRID-2011 iLIDS-VID 1.1.2 Time 2007 2011 2014 2011 2016 #ID 632 72 43 934 300 #Cam 2 2 #Images 1,264 1,220 6,920 24,541 42,495 Label hand hand hand hand hand Full frames + Resolution 128x48 vary 128x64 128x65 vary Single-shot Multiple-shot Setting 1 2 Độ đo đánh giá Đường cong CMC (Cumulative Matching Characteristic) thường sử dụng để đánh giá hiệu phương pháp toán tái định danh [23] Giá trị đường cong CMC xếp hạng tỷ số đối sánh tổng số người cần truy vấn 1.2 Trích chọn đặc trưng Thơng thường, để biểu diễn người, thông tin liên quan đến sinh trắc học (mắt, mống mắt, dáng đi) vẻ bề khai thác Tuy nhiên, toán tái định danh, hình ảnh hay videos thường thu camera có độ phân giải thấp, khó để trích chọn thông tin mống mắt hay mắt người Do đó, đa số nghiên cứu tốn tái định danh dựa thông tin diện mạo bề người (màu sắc, kết cấu trang phục, ) [12] Các đặc trưng phân chia thành hai loại bản: đặc trưng tự thiết kế đặc trưng học sâu 1.3 Học khoảng cách Mục tiêu học khoảng cách tìm độ đo phù hợp hiệu cho q trình đối sánh: tối thiểu hóa khoảng cách đối tượng phân lớp tối đa hóa khoảng cách đối tượng thuộc phân lớp khác Học khoảng cách hiểu học không gian mà vector chiếu lên khơng gian thỏa mãn điều kiện đề cập 1.4 Chiến lược kết hợp cho toán tái định danh Chiến lược kết hợp đặc trưng phân chia thành hai nhóm chính: Kết hợp mức đặc trưng (kết hợp sớm) mức điểm số (kết hợp muộn) Trong chiến lược kết hợp sớm, vector đặc trưng kết nối với để sinh vector cuối có số chiều lớn để biểu diễn ảnh Các chiến lược kết hợp muộn kết hợp điểm số/độ tương tự có sau q trình đối sánh ứng với đặc trưng theo hàm tốn học 1.5 Lựa chọn khung hình đại diện Một vấn đề đặt giải toán tái định danh dựa nhiều thể lựa chọn khung hình để biểu diễn người Lựa chọn tồn khung hình tạo nên áp lực khơng nhỏ đến q trình tính tốn lưu trữ liệu Một số nghiên cứu đề xuất sử dụng số khung hình đại diện để biểu diễn người, giúp giảm chi phí tính tốn, dung lượng nhớ lưu trữ đảm bảo độ xác tái định danh 1.6 Hệ thống tái định danh tự động hoàn toàn Một hệ thống định danh tự động hồn tồn gồm ba khâu chính: phát người, theo vết tái định danh Tuy nhiên, có nghiên cứu đề cập đến việc xây dựng hệ thống hoàn chỉnh, đánh giá phân tích ảnh hưởng hai khâu phát người theo vết lên độ xác khâu tái định danh CHƯƠNG TÁI ĐỊNH DANH DỰA TRÊN NHIỀU THỂ HIỆN THƠNG QUA LỰA CHỌN KHUNG HÌNH ĐẠI DIỆN VÀ TỔNG HỢP ĐẶC TRƯNG 2.1 Giới thiệu Nội dung chương đề cập tới phương pháp hiệu cho toán tái định danh dựa nhiều thể thơng qua việc lựa chọn khung hình đại diện tổng hợp đặc trưng Mục tiêu phương pháp đề xuất loại bỏ thông tin dư thừa tăng tốc độ tính tốn 2.2 2.2.1 Phương pháp đề xuất Tổng quan phương pháp Hình 2.1 mơ tả phương pháp đề xuất cho tốn tái định danh dựa nhiều thể Gallery sequences Temporal pooling layer Extract walking cycles Min-pooling Image-level features Average-pooling Person matching Extract key frames Max-pooling Representative frames selection A probe sequence ID person Extract walking cycles Min-pooling Image-level features Average-pooling Extract key frames Max-pooling Temporal pooling layer Hình 2.1 Phương pháp đề xuất bao gồm bốn khâu chính: lựa chọn khung hình đại diện, trích chọn đặc trưng, tổng hợp đặc trưng đối sánh hiện, gồm bốn bước chính: lựa chọn khung hình đại diện, trích chọn đặc trưng mức ảnh, tổng hợp đặc trưng đối sánh Mục tiêu bước lựa chọn khung hình đại diện để biểu diễn người Ba chiến lược đề cập tới: bốn khung hình đại diện, khung hình chu kỳ bước chân tồn khung hình Đặc trưng Gaussian of Gaussian (GOG) [18] trích chọn khung hình đại diện tổng hợp để sinh vector đặc trưng Kỹ thuật học khoảng cách Cross-view Quadratic Discriminative Analysis (XQDA) [14]được đề xuất sử dụng bước đối sánh với mục tiêu xếp hạng người sở liệu tìm kiếm xác định danh tính người cần truy vấn Phương pháp đề xuất mô tả chi tiết hai thuật toán: thuật toán 2.1 thực pha huấn luyện, thuật tốn 2.2 thực pha kiểm tra 2.2.2 Lựa chọn khung hình đại diện Trước hết, chu kỳ bước chân lựa chọn từ tập hợp chu kỳ bước chân người trình di chuyển người dựa lượng chuyển động Flow Engery Profile (FEP)[22] Tiếp theo, bốn khung hình đại diện trích từ chu kỳ Bốn khung hình đại diện lựa chọn dựa vào giá trị cực tiểu, cực đại FEP hai khung hình tương ứng với giá trị trung bình mức lượng Để lựa chọn xác khung hình đại diện, tín hiệu FEP đưa qua lọc Gaussian để loại bỏ nhiễu Algorithm 2.1: Algorithm for training phase (Off-line process) Input: Image sequences on cross-view cameras: X = {Xi } , i = 1, Ntr ; Z = {Zj } , j = 1, Ntr Ntr is the number of persons used for training Output: Model parameters: W, M Step 1: Select representative frames for each person Sub-step 1.1: Extract walking cycles for each pedestrian for i ← 1, Ntr (c) Xi (ci,1 ) = xi (ci,2 ) , xi (ci,lc ) = Cycle − extraction (Xi ) , xi for j ← 1, Ntr (c) (cj,1 ) Zj = zj (cj,2 ) , zj (cj,lc ) = Cycle − extraction (Zj ) , zj Sub-step 1.2: Extract four key frames from a random walking cycle for i ← 1, Ntr (k) Xi (k1 ) = xi (k2 ) , xi (k3 ) , xi (k4 ) , xi = Keyframe (c) − extraction Xi for j ← 1, Ntr (k) Zj (k1 ) = zj (k2 ) , zj (k3 ) , zj (k4 ) = Keyframe , zj (c) − extraction Zj Step 2: Compute feature vectors at image-level for i ← 1, Ntr for li ← 1, len(i) fili = Feature− extraction (xlii ) for j ← 1, Ntr for lj ← 1, len(j) l l fj j = Feature− extraction (zjj ) /* len(i) and len(j) are length of the image sequences of Xi and Zj */ Step 3: Compute the final feature for person representation for i ← 1, Ntr Fif inal = Temporal_pooling fili , pool_ choice for j ← 1, Ntr Fjf inal = Temporal_pooling l fj j , pool_ choice Step 4: Compute the sub-space projection matrix and learned kernel metric based on XQDA algorithm FX = Fifinal FZ = Fjfinal [W, M ] = XQDA (FX , FZ ) 2.2.3 Trích chọn đặc trưng mức ảnh Trong số đặc trưng đề xuất cho toán tái định danh, mô tả GOG [18] đánh giá số mô tả hiệu Bộ mô tả GOG vượt trội không so với đặc trưng tự thiết kế mà tốt số đặc trưng học sâu Ngoài ra, đặc trưng GOG trích chọn bốn khơng gian màu khác (RGB, Lab, HSV nRnG), sau vector đặc trưng ghép với để tạo nên vector đặc trưng cuối để biểu diễn người Algorithm 2.2: Algorithm for test phase (On-line process) Input: A query person: Qi A gallery of persons G = {Gj } , j = 1, Nts (Nts is the number of person in the gallery set.) Parameters of the trained model: W, M Output: A ranked list of gallery persons corresponding to a given query person Step 1: Select representative frames for each person Sub-step 1.1: Extract walking cycles for each pedestrian (c ) (c ) (c ) (c) Qi = qi i,1 , qi i,2 , qi i,lc = Cycle − extraction (Qi ) for j ← 1, Nts (c) (gj,1 ) Gj = gj (gj,2 ) , gj (cj,lc ) , gj = Cycle − extraction (Gj ) Sub-step 1.2: Extract four key frames from a random walking cycle frames (c) (k) (k ) (k ) (k ) (k ) = Keyframe − extraction Qi Qi = qi , qi , qi , qi for j ← 1, Nts (k) (k1 ) Gj = gj (k2 ) , gj (k3 ) , gj (k4 ) , gj = Keyframe (c) − extraction Gj Step 2: Compute feature vectors at image-level for li ← 1, len(i) fili = Feature− extraction (qili ) for j ← 1, Nts for lj ← 1, len(j) l l fj j = Feature− extraction (gjj ) /* len(i) and len(j) are length of the image sequences of Qi and Gj in one of three cases: all frames, cycle, and four key frames */ Step 3: Compute the final feature for person representation Fif inal = Temporal_pooling fili , pool_ choice for j ← 1, Ntr Fjf inal = Temporal_pooling l fj j , pool_ choice Step 4: Calculate distance between each person in gallery and the query person for j ← 1, Nts d(Qi , Gj ) = distance(Fif inal , Fjf inal , W, M ) Step 5: Rank gallery persons in ascending order of distance between each of gallery person to the query person (1) (2) (N [Ri , Ri , Ri ts )] = ranked_list (d(Qi , Gj )) 2.2.4 Tổng hợp đặc trưng Mục tiêu việc tổng hợp đặc trưng (1) giúp trình so sánh/đối sánh hai đối tượng trở nên đơn giản (2) giảm thời gian tính tốn nhớ cần cung cấp cho việc lưu trữ liệu Trong nghiên cứu này, ba chiến lược đề xuất: cực tiểu, cực đại trung bình 2.2.5 Đối sánh XQDA mở rộng từ thuật toán Bayesian face Keep It Simple and Straightforward MEtric(KISSME) [11], đó, tốn phân đa lớp chuyển toán phân lớp nhị phân: cặp ảnh/chuỗi ảnh có người hay khơng? Điểm bật kỹ thuật XQDA học đồng thời khoảng cách liệu thu thập từ trường quan sát camera khác 2.3 Các kết thử nghiệm Các thử nghiệm thực hai sở liệu dùng chung benchmark: PRID-2011 iLIDS-VID để chứng minh hiệu phương pháp đề xuất 2.3.1 Đánh giá lựa chọn khung hình đại diện tổng hợp đặc trưng Trong phần này, thử nghiệm thực ba trường hợp: bốn khung hình 100 90 Matching rates (%) 0 M a tc h in g r a te s ( % ) % % 7 % P R ID _ a ll fr a m e s P R ID _ w a lk in g c y c le P R ID _ k e y fra m e s 80 70 60 50 41.09% iLIDS_4 key frames 40 44.14% iLIDS_walking cycle 70.13% iLIDS_all frames 30 1 5 R a n k 10 15 20 Rank (a) (b) Hình 2.2 Đánh giá hiệu đặc trưng GOG sở liệu a) PRID-2011 b) iLIDS-VID với ba chiến lược lựa chọn khung hình đại diện đại diện, khung hình chu kỳ bước chân tất khung hình Mỗi trường hợp đánh giá (1) bốn không gian màu (RGB, Lab, HSV, nRnG) kết hợp không gian màu (2) ba chiến lược tổng hợp đặc trưng Các kết đạt đa số kết tốt áp dụng chiến lược tổng hợp đặc trưng dựa vào giá trị trung bình hai tập liệu huấn luyện kiểm tra Trong trường hợp ghép nối vector tất bốn khơng gian màu, độ xác xếp hạng (rank-1) cho kết tốt sở liệu PRID-2011 là: 77.19%, 79.10%, and 90.56% tương ứng với trường hợp bốn khung hình đại diện, chu kỳ bước chân tất khung hình Kết luận làm việc sở liệu iLIDS-VID Các kết biểu diễn đường cong CMC hình Độ xác xếp hạng thứ sử dụng khung hình chu kỳ tăng 1.91%, tăng đến 12.47% sử dụng tồn khung hình Trong trường hợp với sở liệu iLIDS-VID, giá trị tương ứng 3.05% 20.58% Tuy nhiên, kết xếp hạng thứ 20 với chiến lược tương đối cao không khác nhiều Điều mở hy vọng triển khai giải pháp hình đại diện tổng hợp đặc trưn nhằm giảm thời gian tính tốn dung lượng nhờ cần để lưu trữ liệu Các đánh giá định lượng thực hai sở liệu dùng chung PRID-2011 iLIDS-VID Thứ hai, NCS đưa khuyến nghị việc sử dụng chiến lược lựa chọn khung hình đại diện tổng hợp đặc trưng Trong hướng nghiên cứu tiếp theo, phương pháp đề xuất mở rộng thử nghiệm sở liệu lớn, nhiều thách thức Kết chương cơng bố cơng trình nghiên cứu số CHƯƠNG NÂNG CAO HIỆU NĂNG TÁI ĐỊNH DANH DỰA TRÊN KẾT HỢP CÁC ĐẶC TRƯNG 3.1 Giới thiệu Chương trình bày nội dung liên quan đến chiến lược kết hợp đặc trưng nhằm nâng cao độ xác tái định danh Cả hai loại đặc trưng tự thiết kế đặc trưng học sâu sử dụng việc biểu diễn ảnh Đối với đặc trưng tự thiết kế, mô tả GOG [18] KDES [1] sử dụng, đặc trưng học sâu, hai số mạng nơ-ron tích chập mạnh GoogLeNet ResNet khai thác Ngoài ra, nhằm đánh giá vai trò đặc trưng, trọng số gắn cho đặc trưng thích nghi với người truy vấn Các thử nghiệm thực hai ngữ cảnh toán tái định danh Multiple images (Gallery) Feature extraction ID1 ID2 Extracting GOG feature Extracting KDES feature ID3 Early fusion Training SVM Extracting CNN feature Training phase Model A query image (probe) Feature extraction Extracting GOG feature Extracting KDES feature Early fusion SVM Prediction Product-rulebased late fusion Query-adaptive late fusion Extracting CNN feature Matching and ranking ID person Testing phase Hình 3.1 Phương pháp đề xuất cho tốn tái định danh dựa ảnh-đa ảnh 11 3.2 Chiến lược kết hợp đặc trưng cho ngữ cảnh thứ Tái định danh dựa nhiều thể phân loại thành hai trường hợp: ảnh-đa ảnh (single-versus-multi, SvsM) hay đa ảnh-đa ảnh (multi-versus-multi MvsM) Hướng tiếp cận ảnh-đa ảnh coi trường hợp đặc biệt toán tái định danh dựa nhiều thể hiện, người có ảnh tập truy vấn có nhiều ảnh tập tìm kiếm Hướng tiếp cận phản ánh tình thực tế tìm kiếm kẻ tình nghi tội phạm mà có hình ảnh người 3.2.1 Tái định danh dựa ảnh-đa ảnh 3.2.1.1 Phương pháp đề xuất Hình 3.1 mô tả phương pháp đề xuất cho toán tái định danh dựa ảnh-đa ảnh Trong phương pháp này, tái định danh định nghĩa tốn tìm kiếm thơng tin mơ hình vẻ bề người học từ ảnh tập tìm kiếm danh tính người cần truy vấn xác định dựa xác suất thuộc vào mơ hình ảnh truy vấn người 3.2.1.2 Chiến lược kết hợp đặc trưng Kết hợp sớm: Các vector tương ứng với loại đặc trưng ghép nối với để tạo nên vector đặc trưng có số chiều lớn Kết hợp muộn: Kết hợp muộn kết hợp mức điểm số, danh sách xếp hạng ứng với đặc trưng kết hợp với để đưa danh sách xếp hạng cuối Các trọng số gán cho đặc trưng học thích nghi với người cần truy vấn Các trọng số thích nghi Zheng cộng giới thiệu lần vào năm 2015 [25], nhiên nhóm tác giả triển khai cho toán tái định danh dựa thể luận án này, chiến lược kết hợp mở rộng cho toán tái định danh dựa nhiều thể Gọi Sim(q, Gj )prod−equal−weight , Sim(q, Gj )prod−adaptive−weight , Sim(q, Gj )(m) độ tương tự ảnh truy vấn q người Gj tập tìm kiếm trường hợp trọng số nhau, trọng số thích nghi, ứng với đặc trưng thứ m - Quy tắc nhân với trọng số nhau: M Sim(m) (q, Gj ) Sim(q, Gj )prod−equal−weight = (3.1) m=1 - Quy tắc nhân với trọng số thích nghi: M (m) Sim(m) (q, Gj ) Sim(q, Gj )prod−adaptive−weight = ωq , (3.2) m=1 (m) ωq trọng số ứng với đặc trưng thứ m ảnh truy vấn q Sim(m) (q, Gj ) xác suất mà ảnh truy vấn q thuộc vào mơ hình người Gj 12 3.2.2 Tái định danh dựa đa ảnh-đa ảnh Bài toán tái định danh dựa đa ảnh-đa ảnh định nghĩa hàm kết hợp khâu tái định danh dựa ảnh-đa ảnh Hình 3.2 mơ tả phương pháp để xuất cho tốn tái định danh dựa đa ảnh-đa ảnh Trong phương pháp không yêu cầu ràng buộc thời gian ảnh người Độ đo tương tự người tập truy vấn người tập tìm kiếm định nghĩa sau: mi Sim(qil , Gj ), Sim(Qi , Gj ) = (3.3) l=1 đó, Sim(qil , Gj ) xác định phần trước (tái định danh dựa ảnh-đa ảnh) Query images (probe) Image_1 Image-images person re-identification Image_2 Image-images person re-identification Image_n Image-images person re-identification Ranked list_1 Ranked list_2 Late fusion based on Product rule Matching and ranking ID person Ranked list_n Hình 3.2 Phương pháp đề xuất cho tái định danh dựa đa ảnh-đa ảnh không yêu cầu liên kết thời gian 3.2.3 Kết thử nghiệm ngữ cảnh thứ Trong thử nghiệm này, hai sở liệu: CAVIAR4REID RAiD sử dụng nhằm đánh giá hiệu phương pháp đề xuất cho toán tái định danh hai trường hợp: dựa ảnh-đa ảnh đa ảnh-đa ảnh Cơ sở liệu CAVIAR4REID thiết lập với hai trường hợp Trong trường hợp A, người có ảnh tập truy vấn ảnh tập tìm kiếm Ngược lại, trường hợp B, người có ảnh tập truy vấn số ảnh cịn lại người đưa vào tập tìm kiếm 3.2.3.1 Tái định danh dựa ảnh-đa ảnh Thử nghiệm đánh giá hiệu đặc trưng GOG so với đặc trưng KDES CNN Quan sát hình 3.3, đặc trưng tự thiết kế kết đạt sử dụng đặc trưng GOG hoàn toàn cạnh tranh với đặc trưng học sâu CNN Thử nghiệm thứ hai nhằm đánh giá hiệu sơ đồ kết hợp kết hợp hai ba đặc trưng khác Các kết đạt được hình 3.4 Với việc kết hợp đặc trưng, tỷ lệ đối sánh xếp hạng thứ tăng từ 2% đến 5% so với trường hợp sử dụng đặc trưng KDES CNN 3.2.3.2 Tái định danh dựa đa ảnh-đa ảnh Hình 3.5 biểu diễn đường cong CMC sử dụng loại đặc trưng cho toán tái định danh dựa đa ảnh-đa ảnh trường hợp A sở liệu CAVIAR4REID 13 0 0 0 9 6 7 % 5 % 6 % G O G + S V M K D E S + S V M C N N + S V M M a tc h in g r a te s ( % ) M a tc h in g r a te s ( % ) M a tc h in g r a te s ( % ) 8 % 1 % 8 % G O G + S V M K D E S + S V M C N N + S V M 1 G O G + S V M K D E S + S V M C N N + S V M 5 8 % % % R a n k 5 (a) R a n k R a n k (b) (c) Hình 3.3 Đánh giá hiệu ba đặc trưng (GOG, KDES, CNN) với 10 lần thử nghiệm sở liệu (a) CAVIAR4REID-trường hợp A (b) CAVIAR4REID-trường hợp B (c) RAiD trường hợp ảnh-đa ảnh (c a s e A ) 9 8 7 6 7 7 7 % % % % % % % S D A L E a r ly P ro d u Q u e ry E a r ly P ro d u Q u e ry F fu s io c t-ru -a d a fu s io c t-ru -a d a n (K le ( K p tiv e n (G le ( G p tiv e D E D E (K O G O G (G S + C N N S + C N N D E S + C + K D E S + K D E S O G + K D C M C - C A V IA R R E ID S v s M 0 ) 9 8 8 8 9 ) N N ) N N ) + C N N ) % % % % % % % S D A L E a r ly P ro d u Q u e ry E a r ly P ro d u Q u e ry F fu s io c t-ru -a d a fu s io c t-ru -a d a n le p n (K D E (K D E tiv e ( K (G O G le ( G O G p tiv e ( G S + C N N S + C N N D E S + C + K D E S + K D E S O G + K D ) ) N N + C + C E S C M C - R A iD S v s M 0 ) N N + C + C E S (c a s e B ) M a tc h in g r a te ( % ) C M C - C A V IA R R E ID S v s M M a tc h in g r a te ( % ) M a tc h in g r a te ( % ) 0 ) 8 8 8 8 N N ) N N ) + C N N ) % % % % % % % S D A L F E a r ly - fu s io n P r o d u c t- r u le Q u e ry -a d a p E a r ly - fu s io n P r o d u c t- r u le L a te - fu s io n (K D E S + C N N ) (K D E S + C N N ) tiv e ( G O G + K D E (G O G + K D E S + (G O G + K D E S + (G O G + K D E S + C S + C N C N N N C N N ) N ) N ) ) R a n k 1 5 (a) 1 R a n k R a n k (b) (c) Hình 3.4 Đánh giá hiệu ba chiến lược kết hợp sử dụng hai ba đặc trưng với 10 lần thử nghiệm ngẫu nhiên sở liệu (a) CAVIAR4REID-trường hợp A (b) CAVIAR4REID-trường hợp B (c) RAiD trường hợp ảnh-đa ảnh 0 C M C - C A V IA R R E ID M v s M (c a s e A ) M a tc h in g r a te ( % ) 8 7 6 % % S D A L F M v s M G 9 % M v s M K D E S + S V M 8 % M v s M C N N + S V M 4 % M v s M E a r ly - f u s io n 9 % M v s M P r o d u c t- r u le % M v s M Q u e r y - a d a p t iv e 1 O G + S V M R a n k Hình 3.5 Đường cong CMC ứng với tái định danh dựa đa ảnh-đa ảnh trường hợp A sở liệu CAVIAR4REID Độ xác xếp hạng thứ 91.53%, 91.39% and 88.06% sử dụng GOG, KDES, CNN Ngoài ra, ba chiến lược kết hợp tỏ hiệu trường hợp này, độ 14 xác xếp hạng thứ xấp xỉ 94% Bảng 3.1 tổng hợp tỷ lệ đối sánh ứng với trường hợp B sở liệu CAVIAR4REID RAiD Bảng kết ấn tượng với độ xác xếp hạng thứ lên đến 100% Chúng ta thấy kết tốt xếp hạng thứ chí xếp hạng thứ sở liệu RAiD Bảng 3.1 Tỷ lệ đối sánh trường hợp đa ảnh-đa ảnh a) trường hợp B CAVIAR b) RAiD Methods SDALF[4] M vsMGOG+SV M M vsMKDES+SV M M vsMCN N +SV M M vsMEarly−f usion M vsMP roduct−rule M vsMQuery−adaptive Rank=1 81.67 98.89 98.75 98.47 99.72 99.58 99.72 Rank=5 96.11 100.00 99.86 99.72 100.00 99.86 100.00 Rank=10 98.06 100.00 100.00 99.86 100.00 99.86 100.00 Rank=20 98.89 100.00 100.00 99.86 100.00 99.86 100.00 Methods SDALF[4] M vsMGOG+SV M M vsMKDES+SV M M vsMCN N +SV M M vsMEarly−f usion M vsMP roduct−rule M vsMQuery−Adaptive Rank=1 86.05 100.00 99.07 99.30 99.77 98.37 99.77 Rank=5 93.02 100.00 99.07 99.30 99.77 98.37 99.77 Rank=10 95.35 100.00 99.07 99.30 99.77 98.60 99.77 Rank=20 100.00 100.00 99.30 99.30 99.77 98.60 100.00 Bảng 3.2 So sánh kết đạt xếp hạng thứ số nghiên cứu liên quan (*) hiểu kết có cách áp dụng chiến lược đề xuất trước với 10 lần thử nghiệm ngẫu nhiên sở liệu CAVIAR4REID trường hợp A Methods SDALF KDES LSTM WSC ISR DDLM The proposed method Image-to-images (N=5) 37.69 65.50 45.60 80.10 73.61 Images-to-images (N=5) 67.50 91.39(*) 86.39(*) 61.10 90.10 92.30 94.44 Bảng 3.2 tổng kết tỷ lệ đối sánh xếp hạng thứ phương pháp đề xuất chương với nghiên cứu cho hai trường hợp tái định danh dựa ảnh-đa ảnh đa ảnh-đa ảnh sở liệu CAVIAR4REID trường hợp A 3.3 3.3.1 Chiến lược kết hợp với trường hợp ngữ cảnh thứ hai Phương pháp đề xuất Hình 3.6 mô tả phương pháp đề xuất cho toán tái định danh dựa nhiều thể với việc tích hợp thêm mơ-đun kết hợp đặc trưng vào sơ đồ đề xuất Chương Phương pháp gồm năm bước chính: lựa chọn khung hình đại diện, trích chọn đặc trưng mức ảnh mức chuỗi, học khoảng cách, kết hợp muộn thích nghi, đối sánh xếp hạng Ngoài ra, hai chiến lược kết hợp dựa toán tử nhân cộng xem xét nghiên cứu vai trò đặc trưng đánh giá thông qua trọng số gắn cho 3.3.2 Kết thử nghiệm Các kết đạt với chiến lược đề xuất hình 3.7 3.8 ứng với trường hợp sở liệu PRID-2011 iLIDS-VID Một số kết luận đưa sau Thứ nhất, GOG ResNet hai số đặc trưng hiệu cho toán tái định danh kết hợp hai đặc trưng mang đến kết 15 Image-level features Gallery sequences Extract walking cycles Extract key frames Extracting GOG features Extracting ResNet features Sequencelevel features A probe sequence Metric learning Extract walking cycles ID person Extract key frames Query-adaptive late fusion Matching and ranking ID person Extracting GOG features Extracting ResNet features Sequencelevel features Image-level features 0 0 9 9 9 8 7 7 8 % % % % G O G R e s N e t P r o d u c t- r u le a d a p tiv e w e ig h ts S u m - r u le a d a p tiv e w e ig h ts 8 7 8 6 M a tc h in g r a te ( % ) 0 M a tc h in g r a te ( % ) M a tc h in g r a te ( % ) Hình 3.6 Phương pháp đề xuất cho toán tái định danh dựa nhiều thể với việc kết hợp kỹ thuật học khoảng cách sơ đồ kết hợp đặc trưng % % % % G O G R e s N e t P r o d u c t- r u le a d a p tiv e w e ig h ts S u m - r u le a d a p tiv e w e ig h ts 1 9 6 % % % % G O G R e s N e t P r o d u c t- r u le a d a p tiv e w e ig h ts S u m - r u le a d a p tiv e w e ig h ts R a n k 5 R a n k R a n k (a) Using four key frames for each(b) Using frames within a walking(c) Using all frames for each person person cycle 0 0 9 8 4 2 % % % % G O G R e s N e t P r o d u c t- r u le a d a p tiv e w e ig h ts S u m - r u le a d a p tiv e w e ig h ts 4 6 4 M a tc h in g r a te ( % ) 0 M a tc h in g r a te ( % ) M a tc h in g r a te ( % ) Hình 3.7 Tỷ lệ đối sánh với chiến lược kết hợp khác sở liệu PRID2011 sử dụng a) bốn khung hình đại diện b) khung hình chu kỳ bước chân c) tất khung hình % % % % G O G R e s N e t P r o d u c t- r u le a d a p tiv e w e ig h ts S u m - r u le a d a p tiv e w e ig h ts R a n k 7 8 % % % % G O G R e s N e t P r o d u c t- r u le a d a p tiv e w e ig h ts S u m - r u le a d a p tiv e w e ig h ts 3 R a n k 5 1 R a n k (a) Using four key frames for each(b) Using frames within a walking(c) Using all frames for each person person cycle Hình 3.8 Tỷ lệ đối sánh với chiến lược kết hợp khác sở liệu iLIDSVID sử dụng a) bốn khung hình đại diện b) khung hình chu kỳ bước chân c) tất khung hình 16 tốt Với sở liệu PRID-2011, độ xác xếp hạng thứ tăng 5.65%, 5.47%, 0.9% ứng với trường hợp sử dụng bốn khung hình đại diện, khung hình chu kỳ bước chân tất khung hình Với sở liệu iLIDS-VID, độ xác xếp hạng thứ tăng 13.1%, 13.68%, 14.13% áp dụng chiến lược lựa chọn khung hình đại diện khác Có thể thấy đặc trưng ResNet lại tỏ hiệu với sở liệu nhiều thách thức iLIDS-VID, ResNet với cấu trúc học sâu học phức tạp trích chọn thơng tin hữu ích cho q trình biểu diễn ảnh Bảng 3.3 Bảng 3.3 So sánh phương pháp đề xuất với nghiên cứu liên quan hai sở liệu PRID-2011 iLIDS-VID Hai kết tốt in đậm Methods Matching rate (%) TAPR, ICIP 2016 AMOC+EpicFlow, TCSVT 2018 Two-stream MR, TII 2018 RNN, CVPR 2016 HOG3D + DVR, TPAMI 2016 STFV3D + KISSME, ICCV 2015 CAR, TCSVT 2017 DFCP, CVPR 2017 CRF, CVPR 2017 CFFM, SPIC 2020 Four key frames GOG+XQDA, Chapter A walking cycle All frames Four key frames Proposed method A walking cycle (Product-rule-based) All frames Four key frames Proposed method A walking cycle (Sum-rule-based) All frames Rank=1 68.6 83.7 78.7 70.0 40.0 64.1 83.3 51.6 77.0 93.3 77.2 79.1 90.6 82.8 84.6 91.5 82.0 82.7 89.9 PRID-2011 Rank=5 Rank=20 94.4 98.9 98.3 100 95.2 99.2 90.0 97.0 71.7 92.2 87.3 92.0 93.3 96.7 83.1 95.5 93.0 98.0 95.5 100.0 94.7 99.4 95.0 99.4 98.4 100.0 96.2 99.7 96.8 99.7 99.0 100.0 96.0 99.7 96.2 99.7 98.8 100.0 Rank=1 55.0 68.7 59.4 58.0 39.5 44.3 60.2 34.5 61.0 82.0 41.1 44.1 70.1 57.5 60.6 80.7 62.2 64.4 81.8 iLIDS-VID Rank=5 Rank=20 87.5 97.2 94.3 99.3 89.8 99.1 84.0 96.0 61.1 81.0 71.7 91.7 85.1 94.2 63.3 84.4 85.0 97.0 95.3 100.0 69.5 90.4 71.7 90.8 92.7 99.1 83.1 95.6 84.8 96.2 96.7 99.6 85.4 96.3 86.5 96.5 96.1 99.6 so sánh với kết đạt phương pháp đề xuất với số nghiên cứu So sánh với kết đạt Chương 2, độ xác thứ hạng thứ trường hợp sử dụng tồn khung hình người xấp xỉ, hai trường hợp cịn lại độ xác tăng đến 5.7% 21.1% tương ứng sở liệu PRID-2011 iLIDS-VID Trong nghiên cứu Liu cộng sự, đặc trưng tự thiết kế LOMO đặc trưng học sâu PCN (PCA-based Neural Network) kết hợp với nhằm khai thác ưu điểm đặc trưng Tuy nhiên, nghiên cứu chưa thấy rõ vai trò đặc trưng Trong nghiên cứu Chen cộng [2], hai cấu trúc mạng học sâu CNN RNN sử dụng để trích chọn thơng tin khơng gian thời gian Kết đạt xếp hạng thứ sở liệu PRID-2011 iLIDS-VID 77.0% 61.0%, thấp kết phương pháp đề xuất sử dụng bốn khung hình đại diện (82.0% 62.6%) Kế thừa kết đạt [2], nhóm nghiên cứu xem xét vai trò ảnh chuỗi khác thông qua cấu trúc mạng Attention Mặc dù sử dụng nhiều mạng học sâu với độ phức tạp tính tốn cao, thời gian tính tốn lớn độ xác xếp hạng thứ phương pháp cao phương pháp đề xuất Chương 1.8% 0.2% sở liệu PRID-2011 iLIDS-VID 17 3.4 Kết luận Chương đề xuất số chiến lược kết hợp cho hai ngữ cảnh toán tái định danh Trong ngữ cảnh thứ nhất, toán tái định danh định nghĩa tốn tìm kiếm thơng tin Các kết đạt chứng minh tính ưu việt phương pháp không yêu cầu ràng buộc mặt thời gian khung hình người Đối với ngữ cảnh thứ hai, đưa phương pháp kết hợp học khoảng cách vào sơ đồ kết hợp đặc trưng Những kết chương cơng bố cơng trình thứ thứ tác giả CHƯƠNG ĐÁNH GIÁ ĐỊNH LƯỢNG MỘT KẾT NỐI ĐẦY ĐỦ CỦA HỆ THỐNG TÁI ĐỊNH DANH 4.1 Giới thiệu Một hệ thống giám sát thực tế gồm ba bước bản: phát người, theo vết tái định danh Tuy nhiên, đa phần nghiên cứu tái định danh làm việc vùng không gian chứa đối tượng phát cách thủ công, vùng không gian bao sát người Khi đó, tái định danh thực với chất lượng đầu vào hoàn hảo Tuy nhiên, bước phát người theo vết thực tự động mang đến số thách thức cho tốn tái định danh, ví dụ: vùng khơng gian khoanh chứa phần thể người, có che khuất lớn khâu phát chuyển đổi danh tính (ID Switch) xuất hiện/biến người, tracklet người bị phân tách thành nhiều tracklet xảy q trình theo vết Mục đích chương đánh giá hiệu kết nối đầy đủ hệ thống tái định danh Do hạn chế mặt thời gian, nên luận án NCS đánh giá ảnh hưởng khâu phát phân đoạn tự động tới chất lượng tái định danh 4.2 Hệ thống tái định danh hoàn toàn tự động Một hệ thống giám sát hoàn toàn tự động mơ tả Hình 4.1 gồm bước: phát người, phân đoạn, theo vết tái định danh Trong thực tế, bước phát phân đoạn ảnh thường tích hợp với Các vùng khơng gian chứa người (bounding boxes) sinh bước phát người tự động, sau đó, kỹ thuật phân đoạn ảnh thực loại bỏ nhằm giảm nhiễu cho q trình tái định danh Các vùng khơng gian tương ứng người trường quan sát camera kết nối với thông qua kỹ thuật theo vết Cuối cùng, tái định danh thực nhiệm vụ liên kết vùng không gian người trường quan sát camera khác 18 Human detection Segmentation (Automatic/manual) Tracking Person Reidentification Probe ID person Gallery Hình 4.1 Hệ thống tái định danh hoàn toàn tự động 4.2.1 Phát người Trong nghiên cứu này, NCS đề xuất sử dụng phương pháp phát người hay sử dụng nay, ACF (Aggregate Channel Features) [3], YOLO (You Only Look Once) [21] Mask R-CNN [10] Trong khâu phân đoạn, phương pháp Pedparsing [17] áp dụng nhằm loại ảnh hưởng Phương pháp Mask R-CNN [10] thực đồng thời phát người phân đoạn cách thêm hai lớp chập (convolutional) nhằm sinh mặt nạ tương ứng với bounding box 4.2.2 Theo vết Thuật toán DeepSORT sử dụng thơng tin chuyển động bề ngồi để kết nối vùng không gian tương ứng người vùng quan sát camera với Trong nghiên cứu [20], tác giả đánh giá định lượng so sánh hiệu hệ thống kết hợp DeepSORT với YOLO Mask R-CNN Từ thử nghiệm sở liệu dùng chung sở liệu tự xây dựng, tác giả Mask R-CNN mang đến kết tốt so với YOLO, phương pháp yêu cầu phần cứng đủ mạnh dung lượng nhớ lớn cho việc xử lý liệu 4.2.3 Tái định danh Với khâu tái định danh, đặc trưng GOG kỹ thuật học khoảng cách XQDA sử dụng tương ứng trình trích chọn đặc trưng đối sánh Với mục đích đưa kết đạt nghiên cứu tái định danh vào ứng dụng thực tế, mơ tả GOG lập trình lại tảng C++ với tham số tối ưu Các kết thử nghiệm cho thấy tốc độ trích chọn đặc trưng GOG nhanh gấp lần so với việc lập trình Matlab [18] 4.3 Đánh giá hiệu hệ thống tái định danh hoàn toàn tự động Các thử nghiệm thực sở liệu PRID-2011 với hai trường hợp: tái định danh dựa thể (single-shot) tái định danh dựa nhiều thể (multi-shot) 4.3.1 Ảnh hưởng cuả phát người phân đoạn lên tái định danh 4.3.1.1 Đánh giá với trường hợp tái định danh dựa thể Trong trường hợp này, ảnh người lấy cách ngẫu nhiên Hình 4.2 biểu diễn đường cong CMC tương ứng với trường hợp a) có b) khơng có phân đoạn ảnh Quan sát đường cong tương ứng bên phải bên trái hình ta thấy khâu phân đoạn cho kết thấp so với trường hợp áp dụng khâu phát So sánh kết 19 0 9 8 M a tc h in g r a te ( % ) M a tc h in g r a te ( % ) 0 5 % % % M a n u a l- d e te c t A u to -d e te c t b y A C F A u to -d e te c t b y Y O L O 6 4 % % % % M a A u A u A u n u to to to - a l- d d e t( d e t( d e t+ e t+ A C Y O A u A u F )+ L O to - to -s e A u to )+ A u s e g (M g (P -s e to -s a s e d g (P e g k R p a r e d (P e C N s in g ) p a r s in g ) d p a r s in g ) N ) 1 5 R a n k 1 R a n k (a) (b) Hình 4.2 Các đường cong CMC ba thử nghiệm khác sở liệu PRID-2011 tiếp cận theo hướng tái định danh dựa thể a) Khơng có phân đoạn ảnh b) có sử dụng phân đoạn ảnh đạt phát cho thấy ACF đạt kết tốt so với YOLO hai trường hợp có khơng có khâu phân đoạn Nguyên nhân việc dùng mặt nạ nhị phân loại bỏ làm thông tin độ mịn ảnh Một điểm đáng ý phương pháp Mask-RCNN cho kết tốt so với trường hợp phát thủ công 4.3.1.2 Đánh giá với trường hợp tái định danh dựa nhiều thể 100 Matching rate (%) 95 90 85 80 90.56% Manual_Detection with the proposed method 91.01% Auto_Detection with the proposed method 88.76% Auto_Detection+Segmentation with the proposed method 75 10 15 20 Rank Hình 4.3 Các đường cong CMC ba thử nghiệm khác sử liệu PRID-2011 áp dụng phương pháp đề xuất Chương Hình 4.3 thể đường cong CMC thử nghiệm trường hợp khác nhau: (1) vùng không gian chứa đối tượng phát thủ công,(2) phát người tự động (3) kết hợp phát người phân đoạn ảnh tự động Kết đạt cho thấy với phương pháp phát người tự động, độ xác tái định danh khơng khơng bị giảm mà tăng nhẹ so với phương pháp phát thủ cơng Điều giải thích 20 trường hợp tái định danh dựa nhiều thể hiện, người biểu diễn nhiều khung hình nên khắc phục lỗi xảy trình phát tự động Ngoài ra, chất lượng khâu phát người đủ tốt khơng cần áp dụng kỹ thuật phân đoạn ảnh Bảng 4.1 So sánh phương pháp đề xuất với phương pháp sở liệu PRID-2011 (hai kết tốt in đậm) Methods HOG3D+DVR TAPR LBP-Color+LSTM DFCP RNN The proposed method with manual detection with automatic detection with automatic detection and segmentation R=1 40.0 68.6 53.6 51.6 70.0 90.6 91.0 R=5 71.1 94.4 82.9 83.1 90.0 98.4 98.4 R=10 84.5 97.4 92.8 91.0 95.0 99.2 99.3 R=20 92.2 98.9 97.9 95.5 97.0 100 99.9 88.8 98.36 99.0 99.6 Bảng 4.1 so sánh kết đạt phương pháp đề xuất luận án với nghiên cứu sở liệu PRID-2011 Độ xác tái định danh xếp hạng thứ 1, 5, 10 20 91.0%, 98.4%, 99.3% 99.9% Các kết cao nhiều so với kết báo cáo nghiên cứu [6, 13, 19] Ngoài ra, theo kết Chương thời gian để xác định danh tính người cần truy vấn sử dụng bốn khung hình đại diện, khung hình chu kỳ tất khung hình người tương ứng 11.5s, 20.5s, 100.9s Cùng với khả đáp ứng thời gian thực giải thuật phát theo vết tự động việc triển khai hệ thống tái định danh tự động thực tế hoàn toàn khả thi 4.4 Kết luận hướng phát triển Trong chương này, NCS bước đầu xây dựng đánh giá hệ thống tái định danh hoàn toàn tự động gồm ba bước chính: phát người, phân đoạn tái định danh Các kết thu cho thấy hai bước phát phân đoạn có ảnh hưởng tới hiệu tồn hệ thống Tuy nhiên khắc phục điều với việc sử dụng phương pháp đề xuất Chương cho khâu tái định danh Ngoài ra, chất lượng khâu phát đủ tốt khơng cần áp dụng chiến lược phân đoạn ảnh làm thơng tin biên ảnh Các kết chương cơng bố ba cơng trình nghiên cứu 2, KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO Kết luận Đóng góp luận án đề xuất phương pháp mới, hiệu cho toán tái định danh dựa nhiều thể thơng qua việc lựa chọn khung hình đại diện tổng hợp đặc trưng Độ xác tái định danh xếp hạng thứ sử dụng bốn khung hình 21 đại diện, khung hình chu kỳ chuyển động tất khung hình người sở liệu PRID-2011 77.19%, 79.10%, 90.56%, sở liệu iLIDS-VID 41.09%, 44.14%, 70.13% Kết đạt với phương pháp đề xuất đóng góp chứng minh ưu điểm vượt trội so sánh với nghiên cứu nay, chí so với phương pháp sử dụng kỹ thuật học sâu Sự cân đối độ xác tái định danh thời gian tính tốn hay dung lượng nhớ cần thiết cho việc lưu trữ liệu xem xét đánh giá cách chi tiết đóng góp Trên sở đó, tác giả đưa khuyến nghị cho cộng đồng nghiên cứu triển khai hệ thống giám sát thực tế Đóng góp thứ hai luận án đề xuất chiến lược kết hợp đặc trưng cho toán tái định danh dựa nhiều thể Các chiến lược thử nghiệm hai ngữ cảnh toán tái định danh Đối với ngữ cảnh thứ nhất, toán tái định danh định nghĩa tốn tìm kiếm thơng tin Mơ hình người sở liệu học pha huấn luyện danh tính người cần truy vấn phụ thuộc vào xác suất mà hình ảnh người thuộc vào mơ hình huấn luyện trước Độ xác xếp hạng thứ sở liệu CAVIAR4REID trường hợp A, trường hợp B, sở liệu RAiD 94.44%, 99.72% 100% Với ngữ cảnh thứ hai, toán tái định danh dựa nhiều thể giải cách tích hợp kỹ thuật học khoảng cách với chiến lược kết hợp đặc trưng Các thử nghiệm hai sở liệu dùng chung PRID-2011 iLIDS-VID mang đến kết đáng ghi nhận, độ xác xếp hạng thứ tăng 5.65% 14.13% sở liệu PRID-2011 iLIDS-VID Hướng nghiên cứu Ngắn hạn: Các thử nghiệm thực sở liệu lớn hơn, thách thức (MARS Market-1501) Nghiên cứu phát triển giải thuật theo vết nhằm nâng cao hiệu toán tái định danh Đánh giá ảnh hưởng hai khâu phát theo vết hiệu toàn hệ thống tái định danh tự động Dài hạn: Một số hướng nghiên cứu thời gian dài hạn: • Kết hợp đặc trưng chuyển động bề ngồi cho tốn tái định danh • Khai thác thơng tin bật miền khơng gian thời gian • Tái định danh theo hướng học khơng giám sát • Tái định danh sở liệu mở 22 Bibliography [1] Liefeng Bo, Xiaofeng Ren, and Dieter Fox Kernel descriptors for visual recognition In Advances in neural information processing systems (2010), pages 244–252, 2010 [2] Lin Chen, Hua Yang, Ji Zhu, Qin Zhou, Shuang Wu, and Zhiyong Gao Deep spatialtemporal fusion network for video-based person re-identification In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pages 63–70, 2017 [3] Piotr Dollár, Ron Appel, Serge Belongie, and Pietro Perona Fast feature pyramids for object detection IEEE Transactions on Pattern Analysis and Machine Intelligence, 36(8):1532–1545, 2014 [4] Michela Farenzena, Loris Bazzani, Alessandro Perina, Vittorio Murino, and Marco Cristani Person re-identification by symmetry-driven accumulation of local features In Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on, pages 2360–2367 IEEE, 2010 [5] Mayssa Frikha, Omayma Chebbi, Emna Fendri, and Mohamed Hammami Key frame selection for multi-shot person re-identification In International Workshop on Representations, Analysis and Recognition of Shape and Motion FroM Imaging Data (2016), pages 97–110 Springer, 2016 [6] Changxin Gao, Jin Wang, Leyuan Liu, Jin-Gang Yu, and Nong Sang Temporally aligned pooling representation for video-based person re-identification In Image Processing (ICIP), 2016 IEEE International Conference on, pages 4284–4288 IEEE, 2016 [7] Shaogang Gong, Marco Cristani, Chen Change Loy, and Timothy M Hospedales The re-identification challenge In Person re-identification, pages 1–20 Springer, 2014 [8] Yousra Hadj Hassen, Walid Ayedi, Tarek Ouni, and Mohamed Jallouli Multi-shot person re-identification approach based key frame selection In Eighth International Conference on Machine Vision (ICMV 2015), volume 9875, page 98751H International Society for Optics and Photonics, 2015 [9] Yousra Hadj Hassen, Kais Loukil, Tarek Ouni, and Mohamed Jallouli Images selection and best descriptor combination for multi-shot person re-identification In International Conference on Intelligent Interactive Multimedia Systems and Services (2017), pages 11– 20 Springer, 2017 [10] Kaiming He, Georgia Gkioxari, Piotr Dollár, and Ross Girshick Mask r-cnn In Proceedings of the IEEE international conference on computer vision, pages 2961–2969, 2017 [11] Martin Koestinger, Martin Hirzer, Paul Wohlhart, Peter M Roth, and Horst Bischof Large scale metric learning from equivalence constraints In Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on, pages 2288–2295 IEEE, 2012 [12] Qingming Leng, Mang Ye, and Qi Tian A survey of open-world person re-identification IEEE Transactions on Circuits and Systems for Video Technology, 2019 [13] Youjiao Li, Li Zhuo, Jiafeng Li, Jing Zhang, Xi Liang, and Qi Tian Video-based person re-identification by deep feature guided pooling In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops (2017), pages 39–46, 2017 23 [14] Shengcai Liao, Yang Hu, Xiangyu Zhu, and Stan Z Li Person re-identification by local maximal occurrence representation and metric learning In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (2015), pages 2197–2206, 2015 [15] Hao Liu, Zequn Jie, Karlekar Jayashree, Meibin Qi, Jianguo Jiang, Shuicheng Yan, and Jiashi Feng Video-based person re-identification with accumulative motion context IEEE transactions on circuits and systems for video technology, 28(10):2788–2802, 2017 [16] Kan Liu, Bingpeng Ma, Wei Zhang, and Rui Huang A spatio-temporal appearance representation for video-based pedestrian re-identification In Proceedings of the IEEE International Conference on Computer Vision (2015), pages 3810–3818, 2015 [17] Ping Luo, Xiaogang Wang, and Xiaoou Tang Pedestrian parsing via deep decompositional network In Proceedings of the IEEE international conference on computer vision, pages 2648–2655, 2013 [18] Tetsu Matsukawa, Takahiro Okabe, Einoshin Suzuki, and Yoichi Sato Hierarchical gaussian descriptor for person re-identification In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1363–1372, 2016 [19] Niall McLaughlin, Jesus Martinez del Rincon, and Paul Miller Recurrent convolutional network for video-based person re-identification In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (2016), pages 1325–1334, 2016 [20] Hong-Quan Nguyen, Thuy-Binh Nguyen, Tuan-Anh Le, Thi-Lan Le, Thanh-Hai Vu, and Alexis Noe Comparative evaluation of human detection and tracking approaches for online tracking applications In 2019 International Conference on Advanced Technologies for Communications (ATC), pages 348–353 IEEE, 2019 [21] Joseph Redmon and Ali Farhadi Yolov3: An incremental improvement arXiv preprint arXiv:1804.02767, 2018 [22] Taiqing Wang, Shaogang Gong, Xiatian Zhu, and Shengjin Wang Person re-identification by discriminative selection in video ranking IEEE Trans Pattern Anal Mach Intell., 38(12):2501–2514, 2016 [23] Xiaogang Wang, Gianfranco Doretto, Thomas Sebastian, Jens Rittscher, and Peter Tu Shape and appearance context modeling In 2007 ieee 11th international conference on computer vision, pages 1–8 Ieee, 2007 [24] Zhiqiang Zeng, Zhihui Li, De Cheng, Huaxiang Zhang, Kun Zhan, and Yi Yang Twostream multirate recurrent neural network for video-based pedestrian reidentification IEEE Transactions on Industrial Informatics, 14(7):3179–3186, 2017 [25] Liang Zheng, Shengjin Wang, Lu Tian, Fei He, Ziqiong Liu, and Qi Tian Query-adaptive late fusion for image search and person re-identification In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition (2015), pages 1741–1750, 2015 [26] Liang Zheng, Yi Yang, and Alexander G Hauptmann Person re-identification: Past, present and future arXiv preprint arXiv:1610.02984, 2016 24 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN [1] Thuy-Binh Nguyen, Thi-Lan Le, Dinh-Duc Nguyen, and Dinh-Tan Pham (2018), A Reliable Image-to-Video Person Re-identification Based on Feature Fusion, 10th Asian conference on intelligent information and database systems (ACIIDS), Springer, VietNam, ISBN: 978-3-319-75416-1, pp.433-442, 2018 [2] Thuy-Binh Nguyen, Duc-Long Tran, Thi-Lan Le, Thi Thanh Thuy Pham, and HuongGiang Doan (2018), An effective implementation of Gaussian of Gaussian descriptor for person re-identification, 5th NAFOSTED Conference on Information and Computer Science (NICS), IEEE, Vietnam, ISBN 978-1-4673-8013-3, pp.388-393, 2018 [3] Thuy-Binh Nguyen, Hong-Quan Nguyen, Thi-Lan Le, Thi Thanh Thuy Pham, and Ngoc-Nam Pham (2019), A Quantitative Analysis of the Effect of Human Detection and Segmentation Quality in Person Re-identification Performance, 2nd International Conference on Multimedia Analysis and Pattern Recognition (MAPR) (pp 1-6), IEEE, 2019 [4] Thuy-Binh Nguyen, Trong-Nghia Nguyen, Hong-Quan Nguyen, and Thi-Lan Le (2020), How feature fusion can help to improve multi-shot person re-identification performance?, 3rd International Conference on Multimedia Analysis and Pattern Recognition (MAPR), 2020 [5] Thuy-Binh Nguyen, Thi-Lan Le, and Ngoc-Nam Pham(2018), Fusion schemes for image-to-video person re-identification, Journal of Information and Telecommunication, ISSN: 2475-1839 (Print) 2475-1847 (Online), DOI: 10.1080/24751839.2018.1531233, pp.7494 [6] Thuy-Binh Nguyen, Thi-Lan Le, and Ngoc-Nam Pham (2018), Images-to-images person ReID without temporal linking, International Journal of Computational Vision and Robotics, Print ISSN: 1752-9131 Online ISSN: 1752-914X,pp.152-171 (SCOPUS) [7] Thuy-Binh Nguyen, Thi-Lan Le, Louis Devillaine, Thi Thanh Thuy Pham, and Nam Ngoc Pham (2019), Effective Multi-shot Person Re-identification through Representative Frames Selection and Temporal Feature Pooling, Multimedia Tools and Applications, ISSN: 1380-7501 (Print) 1573-7721 (Online), DOI: 10.1007/s11042-019-08183-y, (ISI) ... lưu trữ đảm bảo độ xác tái định danh 1.6 Hệ thống tái định danh tự động hoàn toàn Một hệ thống định danh tự động hồn tồn gồm ba khâu chính: phát người, theo vết tái định danh Tuy nhiên, có nghiên... hệ thống tái định danh Do hạn chế mặt thời gian, nên luận án NCS đánh giá ảnh hưởng khâu phát phân đoạn tự động tới chất lượng tái định danh 4.2 Hệ thống tái định danh hoàn toàn tự động Một hệ. .. vết, tái định danh nhận dạng Trong tái định danh định nghĩa toán kết nối ảnh/chuỗi ảnh người người di chuyển vùng giám sát camera đến camera khác [7] Mặc dù đạt thành công định, tái định danh

Ngày đăng: 02/12/2020, 15:07

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w