Luận án tiến sĩ nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI Nguyễn Hồng Quân NGHIÊN CỨU VÀ PHÁT TRIỂN PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG DỰA TRÊN HỌC SÂU TRONG TÁI ĐỊNH DANH NGƯỜI LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ Hà Nội−2023 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI Nguyễn Hồng Quân NGHIÊN CỨU VÀ PHÁT TRIỂN PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG DỰA TRÊN HỌC SÂU TRONG TÁI ĐỊNH DANH NGƯỜI Ngành: Kỹ thuật điện tử Mã số: 9520203 LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS VÕ LÊ CƯỜNG TS NGUYỄN VŨ THẮNG Hà Nội−2023 LỜI CAM ĐOAN Tôi xin cam đoan kết trình bày luận án cơng trình nghiên cứu thân nghiên cứu sinh thời gian học tập nghiên cứu Đại học Bách khoa Hà Nội hướng dẫn tập thể hướng dẫn khoa học Các số liệu, kết trình bày luận án hồn tồn trung thực Các kết sử dụng tham khảo trích dẫn đầy đủ theo quy định Hà Nội, ngày 12 tháng 10 năm 2023 Nghiên cứu sinh Nguyễn Hồng Quân TẬP THỂ HƯỚNG DẪN KHOA HỌC LỜI CẢM ƠN Trong q trình nghiên cứu hồn thành luận án này, nghiên cứu sinh nhận nhiều giúp đỡ đóng góp quý báu Đầu tiên, nghiên cứu sinh xin bày tỏ lòng biết ơn sâu sắc tới tập thể hướng dẫn: Tiến sĩ Võ Lê Cường tiến sĩ Nguyễn Vũ Thắng Các thầy tận tình hướng dẫn, giúp đỡ nghiên cứu sinh suốt q trình nghiên cứu hồn thành luận án Nghiên cứu sinh xin chân thành cảm ơn Khoa Điện tử, Trường Điện Điện Tử Đại học Bách Khoa Hà Nội Tôi xin cám ơn thầy cô anh chị em Viện Nghiên cứu quốc tế Mica Đại học Bách khoa Hà Nội giúp tơi có mơi trường nghiên cứu tuyệt vời Tôi xin cám ơn trường Đại học Công nghiệp Việt - Hung tạo nhiều điều kiện thuận lợi cho mặt suốt thời gian làm nghiên cứu sinh Xin chân thành cảm ơn Phòng Đào tạo - Đại học Bách Khoa Hà Nội tạo điều kiện để nghiên cứu sinh hồn thành thủ tục bảo vệ luận án tiến sĩ Cuối cùng, nghiên cứu sinh xin gửi lời cảm ơn sâu sắc tới gia đình, bạn bè đồng nghiệp ln động viên, giúp đỡ nghiên cứu sinh vượt qua khó khăn để đạt kết nghiên cứu hôm MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT vi DANH MỤC CÁC BẢNG viii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ x MỞ ĐẦU Chương NGHIÊN CỨU TỔNG QUAN 12 1.1 Trích chọn đặc trưng hình ảnh 12 1.2 Mạng nơ-ron tích chập 15 1.3 Mạng Nơ-ron hồi quy 33 1.4 Bài toán tái định danh người 1.4.1 Định nghĩa toán 1.4.2 Một số nghiên cứu liên quan 1.4.3 Độ đo khoảng cách độ đo tương tự 1.4.4 Độ đo đánh giá kết tái định danh 36 36 37 42 43 1.5 Nén mạng học sâu triển khai FGPA 44 1.6 Kết luận chương 46 Chương TRÍCH CHỌN ĐẶC TRƯNG HỌC SÂU CỤC BỘ TRONG TÁI ĐỊNH DANH NGƯỜI 47 2.1 Đặt vấn đề 47 2.2 Các đề xuất cho trích chọn đặc trưng mức ảnh tái định danh 2.2.1 Đề xuất 1: Trích đặc trưng cục cho ảnh với mạng RestNet50 2.2.2 Đề xuất 2: Kết hợp đặc trưng theo chiến lược kết hợp muộn 2.2.3 Đề xuất 3: Tính khoảng cách hai tập đặc trưng cục đo EMD 49 49 51 độ 53 2.3 Thử nghiệm đánh giá kết 2.3.1 Cơ sở liệu cho toán tái định danh 2.3.2 Kết thử nghiệm đề xuất - Trích đặc trưng cục cho RestNet50 iii 55 55 ảnh 57 2.3.3 Kết thử nghiệm đề xuất - Chiến lược kết hợp muộn đặc trưng 59 2.3.4 Kết thử nghiệm đề xuất 3- So sánh đặc trưng cục với khoảng cách EMD 63 2.4 Kết luận chương 66 Chương KHAI THÁC ĐẶC TRƯNG VIDEO DỰA TRÊN MẠNG NƠ-RON HỒI QUY TÁI ĐỊNH DANH NGƯỜI 67 3.1 Đặt vấn đề 67 3.2 Một số kiến trúc mạng Nơ-ron hồi quy phổ biến 3.2.1 Recurrent Neural Network (RNN) 3.2.2 Long Short-term Memory (LSTM) 3.2.3 Long Short-term Memory với cặp cổng (LSTMC) 3.2.4 Long Short-term Memory với kết nối Peephole (LSTMP) 3.2.5 Gated Recurrent Unit (GRU) 69 69 70 71 72 73 3.3 Đánh giá hiệu mạng Nơ-ron hồi quy cho tốn tái định danh sử dụng chuỗi hình ảnh 73 3.3.1 Mô tả 73 3.3.2 Thử nghiệm kết 75 3.4 Đề xuất cải thiện đặc trưng mức chuỗi ảnh với mạng VGG16 kiến trúc GRU 77 3.4.1 Mô tả 77 3.4.2 Thử nghiệm kết 79 3.5 Đề xuất nâng cao hiệu mơ hình đặc trưng thủ cơng (GOG) hợp sử dụng thuật toán học độ đo khoảng cách 3.5.1 Mô tả 3.5.2 Thử nghiệm kết kết 80 81 82 3.6 Triển khai đánh giá hệ thống tái định danh 3.6.1 Mô tả hệ thống 3.6.2 Xây dựng sở liệu FAPR 3.6.3 Thử nghiệm kết 84 85 85 87 3.7 Kết luận chương 93 Chương NÉN MẠNG HỌC SÂU ĐỊNH HƯỚNG TRIỂN KHAI TRÊN PHẦN CỨNG - FPGA 96 4.1 Đặt vấn đề 96 4.2 Kỹ thuật nén mạng học sâu 4.2.1 Cắt tỉa mạng (pruning) 97 97 iv 4.2.2 Lượng tử hóa (quantization) 98 4.3 Phương pháp đề xuất 99 4.3.1 Nhị phân hóa giá trị trọng số 99 4.3.2 Lượng tử hóa giá trị trọng số giá trị kích hoạt tương ứng với lớp mạng 100 4.3.3 Hàm kích hoạt Clamping Rectified Linear Unit - CReLU 101 4.3.4 Kiến trúc luồng tăng tốc mạng tích chập 103 4.3.5 Tính tốn tài ngun phần cứng 103 4.4 Thử nghiệm kết 104 4.4.1 Mạng học sâu VGG16-SSD toán phát đối tượng ảnh 104 4.4.2 Cơ sở liệu CIFAR-10 106 4.4.3 Cơ sở liệu PASCAL VOC 106 4.4.4 Nén mạng VGG16 với toán phân lớp ảnh CSDL CIFAR-10 107 4.4.5 Nén mạng VGG16-SSD với toán phát đối tượng ảnh hướng tới triển khai FPGA 108 4.5 Kết luận chương 110 KẾT LUẬN VÀ KIẾN NGHỊ 112 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CÔNG BỐ 115 TÀI LIỆU THAM KHẢO 116 v DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Viết tắt Nghĩa tiếng Anh Nghĩa tiếng Việt BackBone BackBone Network Mạng xương sống (mạng chính) bbox Bounding box Vùng đối tượng ảnh CNN Convulutional Neural Network Mạng nơ-ron tích chập CMC Cummulative Matching Char- Một dạng biểu đồ thể chất acteristic lượng kết đối sánh theo thứ hạng DNN Deep Neural Network Mạng nơ-ron sâu CSDL Dataset Cơ sở liệu CV Computer Vision Thị giác máy tính DBN Deep belief networks Tên loại mạng sâu DSP Digital Signal Processing Xử lý tín hiệu số EMD Earth Mover’s Distance Một loại độ đo khoảng cách hai tập FC Full connected Kết nối đầy đủ FPGA Field Programmable Gate Ar- Vi mạch dùng cấu trúc mảng ray phần tử logic lập trình Gallery Gallery set Tập trưng bày GOG Gaussian of Gaussian Tên loại đặc trưng thủ công GPU Graphics Processing Unit Bộ xử lý đồ họa GRU Gated Recurrent Unit Một biến mạng Nơ-ron hồi quy HOG Histogram of Oriented Gradi- Tên loại đặc trưng ảnh ents ID Identity Định danh LBP Local Binary Patterns Tên loại đặc trưng ảnh LSTM Long Short Term Memory Một biến mạng nơ-ron hồi quy vi RNN Recurrent neural network Mạng nơ-ron hồi quy Probe Probe set Tập thăm dò (Tập truy vấn) PE Processing Element Một đon vị xử lý (trong FPGA) R-CNN Region-based Convolutional Neural Network Một kiến trúc mạng nơ-ron tích chập cho tốn phát đối tượng ảnh RankSVM Tên giải thuật học độ đo khoảng cách ReLU Rectified Linear Unit Tên đơn vị xử lý mạng nơ-ron ResNet Residual Neural Network Tên loại mạng nơ-ron tích chập SIFT Scale-Invariant Feature Trans- Tên loại đặc trưng ảnh form SORT SSD Simple Online and Realtime Một giải thuật theo vết đối Tracking tượng Single Shot multiBox Detector Một kiến trúc mạng cho toán phát đối tượng ảnh SURF Speeded-Up Robust Features Tên loại đặc trưng ảnh SVM Support Vector Machine Tên giải thuật phân lớp Tracklet Một chuỗi vùng ảnh đối tượng khung hình liên tiếp video VGG Tên loại mạng nơ-ron tích chập YOLO You look Only Once Một kiến trúc mạng học sâu cho phát đối tượng ảnh XQDA Cross-view Quadratic Discrim- Tên giải thuật học độ đo inant Analysis khoảng cách vii DANH MỤC CÁC BẢNG 1.1 Thời gian thực phát đối tượng [Microsoft Research, NIPS2015]24 1.2 Cấu trúc mạng trích chọn đặc trưng thể bề DeepSORT[39] 32 2.1 Kết tái định danh sử dụng đặc trưng ResNet đề xuất sở liệu VIPER 58 2.2 Kết tái định danh sử dụng đặc trưng ResNet gốc ResNet đề xuất sở liệu PRID-2011 iLIDS-VID 59 2.3 So sánh kết đạt đề xuất luận án với phương pháp khác hai sở liệu PRID-2011 iLIDSVID Kết tốt in đậm 61 2.4 So sánh kết đạt phương pháp đề xuất với phương pháp có sở liệu VIPeR Kết tốt in đậm 64 2.5 So sánh kết thu với đề xuất sử dụng độ đo EMD luận án phương pháp gốc sử dụng độ đo DMLI CSDL VIPeR, Market1501-Partial DukeMTMCReID-Partial trường hợp chia ảnh thành vùng Các kết tốt nhóm phương pháp bôi đậm 64 2.6 Kết tái định danh CSDL VIPER dựa đề xuất với số lượng vùng chia khác 65 3.1 So sánh kết dùng kiến trúc mạng Nơ-ron hồi quy khác nhau76 3.2 So sánh thời gian thực thi 76 3.3 So sánh hiệu suất mơ hình đề xuất áp dụng chiến lược gộp theo thời gian khác 79 3.4 So sánh hiệu mơ hình đề xuất cơng trình cơng bố 80 3.5 So sánh kết phương pháp đề xuất số phương pháp khác CSDL PRID-2011 iLIDS-VID 83 3.6 Cơ sở liệu FAPR 86 viii Bảng 4.3: Chi tiết tham số lượng tử hóa mơ hình VGG16-SSD thực thi sở liệu VOC07+12 Chi tiết Phần mạng Base Aux Lớp 1_1 1_2 2_1 2_2 3_1 3_2 3_3 4_1 4_2 4_3 5_1 5_2 5_3 8_1 8_2 9_1 9_2 10_1 10_2 11_1 11_2 Pred Chú ý: n: độ rộng bít, Trọng số qmax n s 0.499 16 1/216 0.047 1/25 0.047 1/25 0.047 1/25 0.047 1/25 0.023 1/26 0.047 1/25 0.047 1/25 0.023 1/26 0.023 1/26 0.023 1/26 0.023 1/26 0.023 1/26 _ _ 0.023 1/26 _ _ 0.023 1/26 _ _ 0.023 1/26 _ _ 0.023 1/26 _ _ 0.023 1/26 _ _ s: bước nhảy Kích hoạt qmax n s 1.969 1/24 1.969 1/24 0.984 1/25 1.969 1/24 0.984 1/25 0.984 1/25 0.984 1/25 0.984 1/25 0.984 1/25 0.984 1/25 1.969 1/24 0.984 1/25 0.984 1/25 0.492 1/26 1.969 1/24 1.969 1/24 3.938 1/23 3.938 1/23 3.938 1/23 3.938 1/23 7.875 1/22 7.875 1/22 15.75 1/21 _ 32 _ thống kê phân bố giá trị kích hoạt lớp nhằm lựa chọn giá trị qmax sau tiến hành tính tốn giá trị tham số cịn lại dựa vào cơng thức 4.2, 4.3, 4.4 Trong bước, tiến hành thay hàm kích hoạt hàm kích hoạt ReLU với giá trị khởi tạo gấp đôi giá trị qmax , Chi tiết tham số mơ tham số cho q trình lượng tử hóa thể Bảng 4.3 Bảng 4.4 so sánh thiết kế đề xuất với số nghiên cứu trước nghiên cứu nén mạng VGG16-SSD có ửo liệu VOC07+12 Nói chung, phương pháp sử dụng kiến trúc (Sequential) yêu cầu số lượng nhỏ đệm để lưu trữ tham số CNN số lượng nhỏ DSP có đơn vị tính tốn phục vụ cho tất lớp CNN Tuy nhiên, [75] [76] không loại bỏ thao tác truy cập DRAM Đặc biệt [75], có độ xác giảm thấp 0,36%, mơ hình lượng tử hóa từ đến 16 bit, dẫn đến tỷ lệ nén thấp (3844 BRAM) lượng DRAM lớn để lưu trữ trọng số đồ tính Mơ hình nghiên cứu[76] có tỉ lệ nén cao (96%), bị độ xác lớn 14,7%, cao gấp lần so với 109 Bảng 4.4: So sánh với phương pháp nén khác mạng VGG16-SSD [75] [76] Kiến trúc Tuần tự Tuần tự CNN VGG16-SSD Light-weight SSD Kích thước ảnh đầu vào 300×300 480×360 mAp 76.94% 62.8% Mức giảm độ xác 0.36% 14.7% BRAM(18Kb) 3844 560 DSP 4363 _ Có cần DRAM Yes Yes Chú ý: * có nghĩa tính tốn theo lý thuyết [77] Luồng VGG16-SSD 640×480 78.13% 1.93% 1470 3074 No Ours Luồng VGG16-SSD 300×300 77.4% 1.8% 2974* 552* No phương pháp nghiên cứu sinh đề xuất Trong nghiên cứu [77], tác giả kết hợp kỹ thuật cắt tỉa lượng tử hóa để đạt tốc độ nén cao số lượng nhỏ BRAM (1470) để lưu trữ thơng số mơ hình Tuy nhiên, kiến trúc luồng (Streaming) lại yêu cầu lượng lớn khối DSP (3074) để tính tốn bit cao Mặc dù thiết kế tác giả đề xuất sử dụng kiến trúc luồng yêu cầu 40 đệm để lưu trữ đồ đặc trưng 40 lớp kiến trúc VGG16-SSD, tất thông số mô hình lưu trữ hồn tồn nhớ chip với 2974 BRAM chiếm 69% BRAM mạch Xilinx Kintex Ultrascale KCU1500 FPGA Hơn 552 khối DSP số thấp so với phương pháp khác trì độ xác Độ xác giảm nhẹ 1,8% so với mơ hình đầy đủ 4.5 Kết luận chương Trong chương này, nghiên cứu sinh trình phương pháp nén mạng học sâu, đề xuất kết hợp kết hợp nhị phân hóa với lượng tử hóa cho giá trị trọng số mạng giá trị kích hoạt Việc lựa chọn tham số cho giải thuật nén lớp mạng vào vai trò lớp mơ hình (Các lớp có vai trò quan trọng ưu tiên sử dụng độ rộng bít cao hơn), ngồi tham số cần thỏa mãn ràng buộc giới hạn mặt tài nguyên thiết kế dạng luồn phần cứng FPGA Phương pháp đề xuất làm giảm đáng kể băng thơng mơ hình số lượng tính tốn, chứng minh dựa tính tốn sơ khối BRAM khối DSP mơ hình VGG16-SSD, tương ứng 2974 552 Xét mạng quy mơ lớn VGG16, kích thước mơ hình giảm gần 32 lần trọng số mạng xấp xỉ lần giá trị kích hoạt Kết kiểm thử tập liệu VOC07+12 cho thấy độ xác mơ hình sau nén so với mơ hình ban đầu giảm không đáng kể (dưới 2%) Tuy nhiên, phương pháp đề xuất số vấn đề cần giải tương lai như: Thời gian để thực giải 110 thuật nén nhiều công đoạn địi hỏi phải huấn luyện lại mơ hình Tỷ lệ nén cải thiện áp dụng thêm chiến lược cắt tỉa Kết chương thể chủ yếu CT6 111 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận Luận án có đóng góp sau: Thứ nhất: Vận dụng có cải tiến mạng trích chọn đặc trưng học sâu cho phép khai thác thông tin cục ảnh người, từ nâng cao chất lượng đặc trưng ảnh cho toán tái định danh người sử dụng hình ảnh mạng camera giám sát Đối với nhiệm vụ trích chọn đặc trưng mức ảnh, nghiên cứu sinh đề xuất sử dụng mơ hình mạng ResNet-50 với việc cải tiến kiến lớp gộp cuối với mục tiêu giữ lại thơng tin hình ảnh người theo phần phần riêng biệt theo chiều dọc Kết thử nghiện cho thấy, cải tiến mạng lại hiệu cao trường hợp sử dụng đặc trưng ResNet-50 Cụ thể kết đánh giá thứ hạng thứ kết dự đoán sau: − Trong trường hợp sử dụng tham số mạng tiền huấn luyện tập ImageNet, việc sử dụng mơ hình mạng ResNet-50 cải tiến cho kịch thử nghiệm CSDL VIPeR, PRID-2011 iLIDS-VID cho kết tăng tương ứng 8.42%, 16.06% 11.53% sơ với mô hình nguyên gốc − Trong trường hợp huấn luyện lại tập PRID-2011 kết tăng tương ứng thử nghiệm với CSDL 9.65%, 6.86% 20.74% Ngồi ra, mơ hình mạng ResNet-50 cải tiến cho thấy hiệu của đặc trưng tạo kết hợp muộn với đặc trưng thủ công khác GOG LOMO Cụ thể kết đánh giá thứ hạng thứ kết dự đoán sau: − Trên CSDL iLIDS-VID PRID-2011, kết cao tương ứng 85.73% 93.82% , tăng +11,86% +3,48% so với kết cao sử dụng đặc trưng riêng lẻ − Trên CSDL VIPeR CSDL thách thức chất lượng hình ảnh người thấp Kết đạt tăng +2.22% so với kết tốt sử dụng đặc trưng Với độ đo khoảng cách tối ưu cho đặc trưng cục bộ, kết thử nghiệm cho thấy, phương pháp đề xuất dựa độ đo EMD cải tiến kết phương pháp sở hầu hết trường hợp Đặc biệt làm việc với sở liệu 112 có nhiều thách thức VIPER, đề xuất cho phép tăng độ xác tái định danh hạng từ 40.20% lên 47.82% trường hợp sử dụng đặc trưng cục Trong trường hợp sử dụng thêm đặc trưng toàn cục kết tăng từ 40.89% lên 47.84% Bên cạnh đó, nghiên cứu sinh xây dựng thử nghiệm phương pháp nén mạng học sâu hiệu hướng tới việc triển khai mạng học sâu phần cứng mạch tổ hợp FPGA Trong sử dụng kỹ thuật lượng tử hóa (bao gồm nhị phân hóa) cho lớp mạng theo nguyên tắc ưu tiên lớp đóng vai trị quan trọng khơng vượt q tài nguyên phần cứng Giải thuật nén áp dụng cho trọng số mạng giá trị kích hoạt với tham số cho giải thuật xác định từ việc thống kê phân bố giá trị (trọng số kích hoạt) mối quan hệ chúng Phương pháp gồm công đoạn 1) Huấn luyện lại mạng nguyên gốc theo mục đích sử dụng; 2) Chạy giải thuật nén giá trị trọng số lúc với trình huấn luyện lại mạng; 3)Chạy giải thuật nén giá kích hoạt lúc với trình huấn luyện lại mạng Riêng cơng đoạn này, hàm CReLU đề xuất thay cho hàm ReLU tông thường Kết thử nghiệm với mơ hình VGG16-SSD sở liệu VOC07+12 cho thấy Kích thước mơ hình sau nén giảm xấp xỉ 32 lần giá trị trọng số xấp xỉ lần giá trị kích hoạt Độ xác mơ hình sau nén giảm nhở (dưới 2%) sơ với mơ hình ban đầu Thứ hai: Cải tiến mơ hình tái định danh từ biến thể RNN để tổng hợp đặc trưng mức chuỗi ảnh Nghiên cứu sinh có cơng bố đánh giá hiệu biến thể mơ hình mạng học sâu Nơ-ron hồi quy việc tổng hợp đặc trưng mức chuỗi ảnh áp dụng cho toán tái định danh Cụ thể so sánh hiệu mơ hình mạng RNN, LSTM, LSTMC, LSTMP GRU Kết cho thấy mơ hình GRU tỏ vượt trội biến thể lại kể xét chất lượng đặc trưng hay hiệu sử dụng tài nguyên phần cứng Bên cạnh đó, xây dựng sở liệu (FAPR) cho phép đánh giá đầy đủ công đoạn hệ thống tái định danh bao gồm phát hiện, theo vết định danh lại người Cơ sở liệu thu từ hai camera không chồng lấn trường quan sát Trong bao gồm 11876 hình ảnh 29 người, 28567 vùng người gán nhãn, nhãn chia thành 181 nhóm theo quỹ đạo chuyển động theo thứ tự thời gian Nghiên cứu sinh đưa kết đánh giá ban đầu CSDL cho bước Mơ hình YOLOv3 Mask R-CNN lựa chọn làm phát đối tượng so sánh hiệu chúng DeepSORT lựa chọn làm theo vết đối tượng Tại bước tái định danh, mơ hình ResNet-50 cải tiến sử dụng trích chọn đặc trưng ảnh Kết so khớp đặc trưng sử dụng khoảng cách Cosine ngữ cảnh nêu thấp đạt 45.45% người chuyển động 113 hỗn độn cao đạt 100% người chuyển động chiều hai camera Kiến nghị Các thử nghiệm sở liệu dùng chung cho thấy đề xuất luận án cải tiến kết hiệu toán tái định danh lại Tuy nhiên, kết tốt thứ hạng CSDL nhiều thách thức VIPER hạn chế (47.84%) Một số hướng phát triển ngắn hạn thời gian tới sau: − Nghiên cứu mô hình mạng biến đổi (transfomer) cho phép mã hóa hình ảnh dạng chuỗi vùng ảnh (patches) nhằm giảm thiểu khả mát thông tin mạng nơ-ron tích chập lớp tích chập lấy mẫu − Các nghiên cứu tái định danh luận án tập trung vào tái định danh thời gian ngắn với giả thuyết hình dáng, trang phục người khơng thay đổi Để tái định danh thời gian dài, đặc trưng diện mạo (appearance), đặc trưng khác dáng (gait) cần khai thác − Các thử nghiệm luận án dựa giả thuyết toán tái định danh tốn học có giám sát, tức có tồn tập huấn luyện tập thử nghiệm với ràng buộc người tập huấn luyện tập thử nghiệm khác Tuy nhiên ứng dụng thực tế, tập huấn luyện khơng tồn Do cần phải có nghiên cứu nhằm áp dụng đề xuất luận án cho tốn tái định danh khơng giám sát (unsupervised Person Re-identification zero shot learning) Trong hướng dài hạn, nghiên cứu sinh nghiên cứu phát triển mơ hình học sâu cho trích chọn đặc trưng tốn khác thị giác máy tính Tiếp tục nghiên cứu triển khai kỹ thuật nén mạng theo hướng cắt tỉa mạng nhằm đạt tỷ lệ nén tốt Ngồi nghiên cứu để tối ưu hóa kiến trúc thiết kế phần cứng lập trình phần cứng, từ tăng tốc độ xử lý mơ hình thực thi FPGA 114 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN (1) CT1: Quan Nguyen Hong, Nghia Nguyen Tuan, Trung Tran Quang, Dung Nguyen Tien, Cuong Vo Le (2017) Deep Spatio-temporal Network for Accurate Person Re-identification, KICS-IEEE International Conference on Information and Communications with Samsung LTE & 5G Special Workshop (ICIC), pp 208–213, IEEE (2) CT2: Cuong Vo Le, Nghia Nguyen Tuan, Quan Nguyen Hong, and HyukJae Lee (2017) Evaluation of Recurrent Neural Network Variants for Person Reidentification, IEIE Transactions on Smart Processing & Computing, pp 193–199, Vol 6, No (3) CT3: Quan Nguyen Hong, Thuy-Binh Nguyen, Thi-Lan Le (2018) Enhancing Person Re-Identification Based on Recurrent Feature Aggregation Network, 1st International Conference on Multimedia Analysis and Pattern Recognition (MAPR)), pp 1–6, IEEE (4) CT4: Hong-Quan Nguyen, Thuy-Binh Nguyen, Tuan-Anh Nguyen, Thi-Lan Le, Thanh-Hai Vu, Alexis Noe (2019) Comparative evaluation of human detection and tracking approaches for online tracking applications, 2019 International Conference on Advanced Technologies for Communications (ATC), pp 348–353, IEEE (5) CT5: Hong-Quan Nguyen, Thuy Binh Nguyen, Duc-Long Tran, Thi-Lan Le (2020) A unified framework for automated person re-identification, the Transport and Communications Science Journal, 9.2020, pp 868–880, doi = https://doi.org/10.47869/tcsj.71.7.11 (6) CT6: Minh Quoc Hoang, Phong Luu Nguyen, Hong Viet Tran, Hong Quan Nguyen, Vu Thang Nguyen, Cuong Vo-Le (2020) FPGA Oriented Compression of DNN Using Layer-Targeted Weights and Activations Quantization, 2020 IEEE eighth International Conference on Communications and Electronics (ICCE) (7) CT7: Hong-Quan Nguyen, Thuy-Binh Nguyen, Thi-Lan Le (2021) Robust person re-identification through the combination of metric learning and late fusion techniques, Vietnam Journal of Computer Science, ISSN: 2196-8888 (print version), ISSN: 2196-8896, doi = https://doi.org/10.1142/S2196888821500172 (8) CT8: Hoang-Anh Nguyen, Hong-Quan Nguyen, Thuy-Binh Nguyen, Van-Chien Pham, Thi-Lan Le (2022) Exploiting matching local information for person reidentification, 5th International Conference on Multimedia Analysis and Pattern Recognition (MAPR), pp 145–150, IEEE 115 TÀI LIỆU THAM KHẢO [1] Krizhevsky A., Sutskever I., and Hinton G.E (2012) Imagenet classification with deep convolutional neural networks Advances in neural information processing systems, 25:pp 1097–1105 [2] Liu L., Ouyang W., Wang X., Fieguth P., Chen J., Liu X., and Pietikăainen M (2020) Deep learning for generic object detection: A survey International journal of computer vision, 128(2):pp 261–318 [3] Gray D and Tao H (2008) Viewpoint invariant pedestrian recognition with an ensemble of localized features In European conference on computer vision, pp 262–275 Springer [4] Hirzer M., Beleznai C., Roth P.M., and Bischof H (2011) Person reidentification by descriptive and discriminative classification In Scandinavian conference on Image analysis (2011), pp 91–102 Springer [5] Wang T., Gong S., Zhu X., and Wang S (2014) Person re-identification by video ranking In European Conference on Computer Vision, pp 688–703 Springer [6] Abdi H and Williams L.J (2010) Principal component analysis Wiley interdisciplinary reviews: computational statistics, 2(4):pp 433–459 [7] Izenman A.J (2013) Linear discriminant analysis In Modern multivariate statistical techniques: regression, classification, and manifold learning, pp 237–280 Springer [8] Hinton G.E and Roweis S (2002) Stochastic neighbor embedding Advances in neural information processing systems, 15 [9] Ojala T., Pietikainen M., and Maenpaa T (2002) Multiresolution grayscale and rotation invariant texture classification with local binary patterns IEEE Transactions on pattern analysis and machine intelligence, 24(7):pp 971–987 [10] Dalal N and Triggs B (2005) Histograms of oriented gradients for human detection In international Conference on computer vision & Pattern Recognition (CVPR’05), volume 1, pp 886–893 IEEE Computer Society [11] Lowe D.G (2004) Distinctive image features from scale-invariant keypoints International journal of computer vision, 60(2):pp 91–110 116 [12] Bay H., Tuytelaars T., and Van Gool L (2006) Surf: Speeded up robust features In European conference on computer vision, pp 404–417 Springer [13] Bo L., Ren X., and Fox D (2010) Kernel descriptors for visual recognition In Advances in neural information processing systems (2010), pp 244–252 [14] Deng L and Yu D (2014) Deep learning: methods and applications Foundations and trends in signal processing, 7(3–4):pp 197–387 [15] LeCun Y., Bottou L., Bengio Y., and Haffner P (1998) Gradientbased learning applied to document recognition Proceedings of the IEEE , 86(11):pp 2278–2324 [16] Deng J., Dong W., Socher R., Li L.J., Li K., and Fei-Fei L (2009) Imagenet: A large-scale hierarchical image database In 2009 IEEE conference on computer vision and pattern recognition, pp 248–255 Ieee [17] Simonyan K and Zisserman A (2014) Very deep convolutional networks for large-scale image recognition arXiv preprint arXiv:1409.1556 [18] Szegedy C., Liu W., Jia Y., Sermanet P., Reed S., Anguelov D., Erhan D., Vanhoucke V., and Rabinovich A (2015) Going deeper with convolutions In Proceedings of the IEEE conference on computer vision and pattern recognition, pp 1–9 [19] He K., Zhang X., Ren S., and Sun J (2016) Deep residual learning for image recognition 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp 770–778 [20] Redmon J and Farhadi A (2018) Yolov3: An incremental improvement arXiv preprint arXiv:1804.02767 [21] Liu W., Anguelov D., Erhan D., Szegedy C., Reed S., Fu C.Y., and Berg A.C (2016) Ssd: Single shot multibox detector In European conference on computer vision, pp 21–37 Springer [22] Ren S., He K., Girshick R., and Sun J (2015) Faster r-cnn: Towards real-time object detection with region proposal networks In Advances in neural information processing systems, pp 91–99 [23] Redmon J (2013–2016) Darknet: Open source neural networks in c http: //pjreddie.com/darknet/ [24] Ronneberger O., Fischer P., and Brox T (2015) U-net: Convolutional networks for biomedical image segmentation In International Conference 117 on Medical image computing and computer-assisted intervention, pp 234– 241 Springer [25] Goodfellow I., Pouget-Abadie J., Mirza M., Xu B., Warde-Farley D., Ozair S., Courville A., and Bengio Y (2020) Generative adversarial networks Communications of the ACM , 63(11):pp 139–144 [26] Girshick R (2015) Fast r-cnn arXiv preprint arXiv:1504.08083 [27] Girshick R., Donahue J., Darrell T., and Malik J (2014) Rich feature hierarchies for accurate object detection and semantic segmentation In Proceedings of the IEEE conference on computer vision and pattern recognition, pp 580–587 [28] Uijlings J.R., Van De Sande K.E., Gevers T., and Smeulders A.W (2013) Selective search for object recognition International journal of computer vision, 104(2):pp 154–171 [29] Zitnick C.L and Dollár P (2014) Edge boxes: Locating object proposals from edges In European Conference on Computer Vision, pp 391–405 Springer [30] Redmon J and Farhadi A (2016) YOLO9000: better, faster, stronger CoRR, abs/1612.08242 [31] Bochkovskiy A., Wang C.Y., and Liao H.Y.M (2020) Yolov4: Optimal speed and accuracy of object detection [32] Weng S.K., Kuo C.M., and Tu S.K (2006) Video object tracking using adaptive kalman filter Journal of Visual Communication and Image Representation, 17(6):pp 1190–1208 [33] Yang B and Yang R (2015) Interactive particle filter with occlusion handling for multi-target tracking In 2015 12th International Conference on Fuzzy Systems and Knowledge Discovery (FSKD), pp 1945–1949 IEEE [34] Hou L., Wan W., Lee K.H., Hwang J.N., Okopal G., and Pitton J (2017) Robust human tracking based on dpm constrained multiple-kernel from a moving camera Journal of Signal Processing Systems, 86(1):pp 27–39 [35] Hamid Rezatofighi S., Milan A., Zhang Z., Shi Q., Dick A., and Reid I (2015) Joint probabilistic data association revisited In Proceedings of the IEEE international conference on computer vision, pp 3047–3055 [36] Kim C., Li F., Ciptadi A., and Rehg J.M (2015) Multiple hypothesis tracking revisited In Proceedings of the IEEE international conference on computer vision, pp 4696–4704 118 [37] Park C., Woehl T.J., Evans J.E., and Browning N.D (2014) Minimum cost multi-way data association for optimizing multitarget tracking of interacting objects IEEE transactions on pattern analysis and machine intelligence, 37(3):pp 611–624 [38] Bewley A., Ge Z., Ott L., Ramos F., and Upcroft B (2016) Simple online and realtime tracking In 2016 IEEE International Conference on Image Processing (ICIP), pp 3464–3468 doi:10.1109/ICIP.2016.7533003 [39] Wojke N., Bewley A., and Paulus D (2017) Simple online and realtime tracking with a deep association metric In 2017 IEEE International Conference on Image Processing (ICIP), pp 3645–3649 IEEE [40] Kuhn H.W (1955) The hungarian method for the assignment problem Naval research logistics quarterly, 2(1-2):pp 83–97 [41] Kalman R.E (1960) A new approach to linear filtering and prediction problems Journal of basic Engineering, 82(1):pp 35–45 [42] Hochreiter S and Schmidhuber J (1997) Long short-term memory Neural computation, 9(8):pp 17351780 [43] Cho K., Van Merriăenboer B., Gulcehre C., Bahdanau D., Bougares F., Schwenk H., and Bengio Y (2014) Learning phrase representations using rnn encoder-decoder for statistical machine translation arXiv preprint arXiv:1406.1078 [44] Miljanovic M (2012) Comparative analysis of recurrent and finite impulse response neural networks in time series prediction Indian Journal of Computer Science and Engineering, 3(1):pp 180–191 [45] Tealab A (2018) Time series forecasting using artificial neural networks methodologies: A systematic review Future Computing and Informatics Journal , 3(2):pp 334–340 [46] Socher R., Lin C.C., Manning C., and Ng A.Y (2011) Parsing natural scenes and natural language with recursive neural networks In Proceedings of the 28th international conference on machine learning (ICML-11), pp 129–136 [47] Gillick D., Brunk C., Vinyals O., and Subramanya A (2015) Multilingual language processing from bytes arXiv preprint arXiv:1512.00103 [48] Luong T., Pham H., and Manning C.D (2015) Effective approaches to attention-based neural machine translation In EMNLP 119 [49] Jozefowicz R., Vinyals O., Schuster M., Shazeer N., and Wu Y (2016) Exploring the limits of language modeling arXiv preprint arXiv:1602.02410 [50] Bedagkar-Gala A and Shah S.K (2014) A survey of approaches and trends in person re-identification Image and Vision Computing, 32(4):pp 270–286 [51] Matsukawa T., Okabe T., Suzuki E., and Sato Y (2016) Hierarchical gaussian descriptor for person re-identification In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 1363–1372 [52] Karanam S., Gou M., Wu Z., Rates-Borras A., Camps O., and Radke R.J (2018) A systematic evaluation and benchmark for person reidentification: features, metrics, and datasets IEEE Transactions on Pattern Analysis and Machine Intelligence (T-PAMI) [53] Liao S., Hu Y., Zhu X., and Li S.Z (2015) Person re-identification by local maximal occurrence representation and metric learning In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (2015), pp 2197–2206 [54] Jobson D.J., Rahman Z.u., and Woodell G.A (1997) A multiscale retinex for bridging the gap between color images and the human observation of scenes IEEE Transactions on Image processing, 6(7):pp 965–976 [55] Liao S., Zhao G., Kellokumpu V., Pietikăainen M., and Li S.Z (2010) Modeling pixel process with scale invariant local patterns for background subtraction in complex scenes In 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp 1301–1306 IEEE [56] Yi D., Lei Z., and Li S (2014) Deep metric learning for practical person re-identification (2014) ArXiv e-prints, 89 [57] Li W., Zhao R., Xiao T., and Wang X (2014) Deepreid: Deep filter pairing neural network for person re-identification In Proceedings of the IEEE conference on computer vision and pattern recognition, pp 152–159 [58] Ding S., Lin L., Wang G., and Chao H (2015) Deep feature learning with relative distance comparison for person re-identification Pattern Recognition, 48(10):pp 2993–3003 [59] Varior R.R., Shuai B., Lu J., Xu D., and Wang G (2016) A siamese long short-term memory architecture for human re-identification In European conference on computer vision, pp 135–153 Springer 120 [60] Liu H., Feng J., Qi M., Jiang J., and Yan S (2017) End-to-end comparative attention networks for person re-identification IEEE Transactions on Image Processing, 26(7):pp 3492–3506 [61] McLaughlin N., Martinez del Rincon J., and Miller P (2016) Recurrent convolutional network for video-based person re-identification In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (2016), pp 1325–1334 [62] Yan Y., Ni B., Song Z., Ma C., Yan Y., and Yang X (2016) Person reidentification via recurrent feature aggregation In European Conference on Computer Vision (2016), pp 701–716 Springer [63] Weinberger K.Q and Saul L.K (2009) Distance metric learning for large margin nearest neighbor classification Journal of Machine Learning Research, 10(Feb):pp 207–244 [64] Prosser B.J., Zheng W.S., Gong S., Xiang T., and Mary Q (2010) Person re-identification by support vector ranking In BMVC , volume 2, p [65] Koestinger M., Hirzer M., Wohlhart P., Roth P.M., and Bischof H (2012) Large scale metric learning from equivalence constraints In Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on, pp 2288–2295 IEEE [66] Moghaddam B., Jebara T., and Pentland A (2000) Bayesian face recognition Pattern Recognition, 33(11):pp 1771–1782 [67] Courbariaux M., Bengio Y., and David J.P (2015) Binaryconnect: Training deep neural networks with binary weights during propagations In NIPS [68] Yin P., Zhang S., Lyu J., Osher S., Qi Y., and Xin J (2018) Binaryrelax: A relaxation approach for training deep neural networks with quantized weights ArXiv , abs/1801.06313 [69] Li F and Liu B (2016) Ternary weight networks ArXiv , abs/1605.04711 [70] Courbariaux M and Bengio Y (2016) Binarynet: Training deep neural networks with weights and activations constrained to +1 or -1 CoRR, abs/1602.02830 [71] Rastegari M., Ordonez V., Redmon J., and Farhadi A (2016) Xnornet: Imagenet classification using binary convolutional neural networks In ECCV 121 [72] Huang K., Ni B., and Yang X (2019) Efficient quantization for neural networks with binary weights and low bitwidth activations In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pp 3854– 3861 [73] Lin X., Zhao C., and Pan W (2017) Towards accurate binary convolutional neural network In Advances in Neural Information Processing Systems, pp 345–353 [74] Zhuang B., Shen C., and Reid I (2018) Training compact neural networks with binary weights and low precision activations arXiv preprint arXiv:1808.02631 [75] Ma Y., Zheng T., Cao Y., Vrudhula S., and Seo J.s (2018) Algorithmhardware co-design of single shot detector for fast object detection on fpgas In 2018 IEEE/ACM International Conference on Computer-Aided Design (ICCAD), pp 1–8 IEEE [76] Fang S., Tian L., Wang J., Liang S., Xie D., Chen Z., Sui L., Yu Q., Sun X., Shan Y., et al (2018) Real-time object detection and semantic segmentation hardware system with deep learning networks In 2018 International Conference on Field-Programmable Technology (FPT), pp 389–392 IEEE [77] Kang H (2019) Real-time object detection on 640x480 image with vgg16+ssd In 2019 International Conference on Field-Programmable Technology (ICFPT), pp 419–422 [78] Luo H., Jiang W., Zhang X., Fan X., Qian J., and Zhang C (2019) Alignedreid++: Dynamically matching local information for person reidentification Pattern Recognition, 94:pp 53–61 [79] Zheng L., Wang S., Tian L., He F., Liu Z., and Tian Q (2015) Queryadaptive late fusion for image search and person re-identification In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition (2015), pp 1741–1750 [80] Rubner Y., Tomasi C., and Guibas L (01 2000) The earth mover’s distance as a metric for image retrieval International Journal of Computer Vision, 40:pp 99–121 [81] Luo H., Jiang W., Zhang X., Fan X., Qian J., and Zhang C (2019) Alignedreid++: Dynamically matching local information for person reidentification Pattern Recognition, 94:pp 53–61 ISSN 0031-3203 doi: https://doi.org/10.1016/j.patcog.2019.05.028 122 [82] Zheng L., Shen L., Tian L., Wang S., Wang J., and Tian Q (2015) Scalable person re-identification: A benchmark In 2015 IEEE International Conference on Computer Vision (ICCV), pp 1116–1124 doi: 10.1109/ICCV.2015.133 [83] Ristani E., Solera F., Zou R., Cucchiara R., and Tomasi C (2016) Performance measures and a data set for multi-target, multi-camera tracking In G Hua and H Jégou, editors, Computer Vision – ECCV 2016 Workshops, pp 17–35 Springer International Publishing, Cham ISBN 978-3-319-48881-3 [84] Gao J and Nevatia R (2018) Revisiting temporal modeling for video-based person reid ArXiv , abs/1805.02104 [85] Nguyen T.B., Le T.L., Devillaine L., Pham T.T.T., and Ngoc N.P (2019) Effective multi-shot person re-identification through representative frames selection and temporal feature pooling Multimedia Tools and Applications, 78(23):pp 33939–33967 [86] Gao C., Wang J., Liu L., Yu J.G., and Sang N (2016) Temporally aligned pooling representation for video-based person re-identification In Image Processing (ICIP), 2016 IEEE International Conference on, pp 4284– 4288 IEEE [87] Liu H., Jie Z., Jayashree K., Qi M., Jiang J., Yan S., and Feng J (2017) Video-based person re-identification with accumulative motion context IEEE transactions on circuits and systems for video technology, 28(10):pp 2788–2802 [88] Zeng Z., Li Z., Cheng D., Zhang H., Zhan K., and Yang Y (2017) Twostream multirate recurrent neural network for video-based pedestrian reidentification IEEE Transactions on Industrial Informatics, 14(7):pp 3179–3186 [89] Li Y., Zhuo L., Li J., Zhang J., Liang X., and Tian Q (2017) Video-based person re-identification by deep feature guided pooling In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops (2017), pp 39–46 [90] Liu K., Ma B., Zhang W., and Huang R (2015) A spatio-temporal appearance representation for video-based pedestrian re-identification In Proceedings of the IEEE International Conference on Computer Vision (2015), pp 3810–3818 123

Định dạng
Số trang	140
Dung lượng	4,53 MB