Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người.
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI Nguyễn Hồng Quân NGHIÊN CỨU VÀ PHÁT TRIỂN PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG DỰA TRÊN HỌC SÂU TRONG TÁI DỊNH DANH NGƯỜI Ngành: Kỹ thuật điện tử Mã số: 9520203 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ Hà Nội −2023 Cơng trình hoàn thành tại: Đại học Bách Khoa Hà Nội Người hướng dẫn khoa học: TS Võ Lê Cường TS Nguyễn Vũ Thắng Phản biện 1: ——– Phản biện 2: ——– Phản biện 3: ——– Luận án bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Đại học Bách khoa Hà Nội họp Đại học Bách khoa Hà Nội Vào hồi giờ, ngày tháng năm Có thể tìm hiểu luận án thư viện: Thư viện Tạ Quang Bửu - Đại học Bách khoa Hà Nội Thư viện Quốc gia Việt Nam MỞ ĐẦU Tính cấp thiết Các toán lĩnh vực thị giác máy tính như: phát hiện, theo vết đối tượng ảnh, phân lớp ảnh, phải đối mặt với vấn đề trích chọn đặc trưng ảnh Chất lượng đặc trưng ảnh có tính chất định đến kết tốn Do trích chọn đặc trưng ảnh/video quan tâm nghiên cứu nhà khoa học Bên cạnh đó, phát triển học sâu giải nhiều hạn chế phương pháp trích chọn đặc trưng thủ cơng mang lại kết đáng kể Trích chọn đặc trưng ảnh dựa mạng học sâu ngày phổ biến với nhiều lựa chọn khác Tuy nhiên, xét ngữ cảnh ràng buộc định hình dạng, kích thước đối tượng ảnh, số lượng thể (ảnh) đối tượng, vấn đề cịn nhiều thách thức cần có lời giải Do đó, luận án tập chung đề xuất phương pháp trích trọn đặc trưng học sâu nhằm nâng cao chất lượng cho mơ hình tái định danh người sử dụng hình ảnh thu nhận từ camera giám sát Ngồi ra, nhằm mục đích tận dụng ưu mặt tốc độ tiết kiệm lượng so với xử lý đồ họa chuyên dụng (GPU), luận án tập trung nghiên cứu đề xuất phương pháp nén mạng học sâu nhằm đạt mơ hình phù hợp cho việc triển khai chúng thiết bị phần cứng bị giới hạn nhiều mặt tài nguyên mạch tích hợp FPGA Mục tiêu nghiên cứu − Nghiên cứu, đề xuất phương pháp trích chọn đặc trưng ảnh hiệu cho tái định danh người dựa học sâu Ngồi ra, nhằm hướng tới ứng dụng dễ dàng triển khai nhiều điều kiện thực tế, mục tiêu nghiên cứu mở rộng bao gồm nén mạng hướng tới triển khai thiết bị phần cứng − Cải tiến mơ hình tái định danh người, dựa kiến trúc mạng học sâu Nơ-ron hồi quy để tổng hợp đặc trưng mức chuỗi ảnh (video) Đối tượng, phạm vi nghiên cứu thách thức Với mục tiêu đặc trên, đối tượng nghiên cứu luận án xác định hình ảnh, chuỗi hình ảnh người thu nhận từ camera giám sát Do thị giác máy tính lĩnh vực rộng lớn với nhiều toán thách thức, nên nghiên cứu luấn án giới hạn chủ yếu khuôn khổ toán tái định danh cho người số toán liên quan khác như: Phát theo vết đối tượng Trong tập chung vào trích chọn đặc trưng ảnh/video Phương pháp nghiên cứu Phương pháp thu thập, phân tích tổng kết kinh nghiệm: Tìm hiểu thu thập số liệu cơng trình nghiên cứu liên quan Từ đó, tiến hành phân tích để tìm ưu nhược điểm phương pháp làm đề xuất tiến phù hợp Phương pháp quan sát: Quan sát đối tượng nghiên cứu từ tìm đặc điểm chung Từ kết hợp với kết tìm hiểu phương pháp trích chọn đặc trưng dựa học sâu đề xuất phương pháp trích chọn đặc trưng hiệu cho toán tái định danh Phương pháp mô thực nghiệm: Tiến hành thực nghiệm sở liệu dùng chung So sánh với kết nghiên cứu trước Từ rút kết luận Ý nghĩa khoa học thực tiễn đề tài Luận án hướng tới cải tiến phát triển mơ hình học sâu cho việc trích chọn đặc trưng ảnh/video cách hiệu cho tái định danh người Rõ ràng trích chọn đặc trưng vấn đề nghiên cứu quan trọng định trực tiếp đến chất lượng mô hình học máy khơng dừng lại toán tái định danh người Kết nghiên cứu thu làm tảng cho nghiên cứu khác nhằm nâng cao chất lượng mơ hình cho tốn khác thị giác máy tính Bên cạnh đó, tái định danh người tốn phổ biến có tính ứng dụng cao Tái định danh nhằm xác định lại người người quan sát camera giám sát khác Trong tốn này, đối tượng quan tâm hình ảnh người thu nhận camera giám sát khác Thành công thu từ kết nghiên cứu cho tốn tái định danh áp dụng hệ thống tìm kiếm người dựa hình ảnh thu nhận từ camera giám sát thực tế Ngoài ra, việc nghiên cứu, thử nghiệm phương pháp nén mạng mang lại ý nghĩa quan trọng Nhờ triển khai kiến trúc mạng học sâu thiết bị phần cứng có tài ngun hạn chế Từ phân tích chứng tỏ luận án có ý nghĩa mặt khoa học thực tiễn Các đóng góp − Đề xuất cải tiến mạng trích chọn đặc trưng học sâu cho phép khai thác thông tin cục ảnh người nhằm nâng cao chất lượng đặc trưng ảnh tốn tái định danh người sử dụng hình ảnh từ mạng camera giám sát Cụ thể luận án thực cải tiến mạng ResNet-50 để trích đặc trưng ảnh đồng thời đề xuất phương pháp đối sánh đặc trưng thu dựa độ đo khoảng cách EMD (Earth Movers Distance) cho tái định danh người Kết trình bày [CT7, 8] Ngồi ra, luận án đề xuất phương pháp nén mạng học sâu hướng tới việc triển khai phần cứng FPGA, đồng thời thử nghiệm phương pháp với mạng học sâu VGG16-SSD phục vụ toán phát đối tượng Kết trình bày [CT6] − Đề xuất cải tiến mơ hình tái định danh dựa chuỗi hình ảnh có sử dụng biến thể mạng RNN cho việc tổng hợp đặc trưng mức chuỗi ảnh Xây dựng sở liệu phục vụ đánh giá đầy đủ pha hệ thống tái định danh bao gồm phát hiện, theo vết tái định danh người Các hình ảnh CSDL thu nhận trường Đại học Bách Khoa Nà Nội Kết công bố [CT1, 2, 3, 4, 5] Bố cục luận án Ngoài phần mở đầu phần kết luận, Luận án chia thành chương: − Chương 1: Trình bày nghiên cứu liên quan đến học sâu, mơ hình mạng học sâu tiêu biểu vấn đề trích chọn đặc trung sử dụng mơ hình học sâu, nghiên cứu liên quan đến toán phát hiện, theo vết tái định danh đối tượng ảnh sử dụng đặc trưng học sâu − Chương 2: Trình bày phương án cải tiến cho mạng ResNet50 nhằm nâng cao chất lượng đặc trưng ảnh cho tái định danh người cách khai thác thông tin ảnh cục − Chương 3: Đánh giá hiệu số biến thể mạng RNN cho việc trích chọn đặc trưng mức chuỗi ảnh Đề xuất cải tiến mơ hình tái định dựa chuỗi ảnh sử dụng biến thể mạng RNN − Chương 4: Đề xuất phương pháp nén mạng học sâu hướng tới việc triển khai mạng phần cứng FPGA CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 Trích chọn đặc trưng hình ảnh Nhiệm vụ trích chọn đặc trưng biến đổi liệu thô thành véc-tơ đặc trưng Đặc trưng phân chia thành hai nhóm dựa phương pháp trích chọn đặc trưng: (1) đặc trưng trích chọn thủ cơng (hand-crafted features) (2) đặc trưng trích chọn dựa mơ hình học sâu Nếu đặc trưng thủ cơng dựa chủ yếu vào tri thức kinh nghiệm nhà nghiên cứu, chuyên gia, đặc trưng học sâu trích chọn dựa vào mơ hình huấn luyện từ trước Các mơ hình thường huấn luyện tập sở liệu đủ lớn, đủ đa dạng để áp dụng vào toán Một số kiến trúc học sâu: (1) Mạng Nơ-ron học sâu - Deep neural networks (DNN); (2) Mạng Nơ-ron tích chập - Convolutional neural networks (CNN); (3) Deep belief networks - DBN ; (4) Mạng Nơ-ron hồi quy - Recurrent neural networks (RNN) 1.2 Một số kiến trúc mạng tích chập phổ biến Mạng tích chập kiến trúc mạng học sâu sử dụng nhiều lĩnh vực thị giác máy tính Các mạng tạo nên lớp mạng, lớp tích chập đóng vai trị quan trọng Cùng với nghiên cứu, mạng tích chập cải tiến với nhiều thay đổi khác kiến trúc để mang lại hiệu cao Theo đời kiến trúc mạng như: LeNet-5, AlexNet, VGG, GoogleNet, ResNet 1.3 Mạng Nơ-ron hồi quy Mạng Nơ-ron hồi quy (Recurent Neural Netwwork - RNN) thường sử dụng tốn để trích xuất thơng tin mang tính thời gian chuỗi liệu Ngồi mạng loại sử dụng nhiều tốn xử lý ngơn ngữ tự nhiên Các mạng Nơ-ron hồi quy đời với ý tưởng sử dụng nhớ để lưu lại thơng tin từ bước tính tốn xử lý trước để dựa vào đưa tính tốn, dự đốn xác cho bước dự đoán 1.4 Phát đối tượng ảnh sử dụng học sâu Các phát đối tượng dựa học sâu chia làm nhóm là: Loại giai đoạn (one-stage detector) loại hai giai đoạn (two-stage detector) - Bộ phát đối tượng hai giai đoạn (Fast R-CNN, Faster R-CNN): Lựa chọn vùng ứng viên (ROI) ảnh, sau phân loại vùng ứng viên sử dụng mạng CNN Việc dự đốn nhãn vị trí đối tượng ảnh thực hai bước độc lập - Bộ phát đối tượng hai giai đoạn (YOLO, SSD): dự đốn nhãn vị trí đối tượng toàn ảnh với lần chạy thuật toán 1.5 Theo vết đối tượng sử dụng học sâu Theo vết đối tượng làm nhiệm vụ kết nối vùng hình ảnh người khung hình liên thời gian Bài tốn theo vết đối tượng phân loại dựa khía cạnh khác nhau: a) Dựa vào số lượng đối tượng cần theo vết − Theo vết đối tượng video (Single Object Tracking - SOT) − Theo vết đồng thời nhiều đối tượng (Multiple Object Tracking - MOT) b) Dựa vào phương pháp theo vết − Tracking-based detection: dự đốn vị trí đối tượng khung hình thơng qua việc cập nhật vị trí đối tượng khung hình trước đó, gọi Generative trackers; ví dụ, lọc Kalman, lọc hạt (Particle filter), hay theo vết dựa kernel (kernel-based tracking) − Tracking-by-detection: Các vùng ảnh đối tượng phát khung hình, sau đó, vùng ảnh thuộc đối tượng kết nối với nhau, gọi Discriminative trackers, ví dụ: SORT DeepSORT 1.6 Bài tốn tái định danh người vấn đề liên quan Tái định danh người định nghĩa toán so khớp (matching) hình ảnh người người di chuyển mạng camera giám sát, đôi không chồng lấn trường quan sát Các nghiên cứu gần việc áp dụng kỹ thuật học sâu cho toán tái định danh tập chung vào việc cải tiến giải thuật trích chọn đặc trưng bao gồm đặc trưng mức ảnh đặc trưng mức chuỗi ảnh Dữ liệu, chiến lược huấn luyện có việc cải tiến hàm mát chiến lược kết hợp nhiều đặc trưng nghiên cứu Tuy nhiên, thách thức lớn toán nên đạt nhiều bước tiến hướng nghiên cứu quan tâm nhiều nhà khoa học 1.7 Nén mạng học sâu triển khai FGPA Triển khai mạng học sâu thường đòi hỏi nhiều tài nguyên phần cứng nhớ, khả tính toán lượng Điều làm cản trở việc triển khai thiết bị biên là: Raspberry, Jetson nano mạch logic FPGA Do yêu cầu đặt nén mạng Các kỹ thuật nén mạng nói chung chia làm loại cắt tỉa lượng tử hóa Tuy nhiên, việc tìm phương pháp nén mạng tối ưu lại trờ thành thách thức cho nhà nghiên cứu 1.8 Kết luận chương Dựa sở khảo sát tình hình nghiên cứu trình bày trên, tốn trích chọn đặc trưng đối tượng ảnh dựa học sâu không dừng lại việc sinh đặc trưng cho ảnh đầu vào tương ứng sử dụng mơ hình mạng học sâu mà cịn nhiều vấn đề liên quan cần phải giải CHƯƠNG TRÍCH CHỌN ĐẶC TRƯNG HỌC SÂU CỤC BỘ TRONG TÁI ĐỊNH DANH NGƯỜI 2.1 Đặt vấn đề Mơ hình chung để giải tốn tái định danh thể Hình 2.1 Sơ đồ áp dụng cho tái định danh sử dụng đơn hình ảnh sử dụng đa hình ảnh Trong phần trích chọn đặc trưng, đặc trưng mức ảnh trích chọn cho tồn Đơn ảnh Chuỗi ảnh Trính đặc trưng mức ảnh Trích đặc trưng mức chuỗi ảnh Tập truy vấn Đơn ảnh Học độ đo Kết hợp muộn Chuỗi ảnh Trính đặc trưng mức ảnh So khớp xếp hạng Kết truy vấn Trích đặc trưng mức chuỗi ảnh Tập tìm kiếm Phần trích chọn đặc trưng Phần so khớp đặc trưng Hình 2.1 Mơ hình chung cho tốn tái định danh ảnh tập truy vấn tập tìm kiếm Các đặc trưng đặc trưng thủ công như: GOG, LOMO đặc trưng học sâu như: ResNet-50 Đối với trường hợp tái định danh sử dụng đơn hình ảnh, đặc trưng chuyển sang phần so khớp Ngược lại, tái định danh sử dụng đa hình ảnh đặc trưng mức ảnh người cho qua tổng hợp đặc trưng mức chuỗi ảnh nhằm tạo đặc trưng chuỗi hình ảnh Trong phần so khớp, giải thuật học khoảng cách giải thuật XQDA sử dụng nhằm ánh xạ véc-tơ đặc trưng sang khơng gian có khả phân biệt tốt đối tượng khác Các đặc trưng sử dụng độc lập kết hợp thông qua sơ đồ kết hợp muộn với nhiều sơ đồ khác bao gồm kết hợp với ngưỡng thích nghi Cuối cùng, khối so khớp xếp hạng có nhiệm vụ đưa kết dự đốn Các mạng tích chập (CNN) thơng thường làm việc với đặc trưng tồn cục ảnh Điều làm đặc trưng cục hình ảnh người cho tốn tái định danh có phận phân bố theo chiều dọc ảnh Do cần có thay đổi để phát huy đặc trưng cục sử dụng mạng học sâu 2.2 Phương pháp đề xuất 2.2.1 Cải tiến mạng RestNet-50 cho việc trích chọn đặc trưng ảnh người Biến thể ResNet-50 mạng ResNet [8] kiến trúc mạng học sâu phổ biến thị giác máy tính nhiều lĩnh vực khác Trong mơ hình tái định danh đề xuất trên, mạng ResNet-50 áp dụng cho để trích chọn đặc trưng mức ảnh người Nhận thấy rằng, phận người ảnh phân bố theo chiều dọc ảnh như: đầu, cổ, vai, thân trên, Trong việc lấy giá trị trung bình giá trị đồ đặc trưng (Feature map) tầng "AVG pool"của ResNet-50 làm đặc trưng vùng thể Do đó, luận án đề xuất trích chọn đặc trưng nhiều vùng ảnh riêng biệt phân theo chiều dọc Số lượng vùng thay đổi tùy thuộc vào đối tượng quan tâm Trong trường hợp vùng Cách thức thực thể Hình 2.2 Nhằm giảm chi phí tính tốn mà không thay đổi chất phương pháp đề xuất, lớp gộp (AVG-pool) kích thước cửa sổ 7x7 cuối lớp gộp với kích thước cửa sổ 1x7 2048x7x1 2048x7x7 Block 1024x14x14 Block 512x28x28 Block 256x56x56 Block Block 64x112x112 AVG pool (1,7) Hình 2.2 Trích đặc trưng sử dụng mạng ResNet-50 áp dụng chiến lược chia vùng ảnh Lớp gộp kích thước 1x7 tổng hợp đồ đặc trưng lớp phía trước (7x7x2048) để thu đồ đặc trưng kích thước 7x1x2048 tương ứng với véc-tơ đặc trưng vùng ảnh Sau đó, véc-tơ 2048 chiều ghép nối với để tạo nên véc-tơ đặc trưng (ResNet50-7Stripes) biểu diễn ảnh người với kích thước 2048 × = 14, 336 thay 2, 048 mạng gốc Hoặc véc-tơ sử dụng cách độc lập Lúc cần sử dụng thêm độ đo khoảng cách hai tập đặc trưng cục 2.2.2 Kết hợp đặc theo chiến lược kết hợp muộn Mỗi loại đặc trưng có ưu nhược điểm riêng, mơ tả hiệu sở liệu lại không hiệu sở liệu khác Luận án đề xuất áp dụng chiến lược kết hợp muộn đặc trưng ResNet50-7Stripes với số trưng khác dựa quy tắc nhân quy tắc cộng mô tả công thức (2.1) (2.2) Kết hợp muộn dựa quy tắc nhân Similarity(Q, I j ) = N Y (i) simQ,I j ωQ(i) , với N X i=1 i=1 (i) ωQ = (2.1) Kết hợp muộn dựa quy tắc cộng j Similarity(Q, I ) = N X (i) simQ,I j × (i) ωQ , với i=1 N X (i) ωQ = (2.2) i=1 Similarity(Q, I j ) độ đo tương tự giữ người cần truy vấn Q người tập tìm (i) kiếm I j , simQ,I j độ đo hai người ứng với đặc trưng i, N = số đặc trưng (i) xét, wQ trọng số đặc trưng i tương ứng với người truy vấn Q Để đánh giá hiệu phương pháp đề xuất với chiến lược kết hợp đặc trưng khác nhau, nghiên (i) cứu này, wQ xác định theo hai cách Cách thứ nhất, đặc trưng gán trọng (i) (i) số nhau, có nghĩa wQ = 1/N Cách thứ hai, wQ xác định thích nghi theo ảnh truy vấn đầu vào dự nghiên cứu Zheng cộng [28] 2.2.3 Tính khoảng cách hai tập đặc trưng cục độ đo EMD Việc nối đặc trưng cục vùng ảnh làm cho việc đối sánh đặc trưng hai ảnh trở nên không rõ ràng chưa làm rõ vùng ảnh ảnh truy vấn thực khớp với vùng ảnh ảnh tìm kiếm Do thay việc nối đặc trưng cục vùng ảnh lại với sử dụng chúng độc lập coi chúng tập hợp đặc trưng Dựa sở nghiên cứu [17], nghiên cứu sinh đề suất thay khoảng cách DMLI khoảng cách EMD [22] cho việc tính khoảng cách hai tập véc-tơ đặc trưng cục hai ảnh Khoảng cách dl chúng mơ tả Hình 2.3 cơng thức 2.3 Chi phí tính tốn khoảng cách EMD nhỏ DMLI Hình 2.3 Một ví dụ việc tính toán khoảng cách EMD hai tập đặc trưng cục hai ảnh người dl (Q, I) = H X H X i=1 j=1 dij fij (2.3) dij khoảng cách Euclide chuẩn hóa đoạn [0 1] đặc trưng cục thứ i ảnh Q với đặc trưng cục thứ j ảnh I fij đại lượng học trình huấn luyện Cuối hai hàm mát softmax triplet sử dụng để huấn luyện mạng Cụ thể, giá trị mát L tính tốn theo công thức L = LID + LgT + LlT , (2.4) đó, LID giá trị mát theo định danh (ID) đối tượng sử dụng hàm mát softmax, LgT , LlT hai giá trị mát theo hàm mát triplet tương ứng với hai nhánh cục toàn cục mạng 2.3 2.3.1 Thử nghiệm kết Cơ sở liệu cho toán tái định danh Các thử nghiệm thực CSDL VIPeR [7], PRID-2011 [9], iLIDS-VID [24], Market1501-Partial DukeMTMCReID-Partial [17] Kết tái định danh thể đường cong CMC (Cummulative Matching Characteristic) bảng xếp hạng Mỗi giá trị đường cong CMC thể tỷ lệ so khớp thứ hạng (rank) 2.3.2 Đánh giá hiệu đặc trưng cục với chiến lược nối đơn giản Phần tập chung làm bật hiệu đặc trưng cục thu mạng ResNet-50 cải tiến CSDL cho toán tái định danh là: VIPER , PRID2011 iLIDS-VID - ResNet50/ResNet50-7Stripes: đặc trưng trích chọn dựa mạng ResNet-50 gốc/ ResNet-50 cải tiến, sử dụng trọng số tiền huấn luyện (pre-trained) liệu ImageNet - ResNet50-TP/ResNet50-TP7Stripes: đặc trưng trích xuất dựa mạng ResNet50 gốc/ ResNet-50 cải tiến với trọng số hiệu chỉnh lại sở liệu PRID-2011 theo [6] Bảng 2.1 Kết so khớp sử dụng đặc trưng ResNet sở liệu VIPER ResNet50 (gốc) ResNet50-7Stripes ResNet50-TP ResNet50-TP7Stripes R=1 7.15 15.57 18.51 28.16 R=5 21.55 36.08 41.96 56.08 VIPER R=10 R=15 31.46 38.64 48.64 56.08 55.06 62.78 69.02 75.79 R=20 43.48 62.50 69.02 80.70 Bảng 2.1 hiển thị tỷ lệ so khớp số thứ hạng quan trọng (1, 5, 10, 20) thực thử nghiệm hai sở liệu VIPeR Bảng 2.2 đưa tỷ lệ so khớp số thứ hạng(1, 5, 10, 20) thực thử nghiệm hai sở liệu PRID-2011 iLIDS-VID Đặc trưng trích chọn theo phương pháp đề xuất ResNet50-7Stripes ResNet50-TP7Stripes đạt kết tốt so với đặc trưng ResNet50 ResNet50-TP trích chọn theo mơ hình gốc Điều cho thấy thơng tin cục theo vùng đóng vai trị quan trọng mô tả ảnh người DMLI chí có phần nhỉnh việc tính tốn đơn giản CHƯƠNG KHAI THÁC ĐẶC TRƯNG VIDEO DỰA TRÊN MẠNG NƠ-RON HỒI QUY TÁI ĐỊNH DANH NGƯỜI 3.1 Đặt vấn đề Trong thực tế, hệ thống thị giác máy tính thường thu nhận nhiều hình ảnh đối tượng cần quan sát Nhận thấy rằng, chuỗi hình ảnh chuỗi hình ảnh xếp theo thời gian thu nhận mang lại nhiều thông tin hình ảnh đơn lẻ Khi đó, ngồi thơng tin mặt không gian ảnh đơn lẻ chúng cịn chứa thơng tin theo chiều thời gian Sử dụng mạng Nơ-ron hồi quy (Recurrent Neural Networks) cho việc khai thác thơng tin mức chuỗi hình ảnh quan tâm Điển hình nghiên cứu [19, 25, 16] Mục tiêu chương tìm phương pháp vận dụng mạng RNN để khai thác đặc trưng mức chuỗi ảnh nhằm nâng cao hiệu mơ hình cho tốn tái định danh người Ngoài ra, chất lượng chuỗi hình ảnh người ảnh hưởng nhiều đến chất lượng đặc trưng thu nhận Do bước phát theo vết đối tượng nghiên cứu đánh giá chương sở xây dựng CSDL đáp ứng hết yêu cầu đánh giá hệ thống tái định danh thực 3.2 3.2.1 Một số kiến trúc mạng Nơ-ron hồi quy phổ biến Recurrent Neural Network (RNN) Mạng Nơ-ron hồi quy (RNN - recurrent neural networks) mạng Nơ-ron truyền đạt với vịng lặp Trong đơn vị xử lý (nút) thực lặp lại nhiều lần Hình 3.1 mô tả mạng RNN trải Đầu vào chuỗi X = (x1 , x2 , , xT ), Woh Woh Trải Whh Woh Whh Woh Whh Whh Whh Whx Whx Whx Whx Hình 3.1 Cấu trúc nút mạng RNN xt véc-tơ Ứng với thời điểm (tương ứng với nút), RNN cập nhật trạng thái ẩn (h1 , h2 , , hT ) đồng thời trả kết đầu O = (o1 , o2 , , oT ) Hàm truyền đạt RNN thời điểm t diễn tả sau: ht = tanh(Whx xt + Whh ht−1 + bh ) ot = tanh(Woh ht + bo ) 11 (3.1) 3.2.2 Long Short-term Memory (LSTM) LSTM [10] đề xuất nhằm hạn chế suy hao thông tin từ nút (đơn vị xử lý) phía trước chúng chuyển qua nút xa phía sau RNN Mỗi nút mạng LSTM bổ sung cổng (gate) có thêm trạng thái ẩn (cell state) làm việc phần tử nhớ (Hình 3.2) So với RNN, mạng LSTM học đặc trưng ot-1 ot Ot+1 ht Ct-1 Ct ft it gt ot ht ht-1 Xt-1 Xt Xt+1 Hình 3.2 Cấu trúc nút mạng LSTM tạm thời có chọn lọc hơn, có khả nhớ tốt so với RNN 3.2.3 Long Short-term Memory với cặp cổng (LSTMC) LSTMC cải tiến LSTM Trong tích hợp hai cổng quên (f ) cổng vào (i) thành cổng gọi cặp cổng (Couple gate) Số lượng tham số kiến trúc LSTMC giảm so với kiến trúc gốc Với ý tưởng thay thông tin bị loại bỏ thông tin khác 3.2.4 Long Short-term Memory với kết nối Peephole (LSTMP) LSTMP giới thiệu bới Gers Schmidhuber vào năm 2000 Sự khác biệt so với phiên gốc việc thêm vào kết nối lỗ nhìn (Peephole Connections) Việc thêm vào kết nối đầu vào cổng làm cho LSTMP trở lên phức tạp hơn, chứa nhiều tham số 3.2.5 Gated Recurrent Unit (GRU) GRU biến thể coi khác biệt so với LSTM nguyên Không cổng quên f cổng vào i gộp lại thành mà trạng thái ô trạng thái ẩn gộp lại Điều làm cho kiến trúc GRU trở lên đơn giản giữ khả lưu giữ thông tin tạm thời 3.3 Đánh giá hiệu mạng Nơ-ron hồi quy cho tốn tái định danh sử dụng chuỗi hình ảnh Trên sở mơ hình RFA (Recurrent Feature Aggregation Network) [25] Mơ hình tương tự với mơ hình tổng qt cho tốn tái định danh thể Hình 2.1 Trong đó, kiến trúc LSTM thay biến thể khác RNN Các thử nghiệm thực hai CSDL PRID-2011 iLIDS-VID nhằm tìm kiết trúc RNN hiệu Độ đo tương đồng Cosine sử dụng để so khớp đặc trưng (Hình 3.3) 12 Đặc trưng mức ảnh LSTM Nối Chuỗi ảnh truy vấn LSTM LSTM So khớp Đặc trưng mức ảnh Nối Chuỗi ảnh tập tìm kiếm LSTM LSTM LSTM Trích đặc trưng mức ảnh Trích đặc trưng mức chuỗi ảnh So khớp cặp đặc trưng Hình 3.3 Mơ hình thử nghiệm tái định danh sử dụng chuỗi hình ảnh Bước Trích đặc trưng mức ảnh: Đặc trưng LBP&Color trích chọn tất ảnh (đặc trưng mức ảnh) cho tập huấn luyện kiểm thử Bước Trích đặc trưng mức chuỗi ảnh: kiến trúc RNN, LSTM, LSTMP, LSTMC GRU áp dụng để trích đặc trưng mức chuỗi hình ảnh từ 10 véc-tơ đặc trưng mức ảnh tương ứng cách ghép nối tất 10 đầu mạng Nơ-ron hồi quy để tạo véc-tơ 5120 chiều Bước So khớp cặp đặc trưng: Độ đo tương đồng Cosine theo Công thức 3.2 sử dụng để xác định tương đồng véc-tơ đặc trưng Siq Sjg dij = kSiq kkSig k (3.2) Trong Siq Sjg hai vector đặc trưng mức chuỗi ảnh người thứ i tập truy vấn (Probe) người j tập tìm kiếm (Gallery) Với thử nghiệm, mơ hình huấn luyện tập huấn luyện Chiến lược dừng sớm áp dụng để tránh tượng khớp (over fitting) Tất thử nghiệm triển khai máy tính với CPU Intel® Xeon E3-1245 v5, GPU NVIDIA Titan X GPU Bảng 3.1 So sánh kết dùng kiến trúc mạng Nơ-ron hồi quy khác CSDL Độ xác % RNN GRU LSTMC LSTM LSTMP Hạng 34.4 48.4 46.2 44.5 45.7 iLIDS-VID Hạng Hạng 10 64.8 76.8 74.3 83.0 72.2 81.4 71.9 82.0 71.8 81.9 Hạng 20 87.5 91.3 90.3 90.1 90.2 Hạng 44.0 59.2 53.8 54.9 54.1 PRID-2011 Hạng Hạng 10 76.1 88.7 87.2 95.3 81.5 92.6 84.2 93.7 81.8 91.5 Hạng 20 96.2 98.8 97.8 98.4 97.8 Kết thử nghiệm với biến thể mạng Nơ-ron hồi quy tổng hợp bảng (3.1 3.2) Số lượng tham số kiến trúc RNN nhỏ cho độ xác thấp Kiến trúc LSTM biến thể đem lại độ xác tương 13 Bảng 3.2 So sánh thời gian thực thi Kiến trúc Số lượng tham số RNN GRU LSTMC LSTM LSTMP 30.707.712 91.073.024 91.335.168 121.780.224 122.566.656 Thời gian huấn luyện (ms/iter) Batch =1 Batch =8 Batch=16 12,784 54,029 103,963 27,778 65,187 121,961 28,001 66,245 124,772 36,694 69,664 132,197 37,977 71,861 134,724 Thời gian kiểm tra(ms/seq) 6,643 7,265 7,354 8,462 9,629 tự Kiến trúc GRU cho kết tốt toàn hạng hai tập liệu kiến trúc phức tạp 3.4 Cải thiện đặc trưng mức chuỗi ảnh với mạng VGG16 kiến trúc GRU Các thực nghiệm phần cho thấy hiệu kiến trúc GRU so với biến thể khác việc tạo Tuy nhiên, đặc trưng (LBP&Color) lại hạn chế Đề xuất sử dụng đặc trưng học sâu từ mạng VGG16 Các thử nghiệm hướng tới đến hai mục tiêu: (1) So sánh hiệu chiến lược tổng hợp (thay phép nối) theo thời gian; (2) Chứng hiệu đặc trưng mức ảnh sử dụng mạng VGG16 Bảng 3.3 thể kết thử nghiệm mơ hình đề xuất với chiến lược tổng hợp đặc trưng khác mức chuỗi ảnh từ đầu mạng GRU TP Mean, TP Max Concat biểu thị chiến lược lấy giá trị trung bình, giá trị lớn ghép nối Trong đó, chiến lược lấy trưng bình mang lại kết nhỉnh kích thước véc-tơ đặc trưng nhỏ so với chiến lược nối Bảng 3.4 so sánh kết đật với nghiên cứu khác Đối với tập liệu nhiều thách Bảng 3.3 So sánh hiệu suất mơ hình đề xuất áp dụng chiến lược gộp theo thời gian khác Dataset CMC Rank VGG-GRU+TP Mean VGG-GRU+TP Max VGG-GRU+Concat iLIDS-VID 49.8 49.1 49.8 77.4 76.8 77.4 10 PRID-2011 20 86.5 93.5 86.3 93.4 86.5 93.4 75.1 93.7 74.6 93.5 74.3 93.5 10 20 97.5 97.7 97.5 99.5 99.5 99.5 iLIDS-VID, độ xác hạng tăng nhẹ (0,5%) so với kiến trúc gốc có hai ưu Một là, kích thước véc-tơ đặc trưng mức chuỗi ảnh mơ hình đề xuất nhỏ 10 lần (do lấy trung bình) Hai là, mơ hình đề xuất dùng độ đo tương đồng Cosine đơn giản nhiều so với giải thuật học độ đo khoảng cách RankSVM [1] Sự chênh lệch hiệu suất mở rộng tập liệu đơn giản (PRID-2011) Bảng 3.4 So sánh hiệu mơ hình đề xuất với nghiên cứu khác Dataset CMC Rank VGG-GRU+TP Mean LBP&Color+RFA-Net+RankSVM [25] LBP&Color+RFA-Net+Cosine [25] STFV3D+KISSME [12] iLIDS-VID 10 PRID-2011 20 49.8 77.4 86.5 93.5 49.3 76.8 85.3 90.0 44.5 71.9 82.0 90.1 44.3 71.7 83.7 91.7 14 10 20 75.1 93.7 97.5 99.5 58.2 85.8 93.4 97.9 54.9 84.2 93.7 98.4 64.1 87.3 89.9 92.0 3.5 Nâng cao hiệu mơ hình đặc trưng thủ cơng (GOG) kết hợp sử dụng thuật tốn học độ đo khoảng cách Đặc trưng thủ công mức ảnh mơ hình RFA thay đặc trưng thủ công GOG Biến thể LSTM áp dụng với chiến lược nối liệu đầu để tổng hợp đặc trưng mức chuỗi ảnh Cuối áp dụng giải thuật tối ưu độ đo khoảng cách XQDA [15] cho giai đoạn so khớp đặc trưng Hình 3.4 thể kết thu Dễ thấy, việc thay đặc trưng LBP&Color đặc trưng GOG đem lại hiệu cao việc thay giải thuật học độ đo khoảng cách RankSVM XQDA CSDL PRID-2011 Tuy nhiên, phương pháp đề xuất tăng mạnh CSDL PRID-2011 tăng nhẹ CSDL iLIDS-VID Bảng 3.5 so sánh phương pháp đề xuất với phương pháp khác 0 M a tc h in g r a te ( % ) 6 4 % % % % L B P L B P G O G O - C o lo - C o lo G + R G + X Q r + R a n k S V M r + X Q D A a n k S V M D A R a n k (a) PRID- 2011 (b) iLIDS-VID Hình 3.4 Kết thử nghiệm với mơ hình đề xuất Bảng 3.5 So sánh kết phương pháp đề xuất số phương pháp khác CSDL PRID-2011 iLIDS-VID Phương pháp TAPR [5] RNN [19] DFCP [14] TDL [26] RFA-Net [25] Ours 3.6 Hạng 68.6 70.0 51.6 56.7 53.6 70.4 PRID 2011 Hạng Hạng 10 94.6 97.4 90.0 95.0 83.1 91.0 80 87.6 82.9 92.8 93.4 97.6 Hạng 20 98.9 97.0 95.5 93.6 97.9 99.3 Hạng 55.0 58.0 34.5 56.3 41.6 42.7 iLIDS-VID Hạng Hạng 10 87.5 93.8 84.0 91.0 63.3 74.5 87.6 95.6 69.7 80.2 73.6 84.7 Hạng 20 97.2 96.0 84.4 98.3 89.2 93.3 Triển khai đánh giá hệ thống tái định danh Một hệ thống thị giác máy tính thực tế bao gồm nhiều giai đoạn thực Mỗi kết khâu trước ảnh hưởng đến kết giai đoạn kế tiếp, hệ thống tái định danh Nó gồm ba khâu bản: phát hiện, theo vết tái định danh Trong chương này, tác giả hướng tới hệ thống tái định danh với giai đoạn để có nhìn đầy đủ áp dụng kỹ thuật học sâu cho tốn thị giác máy tính Ngoài tác giả tiến hành thu thập xây dựng sở liệu hình ảnh để phục vụ cho thử nghiệm 15 3.6.1 Mô tả hệ thống Một hệ thống tái định danh mơ tả hình 3.5 Camera So khớp Camera Thu nhận hình ảnh Phát người Theo vết người Tái định danh Hình 3.5 Phương pháp đề xuất cho hệ thống tái định danh hoàn tồn tự động Mục đích chương đánh giá hiệu tổng thể toàn hệ thống cơng đoạn thực hồn tồn tự động Đối với công đoạn phát hiện, hai số phương pháp phát đối tượng đánh giá hiệu phổ biến YOLOv3 Mask R-CNN để xuất sử dụng Bên cạnh đó, DeepSORT với ưu điểm vượt trội đề xuất cho công đoạn theo vết đối tượng Cuối cùng, mô hình tái định danh với mạng ResNet50 cải tiến (đã trình bày Chương 2) áp dụng cho cơng đoạn tái định danh 3.6.2 Xây dựng sở liệu FAPR Trên thực tế, sở liệu dùng chung có thường xây dựng riêng cho toán Với toán phát đối tượng sử dụng CSDL như: ImageNet, COCO, Với tốn theo vết đối tượng sử dụng CSDL MOT Với toán tái định danh có VIPeR, PRID-2011, Tuy nhiên, khó để tìm thấy sở liệu xây dựng để dùng chung cho tốn CSDL xây dựng nước Do đó, việc xây dựng CSDL đáp ứng yêu cầu cần thiết CSDL Fully Automated Person ReID (FAPR) gồm 15 videos phân tách thành ảnh thu thập ba ngày với hai camera tĩnh có vùng quan sát khơng chồng lấn Độ phân giải ảnh thu nhận Full HD (1920 × 1080), tốc độ thu hình 20 khung hình/s (fps) hai môi trường nhà (Indoor) trời (Outdoor) Các nhãn CSDL gán tay với số mô tả phần sở liệu thể Bảng 3.6 Bảng 3.6 6/12 video nhãn sở liệu FAPR Tên video 20191105_indoor_left 20191105_indoor_right 20191105_indoor_cross 20191105_outdoor_left 20191105_outdoor_right 20191105_outdoor_cross #Số lượng ảnh 947 474 1447 765 470 1009 #Số lượng BB 1502 1119 3087 1565 1119 2620 #BB/Ảnh 1.59 2.36 2.13 2.05 2.38 2.60 #IDs 10 10 10 11 10 #Tracklets 11 10 21 11 11 17 Cơ sở liệu FAPR hội tụ nhiều thách thức tiêu chuẩn cho toán đặt Cụ thể là: Có thay đổi lớn điều kiện chiếu sáng nhà ngồi trời (indoor outdoor); 16 kích thước, góc nhìn vùng ảnh người biến động lớn trình di chuyển; liệu thu nhận từ camera khơng có chồng lấn trường quan sát; che lấp xuất với nhiều mức độ khác (hard easy); người di chuyển theo hướng khác từ trái, từ phải từ hai phía (left, right, cross) Q trình gán nhãn thực thông qua việc sử dụng phần mềm LabelImg Cuối ta có tập CSDL với 11.876 khung hình chia làm 15 tập nhỏ tương ứng với 15 video Trong có 28.567 vùng ảnh chứa người (BB - Bounding Box) gán đánh dấu gán định danh ứng với 181 chuỗi hình ảnh (Tracklets) định danh (ID) 3.6.3 Đánh giá phần phát theo vết người CSDL FAPR Để đánh giá hiệu việc kết hợp phương pháp phát theo vết khác nhau, YOLOv3 Mask R-CNN đề xuất cho bước phát đối tượng, DeepSORT sử dụng cho bước theo vết Bảng 3.7 3.8 mô tả kết áp dụng YOLOV3 Dễ thấy Prcn Rcll có biến đổi lớn video Điều chứng tỏ khác biệt lớn thách thức video Hình 3.6 mơ tả số ví dụ kết thu bước phát theo vết đối tượng Bảng 3.7 Kết phát người sở liệu FAPR sử dụng phát YOLOv3 Videos indoor outdoor_easy outdoor_hard 20191104_indoor_left 20191104_indoor_right 20191104_indoor_cross 20191104_outdoor_left 20191104_outdoor_right 20191104_outdoor_cross FP↓ 80 70 533 164 118 142 249 203 213 FN↓ 51 65 460 215 188 244 160 197 134 Đánh giá khâu phát (1) Rcll(%)↑ Prcn(%)↑ F1-score(%)↑ 95.6 93.2 94.4 97.5 97.3 97.4 93.0 92.0 92.5 83.3 86.7 85.0 85.2 90.1 87.6 76.9 85.1 80.8 88.0 82.5 85.2 86.0 85.6 85.8 85.7 79.1 82.3 Bảng 3.8 Kết theo vết người sở liệu FAPR sử dụng phát YOLOv3 theo vết DeepSORT Videos indoor outdoor_easy outdoor_hard 20191104_indoor_left 20191104_indoor_right 20191104_indoor_cross 20191104_outdoor_left 20191104_outdoor_right 20191104_outdoor_cross 3.6.4 GT 7 20 10 13 10 10 11 12 MT↑ 7 19 8 8 PT↑ 0 ML↓ 0 0 1 IDF1(%)↑ 91.5 74.5 78.0 83.8 79.6 68.0 73.5 70.6 71.9 Đánh giá khâu theo vết (2) IDP(%)↑ IDR(%)↑ IDs↓ 90.4 92.7 74.4 74.6 77.6 78.4 30 85.5 82.1 81.9 77.4 71.6 64.7 12 71.2 76.0 10 70.5 70.8 17 69.2 75.0 14 FM↓ 11 16 67 24 16 29 48 45 33 MOTA(%)↑ 88.0 94.5 84.4 70.0 75.1 62.3 68.6 70.3 61.6 MOTP↓ 0.26 0.21 0.28 0.34 0.30 0.29 0.33 0.29 0.30 Đánh giá phần tái định danh CSDL FAPR Đặc trưng ResNet50_7stripe sử dụng cho bước biểu diễn ảnh người Đặc trưng mức chuỗi ảnh cho tất ảnh quỹ đạo di chuyển người (tracklet) thu cách lấy trung bình đặc trưng mức ảnh Đô đo Cosine dùng để so khớp đặc trưng 12/15 video sử dụng, nửa số video thu thập ngày (Bảng 3.9) với hai camera cố định lắp đặt hai mơi trường: phịng ngồi trời Các ngữ cảnh đề cập tới thử nghiệm gồm ba tình khác nhau: (1) người chuyển động từ trái qua phải, (2) chuyển động từ phải qua trái (3) 17 (a) (b) (c) Hình 3.6 Ví dụ kết thu bước theo vết a) Bị chuyển đổi ID, b) tracklet có vài bounding box, c) tracklet tốt chuyển động theo hai hướng có che khuất (4) trộn tồn liệu ngữ cảnh Bảng 3.9 Kết tái định danh (%) hạng thứ FAPR Ngữ cảnh 3.7 Tập truy vấn 20191105_indoor_left 20191105_indoor_right 20191105_indoor_cross 20191105_indoor_all Tập tìm kiếm 20191105_outdoor_left 20191105_outdoor_right 20191105_outdoor_cross 20191105_outdoor_all Tỷ lệ so khớp (%) 100.00 75.00 57.14 78.57 Kết luận chương Các kết thử nghiệm cho thấy kiến GRU tỏ hiệu so với biến thể khác RNN Tuy nhiên so với LSTM vượt trội khơng q khác biệt Đặc trưng học sâu mức ảnh VGG16 đặc trưng thủ công GOG mang lại hiệu tốt đặc trưng LBP&Color Khi áp dụng thêm giải thuật học độ đo XQDA, hiệu mơ hình tăng mạnh CSDL PRID-2011 tăng nhẹ CSDL iLIDS-VID CSDL FAPR dây dựng sử dụng để đánh giá hiệu hệ thống tái định danh đầy đủ bước thực tế Kết thử nghiệm CSDL phù hợp với kết thử nghiệm CSDL phổ biến khác CHƯƠNG NÉN MẠNG HỌC SÂU ĐỊNH HƯỚNG TRIỂN KHAI TRÊN PHẦN CỨNG - FPGA 4.1 Đặt vấn đề Những nghiên cứu gần mạng Nơ-ron học sâu (Deep Neural Networks - DNN) đem lại hiệu cao việc nghiên cứu ứng dụng thị giác máy tính, xử lý ngơn ngữ tự nhiên nhiều lĩnh vực khác Tuy nhiên, với hiệu suất vượt trội DNN đòi hỏi cao chi phí phần cứng máy tính Những chi phí thời gian tính tốn, chi phí nhớ có xu hướng ngày tăng Ví dụ mơ hình mạng học sâu VGG-19 [23] yêu cầu chi phí tính tốn lên đến 19,6 tỷ FLOP u cầu nhớ để lưu trữ mơ hình lên đến 549 MB 18 để xử lý hình ảnh 224 × 224 ResNet-152 [8] cần tới 231 MB nhớ 11,3 tỷ FLOP Trong thực tế, việc triển khai nhiều ứng dụng thị giác máy tính dựa tảng học sâu đòi hỏi đầu tư xử lý đồ họa chuyên dụng (GPU) với hệ thống máy tính tương thích Điều dẫn đến việc chúng có kích thước lớn chi phí mặt lượng cao dẫn đến cản trở triển khai ứng dụng có tính di động cạo như: Xe tự hành, thiết bị bay không người lái (UAV), Một số giải pháp sử dụng thiết bị biên Raspberry pi, Jetson FPGA đề xuất áp dụng Tuy nhiên việc triển khai mô hình mạng CNN mơ hình với kích thước mạng lớn lên thiết bị biên có FPGA có nhiều thách thức 4.2 4.2.1 Phương pháp đề xuất Nhị phân hóa giá trị trọng số Khi giá trị trọng số nhị phân hóa, chúng chuyển đổi thành giá trị +1 −1 [21] Q trình nhị phân hóa trọng số diễn tả công thức 4.1 I ∗ W ≈ (I ⊕ Wb )α (4.1) ⊕ biểu thị tích chập khơng có phép nhân, I giá trị kích hoạt từ lớp trước liệu đầu vào, W trọng số lọc với giá trị thực, Wb trọng số lọc với hai giá trị +1 −1 α gọi hệ số tỷ lệ (là số thực) Theo [21], giá trị tối ưu hệ số tỷ lệ α trị tuyệt đối giá trị trung bình trọng số 4.2.2 Lượng tử hóa giá trị trọng số giá trị kích hoạt tương ứng với lớp mạng Nếu áp dụng phương pháp nhị phân hóa trọng số tất tầng mạng dẫn đến độ xác mạng bị giảm mạnh Do đó, lượng tử hóa trọng số với nhiều bít triển khai số lớp quan trọng Q trình diễn tả cơng thức 4.2 qmax = s × (2n−1 − 0.5), p(x) = s × (round( xs + 0.5) − 0.5), qmax , if p(x) ≥ qmax q(x) = −qmax , if p(x) ≤ −qmax p(x), otherwise (4.2) Trong đó, [−qmax , qmax ] giới hạn miền giá trị lượng tử hóa, n số bít lượng tử s giá trị bước nhảy, x giá trị thực, p(x) giá trị lượng tử tương ứng với giá trị thực x Phạm vi lượng tử hóa từ −qmax đến qmax xác định cách phân tích mật độ phân bố giá trị lớp mạng cho tổng số lượng giá trị nằm miền chiếm xấp xỉ 90% tổng số lượng giá trị Phân bố tn theo đồ thị hình chng kết việc chuẩn hóa (norm) mạng tích chập hình 4.1 Độ rộng bít n lựa chọn dựa số lượng tham số vai trò lớp mạng Cuối cùng, kích thước bước nhảy tính tốn dựa vào cơng thức 4.2 biết qmax 19 Số lượng giá trị Đỉnh 90% -qmax -qmax+s qmax-s qmax Giá trị Hình 4.1 Biểu đồ phân bố giá trị trọng số giá trị kích hoạt số bít lượng tử n 4.2.3 Kiến trúc luồng tăng tốc mạng tích chập 37 Sử dụng kiến trúc luồng kết hợp với kỹ thuật tối ưu hóa phần cứng để tái sử dụng tối đa đồ đặc trưng đầu vào nhằm giảm thêm băng thơng nhớ thể hình 4.2 Kiến trúc bao gồm khối xử lý phần cứng riêng biệt cho lớp mơ Hình 4.2 Kiến trúc luồng cho tăng tốc mạng tích chập hình tích chập Tất khối kết nối xử lý theo phương pháp đường ống lệnh (Pipelining) Các đồ đặc trưng đầu vào giá trị trọng số sau nhị phân hóa lượng tử hóa lưu trữ hoàn toàn khối RAM FPGA Các liệu xử lý song song thông qua phần tử xử lý (PE) lớp Mỗi PE chứa khối riêng biệt thực nhiệm vụ khác lớp 4.2.4 Tính tốn tài ngun phần cứng Tính tốn nhớ cần thiết theo công thức 4.3 M EMsize L X = [(ki + si ) × Ci × Wi × Qai + NWi × QW i ] (4.3) i ki kích thước lọc thứ i mạng (kernel size), si bước nhảy (stride), Ci chiều sâu dưa liệu đầu vào thứ i (input channel), Wi độ rộng đồ đặc trưng thứ i Qai độ rộng bít giá trị đồ đặc trưng NWi số lượng trọng số QWi độ rộng bít giá trị trọng số 20 Tính tốn số lượng DSP cần thiết theo cơng thức 4.4: NDSP = L X (NPi E × NPi Emul + NPi E ) (4.4) i NPi E số lượng PE (Processing Element) lớp, NPi Emul số lượng nhân bít cao PE Chú ý rằng, lớp nhị phân hóa hồn tồn số lượng NPi Emul bới khơng cần nhân Nếu NDSP lớn số lượng khối DSP bảng mạch FPGA, số lượng PEs lớp cần phải giảm xuống cho số lượng DSP cần thiết không vượt khả bảng mạch FPGA 4.3 Thử nghiệm kết 4.3.1 Mạng học sâu VGG16-SSD toán phát đối tượng ảnh Kiến trúc mạng VGG16-SSD thể hình 4.3 với thành phần chính: Phần phần sở (hình 4.3.a) Phần gần giữ nguyên kiến trúc mạng VGG16 Conv_11_2 (3x3) Conv_11_1 (1x1) Conv_10_2 (3x3) Conv_10_1 (1x1) Conv_9_2 (3x3) Conv_9_1 (1x1) Conv_8_2 (3x3) Conv_8_1 (1x1) Conv_7 (1x1) Conv_6 (3x3) max-pool 2x2 Conv_5_3 (3x3) Conv_5_2 (3x3) max-pool 2x2 Conv_5_1 (3x3) Conv_4_3 (3x3) Conv_4_2 (3x3) Conv_4_1 (3x3) max-pool 2x2 Conv_3_3 (3x3) Conv_3_2 (3x3) max-pool 2x2 Conv_3_1 (3x3) Conv_2_2 (3x3) max-pool 2x2 Conv_2_1 (3x3) Conv_1_2 (3x3) Conv_1_1 (3x3) Input 3x22x224 512x38x38 256x1x1 Dự đoán vị trí Kết 256x3x3 (a) VGG16 loại bỏ lớp FC ( phần sở - base) 256x5x5 (b) Phần thay FC 512x10x10 Dự đoán lớp 1024x19x19 (c) Phần bổ trợ (Auxiliary) (d) Phần dự đốn (Prediction) Hình 4.3 Cấu trúc mạng VGG16-SSD [23] lược lớp kết nối đầy đủ (FC) Phần (hình 4.3.b) hai lớp tích chập thêm vào coi thay lớp kết nối đầu đủ lược kiến trúc VGG16 Phần phần bổ trợ (Hình 4.3.c), gồm lớp tích chập bố trí theo cặp với lọc có kích thước 1x1 3x3 Phần Phần dự đoán (Hình 4.3.d) Phần lại gồm khối tương ứng làm nhiệm vụ dự đốn vị trí đối tượng khối dự đoán lớp đối tượng tương ứng Hai khối tạo cách sử dụng lớp tích chập có kích thước lọc 3x3 4.3.2 Cơ sở liệu CIFAR-10 Cơ sở liệu CIFAR-10 bao gồm 60.000 hình ảnh màu cỡ 32x32 10 lớp đối tượng, với 6.000 hình ảnh lớp Phần liệu cho kiểm thử chứa 1.000 ảnh cho lớp lấy cách ngẫu nhiên Như tập kiểm thử chứa tổng số 10.000 ảnh Phần liệu lại 50.000 ảnh dành cho huấn luyện 4.3.3 Cơ sở liệu PASCAL VOC Cơ sở liệu PASCAL VOC sở liệu tiếng cho toán phát đối tượng ảnh, phân loại ảnh phân đoạn ảnh Trong phạm vi thí nghiệm trình bày chương này, nghiên cứu sinh sử dụng VOC2007 VOC2012 Trong tập huấn 21 luyện với 16.551 chứa tổng số 49.653 vùng đối tượng lấy từ VOC2007 VOC2012, tập kiểm thử lấy từ VOC2007 với 4.952 hình ảnh chứa tổng số 14.856 vùng đối tượng 4.3.4 Thử nghiệm - Nén mạng VGG16 với toán phân lớp ảnh CSDL CIFAR-10 Đầu tiên, mơ hình VGG16 huấn luyện lại CSDL CIFAR-10 hội tụ Mơ hình thu đạt độ xác 93,48% tập kiểm thử Sau nén mơ hình vừa thu cách nhị phân hóa tất giá trị trọng số (W) lượng tử hóa giá trị kích hoạt 13 lớp mạng với số bít lượng tử 4, bít tùy lớp (trung bình 6) Kết kiểm thử mạng nén CSDL CIFAR-10 thể Bảng 4.1 Vì mơ hình lượng tử hóa với số bít lượng tử trung bình cho giá trị kích hoạt (A), nên đạt độ xác cao mạng BNN 2% Các mơ hình BWN TWN đạt độ xác cao giá trị kích hoạt chúng mức 32 bit Điều cho thấy phương pháp đề xuất đạt tỷ lệ nén tương đối cao cho giá trị trọng số (32 lần) giá trị kích hoạt (khoảng lần) giữ độ xác gần mơ hình đầy đủ Bảng 4.1 Độ xác độ rộng bít nén mơ hình VGG16 với kỹ thuật đề xuất, so sánh với nghiên cứu khác CSDL CIFAR-10 Model Full precision** BNN[2]** BWN[3]** TWN[13]* Ours Chú ý: * kết 4.3.5 Accuracy Bitwidth(W/A) 93.48% 32/32 89.90% 1/1 92.65% 1/32 92.75% 2/32 92.22% 1/6 trích từ nguồn, ** kết thực lại thí nghiệm Thử nghiệm - Nén mạng VGG16-SSD với toán phát đối tượng ảnh hướng tới triển khai FPGA Tương tự với bước thực nén mạng VGG16 huấn luyện kiểm thử CSDL VOC (VOC2017 + VOC 2012) Kết thu tham số mạng huấn luyện với độ xác mAP=79.2% Quá trình nén mạng thực qua bước sau: − Bước (Ước lượng số bít lượng tử cho lớp): Dựa công thức 4.3 4.4 đồng thời ưu tiên dùng nhiều bít cho lớp mạng conv8_2, conv9_2, conv10_2, conv11_2 chúng kết nối trực tiếp đến khối dự đoán − Bước (Lượng tử hóa giá trị trọng số): Thống kê phân bố giá trị trọng số lớp nhằm lựa chọn giá trị qmax phù hợp tiến hành tính tốn giá trị tham số khác dựa vào cơng thức 4.2, số lượng bít ước lượng bước Giá trị trọng số lớp cịn lại nhị phân hóa − Bước (Lượng tử hóa giá trị kích hoạt): Được thực tương tự bước Ngoài ra, tiến hành thay hàm kích hoạt ReLU CReLU với giá trị khởi tạo gấp đôi giá trị qmax , 22 Bảng 4.2 Chi tiết tham số lượng tử hóa phần bổ trợ mơ hình VGG16-SSD thực thi sở liệu VOC07+12 Phần mạng Lớp 8_1 8_2 9_1 Phần bổ trợ 9_2 10_1 10_2 11_1 11_2 Phần dự đốn Chú ý: n: độ rộng bít, Chi Trọng số qmax n s _ _ 0.023 1/26 _ _ 0.023 1/26 _ _ 0.023 1/26 _ _ 0.023 1/26 _ _ s: bước nhảy tiết Kích hoạt qmax n s 1.969 1/24 3.938 1/23 3.938 1/23 3.938 1/23 3.938 1/23 7.875 1/22 7.875 1/22 15.75 1/21 _ 32 _ Chi tiết tham số nén cho phần bổ trợ (Auxiliary) phần dự đoán VGG16-SSD thể Bảng 4.2 Bảng 4.3 so sánh thiết kế đề xuất với số nghiên cứu trước Hai phương pháp sử dụng kiến trúc (Sequential) [18] [4] không loại bỏ thao tác truy cập DRAM Mơ hình nghiên cứu [4] có tỷ lệ nén cao (96%), bị độ xác lớn 14,7% Trong nghiên cứu [11], tác giả kết hợp kỹ thuật cắt tỉa lượng tử hóa để đạt tốc độ nén cao số lượng nhỏ BRAM (1470) Tuy nhiên, lại yêu cầu lượng lớn khối DSP (3074) để tính tốn bít cao Phương pháp nghiên cứu sinh đề xuất thực thi hoàn toàn nhớ chip với 2974 BRAM (69% BRAM mạch Xilinx Kintex Ultrascale KCU1500 FPGA) cần 552 khối DSP trì độ xác so với mơ hình đầy đủ Bảng 4.3 So sánh với phương pháp nén mạng VGG16-SSD khác [18] [4] [11] Kiến trúc Tuần tự Tuần tự Luồng CNN VGG16-SSD Light-weight SSD VGG16-SSD Input size 300×300 480×360 640×480 mAp 76.94% 62.8% 78.13% Accuracy drop 0.36% 14.7% 1.93% BRAM(18Kb) 3844 560 1470 DSP 4363 _ 3074 DRAM access Yes Yes No Chú ý: * có nghĩa tính tốn theo lý thuyết 4.4 Phương pháp đề xuất Luồng VGG16-SSD 300×300 77.4% 1.8% 2974* 552* No Kết luận chương Chương này, nghiên cứu sinh tiến hành thử nghiệm phương pháp nén mạng học sâu, đề xuất kết hợp kết hợp nhị phân hóa với lượng tử hóa cho giá trị trọng số mạng giá trị kích hoạt Việc lựa chọn tham số cho giải thuật nén lớp mạng dựa vào vai trị lớp mơ hình, thỏa mãn giới hạn tài nguyên thiết kế dạng luồng phần cứng FPGA dựa thống kê phân bố giá trị Đề xuất thử nghiệm với mạng VGG16-SSD mô Xilinx Kintex Ultrascale KCU1500 FPGA Kết chương trình bày chủ yếu cơng trình thứ 23 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Luận án đạt tất mục tiêu đặt với đóng góp là: Thứ nhất: Vận dụng có cải tiến mạng học sâu ResNet-50 nhằm phát huy đặc trưng cục ảnh người Đồng thời đề xuất phương pháp đối sánh đặc trưng dựa độ đo EMD cho tái định danh người Đặc trưng ảnh thu theo cách mạng lại hiệu tốt số sở liệu dùng chung Luận án đề xuất thử nghiệm phương pháp nén mạng học sâu hướng tới việc triển khai mạng học sâu phần cứng mạch tổ hợp FPGA Giải thuật nén áp dụng cho trọng số mạng giá trị kích hoạt Kết thử nghiệm với mạng VGG16-SSD sở liệu VOC07+12 cho thấy Phương pháp đạt tỷ lệ nén cao độ xác giảm nhẹ (dưới 2%) so với mơ hình chưa nén Thứ hai: Đề xuất cải tiến mơ hình tái định danh dựa chuỗi hình ảnh có sử dụng biến thể mạng RNN cho việc tổng hợp đặc trưng mức chuỗi ảnh Xây dựng sở liệu (FAPR) phục vụ đánh giá đầy đủ pha hệ thống tái định danh bao gồm phát hiện, theo vết tái định danh người Các hình ảnh CSDL thu nhận trường Đại học Bách Khoa Nà Nội Hướng phát triển Nghiên cứu thêm kỹ thuật Non-local, Transformer với mục tiêu nâng cao chất lượng đặc trưng thu Nghiên cứu hướng tiếp cận giai đoạn cho toán tái định danh Bổ sung kỹ thuật nén mạng theo hướng cắt tỉa mạng nhằm đạt tỷ lệ nén tốt Tối ưu hóa kiến trúc thiết kế phần cứng lập trình phần cứng nhằm tăng tốc độ xử lý mơ hình thực thi FPGA 24 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN [1] CT1: Quan Nguyen Hong, Nghia Nguyen Tuan, Trung Tran Quang, Dung Nguyen Tien, Cuong Vo Le (2017) Deep Spatio-temporal Network for Accurate Person Re-identification, KICS-IEEE International Conference on Information and Communications with Samsung LTE & 5G Special Workshop (ICIC), pp 208–213, IEEE [2] CT2: Cuong Vo Le, Nghia Nguyen Tuan, Quan Nguyen Hong, and Hyuk-Jae Lee (2017) Evaluation of Recurrent Neural Network Variants for Person Re-identification, IEIE Transactions on Smart Processing & Computing, pp 193–199, Vol 6, No [3] CT3: Quan Nguyen Hong, Thuy-Binh Nguyen, Thi-Lan Le (2018) Enhancing Person Re-Identification Based on Recurrent Feature Aggregation Network, 1st International Conference on Multimedia Analysis and Pattern Recognition (MAPR)), pp 1–6, IEEE [4] CT4: Hong-Quan Nguyen ,Thuy-Binh Nguyen,Tuan-Anh Nguyen, Thi-Lan Le, ThanhHai Vu, Alexis Noe (2019) Comparative evaluation of human detection and tracking approaches for online tracking applications, 2019 International Conference on Advanced Technologies for Communications (ATC), pp 348–353, IEEE [5] CT5: Hong-Quan Nguyen, Thuy Binh Nguyen, Duc-Long Tran, Thi-Lan Le (2020) A unified framework for automated person re-identification, the Transport and Communications Science Journal, 9.2020, pp 868–880, doi = https://doi.org/10.47869/tcsj.71.7.11 [6] CT6: Minh Quoc Hoang, Phong Luu Nguyen, Hong Viet Tran, Hong Quan Nguyen, Vu Thang Nguyen, Cuong Vo-Le (2020) FPGA Oriented Compression of DNN Using LayerTargeted Weights and Activations Quantization, 2020 IEEE eighth International Conference on Communications and Electronics (ICCE) [7] CT7: Hong-Quan Nguyen, Thuy-Binh Nguyen, Thi-Lan Le (2021) Robust person reidentification through the combination of metric learning and late fusion techniques, Vietnam Journal of Computer Science, ISSN: 2196-8888 (print version), ISSN: 2196-8896 (electronic version), doi = https://doi.org/10.1142/S2196888821500172 [8] CT8: Hoang-Anh Nguyen, Hong-Quan Nguyen, Thuy-Binh Nguyen, Van-Chien Pham, Thi-Lan Le (2022) Exploiting matching local information for person re-identification, 5th International Conference on Multimedia Analysis and Pattern Recognition (MAPR), pp 145–150, IEEE