1. Trang chủ
  2. » Luận Văn - Báo Cáo

Truy tìm đối tượng dựa vào thuộc tính cho dãy camera quan sát

73 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Truy Tìm Đối Tượng Dựa Vào Thuộc Tính Cho Dãy Camera Quan Sát
Tác giả Nguyễn Trọng Tính
Người hướng dẫn TS. Lê Thành Sách
Trường học Đại học Bách Khoa
Chuyên ngành Khoa học Máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2021
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 73
Dung lượng 1,34 MB

Nội dung

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA ———————————– NGUYỄN TRỌNG TÍNH TRUY TÌM ĐỐI TƯỢNG DỰA VÀO THUỘC TÍNH CHO DÃY CAMERA QUAN SÁT Chuyên ngành: Khoa Học Máy Tính Mã số: 8.48.01.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng năm 2021 CƠNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐHQG-HCM Cán hướng dẫn khoa học: TS Lê Thành Sách Cán chấm nhận xét 1: PGS TS Huỳnh Trung Hiếu Cán chấm nhận xét 2: TS Nguyễn Văn Sinh Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày tháng năm 2021 (Trực tuyến) Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ luận văn thạc sĩ) Chủ Tịch: PGS TS Thoại Nam Thư Ký: TS Nguyễn Lê Duy Lai Phản Biện 1: PGS TS Huỳnh Trung Hiếu Phản Biện 2: TS Nguyễn Văn Sinh Ủy Viên: TS Lê Thành Sách Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HỒ XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự Do - Hạnh Phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Trọng Tính MSHV: 1970219 Ngày, tháng năm sinh: 15/08/1996 Nơi sinh: Đồng Tháp Ngành: Khoa học Máy Tính Mã số: 8480101 I TÊN ĐỀ TÀI: – Truy tìm đối tượng dựa vào thuộc tính cho dãy camera quan sát II NHIỆM VỤ VÀ NỘI DUNG: – Tìm hiểu tốn phân loại thuộc tính người dựa thuộc tính – Đề xuất thực mơ hình trích xuất đặc trưng thuộc tính cho người hệ thống camera giám sát – Đánh giá hiệu mơ hình đề xuất với cơng trình nghiên cứu liên quan thời gian gần III NGÀY GIAO NHIỆM VỤ: 20/01/2021 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 20/06/2021 V CÁN BỘ HƯỚNG DẪN: TS Lê Thành Sách Tp HCM, ngày tháng năm 2021 CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên chữ ký) (Họ tên chữ ký) TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH (Họ tên chữ ký) Lời cảm ơn Để hoàn thành luận văn thạc sĩ này, tơi xin bày tỏ cảm kích đặc biệt tới thầy hướng dẫn khoa học tôi, Tiến sĩ Lê Thành Sách Người định hướng, trực tiếp dẫn dắt cố vấn suốt thời gian thực đề tài luận văn tốt nghiệp Những lời nhận xét, góp ý hướng dẫn Thầy giúp tơi tiếp cận hướng trình thực luận văn, giúp thấy ưu điểm khuyết điểm phương pháp tiếp cận khác bước khắc phục để có kết ngày tốt Hơn tơi cịn học Thầy phương pháp luận tư trình nghiên cứu khoa học Đây bàn đạp vững giúp tơi hồn thành luận văn cách hồn chỉnh Đồng thời tơi muốn gửi lời cảm ơn chân thành đến với công ty TNHH Knorex - nơi tơi làm việc, gia đình bạn bè tạo điều kiện, động viên, cổ vũ tinh thần suốt trình học tập thực đề tài Đặc biệt gia đình chăm lo hy sinh nhiều để chuyên tâm học tập Sau cùng, xin cảm ơn Thầy, Cô cán khoa Khoa học Kỹ Thuật Máy Tính hỗ trợ cung cấp kiến thức khoa học Những kiến thức không dừng việc hồn thành luận văn mà cịn tảng khoa học giúp phát triển tương lai Trong luận văn, hẳn tránh khỏi hạn chế thiếu sót Tơi hy vọng nhận nhiều đóng góp quý báu từ quý thầy cô, hội đồng bạn đọc để đề tài hồn thiện có ý nghĩa thiết thực áp dụng thực tiễn sống Chân thành cảm ơn TP Hồ Chí Minh, Ngày 13 Tháng 05 Năm 2021 Nguyễn Trọng Tính i Tóm tắt Truy tìm đối tượng dựa vào thuộc tính cho dãy camera quan sát nhánh đề tài tái định danh người người Mục đích để dự đốn thuộc tính cụ thể cho trước, tùy vào vùng ảnh khác Thách thức tốn tìm kiếm đối tượng có số thuộc tính định tập hình ảnh camera Do đối tượng xuất camera với nhiều tư khác nhau, dẫn đến thuộc tính thay đổi theo, thuộc tính nằm đối tượng khác với vị trí khác nhau, nên phân biệt dựa vùng cục bị hạn chế Chính lý dẫn đến phương pháp tiếp cận vùng liên quan để nhận dạng thuộc tính Trong luận văn đề xuất phương pháp - kế thừa từ báo [1] cho tái định danh, Top DropBlock Phương pháp gồm ba nhánh: Nhánh global stream để học thông tin từ pre-train, nhánh Top DropBlock để cố gắng học vùng thơng tin để tăng khả phân biệt thuộc tính, nhánh regularization để giải nhiễu tạo nhánh Top DropBlock Hơn nữa, phương pháp đề xuất có nhiều tiềm để ứng dụng vào thực tiễn khơng yêu cầu tạo thêm thích cho liệu dễ dàng huấn luyện Các thử nghiệm tiến hành dựa hai tập liệu có sẵn: PA100K [2] PETA [3] Kết thử nghiệm khả quan so sánh với phương pháp tiếp cận vài năm trở lại ii Abstract Tracing objects based on properties for CCTV arrays is a branch of re-id topic The purpose is to predict the specific attributes, depending on the different image regions The challenge of the problem is to find objects with certain properties in the image set of camera Because the objects appear in the camera with many different poses, lead to the properties also changing Moreover these attributes may be located in other objects with different positions, so the discrimination is based on on restricted local areas It is for this reason that the less relevant region approach is used to identify attributes In this thesis, we propose a approach which inherit from re-identification paper [1], as Top DropBlock This approach is three streams: a global stream encodes rich image information from a backbone, the Top DropBlock stream encourages the backbone to encode low informative regions with high discriminative features and a regularization stream helps to deal with the noise created by the dropping process of the second stream, when testing the first two streams are used Moreover, this proposed approach has a lot of potential for practical application because it does not require creating additional annotations for the data and is easy to train The tests were conducted against two available data sets: PA100K [2] and PETA [3] The test results are very positive when compared with approaches of the past few years iii Lời cam đoan Tơi Nguyễn Trọng Tính học viên cao học khoa Khoa Học Kỹ thuật Máy Tính, đại học Bách Khoa TP.HCM, MSHV 1970219 Tôi xin cam đoan luận văn thạc sĩ “Truy tìm đối tượng dựa vào thuộc tính cho dãy camera quan sát” kết tìm hiểu, nghiên cứu độc lập thân hướng dẫn trực tiếp TS Lê Thành Sách Tôi xin cam đoan: Luận văn thực cho mục đích tìm hiểu nghiên cứu bậc cao học Các cơng trình, báo tham khảo để xây dựng nên luận văn trích dẫn, tham khảo Những cơng cụ, phần mềm cho q trình thực luận văn phần mềm mã nguồn mở Hình ảnh số liệu trích dẫn nguồn tham khảo rõ ràng Kết nghiên cứu trình bày trung thực dựa số liệu thực tế chạy chương trình TP Hồ Chí Minh, Ngày 13 Tháng 05 Năm 2021 Học viên Nguyễn Trọng Tính iv Mục lục Giới thiệu đề tài 1.1 Đặt vấn đề 1.2 Mục tiêu nghiên cứu 1.3 Ý nghĩa đề tài 1.4 Kết đạt 1.5 Cấu trúc luận văn 1 3 Cơ sở lý thuyết 2.1 Mạng nơ-ron đa tầng mạng học sâu 2.1.1 Mạng nơ-ron đa tầng 2.1.2 Mạng nơ-ron học sâu 2.2 Mạng nơ-ron tích chập 2.2.1 Đặc tính mạng nơ-ron tích chập 2.2.2 Phép tích chập - Convolution 2.2.3 Mạng nơ-ron tích chập góc nhìn mạng nơ-ron nhân tạo 2.3 Các mạng pretrain thường dùng cho toán phân loại 2.3.1 ResNet-50 2.3.2 Inception-v3 5 11 11 13 Tổng quan tình hình nghiên 3.1 Holistic 3.2 Attention based 3.3 Relation based 3.4 Part based 19 20 21 23 25 27 27 28 28 32 33 cứu Phương pháp nghiên cứu 4.1 Ý tưởng thiết kế thử nghiệm 4.2 Thiết kế thử nghiệm 4.2.1 Mơ hình 4.2.2 Hàm mục tiêu 4.2.3 Chiến lược huấn luyện v 14 15 16 17 MỤC LỤC 4.2.4 Các thử nghiệm triển khai Kết thực nghiệm 5.1 Thu thập tiền xử lý liệu 5.1.1 Dữ liệu 5.1.2 Phân tích liệu 5.1.3 Tiền xử lý liệu 5.2 Các tiêu chí đánh giá 5.2.1 Mean Accuracy - mA 5.2.2 Accuracy - Accu 5.2.3 Precision - Prec 5.2.4 Recall 5.2.5 F1 score - F1 5.3 Môi trường thực nghiệm 5.4 Kết 5.4.1 Thử nghiệm 5.4.2 Thử nghiệm 5.4.3 So sánh với cơng trình liên quan 33 35 35 35 36 40 41 42 43 43 43 44 44 44 44 47 51 Kết Luận 6.1 Kết đạt 6.2 Hướng nghiên cứu 54 54 55 Tài liệu tham khảo 56 A Bảng đối chiếu thuật ngữ Anh - Việt 59 vi Danh sách hình vẽ 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 Cấu tạo mạng nơ-ron đa tầng Mạng MLP mạng học sâu với lớp ẩn Đồ thị hàm sigmoid Một tầng ẩn mạng neural nhiều lớp dùng hàm sigmoid Đồ thị hàm Mạng nơ-ron trước dropout Mạng nơ-ron sau dropout Hình ảnh minh họa phân tích nhà phân phối điện thoại thơng minh Hình ảnh minh họa q trình học trích xuất thuộc tính mạng nơ-ron 2.10 Hình ảnh mơ tả ma trận hình ảnh cửa sổ tích chập 2.11 Hình ảnh mơ tả phân tích chập lọc tạo nơ-ron 2.12 Kiến trúc khối residual block [2.12] 7 10 10 12 3.1 3.2 3.3 3.4 3.5 3.6 3.7 Các hướng tiếp cận việc truy tìm thuộc tính người Cấu trúc mạng CNN Dangwei đề xuất [4] Tổng quan kiến trúc mơ hình báo [5] Kiến trúc mạng ALM [5] Kiến trúc mạng ML-GCN [6] Kiến trúc mạng Grouping Recurrent Learning [7] Kiến trúc mạng Multi-label CNN [8] 20 20 21 22 24 25 26 4.1 4.2 4.3 4.4 Một số kết Top DropBlock nội dung ảnh Mơ hình Top-DB-Net Cấu trúc nhánh global stream tập PA100K Cấu trúc khối Bottleneck 28 29 29 30 5.1 5.2 5.3 5.4 5.5 5.6 Một số ảnh tập liệu PETA Tỷ lệ % mẫu dương ứng với thuộc tính tập liệu PA100K Tỷ lệ % mẫu dương ứng với thuộc tính tập liệu PETA Các hình có độ phân giải thấp tập liệu PA100K Kích thước ảnh thay đổi tập liệu PA100K Các hình nhiều đối tượng tập liệu PA100K 36 37 37 38 38 39 vii 12 13 15 17 CHƯƠNG KẾT QUẢ THỰC NGHIỆM Có thể thấy thuộc tính HandBag hình trên, phương pháp Baseline chưa xác định vùng cần học, phần có chứa túi xách Nhưng sử dụng Top DropBlock, mạng cố gắng tìm vùng xung quanh khác để học đặc trưng tốt Kết cho thấy mạng hoạt động tốt trường hợp này, Top DropBlock tận dụng vùng có thơng tin thành công 5.4.2 Thử nghiệm Trong thử nghiệm cần thực nghiệm thí nghiệm nhỏ mục đính khảo sát tách động nhánh mơ hình Vì thơng số cài đặc để đảm bảo khách quan • Tập liệu: PA100K PETA • Số thuộc tính: 26 PA100K 35 PETA • Hệ số học: 0.0001 • Kích thước batch size: 32 • Kích thước ảnh đầu vào: 256x128 • Tổng số epoch: 60 • Tối ưu hố: Adam với hệ số α = 0.005, β1 = 0.9 β2 = 0.99 • Tỉ lệ loại bỏ: q = 0.33 (được đề cập phần 4.2.1) Sau chuẩn bị thông tiến hành huấn luyện, số kết thu thập từ trình huấn luyện, kiểm thử kiểm tra 47 CHƯƠNG KẾT QUẢ THỰC NGHIỆM Hình 5.14: Giá trị mát trình huấn luyện tập PETA Hình 5.15: Độ xác trình huấn luyện kiểm tra PETA Hình 5.14, thấy giá trị hàm mát trình huấn luyện kiểm tra giảm dần theo số lượng epoch, giá trị có xu hướng ổn định Điều cho thấy xây dựng mơ hình hợp lý, hàm mục tiêu có xu hướng hội tụ Hơn hình 5.15, độ xác q trình huấn luyện kiểm tra có xu hướng ổn định, khơng có chênh lệch q cao, cho thấy mơ hình chúng tơi hoạt động tốt với tập liệu thử nghiệm, khơng có tình trạng q khớp (overfit) hay chưa khớp (underfit) Trong bảng 5.2 kết thu thập từ thử nghiệm triển khai, sử dụng hai thang đo mA F1 để đánh giá Bởi hai thơng số thể tổng quát thông số lại, đề cập phần 5.2 Chúng ta thấy, việc sử dụng hai nhánh Top DropBlock 48 CHƯƠNG KẾT QUẢ THỰC NGHIỆM Regularization làm tăng đáng kể mA F1 so với phương pháp Baseline Cụ thể với mA có cải thiện khoảng từ 1% đến 2.5% tập liệu PA100K, tập liệu PETA tăng từ 0.9% đến 1.5% Đối với thông số F1 có thay đổi khơng đáng kể so với phương pháp Baseline hai tập liệu Dataset PA100K PETA Method mA F1 mA F1 Baseline 79.10 87.31 85.02 84.97 no-drop Top-DB-Net 80.16 87.03 86.30 85.61 no-reg Top-DB-Net 80.43 87.43 85.93 84.82 80.95 87.35 86.52 85.46 Random-DB-Net Top-DB-Net 81.61 86.99 86.57 85.21 Bảng 5.2: Ảnh hưởng nhánh Top-DB-Net Sự ảnh hưởng nhánh Top DropBlock : Chúng ta thấy phương pháp “no-drop Top-DB-Net” bảng trên, loại bỏ thông số mA giảm xuống 1.5% tập liệu PA100K Cịn tập liệu PETA có giảm, không đáng kể, khoảng 0.2% Kết mong đợi, thực chất sử dụng nhánh global regularization, vơ tình hai nhánh có cách học nhau, nhánh regularization học sâu nhánh global Mặt khác chi sử dụng Top DropBlock, thúc đẩy mạng tập trung học vùng có thơng tin nên bổ sung thêm vào đặc trưng giúp mạng học tốt Sự ảnh hưởng nhánh Regularization : Cũng trên, ta thấy khơng dùng nhánh regularization, thông số mA giảm từ 81.61% xuống 80.43% tập liệu PA100K Còn với PETA giảm từ 86.57% xuống cịn 85.93% Như có giải thích phần 4.2.1, q trình loại bỏ nhánh Top DropBlock loại bỏ theo hàng ngang, nên tạo nhiễu, nhánh regularization trung hoà lại, giúp giảm nhiễu Top DropBlock gây Từ giúp mạng học tốt Sự ảnh hưởng việc dùng loại bỏ ngẫu nhiên : Trong thử nghiệm xem ảnh hưởng việc thay đổi loại bỏ hàng có trọng số rj cao nhất, đề cập phần 4.2.1 thành việc lựa chọn ngẫu nhiên để loại bỏ, theo phân phối Hình 5.16 5.17 thể khác hai cách loại bỏ 49 CHƯƠNG KẾT QUẢ THỰC NGHIỆM Hình 5.16: Random DropBlock Hình 5.17: Top DropBlock Có thể thấy việc thay đổi từ việc loại bỏ hàng cao sang việc lựa chọn ngẫu nhiên, không mang lại kết tốt hơn, chí mA thấp Trong F1 có tăng nhẹ khơng đáng kể Tiếp theo xem thông số mA thuộc tính tập liệu PA100K hai phương pháp Baseline Top DropBlock Trong hình 5.18, ta thấy phương pháp Top DropBlock có mA vượt trội hẳn Baseline, đặc biệt hai thuộc tính LowerStripe HoldObjectInFront, có cải thiện đáng kể từ khoảng 50% lên đến 63% HoldObjectInFront, LowerStripe tăng từ khoảng 52% lên đến gần 90% Hình 5.18: mA Top DropBlock Baseline tập liệu PA100K Để xem có cải thiện lớn đến cho hai thuộc tính HoldObjectInFront LowerStripe, tìm hiểu đồ nhiệt hai thuộc tính hai phương pháp Ở hình 5.19 thấy vùng tập trung học hay vùng đóng góp nhiều thơng tin phần bố rộng khắp ảnh, đặc biệt thuộc tính LowerStripe Vì dẫn đến khó khăn sai lệch phân biệt hai thuộc tính 50 CHƯƠNG KẾT QUẢ THỰC NGHIỆM Hình 5.19: Bản đồ nhiệt LowerStripe HoldObjectsInFront sử dụng Baseline Ngược lại phương pháp Top DropBlock hình 5.20, việc tăng cường học thêm vùng có thông tin ảnh, điều giúp mạng khám phá thêm đặc trưng tìm ẩn để phân biết thuộc tính Kết mạng khai phá tốt đặc trưng này, làm cho mạng tập trung vào vùng khác để định thuộc tính đó, ví dụ thuộc tính HoldObjectInFront mạng tập trung khai phá vùng tay phía trước đối tượng Chính điều này, giúp mạng tăng khả nhận dạng đối tượng cao so với Baseline Hình 5.20: Bản đồ nhiệt LowerStripe HoldObjectsInFront sử dụng Top DropBlock 5.4.3 So sánh với cơng trình liên quan Bên cạnh ưu điểm kiểm chứng hai thử nghiệm trên, mơ hình đề xuất cịn có vài khuyết điểm việc lựa chọn tỷ lệ loại bỏ cho phù hợp, không dẫn đến việc mạng tập trung nhiều vùng đặc trưng khác 51 CHƯƠNG KẾT QUẢ THỰC NGHIỆM nhau, dẫn đến sai xót q trình định Nhưng kết thực nghiệm cho thấy mơ hình triển vọng để phát triển tương lai Chúng ta so sánh với trình liên quan vài năm gần lại đây, để thấy rõ sức mạnh mô hình Có thể thấy bảng 5.3, phương pháp tiếp cận chúng tơi có vượt trội hẳn hai thông số Recall F1, với giá trị lên đến 89.55% 86.99% Bên cạnh mA mơ hình DTM+AWK lại chiếm ưu cao hơn, không đáng kể so với Top DropBlock, kết hợp phương pháp nhận dạng dáng người Cịn Accu Prec mơ hình CoCNN có xu hướng vượt trội Dataset PA-100K Method mA Accu Prec Recall F1 DeepMar [18] 72.70 70.39 82.24 80.42 81.32 VeSPA [19] 76.32 73.00 84.99 81.49 83.20 76.96 75.55 86.99 83.17 85.04 LG-Net [20] ALM [5] 80.68 77.08 84.21 88.84 86.46 CoCNN [21] 80.56 78.30 89.49 84.36 86.85 81.63 77.57 84.27 89.02 86.58 DTM+AWK [22] Our-Top DropBlock 81.61 78.25 84.57 89.55 86.99 Bảng 5.3: So sánh với mơ hình gần tập liệu PA100K Bảng 5.4 thể so sánh kết Top DropBlock tập liệu PETA Chúng ta thấy tập liệu này, phương pháp CoCNN [21] phương pháp chiếm ưu thế, hầu hết thông số đánh giá chiếm tỉ lệ cao nhất, ngồi trừ Recall Trong đó, mơ hình đề xuất chưa hoạt động tốt hai thông số Accu Prec, có giá trị Recall cao nhất, với giá trị 89.3%, cao phương pháp ALM [5] đến 1.21% 52 CHƯƠNG KẾT QUẢ THỰC NGHIỆM Dataset PETA Method mA Accu Prec Recall F1 DeepMar [18] 82.89 75.07 83.68 83.14 83.41 83.45 77.73 86.18 84.81 85.49 VeSPA [19] LG-Net [20] ALM [5] 86.30 79.52 85.65 88.09 86.85 86.97 79.95 87.58 87.73 87.65 CoCNN [21] DTM+AWK [22] 85.79 78.63 85.65 87.17 86.11 Our-Top DropBlock 86.46 76.42 81.17 89.30 85.04 Bảng 5.4: So sánh với mơ hình gần tập liệu PETA 53 Chương Kết Luận 6.1 Kết đạt Qua nghiên cứu này, chúng tơi khẳng định với khả rút trích đặc trưng mạng pre-train resnet-50, kết hợp với khả tăng cường học vùng thông tin mang lại nhiều kết khả quan Hơn với nghiên cứu cho thấy tiềm mơ hình nhận dạng ảnh dựa nội dung ứng dụng vào việc phân loại thuộc tính Cụ thể kết đạt sau: • Xây dựng thành cơng mơ hình Top DropBlock cho việc phân loại thuộc tính, từ tạo tiền đề cho việc truy vết tìm kiếm đối tượng thuộc tính Mơ hình xây dựng mơ hình nhỏ gọn, end-to-end, dễ dàng huấn luyện kiểm tra, khơng cần thêm việc thích liệu Từ dễ dàng áp dụng vào thực tiễn • Kết hứa hẹn khảo sát chất lượng mơ hình hai tập liệu phổ biến, PA100K PETA • Ứng dụng thành công ý tưởng việc xây dựng mơ hình dựa nội dung ảnh, thay cách tiếp cận dựa thuộc tính • Đã trực quan hố thành cơng đồ nhiệt, giúp dễ dàng việc gỡ lỗi trình huấn luyện 54 CHƯƠNG KẾT LUẬN Tất source code, bao gồm trình chuẩn bị liệu, tiền xử lý liệu, trình huấn luyện, kiểm thử trực quan hố liệu chúng tơi cơng bố pedestrian-attribute-recognition, bạn đọc tham khảo đóng góp để mơ hình hồn thiện 6.2 Hướng nghiên cứu Việc phân loại thuộc tính người toán đầy thú vị nhận nhiều quan tâm nhà khoa học tổ chức Bên cạnh kết đặt ngun cứu này, mơ hình cần cải thiện có hướng tương lai • Chúng ta loại bỏ vùng có nhiều thơng tin tỉ lệ xác suất thay loại bỏ hồn tồn hàng ngang đặc trưng nghiên cứu • Kết hợp mối quan hệ thuộc tính vào mạng nơ-ron, ví dụ biết trước người phụ nữ xác suất họ có thuộc tính tóc dài cao họ nam • Cần thử nghiệm với tập liệu có thật CCTV, để khảo sát khả phân loại thuộc tính mơ hình 55 Tài liệu tham khảo [1] R Quispe and H Pedrini, “Top dropblock for activation enhancement in person re-identification,” In International Conference on Pattern Recognition, pp 597–604, 2020 [2] X Liu, H Zhao, M Tian, L Sheng, J Shao, S Yi, J Yan, and X Wang, “Hydraplus-net: Attentive deep features for pedestrian analysis,” In Proceedings of the IEEE International Conference on Computer Vision, pp 350–359, 10 2017 [3] Y Deng, P Luo, C C Loy, and X Tang, “Pedestrian attribute recognition at far distance,” In Proceedings of the 22nd ACM International Conference on Multimedia, pp 789–792, 11 2014 [4] D Li, X Chen, and K Huang, “Multi-attribute learning for pedestrian attribute recognition in surveillance scenarios,” In Center for Research on Intelligent Perception and Computing, pp 111–115, 2015 [5] C Tang, L Sheng, Z Zhang, and X Hu, “Improving pedestrian attribute recognition with weakly supervised multi-scale attribute-specific localization,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp 4997–5006 [6] Z.-M Chen, X.-S Wei, P Wang, and Y Guo, “Multi-label image recognition with graph convolutional networks,” In The IEEE Conference on Computer Vision and Pattern Recognition, pp 5172–5181, 06 2019 [7] X Zhao, L Sang, G Ding, Y Guo, and X Jin, “Grouping attribute recognition for pedestrian with joint recurrent learning,” In Proceedings of the Twenty 56 TÀI LIỆU THAM KHẢO Seventh International Joint Conference on ArtificialIntelligence, p 3177–3183, 2018 [8] J Zhu, S Liao, D Yi, Z Lei, and S Li, “Multi-label cnn based pedestrian attribute learning for soft biometrics,” In Proceedings of the International Conference on Biometrics, p 535–540, 2015 [9] J Deng, W Dong, R Socher, L.-J Li, K Li, and F.-F Li, “Imagenet: A large-scale hierarchical image database,” In 2009 IEEE conference on computer vision and pattern recognition, p 248–255, 2009 [10] S R K He, X Zhang and J Sun, “Deep residual learning for image recognition,” In IEEE Conference on Computer Vision and Pattern Recognition, p 770–778, 2016 [11] K He, X Zhang, S Ren, and J Sun, “Deep residual learning for image recognition,” In IEEE Conference on Computer Vision and Pattern Recognition, pp 770–778, 06 2016 [12] C Szegedy, W Liu, Y Jia, P Sermanet, S Reed, D Anguelov, D Erhan, V Vanhoucke, and A Rabinovich, “Going deeper with convolutions,” The IEEE Conference on Computer Vision and Pattern Recognition, pp 1–9, 06 2015 [13] A Z Max Jaderberg, Karen Simonyan and K Kavukcuoglu, “Spatial transformer networks,” In Advances in Neural Information Processing Systems, p 2017–2025, 2015 [14] J Pennington, R Socher, and C Manning, “Glove: Global vectors for word representation,” In EMNLP, vol EMNLP, p 1532–1543, 01 2014 [15] H Zhao, M Tian, S Sun, J Shao, J Yan, S Yi, X Wang, and X Tang, “Spindle net: Person re-identification with human body region guided feature decomposition and fusion,” pp 907–915, 07 2017 [16] S Zagoruyko and N Komodakis, “Paying more attention to attention: Improving the performance of convolutional neural networks via attention transfer,” In International Conference on Learning Representations, Paris, France, p 1–13, Jun 2017 57 TÀI LIỆU THAM KHẢO [17] Y Deng, P Luo, C C Loy, and X Tang, “Rethinking of pedestrian attribute recognition: Realistic datasets with efficient method,” In arXiv preprint arXiv:2005.11909, 05 2020 [18] X C Dangwei Li and K Huang, “Multi attribute learning for pedestrian attribute recognition in surveillance scenarios,” in In Proceedings of the IAPR Asian Conference on Pattern Recognition, 2015, p 111–115 [19] M Sarfraz, A Schumann, Y Wang, and R Stiefelhagen, “Deep view sensitive pedestrian attribute inference in an end-to-end model,” in In Proceedings of the British Machine Vision Conference, 09 2017 [20] P Liu, X Liu, J Yan, and J Shao, “Localization guided learning for pedestrian attribute recognition,” in In Proceedings of the British Machine Vision Conference, 2018 [21] K Han, Y Wang, H Shu, C Liu, C Xu, and C Xu, “Attribute aware pooling for pedestrian attribute recognition,” in In Computer Vision and Pattern Recognition, 07 2019 [22] J Zhang, P Ren, and J Li, “Deep template matching for pedestrian attribute recognition with the auxiliary supervision of attributewise keypoints,” vol abs/2011.06798, 11 2020 58 Phụ lục A Bảng đối chiếu thuật ngữ Anh - Việt Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Closed Circuit Television Chuỗi camera giám sát Convolution Tích chập Convolutional neural network Mạng nơ-ron tích chập Input Layer Tầng đầu vào Output Layer Tầng kết Hidden Layer Tầng ẩn Multi Layer Perceptron Mạng nơ-ron đa tầng Overfit Quá khớp Underfit Chưa khớp Heat Map Bản đồ nhiệt Class Activation Map Viết tắt CCTV CNN MLP CAM True Positive Mẫu dương TP True Negative Mẫu âm TN False Positive Mẫu dương sai FP False Negative Mẫu âm sai FN Long Short Term Memory LSTM Recurrent Neural Network RNN Graph Convolution Network GCN Continued on next page 59 PHỤ LỤC A BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Viết tắt Spatial Transformer Network STN Attribute Localization Module ALM Computer Vision Thị giác máy tính Deep Learning Học sâu Image Classification Phân loại hình ảnh Facial Recognition Nhận diện khn mặt Latent Features Thuộc tính tiềm ẩn Fully connected Kết nối đầy đủ Shared Weights Cơ chế chia sẻ trọng số Vanishing Gradient Suy giảm đạo hàm 60 Lý Lịch Trích Ngang Họ tên: Nguyễn Trọng Tính Ngày sinh: 15/08/1996 Nơi sinh: Đồng Tháp Địa chỉ: 84/20, Trần Văn Quang, Phường 10, Quận Tân Bình, Hồ Chí Minh Q Trình Đào Tạo Thời gian Trường đào tạo Chuyên ngành Trình độ đào tạo Đại Học Bách Khoa 2014-2018 Kỹ thuật điện tử Kỹ sư Tp Hồ Chí Minh Đại Học Bách Khoa 2019-2021 Khoa học liệu Thạc sĩ Tp Hồ Chí Minh Q Trình Cơng Tác Thời gian 4/2018 - 12/2018 1/2019 - 8/2020 9/2020 - Nay Đơn vị cơng tác Vị trí Global Cyber Soft Kỹ sư phần mềm DEK Technologies Vietnam Kỹ sư phần mềm Knorex Vietnam Kỹ sư phần mềm ... học Máy Tính Mã số: 8480101 I TÊN ĐỀ TÀI: – Truy tìm đối tượng dựa vào thuộc tính cho dãy camera quan sát II NHIỆM VỤ VÀ NỘI DUNG: – Tìm hiểu tốn phân loại thuộc tính người dựa thuộc tính – Đề... hướng, hướng truy tìm đối tượng dựa vào thuộc tính, hướng cịn lại tìm xác đối tượng đâu mạng lưới camera biết trước đối tượng Cả hai hướng thuộc toán phân loại, truy tìm theo thuộc tính phân loại... Nguyễn Trọng Tính i Tóm tắt Truy tìm đối tượng dựa vào thuộc tính cho dãy camera quan sát nhánh đề tài tái định danh người người Mục đích để dự đốn thuộc tính cụ thể cho trước, tùy vào vùng ảnh

Ngày đăng: 27/02/2022, 23:37

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w