1. Trang chủ
  2. » Luận Văn - Báo Cáo

Gán nhãn đối tượng di chuyển qua nhiều camera (to assign label for moving objects in multiple cameras)

48 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 48
Dung lượng 2,69 MB

Nội dung

ĐẠI HỌC QUỐC GIA TP HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA VÕ HOÀNG AN GÁN NHÃN ĐỐI TƢỢNG DI CHUYỂN QUA NHIỀU CAMERA (TO ASSIGN LABEL FOR MOVING OBJECTS IN MULTIPLE CAMERAS) Ngành : KHOA HỌC MÁY TÍNH Mã số: 60480101 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng năm 2018 CƠNG TRÌNH ĐƢỢC HỒN THÀNH TẠI TRƢỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán hƣớng dẫn khoa học : PGS TS NGUYỄN THANH BÌNH Cán chấm nhận xét : TS Nguyễn Hồ Mẫn Rạng Cán chấm nhận xét : PGS TS Lý Quốc Ngọc Luận văn thạc sĩ đƣợc bảo vệ Trƣờng Đại học Bách Khoa, ĐHQG Tp HCM ngày 18 tháng năm 2018 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: TS Lê Thành Sách TS Lê Hồng Trang TS Nguyễn Hồ Mẫn Rạng PGS TS Lý Quốc Ngọc TS Phan Trọng Nhân Xác nhận Chủ tịch Hội đồng đánh giá LV Trƣởng Khoa quản lý chuyên ngành sau luận văn đƣợc sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƢỞNG KHOA ĐẠI HỌC QUỐC GIA TP.HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: VÕ HOÀNG AN MSHV:1670211 Ngày, tháng, năm sinh: 15/06/1993 Nơi sinh: Bình Định Ngành: KHOA HỌC MÁY TÍNH Mã số : 60480101 I TÊN ĐỀ TÀI: Gán nhãn đối tƣợng di chuyển qua nhiều camera (To assign label for moving objects in multiple cameras) II NHIỆM VỤ VÀ NỘI DUNG: - Tìm hiểu cơng trình nghiên cứu liên quan đến gán nhãn đối tƣợng Đề xuất phƣơng pháp gán nhãn cho đối tƣợng di chuyển qua nhiều camera Hiện thực theo phƣơng pháp đề xuất để đánh giá kết đạt đƣợc III NGÀY GIAO NHIỆM VỤ : (Ghi theo QĐ giao đề tài) IV NGÀY HOÀN THÀNH NHIỆM VỤ: (Ghi theo QĐ giao đề tài) V CÁN BỘ HƢỚNG DẪN: PGS TS NGUYỄN THANH BÌNH Tp HCM, ngày tháng năm 20 CÁN BỘ HƢỚNG DẪN (Họ tên chữ ký) TRƢỞNG KHOA KH & KTMT (Họ tên chữ ký) LỜI CẢM ƠN Đầu tiên, xin gửi lời cảm ơn sâu sắc đến PGS TS Nguyễn Thanh Bình, thầy tận tình hƣớng dẫn, cung cấp tài liệu nhƣ động viên, khích lệ, giúp đỡ cho tơi ý kiến đóng góp q báu suốt thời gian thực đề tài Tôi xin gửi lời cảm ơn chân thành đến quý Thầy Cô công tác Khoa Khoa học Kỹ thuật Máy Tính, trƣờng Đại học Bách Khoa TP Hồ Chí Minh, ngƣời nhiệt tình truyền đạt kiến thức, kinh nghiệm suốt hai năm qua để tơi có tảng vững Cuối cùng, tơi xin gửi lời cảm ơn tới gia đình bạn bè động viên, giúp đỡ nhiều trình thực đề tài Một lần nữa, xin chân thành cảm ơn tất ngƣời Thành phố Hồ Chí Minh, ngày 30 tháng 05 năm 2018 Võ Hồng An TĨM TẮT LUẬN VĂN THẠC SĨ Trong năm trở lại đây, lĩnh vực thị giác máy tính phát triển nhanh dần chiếm vị trí quan trọng phát triển khơng ngành khoa học máy tính mà cịn ngành kinh tế Chính điều này, ngày có nhiều nghiên cứu thị giác máy tính đặc biệt nghiên cứu truy vết đối tƣợng Trong luận văn này, tơi trình bày phƣơng pháp để gán nhãn cho đối tƣợng di chuyển qua nhiều camera Để xây dựng đƣợc phƣơng pháp gán nhãn đƣợc xác đối tƣợng xuất hệ thống camera có vùng khơng gian trùng lắp, trƣớc tiên, dùng phƣơng pháp phát đối tƣợng YOLO để nhận dạng đối tƣợng xác định vị trí chúng camera, từ rút trích đƣợc đặc trƣng màu sắc, hình dáng, SIFT…của chúng Sau đó, sử dụng giải thuật GSA với giá trị đầu vào đặc trƣng rút trích đƣợc để gán nhãn cho đối tƣợng di chuyển frame ảnh liên tiếp Bên cạnh đó, với đối tƣợng di chuyển, sử dụng kết hợp thêm lọc Kalman Filter để nâng cao tính xác việc gán nhãn đồng thời giải toán che phủ đối tƣợng Cuối cùng, để gán nhãn cho đối tƣợng di chuyển qua nhiều camera, đề xuất phƣơng pháp xác định vùng khơng gian trùng lắp camera đó, từ dựa vị trí đối tƣợng vùng không gian trùng lắp, gán nhãn cho chúng cách quán LỜI CAM KẾT Tôi xin cam đoan rằng, đề tài luận văn thạc sĩ “Gán nhãn cho đối tƣợng di chuyển qua nhiều camera” cơng trình nghiên cứu tơi dƣới hƣớng dẫn PGS TS Nguyễn Thanh Bình, xuất phát từ yêu cầu thực tiễn đề tài nguyện vọng tìm tịi, khám phá thân tơi Những tài liệu tham khảo đề tài đƣợc trích dẫn rõ ràng, theo quy tắc khoa học Kết đề tài chƣa đƣợc công bố trƣớc dây dƣới hình thức Thành phố Hồ Chí Minh, ngày 30 tháng 05 năm 2018 Tác giả luận văn Võ Hoàng An MỤC LỤC MỤC LỤC Bảng ký tự viết tắt CHƢƠNG GIỚI THIỆU 1.1 GIỚI THIỆU ĐỀ TÀI 1.2 MỤC TIÊU VÀ NỘI DUNG ĐỀ TÀI 1.2.1 Mục tiêu đề tài 1.2.2 Nội dung đề tài 1.3 GIỚI HẠN ĐỀ TÀI 1.4 ĐÓNG GÓP CỦA ĐỀ TÀI 1.4.1 Đóng góp mặt khoa học 1.4.2 Đóng góp mặc thực tiễn 1.5 PHƢƠNG PHÁP NGHIÊN CỨU 1.6 CẤU TRÚC LUẬN VĂN CHƢƠNG CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 2.1 CƠ SỞ LÝ THUYẾT 2.1.1 Cắt frame từ đoạn video 2.1.2 Xác định vùng không gian trùng lắp 2.1.3 Phát đối tƣợng di chuyển 2.1.4 Rút trích đặc trƣng đối tƣợng 2.1.5 Gán nhãn đối tƣợng camera 2.2 CÁC NGHIÊN CỨU LIÊN QUAN CHƢƠNG GÁN NHÃN ĐỐI TƢỢNG DI CHUYỂN QUA NHIỀU CAMERA 18 3.1 MÔ TẢ BÀI TOÁN 18 3.2 PHƢƠNG PHÁP ĐỀ XUẤT 18 3.2.1 Chuẩn bị liệu 20 3.2.2 Xác định vùng không gian trùng lắp 20 3.2.3 Phát đối tƣợng 22 3.2.4 Rút trích đặc trƣng đối tƣợng 22 3.2.5 Gán nhãn cho đối tƣợng camera 24 3.2.6 Gán nhãn cho đối tƣợng xuất camera 27 3.2.7 Dữ liệu đầu 29 3.3 PHƢƠNG PHÁP ĐÁNH GIÁ 29 CHƢƠNG THÍ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 30 4.1 TẬP DỮ LIỆU ĐÁNH GIÁ 30 4.2 KẾT QUẢ THÍ NGHIỆM 30 CHƢƠNG KẾT LUẬN 35 5.1 KẾT QUẢ ĐẠT ĐƢỢC 35 5.2 ƢU ĐIỂM VÀ NHƢỢC ĐIỂM PHƢƠNG PHÁP GÁN NHÃN 35 5.2.1 Ƣu điểm 35 5.2.2 Nhƣợc điểm 36 5.3 HƢỚNG MỞ RỘNG 36 TÀI LIỆU THAM KHẢO 37 Bảng ký tự viết tắt RGB : red-green-blue HSV: Hue, Saturation, Value IoU: Intersection over Union GSA: Gale Shaply Algorithm MTMC: Multiple Tracker Multiple Camera FOV: Field Of View SIFT: the Scale Invariant Feature Transform CNN: Convolutional Neural Network R-CNN: Region-based Convolutional Neural Network VOC: Virtual Object Classes CL: Convolutional Layer FCL: Full Connected Layer HIM: Hu’s Invariant Moments LIDAR: Laser Imaging, Detection And Ranging BING: BInarized Normed Gradients DBSCAN: Density-Based Spatial Clustering of Applications with Noise SVM: Support Vector Machine YOLO: You Only Look Once DPM: Deformable Part Model FPNN: Filter Pairing Neural Network CHƢƠNG GIỚI THIỆU 1.1 GIỚI THIỆU ĐỀ TÀI Ngày nay, với phát triển ạt kinh tế toàn cầu xu dân số già nƣớc phát triển dấu hỏi lớn chƣa có lời giải tốn nhân lực Dân số già dẫn đến nguồn nhân lực trẻ, động dần hoi khiến cho việc thiếu lao động ngƣời ngành công nghiệp dịch vụ phổ biến Điều thúc đẩy cho việc đƣa máy tính vào thay ngƣời lao động, mà ngày có nhiều lĩnh vực đời sống cần đến ứng dụng thị giác máy tính Trong lĩnh vực quảng cáo, để ngƣời chủ quảng cáo biết đƣợc số lƣợng khách hàng ý tới quảng cáo họ, cách thông thƣờng họ phải thuê ngƣời theo dõi tính số ngƣời xem quảng cáo họ Tuy nhiên, với giúp đỡ thị giác máy tính, ngƣời quảng cáo đặt hệ thống camera trƣớc quảng cáo tiến hành theo dõi lƣợng ngƣời ngƣớc mặt lên nhìn vào hình quảng cáo Điều giúp cho ngƣời quảng cáo tính đƣợc số lƣợt xem quảng cáo mà khơng bị giới hạn thời gian, hệ thống camera hoạt động xuyên suốt thời gian dài đƣa kết thống kê liên tục Từ kết này, ngƣời quảng cáo thấy đƣợc mức độ hút quảng cáo ngƣời xem đƣa chiến lƣợt, ý tƣởng quảng cáo thu hút cộng đồng Trong lĩnh vực an ninh, camera chống trộm từ điểm đặt camera thu đƣợc hình ảnh kẻ trộm trƣớc, sau thực hành vi trái pháp luật Một hệ thống camera xác định đƣợc đối tƣợng di chuyển video ghi hình thu đƣợc đặc trƣng, thơng tin đối tƣợng đó, chí trƣớc thực hành vi trái pháp luật, hệ thống camera thơng minh phát đƣợc kẻ khả nghi có khả thực hành vi trái pháp luật để đƣa cảnh báo Từ đó, thay dùng mắt thƣờng để xác định đối tƣợng có hành vi sai trái, ta dùng hệ thống thị giác máy tính để đƣa thơng tin đối tƣợng, giúp ngƣời điều tra truy vết đối tƣợng cách dễ dàng Trong lĩnh vực dịch vụ, thị giác máy tính áp dụng cách hiệu cho việc tìm kiếm ngƣời lạc Khi gia đình vào nhà ga, trƣờng hợp nhà ga đoán (prediction) hiệu chỉnh (correction) nhằm xác định trạng thái q trình tuyến tính Trạng thái thứ trạng thái dự đoán, trạng thái giải thuật kalman filter dự đốn gía trị trạng thái trình dựa thơng số đƣợc tính tốn Tới giai đoạn thứ hai giai đoạn hiệu chỉnh, ta có đƣợc giá trị thực trạng thái dự đốn trƣớc đó, thơng số dự đốn đƣợc cập nhật lại để chuẩn bị cho giai đoạn dự đoán Các bƣớc giải thuật kalman filter mô tả theo hình 3.7: Trạng thái thực Bƣớc dự đốn Bƣớc hiệu chỉnh PREDICT CORRECT Giá trị khởi tạo : Trạng thái T = : Bộ thông số ƣớc lƣợng t = Hình 3.7: Chu trình giải thuật Kalman Filter Với việc sử dụng giải thuật Kalman filter để dự đốn vị trí đối tƣợng frame ảnh tiếp theo, ta gán nhãn cho đối tƣợng di chuyển đoạn video Tuy nhiên, việc gán nhãn đối tƣợng di chuyển frame ảnh sử dụng giải thuật kalman filter thông thƣờng không cho kết tốt đối tƣợng di chuyển gần Do đó, tơi sử dụng phƣơng pháp tính toán IoU để cải thiện hiệu suất gán nhãn dựa kalman filter Phƣơng pháp thƣờng đƣợc sử dụng giải thuật phát đối tƣợng có giá trị dự đoán Thực tế, giá trị dự đoán giá trị thu nhận đƣợc có khoảng chênh lệch nhƣ hình 3.8: 25 Hình 3.8: Giá trị dự đốn giá trị thực q trình phát đối tƣợng Khi đó, giá trị IoU đƣợc tính dựa tỉ số vùng giao vùng hợp giá trị thực thu đƣợc giá trị dự đốn theo hình 3.9: Hình 3.9: Cách tính giá trị IoU Hình 3.10: Ý nghĩa giá trị IoU 26 Giá trị IoU đƣợc sử dụng nhƣ thƣớc đo xác định tính đắn giá trị dự đoán so với giá trị thu đƣợc Miền giá trị IoU Є [0,1], giá trị gần nghĩa vùng giao gần vùng hợp giá trị dự đoán gần với giá trị thu đƣợc Ý nghĩa giá trị IoU trình gán nhãn đối tƣợng đƣợc thể hình 3.10: 3.2.6 Gán nhãn cho đối tƣợng xuất camera Dựa việc thiết lập hệ thống camera, đối tƣợng di chuyển từ camera (C1) sang camera (C2), đối tƣợng di chuyển qua vùng không gian trùng lắp hai camera Lúc này, đối tƣợng camera C1 đƣợc gán nhãn nhƣ vậy, để đảm bảo tính quán việc gán nhãn camera, gán nhãn cho đối tƣợng camera C2 nhãn camera C1 Để xác định xác đối tƣợng vừa xuất camera C2 đối tƣợng camera C1, sử dụng vị trí đối tƣợng vùng không gian trùng lắp Trong bƣớc 3.2.2, xác định đƣợc vùng không gian trùng lắp hai camera Khi camera C1 C2, tơi lần lƣợt có đƣợc tọa độ đỉnh A, B, C, D nhƣ hình 3.3 Để xác định đƣợc đối tƣợng vừa xuất C2 đối tƣợng C1 ta tính tốn khoảng cách từ đối tƣợng C1 đến cạnh tƣơng ứng tứ giác ABCD, đƣợc biểu diễn nhƣ hình 3.11: Hình 3.11: Đối tƣợng di chuyển từ camera C1 sang camera C2 Trong hình 3.11 trên, đối tƣợng di chuyển từ camera C1 sang camera C2 theo hƣớng mũi tên, nhƣ vị trí mà đối tƣợng xuất camera C2 gần cạnh AD tứ giác ABCD Khi phát đƣợc đối tƣợng camera C2, tơi tính khoảng cách tất đối tƣợng xuất vùng không gian trùng lắp ABCD camera C1 đến cạnh AD Đối tƣợng có 27 khoảng cách gần với AD có khả đối tƣợng ta cần xét Tuy nhiên, với tiêu chí nhƣ vậy, tơi chƣa thể kết luận đối tƣợng mà ta quan tâm đối tƣợng khác xuất camera C2 vơ tình đứng gần AD đối tƣợng mà ta quan tâm Chính thế, sử dụng giải thuật GSA Giải thuật GSA (hay Stable Matching) giải thuật phổ biến sử dụng để xác định cặp tƣơng đồng hai nhóm đối tƣợng Áp dụng vào tốn tơi, tơi có hai nhóm đối tƣợng cần ghép cặp với Nhóm thứ nhóm đối tƣợng di chuyển xuất vùng không gian trùng lắp camera C1 ký hiệu tập M nhóm thứ hai nhóm đối tƣợng di chuyển xuất vùng không gian trùng lắp camera C2 ký hiệu tập N Giải thuật GSA tìm cặp đối tƣợng tƣơng ứng xuất hai camera cụ thể nhƣ hình 3.12 sau: function GSA { # khởi tạo phần tử m ∈ M n ∈ N phần tử tự (chưa có cặp) while ∃ m tự mà có phần tử n thích hợp { n = phần tử thích hợp phần tử thích hợp bắt cặp với m if n tự (m, n) # m n trở thành cặp else ∃ (m', n) # n có cặp với m’ if n tương đồng với m m’ m' trở thành phần tử tự (m, n) # m n trở thành cặp else (m', n) # m’ n giữ cặp n bị loại khỏi danh sách phần tử thích hợp với m } } Hình 3.12: Mơ tả giải thuật GSA Sau thực giải thuật GSA, ta có đƣợc tập đối tƣợng vùng không gian trùng lắp camera C1 tƣơng ứng với đối tƣợng xuất vùng không gian trùng lắp camera C2 Sau ta có đƣợc đối tƣợng tƣơng ứng với đối tƣợng vừa xuất camera C2 thực gán nhãn cho 28 3.2.7 Dữ liệu đầu Sau gán nhãn xong thu đƣợc đối tƣợng đƣợc gán nhãn với đặc trƣng Dữ liệu lƣu vào kho liệu Mỗi lần xử lý frame, tơi có danh sách đối tƣợng di chuyển foreground frame với đầy đủ thơng tin đặc trƣng màu sắc, hình dáng nhãn 3.3 PHƢƠNG PHÁP ĐÁNH GIÁ Với tốn này, tơi có tiêu chí để đánh giá độ xác việc gán nhãn: tính quán, xác (là tính đắn việc gán nhãn, đối tƣợng phải đƣợc gán nhãn) việc gán nhãn camera tính quán, xác việc gán nhãn hai camera Khi đối tƣợng xuất camera, xác định đối tƣợng gán nhãn cho Khi đối tƣợng di chuyển, việc gán nhãn đối tƣợng qua frame ảnh qn, tơi cho gán nhãn ngƣợc lại gán nhãn sai Tƣơng tự nhƣ vậy, đối tƣợng di chuyển qua hai camera khác nhau, việc gán nhãn hai camera quán đối tƣợng, tơi xác định gán nhãn đúng, ngƣợc lại gán nhãn sai Tiến hành trình cho đối tƣợng di chuyển hai đoạn camera, thu đƣợc số lƣợng đối tƣợng đƣợc xác định gán nhãn sai Từ thống kê số liệu thu thập để xác định hiệu xuất đƣa nhận xét cho phƣơng pháp mà đề xuất 29 CHƢƠNG THÍ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 4.1 TẬP DỮ LIỆU ĐÁNH GIÁ Với mục tiêu đặt chƣơng 1, xây dựng hệ thống gán nhãn đối tƣợng di chuyển qua hai camera đƣợc thiết lập hai trƣờng hợp: có vùng khơng gian trùng lắp song song không song song Kết dự kiến sau xây dựng hệ thống: - Hệ thống có khả phát đối tƣợng di chuyển hai đoạn video - Gán nhãn thành công đảm bảo đƣợc tính quán việc gán nhãn Một đối tƣợng di chuyển qua nhiều vị trí khác đoạn video đƣợc gán nhãn giống - Đảm bảo tính quan việc gán nhãn đối tƣợng di chuyển qua hai camera Tập liệu dùng để kiểm chứng kết dự kiến đƣợc thu từ hai nguồn: - Tập liệu tác giả Francois [23] xây dựng khuông viên trƣờng đại học họ gồm video Các camera đƣợc đặt ghi hình độ cao 1.8m với góc nhìn chéo có vùng không gian trùng lắp Độ phân giải video thu đƣợc từ camera quan sát 360x288 tốc độ ghi hình 25 frames/giây - Tập liệu tơi xây dựng khuông viên trƣờng Đại học Bách Khoa Tp.Hồ Chí Minh gồm video Các camera đƣợc đặt ghi hình độ cao 1.4m với góc nhìn song song có vùng khơng gian trùng lắp Độ phân giải video thu đƣợc từ camera quan sát 960x720 tốc độ ghi hình 30 frames/giây Kết thí nghiệm tập liệu đƣợc trình bày phần 4.2 KẾT QUẢ THÍ NGHIỆM Trong thí nghiệm, tơi lần lƣợt chạy đoạn video thu đƣợc từ camera nhƣ mô tả liệu tập đánh giá bao gồm đặt chéo đặt song song hệ thống đề xuất Tuy nhiên, khng khổ trình bày kết đánh giá này, tơi trích xuất kết 10 đoạn video Việc đánh giá kết đƣợc tính dựa việc gán gãn camera hệ thống Kết lần lƣợt đƣợc biểu diễn bảng 4.1, 4.2, 4.3: 30 STT Số đối tượng Số đối tượng gán Số đối tượng gán xuất nhãn nhãn sai Tập liệu [23], hai camera đặt chéo Chính xác(%) 77.8 10 5 50 40 10 70 Tập liệu tự xây dựng, hai camera đặt song song 5 100 4 100 8 100 15 14 93.3 12 11 91.6 11 10 90.9 Bảng 4.1: Kết thí nghiệm camera STT Số đối tượng Số đối tượng gán Số đối tượng gán xuất nhãn nhãn sai Tập liệu [23], hai camera đặt chéo Chính xác(%) 77.8 10 80 40 10 70 Tập liệu tự xây dựng, hai camera đặt song song 5 100 4 100 87.5 13 11 84.6 11 11 100 9 100 Bảng 4.2: Kết thí nghiệm camera 31 STT Số đối tượng Số đối tượng gán Số đối tượng gán Chính xuất nhãn nhãn sai xác(%) Tập liệu [23], hai camera đặt chéo 88.9 10 80 40 10 80 Tập liệu tự xây dựng, hai camera đặt song song 5 80 4 100 75 16 14 87.5 12 11 91.6 11 10 90.9 Bảng 4.3: Kết thí nghiệm hệ thống hai camera Bảng 4.1, 4.2 thể kết thí nghiệm camera đơn bảng 4.3 kết thí nghiệm hệ thống hai camera mà tơi xây dựng Để tính tốn đƣợc bảng 4.1, 4.2, với đoạn video, tiến hành gán nhãn cho đối tƣợng di chuyển đó, cịn bảng 4.3 tơi tiến hành gán nhãn cho đối tƣợng đối tƣợng xuất hệ thống đến đối tƣợng rời khỏi hệ thống Hình 4.1, 4.2, 4.3 mô tả trạng thái gãn nhãn đối tƣợng: - Xuất camera - Vào vùng không gian trùng lắp hai camera - Xuất camera lại Mỗi đối tƣợng xuất hệ thống đƣợc tính Trong trƣờng hợp đối tƣợng rời khỏi hệ thống quay trở lại sau đƣợc coi đối tƣợng hệ thống khơng giải tốn gán nhãn vùng khơng gian khơng trùng lắp Một đối tƣợng đƣợc gán nhãn từ đối tƣợng xuất hệ thống đến đối tƣợng rời khỏi hệ thống đƣợc tính gán nhãn Độ xác việc gán nhãn dựa tỉ số số đối tƣợng gán nhãn tổng số đối tƣợng xuất hệ thống 32 Đối tƣợng đƣợc gán nhãn “0” xuất camera Hình 4.1: Đối tƣợng xuất camera Đối tƣợng đƣợc gán nhãn “0” xuất vùng không gian trùng lắp hai camera Hình 4.2: Đối tƣợng xuất vùng không gian trùng lắp hai camera Đối tƣợng đƣợc gán nhãn “0” xuất camera Hình 4.3: Đối tƣợng xuất camera 33 Từ kết thí nghiệm, tơi thấy q trình gán nhãn chịu ảnh hƣởng từ bƣớc rút trích đặc trƣng đối tƣợng (màu, hình dáng, vị trí), truy vết đối tƣợng dựa giải thuật Kalman Filter hay phát đối tƣợng dựa YOLO Trong đó, có ảnh hƣởng trực tiếp lớn tới kết hệ thống phát đối tƣợng Việc phát đối tƣợng sai lệch thiếu xác dẫn đến việc rút trích đặt trƣng đối tƣợng không mang lại giá trị tối ƣu nhằm phân biệt truy vết đối tƣợng phƣơng pháp Kalman Filter Để cải thiện hệ thống, việc quan trọng tìm cách nâng cao hiệu xuất giai đoạn phát đối tƣợng Có thể nhìn thấy rõ tác động ảnh hƣởng nhƣ tính đắn việc gán nhãn thơng qua kết từ bảng 4.1, 4.2, 4.3 Độ xác đoạn video từ tập liệu [23] thấp nhìu so với tập liệu mà tơi xây dựng đoạn video tập liệu [23] thu đƣợc từ camera thƣờng, khơng có rõ nét màu bị mờ gần nhƣ video trắng đen nên việc rút trích đặc trƣng khơng thu đƣợc đặc trƣng có độ phân biệt cao đối tƣợng dẫn đến trình gán nhãn sai lệch Bên cạnh đó, ngồi tập liệu [23], tơi xậy dựng tập liệu với nhiều ngữ cảnh từ đơn giản đến phức tạp để làm phong phú thêm nguồn kết tạo rõ ràng việc đánh giá điểm mạnh, điểm yếu nhƣ môi trƣờng ngữ cảnh mà hệ thống gán nhãn với độ xác cao Độ phức tạp ngữ cảnh thể việc chồng lấp đối tƣợng nhƣ vật cản với đối tƣợng, khiến cho việc phát đối tƣợng mạng nơ ron YOLO khơng mang lại hiệu xuất cao, từ làm giảm tính xác hệ thống gán nhãn 34 CHƢƠNG KẾT LUẬN 5.1 KẾT QUẢ ĐẠT ĐƢỢC Dựa nội dung đƣợc đề cập tới chƣơng 1, từ nghiên cứu này: - Tôi thu thập đƣợc nhiều kiến thức liên quan đến thị giác máy tính nói chung truy vết đối tƣợng nói riêng Việc tham khảo nhiều nghiên cứu liên quan giúp tơi có đƣợc nhìn rõ phƣơng pháp truy vết đối tƣợng, hiểu đƣợc ƣu, nhƣợc điểm phƣơng pháp để từ vận dụng vào giải tốn mà tơi tìm hiểu nghiên cứu - Đề xuất đƣợc phƣơng pháp giải cho toán gán nhãn đối tƣợng di chuyển qua nhiều camera hiểu rõ ƣu, nhƣợc điểm phƣơng pháp mà tơi đề xuất để từ rút kinh nghiệm để mở rộng hƣớng phát triển cho nghiên cứu đƣợc sâu hơn, rộng có tính thực tiễn cao - Hiện thực đƣợc phƣơng pháp mà đề xuất để kiểm chứng chứng minh tìm hiểu xây dựng có thật giải đƣợc tốn mơ tả đáp ứng đƣợc mục tiêu đề hay không Kết thu đƣợc chƣa đƣợc xác hồn tồn, nhƣng đảm bảo đƣợc mục tiêu đề đề tài thực với hƣớng phát triển Với kết này, tơi đầu tƣ cải tiến cách cải thiện trƣớc tiên phƣơng pháp phát đối tƣợng, sau giải thuật kalma filter nhƣ cải thiện đặc trƣng rút trích đƣợc đối tƣợng để tăng độ xác cho trình gán nhãn, mở rộng thêm cho việc gán nhãn đối tƣợng di chuyển qua nhiều camera không trùng lắp 5.2 ƢU ĐIỂM VÀ NHƢỢC ĐIỂM PHƢƠNG PHÁP GÁN NHÃN 5.2.1 Ƣu điểm - Tận dụng đƣợc phƣơng pháp phát đối tƣợng di chuyển đoạn camera đƣợc thực trƣớc với độ xử lý nhanh đáp ứng đƣợc tác vụ đòi hỏi kết trả thời gian thực - Giải thuật Kalman Filter đơn giản dễ thực nhƣng đáp ứng đƣợc yêu cầu việc giải toán truy vết đối tƣợng di chuyển camera 35 - Phƣơng pháp xác định vùng không gian trùng lắp dễ thực có tính xác cao, áp dụng rộng rãi tính đơn giản - Giải thuật GSA đƣa đƣợc tập đối tƣợng tƣơng đồng hai camera hiệu có độ xác cao, thực đơn giản xử lý nhanh - Phƣơng pháp đề xuất dễ hiểu 5.2.2 Nhƣợc điểm - Giải thuật Kalman Filter dễ bị nhiễu hai đối tƣợng di chuyển chồng lấp lên Khi đó, phƣơng pháp phát đối tƣợng khó để phát đƣợc đối tƣợng bị che khuất đằng sau Do đó, trƣờng hợp đối tƣợng bị che phủ, cần phải cải tiến Kalman Filter để mang lại hiệu cao - Các đặc trƣng rút trích đƣợc chƣa thật kết hợp với cách hiệu để trình so trùng đạt kết cao 5.3 HƢỚNG MỞ RỘNG Đề tài dừng lại việc gán nhãn cho đối tƣợng di chuyển qua nhiều camera có vùng khơng gian trùng lắp giới hạn thời gian thực, phƣơng pháp rút trích kết hợp đặc trƣng đối tƣợng chƣa mang lại hiệu cao Mục tiêu mà đề tài muốn hƣớng tới giải đƣợc toán truy vết đối tƣợng di chuyển qua nhiều camera có vùng khơng gian trùng lắp khơng có vùng khơng gian trùng lắp nên sau cải thiện việc rút trích đặc trƣng sinh trắc đối tƣợng di chuyển đảm bảo tính định danh cho đối tƣợng đối tƣợng xuất camera khác Đồng thời giải đƣợc tốn thời gian thực Tìm kiếm phƣơng pháp phát đối tƣợng di chuyển vừa có tính xác cao, vừa có thời gian tính tốn thực thi nhanh để cải thiện tốc độ xử lý phƣơng pháp đề xuất 36 TÀI LIỆU THAM KHẢO Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, “You Only Look Once: Unified, Real-Time Object Detection”, Computer Vision and Pattern Recognition (CVPR), IEEE Conferences, pp: 779-788, 2016 Joseph Redmon, Ai Farhadi, “YOLO9000: Better, Faster, Stronger”, Computer Vision and Pattern Recognition (CVPR), IEEE Conferences, pp 6517-6525, 2017 Lowe, David G, “Distinctive image features from scale-invariant keypoints”, International journal of computer vision, Vol 60, number 2, pp 91-110, 2004 Dipen Narendra Dalal, Bill Triggs, “Histograms of oriented gradients for human detection”, 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05), IEEE Conferences, Vol 1, pp 886-893, 2005 Gedas Bertasius, Jianbo Shi, Lorenzo Torresani, “DeepEdge: A multi-sccale bifurcated deep network for top-down contour detection”, Computer Vision and Pattern Recognition (CVPR), IEEE Conferences, pp 4380-4389, 2015 Wei Shen, Xinggang Wang, Yan Wang, Xiang Bai, Zhijiang Zhang, “DeepContour: A deep convolutional feature learned by positive-sharing loss for contour detection”, Computer Vision and Pattern Recognition (CVPR), IEEE Conferences, pp 3982-3991, 2015 A Krizhevsky, I Sutskever, G E Hinton, “Imagenet classification with deep convolutional neural networks”, Advances in neural information processing system, pp 1097-1105, 2012 Dumitru Erhan, Christian Szegedy, Alexander Toshev, Dragomir Anguelov, “Scalable Object Detection Using Deep Neural Networks”, Computer Vision and Pattern Recognition (CVPR), IEEE Conferences, pp 2155-2162, 2014 37 Shipra Ojha, Sachin Sakhare, “Image processing techniques for object tracking in video surveillance – A survey”, International Conference on Pervasive Computing (ICPC), IEEE Conferences, pp 1-6, 2015 10 Yan Yang, Xiaodong Wang, Jiande Wu, Haitang Chen, Zhaoyuan Han, “An improved mean shift object tracking algorithm based on ORB feature matching”, The 27th Chinese Control and Decision Conference (CCDC), IEEE Conferences, pp 4996-4999, 2015 11 Rosten E, Drummond T, “Fusing points and lines for high performance tracking”, Tenth IEEE International Conference on Computer Vision(ICCV’05), IEEE Conferences, Vol 2, pp.1508-1515, 2005 12 Michael Calonder, Vincent Lepetit, Christoph Strecha, Pascal Fua, “Brief: binary robust independent elementary features”, European Conference on Computer Vision (ECCV), Springer, pp 778-792, 2010 13 Jong-Min Jeong, Tae-Sung Yoon, Jin-Bae Park, “Kalman filter based multiple objects detection-tracking algorithm robust to occlusion”, SICE Annual Conference (SICE), IEEE Conferences, pp 941-946, 2014 14 Soonmin Hwang, et al, “Fast multiple objects detection and tracking fusing color camera and 3D LIDAR for intelligent vehicles”, Ubiquitous Robots and Ambient Intelligence (URAI), IEEE Conferences, pp 234-239, 2016 15 Ming-Ming Cheng, Ziming Zhang, Wen-Yan Lin, Philip Torr, “BING: Binarized Normed Gradients for Objectness Esimation at 300fps”, Computer Vision and Pattern Recognition (CVPR), IEEE Conferences, pp 3286-3293, 2014 16 C Lawrence Zitnick, Piotr Dollr, “Edge boxes: Locating object proposals from edges”, European Conference on Computer Vision (ECCV), Springer, pp 391-405, 2014 17 Philipp Krhenbhl, Vladlen KoItun, “Geodesic object proposals”, European Conference on Computer Vision (ECCV), Springer, pp 725-739, 2014 18 Jasper RR Uijlings, Koen E A van de Sande, Theo Gevers, Arnold W M Smeulders, “Selective search for object recognition”, International Journal of Computer Vision (IJCV), Springer, Vol 104, Number 2, pp 154-171, 2013 38 19 Ross Girshick, “Fast R-CNN”, IEEE International Conference on Computer Vision (ICCV), IEEE Conferences, pp 1440-1448, 2015 20 Latha Anuj, M T Gopala Krishna, “Multiple camera based multiple object tracking under occlusion: A survey”, 2017 International Conference on Innovative Mechanisms for Industry Applications (ICIMIA) IEEE Conferences, pp 432-437, 2017 21 Wei Li, Rui Zhao, Tong Xiao, Xiaogang Wang, “DeepReID: Deep Filter Pairing Neural Network for Person Re-identification”, Computer Vision and Pattern Recognition (CVPR), IEEE Conferences, pp 152-259, 2014 22 Ristani, Ergys, et al "Performance measures and a data set for multi-target, multi-camera tracking.", European Conference on Computer Vision (ECCV), Springer, pp 17-35, 2016 23 Francois Fleuret, Jerome Berclaz, Richard Lengagne, Pascal Fua, “Multicamera People Tracking with a Probabilistic Occupancy Map”, IEEE Transactions on Pattern Analysis and Machine Intelligence, IEEE Journals and Magazines, Vol 30, Number 2, pp 267-282, 2008 24 http://www.lalung.vn/upload/images/1-toan-canh-ngon-nui.jpg (Last accessed 01 june 2018) 25 https://www.hund-und-herrchen.de/bilder/webseite/berichte/hund-amstrand-k.jpg (Last accessed 01 june 2018) 39 ... xác việc gán nhãn hai camera Khi đối tƣợng xuất camera, xác định đối tƣợng gán nhãn cho Khi đối tƣợng di chuyển, việc gán nhãn đối tƣợng qua frame ảnh qn, tơi cho gán nhãn ngƣợc lại gán nhãn sai... sinh: 15/06/1993 Nơi sinh: Bình Định Ngành: KHOA HỌC MÁY TÍNH Mã số : 60480101 I TÊN ĐỀ TÀI: Gán nhãn đối tƣợng di chuyển qua nhiều camera (To assign label for moving objects in. .. trình gán nhãn đối tƣợng đƣợc thể hình 3.10: 3.2.6 Gán nhãn cho đối tƣợng xuất camera Dựa việc thiết lập hệ thống camera, đối tƣợng di chuyển từ camera (C1) sang camera (C2), đối tƣợng di chuyển qua

Ngày đăng: 21/04/2021, 11:01

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, “You Only Look Once: Unified, Real-Time Object Detection”, Computer Vision and Pattern Recognition (CVPR), IEEE Conferences, pp: 779-788, 2016 Sách, tạp chí
Tiêu đề: You Only Look Once: Unified, Real-Time Object Detection
2. Joseph Redmon, Ai Farhadi, “YOLO9000: Better, Faster, Stronger”, Computer Vision and Pattern Recognition (CVPR), IEEE Conferences, pp.6517-6525, 2017 Sách, tạp chí
Tiêu đề: YOLO9000: Better, Faster, Stronger
3. Lowe, David G, “Distinctive image features from scale-invariant keypoints”, International journal of computer vision, Vol 60, number 2, pp. 91-110, 2004 Sách, tạp chí
Tiêu đề: Distinctive image features from scale-invariant keypoints
4. Dipen Narendra Dalal, Bill Triggs, “Histograms of oriented gradients for human detection”, 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05), IEEE Conferences, Vol 1, pp.886-893, 2005 Sách, tạp chí
Tiêu đề: Histograms of oriented gradients for human detection
5. Gedas Bertasius, Jianbo Shi, Lorenzo Torresani, “DeepEdge: A multi-sccale bifurcated deep network for top-down contour detection”, Computer Vision and Pattern Recognition (CVPR), IEEE Conferences, pp. 4380-4389, 2015 Sách, tạp chí
Tiêu đề: DeepEdge: A multi-sccale bifurcated deep network for top-down contour detection
6. Wei Shen, Xinggang Wang, Yan Wang, Xiang Bai, Zhijiang Zhang, “DeepContour: A deep convolutional feature learned by positive-sharing loss for contour detection”, Computer Vision and Pattern Recognition (CVPR), IEEE Conferences, pp. 3982-3991, 2015 Sách, tạp chí
Tiêu đề: DeepContour: A deep convolutional feature learned by positive-sharing loss for contour detection
7. A. Krizhevsky, I. Sutskever, G. E. Hinton, “Imagenet classification with deep convolutional neural networks”, Advances in neural information processing system, pp. 1097-1105, 2012 Sách, tạp chí
Tiêu đề: Imagenet classification with deep convolutional neural networks
8. Dumitru Erhan, Christian Szegedy, Alexander Toshev, Dragomir Anguelov, “Scalable Object Detection Using Deep Neural Networks”, Computer Vision and Pattern Recognition (CVPR), IEEE Conferences, pp. 2155-2162, 2014 Sách, tạp chí
Tiêu đề: Scalable Object Detection Using Deep Neural Networks
w