0

MỘT KỸ THUẬT PHÁT HIỆN NGƯỜI ĐI BỘ DỰA TRÊN ĐẶC TRƯNG CHUYỂN ĐỘNG

7 12 0
  • MỘT KỸ THUẬT PHÁT HIỆN NGƯỜI ĐI BỘ  DỰA TRÊN ĐẶC TRƯNG CHUYỂN ĐỘNG

Tài liệu liên quan

Thông tin tài liệu

Ngày đăng: 14/01/2021, 14:08

Phát hiện người đi bộ là vấn đề quan trọng trong nhiều bài toán ứng dụng của lĩnh vực xử lý ảnh, ví dụ như giám sát giao thông, phát hiện đột nhập, xe tự hành… Trong bài báo này, chúng [r] (1)MỘT KỸ THUẬT PHÁT HIỆN NGƯỜI ĐI BỘ DỰA TRÊN ĐẶC TRƯNG CHUYỂN ĐỘNG Vũ Đức Thái1, Dương Thị Nhung1* , Ngô Đức Vĩnh2, Phùng Thế Huân1 1Trường Đại học Công nghệ Thông tin Truyền thông – ĐH Thái Nguyên 2Trường Đại học Cơng nghiệp Hà Nợi TĨM TẮT Phát người vấn đề quan trọng nhiều toán ứng dụng lĩnh vực xử lý ảnh, ví dụ giám sát giao thơng, phát đột nhập, xe tự hành… Trong báo này, chúng tơi trình bày kỹ thuật phát người dựa đặc trưng Haar mở rộng, kết hợp với phân lớp yếu được thực dựa thuật toán Adaboost để đưa quyết định Các đặc trưng được tính tốn dựa yếu tố chuyển động sai khác cặp ảnh theo thời gian Kỹ thuật được thử nghiệm chứng tỏ được hiệu sở liệu PETS 2001 số liệu thu Trường Đại học Thông tin Truyền thông – Đại học Thái Nguyên Từ khóa: Phát người bộ; Haar; Haar-like; Haar wavelet; Adaboost… Ngày nhận bài: 02/3/2020; Ngày hoàn thiện: 05/5/2020; Ngày đăng: 11/5/2020 A TECHNIQUE FOR PEDESTRIAN DETECTION BASED ON MOTION FEATURES Vu Duc Thai1, Duong Thi Nhung1*, Ngo Duc Vinh2, Phung The Huan1 1TNU - University of Information and Communication Technology 2HaUI – Hanoi University of Industry ABSTRACT Pedestrian detection is an important issue in many application areas of image processing, such as traffic monitoring, intrusion detection, self-driving car In this paper, we present a pedestrian detection technique based on extended Haar features combined with weak classifiers are implemented based on the Adaboost algorithm to make decisions These features have been calculated based on the difference between pairs of images over time The technique has been implemented and demonstrates the effectiveness on the 2001 PETS database Keywords: Pedestrian Detection; Haar; Haar-like; Haar wavelet; Adaboost… Received: 02/3/2020; Revised: 05/5/2020; Published: 11/5/2020 (2)1 Giới thiệu Bài tốn phát người có thể được coi trường hợp riêng toán phát đối tượng Một tiêu chí hay được nói đến phát người q trình đưa vết người từ khung hình video Quá trình trọng tâm trình xử lý chuỗi ảnh liên tiếp đoạn video để phát có hay khơng người đoạn hình ảnh Hình Các thành phần cục bộ với ảnh gradient [1] Đây tốn có nhiều thách thức phức tạp đa dạng diện mạo, tư thế, quần áo, màu sắc, cảnh nền… người Ngoài điều kiện thời tiết, ánh sáng, khoảng cách quay, vấn đề che khuất… ảnh hưởng đáng kể đến hiệu việc phát người Hiện có nhiều phương pháp, ý tưởng giải quyết toán được nghiên cứu đề xuất, phương pháp, ý tưởng có ưu điểm, nhược điểm riêng Papageorgiou Poggio [1] mô tả hệ thống phát phát người đường với tư cách phần hệ thống hỗ trợ lái xe với khả biểu diễn đối tượng việc sử dụng khác biệt cường độ, hướng nhiều mức vùng lân cận, được tính tốn với Haar wavelet; sở đó, đặc trưng được đưa vào mơ hình máy vector hỗ trợ Dalal Triggs [2] xây dựng lược đồ gradient có định hướng (HOG) để mơ tả đối tượng Theo đó, cửa sổ trượt được chia thành lưới khối vector đặc trưng HOG được trích ra; sau đưa vào phân lớp SVM tún tính Kế thừa cơng trình này, Zhu đồng nghiệp [3] đẩy nhanh tính HOG cách sử dụng lược đồ histogram tích phân [4] Shashua đồng nghiệp [5] đề xuất biểu diễn tương tự đối với thành phần cục để xây dựng mơ hình người (hình 1) Với tiêu chí sử dụng đặc trưng hình dạng, Gavrila Philomin [6], [7] sử dụng khoảng cách Hausdorff hệ thống phân cấp mẫu để nhanh chóng kết hợp biên ảnh vào tập hợp mẫu hình dạng Wu Nevatia [8] sử dụng lượng lớn phân đoạn đoạn thẳng đường cong ngắn, được gọi đặc trưng "edgelet", để biểu thị hình dạng cục Trong [9], "shapelets" mơ tả hình dạng được học phân biệt từ gradient vùng cục bộ; tiếp cận boosting được sử dụng để kết hợp nhiều shapelets vào phát tổng thể (hình 2) Ở kỹ thuật này, ban đầu, đặc trưng cạnh được phát kỹ thuật gradient được trích chọn vùng cục (hình bên trái thể kết với kỹ thuật gradient Sobel), đặc trưng có thể đoạn thẳng, cung, kết hợp với vị trí góc xoay khác (hình bên phải thể đặc trưng cạnh với vị trí hướng khác nhau) Bước tiếp theo, phát tổng thể theo tiếp cận boosting sử dụng kết hợp đặc trưng với để đưa quyết định Hình Đặc trưng edgelet [8] (3)khác Phần tiếp theo báo cụ thể kỹ thuật phát người dựa đặc trưng chuyển động với số vấn đề chi tiết hơn, đặc trưng Haar mở rộng kỹ thuật Adaboost Phần thử nghiệm, đánh giá kết cuối phần kết luận 2 Phát người dựa đặc trưng chuyển động 2.1 Đặc trưng Haar mở rộng Đặc trưng Haar mở rộng được đề xuất [10], được xây dựng dựa đặc trưng Haar áp dụng toán phát khuôn mặt ảnh Những đặc trưng được mở rộng để thực sai khác cặp ảnh theo thời gian, thông tin chuyển động có thể được trích rút từ sai khác Ví dụ, vùng có tổng giá trị tuyệt đối sai khác nếu lớn ứng với chuyển động Thông tin hướng chuyển động có thể được trích rút từ sai khác phiên dịch chuyển ảnh thứ hai theo thời gian so với hình ảnh Các đặc trưng được áp dụng năm ảnh: (1) (2) (3) (4) (5) Với ảnh theo thời gian, toán tử dịch ảnh ( dịch lên pixel) Ví dụ hình Hình Ví dụ ảnh dịch chuyển Một loại đặc trưng tính toán khác {U, L, R, D} (6) Với S {U, L, R, D} khung hình chữ nhật bên cửa sổ phát Các đặc trưng trích rút thơng tin khả vùng chủn động theo hướng (hình 4) Hình Ví dụ đặc trưng Haar mở rộng áp dụng trên một ảnh Loại đặc trưng thứ hai so sánh tổng vùng bên ảnh chuyển động: (7) Với đặc trưng được mô tả hình vẽ Cuối cùng, loại đặc trưng thứ ba đo cường độ chuyển động từ ảnh chuyển động: (8) Với S {U, L, R, D} khung hình chữ nhật bên cửa sổ Từ đặc trưng, phân lớp được xây dựng đơn giản so sánh giá trị đặc trưng với ngưỡng Giá trị ngưỡng được học với phân lớp cụ thể Các phân lớp được kết hợp dựa kỹ thuật Adaboost 2.2 Adaboost AdaBoost phân loại mạnh phi tuyến phức dựa hướng tiếp cận boosting được Freund Schapire đưa [11] (4)lớp được tạo từ đặc trưng Haar mở rộng được mô tả (chi tiết sơ đồ thuật tốn theo hình 4) Hình Sơ đồ tổng quát hệ thống 2.3 Quy trình hệ thống Hệ thống được thực dựa sơ đồ tổng quát hình Bước trích vùng ứng viên lấy vùng quan tâm từ ảnh để gửi đến khối trích chọn đặc trưng Trong bước nếu tránh được vùng quan tâm khơng có người nhiều tốc độ hệ thống được cải thiện.Việc trích vùng ứng viên được thực khung hình, cụ thể dùng kỹ thuật cửa sổ trượt vùng chuyển động khung hình Đầu tiên ta tính ảnh mặt nạ chuyển động Ảnh mặt nạ chủn động được tính thơng qua kỹ thuật trung vị, cụ thể khung hình được so sánh với ảnh nền được tính trung vị n khung hình trước đó: B(x,y,t) = median{I(x,y,t −i)},i=0, ,n−1 (9) Trong đó, B(x,y,t) giá trị điểm ảnh tọa độ (x,y) thời điểm t, I(x,y,t) giá trị điểm ảnh tọa độ (x,y) khung hình thu được thời điểm t Việc tính ảnh mặt nạ chuyển động được thực sau: |I(x,y,t)−B(x,y,t)}| >threshold (10) Như vậy, (x, y), nếu giá trị điểm ảnh thời lệch so với vượt ngưỡng threshold (x,y) được gán nhãn chuyển động Sau đó, ta qt vùng khung hình có chủn động cửa sổ có kích cỡ phù hợp để lấy vùng ứng viên Bước trích đặc trưng tính giá trị đặc trưng Haar mở rộng vùng ứng viên xét Để có thể tính tốn cách nhanh chóng, trước đó, sau nhận được khung hình thời, ta thực tính tốn ảnh tích phân với bước cụ thể sau: - Từ khung hình khung hình trước đó xây dựng ảnh - Tính nhiều mức tỉ lệ (pyramids) ảnh - Xây dựng ảnh tích phân Ảnh tích phân cơng cụ được Viola đồng nghiệp [12] sử dụng để tính nhanh đặc trưng Haar Bước cuối thực phân lớp vùng ảnh ứng viên người hay Việc phân lớp được thực dựa thuật toán Adaboost với phân lớp yếu sử dụng đặc trưng chuyển động dựa Haar mở rộng 3 Thử nghiệm Chương trình được cài đặt ngôn ngữ Matlab, sử dụng công cụ Matlab R2015a Matlabđược lựa chọn khả đơn giản hóa việc giải qút tốn tính tốn kĩ thuật so với ngơn ngữ lập trình truyền thống Luồng thực chương trình tuân theo bước quy trình được mơ tả Việc thử nghiệm được tiến hành với hai trường hợp: trường hợp thứ phương pháp được thử nghiệm với liệu PETS 2001 để kiểm chứng kết lý thuyết trường hợp thứ hai chương trình chạy với vài liệu tự thu điều kiện thông thường Trường Đại học Thông tin Truyền thông – Đại học Thái Nguyên nhằm hướng đến đánh giá điều kiện video quay thực tế Bảng Dữ liệu huấn luyện kiểm tra Dataset Tập huấn luyện Tập kiểm tra 1 video có 3063 frame video có 2688 frame video có 2989 frame video có 2823 frame video có 5563 frame video có 5336 frame video có 5010 frame video có 6789 frame video có 2866 frame (5)Với trường hợp thứ nhất, liệu video thử nghiệm được lấy từ sở liệu có sẵn PETS 2001 [13] Đây sở liệu gồm ảnh video quay người thực trời Cơ sở liệu được xây dựng nhằm đánh giá hiệu thuật toán phát người Đặc điểm sở liệu dùng camera để thu hình cảnh vật người PETS 2001 gồm tập liệu, tập liệu có tập huấn luyện kiểm tra tương ứng (bảng 1) Tiến hành thử nghiệm với video liệu, ta có với video_1.avi, khung hình có người xe di chuyển, kết phát tương đối xác Chương trình có khả phát người với kích thước nhỏ, khoảng cách xa (hình 6) Hình Khung hình kết với video_1.avi: Nhiều người bộ xe di chuyển Hình Khung hình kết với video_2.avi: Chỉ có xe di chuyển người bộ bị che khuất xe Hình Khung hình kết với video_3.avi: Nhiều người bộ di chuyển Với video_2.avi, khung hình có người xe di chủn, kết phát khơng được tốt (hình 7) Video cho thấy chương trình số trường hợp với ảnh phức tạp có góc quay không được thuận lợi chưa phân biệt được người với xe chuyển động Để giải quyết vấn đề cần đa dạng hóa tập liệu huấn luyện với nhiều góc quay nhiều khung cảnh khác Với video_3.avi, kết phát tốt (hình 8) Sau phát vùng chủn động, chương trình xem xét có phải người không video có người chủn động khơng có đối tượng chủn động khác nên khơng có phát nhầm (ví dụ với xe…) Với video_4.avi, khung hình có người di chuyển, kết phát tương đối xác (hình 9) Hình Khung hình kết với video_4.avi: Người bộ di chuyển đường (6)Sau thử nghiệm video, khả phát người khoảng 80% Trong số trường hợp ảnh phức tạp có góc quay không được thuận lợi chưa phân biệt được người với đối tượng khác chuyển động Trong trường hợp thứ hai, liệu được tổ chức thu sân trường Trường Đại học Công nghệ thông tin truyền thông - Đại học Thái Nguyên Dữ liệu được thu từ điện thoại di động, độ phân giải 1280x720, tốc độ 30 fps, thông số nén H264 - MPEG-4 AVC, bao gồm video với thời gian quay phút 11 giây Dữ liệu được thu với điều kiện lại bình thường sinh viên giảng viên sân trường (hình 10) Hình 10 Mợt số kết với liệu thu Đại học Thông tin Truyền thông – Đại học Thái Nguyên Trong kết thu được, ta nhận thấy việc thực phát người cho kết tốt điều kiện đối tượng đứng riêng biệt, rõ ràng Đây sở để có thể áp dụng thuật tốn ứng dụng có sử dụng video quay môi trường tự nhiên điện thoại di động, camera giám sát Bên cạnh đó, việc phát bị nhầm với đối tượng có đặc trưng cấu trúc ảnh tương tự cây, góc xe tơ Ngồi ra, việc phát chưa được tốt trường hợp đối tượng bị che khuất nhiều 4 Kết luận Người đối tượng được quan tâm nhiều hệ thống thị giác máy phát người vấn đề nghiên cứu có nhiều tiềm ứng dụng thực tế Trong báo này, tác giả đề xuất kỹ thuật phát người dựa sai khác cặp ảnh theo thời gian, với đặc trưng Haar mở rộng kỹ thuật Adaboost Kỹ thuật cài đặt thử nghiệm với sở liệu PETS 2001 số liệu quay thực tế Trường Đại học Công nghệ Thông tin Truyền thông - Đại học Thái Nguyên Tuy nhiên, kỹ thuật mới tỏ có hiệu với đối tượng đơn lẻ Trong số trường hợp ảnh phức tạp có góc quay khơng được thuận lợi chưa phân biệt được người với đối tượng khác chuyển động Trong thời gian tới tác giả tiếp tục nghiên cứu cho trường hợp theo đồn có che khuất, triển khai thử nghiệm hệ thống video giám sát thực tế TÀI LIỆU THAM KHẢO/ REFERENCES [1] C Papageorgiou, and T Poggio, “A Trainable System for Object Detection,” Int’l J Computer Vision, vol 38, no 1, pp 15-33, 2000 [2] N Dalal, and B Triggs, “Histograms of Oriented Gradients for Human Detection,” Proc IEEE Conf Computer Vision and Pattern Recognition, 2005, pp 20-25 [3] Q Zhu, S Avidan, M Yeh, and K Cheng, “Fast Human Detection Using a Cascade of Histograms of Oriented Gradients,” Proc IEEE Conf Computer Vision and Pattern Recognition, 2006, pp 1491-1498 [4] F M Porikli, “Integral Histogram: A Fast Way to Extract Histograms in Cartesian Spaces,” Proc IEEE Conf Computer Vision and Pattern Recognition, 2005, pp 1-11 [5] Z Shanshan et al., "Towards reaching human performance in pedestrian detection," IEEE transactions on pattern analysis and machine intelligence, vol 40, no 4, pp 973-986, 2017 [6] M Jiayuan et al., "What can help pedestrian detection?" Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp 3127-3136 (7)[8] B Wu, and R Nevatia, “Detection of Multiple, Partially Occluded Humans in a Single Image by Bayesian Combination of Edgelet Part Detectors,” Proc 10th IEEE Int’l Conf Computer Vision, 2005, pp 90-97 [9] P Sabzmeydani, and G Mori, “Detecting Pedestrians by Learning Shapelet Features,” Proc IEEE Conf Computer Vision and Pattern Recognition, 2007, pp 1093-1099 [10] P A Viola, M J Jones, and D Snow, “Detecting Pedestrians Using Patterns of Motion and Appearance,” Int’l J Computer Vision, vol 63, no 2, pp 153-161, 2005 [11] Y Freund and R E Schapire, “A decision-theoretic generalization of online learning and an application to boosting,” Journal of Computer and System Sciences, vol 55, no 1, pp 119-139, 1997 [12] V Paul, and M Jones, "Rapid object detection using a boosted cascade of simple features," Proceedings of the 2001 IEEE Computer Society Conference on, IEEE, 2001, vol 1, pp 511-518 http://www.cvg.reading.ac.uk/PETS2001/pets2001-dataset.html.
- Xem thêm -

Xem thêm: MỘT KỸ THUẬT PHÁT HIỆN NGƯỜI ĐI BỘ DỰA TRÊN ĐẶC TRƯNG CHUYỂN ĐỘNG, MỘT KỸ THUẬT PHÁT HIỆN NGƯỜI ĐI BỘ DỰA TRÊN ĐẶC TRƯNG CHUYỂN ĐỘNG

Hình ảnh liên quan

Hình 1. Các thành phần cục bộ với ảnh gradient [1] Đây là bài toán có nhiều thách thức và phức  tạp  do  sự  đa  dạng   trong diện  mạo,  tư  thế,  quần  áo,  màu  sắc,  cảnh  nền…của  người  đi  bộ - MỘT KỸ THUẬT PHÁT HIỆN NGƯỜI ĐI BỘ  DỰA TRÊN ĐẶC TRƯNG CHUYỂN ĐỘNG

Hình 1..

Các thành phần cục bộ với ảnh gradient [1] Đây là bài toán có nhiều thách thức và phức tạp do sự đa dạng trong diện mạo, tư thế, quần áo, màu sắc, cảnh nền…của người đi bộ Xem tại trang 2 của tài liệu.
Với tiêu chí sử dụng các đặc trưng hình dạng, Gavrila  và  Philomin  [6],  [7]  đã  sử  dụng  khoảng cách Hausdorff và một hệ thống phân  cấpmẫu  để  nhanh  chóng  kết  hợp  các biên  ảnh vào một tập hợp các mẫu hình dạng - MỘT KỸ THUẬT PHÁT HIỆN NGƯỜI ĐI BỘ  DỰA TRÊN ĐẶC TRƯNG CHUYỂN ĐỘNG

i.

tiêu chí sử dụng các đặc trưng hình dạng, Gavrila và Philomin [6], [7] đã sử dụng khoảng cách Hausdorff và một hệ thống phân cấpmẫu để nhanh chóng kết hợp các biên ảnh vào một tập hợp các mẫu hình dạng Xem tại trang 2 của tài liệu.
Hình 4. Ví dụ đặc trưng Haar mở rộng áp dụng - MỘT KỸ THUẬT PHÁT HIỆN NGƯỜI ĐI BỘ  DỰA TRÊN ĐẶC TRƯNG CHUYỂN ĐỘNG

Hình 4..

Ví dụ đặc trưng Haar mở rộng áp dụng Xem tại trang 3 của tài liệu.
Hình 3. Ví dụ về các ảnh đã dịch chuyển - MỘT KỸ THUẬT PHÁT HIỆN NGƯỜI ĐI BỘ  DỰA TRÊN ĐẶC TRƯNG CHUYỂN ĐỘNG

Hình 3..

Ví dụ về các ảnh đã dịch chuyển Xem tại trang 3 của tài liệu.
- Từ khung hình hiện tại và khung hình trước đó xây dựng 5 ảnh .  - MỘT KỸ THUẬT PHÁT HIỆN NGƯỜI ĐI BỘ  DỰA TRÊN ĐẶC TRƯNG CHUYỂN ĐỘNG

khung.

hình hiện tại và khung hình trước đó xây dựng 5 ảnh . Xem tại trang 4 của tài liệu.
Hình 5. Sơ đồ tổng quát của hệ thống - MỘT KỸ THUẬT PHÁT HIỆN NGƯỜI ĐI BỘ  DỰA TRÊN ĐẶC TRƯNG CHUYỂN ĐỘNG

Hình 5..

Sơ đồ tổng quát của hệ thống Xem tại trang 4 của tài liệu.
Hình 7. Khung hình kết quả với video_2.avi: - MỘT KỸ THUẬT PHÁT HIỆN NGƯỜI ĐI BỘ  DỰA TRÊN ĐẶC TRƯNG CHUYỂN ĐỘNG

Hình 7..

Khung hình kết quả với video_2.avi: Xem tại trang 5 của tài liệu.
Hình 6. Khung hình kết quả với video_1.avi: - MỘT KỸ THUẬT PHÁT HIỆN NGƯỜI ĐI BỘ  DỰA TRÊN ĐẶC TRƯNG CHUYỂN ĐỘNG

Hình 6..

Khung hình kết quả với video_1.avi: Xem tại trang 5 của tài liệu.
Hình 10. Một số kết quả với dữ liệu thu tại Đại học Thông tin Truyền thông –Đại học  - MỘT KỸ THUẬT PHÁT HIỆN NGƯỜI ĐI BỘ  DỰA TRÊN ĐẶC TRƯNG CHUYỂN ĐỘNG

Hình 10..

Một số kết quả với dữ liệu thu tại Đại học Thông tin Truyền thông –Đại học Xem tại trang 6 của tài liệu.