So sánh phương pháp nhận dạng hành động con người trong đoạn video quay bằng một camera dùng dtw và hmm

TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 1(74).2014.QUYỂN II SO SÁNH PHƯƠNG PHÁP NHẬN DẠNG HÀNH ĐỘNG CON NGƯỜI TRONG ĐOẠN VIDEO QUAY BẰNG MỘT CAMERA DÙNG DTW VÀ HMM COMPARISON OF HUMAN ACTION RECOGNITIONS IN MONOCULAR VIDEOS USING DTW AND HMM Hoàng Lê Uyên Thục1 , Phạm Văn Tuấn1 , Shian-Ru Ke2 Trường Đại học Bách khoa, Đại học Đà Nẵng; Email: hluthuc@dut.udn.vn, pvtuan@dut.udn.vn Trường Đại học Washington; Email: srke@uw.edu Tóm tắt – Trong báo này, chúng tơi tìm hiểu so sánh hai thuật toán nhận dạng Dynamic Time Warping (DTW) mơ hình Markov ẩn HMM Trước tiên, từ khung video, dùng kỹ thuật mô hình hóa thể 3D để ước lượng tư người 3D, bao gồm tọa độ 3D điểm đặc trưng; chuyển tọa độ sang thuộc tính quan hệ hình học GRF, mơ tả quan hệ hình học điểm tư nhằm giảm số hướng gia tăng khác biệt tư Tiếp đến, nhằm giảm số hướng nữa, áp dụng kỹ thuật k-means clustering vào GRF để tạo vector thuộc tính Cuối cùng, sử dụng DTW HMM để nhận dạng hành động so sánh hiệu nhận dạng chúng Trong hệ thống, để nhận dạng hành động lặp lại, sử dụng biến thể HMM gốc HMM tuần hoàn CHMM Các kết thực nghiệm sở liệu IXMAS cho thấy CHMM trội nhiều so với DTW Abstract – In this paper, the use of two well-known recognition algorithms which are Dynamic Time Warping (DTW) and Hidden Markov Model (HMM) are studied and compared From each frame in monocular videos, we first estimate the 3D human pose which consists of 3D coordinates of specific human joints using an efficient 3D human modeling technique; then convert them into a set of geometrical relational features (GRF), which describe the geometric relations among body joints of a pose for dimensionality reduction and discrimination increase Next, the k-means clustering technique is applied to those GRFs to generate feature vectors for further dimensionality reduction Finally, we use DTW and HMM in succession for recognition of actions and then compare their recognition performance In our system, in order to recognize the repeated actions we use a variation of original HMM which is cyclic HMM (CHMM) The experiment results on IXMAS dataset show that CHMM stands out DTW in terms of recognition rate Từ khóa – nhận dạng hành động người; mơ hình hóa người 3D; thuộc tính quan hệ hình học; dynamic time warping (DTW); mơ hình Markov ẩn tuần hồn Key words – human action recognition; 3D human modeling; geometrical relational feature; dynamic time warping; cyclic hidden Markov model Đặt vấn đề khung video vào theo tiêu chí Ngược lại, nhận dạng động có quan tâm đến thơng tin thời gian tín hiệu video Nhận dạng động bao gồm phương pháp so khớp mẫu dùng mơ hình khơng gian trạng thái Trong phương pháp so khớp mẫu, chuỗi vector thuộc tính vào so sánh theo khung với chuỗi vector thuộc tính huấn luyện để tìm tương tự Phương pháp dùng mơ hình khơng gian trạng thái biểu diễn hành động mơ hình gồm nhiều trạng thái, trạng thái tương đương tư hành động Để nhận dạng hành động, ta tính likelihood mơ hình hành động quan sát định hành động nhận dạng hành động tương ứng với mơ hình cho likelihood cao Nhiều phương pháp nhận dạng hành động người từ tín hiệu video đề xuất năm gần cho kết khả quan Chẳng hạn, phương pháp [7], D Weinland cộng thực mơ hình hóa hành động lưới 3D xây dựng từ ảnh quay từ nhiều camera Sau đó, mẫu 3D dùng để tạo khung hình bóng 2D dùng cho nhận dạng Phương pháp bị phụ thuộc vào góc quay camera Trong phương pháp [8], I N Junejo cộng đề xuất dùng ma trận tự tương tự (self-similarity matrix) Ma trận tính từ khoảng cách thuộc tính trích từ cặp khung chuỗi hành động theo thời gian Ma trận chứng minh ổn định thay đổi góc quay camera, nhiên vấn đề che khuất chưa giải tốt Trong báo này, đề xuất hệ thống nhận dạng hành động người đoạn video quay camera Để đối phó với thay đổi độ chiếu sáng, quần Nhận dạng hành động người liên quan đến việc phân loại hành động người từ tín hiệu video Đây lĩnh vực nghiên cứu theo hướng “hiểu tín hiệu video” áp dụng nhiều giới như: hệ thống giám sát an ninh thơng minh, hệ thống chăm sóc sức khỏe, hệ thống giao thông thông minh, Một hệ thống nhận dạng hành động điển hình gồm hai bước xử lý chính: trích thuộc tính hai nhận dạng hành động Bước tương đương với biến đổi khung video vào thành vector thuộc tính đa hướng Trong bước hai, ta cần xác định (một cách thống kê) chuỗi thuộc tính trích thuộc vào hành động hành động biết Nhận dạng hành động cơng việc khó khăn phức tạp tư người khác tùy thuộc vào góc quay camera, độ chiếu sáng, nền, quần áo, tốc độ chuyển động, che khuất, Để nhận dạng xác, thuộc tính cần phải đối phó với thay đổi thang không gian-thời gian, phải chứa đựng đặc tính hành động thực nhiều người Vấn đề quan trọng cần chiến lược nhận dạng hiệu khơng gian thuộc tính có được, nghĩa là, xây dựng việc học có ý nghĩa với số lượng mẫu huấn luyện hữu hạn Có thể phân loại thuật toán nhận dạng thành nhận dạng tĩnh nhận dạng động Nhận dạng tĩnh không quan tâm đến thơng tin thời gian tín hiệu, thực dựa vào khung trọng yếu (key frames) trích từ chuỗi 64 Hồng Lê Un Thục, Phạm Văn Tuấn, Shian-Ru Ke áo, góc quay che khuất, lựa chọn kỹ thuật mô hình hóa thể 3D hiệu quả, giúp ước lượng tốt tọa độ 3D điểm đặc trưng; sau biến đổi tọa độ 3D thành tập thuộc tính quan hệ hình học (GRF) phân nhóm dùng thuật tốn k-means clustering Trong khâu nhận dạng, chúng tơi chọn hai thuật tốn tiêu biểu cho phương pháp so khớp mẫu Dynamic Time Warping (DTW) tiêu biểu cho mơ hình khơng gian trạng thái Hidden Markov Model (HMM) Nội dung phần báo gồm: Mục trình bày hệ thống đề xuất, Mục báo cáo thí nghiệm đánh giá kết quả, cuối kết luận Mục Hệ thống nhận dạng hành động đề xuất Kết đầu khối mơ hình hóa 3D tọa độ 3D 13 điểm đặc trưng thể gồm đầu, hai tay, hai khuỷu tay, hai vai, hai chân, hai đầu gối hai hơng Hình 2, ước lượng từ khung hình chuỗi khung video vào Trong khối mơ hình thể 3D có bước là: phân đoạn đối tượng nhằm trích người chuyển động khỏi nền, với thuộc tính 2D gồm ảnh gốc, ảnh bóng, ảnh viền ảnh chuyển động Hình 3; bám đuổi 2D nhằm xác định bám theo vị trí điểm đầu, bàn tay bàn chân qua khung hình (Hình 3); ước lượng 3D nhằm ước lượng thơ mơ hình 3D ban đầu, sau ước lượng tinh nhằm tìm mơ hình 3D tốt dựa vào vị trí điểm đặc trưng nói (Hình 4) Hình mơ tả tổng quan hệ thống đề xuất, bao gồm khối chức chính: mơ hình hóa thể 3D, biến đổi thuộc tính nhận dạng hành động Các mục sau trình bày chi tiết bước Hình 3: Từ trái sang: ảnh gốc, ảnh bóng, ảnh viền ảnh chuyển động Hình 4: Từ trái sang: ảnh gốc, vị trí điểm, quỹ đạo điểm, mơ hình ước lượng 3D 2.2 Biến đổi thuộc tính Hình 1: Tổng quan hệ thống đề xuất 2.1 Mơ hình hóa thể 3D Mơ hình hóa thể 3D dùng hệ thống thực theo phương pháp [1] ưu điểm trội Mơ hình 3D bao gồm phần đầu, tứ chi Đầu biểu diễn hình trịn, biểu diễn hình chữ nhật, chi biểu diễn hai hình trụ: cho phần cho phần chi Hình Hình 2: Từ trái sang: ảnh gốc, 13 điểm đặc trưng, mô hình thể 3D Bước xây dựng sở liệu quan trọng, ảnh hưởng lớn đến toàn trình nhận dạng sau Trong bước này, ta tiếp tục biến đổi tập tọa độ 3D 13 điểm đặc trưng ước lượng từ khung video nói thành vector thuộc tính Hai bước biến đổi thực bao gồm biến đổi thành thuộc tính quan hệ hình học (GRF) 15 hướng thực k-means clustering Mục đích bước giảm số hướng vector thuộc tính Cụ thể dùng trực tiếp tọa độ 3D 13 điểm vector thuộc tính 13 x = 39 hướng, biến đổi GRF giảm 15 hướng Tuy số hướng giảm GRF chứng minh gia tăng khác biệt tư thể, dẫn đến tăng khả nhận dạng [2] Thuộc tính GRF mơ tả quan hệ vị trí điểm đặc trưng thể Bộ mơ tả thuộc tính GRF sử dụng hệ thống gồm 15 thuộc tính trình bày Bảng Thuộc tính GRF gồm hai loại thuộc tính khoảng cách (F1 ∼ F9) thuộc tính góc (F10 ∼ F15) Xét thuộc tính khoảng cách F1 làm ví dụ: dấu F1 cho biết tay phải trước hay sau so với mặt phẳng tạo vai phải, hông phải hông trái; độ lớn F1 cho biết khoảng cách xa gần tay phải mặt phẳng 65 TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 1(74).2014.QUYỂN II Bảng 1: Chi tiết thuộc tính GRF 15 hướng Thuộc tính F1,2 F3,4 F5,6 F7 F8 F9 Mơ tả Khoảng cách có dấu tay phải / trái mặt phẳng xác định vai phải / trái, hông phải hông trái Khoảng cách có dấu chân phải / trái mặt phẳng xác định vai phải, vai trái hông phải/trái Khoảng cách dấu tay phải / trái mặt phẳng xác định vai phải / trái pháp vector đầu – điểm hai hông Khoảng cách trọng tâm thể chân thấp theo hướng Y Khoảng cách hai bàn chân theo hướng Y Khoảng cách tích lũy trọng tâm thể khung khung F10,11 Góc cẳng tay cánh tay phải / trái F12,13 Góc đùi bắp chân phải / trái F14 Góc gập thể dọc theo hướng X Sự thay đổi góc quay ngang thể khung F15 khung trước Tiếp theo, vector GRF 15 hướng phân nhóm dùng thuật toán k-means clustering [3] Mỗi vector GRF chuyển thành từ mã số k từ mã, hay gọi ký hiệu, dựa sở lân cận gần Như vậy, khung video vào chuyển thành ký hiệu số k ký hiệu, chuỗi khung video vào lúc biểu diễn chuỗi vector thuộc tính hướng 2.3 Nhận dạng hành động Hình 5: Ví dụ so khớp hai chuỗi “đá” với hai tốc độ thực khác [4] 2.3.2 Mơ hình Markov ẩn (HMM) HMM mơ hình khơng gian trạng thái điển hình, vốn phổ biến nhận dạng tiếng nói [5] Cấu trúc HMM gồm chuỗi Markov ẩn tập hữu hạn phân bố xác suất đầu Cụ thể là, HMM xác định tập ma trận λ = {A, B, π}, A = ma trận chuyển tiếp = {aij }, với aij xác suất chuyển từ trạng thái qi sang qj , (i, j) ∈ [1 : N); B = ma trận quan sát = {bj (k)}, với bj (k) xác suất ký hiệu vk (rời rạc) quan sát trạng thái qj , k ∈ [1 : M); π = {πi }, với πi xác suất trạng thái khởi đầu Để nhận dạng hành động, ta cần huấn luyện HMM cho hành động Trong giai đoạn huấn luyện, cần xác định số trạng thái HMM, tối ưu hóa xác suất chuyển đổi trạng thái xác suất ký hiệu quan sát để ký hiệu tạo tương ứng với vector thuộc tính chuỗi khung video huấn luyện Trong giai đoạn kiểm tra, ta tính xác suất mà HMM cụ thể tạo chuỗi ký hiệu kiểm tra tương ứng với vector thuộc tính trích từ khung video kiểm tra, để đo likelihood mơ hình chuỗi khung video kiểm tra Likelihood cực đại chọn làm tiêu chuẩn để nhận dạng hành động Như nói trên, khâu nhận dạng, chúng tơi sử dụng hai thuật tốn nhận dạng phổ biến là: (1) Dynamic Time Warping (DTW) tiêu biểu cho nhóm phương pháp so khớp mẫu (2) mơ hình Markov ẩn (HMM) tiêu biểu cho mơ hình khơng gian trạng thái nhằm so sánh hiệu nhận dạng chúng 2.3.1 Dynamic Time Warping (DTW) DTW phương pháp so khớp mẫu điển hình Thường người thực hành động với tốc độ nhanh chậm khác Do vậy, việc đánh giá tương tự hành động mẫu có sẵn với hành động cần nhận dạng cần phải xem xét đến khác biệt Trước tiên, DTW biểu diễn chuỗi khung video hành động mẫu có sẵn chuỗi vector thuộc tính tham chiếu Khi chuỗi khung video chứa hành động cần nhận dạng đưa vào chuỗi vector thuộc tính trích từ so sánh với chuỗi vector thuộc tính tham chiếu để xác định độ tương tự Độ tương tự cao (hay khoảng cách nhỏ nhất) chọn làm tiêu chuẩn để nhận dạng hành động DTW giải sai khác tốc độ hai chuỗi phép toán xóa-chèn, nén-giãn, thay Ưu điểm DTW đơn giản hiệu chấp nhận với điều kiện thứ tự thời gian chuỗi cần nhận dạng giống với thứ tự thời gian chuỗi tham chiếu Hình minh họa so khớp hai chuỗi có tốc độ thực khác [4] Mỗi số biểu diễn tư 66 Hình 6: Ví dụ HMM trái-phải biểu diễn hành động “với tay”[4] Hình đưa ví dụ HMM gốc [4] Mỗi ảnh người hình biểu diễn tư mà xác suất quan sát tư −bj (k)là cao trạng thái qj 2.3.3 Mơ hình Markov ẩn tuần hồn (CHMM) Trong hành động cần nhận dạng có hành động có tính lặp lặp lại gần theo chu kỳ bộ, vẫy tay, Để nhận dạng hành động này, thay sử dụng HMM gốc, đề xuất sử dụng HMM tuần hoàn CHMM – biến thể HMM gốc [6] HMM tuần hoàn HMM gốc trạng thái có thêm chuyển tiếp từ trạng thái cuối trạng thái Hình 7, tức xác suất a51 6= (trong HMM gốc a51 = 0) Chuyển tiếp biểu diễn kết thúc chu kỳ bắt đầu chu kỳ hành động lặp lại Hoàng Lê Uyên Thục, Phạm Văn Tuấn, Shian-Ru Ke thuộc tính với thí nghiệm thuật tốn nhận dạng CHMM Chúng tơi chia đoạn video sở liệu thành phần, đánh số từ đến 5; sau dùng phần 2-5 cho huấn luyện phần để kiểm tra; làm hết Kết thí nghiệm thể ma trận Bảng Hình 7: Mơ hình CHMM dùng hệ thống đề xuất Bảng 2: Ma trận kết thí nghiệm với DTW Thí nghiệm đánh giá kết Để đánh giá hệ thống đề xuất so sánh hiệu nhận dạng hai phương pháp DTW CHMM, chúng tơi tiến hành hai thí nghiệm sở liệu IXMAS [7] Cả hai thí nghiệm dùng chung phương pháp trích vector thuộc tính trình bày mục 2.1, 2.2 khác phương pháp nhận dạng, thí nghiệm dùng DTW thí nghiệm dùng CHMM 3.1 Cơ sở liệu IXMAS Cơ sở liệu IXMAS thực 12 người, người thực 11 hành động là: xem (check_watch), tréo tay (cross_arm), gãi đầu (scratch_head), ngồi xuống (sit_down), đứng lên (get_up), xoay người (turn_around), (walk), vẫy tay (wave), đấm (punch), đá (kick), cúi nhặt đồ vật (pick_up) Tín hiệu video thu từ camera Hệ thống đề xuất nhằm nhận dạng hành động từ tín hiệu video quay camera nên chọn camera camera cho tất thí nghiệm Hình ảnh 11 hành động sở IXMAS Bảng 3: Ma trận kết thí nghiệm với CHMM 3.3 So sánh đánh giá Từ kết thí nghiệm Bảng ta thấy: với thuộc tính thí nghiệm sở liệu tỷ lệ nhận dạng trung bình CHMM 91.7% DTW 68.2% Như vậy, mơ hình Markov ẩn tuần hoàn (CHMM) trội hẳn Dynamic Time Warping (DTW) cho nhận dạng hành động Ngoài ra, để đánh giá hệ thống đề xuất, tiến hành so sánh với vài hệ thống nhận dạng gần [7], [8] sở liệu Hình 8: Các ảnh sở IXMAS 3.2 Thí nghiệm Như trình bày trên, trước tiên, khung video vào chuyển thành vector 39 hướng (là tọa độ 3D 13 điểm), thành vector GRF 15 hướng Sau đó, chúng tơi thực k-means clustering với k = 64 để chuyển vector GRF thành số 64 vector hướng Trong thí nghiệm 1, chúng tơi sử dụng thuật tốn nhận dạng DTW Chuỗi tham chiếu/nhận dạng chuỗi vector hướng số 64 vector có Tiêu chuẩn nhận dạng khoảng cách nhỏ chuỗi tham chiếu chuỗi cần nhận dạng Kết thí nghiệm thể ma trận Bảng Trong thí nghiệm 2, chúng tơi sử dụng vector Hệ thống [7] có tỷ lệ nhận dạng 80.5%, hệ thống [8] cho tỷ lệ nhận dạng 71.2%; hệ thống đề xuất (kết hợp thuộc tính GRF nhận dạng dùng CHMM) cho tỷ lệ nhận dạng 91.7% Điều chứng tỏ tỷ lệ nhận dạng hệ thống đề xuất cao hẳn Kết luận Kỹ thuật nhận dạng hành động từ tín hiệu video ứng dụng rộng rãi nhiều lĩnh vực khác sống đại Trong báo này, chúng tơi phân tích, lựa chọn kết hợp hiệu kỹ thuật mơ hình hóa thể 3D, chuyển đổi thuộc tính quan hệ hình học GRF, phân nhóm k-means mơ hình Markov ẩn tuần hoàn CHMM với nhau, tạo nên hệ thống nhận dạng có kết khả quan Ngồi ra, báo thực so sánh tỷ lệ nhận dạng hệ thống đề xuất với hệ thống khác, cho thấy ưu điểm hẳn hệ thống đề xuất 67 TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 1(74).2014.QUYỂN II Tài liệu tham khảo [1] Shian-Ru Ke, Jenq-Neng Hwang, Kung-Ming Lan, and Shen-Zheng Wang, “View-Invariant 3D Human Body Pose Reconstruction using a Monocular Video Camera,” Proc IEEE ICDSC, 2011, pp 1-6 [2] Hoang Le Uyen Thuc, Pham Van Tuan, and Jenq-Neng Hwang, “An Effective 3D Geometric Relational Feature Descriptor for Human Action Recognition,” Proc IEEE RIVF, 2012, pp 270-275 [3] John A Hartigan and Manchek A Wong, “Algorithm AS 136: A k-means clustering algorithm,” Applied statistics, 1979, pp 100-108 [4] J K Aggarwal and M S Ryoo, “Human Activity Analysis: A Review,” ACM Computing Surveys, vol 43 (3), 2011 [5] Lawrence R Rabiner, “A tutorial on hidden Markov models and selected applications in speech recognition,” Proc IEEE, vol 77(2), 1989, pp 257-286 [6] Hoang Le Uyen Thuc, Shian-Ru Ke, Jenq-Neng Hwang, Pham Van Tuan, Truong Ngoc Chau, “Quasi-Periodic Action Recognition from Monocular Videos via 3D Human Models and Cyclic HMMs,” Proc IEEE ATC, 2012, pp 110-113 [7] D Weinland, E Boyer, R Ronfard, “Action Recognition from Arbitrary Views using 3D Exemplars,” Proc IEEE ICCV, 2007, pp 1-7 [8] Laptev, M Marszałek, C Schmid, and B Rozenfeld, “Learning Realistic Human Actions from Movies,” Proc IEEE CS Conf Computer Vision and Pattern Recognition, 2008, pp 1-8 [9] I.N Junejo, E Dexter, I Laptev, P Perez, “View-Independent Action Recognition from Temporal Self-Similarities”, IEEE Transactions on PAMI, vol 33, no 1, 2011, pp 172-185 (BBT nhận bài: 15/12/2013, phản biện xong: 29/12/2013) 68 ... (CHMM) Trong hành động cần nhận dạng có hành động có tính lặp lặp lại gần theo chu kỳ bộ, vẫy tay, Để nhận dạng hành động này, thay sử dụng HMM gốc, chúng tơi đề xuất sử dụng HMM tuần hoàn CHMM... cho nhóm phương pháp so khớp mẫu (2) mơ hình Markov ẩn (HMM) tiêu biểu cho mơ hình khơng gian trạng thái nhằm so sánh hiệu nhận dạng chúng 2.3.1 Dynamic Time Warping (DTW) DTW phương pháp so khớp... vật (pick_up) Tín hiệu video thu từ camera Hệ thống đề xuất nhằm nhận dạng hành động từ tín hiệu video quay camera nên chọn camera camera cho tất thí nghiệm Hình ảnh 11 hành động sở IXMAS Bảng 3:

Định dạng
Số trang	5
Dung lượng	1,54 MB