Nhận dạng hành vi người trong video dựa trên đặc trưng hình dáng và chuyển động

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN VÕ HOÀI VIỆT NHẬN DẠNG HÀNH VI NGƯỜI TRONG VIDEO DỰA TRÊN ĐẶC TRƯNG HÌNH DÁNG VÀ CHUYỂN ĐỘNG LUẬN ÁN TIẾN SĨ CƠNG NGHỆ THƠNG TIN Tp Hồ Chí Minh – Năm 2019 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN VÕ HOÀI VIỆT NHẬN DẠNG HÀNH VI NGƯỜI TRONG VIDEO DỰA TRÊN ĐẶC TRƯNG HÌNH DÁNG VÀ CHUYỂN ĐỘNG Ngành: Khoa Học Máy Tính Mã số ngành: 62480101 Phản biện 1: PGS TS Huỳnh Trung Hiếu Phản biện 2: TS Lê Thành Sách Phản biện 3: TS Hà Việt Uyên Synh Phản biện độc lập 1: PGS.TS Nguyễn Thanh Bình Phản biện độc lập 2: TS Ngơ Quốc Việt NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS LÝ QUỐC NGỌC TS TRẦN THÁI SƠN TP Hồ Chí Minh - 2019 LỜI CAM ĐOAN Tơi xin cam đoan kết nghiên cứu trình bày luận án thành trình học tập, nghiên cứu làm việc nhiều năm tơi Kết tơi nghiên cứu kết kế thừa từ cộng đồng trình bày cách hệ thống với minh chứng rõ ràng cụ thể MỤC LỤC LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT MỤC LỤC BẢNG MỤC LỤC HÌNH MỞ ĐẦU 10 CHƯƠNG GIỚI THIỆU 13 1.1 Động lực nghiên cứu 13 1.2 Mục tiêu luận án 15 1.3 Phát biểu toán 16 1.4 Đóng góp 17 1.5 Tổ chức luận án 18 CHƯƠNG CÁC NGHIÊN CỨU LIÊN QUAN VÀ HƯỚNG TIẾP CẬN CỦA LUẬN ÁN 20 2.1 Bài toán nhận dạng hành vi người 20 2.2 Lịch sử nghiên cứu toán nhận dạng hành vi 22 2.3 Các hướng nghiên cứu nhận dạng hành vi 24 2.3.1 Các nghiên cứu sử dụng đặc trưng thiết kế 27 2.3.2 Các nghiên cứu sử dụng đặc trưng học 31 2.3.3 Phương pháp phân lớp hành vi 36 2.4 Hướng tiếp cận luận án 37 2.5 Kết luận 43 CHƯƠNG MÔ HÌNH NHẬN DẠNG HÀNH ĐỘNG 44 3.1 Giới thiệu 44 3.2 Kiến trúc hệ thống 46 3.2.1 Rút trích đặc trưng 49 3.2.2 Biểu diễn hành động 53 3.2.2.1 Giải thuật gom nhóm Kmeans++ 54 3.2.2.2 Mơ hình GMM 55 3.2.2.3 Kỹ thuật phân đoạn video 57 3.2.3 Phân lớp hành động 59 3.3 Kết thực nghiệm 61 3.3.1 Cấu hình thực nghiệm 61 3.3.2 UTKinect-Action 62 3.3.3 Tập liệu 3D Action Pairs 64 3.3.4 Phân tích kết thực nghiệm 66 3.4 Kết luận 67 CHƯƠNG MƠ HÌNH NHẬN DẠNG HOẠT ĐỘNG TRONG SINH HOẠT HÀNG NGÀY 69 4.1 Giới thiệu 69 4.2 Hệ thống đề xuất 72 4.2.1 Rút trích đặc trưng khung xương 74 4.2.2 Rút trích đặc trưng màu – độ sâu 78 4.2.3 Phát sinh chuỗi biểu diễn hoạt động 79 4.2.4 Mơ hình markov ẩn phân lớp hoạt động 81 4.2.5 Mô hình HCRF phân lớp hoạt động 83 4.3 Kết thực nghiệm 86 4.3.1 Tập liệu CAD120 87 4.3.2 Tập liệu MSR DailyActivity 3D 88 4.4 Phân tích kết thực nghiệm 90 4.5 Kết luận 91 CHƯƠNG MƠ HÌNH NHẬN DẠNG HOẠT ĐỘNG TRONG MƠI TRƯỜNG KHƠNG RÀNG BUỘC 93 5.1 Giới thiệu 93 5.2 Học chuyển tiếp 97 5.3 Mơ hình đề xuất 100 5.3.1 VGG 104 5.3.2 Đặc trưng hình ảnh 105 5.3.3 Đặc trưng chuyển động 105 5.3.4 Mơ hình phân lớp NBNN 108 5.4 Thực nghiệm 110 5.4.1 Tập liệu UCF101 110 5.4.2 Tập liệu HMDB 51 112 5.5 Phân tích kết thực nghiệm 114 5.6 Kết luận 115 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 117 6.1 Kết luận 117 6.2 Hướng phát triển 118 DANH MỤC CƠNG TRÌNH TÁC GIẢ 120 TÀI LIỆU THAM KHẢO 122 PHỤ LỤC A: SƠ LƯỢC VỀ THIẾT BỊ GHI NHẬN DỮ LIỆU CHIỀU 134 PHỤ LỤC B: MỘT SỐ THUẬT TOÁN SỬ DỤNG TRONG LUẬN ÁN 138 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT SỬ DỤNG TRONG LUẬN ÁN Ký hiệu Cụm Tiếng Anh Ý nghĩa Histogram of Oriented Histogram of Oriented Normal Normal Vector Vector BOW Bag of Word Mơ hình túi từ CNN Convolution Neural Network Mạng tích chập CRF Conditional Random Field Trường ngẫu nhiên có điều kiện 3DS-HONV DBT Discriminability-based Transfer Discriminability-based Transfer DMM Depth Motion Map Bản đồ chuyển động độ sâu EM Expectation - Maximization Thuật toán ước lượng cực đại GMM Gaussian Mixture Model Mơ hình Gauss hỗn hợp GPU Graphics Processing Unit Bộ xử lý đồ họa HCRF Hidden Conditional Random Field Trường ngẫu nhiên có điều kiện ẩn HMAX Hierarchical Model and X Hierarchical Model and X HMM Hidden Markov Model Mơ hình Markov ẩn HOF Histogram of Optical Flow Biểu đồ luồng chuyển động HOF2.5D Histogram of Optical Flow 2.5D Histogram of Optical Flow 2.5D HOG Histogram of Gradient Biểu đồ đạo hàm theo hướng HOG3D Histogram of Gradient 3D Histogram of Gradient 3D KHMT Computer Science Khoa học máy tính LDP Local Depth Pattern Local Depth Pattern LSH Local Sensitive Hash Thuật toán băm đặc trưng cục LSTM Long Short Term Memory Long Short Term Memory MEI Motion Energy Image Ảnh lượng chuyển động MHB Motion History Boundary Motion History Boundary MHI Motion History Image Ảnh lịch sử chuyển động MKL Multiple Kernels Learning Mơ hình học đa nhân Nạve Bayes Nearest Thuật tốn láng giềng cần ngây Neighbor thơ Visual Geometry Group Mạng học sâu nhóm nghiên cứu NBNN VGG thị giác đại học Oxford RNN Recurrent Neural Network Recurrent Neural Network ROP Random Occupancy Patterns Random Occupancy Patterns Space-Time Interest Points Bộ phát điểm trọng yếu trọng STIP không gian – thời gian SVM Support Vector Machine Máy hỗ trợ phân lớp TGMT Computer Vision Thị Giác Máy Tính TSN Temporal Segment Networks Temporal Segment Networks DANH MỤC CÁC TỪ CHUYÊN MÔN ĐƯỢC DỊCH SANG TIẾNG VIỆT Từ chuyên môn tiếng Việt Từ chuyên môn tiếng Anh Biểu đồ đạo hàm theo hướng Histogram of Orientated Gradients Cảm xúc Expression Cấu trúc ẩn Hidden Structure Cử Gestures Đặc trưng thiết kế Handcrafted Feature Độ sâu Depth Giả thuyết hai dòng vỏ não thị giác Two Streams Hypothesis Gối đầu Overlapping Hành động Action Hành vi người Human Behavior Hoạt động Activity Hoạt động Sub-Activity Học chuyển tiếp Transfer Learning Kết hợp sớm Early Fusion Kết hợp trễ Late Fusion Không gối đầu Non-Overlapping Không gian – thời gian Spatio-Temporal Mạng nơ ron nhân tạo Artificial Neural Network Mạng tích chập Convolution Neural Network Máy hỗ trợ phân lớp Support Vector Machine Mơ hình Markov ẩn Hidden Markov Model Mơ hình túi từ Bag Of Words Mơ hình học đa nhân Multiple Kernel Learning Mơ hình phân biệt Discriminative Model Mơ hình tạo sinh Generative Model Luồng chuyển động Optical Flow Phân đoạn theo thời gian Temporal Segmentation Sự tập trung thị giác Visual Attention Trường ngẫu nhiên có điều kiện Conditional Random Fields Trường ngẫu nhiên trạng thái ẩn có điều kiện Hidden-State Conditional Random Fields Thuật toán băm đặc trưng cục Locality-Sensitive Hashing Tích phân video Integral video Tìm kiếm lưới Grid Search Trọng số cứng Hard-weighting Trọng số mềm Soft-weigthing Tổng hợp cực đại Max pooling MỤC LỤC BẢNG Bảng 2-1 Bảng tóm tắt lịch sử nghiên cứu nhận dạng hành vi bổ sung dựa nghiên cứu [56] 24 Bảng 2-2 Bảng so sánh phương pháp phân lớp tạo sinh phân biệt 37 Bảng 3-1 So sánh kết nhận dạng phương pháp đề xuất tập liệu UTKinectAction 64 Bảng 3-2 So sánh kết nhận dạng phương pháp đề xuất tập liệu 3D Action Pairs 65 Bảng 4-1 Bảng tổng hợp thông tin đặc trưng từ liệu khung xương 77 Bảng 4-2 So sánh với phương pháp khác tập liệu CAD120 88 Bảng 4-3 So sánh kết nhận dạng với phương pháp khác tập liệu MSR DailyActivity 3D 90 Bảng 5-1 So sánh kết huấn luyện mạng VGG16 tập liệu UCF101 111 Bảng 5-2 Kết phân lớp NBNN tập liệu UCF101 111 Bảng 5-3 So sánh với phương pháp khác tập liệu UCF101 112 Bảng 5-4 So sánh kết huấn luyện mạng VGG16 tập liệu HMDB 51 113 Bảng 5-5 Kết phân lớp NBNN tập liệu HMDB 51 113 Bảng 5-6 So sánh với phương pháp khác tập liệu HMDB 51 114 MỤC LỤC HÌNH Hình 2-1 Phân rã toán hành vi người 21 Hình 2-2 Các cấp độ toán nhận dạng hành vi người 22 Hình 2-3 Mơ hình tổng qt cho tốn nhận dạng hành vi 22 Hình 2-4 Mơ hình kết hợp sớm dựa vào đặc trưng đa nguồn 25 Hình 2-5 Mơ hình kết hợp trễ dựa đặc trưng đa nguồn 25 Hình 2-6 Các cột mốc q trình tiến hóa phương pháp rút trích đặc trưng thiết kế liệu toán nhận dạng hành vi người 27 Hình 2-7 Tổng quát mức độ phân cấp toán nhận dạng hành vi người dựa vào thông tin thị giác từ video 38 Hình 2-8 Minh họa cấu trúc vỏ não thị giác chể hiểu thông tin giả thuyết dòng vỏ não thị giác 39 Hình 2-9 Cấu trúc nhận thức hành động người dựa vào hệ thống thông tin thị giác video 41 Hình 2-10 Cấu trúc nhận thức hoạt động người dựa vào hệ thống thông tin thị giác video 42 Hình 3-1 Minh họa lược đồ chung mơ hình nhận dạng hành động người 46 Hình 3-2 Lược đồ mơ hình chi tiết thực hóa mơ hình nhận dạng hành động người 47 Hình 3-3 Minh họa trình học biểu diễn hành động mơ hình BOW 54 Hình 3-4 Kết thực nghiệm với chiều dài phân đoạn khác tập liệu UTKinect-Action 63 Hình 3-5 So sánh chi tiết kết nhận dạng tập liệu UTKinect-Action 63 Hình 3-6 So ánh kết biểu diễn đặc trưng từ vựng thị giác tập liệu UTKinectAction 63 Hình 3-7 Kết thực nghiệm với chiều dài phân đoạn khác tập liệu 3D Action Pairs 64 Hình 3-8 So sánh chi tiết kết nhận dạng tập liệu 3D Action Pairs 65 Hình 3-9 So ánh kết biểu diễn đặc trưng từ vựng thị giác tập liệu 3D Action Pairs 65 Hình 4-1 Minh họa lược đồ chung mơ hình nhận dạng hoạt động người sinh hoạt hàng ngày 71 Hình 4-2 Kiến trúc tổng quát mơ hình đề xuất 73 Hình 4-3 Cấu trúc 15 khớp nối khung xương thu nhận từ Kinect 75 Hình 4-4 Minh họa rút trích đặc trưng thể phận liệu màu 78 Hình 4-5 Quá trình chuyển khung hình hoạt động thành tập véc tơ đặc trưng đại diện hoạt động 80 Hình 4-6 Minh họa trình chuyển đổi hoạt động từ chuỗi khung hình thành chuỗi số tự nhiên với số nhóm 81 Hình 4-7 Kết nhận dạng HMM với trạng thái ẩn với số lượng hàm Gauss khác 87 Hình 4-8 So sánh kết nhận dạng mơ hình HMM HCRF với số lượng trạng thái ẩn khác tập liệu CAD120 88 Hình 4-9 Kết nhận dạng HMM có trạng thái ẩn với số lượng hàm Gauss khác tập liệu MSR DailyActivity 3D 89 128 [69] Li, W., Zhang, Z., Liu, Z (2010), Action Recognition based on A Bag of 3D Points IEEE Workshop on CVPR for Human Communicative Behavior Analysis [70] Lukas Rybok, Boris Schauerte, Ziad Al-Halah, Rainer Stiefelhagen (2014), "Important Stuff, Everywhere!" Activity Recognition with Salient Proto-Objects as Context, IEEE Winter Conference on Applications of Computer Vision (WACV) [71] Lu Xia, J.K Aggarwal (2013), Spatio-Temporal Depth Cuboid Similarity Feature for Activity Recognition Using Depth Camera, CVPR [72] Lv Q, Josephson W, Wang Z, Charikar M, Li K (2007) Multi-probe lsh: efficient indexing for high-dimensional similarity search In: Proceedings of the 33rd international conference on Very large data bases VLDB Endowment, VLDB ‘07, 950–961 [73] L Liu, L Shao (2013), Learning discriminative representations from RGB-D video data, in: Proceedings of International Joint Conference on Artificial Intelligence (IJCAI) [74] L Sun, K Jia, K Chen, D Y Yeung, B E Shi, S Savarese (2017), Lattice Long Short-Term Memory for Human Action Recognition arXiv preprint arXiv:1708.03958 [75] L Yeffet, L Wolf (2009), Local trinary patterns for human action recognition, In ICCV [76] L Y Pratt (1993), Discriminability-Based Transfer between Neural Networks, chez Advances in Neural Information Processing Systems (NIPS Conference) [77] L Wang, Y Qiao, X Tang (2015), Action Recognition with Trajectory - Pooled Deep‐Convolutional Descriptors, CVPR 129 [78] L Wang, Y Xiong, Z Wang, Y Qiao, D Lin, X Tang, L Van Gool (2016) Temporal Segment Networks: Towards Good Practices for Deep Action Recognition, ECCV [79] L Xia, C Chen, J Aggarwal (2012), View invariant human action recognition using histograms of 3d joints In Computer Vision and Pattern Recognition Workshops (CVPRW), IEEE Computer Society Conference on, pages 20– 27 IEEE [80] L Zhao, S Luo (2004), Feedback selective visual attention model based on feature integration theory, in ISNN (2), pp 482–487 [81] Mahasseni, B., Todorovic, S (2016), Regularizing Long Short Term Memory with 3D Human-Skeleton Sequences for Action Recognition In Proceedigs of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, USA, 27–30 [82] Mao Ye, Qing Zhang, Liang Wang, Jiejie Zhu, Ruigang Yang, Juergen Gall (2013), A Survey on Human Motion Analysis from Depth Data Time-of-Flight and Depth Imaging Sensors, Algorithms, and Applications Lecture Notes in Computer Science, Volume 8200, pp 149-187 [83] M Brand, N Oliver, and A Pentlan (1997), Coupled hidden markov model for complex action recognition, In CVPR [84] M Marszalek, I Laptev, C Schmid (2009), Actions in context, CVPR [85] Navneet Dalal, Bill Triggs (2005), Histograms of Oriented Gradients for Human Detection, CVPR [86] Nazli Ikizler-Cinbis, Stan Sclaroff (2010) Object, Scene and Actions, Combining Multiple Features for Human Action Recognition, ECCV [87] Ng, A Y., Jordan, M I (2002) On discriminative vs generative classifiers: A comparison of logistic regression and naive bayes, In Dietterich, T., Becker, S., & Ghahramani, Z (Eds.), Advances in Neural Information Processing Systems 14 (NIPS’01), pp 841–848 130 [88] N E S J C Sharkey (1993), Adaptive generalisation, Artificial Intelligence Review, vol 7, p 313–328 [89] O Boiman, E Shechtman, M Irani (2008), In defense of nearest-neighbor based image classification, CVPR [90] O Oreifej, Z Liu (2013), Hon4d: Histogram of oriented 4d normals for activity recognition from depth sequences, CVPR [91] P Scovanner, S Ali, M Shah (2007), A 3-dimensional SIFT descriptor and its application to action recognition, In MULTIMEDIA [92] Quang D Tran (2013), An Effective Fusion Scheme of Spatio-Temporal Features for Human Action Recognition in RGB-D Video, IEEE-International Conference on Control, Automation and Information Sciences (ICCAIS) [93] Quang D Tran (2013), Sparse Spatio-Temporal Representation of Joint Shape-Motion Cues for Human Action Recognition in Depth Sequences, 2013 IEEE RIVF International Conference on Computing & Communication Technologies -Research, Innovation, and Vision for the Future (RIVF) [94] Q V Le, W Y Zou, S Y Yeung, A Y Ng (2011), Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis, In Proc CVPR, pages 3361–3368 [95] Rizwan Chaudhry, Avinash Ravichandran, Gregory Hager and Ren´ e Vidal (2009), Histograms of Oriented Optical Flow and Binet-Cauchy Kernels on Nonlinear Dynamical Systems for the Recognition of Human Actions, CVPR [96] Ronald Poppe (2010), A survey on vision-based human action recognition, Image and Vision Computing 28, 976–990 [97] Sang Phan, Thanh Duc Ngo, Vu Lam, Son Tran, Duy-Dinh Le, Duc Anh Duong (2014), Shin’ichi Satoh, Multimedia event detection using segmentbased approach for motion feature, Journal of Signal Processing Systems, Vol 74, No 1, pp 19-31 131 [98] Saxena, A Driemeyer, J., Ng, A (2009), Learning 3-d object orientation from images, In ICRA [99] Shuyang Sun, Zhanghui Kuang, Wanli Ouyang, Lu Sheng, Wei Zhang (2018), Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition, CVPR [100] Sung, J., Ponce, C., Selman, B., Saxena, A (2011), Human activity dection from rgbd images, In AAAI PAIR workshop [101] S Tang, X Wang, X Lv, T X Han, J M Keller, Z He, M Skubic, S Lao (2012), Histogram of oriented normal vectors for object recognition with a depth sensor, in ACCV [102] S Kumar, M Herbert (2003), Discriminative random fields: A framework for contextual interaction in classification, ICCV [103] S Wang, A Quattoni, L P Morency, D Demirdjian, M.C.T Darrell (2006), Hidden Conditional Random Fields for Gesture Recognition, In CVPR [104] S T a L Pratt (1998), Learning to Learn, MA, USA: Kluwer Academic Publishers Norwell [105] S J P a Q Yang (2009), A Survey on Transfer Learning, IEEE Transactions on Knowledge and Data Engineering [106] S.Ji, W.Xu, M.Yang, K.Yu (2013), 3D convolutional neural networks for humanaction recognition IEEE PAMI, 35(1):221–231 [107] Tran, D Bourdev, L Fergus, R Torresani, L Paluri, M (2015), Learning spatiotemporal features with 3D convolutional networks In Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV), Santiago, Chile, 13–16 [108] T.T.Truyen, D.Q.Phung, H.H.Bui, S.Venkatesh (2005), Hierarchical semimarkov conditional random fields for recursive sequential data, In NIPS 132 [109] Vu Lam, Sang Phan, Duy-Dinh Le, Duc Anh Duong, Shin’ichi Satoh (2017), Evaluation of multiple features for violent scenes detection, Multimedia Tools and Applications, vol 76, No 5, pp 7041-7065 [110] W Hu, T Tan, L Wang, S Maybank (2004), A survey on visual surveillance of object motion and behaviors SMC, Part C: Applications and Reviews, 34(3):334-352 [111] Xiaodong Yang, YingLi Tian (2014), Super Normal Vector for Activity Recognition Using Depth Sequences, CVPR [112] Xinghua Sun, Mingyu Chen, Alexander Hauptmann (2009), Action Recognition via Local Descriptor and holistic features, Computer Vision and Pattern RecognitionWorkshop, IEEE [113] Yang, X., Zhang, C., Tian, Y (2012), Recognizing actions using depth motion maps based histograms of oriented gradients In: ACM International Conference on Multimedia 1057-1060 [114] Yoshua Bengio (2009), Learning Deep Architectures for AI, Foundations and Trends in Machine Learning [115] Yu Kong, Yun Fu (2015), Bilinear Heterogeneous Information Machine for RGB-D Action Recognition, CVPR [116] Yu, S Cheng, Y Su, S Cai, G Li, S (2016), Stratified pooling based deep convolutional neural networks for human action recognition Multimed Tools Application, 1–16 [117] Yu Zhu, Wenbin Chen, Guodong Guo (2013), Fusing Spatiotemporal Features and Joints for 3D Action Recognition, IEEE Conference on Computer Vision and Pattern Recognition Workshop [118] Y Shi, Y Tian, Y Wang, W Zeng, T Huang (2017), Learning long-term dependencies for action recognition with a biologically-inspired deep network In CVPR, pages 716– 725 133 [119] Y Zhai, M Shah (2006), Visual attention detection in video sequences using spatiotemporal cues, in Proceedings of the 14th annual ACM international conference on Multimedia, ser MULTIMEDIA ’06 ACM [120] Zhao Yang, Liu Zicheng, Cheng Hong (2013), RGB-Depth Feature for 3D Human Activity Recognition, Communications, China [121] Zhu, W Hu, J Sun, G Cao, X Qiao, Y (2016), A key volume mining deep framework for action recognition In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 27–30 134 PHỤ LỤC A: SƠ LƯỢC VỀ THIẾT BỊ GHI NHẬN DỮ LIỆU CHIỀU Một vấn đề tác động kết việc lựa chọn phương pháp nhận dạng hành vi liệu thu nhận camera Việc sử dụng hệ thống camera thích hợp cho việc ghi nhận liệu hành vi tác động lớn đến chức tổng thể phát triển hệ thống nhận dạng hành vi Trên thực tế, camera công cụ cho phát triển lĩnh vực TGMT nhiều thập kỷ qua Các đối tượng tồn giới thực dạng thông tin chiều Khi đối tượng ghi nhận camera 2D chiều thơng tin đi, nguyên nhân thông tin quan trọng biểu diễn đối tượng Đặc biệt, trình thu nhận thông tin từ giới xung quanh, khác với máy móc, người khơng nhìn thấy đối tượng chiều với thành phần màu, vân mà cịn ước lượng độ sâu vật khung cảnh chiều Bắt nguồn từ cảm hứng đó, thuật tốn TGMT gần phát triển với mục tiêu làm để mô tương đối chế hoạt động thị giác người, điều có nghĩa dựa thơng tin 2D điểm ảnh thu để ước lượng thông tin giới thực 3D Một số kỹ thuật trực tiếp tái tạo thơng tin chiều từ ảnh chiều nhất, nhiên kỹ thuật phải xem xét số ràng buộc giả thuyết định Có thể thấy, camera 2D thông thường trực tiếp cung cấp thông tin độ đo, tham số chiều đối tượng khung cảnh Vì cần phải có phương pháp ánh xạ để ước lượng thơng tin chiều liệu (ánh xạ ảnh 2D sang không gian 3D) Đây vấn đề phức tạp cần phải trải qua nhiều trình như: i) thu thập tri thức lĩnh vực; ii) xác định tham số cấu hình hiệu chỉnh hệ tọa độ giới 3D; iii) thiết lập mục so khớp liệu chiều ước lượng Mặc dù có nhiều nghiên cứu đề xuất thuật toán khả thi, vấn đề độ tin cậy mức độ hiệu phương pháp áp dụng vào toán thực tế với thời gian thực chưa giải Vì vậy, phương pháp nhận dạng hành vi người dựa thông 135 tin 3D ước lượng từ liệu ảnh 2D, sử dụng ứng dụng theo thời gian thực Với phát triển công nghệ thiết bị quang học, ngày camera 3D thu nhận cách hiệu quả, xác đáng tin cậy thơng tin ảnh 3D Thời gian gần đây, với đời camera độ sâu Kinect Microsoft giới thiệu vào năm 2010 với chi phí thấp thu hút ý nhà phát triển sản phẩm nhà nghiên cứu tập trung khai thác thiết bị Thiết bị cho phép ghi nhận thơng tin độ sâu cách nhanh chóng xác Kinect cấu tạo thành phần chính: chiếu hồng ngoại, camera hồng ngoại camera màu sắc Cảm biến độ sâu bao gồm chiếu gồm ngoại camera hồng ngoại Bộ chiếu hồng ngoại chuyển mẫu điểm hồng ngoại thành cảnh ba chiều camera hồng ngoại có nhiệm vụ chụp lấy điểm hồng ngoại phản chiếu Mối quan hệ hình học chiếu hồng ngoại camera hồng ngoại xây dựng thơng qua quy trình hiệu chỉnh ngoại tuyến Bộ chiếu hồng ngoại chiếu mơ hình điểm sáng vào khung cảnh ba chiều Những đốm sáng vơ hình camera màu sắc camera hồng ngoại quan sát Vì mẫu cục điểm chiếu nên việc so khớp mẫu quan sát ảnh với mẫu hiệu chỉnh hoàn toàn khả thi Độ sâu điểm suy diễn phép tịnh tiến trái phải mẫu Phép tịnh tiến thay đổi phụ thuộc vào khoảng cách đối tượng mặt phản chiếu camera Điều cho thấy, nhờ cảm biến độ sâu Kinect, dễ dàng xác định khoảng cách tương đối vị trí đối tượng giới thực so với camera mà gọi d(x, y) Dữ liệu độ sâu thu từ Kinect thường gọi ảnh độ sâu Như vậy, ảnh độ sâu giá trị điểm ảnh biểu diễn dạng: p = (x, y, d(x, y)) hay gọi đám mây điểm Dữ liệu độ sâu kết hợp với thơng tin tọa độ khơng gian hình thành tọa độ chiều mô tả thể đối tượng Về ảnh màu RGB, giá trị cường độ màu/ mức xám điểm ảnh tọa độ không gian đại lượng khác Trong ảnh màu/ mức xám, đường bao đối tượng đặc trưng giàu thông tin, có tính đặc thù cao lớp đối tượng Mặc dù có 136 thể áp dụng thủ tục thực tương tự lên ảnh độ sâu, tự nhiên có đặc trưng thực khai thác triệt để thông tin chiều XYZ đối tượng Nhờ vào thiết bị mà toán phát người trở nên dễ dàng Để tận dụng sức mạnh nguồn liệu này, nhiều nghiên cứu đề xuất việc ứng dụng thơng tin vào tốn lĩnh vực TGMT [47, 62, 68] Ngoài việc cung cấp thơng tin độ sâu màu, Kinect cịn có khả bắt liệu khung xương người (hình A-1) Trong cảm biến hồng ngoại thiết bị Kinect có xử lý theo vết khung xương Điều cho phép Kinect nhận dạng người theo dõi hành vi họ cách tương đối xác Bộ camera hồng ngoại cho phép Kinect nhận dạng người tầm nhìn cảm biến theo dấu chi tiết hai người số Bộ theo vết khung xương phát điểm thể người không gian theo vết chuyển động điểm theo thời gian Bộ theo vết khung xương tối ưu hóa nhằm nhận dạng người tư đứng ngồi, khuôn mặt đối diện với Kinect Khi tư nghiêng sang bên gây trở ngại việc theo vết số phận người dùng bị che khuất camera khơng thể quan sát Bên cạnh ưu bật trên, đặc điểm đáng ý camera nhạy cảm với nguồn sáng hồng ngoại Vì vậy, Kinect thích hợp với việc sử dụng mơi trường nhà mơi trường bên ngồi Để thiết kế hệ thống nhận dạng hành vi hiệu khơng có qui luật tổng qt việc chọn loại camera thích hợp, phụ thuộc vào chất vấn đề nghiên cứu yêu cầu, mục đích nghiên cứu q trình thực nghiệm ứng dụng cụ thể Ngoài ra, loại camera có đặc tính đặc thù thích hợp ứng dụng cụ thể điều kiện định (bảng A-1) Tuy nhiên, việc cung cấp nhiều kênh liệu cách hiệu camera 3D mở nhiều hội để nâng cao hiệu toán lĩnh vực TGMT nói chung tốn nhận dạng hành vi người nói riêng 137 Hình A-1 Minh họa cấu trúc Kinect liệu màu, độ sâu khung xương thu nhận Ưu điểm Khuyết điểm - Thu nhận đa dạng nguồn liệu: - Nhạy cảm với ánh ánh sáng mặt trời màu, độ sâu, khung xương - Không lấy ảnh độ sâu phạm vi - Thu nhận thông tin độ sâu từ khoảng lớn 0.7m 0.4 - 0.7m nhanh xác cao - Khơng phát đối tượng có - Chi phí hợp lý từ 150$ dạng suốt có độ phản chiếu cao Bảng A-1 tóm tắt ưu khuyết điểm Kinect 138 PHỤ LỤC B: MỘT SỐ THUẬT TOÁN SỬ DỤNG TRONG LUẬN ÁN Phương pháp rút trích luồng chuyển động G Farnebäck Nghiên cứu rằng, xấp xỉ số vùng lân cận điểm khung hình cách mở rộng đa thức Ta xét việc mở rộng đa thức với hệ tọa độ cụ thể mẫu tín hiệu Xét đa thức xác (khơng xấp xỉ) tín hiệu ( )= Với + ma trận vuông, + hệ tọa độ 1D: (1) véc tơ độ đo ta thêm vào Các tham số đầu vào tính tốn thống kê dựa ma trận trọng số cho phù hợp với giá trị tín hiệu Từ ta tạo tín hiệu sau dời tồn cục khoảng : ( ) = ( − ) = + + (2) Với = = = (3) – (4) − + (5) Ta thấy thứ cần tìm độ dời , thứ ta tìm (4), với điều kiện phải ma trận không suy biến: = = − ( – ) ) ( − (6) (7) Cách cho chiều tín hiệu Có vẻ phi thực tế với việc ta xét tín hiệu tồn cục đa thức đơn chuyển dịch tồn dựa tín hiệu Thực tế hơn, ta bắt đầu với việc thay đa thức toàn cục (2) Với việc thay trên, ta biến đổi đặt lại tên chút để tìm ( ) phù hợp với việc chuyển dịch cục bộ: 139 ( ) + ( ) = ( ) (8) ( ) = − ( ( ) − ( )) ( ) ( )= ( ) (9) (10) Phương trình (10) giải việc tìm độ dời điểm, kết cho nhiễu Thay vào đó, ta nhận việc dịch chuyển vùng điểm ảnh xảy chậm rãi sai khác để ta thu thơng tin dịch chuyển điểm ảnh bên vùng Vì ta tìm d(x) sao cho phù hợp với (10) mà xét vùng lân cận w(∆x)||A(x + ∆x)d(x) − ∆b(x + ∆x )|| (11) Đặt w (∆x ) hàm trọng số cho điểm vùng lân cận Ta có: ( )=( w A) w (12) ∆b Và tất nhiên cần hàm tính độ tin cậy để xem xét tính sai việc tính độ dời : ( )=( w∆b ∆b) − d(x) w ∆b (13) Tới thẳng vào vấn đề, xét tín hiệu miền 2D Ta tham số hóa trường dịch chuyển theo mơ hình tham số để tìm dx, dy sau: ( , )= + + + + ( , )= + + + + (14) Cũng viết lại sau : = = (15) 0 0 0 0 0 0 1 =( (16) ) (17) Thế vào (12), thu ma trận trọng số khoảng cách theo điểm thuộc vùng lân cận i p: 140 | (18) −∆ | (19) = ∆ Tất nhiên, việc thay đổi nhiều so với giả thuyết gốc, từ việc thay đổi từ đa thức toàn cục sang cục đến việc thay đổi hệ chiều xét từ 1D lên 2D gây số vấn đề Đặc biệt vấn đề biến đổi không gian áp dụng mơ hình cục Với độ dời nhỏ khơng sao, với độ dời lớn vấn đề nghiêm trọng Chúng ta không cần phải so sánh đa thức tương ứng với hệ trục (hay ) Chúng ta xét với với + d độ dời vùng tiên nghiệm làm tròn thành số nguyên Vấn đề giải quyết, ngược lại vào giả thuyết ban đầu (8), (9), ta có: ( ) = ∆ ( ) = − ( )+ ( )− ( ) (20) ( ) + ( ) ( ) (21) Như theo tính tốn trên, tính tốn độ dời vùng lớn ảnh thành ma trận độ dời kể xét khung hình có độ sai khác lớn với kết cho tốt nhiễu Thuật tốn gom nhóm Thuật tốn B.1: Thuật toán Kmeans Đầu vào: Tập liệu , số nhóm cần gom Đầu ra: , … , véc tơ trung bình đại diện cho nhóm Begin 1// Khởi tạo ngẫu nhiên , … , 2// Lặp tâm không thay đổi đạt số vòng lặp tối đa 3// Với điểm liệu thứ : ( ) = ( ) − 4// Với nhóm thứ : 5// Kết thúc lặp = { () ∑ ∑ { () } () } 141 Các thuật toán ước lượng tham số mơ hình HMM Thuật tốn B.2: Thuật tốn Forward Đầu vào: Chuỗi liệu hoạt động O, mơ hình tham số ( , , ) Đầu ra: Xác suất ( | ) Begin: 1// Định nghĩa biến αt(i): αt(i) xác suất quan sát chuỗi (o1, o , … , oT ) mà trạng thái ωt i 2// Bước 1: ( ) = ( ) 3// Bước 2: ( ) = ( ) ( ) 4// Bước 3: ( | )= () End Thuật toán B.3: Thuật toán Backward Đầu vào: Chuỗi liệu hoạt động O, mơ hình tham số ( , , ) Đầu ra: Xác suất ( | ) Begin 1// Định nghĩa biến βt(i): ()= ( , , … , , = | ) βt(i) xác suất quan sát chuỗi (ot+1 ,ot+2 , … ,oT ) mà trạng thái ωt i 2// Bước 1: ( ) = 3// Bước 2: ( ) = ( ) () 1

Định dạng
Số trang	144
Dung lượng	3,4 MB