Nghiên cứu và ứng dụng các thuật toán nhận dạng hành động bất thường của bệnh nhân tại nhà

TRƯỜNG ĐẠI HỌC AN GIANG KHOA CÔNG NGHỆ THÔNG TIN KHĨA LUẬN TỐT NGHIỆP NGÀNH CƠNG NGHỆ THƠNG TIN NGHIÊN CỨU VÀ ỨNG DỤNG CÁC THUẬT TOÁN NHẬN DẠNG HÀNH ĐỘNG BẤT THƯỜNG CỦA BỆNH NHÂN TẠI NHÀ NGUYỄN MINH TÂM AN GIANG, 05-2022 TRƯỜNG ĐẠI HỌC AN GIANG KHOA CƠNG NGHỆ THƠNG TIN KHĨA LUẬN TỐT NGHIỆP NGÀNH CƠNG NGHỆ THÔNG TIN NGHIÊN CỨU VÀ ỨNG DỤNG CÁC THUẬT TOÁN NHẬN DẠNG HÀNH ĐỘNG BẤT THƯỜNG CỦA BỆNH NHÂN TẠI NHÀ NGUYỄN MINH TÂM DTH185419 GIẢNG VIÊN HƯỚNG DẪN TS ĐOÀN THANH NGHỊ AN GIANG, 05-2022 NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN Giảng viên hướng dẫn (Ký ghi rõ họ tên) Nội dung nhận xét: - Đồng ý hay không đồng ý cho sinh viên báo cáo TTCK; Nếu không đồng ý cần ghi rõ lý - Kết đạt so với yêu cầu; - Ý kiến khác (nếu có) LỜI CẢM ƠN Trước tiên, em xin gửi lời cảm ơn chân thành, sâu sắc đến ban Giám Hiệu trường Đại học An Giang thầy, cô khoa Cơng Nghệ Thơng Tin tận tình dạy dỗ, truyền đạt cho em nhiều kiến thức quý báo bổ ích giảng đường đại học, làm hành trang vững cho chặng đường sau tương lai Để hoàn thành đề tài luận văn với kết tốt nhất, bên cạnh nỗ lực học hỏi thân, vận dụng kiến thức học trường tìm hiểu ngồi thực tế, em xin tỏ lòng biết ơn chân thành, sâu sắc tới TS Đoàn Thanh Nghị trực tiếp hướng dẫn, quan tâm tận tình giúp đỡ em trình thực đề tài Xin chân thành cảm ơn anh, chị khóa trên, bạn khoa Cơng Nghệ Thơng Tin nói chung tập thể lớp DH19TH1 nói riêng giúp đỡ, động viên tơi nhiều trình học tập nghiên cứu trường Mặc dù cố gắng hoàn thành luận văn phạm vi khả cho phép với kinh nghiệm hạn chế sinh viên chắn thiếu sót điều khơng thể tránh khỏi Em kính mong nhận cảm thơng, bảo tận tình thầy, để nâng cao khả tìm hiểu nghiên cứu cho cơng việc thực tế sau Em xin chân thành cảm ơn! Tp Long Xuyên, ngày 17 tháng 05 năm 2022 Sinh viên Nguyễn Minh Tâm TÓM TẮT Khi sống người ngày trở nên đại, sức khỏe ln yếu tố hàng đầu Vì nhu cầu đến bệnh viện hay sở y tế cá nhân người ngày tăng cao Đặc biệt tình hình dịch bệnh COVID-19 diễn hoành hành Các sở y tế hay bệnh viện tải bệnh nhân dẫn đến trường hợp khó kiểm sốt thiếu nguồn nhân lực y tế, gây khó khăn việc quản lí theo dõi tình hình sức khỏe bệnh nhân, thay vào bệnh nhân chăm sóc sức khỏe nhà Khi cơng nghệ ngày tân tiến giải pháp chọn lắp đặt camera giám sát để theo dõi bệnh nhân Nhưng thuật toán hệ thống nhận diện camera cũ lỗi thời sử dụng thuật toán đơn giản, thiếu tính xác hao tổn tài ngun phải cần thiết bị có cấu hình cao mạnh chạy mượt mà thuật tốn Trong báo đề xuất hệ thống camera thông minh thời gian thực giám sát, nhận dạng cảnh báo hành động bất thường bệnh nhân từ xa với chi phí hợp lý dễ dàng triển khai thực tế Cụ thể, tìm hiểu phát triển mơ hình mạng kết hợp Mediapipe Pose, LSTM, Train Pipeline nhận dạng hành động bệnh nhân từ xa Tập liệu tự xây dựng cách thu thập liệu thực tế sử dụng lại tập liệu có sẵn Hệ thống chúng tơi đánh giá kiểm thử thực tế với độ xác 95% chạy mượt mà thiết bị cấu hình thấp Để giải vấn đề trên, tơi định xây dựng phần mềm chạy tảng linux, nghiên cứu tìm hiểu kỹ thuật học sâu để nhận dạng tương đối xác với số hành động người Từ áp dụng vào xây dựng hệ thống camera giám sát thông minh phục vụ chăm sóc sức khỏe nhà, giúp dễ dàng nhận hành động bất thường bệnh nhân Đề tài gồm ba chương với nội dung cụ thể sau: Chương I: Trong chương tổng quan này, nêu hướng tiếp cận giải pháp ứng dụng toán nhận diện hành động thời gian thực Chương II: Cơ sở lý thuyết sử dụng để giải vấn đề Về khái niệm xử lý video, xử lý ảnh, chuyển hóa liệu đầu vào, nghiên cứu tương tự sâu vào mạng huấn luyện học sâu – mạng nơ-ron hồi quy, phương pháp Train Pipeline, tìm hiểu hướng giải cho tốn với liệu hành động hạn chế số lượng Chương III: Ở chương mô tả hệ thống nhận dạng hành động gửi tin nhắn cảnh báo, liệu huấn luyện, mơ hình huấn luyện… Ngồi ra, cịn đề cập đến cách thu thập liệu, tiền xử lý liệu cài đặt triển khai mơi trường huấn luyện trình cụ thể Đồng thời dựa kết chạy thử nghiệm đưa kết luận điểm mạnh điểm hạn chế hệ thống, từ đề hướng nghiên cứu để phát triển cải thiện chất lượng nhận dạng hệ thống MỤC LỤC CHƯƠNG I: TỔNG QUAN 1.1 TÍNH CẤP THIẾT CỦA ĐỀ TÀI……………………………….… 1.2 LÝ DO CHỌN ĐỀ TÀI…………………………………………… 1.3 MỤC TIÊU ĐỀ TÀI………………………………………………… 1.4 MỤC TIÊU NGHIÊN CỨU………………………………………… 1.5 PHƯƠNG PHÁP NGHIÊN CỨU…………………………………….2 CHƯƠNG II: CƠ SỞ LÝ THUYẾT 2.1 MỘT SỐ KHÁI NIỆM 2.1.1 Hệ thống thông minh 2.1.1.1 Khái niệm…………………………………………… 2.1.1.2 Hệ thống hỗ trợ chăm sóc sức khỏe bệnh nhân, người già…………………………………………………………………………… 2.1.2 Tổng quan Deep Learning 2.1.2.1 Deep Learning gì? …………………………………4 2.1.2.2 Mạng nơ-ron nhân tạo……………………………… 2.1.2.3 Một số ứng dụng Deep Learning……………… 2.1.3 Bài toán nhận diện hành động người thị giác máy tính 2.1.3.1 Tổng quan thị giác máy tính…………………………5 2.1.3.2 Thế thị giác máy tính………………………….5 2.1.3.3 Ứng dụng thị giác máy tính…………………… 2.1.3.4 Bài tốn nhận diện hành động người………… 2.2 CÁC NGHIÊN CỨU TƯƠNG TỰ VỀ ĐỀ TÀI…………………….7 2.3 GIỚI THIỆU PHƯƠNG PHÁP TRAIN PIPELINE 2.3.1 Giới thiệu Pipeline Sklearn……………………………… 2.3.1.1 Tổng quan…………………………………………… 2.3.1.2 Chi tiết pipeline…………………………………….8 2.4 GIỚI THIỆU VỀ MEDIAPIPE – MEDIAPIPE POSE 2.4.1 Giới thiệu thư viện Mediapipe…………………………… 2.4.2 Giới thiệu thư viện Mediapipe Pose………………………10 2.5 GIỚI THIỆU MƠ HÌNH LSTM 2.5.1 Giới thiệu Recurrent Neural Network (RNN) 2.5.1.1 Giới thiệu…………………………………………….12 2.5.1.2 Các vấn đề gradient trình huấn luyện13 2.5.2 Mơ Hình LSTM (Long Short-Term Memory) …………… 14 2.6 MỘT SỐ CƠNG CỤ ĐƯỢC DÙNG 2.6.1 Ngơn ngữ lập trình Python tảng Anaconda Python 2.6.1.1 Ngôn ngữ lập trình Python………………………….16 2.6.1.2 Tại lại sử dung Python cho dự án AI Machine Learning…………………………………… ……………………17 2.6.1.3 Nền tảng Anaconda Python…………………………17 2.6.2 Thư viện OpenCV 2.6.2.1 Giới thiệu thư viện thị giác máy tính OpenCV…….18 2.6.2.2 Ứng dụng OpenCV………………………………18 2.6.2.3 Tính module phổ biến OpenCV… 19 2.6.3 Thư viện Keras – Tensorflow 2.6.3.1 Giới thiệu thư viện Keras……………………………20 2.6.3.2 Giới thiệu thư viện Tensorflow…………………… 20 2.7 CÁC TẬP DATASET VỀ HÀNH ĐỘNG CON NGƯỜI 2.7.1 Tổng quan…………………………………………………… 22 2.7.2 Các tập dataset hành động người 2.7.2.1 KARD – Kihetics Activity Recognition Dataset……22 2.7.2.2 NTU RGB+D Dataset……………………………… 22 2.7.2.3 STAIR-Actions Dataset…………………………… 23 2.7.2.4 UCF-101 Dataset…………………………………… 23 2.7.2.5 HMDB51 Dataset…………………………………….24 2.8 CÁC ĐẶC TRƯNG VÀ CỬ CHỈ HÀNH ĐỘNG VỀ SỨC KHỎE 2.8.1 Hắc / Ho……………………………………………………25 2.8.2 Tức ngực……………………………………………………….25 2.8.3 Đau lưng……………………………………………………… 25 2.8.4 Té ngã………………………………………………………… 26 2.8.5 Đau cổ………………………………………………………… 26 2.8.6 Đau đầu……………………………………………………… 26 2.8.7 Đau bụng……………………………………………………….26 2.8.8 Buồn nôn…………………………………………………… 26 2.8.9 Ngất xỉu……………………………………………………… 26 CHƯƠNG III: HỆ THỐNG CAMERA GIÁM SÁT THƠNG MINH PHỤC VỤ CHĂM SĨC SỨC KHỎE TẠI NHÀ 3.1 NGUỒN DỮ LIỆU VÀ MÔ TẢ 3.1.1 Tập liệu huấn luyện……………………………………… 27 3.1.2 Đặc tả liệu………………………………………………… 29 3.1.3 Cách thu thập liệu 3.1.3.1 Nguồn thu thập liệu 3.1.3.1.1 Thu thập thự tế…………………………… 36 3.1.3.1.2 Thu thập từ dataset KARD…………….37 3.1.3.2 Tiền xử lý liệu…………………………………….38 3.1.3.3 Kết thu thập…………………………………… 38 3.2 Q TRÌNH HUẤN LUYỆN MƠ HÌNH 3.2.1 Chuẩn bị liệu……………………………………………….39 3.2.2 Kiến trúc mơ hình nhận dạng hành động với LSTM kết hợp Mediapipe pose, Train Pipeline…………………………………………….40 3.2.3 Kết huấn luyện……………………………………………41 3.2.4 Môi trường công cụ lập trình………………………………44 3.3 THIẾT KẾ CẤU TRÚC HỆ THỐNG 3.3.1 Mô tả hệ thống…………………………………………………44 3.3.2 Ứng dụng hệ thống nhận dạng window 3.3.2.1 Các thiết bị hệ thống………………………….45 3.3.2.2 Cài đặt hệ thống…………………………………… 45 3.3.3 Cấu trúc chương trình……………………………………… 47 3.4 KẾT QUẢ THU ĐƯỢC VÀ ĐÁNH GIÁ KẾT QUẢ 3.4.1 Kết thu được………………………………………………48 3.4.2 Đánh giá……………………………………………………… 54 3.5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 3.5.1 Kết luận……………………………………………………… 54 3.4.2 Hướng phát triển………………………………………………55 HƯỚNG DẪN SỬ DỤNG 58 DANH MỤC HÌNH Hình Hệ thống camera thơng minh Hình Mơ tả tốn nhận diện hành động người từ chuỗi video kết hợp CNN Hình Sơ đồ Pipeline có hai khối “Trainning” “Serving” thể luồng liệu trình huấn luyện chạy thực tế Hình Các giải pháp cung cấp tính khả dụng tảng Hình Khung xương người hồn chỉnh vẽ Mediapipe Pose Hình Mơ tả điểm khung xương thể người Hình Kiến trúc mạng RNN duỗi Hình Kiến trúc chi tiết mạng RNN bước thời gian Hình Sơ đồ biểu diễn kiến trúc bên tế bào LSTM Hình 10 Một số hành động KARD Hình 11 Một số hành động NTU RGB+D Dataset Hình 12 Ví dụ cử cho hành động “rời khỏi phịng” Hình 13 Ví dụ khung ảnh cho lớp hành động UCF-101 Hình 14 Một số hành động có HMDB51 Dataset Hình 15: Minh họa hệ màu RGB Hình 16: Mơ tả cấu trúc tensor Hình 17: Ảnh biểu diễn dạng tensor Hình 18: Mơ tả cấu trúc mơ hình CNN Hình 19: Mơ tả lớp tích chập Hình 20: Ma trận x có giá trị pixel Ma trận lọc x Hình 21: Kernel quét qua phần tử input Hình 22: Kernel quét qua phần tử cuối input Hình 23: Ví dụ thực tế input, kernel feature map Hình 24: Minh họa Stride Hình 25: Mơ tả ReLU Hình 26: Pooling kích thước 2x2 Hình 27: Fully Connected layer Hình 28: Minh họa dễ hiểu kỹ thuật Transfer Learning Hình 29: So sánh máy học truyền thống kỹ thuật Transfer Learning Hình 30: Mơ tả Residual Block DANH MỤC BẢNG Bảng 1: Các nghiên cứu tương tự đề tài Bảng 2: Các nghiên cứu tương tự đề tài Bảng 3: Luồng hoạt động xử lí phương pháp nhận diện ảnh Bảng Hai luồng xử lí song song thuật tốn phân loại hành động, gửi tin nhắn, email hình ảnh đến người dùng Bảng Các nghiên cứu tương tự phương pháp nhận diện ảnh Bảng Các nghiên cứu tương tự phương pháp nhận diện điểm khung xương Bảng So sánh ưu nhược điểm phương pháp Bảng 8: Thống kê số hành động tham khảo phân loại Bảng 9: Thông tin loại hành động Bảng 10: Thông số kỹ thuật video quay Laptop TUFGAMING Bảng 11: Kết thu thập liệu 16 lớp hành động Bảng 12: Thông số liệu chuẩn bị Bảng 13 Kết đánh giá độ xác mơ hình tập liệu với số phân đoạn khác DANH MỤC TỪ VIẾT TẮT STT Từ viết tắt Từ viết đầy đủ CNTT Cơng nghệ thơng tin TTNT Trí tuệ nhân tạo CNN Convolutional Neural Network IS Intelligent Systems AI Artificial Intelligence PEP CPU Python Enhancement Proposal Central Processing Unit GPU Graphics Processing Unit CCTV Closed-Circuit Television 10 CSV Comma Separated Values 11 HDH Hệ điều hành 12 LSTM Long Short-Term Memory 13 RNN Recurrent Neural Network Hình 41 Mơ tả q trình Inference Pipeline 3.2.3 Kết huấn luyện Thuật tốn hệ thống nhận dạng thời gian thực lập trình ngơn ngữ Python kết hợp sử dụng thư viện mã nguồn mở OPENCV KERAS[29] Tôi chia liệu thành hai tập, tập để huấn luyện tập để thử nghiệm với tỷ lệ 80-20 dựa vào phương thức Train_test_split thư viện SKLEARN 80% liệu hệ thống dùng để huấn luyện, 20% liệu dùng để thử nghiệm Dữ liệu hệ thống sử dụng liệu chuyển hóa từ Frame Video sang File có định dạng CSV (tọa độ x, y, z) nói phần 3.3.2 Hai thơng số thường gặp đánh giá mơ hình huấn luyện ACCURACY LOSS [30] Accuracy: xác tính theo cơng thức Accuracy= n N n: Số sample dự đốn N: Tổng số sample đưa vào dự đoán Loss: mát Loss thường số thực không âm, thể chênh lệch hai đại lượng: nhãn thật liệu nhãn liệu model predic 53 Hàm fit(): hàm tơi dùng để trainning model bao gồm: • Data train, test đưa vào training • Batch_size thể số lượng mẫu mà Mini-batch GD sử dụng cho lần cập nhật trọng số • Epoch số lần duyệt qua hết số lượng mẫu tập huấn luyện Tôi huấn luyện theo cách thử - sai cách thay đổi tham số để chọn mô hình có tỷ lệ xác cao dùng làm model nhận dạng Theo lý thuyết LSTM tham số quan trọng chi phối hiệu suất mơ hình số Time_steps(Khung Hình) input hay tơi gọi tắt K Hình 42 Mơ tả input mơ hình huấn luyện Tơi thay đổi tham số K (số timestep input) để xem thay đổi giá trị Accuracy, Loss thống kê bảng kết quả: K Accuracy 92,26% 10 95,63% 15 96,44% 20 96,84% Loss 0.1838 0.1047 0.0914 0.0854 Bảng 13 Kết đánh giá độ xác mơ hình tập liệu với số phân đoạn khác Theo dõi thấy được, tăng hiệu suất mơ hình cải thiện (Accuracy tăng Loss giảm) Trong thí nghiệm, tơi thay đổi 5, 10, 15, 20 Kết trình bày Bảng 13, đồng thời quan sát thấy việc tăng số lượng phân đoạn dẫn đến hiệu suất tốt hơn, nhiên thời gian huấn lun mơ hình tăng lên Ví dụ hiệu suất mơ hình với 10 phân đoạn 54 tốt so với mơ hình với phân đoạn (95,63% so với 92,26%) Kết chứng tỏ việc sử dụng nhiều phân đoạn giúp hệ thống nhận nhiều liệu Nhờ đặc trưng kết đoạn video có mức độ trừu tượng cao, hiệu suất phân lớp cao Tuy nhiên, tăng đến 15 20, thấy hiệu suất mô hình có dấu hiệu bão hịa (xấp xỉ 97% so với 95,63%) Do chúng tơi chọn 20 để mơ hình đạt hiệu suất phân loại tốt nhất, đồng thời đảm bảo thời gian huấn luyện đánh giá mơ hình hợp lý Đồ thị biểu diễn Accuracy Loss thể hình 22 23 Hình 43 Đồ thị Accuracy Hình 44 Đồ thị Loss Mơ hình mạng sau huấn luyện lưu lại làm đầu vào cho hệ thống camera 3.2.4 Mơi trường cơng cụ lập trình 55 Hệ thống nhận dạng cài đặt môi trường Window 10 11, ngơn ngữ lập trình Python 3.11, sử dụng thư viện mã nguồn mở OpenCV 4.5.5 dành cho thị giác máy tính, với Framework Keras – Tensorflow 2.8 CPU chuyên dùng cho học sâu, thư viện Mediapipe 0.8.9 để nhận diện điểm thể người Sau trình tìm hiểu so sánh Framework phổ biến dành cho học sâu, định chọn Keras làm cơng cụ triển khai mơ hình số ưu điểm trội đề cập chương Sử dụng phần mềm soạn thảo chương trình Pycharm Pycharm tảng kết kết hợp JetBrains phát triển IDE (Mơi trường phát triển tích hợp) để phát triển ứng dụng cho lập trình Python Có hỗ trợ tích cực cộng đồng với tất plugin bạn cần Khả hoạt động mượt mà đa tảng, chiếm tài ngun máy, hỗ trợ đa ngơn ngữ lập trình 3.3 THIẾT KẾ CẤU TRÚC HỆ THỐNG 3.3.1 Mô tả hệ thống Khi camera hệ thống hoạt động ghi lại hình ảnh hoạt động ngày xảy nhà, camera hệ thống có nhiệm vụ đọc phân tích hành động xảy sau đưa dự đoán Nếu hành động xảy nằm lớp hành động liên quan đến sức khỏe như: té ngã, đau bụng, nhức đầu… hệ thống gửi tin nhắn cảnh báo đến email telegram thành viên gia đình bao gồm: hình ảnh hành động, nhãn hành động, thời gian xảy Bài toán đặt ra: Nhận dạng hành động thời gian thực (Real-time Action Recognition) Hình 45: Sơ đồ tổng quát hoạt động hệ thống 3.3.2 Ứng dụng hệ thống nhận dạng Window 56 3.3.2.1 Các thiết bị hệ thống Tên thiết bị Mơ tả Hình ảnh Thơng số kỹ thuật LAPTOP TUF GAMING Camera LAPTOP TUFGAMING Camera điện thoại REALME Q2 5G MODEL: FX506LHHN002T CPU: I5-10300H RAM: 8GB DDR4 VGA: NVIDIA GeForce GTX 1650 4GB MÀN HÌNH: IPS 144Hz, 15.6 Inch LOẠI Ổ ĐĨA CỨNG: SSD DUNG LƯỢNG: 256GB NGUỒN:3 CELL LI-ION, 48Wh Thông số kỹ thuật CAMERA TUFGAMING: WEBCAM HD REALME Q2 5G: Camera sau: 48MP – 8MP – 2MP Camera trước: 16MP Cáp kết nối internet thông thường Cáp mạng LAN 3.3.2.2 Cài đặt hệ thống Vì hệ thống chạy Window 10 11 nên dễ dàng cài cơng cụ hỗ trợ lập trình, chạy hệ thống cách đơn giản thuận tiện Cài đặt Pycharm để hỗ trợ lập trình Python 57 Hình 46: Giao diện Pycharm Cài đặt môi trường ảo Anaconda3 để dễ dàng cài đặt thư viện hỗ trợ lập trình Python Hình 47: Giao diện Anaconda3 Cài đặt thư viện hỗ trợ lập trình Python thư viện (hỗ trợ phiên Python 3.11): - OPENCV-PYTHON ver 4.5.5.62 - KERAS - TENSORFLOW ver 2.8 - MEDIAPIPE ver 0.8.9.1 - PANDAS ver 1.4.1 - SCIKIT-LEARN ver 1.0.2 58 Hình 48: Một số thư viện hỗ trợ Hình 49: Giao diện hoạt động hệ thống 3.3.3 Cấu trúc chương trình Sơ đồ tổng quát hệ thống camera giám sát bệnh nhân từ xa đề xuất mơ tả Hình 50 Trong hệ thống camera nhận dạng liên tục quan sát thời gian thực hành động bệnh nhân nhà Chuỗi video thu nhận dạng gán nhãn cách sử dụng mơ hình kết hợp Train Pipeline + LSTM [15] [10] huấn luyện lưu trữ hệ thống Nếu hành động bệnh nhân xác định bất thường, nghĩa bệnh nhân có cố sức khỏe hệ thống tự động gửi tin nhắn cảnh báo kèm theo ảnh hành động bất thường Tin nhắn gửi đến người 59 thân bệnh nhân thông qua email ứng dụng nhắn tin Telegram Thuật toán nhận dạng hành động người, gửi email hình ảnh đến người dùng trình bày hình 50 Hình 50: Sơ đồ cấu trúc chương trình 3.4 KẾT QUẢ THU ĐƯỢC VÀ ĐÁNH GIÁ KẾT QUẢ 3.4.1 Kết thu Sau trình huấn luyện kết thúc chúng tơi thu mơ hình nhận dạng hành động dạng tập tin h5 Mơ hình kết sau cài đặt vào hệ trình bày Phần II.D Chúng tiến hành thử nghiệm đánh giá thực tế với liệu đầu vào thời gian thực thu từ Camera video hành động thu thập từ trang cung cấp dataset 60 Hình 51: Nhận dạng hành động vẫy tay Hình 52: Nhận dạng hành động vỗ tay Hình 53: Nhận dạng hành động lắc người Hình 54: Nhận dạng hành động uống nước 61 Hình 55: Nhận dạng hành động ngồi xuống Hình 56: Nhận dạng hành động đứng dậy Hình 57: Nhận dạng hành động Hình 58: Nhận dạng hành động đá chân 62 Sau giai đoạn thử nghiệm nhận dạng hành động thời gian thực thông qua hệ thống cho kết tốt đáng tin cậy, bắt đầu tiến hành cài đặt thử nghiệm hệ thống phát tin nhắn email cảnh báo camera nhận thấy hành động bất thường liên quan đến sức khỏe bệnh nhân (Hình 66 Hình 67) Hình 67 Email cảnh báo gửi đến người thân Hình 68 Tin nhắn cảnh báo hình ảnh gửi đến người thân qua ứng dụng telegram 63 3.4.2 Đánh giá Quá trình huấn luyện diễn nhanh, trung bình khoảng 5-10 giây cho lần lặp với 16 lớp hành động, liệu chuyển đổi sang dạng CSV nên không tốn nhiều tài nguyên Lặp 50 lần khoảng tầm đến 10 phút Kết đạt với độ xác (accuracy) 96,84% Hình 69: Q trình huấn luyện mơ hình 3.5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 3.5.1 Kết luận Hệ thống nghiên cứu xây dựng với chức camera giám sát thơng minh, hỗ trợ giải chăm sóc giám sát sức khỏe gia đình Tuy độ xác tốc độ nhận dạng hệ thống tương đối chậm Một phần ảnh hưởng góc quay, độ gần xa tài nguyên giới hạn Do số lượng frame video hành động tập dataset (50100 frame) để phù hợp cho tài nguyên phần cứng máy, huấn luyện mơ hình dễ bị q khớp (overfitting) Dữ liệu q nhỏ mơ hình khơng có khả khái qt hóa mạnh Đối với tốn phân lớp video nói chung nhận dạng hành động nói riêng phải cần đến hàng TB liệu Tuy nhiên, theo kết thực nghiệm thời gian thực cho kết tương đối tốt, mơ hình giải pháp áp dụng để triển khai thực tiễn 3.5.2 Hướng phát triển Thu thập thêm hành động liên quan đến sức khỏe hành động ngày nhà, nhằm tăng độ xác nhận diện đa dạng tình xảy 64 Để hệ thống nhận dạng tốt độ trể thơi gian thực tơi đề xuất sử dụng bo mạch IOT mạnh Jetson Nano Developer Kit Nvidia phát triển có tích hợp card đồ họa phù hợp Áp dụng hệ thống thiết bị Raspberry Pi để ứng dụng thực tiễn nhỏ gọn tiện lợi thiết bị Tôi mong muốn hệ thống vào hoạt động thực tế ứng dụng cách rộng rãi Để làm điều phải xây dựng tập liệu lớn phù hợp hoạt động ngày, đồng thời nâng cao độ xác tốc độ xử lý hệ thống 65 TÀI LIỆU THAM KHẢO [1] S Herath, M Harandi, F P.-I and vision computing, and undefined 2017, “Going deeper into action recognition: A survey,” Elsevier, Accessed: Mar 10, 2022 [Online] Available: https://www.sciencedirect.com/science/article/pii/S0262885617300343 [2] Y B.-I conference on statistical language and and undefined 2013, “Deep learning of representations: Looking forward,” Springer, 2013, Accessed: Mar 10, 2022 [Online] Available: https://link.springer.com/chapter/10.1007/978-3-642-39593-2_1 [3] K Xu et al., “Show, attend and tell: Neural image caption generation with visual attention,” 32nd Int Conf Mach Learn ICML 2015, vol 3, pp 2048–2057, 2015 [4] E K.- Sensors and undefined 2018, “Recognition of sedentary behavior by machine learning analysis of wearable sensors during activities of daily living for telemedical assessment of cardiovascular risk,” mdpi.com, doi: 10.3390/s18103219 [5] “Thuật toán CNN - Convolutional Neural Network | TopDev.” https://topdev.vn/blog/thuat-toan-cnnconvolutional-neural-network/ (accessed Mar 10, 2022) [6] “[RNN] Cài đặt GRU/LSTM.” https://dominhhai.github.io/vi/2017/10/implement-gru-lstm/ (accessed Mar 08, 2022) [7] “RNN gì? Vncoder.” https://sites.google.com/site/vncoder95/machine-learning/rnn-la-gi (accessed Mar 08, 2022) [8] “P Kuppusamy and C Harika, “Human action - Google Scholar.” https://scholar.google.com/scholar?hl=vi&as_sdt=0%2C5&q=%5B27%5D%0 9P.+Kuppusamy+and+C.+Harika% 2C+“Human+action+recognition+using+cnn+and+lstmrnn+with+attention+model%2C”+Int.+J.+Innov.+Technol.+Explor.+Eng.%2C +vol.+8%2C+no.+8%2C+pp.+1639–1643%2C+2019.&btnG= (accessed Mar 10, 2022) [9] H Duan, Y Zhao, K Chen, D Shao, D Lin, and B Dai, “Revisiting Skeleton-based Action Recognition.” [10] S Hochreiter and J Schmidhuber, “Long Short-Term Memory,” Neural Comput., vol 9, no 8, pp 1735–1780, Nov 1997, doi: 10.1162/NECO.1997.9.8.1735 [11] J Bayer and C Osendorfer, “LEARNING STOCHASTIC RECURRENT NETWORKS.” [12] N Kalchbrenner, I Danihelka, G Deepmind, and A Graves, “Grid Long Short-Term Memory.” [13] K Gregor, D Com, D J Rezende, and D Wierstra, “DRAW: A Recurrent Neural Network For Image Generation Ivo Danihelka,” Accessed: Mar 10, 2022 [Online] Available: https://www.youtube 66 [14] J Chung, K Kastner, L Dinh, K Goel, A Courville, and Y Bengio, “A Recurrent Latent Variable Model for Sequential Data.” [15] “Machine Learning pipeline — Machine Learning cho liệu dạng bảng.” https://machinelearningcoban.com/tabml_book/ch_intro/pipeline.html (accessed Mar 06, 2022) [16] “Chi tiết học Pipeline Sklearn.” https://vimentor.com/en/lesson/pipeline-trong-sklearn (accessed Mar 06, 2022) [17] E Upton, “Raspberry Pi on sale now from $35.” Raspberry Pi Foundation, 2019 [18] F C Heilbron, V Escorcia, B Ghanem, and J C Niebles, “ActivityNet: A large-scale video benchmark for human activity understanding,” Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, vol 07-12-June pp 961–970, 2015, doi: 10.1109/CVPR.2015.7298698 [19] W Kay et al., “The Kinetics Human Action Video Dataset,” ArXiv, 2017, [Online] Available: [20] K Soomro, A R Zamir, and M Shah, “UCF101: A Dataset of 101 Human Actions Classes From Videos in The Wild,” no December 2012, 2012, [Online] Available: http://arxiv.org/abs/1212.0402 [21] H Kuehne, H Jhuang, E Garrote, T Poggio, and T Serre, “HMDB: A large video database for human motion recognition,” Proc IEEE Int Conf Comput Vis., pp 2556–2563, 2011, doi: 10.1109/ICCV.2011.6126543 [22] Y Yoshikawa, J Lin, and A Takeuchi, “STAIR Actions: A Video Dataset of Everyday Home Actions.” 2018, [Online] Available: http://arxiv.org/abs/1804.04326 [23] S Gaglio, G Lo Re, and M Morana, “Human Activity Recognition Process Using 3-D Posture Data,” IEEE Trans Human-Machine Syst., vol 45, no 5, pp 586–597, 2015, doi: 10.1109/THMS.2014.2377111 [24] A Shahroudy, J Liu, T T Ng, and G Wang, “NTU RGB+D: A large scale dataset for 3D human activity analysis,” Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, vol 2016-Decem pp 1010–1019, 2016, doi: 10.1109/CVPR.2016.115 [25] S Hochreiter and J Schmidhuber, “Long Short-Term Memory,” Neural Comput., vol 9, no 8, pp 1735–1780, 1997, doi: 10.1162/neco.1997.9.8.1735 [26] “MediaPipe: Live ML Solutions ứng dụng vẽ Hands Gestures.” https://viblo.asia/p/mediapipe-live-ml- solutions-va-ung-dung-ve-bang-handsgestures-gAm5ymOV5db (accessed Mar 10, 2022) [27] “Tản mạn chút Pose Classification - Trang Chủ.” https://itzone.com.vn/vi/article/tan-man-mot-chut-vepose-classification/ (accessed Mar 10, 2022) [28] E Upton, “Raspberry Pi on sale now from $35.” Raspberry Pi Foundation, 2019 [29] “Làm quen với Keras.” https://viblo.asia/p/lam-quen-voi-kerasgGJ59mxJ5X2 (accessed Mar 10, 2022) 67

Định dạng
Số trang	77
Dung lượng	4,33 MB