Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG TRẦN THANH TUẤN NHẬN DIỆN HÀNH ĐỘNG CỦA CON NGƯỜI TRONG VIDEO SỬ DỤNG DEEP LEARNING Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 60.48.01.04 TÓM TẮT LUẬN VĂN THẠC SĨ THÀNH PHỐ HỒ CHÍ MINH – NĂM 2017 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS BÙI XUÂN LỘC Phản biện 1: Phản biện 2: Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Ngày nay, dữ liệu video dễ dàng đươ ̣c ta ̣o bởi các thiế t bi ̣ như: điện thoa ̣i di động, máy tiń h xách tay, máy ảnh kỹ thuật số , hệ thống camera quan sát (CCTV)…bên ca ̣nh đó các trang web chia sẻ video không ngừng tăng trưởng số lượng lẫn chất lượng Bài toán nhận diện hành động người video đóng góp một phầ n tự động hóa khai thác tài nguyên dữ liệu nhiề u thông tin này Các ứng dụng liên quan đến toán nhận diện hành động như: - An ninh và các hệ thố ng giám sát truyề n thố ng gồ m ma ̣ng lưới các camera và đươ ̣c giám sát bởi người - Tương tác giữa người và máy vẫn còn nhiề u thách thức, những dấ u hiệu thi ̣ giác là phương thức quan tro ̣ng nhấ t giao tiế p phi ngôn ngữ Khai thác hiệu quả phương thức giao tiế p này: Thông qua cử chỉ, hành động, hoa ̣t động hứa he ̣n ta ̣o thế hệ máy tính tương tác xác và tự nhiên hơn với người - Bên ca ̣nh đó nhận diện hành động người video còn đươ ̣c ứng du ̣ng tóm tắ t, truy vấ n video, phân tić h thể thao Deep Learning chủ đề Trí truệ nhân tạo, tập trung giải vấn đề liên quan đến mạng nơron nhân tạo nhằm nâng cấp công nghệ nhận diện giọng nói, thị giác máy tính xử lý ngơn ngữ tự nhiên… Đã có nhiều nghiên cứu toán nhận diện hành động người video như: nhóm tác giả Karpathy, Toderici, Shetty, Leung, Sukthankar & Fei-Fei sử dụng CNNs để phân loại Video theo hành động người [5], nhóm tác giả Ji, Xu, Yang, & Yu sử 3D CNN để nhận diện hành động người [4] 2 Vì lý đó, luận văn nghiên cứu ứng dụng Deep Learning vào toán nhận diện hành động người video, đồng thời đề xuất cải tiến tham số đầu vào thuật toán để tăng hiệu nhận diện so với thuật toán Nội dung luận văn gồ m chương: Chương giới thiệu tổng quan deep learning toán nhận diện hành động thị giác máy tính Chương giới thiệu ứng dụng deep learning nhận diện hành động người, bao gồm tổng quan, thuật toán CNN giải thuật Optimazation Deep Learning Khái quát mạng nơron xử lý ảnh nêu kiến trúc mạng CNN xem xét nghiên cứu Chương thực nghiệm đánh giá kiến trúc mạng nghiên cứu Bao gồm mô tả dữ liệu giải thuật nghiên cứu Cách thực nghiệm cho mơ hình, sau đánh giá độ xác giải thuật 3 CHƯƠNG - TỔNG QUAN VỀ DEEP LEARNING VÀ BÀI TOÁN NHẬN DIỆN HÀNH ĐỘNG TRONG THỊ GIÁC MÁY TÍNH 1.1 Tổng quan Deep Learning 1.1.1 Deep Learning gì? Deep Learning chủ đề Trí truệ nhân tạo (AI) phạm trù nhỏ máy học Deep Learning tập trung giải vấn đề liên quan đến mạng nơron nhân tạo nhằm nâng cấp công nghệ nhận diện giọng nói, thị giác máy tính xử lý ngôn ngữ tự nhiên Deep Learning trở thành những lĩnh vực quan trọng khoa học máy tính Chỉ vài năm, Deep Learning thúc đẩy tiến đa dạng lĩnh vực nhận thức sự vật (object perception), dịch tự động (machine translation), nhận diện giọng nói - những vấn đề khó khăn với nhà nghiên cứu trí tuệ nhân tạo 1.1.2 Mạng nơron nhân tạo Trong công nghệ thông tin, mạng nơron nhân tạo hệ thống chương trình cấu trúc dữ liệu mô cách vận hành não người Một mạng nơron thường bao gồm lượng lớn vi xử lý hoạt động song song, vi xử lý chứa đựng vùng kiến thức riêng truy cập vào dữ liệu nhớ riêng Trong mạng nơron nhân tạo, nơron node (node đơn vị nơron mạng nơron nhân tạo – máy tính mạng nơron xem node) kết nối với mạng lưới lớn Bản thân node trả lời những câu hỏi không thông minh, gộp chung với chúng lại có sức mạnh xử lý những tác vụ khó Và điều quan trọng những thuật tốn phù hợp, dạy huấn luyện chúng 4 1.1.3 Một số ứng dụng Deep Learning - Hệ thống gợi ý tảng - Nhận diện hình ảnh - Xử lý ngơn ngữ tự nhiên 1.2 Bài tốn nhận diện hành động thị giác máy tính 1.2.1 Tổng quan thị giác máy tính Thị giác máy tính (Computer Vision) lĩnh vực phát triển Khái niệm thị giác máy tính có liên quan tới nhiều ngành học hướng nghiên cứu khác Từ những năm 1970 mà lực tính tốn máy tính ngày trở nên mạnh mẽ hơn, máy tính lúc xử lý những tập dữ liệu lớn hình ảnh, đoạn phim khái niệm kỹ thuật thị giác máy tính ngày nhắc đến nghiên cứu nhiều ngày Hiện lĩnh vực chuyên gia đánh giá “non nớt” có nhiều sự thay đổi thời gian tới 1.2.1.1 Thế thị giác máy tính Thị giác máy tính bao gồm lý thuyết kỹ thuật liên quan nhằm mục đích tạo hệ thống nhân tạo tiếp nhận thơng tin từ hình ảnh thu tập dữ liệu đa chiều Đối với người chúng ta, q trình nhận thức giới bên ngồi điều dễ dàng Q trình nhận thức “học” thơng qua q trình sống người Tuy nhiên với vật vô tri vô giác như máy tính, robot… điều thực bước tiến gian nan Các thiết bị ngày khơng nhận thơng tin dạng tín hiệu đơn lẻ mà có “nhìn” thật với giới bên ngồi Cái “nhìn” qua q trình phân tích, kết hợp với mơ máy học, mạng nơron… giúp cho thiết bị tiến dần tới hệ thống nhân tạo có khả định linh hoạt đắn nhiều 5 1.2.1.2 Ứng dụng thị giác máy tính Lĩnh vực nghiên cứu thị giác máy tính rộng, đặc điểm chung toán thị giác máy tính khơng có đề chung cách giải Mỗi giải pháp giải vấn kết định cho những trường hợp cụ thể Một vài lĩnh vực mà Computer Vision ứng dụng kể tới sau: - Điều khiển tiến trình (ví dụ: robot công nghiệp, hay thiết bị, xe tự hành) - Phát sự thay đổi (ví dụ: thiết bị giám sát) - Tổ chức thơng tin (ví dụ: số kho dữ liệu ảnh chuỗi ảnh liên tục) - Mơ hình hố đối tượng (ví dụ: q trình kiểm tra mơi trường cơng nghiệp, xử lý ảnh y học) - Tương tác (đóng vai trò làm đầu vào cho thiết bị q trình tương tác giữa người máy) 1.2.2 Nhận diện hành động người Nhận diện hành động người lĩnh vực nghiên cứu rộng rãi thị giác máy tính Các ứng dụng bao gồm hệ thống giám sát, phân tích video, robot loạt hệ thống có liên quan đến sự tương tác giữa người thiết bị điện tử giao diện người-máy tính Nhận diện hành động người phát triển bắt đầu vào đầu năm 1980 Hiện nay, nghiên cứu chủ yếu tập trung vào việc học nhận biết hành động từ chuỗi video Một hành động chuỗi chuyển động thể người, bao gồm nhiều phận thể đồng thời Từ quan điểm thị giác máy tính, việc nhận dạng hành động để phù hợp với quan sát (ví dụ: video) với mẫu xác định trước sau gán cho nhãn loại hành động Tùy thuộc vào độ phức tạp, hoạt động người phân loại thành bốn cấp độ: cử chỉ, hành động, tương tác hoạt động nhóm [1], nhiều nghiên cứu theo hướng cấu trúc từ lên nhận dạng hoạt động người Các phần hệ thống bao gồm trích xuất đặc trưng, học tập hành động, phân loại, nhận dạng hành động phân đoạn [6] Một quy trình đơn giản gồm ba bước, cụ thể phát người phận thể, theo dõi, sau nhận cách sử dụng kết theo dõi Ví dụ, để nhận hành động “bắt tay”, cánh tay bàn tay hai người phát trước tiên theo dõi để tạo mô tả không gian-thời gian chuyển động họ Mô tả so sánh với mẫu có dữ liệu huấn luyện để xác định loại hành động Mơ hình dựa nhiều vào tính xác việc theo dõi, điều không đáng tin cậy những cảnh lộn xộn Nhiều phương pháp đề xuất, phân loại theo nhiều tiêu chí khác luận điều tra có Poppe [6] thảo luận nhận dạng hành động người từ biểu diễn hình ảnh phân loại hành động riêng rẽ Weinland [8] khảo sát phương pháp cho biểu diễn hành động, phân đoạn nhận dạng Turaga [7] chia vấn đề nhận dạng thành hành động hoạt động theo độ phức tạp, hướng tiếp cận phân loại theo khả để xử lý mức độ phức tạp khác Có nhiều tiêu chí phân loại khác [1], [2], [3] Trong số đó, Aggarwal Ryoo [1] những tổng kết toàn diện so sánh sự tiến quan trọng lĩnh vực Dựa vào hành động nhận dạng từ hình ảnh đầu vào trực tiếp, Aggarwal Ryoo [1] phân chia phương pháp nhận dạng thành hai loại chính: phương pháp tiếp cận đơn lớp phương pháp tiếp cận phân cấp Cả hai thêm loại phụ thuộc vào phương pháp biểu diễn đặc trưng học Kết luận chương Chương trình bày tổng quan thị giác máy tính, nhận diện hành động người Deep Learning 7 CHƯƠNG - ỨNG DỤNG DEEP LEARNING TRONG NHẬN DIỆN HÀNH ĐỘNG CON NGƯỜI 2.1 Giới thiệu Convolutional Neural Network 2.1.1 Tổng quan Convolutional Neural Network (CNN) bao gồm nhiều lớp chập (thường với bước lấy mẫu con) sau theo sau nhiều lớp kết nối mạng nơron đa lớp chuẩn Kiến trúc CNN thiết kế để tận dụng lợi cấu trúc chiều hình ảnh đầu vào (hoặc đầu vào chiều khác tín hiệu tiếng nói) Điều đạt với kết nối cục trọng số ràng buộc theo số hình thức tổng hợp mà kết đặc trưng không thay đổi Một lợi ích khác CNN dễ dàng huấn luyện có thơng số so với mạng kết nối đầy đủ với số đơn vị ẩn 2.1.2 Kiến trúc CNN CNN gồm số lớp chập lớp lấy mẫu tùy chọn, lớp kết nối Đầu vào cho lớp chập hình ảnh m × m × r, với m chiều cao chiều rộng hình ảnh r số kênh (ví dụ ảnh RGB có r=3) Lớp chập có k lọc có kích thước n × n × q, n nhỏ kích thước hình ảnh q nhỏ số kênh r Kích thước lọc tăng đến cấu trúc kết nối cục bộ, lọc xoắn với hình ảnh để tạo k đồ đặc trưng có kích thước m – n + Mỗi đồ lấy mẫu đặc trưng với việc hợp trung bình lớn p × p khu vực lân cận, phạm vi p giữa (cho hình ảnh nhỏ) (chi đầu vào lớn hơn) Trước sau lấy mẫu con, bias bổ sung xích ma phi tuyến áp dụng cho đồ đặc trưng 8 Hình 2.1: Lớp CNN Sau lớp chập, có số lớp kết nối đầy đủ Các lớp kết nối dày đặc giống với lớp mạng nơron đa lớp chuẩn 2.2 Vấn đề Overfitting Underfitting Sau lựa chọn mơ hình phù hợp chẳng hạn Logistic Regression cho Classification Problem, hay Linear Regression cho Regression Problem ta xây dựng dự đốn h(x), hàm chi phí C(θ) tối thiểu hóa hàm chi phí nhiều Đến bước gặp vấn đề với Overfitting Underfitting - Overfitting Underfitting: Hình 2.2: Ví dụ Underfitting (Nguồn: http://labs.septeni-technology.jp) Hình 2.3: Ví dụ Fit (Nguồn: http://labs.septeni-technology.jp) Hình 2.4: Ví dụ Overfitting (Nguồn: http://labs.septeni-technology.jp) Underfitting mơ hình q đơn giản, khơng thể giảm thiểu đáng kể hàm chi phí nên khơng thể mơ tả xu hướng dữ liệu (còn gọi High Bias) Ngược lại Overfitting lại mơ hình q phức tạp, giảm thiểu đáng kể, chí tồn sai số khơng thể mơ tả xu hướng dữ liệu (còn gọi High Variance) - Cách giải quyết: Với Underfitting đơn mơ hình q đơn giản, nên ta cần thêm những thành phần đa thức để phức tạp Nên giá trị hàm chi phí lớn ta 10 đẩy bậc hàm số lên Dĩ nhiên đẩy lên cao ta gặp vấn đề hiệu Overfitting Với Overfitting cơng việc lại ngược lại, mơ hình phức tạp nên ta cần giảm bậc hàm số hay giảm số lượng đặc trưng Việc giảm đặc trưng bỏ bớt những thành phần đa thức, ta bỏ bớt những đặc trưng khơng cần thiết Một cách khác áp dụng Regularization 2.3 Các giải thuật Optimization Thuật toán huấn luyện nhiều mơ hình máy học phát biểu hình thức dạng tốn Optimization, chẳng hạn mơ linear/logistic regression, ANN, SVM, k-means… Ý tưởng chung mơ hình có tập tham số θ cần phải xác định giá trị thơng qua trình huấn luyện với dữ liệu ta cần tìm θ để cực tiểu hóa hàm chi phí C(θ) Mặc dù lí thuyết optimization vấn đề đầy đủ với nhiều phương pháp khác nhau, nghiên cứu trình bày tổng quan số giải thuật Optimization - Các giải thuật Gradient Descent Stochastic Gradient Descent Momentum - Các giải thuật dựa vào chiến lược lựa chọn Learning Rate AdaGrad RMSPro Adam 11 - Lựa chọn giải thuật Optimization nào? Hiện tại, giải thuật Optimization hóa phổ biến tích cực sử dụng bao gồm SGD, SGD với momentum, RMSProp, RMSProp với momentum, AdaDelta Adam Sự lựa chọn giải thuật để sử dụng, dường phụ thuộc phần lớn vào sự quen thuộc người dùng với giải thuật (để dễ dàng điều chỉnh siêu số) 2.4 Thuật toán CNN nhận diện hành động 2.4.1 Thuật toán Một CNN, gồm nhiều giai đoạn huấn luyện xếp chồng lên nhau, sử dụng để trích xuất đặc trưng phân cấp Hình 2.5: Kiến trúc CNN nhận diện hành động người Chập hình ảnh đầu vào với lọc huấn luyện khác bias bổ sung, nhiều đồ đặc trưng tạo lớp C1 Mỗi đồ đặc trưng S2 thu thao tác tổng hợp đồ đặc trưng tương ứng lớp C1 Chập tổng hợp cực đại lớp C3 S4 giống lớp C1 S2 Trong bước nhận diện cuối cùng, đặc trưng thu sau tổng hợp cực đại lớp S4 mã hóa thành vector chiều 12 Hình 2.6: Quá trình chập tổng hợp cực đại Quá trình chập: sử dụng lọc huấn luyện 𝑓𝑥 = 1+𝑒 −x để chập ảnh đầu vào, sau thêm bias 𝑏𝑥 , tạo thành lớp xoắn 𝐶𝑥 Quá trình tổng hợp cực đại: lấy pixel lớn pixel lân cận, sau tính trọng số 𝑊𝑥+1 thêm bias 𝑏𝑥+1 , sau truyền hàm kích hoạt xích ma, tạo thành đồ đặc trưng có kích thước giảm lần 2.4.2 Kiến trúc CNN xem xét nghiên cứu Mơ hình mạng sử dụng luận văn mơ tả Hình 2.4 gồm có lớp Convolution có 64 filter với kích thước 5x5, xen kẽ lớp Convolution lớp Max-pool với filter có kích thước 2x2 Tiếp sau lớp Fully-connected với kích thước 256 128 Cuối cùng, tập phân loại softmax cho phân bố xác suất nhãn đầu Nhãn có xác suất cao chọn làm dự đốn cuối Hình 2.7: Kiến trúc CNN xem xét nghiên cứu 13 Kết luận chương Chương trình bày thuật tốn CNN, kỹ thuật Optimization Regularization Deep Learning Đồng thời nêu kiến trúc mạng CNN xem xét nghiên cứu luận văn 14 CHƯƠNG - THỰC NGHIỆM VÀ ĐÁNH GIÁ 3.1 Giới thiệu TensorFlow TensorFlow [9] thư viện phần mềm mở cho tính tốn số, sử dụng biểu đồ luồng dữ liệu Các nút đồ thị biểu diễn cho hoạt động toán học, cạnh đồ thị biểu diễn cho mảng dữ liệu đa chiều (tensors) trao đổi giữa chúng Kiến trúc linh hoạt cho phép triển khai tính tốn nhiều CPU GPU máy tính để bàn, máy chủ, thiết bị di động với API đơn TensorFlow ban đầu phát triển nhà nghiên cứu kỹ sư làm việc nhóm Google Brain cho nghiên cứu máy học deep neural network TensorFlow có API với số ngơn ngữ lập trình cho xây dựng thực thi đồ thị TensorFlow Python API hoàn thiện dễ sử dụng nhất, API C++ có vài ưu điểm hiệu việc thực thi đồ thị, hỗ trợ triển khai thiết bị nhỏ Android 3.2 Thông tin liệu Nghiên cứu sử dụng dữ liệu KTH với thơng tin: - Gồm có: 600 video trắng đen ghi camera tĩnh (192 huấn luyện, 192 validation, 216 kiểm tra) - Độ phân giải: 160x120 - hành động: walking (đi), jogging (chạy bộ), running (chạy nhanh), boxing (đấm bốc), hand waving (vẫy tay), hand clapping (vỗ tay) - 25 người, cảnh - Link: http://www.nada.kth.se/cvap/actions 15 Hình 3.1: Bộ liệu KTH 3.3 Mơ tả phương pháp thực nghiệm 3.3.1 Môi trường thực nghiệm - Ngôn ngữ Python 3.5.2 - Thư viện TensorFlow 1.1.0 - CPU Intel Core i5 2.86 GHz, Ram 8GB 1600 MHz DDR3 - Hệ điều hành: MacOS Sierra 3.3.2 Tiền xử lý video - Sử dụng thư viện ffmpeg để tách video thành frame - Phân chia frame thành tập: huấn luyện, kiểm thử validation theo mô tả tập tin 00sequences.txt dữ liệu KHT 16 Hình 3.2: Mơ tả chi tiết liệu KTH Kết sau phân chia thành tập dữ liệu huấn luyện Bảng 3.1: Số lượng Frame tập liệu liệu KTH Tập liệu Số lượng Frame Huấn luyện 74.966 Kiểm tra 79.481 Validation 73.125 3.3.3 Q trình huấn luyện mơ hình CNN Q trình huấn luyện dữ liệu theo mơ hình CNN xem xét phần 2.2.2 theo giải thuật sau: 17 Giải thuật Optimization - For i = to So_Lan_Lap: o Trộn tập dữ liệu huấn luyện cách ngẫu nhiên o For j = to So_Frame_Tap_Huan_Luyen / N: Lấy N frame đưa vào mơ hình để huấn luyện Cứ 100 frame hết tập huấn luyện tính độ xác mơ hình theo frame huấn luyện o Tính độ xác mơ hình theo tập dữ liệu kiểm tra sau lần lặp 3.4 Kết thực nghiệm Vì mơi trường thực nghiệm với phần cứng giới hạn tốc độ xử lý nhớ nên q trình huấn luyện mơ hình CNN nghiên cứu với tham số: - Số lần lặp để huấn luyện mơ hình: So_Lan_Lap = 10 - Số frame bộ: N = 64 Bảng 3.2: Kết thực nghiệm Lần Thời gian huấn Độ Thời gian kiểm Độ xác lặp luyện xác huấn tra kiểm tra luyện (trung bình) 15 phút 42 giây 72.9% 32 phút 33 giây 46.6% 02 phút 33 giây 81.4% 34 phút 41giây 50.9% 3 00 phút 13 giây 85.6% 36 phút 00 giây 53.0% 02 phút 33 giây 83.3% 31 phút 27 giây 53.5% 18 55 phút 54 giây 87.3% 37 phút 39 giây 52.8% 04 phút 34 giây 89.4% 34 phút 44 giây 52.9% 08 phút 55 giây 88.6% 31 phút 49 giây 52.0% 03 phút 56 giây 89.5% 33 phút 00 giây 54.1% 09 phút 58 giây 90.9% 35 phút 52 giây 53.6% 10 24 phút 01 giây 90.9% 33 phút 39 giây 52.4% Độ xác Biểu đồ kết thực nghiệm 100.00% 90.00% 80.00% 70.00% 60.00% 50.00% 40.00% 30.00% 20.00% 10.00% 0.00% Huấn luyện Lần lặp Kểm tra Hình 3.3: Biểu đồ kết thực nghiệm 10 19 Hình 3.4: Confusion Matrix lần kiểm tra tốt 3.5 Nhận xét đánh giá Dựa vào kết thực nghiệm tập dữ liệu huấn luyện kiểm tra dữ liệu mậu đưa độ xác mơ hình mạng CNN xem xét nghiên cứu Bảng 3.2 biểu đồ Hình 3.4 Hình 3.5 với thang đo từ 100% - Về độ xác huấn luyện mơ hình với tập dữ liệu tốt, độ xác tăng dần sau nhiều lần huấn luyện - Về độ xác kiểm tra với tập dữ liệu kiểm tra đạt mức độ trung bình (trong khoảng 50%), khơng có sự thay đổi nhiều lần kiểm tra - Về hành động dữ liệu KTH dự đoán qua lần kiểm tra hành động “boxing”, “handclapping”, “handwaving” dự đốn xác, hành động “jogging”, “runing”, “walking” có kết dự đốn xác khơng cao Tóm lại qua kết thực nghiệm, mơ hình CNN xem xét với tham số kích thước, số lượng lọc với dữ liệu mẫu chưa thích hợp Tình trạng độ xác việc huấn luyện cao có xu hướng tăng; độ xác việc 20 kiểm tra mức trung bình khơng có xu hướng biến đổi nhiều hay nói cách khác overfit Trong trình thực nghiệm, để tránh tình trạng overfit cần thêm lớp lớp dropout sử dụng kỹ thuật Regularization vào mơ hình Kết luận chương Chương trình bày kết chạy thực nghiệm thuật toán xem xét luận văn dữ liệu KTH Đồng thời rút số nhận xét đánh giá kết thực nghiệm 21 KẾT LUẬN VÀ KIẾN NGHỊ Kết đạt Luận văn nghiên cứu thực nghiệm giải thuật Deep Learning với kiến trúc mạng CNN nhận dạng hành động người video dữ liệu KTH gồm có 06 hành động: walking (đi), jogging (chạy bộ), running (chạy nhanh), boxing (đấm bốc), hand waving (vẫy tay), hand clapping (vỗ tay) Đồng thời, đề xuất cách cải tiến tham số giải thuật để tăng tốc độ tính tốn dự đốn kết cách xác Dựa việc nghiên cứu sở lý thuyết công nghệ liên quan, đề tài xây dựng mơ hình mạng CNN, cho kết đáp ứng những mục tiêu đề Bộ dữ liệu huấn luyện đóng vai trò quan trọng việc xây dựng mơ hình để dự đoán kết đầu Với dữ liệu lớn, bao gồm nhiều hành động áp dụng vào xây dựng hệ thống thực tế Những vấn đề tồn Một số vấn đề ảnh hưởng đến trình huấn luyện dự đoán kết quả: - Tập dữ liệu nghiên cứu ảnh đen trắng, đơn vật thể hành động nên việc áp dụng vào thực tế với cho kết không cao - Xử lý video sử dụng Deep Learning để huấn luyện sâu, cần có thiết bị có phần cứng có khả xử lý tính tốn cao để áp dụng cho lượng dữ liệu khổng lồ Hướng phát triển luận văn Nghiên cứu tiếp giải pháp thu thập dữ liệu đủ để triển khai vào ứng dụng thực tế, nhằm cung cấp cơng cụ hữu ích việc quản lý hệ thống camera giám sát, phân tích video 22 Vấn đề gia tăng độ xác giải việc kết hợp thuật toán lĩnh vực xử lý ảnh HOG, HOF… để trích xuất đặc trưng từ video để đưa vào huấn luyện mạng CNN trình bày đề tài ... máy tính, nhận diện hành động người Deep Learning 7 CHƯƠNG - ỨNG DỤNG DEEP LEARNING TRONG NHẬN DIỆN HÀNH ĐỘNG CON NGƯỜI 2.1 Giới thiệu Convolutional Neural Network 2.1.1 Tổng quan Convolutional... deep learning toán nhận diện hành động thị giác máy tính Chương giới thiệu ứng dụng deep learning nhận diện hành động người, bao gồm tổng quan, thuật toán CNN giải thuật Optimazation Deep Learning. .. Fei-Fei sử dụng CNNs để phân loại Video theo hành động người [5], nhóm tác giả Ji, Xu, Yang, & Yu sử 3D CNN để nhận diện hành động người [4] 2 Vì lý đó, luận văn nghiên cứu ứng dụng Deep Learning