.2 Machine learning và Deep learning

Một số kiến trúc mạng Deep learning được đề cập gần đây góp phần quan trọng trong sự phát triển ngành cơng nghệ thị giác máy tính và mạng tích chập:

 AlexNet (2012)

 VGG Net (2014)

 GoogLeNet (2015)

 Microsoft ResNet (2015)

 Region Based CNNs (R-CNN - 2013, Fast R-CNN - 2015, Faster R-CNN - 2015)

 Generative Adversarial Networks (2014)

 Generating Image Descriptions (2014)

 Spatial Transformer Networks (2015)

Cùng với sự phát triển của các thuật tốn Deep Learning thì các thư viện cũng như framework hỗ trợ các thuật toán này cũng ngày càng tăng về số lượng. Hầu hết các thư viện và framework này đều cung cấp dưới dạng mã nguồn mở do đó rất linh hoạt trong việc sử dụng và mở rộng, đây cũng là một trong những lý do Deep Learning được áp dụng trong nhiều bài toán với nhiều lĩnh vực khác nhau. Một số thư viện phổ biến đang được cộng đồng nghiên cứu sử dụng như:

 Caffe framework

 Torch

 TensorFlow

 Theano

3.2 Kiến trúc mạng CNN 10 lớp sử dụng trong nhận dạng hành động người

Hiện nay dữ liệu video dễ dàng được tạo ra bởi các thiết bị như: Máy quay phim, máy ảnh kỹ thuật số, máy tính xách tay, điện thoại di động, các camera quan sát, … bên cạnh đó trên các trang mạng mức độ chia sẻ, tải lên của các video cũng tăng trưởng khơng ngừng. Bài tốn nhận diện hành động người đóng góp một phần tự động hóa khai thác tài ngun dữ liệu nhiều thơng tin này. Các ứng dụng liên quan đến bài toán nhận diện hành động người như giám sát an ninh nhằm phát hiện ra các hành vi nghi ngờ hoặc các hệ thống giám sát truyền thống, giám sát chăm sóc sức khỏe nhằm

phát hiện hành vi bất thường của bệnh nhân như té ngã, đột quỵ. Nhiệm vụ của tác giả đặt ra chính là tìm ra giải pháp có thể thay thế hoặc hỗ trợ người giám sát đảm bảo vấn đề hiệu quả và tính chính xác.

3.2.1 Dữ liệu huấn luyện

Dữ liệu tác giả sử dụng bao gồm 3.418 ảnh màu với kích thước 227x227, được phân thành 4 mục tương ứng: ‘Bowing’, ‘Walking’, ‘Waving’ và ‘Nothing’. Và do giới hạn về phần cứng nên trong đề tài này tác giả chỉ thực hiện nhận dạng trên bốn hành động cơ bản của người. Các hành động khác chúng ta cũng có thể thu thập và đưa vào huấn luyện mạng như các hành động trên đồng nghiã với việc thời gian xử lý sẽ lâu hơn và yêu cầu phần cứng cao hơn.

Hình 3.3 Dữ liệu hành động người (MyData)

Hình ảnh được trích tự động từ những đoạn video nhỏ tác giả tự quay trên một camera cố định trong một phòng nhỏ, khoảng cách từ 2 đến 3 mét (Bỏ qua ảnh hưởng của điều kiện chiếu sang, ảnh hưởng của những background phức tap,…). Ảnh sau đó sẽ được hiệu chỉnh lại kích thước 227x227. Mục tiêu của việc hiệu chỉnh nhằm phù hợp với kiến trúc mạng CNN 10 lớp của tác giả (xem mục 3.2.3 – Mơ hình huấn luyện) và tiết kiệm thời gian trong quá trình huấn luyện.

1 Bowing 660

2 Walking 1146

3 Waving 1400

4 Nothing 212

Bảng 3.1 Số lượng hình ảnh sử dụng trong huấn luyện

3.2.2 Thiết lập cấu hình phần cứng

Có nhiều lựa chọn để training mạng CNN như: dùng CPU, GPU, TPU hoặc là dùng distributed system. GPU thì thích hợp với nghiên cứu cá nhân hoặc nhóm nhỏ vì nó nhỏ gọn dễ setup, còn disitributed system thường được dùng trong các cơng ty lớn. Nếu khơng có GPU chúng ta vẫn có thể chạy trên CPU nhưng phải rất kiên nhẫn vì nó khơng mạnh trong việc xử lý đồ họa.

Trong mơ hình huấn luyện mạng CNN nhận dạng hành động người lần này tác giả đã sử dụng GPU để huấn luyện trên Card rời GeForce GTX 750 Ti.

.15 Kiến trúc mạng CNN tổng quát

.19 Cách tính tham số của lớp tích chập