Tiếp đến NCS tiến hành căn chỉnh, phân chia các phép đo cảm biến và áp dụng biến đổi Fourier cho mỗi khối cảm biến. Đối với mỗi cảm biến, NCS xếp các đầu ra miền tần số này thành d(k) × 2f × T tenxor X(k), trong đĩ d(k) là kích thước đo chiều cảm biến, f là kích thước miền tần số và T là số chu kỳ thời gian.
3.1.3. Độ đo đánh giá
Các độ đo đánh giá trong các thử nghiệm phát hiện VĐBT bằng học sâu bao gồm: Độ chính xác, độ bao phủ và điểm F1 (F1-score). Chi tiết về ý nghĩa, cách tính tốn các độ đo này đã trình bày trong mục 1.4 ở chương 1.
3.2. Mơ hình mạng học sâu nhân chập (CNN) phát hiện VĐBT
3.2.1. Mơ hình CNN
Ban đầu CNN được phát triển để xử lý hình ảnh, CNN thực hiện so sánh hình ảnh theo từng mảnh (cịn gọi là các đặc trưng), trong trường hợp cần xem xét một hình ảnh mới, CNN khơng biết chính xác các đặc trưng nào sẽ khớp nên sẽ thử tất cả các đặc trưng cĩ thể. Khi tính tốn sự khớp của một đặc trưng trên tồn bộ ảnh, CNN sẽ tạo ra các bộ lọc (filter), các bộ lọc được xây dựng nhờ sử dụng cơng thức nhân chập. Cấu trúc của CNN cụ thể như sau:
CNN bao gồm các lớp nhân chập xếp chồng, sử dụng các hàm kích hoạt phi tuyến như ReLU để kích hoạt các trọng số tại các node. Sau khi sử dụng các hàm kích hoạt này sẽ tạo ra các thơng tin trừu tượng hơn cho lớp tiếp theo. Đối với mơ hình mạng truyền ngược (feedforward neural network) cịn gọi là mơ hình kết nối đầy đủ (fully connected layer) hay mạng tồn vẹn (affine layer) thì mỗi nơ-ron đầu vào (input node) sẽ tương ứng với mỗi nơ-ron đầu ra trong lớp tiếp theo. Trong mơ hình CNN, các lớp liên kết với nhau thơng qua cơ chế nhân chập. Lớp tiếp theo hình thành là kết quả nhân chập của lớp trước đĩ, do đĩ các kết nối cục bộ cĩ thể được thực hiện. Cĩ thể thấy trong mơ hình này, các nơ-ron ở lớp sau được tạo ra từ kết quả lọc áp dụng lên một vùng ảnh cục bộ của nơ-ron trước đĩ.
Do các lớp sử dụng các bộ lọc khác nhau nên sẽ cĩ rất nhiều bộ lọc được tạo ra. Đặc biệt, cĩ một số lớp như pooling/subsampling cịn được sử dụng để tạo ra những thơng tin cĩ trọng số cao hơn. CNN sẽ tự động học điều này qua các lớp lọc trong quá trình mạng được huấn luyện. Lớp cuối cùng được dùng để phân lớp và nhận dạng.
Khi sử dụng CNN cần lưu ý đến hai yêu tố là phụ thuộc cục bộ và bất biến. Phụ thuộc cục bộ sẽ cho phép biểu diễn thơng tin theo cấp độ từ thấp đến cao và trừu tượng hơn thơng qua nhân chập từ các bộ lọc. Cịn bất biến thể hiện trong trường hợp khi một đối tượng cần nhận dạng ở các trạng thái và gĩc độ khác nhau thì hiệu suất của thuật tốn sẽ bị ảnh hưởng đáng kể, khi đĩ các lớp Pooling cần được sử dụng sẽ giúp nâng cao hiệu suất của thuật tốn. Điều này cũng giúp lý giải tại sao CNN là mơ hình cĩ độ chính xác cao và được nhiều nghiên cứu sử dụng để giải quyết các bài tốn liên quan đến nhận dạng.
3.2.2. Phát hiện VĐBT bằng mạng CNN
Với lợi thế về phụ thuộc cục bộ và bất biến, CNN đã được nhiều nghiên cứu sử dụng trong lĩnh vực nhận dạng hoạt động nĩi chung và phát hiện VĐBT ở người nĩi riêng [39, 42]. Sự phụ thuộc cục bộ sẽ giúp các tín hiệu lân cận trong HAR cĩ khả năng tương quan với nhau, trong khi sự bất biến đề cập đến sự bất biến tỷ lệ đối với những tốc độ và tần số khác nhau của tín hiệu. Đối với VĐBT, sử dụng CNN cĩ lợi thế trong việc trích xuất và phân lớp đặc trưng một cách tự động và đồng bộ từ đầu đến cuối, CNN sử dụng các trình trích xuất đặc trưng là các phép biến đổi phi tuyến được học trực tiếp từ dữ liệu thơ do đĩ nĩ tạo ra các đặc trưng cĩ tính phân biệt cao đối với các lớp hoạt động của con người [39, 121].
CNN sử dụng cho bài tốn phát hiện VĐBT bao gồm các cấu trúc phân cấp kết hợp với việc nhân chập bằng cách sử dụng các bộ lọc cĩ thể học và các hàm kích hoạt phi tuyến, bao gồm cả việc lấy mẫu và phân lớp. Chúng ánh xạ đầu vào thành một đại diện nhỏ gọn hơn, hoặc phân loại thành các lớp tuỳ theo từng mục tiêu cụ thể. Các lớp nhân chập trích xuất các đặt trưng cụ thể tại những vị trí khác nhau từ đầu vào của chúng. Bằng kỹ thuật xếp chồng và lấy mẫu kết quả đầu ra, CNN sẽ trích xuất các đặc trưng trừu tượng và phức tạp hơn, thực hiện bất biến đối với sự thay đổi và dịch chuyển tạm thời. Đối với bài tốn phát hiện VĐBT, đầu vào cho CNN là chuỗi dữ liệu (thu được từ các cảm biến quán tính) theo thời gian đa kênh đã được phân đoạn thành các cửa sổ trượt theo một khoảng thời cĩ độ dài 2 giây. Cĩ thể coi
đầu vào này là ma trận 2D bao gồm các phép đo T cho mỗi cảm biến D, minh hoạ trong hình 3.2. Ngồi ra, việc nhân chập và lấy mẫu cịn được thực hiện dọc theo trục thời gian, theo cách này CNN trích xuất các vận động của cơ thể theo thứ bậc, từ các vận động cơ bản đến các vận động phức tạp, Bên cạnh đĩ chúng cịn học sự phụ thuộc tạm thời giữa các vận động khác nhau.