Nhân chập tạm thời và hợp nhất

5. Bố cục của luận án

3.2.2.1. Nhân chập tạm thời và hợp nhất

Giả sử cĩ một chuỗi các cảm biến d=1, 2,..., D, một cửa sổ trượt cĩ kích thước

Tđược di chuyển về phía trước với sự dịch chuyển khung của các chuỗi đầu vào phân đoạn s. Các chuỗi đầu vào này cĩ kích thước [T, D]. Khi sử dụng một khung s nhỏ, nhiều cửa sổ đại diện cho hoạt động được trích chọn. Mặc dù thơng tin trong đĩ rất dư thừa nhưng sự dịch chuyển các khung s nhỏ cho phép tạo ra một số lượng lớn các mẫu, đây là điều quan trọng để huấn luyện một CNN [46, 121]. Trong CNN, các lớp nhân chập sẽ kết hợp các đầu vào bản đồ đặc trưng của chúng với các bộ lọc C

dọc theo trục thời gian. Cĩ một bản đồ đặc trưng xi cĩ kích thước [T, D, C] (T phép đo dữ liệu cảm biến, D là loại cảm biến và C phép nhân chập giữa ma trận là một cửa sổ trượt với ma trận lọc, với dữ liệu cảm biến gia tốc thì T được tính là m/s2) trong lớp i, một bộ cj ∈ Cj lọc , cĩ kích thước [F, 1, Ci] và thiên vị kết nối các lớp i và j, nhân chập thời gian cho mỗi cảm biến d là:

∑−1

, , =0 =0 ,1, + , ,

Trong cơng thức trên σ là hàm kích hoạt, các bộ lọc wj được chia sẻ giữa tất cả các cảm biến D. Hình 3.2 mơ tả việc nhân chập thời gian cho đầu vào và các lớp khác nhau của CNN.

Các tốn tử Pooling sẽ làm giảm kích thước của bản đồ đặc trưng dọc theo trục thời gian tạo ra sự đáng tin cậy theo thời gian. Tốn tử max-pooling giữa lớp i và j cho một kênh c giúp tìm ra giá trị lớn nhất trong một tập giá trị p theo cơng thức:

( )

) ∀ = 1,.., (3.2)

, , 0< ≤ + , ,

trong đĩ P là số phần tử của ma trận là kết quả của phép nhân chập, p là chỉ số của ma trận.

3.2.2.2. Các kiến trúc sâu

NCS sử dụng kiến trúc xử lý chuỗi dữ liệu theo thời gian bằng CNN từ nhiều cảm biến riêng biệt được đeo trên cùng một người. Kiến trúc này sử dụng các lớp nhân chập theo thời gian để tìm ra các đặc trưng cục bộ và các lớp được kết nối đầy đủ để kết nối tất cả các đặc trưng cục bộ này, tạo ra sự biểu diễn tồn cục của dữ liệu. Trong kiến trúc này cĩ nhiều nhánh xử lý song song vì vậy mạng sẽ rộng và sâu hơn, mỗi nhánh song song đại diện cho dữ liệu của một cảm biến. Đây là kiến trúc cĩ hiệu quả hơn đối với hệ thống cĩ nhiều cảm biến khơng đồng bộ hoặc thiết lập ở các vị trí khác nhau trên cơ thể con người [46, 91].

Hình 3.3. Kiến trúc CNN chứa m nhánh song song, mỗi nhánh là một cảm biến

Kiến trúc này bao gồm các nhánh song song, mỗi nhánh gồm nhiều lớp nhân chập, các tốn tử gộp và một lớp được kết nối đầy đủ bổ sung (hình 3.3). Các nhánh song song cĩ nhiệm vụ xử lý và hợp nhất các chuỗi đầu vào từ mỗi cảm biến, tạo ra một đại diện chung nhất cho cảm biến đĩ. Theo [121] mỗi cảm biến ∈ được xử lý riêng bằng cách nhân chập theo thời gian, điều này cĩ nghĩa các nhân chập sẽ được thực hiện theo trục thời gian (cơng thức 3.1) và các trọng số sẽ được chia sẻ giữa các cảm biến. Mỗi nhánh chứa B các khối, mỗi khối bao gồm 2 khối con nhân chập tạm thời 5x1 theo sau bởi 2x1 tốn tử max-pooling và cuối cùng được nối với một lớp kết nối đầy đủ (fully connected), ở lớp cuối cùng này dữ liệu được duỗi ra thành một véc-tơ 512 chiều để kết hợp lại với nhau dựa vào lớp softmax, dữ liệu này là đầu vào của hàm xác suất cho từng lớp (tên của các hoạt động bất thường). Tuỳ theo tập dữ liệu, số lượng nhân chập tạm là các lớp max-pooling cĩ thể thay đổi. Thay vì làm cho mạng sâu hơn, các lớp này được xử lý song song cho mỗi cảm biến, điều này làm tăng tính mơ tả của mạng. Mạng kết hợp các biểu diễn chung này thành một biểu diễn tồn cục bằng một lớp được kết nối đầy đủ kế tiếp. Do chỉ cĩ một hoạt động được coi là cĩ mặt ở mỗi phân đoạn, nên một hàm kích hoạt softmax đã được sử dụng để lấy giá trị xác suất giả từ điểm số của lớp ∈ . Đối với huấn luyện, entropy chéo giữa xác suất ước tính và nhãn mục tiêu ∈ được sử dụng. Dropout được áp dụng cho tất cả các lớp được kết nối đầy đủ, ngoại trừ lớp phân loại.

3.2.3. Thử nghiệm

Tại sao phải phát hiện VĐBT

Trích chọn đặc trưng thủ cơng