Pha thứ nhất là tạo mô hình phát hiện hành động

Một phần của tài liệu NGHIÊN cứu, xây DỰNG mô HÌNH ĐÁNH GIÁ, PHÁT HIỆN HÀNH VI bất THƯỜNG dựa TRÊN PHÂN TÍCH dữ LIỆU cảm BIẾN TRONG điện THOẠI THÔNG MINH (Trang 34 - 38)

3.1.1.1.Nhận dạng hành động

Các bước từ xử lý dữ liệu thô gán nhãn tới tạo mô hình, thứ tự xử lý được mô tả như sau:

a). Xử lý dữ liệu

Từ cảm biến điện thoại thu được dữ liệu theo trục x,y,z được biểu diễn như hình dưới đây:

35

Hình 3.2 Dữ liệu ba trục X, Y, Z của cảm biến theo thời gian

Trục tọa độ x, y, z với đơn vị đo là (m/s^2), thời gian lấy mẫu tương ứng với dữ liệu thu được là timestamp với đơn vị tính là (ns) trong dữ liệu mẫu là tần số lấy mẫu là 85Hz.

Với dữ liệu liên tục theo thời gian thì một phương pháp phổ biến xử lý dữ liệu trước khi đưa vào mô hình đó là sử dụng Kỹ thuật cửa sổ trượt (Sliding window). Kỹ thuật đùng để cắt dữ liệu thô ban đầu thành dữ liệu đưa vào mô hình với nhiều đoạn khác nhau gọi là các cửa sổ có cùng kích thước (W). Cửa sổ sau chồng lên của sổ trước (2 cửa sổ có cùng 1 phần dữ liệu) theo một tỷ lệ nhất định. Đề tài của luận văn là nhận dạng hành động dựa trên dữ liệu của cảm biến gia tốc trên điện thoại thông minh theo thời gian liên tục với tần số lấy mẫu đặt trước. Vì vậy, dữ liệu bao gồm ba giá trị theo trục tọa độ x, y, z theo thời gian. Vì vậy, mô hình nhận dạng hành động của chúng ta có thể áp dụng kỹ thuật cửa sổ trượt để cắt dữ liệu đưa vào mô hình nhận dạng. Ví dụ cửa sổ trượt được trình bày như hình dưới đây:

-20 -10 0 10 20 1 15 29 43 57 71 85 99 113 127 141 155 169 183 197 211 225 239 253 267 281 295 309 323 337 351 365 379 393 407 421 435 449 CSI X Y Z

36

Hình 3.3 Cửa sổ trượt dữ liệu

Dữ liệu sẽ được cắt ra với cửa sổ lớn W và tỷ lệ chồng dữ liệu là từ 0 - 90%. Cửa sổ W và W’ đều có cùng tính chất là cùng tỷ lệ chồng dữ liệu nằm trong khoảng từ 0-90%.

b) Biến đổi dữ liệu tạo các thuộc tính

Dữ liệu gia tốc thu được là chuỗi dữ liệu liên tục theo miền thời gian. Đây là một chuỗi dữ liệu thô ban đầu. Để nạp dữ liệu vào mô hình chúng ta cần biến đổi dữ liệu thô ban đầu thành một cấu trúc dữ liệu mà mô hình phân lớp có thể hiểu. Đây chính là quá trình xây dựng các tập thuộc tính đặc trưng. Dựa trên kết quả của nhóm nghiên cứu [15] các thuộc tính đặc trưng được thể hiện trên 3 đặc tính đó là thuộc tính miềm thời gian, thuộc tính miền tần số [16][17], và tham số Hjorth [18] cụ thể trong nghiên cứu của luận văn sử dụng 59 bộ thuộc tính trong đó:

Các thuộc tính được xây dựng dựa trên miền thời gian: 37 thuộc tính. Các thuộc tính dựa trên miền tần số: 7 thuộc tính.

Các thuộc tính tham số Hjorth: 15 thuộc tính.

Bộ thuộc tính được luận văn kế thừa từ nghiên cứu, chứng minh hiệu quả trong các luận án công bố trước đó của nhóm.

Dữ liệu sau khi được xử lý và biến đổi thì sẽ áp dụng các phương pháp phân loại, nhận dạng hành động theo thuật toán RF đã trình bày ở trên.

37

Hình 3.4 Sơ đồ tổng quát nhận dạng từng hành động

Kết quả phân lớp phụ thuộc vào các tham số cửa sổ trượt W, W’, tỷ lệ chồng dữ liệu.

Với mỗi một bộ tham số mô hình chúng ta sử dụng cùng lúc 2 cửa sổ W, W’ khác nhau vì vậy sau bước này kết quả chúng ta sẽ có 22 mô hình nhận dạng của 11 hành động tương ứng với 2 cửa sổ trượt là W và W’.

Dữ liệu đầu vào khi chạy qua mô hình, nếu tại cửa sổ W mô hình cho kết quả bằng 0 (dữ liệu không được nhận dạng là 1 trong 11 hành động) thì chúng ta kết luận đây là hành vi bất thường. Nếu tại cửa sổ W mô hình trả về kết quả là 1 thì (dữ liệu thuộc 11 hành động cho trước) thì khi đó chúng ta chia cắt dữ liệu cửa sổ W ra thành nhiều cửa sổ nhỏ hơn W’ và thực hiện cho dữ liệu W’ qua bộ nhận dạng hành động, dữ liệu nhận được là 1 tập hợp các hành động nhận dạng được theo cửa sổ nhỏ W’.

38

3.1.1.2.So khớp xác định ngưỡng tối ưu

Việc so khớp dữ liệu giữa kết quả chạy qua các mô hình nhận dạng tại cửa sổ W và W’ chỉ xảy ra khi tại kết quả W là bằng 1.

Trong hướng nghiên cứu hiện tại việc so khớp kết quả được thực hiện như sau:

Với mỗi cửa sổ W khi chia nhỏ dữ liệu theo cửa sổ W’ được x cửa sổ. Cho x cửa sổ W’ này chay qua mô hình và kết quả chúng ta nhận được sẽ là 1 tập hợp kết quả 0, 1 tùy theo kết quả của mô hình trả về.

Ví dụ kết quả của 1 cửa sổ W và W’ dưới đây, khi đó chúng ta tính tỷ lệ so khớp giữa kết quả của cửa sổ W’ giống với kết quả của cửa sổ W như sau:

Cửa sổ W Cửa sổ W' Tỷ lệ W'1 W'2 W'3 W'4 W'5 W'6 W'7 W'8 W'9 W'10 W'11 W'12 1 1 0 0 1 1 0 0 0 1 1 1 1 0.58 1 1 1 1 0 0 0 1 1 1 1 1 1 0.75

Bảng 3.1: Mô tả tính tỷ lệ so khớp giữa cửa sổ W và W’ (adsbygoogle = window.adsbygoogle || []).push({});

Vấn đề của bài toán chính là tìm tỷ lệ ngưỡng Ɛ giữa sự giống nhau của kết quả giữa cửa cửa sổ W với W’ tối ưu nhất bảo đảm kết quả phát hiện hành vi bất thường là cao nhất.

3.1.1.3.Tối ưu tham số

Tại pha huấn luyện dữ liệu được nhận dạng dựa trên nhãn của bộ dữ liệu kiểm tra. Quá trình được thực hiện lặp đi lặp lại với các tham số W, W’ tỷ lệ chồng dữ liệu và tỷ lệ so khớp khác nhau, dựa vào kết quả các lần thực nghiệm so sánh để tìm ra bộ tham số F(W, W’, Ɛ) tối ưu với kết quả cao nhất.

Một phần của tài liệu NGHIÊN cứu, xây DỰNG mô HÌNH ĐÁNH GIÁ, PHÁT HIỆN HÀNH VI bất THƯỜNG dựa TRÊN PHÂN TÍCH dữ LIỆU cảm BIẾN TRONG điện THOẠI THÔNG MINH (Trang 34 - 38)