Bài viết đề xuất một phương pháp phát hiện bất thường gồm hai giai đoạn, trong giai đoạn đầu tiên, SVM một lớp được thiết lập để lọc ra hầu hết các hoạt động bình thường; ở giai đoạn thứ 2, các dữ liệu bất thường được chuyển đến một tập hợp các mô hình hoạt động bất thường có điều chỉnh thông qua hàm nhân phi tuyến hồi quy để phát hiện thêm.
Nguyễn Tuấn Linh, Vũ Văn Thỏa, Phạm Văn Cường PHÁT HIỆN HOẠT ĐỘNG BẤT THƯỜNG SỬ DỤNG HÀM NHÂN PHI TUYẾN HỒI QUI Nguyễn Tuấn Linh+, Vũ Văn Thỏa+, Phạm Văn Cường+ + Học viện Cơng nghệ Bưu Viễn thông Abstract - Bài báo đề xuất phương pháp phát bất thường gồm hai giai đoạn, giai đoạn đầu tiên, SVM lớp thiết lập để lọc hầu hết hoạt động bình thường; giai đoạn thứ 2, liệu bất thường chuyển đến tập hợp mơ hình hoạt động bất thường có điều chỉnh thơng qua hàm nhân phi tuyến hồi qui để phát thêm Quá trình huấn luyện mơ hình thực qua thuật tốn kỳ vọng cực đại (EM) Chúng tiến hành thực nghiệm đánh giá kết phương pháp đề xuất tập liệu thu thập từ 50 người gồm 20 hoạt động vận động bất thường Kết với độ xác độ nhạy trung bình đạt 76.32% 78.95% cho thấy nhiều tiềm ứng dụng cho ứng dụng chăm sóc, hỗ trợ người cao tuổi, giám sát an ninh Keywords - Cảm biến, hoạt động bất thường, học máy I GIỚI THIỆU Tự động phát vận động bất thường nhận nhiều quan tâm cộng đồng nghiên cứu thời gian gần tiềm ứng dụng thực tế trợ giúp theo dõi chăm sóc sức khỏe cho người cao tuổi, cảnh báo an ninh, tự động phát tai nạn v.v… Ví dụ nơi cơng cộng (public space) cần bảm đảo an ninh có nhiều người tham dự kiện Nếu có hệ thống theo dõi hoạt động cá nhân phát hoạt động bất thường hệ thống khoanh vùng gửi cảnh báo sớm đến lực lượng an ninh, từ hạn chế hậu việc an tồn chí khủng bố Các nghiên cứu trước thường tập trung vào toán nhận dạng hoạt động bình thường (hoạt động thường xuyên diễn ra) người (human activity recognition) thu kết đáng kể, nghiên cứu [1][2][3] phân tích liệu từ cảm biến để huấn luyện mơ hình học máy học sâu [1], qua nhận dạng Tác giả liên hệ: Nguyễn Tuấn Linh Email: nguyenlinhict@gmail.com Đến tòa soạn: 04/2019, chỉnh sửa: 20/5/2019, chấp nhận đăng: 27/5/2019 SỐ 01 (CS.01) 2019 hoạt động người Trong đó, tốn ngược nhận dạng hoạt động bất thường có nhiều ứng dụng rộng rãi đặc biệt lĩnh vực an ninh chăm sóc sức khỏe cho người cao tuổi Chẳng hạn, việc đảm bảo an ninh, giả sử cần theo dõi hoạt động tất người khu vực cần bảo vệ đặc biệt, người ta sử dụng thẻ định danh có gắn cảm biến, cảm biến theo dõi hoạt động người đeo thẻ, có hoạt động coi bất thường, hệ thống phát báo động cảnh báo việc an ninh cho phận có liên quan Hay lĩnh vực chăm sóc sức khỏe người cao tuổi, thay quan tâm đến hoạt động bình thường người dùng, bác sỹ người chăm sóc đặc biệt quan tâm đến hoạt động bất thường, ngã hay hoạt động kiểm soát bệnh nhân Parkinson Những hệ thống nhận dạng hoạt động bất thường gặp khó khăn trình huấn luyện liệu hoạt động bất thường khan Ví dụ hệ thống an ninh bảo mật, việc giám sát dễ dàng nhận biết hoạt động bình thường có tính thường xun xảy tính sẵn có liệu huấn luyện Nhưng với hoạt động bất thường, hệ thống khó nhận biết hoạt động bất thường mẻ với hệ thống Hơn nữa, liệu hoạt động bất thường sử dụng để huấn luyện hoạt động bất thường bị thay đổi để tránh bị phát Đối với việc nhận dạng hoạt động bất thường, hạn chế liệu huấn luyện thường dẫn đến hiệu suất phát hoạt động bất thường chưa đạt độ xác đủ cao Trong báo này, mở rộng phương pháp phân loại hoạt động bất thường đơn giản dựa mơ hình máy véc tơ hỗ trợ (support vector machines) [4] việc sử dụng thuật tốn lặp thích nghi dựa mơ hình hồi qui phi tuyến với hàm nhân Chúng thực nghiệm tập liệu từ 50 người tham gia với 20 hoạt động khác bao gồm hoạt động bất thường nhóm nghiên cứu Đại học Bách khoa Hà nội Học viện Công nghệ Bưu Viễn thơng thu thập cơng bố Hội nghị quốc tế ICPR 2018 [5] bước đầu cho kết TẠP CHÍ KHOA HỌC CƠNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 28 PHÁT HIỆN HOẠT ĐỘNG BẤT THƯỜNG SỬ DỤNG HÀM NHÂN PHI TUYẾN HỒI QUI tương đối khả quan II CÁC NGHIÊN CỨU LIÊN QUAN Trước đây, có số nghiên cứu đề xuất phương pháp để phát hoạt động bất thường thường tiếp cận theo ba hướng chính: A Nhận dạng hoạt động bất thường sử dụng học máy Nghiên cứu [6] sử dụng việc khai thác luật đơn giản sử dụng để mơ tả hành vi bình thường hoạt động người Tiếp cận theo hướng cung cấp khả nắm bắt quy tắc bất thường tốt việc sử dụng quy tắc đặc biệt biểu diễn kiến thức chuyên gia Nghiên cứu [7] tiếp cận phương pháp kế hoạch mẫu nhận dạng (template-based plan recognition) cho ứng dụng giám sát bảo mật Với phương pháp này, kế hoạch mẫu đề xuất để cơng nhận xếp hạng mẫu tiềm có khả dẫn đến công bất hợp pháp Đầu tiên hệ thống tiến hành biên dịch tập mẫu điển hình khung logic để lập kế hoạch thơng minh nhân tạo, sau hệ thống tiến hành kết hợp mẫu với hành động mục tiêu giám sát Cách tiếp cận đạt tỷ lệ thành công cao mẫu kế hoạch định nghĩa ưu tiên Nhiều nghiên cứu trước đề xuất phương pháp dựa mơ hình Markov ẩn (HMM) [8] hay mạng Bayesian động (DBNs) [9][10][11] phát hoạt động người Ví dụ, Lester đồng [8] nghiên cứu cách tiếp cận phân biệt lai để cơng nhận hoạt động người, đặc trưng quan trọng trích xuất để xây dựng tập hợp phân loại tĩnh HMM huấn luyện để phát hoạt động khác Patterson đồng áp dụng mạng Bayesian [9][11] để dự đốn vị trí người phương tiện di chuyển sử dụng GPS môi trường đô thị Nghiên cứu Yin đồng [12] áp dụng DBN để phát hoạt động nhà người từ chuỗi giá trị cường độ tín hiệu mạng LAN Trong [13] lại sử dụng micro gia tốc kế để phát hoạt động hàng ngày người Điểm chung nghiên cứu kể sử dụng phương pháp học có giám sát, phương pháp đòi hỏi lượng lớn liệu gán nhãn để huấn luyện, sử dụng để phát bất thường dẫn đến thiếu liệu để huấn luyện Một số nghiên cứu sử dụng phương pháp thị giác máy để phát hoạt động bất thường video Xiang đồng [14] sử dụng DBN để mơ hình hóa loại mẫu video bình thường Ở đây, hoạt SỐ 01 (CS.01) 2019 động coi bất thường khả nhận dạng mơ hình bình thường nhỏ ngưỡng Đây hướng nghiên cứu đơn giản hấp dẫn, nhiên việc xác định ngưỡng hợp lý điều khó khăn Nghiên cứu [15][37] sử dụng mơ hình Markov ẩn để phát hoạt động bất thường chu kỳ trạng thái, hướng tiếp cận mang lại kết khả thi B Phát hoạt động bất thường sử dụng học máy kết hợp khai phá liệu Đây hướng tiếp cận sử dụng kiến thức học máy khai phá liệu để phát mẫu ngoại lệ hay ngoại lai (outlier) Ở hướng tiếp cận chia thành hai nhánh: Thứ tiếp cận dựa tương đồng [16], thứ hai tiếp cận dựa mơ hình [17][18] Trong nghiên cứu Breunig đồng [19] lại sử dụng học máy kết hợp với khai phá liệu để nhận dạng hoạt động bất thường, tác giả sử dụng phân cụm dựa mật độ để phát ngoại lai cục bộ, thuật toán thường dựa vào khoảng cách ngưỡng mật độ người dùng xác định để phát xuất ngoại lai (hoặc điểm liệu bất thường) không gian nhiều chiều (highdimensional space) Nguyên lý phương pháp điểm lân cận gần mẫu coi bình thường, ngược lại mẫu coi bất thường Phương pháp có ưu điểm không cần phải xác định phân phối để xác định ngoại lai thực tập liệu lớn Thế khó khăn làm để xác định tính tương đồng cách hiệu với lượng liệu lớn khơng chắn Có thể lấy ví dụ khu vực mạng cảm biến, thông số cảm biến liên tục thay đổi theo thời gian Do khó xác định khoảng cách đủ mạnh để tìm điểm liệu ngoại lai Một khó khăn khác trường hợp hệ thống cần phải hoạt động trực tuyến mơ hình phải huấn luyện trước hoạt động bất thường xảy ra, điều khơng khả thi Hơn nữa, có lượng liệu lớn mang tính đa dạng ngẫu nhiên các phương pháp tiếp cận theo hướng tương đồng dựa khoảng cách thường khó hoạt động tốt mong muốn Nghiên cứu Ma Parkins [18] tiếp cận việc phát hoạt động bất thường mơ hình dự báo, trước tiên họ tiến hành trích xuất đặc trưng hữu ích từ liệu chuỗi thời gian (time series data), sau tiến hành huấn luyện mơ hình SVM lớp để phát liệu ngoại lai Điểm hạn chế cách tiếp cận theo hướng việc lựa chọn tham số có độ nhạy thích hợp để đạt cân hợp lý độ xác cảnh báo giả (false alarm) TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG 29 Nguyễn Tuấn Linh, Vũ Văn Thỏa, Phạm Văn Cường C Phát hoạt động bất thường sử dụng huấn luyện có trọng số Một số nghiên cứu tiếp cận theo hướng huấn luyện có trọng số (Cost-sensitive learning) Đây hướng nghiên cứu nhằm giải vấn đề phân loại diện trọng số phân loại sai khác có liên quan đến lỗi [17][20] hữu ích cho việc huấn luyện trường hợp lớp không cân Vấn đề trọng số phân loại sai khác phổ biến nhiều lĩnh vực đời sống chẩn đoán y khoa, phát xâm nhập hay tiếp thị trực tiếp Điển hình có nghiên cứu [17][21] chứng minh việc sử dụng số đánh giá dựa xếp hạng theo đường cong đặc trưng hoạt động thu nhận (Receiver Operating Characteristic - ROC) thay sử dụng độ xác Trong [22][23] Yang đồng giới thiệu cách tiếp cận tích hợp huấn luyện có trọng số với xử lý giá trị thiếu (missing value handling) nơi có thêm trọng số kiểm tra tồn (where additional test costs exist) thu giá trị thiếu cho liệu tương lai Kỹ thuật huấn luyện có trọng số thường sử dụng để giải vấn đề liệu cân bằng, cách thiết lập trọng số false positive false negative khác kết hợp yếu tố trọng số risk formula [17][24] (tạm dịch: hàm rủi ro) Các nghiên cứu huấn luyện có trọng số có ba nhóm Nhóm tập trung vào việc phân loại cụ thể huấn luyện có trọng số bao gồm phương pháp sử dụng định [25], mạng noron [26] máy vecto hỗ trợ (SVM) [27] Nhóm thứ hai thiết kế trình bao bọc cho thuật tốn phân loại việc áp dụng lý thuyết Bayes gán cho mẫu trọng số lớp thấp [24] Nhóm thứ ba bao gồm phương pháp huấn luyện sửa đổi phân phối mẫu (modify the distribution of training examples) trước áp dụng thuật toán để phân loại học từ phân phối sửa đổi nhạy cảm trọng số [28] III PHƯƠNG PHÁP PHÁT HIỆN VẬN ĐỘNG BẤT THƯỜNG Thực tế cho thầy rằng, hoạt động bất thường, việc thu thập lượng lớn liệu cho huấn luyện mơ hình khó khăn lại dễ dàng thực điều với hoạt động bình thường, điều cho phép tạo mơ hình nhận dạng với kết tốt với hoạt động bình thường Do đó, chúng tơi thực phương pháp phát hoạt động bất thường gồm hai giai đoạn với liệu huấn luyện có sẵn hoạt động bình thường Ở giai đoạn thứ nhất, xây dựng máy véc tơ hỗ trợ lớp (OneClass SVM) dựa liệu hoạt động bình thường để lọc hoạt động có xác xuất cao bình thường, hoạt động bình thường SỐ 01 (CS.01) 2019 mơ hình hóa mơ hình Markov ẩn tương tự cách trích chọn biểu diễn đặc trưng nghiên cứu [32] [33] [34] [35] [36] [37] Các dấu hiệu đáng ngờ, phân vân chuyển tiếp sang giai đoạn hai để phát thêm Ở giai đoạn thứ hai, chúng tơi sử dụng phân tích hồi quy khơng tuyến tính để phát mơ hình hoạt động bất thường từ mơ hình hoạt động bình thường Với phương pháp tiếp cận này, chúng tơi đạt tỷ lệ phát hoạt động bất thường tốt mà không cần phải thu thập ghi nhãn liệu bất thường cách rõ ràng Chúng tiến hành thu thập liệu từ nhiều cảm biến đeo thể người dùng chứng minh tính hiệu cách tiếp cận cách sử dụng liệu thực tế A Huấn luyện mơ hình thuật toán kỳ vọng tối đa (EM) Cho X vecto ngẫu nhiên từ tập hợp tham số hóa, muốn tìm cho P(X ) cực đại Yêu cầu gọi ước tính tối đa khả Maximum Likelihood (ML) cho Để ước tính , hàm hợp lý log (log likelihood function) định nghĩa là: L( ) lnP(X ) (1) Hàm likelihood coi hàm tham số cho liệu X Vì ln(x) hàm gia tăng nghiêm ngặt, giá trị tối đa hóa cho P( X ) tối đa cho L( ) Thuật toán EM thủ tục lặp để tối đa hóa L( ) Giả sử sau lần lặp thứ n ước tính đưa n Vì mục tiêu để tối đa hóa L( ) , muốn tính tốn ước tính cập nhật cho thì: L( ) > L(n ) (2) Tương tự, muốn tối đa hóa khác biệt: L( ) - L(n ) = lnP(X| ) - lnP(X|n ) (3) Trong vấn đề tồn liệu, thuật tốn EM cung cấp khn khổ tự nhiên cho bao hàm chúng Nói cách khác, biến ẩn giới thiệu hồn tồn thủ thuật để ước tính khả tối đa dễ kiểm soát Trong trường hợp này, giả định việc biết rõ biến ẩn làm cho việc tối đa hóa hàm có khả dễ dàng Có nghĩa là, biểu diễn vecto ngẫu nhiên ẩn Z TẠP CHÍ KHOA HỌC CƠNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 30 PHÁT HIỆN HOẠT ĐỘNG BẤT THƯỜNG SỬ DỤNG HÀM NHÂN PHI TUYẾN HỒI QUI thể bởi z Tổng xác suất P( X ) viết theo biến ẩn z sau: để mối quan hệ công thức (7) thể rõ ràng: L( ) l ( n ) P(X ) P( z , )P(z ) Bây có hàm l ( n ) giới z (4) hạn hàm L( ) Ngồi ra, quan sát: Cơng thức (3) viết lại sau: L( ) L(n ) ln P(X z, )P(z ) lnP(X n ) l (n n ) L(n ) (n n ) (5) L( n ) P(z X , n )ln Lưu ý biểu thức liên quan đến logarit tổng Sử dụng Jensen’s inequality, chứng minh rằng: n n i 1 i 1 z L( n ) P(z X , n )ln z ln i xi i ln(x i ) P(X z, n ) P(z n ) P(z X , n ) P(X n ) P(X, z n ) P(X, z n ) L(n ) P(z X ,n )ln1 z cho số i với n i 1 i L(n ) Kết áp dụng cho công thức (5) liên quan đến logarit tổng cung cấp số i (8) n hàm l ( n ) L( ) xác định Xem xét số có dạng P z X ,n Vì P z X ,n thước đo xác suất, có P z X ,n P z X , theo yêu cầu n z Sau bắt đầu với cơng thức (5) số P z X , n đưa ra: L( ) L(n ) ln P(X z , )P(z ) lnP(X n ) z ln P(X z , )P(z ) z P(z X , n ) P(z X , n ) lnP(X n ) P(X z, ) P(z ) ln P(x X , ) lnP(X n ) P(z X , ) z n P(X z, ) P(z ) P(z X , n )ln lnP(X n ) P(z X , ) z n P(X z, ) P(z ) P(z X , n )ln P(z X , ) P(X ) z n n ( n ) (6) để thuận tiện cho xác định: l ( n ) L(n ) ( n ) EM: Hàm L( n ) bị giới hạn hàm L( ) Các hàm có kết n Thuật toán EM chọn n 1 làm giá trị mà l( n ) cực đại Vì L( ) l ( n ) tăng l ( n ) đảm bảo giá trị hàm L( ) khả tăng lên bước Mục tiêu chọn giá trị cho L( ) cực đại Nghiên cứu hàm l( n ) bị giới hạn hàm L( ) giá trị hàm l( n ) L( ) với ước tính cho n Vì vậy, Chúng ta viết lại tương đương: L( ) L(n ) ( n ) Hình Biểu diễn đồ họa lần lặp thuật toán (7) làm tăng l( n ) tăng L( ) Để đạt gia tăng lớn giá trị L( ) , thuật toán EM gọi để lựa chọn cho l( n ) cực đại biểu thị giá trị cập nhật n 1 Quá trình minh họa hình (1) Từ ta có: SỐ 01 (CS.01) 2019 TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 31 Nguyễn Tuấn Linh, Vũ Văn Thỏa, Phạm Văn Cường n1 arg max{l( n )} n L l có khả khác n n P(X z, ) P(z ) n1 arg max L(n ) P(z X ,n )ln P(X n ) P(z X ,n ) x phải điểm dừng L Điểm dừng không cần thiết, nhiên cực đại cục Trong [29] cho thấy cho thuật toán hội tụ đến cực tiểu địa phương điểm yên trường hợp bất thường Bây giờ, giảm số w.r.t arg max P(z X , n )lnP(X z, ) P(z ) x làm giá trị với ( n ) cực đại hóa Trong điều đảm bảo gia tăng lớn L( ) , P(X,z, ) P(z, ) arg max P(z X , n )ln P(z, ) P( ) x nhiên làm nhẹ bới yêu cầu tối đa hóa arg max P(z X , n )lnP(X,z x đơn giản tăng khơng thiết phải tối đa hóa arg max EZ X ,n lnP(X,z ) (9) E-step: Xác định kỳ vọng có điều kiện EZ X ,n lnP(X,z ) M-step: Tối đa hóa biểu diễn liên quan đến Tại thời điểm này, để yêu cầu đạt cho đơn giản trao đổi tối đa hóa L( ) cho tối đa hóa l ( N ) Câu trả lời thực tế l ( N ) , điều đơn giản hóa nhờ kiến thức biến ẩn (so với tối đa hóa trực tiếp L( ) ) Các tính chất hội tụ thuật toán EM đề xuất McLachlan Krishnan [29] Trong phần xem xét hội tụ chung thuật tốn Vì n 1 ước tính cho ( n ) cho (n1 n ) (n n ) Với cách tiếp cận này, tổng quát (GEM) thường hữu ích trường hợp việc tối đa hóa khó khăn Sự hội tụ thuật tốn GEM lập luận Sau chuyển đổi n dấu vết huấn luyện thành tập hợp vectơ đặc trưng x1, …, xn, huấn luyện SVM lớp dựa liệu bình thường Ý tưởng tìm khu vực hình cầu chứa hầu hết liệu bình thường cho bán kính R tương ứng nhỏ nhất: n R C i i 1 s.t c xi N ) tính đến liệu không quan sát bị thiếu liệu Z Trong trường hợp chúng tơi ước tính biến này, thuật toán EM cung cấp tảng cho việc Ngồi ra, đề cập trước đó, thuận lợi để đưa biến ẩn để tối đa hóa l ( (n1 n ) gọi thuật tốn tối đa hóa kỳ vọng Trong công thức (9) bước kỳ vọng tối đa rõ ràng Do đó, thuật tốn EM bao gồm việc lặp lại: Trong thuật tốn EM mơ tả trên, n 1 chọn tối đa hóa khác biệt ( n ) Bắt đầu với ước tính cho , n , chúng tơi có ( n ) Vì n 1 R i i (10) Ở đây, biến i sử dụng phép số điểm liệu nằm bên ngồi hình cầu tham số C>= điều khiển cân số lượng hình cầu số lỗi Sử dụng biểu diễn kép hàm Lagrange, hàm mục tiêu tương đương với: n n i 1 i , j1 max i (x i , x i ) i j (x i , x j ) s.t i C , n i 1 i 1 (11) chọn để tối đa hóa ( n ) sau lại có (n1 n ) (n n ) , lần lặp, khả L( ) khơng thay đổi Khi thuật tốn đạt đến điểm cố định cho vài n giá trị n tối đa hóa SỐ 01 (CS.01) 2019 l( ) Vì L l TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 32 PHÁT HIỆN HOẠT ĐỘNG BẤT THƯỜNG SỬ DỤNG HÀM NHÂN PHI TUYẾN HỒI QUI Hình Thủ tục thích nghi lặp lại Hình SVM lớp Bài tốn giải cách sử dụng kỹ thuật tối ưu hóa tiêu chuẩn [30] Để xác định xem liệu thử nghiệm có nằm hình cầu hay khơng, khoảng cách tới tâm hình cầu phải tính tốn Nếu khoảng cách nhỏ bán kính R, liệu thử nghiệm coi bình thường Thơng thường, liệu huấn luyện khơng phân phối theo hình cầu khơng gian đầu vào Do đó, điểm liệu ban đầu ánh xạ vào không gian đặc trưng để thu mơ tả liệu tốt Thay yêu cầu hàm ánh xạ rõ ràng từ không gian đầu vào đến không gian đặc trưng, giải pháp thu cách thay tất kết bên (3) hàm hạt nhân k: n max i k (x i , x i ) i 1 n k (x , x ) i , j 1 i j i i (12) Trong trường hợp này, đặc tính phi tuyến nhiễu cảm biến, ranh giới phân biệt trình phân loại SVM lớp phức tạp Do đó, chúng tơi sử dụng hạt nhân Gaussian Radial Basis Function (RBF) cho SVM lớp sau: k (x i , x j ) exp( xi x j 2 (13) Ở w1 yếu tố mở rộng kiểm soát độ rộng hàm hạt nhân SỐ 01 (CS.01) 2019 Một hạn chế lớn việc sử dụng SVM lớp để phát bất thường khó khăn việc chọn độ nhạy đủ cao để mang lại tỷ lệ false negative thấp tỷ lệ false positive thấp Hình minh họa hai ranh giới định SVM lớp xây dựng điểm liệu với hai đặc trưng Trong hình, ranh giới định rộng biểu thị đường cong đứt nét, dẫn đến nhiều false negatives; ranh giới định hẹp biểu thị đường cong liền nét, dẫn đến nhiều kết false positives Lấy kết SVM lớp làm đầu vào, giai đoạn thứ hai cách tiếp cận đề xuất tạo mơ hình hoạt động bất thường từ mơ hình hoạt động bình thường Các mơ hình sử dụng để phát bất thường B Phát hoạt động bất thường lặp thích nghi mơ hình huấn luyện Chúng tơi tạo mơ hình cho hoạt động bất thường thủ tục lặp Như thể hình 3a, bắt đầu cách có mơ hình chung cho hoạt động bình thường Với mơ hình bình thường ước tính tốt dấu vết kiểm tra, trước tiên chúng tơi tính tốn khả theo dõi tạo mơ hình chung Nếu khả (likelihood) nhỏ ngưỡng xác định trước , xác định dấu vết ngoại lệ Các ngoại lệ coi đại diện cho loại hình cụ thể hoạt động bất thường, sử dụng để huấn luyện mơ hình hoạt động bất thường Tuy nhiên, có ngoại lệ rõ ràng không đủ để tạo ước tính tốt tham số mơ hình cho mơ hình hoạt động bất thường Do đó, chúng tơi thực phân tích hàm nhân phi tuyến hồi qui để điều chỉnh mơ hình chung thành mơ hình hoạt động bất thường cụ thể cách sử dụng ngoại lệ phát (xem hình 3b) Sau đó, dấu vết kiểm tra khác đến, TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 33 Nguyễn Tuấn Linh, Vũ Văn Thỏa, Phạm Văn Cường tính tốn khả tối đa tạo dấu vết mơ hình có Nếu khả tối đa đưa mơ hình chung, chúng tơi dự đốn dấu vết hoạt động bình thường; khơng, chúng tơi xác định bất thường Trong trường hợp tiếp theo, phải định liệu mơ hình hoạt động bất thường có tạo hay khơng Nếu khả tối đa cao ngưỡng , coi dấu vết thuộc mơ hình bất thường có; khơng, dấu vết coi loại hoạt động bất thường Vì vậy, chúng tơi lấy mơ hình hoạt động bất thường từ mơ hình bình thường chung (xem hình 3c) Quy trình lặp sau: Ban đầu, có nút cây, đại diện cho mơ hình bình thường chung Khi phát hoạt động bất thường, nút tách từ nút cha trên, tạo mơ hình hoạt động bất thường Khi dấu vết bất thường khác phát hiện, đại diện mơ hình bất thường có, cấu trúc giữ nguyên; không, mô hình hoạt động bất thường có nguồn gốc từ nút cha hình thành Cấu trúc sửa đổi cách trực tuyến, cho phép tất mơ hình tạo cách hiệu Trong trường hợp này, chọn điều chỉnh vecto iold ,1 i Q , biểu thị trung bình mơ hình Để vecto trung bình trạng thái thứ i Sự thích nghi thực theo hai bước Đầu tiên, với liệu mới, ước tính vecto trung bình inew tính tốn dựa mơ hình chung Thứ hai, vecto trung bình i điều chỉnh theo công thức sau: i old i (1 ). new i (14) Ở yếu tố trọng số kiểm sốt cân mơ hình cũ ước tính Giá trị nhỏ, có nhiều đóng góp liệu cho mơ hình điều chỉnh Để thực phép biến đổi tuyến tính mơ hình chung liệu thích ứng Do đó, chúng tơi thực thích nghi cách sử dụng hàm nhân phi tuyến hồi qui [31] Ý tưởng hàm nhân phi tuyến hồi qui ánh xạ phép biến đổi hồi quy tuyến tính thành khơng gian đặc trưng chiều cao thông qua đồ hạt nhân phi tuyến Coi i* (BK AK1 )(K2 I )1 K (15) Trong công thức này, tương tự , yếu tố trọng số cân mơ hình cũ ước tính I ma trận nhận dạng thông số thường xuyên người dùng xác định Ma trận K hạt nhân ma trận Q x Q: k ( 1old , 1old ) k ( 1old , Qold ) K k ( old , old ) k ( old , old ) Q Q Q (16) Với k(.,.) hàm hạt nhân Ở đây, để nắm bắt chuyển đổi phi tuyến mơ hình chung liệu thích nghi, chúng tơi sử dụng hạt nhân RBF k (i , j ) exp 22 i j để thích ứng với mơ hình Bằng việc tính tốn (7), chúng tơi có giải pháp tối ưu tồn cục cho vectơ trung bình cuối i* , i Q Sử dụng kỹ thuật thích ứng hàm nhân phi tuyến hồi qui cho phép phát hoạt động bất thường mới, từ mơ hình hoạt động bình thường huấn luyện IV THỬ NGHIỆM VÀ ĐÁNH GIÁ Phần trình bày thử nghiệm để đánh giá phương pháp phát vận động bất thường trình bày A Tập liệu thử nghiệm Thử nghiệm sử dụng tập liệu CMDFALL thu thập nhóm nghiên cứu học máy ứng dụng (Học viện Cơng nghệ Bưu Viễn thơng (PTIT) kết hợp với nhóm nghiên cứu MICA đại học Bách khoa Hà nội [32]) Tập liệu thu thập từ 50 người, đeo cảm biến gia tốc vùng thắt lưng cổ tay thực 20 hoạt động vận động bất thường (ở mức thấp với nhãn liệt kê bảng 1) Môi trường thử nghiệm thiết lập với Kinect cameras vị trí để thu nhận đầy đủ góc nhìn ảnh (view) hình (mơi trường thiết lập thử nghiệm) A 1old , , Qold B 1new , , Qnew biểu thị vecto trung bình tương ứng với mơ hình cũ mơ hình Các vecto trung bình i* sử dụng hàm nhân phi tuyến hồi qui tính sau: SỐ 01 (CS.01) 2019 TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 34 PHÁT HIỆN HOẠT ĐỘNG BẤT THƯỜNG SỬ DỤNG HÀM NHÂN PHI TUYẾN HỒI QUI ngã phía sau 75.43 76.23 bò mặt đất 56.31 62.22 ngã phía trước 79.56 77.58 ngã bên trái 77.63 79.14 lấy đồ tay trái 58.41 57.32 nằm giường ngã bên trái 67.42 69.39 nằm giường ngã bên phải 65.43 64.57 nằm giường ngồi lên xe lăn 68.22 65.44 Mỗi người thực 20 hoạt động với khoảng 7-8 phút nên tổng số thời lượng lên đến ~ 400 phút với 350 Gigabyte liệu Dữ liệu thu thập bao gồm ảnh RGB, Depth Skeleton với file logging liệu cảm biến Sau gán nhãn từ tập liệu thu tổng số lên tới 400 vận động bất thường 600 hoạt động bình thường Chi tiết tập liệu thử nghiệm download website: http://mica.edu.vn:8000/KinectData/Datasets di chuyển tay chân 77.13 79.31 ngã bên phải 71.36 76.25 lấy đồ tay phải 91.78 93.42 chạy chậm 96.23 95.67 ngồi giường đứng 87.23 88.41 Hình khung hình trực quan hóa từ tập liệu; gồm khung nhìn khác từ Kinect Dữ liệu trực quan hóa bao gồm biểu đồ liệu ảnh depth khung hình liệu cảm biến (góc bên phải hình) Dữ liệu camera cảm biến đồng nhờ chương trình nhóm nghiên cứu MICA-PTIT phát triển để đồng nhờ vào nhãn thời gian (timestamp) ngồi ghế ngã bên trái 83.26 81.98 ngồi ghế ngã bên phải 84.12 83.67 ngồi ghế sau đứng dậy 89.61 91.34 nhảy loạng choạng 93.02 92.71 loạng choạng 84.25 82.59 94.46 95.58 hoạt động (chưa có nhãn) 53.12 58.47 76.32% 78.95% Hình Thiết lập mơi trường thu thập liệu Trung bình Hình Trực quan hóa liệu ảnh chiều sâu (depth) cảm biến 5.2 Kết Bảng 2: Kết nhận dạng hoạt động phát vận động bất thường tập liệu CMDFALL Tên hoạt động SỐ 01 (CS.01) 2019 Độ xác Độ nhạy (precision) (recall) Từ bảng rằng, hầu hết hoạt động có kết có độ xác tương đối cao (walk) lên đến 94% độ xác độ nhạy; hay chạy chậm (run slowly) có độ xác độ nhạy lên tới 95% Các hoạt động thường ngày khác ngồi giường sau đứng lên, ngồi ghế đứng lên có độ xác ổn định khoảng 87-90% Ở chiều ngược lại, số hoạt động dùng tay trái lấy đồ vật có kết nhận dạng khơng tốt khoảng 50-60% độ xác Điều hợp lý cảm biến đeo bên phía tay phải mà không đeo bên tay trái nên liệu từ cảm biến thu thập nhiễu Ngược lại vận động bất thường ngã theo tư khác (ngã bên phải, ngã bên trái, v.v ) có độ xác phát khơng vượt TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 35 Nguyễn Tuấn Linh, Vũ Văn Thỏa, Phạm Văn Cường 80% Đặc biệt hoạt động unknown hoạt động không gán nhãn có độ xác độ bao phủ 50% hoạt động chứa nhiều nhiễu định nghĩa tất hoạt động mà không bao gồm 19 hoạt động (có thứ tự từ 1-19) định nghĩa trước Độ xác độ nhạy nhận dạng trung bình 20 hoạt động vận động bất thường 76.32% 78.95% V KẾT LUẬN Trong báo này, thực nghiên cứu nhận dạng hoạt động bất thường, đề xuất sử dụng thuật toán EM để huấn luyện mơ hình học máy Thực phương pháp nhận dạng hoạt động phát bất thường gồm hai giai đoạn, giai đoạn đầu tiên, SVM lớp thiết lập để lọc hầu hết hoạt động bình thường; giai đoạn thứ 2, dấu hiệu đáng ngờ chuyển đến tập hợp mơ hình hoạt động bất thường có điều chỉnh thông qua hàm nhân phi tuyến hồi qui để phát thêm Chúng tiến hành thực nghiệm đánh giá kết phương pháp đề xuất, với 20 hoạt động vận động bất thường, độ xác độ nhạy trung bình đạt 76.32% 78.95% Đây kết đáng khích lệ cho ứng dụng chăm sóc, hỗ trợ người cao tuổi Vì tương lai, chúng tơi tiếp tiếp tục mở rộng nghiên cứu theo hướng tập trung vào phương pháp tự động trích chọn biểu diễn đặc trưng từ nhiều nguồn cảm biến để cải tiến độ xác phát nhận dạng, hoàn thiện ứng dụng gửi trợ giúp cảnh báo vận động bất thường đến người chăm sóc nhằm hỗ trợ sống người cao tuổi nhà tảng kết nối internet vạn vật (IoT) TÀI LIỆU THAM KHẢO [1] Jindong, W , Yiqiang, C., Shuji, H., Xiaohui, P., Lisha, H.: Deep learning for sensor-based activity recognition: A survey Pattern Recognition Letters 119: 3-11 (2019) [2] Pham, C., Nguyen, N-D., Tu, M-P.; e-Shoes: Smart Shoes for Unobtrusive Human Activity Recognition In proc of 9th IEEE International Conference on Knowledge Systems Engineering (IEEE KSE) 2017 269-274 [3] Nguyen, N., D Pham, C., Tu, M., P.; Motion Primitive Forests for Human Activity Recognition Using Wearable Sensors In proc of the 14th Pacific Rim International Conference on Artificial Intelligence (PRICAI) 2016 340-353 [4] Jie, J., Qiang, Y , Jeffrey, J P.: Sensor-Based Abnormal Human-Activity Detection IEEE Trans Knowl Data Eng 20(8): 1082-1090 (2008) [5] Tran, T-H., Le, T-L., Pham, D-T., Hoang, V-N., Khong, V-M., Tran, Q-T, Nguyen, T-S., Pham, C.; A Multimodal Multi-view Dataset for Human Fall Analysis and Preliminary Investigation on Modality In the proc the 24th SỐ 01 (CS.01) 2019 International Conference on Pattern Recognition (ICPR), 1947-1952 Bejing, China, 2018 [6] Y Yao, F Wang, J Wang, and D.D Zeng, Rule ỵ Exception Strategies for Security Information Analysis,” IEEE Intelligent Systems, vol 20, no 5, pp 52-57, Sept./Oct 2005 [7] P Jarvis, T.F Lunt, and K.L Myers, “Identifying Terrorist Activity with AI Plan Recognition Technology,” Proc 19th Nat’l Conf Artificial Intelligence (AAAI ’04), pp 858-863, July 2004 [8] J Lester, T Choudhury, N Kern, G Borriello, and B Hannaford, “A Hybrid Discriminative/Generative Approach for Modeling Human Activities,” Proc 19th Int’l Joint Conf Articial Intelligence (IJCAI ’05), pp 766-772, July-Aug 2005 [9] D.J Patterson, L Liao, L Fox, and H Kautz, “Inferring High-Level Behavior from Low-Level Sensors,” Proc Fifth Int’l Conf Ubiquitous Computing (UbiComp ’03), pp 73-89, Oct 2003 [10] Geoffrey McLachlan and Thriyambakam Krishnan The EM Algorithm and Extensions John Wiley & Sons, New York, 1996 [23] B Schoălkopf, J Platt, J Shawe-Taylor, and A Smola, “Estimating the Support of a High-Dimensional Distribution,” Neural Computation, vol 13, no 7, pp 1443-1471, July 2001 [11] L Liao, D Fox, and H Kautz, “Learning and Inferring Transportation Routines,” Proc 19th Nat’l Conf Artificial Intelligence (AAAI ’04), pp 348-353, July 2004 [12] J Yin, X Chai, and Q Yang, “High-Level Goal Recognition in a Wireless LAN,” Proc 19th Nat’l Conf in Artificial Intelligence (AAAI ’04), pp 578-584, July 2004 [13] P Lukowicz, J Ward, H Junker, M Staăger, G Troă ster, A Atrash, and T Starner, Recognizing Workshop Activity Using Body Worn Microphones and Accelerometers,” Proc Second Int’l Conf Pervasive Computing (Pervasive ’04), pp 18-32, Apr 2004 [14] T Xiang and S Gong, “Video Behaviour Profiling and Abnormality Detection without Manual Labeling,” Proc IEEE Int’l Conf Computer Vision (ICCV ’05), pp 12381245, Oct 2005 [15] T Duong, H Bui, D Phung, and S Venkatesh, “Activity Recognition and Abnormality Detection with the Switching Hidden Semi-Markov Model,” Proc IEEE Int’l Conf Computer Vision and Pattern Recognition (CVPR ’05), pp 838-845, June 2005 [16] S.D Bay and M Schwabacher, “Mining DistanceBased Outliers in Near Linear Time with Randomization and a Simple Pruning Rule,” Proc Ninth ACM SIGKDD Int’l Conf Knowledge Discovery and Data Mining (KDD ’03), pp 29-38, Aug 2003 [17] C Elkan, “The Foundations of Cost-Sensitive Learning,” Proc 17th Int’l Joint Conf Articial Intelligence (IJCAI ’01), pp 973-978, Aug 2001 [18] J Ma and S Perkins, “Time-Series Novelty Detection Using One- Class Support Vector Machines,” Proc Int’l Joint Conf Neural Networks (IJCNN ’03), pp 1741-1745, July 2003 [19] M.M Breunig, H.P Kriegel, R Ng, and J Sander, “Identifying Density-Based Local Outliers,” Proc ACM SIGMOD Int’l Conf Management of Data (SIGMOD ’00), pp 93-104, May 2000 [20] K.M Ting, “A Comparative Study of CostSensitive Boosting Algorithms,” Proc 17th Int’l Conf Machine Learning (ICML ’00), pp 983-990, June-July 2000 [21] A.P Bradley, “The Use of the Area under the ROC Curve in the Evaluation of Machine Learing Algorithms,” Pattern Recognition, vol 30, pp 1145-1159, 1997 [22] C.X Ling, V.S Sheng, and Q Yang, “Test Strategies for Cost-Sensitive Decision Trees,” IEEE Trans TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 36 PHÁT HIỆN HOẠT ĐỘNG BẤT THƯỜNG SỬ DỤNG HÀM NHÂN PHI TUYẾN HỒI QUI Knowledge and Data Eng., vol 18, no 8, pp 1055-1067, Aug 2006 [23] Q Yang, C Ling, X Chai, and R Pan, “Test-Cost Sensitive Classification on Data with Missing Values,” IEEE Trans Knowledge and Data Eng., vol 18, no 5, pp 626-638, May 2006 [24] P Domingos, “Metacost: A General Method for Making Classifiers Cost-Sensitive,” Proc Fifth Int’l Conf Knowledge Discovery and Data Mining (KDD ’99), pp 155-164, Aug 1999 [25] U Knoll, G Nakhaeizadeh, and B Tausend, “Cost-Sensitive Pruning of Decision Trees,” Proc 18th European Conf Machine Learning (ECML ’94), pp 383386, Apr 1994 [26] M Kukar and I Kononenko, “Cost-Sensitive Learning with Neural Networks,” Proc 13th European Conf Artificial Intelligence (ECAI ’98), pp 445-449, Aug 1998 [27] G Fumera and F Roli, “Cost-Sensitive Learning in Support Vector Machines,” Proc Workshop Machine Learning, Methods and Applications, held in the Context of the Eighth Meeting of the Italian Assoc Of Artificial Intelligence (AI*IA ’02), Sept 2002 [28] P Chan and S Stolfo, “Toward Scalable Learning with Non-Uniform Class and Cost Distributions,” Proc Fourth Int’l Conf Knowledge Discovery and Data Mining (KDD ’98), pp 164-168, Aug 1998 [29] Geoffrey McLachlan and Thriyambakam Krishnan The EM Algorithm and Extensions John Wiley & Sons, New York, 1996 [23] B Schoălkopf, J Platt, J Shawe-Taylor, and A Smola, “Estimating the Support of a High-Dimensional Distribution,” Neural Computation, vol 13, no 7, pp 1443-1471, July 2001 [30] B Schoălkopf, J Platt, J Shawe-Taylor, and A Smola, “Estimating the Support of a High-Dimensional Distribution,” Neural Computation, vol 13, no 7, pp 14431471, July 2001 [31] I.W Tsang, J.T Kwok, B Mak, K Zhang, and J.J Pan, “Fast Speaker Adaptation via Maximum Pernalized Likelihood Kernel Regression,” Proc Int’l Conf Acoustics, Speech and Signal Processing (ICASSP ’06), May 2006 [32] Pham, C., Nguyen, T.; Real-Time Traffic Activity Detection Using Mobile Devices In proc of the 10th ACM International Conference on Ubiquitous Information Management and Communications (ACM IMCOM) 2016 641-647 [33] Pham, C.; MobiRAR: Real-Time Human Activity Recognition Using Mobile Devices In proc of the 7th IEEE International Conference on Knowledge Systems Engineering (IEEE KSE) 2015 144-149 [34] Nguyen, N., D., Pham, C., Tu, M.,P.; A Classifier Approach to Real-Time Fall Detection Using Low-Cost Wearable Sensors In Proc of the 5th International Symposium on Information and Communication Technology (SoICT) 2014 14-20 [35] Pham, C.; MobiCough: Real-Time Cough Detection and Monitoring Using Low-Cost Mobile Devices In proc of the 8th Asean Conference on Intelligent Information and database systems (ACIIDS) 2016 300-309 [36] Visalakshmi, S., Paul, E., Watson, P., Pham, C., Jackson, D., Olivier, P 2011; Distributed Event Processing for Activity Recognition In the Proceedings of the 5th ACM International Conference on Distributed Event-Based Systems (ACM DEBS) 2011 (New York, NY, 11-14 July 2011) 371-372 [37] Nguyen, L., Le, A., T., Pham, C.; The Internet-ofThings based Fall Detection Using Fusion Feature Accepted at the 10th IEEE International Conference on Knowledge Systems Engineering (IEEE KSE) 2018 129134 SỐ 01 (CS.01) 2019 ABNORMAL HUMAN ACTIVITY ECOGNITION USING NON-LINEAR KERNEL REGRESSION Abstract: This paper proposes a 2-step method for human abnormal activity detection In the first step, one hidden Markovmodel is trained for each normal activity, a support vector machine is used for classification of normal and abnormal activities; in the next step, abnormal data segments are inputted in a non-linear resgression kernel for weight estimation for further detection The models are trained using Expection-Maximization (EM) An experiment on a dataset collected from 50 people with 20 normal and abnormal activities is conducted The results of 76.32% precision and 78.95% recall have demonstrated the high potential of practial applications for health monitoring of the elderly and security Nhóm tác giả: Nguyễn Tuấn Linh tốt nghiệp đại học ngành Công nghệ Thông tin, Đại học Giao thông Vận tải Hà Nội năm 2004 Nhận Thạc Sỹ Đại học Thái Nguyên năm 2007 Hiện nghiên cứu sinh tiến sỹ Học viện Cơng nghệ Bưu Viễn Thơng Lĩnh vực nghiên cứu: Kỹ thuật máy tính, điện tốn tỏa khắp, mơ hình học máy cơng nghệ cảm biến cho ứng dụng chăm sóc sức khỏe Email: nguyenlinhict@gmail.com Vũ Văn Thỏa, nhận học vị Tiến sỹ năm 1990 Liên xô cũ Hiện công tác Học viện Cơng nghệ Bưu Viễn thơng Lĩnh vực nghiên cứu: Lý thuyết thuật toán, tối ưu hố, hệ thơng tin địa lý, mạng viễn thơng Email: thoa236@gmail.com TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 37 Nguyễn Tuấn Linh, Vũ Văn Thỏa, Phạm Văn Cường Phạm Văn Cường tốt nghiệp đại học năm 1998 ngành Công nghệ Thông tin, Đại học Quốc gia Hà nội; Nhận Thạc sỹ năm 2005 ĐH bang New Mexico, Hoa Kỳ; Nhận Tiến sỹ năm 2012 ĐH Newcastle Anh Quốc Hiện công tác Học viện Cơng nghệ Bưu Viễn Thơng Lĩnh vực nghiên cứu: Học máy, điện toán tỏa khắp, tương tác người máy, nhận dạng hoạt động người, thuật tốn học máy cơng nghệ cảm biến cho ứng dụng chăm sóc sức khỏe, thị giác máy tính, công nghệ cảm biến, hệ thống nhúng điều khiển Email: pcuongcntt@gmail.com SỐ 01 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 38 ... i* sử dụng hàm nhân phi tuyến hồi qui tính sau: SỐ 01 (CS.01) 2019 TẠP CHÍ KHOA HỌC CƠNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 34 PHÁT HIỆN HOẠT ĐỘNG BẤT THƯỜNG SỬ DỤNG HÀM NHÂN PHI TUYẾN HỒI QUI ngã...PHÁT HIỆN HOẠT ĐỘNG BẤT THƯỜNG SỬ DỤNG HÀM NHÂN PHI TUYẾN HỒI QUI tương đối khả quan II CÁC NGHIÊN CỨU LIÊN QUAN Trước đây, có số nghiên cứu đề xuất phương pháp để phát hoạt động bất thường thường... hình hoạt động bất thường từ mơ hình hoạt động bình thường Các mơ hình sử dụng để phát bất thường B Phát hoạt động bất thường lặp thích nghi mơ hình huấn luyện Chúng tơi tạo mơ hình cho hoạt động