3 Một số ứng dụng của mạng mờ tự mã hóa
3.3.1 Xác định ngưỡng bất thường
Một trong những vấn đề cốt lõi nhất, của bài toán phân lớp nói chung, hay bài toán xác định bất thường nói riêng, chính là tìm được một ngưỡng để phân tích bộ dữ liệu. Đơn giản nhất, với mô hình hai lớp, hoặc mô hình phát hiện bất thường, ngưỡng phân tách sẽ phân tách được tập dữ liệu đầu vào thành hai lớp riêng biết dựa theo các dữ liệu đã được gán nhãn. Các bài toán đã lớp tuy việc tìm ngưỡng có phức tạp hơn nhưng về bản chất là tương tự.
Việc xác định ngưỡng, thông thường được để xác định dựa trên trung bình của các lớp dữ liệu khác nhau. Tuy nhiên, việc tách lớp như vậy, cũng mang những đặc thù và tính chất của logic mờ, khi không phải lúc nào cũng thu được kết quả tốt nhất từ các làm đó. Việc xác định ngưỡng bất thường, được tùy chỉnh đặc thù cho các bài toán khác nhau, có thể dựa trên quan sát hoặc tình toán thực nghiệm, hoặc kinh nghiệm của nhà nghiên cứu. Ngưỡng được chọn có thể không cho kết quả chính xác cao nhất trong lý thuyết, nhưng lại đem hiệu năng sử dụng trong thực tế.
Ngưỡng luôn là việc chọn một hay nhiều phần của tập dữ liệu, khi ngưỡng không nằm ở trung bình tập, nghĩa là có thể chấp nhận một vùng trong toàn tập cho kết quả kém chính xác để một vài tập khác cho kết quả tốt hơn. Ví dụ như trong một bài toán về phát hiện hành vi bất thường trong tín dụng, ta có thể điều chỉnh ngưỡng sao cho các truy vấn có ít dấu hiệu khả nghi là bình thường, với độ rủi ro thấp, đồng thời cũng giảm tình trạng cảnh báo giả trong hệ thống. Nhưng trong một ví dụ khác, bài toán về phát hiện tội phạm, hoặc khủng bố, những hành đồng dù chỉ mang một chút hành vi cũng nên được điều tra và ngăn chặn, vì hậu quả khi để lọt một trường hợp là vô cùng lớn. Tổng quan, việc xác định ngưỡng chính là vấn đề quan trọng, ảnh hưởng đến các vấn đề về quyết định trong toán bộ hệ thống. Không chỉ trong phân tích và khai phá dữ liệu, việc xác định ngưỡng ra quyết định còn hiển hiện trong
chính những quyết định thường ngày của mỗi con người
Quay trở lại với với quá trình học huấn luyện mô hình một lớp, cụ thể là các mạng Autoencoder, dữ liệu được đưa vào là tập dữ liệu bình thường, sử dụng mô hình học một lớp. Mục tiêu là thu được Threshold (Ngưỡng bất thường) nhằm so sánh, xác định một truy vấn mới đến hệ thống có dấu hiệu tấn công không. Ngưỡng bất thường do em đề xuất có công thức dựa theo hàm mất mát của mạng Autoencoder.
Trong bài toán phân lớp, mạng Autoencoder tái cấu trúc lại bộ dữ liệu ban đầu, thu được tập các giá trị đầu vào xvà tập giá trị tái cấu trúcx’. Giá trị tái
cấu trúc lỗi (Reconstruction error) của mỗi truy vấn đầu vào được tính toán dựa hàm mất mát của mạng [39].
Thông qua tập Reconstruction error của quá trình huấn luyện, Threshold được đề xuất tính toán dựa trên giá trị kỳ vọngE¯ và phương sai s trung bình theo các công thức như sau:
¯ E = 1 N N ∑ i=1 kx−x’k= 1 N N ∑ i=1 ( n ∑ j=1 (xj−x0j)2) (3.3) s= s ∑Ni=1(Ei−E¯)2 N−1 (3.4) θ =E¯+α×s (3.5)
Trong đó,N vànlần lượt là số lượng mẫu và số chiều của dữ liệu đầu vào, sử dụng trong quá trình kiểm thử mô hình. hệ sốα được xác định dựa vào tập huấn luyện. Từ các kết quả thực nghiệm, Có thể nhận thấy nhận thấy với mỗi tập dữ liệu đầu vào khác nhau sẽ có một ngưỡng α khác nhau. Việc thiết lập được một α cho từng hệ thống khác nhau được xác định thông qua tính toán lặp trên tập dữ liệu đầu vào.
Một dữ liệu mới đến hệ thống được đưa qua quá trình tiền xử lý dữ liệu. Sau quá trình xử lý của mạng Autoencoder, thu được chỉ số Reconstruction error tương ứng. Dữ liệu được phân vào lớp bất thường khi Reconstruction error lớn hơn Threshold đã thu được từ quá trình huấn luyện.