6. Ý nghĩa khoa học của đề tài
3.4.3. Phân tích dữ liệu
Trong phân tích dữ liệu, cần thu nhận nhiều kiểu dữ liệu khác nhau, từ các nguồn khác nhau nhƣ: dữ liệu mạng (đƣợc thu nhận bởi tƣờng lửa, Snort,...), dữ liệu từ Sebek gửi về. Do vậy, quá trình phân tích dữ liệu sẽ gặp rất nhiều khó khăn: tiêu tốn thời gian, công sức cũng nhƣ đối mặt với giải quyết nhiều vấn đề liên quan. Quá trình phân tích thƣờng gặp phải một số vấn đề nhƣ sau:
Mỗi kiểu dữ liệu thƣờng đi kèm với một công cụ phân tích riêng cho chúng, do vậy gây ra hiệu quả hạn chế, và mỗi kiểu dữ liệu phải lặp lại ba bƣớc phân tích tách biệt riêng.
Việc chuyển đổi sử dụng các kiểu dữ liệu khác nhau là rất khó khăn và khó tìm ra đƣợc mối quan hệ tƣơng quan giữa các nguồn dữ liệu. Thông thƣờng việc đƣa ra mối quan hệ tƣơng quan này thƣờng đƣợc thực hiện hoàn toàn thủ công bởi ngƣời phân tích.
49
Quá trình tìm ra đƣờng để dò theo dấu vết chuỗi dữ liệu đáng quan tâm giữa các nguồn dữ liệu không thể thực hiện một cách tự động.
Việc phân tích dữ liệu dựa trên các kỹ thuật phân tích cơ bản gồm: Phân tích gói tin; Phân tích luồng dữ liệu; Phân tích nhật ký sự kiện.
Ngoài ra cũng có thể sử dụng các kỹ thuật phân tích nâng cao nhƣ: Phân tích thống kê; Khai phá dữ liệu nhật ký; Phân tích dữ liệu trên WLAN.
Để hỗ trợ việc phân tích thủ công mất nhiều thời gian và công sức ngƣời phân tích, có thể sử dụng phƣơng pháp tiếp cận phân tích log tự động.
Thống kê (Phát hiện bất thường): tập trung chính vào đặc tính đƣợc xác
định của ngƣời dùng hay nhóm ngƣời dùng bình thƣờng và triển khai phƣơng pháp thống kê để xác định sự bất thƣờng trong những đặc tính ngƣời dùng.
Hệ chuyên gia dựa trên luật (Rule- based expert systems): những hệ
thống này cố gắng "phát hiện sử dụng sai trái" bằng cách sử dụng luật định nghĩa trƣớc nhƣ một sự chỉ dấu cho sự thâm nhập trái phép.
Học máy (Machine learning): cố gắng dự đoán sự kiện bởi sự kiện đã biết trong quá khứ và sử dụng thuật toán dạng quy nạp.
50