6. Ý nghĩa khoa học của đề tài
3.4.2. Sàng lọc, chuẩn hóa và tương quan dữ liệu
Sàng lọc
Sàng lọc là quy trình loại bỏ các dữ liệu không cần thiết khỏi tập dữ liệu thu thập đƣợc.
Sàng lọc đƣợc chia thành các hoạt động sau: Chọn lựa lƣu trữ các dữ liệu đáng quan tâm và loại bỏ dữ liệu không cần thiết từ nguồn dữ liệu thô đƣa vào. Trích xuất các dữ liệu thô và chuyển đổi chúng dƣới dạng chung để có thể dễ dàng sử dụng cho việc phân tích dữ liệu sau này.
Chuẩn hóa
Chuẩn hóa thực hiện việc ánh xạ các thành phần trong dữ liệu thô ( địa chỉ IP nguồn, địa chỉ IP đích,...) sang một quy định dạng quy định chung. Các
48
bƣớc thực hiện việc chuẩn hóa gồm: Khảo sát các loại dữ liệu thu thập đƣợc: miêu tả, các thành phần và nội dung trong dữ liệu; Sử dụng các phƣơng pháp thích hợp để chuẩn hóa dữ liệu nhƣ sử dụng biểu thức chính quy để chuẩn hóa dữ liệu; Kiểm tra logic trên các dữ liệu mẫu khi chuẩn hóa; Triển khai chuẩn hóa trên toàn bộ các dữ liệu thu thập cần phân tích.
Những thông tin chung thƣờng đƣợc sử dụng cho việc chuẩn hóa dữ liệu thu thập: Địa chỉ IP đích và nguồn; Cổng nguồn và cổng đích; Phân loại; Thời gian; Thông tin ngƣời dùng; Độ ƣu tiên.
Tƣơng quan
Tƣơng quan là liên hệ các dữ liệu riêng lẻ thành dữ liệu có sự liên kết với nhau một cách ý nghĩa nào đó, tƣơng quan đóng vai trò quan trọng trong việc thu thập và phân tích thông tin an ninh mạng, giúp liên kết các dữ liệu riêng lẻ với nhau thành dữ liệu chung với nhau, thống nhất cho việc phân tích, thông thƣờng ngƣời ta sử dụng phƣơng pháp thống kê và tƣơng quan trên luật để thực hiện quá trình tƣơng quan.