Sàng lọc, chuẩn hóa và tương quan dữ liệu

Một phần của tài liệu (Luận văn thạc sĩ) Nghiên cứu kĩ thuật điều tra số trong giám sát an toàn mạng máy tính và ứng dụng (Trang 57 - 58)

6. Ý nghĩa khoa học của đề tài

3.4.2. Sàng lọc, chuẩn hóa và tương quan dữ liệu

Sàng lọc

Sàng lọc là quy trình loại bỏ các dữ liệu không cần thiết khỏi tập dữ liệu thu thập đƣợc.

Sàng lọc đƣợc chia thành các hoạt động sau: Chọn lựa lƣu trữ các dữ liệu đáng quan tâm và loại bỏ dữ liệu không cần thiết từ nguồn dữ liệu thô đƣa vào. Trích xuất các dữ liệu thô và chuyển đổi chúng dƣới dạng chung để có thể dễ dàng sử dụng cho việc phân tích dữ liệu sau này.

Chuẩn hóa

Chuẩn hóa thực hiện việc ánh xạ các thành phần trong dữ liệu thô ( địa chỉ IP nguồn, địa chỉ IP đích,...) sang một quy định dạng quy định chung. Các

48

bƣớc thực hiện việc chuẩn hóa gồm: Khảo sát các loại dữ liệu thu thập đƣợc: miêu tả, các thành phần và nội dung trong dữ liệu; Sử dụng các phƣơng pháp thích hợp để chuẩn hóa dữ liệu nhƣ sử dụng biểu thức chính quy để chuẩn hóa dữ liệu; Kiểm tra logic trên các dữ liệu mẫu khi chuẩn hóa; Triển khai chuẩn hóa trên toàn bộ các dữ liệu thu thập cần phân tích.

Những thông tin chung thƣờng đƣợc sử dụng cho việc chuẩn hóa dữ liệu thu thập: Địa chỉ IP đích và nguồn; Cổng nguồn và cổng đích; Phân loại; Thời gian; Thông tin ngƣời dùng; Độ ƣu tiên.

Tƣơng quan

Tƣơng quan là liên hệ các dữ liệu riêng lẻ thành dữ liệu có sự liên kết với nhau một cách ý nghĩa nào đó, tƣơng quan đóng vai trò quan trọng trong việc thu thập và phân tích thông tin an ninh mạng, giúp liên kết các dữ liệu riêng lẻ với nhau thành dữ liệu chung với nhau, thống nhất cho việc phân tích, thông thƣờng ngƣời ta sử dụng phƣơng pháp thống kê và tƣơng quan trên luật để thực hiện quá trình tƣơng quan.

Một phần của tài liệu (Luận văn thạc sĩ) Nghiên cứu kĩ thuật điều tra số trong giám sát an toàn mạng máy tính và ứng dụng (Trang 57 - 58)

Tải bản đầy đủ (PDF)

(80 trang)