Xử lý dữ liệu kiểm toán thô và xây dựng các thuộc tính

Một phần của tài liệu ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống ids (Trang 56 - 57)

Các dữ liệu kiểm toán được thu thập từ các sensor mạng hoặc từ một nguồn nào đó ở dạng thô và ở định dạng nhị phân. Trước khi sử dụng chúng chúng ta cần xử lý chúng và cần lấy được các luật từ chúng. Nội dung hang đầu và cơ bản ở đây là chúng ta phải xây dựng một cơ sở dữ liệu từ dữ liệu kiểm toán và có một số hiểu biết ban đầu về các luật. Với sự trợ giúp của hai điều này và với thuật toán luật kết hợp chúng ta sẽ có được các tập luật mới về ác tấn công có thể. Sau đó chúng ta có thể ứng dụng những luật này cho các sự kiện sắp xảy ra để phát hiện các tấn công mới chưa được biết.

Trước khi ứng dụng một luật khai phá dữ liệu nào chúng ta cần tiền xử lý dữ liệu kiểm toán thô dạng nhị phân thu được từ các sensor. Việc này được thực hiện bởi TCPDUMP hay BSM. Để tiền xử lý những dữ liệu kiểm toán thô này nhóm làm việc ở trường Đại học Columbia đã sử dụng BAM (Basic Auditing Model) thay vì BSM (Basic Security Model), cái mà được chính họ tạo ra. Tiền xử lý có nghĩa là đầu vào là các dữ liệu kiểm toán thôi và đầu ra sẽ là những dữ liệu kiểm toán đó nhưng ở dạng được tổ chức với các thuộc tính như IP nguồn, IP đích, cổng nguồn, cổng đích, giao thức (TCP, UDP ...), thời gian và khoảng thời gian tồn tại.

Bước tiếp theo là áp dụng một số thuật toán khai phá dữ liệu để tiền xử lý dữ liệu. Những thuật toán này như là thuật toán luật phân nhóm chung, luật phân nhóm, luật kêt hợp và thuật toán frequent episodes. Một vài nghiên cứu đã tập trung vào một luật cụ thể, một số tập trung vào một kết hợp của hai hay ba luật hay một số tập trung vào một vài luật được cải tiến như là luật tạo ra các bất

thường nhân tạo. Qua một số phần đã được trình bày, chúng ta sẽ có cái nhìn tổng quát về một số các luật này (luật phân nhóm và luật kết hợp).

Một phần của tài liệu ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống ids (Trang 56 - 57)