Vấn đề của hệ thống hiện tại

Bằng việc áp dụng các kĩ thuật đã nêu trong phần trước, hệ thống đã đáp ứng được nhu cầu khối lượng tính toán lớn trong thời gian ngắn cho nhiều kịch bản khác nhau. Tuy nhiên, vì thế mà khối lượng thông tin để làm căn cứ cho từng quyết định thường không được lớn, như là kích cỡ profile không quá lớn hoặc các đặc trưng chỉ được tính toán với dữ liệu gần đây, vì thế các kịch bản với những hành vi bất thường kéo dài trong lịch sử có thể bỏ sót. Bên cạnh đó, việc xét lại các hành vi bất thường trong quá khứ gặp khó khăn, như là các hành vi không bất thường được xác định trong quá khứ, nhưng do khung thời gian của profile bị dịch chuyển, đến khi hành vi đó lặp lại, nó lại là bất thường việctái xử lý lại các hành vi trong quá khứ để cập nhật bộ tri thức cũng như profile cho các thực thể cũng không khả thi.

Với chỉ một hành vi cũng đã có rất nhiều dữ liệu, đa phần là dữ liệu time series liên tục, vì thế để tính toán lại với khoảng thời gian ở cỡ hàng năm đã gặp nhiều khó khăn, nếu như sự kiện tấn công hệ thống là sự liên kết của nhiều hành vi thì hoàn toàn là không phát hiện được. Ngoài ra, khối lượng xử lý tuy lớn nhưng đa phần bị lặp lại, khiến cho việc xử lý những dữ liệu đó tốn chi phí nhưng không có giá trị. Khi đó sẽ không tối ưu chi phí trong việc mở rộng hệ thống, hệ thống phải duy trì một khối lượng tài nguyên sẵn sàng để xử lý toàn bộ khối lượng dữ liệu đó, khi số lượng kịch bản tăng lên, ta chỉ có thể đáp ứng bằng cách chia tải ra nhiều máy hơn hoặc nâng cấp năng lực của máy chủ.

Nhận ra được các ưu nhược điểm trên, tôi đã đề xuất áp dụng thuật toán HDBSCAN vào làm một mô đun của hệ thống, chạy song song và có nhiệm vụ giống với service Anomal Detector và service Profiling Engine đã nêu trong mục 3.1.2, nhằm giúp gia tăng khả năng khai phá dữ liệu, truy vấn lại các sự kiện liên kết nhau trong quá khứ, đồng thời chi phí chạy sẽ chia đều cho các máy trong cụm

49 tính toán và được phân bổ tài nguyên hợp lý hơn. Dữ liệu chạy với thời gian lớn hơn, ta sẽ có khả năng liên kết các sự kiện trong khoảng thời gian lớn hơn. Lý do lựa chọn HDBSCAN so với các phương pháp phân cụm khác được miêu tả tại đây [12]. Điểm khác biệt với service Anomal Detector là mô đun này sẽ không chạy theo thời gian thực mà chạy theo lịch cố định, chi tiết sẽ trình bày trong mục 4.3. Thuật toán này chạy trên nền tảng hệ phân tán, nhờ vậy việc xử lý có thể được rút ngắn rất nhiều so với chạy trên một máy và khối lượng tính toán cũng có thể rất lớn, tùy vào việc thiết lập thuật toán và số lượng phần cứng sử dụng.

Thuật toán phân cụm HDBSCAN

Các hệ thống UEBA trên thế giới