Luận văn thạc sĩ Khoa học máy tính: Xây dựng cây quyết định trực quan tương tác để phát triển các quy tắc phát hiện tấn công mạng

Hệ thống quản lý sự kiện va thông tin bảo mật tổng hợp, lưu trữ, quan lý vaphân tích dữ liệu nhật ký, các thông tin liên quan đến bảo mật từ các công nghệ bảomật như hệ thống bảo vệ thiế

GIỚI THIEU DE TÀI

1.1 Lý do lựa chọn đề tài

Các tô chức ngảy càng sử dụng rộng rãi các công nghệ kỹ thuật số như hệ thống nhận thức, thực tế ảo và tăng cường, trí thông minh nhân tạo, người máy, điện toán đám mây, dữ liệu lớn và loT để sắp xếp các hoạt động của họ và cải thiện trải nghiệm của khách hàng Những công nghệ mới này đang tạo ra một hệ sinh thái phức tạp. kéo theo một loạt các thách thức mới về an toàn công nghệ thông tin, an toàn vận hành, bảo vệ dữ liệu quan trọng và tuân thủ các quy định, luật lệ.

Theo cách tiếp cận truyền thống, tô chức sẽ triển khai các hệ thống, giải pháp để bảo vệ an toàn cho hệ thống công nghệ thông tin như: hệ thống tường lửa để phân tách các hệ thống, phân đoạn mang quan trong; hệ thống phát hiện và ngăn chặn xâm nhập nham phát hiện và ngăn chặn các cuộc tan công vao hệ thống mạng: giải pháp phòng chống mã độc để bảo vệ các thiết bị đầu cuối và các máy chủ khỏi những chương trình độc hại, phá hoại; giải pháp quản lý điểm yếu kỹ thuật để chủ động dò tim và đưa ra các giải pháp dé vá lại các điểm yếu kỹ thuật trên các thiết bị, máy chủ hay ứng dụng của tô chức, các tổ chức cần có thêm các giải pháp chiến lược, toàn diện như tích hợp các hệ thống, giải pháp bao mật dé tự động hóa việc ngăn chặn các cuộc tan công: sử dụng dữ liệu lớn và phân tích dữ liệu dé mô hình hóa các hành vi, xây dựng bức tranh toàn cảnh các hoạt động an toàn thông tin trong tô chức.

Một trong các công nghệ được nhiều tổ chức sử dụng dé đáp ứng các yêu cầu trên là hệ thống quản lý sự kiện và thông tin bảo mật (SIEM) Ngoài ra, để đối phó với với các cuộc tan công APT, là hình thức tấn công có tô chức, tan công bên bỉ có chủ đích nham vào tô chức cụ thé nhằm dat cho được mục tiêu, như đánh cắp dữ liệu quan trọng bằng mọi cách, thì các tổ chức đã và đang sử dụng SIEM như là thành phân cốt lõi trong trung tâm vận hành bảo mật (SOC) được vận hành bởi các thành viên đội phản ứng sự cố bảo mật máy tính (CSIRTs) trong việc giám sát các sự cỗ bảo mật thời gian thực.

Hệ thông quản lý sự kiện và thông tin bảo mật là hệ thống thu thập, tong hợp dữ liệu nhật ký từ nhiều nguồn khác nhau, cảnh báo thời gian thực các sự kiện an toàn thông tin Bằng cách phân tích một lượng lớn dữ liệu nhật ky, hệ thống SIEM giúp tổ chức có được bức tranh toàn cảnh về các sự kiện an toàn thông tin xảy ra; phát hiện các cuộc tân công ân dấu đăng sau các dữ liệu đó dựa trên các tập luật được xây dựng san hay các quy tac được tạo ra bởi quản trị viên bảo mật trong từng ngữ cảnh, loại người dùng, môi trường hoạt động cụ thé của tô chức.

Bên cạnh những lợi ích từ việc triển khai hệ thống SIEM giảm chi phí nhân lực quan tri nhật ký hệ thống, lưu trữ và quản tri nhật ký tập trung, tuân thủ các quy định bảo mật về lưu trữ nhật ký, có khả năng phân biệt những sự kiện có giá trỊ, đóng góp vào việc phân tích mối đe dọa day đủ hon, hỗ trợ han chế va bồ sung chức năng cho công nghệ phát hiện xâm nhập cung cấp thông tin can thiết cho việc điều tra va phản ứng lại với sự cỗ bảo mật, cung cấp kha năng nâng cao nhận thức và đảo tạo về bảo mật, giữ cho hệ thống mạng an toàn thì hệ thống SIEM cũng có những hạn chế nhất định như chỉ phí cao, sự tin cậy trong vận hành, tạo ra các báo động giả cho những sự cố hién nhiên.

Ngoài vấn đề chỉ phí, thì hai hạn chế còn lại chủ yếu xuất phát từ việc xây dựng, quan lý các quy tac dé phát hiện các sự cô bảo mật, tấn công mạng hay hanh vi bất thường do phụ thuộc nhiều vào kiến thức của quản trị viên bảo mật, mức độ am hiểu các tập luật hay tạo ra các quy tắc trong vận hành, các yếu tố về ngữ cảnh và môi trường cụ thé của tô chức Tạo ra các quy tac phát hiện các cuộc tan công mạng không phải là một công việc đơn giản, đặc biệt là khi các cuộc tấn công được thực hiện bởi các kẻ tan công có kinh nghiệm Trong tình huống như vậy, chuyên môn của con người là điều can thiết dé tạo ra kết quả hiệu quả Tuy nhiên, con người có thé dễ dang bị quá tai bởi dữ liệu đầu vào quá lớn dé có thé phân tích, học hỏi va sử dụng để phát triển các quy tắc phát hiện tân công thích hợp.

Chính vì các lý do trên, đề tài luận văn này sẽ nghiên cứu và tìm giải pháp để áp dụng một kỹ thuật, công cụ được gọi là cây trực quan tương tác để hỗ trợ các quản trị viên bảo mật trong việc phát triển các quy tac phát hiện tan công mang Đồng thời dé tai cũng tận dụng những ưu điểm của các hệ thống đã có, khắc phục một số hạn chế đang còn tồn đọng trong các phương pháp, hệ thống hiện hành; dé xuất việc kết hợp các giải pháp dé tăng hiệu quả và hiệu xuât của việc phát hiện tan công mang.

1.2 Mục tiêu nghiên cứu Đề tài sẽ tập trung vào nghiên cứu các phương pháp học từ cây quyết định, xây dựng cây quyết định, cây quyết định tương tác, trực quan hoá bảo mật Từ đó đề xuất một cách tiếp cận, phương hướng giải quyết cho bài toán phát triển các quy tắc phát hiện tan công mang bang cây quyết định trực quan tương tác.

Cụ thể đề tài sẽ nghiên cứu vào 2 vẫn đề sau:

- Phuong pháp trực quan phù hợp cho bài toán hiển thị cùng lúc nhiều thông tin hơn trên kích cỡ giới hạn của màn hình, bao gồm cả thông tin toàn cục và thông tin cục bộ của giải pháp.

- Phuong pháp tương tác hiệu quả giữa người dùng và cây quyết định trực quan trong việc xây dựng ra cây kết quả.

Các đối tượng nghiên cứu chính bao gồm:

- Dé liệu đầu vào, được trích xuất từ hệ thống SIEM, bao gồm dữ liệu bình thường và dữ liệu bất thường.

- Kién thức chuyên môn của người ding, trong trường hợp nay là của quản trị viên bảo mật trong việc xây dựng cây quyết định để phát triển các quy tắc phát hiện tan công mạng.

- _ Cây quyết định tương tác, các bước tương tác chính giữa người dùng trong việc xây dựng cây quyết định trực quan.

- Truc quan hoá các tác vu và đối tượng hỗ tro, như trực quan các nút, trực quan cây quyết định.

Bên cạnh đó, đề tài cũng hướng đến việc tìm ra cách tiếp cận và hướng giải quyết phù hợp cho bai toán thời gian thực va đữ liệu lớn trong thời gian và nguồn lực cho phép.

1.3 Y nghĩa khoa học và thực tiễn

Về mặt nghiên cứu khoa học, để tài này có ý nghĩa phát triển và thúc đây các nghiên cứu về ứng dụng trực quan hoá bảo mật trong việc phân tích, giám sát, phát hiện và ngăn chặn các kiểu tấn công mạng Bên cạnh đó cũng thúc đây các nghiên cứu kết hợp giữa các lĩnh vực khác nhau như học máy, tương tác người dùng, trực quan hoá thông tin trong việc giải quyết các bài toán khó về bảo mật, mà ở đó các hệ thống tự động còn có một số hạn chế nhất định.

Về mặt thực tiễn thì đề tài nghiên cứu này khi ứng dụng vào thực tế sẽ giúp cho người quản tri viên bao mat; đầu tiên là hiểu rõ tập luật phát hiện tấn công mạng băng việc trực quan hoá; sau đó sử dụng kiến thức chuyên môn để có thể xây dựng, tính chỉnh tập luật phù hợp với mdi trường hoạt động của tô chức nhằm cải thiện tỉ lệ phát hiện tan công hoặc giảm báo động nhằm do môi trường và cuối cùng là bảo trì, mở rộng tập luật phát hiện các kiểu tấn công mạng. Đối với tác giả, dé tài này sẽ giúp bản thân nghiên cứu sâu hơn về lĩnh vực trực quan hoá bảo mật, các công trình nghiên cứu đã và đang được phát triển, cũng như xem xét các hạn chế hiện có để vận dụng, tìm ra cách tiếp cận và hướng giải quyết cho các bài toàn bảo mật hiện nay trong công việc.

1.4 Giới han dé tài Đề tài tập trung nghiên cứu về hệ thống quản lý sự kiện và thông tin bảo mật,hệ thống phát hiện xâm nhập, học dựa theo cây quyết định, phát hiện xâm nhập dựa trên trực quan hóa Đề xuất và hiện thực một kỹ thuật xây dựng cây quyết định trực quan tương tác trên tập dữ liệu kiểm thử trích xuất từ hệ thống SIEM và một số nhỏ nhà nghiên cứu bao mật, hoặc hoạt động trong lĩnh vực bảo mật như quản tri viên bảo mật, trong việc sử dụng hệ thống. Đề tại thực hiện thí nghiệm và đánh giá với các thông tin dựa trên hệ thống quản lý sự kiện và thông tin bao mật IBM Qradar SIEM, các tập luật phát hiện xâm nhập. các cảnh báo bảo mật dựa trên các hoạt động của nhật ký hệ thống, các khó khăn và thách thức của quản trị viên trong vận hành hệ thống hiện tại.

Nội dung của luận văn thạc sĩ này được chia làm 6 chương:

- Chương 1: Giới thiệu dé tài, trình bày về nhu cầu, khó khăn và thách thức của việc phát triển các quy tắc phát hiện xâm nhập, mục đích và ý nghĩa của việc nghiên cứu, giới hạn dé tài và cau trúc bài báo cáo.

CƠ SỞ LÝ THUYET

2.1 Hệ thống phát hiện xâm nhập (IDS) Hệ thông phát hiện xâm nhập là hệ thống phát hiện các dấu hiệu của tan công xâm nhập theo dõi các hoạt động dé tìm ra các dẫu hiệu của tan công và cảnh báo cho người quản trị bảo mật Khác với tường lửa, hệ thông phát hiện xâm nhập không thực hiện các thao tác ngăn chặn truy nhập nhưng có khả năng phát hiện được các cuộc tấn công từ bên trong Ngoài ra, hệ thống phát hiện xâm nhập còn có khả năng đánh giá các xâm nhập đáng ngờ khi nó đã diễn ra đồng thời phát ra cảnh báo, nó theo dõi được các cuộc tan công có nguôn góc từ bên trong một hệ thống Chức năng ban dau của hệ thống phát hiện xâm nhập chỉ là phát hiện các dau hiện xâm nhập, do đó hệ thống phát hiện xâm nhập chỉ có thể tạo ra các cảnh báo tấn công khi tấn công đang diễn ra Càng vẻ sau, nhiễu kỹ thuật mới được tích hợp vào hệ thông phát hiện xâm nhập, giúp nó có khả năng dự đoán được tan công (prediction) và thậm chí phản ứng chủ động lại các tan công đang diễn ra (active response).

Dựa trên phạm vi giám sát, hệ thông phát hiện xâm nhập được chia làm thành 2 loại:

- Network-based IDS (NIDS): là hệ thống giám sát trên toàn bộ mạng.

Nguồn thông tin chủ yếu của hệ thống là các gói dữ liệu đang lưu thông trên mạng NIDS thường được lắp đặt tại công vào của mạng, có thể đứng trước hoặc sau tường lửa.

- Host-based IDS (HIDS): là hệ thống giám sát hoạt động của từng máy tính riêng biệt Do vay, nguồn thông tin chủ yếu của HIDS, ngoài lưu lượng dữ liệu đến và đi từ máy tính còn có dữ liệu nhật ký hệ thống (system log) va dit liệu kiểm toán hệ thông (system audit).

Dựa trên kỹ thuật phat hiện hệ thống phát hiện xâm nhập cũng được chia thành

- Signature-based IDS: phát hiện xâm nhập dựa trên dấu hiệu của hành vi xâm nhập, thông qua phân tích lưu lượng mạng va log hệ thong Kỹ thuật này đòi hỏi phải duy tri một cơ sở dữ liệu về các dau hiệu xâm nhập

(signature database), và cơ sở dữ liệu này phải được cập nhật thường xuyên mỗi khi có một hình thức hoặc kỹ thuật xâm nhập mới.

- Anomaly-based IDS: phát hiện xâm nhập bằng cách so sánh (mang tinh thống kê) các hành vi hiện tại với hoạt động bình thường của hệ thống dé phát hiện các bất thường (anomaly) có thé là dau hiệu của xâm nhập.

Hai khái niệm chính đối với hệ thống phát hiện xâm nhập là phát hiện hành vi bat thường (anomaly detection) và phát hiện dựa trên dấu hiệu nhận diện (signature detection) Với cách tiếp cận phát hiện hành vi bất thường thì hệ thông không tim kiếm những dấu hiệu xâm nhập đã biết, nhưng dựa trên những luéng dữ liệu bat thường Việc xây dựng khả năng phát hiện bất thường dựa trên quan điểm sự hoạt động bình thường của một chủ thé như là hệ thống máy tính, người dùng cu thé nào đó .sau đó quyết định bao nhiêu phan trăm một hoạt động sẽ được gan nhãn là bat thường Còn với cách tiếp cận phát hiện dựa trên dấu hiệu nhận diện thì hệ thống sẽ đưa ra quyết định dựa vào những kiến thức đã biết về quá trình hay cách thức xâm nhập đối với hệ thống quan sát Hệ thống thường định nghĩa sẵn các hành vi hợp lệ hay không hợp lệ và so sánh với các hành vi được quan sát.

Cách tiếp cận phát hiện bất thường có thể hiện thực băng các hệ thống có khả năng tự học (self-study system) hay được lập trình trước (programmed).

Hệ thống có khả năng tự học lại được chia thành hai loại tùy vào dữ liệu đầu vào. o_ Đối với dữ liệu không theo chuỗi thời gian (non-time series) thì có thé hiện thực bằng hai cách:

- _ Mô hình hóa quy tac (rule modelling): hệ thống sẽ tự học luồng dit liệu và thiết lập một số quy tắc về các hoạt động bình thường của hệ thống. Ở giai đoạn phát hiện, hệ thống sẽ kiểm tra các quy tắc và kích hoạt báo động nếu luồng dữ liệu không phù hop với điều kiện của quy tắc, thường là dựa trên trọng số nào đó.

- M6 tả thống kê (Decriptive statistics): hệ thống sẽ thu thập các tham số hệ thống nhất định dé tạo ra các hồ sơ, sau đó tao ra một véc to khoảng cách giữa luồng dữ liệu quan sát và hồ sơ, nếu khoảng cách đủ lớn, hệ thống sẽ kích hoạt báo động. o_ Đối với dữ liệu chuỗi thời gian (time series) thì mô hình sẽ phức tạp hơn, vì sẽ cần thu thập các hành vi theo chuỗi thời gian để xây dựng hệ thống.

Các kỹ thuật để hiện thực mô hình này như là mô hình che dẫu Markov

(HMM) hay mang nơ-ron nhân tạo (ANN) và các kỹ thuật mô hình don giản hay phức tạp khác.

Mạng nơ-ron nhân tạo là một ví dụ của cách tiếp cận mô hình hộp đen (black box) Các luồng dữ liệu bình thường sẽ được đưa vào ANN, với một quá trình học các mẫu dữ liệu bình thường Kết quả đầu ra của ANN sẽ được áp dụng cho các luồng dữ liệu mới va được dùng dé ra quyết định cho việc phát hiện xâm nhập Trong da số các trường hợp thì kết qua dau ra chưa đủ chất lượng để được sử dụng trực tiếp, mà sẽ tiếp tục đưa vào một hệ thống chuyên gia ở mức hai dé đưa ra quyết định cuối cùng.

Hệ thống được lập trình sẵn thì cần có người, có thể là người sử dụng hoặc người định nghĩa chức nang, người có thé chạy cho hệ thống hoặc lập trình dé phát hiện ra các sự kiện bất thường cụ thé Hệ thống nay cũng được chia làm hai loại: o Mô tả thống kê: hệ thống sẽ xây dựng các hồ sơ của các hành vi bình thường đã được thống kê dựa trên các tham số của hệ thống, các hành vi có thể là số lần đăng nhập không thành công, SỐ lượng kết nối mạng, SỐ lượng lệnh có lỗi trả về, Trong mô hình này, có thé hiện thực băng những thống kê đơn giản hoặc những quy tắc đơn giản hay mức ngưỡng. o Mặc định ngăn cấm (default deny): ý tưởng của mô hình là dựa trên quan điểm của bảo mật, khi mặc định các hoạt động đều có thé là xâm nhập nên cần phải ngăn cam Mô hình chuỗi trạng thái (state series modelling) sẽ hiện thực các chính sách trong đó sẽ xác định các trạng thái nào là không có khả năng xâm nhập để cho phép trạng thái đó xảy ra Việc giám sát các hành vi sẽ dựa vào các trạng thái đã được xây dựng sẵn cũng như các khả năng chuyền trạng thái an toàn, giúp hệ thống xác định hành vi nào sẽ được cho phép.

Cách tiếp cận phát hiện dựa vào các dau hiệu dấu hiệu nhận diện thì được hiện thực dựa trên lập trình với các quy tắc quyết định tường minh, các quy tắc phát hiện đơn giản chỉ là bao gdm các đoạn mã dé kiểm tra các sự kiện của một sự xâm nhập. Đây là mô hình tự nhiên với việc kiểm tra nghiêm ngặt các hành vi hợp lệ hay không hợp lệ ngay cả là đối với các hành vi được cho là bình thường Có nhiều cách để hiện thực mô hình này: o Mô hình trạng thai (state modelling): sẽ xác định xâm nhập dựa và một trạng thái khác lạ được xem xét trên không gian quan sát Mô hình này bao gôm hai tập con là tập chuyển trạng thái và cây perti-net Trong trường hop nay, cấu trúc cây trạng thái sẽ tong quá hơn cho bất ky trạng thái nào xảy ra trong mô hình. o Hệ chuyên gia (expert system): sử dụng hệ chuyên gia để xác định các trạng thái bảo mật, xây dựng các quy tắc để mô tả hành vi xâm nhập Thường thì các công cụ sẽ được dùng để hệ thống xác định một sự kiện sẽ được định nghĩa và đưa vào hệ thông Người dùng sẽ được cung cấp một cơ chế mạnh mẽ dé xây dựng một hệ thống chuyên gia có năng lực và uyén chuyền Điều này cũng sẽ tốn nhiều chi phí cho việc tăng tốc độ xây dựng hệ thống so với các phương pháp đơn giản khác. o So trùng chuỗi (string matching): hệ thống rất đơn giản, chỉ là so trung các chuỗi ký tự được truyền nhận giữa các hệ thống Phương thức này rất đơn giản để hiểu nhưng lại thiếu sự uyễn chuyển. o_ Dựa trên quy tắc đơn giản (simple rule based): hệ thống tương tự như hệ chuyên gia mạnh mẽ ở trên, nhưng không ưu điểm băng Nhưng lại có ưu thế về tốc độ thực thi.

Ngoài ra còn có một cách tiếp cận khác là xây dựng hệ thống phát hiện phức hop, vừa dựa trên những ưu điểm của hệ thống phát hiện dựa trên dau hiệu nhận diện. nhưng cũng tăng cường thêm khả năng tự hoc dé phát hiện những dau hiệu xâm nhập chưa hay không có định nghĩa các cơ sở dữ liệu các dau hiệu nhận diện Việc tự học có thể dựa trên khả năng tự động lựa chọn các đặc điểm dé học.

Nói thêm về một số khái niệm khác trong hệ thông phát hiện xâm nhập như việc phân loại các kiểu xâm nhập Phân loại ở mức tong quan, ta có: o Xâm nhập đã biết rõ (well known instrusions): kiểu xâm nhập là đã biết trước và rất ít các biến thể, được định nghĩa sẵn trong cơ sở dữ liệu phát hiện xâm nhập Kiểu xâm nhập này rất đơn giản dé phát hiện ra và rất it sự thay đổi. o Xam nhập tổng quát (generalisabel instrusions): kiểu xâm nhập này cũng tương tự như kiểu xâm nhập đã biết rõ nhưng mức độ biến thé có thể nhiều hay ít Kiểu tan công có thé thay đôi cách thức tan công va như vậy có cơ hội dé xâm nhập hệ thống. o Xâm nhập không biết (unknown instrusions): kiểu xâm nhập này rất khó phát hiện hay định nghĩa cách thức xâm nhập được thực hiện Hệ thống phát hiện xâm nhập that sự không biết phải làm thế nao với kiểu xâm nhập nay. Đối với van dé hiệu quả phát hiện hay tỉ lệ báo động giả (false alarm rates) thì một cách tự nhiên, khi van dé càng khó thi dé có quyết định phát hiện xâm nhập chính xác cũng khó hơn Tuy nhiên trong các hệ thống được xây dựng dựa trên dau hiệu nhận diện thì khả năng phát hiện các kiều xâm nhập đã biết rõ rat tốt và tỉ lệ báo động giả thấp Tuy vậy các hệ thống nay phải đối mặt với việc phải tong quát hóa các dau hiệu nhật diện kiểu xâm nhập tổng quát càng nhiều càng tốt để cải thiện hiệu quả toàn cục Hệ thống này có nhược điểm là hoàn toàn không biết, không nhận diện được các kiểu xâm nhập không biết.

Dé bố sung cho điểm yếu này, các hệ thống trang bị thêm khả năng phát hiện xâm nhập bất thường Tuy vậy các hệ thống như vậy cũng gặp khó khăn do việc thiếu kiến thức về kiểu xâm nhập, hệ thống có thể sẽ không bao giờ phát hiện ra được những xâm nhập mà lý thuyết cho là có thể phát hiện Ngoài ra để tối ưu khả năng phát hiện cũng như giảm tỉ lệ báo động giả, cũng cần rất nhiều tham số về ngữ cảnh hệ thống, môi trường hoạt động cụ thé của t6 chức, kinh nghiệm của chuyên gia bảo mật hay quản tri viên bảo mật.

Trong thời gian gần đây, cũng có nhiều áp dụng các phương pháp học máy

CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

3.1 Học dựa theo cây quyết định

Thuật toán ID3 của Quinlan [3] là một trong những phương pháp phố biến nhất để tạo ra cây quyết định Thuật toán này làm việc trên một tập dữ liệu ban đầu chứa các phan tử dữ liệu từ nhiều lớp Mỗi đối tượng dữ liệu trong tập dữ liệu có cùng số thuộc tính dữ liệu và thuộc về một lớp nhất định Tại mỗi bước, thuật toán chọn một thuộc tính dữ liệu chưa được sử dụng và tạo ra một công thức để chia các phan tử dữ liệu thành các tập con Các đối tượng dữ liệu trong cùng một tập con sẽ có cùng một kết quả đầu ra khi áp dụng công thức phân tách Quyết định sử dụng thuộc tính nào tại mỗi bước dựa trên độ lợi thông tin (information gain) của thuộc tinh đó Độ lợi thông tin được định nghĩa là:

Information gain = Entropy(Parent) - Weighted Sum of Entropy(Children)

Entropy(Parent) là độ hỗn độn của nút cha (Parent) trước khi phân chia và Entropy(Children) là tổng độ hỗn độn của tất cả các nút con (Child) sau khi được chia Độ hỗn độn (Entropy) được định nghĩa là:

Trong đó pi là một sô thê hiện phân trăm các thành viên lớp 1 trong toàn bộ các nút thành viên Mục đích của thuật toán ID3 và các phương pháp học từ cây quyết định là tạo ra các điều kiện phân tách sao cho các nút con tinh khiết hơn các nút cha.

Một trong những khuyết điểm của ID3 là không thể làm việc trên những thuộc tính có miền liên tục mà không có bước tiền xử lý.

Một vài hạn chế của ID3 được giải quyết trong một phương pháp xây dựng cây quyết định khác là C4.5 cũng do Quinlan đề xuất [5] Trong số những cải tiễn, thuật toán xây dựng cây quyết định C4.5 có thể xử lý thuộc tính liên tục bằng cách tạo ra một ngưỡng và sau đó chia nút với thuộc tính đó thành 2 nút, một nút có thuộc tính với giá trị cao hơn ngưỡng và nút kia có thuộc tính với giá trị bằng hoặc thấp hơn ngưỡng Một cải tiến quan trọng nữa là C4.5 có thể làm việc với các dữ liệu thiếu giá trị thuộc tính Những giá trị còn thiéu này không được sử dung trong việc tính toán độ hỗn độn và độ lợi thông tin.

Một phương pháp đáng chú ý khác để xây dựng cây quyết định là CART (Classification and Regression Trees — Cây hồi quy va phân loại) [1] Trong nghiên cứu này, Breiman và đồng nghiệp giới thiệu việc sử dụng nhị phân cho phân loại và cả hồi quy Nếu biến phụ thuộc là phân loại, cây kết quả là cây phân loại; ngược lại nếu biến phụ thuộc là số, cây kết quả 1a cây hồi quy.

Giống như các phương pháp xây dựng cây quyết định khác, công việc nảy dựa trên cách tiếp cận tham lam, ở mỗi điểm, một sự phân chia nhị phân trên một nút được chọn dựa trên “pure” - độ tinh khiết (độ tinh khiết trong trường hợp này có nghĩa là hầu hết các điểm dữ liệu trong một nút có cùng một lớp) mà có thé làm cho các nút con Việc tách nút mà làm giảm tạp chất (impurity) nhất sẽ được chọn là điều kiện tách Bài báo này gợi ý việc sử dụng độ sai lệch (deviance), độ hỗn độn và chỉ số Gini như là thước đo cho độ tinh khiết.

3.2 Xây dựng cây quyết định tương tác Một trong những nghiên cứu đầu tiên về xây dựng cây quyết định tương tác là dé xuất của Ankerst và đồng nghiệp [7] Các tac giả áp dụng phương pháp trực quan đa chiều trên dir liệu huấn luyện với mục tiêu hỗ trợ người dùng lựa chọn điểm tách một cách tối ưu băng cách hiện thị dữ liệu trực quan một cách hiệu quả Đề làm được điều đó, các tác giả sử dụng kỹ thuật trực quan theo điểm ảnh (pixel), trong đó mỗi gía trỊ thuộc tính được ánh xạ tới một màu cụ thể dựa trên lớp của đối tượng tương ứng với gia tri thuộc tính đó Gia tri của các thuộc tính khác nhau được sắp xếp oO các khu vực riêng biệt Kỹ thuật trực quan theo điểm ảnh trong nghiên cứu này theo phương pháp Circle Segments [6] Phương pháp này định vị các đối tượng d chiều thành d đoạn của một vòng tròn, mỗi đoạn cho mỗi thuộc tính Trong mỗi đoạn giá trị dữ liệu của thuộc tính được định vi từ tâm của vòng tròn tới đường biên bên ngoài theo đường thăng, các đường nảy trực giao với đường phân đoạn Trong phương pháp này, sự hỗ trợ tương tác người dùng là người dùng có thể lựa chọn một thuộc tính và loại bỏ nó ra khỏi cây quyết định hiện tại đã được xây dựng trước đó, kết quả là sẽ hỗ trợ khả năng quay trở lại (backtracking).

Một nghiên cứu khác trong thé loại nay là PaintingClass của Teoh & Ma [11].

PaintingClass là một hệ thống để xây dựng tương tác, trực quan và khám phá các cây quyết định Mặc dù mục đích chính của PaintingClass là xây dựng cây quyết định, nhưng nó cũng cung cấp nhiều mục đích khác, trong đó đáng chú ý là khám phá cây quyết định Mục tiêu của việc hỗ trợ khám phá là giúp người dùng hiểu được dit liệu cơ bản tốt hơn và có thể tạo ra một cây nhỏ nhưng chính xác hơn Đề hiển thị các đối tượng đa chiều trên màn hình hai chiều, kỹ thuật trực quan phối hợp đồng thời được sử dung [2].

Một nghiên cứu khác của BaobabView [17] Trong nghiên cứu nay, các tác gia đề xuất một bộ các phương pháp trực quan đề hỗ trợ cho người dùng chuyên gia trong việc xây dựng cây quyết định Các phần trực quan quan trọng nhất là màn hình chính(main view) của cây quyết định, màn hình thuộc tính, ma trận nhằm lẫn trực quan(visual confusion matrix) Màn hình chính của cây quyết định hiển thị cây quyết định hiện hành theo phương cách là biểu đỗ các nút liên kết, các nút của cây hién thị thông tin quan trọng về nút cây, phan liên kết hiển thị luồng các mục từ nút cha đến nút con,trong đó kích thước của liên kết tương ứng với kích thước của các mục trên luéng tương ứng Màn hình thuộc tính hiển thị trực quan dữ liệu cho mỗi thuộc tính của nút được lựa chọn Thuộc tính được sắp xếp dựa trên các thông số tạp chất khác nhau(Information gain [3], Gain ratio [5], Gini gain [1]) và được hién thị với màu sắc vùng biên và hình dạng phù hợp, giúp người dùng trong việc lựa chọn nút để tách Mục đích của ma trận nhằm lẫn trực quan là để hiển thị một phân loại đúng sai các đối tượng Khi có những số liệu này khi tương tác với cây sẽ giúp người dùng trong công việc Nghiên cứu liệt kê 4 tác vụ hỗ trợ cho người dùng là: phát triển, tối ưu, bỏ bớt, và phân tích.

3.3 True quan hóa bao mật

Cũng giống như trong việc xây dựng cây quyết định tương tác, kiến thức của chuyên gia được kết hợp với việc trực quan hóa và các hành động tương tác để xây dựng cây quyết định Trực quan hóa bảo mật được sinh ra như là một lĩnh vực nghiên cứu về việc sử dụng các kỹ thuật trực quan hóa thông tin để hỗ trợ hoặc cải thiện an toàn hệ thống máy tính Mục đích chính của lĩnh vực này là kết hợp sức mạnh xử lý của máy tính và phân tích thị giác của người dùng để giải quyết các van dé phức tap về bao mật Lĩnh vực nghiên cứu này là một lĩnh vực đa ngành bao gồm dé họa máy tính, tương tác người dùng và bảo mật máy tính Lĩnh vực này phù hợp nhất cho các vẫn đề bảo mật không có hoặc khó có quyết định rõ ràng, hoặc quyết định liên quan đến tính chủ quan của con người như đưa ra kết luận một phần dữ liệu là bình thường hoặc bất thường Điều này thường liên quan đến không chỉ là dữ liệu mà còn môi trường hoạt động của ứng dụng hoặc hiểu biết của quản trị viên hệ thông về người dùng trong hệ thong Một nghiên cứu về lĩnh vực nay là đề xuất của Choi và đồng nghiệp [16].

Trong nghiên cứu nay, các tác giả sử dụng phương pháp trực quan phối hợp đồng thời [2] dé hiển thị lưu lượng mạng nhờ đó người dùng có thé phát hiện các cuộc tấn công Internet quy mô lớn; ví dụ: phần mềm độc hại trên mang (worms), tan công từ chối dịch vụ (DDoS), hoặc hoạt động dò quét mạng Việc sử dụng kỹ thuật trực quan trong trường hợp này đã tận dụng sức mạnh của người dùng trong nhận dạng khuôn mẫu trực quan; ví dụ trong trường hợp bị tan cong, kỹ thuật trực quan sé hiển thị một hình dạnh đặc biệt. Đây là một loại dấu hiệu trực quan Và sau đó, người dùng có thể điều tra thêm để kết luận đây có phải là một cuộc tấn công thực sự hay chỉ là một báo động nhằm Mặc dù người dùng đưa ra quyết định cuối cùng nếu có tấn công trong trường hợp này, trực quan hóa đã giảm thiểu rất nhiều công sức bang cách dé người dùng chỉ tập trung vào vùng tiềm năng bị tan công Trực quan hóa bảo mật cũng được sử dụng trong các tình huéng yêu cầu phân tích phức tạp như theo dõi và phân tích xâm nhập Trong trường hợp này, mục đích chính là hỗ trợ quá trình dé giam thiéu công việc nhận diện van dé của con người dé có thé đi đến kết luận sớm hơn.

Ví dụ: một trong những tác vụ mà người dùng trên mạng thường quan tâm là làm sao chia sẻ tập tin một cách hiệu quả và an toàn Mặc dù tác vụ là đơn giản, nhưng thực hiện thi rat phức tạp vì phải thiết lập nhiều quy tắc về phân quyền của tập tin hay thư mục được chia sẻ Đê làm cho công việc này trở nên trực quan hơn,

Heitzmann và đồng nghiệp đã phát triển giao diện trực quan thay vì giao diện truyền thống trên hệ điều hành Windows cho hệ thống tập tin NTES [14] Giao diện này sử dụng Treemap [4] để hiến thị cấu trúc thư mục phân cấp và màu sắc được sử dụng để biểu thi sự thay đôi quyền hạn khi di chuyển hoặc sao chép các tập tin trong hệ thống.

Dựa vào kết qua màu, người dùng có thể nhanh chóng nhận ra việc di chuyển /sao chép tập tin /thư mục đến nơi khác sẽ làm phân quyền chia sẻ bị yếu đi hoặc mạnh hơn và xem kết quả nếu đó là mục đích của người dùng Mặc dù trong hầu hết các trường hợp, kỹ thuật trực quan tập trung vào người dùng chuyên nghiệp hoặc chuyên gia bảo mật, cũng có phương pháp trực quan đơn giản nhưng hiệu quả hướng đến người dùng bình thường cho các hoạt động hăng ngày Một hoạt động của người dùng được quan tâm nhiều nhất là hoạt động duyệt Web Vì đây là một trong những hoạt động được dùng thường xuyên nhất nên các kẻ tấn công thường thiết kế các cách tấn công mới liên quan đến các phiên duyệt Web; ví dụ bang việc tao ra một trang độc hại hoặc lừa đảo và mời người dùng truy cập Đề chống lại các cuộc tấn công nảy, các nhà cung cấp trình duyệt đã phát triển nhiều phương pháp ngăn ngừa tan công hiệu quả, ví dụ hiển thị một dạng cảnh báo hoặc sử dụng màu sắc gây chú ý để ngăn chặn người dùng và dé họ đưa ra quyết định Việc sử dụng phương pháp trực quan dé ngăn chặn tan công người dùng duyệt Web có thé tham khảo trong phan khảo sát

Một nghiên cứu khác tương tu trong lĩnh vực nay là một nghiên cứu su dung trực quan hóa thông tin để hỗ trợ phân tích tác vụ nhập liệu của người dùng trên biểu mẫu Web (web form) [20] Trong nghiên cứu này, các tác giả sử dụng kỹ thuật thu phóng nhiều cấp (multi-level zooming) dé hiển thị dữ liệu đầu vào của biéu mẫu Web từ người dùng Ở mức thu phóng thấp nhất, kỹ thuật trực quan theo điểm ảnh được sử dụng để hiển thị càng nhiều dữ liệu càng tốt trên kích thước giới hạn của màn hình.

Các gợi ý trực quan có thể giúp người dùng tập trung vào các vẫn đề có thể xảy ra.

DE XUẤT THIẾT KE VA HIỆN THUC NGUYEN MAU

4.1 Đặc ta dữ liệu đầu vào Ở nội dung này, đề tài sẽ mô tả định dạng dữ liệu đầu vào của hệ thống được quản trị viên sử dụng dé phát triển các quy tac phát hiện tan công và các chỉ tiết về cây quyết định dang được xây dựng Mặc dù dữ liệu đầu vào có thé ở bất kỳ thứ tự nào hay có bao nhiêu trường, ví dụ một nhật ký của hệ thống xác thực sẽ bao gdm tài khoản người dùng, ngày giờ đăng nhập, địa chỉ IP của thiết bị đăng nhập (địa chỉ nguôn), địa chỉ của hệ thống xác thực (địa chỉ đích), giao thức sử dụng, nhưng đa số trường hợp các dữ liệu này đều được xác định trước Các mẫu dữ liệu này được tạo ra trước bởi các hệ thống và phục vụ các mục đích cụ thể Ví dụ đữ liệu của một người dùng xác thực với tường lửa dé truy cập Internet có thông tin tài khoản, địa chỉ nguôn, địa chỉ đích, ngay giờ đăng nhập, giao thức sử dung, cổng nguồn, công đích; trong khi dữ liệu người dùng xác thực với dịch vụ máy chủ Active Directory lại có thể thêm các thông tin về trạng thai tài khoản, trạng thai xác thực, v.v Tuy nhiên trong một số ngữ cảnh nhất định, số trường và tên thường là cỗ định Điều nay làm cho dit liệu đầu vào thông qua một hình thức có cùng cấu trúc Nói cách khác, đối với dt liệu người dùng để xác thực, sẽ có một bộ quy tắc riêng biệt được sử dụng để nhận dạng các cuộc tan công thông qua cau trúc dữ liệu đó Các quy tắc được phát triển bởi các quản trị viên và hién thị dưới dang các cây quyết định.

Mỗi đầu vào của một dòng nhật ký hệ thống được coi là một đối tượng dữ liệu.

Nói chung, đối với một biểu mẫu với N trường đầu vào, mỗi đối tượng dữ liệu sẽ có N các thuộc tính Nhưng các quản tri viên có thể chọn loại trừ một số trường nếu họ nghĩ rằng các trường nay không cần thiết cho việc nhận dạng tan công Mỗi đối tượng dữ liệu có một nhãn lớp, đó là "bình thường” hoặc "bất thường" Nhãn lớp cho mỗi đối tượng dữ liệu được găn bởi các quản trị viên trong giai đoạn xây dựng cây quyết định Trong giai đoạn xác minh (Verification), cây kết quả được sử dụng dé tính toán nhãn của lớp cho các đối tượng dữ liệu mới Đầu tiên, tất cả các đối tượng đữ liệu năm trong cùng một nút, nút gốc của cây quyết định Các quản trị viên sau đó tạo một quy tắc nhị phân (Boolean) với việc chọn một thuộc tính chưa được sử dụng cho nút sốc Các đối tượng dữ liệu thỏa mãn quy tắc đó được sao chép vào một nút con của nút gốc, trong khi các đối tượng khác được sao chép vào một nút con khác Quá trình này tiếp tục cho đến khi tất cả các đối tượng trong một nút có cùng một lớp hoặc khi phan trăm hoặc số nút trong một lớp đủ lớn hoặc đủ nhỏ Khi một nút mới được đưa vào cây, nó tuân theo các quy tắc được tạo ra cho đến khi một nút lá mà nhãn được găn cho là nút mới.

Hình 6: Màn hình giao diện các thông tin về dữ liệu nhật ký trên hệ thống IBM Oradar

Với việc dir liệu dau vào có thê nhiêu hoặc it các trường dữ liệu (xem Hình 6), thứ tự có thé khác nhau, nhưng đều có thé tong quát hóa bằng các trường quan trọng sau:

Log Source (deviceName): la théng tin ma hé théng SIEM ghi nhan dé nhan dé phân biệt dữ liệu nhật ký được sinh ra từ dau, loại dữ liệu là van ban (text).

StartDateTime: là ngày giờ sự kiện nhật ky bat dau, loại dữ liệu là ngày giờ

StopDateTime: là ngày giờ sự kiện nhật ký kết thúc, loại dữ liệu là ngày giờ

(datetime). protocolNo: là số hiệu của giao thức, loại dit liệu là số (integer). protocolName: là tên của giao thức, loại dữ liệu là văn bản (text).

SourceIP: là địa chỉ IP của thiết bi đùng để xác thực, loại dữ liệu là chuỗi

SourcePort: là số hiệu công của thiết bị dùng để xác thực, loại dir liệu là số

DestinationIP: là dia chi IP hệ thong xác thực, loại dữ liệu là chuỗi (string) DestinationPort: là số hiệu công hệ thống xác thực, loại dữ liệu là số (integer) UserName: là tên tài khoản dùng để xác thực, loại dữ liệu là chuỗi (string).

AccountStatus: là tình trang của tài khoản, đang còn kích hoạt hay đã hết hạn, loại dữ liệu là văn bản (text).

AuthenticationStatus: là trạng thái xác thực của tài khoản, xác thực thành công hay thất bại, loại dữ liệu là nhị phân (Boolean).

Thành phan hệ thống Đề hiện thực kỹ thuật dé xuất ở trên, một mô hình sẽ được hiện thực trong chương này Kiến trúc tổng quát của mô hình được mô tả như Hình 7 bên dưới: Ảnh xạ đữ liệu — Trực quan nút

Cơ sở dir liệu dau vao của hệ thông Đối tượng Vv dik liệu ce >

Trực quan cay Thực thi biểu thức động

Biêu thức người diing định nehĩa

Hình 7: Các thành phan chính của nguyên mẫu cho kỹ thuật dé xuất

4.3 Chức năng các thành phan của hệ thong o Cơ sở dữ liệu đầu vào của hệ thống: chứa dữ liệu đầu vào từ dé liệu nhật ký hệ thông SIEM Trong đề tai này, đầu vào đến từ dữ liệu được thu thập được trên hệ thống SIEM và kết quả là dữ liệu đến từ cùng một mẫu sẽ có cau trúc tương tự, tức là có cùng một số thuộc tinh đữ liệu, tên và kiểu dir liệu của mỗi thuộc tinh (cho hầu hết thời gian) Nếu có một đối tượng dữ liệu có sự khác biệt đáng kế so với các đối tượng khác, có thé đối tượng dữ liệu là một mẫu của cuộc tan công sửa đôi mẫu tương tự như trong nghiên cứu của D Scott và R Sharp [10] đối với tan công ứng dụng Web Dữ liệu phát hiện dau hiệu tan công mạng cũng tương tự, trích xuất có giới hạn từ hệ thống IBM Qradar SIEM. o Ánh xạ dữ liệu: thành phan này lấy dữ liệu từ cơ sở dữ liệu đầu vào của hệ thống và chuyển chúng thành các đối tượng dir liệu được lưu trữ trong bộ nhớ chính để phù hợp cho việc xử lý Hơn nữa, có một tập tin cau hình bên ngoài kiêm soát thành phân nay dé chi chọn các thuộc tính dau vào cân thiệt trong việc xây dựng cây quyết định Ví dụ các dữ liệu nhật ký xác thực có các thông tin về mức độ quan trọng của sự kiện, phân loại của sự kiện, tên sự kiện, và hầu hết thời gian giá tri chứa trong thuộc tính này là như nhau đối với mọi dữ liệu và do đó sử dụng nó không làm tăng giá trị nao cho cây quyết định. Đối tượng dữ liệu: đây là tập hợp các kết quả của việc áp dụng ánh xạ dữ liệu trên cơ sở dữ liệu đầu vào của hệ thống Đây là biểu diễn chính của các thuộc tính đã chọn của dữ liệu đầu vào của hệ thống Mỗi đối tượng dữ liệu có chứa một danh sách tên thuộc tinh, giá tri thuộc tính theo cặp Tên thuộc tính là tên các thuộc tính dữ liệu như đã liệt kê ở mục 4.1 dữ liệu đầu vào và giá tri thuộc tính là dữ liệu hệ thống SIEM nhận được tương ứng với các sự kiện của hệ thống xác thực Có một thuộc tính đặc biệt cho mỗi đối tượng dữ liệu: thuộc tính bình thường hay bất thường Day là một thuộc tính nhị phân có giá trị xác định đối tượng dữ liệu có bình thường hay không (không nguy hiểm) Lưu ý rằng giá trị của thuộc tính này có thể đến từ một hệ thống nhận dạng tấn công tự động hoặc từ một chuyên gia bảo mật.

Thực thi biểu thức động: các thuộc tính dữ liệu chứa trong đối tượng dữ liệu có thé thuộc bat kỳ kiểu nào: nhị phan, số nguyên, số thực, chuỗi ký tu, văn bản, v.v Tuy nhiên, không phải tất cả các kiểu dữ liệu đều thích hợp để phân tích Kết quả là thành phân thực hiện biểu thức động nảy có trách nhiệm chuyển đôi giá tri ban đầu từ bất kỳ loại dữ liệu nào sang một loại dt liệu phù hop cho việc hiển thị va phân tích, tức là các loại dữ liệu phân loại hoặc thứ tự Thành phan nay nhận được một biểu thức động từ người dùng xây dựng cây quyết định cho mỗi thuộc tính dữ liệu, sau đó thay thế thuộc tính dữ liệu bằng giá trị thực của nó, sau đó thực thi biểu thức người dùng đã nhập để có một giá trị thích hợp sẵn sảng cho việc trực quan hoá và phân tích thuộc tính Sau khi thử nghiệm các biểu thức khác nhau, người dùng tạo ra một điều kiện phân tách, điều này lần lượt cũng là một biéu thức động, tuy nhiên kiểu dữ liệu của nó phải là kiểu nhị phân (dé tài này hiện hỗ trợ phân tách nhị phân) Dé tài sử dụng Java Expression Library [27] dé thực hiện việc thực hiện biểu thức động.

Trực quan nút: thành phan trực quan nút có trách nhiệm hiển thị mỗi nút đã chọn trong cây quyết định đang được xây dựng Lúc đầu, chỉ có một nút là nút gốc của cây, bao gồm tat cả các đối tượng dữ liệu thu được từ co sở dữ liệu đầu vào của hệ thống Sau khi tạo ra một điều kiện phân tách trên nút gốc, có hai nút con dưới nó và người dùng xây dựng cây có thể chọn một trong hai để tiếp tục quá trình xây dựng Để hỗ trợ người dùng trong việc tạo ra điều kiện phân tách, nút được chọn sẽ được hình dung dưới dạng một biểu đồ hình tròn với phan trăm các đối tượng dữ liệu bình thường va bất thường như Hình 9 Hơn nữa, việc phân phối giá trị thuộc tính được chọn cũng được hién thị theo một biểu thức động Người dùng có thé thử thuộc tính khác và hay hoặc với biểu thức động khác nhau trước khi nhập điều kiện phân tách cuối cùng Dé tai sử dung JFreeChart [28] dé thực hiện việc hiển thị Node.

Trực quan cây: cây tong thé đang được xây dựng được hién thị bởi thành phân trực quan cây Kích thước tương đối của các nút cung cấp cho người xem một sự hiểu biết tong thé về bao nhiêu đối tượng đữ liệu thoả mãn một điều kiện phân tách và bao nhiêu là không thoả mãn cho một nút cha cụ thé.

Việc sử dung mau sắc như biểu đồ hình tron trên mỗi nút sẽ cung cấp thông tin về độ tỉnh khiết của các đối tượng dữ liệu trong nút đó Nói chung, nhìn toàn bộ cây giúp người dùng theo dõi những gì đã được thực hiện cho đến thời điểm hiện tại và công việc đã được làm tốt như thế nào Đề tài sử dụng JUNG (Java Universal Network/Graph Framework) [29] dé giúp xây dựng cau trúc dữ liệu cây, bồ trí, trực quan và tương tác với người sử dụng.

Quy tắc (luật): là thành phần giúp lưu trữ các quy tắc, các quy tắc này có thé được nhập vao (import) từ các quy tac đã được xây dựng sẵn trước đó, hoặc quy tắc được xuất ra từ thành phần thực thi biểu thức động sau khi người dùng phân tích và chấp nhận cây kết quả Ngoai ra thành phan nay có thé mở rộng chức nang, bang cách kết hợp các kỹ thuật học máy tự động như xây dựng cây quyết định tự động, máy vector hỗ trợ (support vector machine), mạng neuron (ANN — Artifical neural netwwork hay Deep

Learning), dé đề xuất cây quyết định ban dau, dùng làm tiền dé cho người dùng có thé dựa vào dé tiếp tục đánh giá, phân tích hay điều chỉnh phù hợp với yêu câu và ngữ cảnh cụ thê của môi trường hoạt động.

4.4 Thiết kế trực quan — tương tác Các bước tương tác chính giữa người dùng và việc xây cây quyết định trực quan được dé xuất như Hình 8 bên dưới:

Nhập /xuât quy tắc tách

Hình 8: Các tác vụ chính được cung cấp cho quan tri viên bao mat

Bat dau -> Phân tích nút (Bước 1) -> Tạo biểu thức phân tách (Bước 2) -> Phân tích cây quyết định (Bước 3) -> Trở lại (Bước 1) hoặc Dung Tai Bước 2, người dùng có thé nhập vao biểu thức có sẵn hoặc xuất biểu thức ra khi vừa ý với việc phân tích cây và Dừng.

Bước 1: được dùng để hiển thị một nút được chọn để phân tích với chi tiết của của nút Quản tri viên bảo mật có thể thử các hàm trên bất kỳ các thuộc tính chưa dùng dé xem sự phân bố của đối tượng dữ liệu Thông thường, một cặp mà việc phân tách đối tượng dir liệu là rõ ràng nhất sẽ được chọn dé tạo biéu thức phân tách cho nút được chọn.

Giải pháp cung cấp một giao diện trực quan cho tác vụ này, xem ở Hình 9 bên dưới: ẽ (b)

THÍ NGHIỆM VÀ KET QUÁ

Co hai muc tiéu chinh trong phan thực nghiệm Đầu tiên là đo lường sự hiệu quả của kỹ thuật dé xuất trong việc phát hiện các tan công mạng Bởi vì quy tắc phát hiện tấn công được tạo ra bởi quản tri viên bao mật, kết hợp với sự hỗ trợ của giải pháp cây quyết định trực quan tương tác, kết quả đo lường không chỉ phụ thuộc vào giải pháp đề xuất mà còn phụ thuộc vào kỹ năng và kinh nghiệm của quản trị viên.

Mặc dù vậy, cách thức quản trị viên thực hiện các phân tích để tạo ra các quy tắc phát hiện tấn công cũng bị ảnh hưởng bởi các chức năng của giải pháp, vì vậy hiệu quả thu được có liên quan đến kỹ thuật đề xuất ở một mức độ nào đó Đặc biệt, hiệu quả được đánh giá dựa trên tỉ lệ phát hiện đúng (TPR) và tỉ lệ bỏ qua đúng (TNR) của kết quả phân loại dữ liệu đầu vào được thực hiện trên cây quyết định trực quan Kết quả còn có thể được so sánh với các cảnh báo được tạo ra bởi hệ thống SIEM dựa trên các tập luật sẵn có Mục tiêu thứ hai của thực nghiệm là đánh giá mức độ dễ dàng hay khó khăn đối với quản trị viên bảo mật khi sử dụng giải pháp để tạo ra các quy tắc phát hiện tan công mạng Với mục tiêu này, đánh giá định tính sẽ được sử dụng bang việc trao đồi trực tiếp VỚI quản tri viên. Ở mục tiêu thức nhất, đề tài chọn 2 giá trị TPR — True Positive Rate va TNR — True Negative Rate (tham khảo ở phan cơ sở lý thuyết) làm chi số do lường cho sự hiệu quả và chính xác của quy tắc được xây dựng.

TPR= TP/(TP+EFN) TNR = TN / (FP + TN)

Với tập dữ liệu huấn luyện đã được phân loại thì các số liệu TP — True Positive, TN — True Negative va tong số dữ liệu mẫu của tập huấn luyện là biết trước, nên có thể dễ dang tính toán được 2 giá tri TPR va TNR Giá trị TPR cao sé cho biết tỉ lệ phát hiện của kỹ thuật là tốt hơn Giá trị TNR cao sẽ làm cho tỉ lệ FPR — False Positive hay tỉ lệ báo động nhằm (False Alarm Rate) thấp do FPR = 1 — TNR.

Dé có thé đánh giá kết quả được tạo ra so với kết quả được sinh ra bởi các quy tắc của hệ thống SIEM (xem Hình 11), các dữ liệu được trích xuất trực tiếp từ hệ thống IBM Qradar SIEM tại một khoản thời gian nhất định Các dữ liệu nhật ký trích xuất chỉ tập trung vào các dữ liệu trong các sự kiện xác thực trong nhóm phát hiện xâm nhập Việc giới hạn này nham thuận tiện trong việc thực hiện thí nghiệm và đánh giá Việc áp dụng cho các dữ liệu ở các sự kiện khác trong các nhóm quy tắc phát hiện xâm nhập hoặc mở rộng tong quát cho tất cả các quy tac của hệ thống là tương tự Hệ thống chỉ cần xác định lại các thuộc tính và ánh xạ dữ liệu vào đối tượng dữ liệu theo yêu cau.

Log Activity Network Activity Vulnerabilities BigFix QDI

Offenses Display: | Rules Y Group: Authentication Groups ActionsW geTM#RevertRule | Search Rules

My Offenses Rule Name ^ Group Rule Category

BruteForce Repeat Attack-Login Source Authentication, Recon, Threats | Custom Rule

All Offenses BruteForce Repeat Attack-Login Target Authentication, Recon, Threats Custom Rule

By Category First-Time User Access to Critical Asset Anomaly, Authentication Custom Rule

Login Failure to Disabled Account Authentication, Horizontal Mo Custom Rule By Source IP Login Failure to Expired Account Authentication, Horizontal Mo Custom Rule

Login Failures Followed By Success from the same Source IP Authentication, Intrusion Dete Custom Rule By Destination IP Login Failures Followed By Success to the same Destination IP Authentication, Intrusion Dete Custom Rule

By Network Login Successful After Scan Attempt Authentication, Intrusion Dete _ Custom Rule

Multiple Login Failures for Single Username Authentication, Recon Custom Rule

Rules Multiple Login Failures from the Same Source Authentication, Recon Custom Rule

Multiple Login Failures from the Same Source (Windows) Authentication, Recon Custom Rule Multiple Login Failures to the Same Destination Authentication, Recon Custom Rule Repeat Non-Windows Login Failures Authentication, Recon Custom Rule Repeat Windows Login Failures Authentication, Recon Custom Rule

Hình 11: Các tập luật được xem xét trên hệ thong IBM Qradar SIEM

DC-fv 5 41:43, 23 thg 10, 2(41:43, 23 thg 10, 2018 tcp_ip 172.16.21.130 52331 23.98.33.226 443 guyen Active Success DC-fv 5 41:43, 23 thg 10, 2(41:43, 23 thg 10, 2018 tcp_ip 42.119.185.43 443 172.16.5.39 59374 A Fail DC-fv 5 41:43, 23 thg 10, 2(41:43, 23 thg 10, 2018 tcp_ip 172.16.21.150 56943 216.58.199.98 443 aguyen Active Success DC-fv 5 41:43, 23 thg 10, 2:41:43, 23 thg 10, 2018 tcp_ip 172.16.21.150 56933 216.58.197.99 443 1guyen Active Success DC-fv 5 41:43, 23 thg 10, 2:41:43, 23 thg 10, 2018 tcp_ip 172.16.10.11 59663 13.107.136.9 443 hoang Active Success DC-fv 5 41:43, 23 thg 10, 2:41:43, 23 thg 10, 2018 tcp_ip 172.16.6.25 50598 216.58.199.110 443 ng.le Active Success DC-fv 5 41:43, 23 thg 10, 2(41:43, 23 thg 10, 2018 tcp_ip 172.16.5.58 53894 23.100.88.32 443 ơg.tran Active Success nCollec 37.41:43, 23 thg 10, 21:41:43, 23 thg 10, 2018 Idap 10.0.37.106 0 10.0.38.100 0 A Fail

DC-fv 5 41:43, 23 thg 10, 2(41:43, 23 thg 10, 2018 tcp_ip 172.16.21.150 56901 52.114.128.9 443 1guyen Active Success DC-fv 5 41:43, 23 thg 10, 2:41:43, 23 thg 10, 2018 tcp_ip 172.16.5.31 63776 23.41.70.81 443 it guyen01 Active Success ncollec 37.41:43, 23 thg 10, 2:41:43, 23 thg 10, 2018 Idap 10.0.37.106 0 10.0.38.100 0 A Fail

DC-fv 5 41:43, 23 thg 10, 2:41:43, 23 thg 10, 2018 tcp_ip 172.16.5.47 58421 52.114.128.9 443 ay.le Active Success DC-fv 5 41:43, 23 thg 10, 2(41:43, 23 thg 10, 2018 tcp_ip 172.16.5.59 58954 52.114.128.9 443 nguyen Active Success DC-fv 5 41:43, 23 thg 10, 2:41:43, 23 thg 10, 2018 tcp_ip 172.16.5.11 61294 13.78.130.220 443 i ơuynh01 Active Success mwhyst ).2741:43, 23 thg 10, 2¢41:43, 23 thg 10, 2018 Idap 10.0.27.16 0 10.0.27.16 0 A Fail

DC-fv 5 41:43, 23 thg 10, 2(41:43, 23 thg 10, 2018 tcp_ip 172.16.5.44 58338 52.108.32.2 443 n.luu Active Success DC-fv 5 41:43, 23 thg 10, 2:41:43, 23 thg 10, 2018 tcp_ip 172.16.5.11 61293 13.78.130.220 443 L ^uynh01 Active Success DC-fv 5 41:43, 23 thg 10, 2:41:43, 23 thg 10, 2018 tcp_ip 172.16.21.155 54243 40.100.29.2 443 i nguyen Active Success DC-fv 5 41:43, 23 thg 10, 2:41:43, 23 thg 10, 2018 tcp_ip 172.16.21.31 58146 52.98.71.210 443 ham Active Success DC-fv 5 09:41:43, 23 thg 1(09:41:43, 23 thg 10, 2018 tcp_ip 172.16.12.133 61900 52.114.7.35 443 nguyen Active Success DC-fv 5 09:41:43, 23 thg 1(09:41:43, 23 thg 10, 2018 tcp_ip 172.16.21.150 56902 52.114.128.9 443 aguyen Active Success DC-fv 5 09:41:43, 23 thg 1(09:41:43, 23 thg 10, 2018 tcp_ip 172.16.21.144 55020 52.114.128.9 443 e.do Active Success DC-fv 5 09:41:43, 23 thg 1(09:41:43, 23 thg 10, 2018 tcp_ip 172.16.6.21 57965 204.79.197.222 443 nguyen Active Success DC-fv 5 09:41:43, 23 thg 1(09:41:43, 23 thg 10, 2018 tcp_ip 172.16.6.21 57964 13.107.140.254 443 nguyen Active Success DC-fv 5 09:41:43, 23 thg 1(09:41:43, 23 thg 10, 2018 tcp_ip 172.16.10.14 65246 52.109.120.3 443 tran01 Expired Success DC-fv 5 09:41:43, 23 thg 1(09:41:43, 23 thg 10, 2018 tcp_ip 172.16.21.130 52327 104.215.189.12 443 aguyen Active Success DC-fv 5 09:41:43, 23 thg 1(09:41:43, 23 thg 10, 2018 tcp_ip 172.16.6.18 57502 10.0.37.104 443 I.dinh Active Success DC-fv 5 09:41:43, 23 thg 1(09:41:43, 23 thg 10, 2018 tcp_ip 172.16.21.159 55934 13.78.130.220 443 nguyen Active Success

Hình 12: Dữ liệu mẫu liên quan đến tap luật xem xét

Dé có thé đánh giá kết quả được tạo ra so với kết quả được sinh ra bởi các quy tắc của hệ thống SIEM, các dữ liệu được trích xuất trực tiếp từ hệ thống IBM Qradar SIEM tai một khoảng thời gian Dữ liệu bao gồm ca dữ liệu bình thường và bat thường Dữ liệu được trích xuất dưới định định dang tập tin CSV, với các cột là tên các thuộc tính của đối tượng di liệu, mỗi hàng là một đối tượng đữ liệu Hệ thống tạo ra một bảng trên cơ sở dữ liệu đầu vào hệ thống, sau đó nhập và lưu trữ các đối tượng dữ liệu này từ tập tin CSV Mỗi bản ghi trong bảng cơ sở dữ liệu tương ứng với một đối tượng dữ liệu và mỗi trường trong bảng tương ứng với một thuộc tính của đối tượng dir liệu tương ứng (xem Hình 12).

Các dữ liệu sẽ được gan nhãn là bình thường nếu đối tượng dữ liệu đó không thuộc dit liệu của bất kỳ cảnh báo bảo mật (offense) nào của hệ thống IBM QradarSIEM Tương tự như vay, dữ liệu sẽ được gan nhan 1a bat thuong nếu đối tượng dữ liệu đó thuộc dữ liệu của bay kỳ cảnh báo bảo mật nao của hệ thông được xem xét và xác nhận bởi quản tri viên bao mật, có nhiều kinh nghiệm trong vận hành hệ thống và hiểu rõ ngữ cảnh cũng như môi trường hoạt động của tô chức.

Tổng số dữ liệu thu thập được là 1427 mẫu được trích xuất trong khoản thời gian từ 10 giờ 50 phút 54 giây ngày 29 tháng 10 năm 2018 đến 15 giờ 53 phút 2 giây ngày 7 tháng 11 năm 2018 Trong đó thống kê thủ công liệt kê được 942 mau là dữ liệu bình thường 485 là dữ liệu bất thường (được xác nhận bởi quản tri viên bao mật nhiều kinh nghiệm đã vận hành hệ thống trên 5 năm) Tuy nhiên dé thuận tiện cho việc thí nghiệm, dữ liệu được lay tròn là tong cộng 1400 mau, bao gồm 940 mau dữ liệu bình thường và 460 mẫu dữ liệu bất thường Tập dữ liệu này được chia thành hai tập con dùng cho huấn luyện và kiểm thử, mỗi tập bao gồm 470 mẫu dữ liệu bình thường và 230 mẫu dữ liệu bất thường.

5.3 Thiết lập thí nghiệm Trong giai đoạn này, mục tiêu chính là thu thập các phản hồi về kỹ thuật đề xuất để học hỏi và cải tiễn cho phù hợp Vì vậy, phần thực nghiệm này không liên quan đến nhiều người Thay vì vậy, phần thực nghiệm sẽ được đánh giá bởi bốn quản trị viên bảo mật của tổ chức bao gồm: người thực hiện đề tài này (cũng là một quản trị viên bảo mật và là chuyên viên lĩnh vực bảo mật), quản trị viên bảo mật hệ thống IBM Qradar SIEM, quản trị viên hệ thống tường lửa thé hệ mới (bao gồm chức năng phát hiện và ngăn chặn chống xâm nhập), quan tri viên hệ thống xác thực dịch vụ

Microsoft Active Directory Cac quan tri viên bảo mật tham gia thử nghiệm nguyên mẫu và đóng góp ý kiến Bên cạnh đó, họ cũng đóng góp kiến thức, kinh nghiệm và kỹ năng liên quan đến tan công mạng Phan thực nghiệm cũng ghi nhận từng bước các quản tri viên bảo mật thực hiện trong suốt quá trình tạo ra quy tắc phát hiện tấn công mạng, sau đó phân tích các bước được ghi nhận này.

Trước khi các quản trị viên bảo mật thực hiện các tác vụ, một hướng dẫn ngăn gọn về các thành phần chính của nguyên mẫu và phương pháp phân loại cây quyết định được chia sẻ Vì các quản trị viên ít nhiều đều biết rõ van dé tan công mang va một số kiểu tân công xâm nhập, nên phần hướng dẫn các kiến thức này là không cần thiết Tuy nhiên, nguyên mẫu nhân mạnh đến việc thực hiện các biểu thức động cũng như hién thị trực quan dé phân tích va phát triển các quy tac phát hiện tan công Cuối cùng, các quản trị viên bảo mật cũng được khuyến nghị viết các quy tắc phát hiện tấn công thật chính xác và ngăn gọn nhất có thé.

Một ví dụ về việc tạo quy tắc phát hiện tấn công mạng trên hệ thống IBM Qradar

KET LUẬN

6.1 Đóng góp của đề tài Đóng góp quan trọng nhất là phần tiến hành thí nghiệm và đánh giá kỹ thuật đề xuất trên môi trường thực tế cho bài toán bảo mật hệ thống mạng. o Môi trường thực tế: trong hệ thống SIEM, các sự kiện được thu thập từ nhiều ngu6n (logsource: lên tới hang trăm nguồn), loại sự kiện cũng đa dang (cũng tam 10-30 loại), mỗi loại sự kiện lại có nhiễu trường dữ liệu (thuộc tính từ 10-100 thuộc tinh), vì vậy việc phân tích và nhận dang bất thường rat phức tạp và tốn nhiễu công sức dé tìm ra những thuộc tinh quan trọng hay ít quan trọng. o Bảo mật hệ thống mạng: o Bài toán bảo mật ứng dung Web hay bài toán tương tự hoạt động như mô hình hệ thống phát hiện xâm nhập (IDS — Intrusion

Detecting System), trong khi bài toán SIEM là bài toán phòng thu toàn diện và tong thé, do thu thập tat cả thông tin từ các nguôn khác nhau bao gôm cả hệ thống IDS, IPS, Firewall, Endpoint, o Hệ thống SIEM có thé phân tích, phát hiện các tan công không chi từ bên ngoài mà còn từ các mối đe dọa bên trong doanh nghiệp, các dau hiệu tan công kỹ thuật cao, hay các cuộc tấn công bên bỉ va diễn ra trong thời gian dài mà ở đó, các hệ thống khác còn hạn chế. o Ứng dung Web thi dữ liệu nhập là từ người dùng va thông thường là dễ hiểu so với người phân tích (email phải thế nào, ngày sinh phải thé nào, v.v ) Còn các thuộc tinh trong bai toán của hệ thông SIEM không phải lúc nào cũng dễ hiểu hay có thé xâu chuỗi lại với nhau

=> can đến kiến thức chuyên gia nhiều hon => vai trò của người sử dung càng quan trọng => cây quyết định trực quan tương tác tỏ rõ wu điểm hơn cây quyết định tự động. Đề tài thừa kế các ý tưởng của bài báo [32] và có cải tiễn trong phan những hạn chế hay “Future work”: o_ Thành phan hệ thống: có thêm thành phan "Quy tắc (rule)", ngoài việc cho phép nhập xuất quy tắc, thì thành phần này cũng lưu giữ kiến thức chuyên gia, hoặc dùng AI (các giải pháp tự động) để tạo ra các cây đề nghị cho người dùng. o Trực quan nút: thêm phan trực quan với dữ liệu chưa phân loại, để người dùng tự khám phá dữ liệu và tạo biểu thức phân tách Người dùng có thé sử dụng kỹ thuật “One vs Rest” dé xử lý bài toán dữ liệu đa chiều về dữ liệu 2 chiêu. o_ Trực quan cây: giải pháp cho phép tương tác trực tiếp trên cây (phần này sẽ được hiện thực ở phiên bản kế tiếp của nguyên mẫu). Đóng góp mang ý nghĩa khoa học, thì dé tài đã đề xuất và phát triển một phương pháp trực quan tương tác để hỗ trợ quản trị viên bảo mật trong việc xây dựng cây quyết định nhằm phát triển các quy tắc phát hiện các cuộc tan công mang với dit liệu đầu vào là các dữ liệu nhật ký thu thập được từ hệ thông SIEM Các kỹ thuật dựa trên việc học dựa trên cây quyết định, phát hiện xâm nhập bang trực quan hóa, được tang cường bởi việc bố sung khả năng trực quan hóa dữ liệu va thao tác tương tác trong quá trình xây dựng cây quyết định Không như việc học dựa trên cây quyết định truyền thống, kỹ thuật dé xuất là hướng đến người dùng Thay vì người dùng tạo ra các quy tac phát hiện tấn công mạng cách thủ công, thì người dùng có thé tạo ra quy tac phát hiện tan công mạng với sự hỗ trợ của cây quyết định trực quan tương tác.

Sau đây là những lợi ích của phương pháp đề xuất so với phương pháp xây dựng cây quyết định truyền thống khác:

- Kién thức người dùng được sử dụng một cách trực tiếp Bởi vì người dùng trực tiếp phân tích đối tượng dữ liệu và nhập vào các điều kiện phân tách cho mỗi nút, họ có thể sử dụng kiến thức chuyên ngành trong quá trình tạo ra quy tắc Điều này có thé tạo ra một cây phân loại tốt hơn.

- Bén cạnh đó, người dùng không chỉ mong đợi kết quả được tạo ra, mà còn muốn có được cái nhìn tong quan cho toản bộ môi trường và hệ thông mạng của họ và cái nhìn sâu sát hơn cho các kiểu tân công mạng có thể xảy ra Khi phân tích dữ liệu để tạo ra các điều kiện phân tách, người dùng không chỉ tạo ra cây quyết định mà còn có một hình ảnh tông thể các đối tượng dữ liệu, thuộc tích và sự phan bố giá tri thuộc tính Lợi điểm này khó có thể đạt được nếu sử dụng công cụ sinh tự động.

- _ Cuối cùng, quy tac phân loại có thé được tạo ra khá linh hoạt bởi vì quy tac phân loại được nhập vào trực tiếp bởi người dùng, họ có thể tùy chỉnh theo nhu câu.

Ví dụ, thuộc tinh dữ liệu dé phân tách có thé ở bất kỳ dạng dữ liệu nào, không chỉ là dữ liệu số hay danh nghĩa, một hàm tùy biến có thể được dùng trên các thuộc tính đối tượng dữ liệu đê có thê tạo ra nhiêu loại đâu ra khác nhau.

6.2 Hạn chế của đề tài và cải tiễn trong tương lai Tuy nhiên, có một số van đề còn tổn tại của dé tài cũng cần được xem xét để tìm ra cách tiếp cận và hướng giải quyết phù hợp hơn Các vẫn đề thách thức mà đề tài gặp phải và cần cải tiễn trong tương lại như:

- _ Trong phan thử nghiệm, với thời gian và nguồn lực hạn chế, không thé mời được nhiều nhà nghiên cứu bảo mật cùng tham gia Do đó, kết quả có thé không có chat lượng đủ dé đại diện tiêu biêu cho tat cả các quản tri viên trong các lĩnh vực.

Trong tương lai, sẽ mời nhiều người tham gia với nhiều mức độ kiến thức, kinh nghiệm khác nhau để có nhiều phản hồi hơn.

Ngoài các quan tri viên bảo mật, nhà nghiên cứu bảo mật, cũng sẽ mời thêm các quản trị viên, kỹ sư hệ thống hay các sinh viên trong ngành cùng tham thử nghiệm.

Mục đích của việc có sinh viên trong ngành tham gia thử nghiệm cũng để giúp sinh viên tăng cường kiến thức và nhận thức về bảo mật, cũng như có thể sử dụng công cụ trong việc học tập và nghiên cứu.

- Một vấn đề khác là số lượng đối tượng dir liệu trong thực nghiệm chi là dữ liệu đặc trưng nhất Thực nghiệm chưa có khả năng sử dụng với dữ liệu lớn hay rất lớn Ví dụ khi có quá nhiều thuộc tính trong tập dữ liệu huấn luyện, sẽ rất khó để chọn lựa thuộc tính đầu tiên để tạo ra điều kiện phân tách Tương tự, khi một cây quyết định được xây dựng là rat lớn, được hién thị trên màn hình máy tính cùng lúc để có day đủ ý nghĩa sẽ gây ra khó khăn cho người quản trị tập trung vào van dé can giải quyết.

Người dùng phản hồi hạn chế và dé xuất cải tiến: o Khả năng kéo thả trong phân tích nút / (bao.nguyen — network engineer, vu.cao — it security specialist). o Gom nhiều dữ liệu dé phân loại / (tuyen.nguyen — network engineer). o Tương tác trực tiếp trên cây để phân tích / (tuyen.nguyen —network engineer, hieu.hoang — system engineer). o Gợi ý nhánh sé phân tích tiếp / (vu.cao — it security specialist) o So sánh cùng lúc nhiều cây kết qua / (vu.cao — it security specialist)

Tiêu đề	Xây dựng cây quyết định trực quan tương tác để phát triển các quy tắc phát hiện tấn công mạng
Tác giả	Lê Nguyên Trường Giang
Người hướng dẫn	PGS. TS. Đặng Trần Khánh
Trường học	Đại học Quốc gia TP. HCM
Chuyên ngành	Khoa học Máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2018
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	71
Dung lượng	23,47 MB