Khóa luận tốt nghiệp An toàn thông tin: Một hướng tiếp cận dựa trên học tập tăng cường cho chính sách phân bổ Honeypot thông minh trong chiến lược đánh lừa mạng

Một trong những hướng nghiên cứu nổi bật của phòng thủ chủ động đang nhận được sự chú ý từ các nhà khoa học trong thời gian gần đây là việc sử dụng tài nguyên giả mạo Deception-based Cyb

Phòng thủ chủ động|

Tổng qumeerarố Y7Ẽ7 a 5ơ `6 5 6 "

Phòng thủ chủ động là những biện pháp nhằm phát hiện và ngăn chặn các mối đe dọa an ninh mạng, bao gồm hệ thống xác thực chủ động để ngăn chặn các hành vi đăng nhập bất thường, hệ thống ngăn ngừa xâm nhập (IPS), tường lửa và phần mềm diệt mã độc Những công cụ này hoạt động bằng cách phát hiện và tiêu diệt mã độc thông qua việc so khớp dấu hiệu của mã độc với dữ liệu đã được định nghĩa Tuy nhiên, một số nghiên cứu chỉ ra rằng các phương pháp chủ động truyền thống có thể mang tính chất thụ động và không hiệu quả trong việc ứng phó với các tác nhân bảo mật mới.

Chương 2 COSO LY THUYẾT mật trực tiếp đến từ phía con người, chẳng han như các cuộc tân công nâng cao

Các cuộc tấn công APT (Advanced Persistent Threat) thường được thực hiện với mục đích và chiến thuật rõ ràng, cho phép kẻ tấn công duy trì sự hiện diện lâu dài trong hệ thống Để đối phó với mối đe dọa này, một trong những kỹ thuật hiệu quả gần đây là sử dụng Honeypots Honeypots là các hệ thống giả mạo, được thiết kế để mô phỏng chính xác các tài nguyên thực tế của hệ thống, nhằm phát hiện và làm rối loạn các hoạt động của kẻ tấn công khi chúng di chuyển trong mạng lưới.

Honeypot là công cụ hiệu quả trong nghiên cứu và phát hiện các cuộc tấn công mạng, hoạt động bằng cách thu hút kẻ tấn công để thu thập thông tin về hành vi và kỹ thuật tấn công Thay vì chỉ dựa vào các dấu hiệu đã biết, honeypot giúp các hệ thống bảo mật như IPS hoặc quản trị viên phát hiện và ngăn chặn kẻ tấn công kịp thời Các honeypot được chia thành hai loại chính: honeypot mang tính tương tác cao (HIH) và honeypot mang tính tương tác thấp (LIH) Nghiên cứu trong lĩnh vực honeypot thường tập trung vào việc cải thiện hiệu năng và độ tin cậy của hệ thống, giúp kẻ tấn công khó phân biệt giữa tài nguyên thật và giả Một hướng nghiên cứu quan trọng hiện nay là tối ưu hóa việc triển khai tài nguyên honeypot để nâng cao độ tin cậy của mô hình.

Reinforcement Learninp|

Tong quan} 6 eee 8

Học tăng cường (Reinforcement Learning, RL) là một lĩnh vực quan trọng trong học máy, nơi tác tử (agent) học cách tương tác với môi trường (environment) để tối ưu hóa phần thưởng tích lũy (cumulative reward) theo thời gian Mô hình học tăng cường bao gồm các thành phần chính: tác tử, là thực thể đưa ra quyết định; môi trường, là bối cảnh tương tác và phản hồi; hành động, là các lựa chọn của tác tử; phần thưởng, là giá trị phản ánh mức độ thành công sau mỗi hành động; và trạng thái, là thông tin hiện tại mà tác tử quan sát Tác tử sử dụng chính sách (policy) để chọn hành động dựa trên trạng thái hiện tại nhằm tối đa hóa phần thưởng dài hạn.

Học tăng cường nằm giữa học có giám sát và học không giám sát, liên quan đến việc ra quyết định tuần tự với phản hồi hạn chế Đây là một thuật toán trong lĩnh vực học máy, cho phép tác tử học cách cư xử trong môi trường thông qua tín hiệu phần thưởng Mục tiêu của tác tử là tối đa hóa phần thưởng lâu dài bằng cách tương tác với môi trường, chọn hành động từ không gian hành động dựa trên chính sách thuật toán Ví dụ điển hình là một robot phải tránh đám lửa để đến viên kim cương Tác tử, thành phần quan trọng trong học tăng cường, có thể là chương trình máy tính hoặc robot, và trong nghiên cứu này, tác tử là hệ thống phòng thủ mạng với nhiệm vụ cụ thể.

HÌNH 2.1: Một bài toán học tăng cường điển hình phát hiện và ngăn chặn các cuộc tấn công mạng dựa trên các hành động nó thực hiện.

Môi trường là không gian cho phép tác tử tương tác và học hỏi, cung cấp thông tin phản hồi về hành động của tác tử dưới dạng phần thưởng và trạng thái mới Trong nghiên cứu này, môi trường bao gồm toàn bộ hệ thống mạng và các tình huống tấn công có thể xảy ra, bao gồm cả báo động sai và thông tin không đầy đủ từ hệ thống giám sát mạng (NMS).

Hành động là những động thái mà tác tử thực hiện để tác động lên môi trường, được lựa chọn dựa trên chính sách hiện tại nhằm tối đa hóa phần thưởng tích lũy Trong hệ thống phòng thủ mạng, các hành động như chặn IP, kiểm tra gói tin, hoặc thực hiện biện pháp bảo mật khác được chọn với mục tiêu phát hiện và ngăn chặn hiệu quả các cuộc tấn công.

Trạng thái (State) chứa toàn bộ thông tin cần thiết về môi trường để tác tử có thể dự đoán hành động tiếp theo Quan sát (Observation) là dữ liệu mà tác tử thu thập được sau khi thực hiện một hành động cụ thể Nhiều bài toán cơ bản dựa trên quy trình quyết định Markov, như các trò chơi bàn cờ, cho thấy rằng thông tin tác tử quan sát được chính là trạng thái cần thiết để đưa ra dự đoán Tuy nhiên, trong những bài toán phức tạp hơn, như trong nghiên cứu này, cảnh báo từ các hệ thống giám sát đóng vai trò quan trọng trong việc phân tích và đưa ra quyết định.

Chương 2 COSO LY THUYẾT mang có thể bị thất lạc hoặc phát ra các cảnh báo giả, cũng như chiến thuật và phương án di chuyển không thể đoán trước được của kẻ tấn công, trạng thái thực sự của môi trường sẽ có nhiều khác biệt so với quan sát mà tác tử có được.

Phần thưởng là giá trị phản hồi mà tác tử nhận được sau khi thực hiện một hành động, giúp tác tử đánh giá hiệu quả của hành động đó Mục tiêu của tác tử là tối đa hóa số phần thưởng tích lũy trong thời gian dài, vì phần thưởng chỉ có ý nghĩa trong một trạng thái - hành động cụ thể Để đạt được điều này, tác tử sử dụng các hàm giá trị để tính toán và lựa chọn những hành động phù hợp hơn với từng trạng thái.

Hàm giá trị ước tính giá trị phần thưởng kỳ vọng khi bắt đầu từ một trạng thái hoặc một cặp trạng thái - hành động nhất định, dựa trên một chính sách cụ thể Giá trị này giúp tác tử đánh giá xem việc ở tại trạng thái nhất định và thực hiện hành động cụ thể có hiệu quả hay không, từ đó tự điều chỉnh hành động của mình theo thời gian.

Các thành phần trong hệ thống sẽ tương tác trong một vòng lặp kín, trong đó tác tử tự điều chỉnh hành động thông qua việc khám phá môi trường Mục tiêu là xác định những hành động mang lại phần thưởng cao nhất và tập trung khai thác chúng Tùy thuộc vào loại bài toán, tác tử sẽ áp dụng các phương pháp khác nhau để cải thiện khả năng khai thác, nhưng chung quy lại, mục tiêu cuối cùng là tối ưu hóa phần thưởng nhận được.

2.2.3 Các hình thức tiếp cận

Reinforcement Learning (RL) is typically represented as a Markov Decision Process (MDP), which consists of key components including a set of states in the environment (S) and a set of actions (A).

Chương 2 COSO LY THUYẾT ¢ Ham chuyển trạng thái: P(s/|s, a), biểu thị xác suất chuyển từ trang thái s sang trạng thái s“ khi thực hiện hành động a ¢ Hàm phần thưởng: R(s, a), biểu thị phần thưởng nhận được khi thực hiện hành động a tại trạng thái S se Hệ số chiết khẩu: y € [0, 1), biểu thi mức độ quan trong của phần thưởng tương lai

Tác tử RL tương tác với môi trường theo thời gian, tại mỗi thời điểm f, nó quan sát trạng thái môi trường S¢ € S và thực hiện hành động at € A Sau khi hành động được thực hiện, môi trường chuyển sang trạng thái mới S¢+1 với xác suất P(St+1|St, At), và tác tử nhận phần thưởng r¢+1 = R(St, at) Quá trình này lặp lại, tạo thành chuỗi các trạng thái, hành động và phần thưởng.

Mục tiêu của tác nhân học tăng cường (RL) là xác định chính sách r(g|s), tức là xác suất chọn hành động a trong trạng thái s, nhằm tối đa hóa phần thưởng tích lũy kỳ vọng Phần thưởng tích lũy kỳ vọng từ thời điểm t được định nghĩa một cách cụ thể để đánh giá hiệu quả của các quyết định trong quá trình học.

Hệ số chiết khấu thể hiện mức độ ưu tiên của phần thưởng tương lai so với phần thưởng hiện tại Cụ thể, r:k1 là phần thưởng nhận được tại thời điểm t + k + 1 Khi hệ số này gần bằng 0, tác nhân chủ yếu tập trung vào phần thưởng gần.

Y gần bằng 1, tác tử quan tâm đến phần thưởng xa trong tương lai.

Hàm giá trị trạng thái, kí hiệu V(s), thể hiện giá trị kỳ vọng của phần thưởng tích lũy khi tác tử khởi đầu từ trạng thái s và thực hiện hành động theo chính sách 7 Cụ thể, hàm giá trị trạng thái dưới một chính sách 1 được định nghĩa như sau:

Q-Learningl ẶẶ eee 14

Q-Learning là một thuật toán học tăng cường nhằm tối ưu các giá tri kì vọng của hành động, được gọi là giá trị Q trong mỗi lượt hành động Thuật toán này sử dụng một bảng để lưu trữ các giá trị Q cho các trạng thái và hành động tương ứng Q-Learning thuộc họ thuật toán off-policy, có nghĩa là nó cập nhật giá trị Q không dựa vào chính sách hiện tại mà dựa vào hành động tối ưu nhất có thể thực hiện trong tương lai.

Trong Q-Learning, giá trị Q được cập nhật dựa trên công thức Bellman:

Trong đó, S đại diện cho trạng thái hiện tại Hành động a được thực hiện từ trạng thái S Phần thưởng r là giá trị nhận được sau khi thực hiện hành động a tại trạng thái S Trạng thái tiếp theo sau khi thực hiện hành động a được ký hiệu là S'.

* a là tốc độ học (learning rate). ¢ 7 là hệ số giảm giá (discount factor).

* maxq’ Q(s’, a’) là giá trị Q tối đa có thể đạt được từ trạng thái s’ với hành động a’.

1 Khởi tao bang Q với các giá trị ngẫu nhiên hoặc bang không.

2 Lặp lại cho đến khi đạt điều kiện dừng (số lượt, mức hội tụ, v.v.):

3 Chọn hành động a từ trạng thái s dựa trên chính sách €-greedy: © Với xác suất €, chọn hành động ngẫu nhiên. © Với xác suất 1 — e, chọn hành động tối ưu: a = arg maxạ Q(s, a).

4 Thực hiện hành động a, quan sát phần thưởng r và trạng thái mới S7.

5 Cập nhật giá trị Q của cặp trạng thái-hành động (s, a) dựa trên công thức cập nhật Q-Learning.

6 Chuyển sang trạng thái mới $’.

Chính sách hành động (Action Policy)

Chính sách hành động (ALS) trong Q-Learning áp dụng chiến lược €-greedy nhằm cân bằng giữa khám phá (exploration) và khai thác (exploitation) Cụ thể, với xác suất €, hệ thống sẽ chọn hành động ngẫu nhiên để khám phá môi trường, trong khi với xác suất 1 — e, nó sẽ lựa chọn hành động tối ưu hiện tại dựa trên giá trị Q đã biết Q-Learning có những ưu điểm và nhược điểm riêng, ảnh hưởng đến hiệu quả của quá trình học.

Thuật toán Q-Learning, với tính đơn giản của nó, dễ dàng được triển khai trong các bài toán học tăng cường, khiến nó trở thành một trong những thuật toán phổ biến nhất Đối với môi trường có không gian trạng thái nhỏ và vừa, Q-Learning có khả năng phát huy hiệu quả và đảm bảo hội tụ về chính sách tối ưu sau khi đã khám phá đầy đủ môi trường, cùng với tốc độ học được điều chỉnh hợp lý Tuy nhiên, phương pháp này gặp khó khăn khi áp dụng cho các không gian trạng thái lớn và liên tục, do yêu cầu tính toán và lưu trữ bảng giá trị Q, cũng như hiệu suất giảm sút nếu các tham số như tốc độ học và hệ số giảm giá không được lựa chọn hợp lý, hoặc trong việc dự đoán giá trị Q cho các trạng thái chưa từng gặp.

Double DeepQ-Network|

Để giảm thiểu hao tốn tài nguyên, mô hình học sâu được tích hợp vào Q-Learning, được gọi là Double Deep Q-Learning (DDQL) hay Double Deep Q-Network (DDQN) Thuật toán này sử dụng các mạng nơ-ron để xấp xỉ giá trị Q thay vì lưu trữ dưới dạng bảng DDQN bao gồm hai mạng nơ-ron riêng biệt: mạng chính (main network) dùng để chọn hành động và cập nhật giá trị Q, và mạng mục tiêu (target network) cung cấp giá trị Q ổn định hơn cho việc cập nhật Sự phân tách này giúp giảm thiểu thiên vị và nâng cao tính ổn định trong quá trình huấn luyện.

Thuật toán Double Deep Q-Network bao gồm hai mạng nơ-ron chính:

Mang này ước lượng giá trị Q cho mỗi cặp trạng thái-hành động (Ss, a).

Trọng số của mạng chính được ký hiệu là 6.

2 Mạng mục tiêu (Target Network):

Mạng này cung cấp giá trị Q ổn định hơn để tính toán mục tiêu TD (TD-target). Trọng số của mạng mục tiêu được ký hiệu là @~.

Mục tiêu của Double Deep Q-Network là giảm thiểu hàm mất mát, được xác định bởi sự chênh lệch giữa giá trị Q dự đoán và giá trị Q mục tiêu (TD-target).

Hàm mat mát được định nghĩa như sau:

| Environment | | ° >| Q network wupaare] Target Q Network

Trong mô hình này, rlaphan thưởng được nhận sau khi thực hiện hành động a tại trạng thái s Hệ số giảm giá Y được sử dụng để điều chỉnh giá trị Q Trạng thái tiếp theo sau khi thực hiện hành động a được ký hiệu là S“ Giá trị Q được dự đoán bởi mạng chính được thể hiện qua Q(s, a; 6), trong khi giá trị Q mục tiêu từ mạng mục tiêu được ký hiệu là maxq Q(s’, a’; @ ).

Trọng số của mạng chính được cập nhật bằng cách sử dụng phương pháp tối ưu hóa gradient descent dựa trên ham mat mát:

Trong đó ơ là tốc độ hoc (learning rate).

Để đảm bảo sự ổn định trong quá trình huấn luyện, các trọng số của mạng mục tiêu được sao chép từ mạng chính theo chu kỳ cố định.

Công thức của thuật toán Double Deep Q-Network có thé được miêu tả như sau:

1 Khởi tạo cỏc trọng số của mạng chớnh ỉ và mạng mục tiờu ỉ~ một cỏch ngẫu nhiên.

2 Lặp lại cho mỗi tập huấn luyện: © Lay mẫu ngẫu nhiên từ bộ nhớ kinh nghiệm một minibatch (s, q, r, 5’). e Tính giá trị mục tiêu y = r + ymaxz/ Q(s/, a’; 67). © Tính hàm mat mát L(@) và cập nhật trọng số của mạng chính. Â Cập nhật mạng mục tiờu ỉ— theo chu kỳ cú định C.

Chính sách hành động (als) trong Double Deep Q-Network thường sử dụng chiến lược €-greedy như sau:

1 Với xác suất €, chọn hành động ngẫu nhiên.

2 Với xác suất 1— €, chọn hành động tối ưu theo giá trị Q được dự đoán bởi mạng chính: q = arg max Q(s, da; 6) (2.11)

Double Deep Q-Network sử dụng mạng nơ-ron sâu để xấp xỉ các giá trị Q cho không gian trạng thái lớn và liên tục, vượt trội hơn so với Q-learning truyền thống Việc áp dụng mạng mục tiêu cũng giúp giảm thiểu sự thiên vị và tăng cường tính ổn định trong quá trình huấn luyện.

2.3.3 State-Action-Reward-State-Action

State-Action-Reward-State-Action (SARSA) là một thuật toán học tăng cường on-policy, cập nhật giá trị Q dựa trên chính sách hiện tại của tác tử Khác với Q-Learning, SARSA sử dụng hành động thực tế đã chọn theo chính sách hiện tại để cập nhật giá trị Q, thay vì hành động tối ưu nhất.

Chương 2 COSO LY THUYẾT s,a s,a sĩ S a’ a

HINH 2.3: So sánh sự khác nhau giữa thuật toán SARSA và ho thuật toán Q-learning

Thuật toán SARSA bao gồm các bước sau:

1 Chọn hành động a dựa trên trạng thái s theo chính sách €-greedy.

2 Thực hiện hành động a, nhận phan thưởng r, và quan sát trạng thái kế tiếp S7.

3 Chọn hành động tiếp theo a’ dua trên trạng thái s’ theo chính sách €-greedy.

4 Cập nhật giá trị Q dựa trên công thức:

Lap lại quy trình từ trang thái s’ và hành động a’.

SARSA thực hiện cập nhật Q dựa trên chính sách của tác tử, giúp thuật toán hội tụ nhanh hơn so với Q-Learning trong một số trường hợp Tuy nhiên, nó có thể gặp phải vấn đề khi các hành động ngẫu nhiên dẫn đến kết quả không mong muốn trong quá trình học Kết quả thực nghiệm cho thấy thuật toán SARSA có tốc độ huấn luyện chậm và độ ổn định thấp hơn so với hai thuật toán khác trong bài toán phân bổ tài nguyên honeypot.

Advantage Actor-Critic|

Thuật toán Advantage Actor Critic (A2C) là một phương pháp học tăng cường kết hợp hai thành phần chính: Actor và Critic Trong đó, Actor có nhiệm vụ chọn hành động dựa trên chính sách hiện tại, trong khi Critic đánh giá hiệu suất của chính sách bằng cách ước lượng giá trị của các trạng thái hoặc trạng thái-hành động.

| Actor_Network | h — Sa ec ~ A iofe\ | ]

| e a, ——* Environment | (Sty Aty Feris St+1) ® e© | é

HINH 2.4: Mô hình thuật toán A2C

A2C áp dụng khái niệm Advantage để đo lường sự khác biệt giữa giá trị Q của hành động thực hiện và giá trị V của trạng thái hiện tại Điều này giúp giảm thiểu sự nhiễu loạn trong quá trình huấn luyện, từ đó nâng cao tính ổn định của quá trình học.

Cụ thể, thuật toán A2C hoạt động như sau:

1 Thu thập trải nghiệm: Actor thu thập trải nghiệm từ môi trường bằng cách thực hiện các hành động dựa trên chính sách hiện tại.

2 Tính toán phần thưởng và trạng thái tiếp theo: Mỗi hành động sẽ nhận được một phần thưởng và trạng thái tiếp theo từ môi trường.

3 Ước lượng giá tri: Critic ước lượng giá trị của trạng thái hiện tại (V(S¿)) và giá trị Q của trạng thái-hành động (Q(St, đ:)).

4 Tính toán Advantage: Advantage được tính bằng cách lay hiệu giữa giá trị Q và giá trị V:

A(St, at) = Q(St, at) — V(St) (2.13)

5 Cap nhật Actor: Dựa trên Advantage, Actor cập nhật chính sách để tang cường xác suất chọn những hành động có Advantage cao.

6 Cập nhật Critic: Critic cập nhật mạng nơ-ron để cải thiện ước lượng giá trị của các trạng thái.

A2C nổi bật với khả năng giảm thiểu phương sai trong ước lượng, giúp quá trình học diễn ra ổn định và nhanh chóng hơn Việc tách biệt vai trò của Actor và Critic cho phép A2C không chỉ tối ưu hóa chính sách mà còn cải thiện ước lượng giá trị, từ đó tạo nền tảng cho các thuật toán học tăng cường tiên tiến như A3C (Asynchronous Advantage Actor-Critic).

A2C là phương pháp học tăng cường hiệu quả, kết hợp giữa Actor và Critic, giúp cải thiện hiệu suất và tính ổn định Mô hình này có khả năng xử lý không gian trạng thái và hành động lớn, cho phép thích ứng nhanh chóng với các hệ thống mạng phức tạp.

Exploit Prediction Scoring System|

Nhóm tác giả đã sử dụng Hệ thống Đánh giá Khả năng Khai thác (EPSS) để ước tính xác suất khai thác lỗ hổng phần mềm trong môi trường thực tế EPSS cung cấp điểm số từ 0 đến 1, với điểm số cao hơn cho thấy khả năng lỗ hổng bị khai thác lớn hơn Hệ thống này giúp các nhà quản trị mạng ưu tiên khắc phục lỗ hổng một cách hiệu quả.

Hệ thống EPSS, được phát triển bởi nhóm EPSS SIG với hơn 170 chuyên gia toàn cầu từ nhiều ngành công nghiệp, nhằm tạo ra một hệ thống đánh giá khả năng khai thác hoàn toàn dựa trên dữ liệu Hệ thống này cung cấp điểm số cho tất cả các lỗ hổng đã biết, hoàn toàn miễn phí và dễ tiếp cận.

Chương 2 COSO LY THUYẾT thích ứng với thông tin mới [10] Nó sử dung thông tin về mối đe dọa hiện tại từ

CVE và dữ liệu khai thác thực tế được sử dụng để đánh giá xác suất một cách chính xác Hệ thống này đã trải qua nhiều lần cập nhật nhằm nâng cao độ chính xác và hiệu quả trong việc phân tích.

2.4.1 Mô hình EPSS và Hướng Tiếp Cận

Mục tiêu của EPSS là lấp đầy những thiếu sót trong các tiêu chuẩn công nghiệp hiện tại, đặc biệt là trong việc đánh giá mối đe dọa từ lỗ hổng Khác với các hệ thống đánh giá khác chỉ tập trung vào các đặc tính cố hữu của lỗ hổng, EPSS sử dụng thông tin mới nhất từ các nguồn dữ liệu như hệ thống phát hiện xâm nhập và honeypot để cung cấp ước tính chính xác về khả năng bị khai thác (ROC AUC = 0.838) Hệ thống này được thiết kế để dễ dàng triển khai cho người dùng cuối và các nhà nghiên cứu mà không cần công cụ chuyên dụng, đồng thời có khả năng cập nhật linh hoạt khi có dữ liệu mới, thể hiện sự mở rộng và độ tin cậy của mô hình.

EPSS cung cấp đánh giá gan thời gian thực về các lỗ hổng công khai nhờ vào sự kết hợp của nhiều nguồn dữ liệu Để đạt được điều này, cần phát triển quan hệ đối tác với các nhà cung cấp dữ liệu và xây dựng cơ sở hạ tầng cho phép truy cập công khai vào các điểm số EPSS.

Top rated CVEs from the last ninety days

We selected the 48 highest rated CVEs published in the last 90 days They are shown here with the CVE and EPSS score.

CVE-2024-4577 CVE-2024-28995 CVE-2024-36412 CVE-2024-30851 CVE-2024-2389 CVE-2024-23692 96.7% 34.3% 4.8% 0.5% 0.3% 0.2%

CVE-2024-4040 CVE-2024-4610 CVE-2024-5084 CVE-2024-36837 CVE-2024-5274 CVE-2023-27363

HINH 2.5: Kết quả đánh giá các CVE trong 90 ngày gần nhất của hệ thống EPSS

Hinh|2.5 minh họa kết quả đánh giá khả năng khai thác của các CVE trong 90 ngày gần nhất tính từ 24/06/2024 Dựa trên kết quả này, chúng ta có thể xây dựng bộ dữ liệu cần thiết để cung cấp cho các sơ đồ mô hình hóa xâm nhập dữ liệu gần với thực tế nhất Qua đó, mô hình được huấn luyện có thể phản ánh chính xác hơn thực tế thay vì chỉ dựa vào các giả định có trước.

Trong mô hình mạng của nhóm tác giả, điểm số EPSS được sử dụng để đánh giá mức độ nguy hiểm của các lỗ hổng trên các nút mạng, giúp đưa ra quyết định về việc triển khai tài nguyên đánh lừa như honeypot và tài nguyên giả Những tài nguyên này nhằm làm sao lãng kẻ tấn công khỏi các tài nguyên quan trọng thực sự Việc tích hợp điểm số EPSS vào quy trình bảo mật cho phép nhóm tập trung vào những lỗ hổng có khả năng bị khai thác cao nhất, từ đó giảm thiểu rủi ro tấn công.

Sơ đồ mô hình hóa xâm nhập|

Nhóm tác giả đã áp dụng phương pháp mô hình hóa dựa trên đồ thị để mô tả hiệu quả quá trình xâm nhập của kẻ tấn công vào mạng mục tiêu Phương pháp này giúp trực quan hóa cấu trúc mạng và các đường tấn công tiềm năng, đồng thời cung cấp cơ sở để triển khai tài nguyên lừa dối một cách chiến lược.

2.5.1 Sơ đồ mô hình hóa xâm nhập theo cau trúc mạng

Trong nghiên cứu này, nhóm tác giả đã sử dụng Sơ đồ mô hình hóa xâm nhập theo cấu trúc mạng (NTPG) để mô tả mạng mục tiêu và các đường tấn công tiềm năng NTPG, thuộc mô hình hai lớp Sơ đồ mô hình hóa xâm nhập (TPG), được lựa chọn do tính đơn giản và hiệu quả trong việc biểu diễn mạng mục tiêu.

Hình dưới đây minh họa sơ đồ mô hình hóa xâm nhập theo cấu trúc mạng từ một nghiên cứu trước của nhóm tác giả Mạng mục tiêu được thể hiện trong hình bao gồm nhiều thành phần quan trọng.

Bảy mục tiêu khả thi để thiết lập tài nguyên honeypot bao gồm việc xác định các trọng số có thể khai thác UP và RP, được thể hiện rõ ràng giữa các luồng di chuyển của mô hình.

HINH 2.6: Hình minh họa cho sơ đồ mô hình hóa xâm nhập theo cau trúc mạng

NTPG là một đồ thị có hướng được ký hiệu là GNTPG = (NNTpG, Entec), trong đó NnTpo là tập hợp các nút, mỗi nút biểu thị cho một máy chủ trong mạng mục tiêu, và mỗi nút được gán một địa chỉ IP tương ứng với máy chủ đó.

Chương 2 COSO LY THUYẾT ¢ Enrpo là tập hợp các cạnh, mỗi cạnh biểu thị khả năng kẻ tấn công có thể đi chuyển từ một nút sang nút khác và đạt được quyền truy cập.

Trong Eyrpg, mỗi cạnh được đại diện bởi một cặp giá trị (UP, RP), với UP (User Privilege) thể hiện xác suất kẻ tấn công có thể đạt được quyền truy cập người dùng trên nút đích, và RP (Root Privilege) chỉ ra xác suất kẻ tấn công có thể đạt được quyền truy cập root trên nút đích.

Cả UP và RP đều là các số thực nằm trong khoảng từ 0 đến 1, thể hiện mức độ khó khăn trong việc xâm nhập và nâng cao đặc quyền trên từng máy chủ.

NTPG cung cấp cái nhìn tổng quan về mối quan hệ xâm nhập giữa các cặp nút trong mạng mục tiêu, giúp xác định các đường tấn công tiềm năng và đánh giá tính dễ bị tổn thương của mạng một cách hiệu quả Ngoài ra, NTPG còn loại bỏ các vị trí triển khai không hợp lệ cho tài nguyên lừa dối, từ đó cải thiện đáng kể hiệu quả của thuật toán lựa chọn chính sách triển khai tối ưu.

So với các phương pháp truyền thống như Đồ thị tan công (Attack Graph - AG), NTPG có một số ưu điểm đáng kể:

1 Quá trình tạo đơn giản hơn, phù hợp cho các mạng quy mô lớn.

2 Khả năng mô tả các kết nối và đường tan công tiém năng, không chỉ giới hạn ở các lỗ hổng hiện có.

3 Hiệu ứng trực quan súc tích, giúp người bảo vệ dé dàng hiểu được trang thái bảo mật của mạng.

Trong bối cảnh học tăng cường, NTPG là yếu tố then chốt cho tác tử RL, cung cấp biểu diễn cấu trúc môi trường hoạt động Điều này cho phép tác tử học cách triển khai tài nguyên lừa đối một cách hiệu quả, dựa trên cấu trúc mạng và các đường tấn công tiềm năng.

Triển khaitinh|

Phương pháp triển khai tinh bao gồm các cách thức cố định trong việc cấu hình và sử dụng honeypot, nhằm thiết kế chiến thuật tối ưu để đánh lừa kẻ tấn công Thay vì dựa vào trạng thái của kẻ tấn công để dự đoán hành động, các phương pháp này tập trung vào việc tạo ra những tình huống giả mạo Các ví dụ điển hình của phương pháp này được thể hiện qua các tác giả nghiên cứu.

Chương 2 COSO LY THUYẾT dé xuất việc sử dụng đồ thị tan công lõi (Core Attack Graph) để tối ưu hóa kha năng bố trí honeypot, hoặc nghiên cứu [1] mô phỏng hệ thống mang ảo nhằm cung cấp thông tin sai lệch về cầu trúc mạng cho đối tượng tắn công, hoặc [6] và đề xuất các phương pháp triển khai dựa trên giả thuyết trò chơi Một số đặc điểm chính của phương pháp được phân loại theo triển khai tĩnh bao gồm:

1 Chiến thuật cố định: hầu hết những phương pháp triển khai trên đều có chính sách hoặc thuật toán cụ thể, dựa trên những mô phỏng hoặc giả định có trước để tính toán ra vị trí thiết lập tối ưu nhất.

Hệ thống phòng thủ thường ít tương tác với kẻ tấn công vì chúng dựa vào các giả định có sẵn để thực hiện tính toán Điều này dẫn đến việc các hệ thống không trực tiếp xem xét trạng thái và khả năng của kẻ tấn công, mà chỉ bố trí dựa trên kết quả của thuật toán.

Triển khai động| .Ặ.ẶẶẶẶẶ eee 27

Phương pháp triển khai động cho phép honeypot thích ứng linh hoạt với các tình huống thay đổi trong môi trường mạng Các mô hình này thường kết hợp đặc điểm của chiến thuật phòng thủ thông qua dịch chuyển mục tiêu (Moving Target Defense), nhằm thay đổi bề mặt tấn công của hệ thống liên tục để làm rối kẻ tấn công Nhiều nghiên cứu nổi bật đã chỉ ra hiệu quả của việc thay đổi địa chỉ IP trong hệ thống theo thời gian hoặc ngẫu nhiên hóa địa chỉ IP sau khi triển khai honeypot Hệ thống quản lý honeypot cũng đóng vai trò quan trọng trong việc tối ưu hóa khả năng phòng thủ.

Nghiên cứu của Mengmeng et al đề xuất triển khai hệ thống honeypot động trên các hệ thống honeynet, kết hợp các kỹ thuật đánh lừa và MTD trong môi trường bệnh viện thông minh Các phương pháp này tạo ra một mạng lưới mục tiêu liên tục biến đổi, làm khó khăn cho kẻ tấn công trong việc nắm bắt cách thức bố trí các mục tiêu giả mạo Tuy nhiên, hầu hết các phương pháp hiện tại chỉ tập trung vào việc ngăn chặn kẻ tấn công tiếp cận hệ thống thực, trong khi các đặc tính động thường chỉ thể hiện ở mức cấu hình, và giả định về chiến thuật của kẻ tấn công thường quá lý tưởng và không thực tế.

Chương 2 COSO LY THUYẾT các công cu phan honeypot dựa trên hoc máy, các thuật toán động của các hệ thống honeypot này có thể dé dàng bi phát hiện và qua mặt.

Triển khai dựa trên học tăng cường|

Triển khai honeypot dựa trên học tăng cường mang lại nhiều lợi ích vượt trội, bao gồm khả năng học hỏi và cải thiện theo thời gian Với sự phát triển mạnh mẽ của lĩnh vực học máy, nhiều mô hình nghiên cứu đã được đề xuất để tối ưu hóa phân bổ tài nguyên honeypot trong mạng Một nghiên cứu đáng chú ý là của P Radoglou-Grammatikis et al., trong đó bài toán triển khai honeypot được chuyển đổi thành bài toán Multi-Armed Bandit (MAB) nhằm xác định số lượng honeypot tối ưu Thêm vào đó, các phương pháp như eGreedy và QLearning đã được áp dụng để xác định số lượng honeypot cần triển khai, cho thấy mô hình e-greedy đạt độ chính xác cao hơn so với lựa chọn ngẫu nhiên dựa trên các sự kiện an ninh ghi nhận từ hệ thống cảnh báo.

S.Wang et al thực hiện sàng lọc vị trí đặt tài nguyên đánh lừa hiệu quả thông qua sơ đồ xâm nhập TPG và tìm ra chiến thuật triển khai hiệu quả nhất thông qua thuật toán Q-learning cùng mô hình không nêu rõ cho thấy tỉ lệ phòng thủ thành công của mô hình được chọn đạt đến gần 80% dựa trên chính sách phòng thủ động theo cảnh báo của NMS Ngoài ra, độ hiệu quả của thuật toán Q-learning được sử dụng cũng tăng lên gần 80% khi số bước huấn luyện tăng cao trên 2000 bước Mô hình triển khai của bài báo được minh họa theo hình 2 dưới đây, trong đó, người phòng thủ sẽ triển khai các tài nguyên đánh lừa lên mạng mục tiêu, nhận cảnh báo từ NMS và tự học để đưa ra quyết định tối ưu hơn.

ANWAR và cộng sự [2] đã đề xuất một mô hình hóa tiếp cận triển khai bẫy dưới dạng trò chơi hai người chơi với phần thưởng tương đương, trong bối cảnh không chắc chắn giữa người bảo vệ và đối thủ Mô hình này được chia thành hai phần: phòng thủ chủ động, sử dụng lý thuyết trò chơi để xác định vị trí tối ưu ban đầu cho honeypot, và phòng thủ thụ động, điều chỉnh vị trí honeypot dựa trên các cảnh báo nhận được.

IDS, sử dụng mô hình Partially Observable Markov Decision Processes (POMDP)

Chương 2 COSO LY THUYẾT để dự đoán hành động khi người phòng thủ chi có thể thấy một phan hành động của đối phương Ngoài ra, nghiên cứu còn ứng dụng thuật toán Monte-Carlo Tree Search (MCTS) với tầm nhìn hạn chế (POMCP) nhằm khám phá không gian hành động và xác định hành động tối ưu nhất cho người phòng thủ trên framework POMDP + GT Kết quả thu được cho thấy đối với phòng thủ chủ động, với mô hình 50 node, thuật toán được dé xuất cho kết quả tốt hơn đến 48% so với thuật toán ngẫu nhiên và 45% so với thuật toán tham lam Đối với phòng thủ bị động, phương pháp được đề xuất cho kết quả vượt trội hơn so với chiến thuật bồ trí ngẫu nhiên trên môi trường mạng 30 nodes, cho thấy hiệu quả trên môi trường mạng lớn hơn.

Các nghiên cứu đã chỉ ra tiềm năng của các mô hình học tăng cường trong triển khai hệ thống honeypot, nhưng vẫn tồn tại nhiều hạn chế, như sự phụ thuộc vào độ tin cậy của hệ thống NMS và khả năng mở rộng của mô hình Việc tiếp nhận trạng thái chủ yếu dựa vào quan sát từng node, thiếu cái nhìn tổng quan về toàn bộ hệ thống Nghiên cứu này sẽ giới thiệu mô hình học máy bồ trí tài nguyên đánh lừa, trong đó agent triển khai tài nguyên đánh lừa để bảo vệ mạng Mỗi tương tác của agent sẽ làm thay đổi môi trường, từ đó nhận thưởng và trạng thái tiếp theo Đặc biệt, agent sẽ được cung cấp sơ đồ cấu trúc mạng và các giá trị EPSS dưới dạng ma trận, giúp ghi nhận trạng thái tấn công và cấu trúc mạng tổng thể, từ đó đưa ra quyết định bảo vệ tài nguyên hiệu quả hơn Cuối cùng, nhóm tác giả sẽ so sánh hiệu năng của các mô hình và đề xuất hướng phát triển trong tương lai.

Trong chương này, nhóm tác giả sẽ mô tả kiến trúc và cách hoạt động của hệ thống triển khai các tài nguyên honeypot Họ sẽ trình bày chi tiết về phương pháp xây dựng hệ thống dựa trên các giả định đã được đặt ra về môi trường mạng mục tiêu.

Kiến trúc tổng quát|_ co 30

Để nâng cao hiệu quả phân bổ honeypot trong phòng thủ mạng, cần áp dụng một phương pháp linh động hơn Nghiên cứu cho thấy thuật toán hiện tại có thời gian huấn luyện cao và chưa tối ưu khi thử nghiệm trên mạng lớn Nhóm nghiên cứu đã cải thiện điều này bằng cách sử dụng học sâu tăng cường (Deep Q Learning) để dự đoán giá trị Q, giúp rút ngắn thời gian huấn luyện Để mở rộng khả năng phán đoán, nhóm sẽ bổ sung hai đầu vào mới cho thuật toán Double Deep Q-Network, cho phép mô hình phân tách không gian mạng lớn thành các phần nhỏ hơn, tập trung vào vị trí xung quanh kẻ tấn công, từ đó tăng tốc quá trình huấn luyện và tối ưu hóa việc phân bổ tài nguyên đánh lừa.

Chương 3 PHƯƠNG PHÁP THỤC HIỆN

Mô-đun phân bổ honeypot

Hệ thống giám sát mạng

Nghiên cứu của nhóm tác giả tập trung vào việc mô hình hóa sơ đồ Network Threat Penetration Graph và các giá trị EPSS, biến chúng thành ma trận để phân tích Phân tích này được thực hiện dựa trên hệ thống mạng neuron tích chập một chiều (Convolutional Neuron Network 1D), nhằm thu hẹp không gian dự đoán cho trạng thái quan sát Các giá trị này hỗ trợ mạng neuron trong việc phân tích hành động của không gian quan sát và trải qua các lớp neuron ẩn để đưa ra kết quả dự đoán cuối cùng.

Sơ đồ 1 mô tả phương pháp đặt honeypot động của nhóm tác giả, trong đó mô hình máy học nhận ma trận trạng thái từ hệ thống giám sát mạng và cung cấp ma trận vị trí cho mô-đun phân bổ honeypot Nhóm tác giả kế thừa và thực hiện mô hình thành ba thành phần chính: mô hình máy học, hệ thống giám sát mạng và mô-đun phân bổ honeypot Khi kẻ tấn công thực hiện lệnh chiếm node, hệ thống giám sát mạng sẽ tạo cảnh báo và gửi ma trận trạng thái đến mô hình máy học để xử lý.

Chương 3 PHƯƠNG PHÁP THỤC HIỆN thông tin mà hệ thống giám sát mạng cung cấp sẽ phân tích và đưa ra dự đoán về vị trí đặt honeypot lý tưởng Những dự đoán này sẽ được đưa để mô-đun phân bổ honeypot và nó sẽ đổi vị trí honeypot đến các ví trí đó.

Phương pháp xây dựng|

Nhóm tác giả đã phát triển một môi trường mô phỏng hệ thống mạng thực tế nhằm xây dựng mô hình máy học tăng cường hiệu quả Mô hình này có khả năng học tập thông qua việc khám phá, thử nghiệm các hành động và ghi nhớ kết quả.

3.2.1 Môi trường học tang cường

Môi trường học tăng cường được thiết kế mô phỏng lại hệ thống mạng mục tiêu cùng những tài nguyên khác nhau bao gồm:

1 Tài nguyên thông thường: đây là những node chứa tài nguyên không quan trọng, tuy nhiên có thể bị kẻ tan công chiếm lay và sử dụng làm bàn đạp nhằm tấn công các tài nguyên khác trong hệ thống.

2 Tài nguyên quan trọng: đây là mục tiêu duy nhất trong mạng chứa tài nguyên quan trọng mà kẻ tan công, thông qua các phương pháp thu thập dt liệu đã xác định được nhưng chưa thé tan công trực tiếp Day là mục tiêu mà người phòng thủ cần bảo vệ.

3 Tài nguyên đánh lừa: đây là những tài nguyên mỗi nhử (honeypot), được thiết kế với cấu trúc tương tự như tài nguyên quan trọng, tuy nhiên chứa những dữ liệu giả mạo và không có giá trị sử dụng trên thực tế Nhiệm vụ của người phòng thủ là tận dụng tốt số lượng tài nguyên môi nhử, thông thường là có hạn do giới hạn của hệ thống, để bồ trí sao cho khả năng kẻ tân công mắc vào là cao nhất.

Trong bài toán phân bổ vị trí thiết lập tài nguyên đánh lừa, kẻ tấn công có thể được xem như một phần của môi trường thay vì một thực thể riêng biệt Điều này giúp đơn giản hóa quá trình huấn luyện và cho phép tác tử di chuyển theo từng bước thời gian của môi trường Mặc dù phương pháp này giúp tăng tốc quá trình huấn luyện, nhưng nó không phản ánh được sự đa dạng của các phương án tấn công thực tế.

Trong quá trình huấn luyện, nhóm tác giả đã phát triển một thuật toán tấn công cơ bản nhằm mô phỏng hành vi của kẻ tấn công trong việc khám phá và khai thác các mục tiêu mạng, cho đến khi chiếm được vị trí chứa tài nguyên quan trọng Thuật toán này dựa trên các giá trị đánh giá khả năng xâm nhập và mô phỏng độ sai lệch trong phát hiện của hệ thống NMS, từ đó đưa ra phương án tấn công và trạng thái quan sát tương ứng Thiết kế này cho phép tái hiện độ sai lệch đã nêu trong phần Báo động giả, giúp tác tử được huấn luyện trên dữ liệu thực tế hơn.

3.2.2 Xây dung mô hình học máy

Trạng thái quan sát được

Trong bối cảnh phân bổ vị trí thiết lập tài nguyên đánh lừa, trạng thái quan sát được (S) phản ánh tình hình bảo mật tổng thể của mạng mục tiêu, cung cấp thông tin chi tiết về hoạt động của kẻ tấn công và mức độ an toàn của mạng Nghiên cứu này nhằm đánh giá khả năng thích ứng của mô hình học máy trong môi trường không chắc chắn của hệ thống giám sát mạng NMS Trong quá trình huấn luyện, nhóm tác giả đã chia trạng thái cảnh báo từ NMS thành hai loại: một loại đại diện cho di chuyển thực tế của kẻ tấn công trong hệ thống mạng, và loại còn lại đại diện cho trạng thái cảnh báo mà NMS gửi cho tác tử, loại này sẽ được sử dụng làm đầu vào cho tác tử.

Trạng thái xâm nhập mạng

Trạng thái xâm nhập mạng, hay còn gọi là trạng thái cảnh báo mạng, phản ánh tình trạng bị tấn công của các node trong mạng Đây là một mảng nhị phân một chiều với hai giá trị: 0 biểu thị chưa bị xâm nhập và 1 biểu thị đã bị xâm nhập Ví dụ, trong mạng mục tiêu, các tài nguyên chưa bị chiếm giữ được thể hiện bằng ô trắng, trong khi các tài nguyên đã bị chiếm giữ được thể hiện bằng ô đỏ Kẻ tấn công thực hiện tấn công vào tài nguyên thứ 5, trong khi hệ thống giám sát mạng theo dõi tình hình này.

Trạng thái cảnh báo mạng

: Tài nguyên chưa bị xâm chiếm : Tài nguyên đã bị xâm chiếm

Hình 3.2 minh họa cách ghi nhận trạng thái cảnh báo mạng, ví dụ như Snort, sẽ ghi lại cuộc tấn công này Dựa trên bản ghi của Snort, trạng thái cảnh báo mạng sẽ thay đổi từ 0 thành 1 tại vị trí thứ 5 trong mảng.

Giá trị ot thể hiện việc có hay không cảnh báo được tạo ra cho tài nguyên Nj tại thời điểm t Khi một cảnh báo được tạo ra cho tài nguyên Nj trong mạng mục tiêu, điều này cho thấy có hành vi xâm nhập hoặc hoạt động đáng ngờ trên tài nguyên đó, và chúng ta gán giá trị 1 cho ot Ngược lại, nếu không có cảnh báo nào được tạo ra cho tài nguyên cụ thể tại thời điểm t, chúng ta sẽ gán cho ot giá trị 0.

Trạng thái xâm nhập mạng được thể hiện qua phương trình 5.1, trong đó St = (01, 0Ẻ, ot) mô tả cách tổng hợp các cảnh báo riêng lẻ tại từng vị trí n thành một trạng thái quan sát toàn diện Điều này có nghĩa là nếu NMS phát hiện cảnh báo xâm nhập tại thời điểm t nào đó trong hệ thống, thì giá trị o! sẽ được đặt là 1.

* Nếu NMS không phát ra bất kỳ cảnh báo nào về nj thì đặt of = 0.

Kích thước không gian trạng thái an ninh mạng được xác định bởi k tài nguyên có sẵn trong mạng mục tiêu Các trạng thái cuối cùng có thể là sản phẩm AL hoặc SP của bên phòng thủ, nhằm ngăn chặn hoặc bẫy các nỗ lực tấn công thành công, tùy thuộc vào chính sách triển khai.

Chương 3 PHƯƠNG PHÁP THỤC HIỆN không Trạng thái xâm nhập mạng này là cơ sở để phát triển trạng thái xâm nhập mạng thực Strue và trạng thái cảnh báo xâm nhập đến từ NMS Sqlert trong quá trình huấn luyện tác tử.

Trạng thái xâm nhập thực tế của môi trường được xác định thông qua quá trình mô phỏng huấn luyện, trong đó trạng thái này được tạo ra độc lập với cảnh báo từ hệ thống giám sát mạng (NMS) Trạng thái này đóng vai trò là cơ sở để tính toán các sai số mà hệ thống NMS có thể tạo ra khi hoạt động thực tế Trong quá trình suy luận, nhóm tác giả sử dụng trực tiếp cảnh báo từ hệ thống NMS thực tế làm trạng thái xâm nhập mạng, với giả định rằng trạng thái này đã bao gồm các sai số có sẵn của các hệ thống NMS đang được sử dụng.

Trạng thái cảnh báo nhận được từ hệ thống NMS

Các công cụ giám sát mạng thường gặp phải sai số trong quá trình giám sát, bao gồm tỉ lệ dương tính giả (FPR) và tỉ lệ âm tính giả (FNR) Để cải thiện độ chính xác, nhóm tác giả đã mô phỏng lại các sai số này trong quá trình huấn luyện Các tỉ lệ sai số sẽ được tích hợp vào mã tấn công mô phỏng và lưu lại dưới dạng trạng thái cảnh báo từ NMS, nhằm tách biệt với trạng thái thực tế để huấn luyện mô hình hiệu quả hơn.

Công thức tính sai số của NMS và tích hợp vào thuật toán tấn công được định nghĩa theo sơ đỏ |3.3|

1 Tính toán các tỷ lệ chính xác và sai số

Kịch bản thực nghiệm|

Mô hình thí nghiệm chúng xây dựng dựa trên 2 kịch bản chính.

Nhóm tác giả đã phát triển một mô hình hoàn toàn giả lập trong môi trường code, cho phép mở rộng quy mô mạng và đo lường kết quả trong điều kiện lý tưởng Hệ thống và mô hình máy học được xây dựng chủ yếu bằng ngôn ngữ Python 3.8.10 trên nền tảng Linux.

(2) Kịch bản thứ hai, nhóm tác giả xây dựng một môi trường mạng mục tiêu gồm

10 node được mô phỏng trên môi trường ảo hóa KVM chạy trên hệ điều hành Ubuntu 22.04 với câu hình RAM là 48GB và tổng dung lượng 200GB.

Chương 4 HIỆN THUC, ĐÁNH GIA VÀ THẢO LUẬN

4.1.1 Tiêu chí lựa chọn số lượng và vị trí đặt tài nguyên honeypot trong thực nghiệm

Trong quá trình triển khai hệ thống phòng thủ mạng với honeypot, việc lựa chọn số lượng và vị trí đặt honeypot là rất quan trọng để đảm bảo tác nhân học tăng cường hoạt động hiệu quả Các tiêu chí dưới đây sẽ được áp dụng để tối ưu hóa dự đoán trong mô hình mạng.

Việc chọn số lượng honeypot tối thiểu trong huấn luyện và thực nghiệm (trong nghiên cứu này là 2) giúp tối ưu hóa vị trí đặt honeypot hiệu quả Sử dụng chỉ một honeypot có thể dẫn đến overfitting và kết quả không chính xác do phải thay đổi vị trí liên tục để theo dõi kẻ tấn công Số lượng honeypot ít cũng giảm chi phí triển khai và quản lý, đồng thời tối ưu hóa tài nguyên honeypot, cho phép mô hình đưa ra dự đoán nhỏ nhưng tối ưu, tương thích với việc gia tăng tài nguyên honeypot sẵn có.

Vị trí của honeypot được xác định dựa trên ma trận trạng thái của hệ thống giám sát mạng, phản ánh tình hình hiện tại của các node trong mạng.

Mô hình máy học sẽ phân tích ma trận để xác định vị trí tối ưu cho honeypot, nhằm phản ứng với các mối đe dọa từ nhiều hướng trong mạng Các honeypot được đặt ở những vị trí có khả năng mô phỏng môi trường giả mạo hấp dẫn, tăng cường khả năng tương tác của kẻ tấn công Cuối cùng, tài nguyên honeypot cần được tích hợp vào kiến trúc mạng hiện tại mà không gây gián đoạn hay khó khăn trong quản lý.

Chương 4 HIỆN THUC, ĐÁNH GIA VÀ THẢO LUẬN

Trong quá trình huấn luyện mô hình máy học, việc sử dụng số lượng honeypot tối thiểu nhưng hiệu quả giúp hệ thống học tập và thích nghi tốt hơn với các kịch bản tấn công khác nhau Điều này không chỉ đảm bảo mô hình bảo vệ mạng hiệu quả mà còn tối ưu hóa việc sử dụng tài nguyên và giảm thiểu chi phí triển khai.

Hệ thống mô phỏng bao gồm một mạng mục tiêu giả định với 40 node, đại diện cho các máy chủ có khả năng bị tấn công Những máy chủ này có thể được sử dụng như một vị trí thiết lập tài nguyên đánh lừa honeypot, được tạo ra ngẫu nhiên để nâng cao khả năng bảo mật mạng.

Trong nghiên cứu này, 300 CVE được chọn ngẫu nhiên từ tập dataset CVE với trạng thái Đầu vào, chủ yếu bao gồm các lỗ hổng từ năm 1999 đến 2004 do Mitre công bố Mỗi mục tiêu có ít nhất 2 và nhiều nhất 5 lỗ hổng, đảm bảo rằng tất cả các mục tiêu đều có ít nhất hai kết nối hướng đến mình Một vị trí ngẫu nhiên cố định sẽ được chọn làm tài nguyên quan trọng cần bảo vệ trong suốt quá trình huấn luyện Mô hình cho phép bố trí tối đa hai tài nguyên đánh lừa honeypot trong hệ thống, với thông tin mô hình mạng được liệt kê ở phần 4.1.

Số vi trí có thể dat honeypot 40

Số tài nguyên honeypot có thể bé trí 2

Tổng số bước được ghi nhận 30000

BẢNG 4-1: Thông số mô hình thử nghiệm của kịch bản 1

Mô phỏng tấn công trong quá trình huấn luyện

Nhóm tác giả đã áp dụng một thuật toán ngẫu nhiên lựa chọn dựa trên trọng số để mô phỏng lại luồng tấn công trong quá trình huấn luyện tác tử, với trọng số được xác định dựa trên các yếu tố cụ thể.

Chương 4 HIỆN THUC, ĐÁNH GIA VÀ THẢO LUẬN trên trung bình các xác suất có thể bị khai thác của các lỗ hổng trên những tài nguyên kế cận với tài nguyên đang được xét tại thời điểm hiện tại Thuật toán này có thể được biểu diễn như sau:

Giả sử rằng tài nguyên hiện tại là C Tập hợp các tài nguyên lân cận với tài nguyên

C được ký hiệu là {N1, N2, , Nx}, với k là số lượng tài nguyên lân cận Mỗi tài nguyên lân cận Nj có xác suất bị khai thác Pyuii(Nj) và Pyvui2(Nj), thể hiện xác suất khai thác của hai lỗ hổng khác nhau Trọng số W của tài nguyên Nj được tính toán dựa trên các xác suất này.

Pyuta (Ni) + Pvut2(Ni) + + Pvuik

Ni. se k: Tổng số lỗ hổng bao mật có trên tài nguyên N;

Quá trình lựa chọn tài nguyên tiếp theo Nnext dựa trên trọng số W¡ của từng tài nguyên lân cận N, sử dụng phương pháp chọn ngẫu nhiên có trọng số Với k là số lượng phần tử được chọn từ tập hợp các tài nguyên lân cận Nj theo trọng số Wi, chúng ta chỉ lựa chọn một tài nguyên lân cận kế tiếp.

Phương pháp chọn ngẫu nhiên có trọng số đảm bảo rằng tài nguyên Nj có xác suất được chọn là W¡, giúp mô phỏng hành vi của tác tử tấn công Các lỗ hổng có xác suất bị khai thác cao hơn sẽ có khả năng bị tấn công nhiều hơn Để đánh giá độ chính xác của mô hình, tỉ lệ phòng thủ thành công được tính dựa trên số lần phòng thủ thành công so với tổng số lần thử nghiệm cho mỗi thuật toán pg.

Chương 4 HIỆN THUC, ĐÁNH GIA VÀ THẢO LUẬN trên tổng số lần thực hiện đánh giá, với công thức như sau: suma pa= * 100% (4.3) numg

SuMg đại diện cho số lần phòng thủ thành công trong quá trình đánh giá, trong khi NUMg biểu thị tổng số lần thực hiện đánh giá Đánh giá sẽ được thực hiện định kỳ tại các mốc huấn luyện cụ thể.

Mô hình hệ thống máy được thiết kế với 10 node, tất cả lưu lượng mạng đều phải đi qua một Firewall, không được tính là node trong hệ thống Firewall không chỉ bảo vệ mà còn hoạt động như một hệ thống giám sát mạng, phát hiện và tạo cảnh báo khi có dấu hiệu tấn công Thông tin chi tiết được liệt kê trong bảng.

Tiêu đề	Khóa luận tốt nghiệp An toàn thông tin: Một hướng tiếp cận dựa trên học tập tăng cường cho chính sách phân bổ Honeypot thông minh trong chiến lược đánh lừa mạng
Tác giả	Nguyen Xuan Truong, Do Minh Khoi
Người hướng dẫn	ThS. Tran Thi Dung, ThS. Do Hoang Hien
Trường học	Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành	An toàn thông tin
Thể loại	khóa luận tốt nghiệp
Năm xuất bản	2024
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	85
Dung lượng	93,36 MB