Khóa luận tốt nghiệp An toàn thông tin: Phương pháp dựa trên học sâu để phát hiện và giảm thiểu các hành vi bất thường trong các hệ thống API Gateway Cloud-Native

Tổng quan nội dung đề tài Với sự phát triển của khoa học và công nghệ, việc tiếp cận với môi trường Cloud và đặc biệt là Cloud Native dan trở nên phố biến và dan là một môi trường phù hợ

XSS ar LP @đ.% ìì ii

Tấn công Cross-Site Scripting (XSS) là một phương pháp khai thác lỗ hổng bảo mật phổ biến, cho phép kẻ tấn công chèn mã độc hại, thường là JavaScript, vào các ứng dụng web Khi người dùng truy cập vào trang web bị nhiễm, trình duyệt của họ sẽ vô tình thực thi mã độc này, dẫn đến những hậu quả nghiêm trọng.

Các hình thức tấn công XSS:

XSS phản chiếu (Reflected XSS) xảy ra khi kẻ tấn công gửi mã độc qua URL hoặc biểu mẫu nhập liệu Khi nạn nhân nhấp vào liên kết độc hại hoặc gửi biểu mẫu, mã độc sẽ được máy chủ phản hồi và hiển thị trên trình duyệt của họ.

XSS lưu trữ (Stored XSS) là loại tấn công mà mã độc được lưu trữ trực tiếp trên máy chủ, chẳng hạn như trong cơ sở dữ liệu Khi người dùng truy cập vào trang web, mã độc này sẽ được tải cùng với nội dung trang và thực thi trên trình duyệt của họ.

XSS dựa trên DOM (DOM-based XSS): Kẻ tan công khai thác lỗ hồng trong cách trình duyệt xử ly DOM dé chèn và thực thi mã độc.

Dấu hiệu đặc trưng của tan công Cross-Site Scripting (XSS):

Các đoạn mã JavaScript lạ có thể xuất hiện trên trang web, thường không thuộc về nội dung bình thường của trang Những mã này có thể được chèn vào thông qua các lỗ hổng XSS.

Nội dung trang web có thể bị thay đổi bất thường, bao gồm sự xuất hiện của các cửa sổ popup không mong muốn, các liên kết lạ và nội dung không giống như dự kiến.

Kẻ tấn công có thể lợi dụng lỗ hổng XSS để chuyển hướng người dùng đến các trang web độc hại hoặc chứa nội dung không phù hợp, gây nguy hiểm cho thông tin cá nhân và trải nghiệm trực tuyến của họ.

Các yêu cầu bất thường: Các yêu cầu chứa các ký tự đặc biệt hoặc mã JavaScript có thé là dau hiệu của một cuộc tan công XSS.

Các lỗi liên quan đến XSS: Các ứng dụng web thường ghi lại các lỗi liên quan đến XSS trong nhật ký của chúng.

Trên trình duyệt của người dùng:

Một số trình duyệt sẽ hiển thị cảnh báo bảo mật khi phát hiện các cuộc tấn công XSS tiềm ẩn Nếu trang web có hành vi bất thường hoặc hiển thị nội dung không mong muốn, có thể đó là dấu hiệu của một cuộc tấn công XSS.

Các thông báo lỗi không thường xuất hiện trên trang web có thể là dấu hiệu cho thấy người dùng đã nhập dữ liệu không hợp lệ Nếu URL của trang web chứa các ký tự lạ hoặc tham số không bình thường, điều này có thể cho thấy kẻ tấn công đang cố gắng chèn mã độc hại Ngoài ra, việc hiển thị thông tin cá nhân của người dùng, như tên và email, mà họ không nhớ đã cung cấp, có thể là kết quả của tấn công XSS, cho phép kẻ tấn công đánh cắp và hiển thị thông tin nhạy cảm XSS có thể gây ra nhiều ảnh hưởng tiêu cực đến các ứng dụng trong môi trường cloud.

Môi trường cloud, nhờ vào tính năng chia sẻ tài nguyên và khả năng truy cập từ xa, có thể bị tổn thương trước các cuộc tấn công XSS Những tác động cụ thể bao gồm việc kẻ tấn công có khả năng đánh cắp thông tin nhạy cảm như cookie phiên làm việc, thông tin đăng nhập và các dữ liệu cá nhân khác của người dùng.

Kẻ tấn công có thể thay đổi nội dung trang web để hiển thị thông tin giả mạo, hướng dẫn người dùng truy cập vào các trang web độc hại, hoặc thực hiện các hành vi phá hoại khác.

Kẻ tấn công có thể sử dụng lỗ hổng XSS để lây lan mã độc sang người dùng khác, dẫn đến các cuộc tấn công quy mô lớn.

Tan công chuỗi cung ứng: Kẻ tan công có thể nhắm vào các nhà cung cấp dịch vụ cloud đê tân công nhiêu khách hàng cùng lúc.

Các cuộc tấn công XSS có thể gây ra tổn thất tài chính nghiêm trọng, làm suy giảm lòng tin của khách hàng và ảnh hưởng xấu đến uy tín của doanh nghiệp.

Ảnh hưởng đến server, application . -¿ s+2cs++cx++zx+zsse2 20 1 AGH xem ee ee 20 , 2N uUa) nn na

LOG FOrging - cty 23 2.2.3 Ảnh hưởng đến dữ liệu 2-2 ++2E+2E2EEtEEEEEErkerrkrrkrree 25 2.2.3.1 SQLÍ Ăn HH HH TH 25

Log Forging, hay còn gọi là Log Injection, là một kỹ thuật tấn công mà kẻ xấu cố gắng đưa dữ liệu giả mạo hoặc độc hại vào nhật ký của ứng dụng Mục tiêu chính của phương thức này là thao túng dữ liệu nhật ký nhằm che giấu các hoạt động bất chính, gây khó khăn cho quá trình điều tra sự cố, hoặc thực thi mã độc hại.

Cơ chế tấn công Log Forging:

Kẻ tấn công thường lợi dụng lỗ hổng trong ứng dụng, nơi dữ liệu người dùng không được kiểm tra và làm sạch đúng cách trước khi ghi vào nhật ký Họ có thể chèn ký tự đặc biệt hoặc chuỗi mã để thao túng định dạng nhật ký, tạo ra các mục nhập giả mạo hoặc thay đổi nội dung của các mục nhập hiện có.

Dấu hiệu đặc trưng của Log Forging:

Trong nhật ký (log), có thể xuất hiện các mục nhật ký bất thường, chẳng hạn như việc người dùng truy cập vào tài nguyên mà họ không có quyền hạn, thực hiện các hành động không mong muốn hoặc thiếu thông tin cần thiết Ngoài ra, kẻ tấn công có thể chèn ký tự đặc biệt hoặc mã độc hại vào nhật ký để thao túng dữ liệu hoặc thực thi mã độc, gây ra nguy cơ cho hệ thống.

Các ký tự điều khiển như ký tự xuống dòng và tab có thể được sử dụng để thay đổi định dạng nhật ký Ngoài ra, các chuỗi mã như JavaScript và SQL thường được sử dụng để thực thi mã độc hại Một vấn đề phổ biến là sự không khớp giữa nhật ký và dữ liệu thực tế, chẳng hạn như số lượng yêu cầu trong nhật ký truy cập web không khớp với số lượng yêu cầu được ghi lại bởi hệ thống giám sát.

Các dấu hiệu của Log Forging bao gồm hành vi bất thường của ứng dụng hoặc hệ thống Nếu bạn nhận thấy ứng dụng hoặc hệ thống hoạt động không bình thường sau khi xuất hiện các mục nhật ký đáng ngờ, đây có thể là một chỉ báo rõ ràng cho sự tồn tại của Log Forging.

Hệ thống phát hiện xâm nhập (IDS) và hệ thống ngăn ngừa xâm nhập (IPS) đóng vai trò quan trọng trong việc cảnh báo về các cuộc tấn công mạng Chúng có khả năng phát hiện các mẫu tấn công, giúp bảo vệ hệ thống khỏi các mối đe dọa tiềm ẩn Việc sử dụng IDS và IPS là cần thiết để nâng cao mức độ an ninh cho hạ tầng công nghệ thông tin.

Log Forging và đưa ra cảnh báo. Ảnh hưởng của Log Forging đến ứng dụng môi trường cloud:

Trong môi trường điện toán đám mây, việc dữ liệu nhật ký được tập trung và lưu trữ trên các máy chủ từ xa khiến Log Forging trở thành một mối đe dọa nghiêm trọng, có thể dẫn đến nhiều hậu quả nghiêm trọng đối với bảo mật và tính toàn vẹn của hệ thống.

Kẻ gian thường che giấu dấu vết bằng cách xóa hoặc sửa đổi các mục nhập nhật ký, nhằm giấu diếm các hoạt động trái phép, điều này làm cho việc phát hiện và điều tra trở nên khó khăn hơn Hơn nữa, các mục nhập nhật ký giả mạo có thể gây nhiễu loạn hệ thống giám sát và cảnh báo, khiến quản trị viên khó nhận diện được các mối đe dọa thực sự.

Kẻ tấn công có thể chèn mã độc hại vào nhật ký, khai thác lỗ hổng trong ứng dụng phân tích nhật ký để thực thi mã độc này.

24 ô Mat uy tín và niềm tin: Các sự cố liên quan đến Log Forging có thể gây tổn hại đến uy tín của nhà cung cấp dịch vụ cloud và làm giảm niềm tin của khách hàng.

2.2.3 Anh hướng đến dữ liệu

Việc lưu trữ dữ liệu trên môi trường cloud ngày càng trở nên phổ biến, tuy nhiên, chỉ bảo vệ dữ liệu là chưa đủ Kẻ tấn công có thể thực hiện các hành động đánh cắp dữ liệu thông qua việc truy xuất vào các ứng dụng Một trong những cuộc tấn công nổi bật trong lĩnh vực này là tấn công SQL.

SQL Injection (SQLi) là một kỹ thuật tấn công mạng nghiêm trọng, cho phép kẻ tấn công khai thác lỗ hổng bảo mật trong các ứng dụng web để thực thi các câu lệnh SQL độc hại Kẻ tấn công có thể lợi dụng sự thiếu kiểm tra và lọc dữ liệu đầu vào từ người dùng, từ đó chèn các câu lệnh SQL độc hại vào các truy vấn gửi đến cơ sở dữ liệu.

Cơ chế tấn công SQL Injection:

Kẻ tấn công thường chèn ký tự hoặc chuỗi đặc biệt vào các trường nhập liệu của ứng dụng web như form đăng nhập, thanh tìm kiếm hoặc tham số URL Nếu ứng dụng không xử lý dữ liệu này đúng cách, chúng có thể bị kết hợp vào các câu lệnh SQL và thực thi trên cơ sở dữ liệu.

Trong nhật ký (log), các truy vấn SQL bất thường, bao gồm những truy vấn chứa ký tự đặc biệt hoặc cấu trúc không hợp lệ, có thể là dấu hiệu của một cuộc tấn công.

SQL Injection. ¢ Cac lỗi liên quan đến SQL: Cac ứng dung web thường ghi lai các lỗi liên quan đến SQL trong nhật ký của chúng.

Xuất hiện các ký tự lạ: e Các ký tự đặc biệt: ', ", ;, , /*, */ e Các từ khóa SQL: SELECT, INSERT, UPDATE, DELETE, UNION,

DROP e Các ham SQL: CONCAT, CHAR, SUBSTRING e Các cấu trúc điều khiển SQL: IF, ELSE, CASE

Các dấu hiệu khác bao gồm việc thay đổi dữ liệu bất thường trong cơ sở dữ liệu Nếu dữ liệu bị thay đổi hoặc mất mát một cách không giải thích được, có thể đây là dấu hiệu của một cuộc tấn công SQL.

Truy cập trái phép: Kẻ tan công có thé sử dung SQL Injection dé truy cập trái phép vào các tài nguyên của ứng dụng hoặc hệ thống.

Module Logit 8

Module này xử lý yêu cầu đăng nhập bằng cách xác thực thông tin và cấp mã thông báo truy cập Đây là module thường xuyên bị tấn công, dẫn đến việc đánh cắp tài khoản và thông tin đăng nhập.

(credential) như cookie hay session-key, api key đều diễn ra tại quá trình này.

Mô-đun xác thực người dùng là thành phần thiết yếu trong mọi ứng dụng yêu cầu đăng nhập Nó thực hiện việc xử lý yêu cầu đăng nhập, xác minh thông tin và cấp quyền truy cập cho người dùng hợp lệ Với tính nhạy cảm của thông tin đăng nhập và mã thông báo truy cập, mô-đun này thường trở thành mục tiêu chính của các cuộc tấn công mạng.

Xác thực là quá trình xác minh thông tin đăng nhập của người dùng, bao gồm tên người dùng, mật khẩu và mã OTP, bằng cách đối chiếu với dữ liệu lưu trữ trong cơ sở dữ liệu hoặc hệ thống xác thực bên ngoài như LDAP.

OAuth). o Sử dụng các thuật toán băm (hashing) mạnh mẽ dé lưu trữ mật khẩu một cách an toàn.

Để nâng cao bảo mật, cần triển khai các biện pháp như khóa tài khoản sau nhiều lần đăng nhập thất bại, yêu cầu người dùng đặt lại mật khẩu định kỳ và áp dụng xác thực hai yếu tố (2FA).

S Sau khi người dùng được xác thực, mô-đun phân quyền sẽ xác định các quyền và vai trò của người dùng trong ứng dụng.

Kiểm soát quyền truy cập của người dùng vào các tài nguyên và chức năng khác nhau trong ứng dụng dựa trên vai trò và quyền của họ.

Sử dụng các cơ chế phân quyền như RBAC (Quản lý truy cập dựa trên vai trò) hoặc ABAC (Quản lý truy cập dựa trên thuộc tính) giúp quản lý quyền truy cập một cách linh hoạt và hiệu quả.

3 Session Management (Quan lý phiên làm việc):

O Tao và quan lý các phiên làm việc cho người dùng đã đăng nhập thành công.

Cấp mã thông báo truy cập hoặc cookie phiên làm việc để xác định và theo dõi phiên làm việc của người dùng Để đảm bảo tính bảo mật, cần sử dụng các thuật toán mã hóa mạnh mẽ, thiết lập thời gian hết hạn hợp lý và áp dụng các biện pháp bảo vệ chống lại các cuộc tấn công như CSRF (Cross-Site Request Forgery).

Cho phép người dùng đăng xuất và hủy phiên lam việc một cách an toan.

Sử dụng HTTPS là rất quan trọng để đảm bảo rằng tất cả các giao tiếp giữa client và máy chủ đều được mã hóa, giúp bảo vệ thông tin đăng nhập và mã thông báo khỏi nguy cơ bị đánh cắp.

Xác thực và làm sạch tất cả dữ liệu đầu vào từ người dùng là rất quan trọng để ngăn chặn các cuộc tấn công như SQL Injection và Cross-Site Scripting (XSS).

Giới hạn tần suất đăng nhập là một biện pháp bảo mật quan trọng, giúp ngăn chặn các cuộc tấn công brute-force bằng cách giới hạn số lần đăng nhập không thành công từ một địa chỉ IP hoặc tài khoản trong một khoảng thời gian nhất định.

Logging và giám sát: Ghi lại tất cả các hoạt động đăng nhập và theo dõi các dấu hiệu bat thường dé phát hiện sớm các cuộc tan công.

Machine learning mOdUẽ€ - - c6 2+ E113 E*EEESkEkkskkreerkrekkee 36 1 Text based classify Model - cv Hit 36 2 N00 36 3 ALBERT BASE Model - + c St stress 39

Module phát hiện là yếu tố quan trọng trong việc nhận diện các hành vi bất thường và các mối tấn công tiềm ẩn trong lưu lượng API của hệ thống.

Gateway Cloud-Native là một module sử dụng công nghệ học máy tiên tiến để phân tích dữ liệu đa chiều, từ đó cung cấp những đánh giá chính xác về tính an toàn của hệ thống.

Hiện nay, có nhiều phương pháp và kỹ thuật để phân tích và xác định các hành vi bất thường, trong đó nổi bật là Kỹ thuật Phân tích Hành vi Người dùng.

(User Behavior Analysis - UBA), Kỹ thuật Phát hiện Bất thường (Anomaly

Detection), Ứng dung Học sâu (Deep Learning),

Nhưng ở phạm vi nghiên cứu của em, em sẽ tập trung vào việc đó là ứng dụng Học sâu và kết hợp với việc phát hiện bất thường.

Học sâu đóng vai trò quan trọng trong việc nâng cao khả năng phát hiện của

Module Các mạng nơ-ron nhân tạo sâu, chăng hạn như mạng nơ-ron tái phát

RNN và CNN có khả năng tự động trích xuất các đặc trưng phức tạp từ dữ liệu thô, giúp nhận diện các mẫu tấn công tinh vi mà các phương pháp truyền thống khó phát hiện.

BERT là một mô hình ngôn ngữ mạnh mẽ dựa trên kiến trúc Transformer, được Google giới thiệu vào năm 2018 Điểm nổi bật của BERT là khả năng học biểu diễn hai chiều của từ vựng trong câu, cho phép nó xem xét cả ngữ cảnh trước và sau mỗi từ để hiểu rõ ý nghĩa Nhờ vào đặc điểm này, BERT vượt trội trong nhiều tác vụ xử lý ngôn ngữ tự nhiên (NLP) như phân loại văn bản, nhận diện thực thể đặt tên và trả lời câu hỏi.

Hình 2.2: Mô hình tổng quát của học sâu BERT Thông số kỹ thuật:

BERT có hai biến thể chính là BERT BASE và BERT LARGE BERT BASE bao gồm 12 lớp, 12 đầu chú ý, kích thước ẩn là 768 và tổng số tham số lên đến 110 triệu Trong khi đó, BERT LARGE sở hữu 24 lớp và 16 đầu chú ý, cho phép xử lý ngữ nghĩa phức tạp hơn.

37 o Tham số an (Hidden Size): 1024 o Tổng số tham số: 340 triệu Các thành phần chính:

BERT specializes in converting words into representative vectors, known as word embeddings, by utilizing both WordPiece embeddings and positional embeddings WordPiece embeddings break down words into smaller components, enhancing the model's understanding of language nuances.

(subwords) dé xử lý các từ hiểm và chưa biết Positional embeddings cung cấp thông tin về vị trí của từ trong câu.

Transformer Encoder trong BERT sử dụng nhiều lớp để xử lý các vector đại diện Mỗi lớp bao gồm hai thành phần chính: Multi-Head Attention, cho phép mô hình chú ý đến các phần khác nhau của câu khi xử lý một từ cụ thể, và Feed-Forward Network, áp dụng các phép biến đổi phi tuyến tính lên các vector đại diện.

Các tác vụ huấn luyện trước (Pre-training model):

BERT được huấn luyện trước trên hai tác vụ chính:

Masked Language Modeling (MLM) là một phương pháp dự đoán các từ bị che khuất ngẫu nhiên trong câu, giúp mô hình nắm bắt ngữ cảnh và mối quan hệ giữa các từ một cách hiệu quả.

Dự đoán câu tiếp theo (Next Sentence Prediction - NSP) là một mô hình giúp xác định xem hai câu có liên tiếp nhau trong văn bản gốc hay không, từ đó giúp mô hình hiểu rõ hơn về mối quan hệ giữa các câu Trong nghiên cứu của tôi, tôi sẽ sử dụng và phân tích mô hình BERT từ Google (bert-base-uncased) và so sánh với ứng dụng AlBert Tôi sẽ thực hiện phân tích và đánh giá hiệu quả tương ứng của hai mô hình này.

BERT Base Uncased: Đây là một trong những mô hình BERT gốc được phát triển bởi Google.

"Base" là phiên bản nhỏ hơn của BERT, trong khi "Uncased" chỉ ra rằng tất cả các chữ cái trong văn bản đầu vào đã được chuyển thành chữ thường trước khi xử lý Điều này giúp mô hình không phân biệt giữa chữ hoa và chữ thường, từ đó tập trung vào ý nghĩa của từ thay vì hình thức viết của chúng.

BERT Base Uncased có kiến trúc và thông số kỹ thuật sau: e Lop (Layers): 12 ô Dau chỳ ý (Attention Heads): 12 ô Tham số an (Hidden Size): 768 ô TO6ng số tham số: 110 triệu

Các tác vụ huấn luyện trước:

Tương tự như các mô hình BERT khác, BERT Base Uncased cũng được huấn luyện trước trên hai tác vụ chính:

Masked Language Modeling (MLM) là một phương pháp dự đoán các từ bị che khuất ngẫu nhiên trong câu, giúp mô hình học cách hiểu ngữ cảnh và mối quan hệ giữa các từ một cách hiệu quả.

Dự đoán câu tiếp theo (Next Sentence Prediction - NSP) là một mô hình giúp xác định xem hai câu có liên tiếp nhau trong văn bản gốc hay không, từ đó giúp mô hình hiểu rõ hơn về mối quan hệ giữa các câu trong văn bản.

Day là một mô hình ngôn ngữ được phat triển bởi Google AI va Toyota Technological

Institute tại Chicago, là một biến thê rút gọn nhưng hiệu quả của BERT Tên ALBERT là

39 viết tắt của "A Lite BERT for Self-supervised Learning of Language Representations"

(Một BERT thu ngọn cho việc học biéu diễn cấu trúc ngôn ngữ tự giám sát).

Mô hình này có 12 lớp (layers) và 12 đầu chú ý (attention heads) với kích thước ẩn (hidden size) là 768 Kích thước nhúng (embedding size) được thiết lập ở mức 128 Tổng số tham số của cấu hình base khoảng 12 triệu, nhỏ hơn đáng kể so với các mô hình lớn hơn.

Các tác vu huan luyện trước:

1 Masked Language Modeling (MLM): Tương tự như BERT, ALBERT cũng được huấn luyện trước với tác vụ MLM, dự đoán các từ bị che đi ngẫu nhiên trong câu.

Sentence Order Prediction (SOP): Thay vì Next Sentence Prediction

BERT và ALBERT sử dụng phương pháp SOP để dự đoán thứ tự của hai đoạn văn bản liên tiếp Nghiên cứu đã chỉ ra rằng SOP hiệu quả hơn NSP trong việc cải thiện khả năng học các biểu diễn ngôn ngữ.

Từ đó em có thể so sánh giữa 2 thuật toán như sau: Đầu chú ý (Attention

Kích thước nhúng Đặc điểm BERT Base Uncased ALBERT Base

Tổng số tham số 110 triệu ~12 triệu

Tác vụ huan luyện MLM, NSP MLM, SOP truoc

Tiêu đề	Phương Pháp Dựa Trên Học Sâu Để Phát Hiện Và Giảm Thiểu Các Hành Vi Bất Thường Trong Các Hệ Thống API Gateway Cloud-Native
Tác giả	Nguyen Huu Minh Sang
Người hướng dẫn	TS. Nguyen Ngoc Tu
Trường học	Đại Học Quốc Gia TP. Hồ Chí Minh
Chuyên ngành	An Toàn Thông Tin
Thể loại	khóa luận tốt nghiệp
Năm xuất bản	2024
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	109
Dung lượng	37,9 MB