So sánh về bộ nhớ sử dụng khi cố định số lượng mẫu

Một phần của tài liệu (LUẬN án TIẾN sĩ) phát triển một số kỹ thuật so khớp ứng dụng trong quá trình phát hiện xâm nhập và giả mạo trên mạng (Trang 83 - 89)

Hình 2 .5 Quá trình so sánh của thuật tốn KMP

Hình 2.19 So sánh về bộ nhớ sử dụng khi cố định số lượng mẫu

Các kết quả thực nghiệm trong hình 2.18 và hình 2.19 đã chỉ ra thuật tốn đề xuất mới cĩ hiệu quả hơn các thuật tốn AC, WM, CW cả về khơng gian và thời gian thực hiện. Điều này là đúng như phân tích lý thuyết, thuật tốn đề xuất yêu cầu bộ nhớ là bằng hoặc nhỏ hơn khơng gian nhớ của DFA và hàm trạng thái và hàm goto trong các thuật tốn AC, WM, CW và thuật tốn đề xuất khơng sử dụng các bảng SHIFT và HASH và do đĩ giảm thời gian xây dựng các bảng và khơng gian lưu trữ của các bảng này.

2.6. Kết chương

Trong chương này, luận án đã trình bày tổng quan việc phát hiện xâm nhập trái phép và giả mạo trên mạng. Về phát hiện xâm nhập trái phép, luận án đã trình bày lại các kỹ thuật xâm nhập trái phép hiện đã được sử dụng bởi kẻ tấn cơng; các giải pháp kỹ thuật nhằm ngăn chặn các kỹ thuật xâm nhập trái phép được biết; kiến trúc tổng quát của một hệ thống phát hiện xâm nhập và chi tiết một hệ thống phát hiện xâm nhập trái phép dựa trên mã nguồn mở Snort, sẽ là nền tảng để triển khai thử nghiệm các thuật tốn đề xuất.

Luận án đã phân tích và đánh giá chi tiết các thuật tốn so khớp đơn mẫu và đa mẫu sử dụng trong hệ thống phát hiện xâm nhập Snort. Sự đánh giá so sánh bằng lý thuyết và thực nghiệm của các thuật tốn này cũng được triển khai. Luận án đề xuất một cải tiến cho thuật tốn Aho-Corasick bằng kỹ thuật nén dịng và bảng chỉ số. Các thực nghiệm chỉ ra thuật tốn cải tiến đã đạt được hiệu năng tốt hơn thuật tốn ban đầu khi thực nghiệm trên hệ thống Snort. Các kết quả trên đã được cơng bố trong các cơng trình [1][2][3]. Cuối cùng, luận án trình bày đề xuất thuật tốn mới cho so khớp đa mẫu dựa trên kỹ thuật xây dựng biểu đồ cấu trúc các mẫu kết hợp với danh sách liên kết. Các kết quả thực nghiệm chỉ ra thuật tốn được đề xuất cĩ hiệu quả tốt hơn một số thuật tốn hiện hành cả về khơng gian và thời gian. Kết quả nghiên cứu này đã được cơng bố trong cơng trình [5].

CHƯƠNG 3. ỨNG DỤNG SO KHỚP ĐỒ THỊ TRONG QUÁ TRÌNH PHÁT HIỆN CÁC TRANG WEB GIẢ MẠO

Chương này sẽ trình bày việc phát hiện các trang Web giả mạo dựa trên cấu trúc DOM-Tree của các trang HTML và XML. Việc trích xuất dữ liệu từ các trang Web cĩ thể được thực hiện thơng qua việc phân tích cấu trúc của trang Web đĩ. Cụ thể là nhĩm các trang cĩ cùng một cấu trúc thành một nhĩm trang và tìm những biểu diễn giống nhau của cấu trúc của các trang Web này trong một nhĩm. Từ đĩ áp dụng việc so sánh các cấu trúc DOM-Tree của các trang Web giả mạo để phát hiện giả mạo bằng cách sử dụng các thuật tốn so khớp đồ thị.

3.1. Giả mạo trên mạng 3.1.1. Giới thiệu 3.1.1. Giới thiệu

Giả mạo trong lĩnh vực bảo mật máy tính, là một hành vi giả mạo ác ý nhằm lấy được các thơng tin nhạy cảm như tên người dùng, mật khẩu và các chi tiết thẻ tín dụng bằng cách giả dạng thành một chủ thể tin cậy trong một giao dịch điện tử.

Hầu hết các ngày tấn cơng lừa đảo hiện đại xảy ra bằng cách thu hút người sử dụng truy cập vào một trang Web độc hại trơng và hoạt động như bản gốc. Khi đĩ, người sử dụng, nếu bị thuyết phục rằng trang này là xác thực, cĩ thể cung cấp thơng tin cá nhân bao gồm cả thơng tin xác thực hoặc thơng tin ngân hàng. Những thơng tin này thường được kẻ tấn cơng sử dụng để thực hiện một số hình thức của hành vi trộm cắp hay gian lận trong thực tế. Do vậy, việc nghiên cứu và phát hiện các trang Web giả mạo là một nhu cầu cấp thiết hiện nay.

3.1.2. Một số kỹ thuật giả mạo

Các kẻ lừa đảo đều muốn nhắm đến những mục tiêu cĩ phần thưởng cao với ít rủi ro, những mục tiêu này thường là các tổ chức tài chính như ngân hàng, mơi giới, các cơng ty phát hành thẻ. Những mục tiêu cĩ giá trị cao khác bao gồm eBay, Paypal,... Các kẻ lừa đảo thậm chí cịn nhắm đến những ngân hàng nhỏ hơn vì những ngân hàng này thường khơng cĩ đủ nguồn lực tài chính để chống lại những tấn cơng lừa đảo. Một nhĩm mục tiêu ít nguy hiểm khác nữa là các tài khoản thư điện tử và các trang mạng xã hội.

3.1.2.1. Sử dụng thư điện tử giả mạo

Trong một kiểu tấn cơng điển hình, kẻ tấn cơng cĩ thể gửi một số lượng lớn, các thư giả mạo tới các người sử dụng Internet một cách ngẫu nhiên mà các thư này tựa như các thư đến từ các tổ chức hợp pháp hoặc kinh doanh nổi tiếng, chẳng hạn cơng ty tài chính, thẻ tín dụng,… Nội dung các thư giả mạo này yêu cầu các nạn nhân cập nhật các thơng tin cá nhân như là điều kiện để tránh mất quyền truy nhập đến các dịch vụ nào đĩ, như quyền truy nhập các tài khoản ngân hàng trực tuyến. Tuy nhiên, khi người dùng kích chuột vào các đường liên kết được cung cấp, họ sẽ được điều hướng đến các trang Web giả mạo của kẻ tấn cơng xây dựng.

3.1.2.2. Sử dụng các trang Web giả mạo

Phần lớn các trang Web giả mạo đều cố gắng bắt chước các trang Web hợp lệ đến mức tốt nhất cĩ thể để người dùng cĩ đủ tự tin tiết lộ những thơng tin nhạy cảm. Hầu hết các trang lừa đảo đều làm tốt việc tạo giao diện hợp lệ bằng cách sao chép cách bố trí trang, phơng chữ, kiểu, logo và thậm chí các thơng tin bảo mật của trang hợp lệ. Thực tế, nhiều liên kết trong trang lừa đảo vẫn thực sự kết nối đến trang hợp lệ, điều này khiến nĩ giống với các trang hợp lệ hơn.

3.1.2.3. Bắt chước URL

Ngồi việc mơ phỏng theo nội dung thực tế, một số trang lừa đảo cịn cố gắng bắt chước URL, chẳng hạn thay thế chữ W bằng hai chữ V hoặc thay chữ “l” bằng số “1”. Các trang Web lừa đảo thường sử dụng URL giả mạo URL hợp lệ hoặc bao gồm URL hợp lệ trong URL lừa đảo.

3.1.2.4. Thơng tin cá nhân

Một vài trang lừa đảo khơng bắt chước hồn tồn một trang hợp lệ, chúng cĩ thể chỉ cĩ logo hoặc con dấu chứng nhận là khớp với trang hợp lệ. Tuy nhiên, những trang này lại hết sức nguy hiểm vì chúng yêu cầu những thơng tin nhạy cảm của người dùng, ví dụ yêu cầu người dùng cập nhật thơng tin tên, địa chỉ, số điện thoại, tài khoản, số thẻ tín dụng,…Những kiểu lừa đảo này thường khĩ phát hiện hơn vì chúng khơng bắt chước hồn tồn trang hợp lệ ngoại trừ một số từ khĩa và logo. Tuy nhiên những trang này vẫn phải sử dụng một số kiểu trình bày của trang hợp lệ, vì vậy chúng vẫn cĩ thể bị phát hiện.

3.1.2.5. Che giấu URL

Một vài trang lừa đảo đã biết cách thử và ẩn URL thực của trang lừa đảo và thay thế nĩ bằng URL của trang hợp lệ. Khai thác lỗ hổng trình duyệt hoặc sử dụng Javascript để ghi đè lên thanh địa chỉ một cái gì đĩ khác đi là một ký thuật lừa đảo cao cấp để ẩn URL thực của trang lừa đảo. Khi người dùng nhìn vào thanh địa chỉ của trình duyệt, họ sẽ chỉ nhìn thấy địa chỉ URL của trang hợp lệ, nhưng bản chất đĩ lại là trang lừa đảo.

3.1.2.6. Nhiễm độc DNS

Một kỹ thuật lừa đảo khác là nhiễm độc bảng DNS trên chính máy tính người dùng. Đây là sự kết hợp của phần mềm độc hại và lừa đảo vì thường phần mềm độc hại được cài đặt để ghi đè lên bảng DNS của máy tính. Bảng DNS sẽ đổi địa chỉ IP của các trang Web hợp lệ thành địa chỉ IP của trang Web lừa đảo. Khi người dùng truy cập những trang Web này sẽ tự động bị đẩy vào những trang lừa đảo.

Ngồi các kỹ thuật nêu trên, kỹ thuật khác thường được sử dụng dựa vào thơng tin xã hội, để lấy thơng tin nhạy cảm của người khác, chẳng hạn gọi điện thoại đến các nạn nhân và đặt nạn nhân vào các tình huống cĩ khả năng cao về cung cấp các thơng tin này… Tuy nhiên, trong khuơn khổ của luận án này, nghiên cứu sinh chỉ

tập trung nghiên cứu về giả mạo Web. Phần tiếp sẽ trình bày các nghiên cứu liên

quan đến Web giả mạo

3.1.3. Một số nghiên cứu liên quan đến giả mạo Web

Phần lớn các trang Web giả mạo đều cố gắng bắt chước các trang Web hợp lệ đến mức tốt nhất cĩ thể để người dùng cĩ đủ tự tin tiết lộ những thơng tin nhạy cảm. Hầu hết các trang lừa đảo đều làm tốt việc tạo giao diện hợp lệ bằng cách sao chép cách bố trí trang, font, kiểu, logo và thậm chí các thơng tin bảo mật của trang hợp lệ. Thực tế, nhiều liên kết trong trang lừa đảo vẫn thực sự kết nối đến trang hợp lệ; điều này khiến nĩ giống với các trang hợp lệ hơn.

Một số giải pháp nổi tiếng cho những vấn đề khác như thư rác cũng được mở rộng sang lĩnh vực chống lừa đảo. Một trong những thuật tốn này sử dụng kỹ thuật khai thác văn bản hoặc với các máy tìm kiếm để tìm các trang liên quan. Thuật tốn

này sử dụng những từ khĩa duy nhất để xác định một trang cụ thể. Thuật tốn TF-IDF sẽ xác định những từ khĩa của một trang Web, những từ khĩa này được đưa vào một máy tìm kiếm chẳng hạn Google và lấy ra nhĩm những URL trên cùng. Nếu trang Web bị nghi ngờ nằm trong nhĩm đĩ thì trang nay được coi là hợp lệ, ngược lại nĩ sẽ bị cho là lừa đảo vì hầu hết các trang lừa đảo khơng cĩ thứ hạng cao trong các kết quả của máy tìm kiếm. Thuật tốn này được ứng dụng trong giải pháp Cantina [46] được các nhà nghiên cứu tại đại học Carnegie Mellon phát triển với việc sử dụng năm từ khĩa cĩ tần suất xuất hiện cao nhất trong trang. Tuy nhiên giải pháp chỉ phù hợp khi cĩ hai giả thiết sau:

1. Thứ nhất, trang lừa đảo phải nhìn và hoạt động giống với trang hợp lệ thì mới cho kết quả từ khĩa được xác định bởi TF-IDF giống nhau.

2. Thứ hai, các máy tìm kiếm phải cho kết quả xếp hạng các trang Web hợp lệ chính xác và cao hơn các trang lừa đảo.

Thuật tốn thứ hai được sử dụng là thuật tốn lọc Bayes, được phát triển để phát hiện thư rác. Các nhà nghiên cứu của Đại học Iowa [47] đã sử dụng thuật tốn này phát triển thanh cơng cụ chống lừa đảo được đặt tên là B-APT. Lợi thế chính của thuật tốn này là cĩ khả năng phát hiện được những đối tượng chưa từng nhìn thấy trước đĩ. Việc sử dụng phép lọc Bayes là một giải pháp hứa hẹn cho việc phát hiện lừa đảo ngày zero, vì nĩ cĩ thể phát hiện những trang Web lừa đảo mới và khơng dựa trên một danh sách đen.

Giải pháp thứ ba đến từ các nhà nghiên cứu ở Hồng Kơng [48] liên quan đến một thuật tốn phát hiện sự giống nhau của hai trang Web về mặt hình ảnh. Hướng tiếp cận này kiểm tra sự hiển thị tương đồng của một trang Web và so sánh những đặc trưng hiển thị của nĩ với một trang Web hợp lệ lưu trong một danh sách trắng.

Trong nghiên cứu mới nhất của mình, Kranti và các đồng nghiệp đã đề xuất một giải pháp chống giả mạo mới bằng cách sử dụng hai thuật tốn K-mean và Nạve Bayes [49]. Nhìn chung, cách tiếp cận để phát hiện các trang Web giả mạo bước đầu là kiểm tra xem “hình dáng” hay cấu trúc của chúng cĩ giống nhau khơng, nếu giống thì sẽ sử dụng thêm một số kỹ thuật khác để làm rõ các chi tiết kỹ thuật để phát hiện đĩ là trang Web giả mạo hay trang Web hợp lệ. Mặt khác, Mơ hình đới tượng tài liệu DOM là một chuẩn được định nghĩa bởi W3C [22] dùng để truy xuất và thao tác trên các tài

liệu cĩ cấu trúc dạng HTML hay XML bằng các ngơn ngữ lập trình thơng dịch, như Javascript, PHP, Python,... Do vậy, hướng tiếp cận của luận án là sẽ chuyển các trang Web về cấu trúc DOM của chúng dưới dạng cây, sau đĩ so sánh xem hai trang Web cĩ giống nhau hay khơng bằng cách so sánh các DOM-Tree. Nếu hai trang Web cĩ cấu trúc giống nhau thì cĩ thể nghi ngờ, tiếp theo nghiên cứu sinh sử dụng các thuật tốn so khớp để so sánh các thành phần chi tiết của chúng để phát hiện trang Web giả mạo. Và đây là mục tiêu thứ hai của luận án. Phần tiếp theo luận án sẽ phân tích và đánh giá ưu nhược điểm của các cách tiếp cận về so khớp đồ thị và đề xuất thuật tốn mới

3.2. Một số nghiên cứu liên quan về so khớp đồ thị

3.2.1 Tìm đẳng cấu đồ thị và đẳng cấu đồ thị con.

Cho một đồ thị mơ hình GM cĩ ma trận kề M1 và một đồ thị dữ liệu GD cĩ ma trận kề M2, ban đầu ta phải tính tất cả các ma trận hốn vị của M2 và chuyển ma trận đĩ

thành cây quyết định. Khi thực hiện thuật tốn, ma trận kề M1 của đồ thị GM sẽ tìm ma trận kề trong cây quyết định mà đồng nhất với nĩ. Ma trận kề đĩ sẽ tương ứng với ma trận kề biểu diễn đẳng cấu đồ thị hoặc đẳng cấu đồ thị con mà bài tốn cần tìm.

Giả sử A(GD) là tập hợp tất cả các ma trận kề hốn vị của đồ thị GD. Như vậy, tập hợp A(GD) cĩ thể được xây dựng thành một cây quyết định. Khi đĩ ma trận kề MD bao gồm một mảng các phần tử được gọi là phần tử hàng-cột ai, mà mỗi ai là một vector cĩ cơng thức sau:

ai = (m1i, m2i,..., mii, mi(i-1),..., mi1). Ma trận M được viết lại như sau: M = (a1, a2,...,an); i =

Đồ thị G Ma trận kề của G Vector hàng-cột biểu diễn ma trận kề của G

Một phần của tài liệu (LUẬN án TIẾN sĩ) phát triển một số kỹ thuật so khớp ứng dụng trong quá trình phát hiện xâm nhập và giả mạo trên mạng (Trang 83 - 89)

Tải bản đầy đủ (PDF)

(135 trang)