1. Trang chủ
  2. » Thể loại khác

Nghiên cứu một số kỹ thuật phát hiện trang web giả mạo và ứng dụng

77 404 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 77
Dung lượng 1,63 MB

Nội dung

Giả mạo phishing biến thể từ fishing nghĩa là câu cá và phreaking nghĩa là nhử người dùng tiết lộ bí mật, trong lĩnh vực bảo mật máy tính là một hành vi giả mạo ác ý nhằm lấy được các th

Trang 1

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

Trang 2

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS NGUYỄN NGỌC CƯƠNG

THÁI NGUYÊN - 2016

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn này của tự bản thân tôi tìm hiểu, nghiên cứu dưới sự hướng dẫn của TS Nguyễn Ngọc Cương Các chương trình thực nghiệm do chính bản thân tôi lập trình, các kết quả là hoàn toàn trung thực Các tài liệu tham khảo được trích dẫn và chú thích đầy đủ

TÁC GIẢ LUẬN VĂN

Nguyễn Thị Huyên

Trang 4

LỜI CẢM ƠN

Tôi xin bày tỏ lời cảm ơn chân thành tới tập thể các thầy cô giáo Viện công nghệ thông tin – Viện Hàn lâm Khoa học và Công nghệ Việt Nam, các thầy cô giáo Trường Đại học Công nghệ thông tin và truyền thông - Đại học Thái Nguyên đã giảng dạy cho chúng tôi trong suốt quá trình học tập chương trình cao học tại trường

Đặc biệt tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo TS Nguyễn Ngọc Cương đã quan tâm, định hướng và đưa ra những góp ý, gợi ý, chỉnh sửa quý báu cho tôi trong quá trình làm luận văn tốt nghiệp Cũng như các bạn bè đồng nghiệp, gia đình

và người thân đã quan tâm, giúp đỡ và chia sẻ với tôi trong suốt quá trình làm luận văn tốt nghiệp

Dù đã có nhiều cố gắng nhưng chắc chắn sẽ không tránh khỏi những thiếu sót

vì vậy rất mong nhận được sự đóng góp ý kiến của các thầy, cô và các bạn để luận văn này được hoàn thiện hơn

Tôi xin chân thành cảm ơn!

Thái Nguyên, tháng 05 năm 2016

Nguyễn Thị Huyên

Trang 5

MỤC LỤC

Trang

MỞ ĐẦU 1

Chương 1 TỔNG QUAN VỀ AN NINH MẠNG VÀ BÀI TỐN GIẢ MẠO WEBSITE 4

1.1 Tổng quan về an ninh mạng 4

1.1.1 Giới thiệu về an ninh mạng 4

1.1.2 Nguy cơ ảnh hưởng tới an tồn mạng 5

1.1.3 Các khái niệm cơ bản 6

1.1.4 Các loại tấn cơng mạng 7

1.1.5 Các phương thức tấn cơng 8

1.2 Dịch vụ website 17

1.2.1 Giới thiệu về Website 17

1.2.2 Các hình thức giả mạo web 18

1.2.3 Các kiểu lừa đảo của Phishing 20

1.3 Bài tốn giả mạo website 23

1.3.1 Giả mạo 23

1.3.2 Một số kỹ thuật 23

Chương 2 CÁC KỸ THUẬT PHÁT HIỆN WEBSITE GIẢ MẠO 26

2.1.Thuật tốn TF - IDF (Term Frequency/Inverse Document Frequency) 26

2.1.1 Phương pháp dựa trên tần số từ khĩa (TF – Term Frequency) 26

2.1.2 Phương pháp dựa trên nghịch đảo tần số văn bản (IDF – Inverse Document Frequency) 26

2.1.3 Phương pháp TF × IDF 27

2.2 Thuật tốn sử dụng phương pháp thống kê (Bayesian) 28

2.2.1 Định lý Nạve Bayes 28

2.2.2 Ví dụ 30

2.2.3 Thuật tốn Nạve Bayes 31

2.3 Thuật tốn so khớp 32

2.3.1 Thuật tốn so khớp chuỗi sơ khai 33

2.3.2 Thuật tốn Rabin – Karp 35

2.3.3.Thuật tốn Boyer Moore Horspool 36

2.3.4 DOM Tree 38

2.4 Thuật tốn dựa trên sự tương đồng về hình ảnh của trang web 38

2.4.1 Thuật Tốn K-Means 39

Trang 6

2.4.2 Thuật toán so khớp đồ thị 43

Chương 3 XÂY DỰNG CHƯƠNG TRÌNH PHÁT HIỆN WEBSITE GIẢ MẠO VÀ ỨNG DỤNG 46

3.1 Ứng dụng thuật toán Naive Bayes trong phát hiện website giả mạo 46

3.2 Các luật xác định giả mạo áp dụng cho thuật toán 47

3.2.1 Phát hiện giả mạo dựa trên thanh địa chỉ 47

3.2.2 Phát hiện giả mạo dựa trên các đặc tính bất thường 52

3.2.3 Phát hiện giả mạo dựa trên các tính năng dùng trong HTML và JavaScript 53

3.2.4 Phát hiện giả mạo dựa trên tên miền 55

3.3 Thiết kế chương trình 55

3.4 Phân tích thuật toán 56

3.4.1 Ý tưởng 56

3.4.2 Cài đặt 56

3.5 Giao diện chương trình và kết quả 59

KẾT LUẬN 64

Hướng phát triển 64

TÀI LIỆU THAM KHẢO 65

PHỤ LỤC 67

Phần mềm WEKA 67

Trang 7

DANH SÁCH KÍ HIỆU, TỪ VIẾT TĂT

Viết tắt Viết đầy đủ

|X| Lực lƣợng của tập X

APWG Anti Phishing Working Group

ARP Address Resolution Protocol

CSDL

Phishing

Cơ sở dữ liệu Giả mạo DHCP Dynamic Host Configuration Protocol

DOM Document Object Model

TF-IDF Term Frequency – Inverse Document Frequency WEKA Waikato Environment for Knowledge Analysis

MAC Media Access Control

LAN Local Area Network

DoS Dinal of Services

TCP/IP Transmission Control Protocol / Internet Protocol SMTP Simple_Mail_Transfer_Protocol

URL Uniform Resource Locator

XML Extensible Markup Language

Trang 8

DANH MỤC CÁC BẢNG VÀ HÌNH VẼ

Hình 1.1 Báo cáo về tội phạm Internet 5

Hình 1.2 Số lượng dữ liệu bị đánh cắp 5

Hình 1.3 Tỷ lệ lỗ hổng trên các trang web 6

Hình 1.4 Mô tả hoạt động của bảng CAM 9

Hình 1.5 Quá trình cấp phát ip từ máy chủ DHCP 10

Hình 1.6 Minh họa DHCP Rouge 11

Hình 1.7 Minh họa việc chuyển hướng người dùng 12

Hình 1.8 Minh họa việc cấp phát IP giả 13

Hình 1.9 Minh họa cách thức giả mạo ARP 14

Hình 1.10 Minh họa quá trình giả mạo MAC 15

Hình 1.11 Minh họa Fake DNS 16

Hình 2.1 Thuật toán K-means dạng sơ đồ khối 39

Hình 2.2 Ví dụ về đồ thị 43

Hình 3.1 Giao diện chương trình 59

Hình 3.2 Kết quả chương trình 60

Hình 3.3 Kiểm tra URL 63

Hình 1 Giao diện phần mềm Weka 67

Hình 2 Giao diện Weka Explorer 68

Hình 3 Giao diện Weka Explorer sau khi chọn CSDL Websites Phishing 68

Hình 4 Phân loại dữ liệu 69

Trang 9

Giả mạo (phishing biến thể từ fishing nghĩa là câu cá và phreaking nghĩa

là nhử người dùng tiết lộ bí mật), trong lĩnh vực bảo mật máy tính là một hành

vi giả mạo ác ý nhằm lấy được các thông tin nhạy cảm như tên người dùng, mật khẩu và các chi tiết thẻ tín dụng bằng cách giả dạng thành một chủ thể tin cậy trong một giao dịch điện tử

Vấn đề giả mạo (phishing hay fake) nói chung và giả mạo web nói riêng

là một loại tội phạm kỹ thuật xã hội đang có xu hướng gia tăng trên mạng Giả mạo được báo cáo là vấn nạn web lần đầu tiên vào năm 2001 của hiệp hội bảo vệ khách hàng, hiệp hội thương mại liên bang của Mỹ và ngày nay nhóm

làm việc chống giả mạo APWG (Anti Phishing Working Group) đã đưa ra

thông số những trang web giả đang tăng khoảng 50% mỗi năm

Hầu hết các tấn công lừa đảo hiện đại xảy ra bằng cách thu hút người sử dụng truy cập vào một trang web độc hại trông và hoạt động giống như bản gốc Khi đó, người sử dụng nếu bị thuyết phục rằng trang này là xác thực có thể cung cấp thông tin cá nhân bao gồm cả thông tin xác thực hoặc thông tin ngân hàng Những thông tin này thường được kẻ sử dụng để thực hiện một số hình thức của hành vi trộm cắp hay gian lận trong thực tế

Do vậy, việc nghiên cứu và phát hiện các trang web giả mạo là một nhu cầu cấp thiết hiện nay

Phát hiện trang web giả mạo là việc đầu tiên để ngăn chặn và xóa bỏ các trang web giả mạo Hiện nay có rất nhiều các cách tiếp cận khác nhau để phát hiện các trang web giả mạo

Trang 10

Một đặc tính nổi bật nhất của trang web giả mạo là nó phải tương tự như trang web gốc Điều này có nghĩa là hai trang web gốc và web giả mạo có cấu trúc giống nhau đến mức tốt nhất để người dùng có đủ tự tin tiết lộ những thông tin nhạy cảm Hầu hết các trang lừa đảo đều làm tốt việc tạo giao diện hợp lệ bằng cách sao chép bố trí trang, font, kiểu, logo và thậm chí các thông tin bảo mật của trang hợp lệ

Có nhiều kỹ thuật và giải pháp để phát hiện trang web giả mạo:

1 Hướng mở rộng các giải pháp từ thư rác: Thuật toán TF-IDF (Term

Frequency/Inverse Document Frequency) sử dụng những từ khóa duy nhất để

xác định một trang cụ thể Kỹ thuật này thường được dùng trong khai thác văn bản hoặc với các máy tìm kiếm để tìm các trang liên quan Thuật toán TF-IDF sẽ xác định những từ khóa của một trang web, những từ khóa này được đưa vào một máy tìm kiếm chẳng hạn Google và lấy ra nhóm những URL trên cùng Nếu trang web bị nghi ngờ nằm trong nhóm đó thì trang này được coi là hợp lệ, ngược lại nó sẽ bị cho là lừa đảo vì hầu hết các trang lừa đảo không có thứ hạng cao trong các kết quả của máy tìm kiếm

Thuật toán này được ứng dụng trong giải pháp Cantina được phát triển bởi các nhà nghiên cứu của Đại học Carnegie Mellon với việc sử dụng năm từ khóa có tần suất xuất hiện cao nhất trong trang Tuy nhiên giải pháp chỉ phù hợp khi có hai giả thiết sau:

- Thứ nhất, trang lừa đảo phải nhìn và hoạt động giống với trang hợp lệ thì mới cho kết quả từ khóa được xác định bởi TF-IDF giống nhau

- Thứ hai, các máy tìm kiếm phải cho kết quả xếp hạng các trang web hợp lệ chính xác và cao hơn các trang lừa đảo

2 Hướng sử dụng giải pháp Bayesian: Thuật toán lọc Bayesian vốn

được phát triển để phát hiện thư rác nhưng các nhà nghiên cứu của Đại học Iowa đã sử dụng thuật toán này để phát triển thành công cụ chống lừa đảo được đặt tên là B-APT Lợi thế chính của thuật toán này là có khả năng phát hiện được những đối tượng chưa từng nhìn thấy trước đó Việc sử dụng phép lọc Bayesian là một giải pháp hứa hẹn cho việc phát hiện lừa đảo 0 ngày

Trang 11

(zero-day) vì nĩ cĩ thể phát hiện những trang web lừa đảo mới và khơng dựa trên một sách đen

3 Hướng tiếp cận để phát hiện các trang web giả mạo bước đầu là kiểm

tra xem “hình dáng” hay cấu trúc của chúng cĩ giống nhau khơng Nếu

giống thì sẽ sử dụng thêm một số kỹ thuật khác để làm rõ các chi tiết kỹ thuật

để phát hiện đĩ là trang web giả mạo hay trang web hợp lệ

Mặt khác, DOM là tên gọi tắt của Document Object Model – là một chuẩn được định nghĩa bởi W3C dùng để truy xuất và thao tác trên các tài liệu

cĩ cấu trúc dạng HTML và XML bằng các ngơn ngữ lập trình thơng dịch như Javascript, PHP, python,… Do vậy, để so sánh hai trang web với nhau chúng

ta cĩ thể so sánh hai DOM – Tree tương ứng của chúng

4 Hướng giải pháp liên quan đến một thuật tốn phát hiện sự giống

nhau của hai trang web về hình ảnh Hướng tiếp cận này kiểm tra sự hiển thị

tương đồng của một trang web và so sánh những đặc trưng hiển thị của nĩ với một trang web hợp lệ lưu trong danh sách trắng Người ta đã đề xuất một giải pháp chống giả mạo mới bằng cách sử dụng 2 thuật tốn K-mean và Naive bayes

Nếu hai trang web cĩ cấu trúc giống nhau về hình ảnh thì cĩ thể nghi ngờ, tiếp theo sử dụng các thuật tốn dựa trên sự tương đồng về hình ảnh của hai trang web để so sánh các thành phần chi tiết của chúng để phát hiện trang Web giả mạo

Chính vì vậy học viên lựa chọn đề tài “Nghiên cứu một số kỹ thuật phát

hiện trang Web giả mạo và ứng dụngcho luậnvăn cao học của mình

2 Mục tiêu của luận văn

- Tìm hiểu bài tốn và các kỹ thuật phát hiện giả mạo web

- Xây dựng chương trình và thử nghiệm tìm kiếm các trang web giả mạo

bằng thuật tốn Nạve Bayes

3 Đối tượng và phạm vi nghiên cứu

- Bài tốn giả mạo web, các thuật tốn liên quan đến phát hiện trang web giả mạo, các trang web

- Ngơn ngữ lập trình C#

Trang 12

Chương 1 TỔNG QUAN VỀ AN NINH MẠNG VÀ BÀI TOÁN GIẢ MẠO

WEBSITE

1.1 Tổng quan về an ninh mạng

1.1.1 Giới thiệu về an ninh mạng

Ngày nay an ninh mạng là một vấn đề được nhiều người quan tâm Có rất nhiều trang web bị tấn công Các cuộc tấn công này gây ra thiệt hại lớn về thông tin, tài sản, uy tín của các công ty, tổ chức [2]

Theo thống kê của Bkav, trong năm 2012 vẫn có tới 2.203 website của các cơ quan doanh nghiệp tại Việt Nam bị tấn công, chủ yếu thông qua các lỗ hổng trên hệ thống mạng So với năm 2011 (có 2.245 website bị tấn công), con số này hầu như không giảm

Cuối năm 2013, việc lợi dụng các file văn bản để cài phần mềm gián điệp đã tiến thêm một bước, không cần thông qua lỗ hổng mà chuyển sang sử dụng hình thức phishing Trung tuần tháng 12, Bkav phát hiện một loạt các vụ tin tặc chèn mã độc vào file văn bản không sử dụng lỗ hổng Mã độc ẩn dưới hình thức một ảnh thu nhỏ được nhúng trực tiếp vào file văn bản Để đọc nội dung, chắc chắn người dùng sẽ click để mở ảnh lớn hơn, như vậy sẽ kích hoạt

mã độc Ông Ngô Tuấn Anh, Phó chủ tịch phụ trách An ninh mạng của Bkav, cho biết: “Với hình thức này, bất kỳ máy tính nào cũng sẽ bị cài phần mềm gián điệp mà không cần lỗ hổng Phishing để cài đặt phần mềm gián điệp sẽ được sử dụng rộng rãi và là xu hướng trong năm 2014”

Có thể thấy, an ninh mạng ngày càng phức tạp và là vấn đề nóng trong những năm gần đây

Trang 13

Hình 1.1 Báo cáo về tội phạm Internet

Hình 1.2 Số lượng dữ liệu bị đánh cắp

1.1.2 Nguy cơ ảnh hưởng tới an toàn mạng

Các hacker thường xuyên lợi dụng lỗ hổng có sẵn để tấn công Dưới đây là thống kê năm 2009 về một vài phương pháp tấn công phổ biến :

Trang 14

Hình 1.3 Tỷ lệ lỗ hổng trên các trang web

1.1.3 Các khái niệm cơ bản

1.1.3.1.Tấn công giả mạo

Tấn công giả mạo làm cho địa chỉ nguồn của gói tin bị thay đổi và có

vẻ như được xuất phát từ một địa chỉ (máy tính) khác Trong đó kẻ tấn công thiết lập một thế giới giả giống như thật xung quanh nạn nhân Nạn nhân có thể sẽ không nhận ra sự khác biệt giữa thật và giả đó

1.1.3.2 Hành động gây mất thông tin

Là những quyết định, hành động của người dùng có thể dẫn tới hậu quả như bị tiết lộ, thất thoát những thông tin bí mật của bản thân hoặc bị kẻ khác

Trang 15

tại ngay chính tại hệ điều hành như trong Windows NT, Windows 95, UNIX; hoặc trong các ứng dụng mà người sử dụng thường xuyên sử dụng như Word processing, các hệ databases

Theo cách phân loại của Bộ quốc phòng Mỹ, các loại lỗ hổng bảo mật trên một hệ thống được chia như sau:

 Lỗ hổng loại C: Các lỗ hổng loại này cho phép thực hiện các phương thức tấn công theo DoS (Dinal of Services - Từ chối dịch vụ) Mức độ nguy hiểm thấp, chỉ ảnh hưởng tới chất lượng dịch vụ, có thể làm ngưng trệ, gián đoạn hệ thống; không làm phá hỏng dữ liệu hoặc đạt được quyền truy nhập bất hợp pháp

 Lổ hổng loại B: Các lỗ hổng cho phép người sử dụng có thêm các quyền trên hệ thống mà không cần thực hiện kiểm tra tính hợp lệ Mức độ nguy hiểm trung bình; Những lỗ hổng này thường có trong các ứng dụng trên

hệ thống; có thể dẫn đến mất hoặc lộ thông tin yêu cầu bảo mật

 Lỗ hổng loại A: Các lỗ hổng này cho phép người sử dụng ở ngoài có thể truy nhập vào hệ thống bất hợp pháp Lỗ hổng rất nguy hiểm, có thể làm phá hủy toàn bộ hệ thống

1.1.3.5 Web giả mạo

Web giả mạo giống như là 1 trang web mà những kẻ tấn công tạo ra từ một trang web ban đầu Các trang web giả mạo trông giống y hệt với trang web thực Nó có giao diện và các liên kết tương tự Kẻ tấn công sẽ kiểm soát các trang web giả để giám sát, thu thập những thông tin của những nạn nhân

đi vào cũng như những trang web mà nạn nhân dẫn kẻ tấn công đi tới

1.1.4 Các loại tấn công mạng

1.1.4.1 Tấn công hệ điều hành

Những kẻ tấn công tìm kiếm các lỗ hổng hệ thống và khai thác chúng

để được truy cập vào một hệ thống mạng Một số lỗi hệ điều hành như:

Trang 16

Các thông tin cấu hình của hệ thống bị chỉnh sửa, cấu hình sai bởi người quản trị hoặc bị nhiễm virus, giúp hacker tận dụng những lỗ hổng này

để khai thác và xâm nhập vào hệ thống như chỉnh sửa sai DNS, thông tin cấu hình ip…

1.1.4.3 Tấn công các cấp độ ứng dụng

Phần mềm ứng dụng đi kèm với nhiều chức năng và cả tính năng, nhưng chưa kiểm tra lỗi kỹ dẫn đến lỗ hổng để hacker khai thác, bao gồm các cuộc tấn công như:

Switch thì có bộ nhớ giới hạn cho việc ánh xạ địa chỉ MAC và port vật

lý trên switch Tấn công MAC là tấn công làm ngập lụt switch với một số lượng lớn yêu cầu, lúc này switch hoạt động như hub và lúc này các gói tin sẽ được gửi ra tất cả các máy trên cùng miền mạng và kẻ tấn công có thể dễ dàng nghe lén Ngập lụt MAC làm cho bộ nhớ giới hạn của switch đầy lên bằng cách giả mạo nhiều địa chỉ MAC khác nhau và gửi đến switch

Bảng CAM của switch thì có kích thước giới hạn Nó chỉ lưu trữ thông tin như địa chỉ MAC gắn với cổng tương ứng trên switch cùng với các tham

số miền mạng LAN

Trang 17

Hình 1.4 Mô tả hoạt động của bảng CAM

Khi máy A gửi gói tin đến máy B, nó sẽ tìm trong bảng địa chỉ MAC của nó, coi thử có địa chỉ MAC của máy B hay không, nếu không có máy A

sẽ gửi gói tin ARP đến switch để hỏi địa chỉ MAC của máy B Máy B lúc này nhận được gói tin gửi phản hồi lại cho máy A sau đó các gói tin được lưu chuyển từ A đến B mà không chuyển sang các máy khác

Một khi bảng CAM trên switch đầy thì các lưu lượng ARP request sẽ làm ngập lụt mỗi cổng của switch Lúc này switch hoạt động cơ bản như hub,

và tấn công lúc này sẽ làm đầy bảng CAM của switch

Nếu tồn tại sự hoạt động của (các) DHCP server thuộc cùng subnet với DHCP client trên thì (các) server này sẽ phản hồi lại cho client bằng một thông điệp DHCP Offer có chứa một địa chỉ IP (và các thiết lập TCP/IP khác) như là một lời đề nghị cho “thuê” (lease) địa chỉ

Trang 18

Ngay khi nhận được gói DHCP Offer đến đầu tiên, client sẽ trả lời lại cho server (dĩ nhiên là gửi cho server nào mà nó nhận được gói DHCP Offer đến đầu tiên trong trường hợp có nhiều DHCP server nằm cùng subnet với nó) một thông điệp DHCP Request như là sự chấp thuận lời đề nghị cho

“thuê” trên

Cuối cùng, server gửi lại cho client thông điệp DHCP Acknowledgment để xác nhận lần cuối “hợp đồng cho thuê địa chỉ” với client Và từ đây client có thể sử dụng địa chỉ IP vừa “thuê” được để truyền thông với các máy khác trên mạng

Hình 1.5 Quá trình cấp phát ip từ máy chủ DHCP

Như vậy, nhìn chung DHCP làm việc khá đơn giản nhưng điểm mấu chốt ở đây là xuyên suốt quá trình trao đổi thông điệp giữa server và client không hề có sự xác thực hay kiểm soát truy cập nào

Server không có cách nào biết được rằng nó có đang liên lạc với một legitimate client (tạm dịch là máy hợp pháp, tức là một máy không bị điều khiển để thực hiện các mục đích xấu) hay không và ngược lại client cũng không thể biết được là nó có đang liên lạc với một legitimate server hay không

Trang 19

Khả năng trong mạng xuất hiện các rogue DHCP client và rogue DHCP server (rogue tạm dịch là máy “DHCP giả”, tức là một máy giả tạo, bị điều khiển để thực hiện các hành vi xấu) tạo ra nhiều vấn đề đáng quan tâm

Một rogue server có thể cung cấp cho các legitimate client các thông

số cấu hình TCP/IP giả và trái phép như: địa chỉ IP không hợp lệ, sai subnet mask, hoặc sai địa chỉ của default gateway, DNS server nhằm ngăn chặn client truy cập tài nguyên, dịch vụ trong mạng nội bộ hoặc Internet (đây là hình thức của tấn công DoS)

Hình 1.6 Minh họa DHCP Rouge

Việc thiết lập một rogue server như vậy có thể thực hiện được bằng cách sử dụng các kỹ thuật “social engineering” để có được khả năng tiếp cận vật lý rồi kết nối rouge server vào mạng

Attacker có thể thoả hiệp thành công với một legitimate client nào đó trong mạng và thực hiện cài đặt rồi thực thi trên client này một chương trình

Trang 20

có chức năng liên tục gửi tới DHCP server các gói tin yêu cầu xin cấp IP với các địa chỉ MAC nguồn không có thực cho tới khi toàn bộ dải IP trong scope của DHCP server này bị nó “thuê” hết Điều này dẫn tới server không còn IP nào để có thể cấp phát cho các legitimate client khác Hậu quả là các client này không thể truy cập vào mạng

M

Hình 1.7 Minh họa việc chuyển hướng người dùng

Một rủi ro nữa có thể xảy ra nếu như attacker phá vỡ được các hàng rào bảo vệ mạng và đoạt được quyền kiểm soát DHCP server Lúc này, attacker

có thể sẽ tạo ra những sự thay đổi trong cấu hình của DHCP server theo ý muốn như: Thiết lập lại dải IP, subnet mask của scope để tạo ra tình trạng DoS trong mạng Đổi thiết lập DNS để chuyển hướng yêu cầu phân giải tên miền của client tới rogue DNS (do attacker dựng lên), kết quả là client có thể

sẽ bị dẫn dụ tới các website giả mạo được xây dựng nhằm mục đích đánh cắp thông tin tài khoản của client hoặc website có chứa mã độc mà sẽ được tải về

Trang 21

máy client Thay đổi default gateway trỏ về máy của attacker để toàn bộ thông tin mà client gửi ra ngoài mạng sẽ được chuyển tới máy của attacker (thay vì đi tới default gateway thực sự), sau đó attacker sẽ chụp lại các thông tin này trước khi chuyển tiếp chúng tới gateway thực sự của mạng và client vẫn truyền thông bình thường với các máy ngoài mạng nhưng người dùng lại không hề nhận biết được rằng họ đã để lộ thông tin cho attacker (đây là một dạng của tấn công Man-in-the-Middle), chưa hết, nếu bạn đang chạy dịch vụ DHCP server đã bị tấn công trên cùng một máy với Domain Controller thì hậu quả sẽ còn nghiêm trọng hơn nữa khi attacker sẽ có khả năng nắm được

cơ sở dữ liệu Active Directory và gây thêm nhiều rắc rối khác cho hệ thống của bạn

Như vậy, có khá nhiều nguy cơ đe dọa tới tính bí mật, toàn vẹn và độ sẵn sàng của hạ tầng DHCP và từ đó tạo ra những rủi ro khác nhau cho toàn

bộ hệ thống mạng của tổ chức

Hình 1.8 Minh họa việc cấp phát IP giả

Trang 22

1.1.5.3 Tấn công đầu độc ARP

ARP là giao thức ánh xạ địa chỉ IP đến địa chỉ vật lý được nhận diện Giao thức ARP sẽ quảng bá miền mạng của máy để tìm địa chỉ vật lý Khi một máy cần giao tiếp với máy khác, và nó tìm trong bảng ARP của mình, nếu địa chỉ MAC không được tìm thấy trong bảng, giao thức ARP sẽ quảng

bá ra toàn miền mạng Tất cả các máy trong miền mạng sẽ so sánh địa chỉ IP đến địa chỉ MAC của chúng Nếu một trong những máy đó, xác định được đó chính là địa chỉ của mình, nó sẽ gửi gói ARP hồi đáp và địa chỉ này sẽ được lưu trong bảng ARP và quá trình giao tiếp diễn ra

Tấn công đầu độc ARP là hình thức tấn công mà gói tin ARP có thể bị giả mạo để gửi dữ liệu đến máy của kẻ tấn công Kẻ tấn công làm ngập lụt bộ nhớ cache chứa địa chỉ ARP của máy mục tiêu bằng các địa chỉ ARP giả mạo, phương thức này còn được gọi là đầu độc Giả mạo ARP liên quan đến việc xây dựng một số lượng lớn ARP Request giả mạo và gói ARP Reply liên tục được phản hồi dẫn đến tình trạng quá tải switch Cuối cùng sau khi bảng ARP

bị đầy thì switch sẽ hoạt động ở chế độ forwarding, lúc này thì kẻ tấn công có thể dễ dàng nghe lén mọi hoạt động trong mạng

Hình 1.9 Minh họa cách thức giả mạo ARP

Trang 23

Giả mạo ARP giúp kẻ tấn công có thể chuyển hướng tất cả giao tiếp giữa hai máy, khi đó tất cả lưu lượng được gửi thông qua máy của kẻ tấn công Các mối de dọa về tấn công ARP như: tấn công từ chối dịch vụ, ăn cắp thông tin dữ liệu, nghe lén cuộc gọi, ăn cắp password, thao tác dữ liệu

1.1.5.4 Tấn công giả mạo

Tấn công giả mạo địa chỉ MAC bằng cách chạy chương trình nghe lén địa chỉ MAC của máy trạm, máy được liên kết với switch và dùng địa chỉ MAC để truy cập mạng Bằng cách lắng nghe lưu lượng đi qua trong mạng,

kẻ tấn công có thể ăn cắp và dùng địa chỉ MAC hợp pháp của nạn nhân để nhận tất cả lưu lượng đi từ máy nạn nhân đến đích

Hình 1.10 Minh họa quá trình giả mạo MAC

Với tấn công giả mạo MAC: Nếu MAC được dùng để thực thi trong mạng, kẻ tấn công có thể có quyền thực thi trong mạng đó Kẻ tấn công có thể tiến hành nhận dạng một ai đó trên mạng

Với tấn công giả mạo IP: các mối đe dọa với hình thức này là ping of death, gói tin ICMP không thể truy cập, ngập lụt cờ SYN, IP thật có thể bị giả mạo

1.1.5.5 Tấn công DNS

Giả mạo DNS là một kỹ thuật MITM được sử dụng nhằm cung cấp thông tin DNS sai cho một host để khi người dùng duyệt đến một địa chỉ nào

Trang 24

đó, ví dụ, www.bankofamerica.com có IP XXX.XX.XX.XX, thì cố gắng này

sẽ được gửi đến một địa chỉ www.bankofamerica.com giả mạo cư trú ở địa

chỉ IP YYY.YY.YY.YY, đây là địa chỉ mà kẻ tấn công đã tạo trước để đánh cắp các thông tin tài khoản ngân hàng trực tuyến từ người dùng, tấn công này

có thể thực hiện khá dễ dàng

Trong kỹ thuật tấn công giả mạo DNS Hacker tiến hành giảo mạo Arp Poison tiến hành Sniffer các gói tin của người dùng Chúng ta thấy trong quá trình sniffer hacker đã tiến hành tạo các bản ghi DNS giả cập nhật cho nạn nhân Nhằm chuyển hướng nạn nhân sang hệ thống khác Ở đây chính là máy tính của Attacker

Hình 1.11 Minh họa Fake DNS

Mỗi truy vấn DNS được gửi qua mạng đều có chứa một số nhận dạng duy nhất, mục đích của số nhận dạng này là để phân biệt các truy vấn và đáp trả chúng Điều này có nghĩa rằng nếu một máy tính đang tấn công của chúng

ta có thể chặn một truy vấn DNS nào đó được gửi đi từ một thiết bị cụ thể, thì tất cả những gì chúng ta cần thực hiện là tạo một gói giả mạo có chứa số nhận dạng đó để gói dữ liệu đó được chấp nhận bởi mục tiêu

Chúng ta sẽ hoàn tất quá trình này bằng cách thực hiện hai bước với một công cụ đơn giản Đầu tiên, chúng ta cần giả mạo ARP cache thiết bị mục tiêu để định tuyến lại lưu lượng của nó qua host đang tấn công của mình, từ

đó có thể chặn yêu cầu DNS và gửi đi gói dữ liệu giả mạo Mục đích của kịch bản này là lừa người dùng trong mạng mục tiêu truy cập vào website độc thay

vì website mà họ đang cố gắng truy cập

Trang 25

1.2 Dịch vụ website

1.2.1 Giới thiệu về Website

Website là một “trang web” được lưu trữ tại các máy chủ hay các hosting hoạt động trên Internet Đây là nơi giới thiệu những thông tin, hình ảnh về doanh nghiệp, sản phẩm và dịch vụ của doanh nghiệp hay giới thiệu bất cứ thông tin gì để khách hàng có thể truy cập bất kì ở đâu, bất cứ lúc nào

Website là tập hợp của nhiều web page Khi doanh nghiệp, công ty xây dựng website nghĩa là đang xây dựng nhiều trang thông tin về sản phẩm, dịch

vụ hay giới thiệu, Để tạo nên một website cần có 3 yếu tố sau:

Tên miền (domain)

Thực chất một website không cần đến tên miền nó vẫn có thể hoạt động bình thường vì nó còn có địa chỉ IP của trang web đấy, chúng ta chỉ cần gõ vào trình duyệt IP của trang web thì ngay lập tức trình duyệt sẽ load trang web đấy về trình duyệt của bạn Sỡ dĩ chúng ta cần phải có tên miền thay cho

IP là vì IP là mỗi chuỗi số thập phân, có những địa chỉ IP thì rất là dễ nhớ nhưng đa số địa chỉ IP thì rất là khó nhớ Với cái tên nó rất gần gũi với ngôn ngữ tự nhiên của con người nên rất là dễ nhớ cũng chính vì vậy mà người ta

đã thay tên miền cho IP và từ đó công nghệ DNS ra đời

Ví dụ đơn giản để hiểu thêm tính năng của tên miền: Trong danh bạ điện thoại của chúng ta nếu chúng ta lưu số điện thoại mà không gán với một tên thì chắc chắn một điều là chúng ta không thể nhớ hết được số điện thoại của từng người và cũng không thể nào biết được số điện thoại này là của ai nhưng nếu chúng ta lưu số một ai đó với một cái tên thì sau này khi cần gọi cho người đó sẽ tìm trong danh bạ dễ dàng hơn

Nơi lưu trữ website (hosting)

Nơi lưu trữ website thì bắt buộc chúng ta phải có, nó có thể là một máy chủ để lưu trữ hay một hosting chúng ta thuê từ nhà cung cấp dịch vụ

Nội dung các trang thông tin (web page)

Nội dung trang thông tin này thì phải có vì mục đích của chúng ta lập nên website nhằm đăng thông tin của chúng ta lên website hay giới thiệu các thông tin của công ty

Trang 26

Nói đến một website người ta thường nói website đấy là web động hay tĩnh, đa số các website bây giờ đến là website động

Website tĩnh có thể hiểu như thế này người dùng gửi yêu cầu một tài nguyên nào đó và máy chủ sẽ trả về tài nguyên đó Các trang Web không khác gì là một văn bản được định dạng và phân tán Lúc mới đầu phát triển website thì web tĩnh được sử dụng rất nhiều vì lúc đấy nhu cầu của việc đăng tải trên website là chưa cao như đăng thông tin về các sự kiện, địa chỉ hay lịch làm việc qua Internet mà thôi, chưa có sự tương tác qua các trang Web

Website động là thuật ngữ được dùng để chỉ những website được hỗ trợ bởi một phần mềm cơ sở web, nói cho dễ hiểu thì web động là web có cơ sở

dữ liệu Ngày nay, đa số các trang web đều có cơ sở dữ liệu vì mục đích, nhu cầu của con người càng ngày gia tăng Thực chất, website động có nghĩa là một website tĩnh được "ghép" với một phần mềm web (các modules ứng dụng cho Web) Với chương trình phần mềm này, người chủ website thực sự có quyền điều hành nó, chỉnh sửa và cập nhật thông tin trên website của mình mà không cần phải nhờ đến những người chuyên nghiệp

Trước đây, năm 1995 đến 2004 thì sử dụng công nghệ web 1.0 với công nghệ này thì người dùng chỉ được đọc nội dung trang web mà không thể chỉnh sửa, bình luận hay nói cách khác website lúc bất giờ chỉ hoạt động một chiều mà thôi

Hiện nay, đã phát triển công nghệ web 2.0 hoạt động hai chiều có nghĩa

là người dùng cũng có thể chỉnh sửa, bình luận hay xóa nội dung trang web Trên đà phát triển đó người ta tiếp tục nghiên cứu và phát triển web 3.0 hứa hẹn rất nhiều điều thú vị còn ở phía trước

1.2.2 Các hình thức giả mạo web

1.2.2.1 Phishing(giả mạo)

Phishing là một hình thức gian lận để có những thông tin nhạy cảm như username, password, credit card … bằng cách giả mạo như là một thực thể đáng tin cậy trong các giao tiếp trên mạng Quá trình giao tiếp thường diễn ra tại các trang mạng xã hội nổi tiếng, các trang web đấu giá, mua bán hàng online…mà đa số người dùng đều không cảnh giác với nó Phishing sử dụng

Trang 27

email hoặc tin nhắn tức thời, gửi đến người dùng, yêu cầu họ cung cấp thông tin cần thiết Người dùng vì sự chủ quan của mình đã cung cấp thông tin cho một trang web, trông thì có vẽ hợp pháp, nhưng lại là trang web giả mạo do các hacker lập nên

1.2.2.2 Những yếu tố để một cuộc tấn công Phishing thành công

 Sự thiếu hiểu biết

 Nghệ thuật đánh lừa ảo giác

 Không chú ý đến những chỉ tiêu an toàn

sự trợ giúp của hàng loạt địa chỉ email này Tuy nhiên hacker đã lợi dung việc này để gửi những lá thư có nội dung trông có vẻ hợp lệ Những nội dung này thường có tính khẩn cấp, đòi hỏi người nhận thư phải cung cấp thông tin ngay lập tức

Hacker sử dụng giao thức SMTP kèm theo vài kỹ thuật để giả mạo trường “Mail From” khiến cho người nhận không có chút nghi ngờ nào Ví

dụ, hacker sẽ giả email được gửi từ ngân hàng, và yêu cầu người dùng cung cấp thông tin cá nhân để mở lại tài khoản do một sự cố nào đó

Nội dung email được gửi thường sẽ có vài đường link cho bạn liên kết đến một trang web Như đã trình bày ở trên, những link này nếu không cẩn thận sẽ cho là link đến một trang web giả mạo do hacker dựng nên

Web-based Delivery

Một kỹ thuật tiếp theo của Phising là dựa vào việc phát tán các website lừa đảo, thường thấy các website dạng như kiếm tiền online Chúng yêu cầu bạn cung cấp các thông tin tài khoản ngân hàng để tiến hành trả tiền công Bạn không ngần ngại gì khi đang chờ đợi số tiền công hậu hỉnh Kết cuộc tiền công không thấy mà tiền trong tài khoản cũng không còn

Trang 28

Một hình thức khác là khiêu khích sự tò mò của người dùng Bằng cách chèn vào trang web những banner hoặc những text quảng cáo có ý khiêu khích sự tò mò của người dùng Ví dụ như những hình ảnh khiêu dâm, những nội dung đang nóng Kết quả sau khi click vào đó thì máy tính của bạn có thể

bị nhiểm một loại malware nào đó, phục vụ cho một cộng tấn công khác Irc and Instant Messaging

“Chat” là thuật ngữ quá quen thuộc với mọi người, hay còn gọi là trò chuyện trực tuyến Nó rất hữu ích trong giao tiếp Tuy nhiên, những kẽ lừa đảo đã bắt đầu lợi dụng vào việc “chat” này để tiến hành các hành động lừa đảo Bằng những kỹ thuật tấn công, những kẽ lừa đảo tiến hành gửi tin nhắn tức thì đến hàng loạt người dùng Những nội dung được gửi thường có liên quan đến hàng loạt người dùng, và cũng lợi dụng vào trí tò mò của mọi người

Vì tính không nhất quán của việc trò chuyện online, những người trò chuyện online thường không thấy mặt nhau nên không thể biết người đang nói chuyện với mình có tin cậy hay không Một kỹ thuật tinh vi của kiểu lừa đảo này là giả dạng nick chat Bằng cách giả một nick chat của người quen để tiến hành trò chuyện và yêu cầu cung cấp thông tin hoặc lừa đảo làm một việc

gì đó Gần đây ở Việt Nam nở rộ tình trang lừa đảo này Nhiều người dùng chat với bạn bè người thân của mình, và họ được nhờ việc nạp tiền điện thoại

di động Nạn nhân vì thấy nick đang chat là của người quen nên không chút ngần ngại nào trong việc được nhờ vả này

Trojaned Hosts: Như đã nói ở phần trước, lừa đảo không những chỉ nhắm đến những thông tin cá nhân của nạn nhân, mà còn nhiều hình thứ khác Một kiểu lừa đảo khác là lừa cho nạn nhân cài vào máy tính của mình một phần mềm gián điệp Phần mềm gián điệp (trojan, keylog) này sẽ phục vụ cho một mục đích tấn công khác

Điển hình của công việc này là nạn nhân bị nhiễm trojan và trở thành một máy tính con trong một cuộc tấn công tổng thế trên diện rộng

1.2.3 Các kiểu lừa đảo của Phishing

Dựa vào những phương thức trên, những kẽ lừa đảo bắt đầu tiến hành quá trình lừa đảo

Trang 29

Căn cứ theo cách thức hoạt động, người ta phân loại những cuộc tấn công lừa đảo ra thành các loại sau

Main-in-the-Middle Attacks: Ở kỹ thuật này, máy tính của attacker được xem như là máy tính trung gian giữa máy tính của người dùng và website thật Attacker dựng lên một máy tính trung gian để nhận dữ liệu của người dùng và chuyển nó cho website thật Hoặc nhận dữ liệu của website thật rồi chuyển cho người dùng Dữ liệu khi chuyển qua lại sẽ được lưu trữ lại tại máy tính của attecker Thoạt nghe mô tả này chúng ta nghỉ ngay đến chức năng của Proxy Server Đúng vậy, do đó proxy chính là những nơi không tin cậy cho lắm khi chúng ta truy cập web thông qua nó

Những kẽ tấn công sẽ dựng lên một Proxy Server với lời mời gọi sử dụng được tung ra internet Vì lý do gì đó (để giả ip trong mua bán hàng qua mạng) người dùng sẽ tìm đến proxy server này để nhờ giúp đỡ trong việc truy cập web Và thế là vô tình người trở thành con mồi cho bọn hacker Những kẻ tấn công ngoài việc dựng lên proxy server rồi dụ con mồi đến còn nghĩ đến việc tấn công vào các proxy server này để lấy dữ liệu Bằng những kỹ thuật tấn công nào khác, hacker xâm nhập hệ thống lưu trữ của proxy để lấy dữ liệu, phân tích và có được những thứ mà họ cần

Một cách khác để tấn công trong kỹ thuật này, là tìm cách làm lệch đường đi của gói dữ liệu Thay vì phải chuyển gói tin đến cho web server, thì đằng này là chuyển đến máy tính của hacker trước, rồi sau đó máy tính của hacker sẽ thực hiện công việc chuyển gói tin đi tiếp Để làm điều này, hacker

có thể sử dụng kỹ thuật DNS Cache Poisoning – là kỹ thuật làm lệch đường đi của gói dữ liệu bằng cách làm sai kết quả phân giải địa chỉ của DNS

Một điểm cần lưu ý rằng, kỹ thuật tấn công này không phân biệt giao thức web là HTTP hay HTTPS

Url Obfuscation Attacks: Làm giả URL là kỹ thuật tiếp theo mà chúng

ta sẽ bàn đến Trong kỹ thuật, attacker sẽ làm giả URL của một trang web được nhiều người truy cập Bằng cách nào đó, URL này được gửi đến cho người dùng, vì thiếu tính cẩn thận nên người dùng đã truy cập vào web này

Ví dụ như thay vì truy cập http://www.amazone.com thì lại truy cập vào

Trang 30

website http://www.amazione.com

Kỹ thuật của việc làm thay đổi một chút xíu về URL như thế được gọi

là “dotless ip addresses”, Mọi người nghĩ rằng việc này đơn giản, tuy nhiên

nó cũng không dễ chút nào Chúng ta có thể tìm hiểu về kỹ thuật này tại địa chỉ http://morph3us.org/blog/index.php?/ fuscation.html

Cross-Site Scripting Attacks: Cross-Site Scripting (XSS) là một trong những

kỹ thuật tấn công phổ biến nhất hiện nay, đồng thời nó cũng là một trong những vấn đề bảo mật quan trọng đối với các nhà phát triển web và cả những người sử dụng web Bất kì một website nào cho phép người sử dụng đăng thông tin mà không có sự kiểm tra chặt chẽ các đoạn mã nguy hiểm thì đều có thể tiềm ẩn các lỗi XSS

Cross-Site Scripting hay còn được gọi tắt là XSS (thay vì gọi tắt là CSS

để tránh nhầm lẫn với CSS-Cascading Style Sheet của HTML) là một kĩ thuật tấn công bằng cách chèn vào các website động (ASP, PHP, CGI, JSP .) những thẻ HTML hay những đoạn mã script nguy hiểm có thể gây nguy hại cho những người sử dụng khác Trong đó, những đoạn mã nguy hiểm đựơc chèn vào hầu hết được viết bằng các Client-Site Script như JavaScript, JScript, DHTML và cũng có thể là cả các thẻ HTML Kĩ thuật tấn công XSS

đã nhanh chóng trở thành một trong những lỗi phổ biến nhất của Web Applications và mối đe doạ của chúng đối với người sử dụng ngày càng lớn

Cơ bản XSS cũng như SQL Injection hay Source Injection, nó cũng là các yêu cầu (request) được gửi từ các máy client tới server nhằm chèn vào đó các thông tin vượt quá tầm kiểm soát của server Nó có thể là một request được gửi từ các form dữ liệu hoặc cũng có thể đó chỉ là các URL như là:Mã: http://www.example.com/search.cgi?query=<script>alert('XSSwasfoun!');

</script> Và rất có thể trình duyệt của bạn sẽ hiện lên một thông báo "XSS was found !" Các đoạn mã trong thẻ script không hề bị giới hạn bởi chúng hoàn toàn có thể thay thế bằng một file nguồn trên một server khác thông qua thuộc tính src của thẻ script Cũng chính vì lẽ đó mà chúng ta chưa thể lường hết được độ nguy hiểm của các lỗi XSS Nhưng nếu như các kĩ thuật tấn công khác có thể làm thay đổi được dữ liệu nguồn của web server (mã nguồn, cấu

Trang 31

trúc, cơ sở dữ liệu) thì XSS chỉ gây tổn hại đối với website ở phía client mà nạn nhân trực tiếp là những người khách duyệt site đó Tất nhiên đôi khi các hacker cũng sử dụng kĩ thuật này để deface các website nhưng đó vẫn chỉ tấn công vào bề mặt của website Thật vậy, XSS là những Client-Side Script, những đoạn mã này sẽ chỉ chạy bởi trình duyệt phía client do đó XSS không làm ảnh hưởng đến hệ thống website nằm trên server Mục tiêu tấn công của XSS không ai khác chính là những người sử dụng khác của website, khi họ vô tình vào các trang có chứa các đoạn mã nguy hiểm do các hacker để lại họ có thể bị chuyển tới các website khác, đặt lại homepage, hay nặng hơn là mất mật khẩu, mất cookie thậm chí máy tính bạn có thể sẽ bị cài các loại virus, backdoor, worm …

Hidden Attacks: Attacker sử dụng các ngôn ngữ lập trình HTML, DHTML, hoặc ngôn ngữ dạng script khác để chèn vào trình duyệt của người dùng Hoặc sử dụng các ký tự đặc biệt để đánh lừa người dùng

Những phương thức thường được attacker sử dụng là làm ẩn các frame Các Frame sẽ được attacker làm ẩn đi trên trình duyệt của người dùng, qua đó attacker có thể chèn vào những đoạn mã đọc Một cách khác để tấn công là ghi đè nội dung trang web hoặc thay đổi hình ảnh trên trang web Qua những nội dung bị thay đổi này, attaker sẽ chèn những đoạn mã độc hại vào đó

1.3 Bài toán giả mạo website

1.3.1 Giả mạo

Giả mạo là một hành vi giả mạo ác ý nhằm lấy được các thông tin nhạy cảm như tên người dùng, mật khẩu và các chi tiết thẻ tín dụng bằng cách giả dạng thành một chủ thể tin cậy trong một giao dịch điện tử Do vậy, việc nghiên cứu và phát hiện các trang web giả mạo là một nhu cầu cấp thiết hiện nay.[1]

1.3.2 Một số kỹ thuật

Các kẻ lừa đảo đều muốn nhắm đến những mục tiêu có phần thưởng cao với ít rủi ro, những mục tiêu này thường là các tổ chức tài chính như ngân hàng, môi giới, các công ty phát hành thẻ…Các kẻ lừa đảo thậm chí còn nhắm đến những ngân hàng nhỏ hơn vì những ngân hàng này thường không có đủ

Trang 32

nguồn lực tài chính để chống lại những tấn công lừa đảo Rủi ro thấp hơn khi nhắm đến những ngân hàng nhỏ Một nhóm mục tiêu it nguy hiểm khác nữa

là các tài khoản email và các trang mạng xã hội Một số kỹ thuật lừa đảo thường được sử dụng:

Sử dụng thư điện tử giả mạo: Trong một kiểu tấn công điển hình, kẻ tấn

công có thể gửi một số lượng lớn như thư giả mạo tới các người sử dụng Internet một cách ngẫu nhiên mà các thư này tựa như các thư đến từ các tổ chức hợp pháp hoặc kinh doanh nổi tiếng ( như công ty tài chính, thẻ tín dụng,…) Nội dung các thư giả mạo này yêu cầu các nạn nhân cập nhật các thông tin cá nhân như là điều kiện để tránh mất quyền truy nhập đến các dịch

vụ nào đó (ví dụ như quyền truy nhập các tài khoản ngân hàng trực tuyến) Tuy nhiên, khi người dùng kích chuột vào các đường link được cung cấp, họ

sẽ được điều hướng đến các trang web giả mạo của kẻ tấn công xây dựng

Sử dụng các trang web giả mạo: Phần lớn các trang web giả mạo đều

cố gắng bắt trước các trang web hợp lệ đến mức tốt nhất có thể để người dùng

có đủ tự tin tiết lộ những thông tin nhạy cảm Hầu hết các trang lừa đảo đều làm tốt việc tạo giao diện hợp lệ bằng cách sao chép cách bố trí trang, font, kiểu, logo và thậm chí các thông tin bảo mật của trang hợp lệ Thực tế, nhiều liên kết trong trang lừa đảo vẫn thực sự kết nối đến trang hợp lệ, điều này khiến nó giống với các trang hợp lệ hơn

Bắt trước URL: Ngoài việc mô phỏng theo nội dụng thực tế, một số

trang lừa đảo còn cố gắng bắt trước URL, chẳng hạn thay thế chữ W bằng hai chữ V hoặc thay chữ “l” bằng số “1” Các trang web lừa đảo thường sử dụng URL giả mạo URL hợp lệ hoặc bao gồm URL hợp lệ trong URL lừa đảo

Cập nhật thông tin cá nhân: Một vài trang lừa đảo không bắt trước

hoàn toàn một trang hợp lệ, chúng có thể chỉ có logo hoặc con dấu chứng nhận là khớp với trang hợp lệ Tuy nhiên những trang này lại hết sức nguy hiểm vì chúng yêu cầu những thông tin nhạy cảm của người dùng, ví dụ yêu cầu người dùng cập nhật thông tin tên, địa chỉ, số điện thoại, tài khoản, số thẻ tín dụng,…Những kiểu lừa đảo này thường khó phát hiện hơn vì chúng không bắt trước hoàn toàn trang hợp lệ ngoại trừ một số từ khóa và logo Tuy nhiên

Trang 33

những trang này vẫn phải sử dụng một số kiểu trình bày của trang hợp lệ, vì vậy cúng vẫn có thể bị phát hiện

Che giấu URL: Một vài trang lừa đảo đã biết cách thử và ẩn URL thực

của trang lừa đảo và thay thế nó bằng URL của trang hợp lệ Khai thác lỗ hổng trình duyệt hoặc sử dụng Javascrip để ghi đè lên thanh địa chỉ một cái gì

đó khác đi là một kỹ thuật lừa đảo cao cấp để ẩn URL thực của trang lừa đảo Khi người dùng nhìn vào thanh đại chỉ của trình duyệt, họ sẽ chỉ nhìn thấy địa chỉ URL của trang hợp lệ, nhưng bản chất đó lại là trang lừa đảo

Nhiễm độc DNS: Một kỹ thuật lừa đảo khác nhiễm độc bằng DNS trên

chính máy tính người dùng Đây là sự kết hợp của phần mềm độc hại và lừa đảo vì thường phần mềm độc hại được cài đặt để ghi đè lên bảng DNS của máy tính Bảng DNS sẽ đổi địa chỉ IP của các trang web hợp lệ thành địa chỉ

P của trang web lừa đảo Khi người dùng truy cập những trang werb này sẽ tự động bị đẩy vào những trang lừa đảo

Ngoài các kỹ thuật nêu trên, một số kỹ thuật khác cũng thường được sử dụng là dựa vào các kỹ thuật xã hội để đạt được thông tin nhạy cảm của nạn nhân, chẳng hạn gọi điện thoại đến các nạn nhân và đặt nạn nhân vào các tình huống có khả năng cung cấp các thông tin này cao…Tuy nhiên trong khuôn khổ của luận văn này, học viên chỉ tập trung nghiên cứu về web giả mạo

Trang 34

Chương 2 CÁC KỸ THUẬT PHÁT HIỆN WEBSITE GIẢ MẠO

2.1.Thuật toán TF - IDF (Term Frequency/Inverse Document Frequency)

Trong mô hình tần suất, ma trận W = {wij} được xác định dựa trên tần

số xuất hiện của từ khóa ti trong văn bản dj hoặc tần số xuất hiện của từ khóa ti

trong toàn bộ cơ sở dữ liệu Sau đây là một số phương pháp phổ biến [4]:

2.1.1 Phương pháp dựa trên tần số từ khóa (TF – Term Frequency)

Các giá trị wij được tính dựa trên tần số (hay số lần) xuất hiện của từ khóa trong văn bản Gọi fij là số lần xuất hiện của từ khóa ti trong văn bản dj, khi đó wij được tính bởi một trong ba công thức:

Ví dụ, khi văn bản xuất hiện nhiều từ khóa máy tính, điều đó có nghĩa

là văn bản đang xét chủ yếu liên quan đến lĩnh vực tin học

Nhưng suy luận trên không phải lúc nào cũng đúng Một ví dụ điển hình là từ “và” xuất hiện nhiều trong hầu hết các văn bản, nhưng trên thực tế

từ này lại không mang nhiều ý nghĩa như tần suất xuất hiện của nó Hoặc có những từ không xuất hiện trong văn bản này nhưng lại xuất hiện trong văn bản khác, khi đó ta sẽ không tính được giá trị của log(fij) Một phương pháp khác ra đời khắc phục được nhược điểm của phương pháp TF, đó là phương pháp IDF

2.1.2 Phương pháp dựa trên nghịch đảo tần số văn bản (IDF – Inverse Document Frequency)

Trong phương pháp này, giá trị wij được tính theo công thức sau:

Trang 35

{ ( ) ( )

Trong đó m là số lượng văn bản và hi là số lượng văn bản mà từ khóa tixuất hiện

Trọng số wij trong công thức này được tính dựa trên độ quan trọng của

từ khóa ti trong văn bản dj Nếu ti xuất hiện trong càng ít văn bản, điều đó có nghĩa là khi nó xuất hiện trong dj thì trọng số của nó đối với văn bản dj càng lớn hay nó là điểm quan trọng để phân biệt văn bản dj với các văn bản khác

và hàm lượng thông tin trong nó càng lớn

dj và độ hiếm của từ khóa ti trong toàn bộ cơ sở dữ liệu

Một số ưu, nhược điểm của phương pháp biểu diễn này:

Khi biểu diễn các vector với các hệ số là số tự nhiên sẽ làm tăng mức

độ chính xác của việc tìm kiếm nhưng làm tốc độ tính toán giảm đi rẩt nhiều

do các phép nhân vector phải tiến hành trên các số tự nhiên hoặc số thực, hơn nữa việc lưu trữ các vector sẽ tốn kém và phức tạp

Hệ thống không linh hoạt khi lưu trữ các từ khóa Chỉ cần một thay đổi rất nhỏ trong bảng từ vựng sẽ kéo theo hoặc là vector hóa lại toàn bộ các tài

Trang 36

liệu lưu trữ, hoặc là sẽ bỏ qua các từ cĩ nghĩa bổ sung trong các tài liệu được

mã hĩa trước đĩ

Một nhược điểm nữa, chiều của mỗi Vector theo cách biểu diễn này là rất lớn, bởi vì chiều của nĩ được xác định bằng số lượng các từ khác nhau trong tập hợp văn bản Ví dụ số lượng các từ cĩ thể cĩ từ 103 đến 105 trong tập hợp các văn bản nhỏ, cịn trong tập hợp các văn bản lớn thì số lượng sẽ nhiều hơn, đặc biệt trong mơi trường Web

2.2 Thuật tốn sử dụng phương pháp thống kê (Bayesian)

2.2.1 Định lý Nạve Bayes

Thống kê (tốn học) là bộ mơn tốn học rất quan trọng và cĩ nhiều ứng dụng to lớn trong thực tế, giúp con người rút ra thơng tin từ dữ liệu quan sát, nhằm giải quyết các bài tốn thực tế trong cuộc sống

Một tiếp cận thống kê trong việc dự đốn sự kiện dựa vào lý thuyết Bayes Lý thuyết này nĩi về việc tính xác suất của sự kiện dựa vào các kết quả thống kê các sự kiện trong quá khứ Sau việc tính tốn mỗi sự kiện được gán xác xuất hay điểm (tùy vào mỗi phương pháp đánh giá) ứng với khả năng

cĩ thể xảy ra với sự kiện đĩ Và cuối cùng dựa vào ngưỡng để phân loại cho các sự kiện

Định lý Bayes điều chỉnh các xác suất khi được cho bằng chứng mới theo cách sau đây:

0

( | ) (H ) (H | )

H0 là đại diện cho một giả thuyết, gọi là một giả thuyết khơn, giả thuyết này

được suy luận trước khi cĩ được bằng chứng mới E

P(H0) được gọi là xác suất tiền nghiệm của H0

P(E | H0) được gọi là xác suất cĩ điều kiện của việc quan sát thấy bằng chứng E nếu biết rằng giả thuyết H0 là đúng Đại lượng này cịn được gọi

là hàm khả dĩ khi nĩ được biểu diễn dưới dạng một hàm của H0 khi cho

trước E

P(E) được gọi là xác suất biên của E: xác suất của việc chứng kiến bằng

Trang 37

chứng mới E dưới tất cả các giả thuyết loại trừ nhau đôi một Đại lượng này

có thể được tính bằng tổng của tích tất cả các xác suất của các giả thuyết loại

trừ nhau đôi một và các xác suất có điều kiện tương ứng: P E H P H( | i) ( i) P(H0 | E) được gọi là xác suất hậu nghiệm của nếu biết

Hệ số P(E | H0) /P(E) đại diện cho ảnh hưởng của bằng chứng đối với

mức độ tin tưởng vào giả thuyết Nếu rất có khả năng quan sát được bằng chứng khi giả thuyết đang xét là đúng, thì hệ số này sẽ có giá trị lớn Khi nhân xác suất tiền nghiệm của giả thuyết với hệ số này, ta được một xác suất hậu nghiệm lớn của giả thuyết khi có bằng chứng Nhờ đó, trong suy luận Bayes, định lý Bayes đo được mức độ mà bằng chứng mới sẽ làm thay đổi sự tin tưởng vào một giả thuyết

Các nhà thống kê Bayes lập luận rằng ngay cả khi người ta có các xác suất chủ quan tiền nghiệm rất khác nhau, bằng chứng mới từ các quan sát lặp

đi lặp lại sẽ có xu hướng đưa các xác suất hậu nghiệm của họ lại gần nhau hơn Trong khi điều này đúng đối với những người duy lý hoàn hảo với các khuynh hướng tương đồng trong việc suy xét mức độ tin tưởng, các khác biệt

đủ lớn trong các khuynh hướng này có thể (và thường) gây cản trở lớn lao đối với quá trình hội tụ này

Việc nhân xác suất tiền nghiệm P(H 0 ) với hệ số P(E | H 0 ) / P(E) sẽ

không bao giờ cho ra một xác suất lớn hơn 1 Đó là vì P(E) không nhỏ hơn

P(E H0), mà đại lượng này thì bằng P(E | H 0 ).P(H 0 )

P(E | H 0 ) là xác suất của E khi biết H0, có thể được biểu diễn bởi một hàm của tham số thứ hai với tham số thứ nhất giữ một giá trị cho trước Một

hàm như vậy được gọi là hàm khả dĩ; đây là một hàm của H 0 khi cho trước E

Một tỷ lệ giữa hai hàm khả dĩ được gọi là tỉ số khả dĩ (likelihood ratio),

Ví dụ,

Xác suất biên P(E) còn có thể được biểu diễn bằng tổng của tích tất cả các

xác suất đôi một loại trừ nhau với các xác suất có điều kiện tương ứng:

P(E | H0).P(H0) + P(E | not H0).P(not H0)

Trang 38

Do đó, ta có thể viết lại định lý Bayes nhƣ sau:

Với 2 bằng chứng độc lập E1 và E2, ta có thể áp dụng suy luận Bayes lặp đi lặp lại Ta có thể dùng bằng chứng thứ nhất để tính một xác suất hậu nghiệm ban đầu, rồi dùng xác suất hậu nghiệm đó làm một xác suất tiền nghiệm để tính một xác suất hậu nghiệm thứ hai theo bằng chứng thứ hai

Tính độc lập của bằng chứng hàm ý rằng

Định lý Bayes đƣợc sử dụng lặp đi lặp lại hàm ý rằng

Sử dụng các tỉ số khả dĩ, ta thấy rằng

, Quá trình lặp này của suy luận Bayes có thể đƣợc mở rộng khi có thêm các bằng chứng độc lập khác

Suy luận Bayes đƣợc dùng để tính các xác suất cho việc đƣa ra quyết định trong tình huống không chắc chắn Bên cạnh các xác suất, ta nên tính

một hàm mất mát nhằm mục đích phản ánh các hậu quả của việc phạm sai

lầm Các xác suất đại diện cho khả năng hoặc niềm tin về việc phạm sai lầm Một hàm mất mát đại diện cho các hậu quả của việc phạm sai lầm

2.2.2 Ví dụ

Giả sử có hai hộp đựng đầy bánh quy Hộp thứ nhất có 10 chiếc bánh quy sô-cô-la và 30 chiếc bánh quy bơ Hộp thứ hai đựng mỗi loại bánh 20 chiếc Bé Khoai chọn ngẫu nhiên một hộp, rồi nhặt đại một chiếc bánh Ta có thể giả thiết rằng bé Khoai còn rất nhỏ nên không phân biệt hộp này hộp kia,

và bé thích tất cả các loại bánh kẹo nên bánh loại nào với bé cũng vậy Và

Ngày đăng: 23/06/2017, 17:33

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w