CHƯƠNG 3. ỨNG DỤNG SO KHỚP ĐỒ THỊ TRONG QUÁ TRÌNH PHÁT HIỆN CÁC TRANG WEB GIẢ MẠO
3.1. Giả mạo trên mạng
Giả mạo trong lĩnh vực bảo mật máy tính, là một hành vi giả mạo ác ý nhằm lấy được các thông tin nhạy cảm như tên người dùng, mật khẩu và các chi tiết thẻ tín dụng bằng cách giả dạng thành một chủ thể tin cậy trong một giao dịch điện tử.
Hầu hết các ngày tấn công lừa đảo hiện đại xảy ra bằng cách thu hút người sử dụng truy cập vào một trang Web độc hại trông và hoạt động như bản gốc. Khi đó, người sử dụng, nếu bị thuyết phục rằng trang này là xác thực, có thể cung cấp thông tin cá nhân bao gồm cả thông tin xác thực hoặc thông tin ngân hàng. Những thông tin này thường được kẻ tấn công sử dụng để thực hiện một số hình thức của hành vi trộm cắp hay gian lận trong thực tế. Do vậy, việc nghiên cứu và phát hiện các trang Web giả mạo là một nhu cầu cấp thiết hiện nay.
3.1.2. Một số kỹ thuật giả mạo
Các kẻ lừa đảo đều muốn nhắm đến những mục tiêu có phần thưởng cao với ít rủi ro, những mục tiêu này thường là các tổ chức tài chính như ngân hàng, môi giới, các công ty phát hành thẻ. Những mục tiêu có giá trị cao khác bao gồm eBay, Paypal,... Các kẻ lừa đảo thậm chí còn nhắm đến những ngân hàng nhỏ hơn vì những ngân hàng này thường không có đủ nguồn lực tài chính để chống lại những tấn công lừa đảo. Một nhóm mục tiêu ít nguy hiểm khác nữa là các tài khoản thư điện tử và các trang mạng xã hội.
3.1.2.1. Sử dụng thư điện tử giả mạo
Trong một kiểu tấn công điển hình, kẻ tấn công có thể gửi một số lượng lớn, các thư giả mạo tới các người sử dụng Internet một cách ngẫu nhiên mà các thư này tựa như các thư đến từ các tổ chức hợp pháp hoặc kinh doanh nổi tiếng, chẳng hạn công ty tài chính, thẻ tín dụng,… Nội dung các thư giả mạo này yêu cầu các nạn nhân cập nhật các thông tin cá nhân như là điều kiện để tránh mất quyền truy nhập đến các dịch vụ nào đó, như quyền truy nhập các tài khoản ngân hàng trực tuyến. Tuy nhiên, khi người dùng kích chuột vào các đường liên kết được cung cấp, họ sẽ được điều hướng đến các trang Web giả mạo của kẻ tấn công xây dựng.
3.1.2.2. Sử dụng các trang Web giả mạo
Phần lớn các trang Web giả mạo đều cố gắng bắt chước các trang Web hợp lệ đến mức tốt nhất có thể để người dùng có đủ tự tin tiết lộ những thông tin nhạy cảm.
Hầu hết các trang lừa đảo đều làm tốt việc tạo giao diện hợp lệ bằng cách sao chép cách bố trí trang, phông chữ, kiểu, logo và thậm chí các thông tin bảo mật của trang hợp lệ. Thực tế, nhiều liên kết trong trang lừa đảo vẫn thực sự kết nối đến trang hợp lệ, điều này khiến nó giống với các trang hợp lệ hơn.
3.1.2.3. Bắt chước URL
Ngoài việc mô phỏng theo nội dung thực tế, một số trang lừa đảo còn cố gắng bắt chước URL, chẳng hạn thay thế chữ W bằng hai chữ V hoặc thay chữ “l” bằng số
“1”. Các trang Web lừa đảo thường sử dụng URL giả mạo URL hợp lệ hoặc bao gồm URL hợp lệ trong URL lừa đảo.
3.1.2.4. Thông tin cá nhân
Một vài trang lừa đảo không bắt chước hoàn toàn một trang hợp lệ, chúng có thể chỉ có logo hoặc con dấu chứng nhận là khớp với trang hợp lệ. Tuy nhiên, những trang này lại hết sức nguy hiểm vì chúng yêu cầu những thông tin nhạy cảm của người dùng, ví dụ yêu cầu người dùng cập nhật thông tin tên, địa chỉ, số điện thoại, tài khoản, số thẻ tín dụng,…Những kiểu lừa đảo này thường khó phát hiện hơn vì chúng không bắt chước hoàn toàn trang hợp lệ ngoại trừ một số từ khóa và logo. Tuy nhiên những trang này vẫn phải sử dụng một số kiểu trình bày của trang hợp lệ, vì vậy chúng vẫn có thể bị phát hiện.
3.1.2.5. Che giấu URL
Một vài trang lừa đảo đã biết cách thử và ẩn URL thực của trang lừa đảo và thay thế nó bằng URL của trang hợp lệ. Khai thác lỗ hổng trình duyệt hoặc sử dụng Javascript để ghi đè lên thanh địa chỉ một cái gì đó khác đi là một ký thuật lừa đảo cao cấp để ẩn URL thực của trang lừa đảo. Khi người dùng nhìn vào thanh địa chỉ của trình duyệt, họ sẽ chỉ nhìn thấy địa chỉ URL của trang hợp lệ, nhưng bản chất đó lại là trang lừa đảo.
3.1.2.6. Nhiễm độc DNS
Một kỹ thuật lừa đảo khác là nhiễm độc bảng DNS trên chính máy tính người dùng. Đây là sự kết hợp của phần mềm độc hại và lừa đảo vì thường phần mềm độc hại được cài đặt để ghi đè lên bảng DNS của máy tính. Bảng DNS sẽ đổi địa chỉ IP của các trang Web hợp lệ thành địa chỉ IP của trang Web lừa đảo. Khi người dùng truy cập những trang Web này sẽ tự động bị đẩy vào những trang lừa đảo.
Ngoài các kỹ thuật nêu trên, kỹ thuật khác thường được sử dụng dựa vào thông tin xã hội, để lấy thông tin nhạy cảm của người khác, chẳng hạn gọi điện thoại đến các nạn nhân và đặt nạn nhân vào các tình huống có khả năng cao về cung cấp các thông tin này… Tuy nhiên, trong khuôn khổ của luận án này, nghiên cứu sinh chỉ tập trung nghiên cứu về giả mạo Web. Phần tiếp sẽ trình bày các nghiên cứu liên quan đến Web giả mạo
3.1.3. Một số nghiên cứu liên quan đến giả mạo Web
Phần lớn các trang Web giả mạo đều cố gắng bắt chước các trang Web hợp lệ đến mức tốt nhất có thể để người dùng có đủ tự tin tiết lộ những thông tin nhạy cảm.
Hầu hết các trang lừa đảo đều làm tốt việc tạo giao diện hợp lệ bằng cách sao chép cách bố trí trang, font, kiểu, logo và thậm chí các thông tin bảo mật của trang hợp lệ.
Thực tế, nhiều liên kết trong trang lừa đảo vẫn thực sự kết nối đến trang hợp lệ; điều này khiến nó giống với các trang hợp lệ hơn.
Một số giải pháp nổi tiếng cho những vấn đề khác như thư rác cũng được mở rộng sang lĩnh vực chống lừa đảo. Một trong những thuật toán này sử dụng kỹ thuật
này sử dụng những từ khóa duy nhất để xác định một trang cụ thể. Thuật toán TF-IDF sẽ xác định những từ khóa của một trang Web, những từ khóa này được đưa vào một máy tìm kiếm chẳng hạn Google và lấy ra nhóm những URL trên cùng. Nếu trang Web bị nghi ngờ nằm trong nhóm đó thì trang nay được coi là hợp lệ, ngược lại nó sẽ bị cho là lừa đảo vì hầu hết các trang lừa đảo không có thứ hạng cao trong các kết quả của máy tìm kiếm. Thuật toán này được ứng dụng trong giải pháp Cantina [46] được các nhà nghiên cứu tại đại học Carnegie Mellon phát triển với việc sử dụng năm từ khóa có tần suất xuất hiện cao nhất trong trang. Tuy nhiên giải pháp chỉ phù hợp khi có hai giả thiết sau:
1. Thứ nhất, trang lừa đảo phải nhìn và hoạt động giống với trang hợp lệ thì mới cho kết quả từ khóa được xác định bởi TF-IDF giống nhau.
2. Thứ hai, các máy tìm kiếm phải cho kết quả xếp hạng các trang Web hợp lệ chính xác và cao hơn các trang lừa đảo.
Thuật toán thứ hai được sử dụng là thuật toán lọc Bayes, được phát triển để phát hiện thư rác. Các nhà nghiên cứu của Đại học Iowa [47] đã sử dụng thuật toán này phát triển thanh công cụ chống lừa đảo được đặt tên là B-APT. Lợi thế chính của thuật toán này là có khả năng phát hiện được những đối tượng chưa từng nhìn thấy trước đó. Việc sử dụng phép lọc Bayes là một giải pháp hứa hẹn cho việc phát hiện lừa đảo ngày zero, vì nó có thể phát hiện những trang Web lừa đảo mới và không dựa trên một danh sách đen.
Giải pháp thứ ba đến từ các nhà nghiên cứu ở Hồng Kông [48] liên quan đến một thuật toán phát hiện sự giống nhau của hai trang Web về mặt hình ảnh. Hướng tiếp cận này kiểm tra sự hiển thị tương đồng của một trang Web và so sánh những đặc trưng hiển thị của nó với một trang Web hợp lệ lưu trong một danh sách trắng.
Trong nghiên cứu mới nhất của mình, Kranti và các đồng nghiệp đã đề xuất một giải pháp chống giả mạo mới bằng cách sử dụng hai thuật tốn K-mean và Nạve Bayes [49]. Nhìn chung, cách tiếp cận để phát hiện các trang Web giả mạo bước đầu là kiểm tra xem “hình dáng” hay cấu trúc của chúng có giống nhau không, nếu giống thì sẽ sử dụng thêm một số kỹ thuật khác để làm rõ các chi tiết kỹ thuật để phát hiện đó là trang Web giả mạo hay trang Web hợp lệ. Mặt khác, Mô hình đối tượng tài liệu DOM là một chuẩn được định nghĩa bởi W3C [22] dùng để truy xuất và thao tác trên các tài
liệu có cấu trúc dạng HTML hay XML bằng các ngôn ngữ lập trình thông dịch, như Javascript, PHP, Python,... Do vậy, hướng tiếp cận của luận án là sẽ chuyển các trang Web về cấu trúc DOM của chúng dưới dạng cây, sau đó so sánh xem hai trang Web có giống nhau hay không bằng cách so sánh các DOM-Tree. Nếu hai trang Web có cấu trúc giống nhau thì có thể nghi ngờ, tiếp theo nghiên cứu sinh sử dụng các thuật toán so khớp để so sánh các thành phần chi tiết của chúng để phát hiện trang Web giả mạo.
Và đây là mục tiêu thứ hai của luận án. Phần tiếp theo luận án sẽ phân tích và đánh giá ưu nhược điểm của các cách tiếp cận về so khớp đồ thị và đề xuất thuật toán mới