1. Trang chủ
  2. » Tất cả

Nghiên cứu phát hiện url độc dựa trên phương pháp học máy

74 13 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 74
Dung lượng 3,53 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC MỞ HÀ NỘI - LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ Thông tin Mã ngành: 8480201 ĐỀ TÀI: NGHIÊN CỨU PHÁT HIỆN URL ĐỘC DỰA TRÊN PHƢƠNG PHÁP HỌC MÁY HỌC VIÊN THỰC HIỆN: DƢƠNG SỸ MẠNH HƢỚNG DẪN KHOA HỌC: TS ĐỖ XUÂN CHỢ Hà Nội, tháng 9/2022 LỜI CẢM ƠN Lời cảm ơn trân trọng đầu tiên, Em xin cám ơn Thầy, Cô giáo Trƣờng Đại học Mở Hà Nội tận tình giảng dạy truyền đạt kiến thức suốt khóa học cao học vừa qua Đặc biệt Em xin bày tỏ lòng biết ơn chân thành sâu sắc tới thầy giáo TS Đỗ Xuân Chợ tận tình dìu dắt hƣớng dẫn Em suốt trình làm luận văn, bảo định hƣớng Thầy giúp Em tự tin nghiên cứu vấn đề giải toán cách khoa học Em xin chân thành cảm ơn Thầy, Cô giáo viên Khoa Công nghệ Thông Tin Trƣờng Đại học Mở Hà Nội tạo điều kiện thuận lợi cho tơi q trình học tập, nghiên cứu Cuối cùng, Tôi xin cảm ơn tập thể lớp Cơng nghệ thơng tin khóa 18, bạn cổ vũ , khích lệ chia sẻ kinh nghiệm thân giúp luận văn tơi ngày hồn thiện Mặc dù cố gắng nhiều nhƣng chắn luận văn khơng khỏi thiếu sót Em mong nhận đƣợc thông cảm bảo tận tình Thầy, Cơ bạn Em xin chân thành cảm ơn! Hà Nội, ngày tháng năm 2022 Dương Sỹ Mạnh LỜI CAM ĐOAN Tôi xin cam đoạn: Tôi xin cam đoan cơng trình nghiên cứu khoa học tơi dƣới hƣớng dẫn khoa học trực tiếp TS Đỗ Xuân Chợ Các nội dung nghiên cứu, kết nghiên cứu đƣợc trình bày luận văn hồn tồn trung thực, khơng vi phạm điều luật sở hữu trí tuệ pháp luật Việt Nam Mọi tham khảo dùng khóa luận đƣợc trích dẫn rõ ràng tên tác giả, tên cơng trình, thời gian, địa điểm công bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi xin chịu hồn tồn trách nhiệm Hà Nội, ngày tháng năm 2022 Học viên thực Dƣơng Sỹ Mạnh MỤC LỤC MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN VỀ URL ĐỘC VÀ VẤN ĐỀ PHÁT HIỆN URL ĐỘC 1.1 Giới thiệu URL 1.1.1 Giới thiệu URL .7 a) Khái niệm URL b) Các thành phần URL 1.1.2 Tổng quan URL độc a) Khái niệm URL độc 10 b) Một số loại URL độc .10 c) Một số kỹ thuật công sử dụng URL độc 12 1.2 Các phƣơng pháp phát URL độc 13 1.2.1 Phát URL độc dựa tập dấu hiệu 13 a) Phương pháp tiếp cận Blacklisting 13 b) Phương pháp tiếp cận heuristic 14 1.2.2 Phát URL độc sử dụng phƣơng pháp học máy .15 1.3 Một số công cụ hỗ trợ phát URL độc 16 1.3.1 URL Void 16 1.3.2 UnMask Parasites .17 1.3.3 PhishTank 17 1.3.4 Dr.Web Anti-Virus Link Checker 17 1.3.5 Comodo Site Inspector .18 1.3.6 Một số công cụ khác 18 1.4 Đề xuất mơ hình phát URL độc 21 1.4.1 Thực trạng phát tán URL độc Việt Nam 21 1.4.2 Mơ hình phát URL độc 22 1.5 Kết chƣơng 23 CHƢƠNG 2: PHÁT HIỆN URL ĐỘC SỬ DỤNG HỌC MÁY 24 2.1 Tổng quan phát URL độc sử dụng học máy .24 a) Giai đoạn huấn luyện 24 b) Giai đoạn phát .25 2.1.1 Lựa chọn thuật toán phân loại URL độc .25 2.1.2 Random Forest 26 2.1.3 Support vector machine SVM 27 2.2 Lựa chọn trích xuất thuộc tính URL 31 2.3 Kết luận 35 CHƢƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 37 3.1 Lựa chọn công cụ thực nghiệm .37 3.1.1 Giới thiệu công cụ Weka 37 3.1.2 Tìm hiểu ứng dụng Explorer cơng cụ Weka 42 3.2 Một số số liên quan đến kết thực nghiệm 47 3.2.1 Kịch liệu thực nghiệm .48 3.2.2 Kết thực nghiệm 50 3.3 Kết luận chƣơng 51 CHƢƠNG XÂY DỰNG ỨNG DỤNG PHÁT HIỆN URL ĐỘC 53 4.1 Kiến trúc ứng dụng phát URL độc 53 4.2 Phát triển Extension ứng dụng phát URL độc 53 4.2.1 Nghiên cứu xây dựng Extension số trình duyệt web 53 4.2.2 Xây dựng Extension trình duyệt Web 54 4.3 Phát triển API phát URL độc 59 4.3.1 Xây dựng sở liệu dấu hiệu 60 4.3.2 Cài đặt mô đun phát URL độc 62 4.4 Cài đặt ứng dụng phát URL độc 63 4.4.1 Cài đặt Extension .63 4.4.2 Cài đặt API máy chủ 65 4.5 Thực áp dụng ứng dụng phát URL độc trình duyệt web 65 4.6 Kết luận trình thử nghiệm .68 4.7 Kết luận chƣơng 69 KẾT LUẬN 70 TÀI LIỆU THAM KHẢO 71 MỞ ĐẦU Ngày nay, với nhu cầu trao đổi thông tin, bắt buộc quan, tổ chức phải hồ vào mạng tồn cầu Internet, an tồn bảo mật thơng tin vấn đề quan trọng hàng đầu Cộng đồng công nghệ thông tin, đặc biệt doanh nghiệp, tổ chức có hạ tầng thơng tin tiên tiến phải đối mặt với biến đổi, phức tạp ngày nguy an tồn thơng tin Theo hiệp hội An Tồn Thơng Tin Việt Nam tội phạm máy tính liên tục gia tăng, xuất nhiều kỹ thuật biện pháp công nguy hiểm để lại hậu nghiêm trọng Các công trƣớc thƣờng đƣợc triển khai cách khai khác lỗ hổng, điểm yếu hệ thống công trực tiếp vào hạ tầng công nghệ thông tin Tuy nhiên, vài năm trở lại phƣơng pháp cơng đƣợc sử dụng mang lại hiệu khơng cao tổ chức thƣờng xun cập nhật quan tâm đầu tƣ cho hạ tầng cơng nghệ thơng tin cho Phƣơng pháp mà hacker thƣờng sử dụng phƣơng pháp công vào công nghệ đầu– cuối khai thác lỗ hổng ngƣời Các kỹ thuật thƣờng xử dụng nhƣ: lừa đảo xã hội (social engineering), phising, pharming…Một bƣớc để tiến hành công đánh lừa ngƣời dùng, phát tán mã độc URL độc Theo hiệp hội An Tồn Thơng Tin Việt Nam năm 2017 phần công đƣợc ghi nhận Việt Nam xuất phát từ URL độc Các Hacker trƣớc phần lớn hoạt động động cá nhân, nhƣng ngày nhiều cơng, đánh cắp liệu ngồi động tài cịn có động trị, mà đứng sau phủ quốc gia Theo diễn biến nhƣ tội phạm cơng cịn liên tục phát triển có nhiều diễn biến khó lƣờng Chính vậy, việc phát sớm cơng vấn đề cần đƣợc quan tâm hết Từ phân tích thấy rằng, để ngăn chặn giảm thiểu nguy an tồn thơng tin cho hệ thống thơng tin cần phải có giải pháp hiệu việc phát sớm q trình hacker cơng đánh lừa ngƣời dùng Một cách hữu hiệu để phát công giai đoạn đánh lừa ngƣời dùng dựa việc phát URL độc Vì lý học viên, dƣới hƣớng dẫn TS Đỗ Xuân Chợ chọn đề tài "NGHIÊN CỨU PHÁT HIỆN URL ĐỘC DỰA TRÊN PHƢƠNG PHÁP HỌC MÁY " Đề tài kết hợp phƣơng pháp học máy cơng cụ mã nguồn mở để phát đƣợc URL độc CHƢƠNG 1: TỔNG QUAN VỀ URL ĐỘC VÀ VẤN ĐỀ PHÁT HIỆN URL ĐỘC 1.1 Giới thiệu URL 1.1.1 Giới thiệu URL a) Khái niệm URL URL, viết tắt Uniform Resource Locator (Định vị Tài nguyên thống nhất), đƣợc dùng để tham chiếu tới tài nguyên Internet URL mang lại khả siêu liên kết cho trang mạng Các tài nguyên khác đƣợc tham chiếu tới địa chỉ, URL, cịn đƣợc gọi địa mạng liên kết mạng (hay liên kết) [1] b) Các thành phần URL - URL đơn giản đƣợc chia thành thành phần chính: Scheme (giao thức kết nối) Authotiry (nhà cung cấp) [1, 2] - Scheme: Phần Scheme URL (các chữ theo sau dấu hai chấm) biểu thị giao thức mà ứng dụng (nhƣ trình duyệt web) máy chủ giao tiếp Các địa web URL phổ biến nhất, nhiên cịn có URL khác Do đó, thấy Scheme nhƣ: - Giao thức truyền tải văn siêu văn (HTTP): Đây giao thức web, xác định hành động máy chủ web trình duyệt cần thực để đáp ứng lệnh định - Giao thức HTTP an toàn (HTTPS): Đây dạng HTTP hoạt động lớp bảo mật, đƣợc mã hóa để truyền tải thơng tin an tồn - Giao thức truyền tập tin (File Transfer Protocol - FTP): Giao thức thƣờng đƣợc sử dụng để truyền file qua Internet - Authority: Phần Authority URL (phần bắt đầu sau hai dấu gạch chéo) đƣợc chia thành phần nhỏ Hình 1.1 Ví dụ URL Trong ví dụ đơn giản này, toàn phần “www.example.com” đƣợc gọi hostname có nhiệm vụ lấy địa IP Nếu biết địa IP, gõ vào địa trình duyệt thay hostname Đây số thành phần nó: - Tên miền cấp cao nhất: Trong ví dụ đây, "com" tên miền cấp cao Đây mức cao hệ thống tên miền phân cấp đƣợc sử dụng để dịch địa IP thành địa ngôn ngữ đơn giản, dễ nhớ Những tên miền cấp cao đƣợc Tập đoàn Internet cấp số tên miền (ICANN) tạo quản lý Có ba tên miền cấp cao phổ biến com., net, gov Hầu hết quốc gia có miền cấp cao gồm hai chữ cái, ví dụ nhƣ us (Mỹ), (Việt Nam), ca (Canada), … Có số tên miền cấp cao bổ sung (nhƣ museum) đƣợc tổ chức cá nhân tài trợ quản lý Ngoài ra, có số tên miền cấp cao dùng chung nhƣ club, life news - Tên miền phụ (Subdomain): Vì DNS hệ thống phân cấp, hai phần “www” “example” URL ví dụ đƣợc xem tên miền phụ Phần “www” tên miền phụ tên miền cấp cao “com” phần “www” tên miền phụ tên miền “example” Đó lý cơng ty có tên đăng ký nhƣ “google.com” đƣợc chia thành tên miền phụ nhƣ “www.google.com”, “news.google.com”, “mail.google.com”, v.v… Đây ví dụ phần Authority URL, URL khác phức tạp Có hai thành phần khác phần Authority: - Thông tin ngƣời dùng: Phần Authority chứa tên ngƣời dùng mật trang web truy cập Ngày nay, bắt gặp cấu trúc URL Phần thơng tin ngƣời dùng trƣớc tên máy chủ theo sau dấu @ Ví dụ, thấy URL nhƣ sau: “//username:password@www.example.com”, bao gồm thông tin ngƣời dùng - Số port: Thiết bị mạng sử dụng địa IP để nhận thơng tin đến máy tính phù hợp mạng Khi lƣu lƣợng truy cập đến, số port thơng báo với máy tính biết ứng dụng mà lƣu lƣợng truy cập nhắm đến Thƣờng port ẩn url lƣớt web, nhƣng thấy ứng dụng mạng nhƣ trò chơi yêu cầu nhập URL Nếu URL chứa port, xuất sau tên máy chủ trƣớc dấu hai chấm Ví dụ: “//www.example.com:8080” Thành phần bổ sung URL: Có ba phần bổ sung URL mà thấy sau phần Authority: đƣờng dẫn, truy vấn phân mảnh - Đƣờng dẫn (path) : Phần Authority URL đƣa trình duyệt (hoặc ứng dụng khác) đến máy chủ mạng Đƣờng dẫn (hoạt động nhƣ đƣờng dẫn Windows, macOS Linux) dẫn đến thƣ mục file máy chủ Đƣờng dẫn đƣợc bắt đầu dấu gạch chéo có dấu gạch chéo thƣ mục thƣ mục nhƣ sau:www.example.com/folder/subfolder/filename.html - Truy vấn (query): Phần truy vấn URL đƣợc sử dụng để xác định thứ thành phần cấu trúc đƣờng dẫn cố định Phần truy vấn đƣợc bắt đầu dấu hỏi chấm theo sau đƣờng dẫn (hoặc sau tên máy chủ khơng có đƣờng dẫn) Ví dụ, dƣới URL thực tìm kiếm “wifi extender” trang Amazon https://www.amazon.com/s/ref=nb_sb_noss_2?url=search- lias%3Daps&fieldkeywords=wi-fi+extende - Phân mảnh(fragment): Thành phần cuối URL thấy đƣợc gọi phân mảnh Phân mảnh đƣợc bắt đầu dấu thăng (#) đƣợc sử dụng để xác định vị trí cụ thể trang web Khi viết code cho trang web, nhà thiết kế tạo liên kết neo (anchor) cho văn cụ thể nhƣ tiêu đề Khi sử dụng phân mảnh thích hợp cuối URL, trình duyệt tải trang sau chuyển đến liên kết neo Liên kết neo URL với phân mảnh thƣờng đƣợc sử dụng để tạo mục lục trang web giúp điều hƣớng dễ dàng 1.1.2 Tổng quan URL độc Trình duyệt dùng lõi chromium nhƣng khác giao diện nên sử dụng version chrome Phần khai báo Microsoft Edgeđƣợc thêm nhƣ sau: Ngồi cịn tham khảo key hỗ trợ khác [18] 4.3 Phát triển API phát URL độc CSDL dấu hiệu Cập nhật URL phát URL Extension URL phát URL dấu hiệu No học máy URL lạ Yes Yes Website API Phát URL độc Hình 4.4 Kiến trúc API phát URL độc Hình 4.4 thể kiến trúc API phát URL độc Theo đó, API phát URL độc bao gồm mô đun mơ đun phát URL độc dấu hiệu phát URL độc sử dụng học máy Nhƣ vậy, sau nhận đƣợc thông tin URL từ Extension API phát URL độc kiểm tra URL có trong sở liệu dấu hiệu API hay không Thành phần sở liệu dấu hiệu đƣợc mô tả phần sau báo cáo Nếu URL có nằm sở liệu dấu hiệu trả kết cho Extension để thông báo cho ngƣời dùng Ngƣợc lại URL không nằm sở liệu dấu hiệu đƣợc API kiểm tra 59 phƣơng pháp học máy Tại URL đƣợc trích xuất hành vi đặc trƣng Danh sách thuộc tính hành vi URL đƣợc trình bày mục 2.3 báo cáo Sau có đƣợc thuộc tính hành vi URL API sử dụng thuật tốn Random Foress để kiểm tra xem URL có phải URL độc hay URL lành Trong mục 2.4 báo cáo thể số kết thực nghiệm phát URL sử dụng thuật toán học máy Random Foress 4.3.1 Xây dựng sở liệu dấu hiệu Thành phần sở liệu dấu hiệu phát URL độc bao gồm: - Danh sách URL độc đƣợc thu thập từ nguồn tin cậy - Danh sách URL domain đƣợc thu thập từ nguồn tin cậy Để xây dựng sở liệu dấu hiệu nhằm phát URL độc, báo cáo tác giả sử dụng cơng cụ MongoDB MongoDB cài đặt nhiều hệ điều hành khác nhƣng đề tài Ubuntu đƣợc chọn làm hệ điều hành để xây dựng môi trƣờng phát triển hệ thống, tính phổ biến, miễn phí dễ tùy chỉnh a) Cài đặt MongoDB Để cài đặt MongoDB Ubuntu cần thực bƣớc sau: Bước 1: Thêm MongoDB public GPG key $sudo apt-key adv keyserver hkp://keyserver.ubuntu.com:80 –recv 2930ADAE8CAF5059EE73BB4B58712A2291FA4AD5 Bước 2: Thêm MongoDB repository vào thƣ mục sources.list.d $ echo "deb [ arch=amd64,arm64,ppc64el,s390x ] http://repo.mongodb.com/apt/ubuntu xenial/mongodb-enterprise/3.6 multiverse" | sudo tee /etc/apt/sources.list.d/mongodb-enterprise.list Bước 3: Cập nhật repositories $ sudo apt-get update Bước 4: Cài đặt MongoDB $ sudo apt-get install -y mongodb-enterprise Lệnh cài đặt mongodb-org - package bao gồm thành phần: 60 - mongodb-org-server: Ứng dụng tiêu chuẩn MongoDB giúp trì service ln đƣợc chạy khởi động hệ điều hành - mongodb-org-mongos: Ứng dụng MongoDB Shard - ứng dụng quản lý cluster MongoDB - mongodb-org-tools: Bao gồm công cụ để khôi phục, nhập, xuất liệu Bước 5: Chạy MongoDB - Start service MongoDB: $ sudo systemctl start mongod - Restart service MongoDB: $ sudo systemctl restart mongod - Stop service MongoDB: $ sudo systemctl stop mongod - Start khởi động hệ điều hành: $ sudo systemctl enable mongod b) Cấu hình MongoDB File cấu hình MongoDB đƣợc lƣu thƣ mục /etc/mongod.conf, đƣợc viết dƣới định dạng YAML Các thành phần file cấu hình: - dbPath: nơi lƣu trữ file sở liệu Mặc định là: /var/lib/mongodb - systemLog: lựa chọn cho việc log:  destination: lựa chọn đầu file hay syslog  logAppend: thêm vào cuối file log tồn log  path: lơi lƣu trữ thông tin log ứng dụng Mặc định /var/log/mongodb/mongod.log - net: lựa chọn cấu hình mạng MongoDB:  port: cổng mongodb sử dụng để chạy ứng dụng (service)  bindIP: địa IP MongoDB  security: trao quyền truy cập dựa vai trò c) Truy vấn MongoDB sử dụng Python Trƣớc sử dụng cần cài đặt python python-pip Sau chạy lệnh sau để cài đặt pymongo để kết nối với MongoDB: sudo pip install pymongo d) Thiết kế sở liệu  Cấu trúc signature database o id: ObjectID 61   o url: string o label: bool (True: Bẩn/ False: Sạch) Cấu trúc exclude database o id: ObjectID o url: string Thao tác với MongoDB python thông qua thƣ viện Mongoose o Tìm kiếm result = collection.find_one({"url": url}) o Thêm liệu collection.insert({“url”:url, “label”: label})  Cập nhật liệu vào sở liệu o Đọc liệu data collect đƣợc file *.csv lƣu vào sở liệu server Ở đây, dùng hàm collection.insert_many để nâng cao khả kết nối chƣơng trình 4.3.2 Cài đặt mơ đun phát URL độc a) Phát URL độc dấu hiệu Đây phần kiểm tra URL sở liệu dấu hiệu URL độc Về chất gần nhƣ MongoDB hỗ trợ ngƣời dùng tìm kiếm URL có tồn sở liệu dấu hiệu Đoạn Script dƣới mơ tả q trình kết nối kiểm tra URL sở liệu dấu hiệu result = collection.find_one({"url": url}) return create_response(result['label'], 'database')  Kết trả cho phía Extension JSON chƣa hai trƣờng liệu:  label: Nhận giá trị tƣơng đƣơng với URL hay bẩn  source: database, có nghĩa URL đƣợc phát thơng qua database b) Phát URL độc học máy (thơng qua thuật tốn Random Forest) 62 Bƣớc tạo object class Detector Đây class đƣợc implement thuật toán Random Forest Hàm tạo class Detector gồm việc chính:  Khởi động server spark, load model pipeline: self.spark = SparkSession\ builder\ appName("Detecting-Malicious-URL App")\ getOrCreate() self.model = RandomForestModel.load("model/trained") self.pipline_fit = PipelineModel.load("model/pipeline")  Detector.predict(url) phƣơng thức class Detector Nó nhận vào thông tin URL tiến hành xác định xem URL lành hay độc dựa model đƣợc huấn luyện từ trƣớc def predict(self, url): df = self.spark.createDataFrame([(url, 0)], ['url', 'label']) predict_input = self.pipline_fit.transform(df) predict_result = self.model.transform(predict_input) return int(predict_result.collect()[0]['prediction'])  Sau có class Detector, việc phát URL độc thông qua học máy đƣợc thực thông qua đoạn script: detector = Detector() is_malicous = detector.predict(url) return create_response(is_malicous, "machine_learning") Tƣơng tự nhƣ phát thông qua sở liệu dấu hiệu, liệu trả bao gồm hai trƣờng nhƣ sau:  label: Nhận giá trị tƣơng đƣơng với URL hay bẩn  source: machine_learning, URL đƣợc phát thông qua hệ thống học máy 4.4 Cài đặt ứng dụng phát URL độc 4.4.1 Cài đặt Extension 63 Để cài Extension trình duyệt web, ngƣời sử dụng truy cập vào [19] để tải phiên tƣơng ứng với trình duyệt web mà sử dụng Sau ngƣời dùng truy cập tải Extension giải nén cài đặt trình duyệt web Để cài đặt Extension, trình duyệt web, ngƣời dùng truy cập vào địa chỉ: chrome://extensions/ Chọn load unpacked trỏ đến thƣ mục chứa code extension Hình 4.5 Cài đặt Extension trình duyệt web ngƣời sử dụng Khi thiết lập nó, biểu tƣợng đại diện cho extension đƣợc đặt bên phải địa Hình 4.6 Mơ tả plugin cơng cụ chrome Tập tin popup.html xây dựng giao diện cho extension: 64 Hình 4.7 Giao diện ngƣời dùng extension cài đặt xong 4.4.2 Cài đặt API máy chủ Môi trƣờng cài đặt: Python version 3.6; Spark version 2.3.0; Hadoop version 2.7; Java (JDK) 8; Ubuntu 18.04 Phần cứng: RAM 16GB; Intel(R) Xeon(R) CPU E5-2640 v3 @ 2.60GHz 4.5 Thực áp dụng ứng dụng phát URL độc trình duyệt web Trong phần này, báo cáo trình bày số kết kiểm tra khả chức ứng dụng phát URL triển khai lên trình duyệt web ngƣời sử dụng a) Kiểm tra chức phát URL độc dựa tập dấu hiệu: Để thực nghiệm ứng dụng này, tác giả kiểm thử đƣờng link: http://mysoftbank-security.com/wap_login.htm Khi ngƣời dùng truy cập vào đƣờng link ứng dụng phát URL độc thị cảnh báo nhƣ hình 4.8 65 Hình 4.8 Kết kiểm tra URL độc sử dụng tập dấu hiệu b) Kiểm tra chức phát URL độc dựa học máy Vẫn sử dụng đƣờng link nhƣng lúc ngƣời dùng thay đổi URL chút thành: http://my-softbank-security.com/login.htm, trình duyệt chuyển hƣớng sang trang cảnh báo, nhiên lần này, cảnh báo phát sở học máy Hình 4.9 Kết kiểm tra URL độc sử dụng học máy c) Kiểm thử số chức khác - Kiểm thử khả tùy chỉnh người dùng: Kịch kiểm thử ngƣời dùng vào trang web mà ứng dụng phát URL độc nghi ngờ trang Web độc Ví dụ truy cập là: http://www.dne.website/2019/11/t49-duy-manh-tiet-lo-cuoc-hoi-thoai-bi.html?g7t Lúc ngƣời dùng muốn truy cập vào trang web ngƣời dùng clik vào nút (nhƣ hình 4.10) 66 Hình 4.10 Nút cung cấp tính mở rộng tùy chỉnh Nhƣ ngƣời dùng tiếp tục truy cập vào URL mà khơng bị chặn Hình 4.11 Kết ngƣời dùng sử dụng chức tùy chỉnh Bên cạnh đó, ngƣời dùng sử dụng chức tự điều chỉnh extension lƣu đƣờng link ngƣời dùng lại để sau ngƣời dùng vào trang web khơng bị thơng báo độc Ngƣợc lại, ngƣời dùng khơng muốn xóa URL mà vừa tùy chỉnh Hình dƣới liệu kê chức lƣu thông tin URL ngƣời dùng extension Hình 4.12 Danh sách URL đƣợc lƣu extension ngƣời dùng tùy chỉnh - Kiểm thử khả tùy chỉnh người dùng: Kịch kiểm thử ngƣời dùng vào trang web mà ứng dụng phát URL độc nghi ngờ trang Web độc Tuy nhiên, lúc ngƣời dùng biết là URL ngƣời dùng báo cáo lại cho ngƣời quan trị cách 67 viết lại đƣờng link click vào nút “REPORT URL” Giao diện hỗ trợ ngƣời dùng thơng báo kết cho ngƣời quản trị nhƣ hình 4.13 Hình 4.13 Giao diện kết nối ngƣời dùng với quản trị hệ thống Sau nhận đƣợc báo cáo từ ngƣời dùng thông tin URL độc ngƣời quản trị kiểm tra ghi nhận thơng tin Sau ngƣời quản trị có kế hoạch huấn luyện lại mơ hình phát URL độc cần thiết 4.6 Kết luận trình thử nghiệm Bảng 4.1 Kết thực nghiệm theo kịch kiểm thử Các test case Kết Ghi a) Phát URL độc dựa Passed tập dấu hiệu 100% b) Phát URL độc dựa Passed vào phƣơng pháp học máy Mỗi địa chỉ/tên miền đƣợc đánh giá (tỷ lệ tƣơng đồng) so với hồ sơ gốc c) Kiểm thử với số chức Passed khác 100% 68 4.7 Kết luận chƣơng - Trình bày tổng quan kiến trúc ứng dụng phát URL độc bao gồm : Extension API phát URL độc - Mô tả chi tiết cách thức xây dựng cài đặt Extension trình duyệt web - Trình bày kiến trúc API phát URL độc - Mơ tả chi tiết q trình thực kiểm thử chức ứng dụng phát URL độc - Thực kiểm thử ứng dụng phát URL độc Kết kiểm thử cho thấy URL độc phát xác URL độc dựa tập dấu hiệu hành vi URL 69 KẾT LUẬN Trong luận văn này, học viên giải đƣợc vấn đề đặt đề tài nhƣ sau: - Trình bày khái niệm URL URL độc, bên cạnh báo cáo phân loại số loại URL độc phổ biến - Khảo sát đánh giá số phƣơng pháp công cụ phát URL độc - Đề xuất mơ hình phát URL độc cách sử dụng tập dấu hiệu phân tích hành vi URL - Nghiên cứu phƣơng pháp phát URL độc sử dụng phƣơng pháp học máy - Liệt kê danh sách thuộc tính, hành vi, đặc trƣng URL phục vụ mơ hình phát URL độc sử dụng phƣơng pháp học máy - Mô tả số thuật toán học máy phổ biến áp dụng việc phân loại URL độc URL - Tiến thành thực thực nghiệm đánh giá mơ hình phát URL độc phƣơng pháp học máy - Trình bày tổng quan kiến trúc ứng dụng phát URL độc bao gồm : Extension API phát URL độc - Mô tả chi tiết cách thức xây dựng cài đặt Extension trình duyệt web - Trình bày kiến trúc API phát URL độc - Mơ tả chi tiết q trình thực kiểm thử chức ứng dụng phát URL độc - Thực kiểm thử ứng dụng phát URL độc Kết kiểm thử cho thấy URL độc phát xác URL độc dựa tập dấu hiệu hành vi URL 70 TÀI LIỆU THAM KHẢO Jason Hong The Current State of Phishing Attacks Communications of the ACMVolume 55Issue 1January 2012 pp 74– 81https://doi.org/10.1145/2063176.2063197 B Liang, J Huang, F Liu, D Wang, D Dong and Z Liang, "Malicious Web Pages Detection Based on Abnormal Visibility Recognition," 2009 International Conference on E-Business and Information System Security, 2009, pp 1-5, doi: 10.1109/EBISS.2009.5138008 Dharmaraj Rajaram Patil and JB Patil 2015 Survey on Malicious Web Pages Detection Techniques International Journal of u-and e-Service, Science and Technology (2015) pp 1-12 tỉ email, file, URL phát Việt Nam có liên quan đến mã độc https://nld.com.vn/cong-nghe/1-ti-email-file-url-phat-hien-tai-viet-nam-colien-quan-den-ma-doc-2018080209521915.htm [Ngày truy nhập 7/2020] Doyen Sahoo, Chenghao Liu, and Steven C.H Hoi Malicious URL Detection using Machine Learning: A Survey arXiv:1701.07179v2 [cs.LG] 16 Mar 2017 Hung Le, Quang Pham, Doyen Sahoo, Steven C.H Hoi URLNet: Learning a URL Representation with Deep Learning for Malicious URL Detection arXiv:1802.03162v2 [cs.CR] Mar 2018 Y Alshboul, R Nepali, and Y Wang, “Detecting malicious short urls on twitter,” 2015 M Khonji, Y Iraqi, and A Jones, “Phishing detection: a literature survey,” IEEE Communications Surveys & Tutorials, vol 15, no 4, pp 2091–2121, 2013 R K Nepali and Y Wang, “You look suspicious!!: Leveraging visible attributes to classify malicious short urls on twitter,” in 2016 49th Hawaii International Conference on System Sciences (HICSS) IEEE, 2016, pp 2648–2655 71 M Kuyama, Y Kakizaki, and R Sasaki, “Method for detecting a malicious domain by using whois and dns features,” in The Third International Conference on Digital Security and Forensics (DigitalSec2016), 2016, p 74 10 Support Vector Machine, https://machinelearningcoban.com/2017/04/09/smv/, truy nhập 11/2018 [Ngày truy nhập 7/2020] 11 Robert E Schapire , “Random Forests – Leo Breiman, Statistics Department, University of California, Berkeley, CA 94720, 2001 12 Developer Information https://www.phishtank.com/developer_info.php [Ngày truy nhập 8/2020] 13 URLhaus Database Dump https://urlhaus.abuse.ch/downloads/csv/ [Ngày truy nhập 8/2020] 14 dataset URL http://downloads.majestic.com/majestic_million.csv [Ngày truy nhập 8/2020] 15 Malicious_n_Non-Malicious URL https://www.kaggle.com/antonyj453/urldataset#data.csv [Ngày truy nhập 8/2020] 16 Browser compatibility for manifest.json https://developer.mozilla.org/enUS/docs/Mozilla/Addons/WebExtensions/Browser_compatibility_for_manif est.json [Ngày truy nhập 7/2020] 17 JSON manifest file example https://docs.microsoft.com/en-us/microsoftedge/extensions/api-support/supported-manifest-keys/json-manifestexample [Ngày truy nhập 7/2020] 18 https://drive.google.com/drive/u/2/folders/1ba4udiFvqwphk08Y6G8yy904e9 90OY_O [Ngày truy nhập 7/2020] 19 Xuan, Cho & Dinh, Hoa & Victor, Tisenko (2020) Malicious URL Detection based on Machine Learning International Journal of Advanced Computer Science and Applications 11 10.14569/IJACSA.2020.0110119 72 20 https://tinnhiemmang.vn/danh-sachden?fbclid=IwAR1KF0UY3M5yf3XXdOCmXN4WFF25LI2d5cnnPhKQ4F soqzIvrEK3fgvrgK0 21 Online.gov.vn 73 ... tài "NGHIÊN CỨU PHÁT HIỆN URL ĐỘC DỰA TRÊN PHƢƠNG PHÁP HỌC MÁY " Đề tài kết hợp phƣơng pháp học máy công cụ mã nguồn mở để phát đƣợc URL độc CHƢƠNG 1: TỔNG QUAN VỀ URL ĐỘC VÀ VẤN ĐỀ PHÁT HIỆN URL. .. phƣơng pháp công cụ phát URL độc - Đề xuất mơ hình phát URL độc cách sử dụng tập dấu hiệu phân tích hành vi URL 23 CHƢƠNG 2: PHÁT HIỆN URL ĐỘC SỬ DỤNG HỌC MÁY 2.1 Tổng quan phát URL độc sử dụng học. .. 35 - Nghiên cứu phƣơng pháp phát URL độc sử dụng phƣơng pháp học máy Kết nghiên cứu cho thấy, để phát URL độc sử dụng phƣơng pháp học máy cần quan tâm đến vấn đề là: hành vi, đặc trƣng URL thuật

Ngày đăng: 31/01/2023, 22:48

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w