Tiếp cận giải quyết vấn đề mã độc bằng phương pháp máy học và ứng dụng Bản đồ tự tổ chức SOM, góp phần bảo vệ an toàn dữ liệu cho các hệ thống công nghệ thông tin.. Phương pháp tìm ng
Trang 1GVHD : TS Trịnh Ngọc Minh Học viên : Nguyễn Quốc Doanh
1
19/01/2013
ỨNG DỤNG BẢN ĐỒ TỰ TỔ CHỨC SOM (SELF ORGANIZING MAP) PHÁT HIỆN PHÁT TÁN
VIRUS MÁY TÍNH QUA HÀNH VI
Trang 2Giới thiệu đề tài
Mục tiêu đề tài
Cơ sở lý thuyết
Kết quả nghiên cứu
Kết luận và hướng phát triển
Trang 3 Tiếp cận giải quyết vấn đề mã độc bằng phương pháp máy học
và ứng dụng Bản đồ tự tổ chức (SOM), góp phần bảo vệ an
toàn dữ liệu cho các hệ thống công nghệ thông tin
2
tán virus máy tính vẫn chưa được giải quyết trọn vẹn
nhiều biến thể, nhiều loại hình quấy rối gây thiệt hại cho hệ thống mạng
Trang 4 Cảnh báo đến nhà quản trị khi có mã độc tấn công xâm nhập
chạy trên hệ điều hành Linux
Trang 6SOM là một trong những mô hình của mạng nơron, là kỹ thuật trực quan hóa dữ liệu Mô hình đầu tiên được mô tả bởi giáo sư Teuvo Kohonen và thường được gọi là mạng Kohonen
1 Khái niệm
Trang 7m 3 , ,m n)
6
Trang 8Các nơron trong lưới có liên kết đến các nơron lân cận bằng một
quan hệ láng giềng
3 1 Khởi tạo
n T
x x
x
Xét một tập dữ liệu là các vectơ trong không gian n chiều:
Một nơron thứ i là một vectơ mẫu có kích thước p:
p T
ip i
3 Thuật toán SOM
Trang 9Tính toán khoảng cách giữa x đến tất cả các nơron trong bản đồ, trong đó c là đơn vị có mẫu gần x nhất gọi là BMU được xác định như sau:
3.2 Xác định BMU (Best Matching Unit)
()[
()
()
()
1(t m t t h t x t m t
với t: là thời gian
x: véc-tơ đầu vào ngẫu nhiên rút từ tập dữ liệu đầu vào tại thời điểm t α(t): hệ số tỷ lệ học
h ci (t): nhân lân cận quanh c tại thời điểm t
8
Trang 104 Quá trình học của thuật toán SOM
Bước 8: Gán t=t+1 Nếu t > T hay lỗi lượng tử trung bình < Epsilon thì DỪNG thuật toán Ngược lại, quay về bước 3
)]
()
()[
()
()
()
1(t m t t h t x t m t
Bước 1: Khởi tạo bước học đầu tiên t=0
Bước 2: Khởi tạo ngẫu nhiên các nơron
Bước 6: Cập nhật trọng số của các nơron chiến thắng
Bước 7: Hiệu chỉnh trọng số vectơ của nơron chiến thắng và
nơron lân cận bằng công thức:
Trang 11xi : véc-tơ dữ liệu huấn luyện
- Bản đồ “tốt” là bản đồ có lỗi lượng tử trung bình thấp nhất
- Lỗi lượng tử trung bình đo sự khác biệt giữa véc-tơ học và nơron kết quả của quá trình học, được tính theo công thức sau:
Trang 126 Phương pháp tìm ngưỡng cảnh báo:
- Độ sai khác giới hạn giữa trạng thái của hệ thống hiện tại và trạng thái của hệ thống khi bị mã độc tấn công
- Ta cần phải hiệu chỉnh ngưỡng cảnh báo để hệ thống IDS hoạt động hiệu quả nhất qua các độ đo
- Ban đầu lỗi lượng tử trung bình là ngưỡng cảnh báo
Trang 13• TN(True Nagitive): Hệ thống bình thường, IDS không cảnh báo
• TP(True Positive): Hệ thống có mã độc tấn công, IDS có cảnh báo
• FN(Fasle Nagitive): Hệ thống bị tấn công, IDS không cảnh báo
• FP(False Positive) : Hệ thống bình thường nhưng IDS lại cảnh báo
Trang 141 Nhóm tài nguyên chính của máy IDS
• Bộ nhớ máy chủ IDS (Server memory)
• Tài nguyên của bộ vi xử lí (Processor Usage)
• Tài nguyên mạng (Network Usage)
• Tình trạng CPU, RAM,
• Số tiến trình xử lý, …
• Số lượng gói tin gửi, nhận …
2 Đề xuất tham số đặc trưng
Trang 152.1 Tài nguyên bộ nhớ
14
Trang 16 Đề xuất tham số đặc trưng tài nguyên bộ nhớ
• MemFree: Bộ nhớ trống
• Buffers: Dung lượng bộ nhớ vật lý được sử dụng cho các bộ
đệm
• Cache: Bộ nhớ đệm
• HighFree: Dung lượng bộ nhớ còn trống ở vùng nhớ cao
• LowFree: Dung lượng bộ nhớ trống của vùng bộ nhớ địa chỉ
Trang 172.2 Tài nguyên của bộ vi xử lí
16
Trang 18 Đề xuất tham số đặc trưng tài nguyên bộ vi xử lý
• load.for1min: % bộ vi xử lý sử dụng trong 1 phút cuối cùng
• load.for5min: % bộ vi xử lý sử dụng trong 5 phút cuối cùng
• load.for15min: % bộ vi xử lý sử dụng trong 15 phút cuối cùng
• Uptime: Số giây hệ thống đã chạy
• Idletime: Số giây idle hệ thống
• processes : Số lượng tiến trình kể từ khi khởi động
• procs_running: Số các tiến trình trong trạng thái đang chạy
• procs_blocked: Số tiến trình bị chặn chờ đợi cho I/O để hoàn thành
Trang 192.3 Tài nguyên mạng
18
Trang 20• SocketTotal: Tổng số lượng socket (socket là một quá trình
thông tin mạng thực hiện bằng cách sử dụng giao thức liên mạng trên tầng vận chuyển Ethernet)
• ICMP: Số lượng gói tin ICMP gửi tới máy chủ
• UDP: Số lượng gói tin UDP gửi tới máy chủ
• TCP: Số lượng TCP kết nối tới máy chủ
Đề xuất tham số đặc trưng tài nguyên mạng
Trang 213 Thuật toán xây dựng các đặc trưng
1 Chọn danh sách chứa các tham số đặc trưng n=19 Đưa danh sách tham số đặc trưng này vào mảng chuỗi
2 Gọi hàm để rút trích thông tin trong danh sách chứa tham số đặc trưng
3 Khởi tạo một phiên làm việc (session) để truy xuất giá trị của các tham số đặc trưng từ cấu hình cho trước Sau khi nhận giá trị thì chương trình đóng phiên làm việc
4 Các giá trị của danh sách tham số đặc trưng đã được chuẩn hóa trong đoạn[0,1] trước khi đưa vào quá trình giám sát với thuật toán "Bản đồ tự tổ chức"
5 Kết quả trả về của thuật toán xây dựng đặc trưng là một mảng kết nối với mỗi phần tử trong mảng chứa một lớp các thông tin của tham số đặc trưng trong danh sách đặc trưng ban đầu
20
Trang 22Mạng Internet
Client extanal
Hình 5.1 Mô hình tổng quát thực nghiệm phát hiện phát tán
mã độc trên máy IDS
Trang 23II Xây dựng môi trường thực nghiệm
1/ Phần mềm tạo máy ảo VMware Workstation
2/ Phần mềm đóng băng ổ cứng Deep Freeze
Virtual Machine
Virtual Ethernet Switch [VMnet1]
Virtual Machine Mail server
Các máy kết nối với nhau thành một
mạng LAN ảo VMnet Switch
22
Trang 24III Chương trình thực nghiệm phát hiện xâm nhập mã độc
Trang 251 Tải tập tin dữ liệu học
24
Trang 262 Hiển thị nội dung véc-tơ học
Trang 273 Khởi tạo bản đồ
26
Trang 284 Huấn luyện bản đồ
Trang 295 Dò tìm xâm nhập bất thường
28
Trang 306 Bản đồ phân bố dữ liệu
6.1 Bản đồ phân bố dữ liệu thứ 1
Trang 316.2 Bản đồ phân bố dữ liệu thứ 2
30
Trang 326.3 Bản đồ phân bố dữ liệu thứ 3
Trang 337 Tổng hợp kết quả giám sát phát hiện mã độc
Số lần giám sát
Số mã độc phát tán TN TP FN FP A R P
Nhận xét: Hệ thống IDS phát hiện phát tán mã độc tương đối
chính xác, tuy nhiên ở lần giám sát 1, 2, và 3 qua thử nghiệm có một số trường hợp hệ thống bị tấn công nhưng không cảnh báo
vì lí do các cuộc tấn công chưa đạt đến ngưỡng cảnh báo
Trang 34- Xây dựng bộ tham số đặc trưng trên hệ thống máy IDS
- Tìm hiểu nghiên cứu các mẫu virus, worm lây lan trên hệ thống mạng làm ảnh đến tài nguyên mạng máy tính
- Xây dựng Lab và cài đặt ứng dụng Mail server để làm thực nghiệm
Trang 352 Hạn chế của đề tài
Trích chọn đặc trưng trong quá trình tạo tập véc-tơ học gặp nhiều khó khăn vì thiếu mẫu thử
3 Hướng phát triển đề tài
+ Nghiên cứu xây dựng cơ chế bảo vệ hệ thống bởi các cuộc tấn công (SPAM, DoS/DDoS, phishing, …) trên các website và cổng
thông tin công cộng
34
+ Xây dựng bộ tham số đặc trưng tổng quát hơn
+ Nghiên cứu các hình thức tấn công của (trojan horse, backdoor…) để bổ sung vào tập huấn luyện