Tức là dựa trên các dấu hiệu của các vụ tấn công đãbiết, các phương pháp này phát hiện ra xâm nhập mạng bằng cách so sánh các giátrị đặc tả với một dãy các ký tự tấn công được cung cấp b
Trang 1NGUYỄN VĂN DIỄN
NGHIÊN CỨU GIẢI PHÁP PHÁT HIỆN XÂM NHẬP MẠNG MÁY TÍNH BẤT THƯỜNG DỰA TRÊN KHAI PHÁ DỮ LIỆU
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Thái Nguyên - 2014
Số hóa bởi Trung tâm Học liệu h t t p : / / www l r c- tn u e d u v n /
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan đề tài “Nghiên cứu Giải pháp phát hiện xâm nhập mạng máytính bất thường dựa trên Khai phá dữ liệu” là công trình nghiên cứu của riêngtôi Đề tài được hoàn thành dưới sự hướng dẫn của Thầy TS Nguyễn NgọcCương Những kết quả nghiên cứu, thử nghiệm được thực hiện hoàn toàn kháchquan và trung thực Các số liệu, kết quả trình bày trong luận văn là hoàn toàntrung thực và chưa từng được công bố trong bất cứ công trình nào
Các tài liệu tham khảo sử dụng trong luận văn đều được dẫn nguồn (cóbảng thống kê các tài liệu tham khảo) hoặc được sự đồng ý trực tiếp của tác giả
Nếu xảy ra bất cứ điều gì không đúng như những lời cam đoan trên, tôi xinchịu hoàn toàn trách nhiệm
Hà Nội, ngày 18 tháng 07 năm 2014
TÁC GIẢ
Nguyễn Văn Diễn
Trang 3Cuối cùng, em xin kính chúc Quý thầy cô, đồng nghiệp, gia đình dồi dào sứckhỏe và thành công.
Trân trọng cảm ơn!
Trang 4MỤC LỤC
i LỜI CẢM ƠN ii DANH MỤC TỪ VIẾT TẮT .vi DANH
MỤC BẢNG vii
DANH MỤC HÌNH .
viii MỞ ĐẦU ix
TỔNG QUAN VỀ NHIỆM VỤ CỦA LUẬN VĂN xi
CHƯƠNG 1: HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG VÀ PHƯƠNG PHÁP PHÁT HIỆN XÂM NHẬP MẠNG 1
1 1 Hệ thống phát hiện xâm nhập mạng IDS (Intrusion Detection System) 1
1.1.1 Định nghĩa 1
1.1.2 Vai trò, chức năng của IDS 1
1.1.3 Mô hình IDS mức vật lý 2
1.1.4 Kiến trúc và hoạt động bên trong mô hình hệ thống IDS 3
1.1.5 Phân loại IDS 6
1.1.6 Một số kiểu tấn công cơ bản vào hệ thống mạng 8
1 2 Một số phương pháp phát hiện bất thường trong hệ thống IDS 11
1.2.1 Phương pháp tiếp cận dựa trên xác suất thống kê 11
1.2.2 Phương pháp tiếp cận dựa trên trạng thái 12
1.2.3 Phương pháp tiếp cận dựa trên hệ chuyên gia 12
1.2.4 Phương pháp tiếp cận dựa trên khai phá dữ liệu 13
1 3 Khai phá dữ liệu trong IDS 14
1.3.1 Định nghĩa khai phá dữ liệu 14
Trang 51.3.2 Nhiệm vụ của khai phá dữ liệu 16
1.3.3 Các loại dữ liệu được khai phá 17
1.3.4 Quy trình khai phá dữ liệu 18
1.3.5 Một số phương pháp khai phá dữ liệu 19
1.3.6 Một số kỹ thuật dùng trong khai phá dữ liệu 21
CHƯƠNG 2: PHƯƠNG PHÁP PHÁT HIỆN BẤT THƯỜNG DỰA TRÊN KỸ THUẬT KHAI PHÁ DỮ LIỆU 26
2.1 Phát hiện bất thường dựa trên khai phá dữ liệu 26
2.1.1 Phương pháp phát hiện bất thường dựa trên khai phá dữ liệu 26
2.1.2 Kỹ thuật phát hiện xâm nhập dựa trên khai phá dữ liệu 26
2.2 Bài toán phát hiện phần tử dị biệt trong khai phá dữ liệu 28
2.2.1 Một số thuật toán phát hiện dị biệt trong khai phá dữ liệu 30
2.2.2 Mô hình phát hiện bất thường dựa trên kỹ thuật khai phá dữ liệu 36
CHƯƠNG 3: ĐỀ XUẤT TRIỂN KHAI THỬ NGHIỆM HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG .42
3.1 Bài toán phân cụm dữ liệu trong CSDL kết nối mạng 42
3.2 Thuật toán sử dụng cho bài toán ứng dụng 42
3.3 Đánh giá Thuật toán phân cụm ứng dụng trong bài toán 44
3.4 Ứng dụng thuật toán phân cụm K-medoids trong KPDL 48
3.4.1 Quy trình xử lý bài toán ứng dụng: 48
3.4.2 Tập hợp dữ liệu 49
3.4.3 Tiền xử lý 49
3.4.4 Tiến trình khai phá dữ liệu 51
3.5 Chương trình Demo 54
Trang 63.6 Nhận xét bài toán KPDL 59 KẾT LUẬN VÀ HƯỚNG PHÁP TRIỂN 61 TÀI LIỆU THAM KHẢO 62
Trang 7DANH MỤC TỪ VIẾT TẮT
ADAM Audit Data Analysis Mining
CSDL Cơ sở dữ liệu
DdoS Distributed Daniel of Servies
DOS Daniel of Services
HIDS Host Instrucsion Detection System
HTTP Hypertext Markup Languge
ICMP Internet Control Message Protocol
IDS Intrucsion Detection System IDDM
Intrucsion Detection Data Mining IPS
Intrucsion Prevention System
IP Internet Protocol
KPDL Khai phá dữ liệu LOF
Local Outlier Partor LSC
Local Sparsity Ratio
NIDS Networks Instrusion Detection System
MAC Media Accsess Controllers
SQL Structured Query Language
VPN Virtual Private Network
TCP Transmission Control Protocol
UDP User Datagram Protocol
Trang 8DANH MỤC BẢNG
Bảng 2.1: Danh sách các cảnh báo chưa rút gọn
Bảng 2.2: Danh sách các cảnh báo sau khi rút gọn
Bảng 3.1: Bảng thuộc tính CSDL mạng
Bảng 3.2: Thông tin chương trình cài đặt ứng dụng
Trang 9DANH MỤC HÌNH
Hình 1.1: Mô hình IDS vật lý
Hình 1.2: Kiến trúc Modul trong IDS
Hình 1.3: Mô hình thu thập dữ liệu ngoài luồng
Hình 1.4: Mô hình thu thập dữ liệu trong luồng
Hình 1.5: Modul phân tích, phát hiện tấn công
Hình 1.6: Quá trình khám phá tri thức
Hình 2.1: Gán giá trị để lượng hóa các cuộc tấn công trên sơ đồ
Hình 2.2: Minh họa bài toán phát hiện phần tử dị biệt
Hình 2.3: Khoảng cách Reach – dist
Hình 2.4: Phương pháp LOF
Hình 2.5: Thuật toán LSC – Mine
Hình 2.6: Mô hình phát hiện bất thường sử dụng kỹ thuật KPDL
Hình 2.7: Mô hình Modul tổng hợp
Hình 3.1: Lưu đồ thuật toán K-Medoids
Hình 3.2: Tiến trình phát hiện xâm nhập mạng sử dụng kỹ thuật phân cụmHình 3.3: Biểu diễn CSDL mạng
Hình 3.4: Biến đổi dữ liệu trong CSDL Hình
3.5: Gom cụm dữ liệu trong CSDL Hình 3.6:
Biểu diễn kết quả mẫu bất thường Hình
3.7: Giao diện Menu chính
Hình 3.8: Giao diện khai phá trên giao thức HTTP
Hình 3.9: Giao diện khai phá dữ liệu tự động
Hình 3.10: Giao diện tiền xử lý
Hình 3.11: Giao diện khai phá dựa trên ngưỡng kết nối
Trang 10MỞ ĐẦU
Ngày nay, Công nghệ thông tin nói chung và Ngành mạng máy tính nói riêng
đã được ứng dụng trong hầu hết các lĩnh vực quan trọng của đời sống, nó tác độngtrực tiếp đến sự tồn tại và phát triển của nền kinh tế tri thức và công nghệ Chính
vì vậy, việc áp dụng Công nghệ thông tin đã trở thành một yêu cầu không thểthiếu cho tất cả các tổ chức, doanh nghiệp Với tầm quan trọng như vậy, cần phải
có một hệ thống mạng doanh nghiệp ổn định, hoạt động liên tục, đảm bảo tính tincậy, nguyên vẹn, sẵn sàng và không thể từ chối để đáp ứng được mọi yêu cầu kếtnối và xử lý của công việc
Tuy nhiên, bên cạnh yêu cầu cấp thiết đó thì mạng máy tính luôn phải đốidiện với rất nhiều nguy cơ mất an toàn như các cuộc “viếng thăm” bất hợp pháphoặc các cuộc tấn công từ bên ngoài mạng luôn luôn có thể xảy ra với mức độngày càng phức tạp và tinh vi hơn Do đó, yêu cầu phải có một hệ thống có thểphát hiện tự động những hành vi thâm nhập không được phép để cảnh báonguy cơ và ngăn chặn đã trở nên cấp thiết
Đã có nhiều hướng nghiên cứu và xây dựng hệ thống cảnh báo và thâm nhậpdựa trên các phương pháp thâm nhập như: phát hiện thâm nhập dựa vào luật;
kỹ thuật phân biệt ý định người dùng, phân tích trạng thái phiên, phương phápphân tích thống kê … Tuy nhiên đây là các phương pháp phát hiện xâm nhập dựatrên các dấu hiệu bất thường Tức là dựa trên các dấu hiệu của các vụ tấn công đãbiết, các phương pháp này phát hiện ra xâm nhập mạng bằng cách so sánh các giátrị đặc tả với một dãy các ký tự tấn công được cung cấp bởi chuyên gia và được cậpnhật lại trong cơ sở dữ liệu Điểm hạn chế của các phương pháp trên là chúngkhông thể phát hiện ra các cuộc tấn công mới không có trong cơ sở dữ liệu So vớicác phương pháp trên thì phương pháp phân tích dựa trên kỹ thuật khai phá dữliệu có nhiều ưu điểm rõ rệt hơn Phương pháp này có thể sử dụng với cơ sở
dữ liệu chứa nhiều nhiễu, dữ liệu không đầy đủ, biến đổi liên tục, đặc biệtphương pháp này đòi hỏi mức độ sử dụng các chuyên gia không quá thườngxuyên Các ưu điểm này đem lại
Trang 11cho phương pháp sử dụng kỹ thuật khai phá dữ liệu có khả năng xử lý dữ liệu lớn,
sử dụng trong các hệ thống thời gian thực
Đây là lý do để chúng tôi chọn đề tài “ Nghiên cứu giải pháp phát hiện xâmnhập mạng máy tính bất thường dự trên khai phá dữ liệu” Đề tài sẽ tậptrung nghiên cứu phương pháp phát hiện xâm nhập mạng máy tính bất thườngbằng kỹ thuật khai phá dữ liệu để phát hiện các hành vi xâm nhập một cách tựđộng dựa trên dấu hiệu bất thường so với dữ liệu quá khứ
Trang 12TỔNG QUAN VỀ NHIỆM VỤ CỦA LUẬN VĂN
Với mục tiêu xây dựng được một giải pháp an toàn mạng cho các nhà quản trịmạng, luận văn tập trung vào nghiên cứu một số phương pháp phát hiện xâm nhậpmạng dựa trên cơ chế phát hiện bất thường của các hệ thống phát hiện xâmnhập mạng hiện nay Từ đó, đề xuất được ý kiến triển khai một hệ thống hoạt độngdựa theo một trong các phương pháp đó Với mong muốn đưa ra được một giảipháp tốt nhất cho việc đảm bảo an toàn, an ninh mạng, luận văn tập trung vào cácnhiệm vụ chính:
1 Nắm được kiến trúc, chức năng và cơ chế hoạt động của một hệ thống phát hiện xâm nhập mạng máy tính
2 Nghiên cứu một số phương pháp phát hiện xâm nhập mạng dựa trên cơ chế phát hiện bất thường của các hệ thống phát hiện xâm nhập mạng hiện nay
3 Nghiên cứu các phương pháp phát hiện bất thường trên CSDL dựa trên kỹ thuật Khai phá dữ liệu
4 Đề xuất phương pháp để triển khai chương trình ứng dụng phát hiện xâm nhập mạng máy tính bất thường dựa trên Khai phá dữ liệu
Bố cục của luận văn
Luận văn được chia làm 3 chương:
Chương 1: Hệ thống phát hiện xâm nhập mạng và các phương pháp phát hiện xâmnhập mạng
Chương 2: Phương pháp phát hiện bất thường dựa trên kỹ thuật khai phá dữ liệu
Chương 3: Đề xuất triển khai thử nghiệm hệ thống phát hiện xâm nhập mạng
Trang 13CHƯƠNG 1: HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG VÀ PHƯƠNG PHÁP
ảnh hưởng tới hệ thống mạng hoặc các thiết bị máy tính điện tử của bạn
Phát hiện xâm nhập là một tập hợp các kỹ thuật và phương pháp được sử
dụng để phát hiện các hành vi đáng ngờ ở cả trên mạng cũng như ở mức độ host
Hệ thống phát hiện xâm nhập (IDS) là hệ thống có nhiệm vụ theo dõi, phát
hiện và (có thể) ngăn cản sự xâm nhập, cũng như các hành vi khai thác trái phép tàinguyên của hệ thống được bảo vệ mà có thể dẫn đến việc làm tổn hại đến tính bảomật, tính toàn vẹn và tính sẵn sàng của hệ thống
Như vậy, hệ thống phát hiện xâm nhập là một thành phần quan trọng trong
hệ thống bảo mật mạng, hệ thống này liên tục theo dõi các hoạt động diễn ra trongmạng hay trên một máy nhất định, nó thu thập thông tin từ nhiều nguồn khácnhau, phân tích, tổng hợp để tìm ra những hiểm họa hay những dấu hiệu có khảnăng đe dọa tính toàn vẹn, tính sẵn sàng hay tính xác thực của hệ thống, đồng thời
hệ thống cũng có thể đưa ra các phản ứng đối với mỗi hành vi hiểm họa phát hiệnđược Tất cả những thông tin thu thập được và các cơ chế phát hiện cũng như
cơ chế ngăn chặn hay cơ chế phản ứng đều phải tuân theo các chính sách bảo mật
1.1.2 Vai trò, chức năng của IDS
- Phát hiện các nguy cơ tấn công và truy nhập trái phép
Đây là vai trò chính của một hệ thống phát hiện xâm nhập IDS, nó có nhiệm
vụ xác định những tấn công và truy nhập trái phép vào hệ thống mạng bên trong
Hệ thống IDS có khả năng hỗ trợ phát hiện các nguy cơ an ninh đe dọa mạng màcác hệ thống khác không có, kết hợp với hệ thống ngăn chặn xâm nhập IPS
(Intrusion
Trang 14Prevention System) giúp cho hệ thống chặn đứng, hạn chế các cuộc tấn công, xâm
nhập từ bên ngoài
- Tăng khả năng hiểu biết về những gì đang hoạt động trên mạng
IDS cung cấp khả năng giám sát xâm nhập và khả năng mô tả an ninh để cungcấp kiến thức tổng hợp về những gì đang chạy trên mạng từ góc độ ứng dụng cũngnhư góc độ mạng cùng với khả năng liên kết với phân tích, điều tra an ninh nhằmđưa ra các thông tin về hệ thống nhờ đó giúp người quản trị nắm bắt và hiểu
rõ những gì đang diễn ra trên mạng
- Khả năng cảnh báo và hỗ trợ ngăn chặn tấn công
IDS có thể hoạt động trong các chế độ làm việc của một thiết bị giám sát thụđộng hỗ trợ cho các thiết bị giám sát chủ động hay như là một thiết bị ngănchặn chủ động Hỗ trợ cho các hệ thống an ninh đưa ra các quyết định về lưu lượngdựa trên địa chỉ IP hoặc cổng cũng như đặc tính của tấn công Cảnh báo và ghi lạicác biến cố cũng như thực hiện bắt giữ gói lưu lượng khi phát hiện tấn công để cungcấp cho nhà quản trị mạng các thông tin để phân tích và điều tra các biến cố
Ngay sau khi các phép phân tích và điều tra được thực hiện, một quy tắc loại
bỏ lưu lượng sẽ được đưa ra dựa trên kết quả phân tích, điều tra đó Tổ hợpcủa những thuộc tính và khả năng này cung cấp cho nhà quản trị mạng khả năngtích hợp IDS vào mạng và tăng cường an ninh đến một mức độ mà trước đây khôngthể đạt đến bằng các biện pháp đơn lẻ như bức tường lửa
1.1.3 Mô hình IDS mức vật lý
Hình 1.1: Mô hình IDS mức vật lý
Trang 15- Bộ cảm ứng (Sensor): giám sát các lưu lượng bên trong các khu vực mạng
khác nhau, nhằm thu thập các thông tin, dữ liệu và hoạt động trong mạng
- Máy chủ lưu trữ dữ liệu tập trung ( Centralize database server): nơi tập
trung lưu trữ thông tin, dữ liệu do các bộ cảm ứng gửi về
- Giao diện người dùng ( User Interface): giúp người quản trị mạng quản lý,
giám sát hệ thống
1.1.4 Kiến trúc và hoạt động bên trong mô hình hệ thống IDS
Hệ thống phát hiện xâm nhập bao gồm 3 modul chính:
- Modul thu thập thông tin, dữ liệu
- Modul phân tích, phát hiện tấn công
- Modul phản ứng
Hình 1.2: Kiến trúc Modul trong IDS
+ Modul thu thập thông tin, dữ liệu: Modul này có nhiệm vụ thu thập các gói
tin trên mạng để đem phân tích Trong hệ thống mạng thông thường IDS sẽđược đặt ở vị trí mà ta cần giám sát
Trang 16Có hai mô hình chính để thu thập dữ liệu đó là : Mô hình ngoài luồng và Môhình trong luồng.
+ Mô hình thu thập dữ liệu ngoài luồng: Trong mô hình ngoài luồng không
can thiệp trực tiếp vào luồng dữ liệu Luồng dữ liệu vào ra hệ thống mạng sẽ đượcsao một bản và được chuyển tới modul thu thập dữ liệu
Theo cách tiếp cận này hệ thống phát hiện xâm nhập IDS không làm ảnhhưởng tới tốc độ lưu thông của mạng
Hình 1.3: Mô hình thu thập dữ liệu ngoài luồng
+ Mô hình thu thập dữ liệu trong luồng: Trong mô hình này, hệ thống phát
hiện xâm nhập IDS được đặt trực tiếp vào luồng dữ liệu vào ra trong hệ thốngmạng, luồng dữ liệu phải đi qua hệ thống phát hiện xâm nhập IDS trước khi đi vàotrong mạng
Ưu điểm của mô hình này là: hệ thống phát hiện xâm nhập IDS trực tiếp kiểmsoát luồng dữ liệu và phản ứng tức thời với các sự kiện an toàn
Nhược điểm của mô hình này là: ảnh hưởng đáng kể đến tốc độ lưu thông củamạng
Trang 17Hình 1.4: Mô hình thu thập dữ liệu trong luồng
+ Module phân tích, phát hiện tấn công: Đây là modul quan trọng nhất nó có
nhiệm vụ phát hiện các tấn công Modul này được chia thành các giai đoạn: Tiền xử
lý, phân tích, cảnh báo
Hình 1.5: Modul phân tích, phát hiện tấn công
+ Tiền xử lý: Tập hợp dữ liệu, tái định dạng gói tin Dữ liệu được sắp xếp theo
từng phân loại, phân lớp Xác định định dạng của của dữ liệu đưa vào Ngoài ra, nó
có thể tái định dạng gói tin, sắp xếp theo chuỗi
+ Phân tích: Giai đoạn này sẽ phát hiện được sự lạm dụng hệ thống hoặc phát
hiện tình trạng bất thường của hệ thống trên CSDL
Phát hiện sự lạm dụng (Misuse detection models): dựa trên mẫu, ưu điểm
chính xác để xác định các mẫu tấn công đã biết trước đó giúp người quản trị xácđịnh các lỗ hổng báo mật trong hệ thống, tuy nhiên nó không thể phát hiệnhoặc
Trang 18cảnh báo các cuộc tấn công mới chưa có trong CSDL, chính vì vậy hệ thống luôn phải cập nhật các mẫu tấn công mới.
Phát hiện tình trạng bất thường (Anomaly detection models): hệ thống sẽ
thường xuyên lưu giữ các mô tả sơ lược về các quá trình hoạt động bình thường của
hệ thống Khi có các cuộc tấn công xâm nhập gây ra các hoạt động bất bình thườngthì kỹ thuật này sẽ phát hiện ra các hoạt động bất bình thường dựa trên các pháthiện bất thường nhờ: mức ngưỡng, phát hiện nhờ quá trình tự học, phát hiện dựatrên bất thường về giao thức
+ Cảnh báo: Quá trình này thực hiện sinh ra các cảnh báo tùy theo đặc
điểm và loại tấn công, xâm nhập mà hệ thống phát hiện được
+ Modul phản ứng: Khi có dấu hiệu của sự tấn công hoặc xâm nhập, modul
phát hiện tấn công sẽ gửi tín hiệu báo hiệu sự tấn công hoặc xâm nhập đến modulphản ứng, lúc này modul phản ứng gửi tín hiệu kích hoạt tường lửa để thựchiện chức năng ngăn chặn cuộc tấn công hoặc cảnh báo tới người quản trị Modulphản ứng này tùy theo mỗi hệ thống thiết kế có các chức năng, phương pháp ngănchặn khác nhau
1.1.5 Phân loại IDS
- Dựa trên phương thức phát hiện tấn công: bao gồm phát hiện lạm dụng và
phát hiện bất thường
+ Phát hiện lạm dụng: thông thường còn có tên là phát hiện dựa trên dấu
hiệu Phát hiện lạm dụng đòi hỏi những file mẫu của dấu hiệu để nhận dạng nhữnghành động xâm nhập Những file mẫu của dấu hiệu sử dụng trong phương phápphát hiện lạm dụng phải được cập nhật thường xuyên
Ưu điểm: có thể phát hiện và đưa ra cảnh báo chính xác cuộc tấn công
dựa trên sự so sánh tương xứng đối với bất kỳ dấu hiệu nào đã được định dạngtrong File mẫu của dấu hiệu
Trang 19Nhược điểm: Không có khả năng phát hiện các cuộc tấn công mới hoặc sự
thay đổi của các cuộc tấn công khi File mẫu các dấu hiệu tấn công chưa được cậpnhật
+ Phát hiện dựa trên sự bất thường: là mô tả sơ lược phân tích những hoạt
động của mạng máy tính và lưu lượng mạng nhằm tìm kiếm sự bất thường Khi tìm
thấy sự bất thường, một tín hiệu cảnh báo sẽ được khởi phát Sự bất thường là bất cứ sự chệch hướng hay đi khỏi những thứ tự, định dạng, nguyên tắc thông thường Chính vì dạng phát hiện này tìm kiếm những bất thường nên nhà quản trị
bảo mật phải định nghĩa đâu là những hoạt động, lưu lượng bình thường
Nhà quản trị bảo mật có thể định nghĩa những hoạt động bình thường
bằng cách tạo ra những bản mô tả sơ lược nhóm người dùng (user group
profiles) Bản mô tả sơ lược nhóm người dùng thể hiện ranh giới giữa những hoạt
động cũng như những lưu lượng mạng trên một nhóm người dùng cho trước.Những nhóm người dùng được định nghĩa và được dùng để thể hiện những chứcnăng công việc chung Một cách điển hình, những nhóm sử dụng nên được chiatheo những hoạt động cũng như những nguồn tài nguyên mà nhóm đó sử dụng.Nếu một người sử dụng làm chệch quá xa những gì họ đã định nghĩa trongprofile, hệ thống IDS sẽ phát sinh cảnh báo
Ưu điểm: Với phương pháp này, kẻ xâm nhập không bao giờ biết lúc nào có,
lúc nào không phát sinh cảnh báo và cũng không biết chính xác cái gì gây ra cảnhbáo bởi vì họ không có quyền truy cập vào những profile sử dụng để phát hiệnnhững cuộc tấn công
Ưu điểm lớn nhất của phát hiện dựa trên profile hay sự bất thường là nókhông dựa trên một tập những dấu hiệu đã được định dạng hay những đợt tấncông đã được biết profile có thể là động và có thể sử dụng trí tuệ nhân tạo đểxác định những hoạt động bình thường Bởi vì phát hiện dựa trên profile khôngdựa trên những dấu hiệu đã biết, nó thực sự phù hợp cho việc phát hiện nhữngcuộc tấn công chưa hề được biết trước đây miễn là nó chệch khỏi profile bìnhthường Phát hiện
Trang 20dựa trên profile được sử dụng để phát hiện những phương pháp tấn công mới
mà phát hiện bằng dấu hiệu không phát hiện được
Nhược điểm: Khó khăn trong việc định nghĩa các hành động bình thường của
những profile nhóm người dùng, cũng như đảm bảo chất lượng của nhữngprofile này Dễ cảnh báo nhầm, gây ra sự phức tạp trong quá trình định nghĩangưỡng bình thường và bất bình thường của từng profile và nhóm profile
- Dựa trên phương thức bảo vệ: IDS được chia làm hai loại chính:
+ HIDS (Host Intrusion Detection System): triển khai trên máy trạm hoặc
server quan trọng, chỉ để bảo vệ riêng từng máy
Ưu điểm: Phát hiện tốt các cuộc tấn công xâm nhập từ bên trong, pháthiện dựa trên thông tin, dữ liệu trên Host
Nhược điểm: Chỉ áp dụng được trong phạm vi một Host dẫn đến chi phí cao
và phải phụ thuộc nhiều vào hệ điều hành được cài đặt trên Host đó gây ra độphức tạp cao khi cài đặt và triển khai
+ NIDS (Network Intrusion Detection System): đặt tại những điểm quan trọng
của hệ thống mạng, để phát hiện xâm nhập cho khu vực đó
Ưu điểm: Phát hiện tốt các cuộc tấn công xâm nhập từ bên ngoài, pháthiện dựa trên thông tin, dữ liệu trên toàn bộ mạng Tiết kiệm chi phí và dễ dàngtrong quá trình cài đặt và triển khai
Nhược điểm: Khó tương thích với các Swich, router, hạn chế về hiệu năng vìphải liên tục sử lý một lượng lớn thông tin, làm tăng lưu lượng mạng do các bộphận của IDS luôn phải thường xuyên trao đổi thông tin với nhau và thay đổi vớitrong tâm phân tích
1.1.6 Một số kiểu tấn công cơ bản vào hệ thống mạng
1.1.6.1 Tấn công từ chối dịch vụ (Denial of Service attack): là kiểu tấn
công làm cho hệ thống máy tính hay hệ thống mạng quá tải, không thể cungcấp dịch vụ hoặc phải ngừng hoạt động Trong các cuộc tấn công từ chối dịch vụ,máy
Trang 21chủ dịch vụ sẽ bị “ngập” bởi hàng loạt các lệnh truy cập từ lượng kết nối khổng lồ.Khi số lệnh truy cập quá lớn, máy chủ sẽ quá tải và không còn khả năng xử lý cácyêu cầu Hậu quả là người dùng không thể truy cập vào các dịch vụ trên các trangWeb bị tấn công từ chối dịch vụ Hiện nay xuất hiện một số dạng tấn công từ chốidịch vụ:
- Tấn công từ chối dịch vụ cổ điển DoS(Denial of Service): là một phương
thức tấn công từ chối dịch vụ xuất hiện đầu tiên với các kiểu tấn công như SmurlAttack, Tear Drop, … các kiểu tấn công này thường áp dụng đối với đối tượng tấncông là hệ thống máy chủ bảo mật kém, băng thông yếu, thậm chí trong nhiềutrường hợp đối tượng tin tặc có thể sử dụng đường truyền có tốc độ vừa phảicũng có thể thực hiện thành công kiểu tấn công này
- Tấn công từ chối dịch vụ phân tán DDoS(Distributed Denial of Service): là
kiểu tấn công chủ yếu nhằm vào việc chiếm dụng băng thông (Bandwidth) gâynghẽn mạch hệ thống, dẫn đến ngưng hoạt động hệ thống
- Tấn công từ chối dịch vụ phản xạ nhiều vùng DRDoS(Distributed Reflection Denial of Service): là kiểu tấn công vô hiệu hóa các cổng kết nối chạy
trên nền TCP/IP như DNS, HTTP, FTP, POP3, …
1.1.6.2 Tấn công quét cổng và thăm dò (Scanning và Proble): là sử dụng
một chương trình dò tìm tự động nhằm tìm ra các điểm yếu của hệ thống mạng.Các công cụ quét và thăm dò bao gồm: SATAN, ISS Internet Scanner, NETA
Cybercop, Asmodeus, … Việc thăm dò có thể thực hiện bằng cách “Ping” đến hệ
thống cũng như kiểm tra các cổng TCP và UDP để phát hiện ra các ứng dụng cónhững lỗi đã được biết đến để tấn công hoặc xâm nhập
Ta có thể sử dụng giải pháp của IDS như: Network-based IDS để phát hiện cáchành động xâm nhập bất hợp pháp này trước khi có sự xâm nhập xẩy
ra
1.1.6.3 Tấn công vào mật mã (Password attack): là kiểu tấn công nhằm “ăn
cắp” các thông tin về User account, password của người sử dụng trên hệthống mạng, nhằm mang lại quyền hành và tính linh động cao nhất cho kẻ tấncông để có
Trang 22thể truy nhập tới mọi thông tin tại mọi thành phần trong mạng Các hackerthường sử dụng một chương trình đoán mã với thuật toán mã hóa chạy trênmạng, cố gắng login vào các phần Share trên mạng Các hacker thường tấn côngPassword bằng một số phương pháp như: brute – force attack, chương trìnhTrojan House, IP spoofing và packet sniffer.
1.1.6.4 Tấn công chiếm đặc quyền (Privilege – grabbing): là dạng tấn công
nhằm mục đích đánh cắp dữ liệu, giành lấy một phiên giao dịch, phân tích traffictrong mạng, từ chối dịch vụ, phá hỏng dữ liệu được truyền Khi kẻ tấn công đã xâmnhập được vào hệ thống, chúng sẽ chiếm quyền truy cập vào hệ thống Đối với
hệ điều hành UNIX sẽ chiếm đặc quyền “root”, trong hệ điều hành Windows sẽchiếm đặc quyền “Administrator”, trong hệ điềi hành NetWare sẽ chiếm đặcquyền “Supervisor”
Một số kỹ thuật thường dùng cho việc tấn công chiếm đặc quyền: Đoán và bẻkhóa của root hoặc administrator, gây tràn bộ đệm, khai thác registry củaWindows, truy nhập và khai thác console đặc quyền, thăm dò file và các lỗi của hệđiều hành
Ta có thể sử dụng giải pháp của IDS như: Network-based IDS để phát hiện cáchành động thay đổi đặc quyền trái phép này Do Host-based IDS có thể tìm kiếm,đưa ra hoặc có thể ngừng ngay mọi hành động của người dùng không có đặc quyền
có sự thay đổi không thông qua hệ thống phân quyền được quản lý
1.1.6.5 Tấn công cài đặt mã độc nguy hiểm (Hostile code insertion): Kẻ
tấn công có thể sử dụng hoặc cài đặt một số chương trình nguy hiểm như: Virus,Trojan Horse, Backdoor, malicious Apple, … vào hệ thống thông qua lỗ hổng bảomật hoặc sự bất cẩn của người sử dụng nhằm lấy trộm dữ liệu, gây từ chối dịch vụ,xóa file, hay tạo backdoor cho lần truy nhập trái phép tiếp theo vào hệ thống
1.1.6.6 Tấn công khai thác lỗ hổng (Application – Level Attacks): Hầu hết các
chương trình đang sử dụng thường chưa được tối ưu lỗi, đây là nguồn để kẻ tấncông có thể truy nhập bất hợp pháp vào hệ thống thông qua các lỗi chúng có thểtìm kiếm được từ hệ thống của người sử dụng Kẻ tấn công thường sử dụng cácchương trình quét tìm kiếm các lỗi trên hệ thống, sau đó sử dụng hoặc phát triểncác công cụ
Trang 23khai thác lỗ hổng để tấn công xâm nhập trái phép vào hệ thống thông qua các lỗhổng tìm thấy tùy vào mức độ lỗi của hệ thống.
1.1.6.7 Tấn công vào nội dung CSDL (Proprietary data theft): Kẻ tấn
công thường lợi dụng các lỗ hổng bảo mật hoặc lợi dụng sự bất cẩn của người dùng
để cài đặt các câu lệnh truy vấn SQL bất hợp pháp vào cơ sở dữ liệu từ các ứngdụng trên Web Kẻ tấn công thường có thể tấn công vào các ứng dụng web có
dữ liệu được quản lí bằng các hệ quạn trị cơ sở dữ liệu như SQL Server, Oracle,DB2, Sysbase
Một số kiểu tấn công vào nội dung CSDL: Chèn mã lệnh thực thi các trìnhduyệt, chèn câu lệnh trên hệ thống, chèn câu truy vấn SQL, chèn ngôn ngữ hoặccác ký tự mở rộng trên máy chủ, …
1 2 Một số phương pháp phát hiện bất thường trong hệ thống IDS
1.2.1 Phương pháp tiếp cận dựa trên xác suất thống kê
Các phương pháp thống kê đo lường các hành vi của người dùng và của hệthống bằng một số các biến được lấy mẫu theo thời gian và xây dựng các profiledựa trên các thuộc tính của hành vi bình thường Các thông số theo dõi trên thực
tế sẽ được so sánh với các profile này, và các sai khác vượt qua một ngưỡng sẽ bịcoi là một bất thường
Các hệ thống phát hiện bất thường như ADAM, NIDES, và SPADE có mộtcách tiếp cận trong đó hệ thống sẽ học một mô hình thống kê về lưu lượngbình thường của mạng, và xem xét các sai khác so với mô hình này Các mô hìnhthống kê thường dựa trên sự phân bố của các thành phần như các địa chỉ IP nguồn
và đích, các cổng nguồn và đích trên mỗi giao tác (như các kết nối TCP, và đôi khi
là các gói tin UDP và ICMP) Các thành phần có xác suất càng nhỏ thì có mức độbất thường càng cao
Các hệ thống phát hiện bất thường sử dụng các mô hình tần suất, trong đó xácsuất của một sự kiện đã được tính toán bằng tần suất trung bình của nó trongquá trình huấn luyện dựa trên thời gian, trong đó xác suất của một sự kiện phụthuộc vào
Trang 24thời điểm mà nó xảy ra lần cuối cùng Đối với mỗi thuộc tính, chúng thu thập mộttập các giá trị cho phép, và sẽ coi các giá trị mới của thuộc tính đó là bất thường.
Một phương pháp tiếp cận thống kê gần đây được đề nghị là việc thống kê môhình lưu lượng để phát hiện các tấn công loại mới trên mạng Theo cách tiếp cậnnày, một mô hình hành vi của mạng được sử dụng để phát hiện một lượng lớn cáctấn công từ chối dịch vụ và dò quét cổng bằng cách giám sát lưu lượng mạng
1.2.2 Phương pháp tiếp cận dựa trên trạng thái
Một cách tiếp cận hơi khác so với phát hiện bất thường truyền thống làcách tiếp cận phát hiện dựa trên trạng thái đối với phát hiện xâm nhập trên mạng.Phương pháp luận của nó là cố gắng phát hiện xâm nhập thông qua việc chuyểntrạng thái bất thường Ưu điểm chính của cách tiếp cận này là nó có thể phát hiệnvới tỷ lệ cao các tấn công đã biết và chưa biết Tại cùng một thời điểm, nó có một
tỷ lệ cảnh báo nhầm có thể so sánh được với các phương pháp phát hiện xâmnhập dựa trên dấu hiệu Tuy nhiên nó có giá thành khá cao do phải xây dựngcác mô hình chuyển trạng thái của các giao thức mạng Bên cạnh đó, các hệthống dựa trên trạng thái đều gặp phải vấn đề lớn về kích thước của mô hình hệthống
Một trong các bộ phân loại phát hiện bất thường áp dụng cách tiếp cận này làcác mô hình chuỗi Markov ẩn Đây là một máy trạng thái hữu hạn mạnh, mỗi trạngthái đại diện một chuỗi các lời gọi hệ thống hoặc các hành vi của người dùng Trongmỗi trạng thái, có một giá trị xác suất của việc sinh ra các trạng thái đầu ra và mộtxác suất chỉ ra các trạng thái kế tiếp Trong quá trình huấn luyện, máy trạng tháihữu hạn này sẽ được cập nhật các trạng thái mà nó được học Sau đó trong phaphát hiện, các sự kiện chuyển trạng thái bất thường sẽ bị hệ thống phát hiện vàphát ra cảnh báo
1.2.3 Phương pháp tiếp cận dựa trên hệ chuyên gia
Để phát hiện bất thường, các hệ chuyên gia mô tả các hành vi bình thường củangười sử dụng bằng một tập các luật Các hệ thống phát hiện bất thường sử dụnghệ
Trang 25chuyên gia đã triển khai là ComputerWatch ( Dowell và Ramstedt, 1990) vàWisdom & Sense (Liepins và Vaccaro,1992).
ComputerWatch ( phát triển tại AT&T) sử dụng hệ chuyên gia để tổng kết các
sự kiện an ninh nhạy cảm và xây dựng các luật để phát hiện các hành vi bấtthường Nó sẽ kiểm tra các hành vi của người dùng theo một tập các luật mô tảchính sách sử dụng bình thường của hệ thống, và sẽ kết luận các hành động khôngphù hợp với các mẫu có thể chấp nhận được là bất thường
Wisdom & Sense ( được phát triển tại phòng thí nghiệm Los Alamos National)phát hiện các bất thường có tính thống kê trong hành vi của người dùng Đầu tiên,
nó xây dựng một tập các luật mô tả một cách thống kê hành vi dựa trên việc ghi lạicác hành vi của người dùng theo một khoảng thời gian cho trước Các chuỗi hành vinhỏ sau đó được so sánh với những luật này để phát hiện các hành vi mâu thuẫn
Cơ sở tri thức luật được xây dựng lại một cách định kỳ để phù hợp với các mẫu sửdụng mới
1.2.4 Phương pháp tiếp cận dựa trên khai phá dữ liệu
Khai phá dữ liệu tập trung khai thác các thông tin hữu ích tiềm tàng, chưa biếttrước từ các tập dữ liệu Các hệ thống phát hiện xâm nhập có ứng dụngphương pháp khai phá dữ liệu trong phát hiện bất thường là ADAM (Audit DataAnalysis and Mining, của Wu,2001, Barbara và cộng sự, 2001), IDDM (IntrusionDetection using Data Mining, của Abraham, 2001), và eBayes ( của Valdes vàSkinner,2000)
Trong cách tiếp cận này, việc khai phá dữ liệu tìm kiếm các phiên kết nối và
nó khác so với cách tiếp cận phát hiện bất thường dựa trên việc tìm kiếm thông tintrên các gói tin riêng biệt Phương pháp này sử dụng các công cụ và phương phápkhai phá dữ liệu để phân biệt các phiên bất thường so với các phiên bìnhthường theo cách sử dụng lặp đi lặp lại dữ liệu huấn luyện nó thu thập được nhưmột tham chiếu Khai phá dữ liệu là một công nghệ có hiệu quả cao, mang lại khảnăng phát hiện các tấn công chưa biết và đã biết, nhưng lại khá phức tạp và đòi hỏigiá thành cao
Trang 261 3 Khai phá dữ liệu trong IDS
1.3.1 Định nghĩa khai phá dữ liệu
Trong thời đại công nghệ thông tin, các hệ thống thông tin có thể lưutrữ một khối lượng lớn dữ liệu về hoạt động hàng ngày của chúng Từ khối dữ liệunày, chúng ta có thể áp dụng các kỹ thuật trong Khai phá dữ liệu ( KPDL ) để lấy ranhững thông tin hữu ích mà chúng ta quan tâm Các thông tin thu được có thể vậndụng ngược trở lại nhằm cải thiện hiệu năng của hệ thống thông tin ban đầu
Định nghĩa về KPDL được phát biểu như sau: “KPDL là việc sử dụng dữ liệu
lịch sử để khám phá những quy tắc và cải thiện những quyết định trong tương lai.”
Với một cách tiếp cận mang tính ứng dụng hơn, Tiến sỹ Fayyad đã đưa ra một định
nghĩa khác: “ KPDL thường được xem là việc khám phá tri thức trong các cơ sở dữ
liệu, là một quá trình trích dẫn những thông tin ẩn, trước đây chưa biết và có khả năng hữu ích dưới dạng các quy luật, ràng buộc, qui tắc trong cơ sở dữ liệu.” Nói
chung, KPDL là một quá trình học tri thức mới từ những dữ liệu thu thập được trướcđó
KPDL có năm giai đoạn chính và có thể được lập lại nhiều lần ở một hay nhiềugiai đoạn, chúng bao gồm:
- Tìm hiểu nghiệp vụ và dữ liệu
- Chuẩn bị dữ liệu
- Mô hình hóa dữ liệu
- Hậu xử lý và đánh giá mô hình
- Triển khai tri thức
Tham gia chính trong quá trình KPDL là các nhà tư vấn và phát triểnchuyên nghiệp trong lĩnh vực KPDL
Trong giai đoạn tìm hiểu nghiệp vụ và dữ liệu, nhà tư vấn nghiên cứu kiến
thức về lĩnh vực sẽ áp dụng, bao gồm các tri thức cấu trúc về hệ thống vàtri thức, các nguồn dữ liệu hiện hữu, ý nghĩa, vai trò và tầm quan trọng của cácthực
Trang 27thể dữ liệu Việc nghiên cứu này được thực hiện qua việc tiếp xúc giữa nhà tư vấn
và người dùng Khác với phương pháp giải quyết vấn đề truyền thống khi bài toánđược xác định chính xác ở bước đầu tiên, nhà tư vấn tìm hiểu các yêu cầu sơ khởicủa người dùng và đề nghị các bài toán tiềm năng có thể giải quyết với nguồn dữliệu hiện hữu Tập các bài toán tiềm năng được tinh chỉnh và làm hẹp lại trong cácgiai đoạn sau Các nguồn và đặc tả dữ liệu có liên quan đến tập các bài toán tiềmnăng cũng được xác định
Giai đoạn chuẩn bị dữ liệu sử dụng các kỹ thuật tiền xử lý để biến đổi và
cải thiện chất lượng dữ liệu để thích hợp với những yêu cầu của các giải thuật học.Phần lớn các giải thuật KPDL hiện nay chỉ làm việc trên một tập dữ liệu đơn vàphẳng, do đó dữ liệu phải được trích xuất và biến đổi từ các dạng cơ sơ dữ liệuphân bố, quan hệ hay hướng đối tượng sang dạng cơ sở dữ liệu quan hệ đơn giảnvới một bảng dữ liệu Các giải thuật tiền xử lý tiêu biểu bao gồm:
- Xử lý dữ liệu bị thiếu hoặc mất: các dữ liệu bị thiếu sẽ được thay thế bởi cácgiá trị thích hợp
- Khử sự trùng lặp: các đối tượng dữ liệu trùng lặp sẽ bị loại bỏ đi Kỹ thuậtnày không được sử dụng cho các tác vụ có quan tâm đến phân bố dữ
liệu
- Giảm nhiễu: nhiễu và các đối tượng tách rời (outlier) khỏi phân bố chung sẽ
bị loại đi khỏi dữ liệu
- Chuẩn hóa: miền giá trị của dữ liệu sẽ được chuẩn hóa
- Rời rạc hóa: các dữ liệu số sẽ được biến đổi ra các giá trị rời rạc
- Rút trích và xây dựng đặc trưng mới từ các thuộc tính đã có
- Giảm chiều: các thuộc tính chứa ít thông tin sẽ được loại bỏ bớt
Các bài toán được giải quyết trong giai đoạn Mô hình hóa dữ liệu Các giảithuật học sử dụng các dữ liệu đã được tiền xử lý trong giai đoạn hai để tìm kiếmcác qui tắc ẩn và chưa biết Công việc quan trọng nhất trong giai đoạn này là lựachọn kỹ
Trang 28thuật phù hợp để giải quyết các vấn đề đặt ra Các bài toán được phân loại vào một
trong những nhóm bài toán chính trong KPDL dựa trên đặc tả của chúng
Các mô hình kết quả của giai đoạn Mô hình hóa sẽ được hậu xử lý và đánhgiá trong giai đoạn tiếp theo Dựa trên các đánh giá của người dùng sau khi kiểmtra trên các tập thử, các mô hình sẽ được tinh chỉnh và kết hợp lại nếu cần Chỉ các
mô hình đạt được mức yêu cầu cơ bản của người dùng mới đưa ra triển khai trongthực tế Trong giai đoạn này, các kết quả được biến đổi từ dạng học thuật sangdạng phù hợp với nghiệp vụ và dễ hiểu hơn cho người dùng
Trong giai đoạn cuối, Triển khai tri thức, các mô hình được đưa vào những
hệ thống thông tin thực tế dưới dạng các module hỗ trợ việc đưa ra quyếtđịnh Mối quan hệ chặt chẽ giữa các giai đoạn trong quá trình KPDL là rất quantrọng cho việc nghiên cứu trong KPDL Một giải thuật trong KPDL không thểđược phát triển độc lập, không quan tâm đến bối cảnh áp dụng mà thường được xâydựng để giải quyết một mục tiêu cụ thể Do đó, sự hiểu biết bối cảnh vận dụng làrất cần thiết Thêm vào đó, các kỹ thuật được sử dụng trong các giai đoạn trước cóthể ảnh hưởng đến hiệu quả của các giải thuật sử dụng trong các giai đoạn tiếp theo
Trong KPDL, các bài toán có thể phân thành bốn loại chính Bài toán thôngdụng nhất trong KPDL là Phân lớp (Classification) Với một tập các dữ liệu huấnluyện cho trước và sự huấn luyện của con người, các giải thuật phân loại sẽ tạo ra
bộ phân loại (classifier) dùng để phân các dữ liệu mới vào một trong những lớp(còn gọi là loại) đã được xác định trước Nhận dạng cũng là một bài toán thuộckiểu Phân loại Với mô hình học tương tự như bài toán Phân loại, lớp bài toán
Dự đoán (Prediction) sẽ tạo ra các bộ dự đoán Khi có dữ liệu mới đến, bộ dự đoán
sẽ dựa trên thông tin đang có để đưa ra một giá trị số học cho hàm cần dự đoán.Các giải thuật Tìm luật liên kết (Association Rule) tìm kiếm các mối liên kết giữacác phần tử dữ liệu Các kỹ thuật Phân cụm (Clustering) sẽ nhóm các đối tượng dữliệu có tính chất giống nhau vào cùng một nhóm
1.3.2 Nhiệm vụ của khai phá dữ liệu
Trang 29Cho đến nay đã có rất nhiều công trình nghiên cứu và phát triển tronglĩnh vực khai phá dữ liệu Dựa trên những loại tri thức được khám phá, chúng ta cóthể phân loại như theo các nhiệm cụ như sau:
Khai phá luật thuộc tính: tóm tắt những thuộc tính chung của tập dữ liệu
nào đó trong cơ sở dữ liệu Ví dụ như để phát hiện máy tính A bị nhiễm Virusthường thể hiện các biểu hiện qua một tập các dấu hiệu A1, A2,
Khai phá những luật phân biệt: khai phá những đặc trưng, những thuộc tính
để phân biệt giữa tập dữ liệu này với tập dữ liệu khác Ví dụ như nhằm phân biệtcác loại Virus máy tính với nhau thì cần một tập các mẫu và dấu hiệu của các loạiVirus máy tính để phần mềm có thể so sánh và đưa ra kết luận
Khám phá luật kết hợp: khai phá sự kết hợp giữa những đối tượng trong một
tập dữ liệu Giả sử hai tập đối tượng {A1, A2,… ,An} và {B1, B2,… ,Bn} thì luật kết hợp
có dạng {A1^A2^…^ An) →{B1^ B2^… ^Bn)
Khám phá luật phân lớp: phân loại dữ liệu vào trong tập những lớp đã biết Ví
dụ như Virus máy tính có các dấu hiệu chung để phân vào các lớp dựa trên độ nguyhiểm, cách thức lây nhiễm, …
Phân nhóm: xác định một nhóm cho một tập các đối tượng dựa trên thuộc
tính của chúng Một số các tiêu chuẩn được sử dụng để xác định đối tượng cóthuộc về nhóm hay không
Dự báo: dự báo giá trị có thể đúng của những dữ liệu bị thiếu hoặc sự phân
bố thuộc tính nào đó trong tập dữ liệu
Khám phá quy luật biến đổi: tìm những tập luật phản ánh những hành vi tiến
hóa, biến đổi chung của một tập dữ liệu Ví dụ như quy luật lây nhiễm và phát táncủa Virus máy tính trên mạng Internet
1.3.3 Các loại dữ liệu được khai phá
Khai phá dữ liệu thường làm việc với nhiều kiểu dữ liệu khác nhau Hầu hếtcác kiểu dữ liệu được khai phá là những kiểu sau:
Trang 30- Cơ sở dữ liệu quan hệ: những cơ sở dữ liệu được tổ chức theo mô hình quan
hệ Hầu hết những hệ quản trị cơ sở dữ liệu hiện nay đều hỗ trợ mô hình này như:Oracle, IBM DB2, MS SQL Server, MS Access…
- Cơ sở dữ liệu đa chiều: cơ sở dữ liệu này được gọi là nhà kho dữ liệu, trong
đó dữ liệu được chọn từ nhiều ngồn khác nhau và chứa những đặc tính lịch sửthông qua thuộc tính thời gian tường minh hay ngầm định
- Cơ sở dữ liệu giao tác: đây là loại cơ sở dữ liệu được sử dụng nhiều trong
siêu thị, thương mại, tài chính, ngân hàng…
- Cơ sở dữ liệu quan hệ - hướng đố tượng: mô hình cơ sở dữ liệu này lai
giữa mô hình hướng đối tượng và mô hình cơ sở dữ liệu quan hệ
- Cơ sở dữ liệu thời gian, không gian: chứa những thông tin về không gian
địa lý hoặc thông tin theo thời gian
- Cơ sở dữ liệu đa phương tiện: loại dữ liệu này bao gồm: âm thanh, ảnh,
video, văn bản và nhiều kiểu dữ liệu định dạng khác Ngày nay loại dữ liệu nàyđược sử dụng nhiều trên mạng Internet
1.3.4 Quy trình khai phá dữ liệu
Quá trình để khai phá dữ liệu gồm các bước:
- Làm sạch dữ liệu (data cleaning): Loại bỏ nhiễu hoặc các dữ liệu không
thích hợp
- Tích hợp dữ liệu (data integration): Tích hợp dữ liệu từ các nguồn khác
nhau như: CSDL, Kho dữ liệu, file text…
- Chọn dữ liệu (data selection): Ở bước này, những dữ liệu liên quan trực tiếp
đến nhiệm vụ sẽ được thu thập từ các nguồn dữ liệu ban đầu
- Chuyển đổi dữ liệu (data transformation): Trong bước này, dữ liệu sẽ được
chuyển đổi về dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tácnhóm hoặc tập hợp
Trang 31- Khai phá dữ liệu (data mining): Là giai đoạn thiết yếu, trong đó các phương
pháp thông minh sẽ được áp dụng để trích xuất ra các mẩu dữ liệu
- Đánh giá mẫu (pattern evaluation): Đánh giá sự hữu ích của các mẫu biểu
diễn tri thức dựa vào một số phép đo
- Trình diễn dữ liệu (Knowlegde presention): Sử dụng các kỹ thuật trình diễn
và trực quan hoá dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng
Hình 1.6: Quá trình khám phá tri thức
1.3.5 Một số phương pháp khai phá dữ liệu
Từ những nhiệm vụ trên chúng ta thấy rằng việc khai phá dữ liệu không chỉ đơngiản là sử dụng duy nhất một kỹ thuật nào đó Bất cứ phương pháp nào hỗ trợ choviệc tìm kiếm thông tin tốt thì sẽ được sử dụng Tùy thuộc vào các nhiệm vụ khácnhau mà các phương pháp có thể được chọn, mỗi phương pháp có điểm mạnh
và những mặt hạn chế riêng Chúng ta có thể phân loại những phương pháp khaiphá dữ liệu theo các nhóm sau:
- Phương pháp thống kê: hướng tiếp cận thống kê dựa trên nền tảng
mô hình xác suất Cách thực hiện dựa trên việc kiểm chứng những lý thuyết đã xácđịnh trước và dựa trên việc làm thích hợp những mô hình cho dữ liệu Thôngthường
Trang 32những mô hình này đã được sử dụng bởi những nhà thống kê Do vậy con ngườiphải cung cấp những lý thuyết ứng viên và các mô hình thực hiện.
- Suy diễn dựa trên tình huống: giải quyết vấn đề đưa ra bằng cách dùng
trực tiếp các kinh nghiệm và những giải pháp trong quá khứ Một tình huốngthường là vấn đề đặc biệt đã đối mặt trước đây và cũng đã được giải quyết Đưa ramột vấn đề mới đặc thù, suy diễn dựa trên tình huống sẽ kiểm tra một tậpnhững tình huống được lưu trữ và tìm những tình huống tương tự Nếu tìnhhuống tồn tại
thì những giải pháp tương ứng sẽ được áp dụng cho mô hình mới và tình huống giảiquyết mới sẽ được cập nhật vào hệ thống nhằm phục vụ cho lần thực hiện sau
- Mạng Neural: là lớp những mô hình mô phỏng theo bộ não con người.
Như chúng ta đã biết thì bộ não con người bao gồm hàng triệu tế bào thầnkinh được kết nối qua khớp thần kinh Những mạng thần kinh được hình thành
từ số lượng lớn những neural mô phỏng, các nút này được kết nối với nhautrong cách giống như tế bào thần kinh Tương tự như trong bộ não thật, cường độkết nối có thể
được thay đổi để đáp lại sự kích thích, điều này cho phép mạng có khả năng học
- Cây quyết định: trong cây này mỗi nút trung gian thể hiện một sự kiểm
chứng hoặc một quyết định dựa trên item dữ liệu đang xét Dựa trên kết quả củathử nghiệm sẽ xác định nhánh tiếp theo Để phân lớp một item dữ liệu, chúng tabắt đầu từ nút gốc sau đó đi xuống theo các nút phù hợp với kiểm chứng chođến khi gặp nút lá, tại nút này sẽ cho quyết định Cây quyết định còn được dùngthể hiện những
hình thức đặc biệt của một tập luật
- Quy nạp luật: những luật thể hiện một sự tương quan thống kê giữa các sự
xuất hiện của những thuộc tính, đối tượng nào đó trong dữ liệu Hình thứcchung của luật là X1^ …^XN →Y[S, C], nghĩa là khi có sự xuất hiện các thuộc tính X1
… XN sẽ dẫn đến thuộc tính Y với độ hỗ trợ là S và độ tin cậy là C
- Mạng Bayer: mạng Bayer là thể hiện đồ họa của sự phân bố xác suất, được
dẫn ra từ việc thống kê sự xuất hiện của các đối tượng Đặc biệt mạng Bayer là một
Trang 33đơn đồ thị có hướng, trong đó mỗi nút thể hiện biến thuộc tính và những cạnhthể hiện xác suất phụ thuộc giữa những thuộc tính đó.
- Thuật giải di truyền: hay lập trình tiến hóa là cách giải quyết theo chiến
lược tối ưu dựa theo nguyên lý tiến hóa được khảo sát trong tự nhiên Nhữnggiải pháp vấn đề tốt nhất sẽ đi qua giai đoạn chọn lọc và chúng sẽ được kết hợp vớinhau để cho những giải pháp khác tốt hơn Quá trình cứ lặp lại như vậy cho đếnkhi vấn đề được giải quyết hoặc tiến đến một ngưỡng dừng
- Tập mờ: đây là kỹ thuật chính của việc thể hiện và xử lý tính không chính
xác Sự không chính xác được nảy sinh từ những cơ sở dữ liệu ngày nay: sự khôngchính xác, không thể xác định, không nhất quán và mơ hồ… Những tập mờ khaithác tính không chắc chắn để làm cho hệ thống phức tạp trở nên dễ quản lý Dovậy những tập mờ tạo thành cách tiếp cận mạnh không chỉ để giải quyết tínhkhông trọn
vẹn, nhiễu hay dữ liệu không chính xác mà còn giúp phát triển các mô hình khôngchắc chắn của dữ liệu nhằm tạo ra sự thực thi thông minh, mềm dẻo hơn so với hệthống truyền thống
- Tập thô: tập thô được định nghĩa bởi tập xấp xỉ trên và tập xấp xỉ dưới Các
đối tượng thuộc tập xấp xỉ dưới là xác định hoàn toàn Các đối tượng thuộc tập xấp
xỉ trên là phần không xác định Tập xấp xỉ trên của tập thô là hội của tập xấp xỉdưới và xấp xỉ biên Một đối tượng thuộc tập biên là xác định nhưng không xác địnhhoàn toàn Vì vậy, tập thô có thể được xem như tập mờ có hàm thành viên ba giátrị:
“đúng”, “sai” và “có thể” Giống như tập mờ, tập thô có một khái niệm toán học đểphân lớp dữ liệu Tập thô cũng như tập mờ ít được sử dụng như là một giảipháp đơn lẻ Chúng thường được kết hợp với các phương pháp khác như suydiễn luật, phân lớp và phân nhóm
1.3.6 Một số kỹ thuật dùng trong khai phá dữ liệu
- Cây quyết định: Trong lĩnh vực học m á y , cây quyết định là một kiểu môhình dự báo nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các
Trang 35biến, đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến đó.Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị củacác biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó Kỹ thuật học máydùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cáitên ngắn gọn là cây quyết định.
Học bằng cây quyết định cũng là một phương pháp thông dụng trong khai
cho các phân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tớiphân loại đó Một cây quyết định có thể được học bằng cách chia tập hợp n guồnthành các tập con dựa theo một kiểm tra giá trị thuộc tính Quá trình này được lặplại một cách đệ qui cho mỗi tập con dẫn xuất Quá trình đ ệ q ui hoàn thành khikhông thể tiếp tục thực hiện việc chia tách được nữa, hay khi một phân loại đơn
có thể áp dụng cho từng phần tử của tập con dẫn xuất Một bộ phân loại r ừ ng
- Luật kết hợp: Luật kết hợp là một hướng quan trọng trong khai phá dữ
liệu Luật kết hợp giúp chúng ta tìm được các mối liên hệ giữa các mục dữ liệu(items) của CSDL Luật kết hợp là dạng khá đơn giản nhưng lại mang khá nhiều ýnghĩa Thông tin mà dạng luật này đem lại là rất đáng kể và hỗ trợ không nhỏ trongquá trình ra quyết định Tìm các luật kết hợp “quý hiếm” và mang nhiều thông tin
từ CSDL tác nghiệp là một trong những hướng tiếp cận chính của lĩnh vực khai phá
dữ liệu
- Mô hình dữ liệu đa chiều: Mô hình dữ liệu đa chiều (Multi Dimensional
Data Model – MDDM) là một mô hình mà trong đó dữ liệu được thể hiện thông
Trang 36theo không gian n-chiều Mô hình này phù hợp đối với các tính toán số học vàthống kê: tổng hợp và phân tổ dữ liệu theo cách khác nhau, các phân tích dữliệu theo phương pháp hồi quy phi tham số Ngoài ra, mô hình dữ liệu đa chiềucòn được sử dụng để phát hiện các luật kết hợp giữa các chỉ tiêu dạng if X then Yvới độ tin cậy là c%.
- Khoảng cách ngắn nhất: Đây là phương pháp xem các mẫu tin như là
những điểm trong không gian dữ liệu đa chiều Áp dụng ý tưởng này có thể xácđịnh khoảng cách giữa hai mẫu tin trong không gian dữ liệu như sau: các mẫu tin cóliên hệ với nhau thì rất gần nhau Các mẫu tin ở xa nhau thì có ít điểm chung Cơ sở
dữ liệu mẫu chứa cá thuộc tính như tuổi, thu nhập và tín dụng Ba thuộc tínhmẫu này thành lập nên không gian dữ liệu ba chiều và có thể phân tích các khoảngcách giữa các mẫu tin trong không gian này
- K-Láng giềng gần nhất: Khi đã thông dịch các mẫu tin thành các điểm trong
một không gian dữ liệu nhiều chiều, chúng ta có thể định nghĩa khái niệm của “lánggiềng”:
Các mẫu tin ở gần nhau là láng giềng của nhau
Giả sử ta muốn dự đoán thái độ của một tập khách hàng từ một cơ sở dữ liệuvới những mẫu tin mô tả những khách hàng này Giả thuyết cơ sở đòi hỏi để làmmột dự án là những khách hàng cùng loại sẽ có cùng thái độ Trong thuật ngữ ẩn
dụ của không gian dữ liệu đa chiều, một kiểu chỉ là một vùng trong không gian dữliệu này Mặt khác, các mẫu tin cùng kiểu sẽ gần nhau trong không gian dữ liệu:chúng sẽ là láng giềng của nhau Dựa vào hiểu biết này, để phát triển một thuậttoán mạnh nhưng rất đơn giản - thuật toán k-láng giềng gần nhất Chữ k trong k-láng giềng gần nhất đại diện cho số láng giềng điều tra
K-láng giềng gần nhất đơn giản thật sự không là một kỹ thuật học mà là mộtphương pháp tìm kiếm thuần túy bởi vì tập dữ liệu bản thân nó được dùng chỉ
để tham khảo Nó không thể tạo ra một lý thuyết trong lĩnh vực datamining màgiúp
Trang 37hiểu cấu trúc tốt hơn Các thuật toán data mining không nên có độ phức tạp tính toán lớn hơn n*log(n) (trong đó n là số các mẫu tin).
- Phân cụm: Gom cụm dữ liệu là hình thức học không giám sát trong đó các
mẫu học chưa được gán nhãn Mục đích của gom cụm dữ liệu là tim những mẫu đạidiện hoặc gom dữ liệu tương tự nhau (theo một chuẩn đánh giá nào đó) thànhnhững cụm Các điểm dữ liệu nằm trong các cụm khác nhau có độ tương tự thấphơn các điểm dữ liệu nằm trong một cụm
Các yêu cầu cơ bản của phân tích cụm trong KPDL:
+ Có khả năng làm việc hiệu quả với lượng dữ liệu lớn: Phân tích cụm trên mộtmẫu của dữ liệu lớn có thể dẫn đến các kết quả thiên lệch Cần phải có cácthuật toán phân cụm trên CSDL lớn
+ Có khả năng xử lý các dạng dữ liệu khác nhau: Nhiều thuật toán được thiết
kế để xử lý dữ liệu bằng số Tuy nhiên, các ứng dụng có thể yêu cầu phân tích cụmcác dạng dữ liệu khác, như dữ liệu nhị phân, phân loại, trật tự hay sự trộn lẫncủa các kiểu dữ liệu
+ Có khả năng khám phá ra các cụm với các dạng bất kỳ: Nhiều thuật toánphân cụm dựa trên các số đo khoảng cách Euclide hay Manhattan Các thuật toándựa trên các số đo khoảng cách có xu hướng tìm các cụm hình cầu với kích thước
và mật độ tương tự nhau Tuy nhiên, một cụm (cluster) có thể có hình dạng bất kỳ
Do đó cần phát triển các thuật toán để tìm các cluster hình dạng bất kỳ
+ Yêu cầu tối thiểu tri thức lĩnh vực nhằm xác định các tham số đầu vào: Nhiềuthuật toán phân cụm đòi hỏi người dùng nhập các tham số trong phân tích cụm.Các kết quả phân cụm có thể bị ảnh hưởng vào các tham số đầu vào Cáctham số thường khó xác định, đặc biệt đối với các tập dữ liệu chứa các đốitượng dữ liệu nhiều chiều
+ Có khả năng làm việc với dữ liệu nhiễu
+ Không bị ảnh hưởng vào thứ tự nhập của dữ liệu
Trang 38+ Làm việc tốt trên CSDL có số chiều cao.
+ Chấp nhận các ràng buộc do người dùng chỉ định
+ Có thể hiểu và sử dụng được các kết quả gom cụm
Trang 39CHƯƠNG 2: PHƯƠNG PHÁP PHÁT HIỆN BẤT THƯỜNG DỰA TRÊN KỸ THUẬT KHAI
PHÁ DỮ LIỆU 2.1 Phát hiện bất thường dựa trên khai phá dữ liệu.
2.1.1 Phương pháp phát hiện bất thường dựa trên khai phá dữ liệu
Các phương pháp phát hiện xâm nhập truyền thống chủ yếu dựa vào nhữnghiểu biết về những dấu hiệu của các vụ tấn công đã biết Các sự kiện cần theo dõi
sẽ được đối chiếu với các ký hiệu để phát hiện các cuộc xâm nhập Các phương phápnày trích xuất đặc điểm từ những chuỗi dữ liệu mạng và phát hiện ra xâm nhậpbằng cách so sánh những giá trị đặc điểm với một dãy các ký hiệu tấn công đượccung cấp bởi các chuyên gia Cơ sở dữ liệu dấu hiệu sẽ được chỉnh sửa bằng taymỗi khi chúng ta tìm được một xâm nhập mới Điểm hạn chế rõ rệt của các phươngpháp dựa trên dấu hiệu là chúng không thể phát hiện các cuộc tấn công mới không
có trong cơ sở dữ liệu
So với các phương pháp truyền thống thì Khai phá dữ liệu mang lại nhiều điểmcải tiến rõ rệt: khai phá dữ liệu có thể sử dụng với các CSDL chứa nhiều nhiễu, dữliệu không đầy đủ, biến đổi liên tục, đặc biệt là phương pháp này đòi hỏi mức độ sửdụng các chuyên gia không quá thường xuyên Các ưu điểm này đem lại cho phươngpháp phát hiện xâm nhập trái phép bằng Khai phá dữ liệu khả năng xử lý khối lượng
dữ liệu lớn, có thể sử dụng trong các hệ thống thời gian thực
2.1.2 Kỹ thuật phát hiện xâm nhập dựa trên khai phá dữ liệu
Các kỹ thuật phát hiện xâm nhập dựa trên khai phá dữ liệu thường được chialàm hai loại: phát hiện dựa trên dò sự lạm dụng và phát hiện bất thường Trongphát hiện dò sự lạm dụng, các mẫu trong tập dữ liệu được gán nhãn là “bìnhthường” hoặc “bất thường” và một thuật toán học được áp dụng cho toàn bộ các
dữ liệu đã gán nhãn Kỹ thuật này sẽ được sử dụng trên các tập dữ liệu đầuvào khác nhau để phát hiện tấn công Không giống với các hệ thống phát hiệnxâm nhập dựa trên dấu hiệu, các mô hình của phương pháp dò sự lạm dụng đượctạo ra một cách tự động và có thể tinh vi và chính xác hơn so với các dấu hiệuđược tạo ra một cách thủ công
Trang 40Một ưu điểm nổi bật của phương pháp phát hiện dò sự lạm dụng là phát hiện ra cáchành vi tấn công đã biết và các biến thể của chúng có tính chính xác cao Tuy nhiênnhược điểm dễ thấy của phương pháp này là khó có thể phát hiện các hành vitấn công mang các đặc điểm đặc biệt chưa từng biết đến cũng như nó đòi hỏi phảigán nhãn bình thường hoặc bất thường việc này mất rất nhiều thời gian của cácchuyên gia.
Trong khi đó, phương pháp phát hiện bất thường xây dựng những mô hình vềbiểu hiện bất thường và đánh dấu những nghi vấn trong tập dữ liệu Vì vậy kỹthuật này có khả năng xác định các dạng xâm nhập mới chưa được biết đến trước
đó Mặc dù chúng ta có thể nhận thấy sự ưu việt, mạnh mẽ của phương pháp này,nhưng chúng vẫn ẩn chứa một tỷ lệ báo động nhầm nhất định Điều này là do cácbiểu hiện hệ thống chưa từng thấy trước đó (nhưng vẫn hợp lệ) bị liệt vào danhsách các bất thường và bị đánh dấu như các hành vi tiềm ẩn sự xâm nhập
Qua khảo sát thực tế, chúng ta thường gặp hai loại tấn công vào hệ thống:loại tấn công liên quan đến các kết nối đơn lẻ và loại tấn công liên quan đếnnhiều kết nối (bursty attacks - tấn công bùng nổ)
Giả sử trong một giao thông mạng tại một thời điểm nào đó cho trước, mỗi kếtnối được gán một giá trị và được biểu thị theo một đường nằm dọc (Hình 2.1) Giátrị này sẽ tương ứng với khả năng mà kết nối mạng bị xâm nhập
Hình 2.1: Gán giá trị để lượng hóa các cuộc tấn công trên sơ đồ.