Lý do chọn đề tài Phát hiện xâm nhập là một trong các biện pháp đảm bảo an toàn phòng chống các tấn công, xâm nhập trái phép vào các hệ thông máytính và mạng.. Một trong các khâu quan tr
Trang 1HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIỄN THONG
PHAM VĂN LƯƠNG
GIẢI PHÁP PHÁT HIỆN XÂM NHAP DỰA TREN
HỌC MÁY VECTOR HỖ TRỢ SVM
Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.01.04
HÀ NOI - 2014
Trang 2Người hướng dẫn khoa học: TS PHAM THANH GIANG
Phản biện 1: TS Lê Hồng Phương
Phản biện 2: TS Trần Đăng Hưng
Luận văn sẽ được bảo vệ trước Hội đông châm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viên thông
Vào lúc: 14 giờ 10 phút ngày 9 tháng 8 năm 2014
Có thê tìm hiệu luận van tại:
Thư viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 3MỞ ĐẦU
1 Lý do chọn đề tài
Phát hiện xâm nhập là một trong các biện pháp đảm bảo an toàn
phòng chống các tấn công, xâm nhập trái phép vào các hệ thông máytính và mạng Một trong các khâu quan trọng nhất của một hệ thống
phát hiện xâm nhập là xử lý dữ liệu lưu thông trên mạng hoặc sinh ra
trong quá trình hoạt động của hệ thống và người dùng Do khối lượng
dữ liệu phải xử lý thường rất lớn nên việc tìm ra giải thuật phân tích,
xử lý dữ liệu hiệu quả và cho tỷ lệ phát hiện đúng cao là vấn đề cần
được quan tâm nghiên cứu.
Theo công bố của nhiều kết quả nghiên cứu, các giải thuật học
máy đã được ứng dụng khá thành công trong phát hiện xâm nhập,
như Bayes, SVM và HMM (Hidden Markov Model) Bên cạnh
những kết quả đạt được các thuật toán này còn có một số hạn chế,như chưa có giải pháp xử lý hiệu quả dữ liệu nhiều thuộc tinh va tamquan trọng của các thuộc tính là không giống nhau Luận văn này với
tên "Giải pháp phát hiện xâm nhập dựa trên học máy Vector hỗ trợ
SVM" ứng dụng giải thuật SVM và lý thuyết tập thô dé xây dựng môhình phát hiện xâm nhập, tập trung giải quyết vấn đề dữ liệu nhiềuthuộc tính, nhằm mục dich nâng cao hiệu quả phân tích, xử lý dữ liệu
và tăng tỷ lệ phát hiện đúng.
2 Mục đích nghiên cứu
Năm vững các vân dé liên quan dén mô hình, các phương pháp.
Trang 43 Đối tượng và phạm vi nghiên cứu
- Tổng quan về phát hiện xâm nhập
- Mô hình phát hiện xâm nhập
4 Phương pháp nghiên cứu
Phương pháp tài liệu: nghiên cứu các tài liệu liên quan đến họcmáy vector và lý thuyết tập thô
Phương pháp thực nghiệm: cài đặt thử nghiệm chương trình.
5 Cấu trúc của Luận văn
Ngoài phần mở đầu, kết luận, kiến nghị, mục lục và danh mụctài liệu tham khảo, luận văn gồm 4 chương:
Luận văn bao gồm bốn chương với nội dung như sau:
Chương 1: Tổng quan về phát hiện xâm nhập
Chương 2: Lý thuyết tập thô và thuật toán học máy vector hỗ trợ
(Support Vector Machines SVMI).
Chương 3: Xây dựng mô hình phát hiện xâm nhập dựa trên học máy vector hỗ trợ SVM.
Chương 4: Kết luận
Trang 5CHUONG 1:
TONG QUAN VE PHAT HIEN XAM NHAP
1.1 Các van đề an toàn và phương pháp đảm bao an toàn hệ thống
1.1.1 Các yêu cầu bảo mật cơ bản đối với hệ thong mang
Một hệ thống mạng cần phải đảm bảo các yêu cầu bảo mật cơ
bản sau:
- Tính bí mật: tính kín đáo riêng tư của thông tin
- Tính xác thực của thông tin, bao gồm xác thực đối tác (bàitoán nhận danh), xác thực thông tin trao đổi
- Tính trách nhiệm: đảm bảo người gửi thông tin không théthoái thác trách nhiệm về thông tin mà mình đã gửi
1.1.2 Các dạng xâm nhập tấn công
1.1.2.1 Tan công vào máy chủ hoặc máy trạm độc lập
Cách đơn giản nhất để tấn công một hệ điều hành là lợi dụng
một máy tính đang ở trạng thái đăng nhập (logged-on) của một người
nào đó khi người đó bỏ ra ngoài hoặc bận làm việc khác Rất nhiềungười dùng không tắt máy hoặc đăng xuất (log off) khi đi ra ngoàihoặc không cài đặt mật khâu man hình cho (screen saver) Rất nhiều
hệ điều hành cho phép người dùng cấu hình một màn hình chờ xuất
hiện sau một khoảng thời tĩnh nào đó (khoảng thời gian người dùng
không thao tác với máy) Màn hình chờ này có thé được cai đặt dé
yêu câu người dùng nhập mật khâu trước khi thao tác lại với máy.
Trang 61.1.2.2 Tan công bang cách phá mật khâu
Quá trình truy nhập vào một hệ điều hành có thê được bảo vệbăng một khoản mục người dùng và một mật khẩu Đôi khi ngườidùng khoản mục lại làm mất đi mục đích bảo vệ của nó bằng cáchchia sẻ mật khâu với những người khác, ghi mật khẩu ra va dé nócông khai hoặc để ở một nơi nào đó cho dễ tìm trong khu vực làm
việc của mình.
1.1.2.3 Virus, sâu mạng và trojan horse.
Hầu như ai cũng đã từng nghe hay gặp phải virus, sâu mạnghoặc trojan horse Virus là một chương trình gắn trong các ô đĩa hoặccác tệp và có khả năng nhân bản trên toàn hệ thống Một số virus cóthể phá hoại các tệp hoặc 6 đĩa, còn một số khác chỉ nhân bản mà
không gây ra một sự phá hoại thường trực nào.
1.1.2.4 Tấn công bộ đệm (buffer attack)
Rất nhiều hệ điều hành sử dụng bộ đệm (buffer) dé lưu dit liệucho đến khi nó sẵn sàng được sử dụng Giả sử, một máy chủ với mộtkết nói tốc độ cao đang truyền dit liệu đa phương tiện tới một máytrạm trên mạng, và máy chủ truyền nhanh hơn máy trạm có thé nhận.Khi đó giao diện mạng của máy trạm sẽ sử dụng phần mềm lưu tạm(đệm) thông tin nhận được cho đến khi máy trạm sẵn sàng xử lý nó.Các thiết bi mạng như switch cũng sử dụng bộ đệm dé khi lưu lượngmạng quá tải nó sẽ có chỗ để lưu dữ liệu cho đến khi chuyên tiếpxong dữ liệu đến dich Tan công bộ đệm là cách mà kẻ tan công lừacho phần mềm đệm lưu trữ nhiều thông tin trong bộ đệm hơn kích cỡ
Trang 7của nó (trạng thái này gọi là tràn bộ đệm) Phần thông tin thừa đó cóthé là một phần mềm giả mạo sau đó sẽ truy nhập vào máy tính đích.1.1.2.5 Tan công từ chối dịch vụ
1.1.2.6 Tan công định tuyến nguồn (source routing attack)
1.1.2.7 Tan công giả mao
1.1.2.8 Tan công sử dung e-mail
1.1.2.9 Tan công quét công
1.1.2.10 Tan công không dây
1.1.3 Các biện pháp phòng chong tan công, xâm nhập
Các chiến lược an toàn hệ thống :
- Giới hạn quyền hạn tối thiểu (Last Privilege):
Đây là chiến lược cơ ban nhất theo nguyên tắc nay bat kỳ mộtđối tượng nào cùng chỉ có những quyền hạn nhất định đối với tàinguyên mạng, khi thâm nhập vào mạng đối tượng đó chỉ được sửdụng một số tài nguyên nhất định
- Bảo vệ theo chiều sâu (Defence In Depth):
Nguyên tắc này nhắc nhở chúng ta: Không nên dựa vào một chế
độ an toàn nào dù cho chúng rất mạnh, mà nên tạo nhiều cơ chế antoàn dé tương hỗ lẫn nhau
- Nút thắt (Choke Point) :Tạo ra một “cửa khâu” hẹp, và chỉ cho phép thông tin đi vào hệthống của mình băng con đường duy nhất chính là “cửa khâu” này
=> phải tổ chức một cơ cau kiểm soát va điều khiển thông tin đi qua
cửa này.
Trang 8- Điểm nối yếu nhất (Weakest Link):
Chiến lược này dựa trên nguyên tắc: “Một dây xích chỉ chắc tạimắt duy nhất, một bức tường chỉ cứng tại điểm yếu nhất”
Kẻ phá hoại thường tìm những chỗ yếu nhất của hệ thống đề tấncông, do đó ta cần phải gia cố các yêu điểm của hệ thống Thôngthường chúng ta chỉ quan tâm đến kẻ tan công trên mạng hơn là kẻ
tiếp cận hệ thống, do đó an toàn vật lý được coi là yếu điểm nhất
trong hệ thống của chúng ta
- Tính toàn cục:
Các hệ thống an toàn đòi hỏi phải có tính toàn cục của các hệthống cục bộ Nếu có một kẻ nào đó có thể bẻ gãy một cơ chế an toànthì chúng có thé thành công bằng cách tan công hệ thống tự do của ai
đó và sau đó tan công hệ thống từ nội bộ bên trong
- Tính đa dạng bảo vệ: Cần phải sử dụng nhiều biện pháp bảo
vệ khác nhau cho hệ thống khác nhau, nếu không có kẻ tấn côngvào được một hệ thống thì chúng cũng dễ dàng tấn công vào các
hệ thống khác
1.2 Phân loại phương pháp phát hiện xâm nhập
Hiện tượng và các dấu hiệu nhận biết khi máy tính bị xâm nhập:
Có nhiều cuộc tấn công hoạt động trong chế độ nền, âm thầm, không
để lại bất ky dau vết đặc biệt nào hoặc không gây hậu quả trên chínhmáy người dùng, ví dụ các chương trình đánh cắp thông tin ngườidùng, thì rất khó nhận biết nếu không có các công cụ đặc biệt hỗ trợ.Tuy nhiên cũng có một số kiêu thâm nhập, tắn công gây ra những hậuquả, hiện tượng có thê nhận biết được
Trang 9Hệ thống phát hiện xâm nhập trái phép mạng máy tính: Một hệthống phát hiện xâm nhập (IDS -Intrusion Detection System) là mộtthiết bị phần cứng hoặc phần mềm theo dõi hệ thống mạng, có chức
năng giám sát lưu thông mạng, tự động theo dõi các sự kiện xảy ra
trên một hệ thống mang máy tính, phân tích dé phát hiện ra các van
đề liên quan đến an ninh, bảo mật và đưa ra cảnh báo Một số hệthống phát hiện xâm nhập còn có thể ngăn chặn các nỗ lực xâm nhậpnhưng điều này là không bắt buộc đối với một hệ thống giám sát
Khác với tường lửa, IDS không thực hiện các thao tác ngăn chặn truy
xuất mà chỉ theo dõi các hoạt động trên mạng dé tìm ra các dấu hiệucủa tan công và cảnh báo
1.2.1 Phan loại dựa trên kỹ thuật phan tích dit liệu
1.2.2 Phân loại dựa trên nguồn dữ liệu
1.3 Các kỹ thuật xử lý dữ liệu sử dụng trong phát hiện xâm nhập
1.3.1 Hệ thống chuyên gia (Expert systems)
13.2 Phát hiện xâm nhập dựa trên luật (Rule-Based Intrusion
Detection)
1.3.3 Nhận dạng ý định người dùng (User intention identification)
1.3.4 Phân tích trạng thái phiên (State-transition analysis)
1.3.5 Kỹ thuật phân tích thong kê
1.3.6 Kỹ thuật mang nơ ron (Neural networks)
1.3.7 Kỹ thuật học máy
1.4 Mô tả bài toán trong luận văn
SVM nâng cao nhằm khắc phục vấn đề xử lý đữ liệu củaSVM Một tập dữ liệu có thé chứa rất nhiều thuộc tính, tuy nhiên
Trang 10mức độ quan trong của chúng là không giống nhau gây ảnh hưởngđến hiệu quả phát hiện của hệ thống Băng cách sử dụng lý thuyếttập thô bài toán có thê giải quyết được vấn đề cơ sở dữ liệu chứanhiều thuộc tính
Dữ liệu đầu vào cho phương pháp là tập các tham số về các kếtnối mạng Áp dụng lý thuyết tập thô tìm các bộ rút gọn các thuộc tínhcủa tập dữ liệu ban đầu, tính toán trọng số và xếp hạng chúng Tiếnhành loại bỏ các thuộc tính có trọng sỐ bằng 0 được tập dữ liệu với SỐthuộc tính giảm bớt Tiếp tục SVM nâng cao sẽ xử lý dit liệu vớithuộc tính có trong số đã được tính toán
1.5 Kết chương
Chương | trình bày tổng quan về phát hiện xâm nhập, trong đónêu rõ các yêu cầu cơ bản đối với một hệ thống cần đảm bảo đượctrước các dạng tấn công: phần mềm phá hoại và tấn công vào tảinguyên mạng Từ đó đưa ra các chiến lược bảo đảm an toàn cho hệthống, biện pháp ngăn chặn xâm nhập, xây dựng hệ thống phát hiệnxâm nhập Hệ thống phát hiện xâm nhập dựa trên các phương phápphát hiện xâm nhập: kỹ thuật phân tích dữ liệu và nguồn dữ liệu.Cuối cùng tìm hiểu về các kỹ thuật xử lý dữ liệu dùng trong phát hiện
xâm nhập.
Luận văn giải quyết tiếp cận mới về phương pháp phát hiện xâmnhập mạng băng cách nâng cao thuật toán SVM dựa trên lý thuyết tậpthô giúp khắc phục tồn tại của SVM nguyên gốc Ta sẽ tìm hiểu chỉtiết cơ sở lý thuyết của phương pháp này trong chương tiếp theo
Trang 11Khái niệm cơ bản của lý thuyết tập thô là xap xi dưới và trên củamột tập, sự xấp xỉ của không gian là hình thức phân loại tri thức liênquan đến miền quan tâm Tập con được tạo ra bởi xấp xỉ đưới mô tảbởi các đối tượng là những thành phần chắc chắn của một tập, trong
khi xap xỉ trên được đặc trưng bởi các đối tượng có khả năng thuộc
tập quan tâm Mỗi tập con xác định thông qua xấp xi dưới và xấp xi
trên được gọi là tập thô.
2.1.1 Hệ thống thông tin
Trong hau hết các hệ quản trị cơ sở dit liệu thông thường thithông tin thường được biểu diễn dưới dạng các bảng, trong đó mỗihàng biểu diễn thông tin về một đối tượng, mỗi cột biểu diễn thôngtin về một thuộc tính của đối tượng Từ đầu những năm 80 Z.Pawlak
đã định nghĩa một khái niệm mới là hệ thông tin (infomation system)
dựa trên khái niệm bảng truyền thống như sau:
Định nghĩa 1.1: Hệ thống thông tin là một cặp Š = (U, A)
Trang 122.1.2 Quan hệ bất khả phân biệt
Một hệ thông tin (hay bảng quyết định) biểu diễn tri thức về thégiới thực Tuy nhiên nhiều khi có thể chúng tồn tại lượng lớn thôngtin không cần thiết đó bởi vì sự du thừa xảy ra theo hai khả năng:
- Một số đối tượng giống nhau hoặc không phân biệt có thể lặp đilặp lại vài lần
- Hoặc một SỐ thuộc tính có thể không cần thiết
2.1.3 Xap xi tập hợp
Mối quan hệ tương đương cho ta sự phân hoạch các đối tượngcủa tập vũ trụ Các phân hoạch này có thé sử dung để xây dựng cáctập con của tập vũ trụ Các tập con này thường chứa các đối tượng cócùng giá trị của thuộc tính quyết định Trong trường hợp này ta nói răng
các khái niệm hay tập các giá trị tại các tập thuộc tính quyết định, có thé
được mô tả một cách rõ ràng thông qua tập tập các giá trị tại các thuộc
tính điều kiện
Trang 13© Với trường hợp 1: khái niệm lớp tương đương cho ta tiếp cậntinh giảm thông tin cần lưu trữ trong một hệ thông tin Ta chỉ cần sửdụng một đối tượng dé đại diện cho mỗi lớp tương đương.
¢ Với trường hợp 2: Chỉ giữ lại những thuộc tinh bảo toàn quan
hệ bất khả phân biệt, do đó bảo toàn khả năng xấp xỉ tập hợp trongmột hệ thông tin Quá trình rút gọn một hệ thống thông tin mà tập cácthuộc tính của hệ thống thông tin đã được rút gọn là độc lập và không
còn thuộc tính nào có thể bị loại bỏ hơn nữa mà không làm mất thông
tin từ hệ thống, kết quả được biết đến như là tập rút gọn
2.1.5 Ma trận phán biệt và hàm phán biệt
Xét hệ thông tin A = (U,A) có n đối tượng Ma trận phân biệtcủa A là ma trận đối xứng có kích thước n x n với các phan tử c; j
được cho như sau:
Cy = {a c€A|a(x,) # a(x;)} VỚI i,j = 1,2, n
Nhu vậy mỗi phan tử c; j của ma trận phân biệt là tập hợp cácthuộc tinh dé phân biệt hai đối tượng x;,Vva x;
Trang 142.2 Support Vector Machines - SVM
SVM được giới thiệu bởi V.Vapnik [3] và các đồng nghiệp củaông vào những năm 1970 ở Nga và sau đó đã phô biến vào nhữngnăm 1990 SVM với những đặc điểm ưu việt trở thành một trongnhững thuật toán phổ biến nhất Không chỉ có nền tang lý thuyết chắc
mà còn thực hiện phân loại chính xác so với hầu hết các thuật toánkhác trong nhiều ứng dụng đặc biệt các ứng dụng liên quan đến dữliệu nhiều chiều
Ý tưởng của phương pháp: cho trước một tập huấn luyện đượcbiểu diễn trong không gian vector Phương pháp tìm ra một siêu phang ƒquyết định tốt nhất có thể phân tách các điểm trên không gian thành hailớp tương ứng là lớp + và lớp - Độ chính xác của siêu phẳng nay đượcquyết định bởi khoảng cách (gọi là biên) của điểm dữ liệu gần nhất củamỗi lớp đến mặt phăng này Khi đó, khoảng cách biên càng lớn thì mặtphẳng quyết định càng tốt, đồng thời việc phân loại càng chính xác
2.2.1 SVM tuyễn tính: trường hop có thể phân tách
Phần này nghiên cứu trường hợp đơn giản của SVM tuyến tính
Nó giả thiết rằng các đữ liệu có thể phân tách tuyến tính
Theo đại số tuyến tinh, chúng ta biết rang trong (w - x) + b = 0,
w định nghĩa một đường pháp tuyến với siêu phăng (hình 2.3).Không thay đổi vector chuẩn w, biến b di chuyên siêu phẳng songsong với chính nó Chú ý răng (w+ x) + b = 0 có một mức độ tự do.Chúng ta có thé thay đổi tỉ lệ các siêu phang (AW - x + 4D) =
0 véid € R* mà không thay đổi siêu phăng
Trang 152.2.2 SVM tuyến tính: trường hop không phân tách được
Dữ liệu phân tách tuyến tính là trường hợp lý tưởng Trong thực
tế, đữ liệu huấn luyện hầu như luôn bị nhiễu, tức là chứa các lỗi vìnhiều lí do khác nhau Chăng han, một số mẫu có thé được gán nhãnkhông chính xác Hơn nữa các van đề thực tế có thé có một số mức
độ ngẫu nhiên Ngay cả đối với hai vector đầu vào giống hệt nhau,nhãn của chúng có thể khác nhau
Dé nâng cao hiệu qua SVM, phải cho phép nhiễu trong các dữliệu huấn luyện Tuy nhiên, với dữ liệu nhiễu thì SVM phân táchtuyến tính sẽ không tìm ra một hướng giải pháp nào bởi vì các ràngbuộc không thé đạt được Chẳng hạn, trong hình 2.9, có một điểm
âm nằm trong lớp dương, và có một điểm đương nằm trong lớp âm.Một cách rõ ràng hơn, không có giải pháp có thé được tìm thấy cho
van dé này.