Phát hiện dựa vào dấu hiệu ( Signature-base detection)

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu (Trang 25)

5. Phƣơng pháp nghiên cứu:

1.5.1 Phát hiện dựa vào dấu hiệu ( Signature-base detection)

Dấu hiệu là một mẫu tƣơng ứng với các đe doạ đã biết đƣợc thống kê các đặc trƣng và lƣu lại trên hệ thống. Hệ thống sẽ thu thập các thơng tin liên quan và so sánh với các dấu hiệu tấn cơng đƣợc lƣu trữ trong cơ sở dữ liệu để xác định xem hành động đĩ cĩ nguy hiểm hay khơng.

Ví dụ sau đây mơ tả cách IDS phát hiện xâm nhập dựa vào dấu hiệu.

* Cố gắng telnet với tên ngƣời dùng "root", điều này vi phạm chính sách an tồn của hệ thống.

* Thƣ điện tử cĩ đính kèm file "auto.exe" và file này cĩ đặc điểm của mã độc hại đã biết.

Kỹ thuật này rất hiệu quả trong việc phát hiện các đe doạ đã biết nhƣng lại khơng hiệu quả trong việc phát hiện những nguy cơ chƣa đƣợc biết. Ví dụ kẻ tấn cơng sửa tên file thành "auto21123.exe", thì việc tìm kiếm dấu hiệu trên với mã độc hại này sẽ khơng cĩ hiệu quả.

Phát hiện dựa vào dấu hiệu là một kỹ thuật đơn giản vì nĩ chỉ so sánh hành động hiện tại với danh sách dấu hiệu đã biết bằng cách so sánh các tốn tử. Kỹ thuật này ít đƣợc dùng trong mơ hình mạng lớn hay các giao thức ứng dụng bởi vì nĩ khơng thể theo dõi và hiểu đƣợc trạng thái của tất cả các thành phần phức tạp trong hệ thống. Bên cạnh đĩ kỹ thuật này khơng cĩ khả năng ghi nhớ những yêu cầu trƣớc đĩ khi cĩ một yêu cầu hiện tại. Do đĩ việc phát hiện tấn cơng dựa trên phƣơng pháp này cĩ độ tin cậy khơng cao.

1.5.2 Phát hiện dựa trên sự bất thường (Abnormaly - base detection)

Phát hiện dựa vào sự bất thƣờng là quá trình so sánh hành động đƣợc coi là bình thƣờng với các sự kiện đang diễn ra nhằm phát hiện ra sự bất thƣờng. Với kỹ thuật này IDS dựa vào profile miêu tả hành động bình thƣờng của nhiều đối tƣợng nhƣ ngƣời dùng, máy chủ, các kết nối mạng, hay ứng dụng. Profile này đƣợc tạo ra bằng cách giám sát các hành động thơng thƣờng trong một khoảng thời gian để đƣa ra đặc điểm nổi bật của hành động đĩ.

Kỹ thuật này chỉ cĩ độ chính xác cao khi IDS đƣợc gắn vào một hệ thống mạng cụ thể và cĩ thời gian đủ lâu để học tất cả các hành động bình thƣờng của hệ thống.

Profile sử dụng bởi phƣơng pháp này cĩ hai loại là static và dynamic. Static profile khơng thay đổi cho đến khi đƣợc tái tạo, chính vì vậy dần dần nĩ sẽ trở nên khơng chính xác, và cần phải đƣợc tái tạo định kỳ. Dynamic profile đƣợc tự động điều chỉnh mỗi khi cĩ các sự kiện bổ sung đƣợc quan sát, nhƣng chính điều này cũng làm cho nĩ trở lên dễ bị ảnh hƣởng bởi các phép thử dùng kỹ thuật giấu (evasio techniques). Ƣu điểm chính của phƣơng pháp này là nĩ rất cĩ hiệu quả trong việc phát hiện ra các mối nguy hại chƣa đƣợc biết đến.

1.5.3 Kỹ thuật phát hiện dựa vào phân tích trạng thái giao thức

hành vi của giao thức đƣợc sử dụng trên cơ sở đã biết các định nghĩa về hoạt động hợp lệ của giao thức để nhận ra hành vi tấn cơng. Kỹ thuật này dựa vào profile liên quan đến giao thức mà IDS hỗ trợ. "Trạng thái" trong phân tích trạng thái giao thức nghĩa là IDS cĩ khả năng hiểu và theo dõi trạng thái của mạng, truyền tải và các giao thức ứng dụng.

Điều ngăn cản chính của phƣơng pháp này chính là việc tập trung tài nguyên, bởi vì sự phức tạp trong quá trình phân tích và thực hiện giám sát trạng thái cho nhiều phiên làm việc đồng thời. Một vấn đề khác là phƣơng pháp này khơng thể phát hiện đƣợc các tấn cơng cĩ đặc trƣng mà hành vi thơng thƣờng của giao thức đƣợc thừa nhận, nhƣ việc thực hiện nhiều hành động trong một khoảng thời gian ngắn nhƣ tấn cơng từ chối dịch vụ. Hơn nữa, chuẩn giao thức đƣợc sử dụng trong IDS cĩ thể xung đột với cách thực hiện của giao thức hiện cĩ trong mạng.

1.5.4 Phát hiện dựa trên mơ hình

Phƣơng pháp phát hiện dựa trên mơ hình sử dụng các kỹ thuật học máy, khai phá dữ liệu, trí tuệ nhân tạo để xây dựng các mơ hình, các luật phát hiện tấn cơng một cách tự động từ các tập dữ liệu mơ phỏng tấn cơng. Sau đĩ các mơ hình đƣợc sử dụng trong các hệ thống IDS để dự đốn các tấn cơng mới. Phƣơng pháp này cĩ ƣu điểm là cho phép phát hiện đƣợc các tấn cơng mới, tuy nhiên hạn chế của nĩ là đƣa ra nhiều cảnh báo nhầm hơn các phƣơng pháp trên.

1.6 Hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu.

Khai phá dữ liệu là một phƣơng pháp tiếp cận mới trong việc phát hiện xâm nhập. Khai phá dữ liệu đƣợc định nghĩa [12]: "Sự khám phá ra các mẫu, các mối quan hệ, các biến đổi, những sự bất thường, những qui luật, những cấu trúc và sự kiện quan trọng mang tính chất thống kê trong dữ liệu". Trong đĩ tồn tại nhiều thuật tốn đƣợc sử dụng trong các bƣớc khai phá dữ liệu bao gồm phân lớp, phân tích hồi qui, phân cụm, khai phá luật kết hợp... Khai phá dữ liệu trong phát hiện xâm nhập trái phép nhằm trích lọc tri thức từ một tập dữ liệu lớn các thơng tin truy cập trên mạng, để phân tích và biểu diễn nĩ thành mơ hình phát hiện xâm nhập trái phép. Phƣơng pháp tiếp cận này quy việc phát hiện xâm nhập nhƣ là tiến trình phân tích dữ liệu, trong đĩ các phƣơng pháp tiếp cận trƣớc là những quá trình kỹ nghệ tri thức.

Hình 1.11 - Quá trình khai phá dữ liệu nhằm xây dựng mơ hình phát hiện xâm nhập trái phép [9].

Phƣơng pháp khai phá dữ liệu để phát hiện xâm nhập lần đầu tiên đƣợc phát hiện bởi MADAMID (Mining Audit Data for Automated Models for Instruction Detection - Khai phá dữ liệu đƣợc sử dụng trong mơ hình tự động để phát hiện xâm nhập)[8].

Quá trình khai phá dữ liệu trong việc xây dựng những mơ hình phát hiện xâm nhập đƣợc miêu tả ở Hình 1.10 [9]. Dữ liệu thơ đầu tiên đƣợc chuyển đổi thành thơng tin gĩi dữ liệu mạng với mã ASCII mà lần lƣợt nĩ đƣợc chuyển đổi thành thơng tin ở mức truy cập. Những bản ghi ở mức truy cập này chứa trong đĩ những thuộc tính kết nối nhƣ là dịch vụ, thời gian kết nối… Thuật tốn khai phá dữ liệu đƣợc áp dụng cho những dữ liệu này để tạo ra các mơ hình phát hiện xâm nhập. Các thuật tốn khai phá dữ liệu đƣợc dùng trong phƣơng pháp này là RIPPER "Thuật tốn phân lớp dựa vào luật", siêu phân lớp, thuật tốn hồi qui, luật kết hợp. Các thuật tốn này đƣợc áp dụng để kiểm sốt dữ liệu, tính tốn các mơ hình mà thu thập chính xác hành vi thực tế việc xâm nhập trái phép cũng nhƣ các hoạt động bình thƣờng.

Thuật tốn RIPPER [10] đƣợc dùng để học mơ hình phân lớp để xác định diễn biến bình thƣờng và diễn biến bất thƣờng trong hệ thống. Kỹ thuật hồi qui và tƣơng quan đƣợc dùng để xây dựng các mẫu liên tiếp từ các bản ghi dữ liệu thu thập. Những mẫu liên tiếp này biểu diễn lại những tổng hợp thống kê về mạng và hoạt động của hệ thống bằng cách đo lƣờng sự tƣơng quan giữa tính chất của hệ thống và dãy đồng loạt

các sự kiện xảy ra cùng lúc. Từ các mẫu liên tiếp đƣợc xây dựng các mẫu phù hợp của các hoạt động bình thƣờng, các mẫu xâm nhập trái phép đƣợc bổ sung tạo ra cơ sở dữ liệu học. Cơ sở dữ liệu này cho phép việc học mơ hình xâm nhập hiệu quả hơn nhằm để phát hiện xâm nhập bằng các thuật tốn khai phá dữ liệu khác nhau.

Phân tích và khai phá dữ liệu thu thập kết hợp với luật kết hợp và thuật tốn phân lớp để phát hiện ra các cuộc tấn cơng trên dữ liệu thơ. Luật kết hợp đƣợc sử dụng để thu thập những tri thức cần thiết về bản ghi cĩ thể cải thiện hiệu quả việc phân lớp. Hệ thống này cĩ hai giai đoạn, giai đoạn huấn luyện và giai đoạn phát hiện. Trong cơ sở dữ liệu ở giai đoạn huấn luyện của các tập mẫu thƣờng xuyên đƣợc tạo cho các mẫu tấn cơng miễn phí từ việc sử dụng duy nhất việc tấn cơng miễn phí tập dữ liệu. Điều này phục vụ nhƣ là sơ lƣợc lại mà các mẫu dữ liệu thƣờng xuyên tìm thấy sau đĩ sẽ đƣợc so sánh. Tiếp theo một cửa sổ trƣợt, sử dụng thuật tốn trực tuyến để tìm bộ mẫu thƣờng xuyên trong kết nối D cuối cùng và so sánh chúng với những tập dữ liệu đƣợc lƣu trữ trong cơ sở dữ liệu tấn cơng miễn phí, loại bỏ những dữ liệu đƣợc coi là bình thƣờng. Tại giai đoạn phân lớp là chỉ đƣợc huấn luyện để học mơ hình phát hiện xâm nhập. Tại giai đoạn phát hiện một thuật tốn tự động đƣợc dùng để đƣa ra tập mẫu mà đƣợc xem là đáng ngờ và đƣợc dùng bởi thuật tốn phân lớp đã học để phân lớp các mẫu nhƣ tấn cơng, báo động giả hoặc khơng xác định. Các tấn cơng khơng xác định là những cuộc tấn cơng khơng cĩ khả năng để phát hiện nhƣ báo động giả hoặc biết đƣợc các cuộc tấn cơng. Thử nghiệm phƣơng pháp này chỉ để phát hiện các cuộc tấn cơng bình thƣờng.

Kết chƣơng: Chƣơng I, em đã trình bày một cách tổng quát những vấn đề về

hệ thống phát hiện xâm nhập, nhƣ: Khái niệm; Chức năng và vai trị của IDS; Mơ hình kiến trúc của hệ thống phát hiện xâm nhập; Phân loại các hệ thống IDS; Các kỹ thuật phát hiện xâm nhập của hệ thống IDS; Hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu.

CHƢƠNG II: KHAI PHÁ DỮ LIỆU

Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã và đang đƣợc nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau trên thế giới. Tại Việt Nam, kỹ thuật này tƣơng đối mới mẻ, nhƣng cũng đang đƣợc nghiên cứu và dần đƣa vào ứng dụng. Chƣơng này, em tập trung vào nghiên cứu những vấn đề chính về khai phá dữ liệu nhƣ: Khái niệm; các bài tốn chính trong khai phá dữ liệu; ứng dụng và phân loại khai phá dữ liệu; đồng thời đƣa ra những thách thức và khĩ khăn trong khai phá dữ liệu để làm cơ sở cho nghiên cứu tiếp theo trong luận văn.

2.1 Khái niệm về khai phá dữ liệu.

Khai phá dữ liệu đƣợc định nghĩa cụ thể theo [12] “Sự khám phá ra các mẫu, các mối quan hệ, các biến đổi, những sự bất thƣờng, những qui luật, những cấu trúc và sự kiện quan trọng mang tính chất thống kê trong dữ liệu”.

Các dữ liệu này đƣợc thu từ nhiều nguồn, đa số là từ các phần mềm nghiệp vụ hay từ các cơng cụ lƣu trữ thơng tin trên web...

Đây là những khối dữ liệu khổng lồ nhƣng những thơng tin mà nĩ thể hiện ra thì lộn xộn và “nghèo” đối với ngƣời dùng. Kích thƣớc của khối dữ liệu khổng lồ đĩ cũng tăng với tốc độ rất nhanh chiếm nhiều dung lƣợng lƣu trữ. Khai phá dữ liệu sẽ giúp trích xuất ra các mẫu điển hình cĩ giá trị và biến chúng thành những tri thức hữu ích.

Hiện nay, ngồi thuật ngữ khai phá dữ liệu, ngƣời ta cịn dùng một số thuật ngữ khác cĩ ý nghĩa tƣơng tự nhƣ: khai phá tri thức từ cơ sở dữ liệu, trích lọc dữ liệu, phân tích dữ liệu/mẫu, khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (data dredredging).... Trên thực tế, nhiều ngƣời coi khai phá dữ liệu và một thuật ngữ thơng dụng khác là khám phá tri thức trong CSDL (Knowledge Discovery in Databases-KDD) là nhƣ nhau. Cịn một số ngƣời chỉ coi khai phá dữ liệu là một bƣớc trong trong quá trình khám phá tri thức trong cơ sở dữ liệu.

Quá trình này gồm một số bƣớc lặp đƣợc thể hiện trong hình sau:

Hình 2.1: Các bước xây dựng một hệ thống khai phá dữ liệu

Ý nghĩa cụ thể của các bƣớc nhƣ sau:

- Lựa chọn dữ liệu liên quan đến bài tốn quan tâm.

- Tiền xử lý dữ liệu, làm sạch dữ liệu, chiếm tới gần 60% nỗ lực. - Chuyển đổi dữ liệu về dạng phù hợp thuận lợi cho việc khai phá. - Khai phá dữ liệu, trích xuất ra các mẫu dữ liệu.

- Đánh giá mẫu.

- Sử dụng tri thức khai phá đƣợc.

* Một số định nghĩa mang tính mơ tả của nhiều tác giả về khai phá dữ liệu.

- Định nghĩa của Ferruzza: “Khai phá dữ liệu là tập hợp các phƣơng pháp đƣợc dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ và các mẫu chƣa biết bên trong dữ liệu”.

- Định nghĩa của Parsaye: “Khai phá dữ liệu là quá trình trợ giúp quyết định, trong đĩ chúng ta tìm kiếm các mẫu thơng tin chƣa biết và bất ngờ trong CSDL lớn”.

- Định nghĩa của Fayyad: “Khai phá tri thức là một quá trình khơng tầm thƣờng nhận ra những mẫu dữ liệu cĩ giá trị, mới, hữu ích, tiềm năng và cĩ thể hiểu đƣợc”.

2.2 Các bài tốn chính trong khai phá dữ liệu.

Quá trình khai phá dữ liệu là quá trình phát hiện ra mẫu thơng tin. Trong đĩ, giải thuật khai phá tìm kiếm các mẫu đáng quan tâm theo dạng xác định nhƣ các luật, phân lớp, hồi quy, cây quyết định, ...

2.2.1 Phân lớp (Classification)

Là việc xác định một hàm ánh xạ từ một mẫu dữ liệu vào một trong số các lớp đã đƣợc biết trƣớc đĩ. Mục tiêu của thuật tốn phân lớp là tìm ra mối quan hệ nào đĩ giữa thuộc tính dự báo và thuộc tính phân lớp. Nhƣ thế quá trình phân lớp cĩ thể sử dụng mối quan hệ này để dự báo cho các mục mới. Các kiến thức đƣợc phát hiện biểu diễn dƣới dạng các luật theo cách sau: “Nếu các thuộc tính dự báo của một mục thoả mãn điều kiện của các tiền đề thì mục nằm trong lớp chỉ ra trong kết luận”.

Ví dụ: Một mục biểu diễn thơng tin về nhân viên cĩ các thuộc tính dự báo là:

họ tên, tuổi, giới tính, trình độ học vấn, … và thuộc tính phân loại là trình độ lãnh đạo của nhân viên.

2.2.1.1 Quá trình phân lớp

Quá trình phân lớp thực hiện nhiệm vụ xây dựng mơ hình các cơng cụ phân lớp giúp cho việc gán nhãn phân loại cho các dữ liệu. Ví dụ nhãn “An tồn” hoặc “Rủi ro” cho các yêu cầu vay vốn; “Cĩ” hoặc “Khơng” cho các thơng tin thị trƣờng…. Các nhãn dùng phân loại đƣợc biểu diễn bằng các giá trị rời rạc trong đĩ việc sắp xếp trùng là khơng cĩ ý nghĩa.

Phân lớp dữ liệu gồm hai quá trình. Trong quá trình thứ nhất một cơng cụ phân lớp sẽ đƣợc xây dựng để xem xét nguồn dữ liệu. Đây là quá trình học, trong đĩ một thuật tốn phân lớp đƣợc xây dựng bằng cách phân tích hoặc “học” từ tập dữ liệu huấn luyện đƣợc xây dựng sẵn bao gồm nhiều bộ dữ liệu. Một bộ dữ liệu X biểu diễn bằng một vector n chiều, X = (x1, x2,…, xn), đây là các giá trị cụ thể của một tập n thuộc tính của nguồn dữ liệu {A1, A2,…, An}. Mỗi bộ đƣợc giả sử rằng nĩ thuộc về một lớp đƣợc định nghĩa trƣớc với các nhãn xác định.

Hình 2.2 - Quá trình học

Hình 2.3- Quá trình phân lớp

Quá trình đầu tiên của phân lớp cĩ thể đƣợc xem nhƣ việc xác định ánh xạ hoặc hàm y = f(X), hàm này cĩ thể dự đốn nhãn y cho bộ X. Nghĩa là với mỗi lớp dữ liệu chúng ta cần học (xây dựng) một ánh xạ hoặc một hàm tƣơng ứng.

Trong bƣớc thứ hai, mơ hình thu đƣợc sẽ đƣợc sử dụng để phân lớp. Để đảm bảo tính khách quan nên áp dụng mơ hình này trên một tập kiểm thử hơn là làm trên tập dữ liệu huấn luyện ban dầu. Tính chính xác của mơ hình phân lớp trên tập dữ liệu

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu (Trang 25)

Tải bản đầy đủ (PDF)

(70 trang)