Khái niệm về khai phá dữ liệu

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu (Trang 30 - 32)

5. Phƣơng pháp nghiên cứu:

2.1 Khái niệm về khai phá dữ liệu

Khai phá dữ liệu đƣợc định nghĩa cụ thể theo [12] “Sự khám phá ra các mẫu, các mối quan hệ, các biến đổi, những sự bất thƣờng, những qui luật, những cấu trúc và sự kiện quan trọng mang tính chất thống kê trong dữ liệu”.

Các dữ liệu này đƣợc thu từ nhiều nguồn, đa số là từ các phần mềm nghiệp vụ hay từ các cơng cụ lƣu trữ thơng tin trên web...

Đây là những khối dữ liệu khổng lồ nhƣng những thơng tin mà nĩ thể hiện ra thì lộn xộn và “nghèo” đối với ngƣời dùng. Kích thƣớc của khối dữ liệu khổng lồ đĩ cũng tăng với tốc độ rất nhanh chiếm nhiều dung lƣợng lƣu trữ. Khai phá dữ liệu sẽ giúp trích xuất ra các mẫu điển hình cĩ giá trị và biến chúng thành những tri thức hữu ích.

Hiện nay, ngồi thuật ngữ khai phá dữ liệu, ngƣời ta cịn dùng một số thuật ngữ khác cĩ ý nghĩa tƣơng tự nhƣ: khai phá tri thức từ cơ sở dữ liệu, trích lọc dữ liệu, phân tích dữ liệu/mẫu, khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (data dredredging).... Trên thực tế, nhiều ngƣời coi khai phá dữ liệu và một thuật ngữ thơng dụng khác là khám phá tri thức trong CSDL (Knowledge Discovery in Databases-KDD) là nhƣ nhau. Cịn một số ngƣời chỉ coi khai phá dữ liệu là một bƣớc trong trong quá trình khám phá tri thức trong cơ sở dữ liệu.

Quá trình này gồm một số bƣớc lặp đƣợc thể hiện trong hình sau:

Hình 2.1: Các bước xây dựng một hệ thống khai phá dữ liệu

Ý nghĩa cụ thể của các bƣớc nhƣ sau:

- Lựa chọn dữ liệu liên quan đến bài tốn quan tâm.

- Tiền xử lý dữ liệu, làm sạch dữ liệu, chiếm tới gần 60% nỗ lực. - Chuyển đổi dữ liệu về dạng phù hợp thuận lợi cho việc khai phá. - Khai phá dữ liệu, trích xuất ra các mẫu dữ liệu.

- Đánh giá mẫu.

- Sử dụng tri thức khai phá đƣợc.

* Một số định nghĩa mang tính mơ tả của nhiều tác giả về khai phá dữ liệu.

- Định nghĩa của Ferruzza: “Khai phá dữ liệu là tập hợp các phƣơng pháp đƣợc dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ và các mẫu chƣa biết bên trong dữ liệu”.

- Định nghĩa của Parsaye: “Khai phá dữ liệu là quá trình trợ giúp quyết định, trong đĩ chúng ta tìm kiếm các mẫu thơng tin chƣa biết và bất ngờ trong CSDL lớn”.

- Định nghĩa của Fayyad: “Khai phá tri thức là một quá trình khơng tầm thƣờng nhận ra những mẫu dữ liệu cĩ giá trị, mới, hữu ích, tiềm năng và cĩ thể hiểu đƣợc”.

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu (Trang 30 - 32)

Tải bản đầy đủ (PDF)

(70 trang)