Tiến trình khai phá dữ liệu

Một phần của tài liệu Kỹ thuật phân lớp dữ liệu và ứng dụng trong phát hiện mã độc (Trang 26 - 28)

Quy trình phát hiện tri thức thƣờng tuân theo các bƣớc sau:

Bước thứ nhất: Hình thành, xác định và định nghĩa bài tốn. Là tìm hiểu lĩnh vực ứng dụng từ đĩ hình thành bài tốn, xác định các nhiệm vụ cần phải hồn thành. Bƣớc này sẽ quyết định cho việc rút ra đƣợc các tri thức hữu ích và cho phép chọn các phƣơng pháp khai phá dữ liệu thích hợp với mục đích ứng dụng và bản chất của dữ liệu.

Bước thứ hai: Thu thập và tiền xử lý dữ liệu. Là thu thập và xử lý thơ, cịn đƣợc gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu (làm sạch dữ liệu), xử lý việc thiếu dữ liệu (làm giàu dữ liệu), biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết, bƣớc này thƣờng chiếm nhiều thời gian nhất trong tồn bộ qui trình phát hiện tri thức. Do dữ liệu đƣợc lấy từ nhiều nguồn khác nhau, khơng đồng nhất, … cĩ thể gây ra các nhầm lẫn. Sau bƣớc này, dữ liệu sẽ nhất quán, đầy đủ, đƣợc rút gọn và rời rạc hố. Bước thứ ba: Khai phá dữ liệu, rút ra các tri thức. Là khai phá dữ liệu, hay nĩi cách khác là trích ra các mẫu hoặc/và các mơ hình ẩn dƣới các dữ liệu. Giai đoạn này rất quan trọng, bao gồm các cơng đoạn nhƣ: chức năng, nhiệm vụ và mục đích của khai phá dữ liệu, dùng phƣơng pháp khai phá nào? Thơng thƣờng, các bài tốn khai phá dữ liệu bao gồm: các bài tốn mang tính mơ tả - đƣa ra tính chất chung nhất của dữ liệu, các bài tốn dự báo - bao gồm cả việc phát hiện các suy diễn dựa trên dữ liệu hiện cĩ. Tuỳ theo bài tốn xác định đƣợc mà ta lựa chọn các phƣơng pháp khai phá dữ liệu cho phù hợp.

Bướcthứtư: Sử dụng các tri thức phát hiện được. Là hiểu tri thức đã tìm đƣợc, đặc biệt là làm sáng tỏ các mơ tả và dự đốn. Các bƣớc trên cĩ thể lặp đi lặp lại một số lần, kết quả thu đƣợc cĩ thể đƣợc lấy trung bình trên tất cả các lần thực hiện. Các kết quả của quá trình phát hiện tri thức cĩ thể đƣợc đƣa và ứng dụng trong các lĩnh vực khác nhau. Do các kết quả cĩ thể là các dự đốn hoặc các mơ tả nên chúng cĩ thể đƣợc đƣa vào các hệ thống

hỗ trợ ra quyết định nhằm tự động hố quá trình này. Tĩm lại: KDD là một quá trình kết xuất ra tri thức từ kho dữ liệu mà trong đĩ khai phá dữ liệu là cơng đoạn quan trọng nhất.

Một phần của tài liệu Kỹ thuật phân lớp dữ liệu và ứng dụng trong phát hiện mã độc (Trang 26 - 28)