Quá trình phát hiện tri thức

Một phần của tài liệu Áp dụng luật kết hợp trong khai phá dữ liệu cho dữ liệu ngân hàng đầu tư và phát triển việt nam (Trang 25)

Quá trình phát hiện tri thức bao gồm một số bước như sau:

Bước thứ nhất là tìm hiểu lĩnh vực ứng dụng và hình thành bài toán. Bước này rõ ràng là một điều tiên quyết cho việc rút ra được các tri thức hữu ích và cho việc chọn các phương pháp khai thác dữ liệu thích hợp trong bước ba sao cho phù hợp với mục đích ứng dụng và bản chất của dữ liệu.

Bước thứ hai là thu thập và xử lý thô, hay còn gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu hoặc dị dạng, xử lý việc thiếu dữ liệu, tiến hành các phép biến đổi (nếu cần thiết) và rút gọn dữ liệu. Bước này thường chiếm hầu hết thời gian cần thiết cho toàn bộ quy trình KDD.

Bước thứ ba là khai phá dữ liệu, tức là trích ra các mẫu hoặc/và các mô hình ẩn dưới các dữ liệu. Một mô hình có thể được xem như “một biểu diễn tổng thể của một cấu trúc nhằm tóm lược thành phần mang tính hệ thống ngụ trong dữ liệu hoặc mô tả tập dữ liệu này có thể sinh sôi nảy nở ra sao”. Trái lại một mẫu là một cấu trúc cục bộ chỉ liên quan tới một nhóm các biến và một số tập các sự kiện. Các lớp chính của các phương pháp khai phá dữ liệu là mô hình dự đoán chẳng hạn như phân loại và hồi quy: phân đoạn (chia cụm); mô hình phụ thuộc chẳng hạn như các mô hình đồ thị hoặc ước lượng mật độ; mô hình tóm lược chẳng hạn như tìm các mối quan hệ giữa các trường, các liên kết; và mô hình thay đổi và phát triển độ lệch trong dữ liệu và tri thức.

Bước thứ tư là hiểu tri thức đã tìm được, đặc biệt là làm sáng tỏ các mô tả và dự đoán, hai mục tiêu chính của các hệ thống khám phá trong thực tế. Kinh nghiệm cho thấy rằng các mẫu hoặc các mô hình phát hiện được từ các dữ liệu không phải lúc nào cũng đáng quan tâm và có thể trực tiếp sử dụng được ngay và quy trình KDD cần phải được lặp đi lặp lại có điều chỉnh theo các tri thức đã phát hiện được. Để có thể đánh giá các luật được áp dụng trong quy trình KDD, người ta thường chia giữ liệu thành hai tập, huấn luyện trên tập thứ nhất và kiểm chứng trên tập thứ hai. Có thể lặp lại quy trình này một số lần với các phần chia khác nhau, sau đó lấy trung bình các kết quả để ước lượng các luật thi hành.

Bước cuối cùng là đem tri thức đã phát hiện được vào sử dụng trong thực tế. Trong một vài trường hợp người ta có thể sử dụng tri thức phát hiện được mà

không cần phải đưa vào một hệ thống máy tính. Mặt khác, người sử dụng có thể hy vọng rằng tri thức đã tìm được có thể được đưa vào các máy tính và được khai thác bởi một số chương trình. Đưa các kết quả đã tìm được vào sử dụng trong thực tế chính là mục đích cuối cùng của một quy trình KDD.

Cần lưu ý rằng không gian của các mẫu thường là vô hạn và để liệt kê ra được các mẫu này ta cũng cần phải tiến hành nghiên cứu rất nhiều nữa. Thành phần khai thác dữ liệu trong quy trình KDD chủ yếu liên quan đến việc phát hiện và liệt kê ra các mẫu từ dữ liệu. Bộ phận phát hiện tri thức quan tâm đến việc đánh giá và phân tích ý nghĩa của các mẫu để đi tới các quyết định mẫu nào có ý nghĩa và mẫu nào không. Nó còn bao gồm việc lựa chọn các lược đồ mã hoá, tiền xử lý dữ liệu, rút mẫu và các phép dự đoán dữ liệu trước khi tiến hành giai đoạn khai phá dữ liệu.

Chúng ta sẽ xem xét cụ thể một số công đoạn sau:

* Tìm hiểu rõ phạm vi ứng dụng: những tri thức có liên quan trước đây, các mục đích của người sử dụng...

* Tạo lập tập dữ liệu đích: cho ra một tập dữ liệu, hoặc tập trung vào một tập con các biến hoặc các mẫu dữ liệu mà trên đó cần phải phát hiện ra các tri thức.

* Quá trình làm sạch dữ liệu: các phép cơ bản như loại bỏ nhiễu hoặc các giá trị kỳ dị nếu hợp lý, xử lý các giá trị bị thiếu, sửa các lỗi mang tính h ệ thống.

Rút gọn và dự đoán dữ liệu: phát hiện ra các đặc điểm hữu ích để biểu diễn lại dữ liệu sao cho phù hợp nhất với mục tiêu cần đạt tới. Có thể sử dụng phương pháp rút bớt số chiều hoặc biến đổi dữ liệu để giảm bớt số lượng các biến.

* Lựa chọn nhiệm vụ của khai phá dữ liệu: quyết định xem mục đích của quy trình KDD này là gì: phân loại, hồi quy, hay gộp nhóm, v.v.

* Lựa chọn phương pháp khai phá dữ liệu: chọn các phương pháp sẽ sử dụng để tìm các mẫu trong dữ liệu. Trong đó kể cả việc quyết định xem các mô hình nào và các tham số nào là thích hợp.

* Rút ra các mẫu/các mô hình: tìm kiếm các mẫu đáng chú ý dưới một dạng biểu diễn khác đi hoặc một tập các biểu diễn như vậy: các quy tắc phân loại hoặc các cây, gộp nhóm và v.v..

* Củng cố tri thức đã phát hiện được: tích hợp tri thức này vào hệ thống thực hành, hoặc đơn giản hơn là làm các báo cáo về nó và phân phát cho những người quan tâm. Kiểm tra lại xem tri thức này có gì trái với những tri thức đã có trước đây không.

CHƢƠNG 2 LUẬT KẾT HỢP

Một phần của tài liệu Áp dụng luật kết hợp trong khai phá dữ liệu cho dữ liệu ngân hàng đầu tư và phát triển việt nam (Trang 25)

Tải bản đầy đủ (PDF)

(88 trang)