CHƯƠNG II: XÂY DỰNG THUẬT TOÁN PHÂN LỚP C4 .5 VÀ NAIVE BAYES
2.1. Giới thiệu về khai phá dữ liệu
2.1.3. Quy trình khai phá dữ liệu
Hình 7. Các bước của quy trình khai phá dữ liệu
Giai đoạn 1: Gom dữ liệu (Gathering)
Gom dữ liệu là bước tập hợp các DL được khai thác trong một CSDL, một kho DL và thậm chí các dữ liệu từ các nguồn ứng dụng web. Các dữ liệu từ các nguồn khác nhau được tập hợp lại và kết hợp với nhau. DL thu thập từ nhiều nguồn sẽ làm tăng tính đa dạng của nó, tuy nhiên sẽ tiềm ẩn nguy cơ về độ chính xác của dữ liệu.
Giai đoạn 2: Trích lọc dữ liệu (Selection)
Ở giai đoạn trích lọc, DL được lựa chọn hoặc phân chia theo một số tiêu chuẩn nào đó. Chúng ta lựa chọn ra một số tiêu thức cùng một số dữ liệu tiêu biểu. Có thể những dữ liệu này tuân theo quy luật phân phối chuẩn hoặc theo một phân phối nào đó như quy luật phân phối xác suất siêu bội, quy luật nhị thức... phục vụ cho thuật toán KPDL.
Giai đoạn 3: Làm sạch, tiền xử lý và chuẩn bị dữ liệu (Cleaning, Pre-Processing and Preparation)
Giai đoạn này thường hay bị bỏ qua nhưng nó lại là một bước rất thiết yếu trong quá trình KPDL. Một số lỗi thường hay mắc phải trong khi gom nhóm DL là tính khơng chặt chẽ và thiếu logic. Vì vậy, dữ liệu thường chứa các giá trị vô nghĩa và bị nhiễu. Giai đoạn này sẽ tiến hành xử lý những kiểu DL khơng hợp lý nói trên. Bởi vậy, đây là q trình
Khóa luận tốt nghiệp________________________________________________________ rất quan trọng vì nếu DL khơng được làm sạch và tiền xử lý sẽ gây nên những kết quả sai lệch [2].
*Làm sạch dữ liệu (Data cleaning) là loại bỏ nhiễu, hiệu chỉnh những phần DL khơng nhất qn gồm:
-Tóm tắt hóa DL là nhận diện đặc điểm chung của DL
- Xử lý DL bị thiếu (missing data) (là những DL khơng có sẵn khi cần được sử dụng do nguyên nhân khách quan khi nhập liệu).
- Xử lý DL bị nhiễu (noisy data) bằng Binning, hồi quy, phân tích cụm
*Tích hợp dữ liệu (Data integration) là trộn DL từ các phần mềm nghiệp vụ khác nhau
vào một kho DL gồm:
- Tích hợp lược đồ và so trùng đối tượng. - Xử lý vấn đề dư thừa.
- Phát hiện và xử lý mâu thuẫn giá trị DL.
*Biến đổi dữ liệu (Data transformation) là việc chuẩn hóa DL bao gồm: - Làm mịn DL (smoothing) bằng các phương pháp binning, hồi quy.
- Kết hợp DL: Chuyển DL ở mức chi tiết này sang DL ở mức kém chi tiết hơn
- Tổng quát hóa DL: Chuyển đổi DL cấp thấp/ nguyên tố/ thô sang các khái niệm ở mức cao hơn thông qua các phân cấp ý niệm.
- Chuẩn hóa DL: Các giá trị thuộc tính được chuyển đổi vào một miền trị nhất định được định nghĩa trước.
*Thu giảm dữ liệu (Data reduction) là việc thu giảm kích thước DL (thu giảm số phần tử) gồm:
- Kết hợp khối dữ liệu: Kết hợp DL bằng các hàm nhóm: average, max, sum, count - Chọn tập con các thuộc tính: Giảm kích thước tập DL bằng việc loại bỏ những thuộc
tính/ chiều/ đặc trưng dư thừa. - Thu giảm chiều
Hình 8. Tổng quan giai đoạn tiền xử lý số liệu
Giai đoạn 4: Chuyển đổi dữ liệu
Với mỗi mục đích khai thác khác nhau thì DL phải được chuyển đổi phù hợp. Tùy theo
yêu cầu của phần mềm KPDL mà ta phải chuyển về định dạng yêu cầu. Một số phần mềm chuyên dụng như Weka thường yêu cầu các file định dạng arff hoặc coma chứ không phải là xls, hay spss... Khác với một số phần mềm BI là chấp nhận nhiều định dạng khác nhau mà ở đây phần mềm KPDL yêu cầu định dạng DL đảm bảo tính tồn vẹn cho DL phân tích, ngồi ra là khả năng truy nhập và tùy chỉnh dữ liệu.
Giai đoạn 5: Khai phá dữ liệu
KPDL là bước quan trọng nhất trong quá trình phát hiện tri thức. Ket quả của bước này
là trích chọn được các mẫu hoặc các mơ hình bị ẩn dưới là một khối lượng DL lớn.
Giai đoạn 6: Đánh giá mẫu
Đánh giá mẫu là giai đoạn cần thiết trong quá trình phát hiện tri thức. Ở giai đoạn này các mẫu DL được chiết xuất ra bởi phần mềm KPDL [6].