Giai đoạn 4: Chuyển đổi dữ liệu
Với mỗi mục đích khai thác khác nhau thì DL phải được chuyển đổi phù hợp. Tùy theo
yêu cầu của phần mềm KPDL mà ta phải chuyển về định dạng yêu cầu. Một số phần mềm chuyên dụng như Weka thường yêu cầu các file định dạng arff hoặc coma chứ không phải là xls, hay spss... Khác với một số phần mềm BI là chấp nhận nhiều định dạng khác nhau mà ở đây phần mềm KPDL yêu cầu định dạng DL đảm bảo tính tồn vẹn cho DL phân tích, ngồi ra là khả năng truy nhập và tùy chỉnh dữ liệu.
Giai đoạn 5: Khai phá dữ liệu
KPDL là bước quan trọng nhất trong quá trình phát hiện tri thức. Ket quả của bước này
là trích chọn được các mẫu hoặc các mơ hình bị ẩn dưới là một khối lượng DL lớn.
Giai đoạn 6: Đánh giá mẫu
Đánh giá mẫu là giai đoạn cần thiết trong quá trình phát hiện tri thức. Ở giai đoạn này các mẫu DL được chiết xuất ra bởi phần mềm KPDL [6].
2.1.4. Ứng dụng của khai phá dữ liệu.
Trong thời đại xã hội thơng tin như hiện nay có hàng ngàn thơng tin được cập nhật mỗi
ngày nhưng không phải thông tin nào cũng cần thiết. Nhưng việc nắm bắt thông tin một cách kịp thời, chính xác lại tạo lợi thế cho con người đặc biệt là trong hoạt động sản xuất
Khóa luận tốt nghiệp________________________________________________________ kinh doanh. Với lợi thế khai thác được thông tin ẩn trong kho DL khổng lồ, kĩ thuật KPDL
liệu được ứng dụng nhiều trong thực tế. [4]
- Thương mại: Sử dụng KPDL trong ngành thương mại để phân tích DL thị trường, DL
hoạt động mua bán hàng hóa, phân tích đầu tư, quyết định cho vay vốn.
- Bảo hiểm, tài chính, thị trường ngân hàng, chứng khoán: Trong những lĩnh vực này
KPDL có nhiệm vụ phân tích tình hình tài chính và dự báo giá, chỉ số vị thế của các mã cổ phiểu trên thị trường chứng khốn. KPDL cũng được ứng dụng để phân tích tiền vốn, giá cả, lãi suất, phát hiện các hành vi của giao dịch gian lận.
- Thống kê, phân tích DL và hỗ trợ ra quyết định: KPDL phân tích nguồn DL sẵn có
để
hỗ trợ con người đưa ra những quyết định đúng và có lợi nhất.
2.2. Các kỹ thuật khai phá dữ liệu
Các kỹ thuật KPDL được chia thành 2 loại chính:
- Kỹ thuật KPDL mơ tả: Có nhiệm vụ mơ tả về các tính chất hoặc các đặc tính chung của DL trong CSDL hiện có. Nhóm kĩ thuật này gồm các phương pháp: Phân cụm (Clustering),
trực quan hóa (visualization), phân tích sự phát triển và độ lệch (evolution and deviation analyst), luật kết hợp (associacation).
- Kỹ thuật KPDL dự đoán: Đưa ra các dự đoán dựa trên các dữ liệu hiện thời: Phân lớp (Classification), hồi quy (Regression).
2.2.1. Phân lớp
Phân lớp (Classification/ Categorization) thực hiện việc xây dựng (mô tả) các mơ hình (hàm) dự báo nhằm mơ tả hoặc phát hiện các lớp hoặc khái niệm cho các dự báo tiếp theo. Phân lớp là một trong những bài toán điển hình của KPDL và thường là phương pháp được
dùng phổ biến nhất khi làm việc với một tập hợp đối tượng [7]. Bằng cách sử dụng phân lớp con người tiến hành việc sắp xếp tìm kiếm các đối tượng một cách thuận lợi. Phân lớp DL nhằm rút trích các mơ tả các lớp DL hoặc dự đoán xu hướng DL. Nội dung của phân lớp chính là học một hàm ánh xạ các DL vào một trong một số lớp đã biết. Ví dụ, phân lớp khách hàng của ngân hàng thành nhiều loại dựa vào nguồn lợi và tiềm năng khách hàng mang lại cho ngân hàng, phân lớp các đối tượng học sinh có trong một lớp học nhận diện học sinh giỏi hay học sinh yếu để giáo viên có phương pháp hỗ trợ kịp thời các trường hợp
học sinh yếu kém trung bình.
Một số các thuật tốn phân lớp thơng dụng có thể kể đến như:
- Thuật tốn phân lớp bằng cây quyết định (decision tree - CQĐ): các giải thuật ID3, C4.5,
- Thuật toán phân lớp với Naive Bayes. - Thuật toán phân lớp với mạng Neural.
- Thuật toán phân lớp với k phần tử cận gần nhất (k-nearest neighbor) ...
Mục tiêu của phân lớp DL là dự đoán nhãn lớp cho các mẫu DL. Quá trình phân lớp DL gồm 2 bước: Xây dựng mơ hình và sử dụng mơ hình để phân lớp DL.
- Bước 1: Xây dựng mơ hình dựa trên việc phân tích các mẫu DL có sẵn. Mỗi mẫu tương ứng với một lớp, được quyết định bởi một thuộc tính gọi là thuộc tính phân lớp. Các lớp DL này còn được gọi là lớp DL huấn luyện (training data set). Dữ liệu huấn luyện là một tập các phần tử có gán mơ tả DL và nhãn tương ứng của bản ghi đó nhãn Các nhãn lớp của dữ liệu đều phải được xác định trước khi xây dựng mơ hình. Bước này được gọi là bước học (learning step) hay pha học (learning phase).
- Bước 2: Sử dụng mơ hình để phân lớp DL. Đầu tiên, chúng ta phải tính độ chính xác của mơ hình. Nếu độ chính xác là chấp nhận được, mơ hình sẽ được sử dụng để dự đoán nhãn lớp cho các dữ liệu tương lai [7]. Để tránh hiện tượng quá phù hợp, một tập DL khác gọi là tập DL kiểm thử (testing set) sẽ được sử dụng để đo độ chính xác của mơ hình. Thơng thường tập dữ liệu kiểm thử không chứa bất kỳ phần tử DL nào nằm trong tập dữ liệu huấn luyện