Quy trình khai phá dữ liệu

Một phần của tài liệu Ứng dụng cây quyết định vào xếp hạng khách hàng cá nhân tại NHTMCP hàng hải việt nam chi nhánh hà nội khoá luận tốt nghiệp 786 (Trang 28 - 30)

2.1. Tổng quan về khai phá dữ liệu

2.1.3. Quy trình khai phá dữ liệu

Hình 2.1: Các giai đoạn trong quá trình khai phá dữ liệu

Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp

Bao gồm 6 giai đoạn: Gom cụm dữ liệu -> Trích lọc dữ liệu -> Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu -> Chuyển đổi dữ liệu -> Phát hiện và trích mẫu dữ liệu -> Đánh giá kết quả mẫu

Giai đoạn 1: Gom cụm dữ liệu (gathering) tập hợp dữ liệu là bước đầu tiên

trong khai phá dữ liệu. Bước này lấy dữ liệu từ trong một cơ sở dữ liệu, một kho dữ liệu, thaank chí dữ liệu từ những nguồn cung ứng Web. [10]

Giai đoạn 2: Trích lọc dữ liệu (selection) ở giai đoạn này dữ liệu được lựa chọn

và phân chia theo một số tiêu chuẩn nào đó ví dụ chọn tất cả những người có tuổi đời từ 25 đến 35 và có trình độ đại học. [10]

Giai đoạn 3: Làm sạch tiền xử lý và chuẩn bị trước dữ liệu (cleansing pre-

processing, preparation) giai đoạn thứ ba này là giai đoạn hay bị sao nhãng, nhưng thực tế nó là một bước rất quan trọng trong quá trình khai phá đữu liệu. Một số lỗi thường mắc phải trong khi gom dữ liệu là dữ liệu không đầy đủ hoặc không thống nhất, thiếu chặt chẽ. Vì vậy dữ liệu thường chứa các giá trị vơ nghĩa và khơng có khả năng kết nối kết nối dữ liệu. Ví dụ sinh viên có tuổi = 200. Những dữ liệu này thường được xem là thơng tin dư thừa, khơng có giá trị. Bởi vậy đây là một q trình rất quan trọng. Nếu dữ liệu khơng được làm sạch, tiềm xử lý, chuẩn bị trước thì sẽ gây nên những kết quả sai lệch nghiêm trọng về sau. [10]

Giai đoạn 4: Chuyển đổi dữ liệu (tranformation) tỏng giai đoạn này, dữ liệu có

thể được tổ chức và sử dụng lại. Mục đích của việc chuyển đổi dữ liệu là làm cho dữ liệu phù hợp hơn với mục đích khai phá dữ liệu. [10]

Giai đoạn 5: Phát hiện và trích mẫu dữ liệu (pattern extraction and discovery)

đây là bước tư duy trong khai phá dữ liệu. Ở giai đoạn này nhiều thuật tốn khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu. Thuật tốn thường dùng để trích mẫu dữ liệu là thuật tốn phân loại dữ liệu, kết hợp dữ liệu, thuật tốn mơ hình hóa dữ liệu tuần tự. [10]

Giai đoạn 6: Đánh giá kết quả mẫu (evaluation of result) đây là giai đoạn cuối

cùng trong quá trình khai phấ dữ liệu, ở giai đoạn này các mẫu dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu. khơng phải mẫu dữ liệu nào cũng hữu ích, đơi khi nó cịn bị sai lệch. Vì vậy cần phải đưa ra những tiêu chuẩn đánh giá độ ưu tiên cho

Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp

các mẫu dữ liệu để rút ra được những tri thức cần thiết. [10]

Một phần của tài liệu Ứng dụng cây quyết định vào xếp hạng khách hàng cá nhân tại NHTMCP hàng hải việt nam chi nhánh hà nội khoá luận tốt nghiệp 786 (Trang 28 - 30)

Tải bản đầy đủ (DOCX)

(78 trang)
w