Quy trình CTDL[9] nói chung gần giống như quy trình khai phá dữ liệu, chỉ có khác là, tại mỗi bước có sử dụng tri thức chuyên gia để tư vấn trong quá trình KPDL. Quy trình CTDL gồm các bước sau:
Bước 1.Tìm hiểu và nghiên cứu nghiệp vụ. Thiết lập mục tiêu KPDL.
Bước 2. Phân tích tính năng liên thuộc (Xác định tập thuộc tính có đặc tính có khả năng).
Bước 3. Lựa chọn và áp dụng phương pháp canh tác phù hợp DL. Bước 4. Quá trình KPDL.
Bước 5. Đánh giá của mục tiêu KPDL.
Các bước có thể được thực hiện theo thứ tự và một số bước có thể được thực hiện song song.
Các loại phương pháp CTDL được sử dụng phụ thuộc vào mục đích khai thác dữ liệu.
Bước 1: Tìm hiểu và nghiên cứu nghiệp vụ. Thiết lập mục tiêu KPDL. Bước này dựa trên các mục đích chính của việc KPDL như sau: Tìm hiểu, nghiên cứu kiến thức về lĩnh vực sẽ khai phá, KPDL này áp dụng cho mục tiêu gì? Cấu trúc về hệ thống và tri thức, các nguồn DL hiện hữu, ý nghĩa, vai trò và tầm quan trọng của các thực thể DL. Thiết lập mục tiêu khai thác dữ liệu (hình thành và định nghĩa bài toán) nhằm đáp ứng hai nhiệm vụ:
i. Học tập
ii. Hỗ trợ ra quyết định bằng tri thức được khám phá.
Bước 2 : Xác định tập thuộc tính có đặc tính ban đầu có tìm năng. Đây là bước rất quan trọng trong khai phá dữ liệu có canh tác dữ liệu. Trong bước này có thể sử dụng một số phương pháp và công cụ tùy thuộc đặc tính như sau:
ii. Các phương pháp phân rã cấu trúc cho một vấn đề, một quy trình. iii. Sử dụng tri thức chuyên gia để tìm tập thuộc tính ban đầu có tìm năng (đây là phương pháp được sử dụng trong luận văn trong khai phá dữ liệu y khoa).
………
Bước 3: Chọn lựa loại phương pháp canh tác dữ liệu được sử dụng tùy thuộc
mục đích khác nhau. Các phương pháp canh tác có thể được phân nhóm như sau [7]:
i. Đánh giá đặc tính (Feature evaluation) ii. Chuyển dạng dữ liệu (Data transformation)
iii. Chuyển dạng tri thức (Knowledge transformation) iv. Định nghĩa kết xuất (Outcome definition)
v. Định nghĩa đặc tính (Feature definition)
Luận văn đã sử dụng phương pháp đánh giá đặc tính, vì vậy phương pháp đó sẽ đề cập trong mục 2.1.7, các phương pháp khác không được trình bày.
Bước 4: Khai phá dữ liệu có canh tác dữ liệu có thể sử dụng các phương pháp
sau:
i. Phương pháp lý thuyết tập thô (rough set theory) ii. Phương pháp Bayesian.
iii. Phương pháp gom cụm (clusterring) iv. Phương pháp sử dụng cây quyết định
Bước 5: Đánh giá khai phá dữ liệu có canh tác dữ liệu có thể thực hiện các
phương pháp sau
i. Sử dụng kiến thức chuyên gia. Nhờ chuyên gia kiểm chứng kết quả. ii.Kiểm chứng qua thực nghiệm.