So sánh khai phá dữ liệu thông thường và canh tác dữ liệu

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin khai phá dữ liệu có canh tác dữ liệu và ứng dụng trong khai phá dữ liệu y khoa (Trang 35)

Hãy quan sát lưu đồ sau:

Lưu

Hình 2.3. So sánh khai phá dữ liệu có và không có canh tác dữ liệu

Lưu đồ A khai phá dữ liệu có canh tác dữ liệu.

Lưu đồ B khai phá dữ liệu không có cánh tác dữ liệu. So sánh hai quá trình khai phá như sau:

(1)Thời gian

Thời gian khai phá ở lưu đồ A:

- Chọn lựa đặc tính và canh tác dữ liệu: thực hiện công việc nghiên cứu, tìm hiểu nghiệp vụ dữ liệu, tham vấn nhiều chuyên gia có thời gian là: ta1 - Khai phá dữ liệu có thời gian: ta2

- Canh tác dữ liệu có thời gian là:ta3

Thời gian khai phá ở lưu đồ B

- Khai phá dữ liệu có thời gian là: tb

Giả sử thời gian ta2 và tb là tương đương thì rỏ ràng ta1 + ta2 + ta3 > tb

Nhưng thực tế sau khi chọn lựa thuộc tính có đặc tính tốt và canh tác dữ liệu thì khoãng thời gian của lưu đồ A có thể nhỏ hơn lưu đồ B vì canh tác dữ liệu đã rút gọn thuộc tính trong khai phá, nên thời gian thu thập giảm đi rất nhiều.

(2) Độ chính xác dự đoán

KPDL gồm hai giai đoạn chính: học và ra quyết định. Độ chính xác dự đoán phụ thuộc vào giai đoạn học.

KPDL không có chọn lựa đặc tính và CTDL thường không tránh khỏi sử dụng các thuộc tính dư thừa, hoặc không liên quan. Sử dụng các thuộc tính có đặc tính không liên quan làm cho thuật toán hiểu sai. Sử dụng các thuộc tính có đặc tính dư thừa làm các thuật toán học phức tạp. Như vậy, dự đoán chính xác không cao.

Khai phá dữ liệu có canh tác dữ liệu, rõ ràng dự đoán sẽ có độ chính xác cao hơn bởi lý do sau đây:

Lưu

Tính đơn giản của kết quả khai phá

Kết quả khai phá có thể biểu diễn dạng: luật, cây quyết định, mạng, vv dù là dạng nào, người dùng luôn mong đợi tính đơn giản của chúng. Tính đơn giản được xem là tính dễ hiểu.

KPDL không có chọn lựa đặc tính và CTDL thường cho kết quả không đơn giản. Có thể là quá nhiều luật, cây quyết định quá nhiều nút, bảng quyết định quá lớn, mạng quá nhiều lớp, vv.

KPDL có canh tác dữ liệu thường cho kết quả tương đối đơn giản (các luật sinh ra tương đối ít, cây quyết định sinh ra nhỏ… Do giảm thuộc tính khai phá).

Tóm lại khai phá dữ liệu có canh tác dữ liệu có hiệu quả và năng suất hơn

khai phá dữ liệu thông thường.

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin khai phá dữ liệu có canh tác dữ liệu và ứng dụng trong khai phá dữ liệu y khoa (Trang 35)