Khái niệm

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin khai phá dữ liệu có canh tác dữ liệu và ứng dụng trong khai phá dữ liệu y khoa (Trang 29)

KDD và DM là quá trình trích lọc ra những tri thức, những mô hình hữu ích, từ những CSDL. Quá trình này cần phải có một quy trình, một phương pháp, công cụ, các tri thức của các chuyên gia có liên quan để xác định những loại DL, những tri thức nào thích hợp nhất, cho một mục đích yêu cầu của ứng dụng.

Các quy trình, các phương pháp, sử dụng các kiến thức chuyên gia để quyết định những thuộc tính nào quan trọng nhất trong quá trình thu thập dữ liệu, nhằm rút ra tri thức hữu dụng từ những cơ sở dữ liệu, gọi là khai phá dữ liệu có canh tác dữ liệu hay còn gọi ngắn gọn là canh tác dữ liệu (data farming)[4],[9].

Để hiểu rỏ hơn về thuật ngữ này hãy xem sự so sánh bảng 2.1 sau:

Bảng 2.1. So sánh qui trình canh tác nông nghiệp và canh tác dữ liệu

Qui trình canh tác nông nghiệp Qui trình canh tác dữ liệu

(1) Xác định loại nông sản cần sản xuất

(1) Xác định mục đích khai phá dữ liệu

(2) Chọn loại giống tốt, chuẩn bị đất canh tác và ươm mầm. (Trong phương pháp này người nông có thể dựa vào kinh nghiệm, hay sử dụng

(2) Chọn lựa thuộc tính có đặc tính tốt, sử dụng các công cụ, các phương pháp hoặc sử dụng kiến thức chuyên gia về lĩnh vực dữ liệu

kinh nghiệm của người khác như người lớn tuổi có kinh nghiệm canh tác lâu năm, hay các kỹ sư nông nghiệp..)

có liên quan ( như khai phá dữ liệu y khoa sử dụng kiến thức các y bác sĩ tìm ra thuộc tính có đặc tính tốt trong chẩn đoán bệnh)

(3) Gieo trồng, chăm sóc, cung cấp phân bón và bảo vệ cây trồng.

(3 )Khai phá dữ liệu

(4) Thu hoạch, đánh giá sản lượng và chất lượng nông sản.

(4) Thu được kết quả khai phá, đánh giá kết quả khai phá qua thực nghiệm từ đó sử dụng tri thức đã thu được đưa vào thực tế sử dụng.

KPDL là một hoạt động giống như tìm vàng thô từ mỏ khoáng sản, hoặc hái quả trong rừng, hoặc thu hoạch lúa trong cánh đồng. Xét về mặt ứng dụng của KPDL, giá trị thông tin đã có rồi, chỉ cần chờ đợi tìm thấy nó và sử dụng. Còn về mặt phương pháp, KPDL truyền thống chỉ tập trung xây dựng các mối liên kết giữa các trị thuộc tính [4][9].

Canh tác dữ liệu (CTDL), xét về mặt ứng dụng, giá trị thông tin gần như chưa có. Còn phương pháp, thì CTDL tập trung xác định bản chất tác động qua lại của các thuộc tính để khai phá [9].

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin khai phá dữ liệu có canh tác dữ liệu và ứng dụng trong khai phá dữ liệu y khoa (Trang 29)