Định nghĩa khai phá dữ liệu

Một phần của tài liệu Xây dựng hệ thống dự đoán hiệu suất đào tạo tại trường trung cấp chuyên nghiệp luận văn thạc sĩ (Trang 35 - 36)

Trước khi nêu một vài ựịnh nghĩa về KPDL, tôi xin có giải thắch nho nhỏ ựể tránh nhầm lẫn về tên gọi. Với những gì tôi trình bày ở trên, chúng ta có thể hiểu một cách sơ lược rằng KPDL là quá trình tìm kiếm những thông tin (tri thức) hữu ắch, tiềm ẩn và mang tắnh dự báo trong các tập dữ liệu lớn. Như vậy, chúng ta nên gọi quá trình này là khám phá tri thức (Knowledge Discovery in Databases Ờ KDD) thay vì là KPDL. Tuy nhiên các nhà khoa học trong lĩnh vực này ựồng ý với nhau rằng hai thuật ngữ trên là tương ựương và có thể thay thế cho nhau. Họ lý giải rằng, mục ựắch chắnh của quá

trình khám phá tri thức là thông tin và tri thức có ắch, nhưng ựối tượng mà chúng ta phải xử lý rất nhiều trong suốt quá trình ựó lại chắnh là dữ liệu.

Mặt khác, khi chia các bước trong quá trình khám phá tri thức, một số nhà nghiên cứu lại cho rằng, KPDL chỉ là một bước trong quá trình khám phá

tri thức [5]. Như vậy, khi xét ở mức tổng quan thì hai thuật ngữ này là tương

ựương nhau, nhưng khi xét cụ thể thì KPDL ựược xem là một bước trong quá trình khám phá tri thức.

Có rất nhiều ựịnh nghĩa về KPDL, các ựịnh nghĩa này ựều là những ựịnh nghĩa mang tắnh mô tả. Tôi xin trắch một vài ựịnh nghĩa ở nguyên bản tiếng Anh nhằm chuyển tải ựược nguyên gốc ý của tác giả và tránh ựược những sai sót chủ quan:

định nghĩa 1. William J Frawley, Gregory Piatetsky-Shapiro, và Christopher

J Matheus 1991 [6]: ỘKnowledge discovery in databases, also known Data mining, is the nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.Ợ

định nghĩa 2. Marcel Holshemier và Arno Siebes (1994): ỘData Mining is the search for relationships and global patterns that exist in large databases but are ỔhiddenỖ among the vast amount of data, such as a relationship between patient data and their medical diagnosis. These relationships represent valuable knowledge about the database and the objects in the database and, if the database is a faithful mirror, of the real world registered by the database.Ợ

Một phần của tài liệu Xây dựng hệ thống dự đoán hiệu suất đào tạo tại trường trung cấp chuyên nghiệp luận văn thạc sĩ (Trang 35 - 36)

Tải bản đầy đủ (PDF)

(79 trang)