Khai thác dữ liệu là tiến trình khám phá tri thức tiềm ẩn trong các CSDL. Đó là tiến trình trích lọc, sản sinh những tri thức hoặc các mẫu tiềm ẩn, chƣa biết nhƣng hữu ích từ các nguồn CSDL khác nhau. Nói cách khác, khai thác dữ liệu là tiến trình khái quát các sự kiện rời rạc trong dữ liệu thành các tri thức mang tính khái quát, tính quy luật nhằm hỗ trợ tích cực cho tiến trình ra quyết định.
Có thể chia khai thác dữ liệu thành hai dạng chính là: khai thác dữ liệu theo hƣớng kiểm tra và khai thác dữ liệu theo hƣớng khám phá. khi khai thác dữ liệu theo hƣớng kiểm tra, ngƣời dùng đề xuất giả thiết, hệ thống kiểm tra tính đúng đắn của giả thiết. Khai thác dữ liệu theo hƣớng kiểm tra bao gồm: truy vấn, báo cáo, phân tích đa chiều, phân tích thống kê,... Ngƣợc lại, khai thác dữ liệu theo hƣớng khám phá sẽ tìm kiếm các tri thức tiềm ẩn trong CSDL bằng cách xem xét tất cả các giả thiết khả dĩ. Tri thức rút ra có thể dùng để : Giải thích dữ liệu, dự báo (khuynh hƣớng mua hàng của khách hàng, định hƣớng tập trung nguồn lực của doanh nghiệp, xác định rủi ro của một đối tƣợng bảo hiểm,...).
Ngày nay, khi công cụ thu thập, vận chuyển và lƣu trữ dữ liệu ngày càng hoàn thiện giúp con ngƣời có thể quản lý một lƣợng dữ liệu không lồ và có thể chia sẽ dữ liệu với nhau một cách dễ dàng. Mặt khác, với nhu cầu ngày càng cao, con ngƣời không bằng lòng với những dữ liệu mà mình thu thập đƣợc, họ muốn nắm bắt tri thức có đƣợc từ khối lƣợng dữ liệu hiện có, từ đó phát hiện những quy luật trong những lĩnh vực mà họ quan tâm. Khai thác dữ liệu ra đời nhằm đáp ứng các nhu cầu cấp thiết đó.