Trang web http://www.kdnuggets.com/ do Piatetsky – Shapiro chủ trì là trong những trang web điển hình về lĩnh vực khai phá dữ liệu và phát hiện tri thức trong CSDL. Nhiều thơng tin cập nhật nhất về lĩnh vực được thơng báo tại trang web này, đặc biệt là các kết quả thăm dị, cung cấp một số thơng tin hữu ích liên quan tới khuynh hướng phát triển của lĩnh vực khai phá dữ liệu. Một số nội dung cụ thể về khuynh hướng nghiên cứu của khai phá dữ liệu được đề cập dưới dạng bài tốn thách thức trong các hội nghị khoa học về khai phá dữ liệu. [2]
Xu hướng phát triển khai phá dữ liệu đã và đang là các nội dung nghiên cứu cĩ tính thời sự, rất đa dạng và phong phú.
Vì sao cần khai phá dữ liệu
Vấn đề bùng nổ dữ liệu
Sự phát triển của các cơng cụ lấy dữ liệu tự động và sự phát triển của cơng nghệ cơ sở dữ liệu.
Sự đa dạng của các loại dữ liệu: Số lượng bản ghi lớn (thiên văn học, viễn thơng, đào tạo…), số lượng thuộc tính lớn,…
Vấn đề là làm thế nào để lấy được thơng tin cần thiết/tri thức từ cơ sở dữ liệu lớn?
Hướng giải quyết:Khai phá dữ liệu.
Hiện nay, ứng dụng của KPDL rất đa dạng và rộng lớn, từ kinh doanh, chống gian lận, giảm giá thành sản xuất, tăng doanh thu, phân tích hành vi sử dụng người dùng internet để mục tiêu đúng nhu cầu, đúng đối tượng hay ứng dụng hỗ trợ ra quyết định, nhiều lĩnh vực khác nhau v.v..Trong đĩ, lĩnh vực giáo dục - đào tạo khơng phải ngoại lệ.
Trong phạm vi luận văn, chúng tơi đã sử dụng kho dữ liệu về điểm của sinh viên để thực hiện một số bài tốn về KPDL. Chẳng hạn, một số câu hỏi như: “Xu hướng điểm vào của sinh viên tăng hay giảm?”, “Sinh viên học giỏi mơn tốn cao cấp cĩ kết quả học tập cao khơng?”, “Dự đốn tỉ lệ giới tính nữ và nam của năm học tới?”,…