1.3 Một số so sánh giữa khai phá dữ liệu và các phương pháp cơ bản khác
1.3.3 So sánh với phương pháp học máy (Machine Learning)
Trong vài năm trở lại đấy lĩnh vực trí tuệ nhân tạo nĩi chung và học máy nĩi riêng phát triển cực kỳ mạnh vì khả năng ứng dụng của nĩ. Học máy là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống "học" tự động từ dữ liệu để giải quyết những vấn đề cụ thể. Ngày nay học máy được ứng dụng rộng rãi trên nhiều lĩnh vực và đem lại thành cơng lớn. Một số lĩnh vực áp dụng học máy thành cơng như: Xử lý ngơn ngữ tự nhiên, Hệ thống gợi ý, Xử lý dữ liệu lớn, lĩnh vực robot, xe tự lái.v.v..
So với phương pháp học máy, khai phá dữ liệu cĩ lợi thế hơn ở chỗ, khai phá dữ liệu cĩ thể sử dụng với các cơ sở dữ liệu thường động, khơng đầy đủ, bị nhiễu và lớn hơn nhiều so với các tập dữ liệu học máy điển hình. Trong khi đĩ phương pháp học máy chủ yếu được áp dụng trong các CSDL đầy đủ, ít biến động và tập dữ liệu khơng quá lớn.
Thật vậy, trong học máy, thuật ngữ cơ sở dữ liệu chủ yếu đề cập tới một tập các mẫu được lưu trong tệp. Các mẫu thường là các vectơ với độ dài cố định, thơng tin về đặc điểm, dãy các giá trị của chúng đơi khi cũng được lưu lại như trong từ điển dữ liệu. Một giải thuật học sử dụng tập dữ liệu và các thơng tin kèm theo tập dữ liệu đĩ làm đầu vào và đầu ra biểu thị kết quả của việc học. Học máy cĩ khả năng áp dụng cho cơ sở dữ liệu, lúc này, học máy sẽ khơng phải là học trên tập các mẫu nữa mà học trên tập các bản ghi của cơ sở dữ liệu. Tuy nhiên, trong thực tế, cơ sở dữ liệu thường động, khơng đầy đủ và bị nhiễu, lớn hơn nhiều so với các tập dữ liệu học máy điển hình. Các yếu tố này làm cho hầu hết các giải thuật học máy trở nên khơng hiệu quả. Khai phá dữ liệu lúc này sẽ xử lý các vấn đề vốn đã điển hình trong học máy và vượt quá khả năng của học máy, đĩ là sử dụng được các CSDL chứa nhiều nhiễu, dữ liệu khơng đầy đủ hoặc biến đổi liên tục.