Phương pháp khai phá dữ liệu

Từ những nhiệm vụ trên chúng ta thấy rằng việc khai phá dữ liệu không chỉ đơn giản là sử dụng duy nhất một kỹ thuật nào đó. Bất cứ phương pháp nào hỗ trợ cho việc tìm kiếm thông tin tốt thì sẽ được sử dụng. Tùy thuộc vào các nhiệm vụ khác nhau mà các phương pháp có thể được chọn, mỗi phương pháp có điểm mạnh và những mặt hạn chế riêng. Chúng ta có thể phân loại những phương pháp khai phá dữ liệu theo các nhóm sau:

 Phương pháp thống kê: hướng tiếp cận thống kê dựa trên nền tảng mô hình xác suất. Cách thực hiện dựa trên việc kiểm chứng những lý thuyết đã xác định trước và dựa trên việc làm thích hợp những mô hình cho dữ liệu. Thông thường những mô hình này đã được sử dụng bởi những nhà thống kê. Do vậy con người phải cung cấp những lý thuyết ứng viên và các mô hình thực hiện.

 Suy diễn dựa trên tình huống: giải quyết vấn đề đưa ra bằng cách dùng trực tiếp các kinh nghiệm và những giải pháp trong quá khứ. Một tình huống thường là vấn đề đặc biệt đã đối mặt trước đây và cũng đã được giải quyết. Đưa ra một vấn đề mới đặc thù, suy diễn dựa trên tình huống sẽ kiểm tra một tập những tình huống được lưu trữ và tìm những tình huống tương tự. Nếu tình huống tồn tại thì những giải pháp tương ứng sẽ được áp dụng cho mô hình mới và tình huống giải quyết mới sẽ được cập nhật vào hệ thống nhằm phục vụ cho lần thực hiện sau.

 Mạng Neural: là lớp những mô hình mô phỏng theo bộ não con người. Như chúng ta đã biết thì bộ não con người bao gồm hàng triệu tế bào thần kinh được kết nối qua khớp thần kinh. Những mạng thần kinh được hình thành từ số lượng lớn những neural mô phỏng, các nút này được kết nối với nhau trong cách giống như tế bào thần kinh. Tương tự như trong bộ não thật, cường độ kết nối có thể được thay đổi để đáp lại sự kích thích, điều này cho phép mạng có khả năng học.

 Cây quyết định: trong cây này mỗi nút trung gian thể hiện một sự kiểm chứng hoặc một quyết định dựa trên item dữ liệu đang xét. Dựa trên kết quả của thử nghiệm sẽ xác định nhánh tiếp theo. Để phân lớp một item dữ liệu, chúng ta bắt đầu từ nút gốc sau đó đi xuống theo các nút phù hợp với kiểm chứng cho đến khi gặp nút lá, tại nút này sẽ cho quyết định. Cây quyết định còn được dùng thể hiện những hình thức đặc biệt của một tập luật.

 Quy nạp luật: những luật thể hiện một sự tương quan thống kê giữa các sự xuất hiện của những thuộc tính, đối tượng nào đó trong dữ liệu. Hình thức chung của luật là X1^ …^XN →Y[S, C], nghĩa là khi có sự xuất hiện các thuộc tính X1 … XN sẽ dẫn đến thuộc tính Y với độ hỗ trợ là S và độ tin cậy là C.

 Mạng Bayer: mạng Bayer là thể hiện đồ họa của sự phân bố xác suất, được dẫn ra từ việc thống kê sự xuất hiện của các đối tượng. Đặc biệt mạng Bayer là một đơn đồ thị có hướng, trong đó mỗi nút thể hiện biến thuộc tính và những cạnh thể hiện xác suất phụ thuộc giữa những thuộc tính đó.

 Thuật giải di truyền: hay lập trình tiến hóa là cách giải quyết theo chiến lược tối ưu dựa theo nguyên lý tiến hóa được khảo sát trong tự nhiên. Những giải pháp vấn đề tốt nhất sẽ đi qua giai đoạn chọn lọc và chúng sẽ được kết hợp với nhau để cho những giải pháp khác tốt hơn. Quá trình cứ lặp lại như vậy cho đến khi vấn đề được giải quyết hoặc tiến đến một ngưỡng dừng.

 Tập mờ: đây là kỹ thuật chính của việc thể hiện và xử lý tính không chính xác. Sự không chính xác được nảy sinh từ những cơ sở dữ liệu ngày nay: sự không chính xác, không thể xác định, không nhất quán và mơ hồ… Những

tập mờ khai thác tính không chắc chắn để làm cho hệ thống phức tạp trở nên dễ quản lý. Do vậy những tập mờ tạo thành cách tiếp cận mạnh không chỉ để giải quyết tính không trọn vẹn, nhiễu hay dữ liệu không chính xác mà còn giúp phát triển các mô hình không chắc chắn của dữ liệu nhằm tạo ra sự thực thi thông minh, mềm dẻo hơn so với hệ thống truyền thống.

 Tập thô: tập thô được định nghĩa bởi tập xấp xỉ trên và tập xấp xỉ dưới. Các đối tượng thuộc tập xấp xỉ dưới là xác định hoàn toàn. Các đối tượng thuộc tập xấp xỉ trên là phần không xác định. Tập xấp xỉ trên của tập thô là hội của tập xấp xỉ dưới và xấp xỉ biên. Một đối tượng thuộc tập biên là xác định nhưng không xác định hoàn toàn. Vì vậy, tập thô có thể được xem như tập mờ có hàm thành viên ba giá trị: “đúng”, “sai” và “có thể”. Giống như tập mờ, tập thô có một khái niệm toán học để phân lớp dữ liệu. Tập thô cũng như tập mờ ít được sử dụng như là một giải pháp đơn lẻ. Chúng thường được kết hợp với các phương pháp khác như suy diễn luật, phân lớp và phân nhóm.

Các kiểu cây quyết định

Ưu điểm của cây quyết định