Một số phƣơng pháp khai phá dữ liệu

Từ những nhiệm vụ trên chúng ta thấy rằng việc khai phá dữ liệu không chỉ đơn giản là sử dụng duy nhất một kỹ thuật nào đó. Bất cứ phƣơng pháp nào hỗ trợ cho việc tìm kiếm thông tin tốt thì sẽ đƣợc sử dụng. Tùy thuộc vào các nhiệm vụ khác nhau mà các phƣơng pháp có thể đƣợc chọn, mỗi phƣơng pháp có điểm mạnh và những mặt hạn chế riêng. Chúng ta có thể phân loại những phƣơng pháp khai phá dữ liệu theo các nhóm sau:

- Phương pháp thống kê: hƣớng tiếp cận thống kê dựa trên nền tảng mô hình xác suất. Cách thực hiện dựa trên việc kiểm chứng những lý thuyết đã xác định trƣớc và dựa trên việc làm thích hợp những mô hình cho dữ liệu. Thông thƣờng

những mô hình này đã đƣợc sử dụng bởi những nhà thống kê. Do vậy con ngƣời phải cung cấp những lý thuyết ứng viên và các mô hình thực hiện.

- Suy diễn dựa trên tình huống: giải quyết vấn đề đƣa ra bằng cách dùng trực tiếp các kinh nghiệm và những giải pháp trong quá khứ. Một tình huống thƣờng là vấn đề đặc biệt đã đối mặt trƣớc đây và cũng đã đƣợc giải quyết. Đƣa ra một vấn đề mới đặc thù, suy diễn dựa trên tình huống sẽ kiểm tra một tập những tình huống đƣợc lƣu trữ và tìm những tình huống tƣơng tự. Nếu tình huống tồn tại thì những giải pháp tƣơng ứng sẽ đƣợc áp dụng cho mô hình mới và tình huống giải quyết mới sẽ đƣợc cập nhật vào hệ thống nhằm phục vụ cho lần thực hiện sau.

- Mạng Neural: là lớp những mô hình mô phỏng theo bộ não con ngƣời. Nhƣ chúng ta đã biết thì bộ não con ngƣời bao gồm hàng triệu tế bào thần kinh đƣợc kết nối qua khớp thần kinh. Những mạng thần kinh đƣợc hình thành từ số lƣợng lớn những neural mô phỏng, các nút này đƣợc kết nối với nhau trong cách giống nhƣ tế bào thần kinh. Tƣơng tự nhƣ trong bộ não thật, cƣờng độ kết nối có thể đƣợc thay đổi để đáp lại sự kích thích, điều này cho phép mạng có khả năng học.

- Cây quyết định: trong cây này mỗi nút trung gian thể hiện một sự kiểm chứng hoặc một quyết định dựa trên item dữ liệu đang xét. Dựa trên kết quả của thử nghiệm sẽ xác định nhánh tiếp theo. Để phân lớp một item dữ liệu, chúng ta bắt đầu từ nút gốc sau đó đi xuống theo các nút phù hợp với kiểm chứng cho đến khi gặp nút lá, tại nút này sẽ cho quyết định. Cây quyết định còn đƣợc dùng thể hiện những hình thức đặc biệt của một tập luật.

- Quy nạp luật: những luật thể hiện một sự tƣơng quan thống kê giữa các sự xuất hiện của những thuộc tính, đối tƣợng nào đó trong dữ liệu. Hình thức chung của luật là X1^ …^XN →Y[S, C], nghĩa là khi có sự xuất hiện các thuộc tính X1 … XN sẽ dẫn đến thuộc tính Y với độ hỗ trợ là S và độ tin cậy là C.

- Mạng Bayer: mạng Bayer là thể hiện đồ họa của sự phân bố xác suất, đƣợc dẫn ra từ việc thống kê sự xuất hiện của các đối tƣợng. Đặc biệt mạng Bayer là một

đơn đồ thị có hƣớng, trong đó mỗi nút thể hiện biến thuộc tính và những cạnh thể hiện xác suất phụ thuộc giữa những thuộc tính đó.

- Thuật giải di truyền: hay lập trình tiến hóa là cách giải quyết theo chiến lƣợc tối ƣu dựa theo nguyên lý tiến hóa đƣợc khảo sát trong tự nhiên. Những giải pháp vấn đề tốt nhất sẽ đi qua giai đoạn chọn lọc và chúng sẽ đƣợc kết hợp với nhau để cho những giải pháp khác tốt hơn. Quá trình cứ lặp lại nhƣ vậy cho đến khi vấn đề đƣợc giải quyết hoặc tiến đến một ngƣỡng dừng.

- Tập mờ: đây là kỹ thuật chính của việc thể hiện và xử lý tính không chính xác. Sự không chính xác đƣợc nảy sinh từ những cơ sở dữ liệu ngày nay: sự không chính xác, không thể xác định, không nhất quán và mơ hồ… Những tập mờ khai thác tính không chắc chắn để làm cho hệ thống phức tạp trở nên dễ quản lý. Do vậy những tập mờ tạo thành cách tiếp cận mạnh không chỉ để giải quyết tính không trọn vẹn, nhiễu hay dữ liệu không chính xác mà còn giúp phát triển các mô hình không chắc chắn của dữ liệu nhằm tạo ra sự thực thi thông minh, mềm dẻo hơn so với hệ thống truyền thống.

- Tập thô: tập thô đƣợc định nghĩa bởi tập xấp xỉ trên và tập xấp xỉ dƣới. Các đối tƣợng thuộc tập xấp xỉ dƣới là xác định hoàn toàn. Các đối tƣợng thuộc tập xấp xỉ trên là phần không xác định. Tập xấp xỉ trên của tập thô là hội của tập xấp xỉ dƣới và xấp xỉ biên. Một đối tƣợng thuộc tập biên là xác định nhƣng không xác định hoàn toàn. Vì vậy, tập thô có thể đƣợc xem nhƣ tập mờ có hàm thành viên ba giá trị: “đúng”, “sai” và “có thể”. Giống nhƣ tập mờ, tập thô có một khái niệm toán học để phân lớp dữ liệu. Tập thô cũng nhƣ tập mờ ít đƣợc sử dụng nhƣ là một giải pháp đơn lẻ. Chúng thƣờng đƣợc kết hợp với các phƣơng pháp khác nhƣ suy diễn luật, phân lớp và phân nhóm.

Một số phƣơng pháp khai phá dữ liệu

Định nghĩa khai phá dữ liệu

Nhiệm vụ của khai phá dữ liệu