8. Một số hướng phát triển
8.1. Khai thác luật kết hợp song song
Kỹ thuật khai phá dữ liệu, như đã nói ở trên đang được áp dụng một cách rộng rãi trong rất nhiều lĩnh vực kinh doanh và đời sống hàng ngày.
Tuy nhiên, với sự phát triển không ngừng của ngành Công nghệ thơng tin, dữ liệu phình lên với tốc độ rất lớn, trung bình là 10% – 15% một năm, cá biệt có những CSDL lớn gấp đơi sau mỗi năm, điều này gây khó khăn khơng nhỏ cho việc áp dụng các phương thức khai thác dữ liệu kinh điển. Các thuật toán xử lý tuần tự đôi khi không thể thực hiện trên những CSDL lớn.
Trong những năm gần đây, việc nghiên cứu cải tiến các thuật toán tuần tự trong khai thác dữ liệu đang là hướng được nhiều người quan tâm. Việc cải tiến được thực hiện trên 2 khía cạnh:
Cải tiến về cấu trúc nhằm lưu trữ dữ liệu thích hợp cho các thuật toán
Cải tiến về cách thực thi các thuật toán trên cơ sở song song hố dựa trên sự phát triển của cơng nghệ chế tạo
Các thuật toán khai phá dữ liệu song song có thể hoạt động trên 3 phương thức:
- Phương thức Count Distribution: dữ liệu được chia thành các phần theo chiều ngang để xử lý độc lập với nhau. Cuối mỗi vòng lặp, biến đếm của mỗi xử lý được cộng vào biến đếm tồn cục, từ đó tìm ra các tập phổ biến.
- Phương thức Data Distribution: cố gắng lợi dụng bộ nhớ của các máy tính song song bằng cách chia cả 2 phần: cơ sở dữ liệu và các tập ứng cử viên. Sau khi mỗi tập ứng cử viên được đếm bởi một bộ xử lý phải được trao đổi kết quả đếm để lấy được kết quả đếm toàn cục.
- Phương thức Candidate Distribution: cũng chia các tập ứng cử viên nhưng theo xu hướng tạo các bản sao của các tập ứng cử viên trên mỗi bộ xử lý, từ đó mỗi bộ xử lý thay vì trao đổi kết quả giữa các cơ sở dữ liệu trên mỗi bộ xử lý, từ đó mỗi bộ xử lý có thể hoạt động một cách độc lập với nhau.
Thực nghiệm cho thấy phương thức Count Distribution hoạt động tốt hơn so với 2 phương thức còn lại.