Các chiến l−ợc khai phá dữ liệu song song

Một phần của tài liệu Luật kết hợp theo tiếp cận tập thô (Trang 26)

Khai phá dữ liệu song song đòi hỏi phân chia công việc để các bộ xử lý có thể thực hiện phần công việc của mình, nhằm đạt kết quả cuối cùng một cách nhanh nhất. Vấn đề là ở chỗ phân chia công việc nh− thế nào, ta có thể phân chia việc tính toán, cũng có thể phân chia việc truy cập tới dữ liệu, và giảm thiểu sự truyền thông giữa các bộ xử lý trong khi thực hiện. Trong các ứng dụng khai phá dữ liệu, ta cần giảm thiểu nguồn tài nguyên đ−ợc dùng để sinh các khái niệm có vẻ có giá trị địa ph−ơng, dựa trên l−ợng hạn chế dữ liệu có sẵn tại mỗi bộ xử lý, nh−ng không có giá trị toàn phần. Có ba chiến l−ợc để song song hóa các thuật toán khai phá dữ liệu [13, 15], đó là:

- Tìm kiếm độc lập: Mỗi bộ xử lý đ−ợc truy cập tới toàn bộ tập dữ liệu, nh−ng chỉ tập trung vào một phần không gian tìm kiếm, bắt đầu từ một điểm đ−ợc chọn ngẫu nhiên.

Cách này phù hợp với các bài toán mà kết quả cần tìm là một giải pháp tối −u, tuy nhiên nó đòi hỏi mỗi bộ xử lý phải truy cập toàn bộ tập dữ liệu, khiến tốc độ bị chậm lại.

- Song song hóa một thuật toán khai phá dữ liệu tuần tự: Tập các khái niệm đ−ợc phân chia giữa các bộ xử lý, mỗi bộ xử lý kiểm tra toàn bộ tập dữ liệu để kiểm tra xem các khái niệm cục bộ của nó có đúng trên phạm vi toàn cục không. Do việc tạo khái niệm mới th−ờng đòi hỏi phải biết các khái niệm nhỏ hơn hay đơn giản hơn nào là đúng, các bộ xử lý phải th−ờng xuyên trao đổi thông tin về các khái niệm của chúng. Một cách khác là tập dữ liệu đ−ợc phân chia theo các cột, mỗi bộ xử lý tìm ra các khái niệm trên các cột mà chúng giữ.

Theo cách này cũng cần th−ờng xuyên trao đổi thông tin để xác định xem các khái niệm cục bộ nào có thể ghép lại thành khái niệm đúng trên toàn cục.

- Lặp lại một thuật toán khai phá dữ liệu tuần tự: Mỗi bộ xử lý làm việc trên một phần của tập dữ liệu (theo hàng), và thực hiện thuật toán tuần tự. Do chỉ có một phần thông tin, nó tạo nên các khái niệm đúng cục bộ, nh−ng có thể không đúng trên toàn cục - các khái niệm xấp xỉ. Các bộ xử lý trao đổi các khái niệm xấp xỉ này, hoặc các số liệu về chúng, để kiểm tra xem chúng có đúng trên toàn cục không. Khi làm nh− vậy mỗi bộ xử lý học đ−ợc về những phần dữ liệu mà chúng không nhìn thấy.

Cách này có hai −u điểm đáng chú ý: tập dữ liệu đ−ợc phân chia giúp cho chi phí truy cập đ−ợc chia đều cho các bộ xử lý, và dữ liệu cần đ−ợc trao đổi giữa các pha th−ờng nhỏ hơn rất nhiều so với bản thân các khái niệm, vì thế không tốn nhiều chi phí cho truyền thông.

Một phần của tài liệu Luật kết hợp theo tiếp cận tập thô (Trang 26)

Tải bản đầy đủ (PDF)

(81 trang)