Các phương pháp dựa trên lưới:

Một phần của tài liệu nghiên cứu kỹ thuật phân cụm trong khai phá dữ liệu (Trang 35 - 37)

Một phương pháp dựa trên lưới lượng tử hoá không gian đối tượng vào trong một số hữu hạn các ô hình thành nên một cấu trúc lưới. Sau đó nó thực hiện tất cả các thao tác phân cụm trên cấu trúc lưới (tức là trên không gian đã lượng tử hoá). Thuận lợi chính của tiếp cận này là thời gian xử lý nhanh chóng của nó độc lập với số các đối tượng dữ liệu và chỉ tuỳ thuộc vào số lượng các ô trong mỗi chiều của không gian lượng tử.

STING là một ví dụ điển hình của phương pháp dựa trên lưới. WaveCluster và CLIQUE là hai giải thuật phân cụm dựa trên cả lưới và mật độ. Các phương pháp phân cụm dựa trên lưới được nghiên cứu trong mục 3.7.

Nhiều giải thuật phân cụm tích hợp các ý tưởng của một vài phương pháp phân cụm, bởi vậy việc phân loại giải thuật đó không dễ như loại giải

thuật chỉ phụ thuộc vào duy nhất một loại phương pháp phân cụm. Hơn nữa, nhiều ứng dụng có thể có giới hạn phân cụm với yêu cầu tích hợp một số kỹ thuật phân cụm.

Trong mục dưới đây ta xem xét từng phương pháp phân cụm trên một cách chi tiết. Các giải thuật tích hợp các ý tưởng của một số phương pháp phân cụm cũng được giới thiệu.

KẾT LUẬN

- Những kết quả đã thực hiện:

+ Về lý thuyết, luận văn tập trung tìm hiểu các kỹ thuật phân loại và phân cụm trên một số kiểu dữ liệu với kích thước dữ liệu từ nhỏ cho tới lớn. + Về thực tiễn, luận văn đã đưa ra các kết quả cài đặt thử nghiệm trên bộ dữ liệu UCI bao gồm các kết quả phân loại, phân lớp, cải tiến chất lượng phân lớp.

Qua quá trình thực nghiệm và nghiên cứu lý thuyết có thể đưa ra một số kết luận như sau:

• Mỗi một giải thuật phân loại, phân cụm áp dụng cho một số mục tiêu và kiểu dữ liệu nhất định.

• Mỗi giải thuật có một mức độ chính xác riêng và khả năng thực hiện trên từng kích thước dữ liệu là khác nhau. Điều này còn tuỳ thuộc

vào cách thức tổ chức dữ liệu ở bộ nhớ chính, bộ nhớ ngoài... của các giải thuật.

• Khai phá dữ liệu sẽ hiệu quả hơn khi bước tiền xử lý, lựa chọn thuộc tính, mô hình được giải quyết tốt.

- Hướng phát triển trong tương lai:

+ Tiếp tục nghiên cứu sâu hơn về lĩnh vực KDD - DM nói chung, cải tiến chất lượng và tốc độ phân lớp, phân loại nói riêng.

+ Triển khai giải quyết các bài toán cụ thể trong thực tế.

Một phần của tài liệu nghiên cứu kỹ thuật phân cụm trong khai phá dữ liệu (Trang 35 - 37)