Phân cụm

Một phần của tài liệu ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống ids (Trang 39 - 40)

Gom cụm dữ liệu là hình thức học không giám sát trong đó các mẫu học chưa được gán nhãn. Mục đích của gom cụm dữ liệu là tim những mẫu đại diện hoặc gom dữ liệu tương tự nhau (theo một chuẩn đánh giá nào đó) thành những cụm. Các điểm dữ liệu nằm trong các cụm khác nhau có độ tương tự thấp hơn các điểm dữ liệu nằm trong một cụm.

Phân tích cụm có nhiều ứng dụng rộng rãi, bao gồm nghiên cứu thị trường, nhận dạng mẫu, phân tích dữ liệu và xử lý ảnh. Trong kinh doanh, phân tích cụm có thể giúp các nhà marketing khám phá sự khác nhau giữa các nhóm khách hàng dựa trên thông tin khác hàng và các đặc trưng của các nhóm khách hàng dựa trên các mẫu mua hàng. Trong sinh học, nó có thể được sử dụng để phân loại thực vật và động vật, các mẫu gen với các chức năng tương tự nhau. Phân tích cụm còn có thể phân loại đất theo công năng hoặc thực tế sử dụng để có chính sách qui hoạch phù hợp, phân loại các tài liệu trên Web.

Các yêu cầu cơ bản của phân tích cụm trong KTDL:

 Có khả năng làm việc hiệu quả với lượng dữ liệu lớn: Phân tích cụm trên một mẫu của dữ liệu lớn có thể dẫn đến các kết quả thiên lệch. Cần phải có các thuật toán phân cụm trên CSDL lớn.

 Có khả năng xử lý các dạng dữ liệu khác nhau: Nhiều thuật toán được thiết kế để xử lý dữ liệu bằng số. Tuy nhiên, các ứng dụng có thể yêu cầu phân tích cụm các dạng dữ liệu khác, như dữ liệu nhị phân, phân loại, trật tự hay sự trộn lẫn của các kiểu dữ liệu.

 Có khả năng khám phá ra các cụm với các dạng bất kỳ: Nhiều thuật toán phân cụm dựa trên các số đo khoảng cách Euclide hay Manhattan. Các thuật

toán dựa trên các số đo khoảng cách có xu hướng tìm các cụm hình cầu với kích thước và mật độ tương tự nhau. Tuy nhiên, một cụm (cluster) có thể có hình dạng bất kỳ. Do đó cần phát triển các thuật toán để tìm các cluster hình dạng bất kỳ.

 Yêu cầu tối thiểu tri thức lĩnh vực nhằm xác định các tham số đầu vào: Nhiều thuật toán phân cụm đòi hỏi người dùng nhập các tham số trong phân tích cụm. Các kết quả phân cụm có thể bị ảnh hưởng vào các tham số đầu vào. Các tham số thường khó xác định, đặc biệt đối với các tập dữ liệu chứa các đối tượng dữ liệu nhiều chiều.

 Có khả năng làm việc với dữ liệu nhiễu.

 Không bị ảnh hưởng vào thứ tự nhập của dữ liệu.

 Làm việc tốt trên CSDL có số chiều cao.

 Chấp nhận các ràng buộc do người dùng chỉ định

 Có thể hiểu và sử dụng được các kết quả gom cụm

Ở phần này chỉ giới thiệu sơ qua về kỹ thuật phân cụm, chi tiết hơn về kỹ thuật này sẽ được giới thiệu trong chương 4.

Một phần của tài liệu ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống ids (Trang 39 - 40)