8.3 Phân cụm không gian số chiều cao

Một phần của tài liệu Khai phá dữ liệu về kết quả học tập của học sinh trường Cao đẳng nghề Văn Lang Hà Nội (Trang 67)

Một phương pháp phân cụm khác, CLIQUE do R. Agrawal và J. Raghavan [22] đề xuất năm 1998, tích hợp phương pháp phân cụm dựa trên lưới và mật độ theo một cách khác. Nó rất hữu ích cho phân cụm dữ liệu với số chiều cao trong các cơ sở dữ liệu lớn.

Cho trước một tập lớn các điểm dữ liệu đa chiều, các điểm dữ liệu này thường nằm không đồng nhất trong không gian dữ liệu. Phân cụm dữ liệu nhận biết các vị trí thưa thớt hay đông đúc, do vậy tìm ra toàn bộ các mẫu phân bố của tập dữ liệu.

Một đơn vị là dày đặc nếu như phần nhỏ của các điểm dữ liệu chứa trong đơn vị vượt quá một tham số mô hình đầu vào. Một cụm là một tập lớn nhất các đơn vị dày đặc có kết nối.

CLIQUE phân chia không gian dữ liệu m chiều thành các đơn vị hình chữ nhật không chồng lên nhau, nhận biết các đơn vị dày đặc, tìm ra các cụm trong toàn bộ các không gian con của không gian dữ liệu gốc, sử dụng phương pháp phát sinh ứng cử giống với giải thuật Apriori cho khai phá các luật kết hợp.

CLIQUE thực hiện phân cụm đa chiều theo hai bước:

1. Trước tiên, CLIQUE nhận biết các cụm bằng cách xác định các đơn vị dày đặc trong toàn bộ các không gian con của các quan hệ và sau đó xác định các đơn vị dày đặc có kết nối trong toàn bộ các không gian con của các đối tượng. Một phương pháp quan trọng mà CLIQUE thông qua đó là nguyên lý Apriori trong phân cụm số chiều cao: Nếu một đơn vị k chiều là dày đặc thì các hình chiếu của nó trong không gian (k-1) chiều cũng vậy. Đó là nếu bất kỳ đơn vị thứ (k-1) không phải là dày đặc, thì đơn vị thứ k tương ứng của nó không phải là một đơn vị ứng cử dày đặc. Bởi vậy, tất cả các đơn vị dày đặc k chiều ứng cử có thể được sinh từ các đơn vị dày đặc (k-1) chiều.

2. Thứ hai, CLIQUE sinh ra mô tả tối thiểu cho các cụm như sau: Trước tiên nó xác định các miền tối đa phủ một cụm các đơn vị dày đặc có kết nối cho mỗi cụm và sau đó xác định phủ tối thiểu cho mỗi cụm.

CLIQUE tự động tìm các không gian con số chiều cao nhất để các cụm mật độ cao tồn tại trong các không gian con này. Nó không nhạy cảm với trật tự các bản ghi trong đầu vào và không đoán được phân bố dữ liệu tiêu chuẩn. Nó tỷ lệ

tuyến tính với kích thước của đầu vào và có một khả năng mở rộng tốt như số các chiều trong dữ liệu được tăng lên. Tuy nhiên, độ chính xác của kết quả phân cụm có thể bị suy giảm bởi tính đơn giản của phương pháp.

Một phần của tài liệu Khai phá dữ liệu về kết quả học tập của học sinh trường Cao đẳng nghề Văn Lang Hà Nội (Trang 67)