Thuật toán OPTICS

Một phần của tài liệu Phân cụm dữ liệu dựa trên mật độ và ứng dụng (LV thạc sĩ) (Trang 55 - 56)

Mặc dù giải thuật phân cụm dựa trên mật độ DBSCAN có thể tìm ra cụm các đối tượng với việc lựa chọn các tham số đầu vào như s và MinPts, người dùng vẫn chịu trách nhiệm lựa chọn các giá trị tham số tốt để tìm ra các cụm chính xác. Trên thực tế, đây là bài toán có sự kết hợp của nhiều giải thuật phân cụm khác. Các thiết lập tham số như vậy tương đối khó, đặc biệt trong thế giới thực, các tập dữ liệu có số chiều cao. Hầu hết các giải thuật rất nhạy với các tham số : các thiết lập có sự khác biệt nhỏ có thể dẫn tới các phân chia dữ liệu rất khác nhau. Hơn nữa, các tập dữ liệu thực số chiều cao thường có phân bố rất lệch, thậm trí ở đó không tồn tại một thiết lập tham số toàn cục cho đầu vào. Để khắc phục khó khăn này, một phương pháp sắp xếp cụm gọi là OPTICS (Ordering Point To Identify the Clustering Structuer) được phát triển bởi Ankerst, Breunig , Kriegel và Sander năm 1999. nó cải tiến bằng cách giảm bớt các tham số đầu vào. Thuật toán này không phân cụm các điểm dữ liệu mà thực hiện tính toán và sắp xếp trên các điểm dữ liệu theo thứ tự tăng dần nhằm tự động phân cụm dữ liệu và phân tích cụm tương tác hơn là đưa ra phân cụm một tập dữ liệu rõ ràng. Đây là thứ tự mô tả cấu trúc phân dữ liệu cụm dựa trên mật độ của dữ liệu, nó chứa thông tin tương ứng với phân cụm dựa trên mật độ từ một dãy các tham số được thiết lập và tạo thứ tự của các đối tượng trong cơ sở dữ liệu, đồng thời lưu trữ khoảng cách lõi và khoảng cách liên lạc phù hợp của mỗi đối tượng. Hơn nữa, thuật toán được đề xuất rút ra các cụm dựa trên thứ tự thông tin. Như vậy thông tin đủ cho trích ra tất cả các cụm dựa trên mật độ khoảng cách bất kỳ s’ mà nhỏ hơn khoảng cách 8 được sử dụng trong sinh thứ tự.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

là kích thước mà có liên quan đến quá trình của thuật toán DBSCAN, tuy nhiên, chúng được sử dụng đế xác định thứ tự của các điếm dữ liệu đã được sắp xếp. Thứ tự dựa trên cơ sở các điếm dữ liệu mà có khoảng cách nhân nhỏ nhất và tăng dần độ lớn. Điều duy nhất về phương pháp này là người sử dụng không phải xác định giá trị 8 hoặc MinPts phù hợp.

Hình 2.9: Sắp xếp cụm trong OPTICS phụ thuộc vào ɛ

Thuật toán này có thể phân cụm các đối tượng đã cho với các tham số đầu vào như ɛ và MinPts, nhưng nó vẫn cho phép người sử dụng tùy ý lựa chọn các giá trị tham số mà sẽ dẫn đến khám phá các cụm chấp nhận được. Các thiết lập tham số thường dựa theo kinh nghiệm tập hợp và khó xác định, đặc biệt là với các tập dữ liệu đa chiều.

Tuy nhiên, nó cũng có độ phức tạp thời gian thực hiện như DBSCAN bởi vì có cấu trúc tương đương với DBSCAN: O(nlogn) với n là kích thước của tập dữ liệu. Thứ tự cụm của tập dữ liệu có thế được biếu diễn bằng đồ thị, và được minh họa hình sau, có thế thấy ba cụm, giá trị ɛ quyết định số cụm.

Một phần của tài liệu Phân cụm dữ liệu dựa trên mật độ và ứng dụng (LV thạc sĩ) (Trang 55 - 56)