6. Thuật toỏn phõn cụm dữ liệu dựa vào mật độ 1 Thuật toỏn DBSCAN
6.2. Thuật toỏn OPTICS
Thuật toỏn này là mở rộng của DBSCAN, tuy nhiờn nú cải tiến bằng cỏch giảm bớt cỏc tham số đầu vào. Thuật toỏn này khụng phõn cụm cỏc điểm
dữ liệu mà thực hiện tớnh toỏn và sắp xếp trờn cỏc điểm dữ liệu theo thứ tự tăng dần nhằm tự động PCDL và phõn tớch cụm tương tỏc hơn là đưa ra phõn cụm một tập dữ liệu rừ ràng. Đõy là thứ tự mụ tả cấu trỳc phõn dữ liệu cụm dựa trờn mật độ của dữ liệu, nú chứa thụng tin tương ứng với phõn cụm dựa trờn mật độ từ một dóy cỏc tham số được thiết lập và tạo thứ tự của cỏc đối tượng trong CSDL, đồng thời lưu trữ khoản cỏch lừi và khoảng cỏch liờn lạc phự hợp của mỗi đối tượng. Hơn nữa, thuật toỏn được đề xuất rỳt ra cỏc cụm dựa trờn thứ tự thụng tin. Như vậy thụng tin đủ cho trớch ra tất cả cỏc cụm dựa trờn mật độ khoảng cỏch bất kỳ mà nhỏ hơn khoảng cỏch được sử dụng trong sinh thứ tự.
Việc sắp xếp thứ tự được xỏc định bởi hai thuộc tớnh riờng của cỏc điểm dữ liệu đú là khoảng cỏch nhõn và khoảng cỏch liờn lạc. Cỏc phộp đo này chớnh là kớch thước mà cú liờn quan đến quỏ trỡnh của thuật toỏn DBSCAN, tuy nhiờn, chỳng được sử dụng để xỏc định thứ tự của cỏc điểm dữ liệu đó được xắp xếp. Thứ tự dựa tren cơ sở cỏc điểm dữ liệu mà cú khoảng cỏch nhõn nhỏ nhất và tăng dần độ lớn. Điều duy nhất về phương phỏp này là người sử dụng khụng phải xỏc định giỏ trị hoặc MinPts phự hợp.
Thuật toỏn này cú thể phõn cụm cỏc đối tượng đó cho với cỏc tham số đầu vào như và MinPts, nhưng nú vẫn cho phộp người sử dụng tựy ý lựa chon cỏc giỏ trị tham số mà sẽ dón đến khỏm phỏ cỏc cụm chấp nhận được. Cỏc thiết lập tham số thường dựa theo kinh nghiệm tập hợp và khú xỏc định, đặc biệt là với cỏc tập dữ liệu đa chiều.
Tuy nhiờn, nú cũng cú độ phức tạp thời gian thực hiện như DBSCAN bởi vỡ cú cấu trỳc tương đương với DBSCAN : O(nlogn)- n là kớch thước của tập dữ liệu. Thứ tự cụm của tập dữ liệu cú thể được biểu diễn bằng đồ thị, và được minh họa trong hỡnh sau, cú thể thấy ba cụm, giỏ trị quyết định số cụm