Hình dạng các cụm được khám phá bởi DBSCAN

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu các kỹ thuật phân cụm dữ liệu và ứng dụng (Trang 52 - 53)

Một số khái niệm sử dụng trong giải thuật DBSCAN

1. Lân cận với ngưỡng Eps của một điểm: Lân cận với ngưỡng Eps của một điểm p ký hiệu là Neps(p) được xác định như sau:

Neps(p) = {q D | khoảng cách dist(p,q) Eps} với D là tập dữ liệu cho trước.

Một điểm p muốn nằm trong một cụm C nào đó thì NEps(p) phải có tối thiểu MinPts điểm. Số điểm tối thiểu được chọn là bao nhiêu cũng là bài toán khó vì nếu số điểm tối thiểu lớn thì chỉ những điểm nằm thực sự trong cụm C mới đạt đủ tiêu chuẩn, trong khi đó những điểm nằm ngoài biên của cụm không thể đạt đựơc điều đó. Ngược lại, nếu số điểm tối thiểu là nhỏ thì mọi điểm sẽ rơi vào một cụm.

Theo định nghĩa trên, chỉ những điểm thực sự nằm trong cụm mới thoả mãn điều kiện là điểm thuộc vào cụm. Những điểm nằm ở biên của cụm thì không thoả mãn điều kiện đó, bởi vì thông thường thì lân cận với ngưỡng Eps của điểm biên bé hơn lân cận với ngưỡng cũng Eps của điểm nhân.

Để tránh được điều này, có thể đưa ra một tiêu chuẩn khác để định nghĩa một điểm thuộc vào một cụm như sau: Nếu một điểm p muốn thuộc một cụm C phải tồn tại một điểm q mà p qNEps(q) và số điểm NEps(q) phải lớn hơn điểm tối thiểu. Điều này dẫn đến ba phép đo được sử dụng để mô tả thuộc tính của các điểm dữ liệu, là mật độ liên lạc trực tiếp, mật độ liên lạc và mật độ liên thông được định nghĩa như sau:

2. Một điểm dữ liệu p được gọi là điểm nhân (core - point) nếu miền lân cận của p với bán kính Eps có ít nhất là minpt điểm.

3. Mật độ - đến được trực tiếp (Directly Density-reachable) : q được gọi là đến được theo mật độ trực tiếp nếu p là điểm nhân và q  Neighbor(p, Eps).

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu các kỹ thuật phân cụm dữ liệu và ứng dụng (Trang 52 - 53)

Tải bản đầy đủ (PDF)

(102 trang)