Minh họa đồ thị khoảng cách 4-dist đã được sắp xếp của một CSDL

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM (Trang 49 - 50)

Nhìn chung, việc xác định ra vùng đầu tiên một cách tự động khá khó khăn, nhưng lại rất dễ dàng đối với người sử dụng tự xác định thấy vùng này trên đồ thị. Vì vậy, nhóm tác giả trên đề xuất một phương pháp tương tác để xác định điểm ngưỡng như sau:

DBSCAN cần có hai tham số, Eps và MinPts. Tuy nhiên, các thí nghiệm đã chỉ ra rằng đồ thị k-dist với k>4 không có sai khác gì nhiều so với đồ thị 4-dist, hơn nữa, lại phải tính toán nhiều hơn. Vì vậy, gán tham số MinPts bằng 4 với tất cả CSDL (dữ liệu

2 chiều). Nhóm tác giả trên đã đề xuất phương pháp tương tác sau để xác định tham số Eps của DBSCAN:

Hệ thống tính toán và hiển thị đồ thị 4-disp cho CSDL.

Nếu người sử dụng có thể đánh giá tỷ lệ phần trăm của nhiễu, thì tỷ lệ này được đưa vào và hệ thống lấy đánh giá này để xác định điểm ngưỡng.

Người sử dụng chấp nhận điểm ngưỡng này hoặc tự lựa chọn điểm ngưỡng khác. Giá trị 4-dist của điểm ngưỡng được sử dụng như giá trị Eps trong DBSCAN.

Học viên đã đề xuất một phương pháp đơn giản nhưng khá hiệu quả (theo khảo sát thực nghiệm) để xác định tham số Eps một cách tự động như sau:

Tính toán khoảng các khoảng cách k-dist (thường chọn k=4) của các điểm trong CSDL, sắp xếp (ở đây chọn sắp xếp tăng dần) các giá trị k-dist này. Thay vì yêu cầu người dùng lựa chọn điểm ngưỡng A trên đồ thị thì chương trình tự động tính toán khoảng cách lớn nhất AH từ một giá trị k-dist tới đường thẳng đi qua giá trị đầu và cuối P0 và Pn trong đồ thị khoảng cách k-dist như hình vẽ, giá trị k-dist tại điểm A sẽ là giá trị epsilon Eps cần ước lượng.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM (Trang 49 - 50)