Giới thiệu thuật toán
- Thuật tốn chuyển đổi trung bình là một kỹ thuật phân cụm phi thông số mà không yêu cầu biết trước về số lượng các cụm, và khơng hạn chế hình dạng của các cụm.
- Cho n điểm dữ liệu xi , i = 1, ... , n trên không gian d chiều Rd, ước lượng mật độ hạt nhân đa biến thu được với hạt nhân K (x) và bán kính cửa sổ h là
f(x) = 𝑓(𝑥) = 1 𝑛ℎ𝑑∑ 𝐾 (𝑥−𝑥𝑖 ℎ ) 𝑛 𝑖=1
Đối với hạt nhân đối xứng vectơ, nó đủ để xác định thơng tin của hạt nhân k(x) thỏa mãn
𝐾(𝑥) = 𝐶𝑘𝑑𝑘(‖𝑥‖2) (2.3.2)
(2.6)
25
Trong đó 𝐶𝑘𝑑 là hằng số chuẩn, đảm bảo K (x) là một số nguyên dương. Các chế độ của hàm mật độ được đặt tại vị trí khơng của hàm dốc gradient ∇f (x) = 0. Độ dốc của bộ ước lượng mật độ (1) là
Trong đó 𝑔(𝑠) = −𝑘(𝑠)′ . Bước đầu tiên cân đối hàm mật độ ước tính ở x với hạt nhân 𝐺(𝑥) = 𝐶𝑔,𝑑𝑔(‖𝑥‖2) và bước tiếp theo là sự dịch chuyển trung bình:
Các vector thay đổi trung bình ln ln hướng về hướng tăng tối đa mật độ. Thủ tục chuyển đổi trung bình, thu được một cách liên tục.
• Tính tốn của vector chuyển đổi trung bình 𝒎𝒉(𝒙𝒕) • Dịch cửa sổ 𝒙𝒕+𝟏= 𝒙𝒕+ 𝒎𝒉(𝒙𝒕)
đảm bảo sẽ hội tụ về một điểm mà các gradient của hàm mật độ là zero. Quá trình tìm kiếm chế độ chuyển đổi trung bình được minh họa trong Hình 1.
Thuật tốn mean shift clustering là một ứng dụng thực tế của thủ tục tìm kiếm chế độ phát hiện:
(2.8)
(2.9)
(2.10)
26
Hình 2.19: Tìm kiếm vùng mật độ điểm lớn trên dữ liệu thực
• Bắt đầu từ các điểm dữ liệu, chạy thủ tục chuyển đổi trung bình để tìm các điểm dừng của hàm mật độ,
• Xén những điểm này bằng cách duy trì chỉ số maxima cục bộ.
Tập hợp của tất cả các vị trí hội tụ đến cùng một chế độ xác định lưu vực thu hút của chế độ đó.
27
28
29