- Kết hợp cả bốn trường hợp trên, tổng giá trị hoán chuyển O m bằng
3.3.2.1 Khoảng cách giữa các thuộc tính phi không gian
Mỗi đơn vị hành chính (xã) có các thuộc tính phi không gian, là dữ liệu về kinh tế, xã hội ... thể hiện điều kiện nơi cư trú của học sinh và đặc biệt quan trọng là dữ liệu về kết quả học tập tính trung bình của tất cả học sinh thuộc đơn vị hành chính. Ta có công thức tính kết quả trung bình học tập một môn học của tất cả học sinh trong một đơn vị hành chính như sau:
Trong đó: : Là điểm trung bình của kết quả học tập của một môn của học sinh của một đơn vị hành chính .
Tổ hợp tính khoảng cách theo nhiều thuộc tính với các thang đo khác nhau
Giá trị khoảng cách đây được tính theo các thang đo giá trị tuyến tính khác nhau như là kết quả học tập của học sinh thang đo là 1, khoảng cách giữa các đơn vị hành chính đơn vị hàng km hay là thu nhập bình quân đầu người tính bằng đơn vị tiền. Nếu sử dụng trực tiếp ngay tổng các khoảng cách nói trên mà chưa chuẩn hóa sẽ gây sai lạc lớn, ảnh hưởng đến kết quả phân tích cụm. Để tránh sự phụ thuộc vào các thang đơn vị đo ta phải tiến hành chuẩn hóa đưa về một thang đo chung.
Bƣớc 1: Tính độ lệch tuyệt đối trung bình sf: sf=1/n (| x1f-mf| + |x2f-mf|+...+|xnf-mf|)
Trong đó mf là giá trị trung bình của cột f trong ma trận dữ liệu: mf = 1/n (x1f + x2f + ... + xnf)
Bƣớc 2: đưa về dữ liệu theo phân bố chuẩn (tính z-score):
zif = ( xif - mf) / sf
Từ đó ta áp dụng công thức tính khoảng cách Euclidean có trọng số như sau:
dw(i,j)= SQRT (w1 |xi1 - xj1|2 + w2 |xi2 - xj2|2 +...+ wp |xip - xjp|2)