Đây là phương pháp xem các mẫu tin như là những điểm trong không gian dữ liệu đa chiều. Áp dụng ý tưởng này có thể xác định khoảng cách giữa hai mẫu tin trong không gian dữ liệu như sau: các mẫu tin có liên hệ với nhau thì rất gần nhau. Các mẫu tin ở xa nhau thì có ít điểm chung. Cơ sở dữ liệu mẫu chứa cá thuộc tính như tuổi, thu nhập và tín dụng. Ba thuộc tính mẫu này thành lập nên không gian dữ liệu ba chiều và có thể phân tích các khoảng cách giữa các mẫu tin trong không gian này.
Khách hàng 1 32 40.000 10.000
Khách hàng 2 24 30.000 2.000
8 10 8
Bảng 3.6: Mẫu dữ liệu khách hàng
Khoảng cách hai khách hàng được tính
15 8 10
82 + 2 + 2 =
Hình 3.4: Các mẫu tin biểu diễn thành điểm trong một không gian bởi các thuộc tính của chúng và khoảng cách giữa chúng có thể được đo
Ví dụ: Tuổi phạm vi: 1→ 100, trong khi thu nhập khoảng từ 0 → 100.000 dollar mỗi tháng. Nếu dùng dữ liệu này mà không hiệu chỉnh cho đúng thì thu nhập sẽ là một thuộc tính dễ phân biệt hơn rất nhiều so với tuổi và đây là điều mà chúng ta không mong muốn. Vì vậy chia thu nhập cho 1000 để đạt tới một đơn vị đo độ lớn như là tuổi. Làm tương tự cho thuộc tính tín dụng. Nếu độ đo tất cả thuộc tính cùng một độ đo, sẽ có một độ đo khoảng cách đáng tin cậy để đo các mẫu tin khác nhau. Trong ví dụ sẽ dùng độ đo Enclidean, khoảng cách giữa khách hàng 1 và khách hàng 2 là 15.