CHƯƠNG 2 : CƠ SỞ LÝ THUYẾT
2.3. Khoảng cách Euclidean, Minkowski, Manhattan
2.3.1. Khoảng cách Euclidean
Trong toán học, khoảng cách Euclid (tiếng Anh: Euclidean distance) giữa hai điểm trong không gian Euclid là độ dài của đoạn thẳng nối hai điểm đó. Có thể tính nó từ tọa độ Descartes của hai điểm bằng cách sử dụng định lý Pythagoras, do đó còn có
tên gọi khác là khoảng cách Pythagoras (tiếng Anh: Pythagorean distance). Hai danh pháp trên được đặt theo tên của hai nhà toán học Hy Lạp cổ đại Euclid và Pythagoras, dù Euclid không dùng số để chỉ khoảng cách và mối liên hệ giữa định lý Pythagoras với việc tính khoảng cách chưa được thiết lập cho đến thế kỷ 18.
Hình 2.7. Phép đo Euclidean
Khoảng cách giữa hai đối tượng hình học không phải là điểm thường được định nghĩa là khoảng cách nhỏ nhất giữa hai điểm thuộc hai đối tượng đó. Có một số công thức đã biết để tính khoảng cách giữa các dạng đối tượng khác nhau, chẳng hạn như khoảng cách từ một điểm đến một đường thẳng. Toán học nâng cao khái quát hóa khái niệm khoảng cách sang không gian mêtric trừu tượng cũng như nghiên cứu một số loại khoảng cách khác ngoài khoảng cách Euclid. Một số ứng dụng trong thống kê và tối ưu hóa sử dụng bình phương khoảng cách Euclid thay vì chính khoảng cách đó.
Khoảng cách Euclide là một thước đo khoảng cách tốt nhất có thể được giải thích là độ dài của một đoạn nối hai điểm.
Hình 2.8. Áp dụng định lý Pythagoras để tính khoảng cách Euclid trong mặt phẳng Công thức khá đơn giản vì khoảng cách được tính từ tọa độ Cartesian của các điểm bằng cách sử dụng định lý Pitago.
Nhược điểm của phương pháp Euclid: Mặc dù nó là một thước đo khoảng cách phổ biến, khoảng cách Euclide không phải là biến thể theo tỷ lệ, có nghĩa là khoảng cách được tính toán có thể bị sai lệch tùy thuộc vào đơn vị của các đối tượng địa lý. Thông thường, người ta cần chuẩn hóa dữ liệu trước khi sử dụng thước đo khoảng cách này. Hơn nữa, khi kích thước dữ liệu của bạn tăng lên, khoảng cách Euclide càng trở nên ít hữu ích hơn. Điều này có liên quan đến lời nguyền về chiều liên quan đến khái niệm rằng không gian chiều cao hơn không hoạt động như chúng ta, theo trực giác, mong đợi từ không gian 2 hoặc 3 chiều. Để có một bản tóm tắt tốt, hãy xem bài đăng này.
Trường hợp sử dụng:
Khoảng cách Euclid hoạt động hiệu quả khi bạn có dữ liệu chiều thấp và độ lớn của vectơ là điều quan trọng cần được đo. Các phương pháp như kNN và HDBSCAN cho kết quả tuyệt vời nếu sử dụng khoảng cách Euclid trên dữ liệu chiều thấp.
Mặc dù nhiều biện pháp khác đã được phát triển để giải quyết những nhược điểm của khoảng cách Euclide, nó vẫn là một trong những thước đo khoảng cách được sử dụng nhiều nhất vì những lý do chính đáng. Nó cực kỳ trực quan để sử dụng, đơn giản để thực hiện và cho thấy kết quả tuyệt vời trong nhiều trường hợp sử dụng.
2.3.2. Khoảng cách Minkowski
Hình 2.9. Phép đo Minkowski
Khoảng cách Minkowski là một biện pháp phức tạp hơn một chút so với hầu hết. Nó là một số liệu được sử dụng trong không gian vectơ định mức (không gian thực n-chiều), có nghĩa là nó có thể được sử dụng trong một không gian mà khoảng cách có thể được biểu diễn dưới dạng vectơ có độ dài.
Biện pháp này có ba yêu cầu:
Vectơ Zero - Vectơ 0 có độ dài bằng 0 trong khi mọi vectơ khác đều có độ dài dương. Ví dụ, nếu chúng ta đi từ nơi này đến nơi khác, thì khoảng cách đó luôn luôn là
số dương. Tuy nhiên, nếu chúng ta đi từ một nơi đến chính nó, thì khoảng cách đó bằng không.
Hệ số vô hướng - Khi bạn bội vectơ với một số dương thì độ dài của nó bị thay đổi trong khi vẫn giữ nguyên hướng của nó. Ví dụ, nếu chúng ta đi một khoảng cách nhất định theo một hướng và thêm một khoảng cách như nhau, thì hướng đó không thay đổi. Bất đẳng thức tam giác - Khoảng cách ngắn nhất giữa hai điểm là một đường thẳng.
Điều thú vị nhất về thước đo khoảng cách này là việc sử dụng tham số p. Chúng ta có thể sử dụng tham số này để điều khiển các chỉ số khoảng cách để gần giống với những người khác.
Giá trị chung của p là:
p = 1 - Khoảng cách Manhattan p = 2 - Khoảng cách Euclide p = ∞ - Khoảng cách Chebyshev
Minkowski có những nhược điểm tương tự như các thước đo khoảng cách mà chúng đại diện, vì vậy hiểu biết tốt về các thước đo như Manhattan, Euclidean và khoảng cách Chebyshev là cực kỳ quan trọng.
Hơn nữa, tham số pthực sự có thể gây rắc rối khi làm việc vì việc tìm kiếm giá trị phù hợp có thể khá kém hiệu quả về mặt tính toán tùy thuộc vào trường hợp sử dụng của bạn.
Trường hợp sử dụng
Ưu điểm của nó là khả năng lặp lại nó và tìm ra thước đo khoảng cách phù hợp nhất với trường hợp sử dụng của bạn. Nó cho phép bạn linh hoạt rất nhiều so với chỉ số khoảng cách của bạn, điều này có thể mang lại lợi ích to lớn nếu bạn đã quen thuộc với p và nhiều thước đo khoảng cách.
Hình 2.10. Phép đo Manthanttan
Khoảng cách Manhattan là một thước đo khoảng cách nổi tiếng được lấy cảm hứng từ bố cục đường phố vuông góc hoàn hảo của Manhattan. Nó cũng cung cấp một số liệu khoảng cách bổ sung hoặc thay thế cùng với khoảng cách Euclide. Việc tính toán khoảng cách Manhattan trong hệ thống Tọa độ Descartes (trong đó bạn giả sử điểm gốc của mình là (0, 0)) khá dễ hiểu. Khoảng cách Manhattan, còn được gọi là khoảng cách L1 hay khoảng cách trong thành phố, là một dạng khoảng cách giữa hai điểm trong không gian Euclid với hệ tọa độ Descartes. Đại lượng này được tính bằng tổng chiều dài của hình chiếu của đường thẳng nối hai điểm này trong hệ trục tọa độ Descartes.
Nhược điểm: Mặc dù khoảng cách Manhattan có vẻ phù hợp với dữ liệu chiều cao, nhưng nó là một phép đo có phần kém trực quan hơn so với khoảng cách euclide, đặc biệt là khi sử dụng trong dữ liệu chiều cao.
Hình 2.11. So sánh giữa khoảng cách Euclid và khoảng cách Manhattan: Các đường màu đỏ, xanh lam, vàng biểu diễn khoảng cách Manhattan có cùng độ dài (12), trong khi đường màu
xanh lục biểu diễn khoảng cách Euclid với độ dài 6×√2 ≈ 8.48.
Hơn nữa, nó có nhiều khả năng cho một giá trị khoảng cách cao hơn khoảng cách euclide vì nó không phải là đường đi ngắn nhất có thể. Điều này không nhất thiết đưa ra các vấn đề nhưng là điều bạn nên tính đến.
Trường hợp sử dụng
Khi tập dữ liệu của bạn có các thuộc tính rời rạc hoặc nhị phân, Manhattan dường như hoạt động khá tốt vì nó tính đến các đường dẫn mà thực tế có thể được thực hiện trong các giá trị của các thuộc tính đó. Lấy ví dụ, khoảng cách Euclide sẽ tạo ra một đường thẳng giữa hai vectơ trong khi thực tế điều này có thể không thực sự được.