K-Láng giềng gần nhất

Khi đã thông dịch các mẫu tin thành các điểm trong một không gian dữ liệu nhiều chiều, chúng ta có thể định nghĩa khái niệm của “láng giềng”:

Các mẫu tin ở gần nhau là láng giềng của nhau

Giả sử ta muốn dự đoán thái độ của một tập khách hàng từ một cơ sở dữ liệu với những mẫu tin mô tả những khách hàng này. Giả thuyết cơ sở đòi hỏi để làm một dự án là những khách hàng cùng loại sẽ có cùng thái độ. Trong thuật ngữ ẩn dụ của không gian dữ liệu đa chiều, một kiểu chỉ là một vùng trong không gian dữ liệu này. Mặt khác, các mẫu tin cùng kiểu sẽ gần nhau trong không gian dữ liệu: chúng sẽ là láng giềng của nhau. Dựa vào hiểu biết này, để phát triển một thuật toán mạnh nhưng rất đơn giản - thuật toán k-láng giềng gần nhất. Lý thuyết cơ sở của k-láng giềng gần nhất là “làm như láng giềng của bạn đã làm”. Nếu muốn dự đoán thái độ của một các nhân cụ thể, bắt đầu nhìn vào thái độ của mười người gần gũi với anh ta trong không gian dữ liệu. Tính trị trung bình về thái độ của 10 người này, và trị trung bình này sẽ là cơ sở dự đoán cho cá nhân của anh ta. Chữ k trong k-láng giềng gần nhất đại diện cho số láng giềng điều tra.

K-láng giềng gần nhất đơn giản thật sự không là một kỹ thuật học mà là một phương pháp tìm kiếm thuần túy bởi vì tập dữ liệu bản than nó được dùng chỉ để

tham khảo. Nó không thể tạo ra một lý thuyết trong lĩnh vực datamining mà giúp hiểu cấu trúc tốt hơn. Ví dụ như, nếu muốn ra một quyết định cho mỗi yếu tố trong tập dữ liệu chứa n mẫu tin, thì cần phải so sánh mẫu tin với các mẫu tin khác. Điều này dẫn đến độ phức tạp bậc 2, đặc biệt cho tập cơ sở dữ liệu lớn. Nếu muốn làm một sự phân tích k-láng giềng gần nhất đơn giản đối với một cơ sở dữ liệu có một triệu mẫu tin, phải thực hiện một ngàn tỷ phép so sánh. Cách tiếp cận như vậy rõ rang là không tốt mặc dầu có nhiều kết quả nghiên cứu đã giúp tăng tốc độ của quá trình tìm kiếm này. Tóm lại các thuật toán data mining không nên có độ phức tạp tính toán lớn hơn n*log(n) (trong đó n là số các mẫu tin). Trong thực tế chúng ta ít dùng kỹ thuật k-láng giềng gần nhất.

Một ví dụ dùng thuật toán k-láng giềng:

Bảng 3.7: Một số ví dụ dùng kỹ thuật k-láng giềng

Phương pháp khai phá dữ liệu

Các kiểu cây quyết định