Bài giảng Khai mở dữ liệu: Phương pháp k láng giềng (K nearest neighbors)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	17
Dung lượng	501,89 KB

Nội dung

Bài giảng Khai mở dữ liệu: Phương pháp k láng giềng (K nearest neighbors) giới thiệu về phương pháp k láng giềng, kết luận và hướng phát triển. Bài giảng phục vụ cho các bạn chuyên ngành Công nghệ thông tin và những bạn quan tâm tới vấn đề này.

Khoa Công Nghệ Thông Tin Trường Đại Học Cần Thơ Phương pháp k láng giềng K nearest neighbors Đỗ Thanh Nghị dtnghi@cit.ctu.edu.vn Cần Thơ 02-12-2008 Nội dung Giới thiệu KNN  Kết luận hướng phát triển  Nội dung Giới thiệu KNN  Kết luận hướng phát triển    Giới thiệu KNN kết luận hướng phát triển K nearest neighbors  phương pháp KNN (tên khác instance-based, lazy)        đơn giản, khơng có trình học phân loại nhiều thời gian, trình tìm kiếm k liệu lân cận, sau phân loại dựa majority vote (hồi quy dựa giá trị trung bình) kết phụ thuộc vài việc chọn khoảng cách sử dụng làm việc nhiều loại liệu khác giải vấn đề phân loại, hồi quy, gom nhóm, etc cho kết tốt, nhiên độ phức tạp trình phân loại lớn ứng dụng thành cơng hầu hết lãnh vực tìm kiếm thơng tin, nhận dạng, phân tích liệu, etc   Giới thiệu KNN kết luận hướng phát triển Kỹ thuật DM thành công ứng dụng thực (2004)   Giới thiệu KNN kết luận hướng phát triển Phương pháp KNN   Giới thiệu KNN kết luận hướng phát triển Phương pháp KNN X   Giới thiệu KNN kết luận hướng phát triển Phương pháp KNN X   Giới thiệu KNN kết luận hướng phát triển Phương pháp KNN  khoảng cách Minkowski d (i, j)  q (| x  x |q  | x  x |q   | x  x |q ) i1 j1 i2 j2 ip jp i = (xi1, xi2, …, xip) j = (xj1, xj2, …, xjp) phần tử liệu p-dimensional, q số nguyên dương  q = 1, d khoảng cách Manhattan d(i, j) | x x | | x x |  | x  x | i1 j1 i2 j2 ip jp   Giới thiệu KNN kết luận hướng phát triển Phương pháp KNN  q = 2, d khoảng cách Euclid d (i, j)  (| x  x |2  | x  x |2   | x  x |2 ) i1 j1 i2 j2 ip jp  tính chất d(i,j)  d(i,i) = d(i,j) = d(j,i) d(i,j)  d(i,k) + d(k,j)  nên chuẩn hóa liệu 10 Giới thiệu KNN kết luận hướng phát triển   Phương pháp KNN X1 X2 Lớp 0.45 ? X1 X2 Lớp D(Manhattan) 0.1 10 +1 5.35 0.2 25 +1 20.25 0.3 +1 5.15 0.5 11 -1 6.05 0.8 100 -1 95.35 50 +1 45.45 70 -1 65.55 1NN lớp = +1 11   Giới thiệu KNN kết luận hướng phát triển Nhận xét  Thuộc tính X2 có miền giá trị 100) thuộc tính X1 có miền giá trị  Kết phụ thuộc nhiều vào X2 (chênh lệch X2 lớn so với X1)  nên chuẩn hóa liệu (chuẩn hóa thuộc tính X2 giá trị new_val = (val – min)/(max – min) 12 Giới thiệu KNN kết luận hướng phát triển   Phương pháp KNN X1 X2 Lớp 0.45 0.05 ? X1 X2 Lớp D(Manhattan) 0.1 0.1 +1 0.4 0.2 0.25 +1 0.45 0.3 +1 0.2 0.5 0.11 -1 0.11 0.8 -1 1.3 0.5 +1 0.9 0.7 -1 1.2 1NN lớp = -1 13 Nội dung Giới thiệu KNN  Kết luận hướng phát triển  14   Giới thiệu KNN kết luận hướng phát triển Phương pháp KNN     thường xác, chậm phải duyệt qua liệu để tìm phần tử gần giả sử thuộc tính có độ quan trọng  gán trọng số quan trọng cho thuộc tính chịu đựng nhiễu  tham số k  xóa liệu nhiễu (hơi khó ) thống kê sử dụng k-NN từ năm 50s  liệu lớn (n  ) k/n  0, lỗi gần với giá trị nhỏ 15   Giới thiệu KNN kết luận hướng phát triển Hướng phát triển    tăng tốc cho trình tìm k phần tử lân cận  cấu trúc index chọn thuộc tính quan trọng gán trọng số cho thuộc tính 16 ... phát triển Phương pháp KNN X   Giới thiệu KNN k? ??t luận hướng phát triển Phương pháp KNN X   Giới thiệu KNN k? ??t luận hướng phát triển Phương pháp KNN  khoảng cách Minkowski d (i, j)  q (| x... thiệu KNN k? ??t luận hướng phát triển K? ?? thuật DM thành công ứng dụng thực (2004)   Giới thiệu KNN k? ??t luận hướng phát triển Phương pháp KNN   Giới thiệu KNN k? ??t luận hướng phát triển Phương pháp. .. Giới thiệu KNN  K? ??t luận hướng phát triển  Nội dung Giới thiệu KNN  K? ??t luận hướng phát triển    Giới thiệu KNN k? ??t luận hướng phát triển K nearest neighbors  phương pháp KNN (tên khác instance-based,

Ngày đăng: 10/05/2021, 08:33