Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 39 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
39
Dung lượng
671 KB
Nội dung
ĐẠI HỌC CƠNG NGHIỆP HÀ NỘI Khoa Cơng nghệ thơng tin Nhập môn LÝ THUYẾT NHẬN DẠNG Introduction to Pattern Recognition Chương 3: Phân loại theo khoảng cách Giảng viên: Phạm Văn Hà Hà Nội – 2013 Nội dung Chương 1: Tổng quan nhận dạng Chương 2: Hàm định Chương 3: Phân loại theo khoảng cách Chương 4: Phân loại theo hàm hợp lý Chương 5: Tiếp cận perceptron Chương 6: Véc tơ hỗ trợ máy (SVM) Chương 7: Tiền xử lý lựa chọn dấu hiệu ĐH Công nghiệp Hà Nội Tài liệu tham khảo ĐH Công nghiệp Hà Nội S Theodoridis , K Koutroumbas, Pattern Recognition, Academic Press,1999 Srihari, S.N., Covindaraju, Pattern recognition, Chapman &Hall, London, 1034-1041, 1993 Sergios Theodoridis, Konstantinos Koutroumbas , Pattern Recognition 4th ed ,Elsevier(USA)), 2009 R.O Duda, P.E Hart, and D.G Stork, Pattern Classification, New York: John Wiley, 2001 Phân loại theo khoảng cách Giới thiệu Trong kỹ thuật này, đối tượng nhận dạng đối tượng định lượng Mỗi đối tượng biểu diễn véctơ nhiều chiều Các hàm phân biệt thường xây dựng dựa khái niệm khoảng cách hay dựa vào xác suất có điều kiện Khoảng cách công cụ tốt để xác định xem đối tượng có "gần nhau" hay khơng Nếu khoảng cách nhỏ ngưỡng ta coi đối tượng giống gộp chúng vào lớp Ngược lại , khoảng cách lớn ngưỡng , có nghĩa chúng khác ta tách thành lớp ĐH Công nghiệp Hà Nội Một số thuật toán nhận dạng theo khoảng cách Thực tế có nhiều thuật tốn nhận dạng theo khoảng cách Ở đây, xem xét thuật toán hay sử dụng: ĐH Công nghiệp Hà Nội Phân loại theo khoảng cách cực tiểu Thuật toán nhận dạng dựa vào khoảng cách lớn Thuật tốn K- trung bình (K mean) Thuật tốn ISODATA Phân loại theo khoảng cách cực tiểu Cho đối tượng x lớp ωi, i=1 m Việc phân loại x vào lớp ωi tương ứng với việc tìm hàm d(x,ωi) cho d(x,ωi)≤d(x,ωj), với j≠i Có nhiều cách tính khoảng cách từ x đến ωi: ĐH Công nghiệp Hà Nội Tính khoảng cách đến tâm lớp Phương pháp “hàng xóm gần nhất” (K-NN) Tính khoảng cách đến đối tượng mẫu Phân lớp dự đoán thuật toán K-Nearest Neighbors (K-NN) Xét trường hợp phân lớp: biến phụ thuộc Y biến phân loại (categorical variable) Trường hợp dự đốn: biến phụ thuộc Y có giá trị định lượng (Quantitative value) Trước tiên để hiểu vấn đề ta xét tới trường hợp dùng K-NN để dự đoán ĐH Cơng nghiệp Hà Nội Trường hợp dự đốn: ĐH Cơng nghiệp Hà Nội Dưới trình bày bước cách sử dụng KNN việc dự đoán với biến phụ thuộc định lượng 1. Xác định tham số K (số láng giềng gần nhất) 2. Tính khoảng cách (Distance) Query point tất training samples 3. Sắp xếp khoảng cách và xác định K láng giềng gần với Query point 4. Lấy giá trị biến phụ thuộc Y tương ứng K láng giềng gần 5. Sử dụng giá trị trung bình (average) biến phụ thuộc Y K láng giềng gần giá trị dự đoán Query point Example (KNN for prediction) Có 5 training samples (X,Y) sau Vấn đề sử dụng KNN để dự đoán giá trị biến phụ thuộc Y query point X=6.5 Xác định số láng giềng gần K (Giả sử K=2) Tính khoảng cách Query Point với tất training samples Trong ví dụ này, liệu query point chiều (X) nên khoảng cách tính đơn giản lấy trị tuyệt đối hiệu X giá trị X training samples Chẳn hạn, với X=5.1, khoảng cách tính | 6.5 – 5.1 | = 1.4, với X = 1.2 khoảng cách | 6.5 – 1.2 | = 5.3 ,vv Săp xếp khoảng cách để xác định K láng giềng gần nhất (trong ví dụ K=2) Lấy giá trị biến phụ thuộc Y K (=2) láng giềng gần ĐH Công nghiệp Hà Nội Y=27 Y=8 Giá trị dự đoán trung bình giá trị Y K (=2) láng giềng gần Trong ví dụ này, giá trị dự đoán là (27+8)/2 = 17.5 Giới thiệu thuật toán K-Nearest Neighbors phân lớp K-NN phương pháp để phân lớp đối tượng dựa vào khoảng cách gần đối tượng cần xếp lớp (Query point) Một đối tượng phân lớp dựa vào K láng giềng K là số nguyên dương xác định trước thực thuật toán Người ta thường dùng khoảng cách Euclidean để tính khoảng cách đối tượng Thuật tốn K-NN mơ tả sau: 1. Xác định giá trị tham số K (số láng giềng gần nhất) 2. Tính khoảng cách đối tượng cần phân lớp (Query Point) với tất đối tượng training data (thường sử dụng khoảng Euclidean) 3. Sắp xếp khoảng cách theo thứ tự tăng dần xác định K láng giềng gần với Query Point 4. Lấy tất lớp K láng giềng gần xác định 5. Dựa vào phần lớn lớp láng giềng gần để xác định lớp cho Query Point ĐH Công nghiệp Hà Nội II.3 VÍ Dụ MINH HọA Thuộc tính (X) Thuộc tính (Y) A 1 B C D K-Mean ứng dung ĐH Công nghiệp Hà Nội Đối tượng 25 II.3 VÍ Dụ MINH HọA K-Mean ứng dung 1: Khởi tạo Chọn trọng tâm ban đầu: c1(1,1) ≡ A c2(2,1) ≡ B, thuộc cụm ĐH Công nghiệp Hà Nội Bước 26 II.3 VÍ Dụ MINH HọA Bước =8 d(C, c1) > d(C, c2) ĐH Công nghiệp Hà Nội C thuộc cụm K-Mean ứng dung 2: Tính toán khoảng cách d(C, c1) = (4 1) (3 1) = 13 d(C, c2) = (4 2) (3 1) d(D, c1) = (5 1)2 (4 1) = 25 d(D, c2) = (5 2) (4 1) = 18 d(D,c1) > d(D, c2) 27 D thuộc cụm II.3 VÍ Dụ MINH HọA Bước 3: Cập nhật lại vị trí trọng tâm Trọng tâm cụm c1 ≡ A (1, 1) Trọng tâm cụm c2 K-Mean ứng dung ĐH Công nghiệp Hà Nội 1 , ) (x,y) = ( 3 28 II.3 VÍ Dụ MINH HọA Bước 4-1: Lặp lại bước – Tính tốn khoảng cách d(A, c1 ) = < d(A, c2 ) = 9.89 ĐH Công nghiệp Hà Nội B thuộc cụm d(C, c1 ) = 13 > d(C, c2 ) = 0.22 K-Mean ứng dung A thuộc cụm d(B, c1 ) = < d(B, c2 ) = 5.56 C thuộc cụm d(D, c1 ) = 25 > d(D, c2 ) = 3.56 D thuộc cụm 29 II.3 VÍ Dụ MINH HọA Bước 4-2: Lặp lại bước 3-Cập nhật trọng tâm c1 = (3/2, 1) c2 = (9/2, 7/2) ĐH Công nghiệp Hà Nội K-Mean ứng dung 30 II.3 VÍ Dụ MINH HọA Bước A thuộc cụm d(B, c1 ) = 0.25 < d(B, c2 ) = 12.5 ĐH Công nghiệp Hà Nội B thuộc cụm d(C, c1 ) = 10.25 < d(C, c2 ) = 0.5 K-Mean ứng dung 4-3: Lặp lại bước d(A, c1 ) = 0.25 < d(A, c2 ) = 18.5 C thuộc cụm d(D, c1 ) = 21.25 > d(D, c2 ) = 0.5 D thuộc cụm 31 II.3 VÍ Dụ MINH HọA ĐH Cơng nghiệp Hà Nội K-Mean ứng dung 32 Bài tập ĐH Cơng nghiệp Hà Nội Có mẩu khống sản dự đốn có vàng, bạc đồng, ta chia làm điểm tọa độ để xét phân vùng kim loại: Point A B C D E X Y 2 II.4 ĐÁNH GIÁ THUậT TOÁN – ƯU ĐIểM ĐH Công nghiệp Hà Nội K-Mean ứng dung Độ phức tạp: O( ) với l: số lần lặp K N l Có khả mở rộng, dễ dàng sửa đổi với liệu Bảo đảm hội tụ sau số bước lặp hữu hạn Ln có K cụm liệu Ln có điểm liệu cụm liệu Các cụm không phân cấp không bị chồng chéo liệu lên Mọi thành viên cụm gần với cụm cụm khác 34 II.4 ĐÁNH GIÁ THUẬT TỐN – NHƯỢC ĐIỂM ĐH Cơng nghiệp Hà Nội K-Mean ứng dung Khơng có khả tìm cụm khơng lồi cụm có hình dạng phức tạp Khó khăn việc xác định trọng tâm cụm ban đầu - Chọn ngẫu nhiên trung tâm cụm lúc khởi tạo - Độ hội tụ thuật toán phụ thuộc vào việc khởi tạo vector trung tâm cụm Khó để chọn số lượng cụm tối ưu từ đầu, mà phải qua nhiều lần thử để tìm số lượng cụm tối ưu Rất nhạy cảm với nhiễu phần tử ngoại lai liệu 35 Không phải lúc đối tượng thuộc cụm, phù hợp với đường biên cụm rõ Thuật toán K trung bình (K-mean) Giả thiết có K lớp a) Ngun tắc Khác với thuật toán trên, ta xét K phần tử khơng gian đối tượng, hay nói cách khác ta cố định K lớp Hàm để đánh giá hàm khoảng cách Euclide: k Jk = (1) X gk D ( X , Zk ) D ( Xj , Zk ) Jk hàm tiêu với lớp Ck Việc phân j 1vùng cho k hạt nhân tiến hành theo nguyên tắc khoảng cách cực tiểu Ở đây, ta dùng phương pháp đạo hàm để tính cực tiểu Xét với Zk biến Ta dễ dàng có (1) khi: ĐH Công nghiệp Hà Nội J 0 Z k Nc Đây giá trịN trung bình lớp Ck điều lý giải tên phương pháp k ( X Z ) 0 ==> Zk i i 1 k = Z N j1 j ( 2) ĐH Công nghiệp Hà Nội Thuật tốn K trung bình (K-mean) b)Thuật tốn Chọn Nc phần tử (giả thiết có Nc lớp) tập T Gọi phần tử trung tâm lớp là: X1, X2, , XNc ký hiệu Z1, Z2, , ZNc Thực phân lớp X є Ck D(X,Zk) = Min D(X,Zj) (1), j =1, , N Với j=1 lần lặp thứ c Tính tất Zk theo cơng thức (2) Tiếp tục bước q: X є Gk(q-1) D(X,Zk(q-1)) = minlD(X,Zl(q-1)) Nếu Zk(q-1) = Zk(q) thuật tốn kết thúc Nếu khơng ta tiếp tục thực phân lớp Thuật toán ISODATA ĐH Công nghiệp Hà Nội ISODATA viết tắt từ Iteractive Self Organizing Data Analysis Nó thuật tốn mềm dẻo, khơng cần cố định lớp trước Các bước thuật tốn mơ tả sau: Lựa chọn phân hoạch ban đầu dựa tâm Thực nghiệm chứng minh kết nhận dạng không phụ thuộc vào phân lớp ban đầu Phân vùng cách điểm vào tâm gần dựa vàp khoảng cách Euclide Tách đôi lớp ban đầu khoảng cách lớn ngưỡng t Xác định phân hoạch sở tâm vừa xác định lại tiếp tục xác định tâm Tính tất khoảng cách đến tâm Nhóm vùng với tâm theo ngưỡng t2 Lặp thao tác tác thoả tiêu chuẩn phân hoạch Xin chân thành cảm ơn! ... khơng, tạo nên nhóm thứ ba Gọi Xk phần tử trung tâm g3, kí hiệu Z3 Tính d3 = (D12 + D 13 + D 23) /3 với ngưỡng cho trước D 13 = D(Z1,Z3), D 23 = D(Z2,Z3) Quá trình lặp lại phân xong Kết ta thu lớp với... 26 II .3 VÍ Dụ MINH HọA Bước =8 d(C, c1) > d(C, c2) ĐH Công nghiệp Hà Nội C thuộc cụm K-Mean ứng dung 2: Tính tốn khoảng cách d(C, c1) = (4 1) (3 1) = 13 d(C, c2) = (4 2) (3 1)... thuộc cụm II .3 VÍ Dụ MINH HọA Bước 3: Cập nhật lại vị trí trọng tâm Trọng tâm cụm c1 ≡ A (1, 1) Trọng tâm cụm c2 K-Mean ứng dung ĐH Công nghiệp Hà Nội 1 , ) (x,y) = ( 3 28 II .3 VÍ Dụ