CHUONG04 1 khai phá dữ liệu đại học bách khoa đà nẵng

KHAI PHÁ DỮ LIỆU Chương 4: PHÂN LỚP NAÏVE BAYES & LÁNG GIÊNG GẦN NHẤT Naïve Bayes & Nearest Neighbour Classification Chương 4: PH.LỚP NAÏVE BAYES & LÁNG GIỀNG GẦN NHẤT  PHÂN LỚP NAÏVE BAYES Kỹ thuật phân lớp dựa vào lý thuyết xác suất: lý thuyết Bayes (Thomas Bayes) LÝ THUYẾT BAYES Page  Chương 4: PH.LỚP NAÏVE BAYES & LÁNG GIỀNG GẦN NHẤT  LÝ THUYẾT BAYES Page  Chương 4: PH.LỚP NAÏVE BAYES & LÁNG GIỀNG GẦN NHẤT  LÝ THUYẾT BAYES Page  Chương 4: PH.LỚP NAÏVE BAYES & LÁNG GIỀNG GẦN NHẤT  ỨNG DỤNG PHÂN LỚP NAÏVE BAYES Page  Chương 4: PH.LỚP NAÏVE BAYES & LÁNG GIỀNG GẦN NHẤT  Ví dụ Xét tập mẫu: Xác suất tiền định P(C1)=3/5, P(C2)=2/5 Xác xuất có điều kiện P(A1=1|C1)= 1/3, P(A1=1|C2)= 1/2, P(A2=1|C1)= 1/3, P(A2=1|C2)= 1/2 Với X = (A1=1, A2=1), ta có: P(X|C1) = P(A1=1|C1)x P(A2=1|C1) = (1/3)x(1/3)= 1/9 P(X|C2) = P(A1=1|C2)x P(A2=1|C2) = (1/2)x(1/2)= 1/4 ⇒ P(C1|X)=P(C1)xP(X|C1)= (3/5)x(1/9)= 1/15 P(C2|X)=P(C2)xP(X|C2)= (2/5)x(1/4)= 1/10 ⇒ Page  X = (A1=1, A2=1) thuộc lớp C2 PHÂN LỚP DỮ LiỆU BẰNG THUẬT TOÁN K-NN  ĐỘ ĐO KHOẢNG CÁCH Hàm khoảng cách d hay gọi metric d : X × X → R+ thỏa : d(x, y) ≥ 0, với x,y thuộc R; (tính chất không âm) d(x, y) = x = y; d(x, y) = d(y, x), với x,y thuộc R; (tính đối xứng) d(x, z) ≤ d(x, y) + d(y, z), với x,y,z thuộc R (bất đẳng thức tam giác) Page  ĐỘ ĐO KHOẢNG CÁCH THÔNG DỤNG CHO KIỂU NGUYÊN, KHOẢNG Page  ĐO LƯỜNG SỰ TƯƠNG TỰ GiỮA CÁC ĐỐI TƯỢNG  Đo lường tương tự (similarity) đối tượng quan trọng sở để triển khai kỹ thuật: – Nhận dạng (recognize) – Phân lớp (Classification) – Phân cụm (Clustering) – Dự đoán (Prediction),… Page  Thế độ tương tự  Giả sử có đối tượng  Similarity phản ánh cách định lượng (quantity) độ mạnh (strength) mối quan hệ đối tượng (objects) thuộc tính (features).Giá trị thường nằm khoảng [-1 , 1] chuẩn hóa (normalized) khoảng [0, 1]  Similarity đối tượng (hay thuộc tính) i j ký hiệu Sij tính theo nhiều cách khác tùy theo kiểu liệu chúng Page  10 Tại cần phải đo lường tương tự – Phân biệt đối tượng đối tượng khác – Nhóm đối tượng thành nhóm dựa similarity dissimilarity (như kỹ thuật phân cụm k-means clustering chẳn hạn) – Khi ta nhóm đối tượng vào nhóm dựa vào similarity, hiểu đặc tính nhóm – Giải thích hành vi nhóm – Có thể phân nhóm cho đối tượng – Dự đoán hành vi nhóm – Khai phá tri thức ẩn chứa liệu lớn Page  12 Làm để đo lường similarity (dissimilarity)? Dưới trình bày cách xác định similarity biến  Khoảng cách biến nhị phân (Distance for binary variables)  Khoảng cách biến định danh (Distance for nominal variables)  Khoảng cách biến thứ tự (Distance for ordinal variables)  Khoảng cách biến định lượng ( Distance for quantitative variables)  Sự khác biệt nhóm (Dissimilarity between two groups)  Chuẩn hóa similarity dissimilarity ( Normalization of similarity or dissimilarity)  Kết hợp biến (Aggregation of mixed type of variables) Page  13 Khoảng cách biến nhị phân (Binary Variables)  Kiểu nhị phân: p= Số biến có giá trị positive đối tượng q= Số biến có giá trị positive đối tượng thứ i negative đối tượng thứ j r=Số biến có giá trị negative đối tượng thứ i positive đối tượng thứ j s= Tổng số biến có giá trị negative (0) đối tượng t= p+q+r+s tổng số biến Page  14 Một số khoảng cách thơng dụng: Page  15 Ví dụ: Tọa độ Apple (1,1,1,1) tọa độ Banana (0,1,0,0) Khi ta có: p=1 (biến Sweet), q=3, r =0,s=0 t= p+q+r+s=4 Page  16 Page  17 Hamming Distance với biến thứ tự (Ordinal variable)  Thuật tốn để tính Hamming distance cho ordinal variable bao gồm thao tác gọi “Putting back” thành phần không giống (unmatched digit) vector disorder-vector pattern-vector sau: – Step 1: Giữ lại thành phần giống xóa thành phần khác vector disorder-vector pattern-vector – Step 2: Đặt lại (Putting back) thành phần (từng thành phần 1) vector disorder –vector vào vị trí Hamming distance số lần “Putting back” Page  18 Ví dụ 1:  Giả sử có người (A B) đánh giá quan trọng sản phẩm đánh giá họ cho Vector sau: A=[1, 2, 3, 4, 5, 6] B = [2, 5, 3, 1, 4, 6]  Hamming distance A B khác đánh giá A B sản phẩm  Đặt vector A pattern-vector vector B disorder-vector Mục đích ta đếm số lần “Putting back” thành phần để làm cho disordervector giống pattern-vector Page  19 Ví dụ 2:  Giả sử ta hỏi người Alex, Brian Cherry để biết ưa thích họ lựa chọn phương tiện đến trường Bus, Train Van Và kết sau:  Khoảng cách ưa thích lựa chọn phương tiện đến trường Alex Cherry (sở thích hồn tồn giống nhau) Do Hamming distance Alex Cherry =0  Ta tính Hamming distance Alex Brian – Đặt A = [Bus, Van, Train] pattern-vector B=[Van, Bus, Train] disorder-vector – Ta thấy có unmatched digit nên số lần cần “Putting back” để disorder-vector thành pattern-vector ta có Hamming distance Alex Brian Page  20 Tính khoảng cách cho biến định danh (Nominal/Categorical)  Trong nhiều trường hợp, đo lường biến theo cách định lượng mà chúng đo lường theo cách phân loại hay định danh Đặc trưng biến định danh gán nhãn (labeling) không quan tâm đến thứ tự  Để tính khoảng cách đối tượng biểu diễn biến định danh (hay phân loại): cần quan tâm đến số giá trị phân loại biến – Nếu có giá trị phân loại, ta dùng cách tính khoảng cách cho biến nhị phân (binary) để tính simple matching, Jaccard's or Hamming distance – Nếu số giá trị phân loại nhiều 2, cần chuyển đổi giá trị phân loại sang tập biến giả (dummy variable) có giá trị nhị phân Page  21 Phương pháp chuyển giá trị biến phân loại thành biến giả nhị phân  Trong phương pháp này, gán giá biến phân loại (category) thành biến giả nhị phân Mỗi đối tượng biểu diễn biến Gender (giới tính) Mode (cách thức chọn phương tiện lại) Biến Gender biến nhị phân có giá trị = male = female, biến Mode gồm có giá trị Bus, Train Van Ta chuyển giá trị biến Mode sang biến giả nhị phân (xem hình) Page  22 Khoảng cách giũa đối tượng tỷ số số phần tử khác tổng số biến giả Page  23 Chương 4: PH.LỚP NAÏVE BAYES & LÁNG GIỀNG GẦN NHẤT  PHÂN LỚP LÁNG GIỀNG GẦN NHẤT  Ý tưởng thuật toán phân lớp định gán nhãn lớp cho phần tử (chưa biết lớp) ứng với lớp phần đông số phần tử lân cận gần Nếu chọn số phần tử lân cận gần số nguyên dương k, kỹ thuật phân lớp láng giềng gần trường hợp gọi thuật toán phân lớp k- láng giềng gần (k-NN)  Thuật toán phân lớp K-láng giềng gần  Đầu vào: Tập mẫu huấn luyện, Chỉ số k Phần tử mới: X  Đầu ra: Nhãn lớp X  Phương pháp: Chọn k phần tử tập mẫu huấn luyện gần phần tử X Xác định nhãn số đông k phần tử này: L Gán nhãn L nhãn lớp phần tử Page  24 ? Chương 4: PH.LỚP NAÏVE BAYES & LÁNG GIỀNG GẦN NHẤT X1 X2 Y ? 5_Láng giềng gần X1 X2 Page  25 Y + Chương 4: PH.LỚP NAÏVE BAYES & LÁNG GIỀNG GẦN NHẤT  TÀI LIỆU THAM KHẢO THÊM – Data Mining Concepts & Technique (3rd) J.Han, M.Kamber, J.Pei – Principles of Data Mining Max Bramer – Slide Lecture Notes for Chapter 5: www.cse.msu.edu/~ptan/ – www.cs.bu.edu/fac/gkollios/ada05/ /lect25-05.pdf BÀI TẬP Page  26 ... P(C1)=3/5, P(C2)=2/5 Xác xuất có điều kiện P(A1 =1| C1)= 1/ 3, P(A1 =1| C2)= 1/ 2, P(A2 =1| C1)= 1/ 3, P(A2 =1| C2)= 1/ 2 Với X = (A1 =1, A2 =1) , ta có: P(X|C1) = P(A1 =1| C1)x P(A2 =1| C1) = (1/ 3)x (1/ 3)= 1/ 9... P(X|C2) = P(A1 =1| C2)x P(A2 =1| C2) = (1/ 2)x (1/ 2)= 1/ 4 ⇒ P(C1|X)=P(C1)xP(X|C1)= (3/5)x (1/ 9)= 1/ 15 P(C2|X)=P(C2)xP(X|C2)= (2/5)x (1/ 4)= 1/ 10 ⇒ Page  X = (A1 =1, A2 =1) thuộc lớp C2 PHÂN LỚP DỮ LiỆU BẰNG... biến Page  14 Một số khoảng cách thông dụng: Page  15 Ví dụ: Tọa độ Apple (1, 1 ,1, 1) tọa độ Banana (0 ,1, 0,0) Khi ta có: p =1 (biến Sweet), q=3, r =0,s=0 t= p+q+r+s=4 Page  16 Page  17 Hamming

Định dạng
Số trang	26
Dung lượng	0,95 MB