Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
0,95 MB
Nội dung
KHAI PHÁ DỮ LIỆU Chương 4: PHÂN LỚP NAÏVE BAYES & LÁNG GIÊNG GẦN NHẤT Naïve Bayes & Nearest Neighbour Classification Chương 4: PH.LỚP NAÏVE BAYES & LÁNG GIỀNG GẦN NHẤT PHÂN LỚP NAÏVE BAYES Kỹ thuật phân lớp dựa vào lý thuyết xác suất: lý thuyết Bayes (Thomas Bayes) LÝ THUYẾT BAYES Page Chương 4: PH.LỚP NAÏVE BAYES & LÁNG GIỀNG GẦN NHẤT LÝ THUYẾT BAYES Page Chương 4: PH.LỚP NAÏVE BAYES & LÁNG GIỀNG GẦN NHẤT LÝ THUYẾT BAYES Page Chương 4: PH.LỚP NAÏVE BAYES & LÁNG GIỀNG GẦN NHẤT ỨNG DỤNG PHÂN LỚP NAÏVE BAYES Page Chương 4: PH.LỚP NAÏVE BAYES & LÁNG GIỀNG GẦN NHẤT Ví dụ Xét tập mẫu: Xác suất tiền định P(C1)=3/5, P(C2)=2/5 Xác xuất có điều kiện P(A1=1|C1)= 1/3, P(A1=1|C2)= 1/2, P(A2=1|C1)= 1/3, P(A2=1|C2)= 1/2 Với X = (A1=1, A2=1), ta có: P(X|C1) = P(A1=1|C1)x P(A2=1|C1) = (1/3)x(1/3)= 1/9 P(X|C2) = P(A1=1|C2)x P(A2=1|C2) = (1/2)x(1/2)= 1/4 ⇒ P(C1|X)=P(C1)xP(X|C1)= (3/5)x(1/9)= 1/15 P(C2|X)=P(C2)xP(X|C2)= (2/5)x(1/4)= 1/10 ⇒ Page X = (A1=1, A2=1) thuộc lớp C2 PHÂN LỚP DỮ LiỆU BẰNG THUẬT TOÁN K-NN ĐỘ ĐO KHOẢNG CÁCH Hàm khoảng cách d hay gọi metric d : X × X → R+ thỏa : d(x, y) ≥ 0, với x,y thuộc R; (tính chất không âm) d(x, y) = x = y; d(x, y) = d(y, x), với x,y thuộc R; (tính đối xứng) d(x, z) ≤ d(x, y) + d(y, z), với x,y,z thuộc R (bất đẳng thức tam giác) Page ĐỘ ĐO KHOẢNG CÁCH THÔNG DỤNG CHO KIỂU NGUYÊN, KHOẢNG Page ĐO LƯỜNG SỰ TƯƠNG TỰ GiỮA CÁC ĐỐI TƯỢNG Đo lường tương tự (similarity) đối tượng quan trọng sở để triển khai kỹ thuật: – Nhận dạng (recognize) – Phân lớp (Classification) – Phân cụm (Clustering) – Dự đoán (Prediction),… Page Thế độ tương tự Giả sử có đối tượng Similarity phản ánh cách định lượng (quantity) độ mạnh (strength) mối quan hệ đối tượng (objects) thuộc tính (features).Giá trị thường nằm khoảng [-1 , 1] chuẩn hóa (normalized) khoảng [0, 1] Similarity đối tượng (hay thuộc tính) i j ký hiệu Sij tính theo nhiều cách khác tùy theo kiểu liệu chúng Page 10 Tại cần phải đo lường tương tự – Phân biệt đối tượng đối tượng khác – Nhóm đối tượng thành nhóm dựa similarity dissimilarity (như kỹ thuật phân cụm k-means clustering chẳn hạn) – Khi ta nhóm đối tượng vào nhóm dựa vào similarity, hiểu đặc tính nhóm – Giải thích hành vi nhóm – Có thể phân nhóm cho đối tượng – Dự đoán hành vi nhóm – Khai phá tri thức ẩn chứa liệu lớn Page 12 Làm để đo lường similarity (dissimilarity)? Dưới trình bày cách xác định similarity biến Khoảng cách biến nhị phân (Distance for binary variables) Khoảng cách biến định danh (Distance for nominal variables) Khoảng cách biến thứ tự (Distance for ordinal variables) Khoảng cách biến định lượng ( Distance for quantitative variables) Sự khác biệt nhóm (Dissimilarity between two groups) Chuẩn hóa similarity dissimilarity ( Normalization of similarity or dissimilarity) Kết hợp biến (Aggregation of mixed type of variables) Page 13 Khoảng cách biến nhị phân (Binary Variables) Kiểu nhị phân: p= Số biến có giá trị positive đối tượng q= Số biến có giá trị positive đối tượng thứ i negative đối tượng thứ j r=Số biến có giá trị negative đối tượng thứ i positive đối tượng thứ j s= Tổng số biến có giá trị negative (0) đối tượng t= p+q+r+s tổng số biến Page 14 Một số khoảng cách thơng dụng: Page 15 Ví dụ: Tọa độ Apple (1,1,1,1) tọa độ Banana (0,1,0,0) Khi ta có: p=1 (biến Sweet), q=3, r =0,s=0 t= p+q+r+s=4 Page 16 Page 17 Hamming Distance với biến thứ tự (Ordinal variable) Thuật tốn để tính Hamming distance cho ordinal variable bao gồm thao tác gọi “Putting back” thành phần không giống (unmatched digit) vector disorder-vector pattern-vector sau: – Step 1: Giữ lại thành phần giống xóa thành phần khác vector disorder-vector pattern-vector – Step 2: Đặt lại (Putting back) thành phần (từng thành phần 1) vector disorder –vector vào vị trí Hamming distance số lần “Putting back” Page 18 Ví dụ 1: Giả sử có người (A B) đánh giá quan trọng sản phẩm đánh giá họ cho Vector sau: A=[1, 2, 3, 4, 5, 6] B = [2, 5, 3, 1, 4, 6] Hamming distance A B khác đánh giá A B sản phẩm Đặt vector A pattern-vector vector B disorder-vector Mục đích ta đếm số lần “Putting back” thành phần để làm cho disordervector giống pattern-vector Page 19 Ví dụ 2: Giả sử ta hỏi người Alex, Brian Cherry để biết ưa thích họ lựa chọn phương tiện đến trường Bus, Train Van Và kết sau: Khoảng cách ưa thích lựa chọn phương tiện đến trường Alex Cherry (sở thích hồn tồn giống nhau) Do Hamming distance Alex Cherry =0 Ta tính Hamming distance Alex Brian – Đặt A = [Bus, Van, Train] pattern-vector B=[Van, Bus, Train] disorder-vector – Ta thấy có unmatched digit nên số lần cần “Putting back” để disorder-vector thành pattern-vector ta có Hamming distance Alex Brian Page 20 Tính khoảng cách cho biến định danh (Nominal/Categorical) Trong nhiều trường hợp, đo lường biến theo cách định lượng mà chúng đo lường theo cách phân loại hay định danh Đặc trưng biến định danh gán nhãn (labeling) không quan tâm đến thứ tự Để tính khoảng cách đối tượng biểu diễn biến định danh (hay phân loại): cần quan tâm đến số giá trị phân loại biến – Nếu có giá trị phân loại, ta dùng cách tính khoảng cách cho biến nhị phân (binary) để tính simple matching, Jaccard's or Hamming distance – Nếu số giá trị phân loại nhiều 2, cần chuyển đổi giá trị phân loại sang tập biến giả (dummy variable) có giá trị nhị phân Page 21 Phương pháp chuyển giá trị biến phân loại thành biến giả nhị phân Trong phương pháp này, gán giá biến phân loại (category) thành biến giả nhị phân Mỗi đối tượng biểu diễn biến Gender (giới tính) Mode (cách thức chọn phương tiện lại) Biến Gender biến nhị phân có giá trị = male = female, biến Mode gồm có giá trị Bus, Train Van Ta chuyển giá trị biến Mode sang biến giả nhị phân (xem hình) Page 22 Khoảng cách giũa đối tượng tỷ số số phần tử khác tổng số biến giả Page 23 Chương 4: PH.LỚP NAÏVE BAYES & LÁNG GIỀNG GẦN NHẤT PHÂN LỚP LÁNG GIỀNG GẦN NHẤT Ý tưởng thuật toán phân lớp định gán nhãn lớp cho phần tử (chưa biết lớp) ứng với lớp phần đông số phần tử lân cận gần Nếu chọn số phần tử lân cận gần số nguyên dương k, kỹ thuật phân lớp láng giềng gần trường hợp gọi thuật toán phân lớp k- láng giềng gần (k-NN) Thuật toán phân lớp K-láng giềng gần Đầu vào: Tập mẫu huấn luyện, Chỉ số k Phần tử mới: X Đầu ra: Nhãn lớp X Phương pháp: Chọn k phần tử tập mẫu huấn luyện gần phần tử X Xác định nhãn số đông k phần tử này: L Gán nhãn L nhãn lớp phần tử Page 24 ? Chương 4: PH.LỚP NAÏVE BAYES & LÁNG GIỀNG GẦN NHẤT X1 X2 Y ? 5_Láng giềng gần X1 X2 Page 25 Y + Chương 4: PH.LỚP NAÏVE BAYES & LÁNG GIỀNG GẦN NHẤT TÀI LIỆU THAM KHẢO THÊM – Data Mining Concepts & Technique (3rd) J.Han, M.Kamber, J.Pei – Principles of Data Mining Max Bramer – Slide Lecture Notes for Chapter 5: www.cse.msu.edu/~ptan/ – www.cs.bu.edu/fac/gkollios/ada05/ /lect25-05.pdf BÀI TẬP Page 26 ... P(C1)=3/5, P(C2)=2/5 Xác xuất có điều kiện P(A1 =1| C1)= 1/ 3, P(A1 =1| C2)= 1/ 2, P(A2 =1| C1)= 1/ 3, P(A2 =1| C2)= 1/ 2 Với X = (A1 =1, A2 =1) , ta có: P(X|C1) = P(A1 =1| C1)x P(A2 =1| C1) = (1/ 3)x (1/ 3)= 1/ 9... P(X|C2) = P(A1 =1| C2)x P(A2 =1| C2) = (1/ 2)x (1/ 2)= 1/ 4 ⇒ P(C1|X)=P(C1)xP(X|C1)= (3/5)x (1/ 9)= 1/ 15 P(C2|X)=P(C2)xP(X|C2)= (2/5)x (1/ 4)= 1/ 10 ⇒ Page X = (A1 =1, A2 =1) thuộc lớp C2 PHÂN LỚP DỮ LiỆU BẰNG... biến Page 14 Một số khoảng cách thông dụng: Page 15 Ví dụ: Tọa độ Apple (1, 1 ,1, 1) tọa độ Banana (0 ,1, 0,0) Khi ta có: p =1 (biến Sweet), q=3, r =0,s=0 t= p+q+r+s=4 Page 16 Page 17 Hamming