Khai Phá Dữ Liệu , Data Mining Concepts and Techniques , Data Matrix and Dissimilarity Matrix , Ma trận dữ liệu và ma trận khác biệt, Proximity Measure for Nominal Attributes , Đo lường mức độ lân cận cho các thuộc tính danh nghĩa , Proximity Measure for Binary Attributes , Đo lường mức độ lân cận cho các thuộc tính nhị phân , Chuẩn hóa dữ liệu số, khoảng cách Minkwoski,Ví dụ về Cosine tương tự
Đo lường giống không giống liệu NHÓM 17-20 Similarity and Dissimilarity Sự giống khác Giống ▪ Thước đo số mức độ giống hai đối tượng liệu ▪ Giá trị cao đối tượng giống ▪ Thường rơi vào khoảng [0,1] Khác (ví dụ: khoảng cách) ▪ Thước đo số mức độ khác hai đối tượng liệu ▪ Thấp đối tượng giống ▪ Sự khác biệt tối thiểu thường ▪ Giới hạn thay đổi Data Matrix and Dissimilarity Matrix Ma trận liệu ma trận khác biệt MA TRẬN DỮ LIỆU • n hàng, p cột • Hai chiều MA TRẬN KHÁC BIỆT • n hàng • Ma trận tam giác • Một chiều Proximity Measure for Nominal Attributes Đo lường mức độ lân cận cho thuộc tính danh nghĩa • Có thể có nhiều trạng thái, ví dụ: đỏ, vàng, lam,lục (tổng qt hóa thuộc tính nhị phân) • Phương pháp 1: Đối sánh đơn giản với m: số thuộc tính mà i j có trạng thái, p: tổng số thuộc tính mơ tả đối tượng => d(i,j) = (p-m)/p • Phương pháp 2: Sử dụng số lượng lớn thuộc tính nhị phân Tạo thuộc tính nhị phân mời cho trạng thái danh nghĩa M Proximity Measure for Nominal Attributes : bảng liệu mẫu chứa thuộc tính loại hỗ hợp Đo lường mức độ lân cận cho thuộc tính danh nghĩa Vì có thuộc tính danh nghĩa, test-1, đặt p=1, d(i, j)=0 đối tượng i j có trạng thái d(i, j)=1 đối tượng khác Từ đó, thấy tất đối tượng không giống nhau, ngoại trừ đối tượng d(2,1)=(1-0)/1=1 d(3,1)=(1-0)/1=1 d(3,2)=(1-0)/1=1 d(4,1)=(1-1)/1=0 d(4,2)=(1-0)/1=1 d(4,3)=(1-0)/1=1 Proximity Measure for Nominal Attributes Đo lường mức độ lân cận cho thuộc tính danh nghĩa Ngồi ra, tương tự tính : sim(i,j) = – d(i,j) = m/p sim(2,1)=1-d(2,1)=1-1=0 sim(3,1)=1-d(3,1)=1-1=0 sim(3,2)=1-d(3,2)=1-1=0 sim(4,1)=1-d(4,1)=1-0=1 sim(4,2)=1-d(4,2)=1-1=0 sim(4,3)=1-d(4,3)=1-1=0 Các ma trận từ tốn ví dụ đưa đây: Proximity Measure for Binary Attributes Đo lường mức độ lân cận cho thuộc tính nhị phân • Bảng dự phịng cho liệu nhị phân • Thước đo khoảng cách cho đối xứng biến nhị phân • Đo khoảng cách cho không đối xứng biến nhị phân Proximity Measure for Binary Attributes Đo lường mức độ lân cận cho thuộc tính nhị phân • Hệ số Jaccard • Lưu ý: Hệ số Jaccard giống “coherence” Bảng quan hệ nơi bệnh nhân mơ tả thuộc tính nhị phân Ví dụ: • Giới tính thuộc tính đối xứng • Các thuộc tính cịn lại nhị phân khơng đối xứng • Gọi giá trị Y P N Bảng quan hệ nơi bệnh nhân mơ tả thuộc tính nhị phân Gọi giá trị Y P N Chuẩn hóa liệu số Điểm Z: * X: điểm thô tiêu chuẩn hóa, : trung bình dân số, : độ lệch chuẩn * Khoảng cách điểm thơ trung bình dân số tính đơn vị độ lệch chuẩn • Là giá trị âm điểm thô nhỏ giá trị trung binh, ngược lại Một cách khác: Tính độ lệch tuyệt đối trung bình với * Thước đo tiêu chuẩn hóa (điểm Z) Sử dụng độ lệch tuyệt đối trung bình lớn so với sử dụng độ lệch chuẩn Ví dụ Ma trận liệu Ma trận khác biệt Khoảng cách liệu số: Khoảng cách Minkowski Khoảng cách Minkowski: Thước đo khoảng cách phổ biến Trong đó: i = (X[i1], X[i2],…,X[ip]) j = (X[j1], X[j2],…,X[jp]) hai đối tượng liệu p chiều h thứ tự (khoảng cách xác định gọi chuẩn L- h) Thuộc tính: • d(i,j) > i khác j d(i,j)=0 (Độ xác định dương) • d(i,j) = d(j,i) (Đối xứng) • d(i,j) vơ cùng: Khoảng cách “supremum”(Lmax, Lvocung) Đây khác biệt lớn thành phần (thuộc tính) vector: Ví dụ Khoảng cách Minkowski Sự khơng giống thuộc tính thứ tự • • • - Một biến thứ tự rời rạc liên tục Thứ tự quan trọn, ví dụ: thứ tự hạng, Có thể coi chia theo khoảng thời gian Thay X[if] thứ hạng của: - Ánh xạ phạm vị biến vào [0,1] cách thay đối tượng thử i biến thứ f bằng: - Trong r thứ hạng đối tượng cụ thể M số tối đa gán cho trạng thái Sự không giống thuộc tính thứ tự Giả sử có liệu mẫu hiển thị trước Bảng 2.2, lần có thuộc tính thứ tự, test-2 Ở test-2 có trạng thái fair, good excellent nên ta có M = 3, trạng thái có thứ hạng 1, 2, Ta có : Fair = (1-1)/(3-1) = Good = (2-1)/(3-1) = 0.5 Excellẹnt = (3-1)/(3-1) = Sự khác biệt cho thuộc tính loại hỗn hợp • Giả sử tập liệu chứa p thuộc tính kiểu hỗn hợp Sự khác biệt d(i,j) đối tượng i j định nghĩa • Nếu f số : • Nếu f danh nghĩa nhị phân : • Nếu f thứ tự: tính bậc rif h chạy tất đối tượng khơng chạy cho thuộc tính f ;nếu khơng thì, dij(f) = coi zif số Sự khác biệt cho thuộc tính loại hỗn hợp Xét bảng 2.2, ta thấy test số nên áp dụng cơng thức (1) Ta có maxhxhf = 64 minhxhf = 22 Từ tính khoảng cách: d(2,1)=45-22/64-22=0.55 d(3,1)=64-45/64-22=0.45 d(3,2)=64-22/64-22=1 d(4,1)=45-28/64-22=0.4 d(4,2)=28-22/64-22=0.14 d(4,3)=64-28/64-22=0.86s Sự không giống thuộc tính loại hỗn hợp Dựa vào ma trận khác biệt thuộc tính riêng biệt bảng 2.2 Ta tính ma trận thuộc tính hỗn hợp d(2,1) = 1+1+0.55 / = 0.85 d(3,1) = 1+0.5+0.45 / = 0.65 d(3,2) = 1+0.5+1 / = 0.83 d(4,1) = 0+0+0.4 / = 0.13 d(4,2) = 1+1+0.14 / = 0.71 d(4,3) = 1+0.5+0.86 / = 0.79