Các dạng bài tập knowledge discovery and data mining

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề	Các Dạng Bài Tập Knowledge Discovery and Data Mining
Trường học	Trường Đại Học Kinh Tế Quốc Dân

Định dạng
Số trang	34
Dung lượng	401,11 KB

Nội dung

Phát hiện tri thức và phân tích dữ liệu đang là một ngành khoa học không ngừng phát triển , các thuật toán áp dụng trong dạng này cũng rất là nhiều .Dưới đây là các dạng toán cơ bản nhất của môn học KDD

[Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG Phân Hoạch Câu 1: Cho price ={5, 10 ,11 ,13, 15, 35 ,50, 55 ,72, 92 ,204, 215}.Hãy phân hoạch price thành bin a Dùng kỹ thuật phân hoạch equal – frequency kỹ thuật làm trơn (smoothing) bin medians  equal – frequency : Chia price thành bin , bin có giá trị Bin 1: 5, 10, 11, 13 Bin 2:15, 35, 50, 55 Bin 3:72, 92, 204, 215  Smoothing by bin medians : bin có giá trị nên tiến hành tính trung bình giá trị giữa( giá trị 3) làm medians bin.ví dụ: medians(Bin 1) = = 10.5 Bin 1: 10.5, 10.5, 10.5, 10.5 Bin 2: 42.5, 42.5, 42.5, 42.5 Bin 3:148 ,148 ,148, 148  Smoothing by bin boundaries : tính giá trị trung bình tất giá trị bin, bé giá trị trung bình lấy giá trị nhỏ bin ngược lại lớn giá trị trung bình lấy giá trị lớn bin Ví dụ: = = 9.75 → Bin 1: 5,13,13,13 Bin 1: 5, 13, 13, 13 Bin 2: 15,15,55,55 Bin 3: 72, 72, 215, 215 b Dùng kỹ thuật phân hoạch equal – width kỹ thuật làm trơn (smoothing) bin medians  equal – width : lấy giá trị lớn price trừ giá trị nhỏ price chia (),từ suy khoảng ( 5→75) (75→145)(145→215) sau lựa chọn giá trị price – giá trị thuộc khoảng cho vào khoảng Bin 1: 5, 10, 11, 13 , 15, 35, 50, 55, 72 Bin 2: 92 Bin 3: 204, 215  Smoothing by bin medians: Bin có tổng số giá trị lẻ lấy giá trị trung tâm làm giá trị medians( Bin 1: có giá trị mà giá trị giữa(thứ 5) 15 nên medians Bin :(15), bin có tổng số giá trị chẵn tính trung bình giá trị chia TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN Trang |1 [Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG  Bin 1: 15, 15 ,15, 15 ,15, 15 ,15, 15 ,15 Bin 2: 92 Bin 3: 209.5, 209.5 Smoothing by bin boundaries: Bin 1: 5, 5, 5, 5, 5, 72, 72, 72, 72 Bin 2: 92 Bin 3: 204, 215 Câu 2: Cho price ={5, 10 ,11 ,13, 15, 35,45 ,50, 55 ,72, 92 ,204, 215}.Hãy phân hoạch price thành bin a Dùng kỹ thuật phân hoạch equal – frequency kỹ thuật làm trơn (smoothing) bin medians  equal – frequency : price có 13 giá trị mà chia thành bin bin có giá trị cịn thừa giá trị cho vào bin Bin 1:5,10,11,13 Bin 2:15,35,45 Bin 3:50,55,72 Bin 4:92,204,215  Smoothing by bin medians : Bin 1:10.5,10.5,10.5,10.5 Bin 2:35,35,35 Bin 3:55,55,55 Bin 4:204,204,204  Smoothing by bin boundaries : Bin 1:5,13,13,13 Bin 2:15,45,45 Bin 3:50,50,72 Bin 4:92,215,215 b Dùng kỹ thuật phân hoạch equal – width kỹ thuật làm trơn (smoothing) bin medians  equal – width : chia làm bin nên lấy giá trị ( = 52.5) , khoảng (5→57.5)(57.5→110)(110→162.5) (162.5→215) chia bin tương tự câu 1: Bin 1:5, 10 ,11 ,13, 15, 35,45 ,50, 55 Bin 2:72, 92 Bin 3: TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN Trang |2 [Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG x1 x2 x3 x4 x5 Bin 4:204, 215  Smoothing by bin medians : Bin 1:15,15,15,15,15,15,15,15,15 Bin 2:82,82 Bin 3: Bin 4:209.5  Smoothing by bin boundaries : Bin 1:5,5,5,5,5,55,55,55,55 Bin 2:72,92 Bin 3: Bin 4:204,215  Bài toán Bin trống nên kỹ thuật phân hoạch equal – width phù hợp liệu nhiều phân chia số lượng Bin định Ma Trận Câu 1: cho sở liệu gồm điểm sau đây: x 1.5 1.6 1.2 1.5 a y 1.7 1.9 1.8 1.5 1.0 Tính tốn ma trận khoảng cách cho điểm với khoảng cách Euclide Áp dụng công thức: d(xi,xj) = ta có bảng ma trận khoảng cách điểm sau: x1 x2 x3 x4 x5 b x1 0.5385 0.1414 0.3606 0.7 x2 0.5385 0.4123 0.8944 1.03 x3 0.1414 0.4123 0.5 0.8062 x4 0.3606 0.8944 0.5 0.583 x5 0.7 1.03 0.8062 0.583 Cho điểm liệu mới, x = (1.4,1.6) truy vấn, xếp hạng điểm sở liệu dựa tương đồng với truy vấn sử dụng khoảng cách Euclidean, khoảng cách Manhattan TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN Trang |3 [Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG Cách làm: tính khoảng cách từ điểm sở liệu tới điểm truy theo khoảng cách Euclidean khoảng cách Manhattan Áp dụng công thức: - Euclidean: d(xi,xj) = - Manhattan: d(xi,xj) = Ta có bảng sau: X=(1.4,1,6 ) Euclidean distance Manhattan distance x1 x2 x3 x4 x5 Xếp hạng (Rank: Thấp →Cao) 0.1414 0.6708 0.2828 0.2236 0.6083 0.2 0.9 0.4 0.3 0.7 x1→x4→x3→x5→x2 x1→x4→x3→x5→x2 Câu 2: cho bảng liệu sau: A1 A2 A3 A4 A5 A6 x1 Y N Y N N x2 N Y Y Y N x3 N Y Y N Y Trong đó, thuộc tính A1 thuộc tính nhị phân đối xứng Các thuộc tính khác nhị phân bất đối xứng, với quy định Y=1, N=0 TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN Trang |4 [Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG a Tính ma trận khoảng cách cho đối tượng với tập thuộc tính từ A2 đến A6 Áp dụng tính chất: d(xi,xj) = Ví dụ: d(x1,x2) = (ở đây, có thuộc tính A2,A3,A5 khác x1,x2 nên gán giá trị Y=1; Mẫu số có thuộc tính giống A4,A6 nên gán giá trị Y = A4 N = A6 Ta có bảng ma trận khoảng cách sau: X1 0.75 0.75 X1 X2 X3 b X2 0.75 0.5 X3 0.75 0.5 Tính ma trận khoảng cách cho đối tượng với tập thuộc tính cho tất thuộc tính - Tương tự câu A tính riêng cho A1: Da1(x1,x2) = =1 Da1(x1,x3) = Da1(x2,x3) = - Tương tự tính tốn khoảng cách cho tất tập thuộc tính từ A1 → A6 Luật kết hợp ( thuật toán Fp – Growth Apriori) Câu 1: số câu hỏi trắc nhiệm Transaction database sau sử dụng cho câu hỏi 1-3 (Một Lựa Chọn) Tid 10 20 30 40 50 Item bought Beer, Nuts, Diaper Beer, Coffee, Diaper Beer, Diaper, Eggs Nut, Eggs, Milk Nuts, Coffee, Diaper, Eggs, Milk TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN Trang |5 [Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG Cho X 1-itemset {Beer} Y 1-itemset {Diaper} Cho biết tập tất transaction từ bảng chứa itemset X U Y A {10, 20, 30, 50} B {} C {10, 20, 30} Cho trưóc minsup s = 50%, đáp án sau dây frequence pattern A {Eggs} B {Beer} C {Beer, Diaper} D {Coffee} Cho biết confident support cua luật kết hợp (association rule) {Diaper} -> {Coffee, Nuts}? A support s = 0.4, confident c = 0.5 B support s = 0.8, confident c = 0.5 C support s = 0.4, confident c = D support s = 0.1, confident c = E Các dáp án sai Cho bảng chứa tất frequence pattern Cho biết frequence pattern số chúng closed pattern max pattern (Nhiều lựa chọn) Frequence Pattern Beer, Nuts, Diaper Beer, Coffee, Diaper Beer, Diaper, Eggs Beer, Nuts, Eggs, Milk Beer, Nuts, Diaper, Eggs, Milk Support 100 200 50 400 50 A {Beer, Nuts, Diaper} B {Beer, Coffee, Nuts} C {Beer, Nuts, Eggs, Milk} D {Beer, Diaper, Eggs} Câu 2: Dùng thuật tốn Apriori thực thuật tốn tìm mẫu phổ biến sinh luật kết hợp biết minsup = 50% ; minconf = 50% ( sở liệu bảng giao dịch sau) TID T01 T02 T03 TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN Items A3,A4,A5 A1,A4,A5 A1,A2,A4,A5 Trang |6 [Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG T04 T05 T06 T07 T08 T09 T10 A2,A4 A2,A3,A4,A5 A3,A4,A5 A1,A2,A5 A1,A2,A3 A3,A4 A1,A2,A3,A5 Các bước thực thuật tốn: Duyệt (Scan) tồn transaction database để có support S 1itemset, so sánh S với min_sup, để có 1-itemset (L1)  Sử dụng Lk-1 nối (join) Lk-1 để sinh candidate k-itemset Loại bỏ itemsets frequent itemsets thu k-itemset Scan transaction database để có support candidate kitemset, so sánh S với min_sup để thu frequent k –itemset (Lk) Lặp lại từ bước Candidate set (C) trống (không tìm thấy frequent itemsets) Với frequent itemset I, sinh tất tập s không rỗng I Với tập s không rỗng I, sinh luật s => (I-s) độ tin cậy (Confidence) > =min_conf  Quy trình thực thuật toán: TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN Trang |7 [Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG Itemsets A4 A5 Support(A,B) 50% 50% Support(A) 70% 70% < A , B A4,A5> Confidence 71,43% 71,43% Note : support(A,B) = = 50% Support(A) = = 70% Confidence = = 71,43%  Tới đây, Confidence A4,A5 lớn minconf = 50% nên ta có luật kết hợp sau( với minsup =50% ; minconf = 50%) R1: R4 => R5 ( Support = 50% ; Conf = 71,43%) R2: R5 => R4 ( Support = 50% ; Conf = 71,43%) Trường hợp đề cho minsup = n ; bảng quy trình xuất điền số lần xuất giá trị tập mục Thuật toán định Câu 1: cho sở liệu sau:   Sample A T TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN B F Class + Trang |8 [Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG 10 T T T T F F F T T T T F T F F F T F + + + - Thuộc tính mà thuật toán định chọn để phân tách dùng : Information Gain để định phân tách thuộc tính A B - Info(D) = I(4,6) = * + = 0.971 < Tính theo thông tin cột Class : (4 +) (6 -) > - InfoA(D) = * I(4,3) + * I(0,3) = *( * + * ) + * = 0.69 < Tính theo cột thuộc tính A : đếm số giá trị T – F ( T F nhìn sang cột Class để chọn giá trị (+) – (-) Từng giá trị T – F> - InfoB(D) = *I(3,1) + * I(1,5) = * [()*log2() +(-)*log2()] + *[(- )*log2( ) +(- )*log2( )] = 0.715 Gain (A) = Info(D) – InfoA(D) = 0.971 – 0.69 = 0.281  Gain (B) = Info(D) – InfoB(D) = 0.971 – 0.715 = 0.256 → Thứ tự chọn : A → B  Câu 2: cho bảng định đây: ID A1 C C C A A A TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN A2 A A C C A A A3 B A C A B C Class A C B A B C Trang |9 [Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG 10 11 12 13 14 15 16 17 18 19 20 C C B A B A B C C C C B C C A B C A C B B C C A C A B B A C A A A C C B B C B A B A C A A B A A A A C C A A B B Thực tính tốn đưa thứ tự lựa chọn thuộc tính cho định sử dụng Information Gain (bao gồm nhánh) - - - Info(D) = I(10,5,5) = * log2() + * log2() + * log2() = 1.5 InfoA1(D) = *I(2,2,1) + * I(4,0,0) + * I(4,3,4) = *[- *log2() + - *log2() + - *log2() ] + + *[- *log2() + *log2() + - *log2() ] = 1.245 InfoA2(D) = * I(2,2,4) + * I(3,2,0) + * I(5,1,1) = *[- *log2() + - *log2() + - *log2() ] + *[- *log2() + - *log2() + - *log2() ] + *[- *log2() + - *log2() + - *log2()] = 1.2448 InfoA3(D) = * I(4,2,2) + * I(3,2,1) + * I(3,1,2) = *[- *log2() + - *log2() + - *log2() ] + *[- *log2() + - *log2() + - *log2() ] + *[- *log2() + - *log2() + - *log2()] = 1.475 Ta có : Gain (A1) = Info(D) – InfoA1(D) = 1.5 – 1.245 = 0.255  Gain (A2) = Info(D) – InfoA2(D) = 1.5 – 1.2448 = 0.2552  Gain(A3) = Info(D) – InfoA3(D) = 1.5 – 1.475 = 0.025  Thứ tự chọn là: A2 → A1 → A3 Thuật toán k-nn  TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN T r a n g | 10 [Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG Sau lần lặp thứ hai ta có cụm sau: • • • • • • Cụm : (1,1) ,(1,2) , (2,1) , (2,1.5) , (3,2) Cụm : (4,1.5), (4,2), (5,1.5), (4.5,2) Cụm : (4,4), (4.5 , 4) , (4.5 , 5) , (4,5) Áp dụng cơng thức tính trung tâm cụm sau: Mean =( , ) Ta có trung tâm cụm sau lần lặp là: Cụm 1: (,) →(1.8,1.5) Cụm 2: ( , ) → (4.375,1.75) Cụm 3: ( ) → , (5,5) Ta thấy trung tâm cụm không thay đổi nên kết thúc lần lặp thứ 2:    Cụm : trung tâm (1.8,1.5) ; gồm điểm {(1,1) ,(1,2) , (2,1) , (2,1.5) , (3,2)} Cụm : trung tâm (4.375, ; gồm điểm {(4,1.5), (4,2), (5,1.5), (4.5,2)} Cụm 3: trung tâm ; gồm điểm {(4,4), (4.5 , 4), (4.5 , 5) , (4,5) , (5,5)} Các trung tâm cụm ban đầu (1,2) ; (3,2) ; (4,2) Gọi trung tâm cụm là: = (1,2) ; = (3,2) ; = (4,2) Áp dụng cơng thức tính khoảng cách Euclide để tính khoảng cách từ cụm tới điểm tập liệu b    x Với k=3 , tiến hành lặp lần ta có bảng sau: y (1,2) (3.2) 2.23606797 TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN (4.2) 3.16227766 Cụm Gần x Lần Cụm Gần Cụm Gần T r a n g | 20 [Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG 2 2 1.41421356 1.41421356 2 1.5 1.118033989 1.118033989 1.5 2.23606797 2.06155281 0.5 3.04138126 1.118033989 5 1.5 4.031128874 2.06155281 1.118033989 4.5 3.5 1.5 0.5 4 3.60555127 2.23606797 4.5 4.031128874 2.5 2.06155281 4.5 4.60977222 3.35410196 3.04138126 5 4.24264068 3.16227766 5 3.60555127 3.16227766 Sau lần lặp thứ ta có cụm sau: • • • • • • x x x x x x x x x x x x x Cụm : (1,1) ,(1,2) , (2,1) , (2,1.5) Cụm : (3,2) Cụm : (4,1.5), (4,2), (5,1.5), (4.5,2), (4,4), (4.5 , 4), (4.5 , 5), (4,5) , (5,5) Áp dụng cơng thức tính trung tâm cụm sau: Mean =( , ) Ta có trung tâm cụm sau lần lặp là: Cụm 1: (,) →(1.5,1.375) Cụm 2: (3, 2) Cụm 3: ( ) → TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN T r a n g | 21 [Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG Tiếp tục lặp lần với trung tâm cụm : (1.5,1.375) ; (3,2) ; , ta có bảng lần lặp sau: x y (1.5,1.375) (3.2) 1 0.625 2.236067977 0.80039053 2 0.625 1.414213562 1.5 0.515388203 1.118033989 1.625 1.5 2.503123049 1.118033989 2.576941016 1.5 3.502231432 2.061552813 4.5 3.064412668 1.5 4 3.625 2.236067977 4.5 3.98630468 2.5 4.5 4.705382556 3.354101966 4.403478738 3.16227766 5 5.038911093 3.605551275 Sau lần lặp thứ hai ta có cụm sau: • • • • • • 4.113514313 3.641565597 3.337813656 3.010149498 1.923798326 1.871095936 1.386001443 1.928989373 1.33454112 0.775241898 0.678969808 1.673618834 1.714934401 1.777920133 Cụm Gần x x x x Lần Cụm Cụm Gần Gần x x x x x x x x x x Cụm : (1,1) ,(1,2) , (2,1) , (2,1.5) Cụm : (3,2) , (4,1.5), (4,2) Cụm : (5,1.5), (4.5,2), (4,4), (4.5 , 4), (4.5 , 5), (4,5) , (5,5) Áp dụng công thức tính trung tâm cụm sau: Mean =( , ) Ta có trung tâm cụm sau lần lặp thứ hai là: Cụm 1: (,) →(1.5,1.375) Cụm 2: (, ) →( , ) Cụm 3: ( ) → Nhận thấy trung tâm cụm thay đổi nên tiến hành lặp lần với trung tâm cụm sau lần lặp 2, ta có bảng sau : TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN T r a n g | 22 [Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG x y (1.5,1.375) (, ) Cụm Gần 1 0.625 2.796032904 4.475946827 x 0.80039053 2.675406511 3.931170309 x 0.625 1.864886056 3.74621142 x 1.5 0.515388203 1.702292572 3.390294972 x 1.625 0.691230786 2.335401464 1.5 2.503123049 0.466690476 2.343949658 2.576941016 0.371214224 1.858520917 1.5 3.502231432 1.370328428 2.343949658 4.5 3.064412668 0.847230783 1.79 4 3.625 2.194948747 0.542309875 4.5 3.98630468 2.323316595 0.21 4.5 4.705382556 3.276858251 1.21 4.403478738 3.187130371 1.309236419 5 5.038911093 3.437702721 1.309236419 Sau lần lặp thứ ba ta có cụm sau: • • • • • • Lần Cụm Cụm Gần Gần x x x x x x x x x x Cụm : (1,1) ,(1,2) , (2,1) , (2,1.5) Cụm : (3,2) , (4,1.5), (4,2),(5,1.5), (4.5,2) Cụm : (4,4), (4.5 , 4), (4.5 , 5), (4,5), (5,5) Áp dụng công thức tính trung tâm cụm sau: Mean =( , ) Ta có trung tâm cụm sau lần lặp thứ ba là: Cụm 1: (,) →(1.5,1.375) Cụm 2: (, ) →(4.1 , 1.8 ) Cụm 3: ( ) → Nhận thấy trung tâm cụm thay đổi nên tiến hành lặp lần với trung tâm cụm sau lần lặp 3, ta có bảng sau : x y (1.5,1.375) (4.1 , 1.8 ) TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN Cụm Lần Cụm Cụm T r a n g | 23 [Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG 1 0.625 3.201562119 0.80039053 3.106444913 0.625 2.247220505 1.5 0.515388203 2.121320344 1.625 1.118033989 1.5 2.503123049 0.316227766 2.576941016 0.223606798 1.5 3.502231432 0.948683298 4.5 3.064412668 0.447213595 4 3.625 2.202271555 4.5 3.98630468 2.236067977 4.5 4.705382556 3.224903099 4.403478738 3.201562119 5 5.038911093 3.324154028 Sau lần lặp thứ tư ta có cụm sau: • • • • • • 4.951767361 4.280186912 4.326661531 3.920459157 2.952964612 3.125699922 2.630589288 3.157530681 2.601922366 0.721110255 0.608276253 0.412310563 0.565685425 0.721110255 Gần x x x x Gần Gần x x x x x x x x x x Cụm : (1,1) ,(1,2) , (2,1) , (2,1.5) Cụm : (3,2) , (4,1.5), (4,2),(5,1.5), (4.5,2) Cụm : (4,4), (4.5 , 4), (4.5 , 5), (4,5), (5,5) Áp dụng cơng thức tính trung tâm cụm sau: Mean =( , ) Ta có trung tâm cụm sau lần lặp thứ tư là: Cụm 1: (,) →(1.5,1.375) Cụm 2: (, ) →(4.1 , 1.8 ) Cụm 3: ( ) → Ta thấy trung tâm cụm không thay đổi nên kết thúc lần lặp thứ 4:    Cụm : trung tâm (1.5,1.375) ; gồm điểm {(1,1) ,(1,2) , (2,1) , (2,1.5)} Cụm : trung tâm (4.1, ; gồm điểm {(3,2) , (4,1.5), (4,2), (5,1.5), (4.5,2)} Cụm 3: trung tâm ; gồm điểm {(4,4), (4.5 , 4), (4.5 , 5) , (4,5) , (5,5)}  Nhận xét : TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN T r a n g | 24 [Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG • • Kết phân cụm câu a b hoàn toàn khác → Tuy nhiên : việc lựa chọn trung tâm cụm ban đầu không ảnh hướng tới kết phân cụm →điểm (3,2) phân cụm Ở lần lặp thứ câu b) điểm có giá trị khoảng cách tới trung tâm cụm C1 C2 → gom giá trị vào cụm → không ảnh hưởng tới kết phân cụm Phân cụm thuật toán K – medoid Cho bảng liệu sau: X1 X2 X3 X4 X5 X6 X7 X8 X9 X10  x 8 y 7 5 Hãy phân cụm bảng liêu thuật toán K-medoid Cách làm: chọn số cụm định phân ( đề cho trước) Tiếp theo chọn trọng tâm cụm( đề cho trước , khơng cho chọn ngẫu nhiên để tính tốn)  Ở toán chọn K=2 ( chia bảng liệu thành cụm).Và chọn X5 X10 trọng tâm cụm  Suy trọng tâm cụm : C1(8,5) ; C2(4,5)  Bây tính khoảng cách điểm cịn lại tới trọng tâm cụm khoảng cách Manhattan (là khoảng cách Minkowski q=1) Khoảng cách Minkowski : TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN T r a n g | 25 [Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG Ta bảng khoảng cách sau: x y C1(8,5) d1= X1 X2 7 X3 X4 X5 X6 X7 3 X8 X9 X1 Từ bảng khoảng cách ta có : • • C2(4,5) d2= 6 4 5 Lần Gần Gần C2 C1 x x x x x x x x x x Cụm K1 lúc gồm : K1{X1,X4,X5,X7,X8,X9} theo tọa độ K1{(8,7) , (9,6) , (8,5) , (7,3) , (8,4) , (7,5)} Cụm K2 lúc gồm : K2{X2,X3,X6,X10} theo tọa độ K2{(3,7) , (4,9) , (5,8) , (4,5)} Áp dụng cơng thức tính giá trị điểm: Cost(x,c) = {x: tất điểm cụm ; c: điểm trọng tâm ; d số cụm ( trường hợp cụm) Ta có:tổng giá trị (total cost ) khoảng cách điểm tới trọng tâm cụm K1 K2 là: Total cost = (2+2+0+3+1+1) + (3+4+4+0) = 20  Tiếp theo chọn điểm từ cụm làm trọng tâm cụm mới( chọn , thường chọn tọa độ điểm có x y TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN T r a n g | 26 [Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG trùng với trọng tâm cụm phần trên) Bài chọn X8 trọng tâm cụm cụm K1 cụm K2 giữ nguyên trọng tâm cụm X10 Ta có bảng khoảng cách sau: x y C1(8,4) d1= X1 X2 X3 X4 X5 X6 X7 X8 X9 X1 8 7 5  Từ bảng ta tính giá trị Total cost1 = (3+3+1+2+0+2) + (3+4+3+0) = 22 Nhận thấy Total cost1 – Total cost = 22 – 20 =2>0 , nghĩa hốn đổi trọng tâm cụm khoảng cách khơng giảm nên thuật toán dừng ( trường hợp Total cost1 – Total cost < ; lựa chọn trọng tâm cụm tới khoảng cách không bé khoảng cách lần chọn trước dừng lại) Ta có : • Cụm K1 gồm : K1{X1,X4,X5,X7,X8,X9} theo tọa độ  2 C2(4,5) d2= 6 4 5 Lần Gần Gần C2 C1 x x x x x x x x x x K1{(8,7) , (9,6) , (8,5) , (7,3) , (8,4) , (7,5)} – trung tâm cụm: C1(8,5) • Cụm K2 gồm : K2{X2,X3,X6,X10} theo tọa độ K2{(3,7) , (4,9) , (5,8) , (4,5)} – trung tâm cụm: C2(4,5) Sử dụng ngôn ngữ R phân cụm thuật toán Câu 1: Phân cụm liệu câu thuật toán K – means TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN T r a n g | 27 [Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG Đầu tiên , nhập liệu vào R - Phần copy liệu vào file Excel,txt, nhập số liệu vào R tạo sau: > setwd("c:/ptdl/ThuatToan") > x=c(1,1,2,2,3,4,4,5,4.5,4,4.5,4.5,4,5) > y=c(1,2,1,1.5,2,1.5,2,1.5,2,4,4,5,5,5) > YANG = data.frame(x,y) > YANG x y 1.0 1.0 1.0 2.0 2.0 1.0 2.0 1.5 3.0 2.0 4.0 1.5 4.0 2.0 5.0 1.5 4.5 2.0 10 4.0 4.0 11 4.5 4.0 12 4.5 5.0 13 4.0 5.0 14 5.0 5.0 > head(YANG) x y 1 1.0 2.0 1.0 1.5 2.0 1.5 - Dùng hàm plot hiển thị đồ thị > plot(YANG) - TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN T r a n g | 28 [Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG Phân liệu thành cụm tìm tâm cụm > YANG.3means = kmeans(YANG, centers = 3) > YANG.3means$centers x y 4.4 4.600 4.1 1.800 1.5 1.375 < Trên trọng tâm cụm, kết giống 7> - Tiếp theo tìm kiếm điểm cụm > YANG.3means$cluster [1] 3 3 2 2 1 1 - →4 giá trị đầu cụm ; giá trị cụm ; giá trị cuối cụm - > + + + Hiển thị cụm đồ thị, cụm tương ứng màu plot(YANG[YANG.3means$cluster == 1,], col = "red", xlim = c(min(YANG[,1]),max(YANG[,1])), ylim = c(min(YANG[,2]),max(YANG[,2])) TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN T r a n g | 29 [Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG + ) > points(YANG[YANG.3means$cluster ==2, ], + col="blue") > points(YANG[YANG.3means$cluster ==3, ], + col="seagreen") Hiển thi trung tâm cụm đồ thị plot(YANG[YANG.3means$cluster == 1,], col = "red", xlim = c(min(YANG[,1]),max(YANG[,1])), ylim = c(min(YANG[,2]),max(YANG[,2])) ) points(YANG[YANG.3means$cluster ==2, ], col="blue") points(YANG[YANG.3means$cluster ==3, ], col="seagreen") points(YANG.3means$centers,pch = , col = "green") - > + + + + > + > + > TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN T r a n g | 30 [Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG Câu 2: Phân cụm K – medoid R – Sử dụng PAM data("USArrests") # tải tập liệu df

Ngày đăng: 13/12/2021, 17:32