Phân tích dự báo (chương 4, đề cương khai phá dữ liệu)

ĐẠI HỌC BÁCH KHOA HÀ NỘI HANOI UNIVERSITY OF SCIENCE AND TECHNOLOGY BÁO CÁO CUỐI KỲ Môn: Hệ hỗ trợ định Đề tài: Phân tích dự báo (Chương 4, đề cương Khai phá liệu) Giảng viên hướng dẫn: Lê Chí Ngọc Nhóm sinh viên thực hiện: Họ tên MSSV Bùi Hải Minh Hiếu 20173515 Vũ Duy Khánh 20173535 Nguyễn Tùng 20173597 Phạm Đức Anh 20173479 Hà Nội – 2020 MỤC LỤC 1) Phân tích hồi quy…………………………………………………………… 1.1) Hồi quy tuyến tính đơn……………………………………………… 1.2) Hồi quy tuyến tính bội……………………………………………….10 1.3) Hồi quy Logistic…………………………………………………… 15 2) Đánh giá mơ hình ………………………………………………………… 19 2.1) Sai số…………………………………………………………… .20 2.2) Độ xác…………………………………………………………21 2.3) Sự phù hợp……………………………………………………… .27 2.4) Quá khớp khớp…………………………………………… 32 3) Phân lớp…………………………………………………………………….35 3.1) Khái niệm………………………………………………… ……….35 3.2) k-Nearest Neighbor………………………………………… …… 38 3.3) Naïve Bayes………………………………………………………….41 3.4) Cây định……………………………………………………….46 3.5) Support Vector Machine…………………………………………… 53 3.6) Mạng Neural…………………………………………………………65 4) Phân tích chuỗi thời gian……………………………………………………79 4.1) Các yếu tố chuỗi thời gian……………………………………….80 4.2) Mơ hình Holt-Winter……………………………………………… 91 4.3) Q trình dừng…………………………………………… ……… 94 4.4) Mơ hình ARIMA…………………………………………… …….112 4.5) Mơ hình SARIMA…………………………………………… … 120 4.6) Mơ hình GARCH……………………………………………… …124 5) Phân tích xuất theo chuỗi……………………………………… 134 1 Phân tích hồi quy Trong mơ hình thống kê, phân tích hồi quy tập hợp q trình thống kê để ước tính mối quan hệ biến phụ thuộc (thường gọi 'biến kết quả' - ‘outcome’ variable) nhiều biến độc lập (thường gọi 'dự đoán' (predictors), ‘đặc trưng’(features)) Từ người ta dự báo biến phụ thuộc (chưa biết) dựa vào giá trị cho trước biến độc lập (đã biết) Ví dụ thực tế, ta có bảng liệu chiều cao cân nặng 15 người đây: Biểu diễn điểm liệu đồ thị ta Ta thấy điểm liệu gần xếp dọc theo đường thẳng Vậy trường hợp ta tìm đường thẳng phù hợp nhất, đồ thị hàm số biểu diễn tương quan biến chiều cao cân nặng Từ ta dự đốn chiều cao dựa vào cân nặng (hoặc ngược lại) Ví dụ ví dụ hồi quy tuyến tính (Linear Regression) đề cập phần sau 1.1 Hồi quy tuyến tính đơn Hồi quy tuyến tính đơn biến liên quan đến việc tìm mối quan hệ tuyến tính biến độc lập X biến phụ thuộc Y Mối quan hệ X Y biểu diễn phương trình tuyến tính: Y    1 X   Từ “tuyến tính” có nghĩa giá trị kỳ vọng biến Y hàm tuyến tính biến X Trong phương trình trên, β hệ số chặn β hệ số góc đường hồi quy, ϵ sai số ngẫu nhiên mơ hình (bao gồm sai số đo đạc tác động số biến ngẫu nhiên khác không xét đến mơ hình) Với n quan sát biến Y giá trị tương ứng X, mơ hình trở thành: Yi    1 X i   i , i  1,  n Sai số ϵ giả thiết có số tính chất sau: E ( i )  , hay E (Yi )    1 X Var( i )   Cov ( j ,  k )  0, j  k Giả thiết ám Yi phụ thuộc vào Xi dao động giá trị Yi quanh giá trị kỳ vọng ngẫu nhiên Giả định khẳng định phương sai  i không phụ thuộc vào 𝑋 biến  i không tương quan với Trong thực tế, ta biết giá trị tham số tập 𝛽 , 𝛽 nên ta cần phải ước lượng chúng từ liệu mẫu Gọi 𝑏 𝑏 ước lượng β β Mơ hình ước lượng cho hồi quy đơn biến là: Yî  b0  b1 X i , i  1,  n a Phương pháp bình phương tối thiểu Phương pháp bình phương tối thiểu quy trình sử dụng liệu mẫu để tìm giá trị ước lượng giá trị tham số Với giá trị b0 b1 ta thu đường phù hợp tiềm Sử dụng phương pháp bình phương tối thiểu, ta thu tham số cực tiểu hóa tổng bình phương khoảng cách theo chiều dọc điểm liệu tới đường hồi quy:  i  Yi  0  1 X i , i  1, 2,, n Hình 1.1: Nguyên lý bình phương tối thiểu Các khoảng cách cịn gọi thặng dư (residuals) chúng đại diện cho sai số sử dụng mơ hình hồi quy để dự báo giá trị biến phụ thuộc Y Tổng bình phương khoảng cách viết là: SSE = n n i 1 i 1   i   (Yi  b0  b1X i )2 Ta cần tìm hệ số b0 b1 cho SSE nhỏ nhất, tức tìm n   i b0 , b1 i 1 (0.1) Hệ số b0 b1 cực tiểu hóa SSE tìm phương pháp giải tích SSE = n  (Yi  b0  b1X i )2 i 1 = n  (Yi  2Yi (b0  b1X i )  b02  2b0b1 X i  b1X i ) i 1 SSE = b0 0= n  ( 2Yi  2b0  b1 X i ) i 1 n  ( Yi  b0  b1 X i ) i 1 =  nY  nb0  b1nX = Y - b1 X SSE = b1 n  ( 2 X iYi  2b0 X i  2bi X i ) i 1 n n i 1 i 1 n =   X iYi  b0  X i  b1  X i i 1 n n n i 1 i 1 =   X iYi  (Y  b1 X ) X i  b1  X i  i 1 X iYi  nXY n  i 1 X i  nX n b1= với X  i 1  i 1( X i  X )(Yi  Y ) n  i 1( X i  X )2 n  n n X Y   i  Yi n i 1 n i 1 Ví dụ 1: Sinh viên lớp học thống kê cho làm tập nhà không giúp họ chuẩn bị cho thi kỳ Điểm kiểm tra y điểm tập nhà x 18 sinh viên cho bảng sau: Sử dụng ước lượng bình phương cực tiểu để tìm hệ số cho mơ hình hồi quy tuyến tính điểm thi (y) điểm tập (x), ta có:  i 1 xi y i  nxy n  i 1 xi  nx n b1 = 81.195  18(58.056)(61.389)  0.8726 80,199  18(58.056)2 b0  y  b1x  61.389  0.8726(58.056)  10.73  Phương trình đường hồi quy: yˆ  10.73  0.8726 x Hình 1.2: Đường hồi quy liệu điểm thi tập Một điều cần lưu ý mô hình hồi quy có giá trị “vùng thí nghiệm”, nghĩa khoảng giá trị biến độc lập liệu dùng để ước lượng tham số mơ hình Sự dự báo giá trị biến phụ thuộc bên ngồi vùng thí nghiệm gọi ngoại suy có rủi ro chứng ta khơng có chứng thực nghiệm cho thấy quan hệ tuyến tính Y X cho cho giá trị X bên khoảng giá trị liệu Cần tránh ngoại suy b Kiểm đinh giả thuyết hệ số hồi quy Sự hữu dụng biến X sử dụng để dự báo Y đánh giá cách khơng thức cách kiểm tra hệ số tương quan chúng vẽ biểu đồ tán xạ (scatter plot) Một cách thức để đánh giá tiến hành kiểm định giả thuyết hệ số hồi quy 1 Cần ý giả thuyết 1 = có nghĩa khơng có quan hệ tuyến tính Y X Một phép kiểm định giả thuyết cần số giả định sau Với giá trị X, giá trị  tuân theo quy luật phân phối chuẩn với kỳ vọng phương sai Với giả định b0 b1 ước lượng không chệch  1 Phương sai chúng là: 1  X2 Var(b0 )       n  ( X i  X )  Var( b1 )  2 (X i  X )2 Hơn nữa, ước lượng bình phương tối thiểu b0 b1 tuân theo quy luật phân phối chuẩn với kỳ vọng  , 1 phương sai Phương sai b0 b1 phụ thuộc vào tham số chưa biết  nên ta cần ước lượng  từ liệu Ước lượng không chệch  cho bởi: ˆ   i n2  (Y  i  Yî )2 n2  SSE n2 với SSE tổng bình phương thặng dư (residual) Phần mẫu số n – gọi bậc tự nó với số điểm liệu trừ số lượng hệ số hồi quy Thay  ˆ ta thu ước lượng không chệch phương sai b0 b1 1  X2 Var(b0 )  ˆ     n  ( X i  X )  ˆ Var( b1 )   ( X i  X )2 Sau biết phân phối b0 b1 , ta tiến hành đánh giá hữu dụng X sử dụng để dự báo Y Với giả thiết chuẩn, thống kê phù hợp để kiểm định giả thuyết H0: 1 = giả thuyết đối 1  thống kê Student: b1 t1  ˆ  n X2  ( X i  X )2 Thống kê t1 có phân phối Student với n – bậc tự Kiểm định tiến hành cách so sánh giá trị t1 với giá trị phù hợp bảng phân phối Student Ví dụ, ta bác bỏ H0 với độ tin cậy -  nếu: t1  t( n  2, / 2) c Khoảng tin cậy cho hệ số hồi quy Để xây dựng khoảng tin cậy cho hệ số hồi quy, ta cần giả thiết chuẩn  Khoảng tin cậy (1   ) x 100% cho b0 b1 cho bởi: b0  t( n  2, / ) x ˆ  n b1  t( n  2, / 2) x X2  ( X i  X )2 ˆ  ( X i  X )2 Cần ý khoảng tin cậy xây dựng riêng rẽ cho 0 1 Điều khơng có nghĩa miền tin cậy đồng thời cho hệ số miền hình chữ nhật d Đánh giá mơ hình hồi quy Sau khớp mơ hình tuyến tính liệu, ta khơng quan tâm liệu quan hệ tuyến tính biến có tồn tại, mà cịn muốn đánh giá chất lượng mơ hình dùng để dự báo Chất lượng mơ hình đánh giá số cách: - Khi sử dụng phép kiểm định hệ số hồi quy, giả thuyết H0 bị bác bỏ, độ lớn thống kê t1 cho thơng tin cường độ quan hệ tuyến tính X Y Về bản, t1 lớn (theo giá trị tuyệt đối), quan hệ tuyến tính X Y mạnh - Cường độ quan hệ tuyến tính X Y đánh giá trực tiếp cách kiểm tra biểu đồ tán xạ X Y giá trị hệ số tương quan Cor(Y , X ) Các điểm liệu gần đường hồi quy (giá trị Cor(Y, X) gần -1 1), quan hệ tuyến tính mạnh Cách tiếp cận chủ quan khơng cần giả thiết chuẩn  Hình 1.3 - Sau tính ước lượng bình phương tối thiểu tham số mơ hình, tiếp tục tính tốn đại lượng sau: SST   (Yi  Y )2 SSR   (Yî  Y )2 SSE   (Yi  Yî )2 phối vậy, định nghĩa q trình GARCH (p, q) tổng quát quy trình dừng {Zt}thỏa mãn (7.2.6) dạng tổng quát (7.2.1), Z t  ht et , {et} ~ IID(0, 1) (7.2.7) Đối với mục đích mơ hình hóa, thường giả định thêm vào {et} ~ N(0, 1) (7.2.8) (như (7.2.1))   2 et ~ t ,  2 (7.2.9) Với t chứng tỏ phân phối Student’s với  bậc tự Các phân phối khác cho et sử dụng 4.6.2 Các biến thể trình GARCH a) EGARCH Để cho phép giá trị âm dương et định nghĩa q trình GARCH để có tác động khác đến biến động tiếp theo, hs, (s > t), Nelson (1991) giới thiệu mơ hình EGARCH, trình bày qua ví dụ Ví dụ 7.3.1 EGARCH(1, 1) Cho trình {} định nghĩa phương trình, Zt  het , {et} ~ IID(0, 1) (7.3.1) Với {lt  ln ht } giải pháp dừng chặt yếu lt  c  1g(et 1 )   t lt 1, (7.3.2) c  R ,   R , |  | 1, g(et )  et  (| et | E | et |), (7.3.3) Và et có phân phối đối xứng với 0, tức et = - et 128 Quá trình định nghĩa theo để đảm bảo (7.3.3) viết dạng Phương trình (1   )et   E | et |, (et  0) g (et )   (1   )et   E | et |,(et  0) cho thấy hàm g tuyến tính phần với độ dốc (1+  ) (0,  ) độ dốc (1-  ) (  ,0) Sự bất đối xứng g cho phép lt, kết khác với shocks dương âm với cường độ giống Nếu  = bất đối xứng Tính chất { g (et ) }: (i){ g (et ) } có phân phối (ii) Eg(et )  (iii) Var( g (et ) ) = +  Var(|et|) (Tính đối xứng et cho thấy et | et |-E| et | không tương quan.) Tổng qt hơn, q trình EGARCH(p, q), q trình có cách thay phương trình (7.3.2) cho lt  c (B)g(et )  (B)lt , (7.3.4) Trong p q  (B)   i B ,  (B)    i Bi i i 1 i 1 Dễ thấy {lt}, {ht} {Zt} dừng chặt nguyên nhân khác cho số phức z cho |z|  Nelson đề xuất sử dụng phân phối lỗi tổng quát (GED) cho et, với hàm mật độ  ex p[(  / 2) | x /  | ] f (x)   211/  (1 /  ) Trong 129 1/2  2( 2/ ) (1/ )      (3 /  )  Và  > Giá trị  đảm bảo Var(et) = tham số  xác định tail heaviness Với  = 2, et ~N(0, 1) Tail heaviness tăng với  giảm Tính chất GED: | et /  | có phân phối gamma với tham số 1/ Giá trị xác định  thỏa mãn Var(et) = (i) f đối xứng (ii) (iii) (( k  1) /  )  (1 /  )  E | et |     (1 /  )  (3 /  )  k k /2 b) Mơ hình FIGARCH IGARCH Fractionally Integrated ARMA Processes “Long Memory” Hàm tự tương quan  (.) trình ARMA với độ trễ (lag) h hội tụ nhanh … trường hợp tồn r > cho Quá trình ARMA tích hợp phân đoạn (The fractionally integrated ARMA ARMA) bậc (p, d, q), p q số nguyên không âm < d < 0.5, chuỗi thời gian dừng với hàm tự tương quan mà độ trễ (lag) lớn phân rã với tốc độ chậm nhiều Nó định nghĩa giải pháp dừng với kỳ vọng-0 {Xt} phương trình sai phân (1 B)d (B) Xt   (B)Zt (7.3.5) Trong đa thức bậc p q tương ứng, khơng có nghiệm chung, thỏa mãn  ( z )   ( z )  với số phức z cho |z| 130  1, {Zt} ~ WN(0,  ), B toán tử dịch ngược (backward shift), (1 – B)r, định nghĩa thông qua mở rộng chuỗi lượng (power series expansion), r (r  1) (r  j  1) ( z) j ,| z | 1, r  R j! j 1  (1  z) :   r Quá trình dừng với kỳ vọng-0 {Xt} định nghĩa (7.3.5) có biểu diễn MA(  ) hội tụ trung bình bình phương  X t   j Zt j j 0 Trong hệ số zj mở rộng chuỗi lượng  ( z )  (1  z )  d  ( z ) /  ( z ), | z | Cả hàm tự tương quan  ( j ) {Xt} độ trễ j hệ số  j hội tụ với hyperbolic rates j   ; cụ thể, tồn số khác không  δ cho j1 d j   Do  j  j hội tụ 12d j ( j )  j   tốc độ chậm nhiều so với hệ số tương ứng tự tương quan trình ARMA Kết trình ARMA tích hợp phân đoạn nói có “bộ nhớ dài” (long memory) Mật độ phổ {Xt} cho f ( )   |  ( e  i ) |2 |  e  i  | d 2 |  ( e  i  ) | Hợp lý xác Gaussian L quan sát xn = (x1,…,xn)’ q trình ARMA tích hợp phân đoạn cho 2ln(L)  n ln(2 )  ln det n  xn ' n1xn , Trong n  E(Xn Xn ) Tính tốn tối đa hóa tham số d, 1 , , p , 1 , ,q  khó khăn Nó dễ dàng nhiều để tối đa xấp xỉ Whittle LW, tức tối thiểu 131 2 ln( LW )  n ln(2 )   ln(2 f ( j ))   j j I n ( j ) 2 f ( j ) , Trong In biểu đồ,  j chứng tỏ tổng tất tần số Fourier khác không,  j  2 j / n  ( ,  ] Q trình GARCH tích hợp phân đoạn (Fractionally Integrated GARCH – FIGARCH) Nhắc lại trình GARCH(p, q) giải pháp dừng nguyên nhân phương trình p q i 1 i 1 Z t  ht et , ht      i Z t2i    i ht i (7.3.6) Trong   0,  , ,  p  1 , q  Theo (1  (B)   (B))Zt2  0  (1  (B))Wt , (7.3.7) p q i 1 i 1 Trong { Wt : Zt  ht } nhiễu trắng,  ( B )    i B i  ( B )    i B i Đó giải pháp dừng yếu nguyên nhân (causal weakly stationary solution) cho {Zt} nghiệm   ( z )   ( z ) có trị tuyệt đối lớn sau có xác giải pháp Để định nghĩa trình IGARCH(p, q), Engle Bollerslev (1986) giả định đa thức (.) có nghiệm đơn z = 1, nghiệm khác nằm ngồi đường trịn đơn vị đóng (7.3.6) Theo giả định ta viết (1   ( z )   ( z ))  (1  z ) ( z ) , Trong  ( z ) đa thức với tất với tất nghiệm nằm ngồi đường trịn đơn vị Ta nói (xem (7.3.6)) {Zt} q trình IGARCH(p, q) thỏa mãn  (B)(1 B)d Zt2  0  (1  (B))Wt Với Z t  ht et , Wt  Zt  ht {et} ~ IID(0, 1) 132 (7.3.8) Baillie et al (1996) định nghĩa trình FIGARCH(p, d, q) {Zt} trình dừng chặt nguyên nhân (causal strictly stationary) Z t  ht et , (7.3.9) Và (xem (7.3.8))  (B)(1 B)d Zt2  0  (1  (B))Wt ,0  d  (7.3.10) Trong Wt  Zt  ht , {et} ~ IID(0, 1) đa thức  ( z )   ( z ) khác với số phức z cho | z | Thay Wt  Zt  ht (7.3.10) ta thấy (7.3.10) tương đương với phương trình, ht  0  [1  (1   ( B )) 1 ( B )(1  B ) d ]Z t2 ,   (1) (7.3.11) Có nghĩa q trình FIGARCH(p, q) coi trường hợp đặc biệt trình IARCH(  ) định nghĩa (7.3.9)  ht  a0   a j Z t2 (7.3.12) j 1  với a0   a j = Những câu hỏi tồn độc đáo giải pháp dừng j 1 chặt nguyên nhân phương trình IARCH(  ) (bao gồm FIGARCH) chưa giải đầy đủ Mọi giải pháp dừng chặt phải có phương sai vơ hạn từ   : EZt2  Eht   thì, từ  a j = 1, theo công thức (7.3.12)   a0   , j 1 mâu thuẫn với hữu hạn  Điều kiện đủ cho tồn giải pháp dừng chặt nguyên nhân IARCH(  ), đặc biệt phương trình FIGARCH, đề cập Douc et al (2008) 133 Phân tích xuất theo chuỗi 5.1 Các khái niệm Khuôn mẫu phổ biến (frequent pattern) khuôn mẫu khuôn mẫu xảy thường xun liệu Có nhiều loại khn mẫu phổ biến, bao gồm tập phần tử (itemset), dãy (subsequence) hay cịn gọi khn mẫu theo dãy, cấu trúc (substructure) Một tập phần tử phổ biến thường nói đến tập phần tử thường xuất liệu giao dịch (transactional data set), ví dụ sữa bánh mì thường mua cửa hàng tạp hóa Một dãy phổ biến, chẳng hạn khuôn mẫu khách hàng thường mua smartphone, tiếp đến ốp điện thoại, thẻ nhớ, gọi khuôn mẫu (phổ biến) theo dãy Một cấu trúc nhắc tới nhiều dạng cấu trúc (đồ thị, cây, …) kết hợp với tập phần từ hay dãy Nếu cấu trúc xảy thường xuyên, gọi khn mẫu có cấu trúc (phổ biến) Việc tìm khn mẫu phổ biến đóng vai trị quan trọng việc khai phá kết hợp, khai phá tương quan quan hệ thú vị liệu Hơn nữa, hỗ trợ phân lớp liệu, phân cụm công việc khai phá liệu khác Khai phá khuôn mẫu phổ biến công việc tìm kiếm mối quan hệ lặp lại liệu 5.1.1 Phân tích giỏ hàng Khai phá tập phần tử phổ biến dẫn tới phát kết hợp tương quan phần tử liệu giao dịch hay có quan hệ Với lượng lớn liệu liên tục thu thập lưu trữ, nhiều ngành công nghiệp dần quan tập tới khai phá khuôn mẫu sở liệu họ Sự phát tương quan thú vị lượng khổng lồ liệu giao dịch kinh doanh có ích q trình định nhiều doanh nghiệp, ví dụ thiết kế catalog, marketing chéo, phân tích hành vi khách hàng Một ví dụ tiêu biểu khai phá tập phần tử phổ biến phân tích giỏ hàng (market basket analysis) Q trình phân tích thói quen mua sắm khách hàng cách tìm kết hợp phần tử mà khách hàng đặt “giỏ hàng” họ 134 Phân tích giỏ hàng Phát kết hợp giúp nhà bán lẻ phát triển chiến lược marketing thông tin vật phẩm thường mua khách hàng Ví dụ, khách hàng mua bia, khả họ mua bia chuyến tới siêu thị bao nhiêu? Thơng tin dẫn tới doanh thu tăng lên cách giúp nhà bán lẻ tiếp thị có chọn lọc xếp gian hàng 5.1.2 Tập phần tử phổ biến, tập phần tử đóng luật kết hợp Gọi I  {I1 , I ,, I m } tập phần từ Gọi D, liệu vấn đề, tập sở liệu giao dịch, giao dịch T tập khác rỗng phần tử T  I Mỗi giao dịch gán với mã định danh, gọi TID Gọi A tập phần từ Một giao dịch T gọi chứa A A  T Một luật kết hợp kéo theo dạng A  B , A  I , B  I , A  , B   Luật A  B tập giao dịch D với độ hỗ trợ (support) s, s tỷ lệ giao dịch D chứa A  B s gọi xác suất P( A  B) Luật A  B có độ tin cậy (confidence) c tập giao dịch D, c tỷ lệ giao dịch D chứa A mà chứa B c xác suất có điều kiện P( B | A) 135 support (A  B)  P(A  B) (4.4.1) confidence (A  B)  P(B | A) (4.4.2) Luật thỏa mãn ngưỡng độ tin cậy tối thiểu (min_conf) ngưỡng độ hỗ trợ tối thiểu (min_sup) gọi mạnh Tần suất xuất tập phần tử (itemset) số giao dịch có chứa tập phần tử đó, hay cịn gọi tần số, độ hỗ trợ tổng (support count), tổng số tập phần tử Độ hỗ trợ đĩnh nghĩa phương trình (4.4.1) cịn gọi độ hỗ trợ tương đối (relative support), tần suất xuất gọi độ hỗ trợ tuyệt đối (absolute support) Nếu độ hỗ trợ tương đối tập phần tử I thỏa mãn ngưỡng độ hỗ trợ tối thiểu, I gọi tập phần tử phổ biến Tập phần tử có k phần tử ký hiệu Lk Từ (4.4.2), ta có: sup port(A  B) (4.4.3) confidence(A  B)  P(B | A)  sup port(A) sup port _ count(A  B)  sup port _ count(A) Nói chung, khai phá luật kết hợp xem q trình bước: - Tìm tất tập phần tử phổ biến - Sinh luật kết hợp từ tập phổ biến: luật phải thỏa mãn độ hỗ trợ tối thiêu độ tin cậy tối thiểu Một khó khăn khai phá tập phần tử phổ biến từ liệu lớn nhiều tập phần tử thỏa mãn ngưỡng min_sup, đặc biệt min_sup thấp Đó tập phần tử phổ biến, tập phổ biến Để vượt qua khó khăn , ta giới thiệu khái niệm tập phần tử phổ biến đóng tập phần tử phổ biến cực đại Một tập phần tử X gọi đóng liệu D không tồn siêu tập phần tử thật sựY cho Y có độ hỗ trợ tổng với X Y siêu tập phần tử thật X X tập thật Y ( X  Y ) Tập phần tử X tập phần tử phổ biến đóng X đóng phổ biến D Tập phần tử X tập phần tử phổ biến cực đại (maximal frequent itemset) D X phổ biến không tồn siêu tập phần tử Y X mà Y phổ biến D Ví dụ: Tập phần tử phổ biến đóng cực đại Giả sử sở liệu giao dịch có giao dịch {(a1 ,a ,,a100 ); (a1 ,a ,,a 50 )} Ngưỡng độ hỗ trợ tổng tối thiểu Ta tìm tập phần tử phổ biến đóng độ hỗ trợ tổng chúng 136 C  {(a1 ,a ,,a100 ) :1; (a1 ,a ,,a 50 ) : 2} Chỉ có tập phần tử phổ biến cực đại M  {(a1 ,a ,,a100 ) :1} 5.2 Phương pháp khai phá tập phần tử phổ biến 5.2.1 Thuật toán Apriori: Tìm tập phần tử phổ biến sinh ứng cử viên hạn chế Thuật toán Apriori sử dụng cách tiếp cận kiểu lặp gọi tìm kiếm theo tầng (levelwise search), tập phần tử có k phần tử (viết tắt k-itemset) sử dụng để khám phá (k+1)-itemset Đầu tiên, tập 1-itemset tìm kiếm cách quét sở liệu đếm số phần tử, lưu lại phần tử thỏa mãn độ hỗ trợ tối thiểu Tập kết ký hiệu L1 Tiếp theo, L1 sử dụng để tìm L2 , tập 2-itemset phổ biến cứu tiếp diễ tới khơng cịn kitemset phổ biến Việc tìm kiếm L k yêu cầu lần quét toàn sở liệu Để nâng cao hiệu suất thuật tốn, tính chất quan trọng gọi tính chất Apriori sử dụng để thu nhỏ khơng gian tìm kiếm Tính chất Apriori: Tất tập khác rỗng tập phần tử phổ biến phổ biến Tính chất Apriori sử dụng thuật toán? Để thấy điều này, ta xem Lk 1 sử dụng để tìm L k nào, với k  Một trình bước sử dụng, bao gồm bước: hợp (join) tỉa (prune): - Bước hợp (join): Để tìm L k , tập ứng cử viên k-itemset tạo cách lấy Lk 1 hợp với Tập ứng cử viên ký hiệu C k Gọi l1 l2 tập phần tử Lk 1 Ký hiệu li [j] phần tử thứ j li Thuật toán Apriori giả định phần tử giao dịch tập phần tử xếp theo thứ tự từ điển Phép hợp, L k 1 || L k 1 thực Hai thành phần l1 l2 Lk 1 hợp với (l1[1]  l2 [1])  (l1[2]  l2 [2])    (l1[k-2]  l2 [k-2])  (l1[k-1]  l [k-1]) Tập phần tử kết sau hợp l1 l2 137 {l1[1],l1[2],,l1[k  2],l1[k  1],l2 [k  1]} - Bước tỉa: L k tập C k , nghĩa phần tử C k phổ biến không, tất k-itemset phổ biến C k Số phần tử C k lớn nên việc quét sở liệu để tìm L k C k thời gian Để thu nhỏ C k , tính chất Apriori sử dụng sau Bất (k-1)itemset không phổ biến tập k-itemset phổ biến Vì thế, tập (k-1) phần tử ứng cử viên k-itemset không Lk 1 , ứng cử viên khơng thể bị loại bỏ khỏi C k Giả mã cho thuật toán Apriori: - Input:  Cơ sở liệu giao dịch D  Ngưỡng độ hỗ trợ tổng tối thiểu - Output: tập tập phần tử phổ biến L D 138 5.2.2 Sinh luật kết hợp tử tập phần tử phổ biến Sau tìm thấy tập phần tử phổ biến sở liệu D, việc sinh luật kết hợp mạnh từ chúng dễ dàng Luật kết hợp mạnh thỏa mãn độ hỗ trợ tối thiểu độ tin cậy tối thiểu Nhớ lại: sup port _ count(A  B) confidence(A  B)  P(B | A)  sup port _ count(A) Xác suất có điều kiện phía biểu diễn độ hỗ trợ tổng, support_count( A  B ) số giao dịch chứa tập phần tử A  B support_count( A ) số giao dịch chứa tập phần tử A Luật kết hợp sinh sau: - Với tập phần tử phổ biến l , sinh tất tập khác rỗng l - Với tập s l , sinh luật "s  (l  s)" sup port _ count(l)  min_ conf , min_conf độ tin cậy tối thiểu sup port _ count(s) Ví dụ: Cho sở liệu Ta có tập tập phần tử phổ biến X = { I1, I2,I5 } Các tập khác rỗng X { I1, I2 }, { I1,I5 }, { I2,I5 }, { I1 }, { I2 }, { I5 } Luật kết hợp sinh từ X {I1,I5}  I5 , độ tin cậy c = 2/4=50% {I1,I5}  I2 , độ tin cậy c = 2/2=100% {I2,I5}  I1 , độ tin cậy c = 2/2=100% I1  {I2,I5} , độ tin cậy c = 2/6=33% I2  {I1,I5} , độ tin cậy c = 2/7=29% I3  {I1,I2} , độ tin cậy c = 2/2=100% 139 5.2.3 Khai phá khn mẫu đóng khn mẫu cực đại Tập phần tử phổ biến đóng giảm đáng kể số lượng khn mẫu tạo q trình khai phá tập phần tử phổ biến Vì vậy, thực hành, người ta thường khai phá tập tập phần tử phổ biến đóng đa số trường hợp Làm để khai phá tập phần tử phổ biến đóng? Một cách tiếp cận kiểu “ngây thơ” khai phá tập đầy đủ tập phần tử phổ biến loại bỏ tập tập thực tập phần tử phổ biến Tuy nhiên, việc tốn Một phương pháp khuyến nghị tìm kiếm tập phần tử phổ biến đóng q trình khai phá Việc yêu cầu ta phải “tỉa” không gian tìm kiếm tìm tập phần tử phổ biến đóng Chiến lược tỉa bao gồm: - Kết hợp phần tử: Nếu giao dịch chứa tập phần tử thường xuyên X mà chứa tập phần tử Y, không chứa tập thực Y, X  Y tạo thành tập phần tử phổ biến đóng khơng cần tiếp tục tìm kiếm tập phần tử chứa X không chứa Y - Tia tập phần tử con: Nếu tập phần tử phổ biến X tập thực tập phần tử phổ biến đóng Y support_count(X)=support_count(Y), X tất tập X tập liệt kê tập phần tử phổ biến đóng tỉa - Bỏ qua phần tử: Trong khai phá theo chiều sâu tập phần tử đóng, cấp, có tập phần tử tiền tố X liên kết với bảng header projected database Nếu tập phần tử phổ biến địa phương p có độ hỗ trợ với vài bảng header cấp khác nhau, ta tỉa p khỏi bảng header cấp cao Bên cạnh tỉa không gian tìm kiếm, phương pháp tối ưu quan trọng khác kiểm tra tập phần tử phổ biến xem chúng có đóng khơng, q trình khai pá không đảm bảo tập phần tử phổ biến đóng 5.3 Khn mẫu thú vị? – Các phương pháp đánh giá khuôn mẫu 5.3.1 Luật mạnh chưa thú vị Một luật kết hợp có thú vị hay khơng đánh giá cách chủ quan khách quan Cuối cùng, người sử dụng đánh giá luật thú vị hay khơng, ý kiến người khác Tuy nhiên, đánh giá độ thú vị cách khách quan, dựa thống kê liệu, sử dụng để tiến tới loại bỏ luật không thú vị trước giới thiệu tới người dùng 140 Ví dụ: Một luật kết hợp gây nhầm lẫn Giả sử quan tâm tới việc phân tích giao dịch AllElectonics liên quan đễ trò chơi điện tử video Gọi game giao dịch chứa trò chơi điện tử, video giao dịch chứa video Trong số 10,000 giao dịch phân tích, liệu cho thấy 6000 giao dịch bao gồm trò chơi điện tử, 7500 bao gồm video, 400 bao gồm trò chơi điện tử lẫn video Giả sử chương trình khai phá liệu chạy liệu này, sử dụng độ hỗ trợ tối thiểu 30% độ tin cậy tối thiểu 60% Luật kết hợp sau tìm thấy: buys(X, “game”)  buys(X, “video”) [support = 40%, confidence = 66%] 4000 Luật luật kết hợp mạnh có độ hỗ trợ  40% , độ tin cậy 10,000 4000  66% Tuy nhiên, luật lại gây nhầm lẫn xác suất mua video 6000 75%, lớn 66% Trên thực tế, trò chơi điện tử video có tương quan âm mua vật phẩm làm giảm khả mua vật phẩm Nếu không hiểu rõ tượng này, ta đưa định kinh doanh thiếu khơn ngoan 5.3.2 Từ phân tích kết hợp tới phân tích tương quan Như ta thấy, độ hỗ trợ tin cậy không đủ để lọc luật kết hợp khơng có ích Để giải việc này, phép đo đọ tương quan sử dụng để điều chỉnh support-confidence framework cho luật kết hợp Điềun dẫn tới luật tương quan: A  B [support, confidence, correlation] Luật tương quan không đánh giá bằn độ hợp trợ độ tin cậy mà độ tương quan tập phần tử A B Lift phép đo tương quan đơn giản sau Sự xuất hiên tập phần tử A độc lập xuất B P(A  B)  P(A)P(B) ; không, tập phần tử A B phụ thuộc tương quan kiện Lift tập phần tử A B tích bằng: P(A  B) lift(A, B) = P(A)P(B) Nếu lift < 1, xuất A tương quan âm với xuất B , nghĩa xuất tập dẫn tới thiếu vắng tập Ngược lại, lift > 1, A 141 B có tương quan dương Nếu lift = 1, A B độc lập với tương quan chúng Ví dụ: Phân tích tương quan lift Quay trở lại ví dụ phần trước, để lọc luật kết hợp mạnh gây nhầm lẫn, ta cần nghiên cứu xem tập phần tử A B tương quan Gọi 𝑔𝑎𝑚𝑒 giao dịch khơng chứa trị chơi điện tử, 𝑣𝚤𝑑𝑒𝑜 giao dịch không chứa video Từ bảng trên, ta thấy xác suất mua trị chơi điện tử P(game)=0.60 Xác suất mua video P(video)=0.75, xác suất mua P({game, video}) = 0.4 Hệ số lift tính P({game, video})  0.89 P(game)xP(video) Do lift < 1, gmae video có tương quan âm 142 ... cứu Khai phá liệu gần xây dựng dựa công việc vậy, phát triển kỹ thuật phân lớp dự đốn có khả xử lý lượng lớn liệu đĩa Phân lớp có nhiều ứng dụng, bao gồm phát gian lận, mục tiêu tiếp thị, dự đoán... y tế muốn phân tích liệu ung thư vú để dự đốn ba phương pháp điều trị cụ thể mà bệnh nhân nên nhận Trong tình nêu trên, nhiệm vụ phân tích liệu phân lớp, mơ hình phân lớp xây dựng để dự đoán nhãn... , mơ hình dự đốn giống mơ hình thực mơ hình tốt 34 Phân lớp Phân lớp hình thức phân tích liệu trích xuất mơ hình mơ tả lớp liệu quan trọng Các mơ vậy, gọi phân lớp, dự đốn nhãn lớp phân loại

Định dạng
Số trang	143
Dung lượng	5,86 MB