II. NỘI DUNG
2.5.2 Từ phân tích kết hợp để phân tích tương quan
Các luật kết hợp đã được khai phá sử dụng một khuôn khổ độ hỗ trợ và độ tin cậy được sử dụng cho nhiều ứng dụng. Tuy nhiên, khuôn khổ độ hỗ trợ-đọ tin cậy có thể bị sai lệch ở chỗ nó có thể xác định một luật A⇒B) là thích hợp, trong khi thực tế, sự xuất hiện của A không bao hàm sự xuất hiện của B. Trong phần này, chúng ta xem xét một khuôn khổ khác được tìm ra đó là xét sự tương quan giữa các tập mục phổ biến trong cơ sở liệu quan hệ.
Sự xuất hiện của itemset là độc lập với sự xuất hiện của itemset B nếu P (A ∪B) = P (A) P (B), nếu không thì tập itemset A và itemset B phụ thuộc và tương quan nhau. Điều này được thực hiệ khi ta phân tích mối tương quan cho luật kết hợpA ⇒B :
• Kiểm tra sự tương quan và phụ thuộc lẫn nhau giữa A và B
• Dựa vào thống kê về dữ liệu
• Các độ đo khách quan, không phụ thuộc vào người sử dụng
* Ta có công thức tính độ đo tương quan correlation . Kí hiệu corr hay lift ) ( ) ( ) ( , B p A p B A p corrAB = ∪
Corr(A, B) < 1: A tương quan nghịch với B
Corr(A, B) > 1: A tương quan thuận với B
Corr(A, B) = 1: A và B độc lập nhau, không có tương quan
Trở lại ví dụ trên ta có: Để giúp chúng ta tìm sự sai lệch trong luật mạnh A ⇒B chúng ta cần phân tích tương quan giữa itemset A và itemset B .
Như vậy Corr ({game}=>{video}) = 0.89 < 1 {game} và {video} tương quan nghịch.
Như vậy đề cử là khả năng của một khách hàng mua cả hai, trong khi mẫu số là những gì khả năng sẽ có được nếu mua cả hai được hoàn toàn độc lập.
Điều này dẫn đến chúng ta phải xem xét các luật tương quan. Vậy làm thế nào để đo độ tương quan đủ tốt?
Thực tế là chúng ta tính toán giá trị tương quan thực sự, nhưng chúng ta đã không thể nói liệu đó có phải giá trị thống kê quan trọng. Vì thế, chúng ta tìm hiểu về tiêu chuẩn χ2 độc lập.
Cho R là: và
- Ở đây R là tập hợp của tất cả các giá trị trong giỏ hàng có thể, và r là một giá trị duy nhất trong giỏ hàng. Mỗi giá trị của r biểu thị một ô- thuật ngữ này xuất phát từ quan điểm cho rằng R là một bảng k chiều.
- Cho O (r) biểu thị số lượng giỏ có r
- χ2 (Chi-square): kiểm tra sự độc lập giữa A và B dựa trên giá trị mong đợi và giá trị quan sát được
∑ − = ] [ ]) [ ) ( ( 2 2 r E r E r O x } , { ... } , {i1 i1 × × ik ik r=r1...rk∈R
Các số liệu thống kê χ2 theo quy định sẽ xác định xem tất cả các mục k là k-cách độc lập.
- Nếu χ2 =0 thì tất cả các biến đều thật sự độc lập. Nếu đó là lớn hơn so với một giá trị chiếu tại một mức ý nghĩa, thì tất cả các biến đều tương quan , ngược lại tất cả các biến đều độc lập..
- Các giá trị cho ở mức ý nghĩa nhất định có thể được lấy từ bảng cho sẵn việc phân phối χ2
Ví dụ tính χ2 ∑ − = ] [ ]) [ ) ( ( 2 2 r E r E r O x
Nếu chiếu 95% với mức ý nghĩa = 3,84 thì 0,900 <3,84, do đó, hai hạng mục này được độc lập.
Ta có công cụ để kiểm tra liệu có phải một itemset đã cho độc lập hay phụ thuộc (được tương quan).
Luật tương quan là gì?
Một luật tương quan có dạng:
Ta có các nhận xét:- Tính đóng của thuộc tính tương quan:Nếu một tập S các tập mục là tương quan, thì tất cả các tập cha của S cũng tương quan. Nói cách khác, việc thêm các mục vào một tập hợp các mục tương quan thì không mất tính tương quan.
* Tập mục tương quan tối thiểu :
Tập phổ biến tối thiểu tương quan là các tập phổ biến đó là tương quan mặc dù không có tập con của chúng là tương quan.
* Support:
Một nhóm các mục S có sự hỗ trợ p % có nghĩa là ít nhất p% của các phần tử trong S có giá trị s
* Significant:
Nếu một itemset được hỗ trợ và cực tiểu tương quan, thì itemset này quan trọng.
Thuật toán tìm χ2 với độ hỗ trợ s
Input: Một χ2 có ý nghĩa ở mức α, độ hỗ trợ s, % p > 0.25, tập B
Output: Một tập tương quan tối thiểu từ B 1. For mỗi item i in I, count O(i).
2. Khởi tạo Cand ß 0, Sig ß 0, Notsig ß0.
3. For mỗi cặp of items ia, ib such that O(ia) > s and O(ib) > s, add {ia,ib} to Cand.
Notsig ß 0.
5. If Cand is rỗng, thì return Sig and kết thúc.
6. For mỗi itemset in Cand, do dựng bảng đếm sự xuất hiện cho itemset. If nhỏ hơn p % các ô có độ hỗ trợ s, thì đến bước 8
7. If giá trị vượt quá ngưỡng χ2 , thì itemset vào Sig, ngược lại thì thêm itemset vào Notsig.
8. Tiếp tục với itemset trong Cand. If không có itemsets in Cand, then set Cand là tập S với mỗi tập con có kích thước |S|-1 của S có trong Notsig. Quay lại bước 4.
I: { i1, i2, i3, i4, i5}
Cand:{ {i1, i2},{i1, i3},{i1, i5},{i3, i5},{i2, i4} {i3, i4} } Sig: { {i1, i2} }
Notsig: { {i1, i3}, {i1, i5}, {i3, i5}, {i2, i4} } Cand: { {i1,i3,i5} }