Khai phá dữ liệu và khám phá tri thức
Trang 1Data Mining
Concepts
LÊ VINH HIỆP 51001048 TRẦN ĐƯỜNG TÚ 51003857
Trang 2N i dung ội dung
• Giới thiệu khai phá dữ liệu và khám phá tri thức
• Mục tiêu của khám phá tri thức
• Các kĩ thuật khai phá dữ liệu:
• Association rules
• Classification
• Clustering
Trang 3D li u và tri th c ữ liệu và tri thức ệu và tri thức ức
• Sự bùng nổ của dữ liệu:
• Mạng xã hội, world wide web,…
• Dữ liệu trong kinh doanh, khoa học, xã hội,…
• Lên tới mức terabytes thậm chí petabytes.
• Chúng ta có dữ liệu nhưng cần tri thức.
• Khai phá dữ liệu: khám phá tri thức từ kho dữ liệu rất lớn.
Trang 4ng d ng khai phá tri th c
Ứng dụng khai phá tri thức ụng khai phá tri thức ức
• Marketing:
• Tự động phân loại khách hàng, hàng hóa, dịch vụ
• Đưa ra chiến lược kinh doanh, quảng cáo
• Tài chính:
• Đánh giá hành vi sử dụng tài khoản tín dụng
• Phân tích khả năng đầu tư
• Y học:
• Phân tích gene
Trang 5Khai phá d li u và kho d ữ liệu và tri thức ệu và tri thức ữ liệu và tri thức
li u ệu và tri thức
• Kho dữ liệu (data warehouse) là tập hợp những dữ liệu đã
được làm sạch, hướng chủ đề để hổ trợ khả năng ra quyết định
• Kho dữ liệu được kết hợp với khai phá dữ liệu (data mining)
để đưa ra một quyết định cụ thể nào đó.
• Kho dữ liệu quyết định tính hiệu quả của khai phá dữ liệu
Trang 6Khai phá d li u và khám phá tri th c ữ liệu và khám phá tri thức ệu và khám phá tri thức ức
• Khai phá dữ liệu chỉ là một công đoạn trong một quá trình lớn
hơn là Khám phá tri thức (Knowledge discovery).
Trang 7M c tiêu c a khai phá d li u ụng khai phá tri thức ủa khai phá dữ liệu ữ liệu và tri thức ệu và tri thức
• Dự đoán: ví dụ dự đoán những mặt hàng mà một khách hàng
có thể sẽ quan tâm dựa trên những thứ mà người ấy đã cho vào giỏ hàng.
• Nhận diện: ví dụ nhận diện cấu trúc gene
• Phân lớp: dựa vào thông tin sử dụng tài khoảng tín dụng,
phân lớp họ
• Tối ưu: tối ưu lợi nhuận từ một tập giới hạn tài nguyên như
thời gian, không gian, nhân lực,…
Trang 8Các ki u tri th c ểu tri thức ức
• Không có cấu trúc:
• Dạng các luật hoặc logic mệnh đề
• Ví dụ từ một dữ liệu của một ngân hàng, sau quá trình khai phá
ta có kết quả: những tài khoản chưa kết hôn và nhỏ hơn 20 tuổi
có mức nguy cơ cao
• Có cấu trúc:
• Dạng cây ra quyết định, mạng ngữ nghĩa, mạng neuron,…
Trang 9Các lu t k t h p ật kết hợp ết hợp ợp (Association rules)
Trang 10Bài toán gi th tr ng ỏ thị trường ị trường ường
Trang 11Association Rule – các khái ni m ệu và tri thức
• Item (phần tử)?
• Itemset (tập phần tử, gọi tắt là tập)?
• K-Itemset
• Transaction (giao dịch)?
• Một luật kết hợp (association rule) có dạng X => Y, nếu X = {x1,
x2, , xn}, và Y = {y1, y2, , ym} là những tập phần tử, với mọi xi, yj
là những phần tử khác nhau
• LHS (left-hand side), RHS (right-hand side)
• LHS RHS ∪ RHS = itemset
Trang 12Association Rule - Các khái ni m ệu và tri thức
Support (độ hỗ trợ)
• Độ đo đo tần số xuất hiện của các phần tử/tập phần tử
• Minimum support threshold (ngưỡng hỗ trợ tối thiểu)
Confidence (độ tin cậy)
• Độ đo đo tần số xuất hiện của một tập phần tử trong điều kiện xuất hiện của một tập phần tử khác
• Confidence = support(LHS RHS)/support(LHS) ∪ RHS)/support(LHS)
• Minimum confidence threshold (ngưỡng tin cậy tối thiểu)
• Giá trị support , confidence nhỏ nhất được chỉ định bởi người dùng.
Trang 13Association Rule - Các khái ni m ệu và tri thức
milk =>juice
support = 50%, confidence = 66.7%
bread => juice
support = 25%, confidence = 50%
Trang 14Khai phá lu t k t h p ật kết hợp ết hợp ợp
Yêu cầu: Luật X=>Y phải thỏa mãn
Support >= Minimum support threshold
Confidence >= Minimum confidence threshold
large (or frequent) itemset:
tập có giá trị support >= Minimum support threshold
Khai phá luật từ tập thường xuyên (frequent itemset):
Ứng với mỗi tập thường xuyên X, Y X, lấy Z = X – Y; ⊂ X, lấy Z = X – Y;
Khi đó nếu support(X)/support(Z) > minimum confidence
Luật Z => Y (tức là, X – Y=> Y) là một luật hợp lệ
Trang 15M t s v n đ ội dung ố vấn đề ấn đề ề
Ưu điểm: đơn giản
Hạn chế lớn: Nếu có quá nhiều item, transaction => số tập là vô cùng
lớn
Giải thuật hạn chế sự tổ hợp thừa thải:
• Mọi tập con của tập thường xuyên là tập thường xuyên
=> downward closure
• Tập cha của tập không thường xuyên cũng là tập không thường xuyên
=> anti-monotonicity
Trang 16Gi i thu t Apriori ải thuật Apriori ật kết hợp
• Yêu cầu support >= 50%
• C1 {milk, bread, juice, cookies, eggs, coffee} có các giá trị support tương ứng là
0.75, 0.5, 0.5, 0.5, 0.25, và 0.25
• L1 {milk, bread, juice, cookies}
• C2 {milk, bread}, {milk, juice}, {bread, juice}, {milk, cookies}, {bread, cookies} và
{juice, cookies}
• L2 {milk, juice} và {bread, cookies} với support = 50%
C3 và L3 ???
Trang 17Gi i thu t Apriori ải thuật Apriori ật kết hợp
Trang 18Gi i thu t Apriori ải thuật Apriori ật kết hợp
Trang 19Gi i thu t Apriori ải thuật Apriori ật kết hợp
• Đặc điểm:
• Tạo ra nhiều tập dự tuyển
• Kiểm tra tập dữ liệu nhiều lần
• Giải thuật cải tiến:
• Lấy mẫu (sampling): thực hiện Giải thuật Apriori với một trị support
threshold nhỏ
• Phân hoạch (partitioning): chia nhiều phần và chạy Giải thuật Apriori
trên từng phần
Trang 20Frequent-Pattern (FP) Tree
• Cây mẫu thường xuyên (Frequent-Pattern tree).
• Phiên bản nén Database dưới dạng cây
• Khái niệm support chuyển đơn vị từ phần trăm xuất hiện của itemset trong tất cả transaction sang số lượng itemset trong tổng số các transaction
Xậy dựng cây FP ???
Trang 21Frequent-Pattern (FP) Tree
• Quét Database lần 1 tìm tập thường xuyên 1 phần tử, sắp xếp
theo thứ tự k giảm support
Trang 22Frequent-Pattern (FP) Tree
=> Dạng nén của các giao dịch gốc chỉ chứa các itemset thường xuyên 1 phần tử
Trang 23Gi i thu t FP-Growth ải thuật Apriori ật kết hợp
Trang 24Gi i thu t FP-Growth ải thuật Apriori ật kết hợp
• Conditional Pattern Base
• Conditional FP-Tree
• Frequent Pattern
Trang 25Gi i thu t FP-Growth ải thuật Apriori ật kết hợp
Support count = 2
Trang 26Phân lo i ại
(Classification)
• Phân loại là một quá trình học mô hình và từ đó phân loại dữ
liệu thành các lớp khác nhau
• Đây là hình thức học có giám sát (supervised) dựa trên một tập
dữ liệu huấn luyện (training set) đã được phân loại trước đó.
• Mô hình ở đây thường là một cây ra quyết định hoặc một tập các quy tắc suy diễn
Trang 27Classification (tt)
Trang 29Phân c m ụng khai phá tri thức
• Mục tiêu: phân dữ liệu thành các nhóm với các mẫu tương tự
nhau và khác với các mẫu của nhóm khác.
Trang 31Tài li u tham kh o ệu và tri thức ải thuật Apriori
Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006