1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Khai phá dữ liệu và khám phá tri thức

31 831 4
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 31
Dung lượng 568,29 KB

Nội dung

Khai phá dữ liệu và khám phá tri thức

Trang 1

Data Mining

Concepts

LÊ VINH HIỆP 51001048 TRẦN ĐƯỜNG TÚ 51003857

Trang 2

N i dung ội dung

Giới thiệu khai phá dữ liệu và khám phá tri thức

Mục tiêu của khám phá tri thức

Các kĩ thuật khai phá dữ liệu:

• Association rules

• Classification

• Clustering

Trang 3

D li u và tri th c ữ liệu và tri thức ệu và tri thức ức

Sự bùng nổ của dữ liệu:

• Mạng xã hội, world wide web,…

• Dữ liệu trong kinh doanh, khoa học, xã hội,…

• Lên tới mức terabytes thậm chí petabytes.

Chúng ta có dữ liệu nhưng cần tri thức.

Khai phá dữ liệu: khám phá tri thức từ kho dữ liệu rất lớn.

Trang 4

ng d ng khai phá tri th c

Ứng dụng khai phá tri thức ụng khai phá tri thức ức

Marketing:

• Tự động phân loại khách hàng, hàng hóa, dịch vụ

• Đưa ra chiến lược kinh doanh, quảng cáo

Tài chính:

• Đánh giá hành vi sử dụng tài khoản tín dụng

• Phân tích khả năng đầu tư

Y học:

• Phân tích gene

Trang 5

Khai phá d li u và kho d ữ liệu và tri thức ệu và tri thức ữ liệu và tri thức

li u ệu và tri thức

Kho dữ liệu (data warehouse) là tập hợp những dữ liệu đã

được làm sạch, hướng chủ đề để hổ trợ khả năng ra quyết định

Kho dữ liệu được kết hợp với khai phá dữ liệu (data mining)

để đưa ra một quyết định cụ thể nào đó.

Kho dữ liệu quyết định tính hiệu quả của khai phá dữ liệu

Trang 6

Khai phá d li u và khám phá tri th c ữ liệu và khám phá tri thức ệu và khám phá tri thức ức

• Khai phá dữ liệu chỉ là một công đoạn trong một quá trình lớn

hơn là Khám phá tri thức (Knowledge discovery).

Trang 7

M c tiêu c a khai phá d li u ụng khai phá tri thức ủa khai phá dữ liệu ữ liệu và tri thức ệu và tri thức

Dự đoán: ví dụ dự đoán những mặt hàng mà một khách hàng

có thể sẽ quan tâm dựa trên những thứ mà người ấy đã cho vào giỏ hàng.

Nhận diện: ví dụ nhận diện cấu trúc gene

Phân lớp: dựa vào thông tin sử dụng tài khoảng tín dụng,

phân lớp họ

Tối ưu: tối ưu lợi nhuận từ một tập giới hạn tài nguyên như

thời gian, không gian, nhân lực,…

Trang 8

Các ki u tri th c ểu tri thức ức

Không có cấu trúc:

• Dạng các luật hoặc logic mệnh đề

• Ví dụ từ một dữ liệu của một ngân hàng, sau quá trình khai phá

ta có kết quả: những tài khoản chưa kết hôn và nhỏ hơn 20 tuổi

có mức nguy cơ cao

Có cấu trúc:

• Dạng cây ra quyết định, mạng ngữ nghĩa, mạng neuron,…

Trang 9

Các lu t k t h p ật kết hợp ết hợp ợp (Association rules)

Trang 10

Bài toán gi th tr ng ỏ thị trường ị trường ường

Trang 11

Association Rule – các khái ni m ệu và tri thức

• Item (phần tử)?

• Itemset (tập phần tử, gọi tắt là tập)?

• K-Itemset

• Transaction (giao dịch)?

• Một luật kết hợp (association rule) có dạng X => Y, nếu X = {x1,

x2, , xn}, và Y = {y1, y2, , ym} là những tập phần tử, với mọi xi, yj

là những phần tử khác nhau

• LHS (left-hand side), RHS (right-hand side)

• LHS RHS ∪ RHS = itemset

Trang 12

Association Rule - Các khái ni m ệu và tri thức

Support (độ hỗ trợ)

• Độ đo đo tần số xuất hiện của các phần tử/tập phần tử

• Minimum support threshold (ngưỡng hỗ trợ tối thiểu)

Confidence (độ tin cậy)

• Độ đo đo tần số xuất hiện của một tập phần tử trong điều kiện xuất hiện của một tập phần tử khác

• Confidence = support(LHS RHS)/support(LHS) ∪ RHS)/support(LHS)

• Minimum confidence threshold (ngưỡng tin cậy tối thiểu)

• Giá trị support , confidence nhỏ nhất được chỉ định bởi người dùng.

Trang 13

Association Rule - Các khái ni m ệu và tri thức

milk =>juice

support = 50%, confidence = 66.7%

bread => juice

support = 25%, confidence = 50%

Trang 14

Khai phá lu t k t h p ật kết hợp ết hợp ợp

Yêu cầu: Luật X=>Y phải thỏa mãn

Support >= Minimum support threshold

Confidence >= Minimum confidence threshold

large (or frequent) itemset:

tập có giá trị support >= Minimum support threshold

Khai phá luật từ tập thường xuyên (frequent itemset):

Ứng với mỗi tập thường xuyên X, Y X, lấy Z = X – Y; ⊂ X, lấy Z = X – Y;

Khi đó nếu support(X)/support(Z) > minimum confidence

Luật Z => Y (tức là, X – Y=> Y) là một luật hợp lệ

Trang 15

M t s v n đ ội dung ố vấn đề ấn đề ề

Ưu điểm: đơn giản

Hạn chế lớn: Nếu có quá nhiều item, transaction => số tập là vô cùng

lớn

Giải thuật hạn chế sự tổ hợp thừa thải:

• Mọi tập con của tập thường xuyên là tập thường xuyên

=> downward closure

• Tập cha của tập không thường xuyên cũng là tập không thường xuyên

=> anti-monotonicity

Trang 16

Gi i thu t Apriori ải thuật Apriori ật kết hợp

• Yêu cầu support >= 50%

• C1 {milk, bread, juice, cookies, eggs, coffee} có các giá trị support tương ứng là

0.75, 0.5, 0.5, 0.5, 0.25, và 0.25

• L1 {milk, bread, juice, cookies}

• C2 {milk, bread}, {milk, juice}, {bread, juice}, {milk, cookies}, {bread, cookies} và

{juice, cookies}

• L2 {milk, juice} và {bread, cookies} với support = 50%

C3 và L3 ???

Trang 17

Gi i thu t Apriori ải thuật Apriori ật kết hợp

Trang 18

Gi i thu t Apriori ải thuật Apriori ật kết hợp

Trang 19

Gi i thu t Apriori ải thuật Apriori ật kết hợp

• Đặc điểm:

• Tạo ra nhiều tập dự tuyển

• Kiểm tra tập dữ liệu nhiều lần

• Giải thuật cải tiến:

• Lấy mẫu (sampling): thực hiện Giải thuật Apriori với một trị support

threshold nhỏ

• Phân hoạch (partitioning): chia nhiều phần và chạy Giải thuật Apriori

trên từng phần

Trang 20

Frequent-Pattern (FP) Tree

• Cây mẫu thường xuyên (Frequent-Pattern tree).

• Phiên bản nén Database dưới dạng cây

• Khái niệm support chuyển đơn vị từ phần trăm xuất hiện của itemset trong tất cả transaction sang số lượng itemset trong tổng số các transaction

Xậy dựng cây FP ???

Trang 21

Frequent-Pattern (FP) Tree

• Quét Database lần 1 tìm tập thường xuyên 1 phần tử, sắp xếp

theo thứ tự k giảm support

Trang 22

Frequent-Pattern (FP) Tree

=> Dạng nén của các giao dịch gốc chỉ chứa các itemset thường xuyên 1 phần tử

Trang 23

Gi i thu t FP-Growth ải thuật Apriori ật kết hợp

Trang 24

Gi i thu t FP-Growth ải thuật Apriori ật kết hợp

• Conditional Pattern Base

• Conditional FP-Tree

• Frequent Pattern

Trang 25

Gi i thu t FP-Growth ải thuật Apriori ật kết hợp

Support count = 2

Trang 26

Phân lo i ại

(Classification)

Phân loại là một quá trình học mô hình và từ đó phân loại dữ

liệu thành các lớp khác nhau

Đây là hình thức học có giám sát (supervised) dựa trên một tập

dữ liệu huấn luyện (training set) đã được phân loại trước đó.

Mô hình ở đây thường là một cây ra quyết định hoặc một tập các quy tắc suy diễn

Trang 27

Classification (tt)

Trang 29

Phân c m ụng khai phá tri thức

Mục tiêu: phân dữ liệu thành các nhóm với các mẫu tương tự

nhau và khác với các mẫu của nhóm khác.

Trang 31

Tài li u tham kh o ệu và tri thức ải thuật Apriori

Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006

Ngày đăng: 24/01/2013, 09:41

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w