Ôn tập khai thác dữ liệu và ứng dụng

Trang 1

KHAI THÁC

DỮ LIỆU &

ỨNG DỤNG

(DATA MINING)

GV : NGUYỄN HOÀNG TÚ ANH

2

ÔN TẬP

Trang 2

3 3

HÌNH THỨC KIỂM TRA VÀ

ĐÁNH GIÁ

• Hệ thống thang điểm :

– Bài tập theo nhóm : 1.5 điểm

– Bài kiểm tra giữa kỳ : 1.5 điểm

4

Cấu trúc đề thi cuối kỳ

1 Thời gian : 120’

2 Được sử dụng tài liệu, không sử dụng

Laptop.

3 Đề thi gồm 3 câu

: Tập phổ biến và luật kết hợp.

b) Câu 2 (3 điểm): nội dung thuộc chương 4

và 5 : Phân lớp, gom nhóm

tổng hợp từ kiến thức của tất cả các

chương.

Trang 3

ÔN TẬP

Chương 1 :

 Quá trình không tầm thường của việc xác

định các mẫu tiềm ẩn có tính hợp lệ, mới lạ,

có ích và có thể hiểu được tối đa trong

CSDL.

lĩnh vực khai thác dữ liệu ?

 Sự phát triển của công nghệ phần cứng,

công nghệ thu thập & quản lý DL, các thuật

toán phát triển mạnh.

 Nhu cầu phân tích dữ liệu để hỗ trợ quá

trình ra quyết định.

6

ÔN TẬP

Chương 1 :

thể được sử dụng trong quá trình khám phá

tri thức từ dữ liệu (KDD)?

 Các loại thông tin : thông tin thương mại,

sản xuất, khoa học và thông tin cá nhân.

 Các kiểu dữ liệu : DL có thuộc tính dạng phi

số, dạng liên tục, DL dạng tĩnh, động, DL

phân tán, DL văn bản, web, đa phương tiện:

hình ảnh, audio, video, …

loại dữ liệu, thông tin đã nêu trên.

Trang 4

ÔN TẬP

Chương 1 :

5 Khai thác dữ liệu gồm các loại nhiệm

vụ nào?

 Nhiệm vụ mô tả và dự đoán.

em loại nhiệm vụ nào của khai thác dữ

liệu được quan tâm nhiều nhất và được

ứng dụng nhiều trong :

8

Chương 2 :

 Do chất lượng DL trong thực tế là xấu.

 Chất lượng DL sẽ ảnh hưởng đến quá trình

ra quyết định.

ví dụ cụ thể từng bước.

 Làm sạch DL -> Chọn lọc/ Tích hợp DL ->

Biến đổi/ mã hóa DL -> Rút gọn DL

biểu đồ (histogram) có thể áp dụng vào

trong các bước nào của quá trình chuẩn bị

dữ liệu ?

 Làm sạch DL : khử nhiễu; Mã hóa DL : rời

rạc hóa DL; Rút gọn DL

ÔN TẬP

Trang 5

ÔN TẬP

Chương 3 :

khai thác luật kết hợp?

Bài toán khai thác tập phổ biến là bài

toán tìm tất cả các tập các hạng mục S

(hay tập phổ biến S) có độ phổ biến thỏa

mãn độ phổ biến tối thiểu minsupp:

supp(S)  minsupp

Bài toán khai thác LKH là bài toán tìm tất cả

các luật dạng X  Y (X, Y  I và X Y = {})

thỏa mãn độ phổ biến và độ tin cậy tối thiểu

supp (X  Y )  minsupp

conf (X  Y )  minconf

10

ÔN TẬP

Chương 3 :

Tập phổ biến tối đại, tập phổ biến đóng.

Tất cả các tập con của tập phổ biến đều là

tập phổ biến

Nếu tập con không phổ biến thì tập bao nó

(tập cha) không phổ biến.

Tập phổ biến tối đại : là tập phổ biến &

không tồn tại tập nào bao nó là phổ biến

Tập phổ biến đóng: là tập phổ biến & không

tồn tại tập nào bao nó có cùng độ phổ biến

như nó.

Trang 6

ÔN TẬP

Chương 3 :

11. Trình bày qui trình tìm luật kết hợp? Hãy đưa ra cải

tiến cho phương pháp tạo luật kết hợp từ tập phổ

biến (trong Bước 2 của qui trình)? Giải thích vì sao

nó hiệu quả hơn Cho ví dụ minh họa

B1: Tìm tất cả các tập phổ biến (theo ngưỡng minsupp)

B2:Tạo ra các luật từ các tập phổ biến (đã tìm thấy từ bước 1)

Đối với mỗi tập phổ biến S, tạo ra tất cả các tập con khác rỗng

của S Đối với mỗi tập con khác rỗng A của S,

o Luật A (S - A) là luật kết hợp cần tìm nếu :

 conf (A (S - A)) = supp(S) / supp(A) minconf

 Nghiên cứu cải tiến B2 trong tài liệu tham khảo

 P.-N Tan, M Steinbach, V Kumar, Chương 6

- Introduction to Data Mining

http://www-users.cs.umn.edu/~kumar/dmbook/ch6.pdf , pp.23

12

ÔN TẬP

Chương 3 :

12.Thuật toán Apriori? Hãy trình bày một

phương pháp cải tiến thuật toán

Apriori.

 Lưu ý : Chỉ tạo các ứng viên Ck+1 từ

tập phổ biến Lk theo đúng nguyên tắc

kết ứng viên và cần thực hiện bước

loại bỏ các ứng viên chứa ít nhất một

tập con không phổ biến.

 Phương pháp cải tiến : nghiên cứu

một trong các tài liệu tham khảo

trong bài giảng.

Trang 7

ÔN TẬP

Chương 3 :

13.Thuật toán Fp_growth? So sánh với

Apriori.

 Lưu ý: Trước khi tạo cây Fp cũng như

cây Fp-điều kiện, phải sắp xếp các

giao dịch/cơ sở mẫu điều kiện theo

thứ tự của danh sách f-list/các tập

một hạng mục phổ biến theo chiều

giảm dần.

14.Độ đo Interest xác định tính lý thú của

luật

) (

* ) (

) , ( )

(

Y P X P

Y X P Y

X

14

ÔN TẬP

Chương 4 :

dụng trong thực tế

Cho CSDL D={t 1 ,t 2 ,…,t n } và tập các lớp C={C 1 ,…,C m },

phân lớp là bài toán xác định ánh xạ f : DC sao cho

mỗi t i được gán vào một lớp.

http://www.kdnuggets.com/software/classif

ication.html

định?

 Áp dụng cho DL gồm các thuộc tính có dạng

phi số.

 Dựa trên độ đồng nhất của DL để phân chia:

IG, Gini index.

Trang 8

ƠN TẬP

Chương 4 :

17.Phương pháp phân lớp dựa trên luật?

 Xây dựng luật trực tiếp/gián tiếp từ DL: Thuật tốn

ILA/ rút luật từ cây quyết định.

 Thuật tốn ILA : chú ý thứ tự các tổ hợp thuộc tính

trong danh sách các thuộc tính kết hợp.

18.Phương pháp phân lớp dựa trên mơ hình

xác suất:Nạve Bayes?

 Áp dụng cho DL gồm các thuộc tính cĩ dạng phi số và

cả dạng số/giá trị liên tục.

 Nên sử dụng phương pháp làm trơn (Laplace) khi

ước lượng các xác suất.

16

ƠN TẬP

Chương 4 :

19.Phương pháp phân lớp dựa trên thể

hiện: thuật tốn k-NN? So sánh các

phương pháp phân lớp.

 Gán mẫu mới vào lớp cĩ số mẫu chiếm đa

số trong k mẫu láng giềng gần nĩ nhất

(hoặc mẫu mới nhận giá trị trung bình của k

mẫu).

 Nên chuẩn hĩa giá trị thuộc tính trước khi

thực hiện thuật tốn k-NN.

i i

i

v v

a

min max

min





Trang 9

ÔN TẬP

Chương 5 :

20.Phát biểu bài toán gom nhóm ? Cho ví

dụ ứng dụng trong thực tế.

Cho CSDL D={t 1 ,t 2 ,…,t n } và số nguyên k, gom nhóm

là bài toán xác định ánh xạ f : D {1,…,k} sao cho

mỗi t i được gán vào một nhóm (lớp) K j ,

1jk

http://www.kdnuggets.com/software/clus

tering.html

21.Phương pháp gom nhóm theo kiểu

phân hoạch: Thuật toán k-mean?

 Độ phức tạp của thuật toán phụ thuộc vào

việc lựa chọn k trung tâm cụm đầu tiên.

 Sử dụng độ đo Euclide để tính khoảng cách

giữa các đối tượng.

18

ÔN TẬP

Chương 5 :

22.Phương pháp gom nhóm theo kiểu

phân cấp : thuật toán Agnes?

 Lưu ý : phân biệt giữa 2 cách tính khoảng

cách giữa 2 nhóm theo Single link và

Complete link.

 Khi vẽ sơ đồ hình cây: cần thể hiện rõ thứ

tự gom nhóm cũng như vị trí trên trục Y –

khoảng cách mà các nhóm được gom lại

với nhau.

Trang 10

ÔN TẬP

Chương 6 :

quan? Các nhiệm vụ của text mining ?Trình

bày ví dụ ứng dụng thực tế

– Một nhánh của khai thác dữ liệu Mục đích :

tìm kiếm và rút trích tri thức từ tài liệu văn

bản

– Các lĩnh vực liên quan: Xử lý ngôn ngữ tự

nhiên, Rút trích thông tin, Truy vấn thông

tin, Web mining, Data mining chuẩn.

– Phân loại văn bản, gom nhóm tài liệu, xây

dựng tóm tắt, dự đoán, theo vết xu

hướng,…

.html

20

ÔN TẬP

Chương 6 :

24.Thế nào là Web mining? Phân loại web

mining ? Trình bày ví dụ ứng dụng thực

tế.

 Web mining = Data mining ( áp dụng cho tài

liệu Web và các dịch vụ) + Web technology.

 Web Content Mining : Tìm tri thức từ nội dung

Web ( nhiều loại dữ liệu như tài liệu, hình ảnh,

audio, video, hyperlinks, …)

 Web Structure Mining : Tìm các mô hình nằm

dưới các cấu trúc liên kết của Web

 Web Usage Mining : Tìm các tri thức từ hành vi

và quá trình sử dụng web của người dùng

http://www.kdnuggets.com/solutions/web-mining.html

Trang 11

Để trở thành chuyên gia

trong lĩnh vực Khai thác

Dữ liệu, các em cần

22

Tiêu đề	Ôn Tập Khai Thác Dữ Liệu Và Ứng Dụng
Người hướng dẫn	GV: Nguyễn Hoàng Tú Anh

Định dạng
Số trang	11
Dung lượng	842,25 KB