Ôn tập khai thác dữ liệu và ứng dụng
Trang 1KHAI THÁC
DỮ LIỆU &
ỨNG DỤNG
(DATA MINING)
GV : NGUYỄN HOÀNG TÚ ANH
2
ÔN TẬP
Trang 23 3
HÌNH THỨC KIỂM TRA VÀ
ĐÁNH GIÁ
• Hệ thống thang điểm :
– Bài tập theo nhóm : 1.5 điểm
– Bài kiểm tra giữa kỳ : 1.5 điểm
4
Cấu trúc đề thi cuối kỳ
1 Thời gian : 120’
2 Được sử dụng tài liệu, không sử dụng
Laptop.
3 Đề thi gồm 3 câu
: Tập phổ biến và luật kết hợp.
b) Câu 2 (3 điểm): nội dung thuộc chương 4
và 5 : Phân lớp, gom nhóm
tổng hợp từ kiến thức của tất cả các
chương.
Trang 3ÔN TẬP
Chương 1 :
Quá trình không tầm thường của việc xác
định các mẫu tiềm ẩn có tính hợp lệ, mới lạ,
có ích và có thể hiểu được tối đa trong
CSDL.
lĩnh vực khai thác dữ liệu ?
Sự phát triển của công nghệ phần cứng,
công nghệ thu thập & quản lý DL, các thuật
toán phát triển mạnh.
Nhu cầu phân tích dữ liệu để hỗ trợ quá
trình ra quyết định.
6
ÔN TẬP
Chương 1 :
thể được sử dụng trong quá trình khám phá
tri thức từ dữ liệu (KDD)?
Các loại thông tin : thông tin thương mại,
sản xuất, khoa học và thông tin cá nhân.
Các kiểu dữ liệu : DL có thuộc tính dạng phi
số, dạng liên tục, DL dạng tĩnh, động, DL
phân tán, DL văn bản, web, đa phương tiện:
hình ảnh, audio, video, …
loại dữ liệu, thông tin đã nêu trên.
Trang 4ÔN TẬP
Chương 1 :
5 Khai thác dữ liệu gồm các loại nhiệm
vụ nào?
Nhiệm vụ mô tả và dự đoán.
em loại nhiệm vụ nào của khai thác dữ
liệu được quan tâm nhiều nhất và được
ứng dụng nhiều trong :
8
Chương 2 :
Do chất lượng DL trong thực tế là xấu.
Chất lượng DL sẽ ảnh hưởng đến quá trình
ra quyết định.
ví dụ cụ thể từng bước.
Làm sạch DL -> Chọn lọc/ Tích hợp DL ->
Biến đổi/ mã hóa DL -> Rút gọn DL
biểu đồ (histogram) có thể áp dụng vào
trong các bước nào của quá trình chuẩn bị
dữ liệu ?
Làm sạch DL : khử nhiễu; Mã hóa DL : rời
rạc hóa DL; Rút gọn DL
ÔN TẬP
Trang 5ÔN TẬP
Chương 3 :
khai thác luật kết hợp?
Bài toán khai thác tập phổ biến là bài
toán tìm tất cả các tập các hạng mục S
(hay tập phổ biến S) có độ phổ biến thỏa
mãn độ phổ biến tối thiểu minsupp:
supp(S) minsupp
Bài toán khai thác LKH là bài toán tìm tất cả
các luật dạng X Y (X, Y I và X Y = {})
thỏa mãn độ phổ biến và độ tin cậy tối thiểu
supp (X Y ) minsupp
conf (X Y ) minconf
10
ÔN TẬP
Chương 3 :
Tập phổ biến tối đại, tập phổ biến đóng.
Tất cả các tập con của tập phổ biến đều là
tập phổ biến
Nếu tập con không phổ biến thì tập bao nó
(tập cha) không phổ biến.
Tập phổ biến tối đại : là tập phổ biến &
không tồn tại tập nào bao nó là phổ biến
Tập phổ biến đóng: là tập phổ biến & không
tồn tại tập nào bao nó có cùng độ phổ biến
như nó.
Trang 6ÔN TẬP
Chương 3 :
11. Trình bày qui trình tìm luật kết hợp? Hãy đưa ra cải
tiến cho phương pháp tạo luật kết hợp từ tập phổ
biến (trong Bước 2 của qui trình)? Giải thích vì sao
nó hiệu quả hơn Cho ví dụ minh họa
B1: Tìm tất cả các tập phổ biến (theo ngưỡng minsupp)
B2:Tạo ra các luật từ các tập phổ biến (đã tìm thấy từ bước 1)
Đối với mỗi tập phổ biến S, tạo ra tất cả các tập con khác rỗng
của S Đối với mỗi tập con khác rỗng A của S,
o Luật A (S - A) là luật kết hợp cần tìm nếu :
conf (A (S - A)) = supp(S) / supp(A) minconf
Nghiên cứu cải tiến B2 trong tài liệu tham khảo
P.-N Tan, M Steinbach, V Kumar, Chương 6
- Introduction to Data Mining
http://www-users.cs.umn.edu/~kumar/dmbook/ch6.pdf , pp.23
12
ÔN TẬP
Chương 3 :
12.Thuật toán Apriori? Hãy trình bày một
phương pháp cải tiến thuật toán
Apriori.
Lưu ý : Chỉ tạo các ứng viên Ck+1 từ
tập phổ biến Lk theo đúng nguyên tắc
kết ứng viên và cần thực hiện bước
loại bỏ các ứng viên chứa ít nhất một
tập con không phổ biến.
Phương pháp cải tiến : nghiên cứu
một trong các tài liệu tham khảo
trong bài giảng.
Trang 7ÔN TẬP
Chương 3 :
13.Thuật toán Fp_growth? So sánh với
Apriori.
Lưu ý: Trước khi tạo cây Fp cũng như
cây Fp-điều kiện, phải sắp xếp các
giao dịch/cơ sở mẫu điều kiện theo
thứ tự của danh sách f-list/các tập
một hạng mục phổ biến theo chiều
giảm dần.
14.Độ đo Interest xác định tính lý thú của
luật
) (
* ) (
) , ( )
(
Y P X P
Y X P Y
X
14
ÔN TẬP
Chương 4 :
dụng trong thực tế
Cho CSDL D={t 1 ,t 2 ,…,t n } và tập các lớp C={C 1 ,…,C m },
phân lớp là bài toán xác định ánh xạ f : DC sao cho
mỗi t i được gán vào một lớp.
http://www.kdnuggets.com/software/classif
ication.html
định?
Áp dụng cho DL gồm các thuộc tính có dạng
phi số.
Dựa trên độ đồng nhất của DL để phân chia:
IG, Gini index.
Trang 8ƠN TẬP
Chương 4 :
17.Phương pháp phân lớp dựa trên luật?
Xây dựng luật trực tiếp/gián tiếp từ DL: Thuật tốn
ILA/ rút luật từ cây quyết định.
Thuật tốn ILA : chú ý thứ tự các tổ hợp thuộc tính
trong danh sách các thuộc tính kết hợp.
18.Phương pháp phân lớp dựa trên mơ hình
xác suất:Nạve Bayes?
Áp dụng cho DL gồm các thuộc tính cĩ dạng phi số và
cả dạng số/giá trị liên tục.
Nên sử dụng phương pháp làm trơn (Laplace) khi
ước lượng các xác suất.
16
ƠN TẬP
Chương 4 :
19.Phương pháp phân lớp dựa trên thể
hiện: thuật tốn k-NN? So sánh các
phương pháp phân lớp.
Gán mẫu mới vào lớp cĩ số mẫu chiếm đa
số trong k mẫu láng giềng gần nĩ nhất
(hoặc mẫu mới nhận giá trị trung bình của k
mẫu).
Nên chuẩn hĩa giá trị thuộc tính trước khi
thực hiện thuật tốn k-NN.
i i
i i
i
v v
v v
a
min max
min
Trang 9ÔN TẬP
Chương 5 :
20.Phát biểu bài toán gom nhóm ? Cho ví
dụ ứng dụng trong thực tế.
Cho CSDL D={t 1 ,t 2 ,…,t n } và số nguyên k, gom nhóm
là bài toán xác định ánh xạ f : D {1,…,k} sao cho
mỗi t i được gán vào một nhóm (lớp) K j ,
1jk
http://www.kdnuggets.com/software/clus
tering.html
21.Phương pháp gom nhóm theo kiểu
phân hoạch: Thuật toán k-mean?
Độ phức tạp của thuật toán phụ thuộc vào
việc lựa chọn k trung tâm cụm đầu tiên.
Sử dụng độ đo Euclide để tính khoảng cách
giữa các đối tượng.
18
ÔN TẬP
Chương 5 :
22.Phương pháp gom nhóm theo kiểu
phân cấp : thuật toán Agnes?
Lưu ý : phân biệt giữa 2 cách tính khoảng
cách giữa 2 nhóm theo Single link và
Complete link.
Khi vẽ sơ đồ hình cây: cần thể hiện rõ thứ
tự gom nhóm cũng như vị trí trên trục Y –
khoảng cách mà các nhóm được gom lại
với nhau.
Trang 10ÔN TẬP
Chương 6 :
quan? Các nhiệm vụ của text mining ?Trình
bày ví dụ ứng dụng thực tế
– Một nhánh của khai thác dữ liệu Mục đích :
tìm kiếm và rút trích tri thức từ tài liệu văn
bản
– Các lĩnh vực liên quan: Xử lý ngôn ngữ tự
nhiên, Rút trích thông tin, Truy vấn thông
tin, Web mining, Data mining chuẩn.
– Phân loại văn bản, gom nhóm tài liệu, xây
dựng tóm tắt, dự đoán, theo vết xu
hướng,…
.html
20
ÔN TẬP
Chương 6 :
24.Thế nào là Web mining? Phân loại web
mining ? Trình bày ví dụ ứng dụng thực
tế.
Web mining = Data mining ( áp dụng cho tài
liệu Web và các dịch vụ) + Web technology.
Web Content Mining : Tìm tri thức từ nội dung
Web ( nhiều loại dữ liệu như tài liệu, hình ảnh,
audio, video, hyperlinks, …)
Web Structure Mining : Tìm các mô hình nằm
dưới các cấu trúc liên kết của Web
Web Usage Mining : Tìm các tri thức từ hành vi
và quá trình sử dụng web của người dùng
http://www.kdnuggets.com/solutions/web-mining.html
Trang 11Để trở thành chuyên gia
trong lĩnh vực Khai thác
Dữ liệu, các em cần
22