Ôn tập khai thác dữ liệu và ứng dụng

11 3.6K 34
Ôn tập khai thác dữ liệu và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Ôn tập khai thác dữ liệu và ứng dụng

11KHAI THÁC DỮ LIỆU & ỨNG DỤNG(DATA MINING)GV : NGUYỄN HOÀNG TÚ ANH2ÔN TẬP 233HÌNH THỨC KIỂM TRA ĐÁNH GIÁ• Hệ thống thang điểm :– Bài thi lý thuyết : 7 điểm– Bài tập theo nhóm : 1.5 điểm– Bài kiểm tra giữa kỳ : 1.5 điểm4Cấu trúc đề thi cuối kỳ 1. Thời gian : 120’2. Được sử dụng tài liệu, không sử dụngLaptop.3. Đề thi gồm 3 câua) Câu 1(3 điểm): nội dung thuộc chương 3: Tập phổ biến luật kết hợp.b) Câu 2 (3 điểm): nội dung thuộc chương 4và 5 : Phân lớp, gom nhómc) Câu 3 (1điểm): câu hỏi dạng phân tích,tổng hợp từ kiến thức của tất cả cácchương. 35ÔN TẬP Chương 1 :1. Khai thác dữ liệu là gì? Quá trình không tầm thường của việc xácđịnh các mẫu tiềm ẩn có tính hợp lệ, mới lạ,có ích có thể hiểu được tối đa trongCSDL.2. Nguyên nhân nào dẫn đến sự cần thiết củalĩnh vực khai thác dữ liệu ? Sự phát triển của công nghệ phần cứng,công nghệ thu thập & quản lý DL, các thuậttoán phát triển mạnh. Nhu cầu phân tích dữ liệu để hỗ trợ quátrình ra quyết định.6ÔN TẬP Chương 1 :3. Các kiểu dữ liệu các loại thông tin nào cóthể được sử dụng trong quá trình khám phátri thức từ dữ liệu (KDD)? Các loại thông tin : thông tin thương mại,sản xuất, khoa học thông tin cá nhân. Các kiểu dữ liệu : DL có thuộc tính dạng phisố, dạng liên tục, DL dạng tĩnh, động, DLphân tán, DL văn bản, web, đa phương tiện:hình ảnh, audio, video, …4. Trình bày một vài ví dụ thực tế có sử dụngloại dữ liệu, thông tin đã nêu trên. www.kdnuggets.com/solutions/index.html 47ÔN TẬP Chương 1 :5. Khai thác dữ liệu gồm các loại nhiệmvụ nào? Nhiệm vụ mô tả dự đoán. Dựa trên kinh nghiệm bản thân, theo cácem loại nhiệm vụ nào của khai thác dữliệu được quan tâm nhiều nhất đượcứng dụng nhiều trong : Lĩnh vực kinh doanh Lĩnh vực giáo dục8Chương 2 :6. Tại sao cần chuẩn bị DL? Do chất lượng DL trong thực tế là xấu. Chất lượng DL sẽ ảnh hưởng đến quá trìnhra quyết định.7. Các bước trong quá trình chuẩn bị DL ? Choví dụ cụ thể từng bước. Làm sạch DL -> Chọn lọc/ Tích hợp DL ->Biến đổi/ mã hóa DL -> Rút gọn DL8. Phương pháp chia giỏ, phương pháp sử dụngbiểu đồ (histogram) có thể áp dụng vàotrong các bước nào của quá trình chuẩn bịdữ liệu ? Làm sạch DL : khử nhiễu; Mã hóa DL : rờirạc hóa DL; Rút gọn DL .ÔN TẬP 59ÔN TẬP Chương 3 :9. Phát biểu bài toán khai thác tập phổ biến,khai thác luật kết hợp?Bài toán khai thác tập phổ biến là bàitoán tìm tất cả các tập các hạng mục S(hay tập phổ biến S) có độ phổ biến thỏamãn độ phổ biến tối thiểu minsupp:supp(S) minsuppBài toán khai thác LKH là bài toán tìm tất cảcác luật dạng X  Y (X, Y  I X Y = {})thỏa mãn độ phổ biến độ tin cậy tối thiểusupp (X  Y )  minsuppconf (X  Y )  minconf10ÔN TẬP Chương 3 :10. Trình bày các tính chất của tập phổ biến?Tập phổ biến tối đại, tập phổ biến đóng.Tất cả các tập con của tập phổ biến đều làtập phổ biến .Nếu tập con không phổ biến thì tập bao nó(tập cha) không phổ biến.Tập phổ biến tối đại : là tập phổ biến &không tồn tại tập nào bao nó là phổ biếnTập phổ biến đóng: là tập phổ biến & khôngtồn tại tập nào bao nó có cùng độ phổ biếnnhư nó. 611ÔN TẬP Chương 3 :11. Trình bày qui trình tìm luật kết hợp? Hãy đưa ra cảitiến cho phương pháp tạo luật kết hợp từ tập phổbiến (trong Bước 2 của qui trình)? Giải thích vì saonó hiệu quả hơn. Cho ví dụ minh họa.B1 : Tìm tất cả các tập phổ biến (theo ngưỡng minsupp)B2 : Tạo ra các luật từ các tập phổ biến (đã tìm thấy từ bước 1)Đối với mỗi tập phổ biến S, tạo ra tất cả các tập con khác rỗngcủa S. Đối với mỗi tập con khác rỗng A của S,o Luật A  (S - A) là luật kết hợp cần tìm nếu :  conf (A  (S - A)) = supp(S) / supp(A)  minconf Nghiên cứu cải tiến B2 trong tài liệu tham khảo P.-N. Tan, M. Steinbach, V. Kumar, Chương 6 - Introduction to Data Mininghttp://www-users.cs.umn.edu/~kumar/dmbook/ch6.pdf, pp.2312ÔN TẬP Chương 3 :12.Thuật toán Apriori? Hãy trình bày mộtphương pháp cải tiến thuật toánApriori. Lưu ý : Chỉ tạo các ứng viên Ck+1từtập phổ biến Lktheo đúng nguyên tắckết ứng viên cần thực hiện bướcloại bỏ các ứng viên chứa ít nhất mộttập con không phổ biến. Phương pháp cải tiến : nghiên cứumột trong các tài liệu tham khảotrong bài giảng. 713ÔN TẬP Chương 3 :13.Thuật toán Fp_growth? So sánh vớiApriori. Lưu ý: Trước khi tạo cây Fp cũng nhưcây Fp-điều kiện, phải sắp xếp cácgiao dịch/cơ sở mẫu điều kiện theothứ tự của danh sách f-list/các tậpmột hạng mục phổ biến theo chiềugiảm dần.14.Độ đo Interest xác định tính lý thú củaluật)(*)(),()(YPXPYXPYXInterest 14ÔN TẬP Chương 4 :15. Phát biểu bài toán phân lớp ? Cho ví dụ ứngdụng trong thực tế .Cho CSDL D={t1,t2,…,tn} tập các lớp C={C1,…,Cm},phân lớp là bài toán xác định ánh xạ f : DC sao chomỗi tiđược gán vào một lớp.http://www.kdnuggets.com/software/classification.html16. Phương pháp phân lớp dựa trên cây quyếtđịnh? Áp dụng cho DL gồm các thuộc tính có dạngphi số. Dựa trên độ đồng nhất của DL để phân chia:IG, Gini index. 815ễN TP Chng 4 :17.Phng phỏp phõn lp da trờn lut? Xõy dng lut trc tip/giỏn tip t DL: Thut toỏnILA/ rỳt lut t cõy quyt nh. Thut toỏn ILA : chỳ ý th t cỏc t hp thuc tớnhtrong danh sỏch cỏc thuc tớnh kt hp.18.Phng phỏp phõn lp da trờn mụ hỡnhxỏc sut:Naùve Bayes? p dng cho DL gm cỏc thuc tớnh cú dng phi s vc dng s/giỏ tr liờn tc. Nờn s dng phng phỏp lm trn (Laplace) khic lng cỏc xỏc sut.16ễN TP Chng 4 :19.Phng phỏp phõn lp da trờn thhin: thut toỏn k-NN? So sỏnh cỏcphng phỏp phõn lp. Gỏn mu mi vo lp cú s mu chim as trong k mu lỏng ging gn nú nht(hoc mu mi nhn giỏ tr trung bỡnh ca kmu). Nờn chun húa giỏ tr thuc tớnh trc khithc hin thut toỏn k-NN.iiiiivvvvaminmaxmin 917ÔN TẬP Chương 5 :20.Phát biểu bài toán gom nhóm ? Cho vídụ ứng dụng trong thực tế.Cho CSDL D={t1,t2,…,tn} số nguyên k, gom nhómlà bài toán xác định ánh xạ f : D {1,…,k} sao chomỗi tiđược gán vào một nhóm (lớp) Kj,1  j  k .http://www.kdnuggets.com/software/clustering.html21.Phương pháp gom nhóm theo kiểuphân hoạch: Thuật toán k-mean? Độ phức tạp của thuật toán phụ thuộc vàoviệc lựa chọn k trung tâm cụm đầu tiên. Sử dụng độ đo Euclide để tính khoảng cáchgiữa các đối tượng.18ÔN TẬP Chương 5 :22.Phương pháp gom nhóm theo kiểuphân cấp : thuật toán Agnes? Lưu ý : phân biệt giữa 2 cách tính khoảngcách giữa 2 nhóm theo Single link vàComplete link. Khi vẽ sơ đồ hình cây: cần thể hiện rõ thứtự gom nhóm cũng như vị trí trên trục Y –khoảng cách mà các nhóm được gom lạivới nhau. 1019ÔN TẬP Chương 6 :23. Thế nào là Text mining? Các lĩnh vực liênquan? Các nhiệm vụ của text mining ?Trìnhbày ví dụ ứng dụng thực tế .– Một nhánh của khai thác dữ liệu. Mục đích :tìm kiếm rút trích tri thức từ tài liệu vănbản– Các lĩnh vực liên quan: Xử lý ngôn ngữ tựnhiên, Rút trích thông tin, Truy vấn thôngtin, Web mining, Data mining chuẩn.– Phân loại văn bản, gom nhóm tài liệu, xâydựng tóm tắt, dự đoán, theo vết xuhướng,…– http://www.kdnuggets.com/software/text.html20ÔN TẬP Chương 6 :24.Thế nào là Web mining? Phân loại webmining ? Trình bày ví dụ ứng dụng thựctế. Web mining = Data mining ( áp dụng cho tàiliệu Web các dịch vụ) + Web technology. Web Content Mining : Tìm tri thức từ nội dungWeb ( nhiều loại dữ liệu như tài liệu, hình ảnh,audio, video, hyperlinks, …) Web Structure Mining : Tìm các mô hình nằmdưới các cấu trúc liên kết của Web Web Usage Mining : Tìm các tri thức từ hành vivà quá trình sử dụng web của người dùng http://www.kdnuggets.com/solutions/web-mining.html [...]...2 3 3 HÌNH THỨC KIỂM TRA ĐÁNH GIÁ • Hệ thống thang điểm : – Bài thi lý thuyết : 7 điểm – Bài tập theo nhóm : 1.5 điểm – Bài kiểm tra giữa kỳ : 1.5 điểm 4 Cấu trúc đề thi cuối kỳ 1. Thời gian : 120’ 2. Được sử dụng tài liệu, không sử dụng Laptop. 3. Đề thi gồm 3 câu a) Câu 1(3 điểm): nội dung thuộc chương 3 : Tập phổ biến luật kết hợp. b) Câu 2 (3 điểm): nội dung thuộc chương 4 và 5 : Phân lớp, gom... 2 (3 điểm): nội dung thuộc chương 4 và 5 : Phân lớp, gom nhóm c) Câu 3 (1điểm): câu hỏi dạng phân tích, tổng hợp từ kiến thức của tất cả các chương. 11 21 Để trở thành chuyên gia trong lĩnh vực Khai thác Dữ liệu, các em cần  Nghiên cứu nhiều hơn  Đọc nhiều hơn 22 . hóa DL; Rút gọn DL .ÔN TẬP 5 9ÔN TẬP Chương 3 :9. Phát biểu bài toán khai thác tập phổ biến ,khai thác luật kết hợp?Bài toán khai thác tập phổ biến là bàitoán. bày một vài ví dụ thực tế có sử dụngloại dữ liệu, thông tin đã nêu trên. www.kdnuggets.com/solutions/index.html 4 7ÔN TẬP Chương 1 :5. Khai thác dữ liệu gồm

Ngày đăng: 31/08/2012, 16:47

Hình ảnh liên quan

18. Phương pháp phân lớp dựa trên mơ hình xác suất:Nạve Bayes?xác suất:Nạve Bayes? - Ôn tập khai thác dữ liệu và ứng dụng

18..

Phương pháp phân lớp dựa trên mơ hình xác suất:Nạve Bayes?xác suất:Nạve Bayes? Xem tại trang 8 của tài liệu.
17. Phương pháp phân lớp dựa trên luật?  Xây dựng luật trực tiếp/gián tiếp từ DL: Thuật tốn - Ôn tập khai thác dữ liệu và ứng dụng

17..

Phương pháp phân lớp dựa trên luật?  Xây dựng luật trực tiếp/gián tiếp từ DL: Thuật tốn Xem tại trang 8 của tài liệu.
 Khi vẽ sơ đồ hình cây: cần thể hiện rõ thứ tự gom nhĩm cũng như vị trí trên trục Y – khoảng cách mà các nhĩm được gom lại với nhau. - Ôn tập khai thác dữ liệu và ứng dụng

hi.

vẽ sơ đồ hình cây: cần thể hiện rõ thứ tự gom nhĩm cũng như vị trí trên trục Y – khoảng cách mà các nhĩm được gom lại với nhau Xem tại trang 9 của tài liệu.
20. Phát biểu bài tốn gom nhĩm ? Cho ví dụ ứng dụng trong thực tế. - Ôn tập khai thác dữ liệu và ứng dụng

20..

Phát biểu bài tốn gom nhĩm ? Cho ví dụ ứng dụng trong thực tế Xem tại trang 9 của tài liệu.
Web ( nhiều loại dữ liệu như tài liệu, hình ảnh, audio, video, hyperlinks, …) - Ôn tập khai thác dữ liệu và ứng dụng

eb.

( nhiều loại dữ liệu như tài liệu, hình ảnh, audio, video, hyperlinks, …) Xem tại trang 10 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan