Bài tập kết thúc môn khai phá dữ liệu

11 24 0
Bài tập kết thúc môn khai phá dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Câu 1. (4.0 điểm) Cho CSDL giao dịch nhị phân như sau: Mã giao dịch A B C D E F 100 1 1 1 0 1 0 200 0 0 1 1 1 1 300 1 1 1 0 1 0 400 1 0 1 1 1 0 500 1 1 1 1 1 0 600 0 1 1 1 1 1 a) Tìm tất cả các tập phổ biến từ CSDL giao dịch trên thỏa ngưỡng minSup=50% bằng thuật toán Apriori. b) Liệt kê các tập phổ biến tối đại c) Tìm các luật kết hợp được xây dựng từ tập phổ biến tối đại, thỏa mãn ngưỡng minConf =80% Câu 2. (5.0 điểm) Cho tập dữ liệu huấn luyện như sau: Mã số Tuổi Thu nhập Nghề nghiệp Thẻ ATM Đi du lịch? N1 Trẻ Cao Tự do Không Không N2 Trẻ Cao Tự do Có Không N3 Trung niên Cao Tự do Không Đi N4 Lớn TB Tự do Không Đi N5 Lớn Thấp SV Không Đi N6 Lớn Thấp SV Có Không N7 Trung niên Thấp SV Có Đi N8 Trẻ TB Tự do Không Không N9 Trẻ Thấp SV Không Đi N10 Lớn TB SV Không Đi N11 Trẻ TB SV Có Đi N12 Trung niên TB Tự do Có Đi N13 Trung niên Cao SV Không Đi N14 Lớn TB Tự do Có Không a) Xây dựng cây quyết định sử dụng thuật toán ID3 (độ đo Information Gain) với cột “Đi du lịch” là thuộc tính phân lớp cho 8 dòng dữ liệu đầu. b) Xác định tập luật dựa trên cây quyết định. Đánh giá đô chính xác của tập luật dựa vào 4 dòng dữ liệu cuối. c) Hãy phân lớp dữ liệu cho 2 mẫu tin sau: Mã số Tuổi Thu nhập Nghề nghiệp Thẻ ATM Đi dụ lịch? N1 Trẻ Thấp Tự do Không ? N2 Lớn Cao Tự do Có ? Câu 3. (1.0 điểm) a) Trình bày ngắn gọn thuật toán KMeans b) Một xe đón khách về bến xe Cao Lãnh của công ty Phương Trang muốn đón n khách hàng. Do thời gian đón khách ít nên công ty muốn gom khách hàng về k địa điểm để tiện lợi việc đón. Giả sử n=5, và k = 2. Năm khách hàng đang ở các tọa độ A(1,1), B(3,1), C(3,3), D(4,2), E(1,3). Anh Chị hãy cho biết nên hẹn khách tại địa điểm nào để việc đưa đón là thuận tiện nhất. Cho biết tọa độ của 2 điểm cần đón khách. Giả sử độ đo khoảng cách cần sử dụng là độ đo Manhattan. Hết

Môn: Khai phá liệu GVHD: Trần Kim Hương TRƯỜNG ĐẠI HỌC ĐỒNG THÁP LỚP LIÊN THÔNG ĐHSP TIN CÀ MAU - - BÀI TẬP LỚN KẾT THÚC HỌC PHẦN KHAI PHÁ DỮ LIỆU Giảng viên hướng dẫn: Trần Kim Hương Sinh viên thực hiện: Trần Văn Kiếm MSSV: 6120440556 CÀ MAU – 02/2022 SV thực hiện: Trần Văn Kiếm MSSV: 6120440556 PAGE Môn: Khai phá liệu GVHD: Trần Kim Hương I NỘI DUNG ĐỀ Câu (4.0 điểm) Cho CSDL giao dịch nhị phân sau: Mã giao dịch A B C D E F 100 1 1 200 0 1 1 300 1 1 400 1 1 500 1 1 600 1 1 a) Tìm tất tập phổ biến từ CSDL giao dịch thỏa ngưỡng minSup=50% thuật toán Apriori b) Liệt kê tập phổ biến tối đại c) Tìm luật kết hợp xây dựng từ tập phổ biến tối đại, thỏa mãn ngưỡng minConf =80% Câu (5.0 điểm) Cho tập liệu huấn luyện sau: Mã số N1 Tuổi Thu nhập Nghề nghiệp Thẻ ATM Trẻ Cao Tự Không Đi du lịch? Khơng N2 Trẻ Cao Tự Có Khơng N3 Trung niên Cao Tự Không Đi N4 Lớn TB Tự Không Đi N5 Lớn Thấp SV Không Đi N6 Lớn Thấp SV Có Khơng N7 Trung niên Thấp SV Có Đi N8 Trẻ TB Tự Khơng Không N9 Trẻ Thấp SV Không Đi N10 Lớn TB SV Khơng Đi N11 Trẻ TB SV Có Đi SV thực hiện: Trần Văn Kiếm MSSV: 6120440556 PAGE Môn: Khai phá liệu GVHD: Trần Kim Hương N12 Trung niên TB Tự Có Đi N13 Trung niên Cao SV Khơng Đi N14 Lớn TB Tự Có Khơng a) Xây dựng định sử dụng thuật toán ID3 (độ đo Information Gain) với cột “Đi du lịch” thuộc tính phân lớp cho dịng liệu đầu b) Xác định tập luật dựa định Đánh giá xác tập luật dựa vào dòng liệu cuối c) Hãy phân lớp liệu cho mẫu tin sau: Mã số Tuổi Thu nhập Nghề nghiệp Thẻ ATM N1 Trẻ Thấp Tự Khơng ? N2 Lớn Cao Tự Có ? Đi dụ lịch? Câu (1.0 điểm) a) Trình bày ngắn gọn thuật tốn K-Means b) Một xe đón khách bến xe Cao Lãnh công ty Phương Trang muốn đón n khách hàng Do thời gian đón khách nên công ty muốn gom khách hàng k địa điểm để tiện lợi việc đón Giả sử n=5, k = Năm khách hàng tọa độ A(1,1), B(3,1), C(3,3), D(4,2), E(1,3) Anh/ Chị cho biết nên hẹn khách địa điểm để việc đưa đón thuận tiện Cho biết tọa độ điểm cần đón khách Giả sử độ đo khoảng cách cần sử dụng độ đo Manhattan -Hết - SV thực hiện: Trần Văn Kiếm MSSV: 6120440556 PAGE Môn: Khai phá liệu GVHD: Trần Kim Hương II BÀI LÀM Câu 1: a) Tìm tất tập phổ biến từ CSDL giao dịch thỏa ngưỡng minSup=50% thuật tốn Apriori Ta có: minSup=50% => minCount=3 - Xác định tập dự tuyển C1: Itemset A B C D E F Supp_Count 4 - Tập phổ biến L1: Itemset A B C D E Supp_Count 4 - Tập dự tuyển C2: Itemset {A,B} {A,C} {A,D} {A,E} {B,C} {B,D} {B,E} {C,D} {C,E} {D,E} Supp_Count 4 4 - Tập phổ biến L2: Itemset {A,B} {A,C} {A,E} {B,C} SV thực hiện: Trần Văn Kiếm Supp_Count 4 MSSV: 6120440556 PAGE Môn: Khai phá liệu GVHD: Trần Kim Hương {B,E} {C,D} {C,E} {D,E} - Tập dự tuyển C3: Itemset {A,B,C} {A,B,E} {A,B,D} {A,C,E} {A,C,D} {A,D,E} {B,C,E} {B,C,D} {B,E,D} {C,D,E} Supp_Count 3 2 3 - Tập phổ biển L3: Itemset {A,B,C} {A,B,E} {A,C,E} {B,C,E} {C,D,E} Supp_Count 3 3 - Tập dự tuyển C4: Itemset {A,B,C,E} {A,B,C,D} {A,B,E,D} {A,C,E,D} {B,C,E,D} Supp_Count 1 - Tập phổ biến L4: Itemset {A,B,C,E} Supp_Count - Tập dự tuyển C5 rỗng Như L1+L2+L3+L4 có 19 tập phổ biến b) Tập phổ biến tối đại là: {A,B,C,E}; {C,D,E} c) Các luật kết hợp xây dựng từ tập phổ biến tối đại: - Tập {A,B,C,E} SV thực hiện: Trần Văn Kiếm MSSV: 6120440556 PAGE Môn: Khai phá liệu GVHD: Trần Kim Hương {A}, {B}, {C}, {E}, {A,B}, {A,C}, {A,E}, {B,C}, {B,E}, {C,E}, {A,B,C}, {A,B,E}, {A,C,E}, {B,C,E} {A} {B,C,E} {B} {A,C,E} confidence = 3/4 =75% confidence = 3/4 =75% {C} {A,B,E} confidence = 3/6 = 50% {E} {A,B,C} confidence = 3/5 = 60% {A,B} {C,E} confidence = 3/3 = 100% {A,C} {B,E} confidence = 3/4 = 75% {A,E} {B,C} confidence = 3/4 = 75% {B,C} {A,E} confidence = 3/4 = 75% {B,E} {A,C} confidence = 3/3 = 100% {C,E} {A,B} confidence = 3/5 = 60% {A,B,C} {E} confidence = 3/3 = 100% {A,B,E} {C} confidence = 3/3 = 100% {A,C,E} {B} confidence = 3/4 = 75% {B,C,E} {A} confidence = 3/3 = 100% - Luật kết hợp thỏa mincof = 80% {A,B} {C,E} confidence = 3/3 = 100% {B,E} {A,C} confidence = 3/3 = 100% {A,B,C} {E} confidence = 3/3 = 100% {A,B,E} {C} confidence = 3/3 = 100% {B,C,E} {A} confidence = 3/3 = 100% - Tập {C,D,E} {C}, {D}, {E}, {C,D}, {C,E}, {D,E} {C} {D,E} confidence = 3/6 =50% {D} {C,E} confidence = 3/4 = 75% {E} {C,D} confidence = 3/5 =60% {C,D} {E} confidence = 3/4 = 75% {C,E} {D} confidence = 3/5 =60% {D,E} {C} confidence = 3/3 = 100% - Luật kết hợp thỏa mincof = 80% {D,E} {C} confidence = 3/3 = 100% SV thực hiện: Trần Văn Kiếm MSSV: 6120440556 PAGE Môn: Khai phá liệu GVHD: Trần Kim Hương Câu 2: a) Xây dựng định sử dụng thuật toán ID3 (độ đo Information Gain) với cột “Đi du lịch” thuộc tính phân lớp cho dịng liệu đầu: Tính lần 1: |S|=8; Ta có:  E(S)= E[4+,4-]= -4/8log2(4/8) – 4/8log2(4/8) = * A=Tuổi Value ={Trẻ, Trung niên, Lớn} Ta có:  Gain(S,Tuổi)= E[4+,4-] – (3/8* E[0+,3-] + 2/8* E[2+,0-] + 3/8*E[2+,1-]) = – (3/8*0 + 2/8*0 + 3/8*0,918) = 0,65575 * A=Thu nhập Value = {Cao, TB, Thấp} Gain(S,Thu nhập)= E[4+,4-] – (3/8* E[1+,2-] + 2/8* E[1+,1-] + 3/8*E[2+,1-]) = – (3/8*0,918 + 2/8*1 + 3/8*0,918) = 0,0615 * A= Nghề nghiệp Value = {Tự do, SV} Gain(S,Nghề nghiệp)= E[4+,4-] – (5/8* E[2+,3-] + 3/8* E[2+,1-]) = – (5/8*0,97 + 3/8*0,918) = 0,0495 * A= Thẻ ATM Value = {Có, Khơng} Gain(S,Thẻ ATM)= E[4+,4-] – (5/8* E[3+,2-] + 3/8* E[1+,2-]) = – (5/8*0,97 + 3/8*0,918) = 0,0495 Do Gain tuổi lớn nên ta chọn tuổi làm nút gốc Tuổi Trẻ E[0+,3-] Không SV thực hiện: Trần Văn Kiếm Trung niên E[2+,0-] Đi MSSV: 6120440556 Lớn E[2+, 1-] ???? PAGE Môn: Khai phá liệu GVHD: Trần Kim Hương Tính lần 2: S(Tuổi = Lớn) = {Mã số: N4, N5, N6} E(Tuổi = Lớn) = E[2+,1-] = - 2/3log2(2/3) – 1/3log2(1/3) = 0,918 ** A=Thu nhập = {TB, Thấp} = E[2+,1-] - (1/3* E[1+,0-] + 2/3* E[1+,1-]) = 0,918 – (0 + 2/3*1) = 0,2513 ** A=Nghề nghiệp = {Tự do, SV} = E[2+,1-] - (1/3* E[1+,0-] + 2/3* E[1+,1-]) = 0,918 – (0 + 2/3*1) = 0,2513 ** A=Thẻ ATM= {Khơng, Có} = E[2+,1-] - (2/3* E[2+,0-] + 2/3* E[0+,1-]) = 0,918 Do Gain Thẻ ATM lớn nên ta chọn làm nút gốc Tuổi Trẻ E[0+,3-] Không Lớn Trung niên E[2+, 1-] Thẻ ATM E[2+,0-] Đi Không E[2+,0-] Đi SV thực hiện: Trần Văn Kiếm MSSV: 6120440556 Có E[0+,1-] Khơng PAGE Môn: Khai phá liệu GVHD: Trần Kim Hương b) - Xác định tập luật dựa định R1 If(Tuổi = Trẻ) Then Đi du lịch = Không R2 If(Tuổi = Trung niên) Then Đi du lịch = Đi R3 If(Tuổi = Lớn and Thẻ ATM = Không) Then Đi du lịch = Đi R4 If(Tuổi = Lớn and Thẻ ATM = có) Then Đi du lịch = Khơng - Đánh giá độ xác tập luật dựa vào dòng liệu cuối: Mã số N11 Tuổi Thu nhập Nghề nghiệp Thẻ ATM Trẻ TB SV Có Đi du lịch? Đi N12 Trung niên TB Tự Có Đi N13 Trung niên Cao SV Khơng Đi N14 Lớn TB Tự Có Khơng + Mã số N11 (Tuổi = Trẻ) áp dụng R1 Then Không  Sai + Mã số N12 (Tuổi = Trung niên) áp dụng R2 Then Đi  Đúng + Mã số N13 (Tuổi = Trung niên) áp dụng R2 Then Đi  Đúng + Mã số N14 (Tuổi = Lớn, Thẻ ATM = Có) áp dụng R4 Then Khơng  Đúng Độ xác = 3/4 *100 = 75% c) Dựa vào xác định tập luật định ta điền liệu cho mẫu tin sau: Mã số Tuổi Thu nhập Nghề nghiệp Thẻ ATM N1 Trẻ Thấp Tự Không Không N2 Lớn Cao Tự Có Khơng Đi dụ lịch? Câu 3: a) Thuật toán K-Means phát biểu ngắn gọn sau: - Thuật toán phân cụm k-means phương pháp sử dụng phân tích tính chất cụm liệu Nó đặc biệt sử dụng nhiều khai phá liệu thống kê Nó phân vùng liệu thành k cụm khác Giải thuật giúp xác định liệu thực sử thuộc nhóm Các bước giải thuật: Bước 1: Chọn ngẫu nhiên k đối tượng trung tâm nhóm SV thực hiện: Trần Văn Kiếm MSSV: 6120440556 PAGE Môn: Khai phá liệu GVHD: Trần Kim Hương Bước 2: Gán đối tượng cịn lại vào nhóm có trung tâm nhóm gần (dựa độ đo khoảng cách Euclide) Bước 3: Tính lại giá trị trung tâm nhóm - Di chuyển trung tâm nhóm = giá trị TB nhóm - Cho nhóm Ki={ti1,ti2,…,tim}, giá trị trung bình nhóm mi = (1/m)(ti1 + … + tim) Bước 4: Nếu trung tâm nhóm khơng có thay đổi dừng, ngược lại quay lại Bước b) Đối tượng Đặc tính X Đặc tính Y Đối tượng A 1 Đối tượng B Đối tượng C 3 Đối tượng D Đối tượng E - Khởi tạo tâm cho hai nhóm A tâm điểm đón khách thứ (nhóm 1) C1(1, 1) D tâm điểm đón khách thứ hai (nhóm 2) C2(4, 2) - Tính khoảng cách từ đối tượng đến tâm điểm đón khách D0 - B C D E 2,82 3,16 C1(1, 1) 3,16 1,41 1,41 3,16 C2(4,2) A B C D E 2,82 3,16 C1(1, 1) 3,16 1,41 1,41 3,16 C2(4,2) A B C D E 0 Gọi điểm khơng thuộc nhóm Gọi điểm thuộc nhóm G0 - A Ta xét cột: + Giá trị nhỏ ta điền + Giá trị lớn ta điền G0 SV thực hiện: Trần Văn Kiếm MSSV: 6120440556 C1(1, 1) PAGE 10 Môn: Khai phá liệu GVHD: Trần Kim Hương 1 C2(4,2) - Như ta có: + Nhóm gồm điểm A (1, 1) ; E (1, 3) + Nhóm gồm điểm B (3, 1); C(3, 3); D(4, 2) - Tính lại điểm trung bình nhóm: m1= ( = (1; 2) m2 = ( = ( 3,3; 2) - Từ kết trước ta có: + m1 tâm nhóm C1(1; 2) + m2 tâm nhóm C2(3,3; 2) - Tính khoảng cách từ đối tượng đến tâm nhóm D1 - B C D E 2,23 2,23 2,5 1,04 1,04 0,7 2,5 A B C D E 2,23 2,23 2,5 1,04 1,04 0,7 2,5 A B C D E 0 C1(1, 2) 1 C2(3,3; 2) C1(1; 2) C2(3,3; 2) Gọi điểm không thuộc nhóm Gọi điểm thuộc nhóm G1 - A C1(1, 2) C2(3,3; 2) Ta xét cột: + Giá trị nhỏ ta điền + Giá trị lớn ta điền G1 - Do G0 G1 có điểm khơng thay đổi Ta khơng tiếp tục phân nhóm Vậy điểm hẹn khách để thuận tiện việc đưa đón là: + Nhóm C1 = (A, E) có tâm m1(1; 2) + Nhóm C2 = ( B, C, D) có tâm m2(3,3; 2) - Hết! SV thực hiện: Trần Văn Kiếm MSSV: 6120440556 PAGE 11 ... biến b) Tập phổ biến tối đại là: {A,B,C,E}; {C,D,E} c) Các luật kết hợp xây dựng từ tập phổ biến tối đại: - Tập {A,B,C,E} SV thực hiện: Trần Văn Kiếm MSSV: 6120440556 PAGE Môn: Khai phá liệu GVHD:... PAGE Môn: Khai phá liệu GVHD: Trần Kim Hương II BÀI LÀM Câu 1: a) Tìm tất tập phổ biến từ CSDL giao dịch thỏa ngưỡng minSup=50% thuật toán Apriori Ta có: minSup=50% => minCount=3 - Xác định tập. .. phân cụm k-means phương pháp sử dụng phân tích tính chất cụm liệu Nó đặc biệt sử dụng nhiều khai phá liệu thống kê Nó phân vùng liệu thành k cụm khác Giải thuật giúp xác định liệu thực sử thuộc nhóm

Ngày đăng: 14/03/2022, 22:55

Mục lục

    Các bước của giải thuật:

Tài liệu cùng người dùng

Tài liệu liên quan