Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 30 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
30
Dung lượng
1,81 MB
Nội dung
BÁO CÁO THỰC HÀNH BÀI Họ tên: Nguyễn Hồng Thế Bảo MSSV: 19521247 Mơn học: Khai thác liệu – IS252.M21.HTCL.2 Giáo viên: Vũ Minh Sang Đề: b Yêu cầu: Theo thống kê từ câu 2, ta tính số Gini thuộc tính để tìm thuộc tính phân nhánh có lợi - Xét Gini thuộc tính giảm: () () () 2 2 Gini ( S …5 ) =1− − − =0,611 6 () () Gini ( S …10 )=1− 2 − =0,5 2 Gini ( S 11… 20 )=1− () () () () () Gini ( S ¿20 )=1− 2 1 − − =0,625 4 2 − =0,5 2 Gini Giảm ( S )= × 0,611+ × 0,5+ × 0,625+ × 0,5=0,5833 14 14 14 14 - Xét Gini thuộc tính người: () () () 2 2 − − =0,64 5 Gini ( S …5 ) =1− () () Gini ( S …10 )=1− 2 − =0,48 5 Gini ( S 11… 20 )=1− () () 2 1 − =0 ,5 2 () () 2 − =0,5 2 Gini ( S ¿20 )=1− Gini Người ( S ) = 5 2 × 0,64+ × 0,48+ × 0,5+ × 0,5=0,5429 14 14 14 14 - Xét Gini thuộc tính chuyển: () () 2 − =0,444 3 Gini ( S …5 ) =1− () () () Gini ( S …10 )=1− 2 2 − − =0,625 4 () () () 2 2 Gini ( S 11… 20 )=1− − − =0,64 5 () () 2 − =0,5 2 Gini ( S ¿20 )=1− Gini Chuyển ( S )= × 0,444+ ×0,625+ ×0,64+ × 0,5=0,5737 14 14 14 14 - Xét Gini thuộc tính yêu: () () () Gini ( S …5 ) =1− 2 2 − − =0,611 6 () () Gini ( S …10 )=1− 2 − =0,5 2 Gini ( S 11… 20 )=1− () () () 2 2 − − =0,64 5 () =0 Gini ( S ¿20 )=1− Gini Yêu ( S )= ×0,611+ × 0,5+ × 0,64+ ×0=0,5619 14 14 14 14 - Xét Gini thuộc tính vừa: () () () 2 3 − − =0,6122 7 Gini ( S …5 ) =1− () () 2 Gini ( S …10 )=1− − =0,444 3 Gini ( S 11… 20 )=1− ( ) ( ) ( ) =0,667 1 − − 3 22 () =0 Gini ( S ¿20 )=1− Gini Yêu ( S )= 3 ×0,6122+ × 0,667+ × 0,444+ ×0=0,5441 14 14 14 14 - Xét Gini thuộc tính đi: () () 2 2 − =0,5 4 Gini ( S …5 ) =1− () () Gini ( S …10 )=1− 2 − =0,444 3 Gini ( S 11… 20 )=1− () () () 2 2 − − =0,625 4 () () 2 Gini ( S ¿20 )=1− − =0,444 3 Gini Đi ( S )= 4 × 0,5+ × 0,444 4+ × 0,625+ × 0,444 4=0,5119 14 14 14 14 Trong thuộc tính, thuộc tính ”đi” có số Gini nhỏ Do chọn thuộc tính phân nhánh theo TH1: Xét nhánh “0…5” ta tính giá trị Gini sau: Gini Giảm ( S Đi=0…5 )= × 0.44 + ×1+ ×0+ × 1=0.3 3 4 4 1 Gini Người ( S Đi=0…5 ) = 0,5+ 0+ 0=0,2 4 2 Gini Chuyển ( S Đi=0…5 )= 0,5+ 0,5=0,5 4 2 Gini Yêu ( S Đi=0…5 )= 0,5+ 0,5=0 , 4 1 Gini Vừa ( S Đi=0…5 ) = 0,5+ 0+ 0=0,2 4 Ta thấy nhánh “đi” = ”0…5” có hai thuộc tính người vừa có số Gini nhỏ nên ta lấy thuộc tính Người tiếp tục chia nhánh - Do nhánh Đi = “0…5” Người = “11…20”, với nhánh ln có phân lớp cảm xúc = “Tốt” nhánh Đi = “0…5” Người = “>20”, nhánh ln có phân lớp Cảm xúc = “Xấu”, nhánh nút khơng cần xét tiếp - Nhánh Đi = “0…5” Người= “6…10”: Chỉ số Gini thuộc tính với điều kiện = “0…5” Người= “6…10” 1 Gini Giảm ( S Đi=0…5 , Người=6 10 ) = 0+ 0=0 2 1 Gini Chuyển ( S Đi=0…5 , Người=6 10 ) = 0+ 0=0 2 1 Gini Yêu ( S Đi=0…5, Người=6 10 )= 0+ 0=0 2 1 Gini Vừa ( S Đi=0…5, Người=6 10 )= 0+ 0=0 2 Vậy nhánh có thuộc tính có số Gini nhỏ nên ta lấy thuộc tính “giảm” tiếp tục chia nhánh Nhánh Đi = “0…5”, Người = “11…20”, Giảm =”0…5”, với nhánh ln có phân lớp Cảm xúc = “Tốt” nhánh Đi = “0…5”, Người = “11…20”,Giảm =”11 20”, với nhánh ln có phân lớp Cảm xúc = “Xấu”, nhánh nút không cần xét tiếp TH2: Xét nhánh “6…10” ta tính giá trị Gini sau: Gini Giảm ( S Đi=6…10 )= 0,5+ ≈ 0,333 3 1 Gini Người ( S Đi=6…10 ) = 0+ 0+ 0=0 3 Gini Chuyển ( S Đi=6…10 ) = 0,5+ ≈ 0,333 3 1 Gini Yêu ( S Đi=6…10 )= 0+ 0+ 0=0 3 3 Gini Vừa ( S Đi=6…10 ) = 0,444=0,444 Ta thấy nhánh “đi” = ”6…10” có hai thuộc tính người yêu có số Gini nhỏ nên ta lấy thuộc tính Người tiếp tục chia nhánh - Do nhánh Đi = “6…10” Người = “0…5”, với nhánh ln có phân lớp Cảm xúc = “Xấu”, nhánh Đi = “6…10” Người = “6 10”, với nhánh ln có phân lớp Cảm xúc = “Xấu” nhánh Đi = “6…10” Người = “11 20”, với nhánh ln có phân lớp Cảm xúc = “Bình thường”, nhánh nút không cần xét tiếp TH 3: Xét nhánh Đi = “11 20” ta tính giá trị Gini sau Gini Giảm ( S Đi=11 20 ) = 0+ 0,444 ≈ 0,333 4 Gini Người ( S Đi=11…20 )= 0+ 0,5+ 0=0,25 4 Gini Chuyển ( S Đi=11…20 ) = 0+ 0,5+ 0=0,25 4 2 Gini Yêu ( S Đi=11…20 ) = 0,5+ 0,5=0,5 4 2 Gini Vừa ( S Đi=11…20 )= 0,5+ 0,5=0,5 4 Ta thấy nhánh Đi = “11 20” có thuộc tính Người, chuyển có số Gini nhỏ nên ta lấy thuộc tính Người tiếp tục chia nhánh - Do nhánh Đi = “11…20” Người = “0…5”, với nhánh ln có phân lớp Cảm xúc = “Tốt”, nhánh Đi = “11…20” Người = “>20”, với nhánh ln có phân lớp Cảm xúc = “Bình thường”, nhánh nút không cần xét tiếp - Nhánh Đi = “11…20” Người = “6 10” Chỉ số Gini thuộc tính với điều kiện Đi = “11…20” Người = “6 10” 1 Gini Giảm ( S Đi=11…20 , Người=6 10 )= 0+ 0=0 2 1 Gini Chuyển ( S Đi=11…20 , Người=6 10 )= 0+ 0=0 2 Gini Yêu ( S Đi=11…20 , Người =6 10 ) = 0,5=0,5 2 Gini Vừa ( S Đi=11…20 , Người=6 10 )= 0,5=0,5 Vậy nhánh Đi = “11…20” Người = 10 có thuộc tính Giảm, chuyển, có số Gini nhỏ nên ta lấy thuộc tính Giảm tiếp tục chia nhánh - Do nhánh Đi = “11…20”, Người = “6…10”,Giảm =”0…5”, với nhánh ln có phân lớp Cảm xúc = “Xấu” nhánh Đi = “11…20”, Người = “6…10”,Giảm =”11 20”, với nhánh có phân lớp Cảm xúc = “Tốt”, nhánh nút không cần xét tiếp TH 4: Nhánh Đi = “>20” ta tính giá trị Gini sau Gini Giảm ( S Đi=>20 )= 0,5+ ≈ 0,333 3 Gini Người ( S Đi=>20 ) = 0,444=0,444 Gini Chuyển ( S Đi=>20 ) = 0+ 0=0 3 Gini Yêu ( S Đi=>20 )= 0,5+ ≈ 0,333 3 1 Gini Vừa ( S Đi=>20 ) = 0+ 0+ 0=0 3 Vậy nhánh Đi = “>20” có thuộc tính Vừa, chuyển có số Gini nhỏ nên ta lấy thuộc tính Vừa tiếp tục chia nhánh - Do nhánh Đi = “>20” Vừa= “0…5”, với nhánh có phân lớp Cảm xúc = “Bình thường”, nhánh Đi = “>20” Vừa= “6 10”, với nhánh ln có phân lớp Cảm xúc = “Tốt” nhánh Đi = “>20” Vừa= “11 20”, với nhánh ln có phân lớp Cảm xúc = “Bình thường”, nhánh nút khơng cần xét tiếp Ta có định: Câu c Áp dụng làm trơn Laplace ta có: 5+1 Ta có P(Cảm xúc = ‘Tốt’) = 14+3 = 6/17 ¿ 0,3529 5+1 Ta có P(Cảm xúc = ‘Xấu’) = 14+3 = 6/17 ¿0,3529 4+1 Ta có P(Cảm xúc = ‘Bình thường’) = 14+3 = 5/17 ≈ 0,2941 Xét hồ sơ X = {giảm = 5, người = 10, chuyển = 5, yêu =11 20, vừa = 10, = 5} Áp dụng làm trơn Laplace Xét giá trị cảm xúc tốt: P ( Giảm=0 .5|Cảm xúc ¿ Tố t ) = ' ' 3+1 ≈ 0,444 5+ P ( Người=6 10|Cảm xúc ¿ Tố t ) = 2+1 ≈ 0,333 5+ P ( Chuyển=0 .5|Cảm xúc ¿ Tố t )= 0+1 ≈ 0,111 5+4 ' ' ' ' P ( Yêu=11 .20|Cảm xúc ¿ ' Tố t ' )= P ( Vừa=6 .10|Cảm xúc ¿ Tố t ) = ' ' P ( Đi=0 5|Cảm xúc ¿ Tố t )= ' ' 2+1 ≈ 0,333 5+4 2+1 ≈ 0,333 5+ 2+ ≈ 0,333 5+ P(Cảm xúc = ‘Tốt’) x P(X|Cảm xúc = ‘Tốt’) = P(giảm = | cảm xúc = tốt) x P(nguời = 10 | cảm xúc = tốt) x P(chuyển = | cảm xúc = tốt) x P(yêu = 11 20 | cảm xúc = tốt) x P(vừa = 10 | cảm xúc = tốt) x P(đi = | cảm xúc = tốt) = 2.138*10-4 Xét giá trị Cảm xúc xấu: P ( Giảm=0 .5|Cảm xúc ¿ Xấu' )= ' 2+ ≈ 0,333 5+ Ta thấy hồ sơ X thứ ba có xác suất xảy Cảm xúc = ‘Bình thường’ lớn hơn, ta kết luận dịng liệu dự đốn vào phân lớp Cảm xúc = ‘Bình thường’ Xét hồ sơ cuối Áp dụng làm trơn Laplace Xét giá trị Cảm xúc tốt: P ( Giảm=6 10|Cảm xúc ¿ Tố t ) = ' ' 0+1 ≈ 0,111 5+ P ( Người=11 20|Cảm xúc ¿ Tố t )= 1+ ≈ 0,222 5+ P ( Chuyển=6 .10|Cảm xúc ¿ Tố t )= 2+1 ≈ 0,333 5+4 ' ' ' ' P ( Yêu=6 .10|Cảm xúc ¿ Tố t )= ' ' P ( Vừa=¿ 20|Cảm xúc ¿ ' Tố t ' )= P ( Đi=0 5|Cảm xúc ¿' Tố t ' )= 1+1 ≈ 0,222 5+ 1+1 ≈ 0,222 5+4 2+ ≈ 0,333 5+ P(Cảm xúc = ‘Tốt’)*P(X|Cảm xúc = ‘Tốt’) = 4,7525.10-5 Xét giá trị Cảm xúc xấu: P ( Giảm=6 10|Cảm xúc ¿ Xấu' )= ' 1+ ≈ 0,222 5+ P ( Người=11 20|Cảm xúc ¿ Xấu' )= 0+1 ≈ 0,111 5+4 P ( Chuyển=6 .10|Cảm xúc ¿ Xấu ' ) = 1+1 ≈ 0,222 5+ ' ' P ( Yêu=6 .10|Cảm xúc ¿ Xấu ' ) = ' 0+1 ≈ 0,111 5+4 P ( Vừa=¿ 20|Cảm xúc ¿ ' Xấu ' ) = P ( Đi=0 5|Cảm xúc ¿' Xấu' )= 0+1 ≈ 0,111 5+ 2+1 ≈ 0,333 5+4 P(Cảm xúc = ‘Xấu’)*P(X|Cảm xúc = ‘Xấu’) = 7,9208.10-6 Xét giá trị Cảm xúc bình thường P ( Giảm=6 10|Cảm xúc ¿' Bình thường ' ) = 1+1 =0,25 4+ P ( Người=11 20|Cảm xúc ¿' Bình thường' )= 1+1 =0,25 +4 P ( Chuyển=6 .10|Cảm xúc ¿ Bình thường ' ) = 1+ =0,25 4+ ' P ( Yêu=6 .10|Cảm xúc ¿ Bình thường' )= ' P ( Vừa=¿ 20|Cảm xúc ¿ Bình thường ' )= ' P ( Đi=0 5|Cảm xúc ¿ Bình thường' )= ' 1+1 =0,25 +4 0+1 =0,125 4+ 0+1 =0,125 +4 P(Cảm xúc = ‘Bình thường’)*P(X|Cảm xúc = ‘Bình thường’) = 1,795.10-5 Ta thấy hồ sơ X thứ tư có xác suất xảy Cảm xúc = ‘Tốt’ lớn hơn, ta kết luận dịng liệu dự đoán vào phân lớp Cảm xúc = ‘Tốt’ Ma trận nhầm lẫn CART: Lớp dự đoán từ mơ hình Lớp thực tế Tốt Xấu Bình thường Tốt 1 Xấu 0 Bình thường Từ ta tính độ xác độ phủ: precision ( M )= recall ( M )= =50 % 1+1 =50 % 1+ Ma trận nhầm lẫn thuật tốn Nạve Bayes: Lớp dự đốn từ mơ hình Lớp thực tế Tốt Bình thường Xấu Tốt 0 Bình thường Xấu 0 Từ ta tính độ xác độ phủ: precision ( M )= recall ( M )= =100 % 2+0 =100 % 2+ Từ kết cho thấy thuật tốn Nạve Bayes có độ xác cao CART - Nếu nắm bắt cảm xúc “xấu”, ta cần hạn chế tối đa thông tin mạng xã hội ảnh hưởng tiêu cực đến người dùng, gợi ý thông tin mang thiên hướng tích cực, phát lời khuyên thay đổi hiển thị viết giúp cho người dùng cải thiện tâm trạng - Với cảm xúc “bình thường” “tốt”, ta giữ nguyên đề xuất đưa thêm nhiều thơng tin tích cực Câu Nhìn vào đồ thị ta có khơng có thuộc tính nào có độ tương đồng cao nên ta khơng loại thuộc tính nào hết Theo đề thuộc tính “Quality” chọn làm thuộc tính định nên ta tiến hành tách thuộc tính khỏi liệu lưu vào phần Ở toàn liệu thuộc dạng số nên không cần chuyển đổi Tính ma trận nhằm lẫn biểu diễn lên đồ thị heatmap Biểu diễn ID3 lệnh Cây thu được: Biểu diễn ID3 Cây thu Dựa vào mơ hình ta có độ chính xác của + Thuật tốn cây ID3 cao nhất (0.5833333333333334) + Thuật tốn Naive Bayes là thấp nhất (0.5416666666666666) Vậy đối với mơ hình này sử dụng thuật tốn cây quyết định ID3 là tốt nhất ... 4 Gini ( S …5 ) =1− () () Gini ( S …10 )=1− 2 − =0 ,44 4 3 Gini ( S 11… 20 )=1− () () () 2 2 − − =0,625 4 () () 2 Gini ( S ¿20 )=1− − =0 ,44 4 3 Gini Đi ( S )= 4 × 0,5+ × 0 ,44 4 4+ × 0,625+ × 0 ,44 4... Gini ( S …10 )=1− − =0 ,44 4 3 Gini ( S 11… 20 )=1− ( ) ( ) ( ) =0,667 1 − − 3 22 () =0 Gini ( S ¿20 )=1− Gini Yêu ( S )= 3 ×0,6122+ × 0,667+ × 0 ,44 4+ ×0=0, 544 1 14 14 14 14 - Xét Gini thuộc tính... Người ( S ) = 5 2 × 0, 64+ × 0 ,48 + × 0,5+ × 0,5=0, 542 9 14 14 14 14 - Xét Gini thuộc tính chuyển: () () 2 − =0 ,44 4 3 Gini ( S …5 ) =1− () () () Gini ( S …10 )=1− 2 2 − − =0,625 4 () () () 2 2 Gini