Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 30 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
30
Dung lượng
4,58 MB
Nội dung
BÁO CÁO THỰC HÀNH BÀI Họ tên: Nguyễn Hồng Thế Bảo MSSV: 19521247 Mơn học: Khai thác liệu – IS252.M21.HTCL.2 Giáo viên: Vũ Minh Sang Đề: b Yêu cầu: TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Theo thống kê từ câu 2, ta tính số Gini thuộc tính để tìm thuộc tính phân nhánh có lợi - Xét Gini thuộc tính giảm: Gini( S0 Gini(S6 …5 )=1− …10 )=1− Gini (S11… 20 (36 ) −(62 ) −(16 ) =0,611 2 (12 ) −(12 ) =0,5 )=1− Gini(S¿20 )=1− 2 (24 ) −(14 ) −(41 ) =0,625 2 (12 ) −(12 ) =0,5 2 TIEU LUAN MOI download : skknchat123@gmail.com moi nhat GiniGiảm (S )= 14 × 0,611+ 14 × 0,5+ 14 × 0,625+ 14 × 0,5=0,5833 - Xét Gini thuộc tính người: Gini( S0 …5 Gini (S6 …10 Gini(S11… )=1− 20 (25 ) −(25 ) −(15 ) =0,64 2 )=1− (25 ) −(35 ) =0,48 )=1− (12 ) −(12 ) =0 ,5 Gini(S¿20 )=1− 2 2 (12 ) −(12 ) =0,5 2 5 2 GiniNgười ( S)=14 × 0,64+ 14 × 0,48+ 14 × 0,5+ 14 × 0,5=0,5429 - Xét Gini thuộc tính chuyển: Gini(S0 …5 Gini (S6 )=1− …10 Gini(S11… 20 (23 ) −(13 ) =0,444 2 )=1− (24 ) −(14 ) −(14 ) =0,625 )=1− (25 ) −(52 ) −(15 ) =0,64 Gini (S¿20 )=1− 2 2 2 (12 ) −(12 ) =0,5 2 GiniChuyển (S )= 14 × 0,444+ 14 ×0,625+ 14 ×0,64+ 14 × 0,5=0,5737 - Xét Gini thuộc tính yêu: Gini (S0 …5 )=1− (36 ) −(62 ) −(16 ) =0,611 2 TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Gini (S6 …10 Gini(S11… 20 )=1− (12 ) −(12 ) =0,5 )=1− (25 ) −(52 ) −(15 ) =0,64 2 2 2 Gini (S¿20 )=1− (11 ) =0 GiniYêu (S )= 14 ×0,611+ 14 × 0,5+ 14 × 0,64+ 14 ×0=0,5619 - Xét Gini thuộc tính vừa: Gini (S0 Gini(S6 (37 ) −(37 ) −(17 ) =0,6122 …5 )=1− …10 )=1− Gini (S11… 20 2 (23 ) −(13 ) =0,444 )=1− Gini(S¿20 )=1− 2 (13 ) −(13 )−(13 ) 22 =0,667 (11 ) =0 3 GiniYêu (S )= 14 ×0,6122+ 14 × 0,667+ 14 × 0,444+ 14 ×0=0,5441 - Xét Gini thuộc tính đi: Gini(S0 …5 Gini (S6 )=1− …10 Gini (S11… (24 ) −(42 ) =0,5 )=1− 20 (23 ) −(13 ) =0,4444 )=1− Gini(S¿20 )=1− 2 (24 ) −(14 ) −(41 ) =0,625 2 (23 ) −(13 ) =0,4444 2 TIEU LUAN MOI download : skknchat123@gmail.com moi nhat 4 GiniĐi (S )= 14 × 0,5+ 14 × 0,444 4+ 14 × 0,625+ 14 × 0,444 4=0,5119 Trong thuộc tính, thuộc tính ”đi” có số Gini nhỏ Do chọn thuộc tính phân nhánh theo TH1: Xét nhánh “0…5” ta tính giá trị Gini sau: GiniGiảm (S Đi=0…5 GiniNgười ( SĐi=0…5)= GiniChuyển (S Đi=0…5 GiniYêu ( SĐi=0…5)= GiniVừa ( SĐi=0…5)= × 0.444 + ×1+ ×0+ × 1=0.333 )= 1 0,5+ 0+ 0=0,25 )= 2 0,5+ 0,5=0,5 2 0,5+ 0,5=0 , 0,5+ 0+ 0=0,25 Ta thấy nhánh “đi” = ”0…5” có hai thuộc tính người vừa có số Gini nhỏ nên ta lấy thuộc tính Người tiếp tục chia nhánh - Do nhánh Đi = “0…5” Người = “11…20”, với nhánh ln có phân lớp cảm xúc = “Tốt” nhánh Đi = “0…5” Người = “>20”, nhánh ln có phân lớp Cảm xúc = “Xấu”, nhánh nút khơng cần xét tiếp - Nhánh Đi = “0…5” Người= “6…10”: Chỉ số Gini thuộc tính với điều kiện = “0…5” Người= “6…10” GiniGiảm (S Đi=0…5 , Người=6 10 )= 0+ 0=0 TIEU LUAN MOI download : skknchat123@gmail.com moi nhat GiniChuyển (S )= Đi=0…5 , Người=6 10 GiniYêu ( SĐi=0…5, Người=6 10 )= GiniVừa ( SĐi=0…5, Người=6 10)= 1 0+ 0=0 0+ 0=0 1 0+ 0=0 Vậy nhánh có thuộc tính có số Gini nhỏ nên ta lấy thuộc tính “giảm” tiếp tục chia nhánh Nhánh Đi = “0…5”, Người = “11…20”, Giảm =”0…5”, với nhánh có phân lớp Cảm xúc = “Tốt” nhánh Đi = “0…5”, Người = “11…20”,Giảm =”11 20”, với nhánh ln có phân lớp Cảm xúc = “Xấu”, nhánh nút khơng cần xét tiếp TH2: Xét nhánh “6…10” ta tính giá trị Gini sau: GiniGiảm (S Đi=6…10 0,5+ ≈ 0,333 )= GiniNgười ( SĐi=6…10)= 0+ GiniChuyển (S Đi=6…10 )= GiniYêu ( SĐi=6…10 )= 0+ 0=0 0,5+ ≈ 0,333 1 0+ 0+ 0=0 GiniVừa ( SĐi=6…10)= 0,444=0,444 Ta thấy nhánh “đi” = ”6…10” có hai thuộc tính người yêu có số Gini nhỏ nên ta lấy thuộc tính Người tiếp tục chia nhánh - Do nhánh Đi = “6…10” Người = “0…5”, với nhánh ln có phân lớp Cảm xúc = “Xấu”, nhánh Đi = “6…10” Người = “6 10”, với nhánh TIEU LUAN MOI download : skknchat123@gmail.com moi nhat ln có phân lớp Cảm xúc = “Xấu” nhánh Đi = “6…10” Người = “11 20”, với nhánh ln có phân lớp Cảm xúc = “Bình thường”, nhánh nút không cần xét tiếp TH 3: Xét nhánh Đi = “11 20” ta tính giá trị Gini sau GiniGiảm (S Đi=11 20 0+ 0,444 ≈ 0,333 )= GiniNgười ( SĐi=11…20 )= GiniChuyển (S Đi=11…20 GiniYêu ( SĐi=11…20 )= GiniVừa ( SĐi=11…20 )= 0+ 0,5+ 0=0,25 )= 0+ 0,5+ 0=0,25 2 0,5+ 0,5=0,5 2 0,5+ 0,5=0,5 Ta thấy nhánh Đi = “11 20” có thuộc tính Người, chuyển có số Gini nhỏ nên ta lấy thuộc tính Người tiếp tục chia nhánh - Do nhánh Đi = “11…20” Người = “0…5”, với nhánh ln có phân lớp Cảm xúc = “Tốt”, nhánh Đi = “11…20” Người = “>20”, với nhánh ln có phân lớp Cảm xúc = “Bình thường”, nhánh nút không cần xét tiếp - Nhánh Đi = “11…20” Người = “6 10” Chỉ số Gini thuộc tính với điều kiện Đi = “11…20” Người = “6 10” GiniGiảm (S )= Đi=11…20 , Người=6 10 GiniChuyển (S )= Đi=11…20 , Người=6 10 GiniYêu ( SĐi=11…20 , Người=6 10 0+ 1 0+ 0=0 0=0 )= 0,5=0,5 TIEU LUAN MOI download : skknchat123@gmail.com moi nhat GiniVừa ( SĐi=11…20 , Người=6 10 )= 2 0,5=0,5 Vậy nhánh Đi = “11…20” Người = 10 có thuộc tính Giảm, chuyển, có số Gini nhỏ nên ta lấy thuộc tính Giảm tiếp tục chia nhánh - Do nhánh Đi = “11…20”, Người = “6…10”,Giảm =”0…5”, với nhánh ln có phân lớp Cảm xúc = “Xấu” nhánh Đi = “11…20”, Người = “6…10”,Giảm =”11 20”, với nhánh ln có phân lớp Cảm xúc = “Tốt”, nhánh nút khơng cần xét tiếp TH 4: Nhánh Đi = “>20” ta tính giá trị Gini sau GiniGiảm (S Đi=>20 0,5+ ≈ 0,333 )= GiniNgười (SĐi=>20)= 0,444=0,444 GiniChuyển (S Đi=>20 )= GiniYêu ( SĐi=>20 )= 0+ 0=0 0,5+ ≈ 0,333 1 GiniVừa ( SĐi=>20 )= 0+3 0+ 0=0 Vậy nhánh Đi = “>20” có thuộc tính Vừa, chuyển có số Gini nhỏ nên ta lấy thuộc tính Vừa tiếp tục chia nhánh - Do nhánh Đi = “>20” Vừa= “0…5”, với nhánh ln có phân lớp Cảm xúc = “Bình thường”, nhánh Đi = “>20” Vừa= “6 10”, với nhánh ln có phân lớp Cảm xúc = “Tốt” nhánh Đi = “>20” Vừa= “11 20”, với nhánh có phân lớp Cảm xúc = “Bình thường”, nhánh nút không cần xét tiếp Ta có định: TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Câu c Áp dụng làm trơn Laplace ta có: 5+1 Ta có P(Cảm xúc = ‘Tốt’) = 14+3 = 6/17 ¿ 0,3529 5+1 Ta có P(Cảm xúc = ‘Xấu’) = = 6/17 ¿0,3529 14+3 TIEU LUAN MOI download : skknchat123@gmail.com moi nhat +1 Ta có P(Cảm xúc = ‘Bình thường’) = 14+3 = 5/17 ≈ 0,2941 Xét hồ sơ X = {giảm = 5, người = 10, chuyển = 5, yêu =11 20, vừa = 10, = 5} Áp dụng làm trơn Laplace Xét giá trị cảm xúc tốt: +1 + ≈ 0,444 P (Giảm=0 5|Cảm xúc ¿ Tố t )=5 ' ' P (Người=6 10|Cảmxúc ¿ Tố t )=5 ' ' P (Chuyển=0 5|Cảm xúc ¿ Tố t )= ' ' P (Yêu=11 20|Cảm xúc ¿ Tố t )= ' ' P (Vừa=6 10|Cảm xúc ¿ Tố t )=5 ' ' P (Đi=0 5|Cảm xúc ¿ Tố t )= ' ' +1 + ≈ 0,333 + + ≈ 0,111 + + ≈ 0,333 +1 + ≈ 0,333 2+ + ≈ 0,333 P(Cảm xúc = ‘Tốt’) x P(X|Cảm xúc = ‘Tốt’) = P(giảm = | cảm xúc = tốt) x P(nguời = 10 | cảm xúc = tốt) x P(chuyển = | cảm xúc = tốt) x P(yêu = 11 20 | cảm xúc = tốt) x P(vừa = 10 | cảm xúc = tốt) x P(đi = | cảm xúc = tốt) = 2.138*10-4 Xét giá trị Cảm xúc xấu: P (Giảm=0 5|Cảm xúc ¿' Xấu' )= 2+ + ≈ 0,333 TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Ta thấy hồ sơ X thứ ba có xác suất xảy Cảm xúc = ‘Bình thường’ lớn hơn, ta kết luận dịng liệu dự đoán vào phân lớp Cảm xúc = ‘Bình thường’ TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Xét hồ sơ cuối Áp dụng làm trơn Laplace Xét giá trị Cảm xúc tốt: P (Giảm=6 10|Cảmxúc ¿ Tố t )=5 ' ' +1 + ≈ 0,111 1+ ≈ 0,222 P (Người=11 20|Cảm xúc ¿ Tố t )= P (Chuyển=6 10|Cảm xúc ¿ Tố t )= + + ≈ 0,333 ' ' ' ' + P (Yêu=6 10|Cảm xúc ¿ Tố t )= 1+ + ≈ 0,222 P (Vừa=¿ 20|Cảm xúc ¿ Tố t )= + + ≈ 0,222 ' ' ' ' P (Đi=0 5|Cảm xúc ¿ Tố t )= ' ' 2+ + ≈ 0,333 P(Cảm xúc = ‘Tốt’)*P(X|Cảm xúc = ‘Tốt’) = 4,7525.10-5 Xét giá trị Cảm xúc xấu: P (Giảm=6 10|Cảmxúc ¿ Xấu' )= ' 1+ + ≈ 0,222 P (Người=11 20|Cảm xúc ¿ Xấu' )= ' + + ≈ 0,111 P (Chuyển=6 10|Cảm xúc ¿ Xấu ')=5 ' P (Yêu=6 10|Cảm xúc ¿ Xấu ')= ' +1 + ≈ 0,222 + + ≈ 0,111 TIEU LUAN MOI download : skknchat123@gmail.com moi nhat +1 + ≈ 0,111 P (Vừa=¿ 20|Cảm xúc ¿ Xấu ')=5 ' P (Đi=0 5|Cảm xúc ¿ Xấu' )= ' + + ≈ 0,333 P(Cảm xúc = ‘Xấu’)*P(X|Cảm xúc = ‘Xấu’) = 7,9208.10-6 Xét giá trị Cảm xúc bình thường P (Giảm=6 10|Cảmxúc ¿ Bìnhthường ')= ' + + =0,25 1+ + =0,25 P (Người=11 20|Cảm xúc ¿ Bìnhthường' )= P (Chuyển=6 10|Cảm xúc ¿ Bìnhthường ')= 1+ + =0,25 ' ' P (Yêu=6 10|Cảm xúc ¿ Bìnhthường' )= 1+ + =0,25 P (Vừa=¿ 20|Cảm xúc ¿ Bìnhthường ' )= +1 + =0,125 ' ' P (Đi=0 5|Cảm xúc ¿ Bìnhthường' )= ' 0+ + =0,125 P(Cảm xúc = ‘Bình thường’)*P(X|Cảm xúc = ‘Bình thường’) = 1,795.10-5 Ta thấy hồ sơ X thứ tư có xác suất xảy Cảm xúc = ‘Tốt’ lớn hơn, ta kết luận dịng liệu dự đoán vào phân lớp Cảm xúc = ‘Tốt’ TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Ma trận nhầm lẫn CART: Lớp thực tế Từ ta tính độ xác độ phủ: precision( M )= +1 =50% recall ( M )= 1+ 1=50% TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Ma trận nhầm lẫn thuật tốn Nạve Bayes: Lớp dự đốn từ mơ hình Lớp thực tế Từ ta tính độ xác độ phủ: precision( M )= 2+ =100% recall ( M )= 2+ =100% Từ kết cho thấy thuật toán Nạve Bayes có độ xác cao CART - Nếu nắm bắt cảm xúc “xấu”, ta cần hạn chế tối đa thông tin mạng xã hội ảnh hưởng tiêu cực đến người dùng, gợi ý thơng tin mang thiên hướng tích cực, phát lời khuyên thay đổi hiển thị viết giúp cho người dùng cải thiện tâm trạng - Với cảm xúc “bình thường” “tốt”, ta giữ ngun đề xuất đưa thêm nhiều thơng tin tích cực TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Câu TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Nhìn vào đồ thị ta có khơng có thuộc tính có độ tương đồng cao nên ta khơng loại thuộc tính hết TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Theo đề thuộc tính “Quality” chọn làm thuộc tính định nên ta tiến hành tách thuộc tính khỏi liệu lưu vào phần Ở toàn liệu thuộc dạng số nên không cần chuyển đổi TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Tính ma trận nhằm lẫn biểu diễn lên đồ thị heatmap TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Biểu diễn ID3 lệnh Cây thu được: TIEU LUAN MOI download : skknchat123@gmail.com moi nhat TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Biểu diễn ID3 TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Cây thu TIEU LUAN MOI download : skknchat123@gmail.com moi nhat TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Dựa vào mơ hình ta có độ xác + Thuật toán ID3 cao (0.5833333333333334) + Thuật toán Naive Bayes thấp (0.5416666666666666) Vậy mơ hình sử dụng thuật tốn định ID3 tốt TIEU LUAN MOI download : skknchat123@gmail.com moi nhat ... (23 ) −(13 ) =0 ,44 4 2 )=1− ( 24 ) −( 14 ) −( 14 ) =0,625 )=1− (25 ) −(52 ) −(15 ) =0, 64 Gini (S¿20 )=1− 2 2 2 (12 ) −(12 ) =0,5 2 GiniChuyển (S )= 14 × 0 ,44 4+ 14 ×0,625+ 14 ×0, 64+ 14 × 0,5=0,5737... (S11… ( 24 ) − (42 ) =0,5 )=1− 20 (23 ) −(13 ) =0 ,44 44 )=1− Gini(S¿20 )=1− 2 ( 24 ) −( 14 ) − (41 ) =0,625 2 (23 ) −(13 ) =0 ,44 44 2 TIEU LUAN MOI download : skknchat123@gmail.com moi nhat 4 GiniĐi... Gini (S11… 20 2 (23 ) −(13 ) =0 ,44 4 )=1− Gini(S¿20 )=1− 2 (13 ) −(13 )−(13 ) 22 =0,667 (11 ) =0 3 GiniYêu (S )= 14 ×0,6122+ 14 × 0,667+ 14 × 0 ,44 4+ 14 ×0=0, 544 1 - Xét Gini thuộc tính đi: Gini(S0