Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 30 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
30
Dung lượng
4,57 MB
Nội dung
BÁO CÁO THỰC HÀNH BÀI Họ tên: Nguyễn Hồng Thế Bảo MSSV: 19521247 Mơn học: Khai thác liệu – IS252.M21.HTCL.2 Giáo viên: Vũ Minh Sang Đề: b Yêu cầu: Theo thống kê từ câu 2, ta tính số Gini thuộc tính để tìm thuộc tính phân nhánh có lợi - Xét Gini thuộc tính giảm: Gini( S0 Gini(S6 …5 )=1− …10 )=1− Gini (S11… 20 (36 ) −(62 ) −(16 ) =0,611 2 (12 ) −(12 ) =0,5 )=1− Gini(S¿20 )=1− 2 (24 ) −(14 ) −(41 ) =0,625 2 (12 ) −(12 ) =0,5 2 GiniGiảm (S )= 14 × 0,611+ 14 × 0,5+ 14 × 0,625+ 14 × 0,5=0,5833 - Xét Gini thuộc tính người: Gini( S0 …5 Gini (S6 …10 Gini(S11… )=1− 20 (25 ) −(25 ) −(15 ) =0,64 2 )=1− (25 ) −(35 ) =0,48 )=1− (12 ) −(12 ) =0 ,5 Gini(S¿20 )=1− 2 2 (12 ) −(12 ) =0,5 2 5 2 GiniNgười ( S)=14 × 0,64+ 14 × 0,48+ 14 × 0,5+ 14 × 0,5=0,5429 - Xét Gini thuộc tính chuyển: Gini(S0 …5 Gini (S6 )=1− …10 Gini(S11… 20 (23 ) −(13 ) =0,444 2 )=1− (24 ) −(14 ) −(14 ) =0,625 )=1− (25 ) −(52 ) −(15 ) =0,64 Gini (S¿20 )=1− 2 2 2 (12 ) −(12 ) =0,5 2 GiniChuyển (S )= 14 × 0,444+ 14 ×0,625+ 14 ×0,64+ 14 × 0,5=0,5737 - Xét Gini thuộc tính yêu: Gini (S0 …5 )=1− (36 ) −(62 ) −(16 ) =0,611 2 Gini (S6 …10 Gini(S11… 20 )=1− (12 ) −(12 ) =0,5 )=1− (25 ) −(52 ) −(15 ) =0,64 2 2 2 Gini (S¿20 )=1− (11 ) =0 GiniYêu (S )= 14 ×0,611+ 14 × 0,5+ 14 × 0,64+ 14 ×0=0,5619 - Xét Gini thuộc tính vừa: Gini (S0 Gini(S6 (37 ) −(37 ) −(17 ) =0,6122 …5 )=1− …10 )=1− Gini (S11… 20 2 (23 ) −(13 ) =0,444 )=1− Gini(S¿20 )=1− 2 (13 ) −(13 )−(13 ) 22 =0,667 (11 ) =0 3 GiniYêu (S )= 14 ×0,6122+ 14 × 0,667+ 14 × 0,444+ 14 ×0=0,5441 - Xét Gini thuộc tính đi: Gini(S0 …5 Gini (S6 )=1− …10 Gini (S11… (24 ) −(42 ) =0,5 )=1− 20 (23 ) −(13 ) =0,4444 )=1− Gini(S¿20 )=1− 2 (24 ) −(14 ) −(41 ) =0,625 2 (23 ) −(13 ) =0,4444 2 4 GiniĐi (S )= 14 × 0,5+ 14 × 0,444 4+ 14 × 0,625+ 14 × 0,444 4=0,5119 Trong thuộc tính, thuộc tính ”đi” có số Gini nhỏ Do chọn thuộc tính phân nhánh theo TH1: Xét nhánh “0…5” ta tính giá trị Gini sau: GiniGiảm (S Đi=0…5 )= × 0.444 + ×1+ ×0+ × 1=0.333 GiniNgười ( SĐi=0…5)= 0,5+ 0+ 2 0=0,25 GiniChuyển (S Đi=0…5 )= 0,5+ 0,5=0,5 GiniYêu ( SĐi=0…5)= GiniVừa ( SĐi=0…5)= 2 0,5+ 0,5=0 , 1 0,5+ 0+ 0=0,25 Ta thấy nhánh “đi” = ”0…5” có hai thuộc tính người vừa có số - Do nhánh Đi = “0…5” Người = “11…20”, với nhánh ln có phân lớp cảm xúc = “Tốt” nhánh Đi = “0…5” Người = “>20”, nhánh ln có phân lớp Cảm xúc = “Xấu”, nhánh nút không cần xét tiếp - Nhánh Đi = “0…5” Người= “6…10”: Chỉ số Gini thuộc tính với điều kiện = “0…5” Người= “6…10” GiniGiảm (S Đi=0…5 , Người=6 10 )= 0+ 0=0 GiniChuyển (S )= Đi=0…5 , Người=6 10 GiniYêu ( SĐi=0…5, Người=6 10 )= GiniVừa ( SĐi=0…5, Người=6 10)= 1 0+ 0=0 0+ 0=0 1 0+ 0=0 Vậy nhánh có thuộc tính có số Gini nhỏ nên ta lấy thuộc tính “giảm” tiếp tục chia nhánh Nhánh Đi = “0…5”, Người = “11…20”, Giảm =”0…5”, với nhánh ln có phân lớp Cảm xúc = “Tốt” nhánh Đi = “0…5”, Người = “11…20”,Giảm =”11 20”, với nhánh có phân lớp Cảm xúc = “Xấu”, nhánh nút không cần xét tiếp TH2: Xét nhánh “6…10” ta tính giá trị Gini sau: GiniGiảm (S Đi=6…10 0,5+ ≈ 0,333 )= GiniNgười ( SĐi=6…10)= 0+ GiniChuyển (S Đi=6…10 )= GiniYêu ( SĐi=6…10 )= 0+ 0=0 0,5+ ≈ 0,333 1 0+ 0+ 0=0 GiniVừa ( SĐi=6…10)= 0,444=0,444 Ta thấy nhánh “đi” = ”6…10” có hai thuộc tính người yêu có số - Do nhánh Đi = “6…10” Người = “0…5”, với nhánh ln có phân lớp Cảm xúc = “Xấu”, nhánh Đi = “6…10” Người = “6 10”, với nhánh có phân lớp Cảm xúc = “Xấu” nhánh Đi = “6…10” Người = “11 20”, với nhánh ln có phân lớp Cảm xúc = “Bình thường”, nhánh nút khơng cần xét tiếp TH 3: Xét nhánh Đi = “11 20” ta tính giá trị Gini sau GiniGiảm (S Đi=11 20 0+ 0,444 ≈ 0,333 )= GiniNgười ( SĐi=11…20 )= GiniChuyển (S Đi=11…20 GiniYêu ( SĐi=11…20 )= GiniVừa ( SĐi=11…20 )= 0+ 0,5+ 0=0,25 )= 0+ 0,5+ 0=0,25 2 0,5+ 0,5=0,5 2 0,5+ 0,5=0,5 Ta thấy nhánh Đi = “11 20” có thuộc tính Người, chuyển có số Gini nhỏ nên ta lấy thuộc tính Người tiếp tục chia nhánh - Do nhánh Đi = “11…20” Người = “0…5”, với nhánh ln có phân lớp Cảm xúc = “Tốt”, nhánh Đi = “11…20” Người = “>20”, với nhánh ln có phân lớp Cảm xúc = “Bình thường”, nhánh nút khơng cần xét tiếp - Nhánh Đi = “11…20” Người = “6 10” Chỉ số Gini thuộc tính với điều kiện Đi = “11…20” Người = “6 10” GiniGiảm (S )= Đi=11…20 , Người=6 10 GiniChuyển (S )= Đi=11…20 , Người=6 10 GiniYêu ( SĐi=11…20 , Người=6 10 0+ 1 0+ 0=0 )= 0,5=0,5 0=0 GiniVừa ( SĐi=11…20 , Người=6 10 )= 2 0,5=0,5 Vậy nhánh Đi = “11…20” Người = 10 có thuộc tính Giảm, chuyển, có số Gini nhỏ nên ta lấy thuộc tính Giảm tiếp tục chia nhánh - Do nhánh Đi = “11…20”, Người = “6…10”,Giảm =”0…5”, với nhánh ln có phân lớp Cảm xúc = “Xấu” nhánh Đi = “11…20”, Người = “6…10”,Giảm =”11 20”, với nhánh ln có phân lớp Cảm xúc = “Tốt”, nhánh nút khơng cần xét tiếp TH 4: Nhánh Đi = “>20” ta tính giá trị Gini sau GiniGiảm (S Đi=>20 0,5+ ≈ 0,333 )= GiniNgười (SĐi=>20)= 0,444=0,444 GiniChuyển (S Đi=>20 )= GiniYêu ( SĐi=>20 )= 0+ 0=0 0,5+ ≈ 0,333 1 GiniVừa ( SĐi=>20 )= 0+3 0+ 0=0 Vậy nhánh Đi = “>20” có thuộc tính Vừa, chuyển có số Gini nhỏ nên ta lấy thuộc tính Vừa tiếp tục chia nhánh - Do nhánh Đi = “>20” Vừa= “0…5”, với nhánh ln có phân lớp Cảm xúc = “Bình thường”, nhánh Đi = “>20” Vừa= “6 10”, với nhánh ln có phân lớp Cảm xúc = “Tốt” nhánh Đi = “>20” Vừa= “11 20”, với nhánh ln có phân lớp Cảm xúc = “Bình thường”, nhánh nút không cần xét tiếp Ta có định: Câu c Áp dụng làm trơn Laplace ta có: 5+1 Ta có P(Cảm xúc = ‘Tốt’) = 14+3 = 6/17 ¿ 0,3529 5+1 Ta có P(Cảm xúc = ‘Xấu’) = = 6/17 ¿0,3529 14+3 +1 Ta có P(Cảm xúc = ‘Bình thường’) = 14+3 = 5/17 ≈ 0,2941 Xét hồ sơ X = {giảm = 5, người = 10, chuyển = 5, yêu =11 20, vừa = 10, = 5} Áp dụng làm trơn Laplace Xét giá trị cảm xúc tốt: +1 + ≈ 0,444 P (Giảm=0 5|Cảm xúc ¿ Tố t )=5 ' ' P (Người=6 10|Cảmxúc ¿ Tố t )=5 ' ' P (Chuyển=0 5|Cảm xúc ¿ Tố t )= ' ' P (Yêu=11 20|Cảm xúc ¿ Tố t )= ' ' P (Vừa=6 10|Cảm xúc ¿ Tố t )=5 ' ' P (Đi=0 5|Cảm xúc ¿ Tố t )= ' ' +1 + ≈ 0,333 + + ≈ 0,111 + + ≈ 0,333 +1 + ≈ 0,333 2+ + ≈ 0,333 P(Cảm xúc = ‘Tốt’) x P(X|Cảm xúc = ‘Tốt’) = P(giảm = | cảm xúc = tốt) x P(nguời = 10 | cảm xúc = tốt) x P(chuyển = | cảm xúc = tốt) x P(yêu = 11 20 | cảm xúc = tốt) x P(vừa = 10 | cảm xúc = tốt) x P(đi = | cảm xúc = tốt) = 2.138*10-4 Xét giá trị Cảm xúc xấu: P (Giảm=0 5|Cảm xúc ¿' Xấu' )= 2+ + ≈ 0,333 Ta thấy hồ sơ X thứ ba có xác suất xảy Cảm xúc = ‘Bình thường’ lớn hơn, ta kết luận dịng liệu dự đốn vào phân lớp Cảm xúc = ‘Bình thường’ Xét hồ sơ cuối Áp dụng làm trơn Laplace Xét giá trị Cảm xúc tốt: P (Giảm=6 10|Cảmxúc ¿ Tố t )=5 ' ' +1 + ≈ 0,111 1+ ≈ 0,222 P (Người=11 20|Cảm xúc ¿ Tố t )= P (Chuyển=6 10|Cảm xúc ¿ Tố t )= + + ≈ 0,333 ' ' ' ' + P (Yêu=6 10|Cảm xúc ¿ Tố t )= 1+ + ≈ 0,222 P (Vừa=¿ 20|Cảm xúc ¿ Tố t )= + + ≈ 0,222 ' ' ' ' P (Đi=0 5|Cảm xúc ¿ Tố t )= ' ' 2+ + ≈ 0,333 P(Cảm xúc = ‘Tốt’)*P(X|Cảm xúc = ‘Tốt’) = 4,7525.10-5 Xét giá trị Cảm xúc xấu: P (Giảm=6 10|Cảmxúc ¿ Xấu' )= ' 1+ + ≈ 0,222 P (Người=11 20|Cảm xúc ¿ Xấu' )= ' + + ≈ 0,111 P (Chuyển=6 10|Cảm xúc ¿ Xấu ')=5 ' P (Yêu=6 10|Cảm xúc ¿ Xấu ')= ' +1 + ≈ 0,222 + + ≈ 0,111 +1 + ≈ 0,111 P (Vừa=¿ 20|Cảm xúc ¿ Xấu ')=5 ' P (Đi=0 5|Cảm xúc ¿ Xấu' )= ' + + ≈ 0,333 P(Cảm xúc = ‘Xấu’)*P(X|Cảm xúc = ‘Xấu’) = 7,9208.10-6 Xét giá trị Cảm xúc bình thường P (Giảm=6 10|Cảmxúc ¿ Bìnhthường ')= ' + + =0,25 1+ + =0,25 P (Người=11 20|Cảm xúc ¿ Bìnhthường' )= P (Chuyển=6 10|Cảm xúc ¿ Bìnhthường ')= 1+ + =0,25 ' ' P (Yêu=6 10|Cảm xúc ¿ Bìnhthường' )= 1+ + =0,25 P (Vừa=¿ 20|Cảm xúc ¿ Bìnhthường ' )= +1 + =0,125 ' ' P (Đi=0 5|Cảm xúc ¿ Bìnhthường' )= ' 0+ + =0,125 P(Cảm xúc = ‘Bình thường’)*P(X|Cảm xúc = ‘Bình thường’) = 1,795.10-5 Ta thấy hồ sơ X thứ tư có xác suất xảy Cảm xúc = ‘Tốt’ lớn hơn, ta kết luận dịng liệu dự đoán vào phân lớp Cảm xúc = ‘Tốt’ Ma trận nhầm lẫn CART: Lớp thực tế Từ ta tính độ xác độ phủ: precision( M )= +1 =50% recall ( M )= 1+ 1=50% Ma trận nhầm lẫn thuật tốn Nạve Bayes: Lớp dự đốn từ mơ hình Lớp thực tế Từ ta tính độ xác độ phủ: precision( M )= 2+ =100% recall ( M )= 2+ =100% Từ kết cho thấy thuật tốn Nạve Bayes có độ xác cao CART - Nếu nắm bắt cảm xúc “xấu”, ta cần hạn chế tối đa thông tin mạng xã hội ảnh hưởng tiêu cực đến người dùng, gợi ý thông tin mang thiên hướng tích cực, phát lời khun thay đổi hiển thị viết giúp cho người dùng cải thiện tâm trạng - Với cảm xúc “bình thường” “tốt”, ta giữ nguyên đề xuất đưa thêm nhiều thông tin tích cực Câu Nhìn vào đồ thị ta có khơng có thuộc tính có độ tương đồng cao nên ta khơng loại thuộc tính hết Theo đề thuộc tính “Quality” chọn làm thuộc tính định nên ta tiến hành tách thuộc tính khỏi liệu lưu vào phần Ở toàn liệu thuộc dạng số nên không cần chuyển đổi Tính ma trận nhằm lẫn biểu diễn lên đồ thị heatmap Biểu diễn ID3 lệnh Cây thu được: Biểu diễn ID3 Cây thu Dựa vào mơ hình ta có độ xác + Thuật toán ID3 cao (0.5833333333333334) + Thuật toán Naive Bayes thấp (0.5416666666666666) Vậy mơ hình sử dụng thuật toán định ID3 tốt ... (S11… ( 24 ) − (42 ) =0,5 )=1− 20 (23 ) −(13 ) =0 ,44 44 )=1− Gini(S¿20 )=1− 2 ( 24 ) −( 14 ) − (41 ) =0,625 2 (23 ) −(13 ) =0 ,44 44 2 4 GiniĐi (S )= 14 × 0,5+ 14 × 0 ,44 4 4+ 14 × 0,625+ 14 × 0 ,44 4 4= 0,5119... (23 ) −(13 ) =0 ,44 4 2 )=1− ( 24 ) −( 14 ) −( 14 ) =0,625 )=1− (25 ) −(52 ) −(15 ) =0, 64 Gini (S¿20 )=1− 2 2 2 (12 ) −(12 ) =0,5 2 GiniChuyển (S )= 14 × 0 ,44 4+ 14 ×0,625+ 14 ×0, 64+ 14 × 0,5=0,5737... Gini (S11… 20 2 (23 ) −(13 ) =0 ,44 4 )=1− Gini(S¿20 )=1− 2 (13 ) −(13 )−(13 ) 22 =0,667 (11 ) =0 3 GiniYêu (S )= 14 ×0,6122+ 14 × 0,667+ 14 × 0 ,44 4+ 14 ×0=0, 544 1 - Xét Gini thuộc tính đi: Gini(S0