1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÁO cáo THỰC HÀNH bài 4

30 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 30
Dung lượng 4,58 MB

Nội dung

BÁO CÁO THỰC HÀNH BÀI Họ tên: Nguyễn Hồng Thế Bảo MSSV: 19521247 Mơn học: Khai thác liệu – IS252.M21.HTCL.2 Giáo viên: Vũ Minh Sang Đề: b Yêu cầu: TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Theo thống kê từ câu 2, ta tính số Gini thuộc tính để tìm thuộc tính phân nhánh có lợi - Xét Gini thuộc tính giảm: Gini( S0 Gini(S6 …5 )=1− …10 )=1− Gini (S11… 20 (36 ) −(62 ) −(16 ) =0,611 2 (12 ) −(12 ) =0,5 )=1− Gini(S¿20 )=1− 2 (24 ) −(14 ) −(41 ) =0,625 2 (12 ) −(12 ) =0,5 2 TIEU LUAN MOI download : skknchat123@gmail.com moi nhat GiniGiảm (S )= 14 × 0,611+ 14 × 0,5+ 14 × 0,625+ 14 × 0,5=0,5833 - Xét Gini thuộc tính người: Gini( S0 …5 Gini (S6 …10 Gini(S11… )=1− 20 (25 ) −(25 ) −(15 ) =0,64 2 )=1− (25 ) −(35 ) =0,48 )=1− (12 ) −(12 ) =0 ,5 Gini(S¿20 )=1− 2 2 (12 ) −(12 ) =0,5 2 5 2 GiniNgười ( S)=14 × 0,64+ 14 × 0,48+ 14 × 0,5+ 14 × 0,5=0,5429 - Xét Gini thuộc tính chuyển: Gini(S0 …5 Gini (S6 )=1− …10 Gini(S11… 20 (23 ) −(13 ) =0,444 2 )=1− (24 ) −(14 ) −(14 ) =0,625 )=1− (25 ) −(52 ) −(15 ) =0,64 Gini (S¿20 )=1− 2 2 2 (12 ) −(12 ) =0,5 2 GiniChuyển (S )= 14 × 0,444+ 14 ×0,625+ 14 ×0,64+ 14 × 0,5=0,5737 - Xét Gini thuộc tính yêu: Gini (S0 …5 )=1− (36 ) −(62 ) −(16 ) =0,611 2 TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Gini (S6 …10 Gini(S11… 20 )=1− (12 ) −(12 ) =0,5 )=1− (25 ) −(52 ) −(15 ) =0,64 2 2 2 Gini (S¿20 )=1− (11 ) =0 GiniYêu (S )= 14 ×0,611+ 14 × 0,5+ 14 × 0,64+ 14 ×0=0,5619 - Xét Gini thuộc tính vừa: Gini (S0 Gini(S6 (37 ) −(37 ) −(17 ) =0,6122 …5 )=1− …10 )=1− Gini (S11… 20 2 (23 ) −(13 ) =0,444 )=1− Gini(S¿20 )=1− 2 (13 ) −(13 )−(13 ) 22 =0,667 (11 ) =0 3 GiniYêu (S )= 14 ×0,6122+ 14 × 0,667+ 14 × 0,444+ 14 ×0=0,5441 - Xét Gini thuộc tính đi: Gini(S0 …5 Gini (S6 )=1− …10 Gini (S11… (24 ) −(42 ) =0,5 )=1− 20 (23 ) −(13 ) =0,4444 )=1− Gini(S¿20 )=1− 2 (24 ) −(14 ) −(41 ) =0,625 2 (23 ) −(13 ) =0,4444 2 TIEU LUAN MOI download : skknchat123@gmail.com moi nhat 4 GiniĐi (S )= 14 × 0,5+ 14 × 0,444 4+ 14 × 0,625+ 14 × 0,444 4=0,5119  Trong thuộc tính, thuộc tính ”đi” có số Gini nhỏ Do chọn thuộc tính phân nhánh theo TH1: Xét nhánh “0…5” ta tính giá trị Gini sau: GiniGiảm (S Đi=0…5 GiniNgười ( SĐi=0…5)= GiniChuyển (S Đi=0…5 GiniYêu ( SĐi=0…5)= GiniVừa ( SĐi=0…5)=  × 0.444 + ×1+ ×0+ × 1=0.333 )= 1 0,5+ 0+ 0=0,25 )= 2 0,5+ 0,5=0,5 2 0,5+ 0,5=0 , 0,5+ 0+ 0=0,25 Ta thấy nhánh “đi” = ”0…5” có hai thuộc tính người vừa có số Gini nhỏ nên ta lấy thuộc tính Người tiếp tục chia nhánh - Do nhánh Đi = “0…5” Người = “11…20”, với nhánh ln có phân lớp cảm xúc = “Tốt” nhánh Đi = “0…5” Người = “>20”, nhánh ln có phân lớp Cảm xúc = “Xấu”, nhánh nút khơng cần xét tiếp - Nhánh Đi = “0…5” Người= “6…10”: Chỉ số Gini thuộc tính với điều kiện = “0…5” Người= “6…10” GiniGiảm (S Đi=0…5 , Người=6 10 )= 0+ 0=0 TIEU LUAN MOI download : skknchat123@gmail.com moi nhat GiniChuyển (S )= Đi=0…5 , Người=6 10 GiniYêu ( SĐi=0…5, Người=6 10 )= GiniVừa ( SĐi=0…5, Người=6 10)=  1 0+ 0=0 0+ 0=0 1 0+ 0=0 Vậy nhánh có thuộc tính có số Gini nhỏ nên ta lấy thuộc tính “giảm” tiếp tục chia nhánh Nhánh Đi = “0…5”, Người = “11…20”, Giảm =”0…5”, với nhánh có phân lớp Cảm xúc = “Tốt” nhánh Đi = “0…5”, Người = “11…20”,Giảm =”11 20”, với nhánh ln có phân lớp Cảm xúc = “Xấu”, nhánh nút khơng cần xét tiếp TH2: Xét nhánh “6…10” ta tính giá trị Gini sau: GiniGiảm (S Đi=6…10 0,5+ ≈ 0,333 )= GiniNgười ( SĐi=6…10)= 0+ GiniChuyển (S Đi=6…10 )= GiniYêu ( SĐi=6…10 )= 0+ 0=0 0,5+ ≈ 0,333 1 0+ 0+ 0=0 GiniVừa ( SĐi=6…10)= 0,444=0,444  Ta thấy nhánh “đi” = ”6…10” có hai thuộc tính người yêu có số Gini nhỏ nên ta lấy thuộc tính Người tiếp tục chia nhánh - Do nhánh Đi = “6…10” Người = “0…5”, với nhánh ln có phân lớp Cảm xúc = “Xấu”, nhánh Đi = “6…10” Người = “6 10”, với nhánh TIEU LUAN MOI download : skknchat123@gmail.com moi nhat ln có phân lớp Cảm xúc = “Xấu” nhánh Đi = “6…10” Người = “11 20”, với nhánh ln có phân lớp Cảm xúc = “Bình thường”, nhánh nút không cần xét tiếp TH 3: Xét nhánh Đi = “11 20” ta tính giá trị Gini sau GiniGiảm (S Đi=11 20 0+ 0,444 ≈ 0,333 )= GiniNgười ( SĐi=11…20 )= GiniChuyển (S Đi=11…20 GiniYêu ( SĐi=11…20 )= GiniVừa ( SĐi=11…20 )=  0+ 0,5+ 0=0,25 )= 0+ 0,5+ 0=0,25 2 0,5+ 0,5=0,5 2 0,5+ 0,5=0,5 Ta thấy nhánh Đi = “11 20” có thuộc tính Người, chuyển có số Gini nhỏ nên ta lấy thuộc tính Người tiếp tục chia nhánh - Do nhánh Đi = “11…20” Người = “0…5”, với nhánh ln có phân lớp Cảm xúc = “Tốt”, nhánh Đi = “11…20” Người = “>20”, với nhánh ln có phân lớp Cảm xúc = “Bình thường”, nhánh nút không cần xét tiếp - Nhánh Đi = “11…20” Người = “6 10” Chỉ số Gini thuộc tính với điều kiện Đi = “11…20” Người = “6 10” GiniGiảm (S )= Đi=11…20 , Người=6 10 GiniChuyển (S )= Đi=11…20 , Người=6 10 GiniYêu ( SĐi=11…20 , Người=6 10 0+ 1 0+ 0=0 0=0 )= 0,5=0,5 TIEU LUAN MOI download : skknchat123@gmail.com moi nhat GiniVừa ( SĐi=11…20  , Người=6 10 )= 2 0,5=0,5 Vậy nhánh Đi = “11…20” Người = 10 có thuộc tính Giảm, chuyển, có số Gini nhỏ nên ta lấy thuộc tính Giảm tiếp tục chia nhánh - Do nhánh Đi = “11…20”, Người = “6…10”,Giảm =”0…5”, với nhánh ln có phân lớp Cảm xúc = “Xấu” nhánh Đi = “11…20”, Người = “6…10”,Giảm =”11 20”, với nhánh ln có phân lớp Cảm xúc = “Tốt”, nhánh nút khơng cần xét tiếp TH 4: Nhánh Đi = “>20” ta tính giá trị Gini sau GiniGiảm (S Đi=>20 0,5+ ≈ 0,333 )= GiniNgười (SĐi=>20)= 0,444=0,444 GiniChuyển (S Đi=>20 )= GiniYêu ( SĐi=>20 )= 0+ 0=0 0,5+ ≈ 0,333 1 GiniVừa ( SĐi=>20 )= 0+3 0+  0=0 Vậy nhánh Đi = “>20” có thuộc tính Vừa, chuyển có số Gini nhỏ nên ta lấy thuộc tính Vừa tiếp tục chia nhánh - Do nhánh Đi = “>20” Vừa= “0…5”, với nhánh ln có phân lớp Cảm xúc = “Bình thường”, nhánh Đi = “>20” Vừa= “6 10”, với nhánh ln có phân lớp Cảm xúc = “Tốt” nhánh Đi = “>20” Vừa= “11 20”, với nhánh có phân lớp Cảm xúc = “Bình thường”, nhánh nút không cần xét tiếp Ta có định: TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Câu c Áp dụng làm trơn Laplace ta có: 5+1 Ta có P(Cảm xúc = ‘Tốt’) = 14+3 = 6/17 ¿ 0,3529 5+1 Ta có P(Cảm xúc = ‘Xấu’) = = 6/17 ¿0,3529 14+3 TIEU LUAN MOI download : skknchat123@gmail.com moi nhat +1 Ta có P(Cảm xúc = ‘Bình thường’) = 14+3 = 5/17 ≈ 0,2941 Xét hồ sơ X = {giảm = 5, người = 10, chuyển = 5, yêu =11 20, vừa = 10, = 5} Áp dụng làm trơn Laplace Xét giá trị cảm xúc tốt: +1 + ≈ 0,444 P (Giảm=0 5|Cảm xúc ¿ Tố t )=5 ' ' P (Người=6 10|Cảmxúc ¿ Tố t )=5 ' ' P (Chuyển=0 5|Cảm xúc ¿ Tố t )= ' ' P (Yêu=11 20|Cảm xúc ¿ Tố t )= ' ' P (Vừa=6 10|Cảm xúc ¿ Tố t )=5 ' ' P (Đi=0 5|Cảm xúc ¿ Tố t )= ' ' +1 + ≈ 0,333 + + ≈ 0,111 + + ≈ 0,333 +1 + ≈ 0,333 2+ + ≈ 0,333 P(Cảm xúc = ‘Tốt’) x P(X|Cảm xúc = ‘Tốt’) = P(giảm = | cảm xúc = tốt) x P(nguời = 10 | cảm xúc = tốt) x P(chuyển = | cảm xúc = tốt) x P(yêu = 11 20 | cảm xúc = tốt) x P(vừa = 10 | cảm xúc = tốt) x P(đi = | cảm xúc = tốt) = 2.138*10-4 Xét giá trị Cảm xúc xấu: P (Giảm=0 5|Cảm xúc ¿' Xấu' )= 2+ + ≈ 0,333 TIEU LUAN MOI download : skknchat123@gmail.com moi nhat  Ta thấy hồ sơ X thứ ba có xác suất xảy Cảm xúc = ‘Bình thường’ lớn hơn, ta kết luận dịng liệu dự đoán vào phân lớp Cảm xúc = ‘Bình thường’ TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Xét hồ sơ cuối Áp dụng làm trơn Laplace Xét giá trị Cảm xúc tốt: P (Giảm=6 10|Cảmxúc ¿ Tố t )=5 ' ' +1 + ≈ 0,111 1+ ≈ 0,222 P (Người=11 20|Cảm xúc ¿ Tố t )= P (Chuyển=6 10|Cảm xúc ¿ Tố t )= + + ≈ 0,333 ' ' ' ' + P (Yêu=6 10|Cảm xúc ¿ Tố t )= 1+ + ≈ 0,222 P (Vừa=¿ 20|Cảm xúc ¿ Tố t )= + + ≈ 0,222 ' ' ' ' P (Đi=0 5|Cảm xúc ¿ Tố t )= ' ' 2+ + ≈ 0,333 P(Cảm xúc = ‘Tốt’)*P(X|Cảm xúc = ‘Tốt’) = 4,7525.10-5 Xét giá trị Cảm xúc xấu: P (Giảm=6 10|Cảmxúc ¿ Xấu' )= ' 1+ + ≈ 0,222 P (Người=11 20|Cảm xúc ¿ Xấu' )= ' + + ≈ 0,111 P (Chuyển=6 10|Cảm xúc ¿ Xấu ')=5 ' P (Yêu=6 10|Cảm xúc ¿ Xấu ')= ' +1 + ≈ 0,222 + + ≈ 0,111 TIEU LUAN MOI download : skknchat123@gmail.com moi nhat +1 + ≈ 0,111 P (Vừa=¿ 20|Cảm xúc ¿ Xấu ')=5 ' P (Đi=0 5|Cảm xúc ¿ Xấu' )= ' + + ≈ 0,333 P(Cảm xúc = ‘Xấu’)*P(X|Cảm xúc = ‘Xấu’) = 7,9208.10-6 Xét giá trị Cảm xúc bình thường P (Giảm=6 10|Cảmxúc ¿ Bìnhthường ')= ' + + =0,25 1+ + =0,25 P (Người=11 20|Cảm xúc ¿ Bìnhthường' )= P (Chuyển=6 10|Cảm xúc ¿ Bìnhthường ')= 1+ + =0,25 ' ' P (Yêu=6 10|Cảm xúc ¿ Bìnhthường' )= 1+ + =0,25 P (Vừa=¿ 20|Cảm xúc ¿ Bìnhthường ' )= +1 + =0,125 ' ' P (Đi=0 5|Cảm xúc ¿ Bìnhthường' )= ' 0+ + =0,125 P(Cảm xúc = ‘Bình thường’)*P(X|Cảm xúc = ‘Bình thường’) = 1,795.10-5  Ta thấy hồ sơ X thứ tư có xác suất xảy Cảm xúc = ‘Tốt’ lớn hơn, ta kết luận dịng liệu dự đoán vào phân lớp Cảm xúc = ‘Tốt’ TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Ma trận nhầm lẫn CART: Lớp thực tế Từ ta tính độ xác độ phủ: precision( M )= +1 =50% recall ( M )= 1+ 1=50% TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Ma trận nhầm lẫn thuật tốn Nạve Bayes: Lớp dự đốn từ mơ hình Lớp thực tế Từ ta tính độ xác độ phủ: precision( M )= 2+ =100% recall ( M )= 2+ =100% Từ kết cho thấy thuật toán Nạve Bayes có độ xác cao CART - Nếu nắm bắt cảm xúc “xấu”, ta cần hạn chế tối đa thông tin mạng xã hội ảnh hưởng tiêu cực đến người dùng, gợi ý thơng tin mang thiên hướng tích cực, phát lời khuyên thay đổi hiển thị viết giúp cho người dùng cải thiện tâm trạng - Với cảm xúc “bình thường” “tốt”, ta giữ ngun đề xuất đưa thêm nhiều thơng tin tích cực TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Câu TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Nhìn vào đồ thị ta có khơng có thuộc tính có độ tương đồng cao nên ta khơng loại thuộc tính hết TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Theo đề thuộc tính “Quality” chọn làm thuộc tính định nên ta tiến hành tách thuộc tính khỏi liệu lưu vào phần Ở toàn liệu thuộc dạng số nên không cần chuyển đổi TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Tính ma trận nhằm lẫn biểu diễn lên đồ thị heatmap TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Biểu diễn ID3 lệnh Cây thu được: TIEU LUAN MOI download : skknchat123@gmail.com moi nhat TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Biểu diễn ID3 TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Cây thu TIEU LUAN MOI download : skknchat123@gmail.com moi nhat TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Dựa vào mơ hình ta có độ xác + Thuật toán ID3 cao (0.5833333333333334) + Thuật toán Naive Bayes thấp (0.5416666666666666) Vậy mơ hình sử dụng thuật tốn định ID3 tốt TIEU LUAN MOI download : skknchat123@gmail.com moi nhat ... (23 ) −(13 ) =0 ,44 4 2 )=1− ( 24 ) −( 14 ) −( 14 ) =0,625 )=1− (25 ) −(52 ) −(15 ) =0, 64 Gini (S¿20 )=1− 2 2 2 (12 ) −(12 ) =0,5 2 GiniChuyển (S )= 14 × 0 ,44 4+ 14 ×0,625+ 14 ×0, 64+ 14 × 0,5=0,5737... (S11… ( 24 ) − (42 ) =0,5 )=1− 20 (23 ) −(13 ) =0 ,44 44 )=1− Gini(S¿20 )=1− 2 ( 24 ) −( 14 ) − (41 ) =0,625 2 (23 ) −(13 ) =0 ,44 44 2 TIEU LUAN MOI download : skknchat123@gmail.com moi nhat 4 GiniĐi... Gini (S11… 20 2 (23 ) −(13 ) =0 ,44 4 )=1− Gini(S¿20 )=1− 2 (13 ) −(13 )−(13 ) 22 =0,667 (11 ) =0 3 GiniYêu (S )= 14 ×0,6122+ 14 × 0,667+ 14 × 0 ,44 4+ 14 ×0=0, 544 1 - Xét Gini thuộc tính đi: Gini(S0

Ngày đăng: 14/10/2022, 08:35

w