Các thuật toán học máy tính Các thuật toán học máy tính Các thuật toán học máy tính Các thuật toán học máy tính Các thuật toán học máy tính Các thuật toán học máy tính Các thuật toán học máy tính Các thuật toán học máy tính Các thuật toán học máy tính Các thuật toán học máy tính Các thuật toán học máy tính
Môn: Trí tuệ nhân tạo Lớp TH2006/01,02 Bài tập lớn CÁC THUẬT TOÁN HỌC MÁY Nội dung Xây dựng phân lớp liệu dựa thuật toán học máy học: Cây định Naïve Bayes Mục tiêu - Sinh viên xây dựng định Naïve Bayes, dựa liệu huấn luyện cụ thể, đồng thời làm quen với công cụ khai thác liệu mã nguồn mở Weka - Bài tập gồm hai phần Phần lí thuyết định Naïve Bayes Phần thứ hai tập thực hành công cụ khai thác liệu Weka (http://www.cs.waikato.ac.nz/ml/weka/) Phần I – Cây định Naïve Bayes (6 điểm) Mục tiêu tập làm quen với phương pháp học máy Cây định Học xác suất (Naïve Bayes) Sinh viên thực hành tập liệu đơn giản bên để đưa định có trượt tuyết hay không Quyết định đưa dựa thuộc tính snow (tình trạng tuyết rơi), weather (tình trạng thời tuyết), season (có phải mùa cao điểm hay không), physical condition (điều kiện thể) snow weather season physical condition go skiing sticky foggy low rested no fresh sunny low injured no fresh sunny low rested yes fresh sunny high rested yes fresh sunny mid rested yes frosted windy high tired no sticky sunny low rested yes frosted foggy mid rested no fresh windy low rested yes fresh windy low rested yes fresh foggy low rested yes fresh foggy low rested yes GVHDTH: Nguyễn Ngọc Thảo, Nguyễn Hải Minh, Vũ Thanh Hưng, Quách Khả Gia Môn: Trí tuệ nhân tạo Lớp TH2006/01,02 sticky sunny mid rested yes frosted foggy low injured no a Xây dựng định dựa vào liệu bảng cách tính độ hỗn loạn trung bình cho nút có Trình bày vào báo cáo tất bước tính toán định kết Gợi ý: Nhắc lại công thức tính entropy average entropy - Entropy = – p.log2p – (1 – p).log2(1 – p) với p tỉ lệ mẫu dương tập huấn luyện - ∑p H v v∈Value ( A) Average Entropy = Av b Áp dụng phương pháp học xác suất Naïve Bayes vào bảng liệu trên, với thuộc tính, thống kê số sau trình bày vào bảng - Số lượng mẫu chứa thuộc tính ứng với phân lớp - Xác suất giá trị thuộc tính ứng với phân lớp - Các giá trị xác suất làm trơn Laplace Gợi ý: công thức tính xác suất điều kiện trường hợp có hai phân lớp: P(C1 | X ) = P ( X | C1 ) P(C1 ) P ( X | C1 ) P(C1 ) + P( X | C ) P(C ) với C1, C2 hai phân lớp, X tập kiện cung cấp Ví dụ: xét bảng liệu đơn giản sau snow weather go skiing fresh foggy no sticky windy no sticky sunny yes fresh windy yes fresh foggy yes frosted sunny no Thực thống kê theo yêu cầu câu b, ta có bảng kết sau: Snow Count yes fresh frosted sticky no 1 Probability yes fresh 2/3 frosted 0/3 sticky 1/3 no 1/3 1/3 1/3 GVHDTH: Nguyễn Ngọc Thảo, Nguyễn Hải Minh, Vũ Thanh Hưng, Quách Khả Gia Laplace yes fresh 3/6 frosted 1/6 sticky 2/6 no 2/6 2/6 2/6 Môn: Trí tuệ nhân tạo Lớp TH2006/01,02 Weather yes 1 foggy sunny windy yes Skiing no 1 no yes no foggy 1/3 1/3 sunny 1/3 1/3 windy 1/3 1/3 yes no 3/6 3/6 yes foggy 2/6 sunny 2/6 windy 2/6 yes 4/8 no 2/6 2/6 2/6 no 4/8 Với mẫu “snow = fresh and weather = sunny”, thử xác định xem xác suất không trượt tuyết bao nhiêu? - P(C1) = P(go skiing = no) = 4/8 - P(C2) = P(go skiing = yes) = 4/8 - P(X|C1) = P(snow = fresh and weather = sunny | go skiing = no) = 2/6*2/6 = 1/9 - P(X|C2) = P(snow = fresh and weather = sunny | go skiing = yes) = 3/6*2/6 = 1/6 Vậy xác suất không trượt tuyết P(C1 | X ) = P( X | C1 ) P (C1 ) 1/ * / = = = 40% P ( X | C1 ) P (C1 ) + P( X | C ) P (C ) / * / + / * / c Hãy định xem kiện có giá trị thuộc tính bảng bên có trượt tuyết hay không, dựa vào phân lớp Cây định Naïve Bayes Trình bày chi tiết bước suy luận (ví dụ vào nút định tính xác suất Naïve Bayes) snow weather season physical condition go skiing sticky windy high tired ? d Thực tương tự câu c lưu ý lúc mẫu có giá trị thiếu snow weather season physical condition go skiing - windy mid injured GVHDTH: Nguyễn Ngọc Thảo, Nguyễn Hải Minh, Vũ Thanh Hưng, Quách Khả Gia ? Môn: Trí tuệ nhân tạo Lớp TH2006/01,02 Phần II – Thực hành với Weka (4 điểm) Công cụ sử dụng tập gọi WEKA, phần mềm xây dựng dựa ngôn ngữ Java Công cụ trực quan dễ sử dụng Hãy tải phần mềm (nên dùng phiên GUI) từ trang web www.cs.waikato.ac.nz/ml/weka/index.html cài đặt theo hướng dẫn Để thực tập này, sinh viên cần nắm cách sử dụng WEKA Explorer (xem hướng dẫn sử dụng Explorer thư mục cài đặt website WEKA) Hãy tạo tập tin ARFF từ bảng liệu trượt tuyết phần I để sử dụng chương trình WEKA a Hãy sử dụng tập liệu vừa tạo để thực nghiệm hai thuật toán Cây định Naïve Bayes WEKA - Thực nghiệm định: chọn thuật toán ID3, vẽ lại định - Thực nghiệm Naïve Bayes: chọn thuật toán NaiveBayesSimple, ghi nhận lại giá trị xác suất mà WEKA tính - Các phân lớp WEKA xây dựng có giống với kết tính từ lí thuyết không? Nếu không sao? - Trong hai trường hợp thực nghiệm, cách chọn kiểu test Cross-validation với số fold mặc định 10, cho biết: tỉ lệ xác phân lớp, số mẫu phân lớp đúng/sai/không phân lớp được, diễn giải lại phân bố liệu theo thông tin từ Confusion matrix b Hãy phân lớp cho hai mẫu câu c d Phần I hai phương pháp: Cây định Naïve Bayes Kết WEKA dự đoán có giống kết tính toán theo lí thuyết không? Nếu không sao? Với phương pháp ID3 bạn có dự đoán mẫu không? Tại sao, đề xuất cách giải có Gợi ý: để dự đoán mẫu mới, tạo file test.arff có cấu trúc giống tập huấn luyện, phần cần dự đoán để dấu ? (giá trị thiếu), lúc chạy chọn More Options ⇒ Output predictions để WEKA hiển thị kết dự đoán GVHDTH: Nguyễn Ngọc Thảo, Nguyễn Hải Minh, Vũ Thanh Hưng, Quách Khả Gia Môn: Trí tuệ nhân tạo Lớp TH2006/01,02 THỜI HẠN VÀ YÊU CẦU NỘP BÀI Thời gian: tuần (02/12/2008 – 15/12/2008) Quy định nộp: Nộp qua Moodle theo thời hạn định, cấu trúc nộp sau: ¾ Document: trình bày nội dung trả lời cho câu hỏi đề GVHDTH: Nguyễn Ngọc Thảo, Nguyễn Hải Minh, Vũ Thanh Hưng, Quách Khả Gia ... hai thuật toán Cây định Naïve Bayes WEKA - Thực nghiệm định: chọn thuật toán ID3, vẽ lại định - Thực nghiệm Naïve Bayes: chọn thuật toán NaiveBayesSimple, ghi nhận lại giá trị xác suất mà WEKA tính. .. no a Xây dựng định dựa vào liệu bảng cách tính độ hỗn loạn trung bình cho nút có Trình bày vào báo cáo tất bước tính toán định kết Gợi ý: Nhắc lại công thức tính entropy average entropy - Entropy... phương pháp học xác suất Naïve Bayes vào bảng liệu trên, với thuộc tính, thống kê số sau trình bày vào bảng - Số lượng mẫu chứa thuộc tính ứng với phân lớp - Xác suất giá trị thuộc tính ứng với