CHỦ ĐỀ 9 THUẬT TOÁN ADABOOST NHÓM 9 SL ID E SM A N I A C O M PHÂN HIỆU ĐẠI HỌC THỦY LỢI KHOA CÔNG NGHỆ THÔNG TIN Môn Dữ liệu lớn – Big Data Giảng viên Nguyễn Thanh Bình Lớp S21 60TH1 CHỦ ĐỀ Phân Tích Giá Nhà Ở 1 SL ID E SM A N I A C O M Thành viên trong nhóm 1 Nguyễn Yến Linh 2 Lê Văn Kiên 3 Bùi Tiến Dũng 2 SL ID E SM A N I A C O M Nội dung chính 1 Mô tả bài toán 2 Các thuật toán áp dụng 3 Đánh giá 4 Kết luận 3 SL ID E SM A N I A C O M 1 Mô tả bài toán 4 • Mục đích dùng thuật toán để nhận diện l.
PHÂN HIỆU ĐẠI HỌC THỦY LỢI KHOA : CÔNG NGHỆ THƠNG TIN CHỦ ĐỀ: Phân Tích Giá Nhà Ở SLIDESMANIA.C Môn: Dữ liệu lớn – Big Data Giảng viên: Nguyễn Thanh Bình Lớp: S21-60TH1 Thành viên nhóm: Nguyễn Yến Linh Lê Văn Kiên Bùi Tiến Dũng SLIDESMANIA.C Nội dung : Mơ tả toán Các thuật toán áp dụng Đánh giá Kết luận SLIDESMANIA.C Mô tả tốn • Mục đích dùng thuật tốn để nhận diện logo xe • Dự báo xác hang xe cung cấp liệu • Các phân tích đa chiều đưa giả thuyết sàng lọc yếu tố/dữ liệu bị “nhiễu” để xác định thông số thực quan trọng SLIDESMANIA.C File liệu: Nguồn Số lượng mẫu Dữ liệu Tập liệu Được lấy từ trang cung cấp liệu https://www.kaggle.com/datasets/ meowmeowmeowmeowmeow/gtsrb-german-trafficsign?select=Train 50000 hình ảnh Đã xử lý làm SLIDESMANIA.C Có 43 lớp File liệu SLIDESMANIA.C Các thuật toán áp dụng Decision Tree Random Forest SLIDESMANIA.C Mơi trường lập trình: Kaggle Ngơn ngữ lập trình: Python Các thư viện sử dụng: SLIDESMANIA.C Sơ lược Học máy - Machine learning Thuật toán Bayes (Nalve Bayes) Cây định (Decision Tree) Phân lớp (Classification) Rừng ngẫu nhiên (Random forest) Giám sát (Supervised) Không giám sát (Unsupervised) Hồi quy (Regression) Học máy – Machine learning SLIDESMANIA.C Tăng cường (Reinforcement) Cây định (Decision Tree) Bán giám sát (Semi –Supervised) Thuật toán định ID3 _ Cây định (Decision Tree) phân cấp có cấu trúc dùng để phân lớp đối tượng dựa vào dãy luật Cây định mơ hình supervised learning Classification (Phân lớp) Regression (Hồi quy) SLIDESMANIA.C 10 Triển khai thuật toán SLIDESMANIA.C Biểu đồ hệ số tương quan thuộc tính 11 Load data Tiến hành xây dựng định SLIDESMANIA.C 12 Vẽ định SLIDESMANIA.C 13 SLIDESMANIA.C Biểu đồ thể thuộc tính 14 Giới thiệu thuật toán Random forest _ Rừng ngẫu nhiên (Random Forest) tạo khu rừng cách chọn thuộc tính cách ngẫu nhiên _ Nó thuật toán sử dụng nhiều nhất, tính đơn giản thực tế SLIDESMANIA.C 15 Triển khai thuật toán SLIDESMANIA.C 16 SLIDESMANIA.C Biểu đồ thể thuộc tính 17 Đánh giá kết Decision Tree • Thuật tốn dễ hiểu • Xử lý được phân lớp và hồi quy • Đạt tỉ lệ xác cao: 90% Random Forest • Thuật tốn phức tạp • Xử lý được phân lớp và hồi quy • Đạt tỉ lệ chính xác khá cao: 80% SLIDESMANIA.C 18 Kết Luận Nhóm em có số kết Tìm hiểu khai phá liệu, cách triển khai, cài đặt, khái niệm, ưu nhược điểm thuật toán Decision Tree, Random Forest hỗ trợ phân loại giá nhà đất Sử dụng liệu mơi trường lập trình Kaggle Notebook, ngơn ngữ Python thư viện mà ngôn ngữ Python cung cấp để triển khai thuật toán cách thuận lợi Vẽ biểu đồ thể cách trực quan So sánh kết tỷ lệ train test để lựa chọn tỷ lệ đánh giá mơ hình tốt SLIDESMANIA.C 19 TÀI LIỆU THAM KHẢO ❏ https://ichi.pro/vi/huong-dan-don-gian-ve-thuat-toan-adaboost -trong-hoc-may-ky-thuat-lap-rap-72385685189703 (truy cập 6/10/2021) ❏ https://benh.edu.vn/adaboost-la-gi/?fbclid=IwAR3FNZRzFQp ocL48w6hCLNkqE7pyiSuQvBgf7lJpdhkxhGsUcLjiLX5xQNo (truy cập 6/10/2021) ❏https://filegi.com/tech-term/adaboost-10317/ (truy cập 6/10/2021) ❏ https://helpex.vn/article/thuat-toan-adaboost-cho-may-hoc-5c 664949ae03f60128765c2e (truy cập 6/10/2021) SLIDESMANIA.C 20 Thank you! SLIDESMANIA.C 21 ... tốn Các thuật toán áp dụng Đánh giá Kết luận SLIDESMANIA.C Mơ tả tốn • Mục đích dùng thuật tốn để nhận diện logo xe • Dự báo xác hang xe cung cấp liệu • Các phân tích đa chiều đưa giả thuyết sàng... Thuật toán Bayes (Nalve Bayes) Cây định (Decision Tree) Phân lớp (Classification) Rừng ngẫu nhiên (Random forest) Giám sát (Supervised) Không giám sát (Unsupervised) Hồi quy (Regression) Học máy... (Reinforcement) Cây định (Decision Tree) Bán giám sát (Semi –Supervised) Thuật toán định ID3 _ Cây định (Decision Tree) phân cấp có cấu trúc dùng để phân lớp đối tượng dựa vào dãy luật Cây định