Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 11 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
11
Dung lượng
492,38 KB
Nội dung
BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP HCM KHOA CÔNG NGHỆ THÔNG TIN BÀI TẬP LỚN CUỐI KỲ ĐỀ TÀI: DỰ ĐOÁN MƯA Học phần: MÁY HỌC Giáo viên: NGUYỄN VIỆT LINH Thực hiện: 18031101_Nguyễn Trung Hải 18075311_Trần Phạm Hải Âu 18081491_Trần Đơng Hồng 18086161_Hà Danh Phúc Thành phố Hồ Chí Minh, ngày 12 tháng 12 năm 2021 LỜI CẢM ƠN Lời đầu tiên, nhóm xin gửi lời cảm ơn chân thành đến thầy giáo Nguyễn Việt Linh, người hướng dẫn bảo tận tình cho nhóm suốt q trình hồn thành học phần Nhóm xin cảm ơn thầy, giáo khoa cơng nghệ thơng tin tận tình bảo trình học tập trường Đại học Cơng Nghiệp Thành Phố Hồ Chí Minh Mặc dù nhóm cố gắng nhiều q trình thực thời gian trình độ cịn hạn chế, báo cáo tránh khỏi thiếu sót Kính mong thầy bảo đóng góp ý kiến để báo cáo nhóm hồn thiện Nhóm xin chân thành cảm ơn! MỤC LỤC Chương 1: TỔNG QUAN 1.1Giới thiệu 1.2Mơ tả tốn Chương 2: GIẢI QUYẾT BÀI TOÁN 2.1Cơ sở lý thuyết 2.1.1Logictic Regression 2.1.2Random Forest 2.1.3 Decision Tree 2.1.4Support Vector Machine (SVM) 2.2Giải toán 2.2.1Công cụ 2.2.2Dữ liệu 2.2.3Đánh giá 2.3.4So sánh phương pháp 2.3.5Kết Chương 3: KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU 3.1Kết luận 3.1.1Hạn chế 3.2 Hướng phát triển TÀI LIỆU THAM KHẢO Chương 1: TỔNG QUAN 1.1 Giới thiệu Với phát triển Công nghệ thông tin tạo lượng lớn sở liệu liệu khổng lồ nhiều lĩnh vực khác Việc nghiên cứu sở liệu công nghệ thông tin tạo cách tiếp cận để lưu trữ sử dụng liệu quý giá nhằm mục đích đưa định sau “Khai phá liệu trình trích xuất thơng tin hữu ích mẫu từ liệu khổng lồ Nó cịn gọi trình khám phá tri thức, khai thác tri thức từ liệu, khai thác tri thức phân tích liệu/ phân tích mẫu” Khai thác liệu có tầm quan trọng liên quan đến việc tìm kiếm mẫu, dự báo, khám phá kiến thức, v.v., lĩnh vực kinh doanh khác Các kỹ thuật thuật toán khai thác liệu phân loại, phân cụm, v.v., giúp tìm mơ hình để định xu hướng phát triển tương lai doanh nghiệp Khai thác liệu có phạm vi ứng dụng rộng rãi ngành nơi liệu tạo ra, lý khai thác liệu coi biên giới quan trọng sở liệu hệ thống thông tin phát triển liên ngành hứa hẹn Công nghệ thông tin Một mục tiêu khai phá liệu để đưa dự báo tương lai nhằm phục vụ số định hay mục đích Trong có lĩnh vực nghiên cứu dự báo chuỗi thời gian phát triển mơ hình dự báo 1.2 Mơ tả tốn Bài toán dự mưa dựa vào liệu thời tiết TP.HCM từ năm 2008-2018 Input: Đầu vào sử dụng 10 đặc trưng liên quan thời tiết: maxtempC (nhiệt độ cao (độ C) ngày), uvIndex (chỉ số tia cực tím, hay số UV, phép đo tiêu chuẩn quốc tế cường độ xạ tia cực tím (UV) gây cháy nắng địa điểm thời gian cụ thể), winddirDegree (hướng gió độ cao 10m so với bề mặt), precipMM (nước thể lỏng rắn rơi từ khí xuống mặt đất (mm)), humidity (lượng nước khí quyển), Visibility (khoảng cách mà vật thể ánh sáng nhận biết cách rõ ràng), Pressure (lực gây tương tác khí lực hấp dẫn Cịn gọi áp suất khí quyển), Cloudcover (độ che phủ đám mây), DewPointC (nhiệt độ mà khơng khí phải làm mát để nước ngưng tụ tạo thành sương mù mây (độ C)), FeelsLikeC (Cảm giác nhiệt độ thực tế trời (độ C)) Model: Sử dụng model khác nhau: Logistic Regression, Random Forest, Decision Tree, Support Vector Machine (SVM) để so sánh đánh giá hiệu Ouput: Kết đầu gồm lớp mưa, mưa khơng mưa Chương 2: GIẢI QUYẾT BÀI TOÁN 2.1 Cơ sở lý thuyết 2.1.1 Logictic Regression Logistic Regression thuật toán phân loại dùng để gán đối tượng cho tập hợp giá trị rời rạc (như 0, 1, 2, ) Một ví dụ điển hình phân loại Email, gồm có email cơng việc, email gia đình, email spam, Giao dịch trực tuyến có an tồn hay khơng an tồn, khối u lành tính hay ác tình Thuật tốn dùng hàm sigmoid logistic để đưa đánh giá theo xác suất 2.1.2 Random Forest Random Forests thuật tốn học có giám sát (supervised learning) Nó sử dụng cho phân lớp hồi quy Nó thuật tốn linh hoạt dễ sử dụng Một khu rừng bao gồm cối Người ta nói có nhiều rừng mạnh Random forests tạo định mẫu liệu chọn ngẫu nhiên, dự đoán từ chọn giải pháp tốt cách bỏ phiếu Nó cung cấp báo tốt tầm quan trọng tính Random forests có nhiều ứng dụng, chẳng hạn cơng cụ đề xuất, phân loại hình ảnh lựa chọn tính Nó sử dụng để phân loại ứng viên cho vay trung thành, xác định hoạt động gian lận dự đoán bệnh Nó nằm sở thuật tốn Boruta, chọn tính quan trọng tập liệu 2.1.3 Decision Tree Cây định (Decision Tree - Viết tắt DT) cấu trúc phân nhánh để giải toán machine learning Các mẫu liệu/data samples xuất phát từ gốc định di chuyển theo điều kiện đặt để đến nút lá/leaf node/leaf Nút đưa câu trả lời cho toán cần giải (phân loại, hồi quy, hay phân bố) Hình 2.1 Minh họa thuật toán Decision Tree 2.1.4 Support Vector Machine (SVM) SVM thuật tốn giám sát, sử dụng cho việc phân loại đệ quy Tuy nhiên sử dụng chủ yếu cho việc phân loại Trong thuật toán này, vẽ đồi thị liệu điểm n chiều ( n số lượng tính bạn có) với giá trị tính phần liên kết Sau thực tìm "đường bay" (hyper-plane) phân chia lớp Hyper-plane hiểu đơn giản đường thẳng phân chia lớp thành hai phần riêng biệt Hình 2.2 Thuật tốn SVM 2.2 Giải tốn 2.2.1 Cơng cụ Sử dụng Visual Studio Code (VS Code) làm trình soạn thảo code VS Code trình soạn thảo mã nguồn mở gọn nhẹ có khả vận hành mạnh mẽ tảng Windows, Linux macOS phát triển Microsoft Nó hỗ trợ cho JavaScript, Node.js TypeScript, Python cung cấp hệ sinh thái mở rộng vô phong phú cho nhiều ngơn ngữ lập trình khác 2.2.2 Dữ liệu Dữ liệu thời tiết 10 năm (từ 2008-2018) TP.HCM sưu tầm từ nguồn Internet Dữ liệu gồm 3658 dòng tương ứng 3658 ngày xử lý, chọn lọc 10 đặc trưng ảnh hưởng Mỗi dòng gán nhãn tương ứng (trời mưa), (trời mưa), (trời khơng mưa) Hình 2.3 Dữ liệu toán 2.2.3 Đánh giá Kết đạt với phương pháp khả quan độ xác 80% Đối với phương pháp khác kết dự đốn tập test khác Logistic Regression: Kết test cho thấy lớp (mưa) lớp (khơng mưa) kết dự đốn xác, lớp (có thể mưa) có kết dự đốn 64/132 Hình 2.4 Kết test Logistic Regression Random Forests: Kết test cho thấy lớp (mưa) lớp (không mưa) kết dự đốn xác, lớp (có thể mưa) có kết dự đốn 48/132 Hình 2.5 Kết test Ramdom Forest Decision Tree: Kết test cho thấy lớp (mưa) lớp (khơng mưa) kết dự đốn xác, lớp (có thể mưa) có kết dự đốn 81/132 Hình 2.6 Kết test Decision Tree Support Vector Machine (SVM): Kết test cho thấy lớp (mưa) lớp (không mưa) kết dự đốn xác, lớp (có thể mưa) có kết dự đốn 73/132 Hình 2.7 Kết test SVM 2.3.4 So sánh phương pháp Trong phương pháp Decision Tree có kết tốt nhất, thời gian xử lý nhanh Hình 2.8 Bảng so sánh kết phương pháp 2.3.5 Kết Nhóm em dùng Decision Tree để dự đốn tập liệu Kết đạt được: Hình 2.9 Kết dự đoán Chương 3: KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU 3.1 Kết luận 3.1.1 Hạn chế Độ xác model thấp Chưa xây dựng hệ thống hồn chỉnh, dự đốn kết thời gian thực 3.2 Hướng phát triển Xây dựng hệ thống hoàn chỉnh dự đốn thời gian thưc Triển khai lên thiết bị IOT để có ứng dụng thực tế TÀI LIỆU THAM KHẢO [1] https://pbcquoc.github.io/cnn/ [7h30 am_ 19/9/2021] [2] https://viblo.asia/p/gioi-thieu-ve-support-vector-machine-svm-6J3ZgPVElmB [3] https://viblo.asia/p/phan-lop-bang-random-forests-trong-python-djeZ1D2QKWz [4] https://machinelearningcoban.com/ ... thấy lớp (mưa) lớp (khơng mưa) kết dự đốn xác, lớp (có thể mưa) có kết dự đốn 64/132 Hình 2.4 Kết test Logistic Regression Random Forests: Kết test cho thấy lớp (mưa) lớp (khơng mưa) kết dự đốn... Tree để dự đoán tập liệu Kết đạt được: Hình 2.9 Kết dự đoán Chương 3: KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU 3.1 Kết luận 3.1.1 Hạn chế Độ xác model cịn thấp Chưa xây dựng hệ thống hồn chỉnh, dự đoán kết... xác, lớp (có thể mưa) có kết dự đốn 48/132 Hình 2.5 Kết test Ramdom Forest Decision Tree: Kết test cho thấy lớp (mưa) lớp (không mưa) kết dự đốn xác, lớp (có thể mưa) có kết dự đốn 81/132 Hình