Báo cáo thực hành làm việc nhóm tìm hiểu về học máy, thuật toán decision tree, github

TRƯỜNG ĐẠI HỌC QUY NHƠN KHOA CÔNG NGHỆ THÔNG TIN -🙞🙜🕮🙞🙜 - BÁO CÁO THỰC HÀNH LÀM VIỆC NHĨM TÌM HIỂU VỀ HỌC MÁY, THUẬT TỐN DECISION TREE, GITHUB Giảng viên: ThS Lê Thị Xinh Nhóm sinh viên: Họ tên Nhóm Mã sinh viên Lớp Phan Huỳnh Tố Hằng 4451050816 CNTT44E Lê Đình Nhật 4451050914 CNTT44E Lê Trọng Công 4451050774 CNTT44E Bùi Tấn Sang 4451050948 CNTT44E Bình Định, Tháng 10 năm 2023 MỤC LỤC CHƯƠNG HỌC MÁY 1.1 Khái niệm 1.2 Mơ hình chung học máy 1.3 Phân loại học máy 1.3.1 Học có giám sát 1.3.2 Học không giám sát 1.3.3 Học bán giám sát 1.3.4 Học tăng cường 1.4 Ứng dụng học máy CHƯƠNG THUẬT TOÁN CÂY QUYẾT ĐỊNH (DECISION TREE)……… 2.1 Khái niệm 2.2 Các thuật toán 2.2.1 Thuật toán ID3 2.2.1.1 Thuật Toán 2.2.1.2 Tiêu chuẩn chọn thuộc tính ID3 2.2.1.3 Các đặc điểm ID3 2.2.1.4 Training error test error 2.2.2 Thuật toán C4.5 2.2.3 Một số thuật toán khác 2.3 Phép đo 2.3.1 Entrophy 2.3.2 Information Gain 2.4 Tiêu chuẩn dừng 2.5 Ưu nhược điểm 2.5.1 Ưu điểm 2.5.2 Nhược điểm CHƯƠNG GIT & GITHUB 3.1 Giới thiệu 3.2 Quy trình làm việc Git 3.3 Tính Git………………………………………………………… 22 3.3.1 Repository - Kho lưu trữ 3.3.2 Snapshot 3.3.3 Commit 3.3.4 Clone 3.3.5 Push 3.3.6 Fetch 3.3.7 Pull 3.3.8 Branch – Nhánh 3.4 Làm quen với Github 3.4.1 Tạo repository GitHub 3.4.2 Fork repository 3.4.3 Chỉnh sửa code 3.4.4 Tạo branch Github 3.4.5 Github Flow 3.5 Lợi ích GitHub với lập trình viên CHƯƠNG BÀI TOÁN THỰC NGHIỆM 4.1 Trình bày tốn 4.2 Thực nghiệm 4.2.1 Mơ tả chương trình demo 4.2.2 Mơ tả kết dự đốn 4.2.3 Chương trình demo 4.2.3.1 Đọc liệu mẫu huấn luyện 4.2.3.2 Chuyển đổi liệu sang dạng int 4.2.3.3 Huấn luyện mơ hình 4.2.3.4 Dự đoán kết hiển thị định 4.2.3.5 Hệ luật định CHƯƠNG HỌC MÁY 1.1 Khái niệm Học máy (Machine Learning) lĩnh vực trí tuệ nhân tạo tập trung vào việc phát triển thuật tốn mơ hình máy tính, có khả học tự điều chỉnh dựa liệu mẫu (Training Data) dựa vào kinh nghiệm (những học) mà khơng cần phải lập trình cụ thể cho nhiệm vụ Mục tiêu học máy cho phép máy tính nhận biết mẫu, tìm quy luật, đưa dự đoán định dựa liệu đầu vào Các mơ hình ML u cầu lượng liệu đủ lớn để "huấn luyện" đánh giá mô hình Học máy ngày mang tính phổ biến toàn giới Sự tăng trưởng vượt bậc liệu lớn (Big Data) thuật toán Machine Learning cải thiện độ xác mơ hình dự đoán tương lai Bài toán Machine Learning thường chia làm hai loại: - Dự đoán (Prediction): dự đoán thời tiết, dự đoán điểm số học sinh, - Phân loại (classification): phân loại tin tức, phân loại ứng dụng, 1.2 Mơ hình chung học máy - Data collection – thu thập liệu: Để máy tính học ta cần có liệu (dataset), ta tự thu thập chúng lấy liệu cơng bố trước Lưu ý ta phải thu thập từ nguồn thống, có liệu xác máy học cách đắng đạt hiệu cao - Preprocessing – tiền xử lý: Dùng để chuẩn hóa liệu, loại bỏ thuộc tính khơng cần thiết, gán nhãn liệu, mã hóa số đặc trưng, trích xuất đặc trưng, rút gọn liệu đảm bảo kết quả… Bước tốn thời gian tỉ lệ thuận với số lượng liệu ta có Thu thập liệu tiền xử lý thường chiếm 70% tổng thời gian thực - Training model – huấn luyện mơ hình: Ta huấn luyện cho mơ hình cho học liệu bạn thu thập xử lý - Evaluating model – đánh giá mô hình: Sau huấn luyện mơ hình xong, cần dùng độ đo để đánh giá mô hình, tùy vào độ đo khác mà mơ hình đánh giá tốt hay khơng khác Độ xác mơ hình đạt 80% cho tốt - Improve – cải thiện: Sau đánh giá mơ hình, mơ hình đạt độ xác khơng tốt cần huấn luyện đánh giá lại đạt độ xác kỳ vọng Tổng thời gian từ lúc huấn luyện đến lúc cải thiện rơi vào khoảng 30% tổng thời gian thực 1.3 Các loại học máy 1.3.1 Học có giám sát Học có giám sát (Supervised Learning) loại phổ biến học máy (machine learning) đề cập đến trình đào tạo mơ hình máy tính để dự đốn phân loại liệu dựa tập liệu đào tạo có nhãn Điểm học có giám sát có hướng dẫn q trình học, tức mơ hình cung cấp với ví dụ có nhãn để học từ chúng Học máy có giám sát có thuật tốn sau: Cây định (Decision Trees), Phân loại Bayes (Naïve Bayes Classification), Hồi quy tuyến tính (Ordinary Least Squares Regression), Hồi quy logistic (Logistic Regression), Support Vector Machines (SVM), Kết hợp phương pháp (Ensemble Methods) Học có giám sát tiếp tục chia nhỏ thành hai loại chính: - Phân loại (Classification) - Hồi quy (Reggression) 1.3.2 Học không giám sát Học không giám sát (Unsupervised Learning) phân nhóm học máy đề cập đến q trình đào tạo mơ hình máy tính để hiểu cấu trúc thông tin ẩn liệu mà không yêu cầu liệu đào tạo có nhãn học có giám sát Trong học khơng giám sát, mơ hình phải tự học từ liệu tìm cấu trúc, mẫu, thông tin tiềm ẩn liệu Học máy khơng giám sát có thuật tốn như: Thuật tốn gom cụm (Clustering Algorithms), Phân tích thành phần (Principal Component Analysis - PCA), Singular Value Decomposition, Phân tích thành phần độc lập (Independent Component Analysis) Học khơng giám sát cịn tiếp tục chia nhỏ thành hai loại: - Phân nhóm (Clustering) - Kết hợp (Association) 1.3.3 Học máy bán giám sát Học máy bán giám sát (Semi-Supervised Learning) dạng học máy nằm hai dạng học máy có giám sát (Supervised Learning) học máy không giám sát (Unsupervised Learning) Trong học máy bán giám sát, mơ hình đào tạo sử dụng liệu có nhãn liệu khơng có nhãn để thực nhiệm vụ cụ thể, thường dự đoán phân loại Học máy bán giám sát có thuật tốn: Thuật tốn cực đại kì vọng (EM), SVM truyền dẫn (TSVM), Self-training, Co-training, Phương pháp dựa đồ thị (Graph-based) Các tốn học máy thuộc vào nhóm việc thu thập liệu có nhãn tốn nhiều thời gian có chi phí cao Ngược lại, liệu chưa có nhãn thu thập với chi phí thấp từ internet 1.3.4 Học máy học tăng cường ứng dụng Học máy học tăng cường (Reinforcement Learning) phân nhóm lĩnh vực học máy, nơi mà hệ thống máy tính đào tạo để tương tác với môi trường học thông qua trải nghiệm Học máy học tăng cường giống việc đào tạo máy tính để thực hành động định tối ưu hóa mục tiêu thơng qua thử nghiệm sai lầm mơi trường Học máy học tăng cường có thuật toán: Self Training, Generative models, S3VMs, Graph-Based Algorithms, Multiview Algorithms… Hiện tại, học tăng cường chủ yếu áp dụng vào Lý Thuyết Trị Chơi (Game Theory), thuật tốn cần xác định nước để đạt điểm số cao 1.4 Ứng dụng học máy Học máy ứng dụng nhiều đời sống lĩnh vực: Tài - ngân hang, Sinh học, Nơng nghiệp, Tìm kiếm, trích xuất thơng tin, Tự động hóa, Robotics, Hóa học, Mạng máy tính, Khoa học vũ trụ, Quảng cáo, Xử lý ngơn ngữ tự nhiên, Thị giác máy tính Học máy giúp chúng ta: - Giải nhiều vấn đề thị giác máy, nhận dạng giọng nói robot - Khai thác liệu (từ sở liệu lớn/trực tuyến) - Sản xuất máy tự động thích ứng - Xử lý liệu lớn CHƯƠNG THUẬT TOÁN CÂY QUYẾT ĐỊNH (DECISSION TREE) 2.1 Khái niệm Cây định (Decision Tree) Cây định (Decision Tree) phân cấp có cấu trúc dùng để phân lớp đối tượng dựa vào dãy luật Các thuộc tính đối tượng thuộc kiểu liệu khác Nhị phân (Binary) , Định danh (Nominal), Thứ tự (Ordinal), Số lượng (Quantitative) thuộc tính phân lớp phải có kiểu liệu Binary Ordinal Tóm lại, cho liệu đối tượng gồm thuộc tính với lớp (classes) nó, định sinh luật để dự đoán lớp liệu chưa biết Ta xét ví dụ kinh điển khác định Giả sử dựa theo thời tiết mà bạn nam định đá bóng hay khơng? Những đặc điểm ban đầu là: thời tiết, độ ẩm, gió Dựa vào thơng tin trên, bạn xây dựng mơ sau: Mơ hình định Dựa theo mơ hình trên, ta thấy: Nếu trời nắng, độ ẩm bình thường khả bạn nam chơi bóng cao Cịn trời nắng, độ ẩm cao khả bạn nam khơng chơi bóng 2.2 Các loại thuật toán Decision Tree 2.2.1 Thuật toán ID3 2.2.1.1 Thuật toán ● Khởi đầu: nút thời nút gốc chứa toàn tập liệu huấn luyện ● Tại nút thời n, lựa chọn thuộc tính: ○ Chưa sử dụng nút tổ tiên ○ Cho phép phân chia tập liệu thời thành tập cách tốt ○ Với giá trị thuộc tính chọn thêm nút bên ○ Chia ví dụ nút thời nút theo giá trị thuộc tính chọn ● Lặp (đệ quy) khi: ○ Tất thuộc tỉnh sử dụng nút phía trên, ○ Tất ví dụ nút thời có nhãn phần loại

Tiêu đề	Báo Cáo Thực Hành Làm Việc Nhóm Tìm Hiểu Về Học Máy, Thuật Toán Decision Tree, Github
Tác giả	Phan Huỳnh Tố Hằng, Lê Đình Nhật, Lê Trọng Công, Bùi Tấn Sang
Người hướng dẫn	ThS. Lê Thị Xinh
Trường học	Trường Đại Học Quy Nhơn
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	báo cáo
Năm xuất bản	2023
Thành phố	Bình Định

Định dạng
Số trang	44
Dung lượng	1,64 MB