Phương pháp hồi quy tuyến tính, một trong những kỹ thuật cơ bản và phổ biến nhất trong học máy, cho phép chúng ta phân tích mối quan hệ giữa các biến và dự đoán kết quả dựa trên dữ liệu
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC MỎ - ĐỊA CHẤT KHOA CÔNG NGHỆ THÔNG TIN
BÁO CÁO BTL MÔN HỌC: HỌC MÁY THỐNG KÊ
ĐỀ TÀI: ỨNG DỤNG PHƯƠNG PHÁP HỒI QUY TUYẾN TÍNH TRONG DỰ ĐOÁN KẾT QUẢ HỌC TẬP CỦA SINH VIÊN SAU 1 KỲ
THI
Sinh viên thực hiện : Nguyễn Quang Hiệu – 2121051064
HÀ NỘI, 18/11/2024
Trang 2Mục lục
CHƯƠNG 1 TỔNG QUAN VỀ HỌC MÁY 4
1.1 Khái niệm về học máy: 4
1.2 Phân nhóm các thuật toán học máy 4
1.2.1 Học có giám sát (Supervised Learning) 4
1.2.2 Học phi giám sát (Unsupervised Learning)-UL 5
1.2.3 Học tăng cường (reinforcement learning) 7
1.2.4 Học bán giám sát (Semi-Supervised Learning) 7
1.3 Ứng dụng của học máy: 8
CHƯƠNG 2: THUẬT TOÁN HỒI QUY LOGISTIC 9
2.1 Khái niệm cơ bản 9
2.2 Cơ sở lý thuyết 9
2.3 Ước Lượng Tham Số: 9
2.4 Ưu Điểm và Hạn Chế 10
2.5 Ứng Dụng 10
2.6 Mở Rộng 11
CHƯƠNG 3: ỨNG DỤNG THUẬT TOÁN HỒI QUY LOGISTIC 11
3.1 Phát biểu đề tài 11
3.2 Yêu cầu 11
3.3 Các bước thực hiện 11
3.3.1 Chuẩn Bị Dữ Liệu 11
3.3.2 Tiến hành phân cụm 14
Trang 3Lời Mở Đầu
Trong thời đại dữ liệu bùng nổ hiện nay, việc ứng dụng các phương pháp phân tích thống kê nhằm cải thiện chất lượng giáo dục ngày càng trở nên quan trọng Học máy, với nhiều thuật toán mạnh mẽ, đã trở thành công cụ hữu ích để khám phá những yếu tố ảnh hưởng đến kết quả học tập của sinh viên Phương pháp hồi quy tuyến tính, một trong những kỹ thuật cơ bản và phổ biến nhất trong học máy, cho phép chúng ta phân tích mối quan hệ giữa các biến và dự đoán kết quả dựa trên dữ liệu có sẵn
Danh sách các yếu tố tác động đến kết quả học tập có thể bao gồm thời gian học, sự tham gia vào các hoạt động ngoại khóa, và nhiều yếu tố xã hội-kinh tế khác Việc xây dựng một mô hình hồi quy tuyến tính không chỉ giúp xác định các mối liên hệ này mà còn tạo ra những dự đoán chính xác về thành tích học tập của sinh viên trong các kỳ thi
Mục tiêu của nghiên cứu này là áp dụng phương pháp hồi quy tuyến tính để khai thác dữ liệu học tập của sinh viên, từ đó đưa ra những phân tích có giá trị và hỗ trợ
ra quyết định cho giảng viên và sinh viên trong việc tối ưu hóa quá trình học tập
Trang 4CHƯƠNG 1 TỔNG QUAN VỀ HỌC MÁY
1.1 Khái niệm về học máy:
Học máy (Machine learning) là một lĩnh vực con của Trí tuệ nhân tạo(Artificial Intelligence) sử dụng các thuật toán cho phép máy tính có thể học từ
dữ liệu để thực hiện các công việc thay vì được lập trình một cách rõ ràng, cung cấp cho hệ thống khả năng tự động học hỏi và cải thiện hiệu suất, độ chính xác dựa trên những kinh nghiệm từ dữ liệu đầu vào Học máy tập trung vào việc phát triển các phần mềm, chương trình máy tính có thể truy cập vào dữ liệu và tận dụng nguồn dữ liệu đó để tự học
Học máy vẫn đòi hỏi sự đánh giá của con người trong việc tìm hiểu dữ liệu
cơ sở và lựa chọn các kĩ thuật phù hợp để phân tích dữ liệu Đồng thời, trước khi sử dụng, dữ liệu phải sạch, không có sai lệch và không có dữ liệu giả
Các mô hình học máy yêu cầu lượng dữ liệu đủ lớn để "huấn luyện" và đánh giá mô hình Trước đây, các thuật toán học máy thiếu quyền truy cập vào một lượng lớn dữ liệu cần thiết để mô hình hóa các mối quan hệ giữa các dữ liệu Sự tăng trưởng trong dữ liệu lớn (big data) đã cung cấp các thuật toán học máy với đủ
dữ liệu để cải thiện độ chính xác của mô hình và dự đoán
1.2 Phân nhóm các thuật toán học máy
1.2.1 Học có giám sát (Supervised Learning)
Là phương pháp sử dụng những dữ liệu đã được gán nhãn từ trước để suy luận ra quan hệ giữa đầu vào và đầu ra Các dữ liệu này được gọi là dữ liệu huấn luyện và chúng là cặp các đầu vào-đầu ra Học có giám sát sẽ xem xét các tập huấn luyện này để từ đó có thể đưa ra dự đoán đầu ra cho 1 đầu vào mới chưa gặp bao giờ Ví dụ dự đoán giá nhà, phân loại email Các mô hình như mạng Nơ-ron, SVM,
Trang 5Supervised Learning Là thuât toán dự đoán đầu ra (outcome) của một dữ liệu mới (new input) dựa trên cặp (input, outcome) đã biết tư trước Cặp dữ liệu này còn đươc gọi là data, label tức dữ liệu, nhãn Supervised Learning Là nhóm phổ biến nhất trong các thuật toán Machine learning
1.2.2 Học phi giám sát (Unsupervised Learning)-UL
Khác với học có giám sát, học phi giám sát sử dụng những dữ liệu chưa được gán nhãn từ trước để suy luận Phương pháp này thường được sử dụng để tìm cấu trúc của tập dữ liệu Tuy nhiên lại không có phương pháp đánh giá được cấu trúc tìm ra được là đúng hay sai Ví dụ như phân cụm dữ liệu, triết xuất thành phần chính của một chất nào đó K-mean Ứng dụng phổ biến nhất của học không giám sát là gom cụm (cluster)
Trang 6Hình 1 2 Mô hình học không giám sát
Trong thuật toán này, chúng ta không biết được dữ liệu đầu ra hay nhãn mà
chỉ có dữ liệu đầu vào Thuật toán Học không giám sát dựa vào cấu trúc của dữ liệu
để thực hiện một công việc nào đó, ví dụ như phân nhóm hoặc giảm số chiều của
dữ liệu để thuận tiện trong việc lưu trữ và tính toán
Một cách toán học, Học không giám sát là khi chúng ta chỉ có dữ liệu vào X
mà không biết nhãn Y tương ứng.
Sự khác nhau giữa học có giám sát và học không giám sát:
Hình 1.3: Sự khác biệt giữa 2 mô hình SL và UL
Học có giám sát: Là cách huấn luyện một mô hình trong đó dữ liệu học có đầu vào và đầu ra tương ứng đầu vào đó Mô hình được huấn luyện bằng cách giảm
Trang 7thiểu sai số lỗi (loss) của các dự đoán tại các vòng lặp huấn luyện Sau quá trình huấn luyện mô hình sẽ có khả năng đưa ra dự đoán về đầu ra với một đầu vào mới gặp (không có trong dữ liệu học) Nếu không gian đầu ra được biểu diễn dứới dạng rời rạc, ta gọi đó là bài toán phân loại (classification) Nếu không gian đầu ra được biểu diễn dưới dạng liên tục, ta gọi đó là bài toán hồi quy (regression)
Học không giám sát: Là cách huấn luyện một mô hình trong đó dữ liệu học chỉ bao gồm đầu vào mà không có đầu ra Mô hình sẽ được huấn luyện cách để tìm cấu trúc hoặc mối quan hệ giữa các đầu vào Một trong những phương pháp học không giám sát quan trọng nhất là phân cụm (clustering): Tạo các cụm khác nhau với mỗi cụm biểu diễn một đặc trưng nào đó của dữ liệu và phân các đầu vào mới vào các cụm theo các đặc trưng của đầu vào đó Các phương pháp học không giám sát khác có thể kể đến như: phát hiện điểm bất thường (anomaly detection), Singular-value decomposition, …
1.2.3 Học tăng cường (reinforcement learning)
Phương pháp học tăng cường tập trung vào việc làm sao để cho 1 tác tử trong môi trường có thế hành động sao cho lấy được phần thưởng nhiều nhất có thể Khác với học có giám sát nó không có cặp dữ liệu gán nhãn trước làm đầu vào
và cũng không có đánh giá các hành động là đúng hay sai
1.2.4 Học bán giám sát (Semi-Supervised Learning)
Các bài toán khi chúng ta có một lượng lớn dữ liệu X nhưng chỉ một phần trong chúng được gán nhãn được gọi là Semi-Supervised Learning Những bài toán thuộc nhóm này nằm giữa hai nhóm được nêu bên trên Một ví dụ điển hình của nhóm này là chỉ có một phần ảnh hoặc văn bản được gán nhãn (ví dụ bức ảnh
về người, động vật hoặc các văn bản khoa học, chính trị) và phần lớn các bức ảnh/văn bản khác chưa được gán nhãn được thu thập từ internet
Thực tế cho thấy rất nhiều các bài toán Machine Learning thuộc vào nhóm này vì việc thu thập dữ liệu có nhãn tốn rất nhiều thời gian và có chi phí cao Rất nhiều loại dữ liệu thậm chí cần phải có chuyên gia mới gán nhãn được (ảnh y học
Trang 8chẳng hạn) Ngược lại, dữ liệu chưa có nhãn có thể được thu thập với chi phí thấp
từ internet
1.3 Ứng dụng của học máy:
Nhiều hoạt động hàng ngày của chúng ta được trợ giúp bởi các thuật toán machine learning, bao gồm:
Trong y tế: xác định bệnh lý của người bệnh mới dựa trên dữ liệu lịch sử của các bệnh nhân có cùng bệnh lý có cùng các đặc điểm đã được chữa khỏi trước đây, hay xác định loại thuốc phù hợp
Trong lĩnh vực ngân hàng: xác định khả năng khách hàng chậm trả các khoản vay hoặc rủi ro tín dụng do nợ xấu dựa trên phân tích Credit score; xác định xem liệu các giao dịch có hành vi phạm tội, lừa đảo hay không
Trong giáo dục: phân loại các học sinh theo hoàn cảnh, học lực để xem xem cần hỗ trợ gì cho những học sinh ví dụ như hoàn cảnh sống khó khăn nhưng học lực lại tốt
Trong thương mại điện tử: phân loại khách hàng theo sở thích cụ thể để hỗ trợ personalized marketing hay xây dựng hệ thống khuyến nghị, dựa trên dữ liệu từ website, social media
Trong kinh tế nói chung: giúp dự báo các sự kiện kinh tế trong tương lai, dự báo tình hình thời tiết trong nông nghiệp, xác định xu hướng thị trường chứng khoán
để lên kế hoạch đầu tư thích hợp
CHƯƠNG 2: THUẬT TOÁN HỒI QUY LOGISTIC
2.1 Khái niệm cơ bản
Hồi quy Logistic (Logistic Regression) là một thuật toán học máy được sử dụng rộng rãi để giải quyết các bài toán phân loại Mặc dù tên gọi có từ "hồi quy",
Trang 9nhưng thuật toán này thực chất được dùng để dự đoán xác suất để một mẫu dữ liệu thuộc về một trong hai lớp (phân loại nhị phân)
2.2 Cơ sở lý thuyết
Mô hình hồi quy logistic không phải là một hồi quy tuyến tính Thay vào đó, nó
sử dụng hàm logistic (hay hàm sigmoid) để mô hình hóa mối quan hệ giữa biến độc lập và biến phụ thuộc
- Hàm logistic:
P (Y =1|X)= 1
1+e−( β0+ β1X1+ β2X2+…+ β n X n
Trong đó:
P(Y=1 | X): Xác suất để y bằng 1 (thuộc lớp dương) khi biết các giá trị của các đặc trưng x
σ(z): Hàm sigmoid như đã định nghĩa ở trên
β₀, β₁, β₂, : Các trọng số (weights) của mô hình, cần được học từ dữ liệu
x₁, x₂, : Các đặc trưng của mẫu dữ liệu
2.3 Ước Lượng Tham Số:
Phương pháp cực đại khả năng (Maximum Likelihood Estimation): Tìm các giá trị của các trọng số để tối đa hóa khả năng của mô hình
Gradient descent: Một thuật toán tối ưu hóa thường được sử dụng để tìm các trọng số tối ưu
Quy Trình Thực Hiện
1 Chuẩn bị dữ liệu: Thu thập, làm sạch và chia dữ liệu thành tập huấn luyện
và tập kiểm thử
2 Chọn các đặc trưng: Lựa chọn các đặc trưng có liên quan đến biến mục tiêu
Trang 103 Xây dựng mô hình: Khởi tạo các trọng số ngẫu nhiên, tính toán giá trị dự đoán và cập nhật các trọng số bằng gradient descent
4 Đánh giá mô hình: Sử dụng các chỉ số như độ chính xác, độ nhạy, độ đặc hiệu để đánh giá hiệu suất của mô hình
5 Điều chỉnh mô hình: Nếu kết quả không đạt yêu cầu, có thể điều chỉnh các hyperparameter (tỷ lệ học, số lần lặp) hoặc thử nghiệm các thuật toán tối ưu hóa khác
2.4 Ưu Điểm và Hạn Chế
Ưu điểm:
o Dễ hiểu và triển khai
o Có thể giải thích được kết quả
o Khả năng tổng quát hóa tốt
Hạn chế:
o Chỉ phù hợp với các bài toán phân loại nhị phân
o Giả định mối quan hệ tuyến tính giữa các đặc trưng và biến mục tiêu
o Có thể gặp khó khăn khi dữ liệu không tuyến tính hoặc có nhiều đặc trưng tương quan cao
2.5 Ứng Dụng
Phân loại văn bản: Phân loại email, tin tức, đánh giá sản phẩm
Phân loại hình ảnh: Nhận diện đối tượng, phân loại theo chủ đề
Dự đoán rủi ro: Dự đoán khả năng vỡ nợ của khách hàng, dự đoán bệnh tật
Marketing: Dự đoán hành vi mua sắm của khách hàng
Trang 112.6 Mở Rộng
Hồi quy logistic đa lớp: Xử lý các bài toán phân loại đa lớp
Regularization: Giảm thiểu quá khớp bằng cách thêm một số ràng buộc vào mô hình
Các thuật toán tối ưu hóa khác: Newton's method, BFGS
CHƯƠNG 3: ỨNG DỤNG THUẬT TOÁN HỒI QUY LOGISTIC
3.1 Phát biểu đề tài
- Đề tài: ứng dụng phương pháp hồi quy tuyến tính trong dự đoán kết quả học tập của sinh viên sau 1 kỳ thi
- Giá trị input: thông tin về sinh viên( mã sv, tên sv, điểm tb, số buổi vắng mặt, thời gian tự học)
- Giá trị ouput: Kết quả (1: đỗ, 0: trượt)
3.2 Yêu cầu
- Chuẩn bị dữ liệu
- Trích chọn dữ liệu đặc trưng từ dữ liệu lấy được
- Xử lý, làm sạch dự liệu
- Chia tập dữ liệu
- Xây dựng và đánh giá mô hình
3.3 Các bước thực hiện
3.3.1 Chuẩn Bị Dữ Liệu
Dữ liệu bạn đã cung cấp có các trường sau:
Mã SV: Mã sinh viên (có thể là một chuỗi không ảnh hưởng đến mô
hình)
Tên SV: Tên sinh viên (cũng không ảnh hưởng đến mô hình).
Trang 12 Điểm TB: Điểm trung bình (số thực).
Số buổi vắng mặt: Số lượng buổi vắng (số nguyên).
Thời gian tự học: Thời gian tự học trong tuần (số giờ).
Kết quả: Kết quả học tập (có thể là 1 cho đậu và 0 cho trượt).
3, 1 Dữ liệu cụ thể
Trang 143.3.2 Tiến hành phân cụm
Import thu viện:
Đọc dữ liệu từ excel:
Làm sạch dữ liệu:
- Loại bỏ những hàng có giá NaN
- Loại bỏ nhưng dữ liệu bị trùng lặp
Chia dữ liệu và khởi tạo huấn luyện theo mô hình hồi quy logistic
Dự đoán và đánh giá( sử đụng ma trận nhầm lẫn và độ chính xác)
Trang 15Dự đoán đối tượng mới
In ra kết quả
Trang 16Tài liệu tham khảo
1 Trang web: machinelearningcoban.com
2 https://chatgpt.com/