Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 32 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
32
Dung lượng
4,63 MB
Nội dung
TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN NHẬP MÔN HỌC MÁY ĐỀ TI: KỸ THUẬT HỒI QUY TUYẾN TÍNH V ỨNG DỤNG TRONG GIÁO DỤC Sinh viên thực : PHẠM HUY MINH SƠN NGUYỄN VĂN THẮNG Giảng viên hướng dẫn : ĐO NAM ANH Ngành : CÔNG NGHỆ THÔNG TIN Chuyên ngành : HỆ THỐNG TMDT Lớp : D15HTTMDT1 Khóa : D15 Hà Nội, tháng 12 năm 2022 PHIẾU CHẤM ĐIỂM Sinh viên thực hiện: Họ tên Chữ ký Ghi Giảng viên chấm: Họ tên Giảng viên chấm : Giảng viên chấm : Chữ ký Ghi LỜI CẢM ƠN Lời đầu tiên, em xin chân thành gửi lời cảm ơn tới thầy cô giáo Trường Đại học Điện Lực nói chung thầy cô giáo Khoa Công nghệ thông tin nói riêng tận tình giảng dạy, truyền đạt cho chúng em kiến thức kinh nghiệm quý báu suốt trình học Đặc biệt, em gửi lời cảm ơn đến Giáo viên hướng dẫn Đào Nam Anh , thầy tận tình theo sát giúp đỡ, trực tiếp bảo, hướng dẫn suốt trình nghiên cứu học tập chúng em Trong thời gian học tập với cô, chúng em tiếp thu thêm nhiều kiến thức bổ ích mà cịn học tập tinh thần làm việc, thái độ nghiên cứu khoa học nghiêm túc, hiệu Đây điều cần thiết cho chúng em trình học tập công tác sau Chúng em muốn gửi lời cảm ơn đặc biệt nhất, sâu sắc nhất, thân thương đến thầy chúc thầy dồi sức khỏe, tiếp tục giảng dạy hết tâm huyết cho lứa học trị sau để đất nước ta ngày có nhiều nhân tài, người giỏi doanh nghiệp, xây dựng đất nước phát triển Em xin chân thành cảm ơn! MỤC LỤ LỜI CẢM ƠN LỜI MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ HỌC MÁY V KỸ THUẬT HỒI QUY TUYẾN TÍNH, ỨNG DỤNG TRONG GIÁO DỤC .9 1.1 KHÁI NIỆM VỀ HỌC MÁY: 1.2 HỌC GIÁM SÁT V HỌC KHÔNG GIÁM SÁT: 1.2.1 Học có giám sát (Supervised Learning)-SL .9 1.2.2 Học không giám sát (Unsupervised Learning)-UL: 1.3 ỨNG DỤNG CỦA HỌC MÁY: 1.4 KHÁI NIỆM PHÂN LỚP DỰ BÁO: 1.5 MƠ HÌNH REGRESSION: 1.5.1 Giới thiệu mơ hình Regression: 1.5.2 Mơ hình Linear Regression: .11 1.5.3 Sai số dự đoán 12 1.5.4 Xác định Basic Function: 12 1.5.5 Hạn chế mơ hình Linear Regression: 13 1.6 ỨNG DỤNG TRONG GIÁO DỤC: 14 CHƯƠNG THỬ NGHIỆM V ĐÁNH GIÁ KẾT QUẢ 15 2.1 BI TOÁN DỰ ĐOÁN ĐIỀU KIỆN NHẬP HỌC VỚI MƠ HÌNH REGRESSION 15 2.2.1 Phát biểu toán: 15 2.2.2 Chuẩn bị liệu: .16 2.2.3 Xử lý liệu: .17 2.2.4.Code chạy liệu: 18 KẾT LUẬN 22 TI LIỆU THAM KHẢO 23 TÀI LIỆU THAM KHẢO 33 DANH MỤC HÌNH ẢNH HÌNH 1 MƠ HÌNH HỌC CÓ GIÁM SÁT HÌNH MƠ HÌNH HỌC KHƠNG GIÁM SÁT HÌNH SỰ KHÁC BIỆT GIỮA MƠ HÌNH SL VÀ UL HÌNH 1.4.MƠ HÌNH REGRESSION TREE DỰ BÁO GIÁ CỦA MỘT CHIẾC XE TOYOTA .8 HÌNH 1.5 VÍ DỤ VỀ PHÉP TỐN 10 HÌNH 1.6 QUAN HỆ Y=3+4X .10 HÌNH ĐỒ THỊ THỂ HIỆN GIÁ TRỊ HIỆN TẠI VÀ GIÁ TRỊ TƯƠNG LAI CỦA DỮ LIỆU 13 HÌNH 2.1.DỮ LIỆU TRUNG BÌNH TRÚNG TUYỂN VỚI MƠ HÌNH REGRESSION 15 LỜI MỞ ĐẦU Tính cấp thiết đề tài Công nghệ ngày phổ biến khơng phủ nhận tầm quan trọng hiệu mà đem lại cho sống Bất kỳ lĩnh vực nào, góp mặt trí tuệ nhân tạo giúp người làm việc hồn thành tốt cơng việc Và gần đây, thuật ngữ “machine learning” nhiều người quan tâm.Thay phải code phần mềm với cách thức thủ công theo hướng dẫn cụ thể nhằm hoàn thành nhiệm vụ đề máy tự “học hỏi” cách sử dụng lượng lớn liệu thuật toán cho phép thực tác vụ Đây lĩnh vực khoa học không mới, cho thấy lĩnh vực trí tuệ nhân tạo ngày phát triển tiến xa tương lai Đồng thời, thời điểm xem lĩnh vực “nóng” dành nhiều mối quan tâm để phát triển cách mạnh mẽ, bùng nổ Hiện nay, việc quan tâm machine learning ngày tăng lên nhờ có machine learning giúp gia tăng dung lượng lưu trữ loại liệu sẵn, việc xử lý tính tốn có chi phí thấp hiệu nhiều Những điều hiểu thực tự động, nhanh chóng để tạo mơ hình cho phép phân tích liệu có quy mơ lớn phức tạp đồng thời đưa kết cách nhanh xác Chính hiệu cơng việc lợi ích vượt bậc mà đem lại cho khiến machine learning ngày trọng quan tâm nhiều Vì chúng em chọn đề tài: ”Kỹ thuật quy hồi tuyến tính ứng dụng Giáo dục”để làm báo cáo Mục tiêu nghiên cứu Báo cáo xây dựng mơ hình dự báo ứng dụng Giáo dục Từ sở cho lập trình xây dựng mơ hình dự đốn điểm thi đầu vào trường Đại hoc; Điểm sinh viên tốt nghiệp;… Recommandé pour toi Suite du document ci-dessous Câu 151 - 179 - Câu 151 - 179 môn kế tốn tài doanh nghiệp Quản lý tài 100% (1) Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu: Đối tượng nghiên cứu báo cáo phân tích thiết kế theo hướng đối tượng Giáo dục điểm thi, sinh viên đạt học bổng, … Phạm vi nghiên cứu: Đồ án nghiên cứu phạm vi nhu cầu thực tế Giáo dục Việt Nam trường Đại học Phương pháp nghiên cứu Báo cáo sử dụng phương pháp phân tích di•n giải thực trạng cầu dự đốn điểm đầu vào, số sinh viên đạt học bổng, trường Đại học Tài liệu tham khảo trường Đại học Việt Nam Ngoài báo cáo cịn sử dụng phương pháp đ–nh tính để đưa giải pháp hồn thiê —n cho tốn cần giải Kết cấu báo cáo: Báo cáo gồm chương: +Chương 1: Tổng quan học máy kỹ thuật quy hồi tuyến tính, ứng dụng Giáo dục +Chương 2: Thử nghiệm đánh giá kết CHƯƠNG TỔNG QUAN VỀ HỌC MÁY V KỸ THUẬT HỒI QUY TUYẾN TÍNH, ỨNG DỤNG TRONG GIÁO DỤC 1.1 Khái niệm học máy Học máy (Machine learning) lĩnh vực Trí tuệ nhân tạo(Artificial Intelligence) sử dụng thuật tốn cho phép máy tính học từ liệu để thực cơng việc thay lập trình cách rõ ràng, cung cấp cho hệ thống khả tự động học hỏi cải thiện hiệu suất, độ xác dựa kinh nghiệm từ liệu đầu vào Học máy tập trung vào việc phát triển phần mềm, chương trình máy tính truy cập vào liệu tận dụng nguồn liệu để tự học Học máy đòi hỏi đánh giá người việc tìm hiểu liệu sở lựa chọn kĩ thuật phù hợp để phân tích liệu Đồng thời, trước sử dụng, liệu phải sạch, khơng có sai lệch khơng có liệu giả Các mơ hình học máy u cầu lượng liệu đủ lớn để "huấn luyện" đánh giá mơ hình Trước đây, thuật tốn học máy thiếu quyền truy cập vào lượng lớn liệu cần thiết để mơ hình hóa mối quan hệ liệu Sự tăng trưởng liệu lớn (big data) cung cấp thuật toán học máy với đủ liệu để cải thiện độ xác mơ hình dự đốn Học máy có loại Học có giám sát (Supervised Learning) Học khơng có giám sát(Unsupervised Learning) 1.2 Học giám sát học khơng giám sát 1.2.1 Học có giám sát (Supervised Learning)-SL - Là phương pháp sử dụng liệu gán nhãn từ trước để suy luận quan hệ đầu vào đầu Các liệu gọi liệu huấn luyện chúng cặp đầu vào-đầu Học có giám sát xem xét tập huấn luyện để từ đưa dự đốn đầu cho đầu vào chưa gặp Mỗi liệu có cấu trúc theo cặp {x, y} với x xem liệu thô (raw data) y nhãn liệu Nhiệm vụ SL dự đoán đầu mong muốn dựa vào giá tr– đầu vào D• nhận ra, học có GIÁM SÁT tức máy học dựa vào trợ giúp người, hay nói cách khác người dạy cho máy học giá tr– đầu mong muốn đ–nh trước người Tập liệu huấn luyện hoàn toàn gán nhãn dựa vào người Tập nhỏ máy tính học SL áp dụng cho nhóm tốn tốn dự đốn (regression) toán phân lớp (classification), dự đoán giá nhà, phân loại email dựa tập liệu mẫu - tập huấn luyện (training data) Hình 1 Mơ hình học có giám sát Học có giám sát hướng tiếp cận Máy học để làm cho máy tính có khả "học" Trong hướng tiếp cận này, người ta "huấn luyện" máy tính dựa quan sát có dán nhãn Ta hình dung quan sát câu hỏi, nhãn chúng câu trả lời Ý tưởng học có giám sát là: việc ghi nhớ tổng quát hóa số quy tắc từ tập câu hỏi có đáp án trước, máy tính trả lời câu hỏi dù chưa gặp phải, có mối liên quan Ví dụ ta dạy máy tính "1 + = 2" hy vọng học phép tính cộng x + trả lời "2 + = 3" Học có giám sát mơ việc người học cách đưa dự đốn cho câu hỏi, sau đối chiếu với đáp án Sau người rút phương pháp để trả lời khơng câu hỏi đó, mà cho câu hỏi có dạng tương tự Hình 1.5 Ví dụ phép tốn Trong vịng khoảng nửa phút ,bạn cách tìm dấu điền vào chỗ trống để có kết Và Machine-Learning ,bạn đưa cho máy tính số kết ,việc máy tính tìm mối liên hệ số để đồng kết vế trái vế phải phép tính Về ta có cặp huấn luyện chứa cặp (x(i),y(i)) ,tương ứng với nhiệm vụ ta phải tìm giá tr– ứng với đầu vào X Để làm điều ta cần phải tìm quan hệ x y để từ đưa dự đốn Hình 1.6 Quan hệ y=3+4x Một hàm số đơn giản mô tả mối quan hệ giá nhà đại lượng đầu vào là: Trong ,w1 ,w2 ,w3 ,w0 số, w0 gọi bias.Mối quan hệ y=f(x) bên mối quan hệ tuyến tính (linear) Bài tốn làm toán thuộc loại regression Bài toán tìm hệ số tối ưu { w1,w2,w3,,w0} {w1,w2,w3,w0} gọi tốn Linear Regression 1.5.2 Mơ hình Linear Regression Mơ hình đơn giản mơ hình kết hợp tuyến tính biến đầu vào: Trong véc tơ biến đầu vào véctơ trọng số tương ứng Thường θ gọi tham số mơ hình Giá tr– tham số ước lượng cách sử dụng cặp giá tr– tập huấn luyện Thực mơ hình tuyến tính cần mức tuyến tính tham số θ y đủ Và cho tên gọi tuyến tính xuất phát θ y x y Nói cách khác, ta kết hợp x cách phi tuyến trước hợp với θ để y Một cách đơn giản sử dụng hàm phi tuyến cho x sau: θ gọi tham số mơ hình Giá tr– tham số ước lượng cách sử dụng cặp giá tr– (x(i),y(i)) tập huấn luyện θo gọi độ lệch (bias) nhằm cắt mức độ chênh lệch mơ hình thực tế Viết lại cơng thức sau: Như quy ước tất véc tơ khơng nói ta ngầm đ–nh với véc tơ cột nên ta có cách viết nhân ma trận 1.5.3 Sai số dự đoán Chúng ta mong muốn sai khác e giá tr– thực y giá tr– dự đoán y^ (đọc y hat tiếng Anh) nhỏ Nói cách khác, muốn giá tr– sau nhỏ tốt: 1.5.4 Xác định Basic Function -Giữ nguyên đầu vào có ý khơng thay đổi giá tr– đầu vào ϕi (x)=x -Chuẩn hoá đoạn [min, max] -Sử dụng đa thức bậc cao: -Sử dụng hàm Gaussian: -Sử dụng hàm Sigmod: 1.5.5 Hạn chế mơ hình Linear Regression Hạn chế Linear Regression nhạy cảm với nhi•u (sensitive to noise) Trong ví dụ mối quan hệ chiều cao cân nặng bên trên, có cặp liệu nhiễu (150 cm, 90kg) kết sai khác nhiều Xem hình đây: Hình Đồ th– thể giá tr– giá tr– tương lai liệu Vì vậy, trước thực Linear Regression, nhi•u (outlier) cần phải loại bỏ Bước gọi tiền xử lý (pre-processing) Hạn chế thứ hai Linear Regression khơng biểu di•n mơ hình phức tạp Mặc dù phần trên, thấy phương pháp áp dụng quan hệ outcome input không thiết phải tuyến tính, mối quan hệ đơn giản nhiều so với mơ hình thực tế 1.6 Ứng dụng Giáo dục Dự báo phán đoán kiện xảy tương lai sở phân tích khoa học liệu khứ nhờ số mơ hình tốn học Dự báo Giáo dục việc đưa dự báo kiện Giáo dục xảy tương lai dựa sở phân tích khoa học số liệu kinh tế khứ Chẳng hạn, nhà quản lý dựa sở số liệu điểm thi đầu vào kỳ trước kỳ để đưa dự báo điểm tuyển sinh trường học tương lai Do đó, hoạt động Giáo dục, dự báo đem lại ý nghĩa lớn Nó sở để lập kế hoạch học tập tạo tính hiệu sức cạnh tranh cho sĩ tử tương lai Dự báo mang tính khoa học địi hỏi nghệ thuật dựa sở phân tích khoa học số liệu thu thập Bởi lẽ dựa vào số liệu thời gian lấy số lượng bao nhiêu, mức độ thời gian cuối nhiều hay khiến cho mơ hình dự đốn phản ánh đầy đủ hay khơng đầy đủ thay đổi nhân tố biến động tượng Do mà dự báo vừa mang tính chủ quan vừa mang tính khách quan Dự báo muốn xác cần phải loại trừ tính chủ quan người dự báo CHƯƠNG THỬ NGHIỆM V ĐÁNH GIÁ KẾT QUẢ 2.1 Bài tốn dự đốn điều kiện nhập học với mơ hình Regression 2.2.1 Phát biểu tốn - Bài tốn dự nhập học đưa tất thông tin cần thiết để tuyển sinh trường học để từ làm dự đốn điểm kiểm tra test thời điểm thời điểm sau - Bài tốn lấy liệu Kaggle để phân tích ,huấn luyện để dự đoán điều kiện nhập học vào trường học 2.2.2 Chuẩn bị liệu 2.2 Dữ liệu điều kiện nhập học với mơ hình Regression 2.2.3 Xử lý liệu Ở chúng em sử dụng Linear regression liệu lấy từ Excel(file csv) ,subline text,python ,command prompt để hỗ trợ trình training Về python tích hợp nhiều thuật tốn khác nhau, d• dàng sử dụng, giúp giảm thời gian xây dựng hệ thống deep learning Đồng thời kết hợp với pandas numpy để phân tích, xử lý cấu trúc data, matplotlib dùng để đồ th– Việc vẽ đồ th– quan trọng toán thuộc dạng Time Series Analysis Vì dĩ nhiên việc đốn trước khơng thể trả kết xác 100% được, Kết tương đối có chút sai số khơng đáng kể Vì việc vẽ đồ th– giúp bạn d• dàng so sánh kết dự đoán thực tế 2.2.4 Code chạy liệu 2.2.4.1 Code 2.2.4.2 Chạy liệu KẾT LUẬN Qua q trình tìm hiểu, phân tích nghiên cứu “Kỹ thuật quy hồi tuyến tính ứng dụng Giáo dục” việc ứng dụng mơ hình, chúng em xây dựng hoàn thành đề tài: “Kỹ thuật quy hồi tuyến tính ứng dụng Giáo dục” Với việc dự báo cách xác vấn đề liên quan đến Giáo dục điểm tuyển sinh trường Đại học,… Báo cáo thu số kết sau: - Mơ hình ứng dụng cách xác yêu cầu đề ra, bám sát thực tế - Mơ hình đảm bảo lưu trữ xác thơng tin cần thiết chi tiết thơng tin Và cập nhật thường xun d• dàng chỉnh sửa thơng tin cần thiết - Xử lý thông tin cách xác, đầy đủ, kiểm tra thơng tin cần thiết - Đảm bảo tính bảo mật an toàn liệu - Giao diện thuận tiện d• sử dụng Tuy nhiên mơ hình cịn số mặt hạn chế: - Mơ hình chưa có tính chuyên nghiệp cao - Chưa giải trọn vẹn số vấn đề nảy sinh Trên tồn đề tài chúng em q trình xây dựng đề tài “Kỹ thuật quy hồi tuyến tính ứng dụng Giáo dục” Tuy hoàn thành đề tài kinh nghiệm thiếu, trình khảo sát, phân tích thiết kế cịn gặp nhiều khó khăn nên mơ hình chưa tồn diện Ngồi ra, đề tài đem áp dụng vào thực tế đáp ứng số yêu cầu đặt ra, song xuất số vấn đề nảy sinh, địi hỏi mơ hình cần phải nâng cấp Vì có hội, chúng em hi vọng sửa chữa nâng cấp mơ hình cho phù hợp đáp ứng đầy đủ với yêu cầu thực tế cách tốt Em xin chân thành cảm ơn! TI LIỆU THAM KHẢO [1] Trang web: Linear Regression - Wikipedia [2] Trang web: Simple Linear Regression Tutorial for Machine Learning [3] Giáo trình Nhập mơn học máy – Hồ Đắc Phương [4] Bài giảng Học máy – cô Phạm Th– Kim Dung https://www.citech.vn/2016/10/loi-noi-au-cong-nghe-thong-tin-ngay.html