1. Trang chủ
  2. » Luận Văn - Báo Cáo

[LUẬN VĂN THẠC SĨ] Xây dựng hệ thống dự đoán kết quả học tập của học sinh trung học phổ thông

104 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

TRƯỜNG ĐẠI HỌC BÀ RỊA-VŨNG TÀU -

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC BÀ RỊA-VŨNG TÀU -

Bà Rịa-Vũng Tàu, tháng 09 năm 2023

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đề tài luận văn “Xây dựng hệ thống dự đoán kết quả học tập của học sinh trung học phổ thông” là công trình nghiên cứu độc lập của tôi dưới sự hướng dẫn của giảng viên hướng dẫn Các số liệu, kết quả nêu trong luận văn là trung thực Các thông tin trích dẫn trong luận văn đều được chỉ rõ nguồn gốc

Học viên thực hiện luận văn

Nguyễn Thị Lan

Trang 4

LỜI CÁM ƠN

Tôi xin gửi lời cảm tới Quý thầy/cô giảng viên đã dạy cho tôi kiến thức chuyên môn và hướng dẫn tôi cách nghiên cứu khoa học; cảm ơn các thầy cô ở Viện sau đại học của Trường Đại học Bà Rịa – Vũng Tàu đã giúp đỡ, tạo điều kiện tốt nhất cho quá trình học tập cũng như hoàn thành luận văn của tôi

Tôi xin cảm ơn Ban giám hiệu Trường THPT chuyên Lê Quý Đôn đã tạo điều kiện tốt nhất cho tôi trong suốt quá trình học tập

Tôi đặc biệt gửi lời cảm ơn tới PGS.TS Trần Văn Lăng, người hướng dẫn đồng thời là người thầy đã tạo động lực cũng như áp lực giúp tôi tiến bộ hơn trên con đường học tập và nghiên cứu khoa học

Tôi cũng xin gửi lời cảm ơn tới gia đình, bạn bè, đồng nghiệp đã tạo môi trường thuận lợi nhất, cũng như đóng góp ý kiến và động viên tinh thần để tôi hoàn thành luận văn này

Xin chân thành cảm ơn!

Nguyễn Thị Lan

Trang 5

Chương 1 TỔNG QUAN VỀ ĐỀ TÀI 1

I Sự cần thiết của đề tài 1

II Một số nghiên cứu liên quan 3

III Mục tiêu của đề tài 5

IV Đối tượng và phương pháp nghiên cứu 5

IV.1 Đối tượng nghiên cứu 5

IV.2 Phương pháp nghiên cứu 5

V Nội dung nghiên cứu 5

Chương 2 PHƯƠNG PHÁP VÀ KỸ THUẬT SỬ DỤNG 7

I Hệ số tương quan Pearson 7

II Học máy 11

III Hồi quy tuyến tính 12

III.1 Bài toán 12

III.2 Phương pháp giải 14

IV Mạng thần kinh nhân tạo 19

IV.1 Giới thiệu mạng thần kinh nhân tạo 19

IV.2 Hàm kích hoạt 21

IV.3 Kiến trúc của mạng thần kinh nhân tạo 24

IV.4 Học có giám sát trong các mạng thần kinh nhân tạo 25

V Học phối hợp (Ensemble Learning) 39

V.1 Bagging 41

V.2 Gradient Boosting 43

V.3 Stacking 50

Trang 6

Chương 3 HỆ THỐNG DỰ BÁO KẾT QUẢ HỌC TẬP 52

I Giới thiệu 52

I.1 Giai đoạn huấn luyện 53

I.2 Giai đoạn dự báo 55

I.3 Sơ đồ của hệ thống 55

II Phương pháp thực hiện 56

II.1 Phương pháp hồi quy tuyến tính 58

II.2 Phương pháp mạng nơ-ron 60

II.3 Phương pháp học phối hợp 61

Chương 4 KẾT QUẢ THỰC NGHIỆM 63

I Tiền xử lý dữ liệu 63

I.1 Thu thập dữ liệu 63

I.2 Tiền xử lý dữ liệu 64

II Giao diện hệ thống 68

II.1 Menu Huấn luyện 69

II.2 Menu Dự báo 71

III Kết quả dự báo 73

III.1 Kết quả môn Anh 74

III.2 Kết quả môn Toán 76

III.3 Kết quả môn Văn 78

III.4 So sánh, đánh giá các phương pháp dùng để dự báo 80

Chương 5 KẾT LUẬN 86

I Kết quả kiểm tra 86

I.1 Kết quả kiểm tra môn chuyên của lớp chuyên 86

Trang 7

II Kết luận 89TÀI LIỆU THAM KHẢO 91

Trang 9

Bảng 2-1 Điểm môn Toán và môn Lý 8

Bảng 2-2 Số liệu để tính hệ số tương quan 9

Bảng 2-3 Điểm trung bình và điểm tốt nghiệp môn Anh 13

Bảng 2-4 Điểm trung bình môn Anh lớp 10 46

Bảng 2-5 Kết quả tính phần dư (m=1) 47

Bảng 2-6 Kết quả tính phần dư (m=2) 49

Bảng 4-1 Thu thập dữ liệu từ năm 2015 đến năm 2022 63

Bảng 4-2 Các tập tin csv thu được sau khi tiền xử lý dữ liệu 65

Bảng 4-3 Sai số mô hình dự báo môn Anh của lớp chuyên Anh 74

Bảng 4-4 Phương pháp tốt nhất ở các học kỳ dự báo môn chuyên của lớp chuyên 81Bảng 4-5 Loại dữ liệu đầu vào tốt nhất trên từng phương pháp ở các học kỳ dự báo môn chuyên của lớp chuyên 81

Bảng 4-6 Phương pháp tốt nhất và loại dữ liệu tương ứng ở các học kỳ dự báo môn chuyên của lớp chuyên 82

Bảng 4-7.Phương pháp tốt nhất ở các học kỳ dự báo môn không chuyên của lớp chuyên 82

Bảng 4-8 Loại dữ liệu đầu vào tốt nhất trên từng phương pháp ở các học kỳ dự báo môn không chuyên của lớp chuyên 83

Bảng 4-9 Phương pháp tốt nhất và loại dữ liệu tương ứng ở các học kỳ dự báo môn không chuyên của lớp chuyên 84

Bảng 4-10 Phương pháp tốt nhất ở 6 học kỳ dự báo môn chuyên của lớp chuyên 84Bảng 4-11 Phương pháp tốt nhất ở 6 học kỳ dự báo môn không chuyên của lớp chuyên 85

Trang 10

Bảng 5-1 Dữ liệu kiểm tra 86Bảng 5-2 Kết quả kiểm tra mô hình dự báo môn chuyên của lớp chuyên 87Bảng 5-3 Kết quả kiểm tra mô hình dự báo môn không chuyên của lớp chuyên 88

Trang 11

Hình 2-1 Hình ảnh trừu tượng một tế bào thần kinh sinh học ( [12]) 20

Hình 2-2 Mô hình hệ thần kinh trong sinh học( [12]) 20

Hình 2-3 Mô hình hệ thần kinh nhân tạo ( [12]) 20

Hình 2-4 Mô phỏng hoạt động của một nơ-ron ( [12]) 21

Hình 2-11 Kiến trúc mạng nơ-ron của bài toán ví dụ 37

Hình 2-12 Mô tả hoạt động của Bagging 42

Hình 2-13 Mô hình Gradient Boosting cho hồi quy 45

Hình 2-14 Cây hồi quy Tree 481Hình 2-15 Hình ảnh cây hồi quy Tree 492Hình 2-16 Mô tả hoạt động của Stacking 51

Hình 4-1 Độ tương quan 12 môn học của 6 học kỳ (lớp 10, 11, 12) 67

Hình 4-2 Một góc hình phóng to của Hình 4-1 68

Hình 4-3 Giao diện hệ thống 69

Hình 4-4 Menu Huấn luyện 70

Hình 4-5 Menu Dự báo 71

Trang 12

Hình 4-6 Dự báo môn Anh của lớp chuyên Anh ở học kỳ 3, sử dụng 6 môn tất cả học kỳ trước 72Hình 4-7 Dự báo môn Anh của lớp chuyên Anh ở học kỳ 4 73Hình 4-8 Sai số mô hình dự báo điểm môn Anh của lớp chuyên Anh 75Hình 4-9 Sai số mô hình dự báo điểm môn Anh của lớp chuyên Toán, Lý, Hóa, Sinh, Văn, Tin 76Hình 4-10 Sai số mô hình dự báo điểm môn Toán của lớp chuyên Toán 77Hình 4-11 Sai số mô hình dự báo điểm môn Toán của lớp chuyên Anh, Lý, Hóa, Sinh, Văn, Tin 78Hình 4-12 Sai số mô hình dự báo điểm môn Văn của lớp chuyên Văn 79Hình 4-13 Sai số mô hình dự báo điểm môn Văn của lớp chuyên Toán, Lý, Hóa, Sinh, Anh, Tin 80Hình 5-1 Sai số mô hình dự báo môn chuyên của lớp chuyên trên tập kiểm tra 87Hình 5-2 Sai số mô hình dự báo từng môn chuyên của lớp chuyên ở các học kỳ dự báo trên tập kiểm tra 88Hình 5-3 Sai số mô hình dự báo môn không chuyên của lớp chuyên trên tập kiểm tra 89Hình 5-4 Sai số mô hình dự báo từng môn không chuyên của lớp chuyên ở các học kỳ dự báo trên tập kiểm tra 89

Trang 13

Chương 1 TỔNG QUAN VỀ ĐỀ TÀI I Sự cần thiết của đề tài

Trường chuyên là nơi quy tụ những học sinh giỏi, có năng khiếu, là cái nôi để ươm tạo nên những học sinh tài năng bằng cách tạo điều kiện cũng như môi trường để các em phát huy hết khả năng học tập của mình Ở Việt Nam, hầu như mỗi tỉnh thành đều có trường trung học phổ thông chuyên, qua đó có tạo động lực để học sinh trong tỉnh phấn đấu để được vào học tập Trong các ngôi trường này có nhiều các lớp chuyên như chuyên Toán, chuyên Lý, chuyên Hóa, chuyên Sinh, chuyên Tin, chuyên Anh, chuyên Văn, … phụ huynh và học sinh nhận thấy con em mình có năng khiếu và yêu thích môn nào thì sẽ dự thi vào lớp chuyên đó

Tỉnh Bà Rịa – Vũng Tàu thành lập một trường chuyên duy nhất là Trường Trung học Phổ thông (THPT) chuyên Lê Quý Đôn Hiện tại trường có 7 lớp chuyên là: Toán, Lý, Hóa, Sinh, Tin, Anh, Văn Để khuyến khích tài năng của học sinh trong toàn tỉnh Năm 2013 Uỷ ban Nhân dân Tỉnh Bà Rịa – Vũng Tàu ban hành Công văn số 05/2013/QĐ-UBND, về việc quy định chế độ khuyến khích tài năng cho học sinh trường THPT chuyên, THPT và các trung tâm giáo dục thường xuyên trên địa bàn Tỉnh Bà Rịa – Vũng Tàu Theo công văn này thì học sinh Trường Lê Quý Đôn sẽ được nhận học bổng 600.000 đồng/học sinh/tháng và một năm học 9 tháng chia làm 2 học kỳ; học bổng được xét theo từng học kỳ Điều kiện để học sinh đạt được học bổng là học sinh giỏi, có hạnh kiểm tốt và điểm môn chuyên của học kỳ xét cũng như cấp học bổng phải đạt từ 8,5 trở lên Những chế độ khuyến khích tài năng của Tỉnh cũng là một trong những động lực giúp các em phấn đấu trong học tập và các hoạt động giáo dục

Trước năm 2016, Bộ GD&ĐT công bố phương án thi tốt nghiệp đối với học sinh THPT gồm ít nhất 4 môn; đó là ba môn bắt buộc Toán, Ngữ văn, Ngoại ngữ và một môn tự chọn trong các môn Vật lý, Hóa học, Sinh học, Lịch sử, Địa lý Kỳ thi tốt nghiệp chỉ xét tốt nghiệp cho học sinh; còn các trường đại học, cao đẳng tự tổ chức các kỳ thi tuyển sinh Năm 2016, Bộ GD&ĐT công bố phương án thi trung học phổ

Trang 14

thông quốc gia (THPT QG), có 8 môn thi được tổ chức là Toán, Ngữ văn, Ngoại ngữ, Vật lý, Hóa học, Sinh học, Lịch sử, Địa lý Đối với học sinh vừa xét công nhận tốt nghiệp và xét tuyển sinh đại học, cao đẳng học sinh phải thi 4 môn, đó là ba môn bắt buộc Toán, Ngữ văn, Ngoại ngữ; một môn tự chọn trong số các môn còn lại và đăng ký dự thi thêm các môn phù hợp với tổ hợp môn thi để xét tuyển sinh do các trường đại học, cao đẳng quy định [1] Năm 2016 là năm đầu tiên thực hiện kỳ thi vừa xét tốt nghiệp vừa sử dụng kết quả của kỳ thi để xét tuyển đại học, cao đẳng Ngày 28/9/2016 Bộ GD&ĐT công bố phương án thi THPT QG, trong đó nêu rõ học sinh THPT thi, bài thi gồm ba bài thi bắt buộc Toán, Ngữ văn, Ngoại ngữ và một bài tự chọn là bài thi Khoa học tự nhiên (Vật lý, Hóa học, Sinh học) hoặc bài thi Khoa học xã hội (Lịch sử, Địa lý, Giáo dục công dân) [2] Các trường đại học, cao đẳng sử dụng kết kết quả của kỳ thi này để xét tuyển sinh Từ sau năm 2017 đến nay, các trường đại học, cao đẳng đã đưa ra rất nhiều các phương án tuyển sinh như: xét điểm thi THPT QG, xét điểm đánh giá năng lực, xét học bạ (xét điểm trung bình tổ hợp 3 môn theo khối thi học sinh chọn năm học lớp 10, 11, 12), … Trong đó phương án xét học bạ, các trường đại học ưu tiên xét tuyển những thí sinh là học sinh các trường chuyên và một số những trường THPT mà có tỉ lệ đậu đại học cao vào các năm trước

Như vậy học sinh Trường Lê Quý Đôn ngoài việc được hưởng những chế độ khuyến khích tài năng của Tỉnh, các em lớp 12 còn được các trường đại học ưu tiên xét tuyển sinh bằng hình thức xét học bạ Thực tế vào năm học 2020-2021 đã có 51% học sinh đậu đại học bằng hình thức này Học sinh trường chuyên được học tập trong ngôi trường được đầu tư về cơ sở vật chất hiện đại, môi trường học tập năng động Ở đó học sinh được học tập với các bạn giỏi và có niềm yêu thích môn chuyên giống mình Việc phỏng đoán sơ bộ kết quả học tập ở học kỳ tiếp theo cho học sinh dựa trên năng lực học tập của quá khứ và hiện tại sẽ vô cùng hữu ích Đặc biệt qua đó giúp phụ huynh cũng như bản thân các em có suy nghĩ cách thức học tập sao cho học kỳ kế tiếp đạt được kết quả mong đợi Với học sinh Trường Lê Quý Đôn có nguồn học bổng như trình bày ở trên cũng là một động lực Đó cũng chính là cấp thiết để

Trang 15

thực hiện đề tài “Xây dựng hệ thống dự đoán kết quả học tập của học sinh trung học phổ thông”

Trong thực tế hoàn cảnh gia đình và môi trường sống ảnh hưởng rất nhiều đến kết quả học tập của học sinh Gia đình có cha mẹ, anh chị em quan tâm tới tâm tư tình cảm cũng như việc học tập của con cái sẽ giúp cho học sinh có động lực trong việc học tập, từ đó đạt kết quả tốt nhất; ngược lại khi hoàn cảnh gia đình không tốt sẽ ảnh hưởng tới sức khỏe, tâm lý của học sinh và từ đó dẫn tới ảnh hưởng tới kết quả học tập của học sinh Phương pháp học tập và động lực học tập của học sinh cũng là yếu tố quan trọng ảnh hưởng đến kết quả học tập Về học tập thì môn học này cũng có ảnh hưởng tới môn học khác, việc học sinh học tốt môn học này sẽ giúp học sinh học tập tốt môn học kia Ví dụ học sinh học tốt môn Toán sẽ là cơ sở để học tốt các môn Lý, Hóa, Tin Trong cùng một môn học thì có sự liên thông về mặt logic các kiến thức từ lớp dưới đến lớp trên, việc học tập tốt ở lớp dưới sẽ giúp học sinh có kết quả học tập tốt ở lớp trên Các yếu tố khách quan như hoàn cảnh gia đình, sự quan tâm của gia đình, môi trường sống,… cũng như các yếu tố nội tại của học sinh như phương pháp học tập và động lực học tập, … đã được thể hiện đầy đủ ở kết quả học tập của học sinh trong quá khứ

Bài toán dự báo kết quả học tập cho học sinh nói chung là bài toán sử dụng kết quả học tập của học sinh ở các kỳ học trước để dự báo kết quả của học sinh ở kỳ học kế tiếp hoặc kết quả học tập của một kỳ học trong tương lai

II Một số nghiên cứu liên quan

Đã có rất nhiều nghiên cứu liên quan đến dự báo kết quả học tập của học sinh Đối tượng hướng tới chủ yếu là sinh viên các trường đại học và sau đại học Dữ liệu được thu thập từ các viện giáo dục, hệ thống học tập dựa trên web hoặc thông qua các cuộc điều tra Sau khi thu thập dữ liệu họ đã áp dụng các thuật toán khác nhau Trong đó, các nghiên cứu có sử dụng thuật toán hồi quy: bài báo [3] của tác giả Oyerinde O D., Chia P A (2017), bài báo [4] của tác giả Efrem Yohannes Obsie, Seid Ahmed Adem (2018), để dự báo điểm cuối kỳ của sinh viên; các nghiên cứu sử dụng các

Trang 16

thuật toán phân loại: bài báo [5] của tác giả Raheela Asif và cộng sự (2017), bài báo [6] của tác giả Mukesh Kumar, Prof A.J Singh (2017), bài báo [7] của tác giả Jabeen Sultanan và các cộng sự (2019), bài báo [8] của tác giả Surbhi Agrawal và các cộng sự (2017) để phân loại kết quả học tập của sinh viên, và dự báo sinh viên học chậm của các tác giả Mukesh Kumar và cộng sự (2016) [9], của tác giả Nguyễn Thị Uyên, Nguyễn Minh Tâm (2019) [10].

Có rất ít các nghiên cứu dự báo liên quan tới học sinh trung học phổ thông, đa phần là hỗ trợ học sinh lớp 12 trong kỳ thi THPT Quốc gia Năm 2021, một nhóm tác giả đã dự báo điểm chuẩn năm 2021 của 5 trường đại học: Đại học Bách khoa Hà Nội, Trường Đại học Sư phạm Kỹ thuật TP.HCM, Trường Đại học Khoa học Tự nhiên (Đại học Quốc Gia Hà Nội), Trường Đại học Kinh tế - Luật (Đại học Quốc gia TP.HCM), Học viện Tài chính Công trình này được khảo sát và trình bày ở địa chỉ https://hoatieu.vn/du-doan-diem-chuan-dai-hoc-209511 Ở đây, nhóm tác giả dựa trên kinh nghiệm cũng như kiến thức chuyên gia để dự báo điểm chuẩn của các khối ngành trong trường Từ đó những kết quả dự báo đưa ra cũng mang tính nhận định chủ quan, chưa có những phân tích đánh giá trên kết quả dự báo Luận văn thạc sĩ của Lâm Quốc Cường, Trường Đại học Công nghệ TP Hồ Chí Minh, năm 2016 với đề tài: “Khai thác điểm học tập để dự đoán kết quả thi trung học phổ thông quốc gia cho học sinh trung học” cho đối tượng là học sinh lớp 12 Tác giả dựa vào kết quả học tập của các môn học của năm lớp 10, 11, 12 và sử dụng thuật toán cây quyết định để dự báo kết quả thi THPT Quốc gia của học sinh sẽ nằm trong loại nào trong 5 loại: giỏi, khá, trung bình khá, trung bình, hỏng Luận văn thạc sĩ của Lâm Thị Anh Hoàng, Trường Đại học Bà Rịa-Vũng Tàu, năm 2021 với đề tài: “Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp trung học phổ thông quốc gia” đã sử dụng mạng SOM, K-NN, K-means để xây dựng mô hình dự báo điểm thi tổ hợp Khoa học tự nhiên (KHTN) và Khoa học xã hội (KHXH), trên kết quả này tư vấn cho học sinh lớp 12 chọn tổ hợp thi KHTN hoặc KHXH dựa trên điểm trung bình các môn học của năm học lớp 11

Trang 17

III Mục tiêu của đề tài

Mục tiêu tổng quát: xây dựng được chương trình nhằm giúp học sinh các lớp 10, 11, 12 dự đoán kết quả học tập của học kỳ tới, từ đó có định hướng tốt hơn trong việc chuẩn bị kiến thức để bước vào học kỳ mới

Mục tiêu cụ thể: sử dụng dữ liệu đã và đang có của Trường THPT chuyên Lê Quý Đôn tỉnh Bà Rịa-Vũng Tàu cũng như một số kỹ thuật trong học máy qua đó để xây dựng chương trình máy tính để có thể dự đoán điểm trung bình các môn học trong học kỳ tiếp theo của học sinh các lớp 10, 11, 12

IV Đối tượng và phương pháp nghiên cứu IV.1 Đối tượng nghiên cứu

Đối tượng nghiên cứu gồm:

 Dữ liệu về điểm các môn học đang lưu trữ tại Trường THPT chuyên Lê Quý Đôn tỉnh Bà Rịa-Vũng Tàu

 Kỹ thuật học máy cho bài toán dự báo điểm IV.2 Phương pháp nghiên cứu

Về lý thuyết

 Sử dụng một số phương pháp như hồi quy tuyến tính, mạng nơ-ron

 Một số phương pháp học phối hợp cho hồi quy

 Dùng một số kỹ thuật trong thống kê để phân tích dữ liệu Về thực nghiệm

 Dùng dữ liệu để kiểm chứng mức độ tin cậy của kết quả V Nội dung nghiên cứu

Nội dung nghiên cứu gồm các nội dung sau:

 Thu thập dữ liệu đã và đang có của Trường THPT chuyên Lê Quý Đôn tỉnh Bà Rịa-Vũng Tàu từ đó tổ chức thành các tập tin dạng csv

Trang 18

 Tìm hiểu một số phương pháp cũng như kỹ thuật máy học phù hợp để sử dụng cho việc dự báo

 Phân tích và thiết kế chương trình máy tính nhằm giải quyết vấn đề đặt ra của mục tiêu

 Thử nghiệm chương trình với dữ liệu thu thập được

Trang 19

Chương 2 PHƯƠNG PHÁP VÀ KỸ THUẬT SỬ DỤNG Chương này trình bày khái niệm phương pháp và kỹ thuật sử dụng cho luận văn Cụ thể là hệ số tương quan qua đó để phân tích, đánh giá dữ liệu giúp lựa chọn những thuộc tính đầu vào cho mô hình dự báo; một số phương pháp và kỹ thuật học máy như hồi quy tuyến tính, mạng nơ-ron, phương pháp học phối hợp được sử dụng để xây dựng mô hình dự báo

I Hệ số tương quan Pearson

Cho hai biến x và y với n quan sát x , i y , i i1,n Muốn xác định mối quan hệ giữa hai biến, thì hệ số tương quan Pearson (Correlation Pearson) là cách được sử dụng phổ biến nhất Hệ số tương quan Pearson là thước đo độ mạnh, yếu của mối quan hệ tuyến tính giữa hai biến x, y và không phụ thuộc vào đơn vị đo lường của hai biến, kí hiệu là r có giá trị từ -1 đến 1

 r0: hai biến ,x y không có mối quan hệ tuyến tính hay hai biến là độc lập với nhau

 r hoặc 1 r  : hai biến có mối tương quan tuyến tính tuyệt đối 1

 r0: hai biến có quan hệ đồng biến, nghĩa là x tăng thì y tăng, ngược lại

x x y y

 

Trang 20

Trong đó, x là quan sát thứ i của biến i x,y là quan sát thứ i của biến y ; i x,

ylà giá trị trung bình của biến x, y (

Bảng 2-1 Điểm môn Toán và môn Lý

Mã học sinh Điểm môn Toán (x) Điểm môn Lý (y)

Trang 21

Toán (x) xix(xix)2 Điểm môn

Trang 22

x xr

Ngoài cách tính trực tiếp theo công thức thì Python có rất nhiều thư viện hỗ trợ tính hệ số tương quan, chẳng hạn như thư viện Pandas, SciPy, … Các thư viện tính hệ số tương quan của nhiều biến, kết quả đưa ra dưới dạng ma trận Dưới đây là chương trình sử dụng phương thức corr() trong thư viện Pandas:

Trang 23

Trong thực tế, việc phân tích hệ số tương quan giữa hai biến nhằm mục đích sau:

 Xác định mối tương quan giữa biến đầu vào (x) và biến đầu ra ( y ) trong thuật toán, chẳng hạn nếu hai biến x, y này không có mối tương quan (

II Học máy

Học máy (Machine Learning) là một lĩnh vực của Khoa học máy tính, học máy giúp để tìm ra quy tắc hay mô hình đã tồn tại trong dữ liệu Dựa theo phương thức học được chia thành 4 nhóm:

 Học có giám sát (Supervised Learning)

Trang 24

 Học không giám sát (Unsupervised Learning )

 Học bán giám sát (Semi-Supervised Learning )

 Học tăng cường (Reinforcement Learning )

Học có giám sát là việc có input là một tập nguồn và một tập đích tương ứng (gọi là đã được gán nhãn) để làm cơ sở tìm ra output là hàm hay mô hình mong muốn Tập hợp kết hợp tập nguồn và tập đích gọi là tập huấn luyện (Training Set) Với hàm hay mô hình tìm được sẽ dự báo đầu ra cho dữ liệu mới

Học không giám sát được sử dụng khi không có tập đích mà chỉ có tập nguồn Thuật toán học không giám sát sẽ dựa vào đặc trưng dữ liệu của tập nguồn nhằm khám phá cấu trúc và mối quan hệ của dữ liệu để thực hiện một công việc nào đó

Học bán giám sát được sử dụng khi dữ liệu trong tập nguồn chỉ có một phần nhỏ được gán nhãn, còn phần lớn dữ liệu không được gắn nhãn Những bài toán thuộc nhóm này nằm giữa hai nhóm học có giám sát và học không giám sát

Học tăng cường là việc thực hiện hành động phù hợp để cực đại hóa phần thưởng trong một tình huống cụ thể Hiện tại, các thuật toán học tăng cường được áp dụng nhiều trong lý thuyết trò chơi

Hồi quy tuyến tính (Linear Regression) là một trong những thuật toán cơ bản nhất trong học máy và thuộc nhóm học có giám sát Hồi quy tuyến tính còn có những tên gọi khác, trong Toán học gọi là bình phương tối thiểu tuyến tính (Linear Least Square), trong Thống kê gọi là hiệu chỉnh tuyến tính (Linear Fitting) [11]

III.1 Bài toán

Giả sử học sinh P vừa học xong lớp 12, muốn dự báo điểm thi tốt nghiệp môn Anh cho học sinh P Trong thực tế để dự báo điểm môn Anh phụ thuộc vào nhiều yếu tố: điểm trung bình (ĐTB) môn Anh, các môn học khác của 6 học kỳ lớp 10, 11, 12 Để bài toán đơn giản, giả sử dự báo điểm môn Anh chỉ phụ thuộc vào kết quả học tập

Trang 25

của môn Anh ở học kỳ 2 lớp 12 Giả sử có dữ liệu ĐTB môn Anh ở học kỳ 2 lớp 12 và điểm thi tốt nghiệp môn Anh của 𝑁 học sinh (giả sử 𝑁 = 20) được trình bày trong Bảng 2-3

Bảng 2-3 Điểm trung bình và điểm tốt nghiệp môn Anh Mã học sinh Điểm trung bình môn Anh

Bài toán hồi quy tuyến tính gồm dữ liệu nhập và xuất như sau: Nhập

Trang 26

 Bảng gồm 𝑁 bộ giá trị (X yi, ),i  i1,N

 Hàm xấp xỉ có dạng y f X w w ( , , )0 1  w w X0 1Xuất

 Các trọng số w w 0, 1III.2 Phương pháp giải

Bài toán đưa về tìm hàm 𝑓 xấp xỉ tốt nhất các giá trị 𝑦 , hay chính là tìm w , 01

( , )w w iN[yif X w w( , , )]i

này, sử dụng phương pháp trong đại số tuyến tính để tìm lời giải chính xác III.2.1 Dữ liệu quan sát chỉ một thành phần

Giả sử tập dữ liệu quan sát X [ ]xT là vector có 1 thành phần, hàm xấp xỉ cần tìm là f x w w( , , )0 1 w w x0 1 ; và hàm tổn thất có dạng

  

 



Trang 27

i ii

A bw

  

suy ra

Ta có, A X X. T đồng thời

A bw

Ví dụ với bài toán có N = 20 ở trên Ma trận

Trang 28

Ngoài ra có thể sử dụng thư viện trong Python, chẳng hạn như Scikit-learn Dưới đây là chương trình sử dụng hàm LinearRegression trong thư viện Scikit-learn:

Trang 29

III.2.2 Dữ liệu quan sát có nhiều thành phần

Trong thực tế, 𝑋 ở dạng vector có nhiều thành phần Giả sử 𝑋 là vector có 𝑀 thành phần, khi đó [ , , ,1 2 ]T

w [ , , , , ]TM

w w w w

 và x0  1

Khi đó bảng dữ liệu ( , ),X yi i  i1,N sẽ là (x x1i,2i, ,xMiT, )yi và

MjjNj

Trang 30

           

Vậy w ( )   T1 Y

Ví dụ: Giả sử với bài toán trên, để dự báo điểm tốt nghiệp môn Anh dựa vào ĐTB môn Anh của cả 6 học kỳ (HK) đã học (HK 1, 2 lớp 10; HK 1, 2 lớp 11; HK 1,2 lớp 12), khi đó X là vector có 6 thành phần Dữ liệu lưu trong tệp Anh_TN.csv

Dưới đây là chương trình viết bằng Python:

Dưới đây là chương trình sử dụng hàm LinearRegression trong thư viện learn:

Trang 31

Scikit-IV Mạng thần kinh nhân tạo

IV.1 Giới thiệu mạng thần kinh nhân tạo

Mạng thần kinh nhân tạo (Artificial Neural Network - ANN) gọi tắt là mạng ron, bao gồm nhiều nơ-ron (neuron) được gắn kết với nhau Mạng nơ-ron hoạt động mô phỏng giống như bộ não con người [12] Tế bào thần kinh (nơ-ron) là đơn vị cơ bản cấu tạo lên hệ thống thần kinh và là một phần quan trọng nhất của của não Theo nghiên cứu của tiến sĩ Suzana Herculano – Houzel người Brazil, trung bình bộ não con người có khoảng 86 tỷ nơ-ron và mỗi nơ-ron liên kết với khoảng 1000 nơ-ron khác Mỗi nơ-ron hay một tri giác (perceptron) gồm ba phần chính: thân tế bào (soma), nhiều đuôi gai hay sợi nhánh (dendrite) và một sợi trục chính (axon) Các sợi nhánh nhận các xung tín hiệu từ những nơ-ron khác tại các khớp thần kinh để đưa vào thân tế bào xử lý Sau khi thân tế bào xử lý xong thì sợi trục lấy tín hiệu xử lý từ thân tế bào để gửi đến các khớp thần kinh của tế bào thần kinh khác Mỗi nơ-ron trong mạng thần kinh hoạt động như một bộ xử lý đơn lẻ, còn mạng thần kinh hoạt động như một hệ thống xử lý song song mà có sự quản lý chặt chẽ các tín hiệu đầu vào cũng như đầu ra Hình 2-1 là hình ảnh trừu tượng của một tế bào thần kinh sinh học

Trang 32

nơ-Hình 2-1 nơ-Hình ảnh trừu tượng một tế bào thần kinh sinh học ( [12])

Trong mạng nơ-ron, mỗi nơ-ron bao gồm một hoặc nhiều dendrite như là input, một soma là bộ xử lý và một axon đóng vai trò là output Mô hình hệ thần kinh trong sinh học và hệ thần kinh nhân tạo được trừu tượng hóa như Hình 2-2 và Hình 2-3

Hình 2-2 Mô hình hệ thần kinh trong sinh học( [12])

Hình 2-3 Mô hình hệ thần kinh nhân tạo ( [12])

Mỗi nơ-ron trong mạng nơ-ron có một hàm kích hoạt (activation functions) để tạo giá trị đầu ra Trong quá trình hoạt động của mạng nơ-ron, khi một tín hiệu đến, giá trị của tín hiệu này được nhân với trọng số tương ứng cho mỗi đầu vào Khi đó

Trang 33

đầu vào của một nơ-ron có giá trị mới trước khi đưa vào xử lý Hoạt động của một nơ-ron được mô phỏng như Hình 2-4

Hình 2-4 Mô phỏng hoạt động của một nơ-ron ( [12]) IV.2 Hàm kích hoạt

Hàm kích hoạt có vai trò rất quan trọng trong mạng nơ-ron [13] Tùy vào từng bài toán mà chọn hàm kích hoạt phù hợp Dưới đây là những hàm kích hoạt thường dùng:

1 Hàm Sigmoid

 Công thức hàm Sigmoid: ( ) 1 (0,1)1 x

Trang 34

e e

Hàm Tanh có đặc điểm: biến đại lượng biến thiên từ (  vào khoảng , )(-1,1); hàm Tanh có thể biểu diễn bằng hàm Sigmoid như sau: tanh( ) 2 (2 ) 1x   x  ; đạo hàm của hàm Tanh có công thức sau: tanh'( ) 1 tanh ( )x   2 x

 Đồ thị của hàm Tanh

Hình 2-6 Đồ thị của hàm Tanh 3 Hàm ReLU (Rectified Linear Unit)

 Công thức hàm ReLU: ReLU( ) max(0, )xx

Đạo hàm của hàm ReLU có công thức như sau: ReLU (𝑥) = 1, 𝑛ế𝑢 𝑥 > 00, 𝑛ế𝑢 𝑥 ≤ 0 Đồ thị hàm ReLU

Trang 35

Hình 2-7 Đồ thị hàm ReLU 4 Hàm LeakyReLU

 Công thức hàm LeakyReLU: LeakyReLU(𝑥) = 𝑥, 𝑛ế𝑢 𝑥 > 0𝛼𝑥, 𝑛ế𝑢 𝑥 ≤ 0Đạo hàm của hàm LeakyReLU có công thức như sau:

LeakyReLU (𝑥) = 1, 𝑛ế𝑢 𝑥 > 0𝛼, 𝑛ế𝑢 𝑥 ≤ 0 Đồ thị hàm LeakyReLU

Hình 2-8 Đồ thị hàm LeakReLU với α =0.1

Các hàm kích hoạt ra đời sau này, cải tiến những nhược điểm của các hàm trước Việc lựa chọn hàm kích hoạt nào là tùy bài toán Việc chuyển hóa dữ liệu đóng vai

Trang 36

trò quan trọng, liên quan tới hàm kích hoạt Chẳng hạn, với hàm Sigmoid và hàm Tanh khi |x| lớn thì các giá trị gần giống nhau Vì vậy khi đầu vào của mạng có giá trị tuyệt đối lớn thì cần chuẩn hóa nó về khoảng có giá trị nhỏ, nếu không thì các nơ-ron tại các lớp ẩn ngay ban đầu đã có thể đạt giá trị bão hòa, từ đó việc huấn luyện không có kết quả tốt

IV.3 Kiến trúc của mạng thần kinh nhân tạo

Mạng nơ-ron là tập hợp các nơ-ron liên kết với nhau thông qua nhiều tầng (layer), mà mỗi tầng có nhiều nơ-ron [13] Kiến trúc tổng quát của mạng nơ-ron gồm có 3 tầng:

 Tầng đầu vào – Tầng Input (Input layer)

 Tầng ẩn – Tầng Hidden (Hidden layer)

 Tầng đầu ra – Tầng Output (Output layer)

Tầng đầu vào: số nơ-ron ở tầng đầu vào căn cứ vào số thuộc tính cần xử lý của tập dữ liệu

Tầng ẩn: có thể có nhiều tầng ẩn, mỗi tầng ẩn có thể có nhiều ron Số ron ở tầng ẩn là tùy ý theo người thiết kế mạng nơ-ron Việc chọn có bao nhiêu tầng ẩn và bao nhiêu nơ-ron trong tầng ẩn là một bài toán rất khó

nơ-Tầng đầu ra: số nơ-ron ở tầng đầu ra được quyết định dựa vào số lớp cần phân loại đối với bài toán phân lớp, chẳng hạn với bài toán nhận dạng chữ số thì số nơ-ron ở tầng đầu ra là 10; đối với bài toán hồi quy thì chỉ có 1 nơ-ron, chẳng hạn như bài toán dự đoán giá nhà đất, dự đoán điểm một môn học ở học kỳ kế tiếp của học sinh

Khi cần có thêm độ lệch ở tầng input và tầng hidden, bổ sung thêm thuộc tính có giá trị là 1

Trang 37

Hình 2-9 Kiến trúc mạng nơ-ron (Tầng input: n nơ-ron; Tầng hidden: 3 tầng h1, h2, h3; Tầng output: m nơ-ron)

Các nơ-ron liên kết với nhau bằng các trọng số liên kết, nên có các ma trận trọng số từ tầng input đến tầng output Mỗi nơ-ron ở tầng hidden và tầng output có một hàm kích hoạt, mỗi nơ-ron có thể có một hàm kích hoạt khác nhau, nhưng để thuận tiện cho công việc tính toán thì mỗi tầng có thể cùng một hàm kích hoạt và thậm chí các tầng cũng dùng cùng một hàm kích hoạt như nhau

IV.4 Học có giám sát trong các mạng thần kinh nhân tạo

Với tập huấn luyện D X Y( , ) là một bảng gồm 𝑁 bộ dữ liệu (X yi, ),i  i1,N

, trong đó Xi ( , , , )x xi1 i2 xin là một vector có 𝑛 thành phần (hay 𝑋 có 𝑛 thuộc tính), 𝑦 là nhãn [13] Học có giám sát trong mạng ANN thực chất là một quá trình hiệu chỉnh các trọng số liên kết giữa các nơ-ron thông qua việc học từ các tập dữ liệu huấn luyện Điển hình cho kỹ thuật này là mạng nơ-ron lan truyền ngược (back propagation)

Huấn luyện mạng nơ-ron là quá trình lặp đi lặp lại các bước sau:

 Lan truyền xuôi (feed forward propagation): Từ dữ liệu của tầng input rồi tính toán qua các tầng ẩn để xác định giá trị đầu ra (giá trị dự đoán)

 Lan truyền ngược (back propagation): Cập nhật lại trọng số của các tầng từ tầng output đến tầng input sao cho giá trị dự đoán gần với giá trị thực nhất

Trang 38

IV.4.1 Ví dụ với mạng nơ-ron 2 lớp

Để đơn giản trong việc tính toán, xây dựng mạng nơ-ron 2 lớp ký hiệu là 2 (mạng nơ-ron có 1 tầng đầu vào, 1 tầng ẩn, 1 tầng đầu ra) Hình 2-10 là kiến trúc ANN-2

ANN-Hình 2-10 Kiến trúc ANN-2Mạng ANN-2 ví dụ có:

 Tầng input: 3 nơ-ron

 Tầng hidden: 1 tầng ẩn có 4 nơ-ron

 Tầng output: 2 nơ-ron

 Trọng số giữa tầng input và tầng hidden là ma trận 𝑊( ) có kích thước 3×4

 Trọng số giữa tầng hidden và tầng output là ma trận có 𝑊( ) có kích thước 4×2

 Hàm kích hoạt cho tầng hidden là (1), hàm kích hoạt cho tầng output là (2)

Tập huấn luyện là (𝑋, 𝑌) với 𝑋 là tập dữ liệu (Dataset) có 𝑁 điểm dữ liệu (datapoint) với 3 thuộc tính, 𝑋 có kích thước 𝑁×3, 𝑌 là giá trị thực tế (nhãn) có kích thước 𝑁×2 Đối với mạng nơ-ron có độ lệch (bias), bổ sung thêm ở tầng input và hidden một nơ-ron có giá trị bằng 1

Ma trận trọng số 𝑊( ) để chuyển tín hiệu từ tầng input đến tầng hidden như sau:

Trang 39

Lan truyền xuôi

Với mỗi điểm dữ liệu 𝑥 trong tầng input, thì giá trị đầu vào của nơ-ron thứ 𝑗 của tầng hidden là fijw x w x1(1)j i1 2(1)j i2w x3(1)j i3, j1,4;i1,N, khi đó đầu ra của tầng

input cũng là đầu vào của tầng hidden là

 có kết quả ở tầng đầu ra là  (2)( (1)( X W(1)).W(2)) cũng là ma trận có kích thước 𝑁×2 Như vậy, quá trình lan truyền của ANN-2 diễn ra từ dữ liệu đầu vào là 𝑋 đến kết quả ở đầu ra là 𝑌 là:

Trang 40

Tuy nhiên, để kết quả đầu ra của tầng output đủ độ tin cậy cho việc sử dụng về sau, thì các ma trận trọng số này phải được đào tạo ra trong quá trình tính toán Từ đó ma trận trọng số được điều chỉnh dần để từ ma trận dữ liệu 𝑋 suy ra được giá trị dự đoán (𝑌) có độ chính xác tốt nhất Và như vậy sau bước lan truyền xuôi để tính giá trị dự đoán, bước tiếp theo là lan truyền ngược để điểu chỉnh các trọng số

Lan truyền ngược

Trong pha lan truyền xuôi, sự tính toán lan truyền từ tầng input cùng với các ma trận trọng số giữa các tầng và hàm kích hoạt ở các nơ-ron ở các tầng từ tầng hidden đến tầng output có được giá trị dự đoán Tuy nhiên, có sự khác biệt giữa giá trị dự đoán yij và giá trị thực tế yij,i1, ;N j1,L được gọi là tín hiệu lỗi Để đánh giá lỗi,

cần xây dựng một hàm để đo độ lỗi và gọi là hàm mất mát Có nhiều phương thức xây dựng hàm mất mát khác nhau, cách dùng nhiều nhất là sử dụng lỗi tức thời:

 2

1Err ( )

2 y y 

Giả sử hàm mất mát là 1  2

Err ( )2 y y

  Khi đó tổng mất mát của tất cả các

nơ-ron của toàn bộ dữ liệu gọi là hàm tổn thất 2  2ijij11

1 ( )2

L Mục tiêu là giảm sự khác biệt giữa giá trị dự đoán và giá trị

Ngày đăng: 19/08/2024, 05:26

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN