1. Trang chủ
  2. » Luận Văn - Báo Cáo

[LUẬN VĂN THẠC SĨ] Xây dựng hệ thống dự đoán kết quả học tập của học sinh trung học phổ thông

104 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây dựng hệ thống dự đoán kết quả học tập của học sinh trung học phổ thông
Tác giả Nguyễn Thị Lan
Người hướng dẫn PGS.TS Trần Văn Lăng
Trường học Trường Đại học Bà Rịa-Vũng Tàu
Chuyên ngành Công nghệ thông tin
Thể loại Luận văn Thạc sĩ
Năm xuất bản 2023
Thành phố Bà Rịa-Vũng Tàu
Định dạng
Số trang 104
Dung lượng 4,11 MB

Cấu trúc

  • Chương 1. TỔNG QUAN VỀ ĐỀ TÀI (13)
    • I. Sự cần thiết của đề tài (13)
    • II. Một số nghiên cứu liên quan (15)
    • III. Mục tiêu của đề tài (17)
    • IV. Đối tượng và phương pháp nghiên cứu (17)
      • IV.1. Đối tượng nghiên cứu (17)
      • IV.2. Phương pháp nghiên cứu (17)
    • V. Nội dung nghiên cứu (17)
  • Chương 2. PHƯƠNG PHÁP VÀ KỸ THUẬT SỬ DỤNG (19)
    • I. Hệ số tương quan Pearson (19)
    • II. Học máy (23)
    • III. Hồi quy tuyến tính (24)
      • III.1. Bài toán (24)
      • III.2. Phương pháp giải (26)
    • IV. Mạng thần kinh nhân tạo (31)
      • IV.1. Giới thiệu mạng thần kinh nhân tạo (31)
      • IV.2. Hàm kích hoạt (33)
      • IV.3. Kiến trúc của mạng thần kinh nhân tạo (36)
      • IV.4. Học có giám sát trong các mạng thần kinh nhân tạo (37)
    • V. Học phối hợp (Ensemble Learning) (51)
      • V.1. Bagging (53)
      • V.2. Gradient Boosting (55)
      • V.3. Stacking (62)
  • Chương 3. HỆ THỐNG DỰ BÁO KẾT QUẢ HỌC TẬP (64)
    • I. Giới thiệu (64)
      • I.1. Giai đoạn huấn luyện (65)
      • I.2. Giai đoạn dự báo (67)
      • I.3. Sơ đồ của hệ thống (67)
    • II. Phương pháp thực hiện (68)
      • II.1. Phương pháp hồi quy tuyến tính (70)
      • II.2. Phương pháp mạng nơ-ron (72)
      • II.3. Phương pháp học phối hợp (73)
  • Chương 4. KẾT QUẢ THỰC NGHIỆM (75)
    • I. Tiền xử lý dữ liệu (75)
      • I.1. Thu thập dữ liệu (0)
      • I.2. Tiền xử lý dữ liệu (76)
    • II. Giao diện hệ thống (80)
      • II.1. Menu Huấn luyện (81)
      • II.2. Menu Dự báo (83)
    • III. Kết quả dự báo (85)
      • III.1. Kết quả môn Anh (86)
      • III.2. Kết quả môn Toán (88)
      • III.3. Kết quả môn Văn (90)
      • III.4. So sánh, đánh giá các phương pháp dùng để dự báo (92)
  • Chương 5. KẾT LUẬN (98)
    • I. Kết quả kiểm tra (98)
      • I.1. Kết quả kiểm tra môn chuyên của lớp chuyên (98)

Nội dung

TỔNG QUAN VỀ ĐỀ TÀI

Sự cần thiết của đề tài

Trường chuyên là nơi quy tụ những học sinh giỏi, có năng khiếu, là cái nôi để ươm tạo nên những học sinh tài năng bằng cách tạo điều kiện cũng như môi trường để các em phát huy hết khả năng học tập của mình Ở Việt Nam, hầu như mỗi tỉnh thành đều có trường trung học phổ thông chuyên, qua đó có tạo động lực để học sinh trong tỉnh phấn đấu để được vào học tập Trong các ngôi trường này có nhiều các lớp chuyên như chuyên Toán, chuyên Lý, chuyên Hóa, chuyên Sinh, chuyên Tin, chuyên Anh, chuyên Văn, … phụ huynh và học sinh nhận thấy con em mình có năng khiếu và yêu thích môn nào thì sẽ dự thi vào lớp chuyên đó

Tỉnh Bà Rịa – Vũng Tàu thành lập một trường chuyên duy nhất là Trường Trung học Phổ thông (THPT) chuyên Lê Quý Đôn Hiện tại trường có 7 lớp chuyên là: Toán,

Lý, Hóa, Sinh, Tin, Anh, Văn Để khuyến khích tài năng của học sinh trong toàn tỉnh Năm 2013 Uỷ ban Nhân dân Tỉnh Bà Rịa – Vũng Tàu ban hành Công văn số 05/2013/QĐ-UBND, về việc quy định chế độ khuyến khích tài năng cho học sinh trường THPT chuyên, THPT và các trung tâm giáo dục thường xuyên trên địa bàn Tỉnh Bà Rịa – Vũng Tàu Theo công văn này thì học sinh Trường Lê Quý Đôn sẽ được nhận học bổng 600.000 đồng/học sinh/tháng và một năm học 9 tháng chia làm

2 học kỳ; học bổng được xét theo từng học kỳ Điều kiện để học sinh đạt được học bổng là học sinh giỏi, có hạnh kiểm tốt và điểm môn chuyên của học kỳ xét cũng như cấp học bổng phải đạt từ 8,5 trở lên Những chế độ khuyến khích tài năng của Tỉnh cũng là một trong những động lực giúp các em phấn đấu trong học tập và các hoạt động giáo dục

Trước năm 2016, Bộ GD&ĐT công bố phương án thi tốt nghiệp đối với học sinh THPT gồm ít nhất 4 môn; đó là ba môn bắt buộc Toán, Ngữ văn, Ngoại ngữ và một môn tự chọn trong các môn Vật lý, Hóa học, Sinh học, Lịch sử, Địa lý Kỳ thi tốt nghiệp chỉ xét tốt nghiệp cho học sinh; còn các trường đại học, cao đẳng tự tổ chức các kỳ thi tuyển sinh Năm 2016, Bộ GD&ĐT công bố phương án thi trung học phổ thông quốc gia (THPT QG), có 8 môn thi được tổ chức là Toán, Ngữ văn, Ngoại ngữ, Vật lý, Hóa học, Sinh học, Lịch sử, Địa lý Đối với học sinh vừa xét công nhận tốt nghiệp và xét tuyển sinh đại học, cao đẳng học sinh phải thi 4 môn, đó là ba môn bắt buộc Toán, Ngữ văn, Ngoại ngữ; một môn tự chọn trong số các môn còn lại và đăng ký dự thi thêm các môn phù hợp với tổ hợp môn thi để xét tuyển sinh do các trường đại học, cao đẳng quy định [1] Năm 2016 là năm đầu tiên thực hiện kỳ thi vừa xét tốt nghiệp vừa sử dụng kết quả của kỳ thi để xét tuyển đại học, cao đẳng Ngày 28/9/2016 Bộ GD&ĐT công bố phương án thi THPT QG, trong đó nêu rõ học sinh THPT thi, bài thi gồm ba bài thi bắt buộc Toán, Ngữ văn, Ngoại ngữ và một bài tự chọn là bài thi Khoa học tự nhiên (Vật lý, Hóa học, Sinh học) hoặc bài thi Khoa học xã hội (Lịch sử, Địa lý, Giáo dục công dân) [2] Các trường đại học, cao đẳng sử dụng kết kết quả của kỳ thi này để xét tuyển sinh Từ sau năm 2017 đến nay, các trường đại học, cao đẳng đã đưa ra rất nhiều các phương án tuyển sinh như: xét điểm thi THPT QG, xét điểm đánh giá năng lực, xét học bạ (xét điểm trung bình tổ hợp 3 môn theo khối thi học sinh chọn năm học lớp 10, 11, 12), … Trong đó phương án xét học bạ, các trường đại học ưu tiên xét tuyển những thí sinh là học sinh các trường chuyên và một số những trường THPT mà có tỉ lệ đậu đại học cao vào các năm trước

Như vậy học sinh Trường Lê Quý Đôn ngoài việc được hưởng những chế độ khuyến khích tài năng của Tỉnh, các em lớp 12 còn được các trường đại học ưu tiên xét tuyển sinh bằng hình thức xét học bạ Thực tế vào năm học 2020-2021 đã có 51% học sinh đậu đại học bằng hình thức này Học sinh trường chuyên được học tập trong ngôi trường được đầu tư về cơ sở vật chất hiện đại, môi trường học tập năng động Ở đó học sinh được học tập với các bạn giỏi và có niềm yêu thích môn chuyên giống mình Việc phỏng đoán sơ bộ kết quả học tập ở học kỳ tiếp theo cho học sinh dựa trên năng lực học tập của quá khứ và hiện tại sẽ vô cùng hữu ích Đặc biệt qua đó giúp phụ huynh cũng như bản thân các em có suy nghĩ cách thức học tập sao cho học kỳ kế tiếp đạt được kết quả mong đợi Với học sinh Trường Lê Quý Đôn có nguồn học bổng như trình bày ở trên cũng là một động lực Đó cũng chính là cấp thiết để thực hiện đề tài “Xây dựng hệ thống dự đoán kết quả học tập của học sinh trung học phổ thông”

Trong thực tế hoàn cảnh gia đình và môi trường sống ảnh hưởng rất nhiều đến kết quả học tập của học sinh Gia đình có cha mẹ, anh chị em quan tâm tới tâm tư tình cảm cũng như việc học tập của con cái sẽ giúp cho học sinh có động lực trong việc học tập, từ đó đạt kết quả tốt nhất; ngược lại khi hoàn cảnh gia đình không tốt sẽ ảnh hưởng tới sức khỏe, tâm lý của học sinh và từ đó dẫn tới ảnh hưởng tới kết quả học tập của học sinh Phương pháp học tập và động lực học tập của học sinh cũng là yếu tố quan trọng ảnh hưởng đến kết quả học tập Về học tập thì môn học này cũng có ảnh hưởng tới môn học khác, việc học sinh học tốt môn học này sẽ giúp học sinh học tập tốt môn học kia Ví dụ học sinh học tốt môn Toán sẽ là cơ sở để học tốt các môn

Lý, Hóa, Tin Trong cùng một môn học thì có sự liên thông về mặt logic các kiến thức từ lớp dưới đến lớp trên, việc học tập tốt ở lớp dưới sẽ giúp học sinh có kết quả học tập tốt ở lớp trên Các yếu tố khách quan như hoàn cảnh gia đình, sự quan tâm của gia đình, môi trường sống,… cũng như các yếu tố nội tại của học sinh như phương pháp học tập và động lực học tập, … đã được thể hiện đầy đủ ở kết quả học tập của học sinh trong quá khứ

Bài toán dự báo kết quả học tập cho học sinh nói chung là bài toán sử dụng kết quả học tập của học sinh ở các kỳ học trước để dự báo kết quả của học sinh ở kỳ học kế tiếp hoặc kết quả học tập của một kỳ học trong tương lai.

Một số nghiên cứu liên quan

Đã có rất nhiều nghiên cứu liên quan đến dự báo kết quả học tập của học sinh Đối tượng hướng tới chủ yếu là sinh viên các trường đại học và sau đại học Dữ liệu được thu thập từ các viện giáo dục, hệ thống học tập dựa trên web hoặc thông qua các cuộc điều tra Sau khi thu thập dữ liệu họ đã áp dụng các thuật toán khác nhau Trong đó, các nghiên cứu có sử dụng thuật toán hồi quy: bài báo [3] của tác giả Oyerinde

O D., Chia P A (2017), bài báo [4] của tác giả Efrem Yohannes Obsie, Seid Ahmed Adem (2018), để dự báo điểm cuối kỳ của sinh viên; các nghiên cứu sử dụng các thuật toán phân loại: bài báo [5] của tác giả Raheela Asif và cộng sự (2017), bài báo [6] của tác giả Mukesh Kumar, Prof A.J Singh (2017), bài báo [7] của tác giả Jabeen Sultanan và các cộng sự (2019), bài báo [8] của tác giả Surbhi Agrawal và các cộng sự (2017) để phân loại kết quả học tập của sinh viên, và dự báo sinh viên học chậm của các tác giả Mukesh Kumar và cộng sự (2016) [9], của tác giả Nguyễn Thị Uyên, Nguyễn Minh Tâm (2019) [10].

Có rất ít các nghiên cứu dự báo liên quan tới học sinh trung học phổ thông, đa phần là hỗ trợ học sinh lớp 12 trong kỳ thi THPT Quốc gia Năm 2021, một nhóm tác giả đã dự báo điểm chuẩn năm 2021 của 5 trường đại học: Đại học Bách khoa Hà Nội, Trường Đại học Sư phạm Kỹ thuật TP.HCM, Trường Đại học Khoa học Tự nhiên (Đại học Quốc Gia Hà Nội), Trường Đại học Kinh tế - Luật (Đại học Quốc gia TP.HCM), Học viện Tài chính Công trình này được khảo sát và trình bày ở địa chỉ https://hoatieu.vn/du-doan-diem-chuan-dai-hoc-209511 Ở đây, nhóm tác giả dựa trên kinh nghiệm cũng như kiến thức chuyên gia để dự báo điểm chuẩn của các khối ngành trong trường Từ đó những kết quả dự báo đưa ra cũng mang tính nhận định chủ quan, chưa có những phân tích đánh giá trên kết quả dự báo Luận văn thạc sĩ của Lâm Quốc Cường, Trường Đại học Công nghệ TP Hồ Chí Minh, năm 2016 với đề tài: “Khai thác điểm học tập để dự đoán kết quả thi trung học phổ thông quốc gia cho học sinh trung học” cho đối tượng là học sinh lớp 12 Tác giả dựa vào kết quả học tập của các môn học của năm lớp 10, 11, 12 và sử dụng thuật toán cây quyết định để dự báo kết quả thi THPT Quốc gia của học sinh sẽ nằm trong loại nào trong 5 loại: giỏi, khá, trung bình khá, trung bình, hỏng Luận văn thạc sĩ của Lâm Thị Anh Hoàng, Trường Đại học Bà Rịa-Vũng Tàu, năm 2021 với đề tài: “Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp trung học phổ thông quốc gia” đã sử dụng mạng SOM, K-NN, K-means để xây dựng mô hình dự báo điểm thi tổ hợp Khoa học tự nhiên (KHTN) và Khoa học xã hội (KHXH), trên kết quả này tư vấn cho học sinh lớp 12 chọn tổ hợp thi KHTN hoặc KHXH dựa trên điểm trung bình các môn học của năm học lớp 11.

Mục tiêu của đề tài

Mục tiêu tổng quát: xây dựng được chương trình nhằm giúp học sinh các lớp

10, 11, 12 dự đoán kết quả học tập của học kỳ tới, từ đó có định hướng tốt hơn trong việc chuẩn bị kiến thức để bước vào học kỳ mới

Mục tiêu cụ thể: sử dụng dữ liệu đã và đang có của Trường THPT chuyên Lê Quý Đôn tỉnh Bà Rịa-Vũng Tàu cũng như một số kỹ thuật trong học máy qua đó để xây dựng chương trình máy tính để có thể dự đoán điểm trung bình các môn học trong học kỳ tiếp theo của học sinh các lớp 10, 11, 12.

Đối tượng và phương pháp nghiên cứu

IV.1 Đối tượng nghiên cứu Đối tượng nghiên cứu gồm:

 Dữ liệu về điểm các môn học đang lưu trữ tại Trường THPT chuyên Lê Quý Đôn tỉnh Bà Rịa-Vũng Tàu

 Kỹ thuật học máy cho bài toán dự báo điểm

IV.2 Phương pháp nghiên cứu

 Sử dụng một số phương pháp như hồi quy tuyến tính, mạng nơ-ron

 Một số phương pháp học phối hợp cho hồi quy

 Dùng một số kỹ thuật trong thống kê để phân tích dữ liệu

 Dùng dữ liệu để kiểm chứng mức độ tin cậy của kết quả

Nội dung nghiên cứu

Nội dung nghiên cứu gồm các nội dung sau:

 Thu thập dữ liệu đã và đang có của Trường THPT chuyên Lê Quý Đôn tỉnh

Bà Rịa-Vũng Tàu từ đó tổ chức thành các tập tin dạng csv

 Tìm hiểu một số phương pháp cũng như kỹ thuật máy học phù hợp để sử dụng cho việc dự báo

 Phân tích và thiết kế chương trình máy tính nhằm giải quyết vấn đề đặt ra của mục tiêu

 Thử nghiệm chương trình với dữ liệu thu thập được

PHƯƠNG PHÁP VÀ KỸ THUẬT SỬ DỤNG

Hệ số tương quan Pearson

Cho hai biến x và y với n quan sát x i , y i , i1,n Muốn xác định mối quan hệ giữa hai biến, thì hệ số tương quan Pearson (Correlation Pearson) là cách được sử dụng phổ biến nhất Hệ số tương quan Pearson là thước đo độ mạnh, yếu của mối quan hệ tuyến tính giữa hai biến x, y và không phụ thuộc vào đơn vị đo lường của hai biến, kí hiệu là r có giá trị từ -1 đến 1

 r  0: hai biến ,x y không có mối quan hệ tuyến tính hay hai biến là độc lập với nhau

 r1 hoặc r 1: hai biến có mối tương quan tuyến tính tuyệt đối

 r  0: hai biến có quan hệ đồng biến, nghĩa là x tăng thì y tăng, ngược lại x giảm thì ygiảm

 r  0: hai biến có mối quan hệ nghịch biến, nghĩa là x tăng thì y giảm, ngược lại x giảm thì y tăng

Hệ số tương quan hai biến x, y được ước tính bằng công thức sau:

Trong đó, x i là quan sát thứ i của biến x,y i là quan sát thứ i của biến y; x, ylà giá trị trung bình của biến x, y (

Ví dụ: Giả sử ta muốn đo mức độ tương quan giữa môn Toán (x) và Lý (y)

Số liệu lấy ở lớp 11T là điểm trung bình môn Toán và Lý cuối năm lớp 10, tổng số học sinh là 25 Số liệu được trình bày trong Bảng 2-1

Bảng 2-1 Điểm môn Toán và môn Lý

Mã học sinh Điểm môn Toán (x) Điểm môn Lý (y)

Khi đó, giá trị trung bình của biến x, y là:

Các số liệu để tính hệ số tương quan trình bày trong Bảng 2-2

Bảng 2-2 Số liệu để tính hệ số tương quan Điểm môn

8.3 0.25 0.06 9.0 0.94 0.88 0.24 Áp dụng công thức (2.1) ta có:

Vậy với hệ số tương quan r xy 0.57 0 có nghĩa là điểm trung bình môn Toán và điểm trung bình môn Lý có mối tương quan đồng biến với nhau Để tính hệ số tương quan của hai biến, ta có thể cài đặt theo công thức (2.1) bằng cách sử dụng ngôn ngữ lập trình chẳng hạn như Python; dữ liệu lưu trong tệp DiemToanLy.csv Chương trình như sau:

Ngoài cách tính trực tiếp theo công thức thì Python có rất nhiều thư viện hỗ trợ tính hệ số tương quan, chẳng hạn như thư viện Pandas, SciPy, … Các thư viện tính hệ số tương quan của nhiều biến, kết quả đưa ra dưới dạng ma trận Dưới đây là chương trình sử dụng phương thức corr() trong thư viện Pandas:

Trong thực tế, việc phân tích hệ số tương quan giữa hai biến nhằm mục đích sau:

 Xác định mối tương quan giữa biến đầu vào (x) và biến đầu ra (y) trong thuật toán, chẳng hạn nếu hai biến x,y này không có mối tương quan ( xy 0 r  ) thì không thể xây dựng thuật toán với biến đầu vào là x và biến đầu ra là y;

 Xác định mối tương quan giữa hai biến đầu vào trong thuật toán, chẳng hạn để dự đoán điểm trung bình môn Hóa của học kỳ 1 lớp 11 dựa vào điểm trung bình môn Toán và điểm trung bình môn Lý cuối năm lớp 10, nếu điểm môn Toán và điểm môn Lý có mối tương quan lớn chẳng hạn lớn hơn 0.8 thì thay vì lấy điểm cả hai môn Toán và Lý thì chỉ cần lấy điểm môn Toán hoặc môn Lý thôi Hai biến đầu vào (biến độc lập) có mối tương quan lớn gọi là hiện tượng đa cộng tuyến.

Học máy

Học máy (Machine Learning) là một lĩnh vực của Khoa học máy tính, học máy giúp để tìm ra quy tắc hay mô hình đã tồn tại trong dữ liệu Dựa theo phương thức học được chia thành 4 nhóm:

 Học có giám sát (Supervised Learning)

 Học không giám sát (Unsupervised Learning )

 Học bán giám sát (Semi-Supervised Learning )

 Học tăng cường (Reinforcement Learning )

Học có giám sát là việc có input là một tập nguồn và một tập đích tương ứng (gọi là đã được gán nhãn) để làm cơ sở tìm ra output là hàm hay mô hình mong muốn Tập hợp kết hợp tập nguồn và tập đích gọi là tập huấn luyện (Training Set) Với hàm hay mô hình tìm được sẽ dự báo đầu ra cho dữ liệu mới

Học không giám sát được sử dụng khi không có tập đích mà chỉ có tập nguồn Thuật toán học không giám sát sẽ dựa vào đặc trưng dữ liệu của tập nguồn nhằm khám phá cấu trúc và mối quan hệ của dữ liệu để thực hiện một công việc nào đó

Học bán giám sát được sử dụng khi dữ liệu trong tập nguồn chỉ có một phần nhỏ được gán nhãn, còn phần lớn dữ liệu không được gắn nhãn Những bài toán thuộc nhóm này nằm giữa hai nhóm học có giám sát và học không giám sát

Học tăng cường là việc thực hiện hành động phù hợp để cực đại hóa phần thưởng trong một tình huống cụ thể Hiện tại, các thuật toán học tăng cường được áp dụng nhiều trong lý thuyết trò chơi.

Hồi quy tuyến tính

Hồi quy tuyến tính (Linear Regression) là một trong những thuật toán cơ bản nhất trong học máy và thuộc nhóm học có giám sát Hồi quy tuyến tính còn có những tên gọi khác, trong Toán học gọi là bình phương tối thiểu tuyến tính (Linear Least Square), trong Thống kê gọi là hiệu chỉnh tuyến tính (Linear Fitting) [11]

Giả sử học sinh P vừa học xong lớp 12, muốn dự báo điểm thi tốt nghiệp môn Anh cho học sinh P Trong thực tế để dự báo điểm môn Anh phụ thuộc vào nhiều yếu tố: điểm trung bình (ĐTB) môn Anh, các môn học khác của 6 học kỳ lớp 10, 11, 12 Để bài toán đơn giản, giả sử dự báo điểm môn Anh chỉ phụ thuộc vào kết quả học tập của môn Anh ở học kỳ 2 lớp 12 Giả sử có dữ liệu ĐTB môn Anh ở học kỳ 2 lớp 12 và điểm thi tốt nghiệp môn Anh của 𝑁 học sinh (giả sử 𝑁 = 20) được trình bày trong Bảng 2-3

Bảng 2-3 Điểm trung bình và điểm tốt nghiệp môn Anh

Mã học sinh Điểm trung bình môn Anh học kỳ 2 lớp 12 Điểm thi tốt nghiệp môn Anh

Kết quả môn Anh học kỳ 2 lớp 12 của học sinh P là 9.6, dự báo điểm thi tốt nghiệp của môn Anh của P là bao nhiêu?

Với bài toán này, có thể giải bằng phương pháp hồi quy tuyến tính Gọi 𝑥 là ĐTB môn Anh ở học kỳ 2 lớp 12, điểm thi tốt nghiệp dự báo là 𝑦 với 𝑦 𝑓(𝑥, 𝑤 , 𝑤 ) = 𝑤 + 𝑤 𝑥 Bài toán đưa về việc tìm bộ hệ số w 0 , w 1 để có 𝑦 gần đúng nhất Để tìm w 0 , w 1 dựa vào dữ liệu điểm đã biết của 𝑁 học sinh

Bài toán hồi quy tuyến tính gồm dữ liệu nhập và xuất như sau:

 Bảng gồm 𝑁 bộ giá trị ( X y i , ), i   i 1, N

 Hàm xấp xỉ có dạng y f X w w ( , , ) 0 1  w w X 0 1

Bài toán đưa về tìm hàm 𝑓 xấp xỉ tốt nhất các giá trị 𝑦, hay chính là tìm w 0 , w1 để hàm tổn thất L( , )w w 0 1  i N  1 [y i f X w w( , , )] i 0 1 2 đạt giá trị nhỏ nhất Với bài toán này, sử dụng phương pháp trong đại số tuyến tính để tìm lời giải chính xác

III.2.1 Dữ liệu quan sát chỉ một thành phần

Giả sử tập dữ liệu quan sát X [ ]x T là vector có 1 thành phần, hàm xấp xỉ cần tìm là f x w w( , , ) 0 1 w w x 0  1 ; và hàm tổn thất có dạng

L Bài toán sẽ là tìm w 0 , w 1 để L( , )w w 0 1 đạt giá trị nhỏ nhất

Bài toán đưa về giải hệ phương trình: 0

Viết lại dưới dạng ma trận:

Hệ phương trình viết lại thành: 0

Suy ra nghiệm cần tìm w 0 , w 1 là: 0 1

Vậy nghiệm cần tìm w 0 , w 1 là: 0 1

Ví dụ với bài toán có N = 20 ở trên

Vậy với kết quả môn Anh học kỳ 2 lớp 12 của P là 𝑥 = 9.6 thì dự báo điểm thi tốt nghiệp của môn Anh của P là y w w x 0  1 3.76785714 0.62202381 ×9.6  9.7 Dưới đây là chương trình viết bằng ngôn ngữ lập trình Python:

Ngoài ra có thể sử dụng thư viện trong Python, chẳng hạn như Scikit-learn Dưới đây là chương trình sử dụng hàm LinearRegression trong thư viện Scikit-learn:

III.2.2 Dữ liệu quan sát có nhiều thành phần

Trong thực tế, 𝑋 ở dạng vector có nhiều thành phần Giả sử 𝑋 là vector có 𝑀 thành phần, khi đó X [ , , ,x x 1 2 x M ] T , hàm xấp xỉ có dạng

Khi đó bảng dữ liệu ( , ),X y i i  i 1,N sẽ là (  x x 1 i , 2 i , , x Mi  T , ) y i và

Khi đó hàm tổn thất L (w) là:

Viết dưới dạng ma trận:

Bài toán đưa về việc tìm w để hàm tổn thất L (w) cực tiểu, nên:

Ví dụ: Giả sử với bài toán trên, để dự báo điểm tốt nghiệp môn Anh dựa vào ĐTB môn Anh của cả 6 học kỳ (HK) đã học (HK 1, 2 lớp 10; HK 1, 2 lớp 11; HK 1,2 lớp 12), khi đó Xlà vector có 6 thành phần Dữ liệu lưu trong tệp Anh_TN.csv Dưới đây là chương trình viết bằng Python:

Dưới đây là chương trình sử dụng hàm LinearRegression trong thư viện Scikit- learn:

Mạng thần kinh nhân tạo

IV.1 Giới thiệu mạng thần kinh nhân tạo

Mạng thần kinh nhân tạo (Artificial Neural Network - ANN) gọi tắt là mạng nơ- ron, bao gồm nhiều nơ-ron (neuron) được gắn kết với nhau Mạng nơ-ron hoạt động mô phỏng giống như bộ não con người [12] Tế bào thần kinh (nơ-ron) là đơn vị cơ bản cấu tạo lên hệ thống thần kinh và là một phần quan trọng nhất của của não Theo nghiên cứu của tiến sĩ Suzana Herculano – Houzel người Brazil, trung bình bộ não con người có khoảng 86 tỷ nơ-ron và mỗi nơ-ron liên kết với khoảng 1000 nơ-ron khác Mỗi nơ-ron hay một tri giác (perceptron) gồm ba phần chính: thân tế bào (soma), nhiều đuôi gai hay sợi nhánh (dendrite) và một sợi trục chính (axon) Các sợi nhánh nhận các xung tín hiệu từ những nơ-ron khác tại các khớp thần kinh để đưa vào thân tế bào xử lý Sau khi thân tế bào xử lý xong thì sợi trục lấy tín hiệu xử lý từ thân tế bào để gửi đến các khớp thần kinh của tế bào thần kinh khác Mỗi nơ-ron trong mạng thần kinh hoạt động như một bộ xử lý đơn lẻ, còn mạng thần kinh hoạt động như một hệ thống xử lý song song mà có sự quản lý chặt chẽ các tín hiệu đầu vào cũng như đầu ra Hình 2-1 là hình ảnh trừu tượng của một tế bào thần kinh sinh học

Hình 2-1 Hình ảnh trừu tượng một tế bào thần kinh sinh học ( [12])

Trong mạng nơ-ron, mỗi nơ-ron bao gồm một hoặc nhiều dendrite như là input, một soma là bộ xử lý và một axon đóng vai trò là output Mô hình hệ thần kinh trong sinh học và hệ thần kinh nhân tạo được trừu tượng hóa như Hình 2-2 và Hình 2-3

Hình 2-2 Mô hình hệ thần kinh trong sinh học( [12])

Hình 2-3 Mô hình hệ thần kinh nhân tạo ( [12])

Mỗi nơ-ron trong mạng nơ-ron có một hàm kích hoạt (activation functions) để tạo giá trị đầu ra Trong quá trình hoạt động của mạng nơ-ron, khi một tín hiệu đến, giá trị của tín hiệu này được nhân với trọng số tương ứng cho mỗi đầu vào Khi đó đầu vào của một nơ-ron có giá trị mới trước khi đưa vào xử lý Hoạt động của một nơ-ron được mô phỏng như Hình 2-4

Hình 2-4 Mô phỏng hoạt động của một nơ-ron ( [12]) IV.2 Hàm kích hoạt

Hàm kích hoạt có vai trò rất quan trọng trong mạng nơ-ron [13] Tùy vào từng bài toán mà chọn hàm kích hoạt phù hợp Dưới đây là những hàm kích hoạt thường dùng:

 Hàm Sigmoid có đặc điểm: biến đại lượng biến thiên từ ( , ) vào khoảng (0,1); đồng thời có thể biểu diễn đạo hàm của nó qua chính nó '( ) x ( )[1x ( )]x

 Đồ thị của hàm Sigmoid

Hình 2-5 Đồ thị hàm Sigmoid

 Công thức hàm Tanh: tanh( ) x x x x e e x e e

 Hàm Tanh có đặc điểm: biến đại lượng biến thiên từ ( , ) vào khoảng (-1,1); hàm Tanh có thể biểu diễn bằng hàm Sigmoid như sau: tanh( ) 2 (2 ) 1x   x  ; đạo hàm của hàm Tanh có công thức sau: tanh'( ) 1 tanh ( )x   2 x

 Đồ thị của hàm Tanh

Hình 2-6 Đồ thị của hàm Tanh

3 Hàm ReLU (Rectified Linear Unit)

 Công thức hàm ReLU: ReLU( ) max(0, ) x  x Đạo hàm của hàm ReLU có công thức như sau: ReLU (𝑥) = 1, 𝑛ế𝑢 𝑥 > 0

Hình 2-7 Đồ thị hàm ReLU

 Công thức hàm LeakyReLU: LeakyReLU(𝑥) = 𝑥, 𝑛ế𝑢 𝑥 > 0

𝛼𝑥, 𝑛ế𝑢 𝑥 ≤ 0 Đạo hàm của hàm LeakyReLU có công thức như sau:

Hình 2-8 Đồ thị hàm LeakReLU với α =0.1 Các hàm kích hoạt ra đời sau này, cải tiến những nhược điểm của các hàm trước Việc lựa chọn hàm kích hoạt nào là tùy bài toán Việc chuyển hóa dữ liệu đóng vai trò quan trọng, liên quan tới hàm kích hoạt Chẳng hạn, với hàm Sigmoid và hàm Tanh khi |x| lớn thì các giá trị gần giống nhau Vì vậy khi đầu vào của mạng có giá trị tuyệt đối lớn thì cần chuẩn hóa nó về khoảng có giá trị nhỏ, nếu không thì các nơ- ron tại các lớp ẩn ngay ban đầu đã có thể đạt giá trị bão hòa, từ đó việc huấn luyện không có kết quả tốt

IV.3 Kiến trúc của mạng thần kinh nhân tạo

Mạng nơ-ron là tập hợp các nơ-ron liên kết với nhau thông qua nhiều tầng (layer), mà mỗi tầng có nhiều nơ-ron [13] Kiến trúc tổng quát của mạng nơ-ron gồm có 3 tầng:

 Tầng đầu vào – Tầng Input (Input layer)

 Tầng ẩn – Tầng Hidden (Hidden layer)

 Tầng đầu ra – Tầng Output (Output layer)

Tầng đầu vào: số nơ-ron ở tầng đầu vào căn cứ vào số thuộc tính cần xử lý của tập dữ liệu

Tầng ẩn: có thể có nhiều tầng ẩn, mỗi tầng ẩn có thể có nhiều nơ-ron Số nơ- ron ở tầng ẩn là tùy ý theo người thiết kế mạng nơ-ron Việc chọn có bao nhiêu tầng ẩn và bao nhiêu nơ-ron trong tầng ẩn là một bài toán rất khó

Tầng đầu ra: số nơ-ron ở tầng đầu ra được quyết định dựa vào số lớp cần phân loại đối với bài toán phân lớp, chẳng hạn với bài toán nhận dạng chữ số thì số nơ-ron ở tầng đầu ra là 10; đối với bài toán hồi quy thì chỉ có 1 nơ-ron, chẳng hạn như bài toán dự đoán giá nhà đất, dự đoán điểm một môn học ở học kỳ kế tiếp của học sinh Khi cần có thêm độ lệch ở tầng input và tầng hidden, bổ sung thêm thuộc tính có giá trị là 1

Hình 2-9 Kiến trúc mạng nơ-ron (Tầng input: n nơ-ron; Tầng hidden: 3 tầng h1, h2, h3; Tầng output: m nơ-ron)

Các nơ-ron liên kết với nhau bằng các trọng số liên kết, nên có các ma trận trọng số từ tầng input đến tầng output Mỗi nơ-ron ở tầng hidden và tầng output có một hàm kích hoạt, mỗi nơ-ron có thể có một hàm kích hoạt khác nhau, nhưng để thuận tiện cho công việc tính toán thì mỗi tầng có thể cùng một hàm kích hoạt và thậm chí các tầng cũng dùng cùng một hàm kích hoạt như nhau

IV.4 Học có giám sát trong các mạng thần kinh nhân tạo

Với tập huấn luyện D X Y  ( , ) là một bảng gồm 𝑁 bộ dữ liệu ( X y i , ), i   i 1, N , trong đó X i ( , , , )x x i 1 i 2 x in là một vector có 𝑛 thành phần (hay 𝑋 có 𝑛 thuộc tính),

𝑦 là nhãn [13] Học có giám sát trong mạng ANN thực chất là một quá trình hiệu chỉnh các trọng số liên kết giữa các nơ-ron thông qua việc học từ các tập dữ liệu huấn luyện Điển hình cho kỹ thuật này là mạng nơ-ron lan truyền ngược (back propagation)

Huấn luyện mạng nơ-ron là quá trình lặp đi lặp lại các bước sau:

 Lan truyền xuôi (feed forward propagation): Từ dữ liệu của tầng input rồi tính toán qua các tầng ẩn để xác định giá trị đầu ra (giá trị dự đoán)

 Lan truyền ngược (back propagation): Cập nhật lại trọng số của các tầng từ tầng output đến tầng input sao cho giá trị dự đoán gần với giá trị thực nhất

IV.4.1 Ví dụ với mạng nơ-ron 2 lớp Để đơn giản trong việc tính toán, xây dựng mạng nơ-ron 2 lớp ký hiệu là ANN-

2 (mạng nơ-ron có 1 tầng đầu vào, 1 tầng ẩn, 1 tầng đầu ra) Hình 2-10 là kiến trúc ANN-2

Hình 2-10 Kiến trúc ANN-2Mạng ANN-2 ví dụ có:

 Tầng hidden: 1 tầng ẩn có 4 nơ-ron

 Trọng số giữa tầng input và tầng hidden là ma trận 𝑊 ( ) có kích thước 3×4

 Trọng số giữa tầng hidden và tầng output là ma trận có 𝑊 ( ) có kích thước 4×2

 Hàm kích hoạt cho tầng hidden là  (1) , hàm kích hoạt cho tầng output là

Tập huấn luyện là (𝑋, 𝑌) với 𝑋 là tập dữ liệu (Dataset) có 𝑁 điểm dữ liệu (datapoint) với 3 thuộc tính, 𝑋 có kích thước 𝑁×3, 𝑌 là giá trị thực tế (nhãn) có kích thước 𝑁×2 Đối với mạng nơ-ron có độ lệch (bias), bổ sung thêm ở tầng input và hidden một nơ-ron có giá trị bằng 1

Ma trận trọng số 𝑊 ( ) để chuyển tín hiệu từ tầng input đến tầng hidden như sau:

Ma trận trọng số 𝑊 ( ) chuyển tín hiệu từ tầng hidden đến tầng output như sau:

Ma trận dữ liệu 𝑋 và 𝑌 như sau:

Với mỗi điểm dữ liệu 𝑥 trong tầng input, thì giá trị đầu vào của nơ-ron thứ 𝑗 của tầng hidden là fijw x w x1 (1) j i 1 2 (1) j i 2w x3 (1) j i 3 , j  1,4; i  1, N, khi đó đầu ra của tầng input cũng là đầu vào của tầng hidden là

Học phối hợp (Ensemble Learning)

Trong lĩnh vực học máy, mục đích chính của mô hình là học từ dữ liệu đã cho và tạo ra dự báo dựa trên mẫu được quan sát trong quá trình học Giả sử tập dữ liệu huấn luyện (𝑋, 𝑌) với 𝑋 là ma trận các biến đầu vào, 𝑌 là ma trận giá trị thực, hàm 𝑓 là một ánh xạ giữa hai biến 𝑥, 𝑦 và 𝑦 = 𝑓(𝑥) + 𝜀, 𝜀 là một sai số luôn tồn tại hay còn gọi là sai số nhiễu (noise) Mục đích của mô hình f xˆ( ) là dự đoán các giá trị càng gần với giá trị thực càng tốt Sự khác biệt giữa giá trị thực và giá trị dự đoán gọi là lỗi và nó được sử dụng để đánh giá mô hình, giả sử hàm lỗi là L(Yf Xˆ( )) 2 Kỳ vọng lỗi hay chính là giá trị trung bình của lỗi của mô hình như sau:

EL E Y f X  E f X  f X E f X E f X e (2.17) Hay E[ ]L E Y[( f Xˆ( )) ] 2 Bias 2 Variance Noise

 Ký hiệu E Z [ ] là kỳ vọng hay giá trị trung bình của biến Z

Lỗi với mọi thuật toán học có giám sát trong học máy gồm 3 phần: độ lệch (bias), phương sai (variance), nhiễu (noise); trong đó nhiễu là lỗi không thể thay đổi còn độ lệch và phương sai có thể thay đổi và các mô hình cố gắng giảm đến mức có thể Độ lệch là sự sai khác giữa giá trị dự đoán và giá trị thực của mô hình, và được tính theo công thức Bias f X[ ( )]ˆ E f X[ ( )ˆ  f X( )] Khi mô hình có độ lệch cao có nghĩa là mô hình quá đơn giản không bao quát được dữ liệu học làm cho sai số trên tập huấn luyện và tập kiểm định đều cao, và trong trường hợp này gọi là học chưa tới (underfitting learning) Phương sai là đo độ phân tán của các giá trị dự đoán của mô hình Phương sai thấp có nghĩa là tất cả các giá trị dự đoán nằm trong một nhóm gần và rất gần nhau; phương sai cao thì các giá trị dự đoán đều cách xa nhau Phương sai mô hình được tính theo công thứcVariance f X[ ( )]ˆ E f X[( ( ) E[ ( )]) ]ˆ  f Xˆ 2 Mô hình có phương sai cao là mô hình học quá nhiều từ dữ liệu huấn luyện kể cả học những thành phần nhiễu trong dữ liệu huấn luyện, dẫn tới dự đoán chính xác với mọi điểm trên tập huấn luyện nhưng lại dự đoán không chính xác với tập kiểm định, trong trường hợp này gọi là học dư thừa (overfitting learning)

Công thức (2.17) cho thấy lỗi của mô hình chỉ phụ thuộc phần lớn vào độ lệch và phương sai (vì độ nhiễu là cố định và có độ lớn không đáng kể), và đối với mô hình có cùng độ lỗi (cùng sai số) nếu muốn giảm độ lỗi thì cần phải tăng phương sai, ngược lại muốn giảm phương sai thì phải tăng độ lỗi và đây chính là sự đánh đổi giữa độ lệch và phương sai (Bias Variance Trade-off) Một mô hình có độ lệch cao tức mô hình đó bị underfitting hoặc phương sai cao tức mô hình bị overfitting là những mô hình không thể áp dụng được trong thực tế và gọi chúng là mô hình xấu hay mô hình yếu Để cải thiện những mô hình này cần phải giảm độ lệch đối với mô hình có độ lệch cao, giảm phương sai đối với mô hình có phương sai cao; đặc biệt đối với những mô hình đơn lẻ (chỉ sử dụng một mô hình để học dữ liệu) để làm được điều này thì phải chấp nhận việc đánh đổi giữa độ lệch và phương sai Một mô hình tốt (mô hình mạnh) là mô hình có độ lệch và phương sai thấp tức là mô hình có độ lệch giữa giá trị dự đoán và giá trị thực thấp và đồng đều trên cả tập dữ liệu huấn luyện và dữ liệu kiểm định Việc tìm ra mô hình tốt trong lĩnh vực học máy là một yêu cầu cần thiết, vì vậy việc tìm ra mô hình tốt có thể cần phối hợp các mô hình xấu (hay là mô hình yếu) lại với nhau Còn khi sử dụng học sâu (Deep Learning) thì việc chọn mô hình tốt chỉ việc chọn (hay hiệu chỉnh) cấu trúc của ANN với các tầng phù hợp, cũng như các tham số tính toán, các hàm lượng giá (mất mát) tốt nhất có thể

Học phối hợp là một phương pháp kết hợp các mô hình yếu theo một cách nào đó thành một mô hình mạnh, chẳng hạn các mô hình có độ lệch thấp nhưng phương sai cao thì kết hợp các mô hình này thành mô hình mạnh có xu hướng giảm phương sai, ngược lại mô hình có phương sai thấp nhưng độ lệch cao thì mô hình kết hợp phải có xu hướng giảm độ lệch Có 3 phương pháp học phối hợp phổ biến hiện nay: Bagging, Boosting, Stacking Phương pháp Bagging với mục đích là giảm phương sai, còn Boosting và Stacking với mục đích chính là giảm độ lệch và đồng thời cũng giảm cả phương sai

Phương pháp Bagging là cách xây dựng một mô hình từ việc kết hợp nhiều mô hình đơn yếu hay gọi là mô hình cơ sở (model bases) thường là cùng loại trên những mẫu dữ liệu con (subsamples) được tạo ra từ tập dữ liệu ban đầu (training dataset) bởi kỹ thuật Bootstrap Kỹ thuật Bootstrap là một kỹ thuật thống kê, từ một bộ dữ liệu sinh ra nhiều bộ dữ liệu mới bằng cách lấy ngẫu nhiên các điểm dữ liệu từ bộ dữ liệu ban đầu và các điểm dữ liệu này có thể lặp lại Những mô hình cơ sở này học độc lập và song song với nhau Với một bộ dữ liệu mới qua các mô hình cơ sở cho ra những dự đoán và kết quả cuối cùng sẽ được lấy trung bình cộng (hồi quy) hoặc bình chọn theo số đông (phân loại) Hình 2-12 mô tả hoạt động của phương pháp Bagging

Hình 2-12 Mô tả hoạt động của Bagging

Thông thường mô hình cơ sở là cây quyết định và điển hình cho phương pháp Bagging là phương pháp Rừng ngẫu nhiên (Random Forest)

Tuy nhiên phương pháp Bagging có một số nhược điểm là các mô hình cơ sở đều học một cách riêng rẽ, không liên quan hay ảnh hưởng gì đến nhau; điều này trong một số trường hợp có thể dẫn đến kết quả không tốt khi các mô hình có thể học cùng ra một kết quả; không thể kiểm soát được hướng phát triển của các mô hình cơ sở Phương pháp Boosting ra đời đã khắc phục một số nhược điểm của Bagging

Phương pháp Boosting kết hợp các mô hình yếu tạo thành một chuỗi, mô hình sau học cách sửa lỗi của mô hình trước với mục đích để tạo ra một mô hình có độ lệch nhỏ Giả sử mô hình kết hợp từ n mô hình yếu, mô hình cuối cùng là ( )F X n là kết quả của chuỗi mô hình yếu như sau 1

    với ˆ ( ) i f X là mô hình yếu thứ i, X là ma trận biến đầu vào, Y là ma trận giá trị thực và với mục tiêu là cực tiểu hàm tổn thất L( , ( ))Y F X n hay chính là tìm

L ;  i gọi là trọng số của mô hình yếu ˆ ( )f X i và  i sẽ được tính khi thêm mô hình ˆ ( )f X i vào chuỗi và nó là nghiệm của bài toán tối ưu ˆ 1

 L   Tùy theo cách tính các trọng số  i và ˆ ( )f X i mà hình thành nên hai phương pháp Boosting là Adaptive Boosting (gọi tắt là AdaBoost) và Gradient Boosting Phương pháp AdaBoosting sử dụng cho bài toán phân loại AdaBoost đánh trọng số cho các điểm dữ liệu trên tập huấn luyện, tại mỗi bước xây dựng mô hình, mô hình mới ( ˆ ( )f X i ) học trên việc đánh lại trọng số cho các điểm dữ liệu hiện tại nhằm giúp các mô hình mới có thể tập trung vào những điểm dữ liệu bị sai; trọng số của điểm dữ liệu hiện tại được gán lại, các điểm dữ liệu phân loại sai trọng số được tăng lên, các điểm dữ liệu phân loại đúng thì trọng số giảm đi; ban đầu tất cả các trọng số của các điểm dữ liệu bằng nhau Phương pháp Gradient Boosting sử dụng được cho cả bài toán hồi quy và bài toán phân loại, là một phương pháp trong Boosting sử dụng phổ biến hiện nay Gradient Boosting không đánh trọng số lại cho các điểm dữ liệu mà xây dựng các mô hình mới dựa trên tư tưởng của thuật toán Gradient descent

Phương pháp Gradient Boosting là xây dựng các mô hình yếu một cách lần lượt và các mô hình sau được xây dựng dựa trên lỗi hay còn gọi là phần dư (pseudo- residuals) của mô hình trước với mục đích là giảm độ lệch Kết quả thu được là một chuỗi các mô hình [14]

Với tập dữ liệu ( , )X Y ( , ) ,x y i i  i1,N với X là mẫu dữ liệu và Y là giá trị thực tương ứng với X, N là số mẫu dữ liệu Mục tiêu là tìm hàm ước lượng (xấp xỉ) 𝑓(𝑋) để 𝑌 = 𝐹(𝑋) xấp xỉ tốt nhất trên Y Gọi 𝐋(𝑌, 𝑌) là hàm tổn thất trên tập dữ liệu Mục tiêu là tối thiểu hàm tổn thất, nghĩa là tính đạo hàm của L theo 𝐹(𝑋) và tìm 𝐹(𝑋) theo tư tưởng của thuật toán Gradient descent Thuật toán Gradient Boosting do Frideman đề xuất để tìm hàm F X ( ) được mô tả như sau:

Tập dữ liệu ( , )X Y  ( , ) ,x yi i  i1,N; hàm tổn thất L ( , ( )) Y F X ; M (số lần lặp hay chính là một số lượng mô hình trong chuỗi mô hình)

Khởi tạo mô hình là một hằng số: F X 0 ( ) arg min ( , ) Y

Tính phần dư (pseudo-residuals): 1

Tính mô hình cơ sở ( )h X m mà dữ liệu học là ( , )X r m Tính m arg min ( , Y F m 1 ( ) X h X m ( ))

Cập nhật lại mô hình: F X m ( )F m  1 ( )X  m m h X( ) EndFor

End Đối với phương pháp Gradient Boosting sẽ làm giảm đáng kể lỗi trên tập huấn luyện, nhưng chi phí về mặt thời gian sẽ cao nếu như chọn M lớn Trong thực tế, mô hình cơ sở thường là cây quyết định, vì cây quyết định cho chi phí xây dựng thấp, dễ biểu đạt, xử lý tốt một lượng dữ liệu lớn trong khoảng thời gian ngắn và hơn nữa giúp cho việc cải thiện lỗi nhanh nhất Thuật toán Gradient Boosting sử dụng cho cả hồi quy (regression) và cả phân loại (classification) Đối với phương pháp Gradient Boosting cho hồi quy, mô hình cơ sở là cây hồi quy thì hàm tổn thất thường dùng là

L L , khi đó phần dư (pseudo-residuals)

Hình 2-13 mô tả sơ đồ hoạt động của Gradient Boosting cho hồi quy với mô hình cơ sở là cây hồi quy Trong đó y 1 là hằng số khởi tạo, r i i ,  1, M là phần dư, mô hình thứ 𝑖 + 1 tiếp theo trong chuỗi mô hình được xây dựng dựa trên phần dư của mô hình trước, nghĩa là tập huấn luyện của mô hình thứ 𝑖 + 1 là ( , ), X r i   i 1, M  1

Hình 2-13 Mô hình Gradient Boosting cho hồi quy

Như vậy kết quả thu được là một model “mạnh” gồm M mô hình (cây), mô hình sau học trên phần dư của mô hình trước Với một điểm dữ liệu cần dự báo 𝑥 thì giá trị dự báo là y ( pred ) và y pred  y 1  1 1 r 2 2 r    M M r với  i , i  1, M được tính như thuật toán đã trình bày Với mô hình cơ sở là cây quyết định, Friedman đã đề xuất một sửa đổi với thuật toán Gradient Boosting nhằm cải thiện phù hợp với từng mô hình cơ sở Thay vì mỗi mô hình 𝑇𝑟𝑒𝑒 (cây) nhân với hệ số 𝛾 (tức là tất cả các nút lá đều nhân với 𝛾) thì mỗi nút lá của cây sẽ nhân với một hệ số phù hợp (𝛾 𝑅 , 𝑗 1, 𝐽 với 𝐽 là số lượng nút lá, 𝑅 là giá trị nút lá trên cây 𝑇𝑟𝑒𝑒) Thuật toán Gradient Boosting cho hồi quy với mô hình cơ sở là cây hồi quy, Fridman đề xuất được mô tả như sau:

Khởi tạo mô hình là một hằng số: F X 0 ( )median y{ } i 1 N (là giá trị trung bình của các ,y i i 1,N)

Tính phần dư (pseudo-resideuals):y i  y i F m  1 ( ),x i i 1,N Tính mô hình cơ sở Tree m với tập dữ liệu học là {( , )}x y i  i 1 N :

Tree    X R với j là số nút lá, R jm là phân vùng nút lá thứ j trên cây

Tính các trọng số:  jm  median x R i  jm { y i  F m  1 ( )}, x i j  1, J Cập nhật lại mô hình: F X m ( )F m  1 ( )X Tree m

Trong các bài toán dự báo, việc học quá dư thừa (overfitting) hay học chưa tới (underfitting) với dữ liệu đào tạo làm giảm khả năng khái quát của mô hình Đối với Gradient Boosting thì việc tăngM tức là tăng số mô hình cơ sở làm giảm lỗi trên tập huấn luyện nhưng nếu tăng quá cao sẽ dẫn đến việc overfitting Đối với mô hình cơ sở là cây quyết định thì độ sâu của cây cũng là một tham số cần lưu ý, nếu cây quá sâu cũng dẫn tới trường hợp overfitting Đối với Gradient Boosting, tham số quan trọng để ngăn chặn việc overfititng gọi là hệ số co (Shrinkage), mô hình cập nhật trong thuật toán trên được sửa đổi như sau: F X m ( )F m  1 ( )X  m m h X( ), 0   1 ,

 gọi là “hệ số học” Đối với mô hình cho cây hồi quy được sửa đổi như sau:

HỆ THỐNG DỰ BÁO KẾT QUẢ HỌC TẬP

Giới thiệu

Từ trước năm 2022 học sinh THPT học 13 môn Trong đó 12 môn: Toán, Lý, Văn, Hóa, Sinh, Tin, Sử, Địa, Ngoại ngữ (Anh, Pháp, …), GDCD, Công nghệ, GDQP là đánh giá bằng điểm số với thang điểm 10; môn Thể dục đánh giá bằng nhận xét Học sinh THPT học 6 học kỳ (2 HK lớp 10, 2 HK lớp 11, 2 HK lớp 12) Nếu coi kỳ thi THPT QG vừa để xét tốt nghiệp vừa để các trường đại học cao đẳng tuyển sinh là học kỳ 7 thì với mỗi môn học có 6 học kỳ cần dự báo như sau: học kỳ 2 (HK2 lớp 10), học kỳ 3 (HK1 lớp 11), học kỳ 4 (HK2 lớp 11), học kỳ 5 (HK1 lớp 12), học kỳ

6 (HK2 lớp 12), học kỳ 7 (kỳ thi THPT QG)

Học sinh trường chuyên cũng học tất cả các môn như học sinh THPT trên toàn quốc, nhưng khác là với môn chuyên cho lớp chuyên thì học sách riêng Đối với tỉnh

Bà Rịa – Vũng Tàu có chế độ khuyến khích học sinh tài năng, môn chuyên là môn điều kiện để xét học bổng vì vậy yêu cầu của môn học cũng cao hơn nên học sinh phải dành nhiều thời gian học cho bộ môn mình yêu thích Các môn còn lại (không phải môn chuyên), học sinh sử dụng sách giáo khoa do Bộ Giáo dục và Đào tạo (Bộ) quy định như các trường THPT Ví dụ lớp chuyên Anh học môn Anh bằng các sách tiếng anh nâng cao, còn những môn học còn lại học theo sách giáo khoa mà Bộ quy định Vì vậy với bài toán dự báo kết quả học tập cho học sinh trường chuyên sẽ chia ra thành hai trường hợp: dự báo môn chuyên của lớp chuyên và dự báo môn không chuyên của lớp chuyên

Bài toán dự báo (Forecast problem) kết quả học tập cho học sinh THPT mà luận văn xây dựng là dự báo điểm của các môn học của học kỳ kế tiếp chỉ dựa vào điểm trung bình các môn học mà học sinh đã học ở các học kỳ trước và số môn dự báo là

7 môn chuyên: Toán, Lý, Hóa, Sinh, Anh, Văn, Tin tương ứng với 7 lớp chuyên của trường THPT chuyên Lê Quý Đôn Và dự báo kết quả thi THPT QG chỉ làm cho 6 môn là Toán, Lý, Hóa, Sinh, Anh, Văn

Bài toán dự báo kết quả học tập được tổng quát hóa qua 2 giai đoạn, đó là giai đoạn huấn luyện và giai đoạn dự báo Trong giai đoạn huấn luyện nhằm mục đích tạo ra mô hình dự đoán (predict model) để dùng cho giai đoạn dự báo

Bài toán dự báo cho mỗi môn học chia làm hai trường hợp: dự báo môn chuyên của lớp chuyên và dự báo môn không chuyên của lớp chuyên Có 6 học kỳ (học kỳ

2, 3, 4, 5, 6, 7) dự báo cho mỗi môn dự báo

Ví dụ dự báo điểm cho môn Anh, chia làm hai trường hợp: trường hợp thứ nhất là dự báo môn Anh cho lớp chuyên Anh; trường hợp thứ hai là dự báo môn Anh cho các lớp không chuyên Anh là các lớp chuyên Toán, Lý, Hóa, Sinh, Văn, Tin Với mỗi trường hợp, để dự báo điểm cho môn Anh thì chỉ cần căn cứ vào kết quả của học kỳ trước hay phải căn cứ vào kết quả học của tất cả các học kỳ trước; và chỉ cần điểm môn Anh để dự báo điểm môn Anh hay cần căn cứ vào tất cả các môn học hay chỉ cần căn cứ vào một số môn học có tác động đến môn Anh Vì vậy bài toán dự báo điểm môn Anh (cũng tương tự cho các môn Toán, Lý, Hóa, Sinh, Văn) là được chia thành các trường hợp sau:

1) Chỉ dùng điểm của học kỳ trước đó

 Điểm của 6 môn tác động: Toán, Lý, Văn, Hóa, Sinh, Anh

 Điểm của 12 môn học (tất cả các môn)

2) Dùng điểm của tất cả các học kỳ trước đó

 Điểm của 6 môn tác động: Toán, Lý, Văn, Hóa, Sinh, Anh

 Điểm của 12 môn học (tất cả các môn)

Với môn Tin, 6 môn tác động là Toán, Lý, Văn, Hóa, Tin, Anh

Bài toán dự báo tổng quát được chia làm hai trường hợp và dữ liệu nhập xuất như sau:

(1) Trường hợp thứ nhất: Chỉ dùng điểm của học kỳ trước đó

 Tập huấn luyện 𝑃 = {𝑝 , 𝑝 , … , 𝑝 } với 𝑝 = {𝑥 ( ) , 𝑥 ( ) , … , 𝑥 ( ) } là vector gồm 𝑚 đặc trưng, đó chính là điểm trung bình học kì m môn học của học kì trước của học sinh thứ k; 𝑚 (𝑚 = 1, 6, 12) là số lượng môn học; 𝑁 là tổng số học sinh có trong tập huấn luyện

 Mô hình 𝑓(𝑤 , 𝑤 , 𝑤 , … , 𝑤 , 𝑝), với giá trị f() là điểm dự đoán của một môn học thuộc tập các môn học {Toán, Anh, Lý, Hóa, Sinh, Văn, Tin}; các giá trị 𝑤 , 𝑤 , 𝑤 , … , 𝑤 là các trọng số được xác định qua quá trình huấn luyện

(2) Trường hợp thứ hai: Dùng điểm của tất cả học kỳ trước đó

 Tập huấn luyện 𝑃 = {𝑝 , 𝑝 , … , 𝑝 } với 𝑝 {𝑥 ( ) , 𝑥 ( ) , … , 𝑥 ( ) , … , 𝑥 ( ) , 𝑥 ( ) , … , 𝑥 ( ) } là vector gồm 𝑛 × 𝑚 đặc trưng Trong đó 𝑥 (1 ≤ 𝑖 ≤ 𝑛; 1 ≤ 𝑗 ≤ 𝑚) là điểm trung bình học kì của môn học ở học kỳ thứ 𝑖, môn thứ 𝑗 của một học sinh thứ k đã học; 𝑛 (1 ≤ 𝑛 ≤ 6) là số học kỳ đã học; 𝑚 (𝑚 = 1, 6, 12) là số lượng môn học; 𝑁 là tổng số lượng học sinh có trong tập huấn luyện

 Mô hình 𝑓(𝑤 , 𝑤 , 𝑤 , … , 𝑤 × , 𝑝), với giá trị f() là điểm dự đoán của một môn học thuộc tập các môn học {Toán, Anh, Lý, Hóa, Sinh, Văn, Tin}; các giá trị 𝑤 , 𝑤 , 𝑤 , … , 𝑤 × là các trọng số được xác định qua quá trình huấn luyện

Bài toán đặt ra là dự báo điểm một môn học cho học sinh gồm dữ liệu nhập và xuất như sau:

 Điểm một hoặc nhiều môn học của các học kỳ trước của một học sinh Xuất

 Điểm môn học cần dự báo căn cứ vào mô hình có trong giai đoạn huấn luyện

I.3 Sơ đồ của hệ thống Để giải quyết vấn đề đặt ra như trong phần giới thiệu, hệ thống dự báo cần có 3 khối với sự tương tác giữa các khối như Hình 3-1, đó là:

 Khối tiền xử lý dữ liệu

 Khối huấn luyện và kiểm định

 Khối dự báo kết quả học tập

Hình 3-1 Sơ đồ hệ thống

Phương pháp thực hiện

Trong 3 khối, phương pháp thực hiện chủ yếu để giải quyết những vấn đề đặt ra cho Khối huấn luyện và kiểm định, nhằm giải quyết bài toán huấn luyện đặt ra trong Mục I.1 Luận văn sử dụng các hàm trong thư viện Scikit-learn (https://scikit- learn.org/stable/) để xây dựng mô hình dự báo bằng các phương pháp như hồi quy tuyến tính, mạng nơ-ron, học phối hợp với Gradient Boosting Tập dữ liệu cũng được tách thành 2 phần, với 75% dữ liệu cho tập huấn luyện (training) và 25% dữ liệu cho tập kiểm định (validation) Đối với những tập dữ liệu lớn (dữ liệu dùng để xây dựng mô hình dự báo điểm môn không chuyên của lớp chuyên) được tách thành 3 phần: 75% cho tập huấn luyện và kiểm định, 25% cho tập kiểm tra (test); sử dụng kỹ thuật xác thực chéo 5-Fold để bước đầu đánh giá mô hình Độ đo R-squared dùng để đánh giá hiệu suất của mô hình

Tập dữ liệu huấn luyện, kiểm định và kiểm tra cho mô hình dự báo điểm học kỳ

𝑖 + 1 (𝑖 = 1, … ,6; với 𝑖 = 6 là học sinh học xong lớp 12) của các môn như sau:

 Môn chuyên của lớp chuyên Z là DataZ1.csv

 Các môn không chuyên Q của lớp chuyên Z là DataQ2.csv

 Môn chuyên của lớp chuyên Z là môn thi tốt nghiệp THPT QG là DataZ_TN.csv

 Các môn không chuyên của lớp chuyên Z thi tốt nghiệp THPT QG là DataDuLieu_TN.csv

Chẳng hạn tập dữ liệu cho mô hình dự báo điểm học kỳ kế tiếp môn Anh của lớp chuyên Anh là DataAnh1.csv; môn không chuyên của lớp Anh gồm: Toán, Lý, Hóa, Văn, Sinh, Tin lần lượt là DataToan2.csv, DataLy2.csv, DataHoa2.csv, DataVan2.csv, DataSinh2.csv, DataTin2.csv; môn Anh thi tốt nghiệp THPT QG là DataAnh_TN.csv; môn không chuyên, chẳng hạn như Toán của lớp chuyên Anh là môn thi tốt nghiêp THPT QG là DataDuLieu_TN.csv

Tên các thuộc tính đầu vào dùng cho việc huấn luyện và kiểm thử mô hình dự báo điểm của môn học lớp chuyên 𝑍, học kỳ 𝑖 + 1 (𝑖 = 1, … ,6) như sau:

(1) Trường hợp chỉ sử dụng điểm các môn học của học kỳ trước đó (học kỳ 𝑖) với:

 𝑋1: có 1 thuộc tính, là điểm trung bình của môn 𝑍 ở học kỳ 𝑖 là Zi, chẳng hạn môn Anh có tên là Anh2 khi 𝑖 = 2;

 𝑋2: có 6 thuộc tính, là điểm trung bình của 6 môn Toán, Lý, Văn, Hóa, Sinh, Anh ở học kỳ 𝑖 có tên lần lượt là Toani, Lyi, Vani, Hoai, Sinhi, Anhi, chẳng hạn khi 𝑖 = 2 là Toan2, Ly2, Van2, Hoa2, Sinh2, Anh2 Đối với môn Tin, 6 môn là Toán, Lý, Văn, Hóa, Tin, Anh;

 𝑋3: có 12 thuộc tính là điểm trung bình của 12 môn Toán, Lý, Văn, Hóa, Sinh, Tin, Sử, Địa, Anh, GDCD, Công nghệ, GDQP ở học kỳ 𝑖 lần lượt là

Toani, Lyi, Vani, Hoai, Sinhi, Tini, Sui, Diai, Anhi , GDCDi, C.nghei, GDQPi

(2) Trường hợp sử dụng điểm các môn học của tất cả các học kỳ trước đó (HK thứ 1, …, HK thứ 𝑖) với:

 𝑋4: có 𝑖 thuộc tính, là điểm trung bình của môn Z ở học kỳ các học kỳ 1,

…, học kỳ 𝑖 có tên lần lượt là Z1, …, Zi, chẳng hạn môn Anh là Anh1, Anh2 khi 𝑖 = 2;

 𝑋5: có 𝑖 × 6 thuộc tính là điểm trung bình của 6 môn Toán, Lý, Văn, Hóa, Sinh, Anh ở tất cả các học kỳ 1, …, học kỳ 𝑖 lần lượt có tên là Toan1, Ly1, Van1, Hoa1, Sinh1, Anh1, …, Toani, Lyi, Vani, Hoai, Sinhi, Anhi chẳng hạn khi 𝑖 = 2 là Toan1, Ly1, Van1, Hoa1, Sinh1, Anh1, Toan2, Ly2, Van2, Hoa2, Sinh2, Anh2 Đối với môn Tin, 6 môn là Toán, Lý, Văn, Hóa, Tin, Anh;

 𝑋6: có 𝑖 × 12 thuộc tính là điểm trung bình của 12 môn Toán, Lý, Văn, Hóa, Sinh, Tin, Sử, Địa, Anh, GDCD, Công nghệ, GDQP ở tất cả các học kỳ 1, …, học kỳ 𝑖 lần lượt có tên là Toan1, Ly1, Van1, Hoa1, Sinh1, Tin1, Su1, Dia1, Anh1, GDCD1, C.nghe1, GDQP1, …, Toani, Lyi, Vani, Hoai, Sinhi, Tini, Sui, Diai, Anhi , GDCDi, C.nghei, GDQPi

Giá trị thực 𝑦 (nhãn) có 1 thuộc tính có tên là Zi+1 (𝑖 = 1, … ,5) hoặc Z_TN (𝑖 = 6), chẳng hạn môn Anh là Anh3 khi 𝑖 = 2 hoặc Anh_TN khi 𝑖 = 6

II.1 Phương pháp hồi quy tuyến tính

Lớp LinearRegression trong lớp linear_model của thư viện Scikit-learn được sử dụng để xây dựng mô hình hồi quy tuyến tính Mô hình dự báo điểm môn chuyên của lớp chuyên Z ở học kỳ kế tiếp 𝑖 + 1 (𝑖 = 1, … ,5), tập dữ liệu dùng cho huấn luyện và kiểm định được lưu trong tệp DataZ1.csv và ma trận giá trị thực 𝑦, ma trận dữ liệu vào 𝑋1 (chỉ sử dụng môn Z ở học kỳ thứ 𝑖); 𝑋2 (sử dụng 6 môn tác động ở học kỳ thứ 𝑖); 𝑋3 (sử dụng tất cả 12 môn ở học kỳ thứ 𝑖); 𝑋4 (chỉ sử dụng môn 𝑍 ở tất cả các học kỳ từ 1 đến 𝑖); 𝑋5 (sử dụng 6 môn tác động ở tất cả các học kỳ từ 1 đến 𝑖); 𝑋6 (sử dụng tất cả 12 môn ở tất cả các học kỳ từ 1 đến 𝑖) được thể hiện trong đoạn chương trình sau:

Mô hình học dữ liệu từ tập dữ liệu huấn luyện (train) để cho ra mô hình dự đoán Dưới đây là đoạn chương trình xây dựng mô hình model1, các mô hình model2, model3, model4, model5, model6 được xây dựng tương tự

Với bộ dữ liệu là điểm của một hay nhiều môn học của học sinh p cần dự báo, qua mô hình trong quá trình huấn luyện cho kết quả dự báo là điểm của môn Z trong học kỳ tới Ví dụ dự báo điểm môn Anh cho học sinh p ở học kỳ 2, điểm môn Anh của học sinh p ở học kỳ 1 là 8.3 (x_p =[[8.3]]), mô hình model1 sẽ cho kết quả dự báo điểm môn Anh của p ở học kỳ 2 là 8.4 Dưới đây là đoạn chương trình minh họa cho ví dụ:

Xây dựng mô hình dự báo điểm cho môn Q không phải môn chuyên của lớp chuyên Z và mô hình dự báo điểm thi tốt nghiệp THPT cho môn Q sử dụng kỹ thuật đánh giá chéo 5-Fold để đánh giá bước đầu hiệu suất của mô hình Dưới đây là chương trình xây dựng model1 cho dự báo môn Q, các model2, model3, model4, model5, model6 xây dựng tương tự

II.2 Phương pháp mạng nơ-ron

Lớp MLPRegressor của lớp neural_network trong thư viện Scikit-learn được sử dụng để xây dựng mô hình mạng nơ-ron Luận văn cũng sử dụng lớp GridSearchCV trong thư viện Scikit-learn để tìm các tham số phù hợp nhất cho mô hình, mỗi tham số được thử trên nhiều giá trị và qua nhiều lần thử nghiệm sau đó chọn ra những tham số phù hợp nhất cho các mô hình Và qua quá trình thử nghiệm, dữ liệu được chuẩn hóa về dạng phân phối chuẩn với giá trị trung bình bằng 0 và phương sai bằng 1 giúp tăng hiệu suất của mô hình Công thức chuẩn hóa dữ liệu: ' x x x 

  , trong đó x là giá trị trung bình,  là độ lệch chuẩn của tập dữ liệu

Mô hình dự báo điểm môn không chuyên Q của lớp chuyên Z ở học kỳ kế tiếp

𝑖 + 1 (𝑖 = 1, … ,5), tập dữ liệu huấn luyện, kiểm định và kiểm tra được lưu trong tập tin DataQ2.csv và ma trận giá trị thực 𝑦, ma trận dữ liệu vào 𝑋1, 𝑋2, 𝑋3, 𝑋4, 𝑋5, 𝑋6 tương tự như phương pháp hồi quy tuyến tính, sau đó được chuẩn hóa về dạng phân phối chuẩn với giá trị trung bình bằng 0 và phương sai bằng 1 để huấn luyện mô hình

Mạng nơ-ron xây dựng gồm tầng input có số nơ-ron tương ứng với số thuộc tính của tập huấn luyện, tầng output có 1 nơ-ron, các tham số khác chẳng hạn như số tầng hidden và số lượng các nơ-ron ở tần hidden, hàm kích hoạt,… sử dụng GridSearchCV để chọn sao cho phù hợp nhất với mô hình Dưới đây là đoạn chương trình xây dựng mô hình model1, các mô hình model2, model3, model4, model5, model6 được xây dựng tương tự

Với bộ dữ liệu là điểm của một hay nhiều môn học của học sinh p cần dự báo, dữ liệu được chuẩn hóa sau đó mới qua mô hình trong quá trình huấn luyện cho kết quả dự báo là điểm của môn Q trong học kỳ tới Xây dựng mô hình dự báo điểm môn chuyên của lớp chuyên Z và các môn thi tốt nghiệp cũng được xây dựng tương tự như môn Q

II.3 Phương pháp học phối hợp

Sau khi thử nghiệm mô hình hồi quy tuyến tính, mạng nơ-ron cho kết quả khá tốt Tuy nhiên, việc học phối hợp cũng là cách tiếp cận hiện đại trong lĩnh vực học máy Vì vậy luận văn muốn thử nghiệm thêm một trong những thuật toán học phối hợp đó là thuật toán Gradient Boosting Lớp con GradientBoostingRegressor của lớp ensemble trong thư viện Scikit-learn được sử dụng để xây dựng mô hình và lớp GridSearchCV như đã đề cập được sử dụng để tìm các tham số phù hợp nhất cho mô hình

Mô hình dự báo điểm môn chuyên của lớp chuyên Z ở học kỳ kế tiếp 𝑖 + 1 (𝑖 1, … ,5), tập huấn luyện, kiểm định được lưu trong tệp DataZ1.csv và ma trận giá trị thực 𝑦, ma trận dữ liệu vào 𝑋1, 𝑋2, 𝑋3, 𝑋4, 𝑋5, 𝑋6 tương tự như phương pháp hồi quy tuyến tính Dưới đây là đoạn chương trình xây dựng mô hình model1 để dự báo điểm môn chuyên của lớp chuyên Z, các mô hình model2, model3, model4, model5, model6 được xây dựng tương tự

Xây dựng mô hình dự báo điểm môn không chuyên Q của lớp chuyên Z và các môn thi tốt nghiệp cũng được xây dựng tương tự như môn Z.

KẾT QUẢ THỰC NGHIỆM

Tiền xử lý dữ liệu

Dữ liệu được thu thập ở trường THPT chuyên Lê Quý Đôn gồm 7 khóa học đó là khóa học 2015 – 2016, 2016 – 2017, 2017 – 2018, 2018 – 2019, 2019 – 2020, 2020 – 2021, 2021 – 2022 Khóa học 2015 – 2016, 2016 – 2017 có 12 lớp trong đó có 9 lớp chuyên và 3 lớp không chuyên (chuyên Anh có 2 lớp là AV1, AV2; chuyên Toán có 3 lớp là T1, T2; chuyên Hóa có 2 lớp là H1, H2 còn lại chuyên Lý, Tin, Văn mỗi chuyên chỉ có một lớp và 3 lớp không chuyên là A, A1, D) Các khóa học 2017 –

2018, 2018 – 2019, 2019 – 2020, 2020 – 2021, 2021 – 2022 mỗi khóa có 12 lớp đều là lớp chuyên, trong đó chuyên Anh là 3 lớp, chuyên Toán 3 lớp, chuyên Hóa 2 lớp, chuyên Lý, Sinh, Tin, Văn mỗi chuyên có một lớp Mỗi khóa học gồm kết quả học tập của học sinh ở cả ba năm học 10, 11, 12 và kết quả thi THPT QG (không thu thập dữ liệu kỳ thi THPT QG của khóa 2015 – 2016 vì học sinh thi các môn không giống như các khóa học từ 2016 đến 2022) Dữ liệu được lưu trữ trong các tập tin excel

Dữ liệu cụ thể thu thập được ở các khóa học thể hiện trong Bảng 4-1:

Bảng 4-1 Thu thập dữ liệu từ năm 2015 đến năm 2022

Khóa học Số lượng môn học

Số lượng môn thi THPT Quốc gia Số bộ dữ liệu

Tổng số bộ dữ liệu thu thập được: 2374

I.2 Tiền xử lý dữ liệu

Dữ liệu sau khi thu thập được tiến hành xử lý qua ba giai đoạn:

Giai đoạn 1: Lọc dữ liệu thủ công kết quả lưu vào tập tin excel

Với mỗi khóa học, sử dụng các hàm dò tìm Vlookup, If,… trong Excel để lọc dữ liệu, loại bỏ những học sinh chuyển trường, chuyển lớp Dữ liệu được sắp xếp lại theo từng lớp chuyên: chuyên Anh, chuyên Toán, chuyên Lý, chuyên Hóa, chuyên Sinh, chuyên Tin, chuyên Văn Mỗi lớp chuyên bao gồm: chuyên Anh, chuyên Toán, chuyên Hóa là một tập tin excel; chuyên Lý, chuyên Sinh, chuyên Tin, vào một tập tin excel; lớp A, lớp A1, lớp D vào một tập tin excel Mỗi tập tin excel chứa các sheet tương ứng là kết quả học tập của học sinh ở học kỳ 1, học kỳ 2 của năm học lớp 10, lớp 11, lớp 12 Mỗi sheet gồm có các cột về kết quả học tập của học sinh tương ứng là 12 điểm trung bình học kỳ của 12 môn học tính điểm là: Toán, Lý, Văn, Hóa, Sinh, Tin, Sử, Địa, Ngoại ngữ (Anh), GDCD, Công nghệ, GDQP và một số thông tin khác như số thứ tự, mã học sinh, họ tên, hạnh kiểm, xếp loại học lực, môn Thể dục, …

Với 6 tập tin excel chứa kết quả kỳ thi THPT QG tương ứng với 6 khóa học

2016 – 2017, 2017 – 2018, 2018 – 2019, 2019 – 2020, 2020 – 2021, 2021 – 2022, mỗi tập tin gồm 12 sheet tương ứng là kết quả của 12 lớp; mỗi sheet gồm có các cột tương ứng là kết quả thi của 9 môn: Toán, Văn, Anh, Lý, Hóa, Sinh, Sử, Địa, GDCD và một số thông tin khác như số thứ tự, họ tên, lớp, …

Giai đoạn 2: Sử dụng chương trình ghép, lọc dữ liệu để lưu vào tập tin csv

Với dữ liệu là những tập tin excel thu được từ giai đoạn 1, sử dụng ngôn ngữ Python và thư viện Pandas để viết chương trình ghép, lọc dữ liệu (chỉ lấy những dữ liệu về điểm 12 môn học, 6 điểm thi THPT QG tương ứng với 6 môn: Toán, Văn, Anh, Lý, Hóa, Sinh) và lưu trữ vào tập tin csv Kết quả thu được gồm 21 tập tin csv thể hiện ở Bảng 4-2:

Bảng 4-2 Các tập tin csv thu được sau khi tiền xử lý dữ liệu

Số lượng cột (thuộc tính)

DataAnh1 72 496 Dữ liệu là kết quả học tập của học sinh các lớp chuyên Anh ở 7 khóa học

Dữ liệu là kết quả học tập của học sinh không phải chuyên Anh ở 7 khóa học (lớp

A, A1, D, các lớp chuyên Toán, Lý, Hóa, Sinh, Tin, Văn)

DataToan1 72 509 Dữ liệu là kết quả học tập của học sinh các lớp chuyên Toán ở 7 khóa học

Dữ liệu là kết quả học tập của học sinh không phải chuyên Toán ở 7 khóa học (lớp

A, A1, D, các lớp chuyên Anh, Lý, Hóa, Sinh, Tin, Văn)

DataLy1 72 186 Dữ liệu là kết quả học tập của học sinh các lớp chuyên Lý ở 7 khóa học

Dữ liệu là kết quả học tập của học sinh không phải chuyên Lý ở 7 khóa học (lớp

A, A1, D, các lớp chuyên Toán, Anh, Hóa, Sinh, Tin, Văn)

DataHoa1 72 367 Dữ liệu là kết quả học tập của học sinh các lớp chuyên Hóa ở 7 khóa học

Dữ liệu là kết quả học tập của học sinh không phải chuyên Hóa ở 7 khóa học (lớp

A, A1, D, các lớp chuyên Toán, Anh, Lý, Sinh, Tin, Văn)

Dữ liệu là kết quả học tập của học sinh các lớp chuyên Sinh ở 5 khóa học (2017 –

Dữ liệu là kết quả học tập của học sinh không phải chuyên Sinh ở 7 khóa học (lớp

A, A1, D, các lớp chuyên Toán, Anh, Lý, Hóa, Tin, Văn)

DataVan1 72 200 Dữ liệu là kết quả học tập của học sinh các lớp chuyên Văn ở 7 khóa học DataVan2 72 1973 Dữ liệu là kết quả học tập của học sinh không phải chuyên Văn ở 7 khóa học (lớp

A, A1, D, các lớp chuyên Toán, Anh, Lý, Sinh, Hóa, Tin)

DataTin1 72 151 Dữ liệu là kết quả học tập của học sinh các lớp chuyên Tin ở 7 khóa học

Dữ liệu là kết quả học tập của học sinh không phải chuyên Tin ở 7 khóa học (lớp

A, A1, D, các lớp chuyên Toán, Anh, Lý, Sinh, Hóa, Văn)

Dữ liệu là kết quả học tập của học sinh các lớp chuyên Anh ở 6 khóa học (2016 –

Dữ liệu là kết quả học tập của học sinh các lớp chuyên Toán ở 6 khóa học (2016 –

Dữ liệu là kết quả học tập của học sinh các lớp chuyên Hóa ở 6 khóa học (2016 –

Dữ liệu là kết quả học tập của học sinh các lớp chuyên Lý ở 6 khóa học (2016 – 2017,

Dữ liệu là kết quả học tập của học sinh các lớp chuyên Sinh ở 5 khóa học (2017 –

Dữ liệu là kết quả học tập của học sinh các lớp chuyên Văn ở 6 khóa học (2016 –

Dữ liệu là kết quả học tập của học sinh các lớp A, A1, D ở khóa học 2017 – 2018 và các lớp chuyên Anh, Toán, Lý, Hóa, Sinh, Văn, Tin ở 6 khóa học (2016 – 2017, 2017 – 2018, 2018 – 2019, 2019 – 2020, 2020 –

2021, 2021 – 2022) Trong Bảng 4-2 các tập tin có số cột bằng 72 tương ứng là điểm trung bình 12 môn học: Toán, Lý, Văn, Hóa, Sinh, Tin, Sử, Địa, Anh, GDCD, Công nghệ, GDQP của các học kỳ 1 (HK 1 lớp 10), học kỳ 2 (HK 2 lớp 10), học kỳ 3 (HK 1 lớp 11), học kỳ 4 (HK 2 lớp 11), học kỳ 5 (HK 1 lớp 12), học kỳ 6 (HK 2 lớp 12) Các tập tin có số cột bằng 78 trong đó 72 cột là điểm trung bình 12 môn của 6 học kỳ đã học và 6 cột là điểm thi THPT QG tương ứng với 6 môn Toán, Văn, Anh, Lý, Hóa, Sinh Với

6 cột điểm thi THPT QG sẽ có những ô không chứa dữ liệu vì có những học sinh giỏi Quốc gia được miễn thi tốt nghiệp, những học sinh có chứng chỉ tiếng Anh quốc tế được miễn thi tiếng Anh, những học sinh không chọn tổ hợp môn Khoa học tự nhiên thì không phải thi

Giai đoạn 3: Kiểm tra độ tương quan của các thuộc tính

Kết quả kiểm tra độ tương quan của 72 thuộc tính được thể hiện ở Hình 4-1

Hình 4-1 Độ tương quan 12 môn học của 6 học kỳ (lớp 10, 11, 12)

Hình 4-2 Một góc hình phóng to của Hình 4-1

Qua kiểm tra độ tương quan 𝑟 của các thuộc tính (72 thuộc tính tương ứng với

12 môn học của 6 học kỳ lớp 10, 11, 12) có kết quả |𝑟| ≤ 0.76; 𝑟 ≠ 0 Như vậy các thuộc tính ít tương quan với nhau nên các thuộc tính đều được sử dụng cho việc xây dựng mô hình huấn luyện.

Giao diện hệ thống

Hệ thống gồm có 2 chức năng chính thể hiện qua 2 menu: Huấn luyện, Dự báo như Hình 4-3

Hình 4-3 Giao diện hệ thống II.1 Menu Huấn luyện

Trong menu huấn luyện có 4 chức năng: (1) Hồi quy tuyến tính, (2) Mạng nơ- ron, (3) Học phối hợp, (4) Mô hình tốt nhất như Hình 4-4

Hình 4-4 Menu Huấn luyện Để đánh giá một mô hình luận văn dựa vào 2 tiêu chí: hiệu suất của mô hình và tính chất của mô hình

 Hiệu suất của mô hình được thể hiện qua phép đo R-squared (kí hiệu là R 2 ) có giá trị thuộc (-∞,1] và công thức tính 𝑅 = 1 − ∑ ( )

∑ ( ) , trong đó n là số bộ dữ liệu trong tập dữ liệu (𝑥 , 𝑦 ), 𝑦 là giá trị dự đoán của mô hình (𝑦 𝑓(𝑥 )), 𝑦 = ∑ 𝑦 ; mô hình 1 có hiệu suất tốt hơn mô hình 2 nếu R 1 2 R 2 2 (R 1 2 , R 2 2 lần lượt là độ đo R-squared của mô hình 1 và mô hình 2), điều này cũng tương đương với mô hình 1 có hiệu suất tốt hơn mô hình 2 nếu

 Tính chất của mô hình như đã trình bày trong phần mở đầu ở Mục V của chương 2, lỗi của mô hình được thể hiện qua giá trị kỳ vọng về sai số của hàm xấp xỉ f xˆ( )(là mô hình) so với giá trị thu thập 𝑦 (y f x ( );  là sai số nhiễu) là err m E y f_  [(  ˆ) ] 2 Bias f( )ˆ 2 Var f( )ˆ Var( ) trong đó ˆ ˆ

Bias f E f f , Var f( )ˆ E f E f[(ˆ [ ]) ]ˆ 2 , Var( ) là sai số nhiễu có giá trị không đổi Đánh giá một mô hình ta xét trên cả hai tiêu chí hiệu suất và tính chất của mô hình Gọi Err là sai số của mô hình và

R err m Err   , khi đó mô hình 1 được đánh giá tốt hơn mô hình 2 nếu Err Err 1  2 Tiêu chí để chọn mô hình tốt nhất trong

3 mô hình xây dựng bằng phương pháp hồi quy tuyến tính, mạng nơ-ron, học phối hợp là chọn mô hình có Err nhỏ nhất Vì độ nhiễu Var( ) có giá trị giống nhau ở cả

3 mô hình nên ta không cần xét đến, điều này không làm thay đổi kết quả chọn mô hình tốt nhất

Có hai chức năng trong menu dự báo: (1) Chọn dữ liệu nhập, (2) Đề xuất dữ liệu nhập như Hình 4-5

Chức năng (1) Chọn dữ liệu nhập: cho phép chọn số lượng môn học làm dữ liệu đầu vào cho mô hình dự báo Sau khi chọn môn học, học kỳ dự báo và số lượng môn học thì hệ thống sẽ truy xuất tới mô hình tốt nhất cho lựa chọn này Trong giao diện nhập dữ liệu để dự báo có hai khả năng để nhập dữ liệu: nhập dữ liệu trực tiếp vào biểu mẫu (form) hoặc tải dữ liệu có sẵn lưu trong tệp excel theo mẫu quy định khi đó dữ liệu sẽ được đưa lên biểu mẫu để kiểm tra lại trước khi nhấn nút dự báo Hình 4-

6 minh họa dự báo môn Anh của lớp chuyên Anh ở học kỳ 3, sử dụng 6 môn học của tất cả các học kỳ trước

Hình 4-6 Dự báo môn Anh của lớp chuyên Anh ở học kỳ 3, sử dụng 6 môn tất cả học kỳ trước

Chức năng (2) Đề xuất dữ liệu nhập: sau khi chọn môn học, học kỳ dự báo thì hệ thống sẽ truy xuất tới mô hình tốt nhất cho lựa chọn này và dữ liệu nhập tương ứng với mô hình đề xuất tốt nhất Hình 4-7 minh họa dự báo môn Anh của lớp chuyên Anh ở học kỳ 5, mô hình đề xuất sử dụng điểm của 12 môn học ở tất cả học kỳ trước

Hình 4-7 Dự báo môn Anh của lớp chuyên Anh ở học kỳ 4

Kết quả dự báo

Môn chuyên của lớp chuyên học theo chương trình riêng, còn các môn học khác thì học theo chương trình Bộ Giáo dục quy định như đã trình bày ở Mục I Vì vậy bài toán của luận văn chia làm hai trường hợp:

 Dự báo điểm môn chuyên của lớp chuyên

 Dự báo điểm môn không chuyên của lớp chuyên

Cả hai trường hợp đều có chung phương pháp xây dựng mô hình như đã trình bày ở Mục II, chỉ khác nhau ở dữ liệu học cho mô hình Sai số của mô hình là tổng của hai tiêu chí hiệu suất và tính chất của mô hình như đã trình bày ở Mục II.1 Luận văn chỉ trình bày kết quả (sai số mô hình) của các mô hình dự báo cho môn Anh, Toán, Văn ở cả 3 phương pháp hồi quy tuyến tính, mạng nơ-ron, học phối hợp (các môn Lý, Hóa, Sinh, Tin cũng tương tự) Kí hiệu viết tắt n_kTr, n_kTC trong các bảng và hình minh họa có ý nghĩa như sau: n là số môn học, k là học kỳ vừa học xong, Tr là học kỳ ngay trước đó, TC là tất cả học kỳ trước đó, chẳng hạn 12_5TC có ý nghĩa là mô hình dự báo điểm môn học Z ở học kỳ 6, ma trận dữ liệu đầu vào gồm 60 thuộc tính là điểm của 12 môn học ở tất cả các học kỳ từ 1 đến 5

III.1 Kết quả môn Anh

III.1.1 Môn Anh của lớp chuyên Anh

Sai số mô hình trên tập kiểm định của cả 3 phương pháp hồi quy tuyến tính, mạng nơ-ron, học phối hợp được thể hiện ở Bảng 4-3

Bảng 4-3 Sai số mô hình dự báo môn Anh của lớp chuyên Anh

1_1Tr 6_1Tr 12_1Tr 1_2Tr 6_2Tr 12_2Tr 1_2TC 6_2TC 12_2TC Hồi quy tuyến tính 0.467 0.454 0.442 0.583 0.567 0.605 0.527 0.535 0.565 Mạng nơ-ron 0.468 0.459 0.444 0.583 0.567 0.606 0.526 0.539 0.557 Học phối hợp 0.444 0.443 0.468 0.576 0.582 0.589 0.522 0.553 0.560 1_3Tr 6_3Tr 12_3Tr 1_3TC 6_3TC 12_3TC 1_4Tr 6_4Tr 12_4Tr Hồi quy tuyến tính 0.419 0.400 0.423 0.386 0.401 0.419 0.555 0.466 0.446 Mạng nơ-ron 0.422 0.400 0.423 0.398 0.401 0.418 0.556 0.463 0.444 Học phối hợp 0.432 0.448 0.476 0.447 0.458 0.458 0.535 0.458 0.408 1_4TC 6_4TC 12_4TC 1_5Tr 6_5Tr 12_5Tr 1_5TC 6_5TC 12_5TC Hồi quy tuyến tính 0.466 0.402 0.394 0.379 0.380 0.379 0.305 0.290 0.345 Mạng nơ-ron 0.463 0.391 0.334 0.380 0.385 0.383 0.304 0.283 0.370 Học phối hợp 0.453 0.349 0.339 0.415 0.451 0.388 0.334 0.341 0.328

1_6Tr 6_6Tr 12_6Tr 1_6TC 6_6TC 12_6TC Hồi quy tuyến tính 0.579 0.550 0.545 0.536 0.467 0.612

Hình 4-8 minh họa bằng đồ thị sai số mô hình trên cả 3 phương pháp hồi quy tuyến tính, mạng nơ-ron, học phối hợp

Hình 4-8 Sai số mô hình dự báo điểm môn Anh của lớp chuyên Anh

III.1.2 Môn Anh của lớp chuyên Toán, Lý, Hóa, Sinh, Văn, Tin

Hình 4-9 minh họa bằng đồ thị sai số mô hình trên cả 3 phương pháp hồi quy tuyến tính, mạng nơ-ron, học phối hợp

Hình 4-9 Sai số mô hình dự báo điểm môn Anh của lớp chuyên Toán, Lý, Hóa,

Sinh, Văn, Tin III.2 Kết quả môn Toán

III.2.1 Môn Toán của lớp chuyên Toán

Hình 4-10 minh họa sai số mô hình trên cả 3 phương pháp hồi quy tuyến tính, mạng nơ-ron, học phối hợp

Hình 4-10 Sai số mô hình dự báo điểm môn Toán của lớp chuyên Toán III.2.2 Môn Toán của lớp chuyên Anh, Lý, Hóa, Sinh, Văn, Tin

Sai số mô hình trên tập kiểm tra của các mô hình hồi quy tuyến tính, mạng nơ- ron, học phối hợp được thể hiện ở Hình 4-11

Hình 4-11 Sai số mô hình dự báo điểm môn Toán của lớp chuyên Anh, Lý, Hóa,

Sinh, Văn, Tin III.3 Kết quả môn Văn

III.3.1 Môn Văn của lớp chuyên Văn

Sai số mô hình trên tập kiểm định của các mô hình hồi quy tuyến tính, mạng nơ-ron, học phối hợp được thể hiện ở Hình 4-12

Hình 4-12 Sai số mô hình dự báo điểm môn Văn của lớp chuyên Văn

III.3.2 Môn Văn của các lớp chuyên Toán, Lý, Hóa, Sinh, Anh, Tin

Sai số mô hình trên tập kiểm tra của các mô hình hồi quy tuyến tính, mạng nơ- ron, học phối hợp được thể hiện ở Hình 4-13

Hình 4-13 Sai số mô hình dự báo điểm môn Văn của lớp chuyên Toán, Lý, Hóa,

Sinh, Anh, Tin III.4 So sánh, đánh giá các phương pháp dùng để dự báo

Qua quá trình thực nghiệm kết quả các phương pháp hồi quy tuyến tính (LR), mạng nơ-ron (ANN) và học phối hợp (Gr) xây dựng các mô hình dự báo của 6 học kỳ là học kỳ 2 (HK 2), học kỳ 3 (HK 3), học kỳ 4 (HK 4), học kỳ 5 (HK 5), học kỳ 6 (HK 6), học kỳ 7 (HK7); mỗi học kỳ dự báo với 6 loại dữ liệu đầu vào là 1 môn ở học kỳ trước (1Tr), 6 môn ở học kỳ trước (6Tr), 12 môn ở học kỳ trước (12Tr), 1 môn ở tất cả học kỳ trước (1TC), 6 môn ở tất cả học kỳ trước (6TC), 12 môn ở tất cả học kỳ trước (12TC) được chia thành 2 loại: đánh giá các phương pháp trên từng học kỳ dự báo; đánh giá các phương pháp trên 6 học kỳ dự báo

III.4.1 Đánh giá các phương pháp trên từng học kỳ dự báo

1 Môn chuyên của lớp chuyên

Bảng 4-4 thể hiện kết quả của phương pháp tốt nhất trên tất cả các loại dữ liệu đầu vào (6 loại) của mô hình dự báo ở từng học kỳ Đối với môn Văn, phương pháp mạng nơ-ron là phương pháp tốt nhất ở đa phần các học kỳ dự báo; môn Toán phương pháp hồi quy tuyến tính đa phần tốt nhất; các môn Anh, Hóa, Sinh, Tin phương pháp hồi quy tuyến tính và phương pháp học phối hợp gần tương đương nhau

Bảng 4-4 Phương pháp tốt nhất ở các học kỳ dự báo môn chuyên của lớp chuyên

HK 2 HK 3 HK 4 HK 5 HK 6 HK 7

Anh Gr Gr LR Gr LR LR

Toán LR LR LR LR ANN LR

Lý Gr LR ANN LR Gr Gr

Hóa LR LR Gr Gr LR ANN

Sinh LR Gr Gr LR Gr Gr

Văn ANN ANN ANN ANN ANN Gr

Tin Gr LR LR LR Gr

Bảng 4-5 thể hiện kết quả dữ liệu đầu vào (6 loại) tốt nhất của mô hình dự báo trên từng phương pháp hồi quy tuyến tính, mạng nơ-ron, học phối hợp ở từng học kỳ Nếu như coi 1Tr, 6Tr, 12Tr dự đoán ở học kỳ 2 (HK2) cũng là 1TC, 6TC, 12TC dự đoán ở các học kỳ 3, 4, 5, 6 thì dữ liệu đầu vào 1 môn, 12 môn ở tất cả học kỳ trước chiếm đa số tốt nhất trên từng phương pháp

Bảng 4-5 Loại dữ liệu đầu vào tốt nhất trên từng phương pháp ở các học kỳ dự báo môn chuyên của lớp chuyên

Phương pháp HK 2 HK 3 HK 4 HK 5 HK 6 HK 7

LR 12Tr 1TC 1TC 12TC 6TC 6TC

ANN 12Tr 1TC 1TC 12TC 6TC 1TC

Gr 6Tr 1TC 1Tr 12TC 12TC 1Tr

LR 12Tr 1Tr 1TC 12TC 1TC 12Tr

ANN 12Tr 1Tr 1TC 6Tr 6TC 12TC

Gr 6Tr 6Tr 1TC 12TC 12TC 12TC

LR 1Tr 12Tr 1TC 12Tr 1TC 1Tr

ANN 1Tr 12Tr 1TC 12Tr 1TC 1Tr

Gr 1Tr 12TC 6TC 6TC 6Tr 1TC

LR 12Tr 12TC 6TC 12TC 6TC 1TC

ANN 12Tr 12TC 6TC 12TC 12TC 1TC

Gr 1Tr 12TC 12TC 12TC 12TC 12TC

Sinh LR 12Tr 1Tr 12Tr 1TC 1Tr 6Tr

ANN 12Tr 1Tr 1Tr 6TC 1Tr 1TC

Gr 12Tr 1TC 6TC 6TC 1Tr 1TC

LR 12Tr 12TC 1TC 6TC 1TC 12Tr

ANN 12Tr 6Tr 1TC 12Tr 6Tr 12Tr

Gr 12Tr 12TC 1TC 12TC 12TC 12TC

LR 12Tr 1Tr 1Tr 1TC 6TC

ANN 12Tr 1Tr 1Tr 1TC 6TC

Gr 12Tr 6Tr 12Tr 12TC 12TC

Bảng 4-6 thể hiện kết quả phương pháp xây dựng mô hình tốt nhất và tương ứng là loại dữ liệu đầu vào ở từng học kỳ dự báo Đa phần ở các học kỳ dự báo ở các môn học thì phương pháp học phối hợp là tốt nhất, sau đó là phương pháp hồi quy tuyến tính và cuối cùng là mạng nơ-ron và loại dữ liệu 1 môn, 12 môn ở tất cả các học kỳ trước chiếm đa số

Bảng 4-6 Phương pháp tốt nhất và loại dữ liệu tương ứng ở các học kỳ dự báo môn chuyên của lớp chuyên

HK 2 HK 3 HK 4 HK 5 HK 6 HK 7

Phương pháp Loại dữ liệu Phương pháp Loại dữ liệu Phương pháp Loại dữ liệu Phương pháp Loại dữ liệu Phương pháp Loại dữ liệu Phương pháp Loại dữ liệu

Anh LR 12Tr Gr 1TC LR 1TC ANN 12TC ANN 6TC ANN 1TC

Toán LR 12Tr Gr 6Tr LR 1TC LR 12TC Gr 12TC ANN 12TC

Lý Gr 1Tr LR 12Tr ANN 1TC Gr 6TC LR 1TC LR 1Tr

Hóa LR 12Tr LR 12TC Gr 12TC Gr 12TC Gr 12TC Gr 12TC

Sinh LR 12Tr Gr 1TC Gr 6TC Gr 6TC Gr 1Tr ANN 1TC

Văn ANN 12Tr LR 12TC ANN 1TC LR 6TC Gr 12TC Gr 12TC

Tin Gr 12Tr LR 1Tr ANN 1Tr ANN 1TC Gr 12TC

2 Môn không chuyên của lớp chuyên

Bảng 4-7 thể hiện kết quả phương pháp tốt nhất trên tất cả các loại dữ liệu đầu vào của mô hình dự báo ở từng học kỳ Đa phần các học kỳ dự báo ở các môn học thì phương pháp học phối hợp là phương pháp tốt nhất, sau đó là đến phương pháp mạng nơ-ron

Bảng 4-7 Phương pháp tốt nhất ở các học kỳ dự báo môn không chuyên của lớp chuyên

HK 2 HK 3 HK 4 HK 5 HK 6 HK 7

Anh Gr ANN Gr Gr Gr Gr

Toán ANN LR Gr ANN Gr ANN

Lý LR Gr Gr Gr Gr Gr

Hóa ANN ANN Gr Gr Gr ANN

Sinh Gr Gr ANN Gr Gr Gr

Văn Gr Gr Gr ANN Gr Gr

Tin LR LR LR Gr Gr

Bảng 4-8 thể hiện kết quả dữ liệu đầu vào tốt nhất của mô hình dự báo trên từng phương pháp hồi quy tuyến tính, mạng nơ-ron, học phối hợp ở từng học kỳ Đa phần là loại dữ liệu đầu vào 6,12 môn tất cả các học kỳ trước là tốt nhất ở cả 3 phương pháp

Bảng 4-8 Loại dữ liệu đầu vào tốt nhất trên từng phương pháp ở các học kỳ dự báo môn không chuyên của lớp chuyên

Phương pháp HK 2 HK 3 HK 4 HK 5 HK 6 HK 7 Anh

LR 12Tr 6TC 6TC 12TC 6TC 1TC

ANN 12Tr 6TC 6TC 6TC 6TC 12TC

Gr 12Tr 12TC 12TC 12TC 6TC 12TC

LR 6Tr 12Tr 12TC 12TC 12TC 12TC

ANN 6Tr 12Tr 6TC 12TC 12TC 12TC

Gr 12Tr 12Tr 12TC 12TC 12TC 12TC

LR 12Tr 6TC 12TC 12TC 6TC 6TC

ANN 12Tr 12TC 12TC 12TC 12TC 1Tr

Gr 12Tr 12TC 12TC 12TC 12TC 12TC

LR 12Tr 12Tr 12TC 6TC 12TC 6TC

ANN 12Tr 12Tr 12TC 12TC 12TC 1Tr

Gr 12Tr 12TC 12TC 12TC 12TC 6TC

LR 12Tr 12TC 12TC 12TC 12TC 6Tr

ANN 12Tr 12TC 12TC 12TC 12TC 12Tr

Gr 12Tr 12TC 12TC 12TC 12TC 6TC

LR 12Tr 12TC 12TC 12TC 12TC 1TC

ANN 12Tr 12TC 1TC 12TC 12TC 1TC

Gr 12Tr 12TC 12TC 12TC 12Tr 12TC

Tin LR 6Tr 12TC 12TC 12TC 12TC

ANN 6Tr 12TC 12TC 12TC 12TC

Gr 12Tr 12TC 12TC 12TC 12TC Bảng 4-9 thể hiện kết quả phương pháp xây dựng mô hình tốt nhất và tương ứng là loại dữ liệu đầu vào ở từng học kỳ dự báo Đa phần mô hình tốt nhất ở các học kỳ dự đoán ở các môn học là phương pháp học phối hợp và loại dữ liệu đầu vào 12 môn ở tất cả học kỳ trước

Bảng 4-9 Phương pháp tốt nhất và loại dữ liệu tương ứng ở các học kỳ dự báo môn không chuyên của lớp chuyên

HK 2 HK 3 HK 4 HK 5 HK 6 HK 7

Phương pháp Loại dữ liệu Phương pháp Loại dữ liệu Phương pháp Loại dữ liệu Phương pháp Loại dữ liệu Phương pháp Loại dữ liệu Phương pháp Loại dữ liệu

Anh Gr 12Tr ANN 6TC Gr 12TC Gr 12TC Gr 6TC Gr 12TC

Toán ANN 6Tr LR 12Tr Gr 12TC LR 12TC Gr 12TC Gr 12TC

Lý Gr 12Tr Gr 12TC Gr 12TC Gr 12TC Gr 12TC Gr 12TC

Hóa LR 12Tr ANN 12Tr Gr 12TC Gr 12TC Gr 12TC Gr 6TC Sinh Gr 12Tr Gr 12TC ANN 12TC ANN 12TC Gr 12TC Gr 6TC Văn LR 12Tr Gr 12TC Gr 12TC ANN 12TC Gr 12Tr Gr 12TC

Tin LR 6Tr Gr 12TC LR 12TC Gr 12TC Gr 12TC

III.4.2 Đánh giá trên 6 học kỳ dự báo

1 Môn chuyên của lớp chuyên

Bảng 4-10 thể hiện phương pháp cho kết quả đa phần tốt nhất ở tất cả các loại dữ liệu đầu vào của mô hình ở cả 6 học kỳ dự báo Đối với môn Anh, Toán, Tin phương pháp hồi quy tuyến tính là phương pháp cho kết quả đa phần tốt nhất trên tất cả các mô hình; phương pháp học phối hợp cho kết quả đa phần tốt nhất trên tất cả các mô hình ở các môn học Lý, Hóa, Sinh; môn Văn, phương pháp mạng nơ-ron cho kết quả tốt nhất

Bảng 4-10 Phương pháp tốt nhất ở 6 học kỳ dự báo môn chuyên của lớp chuyên

2 Môn không chuyên của lớp chuyên

Bảng 4-11 thể hiện phương pháp cho kết quả đa phần tốt nhất ở tất cả các loại dữ liệu đầu vào của mô hình ở cả 6 học kỳ dự báo Phương pháp học phối hợp là phương pháp cho kết quả đa phần tốt nhất trên tất cả các mô hình ở tất cả các môn không chuyên của lớp chuyên

Bảng 4-11 Phương pháp tốt nhất ở 6 học kỳ dự báo môn không chuyên của lớp chuyên

Ngày đăng: 19/08/2024, 05:26

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN