Mô hình mạng được sử dụng là mô hình mạng truyền thẳng MLP gồm các tầng: một tầng vào, một tầng ẩn và một tầng ra. Số nơron đầu vào bằng số chiều của vector đặc trưng cho mẫu, số nơron tầng ẩn có thể thay đổi linh hoạt trong quá trình huấn luyện mạng, số nơron đầu ra là 1.
Dự đoán khả năng điểm thi Đại học của thí sinh với ý tưởng bài toán “Một số tác động của các yếu đến điểm tuyển sinh Đại học” [4]. Việc dự báo kết quả thi Đại học nó có đặc điểm riêng là dự báo khả năng đạt điểm dự thi của thí sinh dự thi căn cứa vào các yếu tố ảnh hưởng đến kết quả học tập của thí sinh, dữ liệu được điều tra từ những thí sinh đã dự thi và trúng tuyển những năm trước.
Dữ liệu vào
Dữ liệu vào của mô hình được thu thập, khảo sát từ những Sinh viên đang theo học tại trường Đại học Hùng Vương - Phú Thọ.
Với những dữ liệu đã có, ta thiết lập mô hình phản ánh bởi 6 dữ kiện sau: Trường, lớp học
Thời gian tự học Thời gian học thêm Mức độ tiếp thu bài
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Điểm thi đầu vào
Các dữ liệu quan tâm được lưu trữ dưới dạng:
Bảng 3.2 Dữ liệu đầu vào và đầu ra của mạng
STT Trường/lớp học HPT Thời gian tự học Thời gian học thêm Mức độ tiêp thu bài Tổng điểm 3 môn học THPT dự thi Đại học Tổng điểm 3 môn thi đầu vào Đại học Nhóm 0 1 19 18 3 23.7 21.5 1 1 1 19 19 3 21.5 21.5 1 2 1 19 18 3 22.6 21 2 3 1 18 19 3 22.8 21 2 4 1 18 18 3 24 21 2 5 1 19 17 3 23.6 21 2 6 1 19 18 3 21.4 21 2 7 1 19 16 3 22.5 20.5 3 8 1 18 18 3 21.2 20.5 3 9 1 17 19 3 21.3 20.5 3 .. .. .. .. … .. .. 147 1 19 16 2 19.6 19.5 5 148 1 16 15 3 18.7 19.5 5 153 1 17 16 3 15.5 19 6 154 1 17 18 2 19.5 19 6 155 1 17 13 3 19.3 19 6 .. .. .. .. .. .. .. 669 1 11 11 2 19.8 17 10 670 0 19 19 2 19.5 17 10 671 0 16 16 3 21.2 17 10 672 0 14 17 3 22.9 17 10 673 1 13 11 2 16.7 17 10 674 1 10 13 2 18.6 17 10 .. … … … … .. ..
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Kiến trúc mạng:
Mạng bao gồm một lớp ra, một lớp ẩn. Như vậy chỉ có duy nhất một đơn vị đầu ra – Nhóm điểm. Số đầu vào được cố định, phụ thuộc vào số nhân tố ảnh hưởng đến điểm thi Đại học. Số đơn vị trong lớp ẩn được xác định bằng cách huấn luyện với một số tập kiểm tra.
Mạng sẽ yêu cầu một số đơn vị trong lớp ẩn vừa đủ để có thể học được các đặc trưng tổng quát về mối quan hệ giữa các nhân tố đầu vào và đầu ra. Mục tiêu của mô hình là làm sao chỉ phải sử dụng số các đơn vị lớp ẩn càng ít càng tốt, đồng thời vẫn duy trì được khả năng của mạng có thể học được mối quan hệ giữa các dữ liệu.
Các tham số của mạng được lựa chọn như sau:
Hàm chuẩn hóa dữ liệu đầu vào và đầu ra là hàm tuyến tính Linear Sử dụng hàm truyền trong mạng Sigmod: f(x) = 1/(1+e-x
), đạo hàm được biểu diễn dưới dạng g’(x) = g(x)*(1 – g(x))
Các trọng số khởi tạo ngẫu nhiên với giá trị nhỏ, trọng số nơron tầng ẩn và tầng ra lấy ngẫu nhiên quanh giá trị 0.
Thời gian học η = 0.5 cho nơron tầng ẩn, và η = 0.5 cho nơron tầng ra.
Thuật toán huấn luyện là thuật toán lan truyền ngược đã trình bày ở chương 2. Hàm lỗi trung bình bình phương được sử dụng:
2 1 1 ( ) 2 n k k k E t y trong đó
k : thứ tự mẫu được huấn luyện
tk và yk tương ứng là đầu ra mong muốn và đầu ra thực tế của mạng cho đơn vị đầu ra thứ k.
Lỗi chấp nhận là 0.05
Sự tổng quát hóa của mạng
Một phần dữ liệu sử dụng như là tập kiểm tra, tập này sẽ không được sử dụng trong quá trình huấn luyện. Trong quá trình huấn luyện trên tập dữ
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
liệu huấn luyện, sự tổng quát hóa đối với các dữ liệu kiểm tra được hiển thị đồng thời dựa trên các tham số hiện tại của mạng.
Chương trình dự báo được sử dụng là chương trình SpiceMLP Version 2.1 của tác giả Cao Thang. [3]
Kết quả dự báo:
Hình 3.1 Màn hình làm việc ban đầu của chương trình
Chức năng này cho phép người sử dụng nhập load dữ liệu cho mạng. Tệp được load vào là tệp có cấu trúc:
Các trường dữ liệu được ngăn cách nhau bởi dấu “;” (đối với tệp *.txt); dạng bảng đối với tệp *.csv.
Trường đầu tiên là trường ID của dòng dữ liệu. Trường dữ liệu dự báo là trường cuối cùng.
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Ví dụ:
Các dữ liệu sau khi được đọc vào sẽ chuẩn hóa về dạng hàm tuyến tính Linear.
Hình 3.2: Thiết lập các thông số cho mạng
Chức năng này cho phép người dùng thiết lập các thông số cho mạng. Hàm biến đổi trong mạng.
Thời gian học Số lần học
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Hình 3.3 Kết quả của mạng học
Chức năng học và kiểm tra: Sau khi qua bước thiết lập các thông số cho mạng, có thể huấn luyện mạng bằng chức năng Học và kiểm tra. Để thực hiện ta khởi tạo trọng số ban đầu ngẫu nhiên cho mạng. Việc huấn luyện này có thể được thực hiện nhiều lần sao cho giá trị MSE của dữ liệu học và dữ liệu kiểm tra đến mức có thể chấp nhận được theo yêu cầu của bài toán. Hình 3.3