Biểu đồ thể hiện sự phân bổ của dữ liệu Sinh viên ở thành phố

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng hệ thống dự đoán khả năng nhập học của học sinh vào trường cao đẳng kỹ thuật công nghệ bà rịa vũng tàu (Trang 68)

Qua biểu đồ ta thấy số lượng học sinh có hộ khẩu ở thành phố tỷ lệ nhâp học tương đối thấp. Có thể do mặt bằng chung những học sinh ở thành phố thường có nhu cầu chọn trường Đại học nên số lượng nhập học vào trường Cao đẳng rất thấp. Do vậy dữ liệu “Sinh vien o thanh pho” cũng là 1 đặc trưng có ảnh hưởng tới kết quả dự đoán.

- Sinh vien o trong tinh: Học sinh sinh viên có hộ khẩu ở khu vực trong tỉnh Bà Rịa – Vũng Tàu hoặc ngoài tỉnh.

Hình 3.11. Biểu đồ thể hiện sự phân bổ của dữ liệu Sinh vien o trong tinh Số lượng học sinh trong tỉnh nhập học rất cao. Do gần về vị trí địa lý, tâm lý phụ huynh cũng muốn cho học sinh học gần nhà nên đa số học sinh trong tỉnh đăng

ký nhập học vào trường. Chứng tỏ dữ liệu “Sinh vien ở trong tinh” có ảnh hưởng tới kết quả dự đoán.

3.5 Tiền xử lý dữ liệu

Tiền xử lý dữ liệu là một bước rất quan trọng trong việc xây dựng mô hình huấn luyên mạng Nơron. Hầu hết các bộ dữ liệu được sử dụng trong mạng Nơron cần được xử lý và quy đổi trước khi mạng Nơron có thể được huấn luyện trên những bộ dữ liệu này.

Ở mô hình này mạng Nơron chỉ xử lý tín hiệu đầu vào tốt nếu như dữ liệu được chuyển đổi ra dạng nhị phân nằm trong khoảng [0,1] cụ thể như sau. Từ những thông tin thu thập được của học sinh khi nộp hồ sơ tác giả đã phân tích và lựa chọn đặc trưng cho từng loại dữ liệu. Cụ thể như sau:

- THCS: Trình độ Trung học cơ sở nếu đúng ghi 1 nếu sai ghi 0. - THPT: Trình độ Trung học phổ thông nếu đúng ghi 1 nếu sai ghi 0. - Co khi: Đăng ký học nghề Cơ khí nếu đúng ghi 1 nếu sai ghi 0. - Dien: Đăng ký học nghề Điện nếu đúng ghi 1 nếu sai ghi 0.

- CNTT: Đăng ký học nghề Công nghệ thông tin nếu đúng ghi 1 nếu sai ghi 0. - CBTP: Đăng ký học nghề Chế biến thực phẩm nếu đúng ghi 1 nếu sai ghi 0. - Sinh viên trong tỉnh: sinh viên trong tỉnh ghi 1 nếu ngoài tỉnh ghi 0 .

- Sinh viên o thanh pho: sinh viên có hộ khẩu ở thành phố ghi 1, sinh viên có hộ khẩu ở các huyện ghi 0.

- TN cung nam: Năm tốt nghiệp của học sinh trùng với năm xét tuyển nhập học vào trường nếu đúng ghi 1 sai ghi 0.

- TN truoc 1 nam: Năm tốt nghiệp của học sinh trước 1 năm so với năm xét tuyển nhập học vào trường nếu đúng ghi 1 sai ghi 0.

- TN truoc 2 năm tro len: Năm tốt nghiệp của học sinh trước 2 năm trở lên so với năm xét tuyển nhập học vào trường nếu đúng ghi 1 sai ghi 0.

- Tong diem lon hon diem san: Tổng điểm của học sinh lớn hơn điểm sàn của năm xét tuyển nhập học vào trường nếu đúng ghi 1 sai ghi 0.

- Tong diem lon hon diem san tu 0 den 2 diem: Tổng điểm của học sinh lớn hơn điểm sàn của năm xét tuyển nhập học vào trường từ 0 đến 2 điểm nếu đúng ghi 1 sai ghi 0.

- Tong diem lon hon diem san tu 2 den 4 diem: Tổng điểm của học sinh lớn hơn điểm sàn của năm xét tuyển nhập học vào trường từ 2 đến 4 điểm nếu đúng ghi 1 sai ghi 0.

- Tong diem lon hon diem san tu tren 4 diem: Tổng điểm của học sinh lớn hơn điểm sàn của năm xét tuyển nhập học vào trường từ trên 4 điểm nếu đúng ghi 1 sai ghi 0.

- Tong diem be hon diem san tu 0 den 2 diem: Tổng điểm của học sinh nhỏ hơn điểm sàn của năm xét tuyển nhập học vào trường từ 0 đến 2 điểm nếu đúng ghi 1 sai ghi 0.

Dữ liệu đầu vào cho việc huấn luyện từ khối dữ liệu ban đầu với rất nhiều thông tin đặc trưng, sau khi tiền xử lý ta đã lựa chọn ra 16 thông tin đặc trưng có ảnh hưởng tới dự báo của mô hình. Đây cũng là đầu vào cho việc huấn luyện mô hình khuyến cáo.

3.6. Cấu trúc mạng Nơron

Đối với bài toán dự đoán trên chúng ta lựa chọn cấu trúc mạng nơron như sau:

Số nơron lớp vào

Trong luận văn lựa chọn 16 Nơron lớp vào tương ứng với 16 đặc trưng của bộ dữ liệu.

Số nơron lớp ẩn

Để lựa chọn được chính xác số nơron cho lớp ẩn là rất khó vì vậy số Nơron lớp ẩn sẽ được lựa chọn qua thực nghiệm của bài toán.

Qua thực nghiệm bài toán lựa chọn số Nơron lớp ẩn bằng 1.5 lần số đầu vào cụ thể là 24 nơron.

Số nơron lớp ra

là: Nhập học hoặc không nhập học. + Mô hình mạng Noron như sau:

Hình 3.12. Mô hình cấu trúc mạng No ron MLP Trong quá trình huấn luyện mạng ta sử dụng một số thuật toán: Trong quá trình huấn luyện mạng ta sử dụng một số thuật toán:

model = Sequential()

model.add(Dense(24, input_dim=16, activation='relu')) model.add(Dense(16, activation='relu'))

model.add(Dense(2, activation='softmax')) model.summary()

trong đó có một số hàm như:

+ Các hàm kích hoạt trên từng lớp.

Các nơ-ron ở tầng trước đó sẽ là đầu vào cho mỗi nơ ron và sử dụng một hàm kích hoạt ReLU để tính toán đầu ra.

𝒁(𝑙+1) = 𝑾(𝑙+1). 𝒂(𝑙) 𝒂(𝑙+1) = 𝑓(𝒛(𝑙+1))

Quá trình suy luận từ tầng vào tới tầng ra của mạng nơ ron là quá trình lan truyền tiến (feedforward), tức là đầu vào các nơ ron tại một tầng đều lấy kết quả các nơ-ron từ tầng trước đó mà không có quá trình suy luận ngược lại.

Hàm kích hoạt được sử dụng trong lớp vào và lớp ẩn là hàm ReLU, hàm này rất thuận lợi khi sử dụng cho các mạng huấn luyện bằng thuật toán lan truyền ngược BP.

+ Hàm ReLu

Hàm ReLU đang được sử dụng trong mô hình vì những lý do sau:

𝑦 = 𝑓(𝑁𝑒𝑡𝑖) = 1

1 + 𝑒−𝑁𝑒𝑡𝑖

- Tốc độ hội tụ nhanh hơn. - Tính toán chính xác hơn.

- ReLU giúp cho việc huấn luyện các Model nhanh hơn rất nhiều

3.7. Huấn luyện mạng nơ-ron model

Bảng 3.1. Dữ liệu tạo Model với một số đặc trưng cơ bản

Từ dữ liệu ban đầu, muốn xây dựng Model dự đoán cho nhà trường để sử dụng trong những năm tiếp theo. Chẳng hạn như muốn đưa ra dự đoán khả năng nhập học của học sinh trong năm tiếp theo dựa vào giá trị trung bình của những đặc trưng cơ bản.

Dữ liệu có hiện tại là dữ liệu từng năm, để mạng nơron MLP có thể học được, cần phải có sự so sánh cụ thể của các cột như sau:

Bảng 3.2. Một số đặc trưng giá trị trung bình

Sử dụng sự so sánh của các cột giá trị đặc trưng để xây dựng mô hình dự báo cho những học sinh trong năm, tác giả tạo bảng gồm 2520 hàng (row) dữ liệu với 26 đặc trưng (column).

Bảng 3.3. Thông số trong model

Để mạng nơron dự báo tốt, cần chọn các thông số thích hợp cho mạng. Thông số thích hợp thường phụ thuộc nhiều vào dữ liệu, một thông số có thể tốt cho dữ liệu này nhưng lại kém khi sử dụng ở dữ liệu khác.

Trong bảng gồm 2520 (row) dữ liệu với 26 đặc trưng (column) ta dùng hàm để đưa vào những đặc trưng có tác động tới mô hình.

Như vậy ta sẽ sử dụng mạng nơron có 16 đầu vào và 2 đầu ra. Dữ liệu có dạng như bảng sau:

Bảng 3.4. Mạng nơ ron với số đầu vào và ra Tiến hành huấn luyện mạng và cho biết thông số đầu ra. Tiến hành huấn luyện mạng và cho biết thông số đầu ra.

Sử dụng các thuật toán trong mô hình: model = Sequential()

model.add(Dense(24, input_dim=16, activation='relu'))

model.add(Dense(16, activation='relu'))

model.add(Dense(2, activation='softmax'))

model.summary()

Trong mô hình mạng Noron với 2 đầu ra nên ta sử dụng một số hàm và công cụ đo để có độ chính xác như sau:

+ Hàm Softmax

Hàm Softmax được sử dụng ở mô hình nhằm đánh giá xác suất phân loại của dữ liệu đầu vào. Ngoài ra, hàm Softmax cũng thường được sử dụng để tính toán trọng số cho dữ liệu.

+ Hàm tối ưu adam

Adam sử dụng là chọn một cách thích nghi một tỷ lệ học tập riêng cho từng tham số. Các thông số thường nhận được các bản cập nhật nhỏ hơn hoặc ít thường xuyên hơn sẽ nhận được các bản cập nhật lớn hơn với Adam.

Các lợi ích của thuật toán Adam

- Không khó khăn để triển khai thực hiện - Độ phức tạp hiệu quả

- Ít bộ nhớ yêu cầu.

- Thích hợp với các bài toán có độ biến thiên không ổn định và dữ liệu traning phân mảnh.

- Các siêu tham số được biến thiên một cách hiệu quả và yêu cầu ít điều chỉnh. + Công cụ đo: metrics

Khi xây dựng mô hình dự báo chúng ta sẽ muốn biết một cách khái quát tỷ lệ các trường hợp được dự báo đúng trên tổng số các trường hợp là bao nhiêu. Tỷ lệ đó được gọi là độ chính xác. Độ chính xác giúp ta đánh giá hiệu quả dự báo của mô hình trên một bộ dữ liệu. Độ chính xác càng cao thì mô hình càng chuẩn xác. Trong các

metrics đánh giá mô hình phân loại thì độ chính xác là metric khá được ưa chuộng vì nó có công thức tường minh và dễ diễn giải ý nghĩa .

Sau đó, chúng ta khởi tạo các tham số và huấn luyện MLP với 500 epoch. Giá trị loss được lưu sau mỗi 500 epoch. Thông tin huấn luyện MLP như sau:

Hình 3.13: Giá trị loss sau mỗi epoch + Hàm mất mát loss: + Hàm mất mát loss:

Hàm loss sẽ chỉ ra mô hình đoán sai bao nhiêu so với giá trị thực tế. Dựa trên phản hồi, mô hình có thể sửa những lỗi sai trước đó. Quá trình này lặp đi lặp lại cho đến khi mô hình đạt đến một độ chính xác nhất định.

Với dữ liệu kiểm tra đầu ra của mạng cũng xấp xỉ đầu ra yêu cầu (tức là đầu ra thực của dữ liệu học). Qua đó cho thấy mạng nơron MLP học khá tốt.

+ Precision: trả lời cho câu hỏi trong các trường hợp được dự báo là tốt thì có bao nhiêu trường hợp là đúng. Và tất nhiên đọ chính xác càng cao thì mô hình của chúng ta càng tốt trong việc dự báo. Precision sẽ cho chúng ta biết mức độ chuẩn xác của mô hình đối với các mô hình được dự báo là xấu. [17]

Precision = 𝑇𝑃

total predicted positive=

+ Recall: đo lường tỷ lệ dự báo chính xác các trường hợp positive trên toàn bộ các mẫu thuộc nhóm positive. Để tính được recall thì chúng ta phải biết trước nhãn của dữ liệu. Do đó recall có thể được dùng để đánh giá trên tập train và validation vì chúng ta đã biết trước nhãn. Trên tập test khi dữ liệu được coi như mới hoàn toàn và chưa biết nhãn thì chúng ta sẽ sử dụng precision. [18]

Recall= 𝑇𝑃

total actual positive =

𝑇𝑃 𝑇𝑃 + 𝐹𝑁

+ F1 score: trung bình điều hòa giữa precision và recall. Do đó nó đại diện hơn trong việc đánh gía độ chính xác trên đồng thời precision và recall. Nó được sử dụng để đánh giá hiệu suất của mô hình phân loại hoặc khuyến cáo

F1 = 2

precision−1+recall−1

Các giá trị mức dự đoán đối với học sinh, sinh viên được đưa ra là 63/1432 và không cảnh báo là 1369/1432. Và các công cụ đo như Accuracy, Precision, Recall, f1-Score đặt mức trong khoảng 92%-97%, đây là mức tương đối cao với bài toán dự báo.

3.8. Kiểm tra mạng nơ-ron Test

Sau khi đã tạo và lưu mô hình ta kiểm tra trên tập kiểm tra (test) dùng dữ liệu tuyển sinh của năm 2018 với một số đặc trưng cơ bản.

Xử lý với 16 đầu vào với giá trị trung bình của các đặc trưng cơ bản bao gồm 1432 hàng.

Sau khi Test trên tập với 2 đầu ra.

Sử dung hàm mất mát Loss để kiểm thử tập dữ liệu với 1432 dòng với 35us/sample mất 0.2712, mạng nơron chạy khá tốt với tỉ lệ lên tới 93.58 %.

Như vậy kết quả dự báo sử dụng công cụ là mạng nơron truyền thẳng với thuật toán lan truyền ngược sai số cho kết quả khuyến cáo tương đối chính xác, sai số là chấp nhận được.

+ Qua các kết quả thực nghiệm thu được trong quá trình thử nghiệm trên công cụ dự báo trong luận văn đã chỉ ra được những điều sau:

- Mạng nơron nhân tạo ứng dụng tốt trong bài toán đưa ra.

- Mức độ chính xác của mô hình phụ thuộc vào rất nhiều thông số, tuy nhiên lại chưa có một phương pháp nào để xác định được chính xác định tính cũng như định lượng của các thông số. Do đó phải sử dụng phương pháp thực nghiệm để tìm ra giá trị thông số tối ưu.

- Số liệu của mỗi học sinh có đặc trưng riêng và thông số tối ưu thay đổi theo mức độ đặc trưng của số liệu.

TÓM TẮT CHƯƠNG 3

Như vậy, trong chương 3 tác giả đã giới thiệu khái quát về trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa Vũng Tàu, với những thông tin tổng quan về lịch sử hình thành của trường. Về quy trình nghiên cứu áp dụng cho luận văn, tác giả đã mô tả dữ liệu trình bày từng bước thực hiện các công đoạn nghiên cứu của mình và phân tích chọn lọc ra các đặc trưng có ảnh hưởng đến kết quả dự đoán khả năng nhập học của học sinh. Từ đó làm nền tảng cho việc thực hiện nghiên cứu chính thức đưa ra các biểu đồ giúp đánh giá dữ liệu từ huấn luyện, kiểm tra, đánh giá đo độ chính xác khả năng dự đoán.

NHẬN XÉT KẾT LUẬN, HƯỚNG PHÁT TRIỂN

Luận văn nghiên cứu mạng nơron nhân tạo, mô hình mạng nơron truyền thẳng được huấn luyện với giải thuật lan truyền ngược cho bài toán xây dựng mô hình dự đoán khả năng nhập học của học sinh sinh viên Trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa - Vũng Tàu.

1. Ưu điểm

- Luận văn đã nghiên cứu các kiến thức cơ bản về mạng nơ ron nhân tạo, đặc biệt tác giả đã nghiên cứu kỹ mạng nơ ron lan truyền thẳng được huấn luyện bằng thuật toán lan truyền ngược nhằm đạt tới kết quả tốt nhất.

- Luận văn cũng đã xây dựng được mô hình dự đoán khả năng nhập học của học sinh sinh viên Trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa - Vũng Tàu trong những năm tiếp theo.

- Kết quả dự đoán của mô hình đã đóng góp cho nhà trường lên những ý tưởng và đặt ra các chiến lược tuyển sinh thu hút học sinh tới nhập học tại trường.

2. Nhược điểm

- Tìm hiểu thực nghiệm thành công trên dữ liệu tuyển sinh của trường trong thời gian 5 năm từ 2015 đến 2019.

- Dữ liệu mới chỉ áp dụng cho trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa – Vũng Tàu và chưa thể áp dụng ngay cho nhiều đơn vị khác.

3. Phạm vi ứng dụng của đề tài

- Mô hình có thể áp dụng cho các trường Trung cấp, Cao đẳng, Đại học. Tuy nhiên cần điều chỉnh lại cho phù hợp với chiến lược tuyển sinh của từng trường.

- Cấu trúc mô hình chỉ phù hợp cho nhà trường, nếu đơn vị khác phải điều chỉnh lại mạng nơ ron cho phù hợp.

4. Hướng phát triển của đề tài trong năm tiếp theo

Việc sử dụng Mạng Nơron nhân tạo trong việc phân tích dữ liệu và đưa ra dự báo khả năng nhập học là một phương pháp hiệu quả, khách quan và khoa học nhằm nhằm hỗ trợ công tác tư vấn tuyển sinh ngày càng tốt hơn.

Những kết quả thực nghiệm khả quan dựa trên nghiên cứu về ứng dụng mạng nơron nhân tạo với thuật toán học là lan truyền ngược sai số trong bài toán bài toán xây dựng mô hình dự đoán khả năng nhập học của học sinh sinh viên vào Trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa - Vũng Tàu trong năm tới cho thấy đây là một

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng hệ thống dự đoán khả năng nhập học của học sinh vào trường cao đẳng kỹ thuật công nghệ bà rịa vũng tàu (Trang 68)