Phân tích, lựa chọn đặc trưng

2.3 .Hàm xử lý

3.3. Phân tích, lựa chọn đặc trưng

Để xác định được đặc trưng nào có ảnh hưởng đến mơ hình dự đốn ta phân tích từng đặc trưng qua đó lựa chọn các đặc trưng có ảnh hưởng đến kết quả dự đoán, các đặc trưng khác sẽ bị loại ra.

Dựa vào những thông tin của học sinh, sinh viên ta chia làm 2 nhóm đặc trưng cơ bản như sau:

+ Nhóm thơng tin chung: họ và tên, ngày sinh, nơi sinh, quê quán. + Nhóm thơng tin ngành học và kết quả học tập.

- Ngành học: việc chọn ngành học là một trong những việc quan trọng đối với giới trẻ hiện nay khơng ít những học sinh, sinh viên chọn sai ngành dẫn đến việc nghỉ học do năng lực, sở thích và những đặc trưng cơ bản của từng ngành mà các em chưa tìm hiểu kỹ trước khi lựa chọn.

- Tổng số các môn học trong 2 học kỳ đầu: tùy theo từng ngành nghề mà 2 học kỳ đầu có tổng số mơn học với số lượng khác nhau.

Ví du: học kỳ 1 của ngành cơng nghệ ô tô là 6 môn, điện công nghiệp 7 môn, công nghệ thông tin 8 môn, may và thiết kế thời trang 7 môn, chế tạo khuôn mẫu 6 môn.

- Điểm tổng kết của từng môn ở 2 học kỳ đầu: Với tổng số môn học cho từng kỳ, qua đó mỗi học sinh, sinh viên cũng có số điểm tổng kết cho từng mơn học cụ thể qua bảng kết quả học tập, rèn luyện tồn khóa như hình sau:

Bảng 3.1: Bảng dữ liệu kết quả học tập rèn luyện

- Tổng số buổi vắng trong học kỳ 1 và 2: được thống kê trong học kỳ và dựa vào từng môn học cụ thể, hiện nay, quy chế đào tạo tín chỉ nhà trường quy định nếu sinh viên vắng mặt quá 20% số giờ trên lớp sẽ bị cấm dự thi cuối học kỳ và phải nhận điểm 0 cho mơn học đó. Nếu nợ q nhiều mơn thì ảnh hưởng đến tiến độ học tập của các em, chưa kể các em nản chí, bỏ học.

- Số lần cảnh cáo kỷ luật: học sinh, sinh viên có hành vi phạm nội quy, quy chế, thì tùy vào tính chất, mức độ và hậu quả của hành vi vi phạm thì sẽ bị nhắc nhở, phê bình hoặc chịu các hình thức xử lý kỷ luật khác như: khiển trách, cảnh cáo, đình chỉ có thời hạn, buộc thơi học

- Nợ học phí từng kỳ: theo quy định, học phí đóng từng học kỳ nhưng nhiều học sinh, sinh viên vẫn nợ học phí nhiều năm dẫn tới việc bị cấm thi các môn học.

- Bảo lưu: học sinh, sinh viên do công việc cá nhân không thể tiếp tục theo học được nhưng vẫn muốn bảo lưu kết quả học tập để giải quyết việc cá nhân sau đó

tiếp tục theo học vào thời gian tới.

- Số mơn cịn nợ trong học kỳ: là tất cả những môn học có điểm thi hoặc điểm tổng kết <5, những môn này học sinh, sinh viên phải thi lại hoặc đăng kí học lại để cải thiện điểm.

- Điểm tích lũy theo kỳ, năm, tồn khóa: là điểm trung bình của tất cả các mơn học được tính theo thang điểm 4, qua đó đánh giá được năng lực học tập của học sinh, sinh viên qua từng kỳ, năm, tồn khóa.

- Xếp loại rèn luyện: Dùng để đánh giá và phân loại kết quả rèn luyện của học sinh, sinh viên theo từng học kỳ, từng năm học và tồn khóa học.

Đối với điểm tổng kết các môn trong học kỳ ta sẽ phân loại ra số mơn đạt điểm giỏi, khá, trung bình, yếu dựa vào bảng điều kiện phân loại học lực:

Stt Điểm tổng kết Học lực

1 ĐTK>=8 Giỏi

2 8<ĐTK>=6.5 Khá

3 6.5<ĐTK>=5 Trung bình

4 ĐTK<5 Yếu

Bảng 3.2: Bảng điều kiện phân loại học lực

Ngồi ra cịn có các yếu tố khác: Ảnh hưởng của quy chế thi cử, điều kiện kinh tế xã hội, sức khỏe, tâm lý, sở thích, gia đình, bạn bè có tác động rất ít đến dự đốn kết quả học tập của sinh viên nên được loại bỏ ra khỏi dữ liệu.

Từ 2 nhóm đặc trưng cơ bản của dữ liệu và dựa vào phân tích những tính chất của từng đặc trưng ta thấy một số thơng tin có ảnh hưởng tới mơ hình dự báo khả năng nghỉ học như: khóa học, q qn, tổng số mơn học kỳ 1,2, điểm tổng kết các môn học kỳ 1,2 (đã phân loại số mơn đạt điểm giỏi, khá, trung bình, yếu), số buổi vắng học kỳ 1,2, số lần cảnh cáo kỷ luật, số môn nợ học kỳ 1,2, bảo lưu học kỳ 1,2, thơi học, cịn học. Ta có bảng dữ liệu phân bổ như sau:

Bảng 3.3: Bảng dữ liệu tính chất đặc trưng của mơ hình

3.4. Tiền xử lý dữ liệu cho mơ hình.

Tiền xử lý dữ liệu là một bước rất quan trọng trong việc xây dựng mơ hình huấn luyện mạng Nơron. Hầu hết các bộ dữ liệu được sử dụng trong mạng Nơron cần được xử lý và biến đổi trước khi mạng Nơron có thể được huấn luyện trên những bộ dữ liệu này.

Ở mơ hình này mạng Nơron chỉ xử lý tín hiệu đầu vào tốt nếu như chúng ta biến đổi dữ liệu ra dạng thập phân nằm trong khoảng [0, 1] cụ thể như sau. Từ bảng phân tích và lựa chọn đặc trưng cho dữ liệu như Bảng 3.3 ở trên ta tiếp tục biến đổi thông tin của các đặc trưng như sau:

- Sinh viên trong tỉnh: sinh viên trong tỉnh 0, ngồi tỉnh 1 - Nợ học phí học kỳ 2: học phí chưa hồn thành 1, hồn thành 0. - Số lần cảnh cáo kỷ luật học kỳ 1,2: cảnh cáo 1, không cảnh cáo 0 - Bảo lưu: không bảo lưu 0, bảo lưu 1

- Số môn đạt điểm giỏi: Là tất cả số môn đạt điểm giỏi trong tổng số môn trong học kỳ.

- Số môn đạt điểm khá: Là tất cả số môn đạt điểm khá trong tổng số môn trong học kỳ.

- Số mơn đạt điểm trung bình: Là tất cả số mơn đạt điểm trung bình trong tổng số mơn trong học kỳ.

- Số môn đạt điểm yếu: Là tất cả số môn đạt điểm yếu trong tổng số môn trong học kỳ.

- Tỉ lệ yếu cả năm: bằng tổng số tỉ lệ yếu của học kỳ 1 và học kỳ 2.

Vì số mơn đạt điểm giỏi và khá chiếm tỉ lệ rất nhỏ khi ta thực hiện chia lấy giá trị trung bình nên tỉ lệ giỏi và khá được cộng lại với nhau.

- Tùy theo từng ngành nghề mà số lượng các môn học trong học kỳ cũng khác nhau, hệ cao đẳng số lượng các môn học nhiều hơn hệ trung cấp.

Ví dụ: Ngành cơng nghệ ơ tơ học kỳ 1 năm nhất là 10 môn, điện công nghiệp 7, cơng nghệ thơng tin 9, kế tốn doanh nghiệp 8… Đối với hệ ngành công nghệ ô tô hệ trung cấp là 8 mơn, cao đẳng là 10 mơn.

Vì vậy để thuận tiện cho việc xây dựng dữ liệu cho mơ hình thì đưa về dạng tỷ lệ để dữ liệu được gom về trong giới hạn từ 0 đến 1.

Bảng 3.4: Dữ liệu mạng nơron với số đầu vào

Trong Bảng 3.4 do tỉ lệ khá, giỏi chiếm tỉ lệ nhỏ nên ở đây ta cộng lại và được thực hiện như sau:

Tỷ lệ khá, giỏi HK1 = số môn đạt điểm khá HK1 + số môn đạt điểm giỏi HK1 ∑ số mơn có trong học kỳ 1

Tỷ lệ trung bình học kỳ 1, tỷ lệ yếu học kỳ 1, tỷ lệ khá, giỏi học kỳ 2, tỷ lệ trung bình học kỳ 2, tỷ lệ yếu học kỳ 2, tỉ lệ yếu cả năm cũng thực hiện tương tự như công thức trên.

Dữ liệu đầu vào cho việc huấn luyện từ khối dữ liệu ban đầu là 2432 học sinh, sinh viên thuộc 2 nhóm với rất nhiều thơng tin đặc trưng, sau khi tiền xử lý ta đã lựa chọn ra 12 thơng tin đặc trưng có ảnh hưởng lớn tới dự báo của mơ hình và loại bỏ những học sinh, sinh viên khơng đầy đủ thơng tin cịn lại 583 học sinh, sinh viên. Và đây cũng là đầu vào cho việc huấn luyện mơ hình khuyến cáo.

3.5. Xây dựng mạng Nơron 3.5.1. Cấu trúc mạng Nơron 3.5.1. Cấu trúc mạng Nơron

Cấu trúc của một mạng nơron nhân tạo gồm 3 thành phần đó là: Input Layer, Hidden Layer và Output Layer. Trong đó, lớp ẩn (Hidden Layer) gồm các Nơron nhận dữ liệu Input từ các Nơron ở lớp (Layer) trước đó và chuyển đổi các input này cho nhiều lớp xử lý tiếp theo.

Đối với bài toán khuyến cáo trên chúng ta lựa chọn cấu trúc mạng nơron như sau:

Số nơron lớp vào

Trong luận văn lựa chọn 12 Nơron lớp vào tương ứng với 12 đặc trưng của bộ dữ liệu.

Số nơron lớp ẩn

Để lựa chọn được chính xác số nơron cho lớp ẩn là rất khó vì vậy số nơron lớp ẩn sẽ được lựa chọn qua thực nghiệm của bài toán.

Qua thực nghiệm bài toán lựa chọn số nơron lớp ẩn bằng 1.5 lần số đầu vào cụ thể là 18 nơron.

Số nơron lớp ra

Bài toán đặt ra là khuyến cáo số lượng học sinh có kết quả học tập thấp dẫn đến khả năng nghỉ học cao. Do vậy sẽ có 2 đầu ra là: Khuyến cáo hoặc khơng.

+ Mơ hình mạng Nơron như sau:

Hình 3.2: Mơ hình cấu trúc mạng Nơron MLP

Trong quá trình huấn luyện mạng ta sử dụng một số thuật toán: model = Sequential()

model.add(Dense(18, input_dim=12, activation='relu')) model.add(Dense(12, activation='relu'))

model.add(Dense(2, activation='softmax')) model.summary()

trong đó có một số hàm như:

+ Các hàm kích hoạt trên từng lớp.

Mỗi nơron sẽ nhận tất cả đầu vào từ các nơron ở tầng trước đó và sử dụng một hàm kích hoạt ReLU để tính tốn đầu ra.

𝒁(𝑙+1) = 𝑾(𝑙+1). 𝒂(𝑙)

𝒂(𝑙+1) = 𝑓(𝒛(𝑙+1))

Quá trình suy luận từ tầng vào tới tầng ra của mạng Nơron là quá trình lan truyền tiến (feedforward), tức là đầu vào các nơron tại 1 tầng đều lấy từ kết quả các nơron tầng trước đó mà khơng có q trình suy luận ngược lại.

Hàm kích hoạt được sử dụng trong lớp vào và lớp ẩn là hàm ReLU, hàm này rất thuận lợi khi sử dụng cho các mạng huấn luyện bằng thuật toán lan truyền ngược BP, bởi nó rất dễ lấy đạo hàm.

Hàm ReLU đang được sử dụng trong mơ hình vì những lí do sau: 𝑦 = 𝑓(𝑁𝑒𝑡𝑖) = 1

1 + 𝑒−𝑁𝑒𝑡𝑖

- Trong hàm Relu tốc độ hội tụ nhanh hơn. - Tính tốn nhanh hơn so với các hàm khác

- ReLU giúp cho việc training các Model nhanh hơn rất nhiều

3.5.2. Huấn luyện mạng Nơron cho mơ hình.

Sử dụng tập dữ liệu đầu vào sau tiền xử lý như Hình 3.5 cho bài tốn nên phương án giải bài toán sẽ là khuyến cáo dạng hồi quy. Tức là sử dụng dữ liệu của những năm trước để dự báo cho những năm tiếp theo.

Trong mơ hình mạng Nơron với 2 đầu ra nên ta sử dụng một số hàm và cơng cụ đo để có độ chính xác như sau:

+ Hàm Softmax

Hàm Softmax được sử dụng ở mơ hình nhằm đánh giá xác suất phân loại của dữ liệu đầu vào. Ngoài ra, hàm Softmax cũng thường được sử dụng để tính tốn trọng số cho dữ liệu.

+ Hàm tối ưu adam

Adam sử dụng là chọn một cách thích nghi một tỷ lệ học tập riêng cho từng tham số. Các thông số thường nhận được các bản cập nhật nhỏ hơn hoặc ít thường xuyên hơn sẽ nhận được các bản cập nhật lớn hơn với Adam. Điều này tăng tốc độ học tập trong trường hợp tỷ lệ học tập phù hợp khác nhau giữa các tham số.

Các lợi ích của thuật tốn Adam

- Khơng khó khăn để triển khai thực hiện cho mơ hình - Dùng để xử lý độ phức tạp hiệu quả

- Ít bộ nhớ yêu cầu.

- Thích hợp với các bài tốn có độ biến thiên không ổn định và dữ liệu traning phân mảnh.

- Các siêu tham số được biến thiên một cách hiệu quả và yêu cầu ít điều chỉnh. + Hàm mất mát loss:

Hàm loss sẽ chỉ ra mơ hình đốn sai bao nhiêu so với giá trị thực tế. Dựa trên phản hồi, mơ hình có thể sửa những lỗi sai trước đó. Q trình này lặp đi lặp lại cho đến khi mơ hình đạt đến một độ chính xác nhất định.

+ Cơng cụ đo: metrics

Khi xây dựng mơ hình khuyến cáo chúng ta sẽ muốn biết một cách khái quát tỷ lệ các trường hợp được khuyến cáo đúng trên tổng số các trường hợp là bao nhiêu. Tỷ lệ đó được gọi là độ chính xác. Độ chính xác giúp ta đánh giá hiệu quả dự báo của mơ hình trên một bộ dữ liệu. Độ chính xác càng cao thì mơ hình càng chuẩn xác. Trong các metrics đánh giá mơ hình phân loại thì độ chính xác là metric khá được ưa chuộng vì nó có cơng thức tường minh và dễ diễn giải ý nghĩa .

Sau đó khởi tạo các tham số và huấn luyện MLP 200 lần epoch với batch_size =10. Giá trị loss được lưu sau mỗi 200 epoch. Một số thơng tin huấn luyện MLP trong mơ hình như sau.

Ở đây Learning_rate Epoch 198/200

583/583 [==============================] - 0s 132us/sample - loss: 0.114 6 - acc: 0.9640 được gán bằng 0.9640.

Nhìn vào đồ thị Hình 3.3 cho thấy độ phù hợp của mơ hình dự báo có giá trị huấn luyện là 0.9640, chỉ biến động từ Epoch 1 đến Epoch 20 theo phương thẳng đứng còn lại từ Epoch 20 đến Epoch 200 là tương đối đều nhau các giá trị này ở mức tương đối cao, điều này cho thấy kết quả của dự báo mang tính chính xác, cho ra kết quả có độ tin cậy cao.

Hình 3.3: Đồ thị thể hiện mức độ học của MLP

Với dữ liệu kiểm tra và quan sát trên đồ thị thể hiện mức độ học của MLP, đầu ra của mạng cũng xấp xỉ đầu ra yêu cầu (tức là đầu ra thực của dữ liệu học). Chúng ta dễ dàng nhận thấy mạng nơron MLP học khá tốt. Tuy nhiên tại một số điểm vẫn cịn lỗi nhỏ trong mơ hình.

+ Precision: trả lời cho câu hỏi trong các trường hợp được dự báo là tốt thì có bao nhiêu trường hợp là đúng. Và tất nhiên độ chính xác càng cao thì mơ hình của chúng ta càng tốt trong việc khuyến cáo. Precision sẽ cho chúng ta biết mức độ chuẩn xác của mơ hình đối với các mơ hình được dự báo là xấu. [17]

Precision = 𝑇𝑃

total predicted positive=

𝑇𝑃 𝑇𝑃 + 𝐹𝑃

+ Recall: đo lường tỷ lệ dự báo chính xác các trường hợp positive trên toàn bộ các mẫu thuộc nhóm positive. Để tính được recall thì chúng ta phải biết trước nhãn của dữ liệu. Do đó recall có thể được dùng để đánh giá trên tập train và validation vì chúng ta đã biết trước nhãn. Trên tập test khi dữ liệu được coi như mới hoàn toàn và chưa biết nhãn thì chúng ta sẽ sử dụng precision. [18]

Recall= 𝑇𝑃

total actual positive =

𝑇𝑃 𝑇𝑃 + 𝐹𝑁

+ F1 score: trung bình điều hịa giữa precision và recall. Do đó nó đại diện hơn trong việc đánh gía độ chính xác trên đồng thời precision và recall. Nó được sử dụng để đánh giá hiệu suất của mơ hình phân loại hoặc khuyến cáo

F1 = 2

precision−1+recall−1

Hình 3.4: Kết quả huấn luyện của mạng

Trong Hình 3.4 cho thấy các giá trị mức cảnh báo đối với học sinh, sinh viên được đưa ra là 96/583 và không cảnh báo là 487/583. Và các công cụ đo như

Accuracy, Precision, Recall, f1-Score đặt mức trong khoảng 85%-96%, đây là mức tương đối cao với bài toán dự báo.

3.5.3. Kiểm thử mạng nơron

Dữ liệu dùng để kiểm thử là thông tin học sinh, sinh viên của nhà trường được lấy từ năm 2018 đến năm 2019 với tổng số là của 411 học sinh, sinh viên khóa T19,T20 hệ trung cấp và CD9, CD10, của hệ cao đẳng thuộc các khoa Điện, Cơ khí, Cơng nghệ thơng tin, May thời trang và chế biến thực phẩm, đã được chọn lựa.

Tập dữ liệu kiểm thử đã qua các bước trích xuất đặc trưng và tiền xử lý giống như dữ liệu của huấn luyện với 12 Nơron lớp vào và 02 Nơron lớp ra.

Đưa vào mơ hình xử lý với giá trị trung bình của các đặc trưng cơ bản bao gồm

Thuật toán sử dụng trong hàm

GIỚI THIỆU VỀ MẠNG NƠRON