Hệ thống đ ợc xây dựng ph i đáp ng các ch c năng cơ b n sau: 3.1.1.1. Ḷa cḥn nguồn d̃ lịu
Ch c năng này cho phép ng i dùng có thể lựa chọn dữ liệu từ nhiều ngùn khác nhau để làm dữ liệu đầu vào cho hệ thống xử lỦ. Ngùn dữ liệu ̉ đây có thể từcác hệ qu n tṛ CSDL khác nhau nh : Microsoft Access, Microsoft SQL Sever, MySQL, Oraccle, … hoặc có thể là các tập tin dữ liệu đ ợc l u trữ d ới d ng Excel. Để thống nhất quá trình xử c a hệ thống, dữ liệu sau khi đ a vào hệ thống đ ợc xử lỦ chuyển về l u trữ theo cấu trúc d ng XML. Các thao tác xử lí c a hệ thống sau đó sẽ thực hiện trên file XML đưl u trữ.
3.1.1.2. Xây ḍng cây quýt đ̣nh
Đây là ch c năng quan trọng c a hệ thống. Nó sẽ phân tích dữ liệu trên tập dữ liệu huấn luyện và lựa chọn các thuộc tính tốt nhất để xây dựng cây quyết đ̣nh.
3.1.1.3. Chuỷn cây v̀ ḍng lụt
Từ cây quyết đ̣nh đư đ ợc xây dựng, ch c năng này sẽ rút ra một tập các luật đơn gi n, giúp ng i dùng dễ dàng hiểu và ńm b́t đ ợc các quy luật xử lỦ dữ liệu c a hệ thống. Bộ luật này sẽ đ ợc ng ḍng vào xử lỦ các tình huống c̣ thể đối với tập dữ liệu thực tế.
3.1.1.4. Xử lý d̃ lịu ḍa trên ṭp lụt thuđực từ cây quýt đ̣nh
Dựa vào các luật đ ợc rút ra từ cây quyết đ̣nh, ta có thể xây dựng ch c năng xử lỦ dữ liệu giúp ng i dùng có thể nhận đ ợc kết qu dự báo một cách dễ dàng.
3.1.1.5. Đ́nh gí mức đ̣ hịu qủ thụt tón
Dựa vào kết qu đánh giá thuật toán trên bộ dữ liệu kiểm thử, ta có thể b̉ sung, xây dựng tập dữ liệu huấn luyện đ t m c độ tin cậy hơn.
3.1.2. Kiến trúc tổng th̉ c a hệ thống
Qua phân tích những ch c năng trên ta có thể xây dựng kiến trúc t̉ng thể c a hệ thống g̀m 3 phần nh sau:
Ph nă1:Đầu vào hệ thống là tập dữ liệu huấn luyện, dữ liệu kiểm thử và dữ liệu cần dự báo.
Ph nă2: Phần này là thành phần chính c a hệ thống. Bao g̀m lớp giao diện để t ơng tác với ng i dùng, lớp tiềnxử lỦ dữ liệu và lớp phân tích dữ liệu.
Ph nă3: Đầu ra c a hệ thống là cây quyết đ̣nh, tập luật và kết qu áp ḍng tập luật để dự báo kh năng bỏ học c a học sinh.
3.1.3. Đặc tả chi tiết các th̀nh phần
H̀nh 3.1. Kín trúc t̉ng th̉ c̉a ḥ th́ng
Dữ liệu đầu v̀o (Input): Đầu vào c a hệ thống là các tệp dữ liệu l u trữ d ới d ng file Excel (*.xls hoặc *.xlsx), g̀m tệp dữ liệu huấn luyện, tệp dữ liệu kiểm thử và dữ liệu cần xử lỦ. Sau khi chuyển dữ liệu vào từ file Excel, hệ thống sẽ xử lỦl u trữ dữ liệu về d ng XML.
Tệp dữ liệu huấn luyện: Đây là tệp ch a dữ liệu huấn luyện để máy học. Trong tệp này, mỗi d̀ng ngvới một ví ḍ, đ ợc mô t nh hình 3.2 d ới đây.
Tệp dữ liệu kỉm th̉: Tệp này về mặt cấu trúc g̀m các thuộc tính cần thiết ch a thông tin c a học sinh cần qu n lỦ, trong tệp này sẽ ch a các thuộc tính c a tệp dữ liệu huấn luyện. Ṃc đích tệp này ch a dữ liệu dùng để đánh giá hiệu suất c a cây quyết đ̣nh đ ợc sinh ra b̉i tập dữ liệu huấn luyện.
Hình 3.3. Cấu trúc ṭp d̃ lịu kỉm thử
Tiền x̉ lý dữ liệu (Data Pre – processing Layer – DPL)
Sau khi ng i dùng chọn tệp dữ liệu huấn luyện Excel cần xử lỦ, DPL sẽ tiến hành phân tích tiền xử lỦ dữ liệu để lo i bỏ dữ liệu trùng, dữ liệu trống, dữ liệu số, dữ liệu không đúng đ̣nh d ng và l u dữ liệu vào file XML để xử lỦ.
Phân tích dữ liệu: (Data Analysing Layer – DAL)
DAL là thành phần qu n trọng nhất c a hệ thống. Trong lớp này, gi i thuật C4.5 có nhiệm ṿ phân tích các tệp dữ liệu đầu vào, thực hiện các b ớc lựa chọn thuộc tính và xây dựng cây quyết đ̣nh, đ̀ng th i rút ra một tập các luật để kiểm tra l i tập b̉i dữ liệu kiểm thử.
Quá trình phân tích dữ liệu diễn ra nh sau:
Hình 3.5. Mô t̉ qú tr̀nh phân t́ch d̃ lịu
D li uăđ u ra
Sau khi xử lỦ, hệ thống sẽ đ a ra cây quyết đ̣nh và tập các luật đ ợc sinh ra từ tập dữ liệu huấn luyện, đ̀ng th i hệ thống cũng tính toán vàđ a ra kết qu quyết đ̣nh từ các tập dữ liệu đầu vào. Từđó ta có thể cài đặt ng ḍng và tiến hành kiểm thử toàn bộ hệ thống.
3.1.4. C̀i đặt ch ơng trình
Hệ thống dự báo kh năng bỏ học c a học sinh đ ợc xây dựng trên nền t ng ng ḍng Desktop. Sử ḍng ngôn ngữ Visual C# 2013 và triển khai thử nghiệm t i tr ng THPT V n T ng t̉nh Qu ng Ngưi.
Cấu hình yêu cầu để cài đặt nh sau: Hệđiều hành Windows 7, 8, 10. Microsoft Framework 5.0. Visual C# 2013. Microsoft SQL Sever. Ch ơng trình hoàn ch̉nh sẽ đ ợc đóng gói, khi đ a vào sử ḍng ng i dùng ch̉ việc cài đặt và sử ḍng nh các ch ơng trình khác.
3.1.5. Giao diện v̀ các ch c năng c a ch ơng trình.
Ch ơng trình có giao diện trực quan, dễ sử ḍng, thao tác dễ dàng. Giao diện chính c a ch ơng trình có các ch c năng sau:
Import dữ liệu huấn luyện: Đ a dữ liệu mẫu vào cho máy để máy học, thực hiện tiền xử lí dữ liệu vàl u vào tệp.
Xử lí dữ liệu bằng thuật toán C4.5 và sinh ra tập luật từ dữ liệu huấn luyện. Vẽ cây: Đ a ra cây quyết đ̣nh đối với tập dữ liệu huấn luyện.
Đánh giá m c độ hiệu qu c a thuật toán: Tính t̉ lệ phân lớp thành công dựa trên bộ dữ liệu độc lập với dữ liệu huấn luyện.
ng ḍng: Vận ḍng tập luật đ ợc sinh ra từ thuật toán C4.5 để xử lỦ với dữ liệu c̣ thể trong thực tế, dữ liệu trong ng ḍng đ ợc lấy từ nhiều ngùn khác nhau nh : nhập trực tiếp từ Form nhập liệu, từ file Excel hoặc từ CSDL khác.
Giao diện chính c a ch ơng trình: Các ch c năng chính thể hiện trên thanh b ng chọn (Menu).
3.2. Th ănghi măch ngătrìnhă
3.2.1. Huấn luyện cây quyết định
Ch c năng này cho phép lấy dữ liệu huấn luyện vào cho hệ thống, đây là tập dữ liệu để máy học tập. Dữ liệu huấn luyện có thể đ ợc cập nhật vào hệ thống từ File Excel.
Để thực hiện: Chọn vào Menu Dữ liệu huấn luyện, sau đó chọn File dữ liệu huấn luyện đưl u trong máy tính đểđ a vào hệ thống.
H̀nh 3.7. Cḥn d̃ lịu huấn luỵn
Hỉn tḥ d̃ lịu huấn luỵn: Sau khi chọn tập dữ liệu huấn luyện, nội dung c a tập dữ liệu này đ ợc hiển tḥ ngay bên d ới khung giao diện hệ thống với ṃc đích giúp ng i dùng kiểm tra l i dữ liệu đ a vào chính xác hay ch a tr ớc khi đ a vào sử ḍng.
H̀nh 3.8. Hỉn tḥ d̃ lịu huấn luỵn
Tìn xử lý d̃ lịu: Sau khi lấy dữ liệu huấn luyện vào hệ thống, cần thực hiện qua thao tác tiền xử lỦ dữ liệu để lo i bỏ dữ liệu trùng, dữ liệu trống, dữ liệu số liên ṭc, dữ liệu không đúng đ̣nh d ng theo yêu cầu bằng cách nhấn vào lệnh Tiền x̉ lí dữ
liệu.
H̀nh 3.9. D̃ lịu qua tìn xử lý d̃ lịu
Hỉn tḥ cây quýt đ̣nh đ̃ huấn luỵn: Sau khi chọn file dữ liệu huấn luyện, ta nhấn vào menu Ṽ cây để xây cây quyết đ̣nh, kết qu bên d ới sẽ hiển tḥ cây quyết đ̣nh ng với dữ liệu huấn luyện, giúp chúng ta dễ so sánh, kiểm tra.
H̀nh 3.10. Cây quýt đ̣nh ứng v́i d̃ lịu huấn luỵn
Hỉn tḥ d̃ lịu ḍng lụt: Là ch c năng sinh ra luật c a hệ thống từ thuật toán C4.5 ng với tập dữ liệu huấn luyện.
H̀nh 3.11. Ṭp lụt ứng v́i d̃ lịu lịu huấn luỵn
Để thực hiện ta chọn Menu Sinh luật với thuật toán C4.5, và sau đó nhấn lệnh
3.2.2. Thực nghiệm đánh giá
3.2.2.1. Phân t́ch
Để đánh giá hiệu suất c a một cây quyết đ̣nh ng i ta th ng sử ḍng một tập dữ liệu tách r i, tập này khác với tập dữ liệu huấn luyện để đánh giá kh năng phân lo i c a cây. Trong luận văn này tôi dùng một tập dữ liệu đầu vào cần phân lo i, trên tập dữ liệu này tôi nhập sẵn thông tin dự kiến vào thuộc tính D b́o. Sau khi đ a tập dữ liệu này vào hệ thống, và hệ thống sẽ phân lo i đ a ra một kết qu dự báo mới. Hệ thống sẽ đối chiếu so sánh với giá tṛ thuộc tính dự báo dự kiến, làm nh vậy cho ta đ ợc kết qu đánh hiệu suất làm việc c a thuật toán.
Thao tác để thực hiện ch c năng này t i Menu Th c nghi m đ́nh gí, ta nhấn
Ch n file để chọn tập dữ liệu cần đánh giá và nhấn Th c nghi m đ́nh gí. Ta sẽ thu đ ợc kết qu phân lo i c a hệ thống và các số liệu thống kê (Hình 3.12).
Tôi tiến chọn dữ liệu thực nghiệm là toàn bộ dữ liệu c a học sinh thuộc khối 11 t i tr ng THPT V n T ng để ch y kiểm thử hệ thống. Đây là dữ liệu về thông tin cá nhân cũng nh kết qu học tập và rèn luyện c a học sinh trong học kì 1, năm học 2018-2019 đ ợc trích xuất từ CSDL qu n lí học sinh c a đơn ṿ vàđ ợc nhập b̉ sung thông tin dự báo có kh năng bỏ học hay không (Yes/No) để so sánh đối chiếu với kết qu do hệ thống phân lo i.
B ng dữ liệu kiểm thử có 430 học sinh, trong đó:
Học lực Giỏi: 40; Khá: 162; Trung bình: 166; Yếu: 60; Kém: 2 học sinh. H nh kiểm Tốt: 282; Khá 114; Trung bình: 29; Yếu: 5 học sinh.
Hoàn c nh gia đình Bình th ng: 406; Kinh tế khó khăn: 15; B o lực gia đình: 03; M̀ côi cha mẹ: 02; Cha mẹ li hôn: 04.
L u ban 14; không l u ban 416.
Sau khi thực hiện ch c năng Th c nghi m đ́nh gí ta thu đ ợc kết qu với độ chính xác khá cao khi so sánh với kết qu dự kiến. Trong t̉ng số 430 tr ng hợp thì có 406 tr ng hợp phân lo i đúng dự kiến đ t t̉ lệ 94.42% và 24 tr ng hợp dựđoán không đúng dự kiến, t̉ lệ 5.58%. (Hình 3.12)
H̀nh 3.12. Đ́nh gíđ̣ hịu qủ c̉a thụt tón C4.5
H̀nh 3.13. Th́ng kê tỉ ḷ ḍ b́o
94.42% 5.58%
Đ́nh gí đ chính x́c c a thu t tón
Phân lo i đúng
Số l ợng học sinh có kh năng bỏ học theo kết qu dự báo c a ch ơng trình là 24/430 em, chiếm t̉ lệ 5.58%. Hệ thống cũng có kh năng thống kê học sinh bỏ học theo từng nguyên nhân.
Kết qu dự báo bỏ học theo Học lực
B ng 3.1. Thống kê t̉ lệ dự báo học sinh bỏ học theo Học lực.
TT Học lực Số l ợng Kh năng bỏ học T̉ lệ% 1 Giỏi 40 0 0.00 2 Khá 162 2 1.23 3 Trung bình 166 8 4.82 4 Yếu 60 7 11.67 5 Kém 2 2 100.00
B ng trên cho thấy về mặt học lực học sinh ngh̉ học tập trung vào nhóm học sinh có học lực Yếu, Kém. Học sinh có học lực Kém kh năng bỏ học rất cao, tiếp đến là học lực Yếu, Trung bình, r̀i Khá. Đối với đối t ợng học sinh có học lực Khá cũng có kh năng bỏ học tuy nhiên t̉ lệ không cao. Học sinh Giỏi hầu nh không cóỦ đ̣nh bỏ học.
Kết qu dự báo bỏ học theo H nh kiểm
B ng 3.2. Thống kê t̉ lệ dự báo học sinh bỏ học theo H nh kiểm.
TT H nh kiểm Số l ợng Kh năng bỏ học T̉ lệ%
1 Tốt 282 0 0.00
2 Khá 114 3 2.63
3 Trung bình 29 11 37.93
4 Yếu 5 5 100.00
T ơng tự học lực thì h nh kiểm cũng tập trung học sinh bỏ học vào nhóm học sinh có h nh kiểm Yếu và TB.
Kết qu dự báo bỏ học theo Hoàn c nh gia đình
B ng 3.3. Thống kê t̉ lệ dự báo học sinh bỏ học theo Hoàn c nh gia đình. TT Hoàn c nh gia đình Số l ợng Kh năng bỏ học T̉ lệ% 1 KTKK 15 5 33.33 2 BLGD 3 2 66.67 3 BT 406 6 1.48 4 MCCM 2 2 100.00 5 CMLH 4 4 100.00
Học sinh có hoàn c nh gia đình đặc biệt nh : Cha mẹ li hôn, B o lực gia đình, M̀ côi cha mẹ sẽ rơi vào nhóm bỏ học rất cao, ngoài ra Kinh tế gia đình khó khăn cũng có kh năng bỏ học cao.
Kết qu dự báo bỏ học theo diện L u ban
B ng 3.4. Thống kê t̉ lệ dự báo học sinh bỏ học theo diện L u ban.
TT L u ban Số l ợng Kh năng bỏ học T̉ lệ%
1 Có 14 3 21.43
2 Không 416 16 3.85
T̉ lệ học sinh l u ban cónguy cơ bỏ học chiếm t̉ lệ cũng khá cao. 3.2.2.2. Đ́nh gí ḱt qủ thử nghịm
Sau khi đ a Hệ thống dự báo học sinh bỏ học vào kiểm nghiệm thực tế với 430 mẫu dữ liệu, tôi rút ra đ ợc những nhận xét, đánh giá một cách t ơng đối về hệ thống nh sau:
Hệ thống đ ợc triển khai cài đặt dễ dàng, dễ sử ḍng.
Hệ thống ho t động ̉n đ̣nh, hiển tḥ kết qu nhanh chóng và rất thuận tiện. Hệ thống đư xử lỦ và cho ra đ ợc những dự đoán có độ chính xác cao (94.42%), đ m b o độ tin cậy, phù hợp với những tính toán thực tế.
Hệ thống cũng đ a ra đ ợc số liệu thống kê riêng cho từng nguyên nhân bỏ học, ta thấy nguyên nhân bỏ học phần lớn là học sinh có học lực Yếu (11.67%), Kém (100%); h nh kiểm tập trung nhóm Trung bình (37.93%) và yếu (100%); Hoàn c nh gia đình tập trung nhóm học sinh có Cha mẹ lí hôn (100%) hoặc b o lực gia đình (100%). Đây cũng là kết qu ph n ánh đúng thực tế với các tr ng hợp học sinh bỏ học hiện nay.
Kết qu dự báo c a hệ thống là ngùn thông tin vô cùng hữu ích cho Cán bộ qu n lí, GVCN và gia đình học sinh để từ đó có những quan tâm, sâu sát hơn, tìm hiểu đ ợc nguyên nhân các em muốn bỏ học để ḳp th i có những biện pháp phù hợp ngăn chặn. Chẳng h n với các em thuộc nhóm có nguy cơ bỏhọc do thành tích học tập kém thì Nhà tr ng có biện pháp kèm cặp giúp các em có ph ơng pháp học tập phù hợp để nâng cao thành tích học tập. Với những em có thành tích học tập tốt nh ng vẫn thuộc nhóm có nguy cơ bỏhọc thì giáo viên cần gần gũi để tìm hiểu nguyên nhân tác động trực tiếp, từ đó đ a ra biện pháp hợp lỦ nhằm ngăn chặn tình tr ng bỏ học ph̉ biến nh hiện nay.
3.2.3. Trỉn khai s̉ dụng hệ thống
Với những kết qu đ t đ ợc trên dữ liệu thử nghiệm ta có thể triển khai sử ḍng hệ thống với dữ liệu thực tế t i đơn ṿ. Ch c năng này cho phép áp ḍng các luật đ ợc sinh ra từ tập dữ liệu huấn luyện b̉i thuật toán C4.5, để xử lí các tr ng hợp trong thực tế.
T i tr ng THPT V n T ng và các tr ng THPT trên đ̣a b n t̉nh Qu ng Ngưi hiện nay đang triển khai các ng ḍng qu n lí CSDL về học sinh nh : qu n lí các