Thực nghiệm đánh giá

Một phần của tài liệu 28029_1712202001911173DoMinhPhat.compressed (Trang 74 - 93)

3.2.2.1. Phân t́ch

Để đánh giá hiệu suất c a một cây quyết đ̣nh ng i ta th ng sử ḍng một tập dữ liệu tách r i, tập này khác với tập dữ liệu huấn luyện để đánh giá kh năng phân lo i c a cây. Trong luận văn này tôi dùng một tập dữ liệu đầu vào cần phân lo i, trên tập dữ liệu này tôi nhập sẵn thông tin dự kiến vào thuộc tính D b́o. Sau khi đ a tập dữ liệu này vào hệ thống, và hệ thống sẽ phân lo i đ a ra một kết qu dự báo mới. Hệ thống sẽ đối chiếu so sánh với giá tṛ thuộc tính dự báo dự kiến, làm nh vậy cho ta đ ợc kết qu đánh hiệu suất làm việc c a thuật toán.

Thao tác để thực hiện ch c năng này t i Menu Th c nghi m đ́nh gí, ta nhấn

Ch n file để chọn tập dữ liệu cần đánh giá và nhấn Th c nghi m đ́nh gí. Ta sẽ thu đ ợc kết qu phân lo i c a hệ thống và các số liệu thống kê (Hình 3.12).

Tôi tiến chọn dữ liệu thực nghiệm là toàn bộ dữ liệu c a học sinh thuộc khối 11 t i tr ng THPT V n T ng để ch y kiểm thử hệ thống. Đây là dữ liệu về thông tin cá nhân cũng nh kết qu học tập và rèn luyện c a học sinh trong học kì 1, năm học 2018-2019 đ ợc trích xuất từ CSDL qu n lí học sinh c a đơn ṿ vàđ ợc nhập b̉ sung thông tin dự báo có kh năng bỏ học hay không (Yes/No) để so sánh đối chiếu với kết qu do hệ thống phân lo i.

B ng dữ liệu kiểm thử có 430 học sinh, trong đó:

 Học lực Giỏi: 40; Khá: 162; Trung bình: 166; Yếu: 60; Kém: 2 học sinh.  H nh kiểm Tốt: 282; Khá 114; Trung bình: 29; Yếu: 5 học sinh.

 Hoàn c nh gia đình Bình th ng: 406; Kinh tế khó khăn: 15; B o lực gia đình: 03; M̀ côi cha mẹ: 02; Cha mẹ li hôn: 04.

 L u ban 14; không l u ban 416.

Sau khi thực hiện ch c năng Th c nghi m đ́nh gí ta thu đ ợc kết qu với độ chính xác khá cao khi so sánh với kết qu dự kiến. Trong t̉ng số 430 tr ng hợp thì có 406 tr ng hợp phân lo i đúng dự kiến đ t t̉ lệ 94.42% và 24 tr ng hợp dựđoán không đúng dự kiến, t̉ lệ 5.58%. (Hình 3.12)

H̀nh 3.12. Đ́nh gíđ̣ hịu qủ c̉a thụt tón C4.5

H̀nh 3.13. Th́ng kê t ḷ ḍ b́o

94.42% 5.58%

Đ́nh gí đ chính x́c c a thu t tón

Phân lo i đúng

Số l ợng học sinh có kh năng bỏ học theo kết qu dự báo c a ch ơng trình là 24/430 em, chiếm t̉ lệ 5.58%. Hệ thống cũng có kh năng thống kê học sinh bỏ học theo từng nguyên nhân.

 Kết qu dự báo bỏ học theo Học lực

B ng 3.1. Thống kê t̉ lệ dự báo học sinh bỏ học theo Học lực.

TT Học lực Số l ợng Kh năng bỏ học T̉ lệ% 1 Giỏi 40 0 0.00 2 Khá 162 2 1.23 3 Trung bình 166 8 4.82 4 Yếu 60 7 11.67 5 Kém 2 2 100.00

B ng trên cho thấy về mặt học lực học sinh ngh̉ học tập trung vào nhóm học sinh có học lực Yếu, Kém. Học sinh có học lực Kém kh năng bỏ học rất cao, tiếp đến là học lực Yếu, Trung bình, r̀i Khá. Đối với đối t ợng học sinh có học lực Khá cũng có kh năng bỏ học tuy nhiên t̉ lệ không cao. Học sinh Giỏi hầu nh không cóỦ đ̣nh bỏ học.

 Kết qu dự báo bỏ học theo H nh kiểm

B ng 3.2. Thống kê t̉ lệ dự báo học sinh bỏ học theo H nh kiểm.

TT H nh kiểm Số l ợng Kh năng bỏ học T̉ lệ%

1 Tốt 282 0 0.00

2 Khá 114 3 2.63

3 Trung bình 29 11 37.93

4 Yếu 5 5 100.00

T ơng tự học lực thì h nh kiểm cũng tập trung học sinh bỏ học vào nhóm học sinh có h nh kiểm Yếu và TB.

 Kết qu dự báo bỏ học theo Hoàn c nh gia đình

B ng 3.3. Thống kê t̉ lệ dự báo học sinh bỏ học theo Hoàn c nh gia đình. TT Hoàn c nh gia đình Số l ợng Kh năng bỏ học T̉ lệ% 1 KTKK 15 5 33.33 2 BLGD 3 2 66.67 3 BT 406 6 1.48 4 MCCM 2 2 100.00 5 CMLH 4 4 100.00

Học sinh có hoàn c nh gia đình đặc biệt nh : Cha mẹ li hôn, B o lực gia đình, M̀ côi cha mẹ sẽ rơi vào nhóm bỏ học rất cao, ngoài ra Kinh tế gia đình khó khăn cũng có kh năng bỏ học cao.

 Kết qu dự báo bỏ học theo diện L u ban

B ng 3.4. Thống kê t̉ lệ dự báo học sinh bỏ học theo diện L u ban.

TT L u ban Số l ợng Kh năng bỏ học T̉ lệ%

1 Có 14 3 21.43

2 Không 416 16 3.85

T̉ lệ học sinh l u ban cónguy cơ bỏ học chiếm t̉ lệ cũng khá cao. 3.2.2.2. Đ́nh gí ḱt qủ th nghịm

Sau khi đ a Hệ thống dự báo học sinh bỏ học vào kiểm nghiệm thực tế với 430 mẫu dữ liệu, tôi rút ra đ ợc những nhận xét, đánh giá một cách t ơng đối về hệ thống nh sau:

 Hệ thống đ ợc triển khai cài đặt dễ dàng, dễ sử ḍng.

 Hệ thống ho t động ̉n đ̣nh, hiển tḥ kết qu nhanh chóng và rất thuận tiện.  Hệ thống đư xử lỦ và cho ra đ ợc những dự đoán có độ chính xác cao (94.42%), đ m b o độ tin cậy, phù hợp với những tính toán thực tế.

 Hệ thống cũng đ a ra đ ợc số liệu thống kê riêng cho từng nguyên nhân bỏ học, ta thấy nguyên nhân bỏ học phần lớn là học sinh có học lực Yếu (11.67%), Kém (100%); h nh kiểm tập trung nhóm Trung bình (37.93%) và yếu (100%); Hoàn c nh gia đình tập trung nhóm học sinh có Cha mẹ lí hôn (100%) hoặc b o lực gia đình (100%). Đây cũng là kết qu ph n ánh đúng thực tế với các tr ng hợp học sinh bỏ học hiện nay.

 Kết qu dự báo c a hệ thống là ngùn thông tin vô cùng hữu ích cho Cán bộ qu n lí, GVCN và gia đình học sinh để từ đó có những quan tâm, sâu sát hơn, tìm hiểu đ ợc nguyên nhân các em muốn bỏ học để ḳp th i có những biện pháp phù hợp ngăn chặn. Chẳng h n với các em thuộc nhóm có nguy cơ bỏhọc do thành tích học tập kém thì Nhà tr ng có biện pháp kèm cặp giúp các em có ph ơng pháp học tập phù hợp để nâng cao thành tích học tập. Với những em có thành tích học tập tốt nh ng vẫn thuộc nhóm có nguy cơ bỏhọc thì giáo viên cần gần gũi để tìm hiểu nguyên nhân tác động trực tiếp, từ đó đ a ra biện pháp hợp lỦ nhằm ngăn chặn tình tr ng bỏ học ph̉ biến nh hiện nay.

3.2.3. Trỉn khai s̉ dng h thng

Với những kết qu đ t đ ợc trên dữ liệu thử nghiệm ta có thể triển khai sử ḍng hệ thống với dữ liệu thực tế t i đơn ṿ. Ch c năng này cho phép áp ḍng các luật đ ợc sinh ra từ tập dữ liệu huấn luyện b̉i thuật toán C4.5, để xử lí các tr ng hợp trong thực tế.

T i tr ng THPT V n T ng và các tr ng THPT trên đ̣a b n t̉nh Qu ng Ngưi hiện nay đang triển khai các ng ḍng qu n lí CSDL về học sinh nh : qu n lí các thông tin cá nhân học sinh, hoàn c nh gia đình cũng nh thông tin về quá trình rèn

luyện và học tập c a học sinh nh điểm, thông tin về h nh kiểm v.v…Vì vậy, ta có thể sử ḍng dữ liệu c a CSDL đó để khai thác hệ thống dự báo học sinh bỏ học.

Có nhiều cách để đ a dữ liệu vào ng ḍng: có thể nhập trực tiếp từ Form nhập liệu, hoặc có thể lấy dữ liệu từ file Excel hay cập nhật dữ liệu từ CSDL qu n lí học sinh ̉đơn ṿ.

 Nhập dữ liệu trực tiếp từ Form: Cách này cho phép ta nhập từng b n ghi, thực hiện bằng cách đ a thông tin vào giao diện nhập liệu và nhấn nút C p nh t.

Nhập dữ liệu qua File chuẩn ḅ tr ớc: Là phần giúp ng i dùng đ a dữ liệu vào hệ thống bằng cách nhập đầy đ thông tin có liên quan vào một File mẫu có cấu trúc thống nhất theo đ̣nh d ng File Excel (*.xlsx). Để thực hiện, trong khung File d li u Excel nhn Ch n File, tiếp theo chọn File dữ liệu l u trữ trên máy để chọn và sau đó nhấn vào lệnh L u d liu đểl u vào hệ thống.

 Cập nhật dữ liệu từ CSDL Qu n lỦ học sinh: Có thể đ a dữ liệu trực tiếp từ CSDL qu n lỦ học sinh c a đơn ṿ bằng cách nhấn vào lệnh C p nh t d li u h c sinh THPT.

H̀nh 3.14. Giao dịn nḥp d̃ lịu

Tḥc hịn vịc phân lọi ḍ b́o: Phần bên d ới c a khung ng d ng sẽ hiển tḥ dữ liệu đ ợc đ a vào. Sau đó, để xem kết qu dự báo ta nhấn nút lệnh Thc hin phân lp và ta có đ ợc kết qu phân lo i ̉ cột Du_Bao là Yes hay No ng với học sinh có kh năng bỏ học hay không. Đây là kết qu áp ḍng tập luật đ ợc sinh ra từ thuật toán C4.5 vào dữ liệu thực tế.

Sau khi thực hiện một trong ba cách trên, ta đư đ a đ ợc dữ liệu vào hệ thống để xử lỦ, dữ liệu sẽđ ợc hiển tḥ̉ khung bên d ới.

H̀nh 3.15. Hỉn tḥ ḱt qủ ḍ b́o

H̀nh 3.16. Xut ḱt qủ ḍ b́o ra File Excel

Xut ḱt qủ ra file Excel: Kết qu dự báo kh năng bỏ học c a học sinh có thể đ ợc xuất ra File Excel để l u trữ và xử lí. Để thực hiện trong giao diện ng d ng

nhấn chọn lệnh Xút File Excel

Hệ thống hiện t i đ ợc xây dựng có thể cập nhật dữ liệu đầu vào d ới d ng file Excel hoặc cập nhật trực tiếp từ form, nên để hệ thống vận hành đ ợc với dữ liệu hiện có t i đơn ṿ ta cần trích các dữ liệu từ CSDL đó và chuyển về file Excel có cấu trúc giống tập dữ liệu đầu vào và ch̉ cần cập nhật vào hệ thống là có thể khai thác đ ợc.

Để việc sử ḍng ng ḍng này hiệu qu , ta cần thực hiện theo quy trình sau:  Đầu tiên cần có một bộ dữ liệu huấn luyện tốt: Dựa vào kết qu thực nghiệm đánh giá c a ch ơng trình ta có thể b̉ sung vào b ng dữ liệu huấn luyện các tr ng hợp có kh năng đ a ra dự báo chính xác, từ đó sinh ra tập luật đ m b o độ tin cậy cao.

 Tiếp theo trích xuất dữ liệu trong CSDL qu n lí học sinh sang file Excel theo đúng cấu trúc File dữ liệu đầu vào c a ch ơng trình, ph i đ m b o đúng cấu trúc và có các thuộc tính cần thiết trong tập dữ liệu huấn luyện.

 Sau đó đ a File dữ liệu này vào ch ơng trình để thực hiện việc phân lo i đ a ra kết qu dự báo học sinh có kh năng bỏ học hay không.

ng ḍng này có thểđ ợc cài đặt trên máy tính c a GVCN, Cán bộ qu n lí. Với việc sử ḍng hệ thống dự báo này, tôi tin rằng lưnh đ o nhà tr ng cũng nh GVCN có thể biết sớm đ ợc thông tin học sinh có kh năng bỏ học hay không, để từđó có các ph ơng pháp giáo ḍc phù hợp nhằm nâng cao chất l ợng giáo ḍc, h n chế tình tr ng học sinh bỏ học và thực hiện tốt các nhiệm ṿ giáo ḍc c a ngành.

3.3. T̉ng k tăch ngă3

Trong ch ơng này, luận văn đư sử ḍng bộ dữ liệu Test_bochoc.xlsx để kiểm ch ng thuật toán xây dựng cây quyết đ̣nh C4.5. Bộ dữ liệu này có 430 b n ghi với 4 thuộc tính, nó rất phù hợp trong việc sử ḍng cây quyết đ̣nh để phân lo i học sinh. Đ̀ng th i, dựa vào kết qu dự báo c a hệ thống luận văn đư phân tích, đánh giá kết qu thực nghiệm trên cơ s̉đó có thể vận ḍng hệ thống để xử lỦ các tình huống trong thực tế.

K T LU N 1. K t qủđ tăđ c

Về lỦ thuyết, luận văn đư trình bày đ ợc cơ s̉ lỦ thuyết liên quan đến khai phá dữ liệu, phân lớp dữ liệu, thuật toán xây dựng cây quyết đ̣nh C4.5. Nêu và phân tích đ ợc thực tr ng, nguyên nhân học sinh bỏ học với t̉ lệ cao hiện nay.

Luận văn này cũng sử ḍng những lỦ thuyết trên để xây dựng hệ thống phân tích, đánh giá dự báo kh năng bỏ học c a học sinh.

Hệ thống xây dựng đ ợc các ch c năng cơ b n để kiểm tra đánh giá m c độ hiệu qu c a thuật toán C4.5 và các ch c năng khác pḥc ṿ trong công tác dự báo kh năng bỏ học c a học sinh nhằm giúp cán bộ qu n lỦ, giáo viên ch nhiệm có tr ớc những thông tin để từđó cóph ơng pháp giáo ḍc phù hợp nhằm ngăn chặn tình tr ng bỏ học ph̉ biến nh hiện nay.

B ớc đầu hệ thống ho t động hiệu qu với dữ liệu kiểm nghiệm và cho kết qu với độ chính xác cao; hệ thống cũng phân tích, thống kê đ ợc các nguyên nhân c̣ thể nhằm giúp lưnh đ o nhà tr ng ńm b́t thông tin dự báo về tình hình học sinh bỏ học một cách chi tiết hơn.

2. H n ch

Ch a kết nối và truy xuất dữ liệu trực tiếp với CSDL qu n lí học sinh t i đơn ṿ, nên dữ liệu vào cho hệ thống mới thực hiện đ ợc với d ng file Excel. Do đó c̀n thao tác th công để lấy dữ liệu từ CSDL c a đơn ṿ chuyển sang Excel r̀i mới đ a vào hệ thống để xử lí.

Việc xác đ̣nh nguyên nhân bỏ học c a học sinh mang nặng tính chất đ̣nh tính nên nhiều tr ng trong thực tế kết qu không đ ợc phân lo i chính xác.

Luận văn ch̉ mới nghiên c u về kh năng bỏ học c a học sinh với hai lớp, tuy nhiên để tăng độ chính xác c a việc dự báo ta có thể phân ra thành nhiều lớp nh kh năng bỏ học ̉ m c độ cao, vừa và thấp hoặc có thể đ̣nh l ợng kh năng bỏ học c a học sinh bằng con số bao nhiêu phần trăm.

3. H ng ph́t trỉn

Tiếp ṭc nghiên c u các thuật toán khai phá dữ liệu bằng cây quyết đ̣nh nh thuật toán C5, thuật toán CHAID, thuật toán MARS để nâng cao hiệu qu mô hình.

Cần b̉ sung thêm dữ liệu cho tập huấn luyện để mô hình cây quyết đ̣nh có độ tin cậy cao hơn và ho t động hiệu qu hơn.

Tiếp ṭc nghiên c u để có thể phân lo i kết qu dựđoán thành nhiều lớp và tăng độ chính xác trong công tác dự báo, hoặc đ̣nh l ợng phần trăm kh năng học sinh có thể bỏ học.

Cần thử nghiệm và kết nối trực tiếp với hệ thống CSDL hiện có t i đơn ṿ để nâng hiệu qu , tiết kiệm th i gian thực hiện trong công tác qu n lí.

Xây dựng giao diện đ̀ họa trực quan hơn để dễ dàng t ơng tác với ng i dùng, ệ ố ầ ỗ ợ ề c nănghơn cho ng ù

TĨIăLI UăTHAMăKH O Ti ng Vi t

[1] Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Tḥy (2016), Giáo trình khai phá dữ liệu, Nhà xuất b n Đ i học Quốc gia thành phố Hà Nội.

[2] Hoàng Kiếm, Đỗ Phúc (2005), Giáo trình khai phá dữ liệu, Trung tâm nghiên c u phát triển công nghệ thông tin, Đ i học Quốc gia thành phố H̀ Chí Minh. [3] Nguyễn Nhật Quang – Viên Công nghệ Thông tin và Truyền thông, Bài gi ng

khai phá dữ liệu.

[4] Nguyễn Văn Sự (2012), Luận văn th c sĩ “Khai phá dữ liệu bằng cây quyết đ̣nh và ng ḍng trong hệ hỗ trợ quyết đ̣nh”.

[5] Võ Huỳnh Trâm, Trần Ngân Bình (2006), Giáo trình trí tuệ nhân t o, Ch ơng 9 Học máy,NXB Đ i học Cần Thơ.

[6] Công văn số 496/SGDĐT-VP ngày 27 tháng 3 năm 2017 c a S̉ Giáo ḍc và

Một phần của tài liệu 28029_1712202001911173DoMinhPhat.compressed (Trang 74 - 93)

Tải bản đầy đủ (PDF)

(93 trang)