1. Trang chủ
  2. » Luận Văn - Báo Cáo

BÁO CÁO "ỨNG DỤNG KHAI PHÁ DỮ LIỆU XÂY DỰNG CÔNG CỤ DỰ ĐOÁN KẾT QUẢ HỌC TẬP CỦA SINH VIÊN " potx

8 1,2K 15

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 8
Dung lượng 536,21 KB

Nội dung

Nguyễn Trần Quốc Vinh Khoa Thống kê - Tin học, Trường Đại học Kinh tế, Đại học Đà Nẵng TÓM TẮT Trên cơ sở dữ liệu thông tin tuyển sinh đầu vào và kết quả học tập đã thu thập được của

Trang 1

1

ỨNG DỤNG KHAI PHÁ DỮ LIỆU XÂY DỰNG CÔNG CỤ

DỰ ĐOÁN KẾT QUẢ HỌC TẬP CỦA SINH VIÊN

THE APPLICATION OF DATA MINING FOR BUILDING TOOL TO FORCAST

THE LEARNING RESULTS OF STUDENTS

SVTH: Nguyễn Thị Thanh Thủy

Lớp 34K14, Khoa Thống kê - Tin học, Trường Đại học Kinh tế, Đại học Đà Nẵng

GVHD: TS Nguyễn Trần Quốc Vinh

Khoa Thống kê - Tin học, Trường Đại học Kinh tế, Đại học Đà Nẵng

TÓM TẮT

Trên cơ sở dữ liệu thông tin tuyển sinh đầu vào và kết quả học tập đã thu thập được của sinh viên thuộc hệ đào tạo chính quy của một trường cao đẳng ở Miền Trung, đề tài tiến hành nghiên cứu các kỹ thuật cho phép phân lớp trong khai phá dữ liệu, ứng dụng các kỹ thuật đó để xây dựng mô hình dự đoán kết quả học tập của sinh viên Đề tài tiến hành so sánh kết quả của các

kỹ thuật để lựa chọn kỹ thuật cho kết quả chính xác nhất Từ đó, xây dựng chương trình dự báo kết quả học tập cho mỗi sinh viên để tư vấn cho sinh viên chọn lộ trình học phù hợp nhất để đạt được kết quả học tập cao nhất

Từ khóa: Sinh viên; các kỹ thuật; kết quả; dự đoán kết quả học tập; dữ liệu

ABSTRACT

Basing on the university entrance examination enrollment and result data of students studying at a Junior college in central Viet Nam, this studies different techniques for classification tasks by exploiting the above data and applies these techniques to formulate a model for student’s academic result prediction This also compares the effectiveness of each technique to that of the others to finally select the best one that will be used as the foundation for establishing a program of student’s academic result prediction so as to advise students the most suitable way of study for the best academic result

Key words: Student; techniques; result; academic result prediction; data

1 Đặt vấn đề

Ngày nay, các trường đại học và cao đẳng đã chuyển sang đào tạo theo học chế tín chỉ Việc tư vấn học tập, chủ yếu liên quan đến việc lựa chọn lộ trình học phù hợp nhằm đạt được kết quả học tập cao nhất cho mỗi sinh viên được đặc biệt quan tâm Đó cũng là khó khăn chung không chỉ của mỗi sinh viên, mà còn của các bên tham gia tư vấn, từ các tổ chức quản lý trong trường đại học cho đến các cán bộ được phân công chuyên trách như giảng viên chủ nhiệm Các giảng viên chuyên trách không thể tiếp cận toàn bộ dữ liệu về điểm của sinh viên Ngay cả với các cấp quản lý, bằng cảm tính hoặc suy luận thủ công từ khối dữ liệu khổng lồ để đưa ra những tư vấn tốt trong việc chọn lộ trình học cho mỗi sinh viên không phải là khả thi Tại Việt Nam, việc nghiên cứu khai phá dữ liệu trong lĩnh vực giáo dục đào tạo còn chưa được quan tâm đúng mức Đã có một số công trình được công bố

sử dụng hồ sơ cá nhân cũng như điểm đầu vào để dự báo kết quả học tập toàn khoá hoặc giai đoạn của sinh viên, nhưng tác giả chưa gặp công trình nghiên cứu nào có sử dụng lộ trình học để dự báo kết quả học tập

Trang 2

2

Vì vậy, đề tài “Ứng dụng khai phá dữ liệu xây dựng công cụ dự đoán kết quả học tập của sinh viên” đi sâu vào việc khai phá dữ liệu từ thông tin cá nhân, điểm tuyển sinh đầu vào kết hợp với lộ trình học để dự đoán kết quả học tập của sinh viên Đề tài tiến hành nghiên cứu các kỹ thuật cho phép phân lớp trong khai phá dữ liệu, ứng dụng các kỹ thuật

đó để xây dựng các mô hình dự đoán kết quả học tập của sinh viên bằng công cụ SQL Server Business Intelligence Development Studio Từ đó, đánh giá và lựa chọn mô hình cũng như kỹ thuật cho kết quả dự đoán tốt nhất để ứng dụng và xây dựng chương trình dự báo kết quả học tập cho mỗi sinh viên Kết quả dự đoán đó có thể được dùng để tư vấn cho sinh viên lựa chọn lộ trình học phù hợp để đạt được kết quả học tập cao nhất

2 Phân tích xây dựng mô hình

Quá trình khai phá dữ liệu được tiến hành theo quy trình chuẩn, bao gồm các bước thu thập, làm sạch, trích lọc, chuyển đổi dữ liệu về dạng phù hợp, ứng dụng kỹ thuật khai phá

dữ liệu để xây dựng mô hình và đánh giá kết quả thu được

Nguồn dữ liệu cho việc khai phá nhằm dự đoán kết quả học tập sẽ được thu thập từ nhiều nguồn dữ liệu khác nhau Hồ sơ cá nhân của sinh viên đã nộp vào trường để dự tuyển được phân công nhập vào các bảng tính excel, bao gồm các thông tin như họ tên, ngày sinh, nơi sinh, phái, dân tộc, khu vực, điểm ưu tiên Ngoài hồ sơ mà thí sinh nộp vào trường còn một nguồn dữ liệu quan trọng khác đó là dữ liệu từ kết quả thi tuyển hằng năm như số báo danh, khối thi, ngành chọn thi, điểm thi các môn, điểm ưu tiên, kết quả (Đậu, Hỏng) Nguồn dữ liệu quan trọng nữa, đó là thông tin kết quả học tập toàn khoá cũng như các môn học mỗi sinh viên chọn học ở mỗi học kỳ như: mã sinh viên, ngành học, môn học, kết quả Dữ liệu cần xử lý được thu thập từ các bộ phận quản lý Vì vậy, dữ liệu có tính trung thực cao, hầu hết đều phản ánh đúng ngữ nghĩa Tuy nhiên, do bộ phận quản lý hay thay đổi và hệ thống lưu trữ quản lý thông tin sinh viên chưa được nâng cao, nên dữ liệu thu thập không được liên tục theo thời gian, một số trường dữ liệu bị thiếu do việc cập nhật ban đầu không đầy đủ hoặc chưa được nhập liệu Từ đó loại bỏ ra các bản ghi có trường dữ liệu

bị thiếu hoặc bị trùng lặp, các môn học, ngành học đều được quy ước mã Kết quả, tác giả thu được gần 70.000 bản ghi về điểm tổng kết học phần và dữ liệu cá nhân, tuyển sinh cho hơn 2000 sinh viên thuộc hệ đào tạo chính quy bậc cao đẳng tại một trường cao đẳng ở Miền Trung

Dữ liệu trong các tệp excel đó được chuyển vào cơ sở dữ liệu trong hệ quản trị Microsoft SQL Server 2008 R2 bằng chức năng Import Sau đó, chúng được tổ chức dưới dạng có thể sử dụng để khai phá bằng cách thiết kế và thực hiện các lệnh truy vấn SQL Đối với dữ liệu cần thiết để thực hiện nghiên cứu là lộ trình học, ta không thể liệt kê và gắn với mỗi sinh viên bằng các truy vấn SQL đơn giản Đề tài đề xuất xây dựng một công cụ riêng để thực hiện việc này bằng ngôn ngữ lập trình C#

2.1 Bài toán liệt kê lộ trình học của từng sinh viên

Lượng dữ liệu bao gồm thông tin cá nhân và tuyển sinh của hơn 2000 sinh viên thu thập được tổ chức thành một bảng tương ứng với hơn 2000 bản ghi, cùng với thông tin của

12 ngành học và 330 môn học của tất cả các ngành, cũng như gần 70.000 bản ghi chứa kết quả tổng kết học phần của số sinh viên đó Để liệt kê tất cả các lộ trình học mà sinh viên đã chọn và gắn với mỗi sinh viên, ta cần một cách thức biểu diễn lộ trình học nào đó Tác giả

Trang 3

3

đề xuất phân biệt lộ trình học theo cách thức: a) gắn môn học theo bước học (học kỳ) và sắp xếp các bộ này theo thứ tự tăng dần của môn học; b) bỏ qua thứ tự các môn học trong một bước bằng cách sắp xếp môn học theo thứ tự bảng chữ cái; c) so sánh hai lộ trình với nhau theo từng bộ môn học – học kỳ một từ đầu đến cuối lộ trình Nếu hai sinh viên học các môn học giống nhau trong cùng một học kỳ nhưng thứ tự sắp xếp các môn trong cùng học kỳ khác nhau, thì để nhận dạng đây là 2 lộ trình học khác nhau, ta phải so sánh như so sánh hai tập hợp Rõ ràng, cách tiếp cận này yêu cầu phức tạp và đòi hỏi nhiều tài nguyên

hệ thống hơn

Mỗi lộ trình sẽ được gán với một mã và mã này sẽ gắn với mỗi sinh viên để xác định lộ trình học của sinh viên đó Qua đó, có thể liệt kê danh sách tất cả lộ trình học cho từng ngành học

2.2 Xây dựng và lựa chọn mô hình

Sau khi nghiên cứu các kỹ thuật khai phá dữ liệu và các thuật toán tương ứng, đề tài

đề xuất lựa chọn mô hình dự đoán kết quả học tập của sinh viên theo cách tiếp cận xây dựng nhiều mô hình khác nhau theo các kỹ thuật và trường hợp dữ liệu đầu vào cho mô hình – có hay không có lộ trình học và lựa chọn mô hình cho kết quả dự đoán tốt nhất Các

kỹ thuật khai phá dữ liệu có thể cho phép phân lớp được đề xuất sử dụng là Decision Trees (cây quyết định, DT), Association Rules (luật kết hợp, AR) [8, 9] và phân lớp Naive Bayes (NB) Dữ liệu đầu vào bao gồm các thuộc tính sinh viên, phái, khối thi, dân tộc, huyện-tỉnh, khu vực, ưu tiên, điểm thi tuyển sinh, ngành học, kết quả học tập toàn khoá và có thể mã lộ trình học Nguồn dữ liệu bao gồm hơn 2000 bản ghi được chia thành hai tập với số lượng bản ghi tương ứng 70% để huấn luyện mô hình (Training Data: 70%) và 30% để kiểm tra

mô hình (Testing data: 30%)

Với công cụ Microsoft Bussines Intelligence Development Studio 2008 R2, tác giả

đã xây dựng được 6 mô hình Sau đó, dùng biểu đồ Lift Chart để kiểm tra độ chính xác của mỗi mô hình Kết quả cho thấy nếu kết hợp với lộ trình học, việc dự đoán kết quả học tập của sinh viên sẽ chính xác hơn Trong tường hợp này, mô hình cây quyết định đã xây dựng với khả năng đạt được mục tiêu là 96,15%, trong khi đó mô hình NaiveBayes là 93,59% và

mô hình luật kết hợp cho kết quả thấp hơn nhiều Chính vì thế, mô hình DecisionTrees được lựa chọn để xây dựng ứng dụng dự đoán kết quả học tập của sinh viên, qua đó, tư vấn cho sinh viên lựa chọn lộ trình học phù hợp để cho kết quả học tập toàn khoá cao nhất

2.3 Xây dựng ứng dụng dự đoán kết quả học tập

Với ý tưởng đã nêu, ứng dụng dự đoán kết quả học tập của sinh viên được xây dựng theo sơ đồ (xem Hình 1):

Trang 4

4

Hình1 Sơ đồ khối của chức năng dự đoán kết quả học tập

T

Đọc dữ liệu do người dùng nhập vào

Kết hợp tất cả các lộ trình với ngành học tương ứng

Kết nối đến Analysis Services

Kết nối

mở

Thông báo lỗi

Thông báo kết nối thành công

F

Thực thi câu lệnh truy vấn để dự đoán kết quả học tập

Hiển thị kết quả truy vấn lên DataGridView

Đóng kết nối

End

Trang 5

5

Để trình diễn kết quả nghiên cứu, tác giả chỉ xây dựng giao diện dự đoán kết quả học tập như trong hình vẽ bên dưới và chỉ cho phép tư vấn cho một sinh viên Khi triển khai ứng dụng, giao diện và chức năng sẽ được xây dựng tùy vào nhóm người dùng Chẳng hạn, với người dùng là giảng viên chủ nhiệm hoặc các cấp quản lý, ứng dụng có thể liệt kê thông tin của tất cả các sinh viên theo từng lớp, kết hợp với các lộ trình có thể, thực hiện dự báo

và trên cơ sở đó cho phép tư vấn cho từng sinh viên trong lớp Đối với sinh viên, giao diện

sẽ được thiết kế trong một trang web để sinh viên có thể truy cập từ xa

Hình 2 Giao diện dự đoán kết quả học tập

Khi người dùng chọn một lộ trình học, ứng dụng sẽ hiển thị chi tiết các môn học cùng với học kỳ của lộ trình học đó

Hình 3 Chi tiết lộ trình học

Trang 6

6

Ngồi ra, hệ thống cho phép xem các mơ hình đã được xây dựng nhằm hỗ trợ cho người dùng cuối là các nhà quản lý, khơng phải là các kỹ thuật viên xây dựng mơ hình Ngồi ra, dữ liệu đào tạo trong cơ sở dữ liệu cĩ thể được bổ sung theo thời gian, mơ hình đề xuất cĩ thể sẽ khơng cịn là tối ưu Vì vậy, ứng dụng cung cấp chức năng cho phép người dùng cuối – các nhà quản lý cập nhật mơ hình

Để xây dựng ứng dụng với các chức năng đã nêu, tác giả đã tiến hành nghiên cứu và

sử dụng thư viện API do Microsoft cung cấp cùng với ngơn ngữ truy vấn khai phá dữ liệu DMX – Data Mining Extensions

Hình 4 Giao diện xem các mơ hình khai phá dữ liệu

3 Kết luận

Đề tài đã nghiên cứu cơ sở lý thuyết liên quan đến ba kỹ thuật cây quyết định, luật kết hợp và Nạve Bayes, nghiên cứu quy trình triển khai ứng dụng khai phá dữ liệu Ngồi

ra, đề tài cũng tìm hiểu các vấn đề cơ bản về dịch vụ Microsoft SQL Server 2008 R2 Analysis Services và các cơng cụ liên quan

Đối với bài tốn dự đốn kết quả học tập cuối khĩa của sinh viên, đề tài đã đề xuất xây dựng sáu mơ hình dự đốn dựa trên các kỹ thuật cây quyết định, luật kết hợp và Nạve

Trang 7

7

Bayes với dữ liệu đầu vào bao gồm thông tin cá nhân, điểm tuyển sinh cũng như bao gồm hoặc không bao gồm lộ trình học Từ đó, so sánh sáu mô hình với nhau để chọn ra mô hình tối ưu Với dữ liệu huấn luyện ban đầu, mô hình cho phép phân tích các yếu tố ảnh hưởng đến kết quả học tập của sinh viên, mức độ tác động của từng yếu tố đầu vào, từ đó dự đoán được kết quả học tập cuối khóa của sinh viên qua việc kết hợp thông tin đầu vào và lộ trình học Bên cạnh đó, chuyên đề còn xây dựng được chương trình demo hiển thị các mô hình

đã xây dựng đến người dùng cuối

Nhìn chung, đề tài đã cơ bản hoàn thành các mục tiêu đề ra Để đưa mô hình dự đoán vào ứng dụng một cách hiệu quả hơn thì cần tiếp tục đầu tư thu thập dữ liệu sinh viên nhiều hơn nữa Triển khai dự đoán, kiểm chứng thực tế và đánh giá kết quả một cách thường xuyên Bản thân nhận thấy đây là hướng tiếp cận đúng đắn và có tính thực tiễn cao

Hướng phát triển của đề tài có thể nghiên cứu thêm một số mô hình mới để áp dụng vào bài toán khai phá dữ liệu giáo dục Chẳng hạn: sử dụng các thông tin tuyển sinh đầu vào và kết quả học tập của học kì 1 để dự đoán xem kết quả học kì 2 sinh viên đạt loại gì (xuất sắc, giỏi, khá, trung bình…) hoặc sử dụng luật kết hợp để tìm ra các luật liên quan giữa các môn học mà sinh viên đã học tốt hoặc chưa đạt

Với việc triển khai hệ thống thử nghiệm cho thấy khả năng ứng dụng kết quả này trong việc dự đoán kết quả học tập của sinh viên Hệ thống không chỉ hỗ trợ cho sinh viên

mà còn hỗ trợ cho giáo viên chủ nhiệm, các khoa chuyên ngành, phòng đào tạo và những ai quan tâm

+ Đối với sinh viên: giúp cho sinh viên lựa chọn cho mình một lộ trình học phù hợp với điều kiện và năng lực của bản thân để đạt được kết quả học tập tối ưu

+ Đối với giáo viên chủ nhiệm: hỗ trợ cho giáo viên chủ nhiệm có thể tư vấn cho sinh viên trong việc chọn một lộ trình học phù hợp

+ Đối với các khoa chuyên ngành và phòng đào tạo: hỗ trợ trong việc đánh giá chất lượng cho từng lộ trình học nhằm nâng cao, cải thiện hơn nữa trong việc xây dựng các lộ trình học để phù hợp với mọi điều kiện và năng lực của sinh viên

TÀI LIỆU THAM KHẢO

[1] JamieMacLennan, ZhaoHui Tang, Bogdan Crivat Data Mining with Microsoft SQL Server 2008 Published by Wiley Publishing, Inc., Indianapolis, Indiana 2008

[2] Jiawei Han and Micheline Kamber Data Mining Concepts and Techniques, Second Edition Published by Elsevier Inc 2006

[3] Brian Knight, Devin Knight, Adam Jorgensen, Patrick LeBlanc, Mike Davis Knight's Microsoft Business Intelligence 24-Hour Trainer Published by Wiley Publishing, Inc

2010

[4] Khai phá dữ liệu (Data Mining) http://bis.net.vn/forums/p/366/628.aspx#628 (truy cập ngày 2/3/2012)

Trang 8

8

[5] Developing Application that uses Analysis Services

http://social.msdn.microsoft.com/Forums/zh/sqldatamining/thread/fb74ab56-1172-4460-8953-f566ca0a0cf3 (truy cập ngày 20/2/2012)

[6] SQL server Data Mining

http://www.sqlserverdatamining.com/ssdm/Home/Downloads/tabid/60/Default.aspx (truy cập ngày 10/3/2012)

[7] Nguyễn Thái Nghe, Khoa Công nghệ thông tin và Truyền thông, Đại học Cần Thơ Một phân tích giữa các kỹ thuật trong dự đoán kết quả học tập

https://sites.google.com/site/ntnghe/NTNghe-studentGPAprediction.pdf?attredirects=0 (truy cập ngày 15/3/2012)

[8] Mustafa Nofal, Sulieman Bani-Ahmad Classification based on association rules mining techniques: a general survey and empirical comparative evalution http://www.ubicc.org/files/pdf/507_507.pdf

Xiaoxin Yin, Jiawei Han CPAR: Classification based on Predictive Association Rules www.cs.uiuc.edu/~hanj/pdf/sdm03_cpar.pdf

Họ và tên: Nguyễn Thị Thanh Thủy

Địa chỉ: Thanh Khê, Đà Nẵng

Số điện thoại: 01675 298195

Email: nguyenthithanhthuydn@gmail.com

Ngày đăng: 22/03/2014, 17:20

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w