1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng Tháp (tt)

26 1,1K 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 1,24 MB

Nội dung

Xây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng Tháp

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Trang 2

Luận văn được hoàn thành tại:

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH

Vào lúc: .giờ ngày tháng năm

Có thể tìm hiểu luận văn tại:

- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

Trang 3

MỞ ĐẦU

Hiện nay, đa số các trường đại học và cao đẳng ở nước ta

đã chuyển từ đào tạo theo niên chế sang đào tạo theo tín chỉ Đào tạo tín chỉ có ưu điểm giúp sinh viên có thể tự quản lý quỹ thời gian và tùy theo khả năng của mình để tự quyết định các môn học theo từng kỳ Việc lựa chọn các môn học trong từng học kỳ (hay còn gọi là chọn lộ trình học) để sao cho kết quả học tập là cao nhất có thể là một việc hết sức khó khăn đối với các sinh viên Vì vậy, việc dự đoán kết quả học tập để tư vấn cho sinh viên lựa chọn lộ trình học phù hợp nhằm đạt được kết quả học tập cao nhất được đặc biệt quan tâm Đó cũng là khó khăn chung không chỉ của sinh viên, mà còn của các cố vấn học tập, giáo viên chủ nhiệm và các tổ chức quản lý trong trường Các giảng viên chuyên trách không thể tiếp cận toàn bộ

dữ liệu về điểm của sinh viên Ngay cả với các cấp quản lý, bằng cảm tính hoặc suy luận thủ công từ khối dữ liệu lớn để đưa ra những tư vấn tốt trong việc chọn lộ trình học cho mỗi sinh viên không phải là khả thi

Tại Việt Nam, việc nghiên cứu khai phá dữ liệu trong lĩnh vực giáo dục đào tạo còn chưa được quan tâm đúng mức

Trang 4

Đã có một số công trình được công bố sử dụng hồ sơ cá nhân cũng như điểm đầu vào để dự báo kết quả học tập toàn khoá hoặc giai đoạn của sinh viên, nhưng các công trình nghiên cứu có sử dụng lộ trình học để dự đoán kết quả học tập còn rất hiếm

Vì vậy, đề tài “Xây dựng công cụ dự đoán kết quả học tập của sinh viên Đại học Đồng Tháp” đi sâu vào việc khai phá

dữ liệu từ thông tin cá nhân, điểm tuyển sinh đầu vào kết hợp với lộ trình học để dự đoán kết quả học tập của sinh viên Đề tài tiến hành nghiên cứu các kỹ thuật cho phép phân lớp, dự báo trong khai phá dữ liệu, ứng dụng các kỹ thuật đó để xây dựng các mô hình dự đoán kết quả học tập của sinh viên bằng công cụ SQL Server Business Intelligence Development Studio Từ đó, đánh giá và lựa chọn mô hình cũng như kỹ thuật cho kết quả dự đoán tốt nhất để ứng dụng và xây dựng chương trình dự đoán kết quả học tập cho mỗi sinh viên Kết quả dự đoán đó có thể được dùng để tư vấn cho sinh viên lựa chọn lộ trình học phù hợp

để đạt được kết quả học tập cao nhất

Trang 5

CHƯƠNG I - GIỚI THIỆU 1.1 Lý do chọn đề tài

Hiện nay, hầu hết các trường Đại học đã chuyển từ hình thức đào tạo theo niên chế sang đào tạo theo học chế tín chỉ Đào tạo theo tín chỉ xem người học là trung tâm

của quá trình đào tạo “Tín chỉ” là đơn vị căn bản để đo

khối lượng kiến thức và đánh giá kết quả học tập của sinh viên Đặc trưng của hệ thống này là kiến thức được cấu trúc thành các học phần Lượng kiến thức dành cho sinh viên gồm hai khối cơ bản: giáo dục đại cương và giáo dục chuyên mơn Mỗi khối kiến thức cĩ 2 nhĩm học phần: học phần bắt buộc là những kiến thức tiên quyết bắt buộc sinh viên phải học và thi đạt mới được học tiếp sang học phần khác; nhĩm học phần tự chọn gồm những kiến thức cần thiết nhưng sinh viên được chọn theo hướng dẫn của nhà trường

1.2 Mục đích nghiên cứu

- Nghiên cứu kỹ thuật khai phá dữ liệu: cây quyết định, Nạve Bayes, mạng nơ ron nhân tạo, luật kết hợp

Trang 6

- Nghiên cứu kỹ về các hệ thống dự đoán kết quả học tập cho sinh viên đào tạo theo tín chỉ, xác định bài toán cụ thể là xây dựng công cụ liệt kê tất cả các lộ trình học cho mỗi ngành học và gắn lộ trình học với mỗi sinh viên, thu thập, tiền xử lý và xử lý các bộ dữ liệu đào tạo phục vụ cho mục đích nghiên cứu của luận văn

1.3 Đối tượng và phạm vi nghiên cứu

1.4 Phương pháp nghiên cứu

- Phương pháp nghiên cứu lý luận

- Phương pháp nghiên cứu thực tiễn

1.5 Ý nghĩa khoa học và thực tiễn của luận văn 1.6 Cấu trúc luận văn

Luận văn gồm có phần mở đầu, kết luận và 04

chương, cụ thể như sau:

Chương I Giới thiệu

Chương II: Cơ sở lý thuyết liên quan

Chương III Giải pháp đề xuất và xây dựng hệ thống Chương IV Thực nghiệm, đánh giá

Trang 7

CHƯƠNG II: CƠ SỞ LÝ THUYẾT

2.1 Khái niệm về khai phá dữ liệu

2.1.1 Định nghĩa khai phá dữ liệu

Khai phá dữ liệu là quá trình khảo sát và phân tích một khối lượng lớn các dữ liệu được lưu trữ trong các cơ

sở dữ liệu, kho dữ liệu…để từ đó trích xuất ra các thông tin quan trọng, có giá trị tiềm ẩn bên trong

2.1.2 Những nhóm bài toán của khai phá dữ liệu 2.1.2.1 Phân loại

Trang 8

2.2 Các bước xây dựng một giải pháp về khai

phá dữ liệu

2.2.1 Mô hình luồng dữ liệu

2.2.2 Vòng đời của một hệ thống khai phá dữ liệu

2.2.2.1 Bước 1: Xác định mục tiêu bài toán

2.2.2.2 Bước 2: Thu thập dữ liệu

2.2.2.3 Bước 3: Làm sạch dữ liệu và chuyển đổi dữ

liệu

2.2.2.4 Bước 4: Xây dựng mô hình

2.2.2.5 Bước 5: Đánhgiá mô hình, đánh giá mẫu

2.2.2.6 Bước 6: Báo cáo

2.2.2.7 Bước 7: Dự đoán

2.2.2.8 Bước 8: Tích hợp vào ứng dụng

2.2.2.9 Bước 9: Quản lý mô hình

2.3 Kiến trúc của một hệ thống khai phá dữ liệu

điển hình

Trang 9

2.4 Khai phá dữ liệu trong lĩnh vực giáo dục

2.4.1 Tầm quan trọng của khai phá dữ liệu trong lĩnh vực giáo dục

2.4.2 Các ứng dụng của khai phá dữ liệu trong lĩnh vực giáo dục

2.4.2.1 Các ứng dụng hướng đến học sinh, sinh viên 2.4.2.2 Các ứng dụng hướng đến giáo viên

2.4.2.3 Các ứng dụng hướng đến nhà quản lý giáo dục

2.5 Một số kỹ thuật khai phá dữ liệu trong phân lớp, dự báo

2.5.1 Cây quyết định

2.5.1.1 Khái niệm

Cây quyết định là một cấu trúc biễu diễn dưới dạng cây Trong đó, mỗi node trong (internal node) biễu diễn một thuộc tính, mỗi nhánh (branch) biễu diễn giá trị có thể

có của thuộc tính, mỗi lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên cùng của cây gọi là gốc (root) [6]

Trang 10

2.5.1.2 Biểu diễn cây quyết định

2.5.1.3 Các bước chính xây dựng cây quyết định 2.5.1.4 Cây quyết định so với kỹ thuật khai phá khác 2.5.2 Phân lớp Nạve Bayes

2.5.2.1 Định nghĩa

2.5.2.2 Mơ hình Phân lớp Naive Bayes (NBC)

2.5.2.3 Các bước thực hiện thuật tốn Naive Bayes

 Bước 1: Huấn luyện Naive Bayes (dựa vào tập dữ liệu), tính P(Ci) và |

 Bước 2: Phân lớp , ta cần tính xác suất thuộc từng phân lớp khi đã biết trước được gán vào lớp cĩ xác suất lớn nhất theo cơng thức:

∏ | )

Để tránh trường hợp giá trị P(Xk|Ci) = 0 do khơng cĩ mẫu nào trong DL huấn luyện thỏa mãn tử số, ta làm trơn bằng cách thêm một số mẫu ảo:

Khi đĩ: Cơng thức tính P(Ci) đã làm trơn Laplace:

Trang 11

| |

| | Trong đó:

 |Ci,D|: số mẫu huấn luyện thuộc phân lớp i

 |D|: số mẫu trong tập huấn luyện

 m: số phân lớp

2.5.2.4 Một số ưu điểm của phương pháp Naive

Bayes

2.5.3 Mạng nơ ron nhân tạo

2.5.3.1 Giới thiệu về mạng nơ ron nhân tạo

2.5.3.2 Mạng nơ ron nhân tạo trong khai phá dữ liệu

2.5.3.3 Các phương pháp học sử dụng mạng nơ ron

nhân tạo9

2.5.3.3.1 Học có giám sát

2.5.3.3.2 Học không giám sát

Học mạng nơron không giám sát là cách học không

có phản hồi từ môi trường để chỉ ra rằng đầu ra của mạng

là đúng như thế nào

Trang 12

Hình 2.8: Mô hình học không giám sát [4] 2.5.4 Khai phá luật kết hợp

2.5.4.1 Luật kết hợp

2.5.4.2 Thuật toán khai phá luật kết hợp

2.6 Khai phá dữ liệu với hệ quản trị CSDL

Microsft SQL Server

2.6.1 Giới thiệu chung

Dưới đây là hình ảnh tổng quan về khai phá dữ liệu với hệ quản trị CSDL SQL Server:

Hình 2.9: Hình ảnh tổng quan về khai phá dữ liệu

với SQL 2008 [5]

Trang 13

2.6.2 Ngôn ngữ truy vấn khai phá dữ liệu DMX (Data Mining Extensions)

2.6.3 Bộ công cụ SQL Server Business Intelligence Development Studio

2.6.4 Lập trình khai phá dữ liệu với Analysis

Services APIs

2.7 Kết luận chương 2

Trong chương 2, em đã trình bày các kiến thức tổng quan về khai phá dữ liệu: định nghĩa khai phá dữ liệu, những nhóm bài toán thường được áp dụng bởi kỹ thuật khai phá dữ liệu cùng những lợi thế, thách thức của khai phá dữ liệu Các bước xây dựng một giải pháp khai phá dữ liệu và kiến trúc của một hệ thống khai phá dữ liệu điển hình cũng được em trình bày cụ thể ở chương này Tiếp đến, em trình bày chi tiết về kỹ thuật khai phá dữ liệu với

hệ quản trị CSDL SQL Server 2008 thông qua việc sử dụng bộ công cụ BIDS của Microsoft cùng ngôn ngữ truy vấn khai phá dữ liệu DMX và các kỹ thuật lập trình khai phá dữ liệu trên máy client với Analysis Services APIs

Trang 14

Đây cũng chính là các kỹ thuật mà em sẽ sử dụng để xây dựng hệ thống dự đoán kết quả học tập ở chương 3 của luận văn

CHƯƠNG III: MÔ HÌNH ĐỀ XUẤT

3.1 Giải pháp dự đoán kết quả học tập của sinh viên

Như đã trình bày trong chương 1, bài toán dự đoán kết quả học tập của sinh viên theo lộ trình học gồm hai bước:

Bước 1: Liệt kê toàn bộ lộ trình học có thể của một

sinh viên theo ngành học mà sinh viên đó đã chọn

Bước 2: Dự đoán kết quả học tập cuối khóa của

sinh viên theo tất cả các lộ trình ở trên Chọn ra lộ trình với kết quả dự đoán cho ra kết quả học tập tốt nhất để tư vấn cho sinh viên Nếu có nhiều lộ trình có cùng kết quả thì sinh viên có thể tự chọn một trong số các lộ trình học

đó sao cho phù hợp nhất với năng lực, sở thích và các điều kiện khác của bản thân

Trang 15

3.1.1 Liệt kê lộ trình học của một sinh viên

3.2 Xây dựng cơ sở dữ liệu cho hệ thống

Quy trình xử lý dữ liệu đầu vào:

Hình 3.1: Quy trình xử lý dữ liệu đầu vào

3.3 Xây dựng hệ thống dự đoán kết quả học tập

3.3.1 Xây dựng các mô hình

Hình 3.5: Sự phụ thuộc của thuộc tính dự đoán vào các thuộc

tính khác

3.3.2.1 Đánh giá các mô hình dự báo với Lift Chart

3.3.2.2 Đánh giá các mô hình dự báo với

Classification Matrix

Dữ liệu đầu vào

(hồ sơ sinh viên,

Quy ước mã ngành học môn học

Trang 16

CHƯƠNG IV: THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1 Thực nghiệm, đánh giá trên hệ thống

Ví dụ 1: Sử dụng hệ thống để đưa ra kết quả học

tập dự đoán cho một sinh viên mới nhập học với các giá

trị thuộc tính đầu vào như sau:

- Giới tính: Nữ

- Ngành học: Kế toán

- Điểm thi tuyển sinh đầu vào: 24

- Khối thi: A

Sau khi chạy chương trình, kết quả dự đoán kết quả

với các mô hình khác nhau:

Trang 17

Hình 4.1: Kết quả dự đốn kết quả học tập với mơ

hình Nạve Bayes

Hình 4.2: Kết quả dự đốn kết quả học tập với mơ

hình Cây quyết định

Trang 18

Hình 4.3: Kết quả dự đốn kết quả học tập với mơ

- Mơ hình Nạve Bayes cho kết quả là 9 lộ trình học đều giúp sinh viên đạt loại giỏi, chỉ cĩ 3 lộ trình khiến sinh viên đạt loại khá

Trang 19

- 02 mơ hình Cây quyết định và Luật kết hợp đều cho dự báo là 01 lộ trình giúp sinh viên đạt loại giỏi cịn

11 lộ trình cịn lại khiến sinh viên chỉ xếp loại khá

- Mơ hình Neural Network cho 02 lộ trình giúp sinh viên đạt loại giỏi và 10 lộ trình cịn lại đạt loại khá

- Theo đánh giá mơ hình từ trước thì mơ hình Nạve Bayes cho kết quả dự báo tốt nhất nên sinh viên cần lấy kết quả của mơ hình này để tham khảo chính Cũng theo cảm tính, vì sinh viên thi điểm đầu vào cao và là học sinh nữ, học ngành kế tốn nên tỷ lệ sinh viên này học đạt kết quả giỏi là cao (sinh viên nữ thường chăm chỉ hơn sinh viên nam và ngành kế tốn hợp với sinh viên nữ hơn)

- Do trong kết quả dự đốn cĩ tới 9 lộ trình cho ra kết quả dự báo đạt loại Giỏi mà sinh viên chỉ được phép chọn cho mình một lộ trình để học nên lúc này sinh viên cần tham khảo thêm ở cột “Xác suất dự đốn” và “Trường hợp hỗ trợ” Nếu cùng kết quả dự đốn, sinh viên nên chọn các lộ trình cĩ xác suất dự đốn và trường hợp hỗ trợ cao hơn Trên hệ thống, chỉ cần bấm vào các cột tương

Trang 20

ứng thì các giá trị trong cột sẽ sắp xếp theo thứ tự để sinh viên dễ dàng lựa chọn

- Mơ hình dự đốn: Nạve Bayes

Sau khi chạy chương trình, kết quả dự đốn với các

mơ hình khác nhau:

Hình 4.5: Kết quả dự đốn học tập với sinh viên nam

Trang 21

Hình 4.6: Kết quả dự đốn học tập với sinh viên nữ

Đánh giá kết quả:

- Với cùng một mơ hình dự báo Nạve Bayes, hai sinh viên cĩ các thuộc tính đầu vào như nhau nhưng chỉ khác nhau giới tính, cho ra kết quả tương đối khác nhau

Cụ thể, trong 24 lộ trình cĩ thể học, cĩ tới 17 lộ trình cĩ thể giúp sinh viên nữ đạt loại giỏi, 7 lộ trình đạt loại khá Cịn với sinh viên nam thì chỉ cĩ 1 lộ trình giúp sinh viên đạt loại giỏi và 23 lộ trình cịn lại đều là loại khá

Để xem chi tiết một lộ trình học, sinh viên chỉ cần bấm chuột vào hàng tương ứng trên bảng kết quả dự đốn

Trang 22

Lộ trình hiển thị theo đúng định dạng đã giới thiệu ở mục 3.1:

Hình 4.7: Xem chi tiết một lộ trình học

Sau mỗi năm học, nhà trường lại có một khóa sinh viên ra trường, và dữ liệu của các sinh viên này lại có thể được sử dụng để xây dựng mô hình dự đoán kết quả học tập Việc xây dựng mô hình trên dữ liệu sinh viên qua nhiều khóa học sẽ giúp mô hình đạt độ chính xác cao hơn

và khách quan hơn Để thực hiện việc này, người quản trị

hệ thống chỉ cần bấm nút “Xây dựng CSDL” trên phần

mềm để hệ thống cập nhật thêm dữ liệu mới cho mô hình

và tiến hành chạy lại các mô hình

Trang 23

4.2 Kết luận chương 4

Trong chương 4, em đã tiến hành một số thực nghiệm trên hệ thống đã xây dựng Qua các ví dụ thực tế cho thấy hệ thống hoạt động ổn định, cho kết quả nhanh

và cho phép hiển thị chi tiết các lộ trình học cho sinh viên lựa chọn Theo phân tích cảm tính, kết quả của hệ thống phù hợp với những suy luận cảm tính Trường hợp có nhiều lộ trình học có cùng kết quả học tập cao nhất, hệ thống đưa ra thêm hai độ đo là xác suất dự báo và số trường hợp hỗ trợ Sinh viên có thể lựa chọn các lộ trình

mà hai độ đo này đạt kết quả cao nhất vì khi đó tỷ lệ dự báo sẽ đạt độ chính xác nhất

Trang 24

- Nghiên cứu công cụ khai phá dữ liệu BIDS của Microsoft, ngôn ngữ truy vấn khai phá dữ liệu DMX và kỹ thuật lập trình khai phá dữ liệu với Analysis Services APIs trên hệ quản trị cơ sở dữ liệu Microsoft SQL Server

- Tìm hiểu về mô hình đào tạo theo tín chỉ, sự khó khăn của sinh viên trong việc lựa chọn các môn học và đề xuất bài toán tư vấn cho sinh viên các lộ trình học phù hợp

để sinh viên đạt kết quả cao nhất thông qua việc xây dựng các lộ trình học tương ứng với ngành mà sinh viên theo học, dự đoán kết quả học tập theo từng lộ trình và lựa chọn lộ trình cho kết quả cao nhất

- Tiến hành thu thập và tiền xử lý dữ liệu, thu được 233.510 bản ghi về điểm tổng kết các học phần và dữ liệu

cá nhân, tuyển sinh và điểm tổng kết toàn khóa cho 3402 sinh viên thuộc 21 ngành học với 840 học phần (môn học), từ đó xây dựng CSDL trên hệ quản trị SQL Server

2008, phục vụ cho việc phát triển hệ thống dự đoán kết quả học tập

- Xây dựng các mô hình dự đoán kết quả học tập với 04 thuật toán đã đề xuất là cây quyết định, luật kết hợp, mạng nơ ron nhân tạo và Naive Bayes Qua đánh giá mức độ chính xác của các mô hình cho thấy mô hình

Trang 25

Naive Bayes cho mức độ dự báo chính xác cao nhất (80,98%), sau đó đến Neural Network (78,82%), tiếp theo

là Decision Tree (78,62%) và thấp nhất là Cây quyết định (75,29%)

- Từ đánh giá trên, em đã xây dựng hệ thống dự đoán kết quả học tập với đầu vào là các thông tin cá nhân của sinh viên như: ngành học, điểm thi tuyển sinh, giới tính,

sử dụng mô hình dự báo Naive Bayes Hệ thống hoạt động

ổn định, cho kết quả nhanh và hiển thị kết quả dự đoán cho tất cả các lộ trình học tập của sinh viên (sắp xếp theo thứ tự từ cao xuống thấp), giúp sinh viên có thể dễ dàng lựa chọn cho mình lộ trình học phù hợp Các độ đo như xác suất dự báo và số trường hợp hỗ trợ cũng được đưa vào để gợi ý sinh viên lựa chọn tốt hơn (trong trường hợp

có nhiều lộ trình cùng cho kết quả học tập cao nhất) Lộ trình cũng có thể được xem chi tiết theo tên môn học và

kỳ học (sắp xếp theo thứ tự tăng dần của học kỳ)

- Hệ thống cũng có chức năng cho phép người quản trị cập nhật cơ sở dữ liệu và cập nhật lại mô hình khi kết thúc năm học với các khóa đã tốt nghiệp, qua đó giúp hệ thống ngày càng đạt độ chính xác cao và khách quan

2 Kiến nghị

Ngày đăng: 18/12/2016, 04:36

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w