Đối với mỗi sinh viên, việc lựa chọn cho mình một lộ trình học phù hợp theo đúng quy trinh đào tạo là một việc hết sức khó khăn, đặc biệt là với các sinh viên mới vào trường, khi mà kinh
Trang 1
BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
ĐỎ ÁN TÓT NGHIỆP ĐẠI HỌC
Chuyên ngành: CNTT
KHAI PHA DU LIEU TRONG GIAO DUC
Sinh viên: Nguyên Thị May
Mã sinh viên: 2018123456
Ha Noi — 2020
Trang 2
. BỘ CÔNG THƯƠNG CỘNG HÒA XÃ HỌICHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HA NỘI Độc lập —- Tự do —- Hạnh phúc
PHIẾU GIAO ĐÈ TÀI TÓT NGHIỆP
Chuyên ngành CNTT Số:
Họ và tên sinh viÊH: ccn cv S2 LỚP: .Q Q.2 nHnn HH ớu G0 Khoa: .c 2n 2n re Giáo viên hướng dẫn: - 2 2s 1 E214 1121121211112111111111111111212110121201202121 22c tg
NỘI DUNG
THUYET MINH
Ngày giao để tài: ccccesecesessesesteesenees Ngày hoàn thành: - 2c c 555352
Hà Nội, ngày tháng nam
GIAO VIEN HUONG DAN KHOA HIEU TRUONG
(Ky tén) (Ky tén) (Ky tén)
Trang 3LOI NOI DAU
Trường Đại học Công nghiệp Hà Nội đã triển khai đào tạo theo học chế tin chi bắt đầu từ năm học 2008 — 2009 Đào tạo tín chỉ có ưu điểm giup sinh viên có thé tu quản lý quỹ thời gian và tùy theo khả năng của mình để tự quyết định các môn hoc theo từng kỳ
Đối với mỗi sinh viên, việc lựa chọn cho mình một lộ trình học phù hợp theo đúng quy trinh đào tạo là một việc hết sức khó khăn, đặc biệt là với các sinh viên mới vào trường, khi mà kinh nghiệm học tập ở bậc đại học và hình thức đào tạo tín chỉ còn rất mới mẻ Đó cũng là khó khăn chung không chỉ của sinh viên, mả còn của các cô van hoc tap, giao vién chủ nhiệm và các tô chức quản lý trong trường
Xuất phát từ thực tế đó, việc tư vấn lựa chọn lộ trình học cho sinh viên theo ngành học đã đăng ký là một việc làm hết sức thiết thực và ý nghĩa Vì vậy em xin
chọn đề tài " KHAI PHÁ DỮ LIỆU TRONG GIÁO DỤC" làm đồ án tốt nghiệp
chuyên ngành CNTT
Dé tai nay được trình bảy qua 3 phân chính:
Chương 1 Giới thiệu tổng quan Chương II Các kiến thức cơ sở liên quan Chương III Xây dựng hệ thống hỗ trợ học tập
Do thời gian và kiên thức có hạn nên khóa luận này của em còn nhiêu thiêu sót, kính mong được sự góp ý và chỉ bảo từ các thây cô và các bạn
Trang 4MUC LUC
)/I0i9000Ii0a 6
CHUONG I GIGI THIEU TONG QUAN 5 2 c2 2E127121122111122722 211g rree 8
1.1 Bài toán ứng dụng KPDL dé xdy dung hé thong tu Vato cccceeceeeseeeeeeeeee 8 1.2 Mét sé huong nghién cru vé khai pha dit ligu trong gido duc cece: 8 1.3 Hướng tiếp cận của luận văn 0000201122112 1 11111111 x kg ng na 9
CHUONG II CÁC KIÊN THỨC CƠ SỞ LIÊN QUAN - 25c 212222 rre 11
2.1 Khai phả đữ liệu - Q2 2121121101 121111111111111111111 111 1111 11 11 111101101111 11 1x Srg H 2.1.1 Khái niệm khai phá dữ liệu (KPDL ) - 2 22 222122112221 1252 11 562 H 2.1.2 Ứng dụng KPDL trong giáo đục -s- s21 S1 1EE122121111211 11221 2 1e 12 2.2 Một số kỹ thuật KPDL trong phân lớp, dự báo - 2222212221222 x2szx+2 13
2.2.1 Cây quyết định - 5s 211111 1211212121112121 1212121121 ng nu 13
Pu 0o c0 ee.- 14
PC Lo ion no NHHaaaaaải34ŸỶŸŸÝÝÝẼỶẼỶÝ.Ố 14
CHUONG III XÂY DỰNG HỆ THÔNG TƯ VẬN HỌC TẬP -55522 15
ESN 6 toi 6i 8n ố ố ÍdiIiII Ta ẶNA aa.aa 15 3.2 Sơ đồ hoạt động của hệ thống: ¬ 15
Trang 5DANH MUC HINH ANH hhinh 2-1: hin thu nheatt ccc cece nẽa ÔÐ il hình 2-2: hinh thu nati occ cccceccceeee tect e cece eee eeeeeeeeeeeseeeeceeessevessnsesnntrnnsrtaaitees 13 7.8 TRE ra 16
bang I-l: bang tHH HE ảnh TH HH HH HH hệt 9 bang 2-12 bara thu nice .cccccccccccccccc ccc cece cee cee ete e cee cneeeeceeecietisetnesteneetiereiieentees 14
Trang 6CHUONG 1 GIOI THIEU TONG QUAN 1.1 Bài toán ứng dụng KPDL để xây dựng hệ thống tư vấn
Một thực tế đặt ra đối với trường đại học là làm sao thu hút được nhiều sinh viên dựa trên “thương hiệu” của nhà trường, để đáp ứng chỉ tiêu đào tạo Tuy nhiên, yêu cầu đặt ra về số lượng cũng phải kèm theo yêu cầu về chất lượng đảo tạo Vấn đề nâng cao chất lượng đào tạo là một vấn đề luôn được nhà trường quan tâm
Nhằm đổi mới giáo dục đại học ở Việt Nam, Bộ Giáo dục va Dao tạo đã yêu cầu chuyền đổi từ việc thực hiện chương trình đào tạo theo hệ thống niên chế thành đào tạo
theo hệ thống tín chỉ kiểu Hoa Kỳ, bắt đầu từ năm học 2008-2009 và đòi hỏi phải hoàn
tất việc chuyên đổi này trước năm 20 12
Trường Đại học Công nghiệp Hà Nội đã triển khai đào tạo theo học chế tín chỉ bắt đầu từ năm học 2008 — 2009 Đào tạo tín chỉ có ưu điểm giup sinh viên có thé tu quản lý quỹ thời gian và tùy theo khả năng của mình để tự quyết định các môn hoc theo từng kỷ Vi vậy, việc tư vấn học tập, chủ yếu liên quan đến lựa chọn lộ trình học phủ hợp nhằm đạt được kết quả học tập cao nhất cho mỗi sinh viên được đặc biệt quan tâm Các giang viên chuyên trách, cô vấn học tập không thé tiếp cận toàn bộ dữ liệu về điểm của sinh viên
1.2 Một số hướng nghiên cứu về khai phá dữ liệu trong giáo dục
Hiện đã có rất nhiều nghiên cứu về ứng dụng KPDL cho giáo dục Những khai phá dữ liệu trong giáo dục đã nỗi bật lên như là một lĩnh vực nghiên cứu độc lập trong những năm gan day, ma cao điểm là năm 2008 với sự thành lập hội nghị quốc tế về khai phá dữ liệu giáo đục, và những bài báo về khai phá đữ liệu giáo dục Đó là
“Applying Data Mining Techniques to e-Learning Problems” cua Félix Castrol,
Các nhà nghiên cứu về việc KPDL trong giáo đục tập trung vào nhiều vẫn đề bao gồm việc học của cá nhân từ phần mềm giao dục, học cộng tác với sự ø1úp đỡ của máy
tính, kiêm nghiệm khả năng thích ứng với máy tính, và nhiều nhân tô được kết hợp với
các sinh viên không có khả năng hoặc thiếu định hướng trong quá trình học tập Mỗi
Trang 7lĩnh vực chính của việc ứng dụng khai phá đữ liệu vào giáo dục là phát triển các mô
hình hướng đối tượng sinh viên Các mô hình sinh viên thể hiện thông tin về một nét
đặc trưng hay tỉnh trạng của sinh viên, như kiến thức hiện tại của sinh viên, động cơ thúc đây học tập, quan điểm nguyện vọng của sinh viên
Ở Việt Nam, KPDL cũng đã được nghiên cứu và ứng dụng trong nhiều tổ chức, doanh nghiệp và đem lại hiệu quả cao trong các lĩnh vực như giáo dục, y tế, thương mại, tài chính Nhiều công trình khoa học đã và đang được nghiên cứu đề áp dụng vào thực tế Song bên cạnh đó, việc khai thác các thông tin có giá trị ở một số đơn vị chưa thực sự hiệu quả, việc áp dung trong thực tê còn hạn chê
1.3 Hướng tiếp cận của luận văn
Luận văn tập trung nghiên cứu lý thuyết khai phá dữ liễu, sử đụng công cụ khai phá dữ liệu BIDS của Microsoft, KPDL điểm thực tế của sinh viên trường ĐHCNHN Bên cạnh đó, luận văn sử dụng một số thuật toán điển hình trong khai phá dữ liệu được hỗ trợ sẵn trong SQL Server nhằm giải quyết bài toán đự báo, dự đoán kết quả học tập của sinh viên
bang 1-1: bang thu nhat
Nhiém vu Thuat toan Microsoft sw dung
Microsoft Decision Trees Algorithm
Dự đoán một thuộc tính rời Microsoft Naive Bayes Algorithm
rae Microsoft Clustering Algorithm
Microsoft Neural Network Algorithm
Dw doan m6t thuéc tinh lién Microsoft Decision Trees Algorithm tuc Microsoft Time Series Algorithm
Dự đoán một trình tự Microsoft Sequence Clustering Algorithm
Tìm nhóm của những mục Microsoft Association Rules Algorithm chọn trong các giao dịch Microsoft Decision Trees Algorithm
Tìm những mục giống nhau Microsoft Clustering Algorithm
Trang 8
Microsoft Sequence Clustering Algorithm
Sau khi đánh giá mô hình dự đoán tốt nhất, tác giả xây dựng chương trình thực nghiệm dé hé tro tư van học tap cho sinh vién nam dau
Trang 9CHUONG 2 CAC KIEN THUC CO SO LIEN QUAN
2.1 Khai phá dữ liệu
2.1.1 Khải mệm khai phá đữ liệu (KPDL )
"KPDL là quá trình khảo sát và phân tích một khối lượng lớn các dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu để từ đó trích xuất ra các thông tin quan trọng, có giá trị tiềm ẩn bên trong" Do nhu cầu nghiệp vụ cần có cách nhìn thông tin trên quy mô toàn đơn vị
Các dữ liệu này được thu từ nhiều nguồn, đa số là từ các phan mém nghiép vu như: phần mềm tài chính, kế toán, các hệ thống quản lý tài nguyên doanh nghiệp, các
hệ thong quan lý khách hang hay từ tác công cụ lưu trữ thông tin trên web
Đây là những khối dữ liệu không lồ nhưng những thông tin mả nó thể hiện ra thì
lộn xộn và “nghèo” đối với người dùng Kích thước của khối đữ liệu không lỗ đó cũng tăng với tốc độ rất nhanh chiếm nhiều dung lượng lưu trữ KPDL liệu sẽ giúp trích xuất ra các mẫu điên hình có giá trị và biến chúng thành những trí thức hữu ích Quá trình này gồm một số bước được thê hiện trong hinh sau
/\
fo
\
/ Dachgiamiu / Ty tase \
J
„ / À
“— ss
ae 1 “ sextis ng
"| | J
=
ái IINM, `.`
'
LH ad
' cư“ 4
hinh 2-1: hinh thu nhat
Y nghia cụ thê của các bước như sau:
- Lựa chọn đữ liệu liên quan đến bài toán quan tâm
Trang 10- Tiền xử lý dữ liệu, làm sạch dit liéu, chiém téi gan 60% né luc
- Chuyén déi dit ligu vé dang phu hop thuan loi cho viéc khai phá
- KPDL, trích xuất ra các mẫu đữ liệu (mô hình)
- Đánh giá mẫu
- Sử dụng tri thức khai phá được
2.1.2 Ứng dụng KPDL trong giáo dục
1 Tư vấn lựa chọn ngành học
Cho một kho dữ liệu lưu giữ các thông tin về kết quả học tập của sinh viên đã tốt nghiệp Hãy tìm ra những quy luật lựa chọn các chuyên ngành một cách hợp lý sao cho đạt được kết quả tốt nhất Nhằm mục đích này người ta mong muốn nhận được từ đữ
liệu những phát biểu như: “80% sinh viên học tốt môn Kinh tế chính trị và Tiếng Anh
khá thì tốt nghiệp chuyên ngành Kế toán ngân hàng loại giỏi”, Để đạt được những phát biểu như trên, chúng ta sử dụng các thuật toán Khai phá luật kết hợp từ cơ sở đữ liệu
0 Tu van lựa chọn môn học
Cho một kho dữ liệu các thông tin về kết quả học tập của sinh viên Hãy tư vấn cho sinh viên lựa chọn các môn học cho học kỳ sau dựa trên kết quả của các hoc ky trước sao cho kết quả học tap cua ky sao la cao nhất Đề thực hiện việc này, chúng ta cần sử dụng các thuật toán KPDL ở dạng phân lớp và dự đoán như Cây quyết định, mạng Naive Bayes, Neural Network hay luật kết hợp
1 Tư vấn lựa chọn lộ trình học
Cho một kho dữ liệu đào tạo (theo hình thức tín chỉ) bao gồm các môn học (học phần) tương ứng với các ngành học và các học kỷ (gọi là chương trình đảo tạo), cùng với các thông tin về kết quả học tập của các sinh viên đã tốt nghiệp Hãy tư vấn cho các sinh viên mới vào trường cách lựa chọn một lộ trình học phủ hợp nhất cho ngành học mà sinh viên đã đăng ký sao cho kết quả tốt nghiệp ra trường của sinh viên là cao nhất Đây chính là bài toán mà luận văn hướng đến Đề thực hiện việc này, chúng ta
Trang 11cần sử dụng các thuật toán KPDL ở dạng phân lớp và dự đoán như Cây quyết định, mạng Naive Bayes, Neural Network hay luật kết hợp
2.2 Một số kỹ thuật KPDL trong phân lớp, dự báo
2.2.1 Cây quyết định Cây quyết định là một cấu trúc biểu diễn dưới dạng cây Trong đó, mỗi nút trong (internal node) biểu diễn một thuộc tính, mỗi nhánh (branch) biểu diễn giá trị có thể có của thuộc tính, mỗi lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên cùng của cây gọi là gốc (root)
—
Branch ~~_
hinh 2-2: hinh thu hai [1]Cây quyết dinh (Decision Tree) là một cây phân cấp có cầu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật (series of rules) Các thuộc tính của đối tượng (ngoại trừ thuộc tính phan lớp — Catepory attribute) có thể thuộc các kiêu dữ liệu khac nhau (Binary, Nominal, ordinal, quantitative values) trong khi d6 thuéc tinh phan
lớp phải có kiểu dữ liệu la Binary hodc Ordinal
2.2.2 Phân lớp Naie Bayes Định lý Bayes cho phép tính xác suất xảy ra của một sự kiện ngẫu nhiên A khi biết sự kiện liên quan B đã xảy ra Xác suất này được ký hiệu là P(A|B), và đọc là "xác suất của A nếu có B" Đại lượng này được goi xac suất có điều kiện vì nó được rút ra
từ ø1á trị được cho của B hoặc phụ thuộc vào giá trị đó
Trang 12Phương pháp Naive Bayes phu hgp cac bai toan có yêu cầu về chi phí xuất hiện của các giá trị thuộc tính
bang 2-2: bang thu hai
t Documen Content Data Class Training dl hanoi pho chaolong B
hanoI
d4 saigon hutiu banhbo N
pho
hutiu
2.2.3 Mang no ron nhdn tao Neural nhân tạo là sự mô phỏng đơn giản của neural sinh học Mỗi neural nhan tạo thực hiện hai chức năng: chức năng tông hợp đầu vào và chức năng tạo đầu ra Chức năng đầu vào chính là tổng có trọng số các tín hiệu vào kết hợp với ngưỡng để tạo ra tín hiều đầu vào Chức năng tạo đầu ra được thực hiện bằng hàm truyền đạt Microsoft Neural Network sử dụng mạng đa tầng bao gồm ba lớp tế bảo thần kinh Các lớp này là một lớp đầu vào, một lớp ân và một lớp đầu ra Trong một mạng Neural, mỗi neural nhận được một hoặc nhiều đầu vào và sản xuất một hoặc nhiều kết quả đâu ra Mỗi đâu ra là một hàm phi tuyên đơn giản của tông các đâu vào
Trang 132.2.4 Sơ đơ hoạt động của hệ thơng:
Đề sử dụng hệ thống, người dùng nhập vào các thơng tin như: ngành học, điểm thi tuyén sinh, gidi tinh va lwa chọn mơ hình sử dụng dé dur bao (néu khơng lựa chọn thì mặc định hệ thơng sẽ sử dụng mơ hình Nạve Bayes) Trong phạm vi thử nghiệm, chương trình vẫn cho hiển thị kết quả đự đốn của cả 03 mơ hình khơng được lựa chọn
là Luật kết hợp, Neural Network và Decision Tree để mang tính chất tham khảo cũng như đánh giá lại các mơ hình trong dự đốn thực tế Tuy nhiên, như đã phân tích ở trên, người dùng cần tin tưởng ở mơ hình Nạve Bayes hơn do nĩ được đánh giá là dự đốn kết quả học tập với độ chính xác tốt nhất
oufput layer input layer
hidden layer
hình 3-3
CHUONG 3 XÂY DỰNG HỆ THĨNG TƯ VẤN HỌC TẬP
3.1 Lựa chọn mơ hình
Yêu cầu Mơ hình Nạve Bayes cho kết quả dự đốn kết quả học tập của sinh viên với độ chính xác cao nhất nên mơ hình nay sẽ được lựa chọn để xây dựng hệ thống tư vấn học tập Trong khuơn khổ luận văn, để ø1úp người dùng thây được sự khác biệt về ket quả dự đốn giữa các mơ hình, hệ thơng tư vân cĩ đưa thêm vào chức năng cho