1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai phá dữ liệu trong giáo dục

17 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khai Phá Dữ Liệu Trong Giáo Dục
Tác giả Nguyễn Văn Vinh
Người hướng dẫn CBHD: Đinh Thị Bích Liên
Trường học Trường Đại Học Công Nghiệp Hà Nội
Chuyên ngành CNTT
Thể loại Đồ Án Tốt Nghiệp
Năm xuất bản 2020
Thành phố Hà Nội
Định dạng
Số trang 17
Dung lượng 1,42 MB

Nội dung

Đối với mỗi sinh viên, việc lựa chọn cho mình một lộ trình học phủ hợp theo đúng quy trình đào tạo là một việc hết sức khó khăn, đặc biệt là với các sinh viên mới vào trường, khi mà kinh

Trang 1

BO CONG THUGNG

TRUONG DAI HOC CONG NGHIEP HA NOI

HOC DO AN TOT NGHIEP DAI

Chuyén nganh: CNTT

PE TAI

KHAI PHA DU LIEU TRONG GIAO DUC

Mã sinh viên: 2022607599

Hà Nội - 2020

Trang 3

_ BOCONGTHUGNG _ CONG HOA XA HOI CHU NGHIA VIET NAM

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI Độc lập — Tw do — Hạnh phúc

PHIEU GIAO DE TAI TOT NGHIỆP

Chuyén nganh CNTT Số:

Họ và tên sinh vIÊn: .- - các sexy 0 —

Khóa: Q.0 01012 0122 He Khóoa: 2.2.2 nhe Giáo viên hướng dẫn: ST 1211121221112 21121 2111111121 ng nung NOI DUNG

THUYET MINH

Ngày giao đề tài: con re Ngày hoàn thành: 25c 5c:

Hà Nội, ngày tháng nam GIÁO VIÊN HƯỚNG DÂN KHOA HIỆU TRƯỜNG

Trang 4

MUC LUC

MUC LUC

LOI NOI DAU

1.1 Bai todn ung dụng KPDL, để xây dựng hệ thống tư vấn - 5-5 s5ss5ssss 6

2.1 _ Một số hướng nghiên cứu về khai phá dữ liệu trong giáo dục . . ss s 6 3.1 Hướng tiếp cận của luận văn 7

1.2 Khai phá dữ liệu

2.1.1 Khái niệm khai phá đữ liệu (KPDL ) 1: 221012121 1112111111181 1511111811821 9 2.1.2 Ứng dụng KPDL trong giáo dục s c cn 2121122122121 1 121gr re 10

221 Cây quyết định s22 1222122112121 2121121222222 21g 11

2.2.2 Phan lop Naive Bayes các LH HH HH 1H HH nh Hà nh HH Hà Hàn, 12 2.2.3 Mạng nơ ron nhân tạo ác c1 911 1111111111111 H1 HH tá H101 11111 1 Htku 12

CHƯƠNG3_ XÂY DỰNG HỆ THÓNG TƯ VĂN HỌC TẬP 5-55ss55ssssss 14

1.3 Laya chọn mô hình 14

2.3 Sơ đồ hoạt động của hệ thống: 14

3.3 Kết quả đạt được: 15

Trang 5

DANH MUC HiNH ANH

Hinh 2.1: Cac bude xdy dung mot hé thong KPDL.u.ccccecsscssessessesseecssecsscesccssccssecssesseesseecsecesecssccsseeseeseees 10

Hình 2.2: Biểu diễn cây quyết định cơ bản 12

Hình 3.1: Kết quả tư vẫn học tập với Naive BaYCS ác cv tr vn H111 11111 1ó

DANH MỤC BANG BIEU

Bang I.I: Lựa chọn các thuật toán KPDL theo mục đích 8

Bảng 2.1: Tập dữ liệu học ban đầu và kết quả phân lớp 13

LỜI NÓI ĐẦU

Trường Đại học Công nghiệp Hà Nội đã triển khai đào tạo theo học chế tín chỉ bắt

đầu từ năm học 2008 — 2009 Đào tạo tín chỉ có ưu điểm giúp sinh viên có thê tự quản lý quỹ thời gian và tùy theo khả năng của mình đề tự quyết định các môn học theo từng kỳ

Đối với mỗi sinh viên, việc lựa chọn cho mình một lộ trình học phủ hợp theo đúng quy trình đào tạo là một việc hết sức khó khăn, đặc biệt là với các sinh viên mới vào trường, khi mà kinh nghiệm học tập ở bậc đại học và hình thức đảo tạo tín chỉ còn rất mới

mẻ Đó cũng là khó khăn chung không chỉ của sinh viên, mà còn của các cố vấn học tập, giáo viên chủ nhiệm và các tô chức quản lý trong trường

Xuất phát từ thực tế đó, việc tư vấn lựa chọn lộ trình học cho sinh viên theo ngành

học đã đăng ký là một việc làm hết sức thiết thực và ý nghĩa Vì vậy em xin chọn đề tài "

KHAI PHA DU LIEU TRONG GIAO DUC" lam đồ án tốt nghiệp chuyên ngành CNTT

Dé tai nay duoc trinh bay qua 3 phan chinh:

Chương I Giới thiệu tổng quan

Chương II Các kiến thức cơ sở liên quan

Chương III Xây dựng hệ thông hỗ trợ học tập

Do thời gian và kiên thức có hạn nên khóa luận này của em còn nhiều thiêu sót, kính

mong được sự góp ý và chỉ bảo từ các thầy cô và các bạn

Trang 7

CHUONG 1 GIOI THIEU TONG QUAN

1.1 Bài toán ứng dụng KPDL để xây dựng hệ thống tư vấn

Một thực tế đặt ra đối với trường đại học là làm sao thu hút được nhiều sinh viên

dựa trên “thương hiệu” của nhà trường, để đáp ứng chỉ tiêu đào tạo Tuy nhiên, yêu cầu đặt ra về số lượng cũng phải kèm theo yêu cầu về chất lượng đảo tạo Vấn đề nâng cao

chất lượng đào tạo là một vấn đề luôn được nhà trường quan tâm

Nhằm đổi mới giáo dục đại học ở Việt Nam, Bộ Giáo dục và Đảo tạo đã yêu cầu chuyển đổi từ việc thực hiện chương trỉnh đảo tạo theo hệ thông niên chế thành đào tạo

theo hệ thống tín chỉ kiêu Hoa Kỳ, bắt đầu từ năm học 2008-2009 và đòi hỏi phải hoàn tất

việc chuyên đôi này trước năm 2012

Trường Đại học Công nghiệp Hà Nội đã triển khai đào tạo theo học chế tín chỉ bắt

đầu từ năm học 2008 — 2009 Đào tạo tín chỉ có ưu điểm giúp sinh viên có thê tự quản lý quỹ thời gian và tùy theo khả năng của mình để tự quyết định các môn học theo từng kỳ

Vì vậy, việc tư vấn học tập, chủ yêu liên quan đến lựa chọn lộ trình học phù hợp nhằm đạt

được kết quả học tập cao nhất cho mỗi sinh viên được đặc biệt quan tâm Các giảng viên chuyên trách, cô vân học tập không thê tiếp cận toàn bộ đữ liệu về điêm của sinh viên

2.1 Một số hướng nghiên cứu về khai phá dữ liệu trong giáo dục

Hiện đã có rất nhiều nghiên cứu về ứng dụng KPDL cho giáo đục Những khai phá

dữ liệu trong giáo dục đã nổi bật lên như là một lĩnh vực nghiên cứu độc lập trong những

năm gan day, ma cao điểm là năm 2008 với sự thành lập hội nghị quốc tế về khai phá dữ

liệu giáo dục, và những bài báo về khai phá đữ liệu giáo dục Do la “Applying Data Mining Techniques to e-Learnng Problems” của Félix Castrol,

Các nhà nghiên cứu về việc KPDL trong giáo dục tập trung vào nhiều vấn đề bao gồm việc học của cá nhân từ phần mềm giáo dục, học cộng tác với sự giúp đỡ của máy

tính, kiêm nghiệm khả năng thích ứng với máy tính, và nhiều nhân tô được kết hợp với

các sinh viên không có khá năng hoặc thiếu định hướng trong quá trình học tập Mỗi lĩnh

Trang 8

vực chính của việc ứng dụng khai phá đữ liệu vào giáo dục là phát triển các mô hình

hướng đối tượng sinh viên Các mô hình sinh viên thể hiện thông tin về một nét đặc trưng hay tình trạng của sinh viên, như kiến thức hiện tại của sinh viên, động cơ thúc đây học

tập quan điêm nguyện vọng của sinh viên

Ở Việt Nam, KPDL cũng đã được nghiên cứu và ứng dụng trong nhiều tổ chức, doanh nghiệp và đem lại hiệu quả cao trong các lĩnh vực như giáo dục, y tế, thương mại, tài chính Nhiều công trình khoa học đã và đang được nghiên cứu để áp dụng vào thực tế Song bên cạnh đó, việc khai thác các thông tin có giá trị ở một số đơn vị chưa thực sự

hiệu quả, việc áp dụng trong thực tế còn hạn chế

3.1 Hướng tiếp cận của luận văn

Luận văn tập trung nghiên cứu lý thuyết khai phá đữ liêu, sử dụng công cụ khai phá

dữ liệu BIDS của Microsoft, KPDL điểm thực tế của sinh viên trường ĐHCNHN

Bên cạnh đó, luận văn sử dụng một số thuật toán điển hình trong khai phá dữ liệu được hỗ trợ sẵn trong SQL Server nhằm giải quyết bài toán dự báo, dự đoán kết quả học

tập của sinh viên

Đảng II: Lựa chọn các thuật toỉn KPDL theo mục đích

Nhiệm vụ Thuật toán Microsoft sử dụng

Microsoft Decision Trees Algorithm

Dự đoán một thuộc tính rời Microsoft Naive Bayes Algorithm

rae Microsoft Clustering Algorithm

Microsoft Neural Network Algorithm

Du doan mét thudc tinh lién Microsoft Decision Trees Algorithm tuc Microsoft Time Series Algorithm

Dự đoán một trình tự Microsoft Sequence Clustering Algorithm

Tìm nhóm của những mục Microsoft Association Rules Algorithm

Trang 9

chọn trong các giao dịch Microsoft Decision Trees Algorithm

Microsoft Clustering Algorithm Tìm những mục giống nhau

Microsoft Sequence Clustering Algorithm

Sau khi đánh giá mô hình dự đoán tốt nhất, tác giả xây dựng chương trình thực

nghiệm đề hỗ trợ tư vấn học tập cho sinh viên năm đầu

Trang 10

CHUONG 2 CAC KIEN THUC CO SO LIEN QUAN

1.2 Khai pha dir ligu

2.1.1 Khải niệm khai phá dữ liệu (KPDL )

"KPDL là quả trình khảo sát và phán tích một khối lượng lớn các dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu để từ đó trích xuất ra các thông tỉn quan trọng, có giá trị tiềm ấn bên trong” Do nhu cầu nghiệp vụ cần có cách nhìn thông tin trên quy mô toàn don vi

Các dữ liệu này được thu từ nhiều nguồn, đa số là từ các phần mềm nghiệp vụ như: phân mềm tài chính, kế toán, các hệ thống quản ly tài nguyên doanh nghiệp, các hệ thống quan ly khách hang hay từ tác công cụ lưu trữ thông tin trên web

Đây là những khối đữ liệu không lồ nhưng những thông tin mà nó thê hiện ra thì lộn

xộn và “nghèo” đối với người dùng Kích thước của khối đữ liệu không lồ đó cũng tăng với tốc độ rất nhanh chiếm nhiều đung lượng lưu trữ KPDL liệu sẽ giúp trích xuất ra các mẫu điền hình có giá trị và biến chúng thành những tri thức hữu ích Quá trình này gồm

một số bước được thẻ hiện trong hình sau

^

/\

fh

; BS fcc % Đảnh gi mẫu Tả thức `, / \

— A / \ yee lỂ

THnh 2.1: Các bước xây dựng một hệ thong KPDL

Y nghĩa cụ thê của các bước như sau:

Trang 11

- Lựa chọn đữ liệu liên quan đến bài toán quan tâm

- Tiền xử lý đữ liệu, làm sạch đữ liệu, chiếm tới gần 60% nỗ lực

- Chuyên đổi dữ liệu về dạng phù hợp thuận lợi cho việc khai phá

- KPDL, trích xuất ra các mẫu đữ liệu (mô hình)

- Đánh giá mẫu

- Sử dụng tri thức khai phá được

2.1.2 Ủng dụng KPDL trong giáo dục

0 Tu van lựa chọn ngành học

Cho một kho dữ liệu lưu giữ các thông tin về kết quả học tập của sinh viên đã tốt nghiệp Hãy tìm ra những quy luật lựa chọn các chuyên ngành một cách hợp lý sao cho

đạt được kết quả tốt nhất Nhằm mục đích nảy người ta mong muốn nhận được từ dữ liệu

những phát biêu như: “80% sinh viên học tốt môn Kinh tế chính trị và Tiếng Anh khá thì

tốt nghiệp chuyên ngành Kế toán ngân hàng loại giỏi”, Để đạt được những phát biểu như trên, chúng ta sử dụng các thuật toán Khai phá luật kết hợp từ cơ sở đữ liệu

0 Tu van lựa chọn môn học

Cho một kho dữ liệu các thông tin về kết quả học tập của sinh viên Hãy tư vấn cho

sinh viên lựa chọn các môn học cho học kỷ sau dựa trên kết quả của các học kỳ trước sao

cho kết quả học tập của kỳ sao là cao nhất Đề thực hiện việc này, chúng ta cần sử dụng các thuật toán KPDL ở dạng phân lớp và dự đoán như Cây quyết định, mạng Naive Bayes, Neural Network hay luật kết hợp

0 Tu van lựa chọn lộ trình học

Cho một kho đữ liệu đào tạo (theo hình thức tín chỉ) bao gồm các môn học (học phân) tương ứng với các ngành học và các học kỳ (gọi là chương trình đào tạo), cùng với các thông tin về kết quả học tập của các sinh viên đã tốt nghiệp Hãy tư vẫn cho các sinh

viên mới vào trường cách lựa chọn một lộ trình học phù hợp nhất cho ngành học mà sinh

viên đã đăng ký sao cho kết quả tốt nghiệp ra trường của sinh viên là cao nhất Đây chính

Trang 12

toán KPDL ở dạng phân lớp và dự đoán như Cây quyết định, mạng Naive Bayes, Neural Network hay luật kết hợp

2.2.1 Cây quyết định

Cây quyết định là một cấu trúc biểu diễn dưới đạng cây Trong đó, mỗi nút trong (mnternal node) biểu điễn một thuộc tính, mỗi nhánh (branch) biéu dién giá trị có thể có của thuộc tính, mỗi lá (leaf node) biêu diễn các lớp quyết định và đỉnh trên cùng của cây gọi la géc (root)

Hình 2.2: Biểu diễn cây quyết định cơ bản

Trong lĩnh vực hoc máy, cây quyết định là một kiều mô hình đự bao (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng Mỗi nút trong (internal node) tương ứng với một

biến, đường nỗi giữa nó với nút con của nó thê hiện gia tri cu thể cho biến đó Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị dự đoán của các biến

được biểu diễn bởi đường đi từ nút gốc tới nút lá đó Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngăn gọn là cây quyết định

Trang 13

Cây quyết dinh (Decision Tree) là một cây phân cấp có cầu trúc được dùng dé phan lớp các đối tượng dựa vào dãy các luật (series of rules) Các thuộc tính của đối tượng (ngoại trừ thuộc tính phân lớp — Category attribute) có thể thuộc các kiêu dữ liệu khác nhau (Bmary, Nominal, ordinal, quantitative values) trong khi đó thuộc tính phân lớp phải

có kiều đữ liệu là Binary hoặc Ordinal

2.2.2 Phan lép Naive Bayes

Dinh lý Bayes cho phép tính xác suất xảy ra của một sự kiện ngẫu nhiên A khi biết

sự kiện liên quan B đã xảy ra Xác suất này được ký hiệu là P(A|B), và đọc là "xác suất

của A nếu có B" Đại lượng này được gọi xác suất có điều kiện vì nó được rút ra từ giá trị được cho của B hoặc phụ thuộc vào giá trị đó

Phương pháp Naive Bayes phù hợp các bài toán có yêu câu về chi phí xuất hiện của

các giá trị thuộc tính

Bảng 2.2: Tập dữ liệu học ban đầu và kết quả phân lớp

Documen

Training dl hanoi pho chaolong B

hanoi d2 hanoi buncha pho omai B d3 pho banhgio omai B d4 saigon hutiu banhbo N pho

Test d5 hanoi hanoi buncha ?

hutiu

2.2.3 Mang no ron nhdn tao

Neural nhân tạo là sự mô phỏng đơn giản của neural sinh học Mỗi neural nhân tao thực hiện hai chức năng: chức năng tổng hợp đầu vào và chức năng tạo đầu ra Chức năng

Trang 14

đầu vào chính là tông có trọng số các tín hiệu vào kết hợp với ngưỡng để tạo ra tin hiều

đầu vào Chức năng tạo đầu ra được thực hiện bằng hàm truyền đạt

Microsoft Neural Network sử dụng mạng đa tầng bao gồm ba lớp tế bào thần kinh Các lớp này là một lớp đầu vào, một lớp ân và một lớp đầu ra Trong một mang Neural,

mỗi neural nhận được một hoặc nhiều đầu vào và sản xuất một hoặc nhiều kết quả đầu ra

Mỗi đầu ra là một hàm phi tuyến đơn giản của tông các đầu vào

Ngày đăng: 09/01/2025, 16:23

HÌNH ẢNH LIÊN QUAN

Hình  2.2:  Biểu  diễn  cây  quyết  định  cơ  bản - Khai phá dữ liệu trong giáo dục
nh 2.2: Biểu diễn cây quyết định cơ bản (Trang 12)
Bảng  2.2:  Tập  dữ  liệu  học  ban  đầu  và  kết  quả  phân  lớp - Khai phá dữ liệu trong giáo dục
ng 2.2: Tập dữ liệu học ban đầu và kết quả phân lớp (Trang 13)
Hình  3.3:  Kết  quả  tư  vấn  học  tập  với  Naive  Bayes - Khai phá dữ liệu trong giáo dục
nh 3.3: Kết quả tư vấn học tập với Naive Bayes (Trang 16)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN