1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đồ án tốt nghiệp Đại học chuyên ngành cntt Đề tài khai phá dữ liệu trong giáo dục

17 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khai Phá Dữ Liệu Trong Giáo Dục
Tác giả Nguyễn Thị May
Người hướng dẫn Hoàng Quang Huy
Trường học Trường Đại Học Công Nghiệp Hà Nội
Chuyên ngành CNTT
Thể loại Đồ án tốt nghiệp
Năm xuất bản 2020
Thành phố Hà Nội
Định dạng
Số trang 17
Dung lượng 1,61 MB

Nội dung

Đối với mỗi sinh viên, việc lựa chọn cho mình một lộ trình học phủ hợp theo đúng quy trình đảo tạo là một việc hết sức khó khăn, đặc biệt là với các sinh viên mới vào trường, khi mà kinh

Trang 1

BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI

ĐỎ ÁN TÓT NGHIỆP ĐẠI HỌC

Chuyên ngành: CNTT

ĐỀ TÀI

KHAI PHÁ DỮ LIỆU TRONG GIÁO DỤC

CBHD: Hoàng Quang Huy Sinh viên: Nguyễn Thị May

Mã sinh viên: 2018123456

Hà Nội - 2020

Trang 2

Đồ án tốt nghiệp

_ BOCONG THUONG | CONG HOA XA HOI CHU NGHIA VIET NAM

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI Độc lập — Tw do — Hanh phic

PHIEU GIAO DE TAI TOT NGHIEP

Chuyén nganh CNTT Số:

Họ và tên sinh viÊn: .- co ác 27222222 LỚP: .QQQ HH HS HH eHớu Khóa: - - Q.01 2121112111111 11211181 ray | ey: 2.122 v12 12tr rey Giáo viên hướng dẫn: 2 1s 9E E811 21511212115111121111211212111121121101122111111 12 n ru

NỘI DUNG

THUYET MINH

Nagay giao dé tai: ooo cceccccceeesseseeseseseeseseeees Ngày hoàn thanh: eee

Hà Nội, ngày tháng nam

(Ky tén) (Ky tén) (Ky tén)

_ _ DHCNHN

Trang 3

Phân danh mục

MỤC LỤC

CHUONG 1 GIOT THIEU TONG QUAN w.cecssssssssssssssesscsssssssssessessssssseseeseensesesseess 2

1.1 Bai toan ng dung KPDL dé x4y dung hé thong tu vai sec 2 1.2 Một số hướng nghiên cứu về khai phá đữ liệu trong gido duc ccc: 2 1.3 Hướng tiếp cận của luận văn - iccececcscesecesetttestttssaasseeesccecsseuaaeeesseesess 3

CHƯƠNG 2 CÁC KIÊN THỨC CƠ SỞ LIÊN QUAN -5 ce<ccse- 5 2.1 Khai phá đữ liệu - L2 0 222221211121 2E1321 1512111212 71111 8111101110118 12 11 re 5 2.1.1 Khải niệm khai phá dữ liệu (KPDLL ) - 2252222222122 122221222222zxex 5

2.1.2 Ứng dụng KPDL trong giáo đục s- s21 2111 11 11E7121112112111 111122 6 2.2 Một số kỹ thuật KPDL trong phân lớp, dự báo - 2 2222222222122 6

2.2.2 Phân lop Naive Bayes 0 ccccccccccccsecscesceneecneenscensessseeseeseseeessseeentseensseees 7 2.2.3 Mạng nơ ron nhân tạo - 22 222122112211 221 122112111211 152211 102111111111 kg 8

CHƯƠNG 3 XAY DUNG HE THONG TU VAN HỌC TẬP 5 - 9

3.1 Lava chon m6 hth ieee ccc cccceececcccecccccccccccecececesesesetessetttetttttttseaeeeeceseceeeus 9 3.2 So dé hoat dong cua hé thống: levevetenecttenetenecauseeceseeceseeceseesseeseesetesettttettttetttssaneeses 9 3.3 Kết h0): 1E 9

DHCNHN

Trang 4

Phân danh mục

DANH MỤC HÌNH ẢNH

Hình 2.1: Cac bước xây dựng một hệ thống KPPDL - - QQ c HS HT TS ng ng gưyn 9

Hình 2.2: Biêu diễn cây quyết định cơ bản - - 5 1 E2 1111211211212 are 11

Hinh 3.1: Két qua tu van hoc tap voi m6 hinh Naive Bayes 0 ccccccccccscsssesesessesscesesvereeseees 13

Trang 5

Phân danh mục

DANH MỤC BẢNG BIÊU

Bang 1.1: Lya chọn các thuật toàn KPDL, theo mục đích c2: 12v 223 2x yrrserrreo 8

Bảng 2.1: Tập dữ liệu học ban đầu và kết quả theo phân lớp -2 St tre 12

_ DHUNHN

Trang 6

Phân nội dung

LỜI NÓI ĐẦU

Trường Đại học Công nghiệp Hà Nội đã triển khai đào tạo theo học chế tín chỉ bắt đầu

từ năm học 2008 - 2009 Đảo tạo tín chỉ có ưu điểm giúp sinh viên có thể tự quản lý quỹ thời gian và tùy theo khả năng của mình đề tự quyết định các môn học theo từng

kỳ

Đối với mỗi sinh viên, việc lựa chọn cho mình một lộ trình học phủ hợp theo đúng quy trình đảo tạo là một việc hết sức khó khăn, đặc biệt là với các sinh viên mới vào trường, khi mà kinh nghiệm học tập ở bậc đại học và hình thức dao tao tin chi con rất mới mẻ Đó cũng là khó khăn chung không chỉ của sinh viên, mả còn của các cố vấn học tập, giáo viên chủ nhiệm và các tô chức quản lý trong trường

Xuất phát từ thực tế đó, việc tư vấn lựa chọn lộ trình học cho sinh viên theo nganh hoc

đã đăng ký là một việc làm hết sức thiết thực và ý nghĩa Vì vậy em xin chọn đề tải "

KHAI PHA DỮ LIỆU TRONG GIÁO DỤC" làm đồ án tốt nghiệp chuyên ngành

CNTT

Đề tài này được trình bày qua 3 phan chinh:

Chương 1 Giới thiệu tổng quan Chương II Các kiến thức cơ sở liên quan

Chương III Xây dựng hệ thống hỗ trợ học tập

Do thời gian và kiến thức có hạn nên khóa luận nảy của em còn nhiều thiếu sót, kính mong được sự góp ý và chỉ bảo từ các thây cô và các bạn

Trang 7

Phân nội dung

CHUONG 1 GIOI THIEU TONG QUAN

1.1 Bài toán ứng dụng KPDL để xây dựng hệ thống tư vấn

Một thực tế đặt ra đối với trường đại học là làm sao thu hút được nhiều sinh viên dựa trên “thương hiệu” của nhà trường, để đáp ứng chỉ tiêu đào tạo Tuy nhiên, yêu cau dat ra về số lượng cũng phải kèm theo yêu cầu về chất lượng đảo tạo Vấn đề nâng cao chất lượng đào tạo là một vấn đề luôn được nhà trường quan tâm

Nhằm đổi mới giáo dục đại học ở Việt Nam, Bộ Giáo duc va Dao tạo đã yêu cầu chuyền đổi từ việc thực hiện chương trình đào tạo theo hệ thống niên chế thành đào tạo

theo hệ thống tín chỉ kiểu Hoa Kỳ, bắt đầu từ năm học 2008-2009 và đòi hỏi phải hoàn

tất việc chuyên đổi này trước năm 20 12

Trường Đại học Công nghiệp Hà Nội đã triển khai đảo tạo theo học chế tin chỉ bắt đầu từ năm học 2008 - 2009 Đảo tạo tín chỉ có ưu điểm giup sinh viên có thé tu quản lý quỹ thời gian và tùy theo khả năng của mình để tự quyết định các môn học theo từng kỳ VÌ vậy, việc tư vấn học tap, chu yếu liên quan đến lựa chọn lộ trình học phủ hợp nhằm đạt được kết quả học tập cao nhất cho mỗi sinh viên được đặc biệt quan tâm Các giang viên chuyên trách, cố vấn học tập không thé tiếp cận toàn bộ dữ liệu về điểm của sinh viên

1.2 Một số hướng nghiên cứu về khai phá dữ liệu trong giáo dục

Hiện đã có rất nhiều nghiên cứu về ứng dụng KPDL cho giáo dục Những khai phá dit liệu trong giáo dục đã nôi bật lên như là một lĩnh vực nghiên cứu độc lập trong những năm gan day, ma cao điểm là năm 2008 với sự thành lập hội nghị quốc tế về khai phá

dữ liệu giáo dục, và những bài báo về khai phá đữ liệu giao duc Dé la “Applying Data

Mining Techniques to e-Learning Problems” cua Félix Castrol,

Các nhà nghiên cứu về việc KPDL trong giáo dục tập trung vào nhiều vẫn đề bao gồm việc học của cá nhân từ phần mềm giáo dục, học cộng tác với sự giúp đỡ của máy tính,

kiểm nghiệm khả năng thích ứng với máy tính, và nhiều nhân tố được kết hợp với các sinh viên không có khả năng hoặc thiếu định hướng trong quá trình học tập Mỗi lĩnh

vực chính của việc ứng dụng khai phá dữ liệu vào giáo dục là phát triển các mô hình hướng đối tượng sinh viên Các mô hình sinh viên thể hiện thông tin về một nét đặc trưng hay tinh trang của sinh viên, như kiến thức hiện tại của sinh viê ui day hoc tap, quan diém nguyện vọng của sinh viên Ù | \ |

2

Trang 8

Phân nội dung

Ở Việt Nam, KPDL cũng đã được nghiên cứu và ứng dụng trong nhiều tô chức, doanh nghiệp và đem lại hiệu quả cao trong các lĩnh vực như giáo dục, y tẾ, thương mại, tài chính Nhiều công trình khoa học đã và đang được nghiên cứu đề áp dụng vảo thực tế Song bên cạnh đó, việc khai thác các thông tin có giá trị ở một số đơn vị chưa thực sự hiệu quả, việc áp dụng trong thực tê còn hạn chê

1.3 Hướng tiếp cận của luận văn

Luận văn tập trung nghiên cứu lý thuyết khai phá dữ liêu, sử dụng công cụ khai phá

dữ liệu BIDS! của Microsoft, KPDL điểm thực tế của sinh viên trường ĐHCNHN Bên cạnh đó, luận văn sử dụng một số thuật toán điển hình trong khai phá đữ liệu được

hỗ trợ sẵn trong SQL Server? nhằm giải quyết bài toán dự báo, đự đoán kết quả học tập của sinh viên

Bang 1.1:Lva chọn các thuật toán KPDL theo mục đích

Nhiệm vụ Thuật toán Microsoft sử dụng”

Dự đoán một thuộc tính rời rạc

Microsoft Decision Trees Algorithm Microsoft Natve Bayes Algorithm Microsoft Clustering Algorithm Microsoft Neural Network Algorithm

Dw doan m6t thuéc tinh lién tuc Microsoft Decision Trees Algorithm Microsoft

Time Series Algorithm

Dự đoán một trình tự Microsoft Sequence Clustering Algorithm

Tìm nhóm của những mục chọn

trong các ø1ao dịch

Microsoft Association Rules Algorithm Microsoft Decision Trees Algorithm

Tìm những mục giống nhau

Microsoft Clustering Algorithm

Microsoft Sequence Clustering Algorithm

' Business Intelligence Development Studio

? Hệ quản trị cơ sở đữ liệu của Microsoft _ DHCNE

Trang 9

Phân nội dung

Sau khi đánh giá mô hình dự đoán tốt nhất, tác giả xây dựng chương trình thực nghiệm

đề hồ trợ tư vân học tập cho sinh viên năm đâu

_ ĐHUNHN

Trang 10

Phân nội dung

CHƯƠNG 2 CAC KIEN THUC CO SO LIEN QUAN

2.1 Khai phá dữ liệu

2.1.1 Khải mệm khai phá đữ liệu (KPDL )

"KPDL là quá trình khảo sát và phân tích một khối lượng lớn các dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu để từ đó trích xuất ra các thông tin quan trọng, có giá trị tiềm ấn bên trong" [1]Do nhu cầu nghiệp vụ cần có cách nhìn thông tin trên quy mô toàn đơn vị

Các dữ liệu này được thu từ nhiều nguồn, đa số là từ các phần mềm nghiệp vụ như: phần mềm tài chính, kế toán, các hệ thống quản lý tài nguyên doanh nghiệp, các hệ thông quản lý khách hang hay từ tác công cụ lưu trữ thông tin trên web

Đây là những khối dữ liệu khổng lỗ nhưng những thông tin mà nó thể hiện ra thì lộn

xộn và “nghèo” đối với người dùng Kích thước của khối đữ liệu không lồ đó cũng tăng với tốc độ rất nhanh chiếm nhiều dung lượng lưu trữ KPDL liệu sẽ giúp trích xuất ra các mẫu điển hình có giá trị và biến chúng thành những trí thức hữu ích Quá trình này gồm một số bước được thê hiện trong hỉnh sau

/

\

| a

ăn

apres 2 ï

Hình 2.1: Các bước xây dựng một hệ thống KPDL

Y nghĩa cụ thê của các bước như sau:

- Lựa chọn đữ liệu liên quan đến bài toán quan tâm

- Tiền xử lý đữ liệu, làm sạch dữ liệu, chiếm tới gần 60% nỗ lực

- Chuyễn đổi dữ liệu về đạng phù hợp thuận lợi cho việc a

- KPDL, trích xuất ra các mẫu dữ liệu (mô want) | | N | | | N |

5

Trang 11

Phân nội dung

- Danh gia mau

- Sử dụng tr1 thức khai phá được

2.1.2 Ứng dụng KPDL trong giáo dục

J Tư vấn lựa chọn ngành học

Cho một kho dữ liệu lưu giữ các thông tin về kết quả học tập của sinh viên đã tốt nghiệp Hãy tìm ra những quy luật lựa chọn các chuyên ngành một cách hợp lý sao cho đạt được kết quả tốt nhất Nhằm mục đích này người ta mong muốn nhận được từ đữ

liệu những phát biểu như: “80% sinh viên học tốt môn Kinh tế chính trị và Tiếng Anh

khá thì tốt nghiệp chuyên ngành Kế toán ngân hàng loại giỏi”, Để đạt được những phát biểu như trên, chúng ta sử dụng các thuật toán Khai phá luật kết hợp từ cơ sở đữ liệu

J Tư vấn lựa chọn môn học

Cho một kho dữ liệu các thông tin về kết quả học tập của sinh viên Hãy tư vấn cho sinh viên lựa chọn các môn học cho học kỳ sau dựa trên kết quả của các học kỳ trước sao cho kết quả học tập của kỳ sao là cao nhất Đề thực hiện việc này, chúng ta cần sử dụng các thuật toán KPDL ở dạng phân lớp và dự đoán nhự Cây quyết định, mạng Naive Bayes, Neural Network hay luat két hop

J Tư vấn lựa chọn lộ trình học

Cho một kho dữ liệu đảo tạo (theo hình thức tín chỉ) bao gồm các môn học (học phần) tương ứng với các ngành học và các học kỷ (gọi là chương trinh dao tạo), cùng với các thông tin về kết quả học tập của các sinh viên đã tốt nghiệp Hãy tư vấn cho các sinh viên mới vào trường cách lựa chọn một lộ trình học phù hợp nhất cho ngành học mà sinh viên đã đăng ký sao cho kết quả tốt nghiệp ra trường của sinh viên là cao nhất Đây chính là bài toán mà luận văn hướng đến Để thực hiện việc này, chúng ta cần sử dụng các thuật toán KPDL ở dạng phân lớp và dự đoán nhự Cây quyết định, mạng Naive Bayes, Neural Network hay luat két hop

2.2 Một số kỹ thuật KPDL trong phân lớp, dự báo

2.2.1 Cây quyết định Cây quyết định là một cấu trúc biểu diễn dưới dạng cây Trong đó, mỗi nút trong

(internal node) biểu diễn một thuộc tính, mỗi nhánh =1) H CNH |

6

Trang 12

Phân nội dung

của thuộc tính, mỗi lá (leaf node) biểu điễn các lớp quyết định và đỉnh trên cùng của cây gọi là gốc (root)

Branch on

»œ

Internal node

Hình 2.2:Biểu điễn cây quyết định cơ bản Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận

về 1á trị mục tiêu của sự vật/hiện tượng Mỗi nút trong (mternal node) tương ứng với một biến, đường nỗi gitra no voi nut con của nó thé hién gia tri cu thể cho biến đó Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị dự đoán cua các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gon la cay quyét định

Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được dùng dé phan lớp các đối tượng dựa vào dãy các luật (serles of rules) Các thuộc tinh của đối tượng (ngoại trừ thuộc tính phân lớp — Category attribute) có thê thuộc các kiêu dữ liệu khác nhau (Binary, Nominal, ordinal, quantitative values) trong khi d6 thudc tinh phan lớp phai co kiêu dữ liệu là Bimary hoặc Ordinal

2.2.2 Phan lop Naive Bayes Dinh ly Bayes cho phép tinh xac suất xảy ra của một sự kiện ngẫu nhiên A khi biết sự

kiện liên quan B đã xảy ra Xác suất này được ký hiệu là P(A|B), và đọc là "xác suất

cua A néu co B" Đại lượng này được gọi xác suất có điêu kiện vì nó được rút ra từ p1á

\HN

trị được cho của B hoặc phụ thuộc vào giá trị đó [2]

Phương pháp Naive Bayes phù hợp các bài toán có yêu cầuvẻ chỉ phí

các giá trị thuộc tính ft)

7

Ngày đăng: 09/01/2025, 16:09

HÌNH ẢNH LIÊN QUAN

Hình  2.1:  Các  bước  xây  dựng  một  hệ  thống  KPDL - Đồ án tốt nghiệp Đại học chuyên ngành  cntt Đề tài khai phá dữ liệu trong giáo dục
nh 2.1: Các bước xây dựng một hệ thống KPDL (Trang 10)
Hình  2.2:Biểu  điễn  cây  quyết  định  cơ  bản  Trong  lĩnh  vực  học  máy,  cây  quyết  định  là  một  kiểu  mô  hình  dự  báo  (predictive  model),  nghĩa  là  một  ánh  xạ  từ  các  quan  sát  về  một  sự  vật/hiện  tượng  tới  các  kết  luận - Đồ án tốt nghiệp Đại học chuyên ngành  cntt Đề tài khai phá dữ liệu trong giáo dục
nh 2.2:Biểu điễn cây quyết định cơ bản Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận (Trang 12)
Bảng  2.2:  Tập  dữ  liệu  học  ban  đâu  và  kết  qua  theo  phân  lớp - Đồ án tốt nghiệp Đại học chuyên ngành  cntt Đề tài khai phá dữ liệu trong giáo dục
ng 2.2: Tập dữ liệu học ban đâu và kết qua theo phân lớp (Trang 13)
Hình  3.3:  Kết  quả  tư  vấn  học  tập  với  mô  hình  Naive  Bayes  Theo  đánh  giá  mơ  hình  từ  trước  thì  mơ  hình  Nạve  Bayes  cho kết  quả  dự  báo  tốt  nhất  nên  sinh  viên  cần  lấy  kết  quả  của  mô  hình  này  để  tham  khảo  chính - Đồ án tốt nghiệp Đại học chuyên ngành  cntt Đề tài khai phá dữ liệu trong giáo dục
nh 3.3: Kết quả tư vấn học tập với mô hình Naive Bayes Theo đánh giá mơ hình từ trước thì mơ hình Nạve Bayes cho kết quả dự báo tốt nhất nên sinh viên cần lấy kết quả của mô hình này để tham khảo chính (Trang 15)