1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học dữ liệu: Nghiên cứu giải pháp quản lý chất lượng dữ liệu giáo dục để dự đoán kết quả sinh viên tốt nghiệp trong kiến trúc dữ liệu lớn

68 4 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Giải Pháp Quản Lý Chất Lượng Dữ Liệu Giáo Dục Để Dự Đoán Kết Quả Sinh Viên Tốt Nghiệp Trong Kiến Trúc Dữ Liệu Lớn
Tác giả Nguyễn Phạm Hồng Duyên
Người hướng dẫn ThS. Nguyễn Thị Anh Thư
Trường học Đại Học Quốc Gia TP. Hồ Chí Minh
Chuyên ngành Cử Nhân Ngành Khoa Học Dữ Liệu
Thể loại Khóa Luận Tốt Nghiệp
Năm xuất bản 2024
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 68
Dung lượng 64,89 MB

Nội dung

Do đó, mục tiêu của nghiên cứu này là dégiải quyết các van đề bằng cách dé xuất một giải pháp quản lý chất lượng dữ liệu bềnvững trong môi trường kiến trúc dữ liệu lớn.. Đồng thời, nghiê

Trang 1

ĐẠI HOC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HOC VA KY THUAT THONG TIN

NGUYEN PHAM HONG DUYEN - 20520477

KHOA LUAN TOT NGHIEP

NGHIEN CUU GIAI PHAP QUAN LY CHAT LUONG DU

LIEU GIAO DUC DE DU DOAN KET QUA SINH VIEN

TOT NGHIEP TRONG KIEN TRUC DU LIEU LON

Educational data quality management solutions for predicting

graduation outcomes in big data architecture

CU NHAN NGANH KHOA HOC DU LIEU

GIANG VIEN HUONG DAN

ThS NGUYEN THI ANH THU

TP HO CHÍ MINH, 2024

Trang 2

LỜI CẢM ƠN

Em xin chân thành gửi lời cảm ơn đến cô Nguyễn Thị Anh Thư, em cảm ơn sự hướngdẫn tận tâm và nhiệt huyết của cô đã truyền cảm hứng dé em có thé hoàn thành dé tàimột cách tốt nhất Những hỗ trợ và góp ý quý báu của cô không chỉ giúp em hoàn thiệnnghiên cứu mà còn mở rộng hiểu biết của em trong lĩnh vực này Em cũng xin gửi lờicảm ơn đến nhà trường và khoa Khoa học và Kỹ thuật Thông tin đã tạo mọi điều kiện vàmôi trường thuận lợi nhất để em có thê tập trung hoàn thành nghiên cứu Đặc biệt, em

xin bày tỏ lòng biết ơn đến nhóm nghiên cứu DataChain, cảm ơn cô Thư, thầy Khoa,

thay Trí đã hỗ trợ và cung cấp bộ dữ liệu quan trọng dé em có thé tiến hành nghiên cứunày Sự giúp đỡ từ phía nhóm nghiên cứu là nguồn động lực to lớn giúp em hoàn thànhtốt công việc của mình Những thông tin và tài nguyên mà nhóm nghiên cứu cung cấp đã

có vai trò vô cùng quan trọng giúp cho việc đề xuất và triển khai các giải pháp trongnghiên cứu của em được hoàn thiện hơn Ngoài ra, em cũng muốn cảm ơn sự chia sẻ vàđộng viên tinh thần của gia đình và bạn bè trong suốt quá trình thực hiện đề tài Một lầnnữa, em xin gửi lời cảm ơn chân thành nhất đến tất cả sự giúp đỡ của mọi người, đó thật

sự là nguồn động lực to lớn giúp em có thê kiên trì hoàn thành nghiên cứu này một cáchtốt nhất

Chân thành cảm ơn.

Nguyễn Phạm Hồng Duyên

Trang 3

MỤC LỤC

Chương 1 MỞ ĐẦU 2 2SE2EE2 2 1EE12112112112112112112111.211 1.1.1 xe 3

1.1 Lý do chọn đề tài -:- + St‡Sx+ SE EE1E11211211211211211211211 121.1 cree 3

2.2.1.3 Giai đoạn DQA tự động .-SĂ se SS*sseireeereree 12

2.2.2 Các mô hình dự đoán kết quả sinh viên tốt nghiệp 15Chương 3 NGHIÊN CỨU LÝ THUYẾÊT - 2 2 2 £+£+££+££+£zzzzzzxee 17

3.1 Cơ sở lí thuyết c- St 2t St E1 1101121111121121101111 1.111 te 17

3.1.1 Chất lượng dit liệu + tk EEEEEEEEEEErrrrrrrrrei 17

3.1.2 Vòng đời dữ liệu -¿©-++ckc2EkEEEEEEEE2112211221.2E1ecrkcree 17

3.1.3 Khung đánh giá chất lượng dữ liệu -2¿ ¿+ ©s+2s++cxc++ 18

3.1.4 Các tiêu chí đánh giá chất lượng dữ liệu -¿-¿-s+ 183.1.5 Quy trình quản lý chat lượng dữ liệu - 2-2 5+22+z5=++ 193.1.6 Mô hình dự đoán kết quả sinh viên tốt nghiệp -: 213.1.7 _ Kiến trúc dữ liệu lớn -¿- 2 ©£+++Ek+EEtSEEEEECEEESEEtrkerrerrkrree 22

3.2 Phương pháp nghién CỨU - G113 2113911 1391111 11811 8111 1g net 24

3.2.1 _ Tổng quan phương pháp nghiên cứu 2-2 s+sz+c£+£z+szsz 24

Trang 4

3.2.2 _ Phân tích dữ liệu - - - 1+1 nghệ, 25

3.2.3 Đánh giá chất lượng dữ liệu 5¿©2+©2++2x++cxevrxeerxesree 323.2.4 Cải thiện chất lượng dữ liệu -¿2¿©+22++2x+ecxeerxesrxesree 343.2.5 Dự đoán kết quả tốt nghiệp của sinh viên 2-2 2 z+sz+x+sz 363.2.6 Quản lý chất lượng dữ liệu trên kiến trúc dữ liệu lớn 38Chương 4 TRINH BAY, DANH GIÁ BAN LUẬN VE KET QUẢ 43

4.1 Thiết kế thực nghi@m ccecceccccccsssessesseessessesssessessesssessessesssessessesesessesseeesess 434.2 Kết quả thực nghiệm ¿- 2 2+S<+SE+EE+EESEEEEEEEEEEEEEEEEE2E12E.E re 484.3 Đánh giá kết quả thực nghiệm 2-2 2 2+S£+E++E£+E+EE+E++EzEzrerreee 51

Chương 5 KET LUẬN c-.cc-S22-55- 252 EE EEEEEEEEEEEEEEErkrrkrrkerkee 54Chương 6 _ HƯỚNG PHÁT TRIỂN 2: 22©5<+E++E£+EE£EEE£EEeEEerkerrkerxee 56

TÀI LIEU THAM KHÁO s- (tt SE SEEEE‡EEEEEEEEEEEEEEEEEEEEEEEEkEEEEkrkekrrkrkrrerke 57

Trang 5

năm 2022), theo ngành và theo hệ đào tạO 6 5+ *Sc* + E+EEeseerreeesersree 27

Hình 3.8 Biểu đồ phân bố sinh viên theo hệ đào tao ở các năm từ 2006 đến 2022.28Hình 3.9 Biéu đồ phân bồ sinh viên theo khoa ở các năm từ 2006 đến 2022 29Hình 3.10 Biểu đồ phân bồ sinh viên theo dân tộc thé hiện sự gia tăng về sự đa dạngcác dân tộc trong nhà trường ở các năm từ 2006 đến 2022 2-2 2 2+: 29Hình 3.1 1 Biểu đồ phân bố sinh viên thé hiện sự gia tăng về tính đa dạng thành phancác tôn giáo trong nhà trường từ năm 2006 đến 2022 2-2 2+z+z+z+5++‡ 30Hình 3.12 Biểu đồ cột phân bồ sinh viên đã tốt nghiệp theo từng khóa đào tạo 31Hình 3.13 Biểu đồ cột phân bố sinh viên đã tốt nghiệp theo bốn nhãn Kha, Giỏi,Trung Bình, XUAL SAC 1 ad 31Hình 3.14 Biéu đồ cột phân bố sinh viên tốt nghiệp theo bốn loại kết quả tốt nghiệpcủa từng khóa đào tao từ 2006 đến 20 1 -¿- 2 ++2z+E++E+E++E2EEEErExrrerrerreee 32

Hình 3.15 Năm tiêu chí DQA cho dữ liệu giáo dục đại học - - ‹ 33

Hình 3.16 Sơ đồ mô tả hai cách DQA Một là DQA cho từng bảng riêng lẻ Hai làDQA tổng thé cho bộ dữ liệu dự đoán xếp loại tốt nghiệp - 2s 34

Trang 6

Hình 3.17 Sơ đồ quá trình cải thiện DQ Dữ liệu thô lưu trữ ở kho chứa Bronze Dữ

liệu đã làm sạch lưu trữ ở kho Silver Dữ liệu đã cải thiện theo tác vụ phân tích lưu

0898 kho chia Gold 8T - 35

Hình 3.18 Hình ảnh mô tả sự khác nhau của hai cách tiếp cận để phát triển cây.

Nguồn: Mediuim - 2-5 S999 EEEEEE1E2107111111121111111111 111.1 re 37Hình 3.19 Cây bat đối xứng (bên trái) và cây đối xứng (bên phải) Nguồn: Medium

¬ 38

Hình 3.20 Mô hình dự đoán xếp loại tốt nghiệp - 2-22 ++x+ze+cxzee 38Hình 3.21 Hình ảnh mô tả các loại dữ liệu từ nhiều nguồn được lưu trữ dưới dạng

nguyên bản trong data lake - - G11 HH HH 41

Hinh 3.22 So dé DQM trén kiến trúc dữ liệu lớn sử dụng hệ sinh thái Microsoft

ÀZUT A co nen 41

Hình 4.1 Thống kê sự thay đối số lượng thuộc tinh theo các năm - 44Hình 4.2 Biéu đồ histogram thé hiện tỉ lệ số cột dữ liệu bị thiếu trong tổng số cột củatừng dòng dit liệu đối với tiêu chí completeness trong các bảng DSSV 48Hình 4.3 Biểu đồ cột trực quan số lượng bản ghi không đầy đủ các thuộc tính bắtbuộc của bang DSSV và tổng số bản ghi của dữ liệu sinh viên từ năm 2006 đến 2022

Hình 4.4 Biểu đồ cột thé hiện tổng số bản ghi không đầy đủ các thuộc tính bắt buộc

của bang DIEM va tổng số bản ghi của dữ liệu điểm từ năm 2006 đến 2022 49

Hình 4.5 Một dashboard giám sát DQ theo thời gian trên công cụ Power BI 53

Trang 7

DANH MỤC BANG

Bảng 1.1 Các dịch vụ đã phát hành cung cấp giải pháp DQM phổ biến 4

Bang 2.1 Bảng so sánh các khung DQA ở giai đoạn định nghĩa các khung đánh gia 8ï 009/09/1) 1 8

Bảng 2.2 Bảng so sánh các khung DỌA ở giai đoạn các khung DQA ứng dụng trong lĩnh vực cụ thỂ - - St SE EEE E311 EE11111111111111E 1111111111111 11.112 10 Bảng 2.3 Bảng so sánh các nghiên cứu đánh gia DQ ở giai đoạn đánh giá DQ tự động ¬ 12

Bảng 3.1 Bang so sánh hai phương pháp DQA chủ quan và DQA khách quan I9 Bảng 3.2 Bảng mô tả tác vụ chính của bốn giai đoạn trong quy trình DQM 20

Bảng 3.3 Bảng mô tả các bảng dữ liệu có cấu trúc trong bộ dữ liệu - 26

Bang 3.4 Bang mô ta cách triển khai các phương pháp cải thiện DQ 36

Bang 3.5 Bảng so sánh sự khác nhau của Data Warehouse va Data Lakehouse 40

Bảng 4.1 Bảng mô tả các kiểm tra được thực hiện đối với từng tiêu chí DQA theo cấp độ dòng và cấp độ bảng -2- 2-51 23 E1 E1211211211211211211211211211 1111.111 c1ecy 45 Bang 4.2 Bang mô tả các phương pháp đo lường dé thực thi các kiểm tra DQA đối với từng tiêu chí theo hai cấp đỘ -¿ :- 2-5252 S22SE+EE2EEEEEEEE2EE2EE2EE2E12E222221e xe, 46 Bảng 4.3 Bảng kết quả trung bình của DQA trên từng bảng riêng lẻ 50

Bảng 4.4 Bảng dự đoán kết quả tốt nghiệp đối với dữ liệu trước và sau khi cải thiện

Trang 8

DANH MỤC TU VIET TAT

STT | Ky hiéu tir viét tat Từ day đủ

1 |DQ Data Quality (Chất lượng dit liệu)

2 DOA Data Quality Assessment (Danh gia chat

lượng dir liệu)

3 DOM Data Quality Management (Quan ly chat

lượng dir liệu)

4 LightGBM Light Gradient Boosting Machine

5 CatBoost Categorical Boosting

Trang 9

TÓM TẮT KHÓA LUẬN

Trong bối cảnh giáo dục hiện đại, kết hợp giữa sự phát triển mạnh mẽ của dữ liệu lớn

và các công nghệ mới, thách thức mà các nhà quản lý giáo dục đầu ngành phải đốidiện đó là làm cách nào dé quản lý và khai thác tốt khối lượng tài nguyên đa dạng vàtận dụng chúng dé đưa ra những chiến lược hiệu qua cho sự phát triển bền vững của

tổ chức Các tổ chức không chỉ sử dụng nguồn dữ liệu nội bộ mà còn khai thác dữliệu từ các nền tảng trực tuyến bên ngoài Điều này giúp cho tổ chức sở hữu tập hợp

dữ liệu đa dạng và phức tạp về nguồn, kiểu dit liệu, cách xử lý và cách lưu trữ Đócũng là lý do giải pháp hồ đữ liệu Data Lake ra đời với mục tiêu lưu trữ tất cả cácphiên ban đữ liệu trong suốt vòng đời hoạt động vào một nơi duy nhất hỗ trợ truy cập

dễ dàng và khai thác tối đa giá trị sử dụng của đữ liệu Tuy nhiên, chất lượng đữ liệutrong Data Lake thường gặp nhiều van đề như dữ liệu không chính xác, không day

đủ, bị trùng lắp, thiếu tính nhất quán và bị lỗi thời Các vấn đề này ảnh hưởng nghiêmtrọng đến độ tin cậy và tinh ứng dụng trong việc sử dụng dit liệu dé đưa ra các quyếtđịnh và chiến lược quan trọng của tô chức Do đó, mục tiêu của nghiên cứu này là dégiải quyết các van đề bằng cách dé xuất một giải pháp quản lý chất lượng dữ liệu bềnvững trong môi trường kiến trúc dữ liệu lớn Đồng thời, nghiên cứu cũng kiểm chứngmức độ hiệu quả của các phương pháp cải thiện chất lượng đữ liệu trên nhóm dữ liệu

có cấu trúc đề xuất thông qua bài toán ứng dụng dự đoán xếp loại tốt nghiệp của sinh

viên với hai phiên bản dữ liệu trước và sau khi cải thiện.

Quy trình quản lý DQ đề xuất gồm bốn giai đoạn chính: phân tích đặc điểm dữ liệu,triển khai các đánh giá DQ, giám sát kết quả đánh giá và tiến hành cải thiện đối vớicác dữ liệu dưới ngưỡng tiêu chuẩn Quy trình này giúp cho người quản lý dit liệu cóthé theo ddi mức độ 6n định của toàn bộ dữ liệu cả về tổng thé và chỉ tiết Từ đó,người sử dụng dữ liệu có cơ sở tin cậy dé lựa chọn những dữ liệu phù hợp cho cáctác vụ cần thiết Hai mô hình máy học boosting tiên tiền LightGBM và CatBoost được

sử dụng trong nghiên cứu để dự đoán kết quả loại tốt nghiệp của sinh viên Từ kết

quả độ chính xác tăng 5%, nghiên cứu đánh giá tiềm năng của các phương pháp cải

Trang 10

thiện đã đề xuất có hiệu quả tương đối tốt trên nhóm dữ liệu có cấu trúc Cuối cùng,nghiên cứu đề xuất việc triển khai quy trình quan lý DQ trong Azure Data Lake Gen2trên kiến trúc đữ liệu lớn với hệ sinh thái Microsoft Azure.

Trang 11

Chương 1 MỞ ĐẦU

1.1 Lý do chọn đề tài

Có nhiều tiêu chí để đánh giá chất lượng dao tạo của một tổ chức giáo dục đại học,

một trong số đó là kết quả tốt nghiệp của sinh viên Tuy nhiên, dữ liệu giáo dụcthường gặp các vấn đề như không chính xác, không đầy đủ, không cập nhật, không

nhất quán, không liên quan Hậu quả của các vấn đề này như giảm độ chính xác của

mô hình dự đoán, giảm độ tin cậy dẫn đến những quyết định thiếu chính xác dựa trên

dữ liệu, cũng như gây thiệt hại về tài chính cho các bên liên quan được trực quan như

hình 1.1.

Bên cạnh đó, nâng cao tỉ lệ sinh viên tốt nghiệp đúng hạn với kết quả tốt luôn là mục

tiêu được ưu tiên hàng đầu của các trường đại học Kết quả tốt nghiệp tốt là một điểmcộng dé các ứng viên gây được ấn tượng ban đầu tốt với các nhà tuyển dụng và các

nhà tuyển dụng cũng phần nào đánh giá được khả năng chuyên môn của ứng viêntrong thời gian học tập tại trường đại học Đề đạt được điều này, việc phát triển cácphương pháp theo dõi định kỳ và can thiệp linh hoạt dé hỗ trợ sinh viên lúc khó khăn

là vô cùng cần thiết Trong giới khoa học dữ liệu, có một câu nói nổi tiếng đó là

“garbage in garbage out”, câu này có ý nghĩa là nếu dữ liệu đầu vào có chất lượng

kém thì kết quả đầu ra cũng kém chất lượng, không đáng tin cậy, không mang lại ý

nghĩa ứng dụng trong thực tế Không thể phủ nhận rằng chất lượng dữ liệu của dữ

liệu đầu vào chính là nền tảng quan trọng cho việc xây dựng những mô hình dự đoán

và cảnh báo, vì chúng tác động trực tiếp đến quá trình mô hình học trên dữ liệu huấnluyện và độ tin cậy của kết quả dự đoán

Do đó, việc đầu tư nghiên cứu về DQ cần được chú trọng nhiều hơn nữa Hiện nay,

trong cả hai hướng nghiên cứu và hướng ứng dụng đã có các thành tựu quy mô từ

nhỏ đến lớn trên nhiều lĩnh vực dữ liệu Hầu hết các dịch vụ được phát hành trong

thực tế đều có trả phí và phù hợp với quy mô dữ liệu doanh nghiệp, cụ thể một vài

dịch vụ phổ biến được thống kê ở bảng 1.1 Các nghiên cứu khoa học thi tập trungvào dit liệu của các tô chức nhỏ và tập trung giải thích về mặt phương pháp lý thuyết

Trang 12

Tuy nhiên, dữ liệu không được công khai trong các nghiên cứu Với lợi thế sở hữu

dữ liệu thực của một trường đại học chuyên đào tạo các nhóm ngành công nghệ thông

tin, chúng tôi tiến hành các khảo sát và DQA trên dit liệu này và mở rộng phạm viđối với lĩnh vực dữ liệu giáo dục ở bậc đại học nói chung Thông qua quá trình triểnkhai các tiêu chí DQA và quy trình DQM kết hợp với bài toán ngữ cảnh ứng dụng,chúng tôi hi vọng giải pháp này có thể đóng góp một phần vào việc nâng cao DQ và

cung cấp những biện pháp hỗ trợ kịp thời nhờ mô hình cảnh báo sớm, giúp đỡ sinh

viên trong thời gian học tập tại trường được hiệu quả hơn.

Van dé về chat lượng dữ liệu Ảnh hưởng

Missing Incorrect data " = Am a “Insight”

Inconsistent GA TM Inaccurate

data-data driven decisions

Hình 1.1 Ảnh hưởng của DQ kém trong Data LakeBảng 1.1 Các dịch vụ đã phát hành cung cấp giải pháp DQM phô biến

Tên dịch vụ Dịch vụ chính tản phí ước

CDQ _ Data Cung cấp các giải pháp | Quy mô doanh

Quality DQM hiệu quả ở nhiêu lĩnh | nghiệp

Solutions vuc

Trang 13

Doanh nghiệp:

$45/tháng

Cung cấp các công cụ trực | Quy mô doanh

quan để xác định, phân tích | nghiệp

và sửa chữa dữ liệu

Doanh nghiệp:

$274/tháng

1.2 Phạm vi

Nghiên cứu chủ yếu khai thác và giải quyết các khía cạnh chính sau:

— Nghiên cứu và triển khai các tiêu chí DỌA: Định tính và định lượng các tiêu

chí như tính đầy đủ, tính nhất quán, tính kịp thời, tính chính xác, tính duy nhấtphù hợp với đặc điểm của đữ liệu giáo dục

— Huấn luyện mô hình dự đoán: Huấn luyện mô hình LightGBM và CatBoost

dự đoán xếp loại sinh viên tốt nghiệp theo bốn loại Trung bình, Khá, Giỏi,

Xuất sắc

— Đánh giá sự ảnh hưởng: So sánh độ chính xác của mô hình khi huấn luyện trên

dt liệu trước và sau khi cải thiện.

— DQM trên kiến trúc dit liệu lớn: Triển khai DQM trên môi trường Microsoft

Azure đề lưu trữ, xử lý, phân tích, giám sát DQ trong cả vòng đời hoạt động

1.3 Đối tượng

Đối tượng chính của nghiên cứu là dữ liệu về hoạt động về sinh viên, giảng viên, hoạt

động nghiên cứu và hoạt động tài chính của một trường đại học từ năm 2006 đến năm

2022 Nghiên cứu tập trung vào nhóm dữ liệu sinh viên phục vụ cho bài toán ngữ

cảnh ứng dụng Ngoài ra, phương pháp DỌA, phương pháp cải thiện và hai thuật toán

Trang 14

học máy huân luyện mô hình dự đoán xêp loại tôt nghiệp của sinh viên cũng là các

đối tượng quan trọng

Trang 15

Chương 2 TỎNG QUAN

2.1 Giới thiệu đề tài

Trong thực tế, mặc dù dữ liệu đóng một vai trò quan trọng, ảnh hưởng trực tiếp đến

phân tích xu hướng và độ tin cậy của các quyết định Tuy nhiên, dữ liệu kém chất

lượng khi tồn tại những vấn đề như dữ liệu lỗi thời, thiếu chính xác, không đồng nhất,thiếu hay bị trùng lắp do những thay đổi liên tục trong quá trình hoạt động mà nhữngngười quan lý chưa cập nhật kip thời Vậy nên, dé đáp ứng sự thay đổi và mở rộngquy mô hoạt động, cần một giải pháp dé duy trì DQ ổn định theo thời gian Điều này

giúp tiết kiệm chi phí và thời gian xử ly dit liệu xấu và tăng sự tin cậy trong việc sử

dụng dữ liệu từ hồ dữ liệu DQA là định nghĩa framework với các tiêu chí cụ thể đểđánh giá DQ của dit liệu bằng số liệu Các tiêu chí phố biến gồm tinh đầy đủ, tínhnhất quán, tính chính xác, tính kịp thời, tính duy nhất Cách tính toán các tiêu chí nàyphu thuộc vào đặc điểm riêng của từng loại dữ liệu trong các lĩnh vực khác nhau Cácnghiên cứu trước đó tập trung vào nhóm dữ liệu có cấu trúc vì việc đo lường đượctriển khai rõ ràng bang các phương pháp phân tích thống kê Bên cạnh đó, đối với ditliệu đưới ngưỡng cho phép, chúng tôi đề xuất các kỹ thuật cải thiện, điều mà chưađược đề cập chỉ tiết trong hầu hết các nghiên cứu trước đây

Bài toán ngữ cảnh ứng dụng là đự đoán xếp loại tốt nghiệp của sinh viên dựa vào cácdir liệu trong quá trình hoc tập trước đó Bốn độ đo phổ biến của bài toán phân loại

đa lớp dé so sánh đối với dữ liệu trước và sau khi cải thiện Nghiên cứu này kết nốicác bước này thành một quy trình DQM bao gồm bốn giai đoạn Quy trình này được

đề xuất triển khai trong hệ sinh thái đám mây Azure của Microsoft Trong hồ dữ liệu

Data Lake chứa dữ liệu dạng bảng excel, tệp csv, Json, báo cáo và cả dữ liệu văn bản.

Nghiên cứu này tập trung khai thác nhóm đữ liệu có cấu trúc, đặc biệt là các trường

dữ liệu liên quan đến sinh viên Năm tiêu chí tính duy nhất, tính chính xác, tính kịpthời, tính đầy đủ, tính kịp thời được lựa chọn dé đo lường DQ

Giải pháp DQM giúp đảm bảo DQ được duy trì ở mức ổn định theo thời gian hoạt

động và các dấu hiệu chất lượng kém được phát hiện, khắc phục kịp thời Vì vậy, kết

Trang 16

quả dự đoán của mô hình máy học trở nên đáng tin cậy hơn, góp phần nâng cao chất

lượng và uy tín dao tao của trường học.

Ngữ cảnh của nghiên cứu là quản lý và giám sát DQ trên kiến trúc dit liệu lớn cho

các dự án giáo dục đại học với bài toán ứng dụng thực tế là dự đoán kết quả tốt nghiệpcủa sinh viên Cụ thé, đầu vào là dit liệu giáo dục đại học trên kiến trúc dữ liệu lớn

được lưu trữ ở Data Lake và đầu ra là kết quả đánh giá và giám sát dữ liệu Đối với

bài toán ứng dụng, mô hình dự đoán loại tốt nghiệp của sinh viên, đầu vào bao gồmtất cả đữ liệu về sinh viên như thông tin cá nhân, điểm học tập, hoạt động rèn luyện,đầu ra là khả năng tốt nghiệp của sinh viên (Trung bình, Khá, Giỏi, Xuất sắc)

2.2 Các nghiên cứu liên quan

2.2.1 Cac khung DQA

Quá trình bắt đầu hình thành các khái niệm cơ bản và phát triển của các khung DQA

có thé được chia ra thành ba giai đoạn chính dựa vào thời gian Giai đoạn đầu tiênđịnh nghĩa các tiêu chí và khung đánh giá chung cho các trường dữ liệu phổ biến.Giai đoạn tiếp theo định tính và đo lường các khung đánh giá cho dữ liệu của các lĩnhvực cụ thé khác nhau Giai đoạn gần đây, các nghiên cứu có xu hướng tự động hóa

việc đo lường các tiêu chí DỌA một cách tự động.

2.2.1.1 Giai đoạn định nghĩa các khung DQA và tiêu chí tổng quát

Bang 2.1 Bang so sánh các khung DQA ở giai đoạn định nghĩa các khung đánh giá

và tiêu chí chung

Khung |Năm| Thành phần Tiêu chí DỌA Đánh | Đánh

đánh gia chính giá giá

DỌ khách chủ

quan | quan

TDQM 1998 | Xem xét yéu cau | Accuracy, relevancy, v x

[1] cua doanh reputation, timeliness,

nghiệp và xác completeness, security

dinh d6 do DQ

Trang 17

TIỌM [2] | 1999 | Kỳ vọng của Completeness,

người dùng và accuracy, precision, định nghĩa độ do | non-duplication,

DQ accessibility,

timeliness, integrity,

usability

HIQM 2006 | Đánh gia khách | Accuracy,

[3] quan thông qua | completeness,

đề xuất thuật consistency, timeliness

toán đo lường

CDQ [4] | 2008 | Lấy khảo sát của | Structured: accuracy,

người dùng dữ completeness, currency liệu và chon các

độ đo DQ về

tính chính xác và tính cập nhật

COLDQ | 2011 | Khao sátngười | Unstructured: currency,

[5] tiêu dùng va relevance, reliability

dinh nghia cac

độ do DQ khác nhau

DQAF 2013 | Định nghia mot | Accuracy, consistency,

[6] tập hop độ do completeness, currency,

DQ cho các loại | security, timeliness, phép đo lường relevance

khác nhau

TBDQ _ | 2016 | Bang câu hỏi Completeness,

[7] khao sat va cac timeliness, validity,

tiêu chí phố biến | consistency, integrity

Các bài báo công bố trong giai đoạn đầu chủ yếu tập trung vào định nghĩa các tiêuchí và framework chung Vì vậy, số lượng các tiêu chí được định nghĩa khá đa dạng

va từng tiêu chí cũng có nhiều khái niệm khác nhau Bang 2.1 so sánh các khung đánhgid DQ phô biến, mỗi khung cung cấp định nghĩa về các tiêu chí dung để đánh giá

DQ Đồng thời, các nghiên cứu cũng phân biệt hai phương pháp chính dé đo lường

DQ chính đó là đánh giá chủ quan và đánh giá khách quan DQA chủ quan chủ yếu

Trang 18

dùng các bang câu hỏi dé lay khảo sát của người thao tác trực tiếp trên dữ liệu về cácvấn đề liên quan đến DQ đang tồn tại DQA khách quan dựa vào các độ đo DQAđược định nghĩa và đo lượng cụ thé theo những đặc điểm của các dữ liệu Phươngpháp đánh giá khách quan bằng các tiêu chí được ưu tiên sử dụng, trong khi cáchđánh giá chủ quan it được lựa chọn vì yêu cầu chi phí cao và cần sự hợp tác của nhiềubên tham gia Trong giai đoạn này, DQ dan được chú ý là một trong những yếu tố

quan trọng trong việc đảm bảo mức độ tin cậy, tính ứng dụng và sự chính xác của các

phân tích và chiến lược đưa ra dựa vào dữ liệu trong một tổ chức bất kỳ

completeness

e ¬ relevancy

usability validity security consistency precision

accu racy currency

relevan ce accessibility \abitty integrity

ow timeliness

non-duplication

Hình 2.1 Biéu đồ đám mây từ mô ta các độ đo DQA va mức độ phô biến của

chúng.

2.2.1.2 Giai đoạn các khung DỌA ứng dung trong lĩnh vực vụ thể

Bang 2.2 Bảng so sánh các khung DQA ở giai đoạn các khung DQA ứng dụng

trong lĩnh vực cụ thể

Khung | Năm Mục đích Loại Linh | Các tiêu | Đánh | Đán

đánh giá dữ liệu | vực dữ | chí DỌA | giá | hgiá

Trang 19

đến bài toán relevance

of Things ness, (oT) reliability

PPF [10] | 2019 | Mot khung Có cấu | Tién | Complete

DQ dé cai trúc xửlý | ness,

thiện chất dữ liệu | validity,

lượng trong consisten

qua trinh tién cy,

Trang 20

về lỗ hông cy,

phan mém validity

RWDQF | 2024 | Khung DQ Có cấu | Dữ liệu | Accuracy v x

[14] trong nghiên | trúc ytế ;

cứu bệnh ung complete thư, đặc biệt ness,

tap trung vao timeliness thoi gian

ngừng điều tri

Các khung đánh giá chất lượng dữ liệu ở giai đoạn này tập trung vào việc triển khai

định lượng và định tính của các tiêu chí được lựa chọn cho bộ dữ liệu trong một lĩnh

vực cụ thé Các phương pháp được sử dụng một cách linh hoạt phụ thuộc vào những

đặc trưng riêng của bộ dữ liệu nghiên cứu Vì vậy, sô lượng các tiêu chí phô biên được chon lọc rõ ràng hơn như là accuracy, completeness, consistency, uniqueness,

validity, timeliness Loại dữ liệu phổ biến nhất được tập trung đánh giá là dữ liệu có

câu trúc Tuy nhiên, chưa có các nghiên cứu tập trung vê DQ trong lĩnh vực giáo dục

đại học hay đánh gia DQ trên bộ đỡ liệu của trường đại học Dựa vào các tiêu chí phổbiến đã được thống kê ở bảng 2.2, nghiên cứu này lựa chọn 5 tiêu chí phù hợp để

đánh giá chất lượng của bộ dữ liệu giáo dục đại học

2.2.1.3 Giai đoạn DQA tự động

Bang 2.3 Bảng so sánh các nghiên cứu đánh giá DQ ở giai đoạn đánh giá DQ tự

động

Bài báo | Năm | Loại dữ Tiêu chí Phương pháp | Mức độ | Ngưỡn

liệu đánh giá DQ tự động tự động |ø tiêu

Trang 21

Valencia- | 2019 | Có cấu | Completeness, | Data validation | PartiallyParra et trúc accuracy, and cleaning

al [16] consistency

Rukat et | 2020) Khéng | Missing value | Data validation | Highly

al [17] dé cap and cleaning

Gupta et | 2021 | Có cấu | Class overlap, | Machine Highly

al [18] trúc outliner learning for

detection, Data quality

duplicates, class parity, feature

relevance, homogeneity,

data fairness correlation, completeness, detection

Tute et al | 2021 | Có cấu | DQ-issues Data quality Highly

[19] trúc profiling assessment

Ahiagble | 2022 | Co cau | Completeness, | Unsupervised | Highly

et al [20] trúc integrity, Machine

accuracy, Learning(DBS timeliness, CAN),

consistency, Syntactic and

free-of-error | Semantic data

quality

Baseiet | 2022|Cocau | Completeness, | Data quality Highly

al [21] trúc relevance, visualization

reliability, by “Traffic

adequacy light” system

Fadlallah | 2023 | Ban cau | Completeness, | Machine Highly

et al [22] trúc accuracy, Learning for

consistency Data Quality

Ozonze | 2023 | Cócấu | Completeness, | Data quality Highly

et al [23] trúc correctness, assessment

13

Trang 22

Oliveira | 2023 | Có cau | Consistency Software tool | Highly v

et al [25] trúc for data quality

(Great Expectation)

Phương | 2024 | Có cấu | Accuracy, Data quality Highly v

phap dé trúc completeness, | assessment

xuat consistency,

uniqueness, timeliness

Đã có nhiều phương pháp được thống kê từ các nghiên cứu trong bảng 2.3 về cách tự

động và bán tự động quy trình DQA Các nghiên cứu quan tâm đến vấn đề làm nhưthế nào đề đảm bảo DQ ôn định trong suốt vòng đời hoạt động của dữ liệu Đặc trưng

của dữ liệu nghiên cứu là yếu t6 quyết định đến việc lựa chọn các tiêu chí DQA phù

hợp Tuy nhiên, các mức độ tự động thường từ một phần tức là tự động hóa đánh giávới những thuộc tính chung như giới tính, thời gian (dd/mm/yyyy) hoặc bán phần tức

là tự động hóa đánh giá với những thuộc tính có các đặc trưng riêng của từng loại dữ

liệu bằng các phương thức riêng phù hợp được các nhóm nghiên cứu lựa chọn dựa

vào quá trình khai thác và phân tích dữ liệu kĩ lưỡng trước đó Mặc dù chưa có nghiên

cứu nảo đạt tới mức độ DỌA tự động hoàn toàn vì các tính chất riêng của dữ liệu

trong từng lĩnh vực và sự thay đổi về quy chuẩn nhập liệu cũng như định nghĩa vềcác thuộc tính của dữ liệu Vì lí do trên, nghiên cứu của chúng tôi lựa chọn triển khai

một khung DQA theo năm tiêu chí trên bộ dữ liệu dữ liệu giáo dục đại học Các

phương pháp và kĩ thuật được lựa chọn dựa theo đặc điểm chung và riêng của bộ dữ

liệu Ngoài ra, đã có một vài nhóm tác giả đề cập đến quy trình cải thiện DQ với

những dữ liệu có chất lượng kém Nghiên cứu này đề xuất một số cách cải thiện DQ

sau đánh giá và kiêm tra ảnh hưởng của quy trình cải thiện dựa vào độ đo accuracy

14

Trang 23

của việc dự đoán kêt quả xếp loại tot nghiệp của sinh viên khi huân luyện với dữ liệu trước và sau khi cải thiện.

2.2.2 Các mô hình dự đoán kết quả sinh viên tốt nghiệp

Dự đoán kết quả tốt nghiệp là một chủ đề thảo luận quan trọng trong giáo dục đạihọc Vấn đề này đã thu hút sự chú ý của các nhà quản lý, giáo viên và nhà nghiên cứutrong những năm gần đây Thời gian mà một sinh viên hoàn thành chương trình đạihọc bị anh hưởng bởi nhiều yếu tô như nền tảng giáo dục trước đó, các kết quả điểm

số học tập va kĩ năng tham gia các hoạt động ngoại khóa tại trường [11]

— Nghiên cứu của Alyahyan (2020) [26] dự đoán khả năng thành công của sinh

viên đã tốt nghiệp bằng các kỹ thuật khai phá dit liệu được hướng dẫn cho đối

tượng giảng viên Tuy nhiên, việc áp dụng hiệu quả các phương pháp này đòi

hỏi nhiều yếu tố quyết định, từ cách định nghĩa thành công của sinh viên, thôngqua các thuộc tính sinh viên cần tập trung vào, cho đến phương pháp học máynào phù hợp hơn với van dé cụ thé

— Tại trường University of Thessaly in Greece, Iatrelis và các đồng ngiệp đã

nghiên cứu về cách tiếp cận khác như học máy hai giai đoạn sử dụng mô hình

học không giám sát K-means và học có giám sát Random Forest để dự đoán

kết quả của sinh viên trong các chương trình giáo dục đại học (2021) [27] Hai

mô hình này đã huấn luyện cho mỗi cụm sinh viên để dự đoán thời gian màsinh viên đó có thê hoàn thành chương trình học và việc ghi danh của sinh viênvào các chương trình đào tạo được cung cấp

— Demeter và các cộng sự của mình (2022) [28] đã phát triển thuật toán học máy

Random Forest dé dự đoán xem liệu sinh viên học đại học lần đầu có tốt nghiệphay không cũng như dự đoán thời điểm tốt nghiệp của họ Mô hình đã phânloại được kết quả sinh viên tốt nghiệp với độ chính xác lên đến 70%

Các nghiên cứu ở trên đều nhân mạnh mức độ quan trọng của các phương pháp tiếp

cận data-driven, bao gồm các mô hình học máy và khai thác dữ liệu dé dự đoán kếtquả tốt nghiệp Đồng thời rút ra những yếu tố có ảnh hưởng đến thời điểm và kết quả

15

Trang 24

tốt nghiệp của sinh viên dé đề xuất những giải pháp hiệu quả nhằm cải tiễn chất lượng

đào tạo.

16

Trang 25

Chương 3 NGHIÊN CỨU LÝ THUYET

3.1 Cơ sở lí thuyết

3.1.1 Chất lượng dữ liệu

Chất lượng dữ liệu đánh giá khả năng đáp ứng của bộ đữ liệu đối với các yêu cầuphân tích, thống kê, dự đoán của tổ chức sở hữu và sử dụng bộ dữ liệu đó Dữ liệu

được cho là có chất lượng cao là dữ liệu chính xác, tin cậy, nhất quán, đầy đủ, có khả

năng truy cập dễ dàng và sử dụng khi cần thiết Đảm bảo DQ là một yêu cầu quan

trọng đối với phân tích dữ liệu vì chất lượng của kết quả phân tích phụ thuộc trực tiếp

vào chất lượng của dữ liệu [19] Nếu dữ liệu chất lượng cao là cơ sở cho các quyếtđịnh hiệu quả và thực tế thì dữ liệu chất lượng thấp có thé dẫn đến những quyết định

thiếu sự chính xác, gây tôn thất về mặt tài chính và uy tín của tổ chức

3.1.2 Vòng đời dữ liệu

Vong đời dir liệu (data lifecycle) mô tả hành trình của dữ liệu từ khi được sinh ra đến

khi bị xóa đi Hình 3.1 là một ví dụ mô tả các giai đoạn mà dữ liệu trải qua trong một

vòng đời dữ liệu bao gồm tạo ra, lưu trữ ngắn hạn, sử dụng, chia sẻ, lưu trữ dài hạn

và xóa bỏ Vòng đời dữ liệu giúp tổ chức khai thác tối đa giá trị sử dụng của đữ liệu

khi tồn tại trong hệ thong, theo doi khuynh hướng phát triển của tô chức theo thời

gian [29] Đặc biệt, dữ liệu lớn đang là xu hướng của thời đại, dữ liệu ngày càng đa

dang, quan lý vòng đời dữ liệu không chỉ trở thành một xu thé tat yêu mà còn là yếu

tố cực kì quan trọng dé đảm bảo tính chính xác, toàn vẹn, bảo mật và hiệu quả khai

thác dữ liệu.

17

Trang 26

a

Hình 3.1 Vòng đời đữ liệu Nguồn: Pinterest3.1.3 Khung đánh giá chất lượng dữ liệu

Khung đánh giá chất lượng dữ liệu bao gồm một tập hợp các tiêu chí, phương pháp

và công cụ được sử dụng dé do lường, đánh giá và quản lý DQ trong một tổ chức

Mục tiêu chính là để đảm bảo chất lượng tổng thê của dữ liệu tốt phục vụ các tác vụ

báo cáo, phân tích, dự báo dựa vào dữ liệu Có nhiều khung DỌA được định nghĩa

và đề xuất cho riêng từng lĩnh vực dữ liệu khác nhau như đã khảo sát trong nội dungphần 2.2 Các tiêu chí trong một khung DQA được lựa chọn có công thức đo lường

riêng dựa vào bộ dữ liệu được nghiên cứu.

3.1.4 Cac tiêu chí đánh giá chất lượng dữ liệu

Theo nội dung khảo sát về các khung DQA đã công bố trong phần 2.2 ở chương 2,

có đa dạng các tiêu chí DQA Trong đó, một số tiêu chí phổ biến như accuracy (tínhchính xác), completeness (tính đầy đủ), validity (tính xác thực), consistency (tính nhấtquán), uniqueness/duplicated (tính duy nhất) và timeliness (tính kịp thời) Định nghĩacủa các tiêu chí thay đôi theo đặc trưng của bộ dữ liệu về những lĩnh vực khác nhau.Dưới đây định nghĩa được xem là thường dùng dé xác định các tiêu chí kể trên

— Accuracy (tính chính xác): Dữ liệu có thé hiện tính chính xác như mong đợi hay

không?

18

Trang 27

— Completeness (tính đầy đủ): Dữ liệu có chứa đầy đủ các thông tin cần thiết như

mong đợi hay không?

— Consistency (tính nhat quán): Dữ liệu có được biểu diễn theo một phiên bản nhất

quán như mong đợi hay không?

— Duplicated/Uniqueness (tính duy nhất): Dữ liệu có bị trùng lắp hay không?

— Timeliness (tính kip thời): Dữ liệu có được cập nhật va phản ánh hiện trạng thực

tế hay không?

Mỗi tiêu chí được đo lường theo cả hai cách DQA chủ quan và khách quan [30].

Bảng 3.1 Bang so sánh hai phương pháp DQA chủ quan va DQA khách quan

DỌA chủ quan DỌA khách quan

Phương pháp

thực hiện

Lây ý kiến khảo sát đánh giá

của những người tham gia trực

tiếp việc sử dụng dữ liệu

Chuyền đôi các tiêu chí DỌAthành số liệu và có thể đo lường

băng con sô được.

Cách trién

khai

Bảng khảo sát bao gôm một

danh sách các câu hỏi liên quan

đên các tiêu chí, kêt quả khảo

Có thê sử dụng các kỹ thuậtphân tích thống kê dựa vào đặc

điêm của đữ liệu.

sat được thống kê dựa vào

thang điểm mức độ.

3.1.5 Quy trình quản lý chất lượng dữ liệu

Quản lý chất lượng dữ liệu (DQM) là một quy trình bao gồm các bước và các công

cụ dé duy trì độ 6n định của chất lượng dữ liệu theo thời gian DQM là một phankhông thể thiếu của quy trình quản lý dữ liệu trong thực tế Phụ thuộc vào đặc điểm

của dit liệu và yêu cầu của tổ chức vận hành dữ liệu, có nhiều quy trình các bước

DQM được đề xuất Hình 3.2 dưới đây mô tả một quy trình DQM bao gồm bốn giaiđoạn dựa theo đặc trưng của bộ dữ liệu giáo dục đại học để dự đoán xếp loại tốt

nghiệp và mô tả các bước chính của từng giai đoạn trong bảng 3.2.

19

Trang 28

PROFILE IMPLEMENT MONITOR IMPROVE

« identify data « Measure DQ e Monitor DQ

issues dimensions by erformance

Hình 3.2 Một quy trình bốn giai đoạn trong quy trình DQM

Bảng 3.2 Bảng mô tả tác vụ chính của bốn giai đoạn trong quy trình DQM

Các giai đoạn Tac vụ chính

Phân tích DỌ Xác định các yêu cầu về DQ dựa vào tác vụ dự đoán

xêp loại tôt nghiệp của sinh viên

Định nghĩa các kiểm tra DQ

Lựa chon framework DQA (accuracy, completeness,

consistency, uniqueness, timeliness)

Triển khai đánh giá DQ | Trién khai khung DQA theo hai hướng DQA từng bang

của dit liệu và DQA tổng thé

DỌA sử dụng phương pháp rule-based generation

(chuân hóa các hàm đôi với các thuộc tính cùng loại)

Giám sát DQ Theo dõi kết quả DQA liên tục theo thời gian

Đưa ra cảnh báo khi DỌ bị giảm

Cải thiện DQ Định nghĩa ngưỡng chất lượng tiêu chuân của các tiêu

chí DQA, đề xuất kỹ thuật cải thiện phù hợp phù hợp

cho từng loại dữ liệu

20

Trang 29

So sánh accuracy của mô hình dự đoán xêp loại tôt nghiệp với dữ liệu trước và sau khi cải thiện đê nhận

xét mức độ hiệu quả của biện pháp cải thiện áp dụng.

3.1.6 M6 hình dự đoán kết quả sinh viên tốt nghiệp

Ngữ cảnh ứng dụng bài toán dự đoán kết quả tốt nghiệp của sinh viên có ý nghĩa như

là một thước đo dé nhận xét sự tác động của các kỹ thuật cải thiện DQ thông qua việc

huấn luyện mô hình trên hai phiên bản dữ liệu trước và sau khi cải thiện Kết quả tốt

nghiệp của người học chính là xếp loại tốt nghiệp (Trung bình, Khá, Giỏi, Xuất sắc)dựa vào điểm trung bình tích lũy toàn khóa và điểm rèn luyện trung bình tích lũy.Bên cạnh đó, sinh viên cần hoàn thành đủ các chứng chỉ mà nhà trường yêu cầu nhưchứng chỉ ngoại ngữ, chứng chỉ quốc phòng và hoàn thành học phí Dữ liệu đầu vàobao gồm nhiều thuộc tính đại diện cho quá trình học tập và tham gia các hoạt độngcủa sinh viên trong thời gian ở trường đại học Kết quả dự đoán đầu ra là một trongbốn xếp loại tốt nghiệp Các thuộc tính đề đưa vào huấn luyện được lựa chọn dựa vàophân tích PCA đề chọn ra những thuộc tính quan trọng, có ảnh hưởng đến độ chínhxác của mô hình dự đoán Dữ liệu được huấn luyện qua các mô hình máy học đã đượcchứng minh có hiệu suất tốt, phù hợp với các bài toán phân lớp nhị phân và đa nhãn

Hai thuật toán LightGBM và CatBoost được phát triển dựa theo giải thuật Decision

Tree như hình 3.3 và có thé xử lí hàng triệu điểm di liệu và hàng nghìn đặc trưng

một cách hiệu quả.

21

Trang 30

Hình 3.3 Hình ảnh biểu diễn giải thuật Decision Tree Nguồn: Internet

3.17 Kiến trúc dữ liệu lớn

Kiến trúc dit liệu lớn là một cấu trúc cho phép thực thi một chuỗi hoạt động thu thập

(collect), tích hop (ingest), lưu trữ (store), xử lí (process), các tác vụ như dự đoán,

báo cáo, phân tích được thé hiện như hình 3.4 Kiến trúc nay cho phép xử lí dữ liệu

từ nhiều nguồn khác nhau một cách hiệu quả theo quy trình thường sử dụng như ETL

(Extract-Transform-Load) hay ELT (Extract-Load-Transform).

Ce mm

Hình 3.4 Dit liệu hoạt động trên kiến trúc dữ liệu lớn

Hình 3.5 đưới đây trực quan những thành phan chính trong một kiến trúc dữ liệu

lớn được Microsoft đề xuất Các nguồn dữ liệu (Data Sources) có thé được thu thập

từ những nguồn khác nhau của các ứng dụng như các bảng dữ liệu quan hệ, các file

log được thu thập từ hệ thống hoặc web hay dữ liệu theo thời gian thực từ các thiết bị

IoT Các dữ liệu này được tích hợp vào hệ thống và lưu trữ trong một hồ dữ liệu DataLake Dữ liệu có thể được xử lí theo phương thức batch processing hoặc stream

processing Nếu dit liệu được xử lí theo phương thức stream processing, hệ thốngcung cấp một giải pháp đề thu thập và lưu lại các tin nhắn real-time gọi là real-time

message ingestion Tiêp theo, các dữ liệu này dùng cho mục đích huân luyện cho các

22

Trang 31

mô hình dự đoán và phân tích báo cáo thống kê, tìm ra các “insight” đáng giá an trong

dữ liệu Cuối cùng, dé các thành phần ké trên phối hợp nhịp nhàng với nhau và tựđộng hóa quy trình, một số công nghệ điều phối được sử dụng như Azure Data

Factory, Apache Oozie.

Batch Data Storage Processing

Trang 32

3.2 Phương pháp nghiên cứu

3.2.1 Tổng quan phương pháp nghiên cứu

Nội dung phần này trình bày tổng quan các phương pháp DQM đã áp dụng cho dữliệu giáo dục đại học Quá trình nghiên cứu trải qua bốn giai đoạn chính: Phân tíchđặc trưng dt liệu, triển khai DQA, cải thiện DQ, thực thi bài toán ứng dụng dự đoánkết quả tốt nghiệp và triển khai DQM trên Microsoft Azure

Phân tích đặc trưng dữ liệu, phân tích về mặt cấu trúc và ý nghĩa các thuộc tinh,các van đề về chất lượng dang tôn tại có ảnh hưởng xâu đến DQ tổng thé ở thời điểm

hiện tại và tương lai Ở giai đoạn này, chúng tôi sử dụng các kỹ thuật phân tích thống

kê, trực quan hóa dé làm rõ xu hướng và các bất thường trong dit liệu DQA đượctriển khai một cách rõ ràng và cụ thê hơn dựa theo những phân tích về bộ dữ liệu

trước đó Vì mỗi lĩnh vực đữ liệu luôn có những đặc trưng riêng biệt và phụ thuộc

nhiều vào cách thức tô chức hoạt động và lưu trữ của tô chức sở hữu dé liệu nên việctriển khai các kiểm tra dựa theo các định nghĩa chung về khung DQA và các tiêu chíDỌA cần được xác định cụ thê Việc triển khai các kiểm tra này được thực thi từ tổngquát đến chỉ tiết thông qua các hàm, các công thức thống kê, các ràng buộc và cả đánhgiá DQ chủ quan của người thực hiện các kiểm tra Một số phương pháp cải thiện DQ

phổ biến được đề xuất sử dụng như làm sạch dữ liệu, tăng cường dữ liệu, chuyên đôi

dữ liệu, chuẩn hóa, báo cáo sự thay đôi của dit liệu Mục tiêu là loại bỏ hoặc sữa chữacác lỗi sai của dữ liệu, đồng thời nang cao DQ tổng thê dé đảm bảo tổng thé dit liệuluôn đáp ứng các tiêu chuẩn DQ ổn định

LightGBM và CatBoost dự đoán xếp loại tốt nghiệp trên hai phiên bản dữ liệu trước

và sau khi cải thiện để đánh giá mức độ hiệu quả của các phương pháp cải thiện đốivới độ chính xác của mô hình phân lớp Hay là DQ đầu vào ảnh hưởng như thế nàođến độ chính xác của kết quả đầu ra Bai toán này cũng được giả định như là một tác

vụ được yêu câu bởi tô chức giáo dục sở hữu dữ liệu Dựa theo yêu câu này, chúng

24

Trang 33

tôi liệt kê những tiêu chuẩn nhất định về chất lượng đối với dữ liệu thô có trong hệthong được gọi là ngưỡng tiêu chuẩn.

Ở phần cuối, nghiên cứu này đề xuất triển khai DQM trên kiến trúc dữ liệu lớn

Data Lake chứa dữ liệu có cấu trúc và phi cấu trúc như báo cáo, văn ban và dữ liệuthời tiết từ cảm biến IoT Quy mô tuyển sinh ngày càng mở rộng và nhu cầu đa dạng

hóa dữ liệu, việc xây dựng hồ sơ sinh viên toàn diện sẽ giúp trường học hiểu rõ hơn

về hành vi học tập và cải thiện chất lượng và hiệu quả đào tạo Đề đáp ứng nhu cầunày, nghiên cứu này đề xuất sử dụng Data Lake để lưu trữ dữ liệu thay vì DataWarehouse, và triển khai thử nghiệm trên Microsoft Azure với tài khoản sinh viên

$100 Giải pháp này có thé giúp giảm chi phí vận hành và còn hỗ trợ các quyết định

dựa trên dữ liệu chính xác và đáng tin cậy hơn Qua đó giúp góp phần vào việc nângcao hiệu quả quản lý và sử dụng dir liệu trong các tổ chức giáo dục

3.2.2 Phan tích dữ liệu

Bộ dữ liệu được sử dụng trong nghiên cứu được thu thập từ một trường đại học đảo

tạo về nhóm ngành công nghệ thông tin chứa các trường thông tin về hồ sơ cá nhân,kết quả học tập và kết quả rèn luyện của sinh viên trong thời gian 16 năm hoạt động(2006-2022) Bên cạnh đó, bộ dữ liệu còn chứa một số thông tin co bản của giảngviên và học viên sau đại học, dữ liệu IoT về thời tiết được thu thập từ các sensor, dữ

liệu bình luận nhận xét về hoạt động dạy học thu thập từ các khảo sát cuối kì của sinh

viên Khi đó, bộ dữ liệu bao gồm các trường thông tin chính và các bảng dữ liệu được

thống kê ở bảng 3.3.

— Thông tin sinh viên: Họ tên, mã sô sinh viên, ngày tháng năm sinh, giới tính,

quê quán, ngành học, lớp sinh hoạt và các thông tin khác.

— Thông tin giảng viên: Mã sô giảng viên, năm sinh, giới tính, quê quán, chức

vụ, học hàm, học vi, khoa công tác.

— Hoạt động giảng dạy: Phân công lớp giảng dạy trong từng học kỳ, danh sách

điêm các môn học của từng sinh viên.

25

Trang 34

— Hoạt động nghiên cứu: Thông tin các đề tài nghiên cứu khoa học của giảng

2 DSGV 312 12 Danh sách giảng viên

3 DSHV_SDH 2009 10 Danh sách học viên sau đại

4 học

4 DIEM 674273 15 Điêm từng môn học

5 DIEMRL 111978 7 | Điểm rèn luyện theo từng

I0 |IoơT WEATHER 3150768 | 12 | Số liệu thu được từ thiết bị

IoT thời tiệt

Các biểu đồ cột dưới đây là các thống kê về cơ cấu vận hành va sự phân bố sinh

viên theo năm nhập học, theo ngành, theo khoa và theo hệ đào tạo Vì là trường học

dạy các ngành trong khối ngành công nghệ thông tin nên tỉ lệ nam nữ chênh lệch mộtcách đáng kê Hình 3.6 và 3.7 là các biểu đồ cột cho thấy lượng sinh viên nhập học

26

Ngày đăng: 08/12/2024, 15:42

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN