Do đó, mục tiêu của nghiên cứu này là dégiải quyết các van đề bằng cách dé xuất một giải pháp quản lý chất lượng dữ liệu bềnvững trong môi trường kiến trúc dữ liệu lớn.. Đồng thời, nghiê
Trang 1ĐẠI HOC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC VA KY THUAT THONG TIN
NGUYEN PHAM HONG DUYEN - 20520477
KHOA LUAN TOT NGHIEP
NGHIEN CUU GIAI PHAP QUAN LY CHAT LUONG DU
LIEU GIAO DUC DE DU DOAN KET QUA SINH VIEN
TOT NGHIEP TRONG KIEN TRUC DU LIEU LON
Educational data quality management solutions for predicting
graduation outcomes in big data architecture
CU NHAN NGANH KHOA HOC DU LIEU
GIANG VIEN HUONG DAN
ThS NGUYEN THI ANH THU
TP HO CHÍ MINH, 2024
Trang 2LỜI CẢM ƠN
Em xin chân thành gửi lời cảm ơn đến cô Nguyễn Thị Anh Thư, em cảm ơn sự hướngdẫn tận tâm và nhiệt huyết của cô đã truyền cảm hứng dé em có thé hoàn thành dé tàimột cách tốt nhất Những hỗ trợ và góp ý quý báu của cô không chỉ giúp em hoàn thiệnnghiên cứu mà còn mở rộng hiểu biết của em trong lĩnh vực này Em cũng xin gửi lờicảm ơn đến nhà trường và khoa Khoa học và Kỹ thuật Thông tin đã tạo mọi điều kiện vàmôi trường thuận lợi nhất để em có thê tập trung hoàn thành nghiên cứu Đặc biệt, em
xin bày tỏ lòng biết ơn đến nhóm nghiên cứu DataChain, cảm ơn cô Thư, thầy Khoa,
thay Trí đã hỗ trợ và cung cấp bộ dữ liệu quan trọng dé em có thé tiến hành nghiên cứunày Sự giúp đỡ từ phía nhóm nghiên cứu là nguồn động lực to lớn giúp em hoàn thànhtốt công việc của mình Những thông tin và tài nguyên mà nhóm nghiên cứu cung cấp đã
có vai trò vô cùng quan trọng giúp cho việc đề xuất và triển khai các giải pháp trongnghiên cứu của em được hoàn thiện hơn Ngoài ra, em cũng muốn cảm ơn sự chia sẻ vàđộng viên tinh thần của gia đình và bạn bè trong suốt quá trình thực hiện đề tài Một lầnnữa, em xin gửi lời cảm ơn chân thành nhất đến tất cả sự giúp đỡ của mọi người, đó thật
sự là nguồn động lực to lớn giúp em có thê kiên trì hoàn thành nghiên cứu này một cáchtốt nhất
Chân thành cảm ơn.
Nguyễn Phạm Hồng Duyên
Trang 3MỤC LỤC
Chương 1 MỞ ĐẦU 2 2SE2EE2 2 1EE12112112112112112112111.211 1.1.1 xe 3
1.1 Lý do chọn đề tài -:- + St‡Sx+ SE EE1E11211211211211211211211 121.1 cree 3
2.2.1.3 Giai đoạn DQA tự động .-SĂ se SS*sseireeereree 12
2.2.2 Các mô hình dự đoán kết quả sinh viên tốt nghiệp 15Chương 3 NGHIÊN CỨU LÝ THUYẾÊT - 2 2 2 £+£+££+££+£zzzzzzxee 17
3.1 Cơ sở lí thuyết c- St 2t St E1 1101121111121121101111 1.111 te 17
3.1.1 Chất lượng dit liệu + tk EEEEEEEEEEErrrrrrrrrei 17
3.1.2 Vòng đời dữ liệu -¿©-++ckc2EkEEEEEEEE2112211221.2E1ecrkcree 17
3.1.3 Khung đánh giá chất lượng dữ liệu -2¿ ¿+ ©s+2s++cxc++ 18
3.1.4 Các tiêu chí đánh giá chất lượng dữ liệu -¿-¿-s+ 183.1.5 Quy trình quản lý chat lượng dữ liệu - 2-2 5+22+z5=++ 193.1.6 Mô hình dự đoán kết quả sinh viên tốt nghiệp -: 213.1.7 _ Kiến trúc dữ liệu lớn -¿- 2 ©£+++Ek+EEtSEEEEECEEESEEtrkerrerrkrree 22
3.2 Phương pháp nghién CỨU - G113 2113911 1391111 11811 8111 1g net 24
3.2.1 _ Tổng quan phương pháp nghiên cứu 2-2 s+sz+c£+£z+szsz 24
Trang 43.2.2 _ Phân tích dữ liệu - - - 1+1 nghệ, 25
3.2.3 Đánh giá chất lượng dữ liệu 5¿©2+©2++2x++cxevrxeerxesree 323.2.4 Cải thiện chất lượng dữ liệu -¿2¿©+22++2x+ecxeerxesrxesree 343.2.5 Dự đoán kết quả tốt nghiệp của sinh viên 2-2 2 z+sz+x+sz 363.2.6 Quản lý chất lượng dữ liệu trên kiến trúc dữ liệu lớn 38Chương 4 TRINH BAY, DANH GIÁ BAN LUẬN VE KET QUẢ 43
4.1 Thiết kế thực nghi@m ccecceccccccsssessesseessessesssessessesssessessesssessessesesessesseeesess 434.2 Kết quả thực nghiệm ¿- 2 2+S<+SE+EE+EESEEEEEEEEEEEEEEEEE2E12E.E re 484.3 Đánh giá kết quả thực nghiệm 2-2 2 2+S£+E++E£+E+EE+E++EzEzrerreee 51
Chương 5 KET LUẬN c-.cc-S22-55- 252 EE EEEEEEEEEEEEEEErkrrkrrkerkee 54Chương 6 _ HƯỚNG PHÁT TRIỂN 2: 22©5<+E++E£+EE£EEE£EEeEEerkerrkerxee 56
TÀI LIEU THAM KHÁO s- (tt SE SEEEE‡EEEEEEEEEEEEEEEEEEEEEEEEkEEEEkrkekrrkrkrrerke 57
Trang 5năm 2022), theo ngành và theo hệ đào tạO 6 5+ *Sc* + E+EEeseerreeesersree 27
Hình 3.8 Biểu đồ phân bố sinh viên theo hệ đào tao ở các năm từ 2006 đến 2022.28Hình 3.9 Biéu đồ phân bồ sinh viên theo khoa ở các năm từ 2006 đến 2022 29Hình 3.10 Biểu đồ phân bồ sinh viên theo dân tộc thé hiện sự gia tăng về sự đa dạngcác dân tộc trong nhà trường ở các năm từ 2006 đến 2022 2-2 2 2+: 29Hình 3.1 1 Biểu đồ phân bố sinh viên thé hiện sự gia tăng về tính đa dạng thành phancác tôn giáo trong nhà trường từ năm 2006 đến 2022 2-2 2+z+z+z+5++‡ 30Hình 3.12 Biểu đồ cột phân bồ sinh viên đã tốt nghiệp theo từng khóa đào tạo 31Hình 3.13 Biểu đồ cột phân bố sinh viên đã tốt nghiệp theo bốn nhãn Kha, Giỏi,Trung Bình, XUAL SAC 1 ad 31Hình 3.14 Biéu đồ cột phân bố sinh viên tốt nghiệp theo bốn loại kết quả tốt nghiệpcủa từng khóa đào tao từ 2006 đến 20 1 -¿- 2 ++2z+E++E+E++E2EEEErExrrerrerreee 32
Hình 3.15 Năm tiêu chí DQA cho dữ liệu giáo dục đại học - - ‹ 33
Hình 3.16 Sơ đồ mô tả hai cách DQA Một là DQA cho từng bảng riêng lẻ Hai làDQA tổng thé cho bộ dữ liệu dự đoán xếp loại tốt nghiệp - 2s 34
Trang 6Hình 3.17 Sơ đồ quá trình cải thiện DQ Dữ liệu thô lưu trữ ở kho chứa Bronze Dữ
liệu đã làm sạch lưu trữ ở kho Silver Dữ liệu đã cải thiện theo tác vụ phân tích lưu
0898 kho chia Gold 8T - 35
Hình 3.18 Hình ảnh mô tả sự khác nhau của hai cách tiếp cận để phát triển cây.
Nguồn: Mediuim - 2-5 S999 EEEEEE1E2107111111121111111111 111.1 re 37Hình 3.19 Cây bat đối xứng (bên trái) và cây đối xứng (bên phải) Nguồn: Medium
¬ 38
Hình 3.20 Mô hình dự đoán xếp loại tốt nghiệp - 2-22 ++x+ze+cxzee 38Hình 3.21 Hình ảnh mô tả các loại dữ liệu từ nhiều nguồn được lưu trữ dưới dạng
nguyên bản trong data lake - - G11 HH HH 41
Hinh 3.22 So dé DQM trén kiến trúc dữ liệu lớn sử dụng hệ sinh thái Microsoft
ÀZUT A co nen 41
Hình 4.1 Thống kê sự thay đối số lượng thuộc tinh theo các năm - 44Hình 4.2 Biéu đồ histogram thé hiện tỉ lệ số cột dữ liệu bị thiếu trong tổng số cột củatừng dòng dit liệu đối với tiêu chí completeness trong các bảng DSSV 48Hình 4.3 Biểu đồ cột trực quan số lượng bản ghi không đầy đủ các thuộc tính bắtbuộc của bang DSSV và tổng số bản ghi của dữ liệu sinh viên từ năm 2006 đến 2022
Hình 4.4 Biểu đồ cột thé hiện tổng số bản ghi không đầy đủ các thuộc tính bắt buộc
của bang DIEM va tổng số bản ghi của dữ liệu điểm từ năm 2006 đến 2022 49
Hình 4.5 Một dashboard giám sát DQ theo thời gian trên công cụ Power BI 53
Trang 7DANH MỤC BANG
Bảng 1.1 Các dịch vụ đã phát hành cung cấp giải pháp DQM phổ biến 4
Bang 2.1 Bảng so sánh các khung DQA ở giai đoạn định nghĩa các khung đánh gia 8ï 009/09/1) 1 8
Bảng 2.2 Bảng so sánh các khung DỌA ở giai đoạn các khung DQA ứng dụng trong lĩnh vực cụ thỂ - - St SE EEE E311 EE11111111111111E 1111111111111 11.112 10 Bảng 2.3 Bảng so sánh các nghiên cứu đánh gia DQ ở giai đoạn đánh giá DQ tự động ¬ 12
Bảng 3.1 Bang so sánh hai phương pháp DQA chủ quan và DQA khách quan I9 Bảng 3.2 Bảng mô tả tác vụ chính của bốn giai đoạn trong quy trình DQM 20
Bảng 3.3 Bảng mô tả các bảng dữ liệu có cấu trúc trong bộ dữ liệu - 26
Bang 3.4 Bang mô ta cách triển khai các phương pháp cải thiện DQ 36
Bang 3.5 Bảng so sánh sự khác nhau của Data Warehouse va Data Lakehouse 40
Bảng 4.1 Bảng mô tả các kiểm tra được thực hiện đối với từng tiêu chí DQA theo cấp độ dòng và cấp độ bảng -2- 2-51 23 E1 E1211211211211211211211211211 1111.111 c1ecy 45 Bang 4.2 Bang mô tả các phương pháp đo lường dé thực thi các kiểm tra DQA đối với từng tiêu chí theo hai cấp đỘ -¿ :- 2-5252 S22SE+EE2EEEEEEEE2EE2EE2EE2E12E222221e xe, 46 Bảng 4.3 Bảng kết quả trung bình của DQA trên từng bảng riêng lẻ 50
Bảng 4.4 Bảng dự đoán kết quả tốt nghiệp đối với dữ liệu trước và sau khi cải thiện
Trang 8DANH MỤC TU VIET TAT
STT | Ky hiéu tir viét tat Từ day đủ
1 |DQ Data Quality (Chất lượng dit liệu)
2 DOA Data Quality Assessment (Danh gia chat
lượng dir liệu)
3 DOM Data Quality Management (Quan ly chat
lượng dir liệu)
4 LightGBM Light Gradient Boosting Machine
5 CatBoost Categorical Boosting
Trang 9TÓM TẮT KHÓA LUẬN
Trong bối cảnh giáo dục hiện đại, kết hợp giữa sự phát triển mạnh mẽ của dữ liệu lớn
và các công nghệ mới, thách thức mà các nhà quản lý giáo dục đầu ngành phải đốidiện đó là làm cách nào dé quản lý và khai thác tốt khối lượng tài nguyên đa dạng vàtận dụng chúng dé đưa ra những chiến lược hiệu qua cho sự phát triển bền vững của
tổ chức Các tổ chức không chỉ sử dụng nguồn dữ liệu nội bộ mà còn khai thác dữliệu từ các nền tảng trực tuyến bên ngoài Điều này giúp cho tổ chức sở hữu tập hợp
dữ liệu đa dạng và phức tạp về nguồn, kiểu dit liệu, cách xử lý và cách lưu trữ Đócũng là lý do giải pháp hồ đữ liệu Data Lake ra đời với mục tiêu lưu trữ tất cả cácphiên ban đữ liệu trong suốt vòng đời hoạt động vào một nơi duy nhất hỗ trợ truy cập
dễ dàng và khai thác tối đa giá trị sử dụng của đữ liệu Tuy nhiên, chất lượng đữ liệutrong Data Lake thường gặp nhiều van đề như dữ liệu không chính xác, không day
đủ, bị trùng lắp, thiếu tính nhất quán và bị lỗi thời Các vấn đề này ảnh hưởng nghiêmtrọng đến độ tin cậy và tinh ứng dụng trong việc sử dụng dit liệu dé đưa ra các quyếtđịnh và chiến lược quan trọng của tô chức Do đó, mục tiêu của nghiên cứu này là dégiải quyết các van đề bằng cách dé xuất một giải pháp quản lý chất lượng dữ liệu bềnvững trong môi trường kiến trúc dữ liệu lớn Đồng thời, nghiên cứu cũng kiểm chứngmức độ hiệu quả của các phương pháp cải thiện chất lượng đữ liệu trên nhóm dữ liệu
có cấu trúc đề xuất thông qua bài toán ứng dụng dự đoán xếp loại tốt nghiệp của sinh
viên với hai phiên bản dữ liệu trước và sau khi cải thiện.
Quy trình quản lý DQ đề xuất gồm bốn giai đoạn chính: phân tích đặc điểm dữ liệu,triển khai các đánh giá DQ, giám sát kết quả đánh giá và tiến hành cải thiện đối vớicác dữ liệu dưới ngưỡng tiêu chuẩn Quy trình này giúp cho người quản lý dit liệu cóthé theo ddi mức độ 6n định của toàn bộ dữ liệu cả về tổng thé và chỉ tiết Từ đó,người sử dụng dữ liệu có cơ sở tin cậy dé lựa chọn những dữ liệu phù hợp cho cáctác vụ cần thiết Hai mô hình máy học boosting tiên tiền LightGBM và CatBoost được
sử dụng trong nghiên cứu để dự đoán kết quả loại tốt nghiệp của sinh viên Từ kết
quả độ chính xác tăng 5%, nghiên cứu đánh giá tiềm năng của các phương pháp cải
Trang 10thiện đã đề xuất có hiệu quả tương đối tốt trên nhóm dữ liệu có cấu trúc Cuối cùng,nghiên cứu đề xuất việc triển khai quy trình quan lý DQ trong Azure Data Lake Gen2trên kiến trúc đữ liệu lớn với hệ sinh thái Microsoft Azure.
Trang 11Chương 1 MỞ ĐẦU
1.1 Lý do chọn đề tài
Có nhiều tiêu chí để đánh giá chất lượng dao tạo của một tổ chức giáo dục đại học,
một trong số đó là kết quả tốt nghiệp của sinh viên Tuy nhiên, dữ liệu giáo dụcthường gặp các vấn đề như không chính xác, không đầy đủ, không cập nhật, không
nhất quán, không liên quan Hậu quả của các vấn đề này như giảm độ chính xác của
mô hình dự đoán, giảm độ tin cậy dẫn đến những quyết định thiếu chính xác dựa trên
dữ liệu, cũng như gây thiệt hại về tài chính cho các bên liên quan được trực quan như
hình 1.1.
Bên cạnh đó, nâng cao tỉ lệ sinh viên tốt nghiệp đúng hạn với kết quả tốt luôn là mục
tiêu được ưu tiên hàng đầu của các trường đại học Kết quả tốt nghiệp tốt là một điểmcộng dé các ứng viên gây được ấn tượng ban đầu tốt với các nhà tuyển dụng và các
nhà tuyển dụng cũng phần nào đánh giá được khả năng chuyên môn của ứng viêntrong thời gian học tập tại trường đại học Đề đạt được điều này, việc phát triển cácphương pháp theo dõi định kỳ và can thiệp linh hoạt dé hỗ trợ sinh viên lúc khó khăn
là vô cùng cần thiết Trong giới khoa học dữ liệu, có một câu nói nổi tiếng đó là
“garbage in garbage out”, câu này có ý nghĩa là nếu dữ liệu đầu vào có chất lượng
kém thì kết quả đầu ra cũng kém chất lượng, không đáng tin cậy, không mang lại ý
nghĩa ứng dụng trong thực tế Không thể phủ nhận rằng chất lượng dữ liệu của dữ
liệu đầu vào chính là nền tảng quan trọng cho việc xây dựng những mô hình dự đoán
và cảnh báo, vì chúng tác động trực tiếp đến quá trình mô hình học trên dữ liệu huấnluyện và độ tin cậy của kết quả dự đoán
Do đó, việc đầu tư nghiên cứu về DQ cần được chú trọng nhiều hơn nữa Hiện nay,
trong cả hai hướng nghiên cứu và hướng ứng dụng đã có các thành tựu quy mô từ
nhỏ đến lớn trên nhiều lĩnh vực dữ liệu Hầu hết các dịch vụ được phát hành trong
thực tế đều có trả phí và phù hợp với quy mô dữ liệu doanh nghiệp, cụ thể một vài
dịch vụ phổ biến được thống kê ở bảng 1.1 Các nghiên cứu khoa học thi tập trungvào dit liệu của các tô chức nhỏ và tập trung giải thích về mặt phương pháp lý thuyết
Trang 12Tuy nhiên, dữ liệu không được công khai trong các nghiên cứu Với lợi thế sở hữu
dữ liệu thực của một trường đại học chuyên đào tạo các nhóm ngành công nghệ thông
tin, chúng tôi tiến hành các khảo sát và DQA trên dit liệu này và mở rộng phạm viđối với lĩnh vực dữ liệu giáo dục ở bậc đại học nói chung Thông qua quá trình triểnkhai các tiêu chí DQA và quy trình DQM kết hợp với bài toán ngữ cảnh ứng dụng,chúng tôi hi vọng giải pháp này có thể đóng góp một phần vào việc nâng cao DQ và
cung cấp những biện pháp hỗ trợ kịp thời nhờ mô hình cảnh báo sớm, giúp đỡ sinh
viên trong thời gian học tập tại trường được hiệu quả hơn.
Van dé về chat lượng dữ liệu Ảnh hưởng
Missing Incorrect data " = Am a “Insight”
Inconsistent GA TM Inaccurate
data-data driven decisions
Hình 1.1 Ảnh hưởng của DQ kém trong Data LakeBảng 1.1 Các dịch vụ đã phát hành cung cấp giải pháp DQM phô biến
Tên dịch vụ Dịch vụ chính tản phí ước
CDQ _ Data Cung cấp các giải pháp | Quy mô doanh
Quality DQM hiệu quả ở nhiêu lĩnh | nghiệp
Solutions vuc
Trang 13Doanh nghiệp:
$45/tháng
Cung cấp các công cụ trực | Quy mô doanh
quan để xác định, phân tích | nghiệp
và sửa chữa dữ liệu
Doanh nghiệp:
$274/tháng
1.2 Phạm vi
Nghiên cứu chủ yếu khai thác và giải quyết các khía cạnh chính sau:
— Nghiên cứu và triển khai các tiêu chí DỌA: Định tính và định lượng các tiêu
chí như tính đầy đủ, tính nhất quán, tính kịp thời, tính chính xác, tính duy nhấtphù hợp với đặc điểm của đữ liệu giáo dục
— Huấn luyện mô hình dự đoán: Huấn luyện mô hình LightGBM và CatBoost
dự đoán xếp loại sinh viên tốt nghiệp theo bốn loại Trung bình, Khá, Giỏi,
Xuất sắc
— Đánh giá sự ảnh hưởng: So sánh độ chính xác của mô hình khi huấn luyện trên
dt liệu trước và sau khi cải thiện.
— DQM trên kiến trúc dit liệu lớn: Triển khai DQM trên môi trường Microsoft
Azure đề lưu trữ, xử lý, phân tích, giám sát DQ trong cả vòng đời hoạt động
1.3 Đối tượng
Đối tượng chính của nghiên cứu là dữ liệu về hoạt động về sinh viên, giảng viên, hoạt
động nghiên cứu và hoạt động tài chính của một trường đại học từ năm 2006 đến năm
2022 Nghiên cứu tập trung vào nhóm dữ liệu sinh viên phục vụ cho bài toán ngữ
cảnh ứng dụng Ngoài ra, phương pháp DỌA, phương pháp cải thiện và hai thuật toán
Trang 14học máy huân luyện mô hình dự đoán xêp loại tôt nghiệp của sinh viên cũng là các
đối tượng quan trọng
Trang 15Chương 2 TỎNG QUAN
2.1 Giới thiệu đề tài
Trong thực tế, mặc dù dữ liệu đóng một vai trò quan trọng, ảnh hưởng trực tiếp đến
phân tích xu hướng và độ tin cậy của các quyết định Tuy nhiên, dữ liệu kém chất
lượng khi tồn tại những vấn đề như dữ liệu lỗi thời, thiếu chính xác, không đồng nhất,thiếu hay bị trùng lắp do những thay đổi liên tục trong quá trình hoạt động mà nhữngngười quan lý chưa cập nhật kip thời Vậy nên, dé đáp ứng sự thay đổi và mở rộngquy mô hoạt động, cần một giải pháp dé duy trì DQ ổn định theo thời gian Điều này
giúp tiết kiệm chi phí và thời gian xử ly dit liệu xấu và tăng sự tin cậy trong việc sử
dụng dữ liệu từ hồ dữ liệu DQA là định nghĩa framework với các tiêu chí cụ thể đểđánh giá DQ của dit liệu bằng số liệu Các tiêu chí phố biến gồm tinh đầy đủ, tínhnhất quán, tính chính xác, tính kịp thời, tính duy nhất Cách tính toán các tiêu chí nàyphu thuộc vào đặc điểm riêng của từng loại dữ liệu trong các lĩnh vực khác nhau Cácnghiên cứu trước đó tập trung vào nhóm dữ liệu có cấu trúc vì việc đo lường đượctriển khai rõ ràng bang các phương pháp phân tích thống kê Bên cạnh đó, đối với ditliệu đưới ngưỡng cho phép, chúng tôi đề xuất các kỹ thuật cải thiện, điều mà chưađược đề cập chỉ tiết trong hầu hết các nghiên cứu trước đây
Bài toán ngữ cảnh ứng dụng là đự đoán xếp loại tốt nghiệp của sinh viên dựa vào cácdir liệu trong quá trình hoc tập trước đó Bốn độ đo phổ biến của bài toán phân loại
đa lớp dé so sánh đối với dữ liệu trước và sau khi cải thiện Nghiên cứu này kết nốicác bước này thành một quy trình DQM bao gồm bốn giai đoạn Quy trình này được
đề xuất triển khai trong hệ sinh thái đám mây Azure của Microsoft Trong hồ dữ liệu
Data Lake chứa dữ liệu dạng bảng excel, tệp csv, Json, báo cáo và cả dữ liệu văn bản.
Nghiên cứu này tập trung khai thác nhóm đữ liệu có cấu trúc, đặc biệt là các trường
dữ liệu liên quan đến sinh viên Năm tiêu chí tính duy nhất, tính chính xác, tính kịpthời, tính đầy đủ, tính kịp thời được lựa chọn dé đo lường DQ
Giải pháp DQM giúp đảm bảo DQ được duy trì ở mức ổn định theo thời gian hoạt
động và các dấu hiệu chất lượng kém được phát hiện, khắc phục kịp thời Vì vậy, kết
Trang 16quả dự đoán của mô hình máy học trở nên đáng tin cậy hơn, góp phần nâng cao chất
lượng và uy tín dao tao của trường học.
Ngữ cảnh của nghiên cứu là quản lý và giám sát DQ trên kiến trúc dit liệu lớn cho
các dự án giáo dục đại học với bài toán ứng dụng thực tế là dự đoán kết quả tốt nghiệpcủa sinh viên Cụ thé, đầu vào là dit liệu giáo dục đại học trên kiến trúc dữ liệu lớn
được lưu trữ ở Data Lake và đầu ra là kết quả đánh giá và giám sát dữ liệu Đối với
bài toán ứng dụng, mô hình dự đoán loại tốt nghiệp của sinh viên, đầu vào bao gồmtất cả đữ liệu về sinh viên như thông tin cá nhân, điểm học tập, hoạt động rèn luyện,đầu ra là khả năng tốt nghiệp của sinh viên (Trung bình, Khá, Giỏi, Xuất sắc)
2.2 Các nghiên cứu liên quan
2.2.1 Cac khung DQA
Quá trình bắt đầu hình thành các khái niệm cơ bản và phát triển của các khung DQA
có thé được chia ra thành ba giai đoạn chính dựa vào thời gian Giai đoạn đầu tiênđịnh nghĩa các tiêu chí và khung đánh giá chung cho các trường dữ liệu phổ biến.Giai đoạn tiếp theo định tính và đo lường các khung đánh giá cho dữ liệu của các lĩnhvực cụ thé khác nhau Giai đoạn gần đây, các nghiên cứu có xu hướng tự động hóa
việc đo lường các tiêu chí DỌA một cách tự động.
2.2.1.1 Giai đoạn định nghĩa các khung DQA và tiêu chí tổng quát
Bang 2.1 Bang so sánh các khung DQA ở giai đoạn định nghĩa các khung đánh giá
và tiêu chí chung
Khung |Năm| Thành phần Tiêu chí DỌA Đánh | Đánh
đánh gia chính giá giá
DỌ khách chủ
quan | quan
TDQM 1998 | Xem xét yéu cau | Accuracy, relevancy, v x
[1] cua doanh reputation, timeliness,
nghiệp và xác completeness, security
dinh d6 do DQ
Trang 17TIỌM [2] | 1999 | Kỳ vọng của Completeness,
người dùng và accuracy, precision, định nghĩa độ do | non-duplication,
DQ accessibility,
timeliness, integrity,
usability
HIQM 2006 | Đánh gia khách | Accuracy,
[3] quan thông qua | completeness,
đề xuất thuật consistency, timeliness
toán đo lường
CDQ [4] | 2008 | Lấy khảo sát của | Structured: accuracy,
người dùng dữ completeness, currency liệu và chon các
độ đo DQ về
tính chính xác và tính cập nhật
COLDQ | 2011 | Khao sátngười | Unstructured: currency,
[5] tiêu dùng va relevance, reliability
dinh nghia cac
độ do DQ khác nhau
DQAF 2013 | Định nghia mot | Accuracy, consistency,
[6] tập hop độ do completeness, currency,
DQ cho các loại | security, timeliness, phép đo lường relevance
khác nhau
TBDQ _ | 2016 | Bang câu hỏi Completeness,
[7] khao sat va cac timeliness, validity,
tiêu chí phố biến | consistency, integrity
Các bài báo công bố trong giai đoạn đầu chủ yếu tập trung vào định nghĩa các tiêuchí và framework chung Vì vậy, số lượng các tiêu chí được định nghĩa khá đa dạng
va từng tiêu chí cũng có nhiều khái niệm khác nhau Bang 2.1 so sánh các khung đánhgid DQ phô biến, mỗi khung cung cấp định nghĩa về các tiêu chí dung để đánh giá
DQ Đồng thời, các nghiên cứu cũng phân biệt hai phương pháp chính dé đo lường
DQ chính đó là đánh giá chủ quan và đánh giá khách quan DQA chủ quan chủ yếu
Trang 18dùng các bang câu hỏi dé lay khảo sát của người thao tác trực tiếp trên dữ liệu về cácvấn đề liên quan đến DQ đang tồn tại DQA khách quan dựa vào các độ đo DQAđược định nghĩa và đo lượng cụ thé theo những đặc điểm của các dữ liệu Phươngpháp đánh giá khách quan bằng các tiêu chí được ưu tiên sử dụng, trong khi cáchđánh giá chủ quan it được lựa chọn vì yêu cầu chi phí cao và cần sự hợp tác của nhiềubên tham gia Trong giai đoạn này, DQ dan được chú ý là một trong những yếu tố
quan trọng trong việc đảm bảo mức độ tin cậy, tính ứng dụng và sự chính xác của các
phân tích và chiến lược đưa ra dựa vào dữ liệu trong một tổ chức bất kỳ
completeness
e ¬ relevancy
usability validity security consistency precision
accu racy currency
relevan ce accessibility \abitty integrity
ow timeliness
non-duplication
Hình 2.1 Biéu đồ đám mây từ mô ta các độ đo DQA va mức độ phô biến của
chúng.
2.2.1.2 Giai đoạn các khung DỌA ứng dung trong lĩnh vực vụ thể
Bang 2.2 Bảng so sánh các khung DQA ở giai đoạn các khung DQA ứng dụng
trong lĩnh vực cụ thể
Khung | Năm Mục đích Loại Linh | Các tiêu | Đánh | Đán
đánh giá dữ liệu | vực dữ | chí DỌA | giá | hgiá
Trang 19đến bài toán relevance
of Things ness, (oT) reliability
PPF [10] | 2019 | Mot khung Có cấu | Tién | Complete
DQ dé cai trúc xửlý | ness,
thiện chất dữ liệu | validity,
lượng trong consisten
qua trinh tién cy,
Trang 20về lỗ hông cy,
phan mém validity
RWDQF | 2024 | Khung DQ Có cấu | Dữ liệu | Accuracy v x
[14] trong nghiên | trúc ytế ;
cứu bệnh ung complete thư, đặc biệt ness,
tap trung vao timeliness thoi gian
ngừng điều tri
Các khung đánh giá chất lượng dữ liệu ở giai đoạn này tập trung vào việc triển khai
định lượng và định tính của các tiêu chí được lựa chọn cho bộ dữ liệu trong một lĩnh
vực cụ thé Các phương pháp được sử dụng một cách linh hoạt phụ thuộc vào những
đặc trưng riêng của bộ dữ liệu nghiên cứu Vì vậy, sô lượng các tiêu chí phô biên được chon lọc rõ ràng hơn như là accuracy, completeness, consistency, uniqueness,
validity, timeliness Loại dữ liệu phổ biến nhất được tập trung đánh giá là dữ liệu có
câu trúc Tuy nhiên, chưa có các nghiên cứu tập trung vê DQ trong lĩnh vực giáo dục
đại học hay đánh gia DQ trên bộ đỡ liệu của trường đại học Dựa vào các tiêu chí phổbiến đã được thống kê ở bảng 2.2, nghiên cứu này lựa chọn 5 tiêu chí phù hợp để
đánh giá chất lượng của bộ dữ liệu giáo dục đại học
2.2.1.3 Giai đoạn DQA tự động
Bang 2.3 Bảng so sánh các nghiên cứu đánh giá DQ ở giai đoạn đánh giá DQ tự
động
Bài báo | Năm | Loại dữ Tiêu chí Phương pháp | Mức độ | Ngưỡn
liệu đánh giá DQ tự động tự động |ø tiêu
Trang 21Valencia- | 2019 | Có cấu | Completeness, | Data validation | PartiallyParra et trúc accuracy, and cleaning
al [16] consistency
Rukat et | 2020) Khéng | Missing value | Data validation | Highly
al [17] dé cap and cleaning
Gupta et | 2021 | Có cấu | Class overlap, | Machine Highly
al [18] trúc outliner learning for
detection, Data quality
duplicates, class parity, feature
relevance, homogeneity,
data fairness correlation, completeness, detection
Tute et al | 2021 | Có cấu | DQ-issues Data quality Highly
[19] trúc profiling assessment
Ahiagble | 2022 | Co cau | Completeness, | Unsupervised | Highly
et al [20] trúc integrity, Machine
accuracy, Learning(DBS timeliness, CAN),
consistency, Syntactic and
free-of-error | Semantic data
quality
Baseiet | 2022|Cocau | Completeness, | Data quality Highly
al [21] trúc relevance, visualization
reliability, by “Traffic
adequacy light” system
Fadlallah | 2023 | Ban cau | Completeness, | Machine Highly
et al [22] trúc accuracy, Learning for
consistency Data Quality
Ozonze | 2023 | Cócấu | Completeness, | Data quality Highly
et al [23] trúc correctness, assessment
13
Trang 22Oliveira | 2023 | Có cau | Consistency Software tool | Highly v
et al [25] trúc for data quality
(Great Expectation)
Phương | 2024 | Có cấu | Accuracy, Data quality Highly v
phap dé trúc completeness, | assessment
xuat consistency,
uniqueness, timeliness
Đã có nhiều phương pháp được thống kê từ các nghiên cứu trong bảng 2.3 về cách tự
động và bán tự động quy trình DQA Các nghiên cứu quan tâm đến vấn đề làm nhưthế nào đề đảm bảo DQ ôn định trong suốt vòng đời hoạt động của dữ liệu Đặc trưng
của dữ liệu nghiên cứu là yếu t6 quyết định đến việc lựa chọn các tiêu chí DQA phù
hợp Tuy nhiên, các mức độ tự động thường từ một phần tức là tự động hóa đánh giávới những thuộc tính chung như giới tính, thời gian (dd/mm/yyyy) hoặc bán phần tức
là tự động hóa đánh giá với những thuộc tính có các đặc trưng riêng của từng loại dữ
liệu bằng các phương thức riêng phù hợp được các nhóm nghiên cứu lựa chọn dựa
vào quá trình khai thác và phân tích dữ liệu kĩ lưỡng trước đó Mặc dù chưa có nghiên
cứu nảo đạt tới mức độ DỌA tự động hoàn toàn vì các tính chất riêng của dữ liệu
trong từng lĩnh vực và sự thay đổi về quy chuẩn nhập liệu cũng như định nghĩa vềcác thuộc tính của dữ liệu Vì lí do trên, nghiên cứu của chúng tôi lựa chọn triển khai
một khung DQA theo năm tiêu chí trên bộ dữ liệu dữ liệu giáo dục đại học Các
phương pháp và kĩ thuật được lựa chọn dựa theo đặc điểm chung và riêng của bộ dữ
liệu Ngoài ra, đã có một vài nhóm tác giả đề cập đến quy trình cải thiện DQ với
những dữ liệu có chất lượng kém Nghiên cứu này đề xuất một số cách cải thiện DQ
sau đánh giá và kiêm tra ảnh hưởng của quy trình cải thiện dựa vào độ đo accuracy
14
Trang 23của việc dự đoán kêt quả xếp loại tot nghiệp của sinh viên khi huân luyện với dữ liệu trước và sau khi cải thiện.
2.2.2 Các mô hình dự đoán kết quả sinh viên tốt nghiệp
Dự đoán kết quả tốt nghiệp là một chủ đề thảo luận quan trọng trong giáo dục đạihọc Vấn đề này đã thu hút sự chú ý của các nhà quản lý, giáo viên và nhà nghiên cứutrong những năm gần đây Thời gian mà một sinh viên hoàn thành chương trình đạihọc bị anh hưởng bởi nhiều yếu tô như nền tảng giáo dục trước đó, các kết quả điểm
số học tập va kĩ năng tham gia các hoạt động ngoại khóa tại trường [11]
— Nghiên cứu của Alyahyan (2020) [26] dự đoán khả năng thành công của sinh
viên đã tốt nghiệp bằng các kỹ thuật khai phá dit liệu được hướng dẫn cho đối
tượng giảng viên Tuy nhiên, việc áp dụng hiệu quả các phương pháp này đòi
hỏi nhiều yếu tố quyết định, từ cách định nghĩa thành công của sinh viên, thôngqua các thuộc tính sinh viên cần tập trung vào, cho đến phương pháp học máynào phù hợp hơn với van dé cụ thé
— Tại trường University of Thessaly in Greece, Iatrelis và các đồng ngiệp đã
nghiên cứu về cách tiếp cận khác như học máy hai giai đoạn sử dụng mô hình
học không giám sát K-means và học có giám sát Random Forest để dự đoán
kết quả của sinh viên trong các chương trình giáo dục đại học (2021) [27] Hai
mô hình này đã huấn luyện cho mỗi cụm sinh viên để dự đoán thời gian màsinh viên đó có thê hoàn thành chương trình học và việc ghi danh của sinh viênvào các chương trình đào tạo được cung cấp
— Demeter và các cộng sự của mình (2022) [28] đã phát triển thuật toán học máy
Random Forest dé dự đoán xem liệu sinh viên học đại học lần đầu có tốt nghiệphay không cũng như dự đoán thời điểm tốt nghiệp của họ Mô hình đã phânloại được kết quả sinh viên tốt nghiệp với độ chính xác lên đến 70%
Các nghiên cứu ở trên đều nhân mạnh mức độ quan trọng của các phương pháp tiếp
cận data-driven, bao gồm các mô hình học máy và khai thác dữ liệu dé dự đoán kếtquả tốt nghiệp Đồng thời rút ra những yếu tố có ảnh hưởng đến thời điểm và kết quả
15
Trang 24tốt nghiệp của sinh viên dé đề xuất những giải pháp hiệu quả nhằm cải tiễn chất lượng
đào tạo.
16
Trang 25Chương 3 NGHIÊN CỨU LÝ THUYET
3.1 Cơ sở lí thuyết
3.1.1 Chất lượng dữ liệu
Chất lượng dữ liệu đánh giá khả năng đáp ứng của bộ đữ liệu đối với các yêu cầuphân tích, thống kê, dự đoán của tổ chức sở hữu và sử dụng bộ dữ liệu đó Dữ liệu
được cho là có chất lượng cao là dữ liệu chính xác, tin cậy, nhất quán, đầy đủ, có khả
năng truy cập dễ dàng và sử dụng khi cần thiết Đảm bảo DQ là một yêu cầu quan
trọng đối với phân tích dữ liệu vì chất lượng của kết quả phân tích phụ thuộc trực tiếp
vào chất lượng của dữ liệu [19] Nếu dữ liệu chất lượng cao là cơ sở cho các quyếtđịnh hiệu quả và thực tế thì dữ liệu chất lượng thấp có thé dẫn đến những quyết định
thiếu sự chính xác, gây tôn thất về mặt tài chính và uy tín của tổ chức
3.1.2 Vòng đời dữ liệu
Vong đời dir liệu (data lifecycle) mô tả hành trình của dữ liệu từ khi được sinh ra đến
khi bị xóa đi Hình 3.1 là một ví dụ mô tả các giai đoạn mà dữ liệu trải qua trong một
vòng đời dữ liệu bao gồm tạo ra, lưu trữ ngắn hạn, sử dụng, chia sẻ, lưu trữ dài hạn
và xóa bỏ Vòng đời dữ liệu giúp tổ chức khai thác tối đa giá trị sử dụng của đữ liệu
khi tồn tại trong hệ thong, theo doi khuynh hướng phát triển của tô chức theo thời
gian [29] Đặc biệt, dữ liệu lớn đang là xu hướng của thời đại, dữ liệu ngày càng đa
dang, quan lý vòng đời dữ liệu không chỉ trở thành một xu thé tat yêu mà còn là yếu
tố cực kì quan trọng dé đảm bảo tính chính xác, toàn vẹn, bảo mật và hiệu quả khai
thác dữ liệu.
17
Trang 26a
Hình 3.1 Vòng đời đữ liệu Nguồn: Pinterest3.1.3 Khung đánh giá chất lượng dữ liệu
Khung đánh giá chất lượng dữ liệu bao gồm một tập hợp các tiêu chí, phương pháp
và công cụ được sử dụng dé do lường, đánh giá và quản lý DQ trong một tổ chức
Mục tiêu chính là để đảm bảo chất lượng tổng thê của dữ liệu tốt phục vụ các tác vụ
báo cáo, phân tích, dự báo dựa vào dữ liệu Có nhiều khung DỌA được định nghĩa
và đề xuất cho riêng từng lĩnh vực dữ liệu khác nhau như đã khảo sát trong nội dungphần 2.2 Các tiêu chí trong một khung DQA được lựa chọn có công thức đo lường
riêng dựa vào bộ dữ liệu được nghiên cứu.
3.1.4 Cac tiêu chí đánh giá chất lượng dữ liệu
Theo nội dung khảo sát về các khung DQA đã công bố trong phần 2.2 ở chương 2,
có đa dạng các tiêu chí DQA Trong đó, một số tiêu chí phổ biến như accuracy (tínhchính xác), completeness (tính đầy đủ), validity (tính xác thực), consistency (tính nhấtquán), uniqueness/duplicated (tính duy nhất) và timeliness (tính kịp thời) Định nghĩacủa các tiêu chí thay đôi theo đặc trưng của bộ dữ liệu về những lĩnh vực khác nhau.Dưới đây định nghĩa được xem là thường dùng dé xác định các tiêu chí kể trên
— Accuracy (tính chính xác): Dữ liệu có thé hiện tính chính xác như mong đợi hay
không?
18
Trang 27— Completeness (tính đầy đủ): Dữ liệu có chứa đầy đủ các thông tin cần thiết như
mong đợi hay không?
— Consistency (tính nhat quán): Dữ liệu có được biểu diễn theo một phiên bản nhất
quán như mong đợi hay không?
— Duplicated/Uniqueness (tính duy nhất): Dữ liệu có bị trùng lắp hay không?
— Timeliness (tính kip thời): Dữ liệu có được cập nhật va phản ánh hiện trạng thực
tế hay không?
Mỗi tiêu chí được đo lường theo cả hai cách DQA chủ quan và khách quan [30].
Bảng 3.1 Bang so sánh hai phương pháp DQA chủ quan va DQA khách quan
DỌA chủ quan DỌA khách quan
Phương pháp
thực hiện
Lây ý kiến khảo sát đánh giá
của những người tham gia trực
tiếp việc sử dụng dữ liệu
Chuyền đôi các tiêu chí DỌAthành số liệu và có thể đo lường
băng con sô được.
Cách trién
khai
Bảng khảo sát bao gôm một
danh sách các câu hỏi liên quan
đên các tiêu chí, kêt quả khảo
Có thê sử dụng các kỹ thuậtphân tích thống kê dựa vào đặc
điêm của đữ liệu.
sat được thống kê dựa vào
thang điểm mức độ.
3.1.5 Quy trình quản lý chất lượng dữ liệu
Quản lý chất lượng dữ liệu (DQM) là một quy trình bao gồm các bước và các công
cụ dé duy trì độ 6n định của chất lượng dữ liệu theo thời gian DQM là một phankhông thể thiếu của quy trình quản lý dữ liệu trong thực tế Phụ thuộc vào đặc điểm
của dit liệu và yêu cầu của tổ chức vận hành dữ liệu, có nhiều quy trình các bước
DQM được đề xuất Hình 3.2 dưới đây mô tả một quy trình DQM bao gồm bốn giaiđoạn dựa theo đặc trưng của bộ dữ liệu giáo dục đại học để dự đoán xếp loại tốt
nghiệp và mô tả các bước chính của từng giai đoạn trong bảng 3.2.
19
Trang 28PROFILE IMPLEMENT MONITOR IMPROVE
« identify data « Measure DQ e Monitor DQ
issues dimensions by erformance
Hình 3.2 Một quy trình bốn giai đoạn trong quy trình DQM
Bảng 3.2 Bảng mô tả tác vụ chính của bốn giai đoạn trong quy trình DQM
Các giai đoạn Tac vụ chính
Phân tích DỌ Xác định các yêu cầu về DQ dựa vào tác vụ dự đoán
xêp loại tôt nghiệp của sinh viên
Định nghĩa các kiểm tra DQ
Lựa chon framework DQA (accuracy, completeness,
consistency, uniqueness, timeliness)
Triển khai đánh giá DQ | Trién khai khung DQA theo hai hướng DQA từng bang
của dit liệu và DQA tổng thé
DỌA sử dụng phương pháp rule-based generation
(chuân hóa các hàm đôi với các thuộc tính cùng loại)
Giám sát DQ Theo dõi kết quả DQA liên tục theo thời gian
Đưa ra cảnh báo khi DỌ bị giảm
Cải thiện DQ Định nghĩa ngưỡng chất lượng tiêu chuân của các tiêu
chí DQA, đề xuất kỹ thuật cải thiện phù hợp phù hợp
cho từng loại dữ liệu
20
Trang 29So sánh accuracy của mô hình dự đoán xêp loại tôt nghiệp với dữ liệu trước và sau khi cải thiện đê nhận
xét mức độ hiệu quả của biện pháp cải thiện áp dụng.
3.1.6 M6 hình dự đoán kết quả sinh viên tốt nghiệp
Ngữ cảnh ứng dụng bài toán dự đoán kết quả tốt nghiệp của sinh viên có ý nghĩa như
là một thước đo dé nhận xét sự tác động của các kỹ thuật cải thiện DQ thông qua việc
huấn luyện mô hình trên hai phiên bản dữ liệu trước và sau khi cải thiện Kết quả tốt
nghiệp của người học chính là xếp loại tốt nghiệp (Trung bình, Khá, Giỏi, Xuất sắc)dựa vào điểm trung bình tích lũy toàn khóa và điểm rèn luyện trung bình tích lũy.Bên cạnh đó, sinh viên cần hoàn thành đủ các chứng chỉ mà nhà trường yêu cầu nhưchứng chỉ ngoại ngữ, chứng chỉ quốc phòng và hoàn thành học phí Dữ liệu đầu vàobao gồm nhiều thuộc tính đại diện cho quá trình học tập và tham gia các hoạt độngcủa sinh viên trong thời gian ở trường đại học Kết quả dự đoán đầu ra là một trongbốn xếp loại tốt nghiệp Các thuộc tính đề đưa vào huấn luyện được lựa chọn dựa vàophân tích PCA đề chọn ra những thuộc tính quan trọng, có ảnh hưởng đến độ chínhxác của mô hình dự đoán Dữ liệu được huấn luyện qua các mô hình máy học đã đượcchứng minh có hiệu suất tốt, phù hợp với các bài toán phân lớp nhị phân và đa nhãn
Hai thuật toán LightGBM và CatBoost được phát triển dựa theo giải thuật Decision
Tree như hình 3.3 và có thé xử lí hàng triệu điểm di liệu và hàng nghìn đặc trưng
một cách hiệu quả.
21
Trang 30Hình 3.3 Hình ảnh biểu diễn giải thuật Decision Tree Nguồn: Internet
3.17 Kiến trúc dữ liệu lớn
Kiến trúc dit liệu lớn là một cấu trúc cho phép thực thi một chuỗi hoạt động thu thập
(collect), tích hop (ingest), lưu trữ (store), xử lí (process), các tác vụ như dự đoán,
báo cáo, phân tích được thé hiện như hình 3.4 Kiến trúc nay cho phép xử lí dữ liệu
từ nhiều nguồn khác nhau một cách hiệu quả theo quy trình thường sử dụng như ETL
(Extract-Transform-Load) hay ELT (Extract-Load-Transform).
Ce mm
Hình 3.4 Dit liệu hoạt động trên kiến trúc dữ liệu lớn
Hình 3.5 đưới đây trực quan những thành phan chính trong một kiến trúc dữ liệu
lớn được Microsoft đề xuất Các nguồn dữ liệu (Data Sources) có thé được thu thập
từ những nguồn khác nhau của các ứng dụng như các bảng dữ liệu quan hệ, các file
log được thu thập từ hệ thống hoặc web hay dữ liệu theo thời gian thực từ các thiết bị
IoT Các dữ liệu này được tích hợp vào hệ thống và lưu trữ trong một hồ dữ liệu DataLake Dữ liệu có thể được xử lí theo phương thức batch processing hoặc stream
processing Nếu dit liệu được xử lí theo phương thức stream processing, hệ thốngcung cấp một giải pháp đề thu thập và lưu lại các tin nhắn real-time gọi là real-time
message ingestion Tiêp theo, các dữ liệu này dùng cho mục đích huân luyện cho các
22
Trang 31mô hình dự đoán và phân tích báo cáo thống kê, tìm ra các “insight” đáng giá an trong
dữ liệu Cuối cùng, dé các thành phần ké trên phối hợp nhịp nhàng với nhau và tựđộng hóa quy trình, một số công nghệ điều phối được sử dụng như Azure Data
Factory, Apache Oozie.
Batch Data Storage Processing
Trang 323.2 Phương pháp nghiên cứu
3.2.1 Tổng quan phương pháp nghiên cứu
Nội dung phần này trình bày tổng quan các phương pháp DQM đã áp dụng cho dữliệu giáo dục đại học Quá trình nghiên cứu trải qua bốn giai đoạn chính: Phân tíchđặc trưng dt liệu, triển khai DQA, cải thiện DQ, thực thi bài toán ứng dụng dự đoánkết quả tốt nghiệp và triển khai DQM trên Microsoft Azure
Phân tích đặc trưng dữ liệu, phân tích về mặt cấu trúc và ý nghĩa các thuộc tinh,các van đề về chất lượng dang tôn tại có ảnh hưởng xâu đến DQ tổng thé ở thời điểm
hiện tại và tương lai Ở giai đoạn này, chúng tôi sử dụng các kỹ thuật phân tích thống
kê, trực quan hóa dé làm rõ xu hướng và các bất thường trong dit liệu DQA đượctriển khai một cách rõ ràng và cụ thê hơn dựa theo những phân tích về bộ dữ liệu
trước đó Vì mỗi lĩnh vực đữ liệu luôn có những đặc trưng riêng biệt và phụ thuộc
nhiều vào cách thức tô chức hoạt động và lưu trữ của tô chức sở hữu dé liệu nên việctriển khai các kiểm tra dựa theo các định nghĩa chung về khung DQA và các tiêu chíDỌA cần được xác định cụ thê Việc triển khai các kiểm tra này được thực thi từ tổngquát đến chỉ tiết thông qua các hàm, các công thức thống kê, các ràng buộc và cả đánhgiá DQ chủ quan của người thực hiện các kiểm tra Một số phương pháp cải thiện DQ
phổ biến được đề xuất sử dụng như làm sạch dữ liệu, tăng cường dữ liệu, chuyên đôi
dữ liệu, chuẩn hóa, báo cáo sự thay đôi của dit liệu Mục tiêu là loại bỏ hoặc sữa chữacác lỗi sai của dữ liệu, đồng thời nang cao DQ tổng thê dé đảm bảo tổng thé dit liệuluôn đáp ứng các tiêu chuẩn DQ ổn định
LightGBM và CatBoost dự đoán xếp loại tốt nghiệp trên hai phiên bản dữ liệu trước
và sau khi cải thiện để đánh giá mức độ hiệu quả của các phương pháp cải thiện đốivới độ chính xác của mô hình phân lớp Hay là DQ đầu vào ảnh hưởng như thế nàođến độ chính xác của kết quả đầu ra Bai toán này cũng được giả định như là một tác
vụ được yêu câu bởi tô chức giáo dục sở hữu dữ liệu Dựa theo yêu câu này, chúng
24
Trang 33tôi liệt kê những tiêu chuẩn nhất định về chất lượng đối với dữ liệu thô có trong hệthong được gọi là ngưỡng tiêu chuẩn.
Ở phần cuối, nghiên cứu này đề xuất triển khai DQM trên kiến trúc dữ liệu lớn
Data Lake chứa dữ liệu có cấu trúc và phi cấu trúc như báo cáo, văn ban và dữ liệuthời tiết từ cảm biến IoT Quy mô tuyển sinh ngày càng mở rộng và nhu cầu đa dạng
hóa dữ liệu, việc xây dựng hồ sơ sinh viên toàn diện sẽ giúp trường học hiểu rõ hơn
về hành vi học tập và cải thiện chất lượng và hiệu quả đào tạo Đề đáp ứng nhu cầunày, nghiên cứu này đề xuất sử dụng Data Lake để lưu trữ dữ liệu thay vì DataWarehouse, và triển khai thử nghiệm trên Microsoft Azure với tài khoản sinh viên
$100 Giải pháp này có thé giúp giảm chi phí vận hành và còn hỗ trợ các quyết định
dựa trên dữ liệu chính xác và đáng tin cậy hơn Qua đó giúp góp phần vào việc nângcao hiệu quả quản lý và sử dụng dir liệu trong các tổ chức giáo dục
3.2.2 Phan tích dữ liệu
Bộ dữ liệu được sử dụng trong nghiên cứu được thu thập từ một trường đại học đảo
tạo về nhóm ngành công nghệ thông tin chứa các trường thông tin về hồ sơ cá nhân,kết quả học tập và kết quả rèn luyện của sinh viên trong thời gian 16 năm hoạt động(2006-2022) Bên cạnh đó, bộ dữ liệu còn chứa một số thông tin co bản của giảngviên và học viên sau đại học, dữ liệu IoT về thời tiết được thu thập từ các sensor, dữ
liệu bình luận nhận xét về hoạt động dạy học thu thập từ các khảo sát cuối kì của sinh
viên Khi đó, bộ dữ liệu bao gồm các trường thông tin chính và các bảng dữ liệu được
thống kê ở bảng 3.3.
— Thông tin sinh viên: Họ tên, mã sô sinh viên, ngày tháng năm sinh, giới tính,
quê quán, ngành học, lớp sinh hoạt và các thông tin khác.
— Thông tin giảng viên: Mã sô giảng viên, năm sinh, giới tính, quê quán, chức
vụ, học hàm, học vi, khoa công tác.
— Hoạt động giảng dạy: Phân công lớp giảng dạy trong từng học kỳ, danh sách
điêm các môn học của từng sinh viên.
25
Trang 34— Hoạt động nghiên cứu: Thông tin các đề tài nghiên cứu khoa học của giảng
2 DSGV 312 12 Danh sách giảng viên
3 DSHV_SDH 2009 10 Danh sách học viên sau đại
4 học
4 DIEM 674273 15 Điêm từng môn học
5 DIEMRL 111978 7 | Điểm rèn luyện theo từng
I0 |IoơT WEATHER 3150768 | 12 | Số liệu thu được từ thiết bị
IoT thời tiệt
Các biểu đồ cột dưới đây là các thống kê về cơ cấu vận hành va sự phân bố sinh
viên theo năm nhập học, theo ngành, theo khoa và theo hệ đào tạo Vì là trường học
dạy các ngành trong khối ngành công nghệ thông tin nên tỉ lệ nam nữ chênh lệch mộtcách đáng kê Hình 3.6 và 3.7 là các biểu đồ cột cho thấy lượng sinh viên nhập học
26