1. Trang chủ
  2. » Luận Văn - Báo Cáo

tiểu luận đề tài dự đoán tỉ lệ sinh viên bỏ học và thành công trong họctập bằng phương pháp phân lớp

42 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Do đó, “tiền xử lý” là một bước quan trọng giúp hạn chếnhững kết quả sai lệch không mong muốn trước khi bước vào qua trình khai phá dữ liệu.- Bước 3: Chuyển đổi dữ liệu transformation: Đ

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠOĐẠI HỌC UEH

TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ

ĐỒ ÁN MÔN HỌCĐỀ TÀI

DỰ ĐOÁN TỈ LỆ SINH VIÊN BỎ HỌC VÀ THÀNH CÔNG TRONG HỌCTẬP BẰNG PHƯƠNG PHÁP PHÂN LỚP

Nhóm sinh viên Võ Tuấn Cường - 31211027631Võ Minh Đạt - 31211027634Trần Gia Dung - 31211027633Nguyễn Thị Thơm - 31211027673Đào Bùi Hương Thùy - 31211027675

Giảng viên hướng dẫn : Thạc sĩ Võ Thành Đức

TP Hồ Chí Minh, Ngày 28 tháng 02 năm 2023

Trang 2

1.1.3.Tổng quan về phân lớp dữ liệu: 3

1.2.Giới thiệu về phần mềm orange 11

1.3.Lý do chọn đề tài 13

1.3.1.Cơ sở hình thành, mục tiêu của đề tài nghiên cứu: 13

1.3.2.Đối tượng nghiên cứu: 14

CHƯƠNG 2 THU THẬP VÀ LÀM SẠCH DỮ LIỆU 15

2.1.Mô tả tổng quát dữ liệu: 15

2.2.Trình bày sơ lược các thuộc tính lựa chọn đưa vào mô hình: 15

2.3.Tiền xử lý dữ liệu: 25

CHƯƠNG 3 KIỂM ĐỊNH MÔ HÌNH 28

3.1.Thực hiện mô hình dự đoán: 28

CHƯƠNG 4 ĐÁNH GIÁ VÀ LỰA CHỌN MÔ HÌNH 35

4.1.Các kết quả đạt được: 35

4.1.1Phương pháp đánh giá phân lớp bằng Confusion Matrix (ma trận nhầm lẫn): 35

4.1.2Phương pháp ROC Analysis: 36

4.2.Lựa chọn mô hình: 36

4.3. Dự đoán kết quả: 36

CHƯƠNG 5: TRIỂN KHAI MÔ HÌNH 39

5.1Mục đích ý nghĩa của việc triển khai mô hình trong lĩnh vực cụ thể: 39

5.2Phân tích đánh gía hiệu qủa kinh tế khi triển khai mô hình: 39

Phụ lục 41

1.Bảng đánh giá 41

2.Tài liệu tham khảo 41

Trang 3

CHƯƠNG 1 TỔNG QUAN

1.1.1 Quá trình thực hiện tri thức và khai phá dữ liệu:

- Việc chọn lọc và sử dụng thông tin hiệu quả có thể quyết định sự thành công trongphân tích dữ liệu Điều đó có nghĩa phải tìm ra những gái trị tiềm ẩn, các yếu tố tác động vànhững xu hướng phát triển của các dữ liệu có sẵn ấy Quá trình đó được gọi là quá trình pháhiện tri thức (Knowledge Discovery in Database – KDD) mà trong đó khai phá dữ liệu làmột kỹ thuật quan trọng cho phép ta hu được các trị thức mong muốn.

 Sơ đồ quá trình phát hiện tri thức gồm 5 bước cơ bản sau:

- Bước 1 : Chon lọc dữ liệu( selection): Giai đoàn này cần thu gom các dữ liệu khai thácđược vào một cơ sở dữ liệu (CSDL) riêng ở bước này, chúng ta chỉ cần chọc lọc và giữ lạinhững dữ liệu cần thiết và giai đoạn sau yêu cầu Tuy nhiên, công việc này thường khó khănvà tốn nhiều thời gian vì dữ liệu tồn tại ở nhiều dạng khác nhau và nằm rải rác khắp nơi.

- Bước 2: Tiền xử lý dữ liệu (preprocessing): Khi tập hợp dữ liệu thường mắc phải mộtsố lỗi như dữ liệu thiếu logic, thiếu chặt chẽ, chưa đầy đủ, hiếm khi nào các dữ liệu thu thậpđược đều mang tính nhất quán Do đó, “tiền xử lý” là một bước quan trọng giúp hạn chếnhững kết quả sai lệch không mong muốn trước khi bước vào qua trình khai phá dữ liệu.

- Bước 3: Chuyển đổi dữ liệu (transformation): Định dạng lại cấu trúc của dữ liệu hỗtrợ cho việc phân tích dữ liệu dễ dàng và cái thiện kết quả phân tích.

- Bước 4 : Khai phá dữ liệu ( Data mining): Vận dụng các phương pháp thống kế, phântích dự đoán, các thuật toán học máy để chọn lọc thông tin chi tiết từ bộ dữ liệu đã chuẩn bịtrước Áp dụng các phương pháp tính toán xây dựng mô hình giải quyết cho vấn đề được đặtra.

- Bước 5: Trình bày kết quả phân tích (interpretation evaluation): Đây cũng là bướccuối cùng trong quá trình phát hiện tri thức (KDD) Dựa trên những tiêu chuẩn đánh giá phùhợp sẽ được chọn lọc và sử dụng sao cho các mẫu dữ liệu được trích bởi các phần mềm khaiphá dữ liệu có thể sử dụng được.

Từ quá trình phát hiện tri thức, ta thấy các kỹ thuật phát hiện tri thức trải qua rất nhiềugiai đoạn và sử dụng nhiều phương pháp để cho ra kết quả cuối cùng Đây là một quá trìnhliên tục, đầu vào của gia đoạn sau xuất phát từ đầu ra của giai đoạn trước Trong đó khai phádữ liệu được coi trọng hơn cả bởi việc tìm ra những tri thức và thông tin có cấu trúc chặt chẽtiềm ẩn trong khi dữ liệu khổng lồ.

1.1.2 Tiền xử lý dữ liệu:

Dữ liệu thực tế thường không đầy đủ, nhiễu và không nhát quán Các kỹ thuật tiền xử lýdữ liệu nhằm mục đích cải thiện được chất lượng của dữ liệu, dó đó nó giúp các quá tìnhkhai phá dữ liệu chính xác và hiệu quả Tiền xử lý dữ liệu là một bước quan trọng trong quátrình khai phá tri thức bởi vì các quyết định dựa trên chất lượng của dữ liệu Quá trình làmsạch dữ liệu bao gồm làm sạch dữ liệu, tích hợp, biến đôi dữ liệu và rút gọn dữ liệu.

Trang 4

1.1.2.1 Làm sạch dữ liệu

Dữ liệu trong thực tế thường không đầy đủ, nhiễu và không nhất quán Quá trình làmsạch dữ liệu cố gắng điền các giá trị thiếu, loại bỏ nhiễu, và sữa chữa sự không nhấtquán của dữ liệu.

- Với dữ liệu bị thiếu:

 Bỏ qua bộ có giá trị thiếu: Phương pháp này thường sử dụng khi nhãn hoặc lớpbị thiếu Phương pháp này rất không hiệu quả khi phần trăm giá trị trong từng thuộc tínhđáng kể.

 Điền bằng tay các giá trị bị thiếu: Cách tiếp cận này tốn thời gian và không khảthi khi thực hiện trên tập giá trị lớn với nhiều giá trị bị thiếu.

 Sử dụng một hằng số toàn cục để điền vào các giá trị bị thiếu: Thay thế toàn bộcác giá tị bị thiếu của thuộc tính bằng một hằng số như “Unknown” hay vô cực.

 Sử dụng các giá trị trung bình của thuộc tính cho tất cả mẫu thử thuộc về cùngmột lớp với bộ mã đã cho.

 Sử dụng một giá trị có khả năng cao nhất để điền vào các giá trị thiếu: giá trịnày có thể tìm ra bằng phương pháp hồi quy, hay dựa trên các cộng cụ sử dụng hìnhthức Bayesian.

- Với dữ liệu nhiễu: Nhiễu là một lối hay một sự mâu thuẫn ngẫu nhiên trong việc đocác biến số Các kỹ thuật loại bỏ nhiễu bao gồm:

 Phương pháp Bing: Đầu tiên sắp xếp dữ liệu và phân hoạch dữ liệu thànhnhững bin Sau đó, người dùng có thể làm trơn dữ liệu bằng các giá trị trung bình củabin, bằng các biên của bin,…Bin có độ rộng càng lớn thì tập dữ liệu thu được càng“trơn”.

 Phương pháp hồi quy: Phương pháp hồi quy tuyến tính tìm một đường thẳngtối ưu để khít với 2 thuộc tính (hay 2 biến), do đó một thuộc tính có thể dùng để dự đoánthuộc tính còn lại.

 Phương pháp phân cụm: Các giá trị ngoại lai có thể được dò hỏi bởi sự phâncụm, trong đó các giá trị được tổ chức thành các nhóm, hay còn gọi là cái “cluster”.Bằng trực giác, các giá trị rơi ra ngoài tập hợp của các cluster có thể được xem như làcác giá trị ngoại lai

1.1.3 Tổng quan về phân lớp dữ liệu:

- Định nghĩa: Là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đãcho trước nhờ một mô hình phân lớp Mô hình này được xây dựng dựa trên một tập dữ liệuđã được gán nhãn trước đó (thuộc về lớp nào) Quá trình gán nhãn (thuộc lớp nào) cho đốitượng dữ liệu chính là quá trình phân lớp dữ liệu.

Too long to read onyour phone? Save to

read later on yourcomputer

Save to a Studylist

Trang 5

Hình 1.1: Mô hình về quá trình phân lớp dữ liệu.- Quá trình phân lớp dữ liệu:

 Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn “học” hoặc “huấnluyện”)

 Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ:

o Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)o Bước 2.2 : Phân lớp dữ liệu mới.

- Phân loại bài toán phân lớp: Nhiệm vụ của bài toán phân lớp là phân các đối tượng dữliệu vào n lớp cho trước Nếu:

 n=2: Phân lớp nhị phân. n>2: Phân lớp đa lớp.

 Mỗi đối tượng dữ liệu chỉ thuộc vào 1 lớp duy nhất: Phân lớp đơn nhãn. Mỗi đối tượng dữ liệu có thể cùng lúc thuộc về nhiều lớp khác nhau: Phân lớpđa nhãn.

- Các ứng dụng phân lớp dữ liệu trong kinh tế Tài chính ngân hàng:

o Dự báo giá chứng khoán

o Xếp hạng tín dụng cá nhân và tổ chứco Đánh giá rủi ro tài chính.

 Sales & Marketing:o Dự báo doanh thu

o Dự báo khánh hàng trung thành Kinh tế học:

o Dự báo khủng hoảng kinh tếThuật toán phân

Dữ liệu huấn luyện

Mô hình phân lớp

Dữ liệu kiểm thử

Kết quả phân lớp dùng để đánh giá mô hình

Dữ liệu mới

Kết quả phân lớp thực tế

Trang 6

o Dự báo cung cầu

- Một số phương pháp phân lớp:

Hình 1.2: Một số phương pháp phân lớp Hồi quy logistic (Logistic Regresion)

o Định nghĩa: Là một mô hình xác xuất dự đoán giá trị đầu ra rời rạc từ một tập các giá trị đầu vào (biễu diễn dưới dạng vector)

Hình 1.3: Đồ thị đường hồi quy logistic

o Mô tả Tập nhãn y = : {y1, y2, … , y} với n là số lớp Một đối tượng dữliệu x={x1, x , … ,2 } với d là số thuộc tính của mỗi dòng dữ liệu và được biểu diễn dướidạng vector Hàm logistic P(y=1) dự đoán đối tượng xem đối dược x sở hữu các thuộctính cụ thể sẽ thuộc vào lớp y nào.

Logistic Regression

Trang 7

Hình 1.4: Mô hình phân lớp nhị phân sử dụng phương pháp hồi quylogistic

 Cây quyết định (Decision Tree)o Khái niệm:

 Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết địnhcùng các kết quả khã dĩ đi kèm nhầm hỗ trợ quá trình ra quyết định.

 Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương phápnhầm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước

Hình 1.5: Ví dụ: xây dựng mô hình cây quyết địnho Ưu điểm

 Dễ hiểu

 Không đòi hỏi việc chuẩn hóa dữ liệu Có thể xử lý trên nhiều kiểu dữ liệu khác nhau Xử lý tốt một lượng dữ liệu lớn trong thời gian ngắno Khuyết điểm:

- Khó giải quyết trong tình huống dữ liệu phụ thuộc thời gian

1

Trang 8

 Phương pháp SVM (Support Vector Machine)

o Định nghĩa: SVM là một thuật toán có giám sát, SVM nhận dữ liệu vào,xem chúng như những các vector trong không gian và phân loại chúng vào các lớpkhác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặtphẳng phân cách các lớp dữ liệu

Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) cókhoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể.

SVM có nhièu biến thể phù hợp với các bài toán phân loại khác nhau.o Một số khái niệm:

- Margin: Là khoảng cách giữa siêu phẳng ( trong trường hợp không gian2 chiều là đường thẳng) đến 2 điểm dữ liệu gần nhất tương ứng với 2 phân lớp.

SVM cố gắng tối ưu bằng cách tối đa hóa giá trị margin này, từ đó tìm rasiêu phẳng đẹp nhất để phân 2 lớp dữ liệu Nhờ vậy, SVM có thể giảm thiểu việc phân

lớp sai (misclassification) đối với điểm dữ liệu mới đưa vào.

Hình 1.6: Đồ thị biểu diễn khoảng cách giữa siêu phẳng

 Support vector: Bài toán của chúng ta trở thành tìm ra 2 đườngbiên của 2 lớp dữ liệu sao cho khoảng cách giữa 2 đường này là lớn nhất Siêuphẳng cách đều 2 biên đó chính là siêu phẳng cần tìm.

Các điểm xanh, đỏ nằm trên 2 đường biên (màu xanh lá) được gọi làcác support vector, vì chúng có nhiệm vụ hỗ trợ để tìm ra siêu phẳng (màucam).

o Các biến thể của SVM:

Trang 9

Hình 1.7: Các biến thể của SVMo Ưu điểm:

Tiết kiệm bộ nhớ (do quá trình test chỉ cần so điêm dữ liệu mới với mặt siêuphẳng tìm được mà không cần tính toán lại)

Linh hoạt: vừa có thể phân lớp tuyến tính và phi tuyến ( sử dụng các kernelkhác nhau)

Xử lý được trong không gian nhiều chiềuo Khuyết điểm:

Trong trường hợp số chiều dữ liệu lớn hơn số dòng dữ liệu thì SVM cho kếtquả không tốt.

Chưa thể hiện tính xác suất trong phân lớp.- Các phương pháp đánh giá mô hình phân lớp

 Khái niệm: Là các phương pháp nhầm kiểm tra tính hiệu quả của mô hìnhphân lớp trên dữ liệu có đặc thù cụ thể, từ đó quyết định có sử dụng mô hình đó haykhông.

Một mô hình lý tưởng là một mô hình không quá đơn giản, không quá phức tạp vàkhông quá nhạy cảm với nhiễu ( tránh underfitting và overfitting).

Hình 1.8: Các phương pháp đánh giá

o Underfitting (chưa khớp): Mô hình được coi là chưa khớp nếu nó chưađược chưa phù hợp với tập dữ liệu huấn luyện và cả các mẫu mới khi dự đoán Nguyênnhân có thể là do mô hình chưa đủ độ phức tạp cần thiết để bao quát được tập dữ liệu.

o Overfitting (quá khớp): Là hiện tượng mô hình tìm được quá khớp vớidữ liệu huấn luyện Điều này dẫn đến việc dự đoán cả nhiễu nên mô hình không còn tốtkhi phân lớp trên dữ liệu mới.

o Good fitting: Là trường hợp mô hình cho ra kết quả hợp lý với cả tập dữliệu huấn luyện và các giá trị mới, tức mang tính tổng quát.

Trang 10

- Ma trận nhầm lẫn (Confusion Matrix): Là ma trận chỉ ra có bao nhiêu điểm dữ liệuthực sự thuộc vào 1 lớp cụ thể, và được dự đoán là rơi vào lớp nào Confusion Matrix là cókích thước k x k với k là số lượng lớp của dữ liệu.

Ví dụ: Bài toán chuẩn đoán ung thư ta có 2 lớp: lớp bị ung thư được chuẩn đoán Positiveovà lớp không bị ung thư được chuẩn đoán là Negative:

đúng một người bị ung thư.

mô hình dự đoán đúng một người không bị ung thư, tức là việc không chọn trường hợp bịung thư là chính xác.

hình dự đoán một người bị ung thư và người đó hoàn toàn khỏe mạnh.

gián tiếp Là khi mô hình dự đoán một người không bị ung thư nhưng người đó bị ungthư, tức là việc không chọn trường hợp bị ung thư là sai.

Hình 1.9: Ma trận nhầm lẫn (Confusion Matrix)

- Accuracy (Tính chính xác): Accuracy chỉ cho chúng ta biết được tỷ lệ dữ liệu đượcphân loại đúng mà không chỉ ra được cụ thể mỗi loại được phân loại như thê nào, lớp nàođược phân loại đúng nhiều nhất, và dữ liệu thuộc lớp nào thường bị phân loại nhầm vào lớpkhác.

- Precision, Recall, F – score1

 Precision (độ chính xác): cho biết trong số m mẫu được phân vào lớp i thì cótỷ lệ bao nhiêu mẫu có đúng (tránh nhầm lẫn với tính chính xác accuracy).

 Recall (độ phủ): còn gọi là độ phủ hay độ nhạy (sensitivity) hay TPR (TruePositivie Rate).

 F1 – score: giá trị trung bình điều hòa (harmonic mean) của hai độ đo Precisionvà Recall.

Trang 11

- ROC và AUC

 ROC: Là một đồ thị được sử dụng khá phổ biến trong đánh giá các mô hìnhphân loại nhị phân Đường cong này được tạo ra bằng cách biểu diễn tỷ lệ dự báo truepositive rate (TPR) dựa trên tỷ lệ dự báo false positive rate (FPR) tại các ngưỡng khácnhau.

Một mô hình hiệu quả khi có FPR thấp và TPR cao, hay ROC càng tiệm cận vớiđiểm (0;1) trong đồ thị thì mô hình càng hiệu quả.

Hình 1.10: Đồ thị đường ROC

 AUC: Là diện tích nằm dưới đường cong ROC Giá trị này là một số dươngnhỏ hơn hoặc bằng 1 Giá trị này càng lớn thì mô hình càng tốt.

- Phương pháp phân chia dữ liệu Hold-out:

 Phương pháp Hold-out phân chi tập dữ liệu ban đầu thành 2 tập độc lập theo 1tỷ lệ nhất định.

 Phương pháp này thích hợp cho các tập dữ liệu nhỏ Tuy nhiên, các mẫu có thểkhông đại diện cho toàn bộ dữ liệu (thiếu lớp trong tập thử nghiệm)

 Có thể cải tiến bằng cách dùng phương pháp lấy mẫu sao cho mỗi lớp đượcphân bố đều trong cả 2 tập dữ liệu huấn luyện và đánh giá Hoặc lấy mẫu ngẫu nhiên:thực hiện holdout k lần và độ chính xác acc(M) = trung bình cộng k giá trị chính xác.- K-fold cross validation:

 Phương pháp này phân chia dữ liệu thành k tập con có cùng kích thước (gọi làcác fold).

 Một trong các fold được sử dụng làm tập dữ liệu đánh giá và phần còn lại đượcsử dụng làm tập huấn luyện.

Trang 12

 Quá trình lặp lại cho đến khi tất cả các fold đều đã được dùng làm tập dữ liệuđánh giá.

Hình 1.11: 5-fold cross validation- Hold-out và K-fold cross validation:

 Phương pháp K-fold thường được sử dụng nhiều hơn do mô hình sẽ được huấnluyện và đánh giá trên nhiều phần dữ liệu khác nhau Từ đó tang độ tin cậy cho các độ đođánh giá của mô hình.

 Phương pháp Hold-out thường cho hiệu quả tốt trên các tập dữ liệu lớn Tuynhiên, ở các tập dữ liệu nhỏ hoặc vừa phải, hiệu quả của mô hình sử dụng phương phápnày phụ thuộc nhiều vào cách chia cũng như tỷ lệ chia dữ liệu.

Phần mềm Orange là phần mềm được làm ra với mục tiêu giúp người dùng có thể dễ dàngnghiên cứu về các bài toán khai phá dữ liệu và học máy.

Phần mền được biết đến với việc tích học các công cụ khai phá dữ liệu mã nguồn mở vàhọc máy thông minh, đơn giản, được lập trình bằng Python với giao diện trực quan và tươngtác dễ dàng Ngoài ra, phần mềm này có thể phân tích được những dữ liệu từ đơn giản đếnphức tạp, tạo ra những đồ họa đẹp mắt và thú vị.

Các cộng cụ (widget) cung cấp các chức năng cơ bản như đọc dữ liệu, hiển thị dữ liệudạng bảng, lựa chọn thuộc tính đặc điểm của dữ liệu dạng bảng, lựa chọn thuộc tính đặcđiểm của dữ liệu, huấn luyện dữ liệu để dự đoán, so sánh các thuật toán máy học, trực quanhóa các phần tử dự liệu,

- Data: Dùng để nạp dữ liệu, rút trích, biến đổi, lưu dữ liệu

Trang 13

- Visualize: dùng để biểu diễn biểu đồ (chart) giúp quan sát dữ liệu được tốt hơn.

- Model: gồm các hàm máy học (machine learning) phân lớp dữ liệu với Tree, Logictis,SVM,

- Evaluate: Là các phương pháp đánh giá mô hình như: Test&Score, Prediction,Confusion.

Trang 14

- Unsupervised: Gồm các hàm máy học (machine learning) gom nhóm dữ liệu như:

1.3.1 Cơ sở hình thành, mục tiêu của đề tài nghiên cứu:

Thành công trong học tập ở bậc đại học là điều rất quan trọng đối với cơ hội việc làm, cânbằng trong xã hội và phát triển kinh tế, khả năng cạnh tranh năng suất, ảnh hưởng trực tiếpđến cuộc sống của sinh viên và gia đình họ, các cơ sở giáo dục đại học và toàn xã hội Chínhvì vậy bỏ học hiện đang là vấn đề nan giải nhất mà các tổ chức giáo dục đại học phải giảiquyết để cải thiện sự thành công và phát triển của họ Tỷ lệ sinh viên bỏ học khác nhau giữacác nghiên cứu khác nhau tùy thuộc vào cách xác định tỷ lệ bỏ học, nguồn dữ liệu vàphương pháp tính toán.

Nhận ra tầm ảnh hưởng của việc bỏ học cũng như sự tiện lợi của khoa học dữ liệu mang

lại, nhóm em quyết định chọn đề tài “Dự đoán tỉ lệ sinh viên bỏ học và thành công tronghọc tập bằng phương pháp phân lớp dữ liệu” để tìm ra và phân tích cái yếu tố có thể xảy ra

đối với việc sinh viên bỏ học và thành công trong học tập

Trang 15

Bộ dữ liệu trên được lấy từ nghiên cứu của V.Realinho, J.Machado, L.Baptista vàM.Martins, nhóm đã tham khảo dữ liệu từ trang web:

https://www.kaggle.com/datasets/thedevastator/higher-education-predictors-of-student-1.3.2 Đối tượng nghiên cứu:

- Đối tượng nghiên cứu: Bộ dữ liệu được tạo từ một tổ chức giáo dục đại học liên quanđến sinh viên theo học bởi các bằng đại học khác nhau, chẳng hạn như: thiết kế, giáo dục,điều dưỡng, báo chí, Bộ dữ liệu bao gồm thông tin được biết tại thời điểm sinh viên đăngký (đường học tạp, nhân khẩu học, kinh tế vĩ mô và các yếu tố kinh tế xã hội) và kết quả họctập của sinh viên vào cuối kì một và kì hai.

- Phạm vi nghiên cứu: Bộ dữ liệu chứa 4424 quan sát với 35 thuộc tính, trong đó mỗibản ghi đại diện cho một học sinh riêng lẻ và có thể được sử dụng để đo điểm chuẩn chohiệu suất của các thuật toán khác nhau nhằm giải quyết cùng một loại vấn đề và để đào tạotrong lĩnh vực máy học.

Trang 16

CHƯƠNG 2 THU THẬP VÀ LÀM SẠCH DỮ LIỆU

- Bộ dữ liệu “Dataset.csv” – nguồn:

https://www.kaggle.com/datasets/thedevastator/higher-education-predictors-of-student Dữ liệu đề cập đến hồ sơ của các sinh viên theo học giữa các năm học 2008/2009 (saukhi áp dụng Quy trình Bologna cho giáo dục đại học ở Châu Âu) đến 2018/2019 Chúng baogồm dữ liệu từ 17 đại học từ các lĩnh vực kiến thức khác nhau.

- Tập dữ liệu có sẵn dưới dạng tệp giá trị được lưu dưới dạng CSV bao gồm 4424 quansát với 35 thuộc tính và không chứa giá trị nào bị thiếu.

tròMarital status Tình trạng hôn nhân của sinh viên

Application order Thứ tự sinh viên nộp đơn(Numeric) Feature

Mother's qualification Trình độ học vấn của mẹ (Categorical) FeatureFather's qualification Trình độ học vấn của cha (Categorical) FeatureMother's occupation Nghề nghiệp mẹ (Categorical) FeatureFather's occupation Nghề nghiệp cha (Categorical) FeatureDisplaced Sinh viên có phải di dời hay không

Educational special needs Nhu cầu giáo dục đặc biệt (Categorical) Feature

Trang 17

Debtor Sinh viên có nợ tiền hay không (Categorical)

Đơn vị ngoại khóa Học kỳ 1 (lớp) (Numeric) Feature

Curricular units 1st sem (without evaluations)

Đơn vị ngoại khóa Học kỳ 1 (không có đánh giá) (Numeric)

Trang 18

Curricular units 2nd sem (approved)

Đơn vị ngoại khóa Học kỳ 2 (đã phê duyệt) (Numeric)

Curricular units 2nd sem (grade)

Đơn vị ngoại khóa Học kỳ 2 (lớp) (Numeric) Feature

Curricular units 2nd sem (without evaluations)

Đơn vị ngoại khóa Học kỳ 2 (không có đánh giá) (Numeric)

- Giải thích cụ thể từng thuộc tính: Các dữ liiệu trong từng thuộc tính đều được diễn giải dưới dạng số, nên nhóm đã tiến hành giải thích từng thuộc tính.

2- Married3- Widower4- Divorced5- Facto union6- Legally separate

Trang 19

7- Giai đoạn 1—đội ngũ đặc biệt (ĐảoMadeira)

8- Giai đoạn 2—đội ngũ chung9- Giai đoạn 3—đội ngũ chung

10-Sắc lệnh số 533-A/99, mục b2) (Kếhoạch khác)

11-Sắc lệnh số 533-A/99, mục b3) (Tổchức khác)

12-Trên 23 tuổi

Trang 20

13-Chuyển nhượng

công nghệ

2- Thiết kế hoạt hình và đa phương tiện3- Dịch vụ xã hội (tham dự buổi tối)4- Nông học

5- Thiết kế truyền thông6- Điều dưỡng thú y7- Kỹ thuật tin học8- Nông nghiệp9- Quản lý10- Dịch vụ xã hội11- Du lịch12- Điều dưỡng13- Vệ sinh răng miệng14- Quản lý tiếp thị và quảng cáo15- Báo chí và Truyền thông16- Giáo dục cơ bản17- Quản lý (tham dự buổi tối)

Trang 21

Previous qualification 1- Giáo dục trung học

2- Giáo dục đại học—bằng cử nhân3- Đại học—bằng cấp

4- Giáo dục đại học—thạc sĩ5- Giáo dục đại học—tiến sĩ6- Tần suất giáo dục đại học7- Năm học thứ 12—chưa hoàn thành8- Năm học thứ 11—chưa hoàn thành9- Khác—Năm học thứ 11

10-Năm học thứ 10

11-Năm học thứ 10—chưa hoàn thành12-Giáo dục cơ bản chu kỳ 3 (năm thứ

9/10/11) hoặc tương đương

13-Giáo dục cơ bản chu kỳ 2 (năm thứ6/7/8) hoặc tương đương

14-Khóa học chuyên môn công nghệ15-Giáo dục đại học—bằng cấp (chu kỳ 1)16-Khóa học kỹ thuật chuyên nghiệp cao

17-Giáo dục đại học—thạc sĩ (chu kỳ 2)

Mother’s qualificationFather’s qualification

1- Giáo dục trung học—Năm học lớp 12hoặc tương đương

2- Giáo dục đại học—bằng cử nhân3- Giáo dục đại học—bằng cấp4- Giáo dục đại học—bằng thạc sĩ5- Giáo dục đại học—tiến sĩ6- Tần suất giáo dục đại học7- Năm học lớp 12—chưa hoàn thành8- Năm học lớp 11—chưa hoàn thành

Ngày đăng: 20/06/2024, 16:46