1. Trang chủ
  2. » Luận Văn - Báo Cáo

tiểu luận đề tài dự đoán tỉ lệ sinh viên bỏ học và thành công trong họctập bằng phương pháp phân lớp

42 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Dự đoán tỉ lệ sinh viên bỏ học và thành công trong học tập bằng phương pháp phân lớp
Tác giả Võ Tuấn Cường, Võ Minh Đạt, Trần Gia Dung, Nguyễn Thị Thơm, Đào Bùi Hương Thùy
Người hướng dẫn Thạc sĩ Võ Thành Đức
Trường học Đại học UEH
Chuyên ngành Khoa học dữ liệu
Thể loại Đồ án môn học
Năm xuất bản 2023
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 42
Dung lượng 4,07 MB

Cấu trúc

  • CHƯƠNG 1. TỔNG QUAN (3)
    • 1.1. Tổng quan về các phương pháp sử dụng (3)
      • 1.1.1. Quá trình thực hiện tri thức và khai phá dữ liệu (3)
      • 1.1.2. Tiền xử lý dữ liệu (3)
      • 1.1.3. Tổng quan về phân lớp dữ liệu (4)
    • 1.2. Giới thiệu về phần mềm orange (12)
    • 1.3. Lý do chọn đề tài (14)
      • 1.3.1. Cơ sở hình thành, mục tiêu của đề tài nghiên cứu (14)
      • 1.3.2. Đối tượng nghiên cứu (15)
  • CHƯƠNG 2. THU THẬP VÀ LÀM SẠCH DỮ LIỆU (16)
    • 2.1. Mô tả tổng quát dữ liệu (16)
    • 2.2. Trình bày sơ lược các thuộc tính lựa chọn đưa vào mô hình (16)
    • 2.3. Tiền xử lý dữ liệu (26)
  • CHƯƠNG 3. KIỂM ĐỊNH MÔ HÌNH (29)
    • 3.1. Thực hiện mô hình dự đoán (29)
  • CHƯƠNG 4. ĐÁNH GIÁ VÀ LỰA CHỌN MÔ HÌNH (36)
    • 4.1. Các kết quả đạt được (36)
      • 4.1.1 Phương pháp đánh giá phân lớp bằng Confusion Matrix (ma trận nhầm lẫn) (36)
      • 4.1.2 Phương pháp ROC Analysis (37)
    • 4.2. Lựa chọn mô hình (37)
    • 4.3. Dự đoán kết quả (37)
  • CHƯƠNG 5: TRIỂN KHAI MÔ HÌNH (40)
    • 5.1 Mục đích ý nghĩa của việc triển khai mô hình trong lĩnh vực cụ thể (40)
    • 5.2 Phân tích đánh gía hiệu qủa kinh tế khi triển khai mô hình (40)
  • Phụ lục (42)
    • 1. Bảng đánh giá (0)
    • 2. Tài liệu tham khảo (42)

Nội dung

Do đó, “tiền xử lý” là một bước quan trọng giúp hạn chếnhững kết quả sai lệch không mong muốn trước khi bước vào qua trình khai phá dữ liệu.- Bước 3: Chuyển đổi dữ liệu transformation: Đ

TỔNG QUAN

Tổng quan về các phương pháp sử dụng

1.1.1 Quá trình thực hiện tri thức và khai phá dữ liệu:

- Việc chọn lọc và sử dụng thông tin hiệu quả có thể quyết định sự thành công trong phân tích dữ liệu Điều đó có nghĩa phải tìm ra những gái trị tiềm ẩn, các yếu tố tác động và những xu hướng phát triển của các dữ liệu có sẵn ấy Quá trình đó được gọi là quá trình phá hiện tri thức (Knowledge Discovery in Database – KDD) mà trong đó khai phá dữ liệu là một kỹ thuật quan trọng cho phép ta hu được các trị thức mong muốn.

Sơ đồ quá trình phát hiện tri thức gồm 5 bước cơ bản sau:

- Bước 1 : Chon lọc dữ liệu( selection): Giai đoàn này cần thu gom các dữ liệu khai thác được vào một cơ sở dữ liệu (CSDL) riêng ở bước này, chúng ta chỉ cần chọc lọc và giữ lại những dữ liệu cần thiết và giai đoạn sau yêu cầu Tuy nhiên, công việc này thường khó khăn và tốn nhiều thời gian vì dữ liệu tồn tại ở nhiều dạng khác nhau và nằm rải rác khắp nơi.

- Bước 2: Tiền xử lý dữ liệu (preprocessing): Khi tập hợp dữ liệu thường mắc phải một số lỗi như dữ liệu thiếu logic, thiếu chặt chẽ, chưa đầy đủ, hiếm khi nào các dữ liệu thu thập được đều mang tính nhất quán Do đó, “tiền xử lý” là một bước quan trọng giúp hạn chế những kết quả sai lệch không mong muốn trước khi bước vào qua trình khai phá dữ liệu.

- Bước 3: Chuyển đổi dữ liệu (transformation): Định dạng lại cấu trúc của dữ liệu hỗ trợ cho việc phân tích dữ liệu dễ dàng và cái thiện kết quả phân tích.

- Bước 4 : Khai phá dữ liệu ( Data mining): Vận dụng các phương pháp thống kế, phân tích dự đoán, các thuật toán học máy để chọn lọc thông tin chi tiết từ bộ dữ liệu đã chuẩn bị trước Áp dụng các phương pháp tính toán xây dựng mô hình giải quyết cho vấn đề được đặt ra.

- Bước 5: Trình bày kết quả phân tích (interpretation evaluation): Đây cũng là bước cuối cùng trong quá trình phát hiện tri thức (KDD) Dựa trên những tiêu chuẩn đánh giá phù hợp sẽ được chọn lọc và sử dụng sao cho các mẫu dữ liệu được trích bởi các phần mềm khai phá dữ liệu có thể sử dụng được.

Từ quá trình phát hiện tri thức, ta thấy các kỹ thuật phát hiện tri thức trải qua rất nhiều giai đoạn và sử dụng nhiều phương pháp để cho ra kết quả cuối cùng Đây là một quá trình liên tục, đầu vào của gia đoạn sau xuất phát từ đầu ra của giai đoạn trước Trong đó khai phá dữ liệu được coi trọng hơn cả bởi việc tìm ra những tri thức và thông tin có cấu trúc chặt chẽ tiềm ẩn trong khi dữ liệu khổng lồ.

1.1.2 Tiền xử lý dữ liệu:

Dữ liệu thực tế thường không đầy đủ, nhiễu và không nhát quán Các kỹ thuật tiền xử lý dữ liệu nhằm mục đích cải thiện được chất lượng của dữ liệu, dó đó nó giúp các quá tình khai phá dữ liệu chính xác và hiệu quả Tiền xử lý dữ liệu là một bước quan trọng trong quá trình khai phá tri thức bởi vì các quyết định dựa trên chất lượng của dữ liệu Quá trình làm sạch dữ liệu bao gồm làm sạch dữ liệu, tích hợp, biến đôi dữ liệu và rút gọn dữ liệu.

Dữ liệu trong thực tế thường không đầy đủ, nhiễu và không nhất quán Quá trình làm sạch dữ liệu cố gắng điền các giá trị thiếu, loại bỏ nhiễu, và sữa chữa sự không nhất quán của dữ liệu.

- Với dữ liệu bị thiếu:

 Bỏ qua bộ có giá trị thiếu: Phương pháp này thường sử dụng khi nhãn hoặc lớp bị thiếu Phương pháp này rất không hiệu quả khi phần trăm giá trị trong từng thuộc tính đáng kể.

 Điền bằng tay các giá trị bị thiếu: Cách tiếp cận này tốn thời gian và không khả thi khi thực hiện trên tập giá trị lớn với nhiều giá trị bị thiếu.

 Sử dụng một hằng số toàn cục để điền vào các giá trị bị thiếu: Thay thế toàn bộ các giá tị bị thiếu của thuộc tính bằng một hằng số như “Unknown” hay vô cực.

 Sử dụng các giá trị trung bình của thuộc tính cho tất cả mẫu thử thuộc về cùng một lớp với bộ mã đã cho.

 Sử dụng một giá trị có khả năng cao nhất để điền vào các giá trị thiếu: giá trị này có thể tìm ra bằng phương pháp hồi quy, hay dựa trên các cộng cụ sử dụng hình thức Bayesian.

- Với dữ liệu nhiễu: Nhiễu là một lối hay một sự mâu thuẫn ngẫu nhiên trong việc đo các biến số Các kỹ thuật loại bỏ nhiễu bao gồm:

 Phương pháp Bing: Đầu tiên sắp xếp dữ liệu và phân hoạch dữ liệu thành những bin Sau đó, người dùng có thể làm trơn dữ liệu bằng các giá trị trung bình của bin, bằng các biên của bin,…Bin có độ rộng càng lớn thì tập dữ liệu thu được càng

 Phương pháp hồi quy: Phương pháp hồi quy tuyến tính tìm một đường thẳng tối ưu để khít với 2 thuộc tính (hay 2 biến), do đó một thuộc tính có thể dùng để dự đoán thuộc tính còn lại.

Giới thiệu về phần mềm orange

Phần mềm Orange là phần mềm được làm ra với mục tiêu giúp người dùng có thể dễ dàng nghiên cứu về các bài toán khai phá dữ liệu và học máy.

Phần mền được biết đến với việc tích học các công cụ khai phá dữ liệu mã nguồn mở và học máy thông minh, đơn giản, được lập trình bằng Python với giao diện trực quan và tương tác dễ dàng Ngoài ra, phần mềm này có thể phân tích được những dữ liệu từ đơn giản đến phức tạp, tạo ra những đồ họa đẹp mắt và thú vị.

Các cộng cụ (widget) cung cấp các chức năng cơ bản như đọc dữ liệu, hiển thị dữ liệu dạng bảng, lựa chọn thuộc tính đặc điểm của dữ liệu dạng bảng, lựa chọn thuộc tính đặc điểm của dữ liệu, huấn luyện dữ liệu để dự đoán, so sánh các thuật toán máy học, trực quan hóa các phần tử dự liệu,

- Data: Dùng để nạp dữ liệu, rút trích, biến đổi, lưu dữ liệu

- Visualize: dùng để biểu diễn biểu đồ (chart) giúp quan sát dữ liệu được tốt hơn.

- Model: gồm các hàm máy học (machine learning) phân lớp dữ liệu với Tree, Logictis, SVM,

- Evaluate: Là các phương pháp đánh giá mô hình như: Test&Score, Prediction, Confusion.

- Unsupervised: Gồm các hàm máy học (machine learning) gom nhóm dữ liệu như:

Lý do chọn đề tài

1.3.1 Cơ sở hình thành, mục tiêu của đề tài nghiên cứu:

Thành công trong học tập ở bậc đại học là điều rất quan trọng đối với cơ hội việc làm, cân bằng trong xã hội và phát triển kinh tế, khả năng cạnh tranh năng suất, ảnh hưởng trực tiếp đến cuộc sống của sinh viên và gia đình họ, các cơ sở giáo dục đại học và toàn xã hội Chính vì vậy bỏ học hiện đang là vấn đề nan giải nhất mà các tổ chức giáo dục đại học phải giải quyết để cải thiện sự thành công và phát triển của họ Tỷ lệ sinh viên bỏ học khác nhau giữa các nghiên cứu khác nhau tùy thuộc vào cách xác định tỷ lệ bỏ học, nguồn dữ liệu và phương pháp tính toán.

Nhận ra tầm ảnh hưởng của việc bỏ học cũng như sự tiện lợi của khoa học dữ liệu mang lại, nhóm em quyết định chọn đề tài “Dự đoán tỉ lệ sinh viên bỏ học và thành công trong học tập bằng phương pháp phân lớp dữ liệu” để tìm ra và phân tích cái yếu tố có thể xảy ra đối với việc sinh viên bỏ học và thành công trong học tập

Bộ dữ liệu trên được lấy từ nghiên cứu của V.Realinho, J.Machado, L.Baptista và M.Martins, nhóm đã tham khảo dữ liệu từ trang web: https://www.kaggle.com/datasets/thedevastator/higher-education-predictors-of-student- retention

- Đối tượng nghiên cứu: Bộ dữ liệu được tạo từ một tổ chức giáo dục đại học liên quan đến sinh viên theo học bởi các bằng đại học khác nhau, chẳng hạn như: thiết kế, giáo dục, điều dưỡng, báo chí, Bộ dữ liệu bao gồm thông tin được biết tại thời điểm sinh viên đăng ký (đường học tạp, nhân khẩu học, kinh tế vĩ mô và các yếu tố kinh tế xã hội) và kết quả học tập của sinh viên vào cuối kì một và kì hai.

- Phạm vi nghiên cứu: Bộ dữ liệu chứa 4424 quan sát với 35 thuộc tính, trong đó mỗi bản ghi đại diện cho một học sinh riêng lẻ và có thể được sử dụng để đo điểm chuẩn cho hiệu suất của các thuật toán khác nhau nhằm giải quyết cùng một loại vấn đề và để đào tạo trong lĩnh vực máy học.

THU THẬP VÀ LÀM SẠCH DỮ LIỆU

Mô tả tổng quát dữ liệu

- Bộ dữ liệu “Dataset.csv” – nguồn: https://www.kaggle.com/datasets/thedevastator/higher-education-predictors-of-student- retention.

- Dữ liệu đề cập đến hồ sơ của các sinh viên theo học giữa các năm học 2008/2009 (sau khi áp dụng Quy trình Bologna cho giáo dục đại học ở Châu Âu) đến 2018/2019 Chúng bao gồm dữ liệu từ 17 đại học từ các lĩnh vực kiến thức khác nhau.

- Tập dữ liệu có sẵn dưới dạng tệp giá trị được lưu dưới dạng CSV bao gồm 4424 quan sát với 35 thuộc tính và không chứa giá trị nào bị thiếu.

Trình bày sơ lược các thuộc tính lựa chọn đưa vào mô hình

Tên dữ liệu Ý nghĩa Vai trò Marital status Tình trạng hôn nhân của sinh viên

Application mode Phương pháp ứng dụng được sử dụng bởi sinh viên(Categorical)

Application order Thứ tự sinh viên nộp đơn(Numeric) Feature

Course Khóa học mà sinh viên đã tham gia

Daytime/evening attendance Sinh viên tham dự các lớp ban ngày hay buổi tối (Categorical)

Previous qualification Bằng cấp đạt được trước khi vào đại học

Nacionality Quốc tịch (Categorical) Feature

Mother's qualification Trình độ học vấn của mẹ (Categorical) Feature Father's qualification Trình độ học vấn của cha (Categorical) Feature Mother's occupation Nghề nghiệp mẹ (Categorical) Feature Father's occupation Nghề nghiệp cha (Categorical) Feature Displaced Sinh viên có phải di dời hay không

Educational special needs Nhu cầu giáo dục đặc biệt (Categorical) Feature

Debtor Sinh viên có nợ tiền hay không

Tuition fees up to date Học phí của sinh viên được cập nhật hay chưa (Categorical)

Gender Giới tính của sinh viên

Scholarship holder Sinh viên có nhân được học bổng hay không

Age at enrollment Tuổi của sinh viên khi nhập học

International Có phải là sinh viên quốc tế hay không

(credited) Đơn vị ngoại khóa Học kỳ 1 (có tín chỉ) (Numeric)

(enrolled) Đơn vị ngoại khóa Học kỳ 1 (đã đăng kí) (Numeric)

(evaluations) Đơn vị ngoại khóa Học kỳ 1 (đã đánh giá) (Numeric)

(approved) Đơn vị ngoại khóa Học kỳ 1 (đã phê duyệt) (Numeric)

(grade) Đơn vị ngoại khóa Học kỳ 1 (lớp) (Numeric) Feature

(without evaluations) Đơn vị ngoại khóa Học kỳ 1 (không có đánh giá) (Numeric)

(credited) Đơn vị ngoại khóa Học kỳ 2 (có tín chỉ) (Numeric)

(enrolled) Đơn vị ngoại khóa Học kỳ 2 (đã đăng kí) (Numeric)

(evaluations) Đơn vị ngoại khóa Học kỳ 2 (đã đánh giá) (Numeric)

(approved) Đơn vị ngoại khóa Học kỳ 2 (đã phê duyệt) (Numeric)

(grade) Đơn vị ngoại khóa Học kỳ 2 (lớp) (Numeric) Feature

(without evaluations) Đơn vị ngoại khóa Học kỳ 2 (không có đánh giá) (Numeric)

Unemployment rate Tỷ lệ thất nghiệp (Numeric) Feature

Inflation Lạm phát (Numeric) Feature

- Giải thích cụ thể từng thuộc tính: Các dữ liiệu trong từng thuộc tính đều được diễn giải dưới dạng số, nên nhóm đã tiến hành giải thích từng thuộc tính.

2- Married 3- Widower 4- Divorced 5- Facto union 6- Legally separate

2- German3- Spanish4- Italian5- Dutch6- English7- Lithuanian8- Angolan9- Cape Verdean

10-Guinean 11-Mozambican 12-Santomean 13-Turkish 14-Brazilian 15-Romanian 16-Moldova (Republic of) 17-Mexican

Application mode 1- Giai đoạn 1—đội ngũ chung

2- Sắc lệnh số 612/93 3- Giai đoạn 1—lực lượng đặc biệt (Đảo Azores)

4- Người nắm giữ các khóa học cao hơn khác

5- Sắc lệnh 854-B/99 6- Sinh viên quốc tế (cử nhân) 7- Giai đoạn 1—đội ngũ đặc biệt (Đảo Madeira)

8- Giai đoạn 2—đội ngũ chung 9- Giai đoạn 3—đội ngũ chung 10-Sắc lệnh số 533-A/99, mục b2) (Kế hoạch khác)

11-Sắc lệnh số 533-A/99, mục b3) (Tổ chức khác)

13-Chuyển nhượng 14-Thay đổi trong khóa học 15-Người có bằng tốt nghiệp chuyên môn công nghệ

16-Thay đổi trường/khóa học 17-Người có bằng tốt nghiệp chu kỳ ngắn 18-Thay đổi trường/khóa học (Quốc tế)

Cousre 1- Công nghệ sản xuất nhiên liệu sinh học

2- Thiết kế hoạt hình và đa phương tiện 3- Dịch vụ xã hội (tham dự buổi tối) 4- Nông học

5- Thiết kế truyền thông 6- Điều dưỡng thú y 7- Kỹ thuật tin học 8- Nông nghiệp 9- Quản lý 10- Dịch vụ xã hội 11- Du lịch 12- Điều dưỡng 13- Vệ sinh răng miệng 14- Quản lý tiếp thị và quảng cáo 15- Báo chí và Truyền thông 16- Giáo dục cơ bản 17- Quản lý (tham dự buổi tối)

Previous qualification 1- Giáo dục trung học

2- Giáo dục đại học—bằng cử nhân 3- Đại học—bằng cấp

4- Giáo dục đại học—thạc sĩ 5- Giáo dục đại học—tiến sĩ 6- Tần suất giáo dục đại học 7- Năm học thứ 12—chưa hoàn thành 8- Năm học thứ 11—chưa hoàn thành 9- Khác—Năm học thứ 11

10-Năm học thứ 10 11-Năm học thứ 10—chưa hoàn thành 12-Giáo dục cơ bản chu kỳ 3 (năm thứ 9/10/11) hoặc tương đương

13-Giáo dục cơ bản chu kỳ 2 (năm thứ 6/7/8) hoặc tương đương

14-Khóa học chuyên môn công nghệ 15-Giáo dục đại học—bằng cấp (chu kỳ 1) 16-Khóa học kỹ thuật chuyên nghiệp cao hơn

17-Giáo dục đại học—thạc sĩ (chu kỳ 2)

1- Giáo dục trung học—Năm học lớp 12 hoặc tương đương

2- Giáo dục đại học—bằng cử nhân 3- Giáo dục đại học—bằng cấp 4- Giáo dục đại học—bằng thạc sĩ 5- Giáo dục đại học—tiến sĩ 6- Tần suất giáo dục đại học 7- Năm học lớp 12—chưa hoàn thành 8- Năm học lớp 11—chưa hoàn thành

11-Khóa bổ túc năm 2 trung học phổ thông

13-Khóa thương mại đại cương

14-Giáo dục cơ bản Chu kỳ 3 (Năm thứ 9/10/11) hoặc tương đương

15-Khóa học bổ túc trung học

16-Khóa học kỹ thuật nghiệp vụ

17-Khóa học bổ túc trung học—chưa kết thúc

19-Chu kỳ 2 của khóa học trung học phổ thông

20-Năm học thứ 9—chưa hoàn thành

22-Khóa tổng quát về quản trị và thương mại

23-Kế toán bổ sung và Hành chính

25-Không thể đọc hoặc viết

26-Có thể đọc mà không học năm thứ 4 27-Giáo dục cơ bản chu kỳ 1 (năm thứ 4/5) hoặc tương đương

28-Giáo dục cơ bản Chu kỳ 2 (Năm thứ 6/7/8) hoặc tương đương

29-Khóa học chuyên môn công nghệ

30-Giáo dục đại học—bằng cấp (chu kỳ 1) 31-Khóa học cao học chuyên ngành

32-Khóa học kỹ thuật cao hơn chuyên nghiệp 33-Giáo dục đại học—thạc sĩ (chu kỳ 2) 34-Giáo dục đại học—tiến sĩ (chu kỳ 3)

1- Sinh viên 2- Đại diện của Cơ quan Lập pháp và Cơ quan Hành pháp, Giám đốc, Giám đốc và Giám đốc Điều hành 3- Chuyên gia về hoạt động trí tuệ và khoa học

4- Kỹ thuật viên trình độ trung cấp và nghề nghiệp

5- Nhân viên hành chính 6- Dịch vụ Cá nhân, Nhân viên An ninh và An toàn, và Người bán 7- Nông dân và công nhân lành nghề trong nông nghiệp, ngư nghiệp và lâm nghiệp

8- Công nhân lành nghề trong ngành công nghiệp, xây dựng và thợ thủ công 9- Công nhân lắp đặt và vận hành máy móc và công nhân lắp ráp

10-Công nhân phổ thông 11-Nghề nghiệp trong lực lượng vũ trang 12-Tình huống khác

13-Trống 14-Các sĩ quan lực lượng vũ trang 15-Trung sĩ lực lượng vũ trang 16-Nhân viên lực lượng vũ trang khác 17-Giám đốc các dịch vụ hành chính và

18-Giám đốc khách sạn, ăn uống, thương mại và các dịch vụ khác

19-Chuyên gia về khoa học vật lý, toán học, kỹ thuật và các kỹ thuật liên quan 20-Chuyên gia y tế

22-Chuyên viên tài chính kế toán, tổ chức hành chính, quan hệ công chúng và thương mại

23-Khoa học và kỹ thuật trình độ trung cấp kỹ thuật viên và nghề nghiệp

24-Kỹ thuật viên, chuyên viên y tế trung cấp

25-Kỹ thuật viên trình độ trung cấp từ các dịch vụ pháp lý, xã hội, thể thao, văn hóa và tương tự

26-Kỹ thuật viên công nghệ thông tin và truyền thông

27-Nhân viên văn phòng, thư ký nói chung và nhân viên xử lý dữ liệu

28-Các dịch vụ liên quan đến dữ liệu, kế toán, thống kê, tài chính và đăng ký 29-Nhân viên hỗ trợ hành chính khác 30-Nhân viên dịch vụ cá nhân

32-Nhân viên chăm sóc cá nhân và những người tương tự

33-Nhân viên dịch vụ bảo vệ và an ninh34-Nông dân định hướng thị trường và công nhân sản xuất nông nghiệp và chăn nuôi lành nghề 35-Nông dân, người chăn nuôi gia súc, ngư dân, thợ săn hái lượm, và sinh kế 36-Công nhân xây dựng lành nghề và tương tự, trừ thợ điện

37-Công nhân lành nghề trong ngành luyện kim, gia công kim loại và các ngành tương tự

38-Công nhân lành nghề điện và điện tử 39-Công nhân trong ngành chế biến thực phẩm, chế biến gỗ, quần áo và các ngành công nghiệp và thủ công khác 40-Người vận hành máy móc và nhà máy cố định 41-Công nhân lắp ráp 42-Người điều khiển phương tiện và người vận hành thiết bị di động

43-Lao động phổ thông trong nông nghiệp, chăn nuôi, ngư nghiệp và lâm nghiệp 44-Lao động phổ thông trong ngành khai khoáng, xây dựng, sản xuất và vận tải 45-Hỗ trợ chuẩn bị bữa ăn

46-Người bán hàng rong (trừ đồ ăn) và người cung cấp dịch vụ đường phố

Tuition fees up to date

Tiền xử lý dữ liệu

Đây là bước rất quan trọng trước khi chúng ta tiến hành phân tích một bộ dữ liệu Hầu hết các bộ dữ liệu ban đầu điều có thể chứa những giá trị bị thiếu (missing values) Chúng cần được xử lí và làm sạch trước khi đem đi phân tích.

Tiền xử lí dữ liệu bằng Orange: Đầu tiên ta sẽ tiến hành ETL (Extract, Transform, Load) dữ liệu gồm các bước Nạp dữ liệu Dataset bằng cách mở FILE => Chọn File Dataset.csv.

Hình 2.1: Hình nạp dữ liệu từ file Dataset.csv

- Hình 1 thể hiện màn hình tùy chọn cho bộ dữ liệu cần thực hiện tiền xử lý Bộ dữ liệu hiện tại có 4424 quan sát (instances), không có dữ liệu bị thiếu (no missing values), có biến mục tiêu (Target with 3 values).

- Quan sát dữ liệu bảng bằng cách nối file vào Data Table Wiget Khi double-click vào ta sẽ quan sát được dữ liệu

Hình 2.2: Hình quan sát dữ liệu Dataset.csv trong Data Table

- Từ Data Table, ta có thể thấy không có dữ liệu bị thiếu và có 1 biến target với 3 giá trị

Do đó, nhóm không tiến hành tiền xử lý dữ liệu thông qua Pressproces.

KIỂM ĐỊNH MÔ HÌNH

Thực hiện mô hình dự đoán

Nhóm đã tiến hành phân lớp bộ dữ liệu Dataset.csv với biến mục tiêu là Target theo chuỗi thao tác như sau:

Hình 3.1: Chuỗi thao tác thực hiện phân lớp dữ liệu trên Orange

- Bước 1: Lấy mẫu dữ liệu để tập huấn và dự đoán qua bằng Data Sampler Widget: Qua đó nhóm sẽ lấy tập dữ luyện sẽ lấy tỷ lệ 60% dữ liệu ban đầu dưới tên Training.

Tập dữ liệu dự báo sẽ lấy ra 100 mẫu ngẫu nghiên trong dữ liệu ban đầu với tên Forecast.

Từ đó nhóm có được 2 tập dữ liệu mới như sau:

Hình 3.2: Tập dữ liệu huấn luyện

Hình 3.3: Tập dữ liệu dự đoán

- Bước 2: Sử dụng mô hình phân lớp:

Sau khi kiểm tra tập dữ liệu Training đã đạt tiêu chuẩn, không có dữ liệu bị thiếu, nhóm sử dụng “Test and Score” widget để đưa ra kết quả so sánh đấnh giá dựa trên 4 thuật toán bao gồm: Tree, SVM, Neural Network và Logistic Regression.

Nhóm đã tiến hành chia mẫu thành 5 phần và 10 phần rồi thu được kết quả như sau:

Hình 3.4: Dùng “Test and Score” widget với chia mẫu thành 5 phần

Hình 3.5: Dùng “Test and Score” widget với chia mẫu thành 10 phần Với phương pháp cây quyết định chỉ thực hiện được khi bộ dữ liệu có dưới 16 thuộc tính.

Bộ dữ liệu nhóm lựa chọn để thực hiện đề tài có tổng 35 thuộc tính nên phương pháp cây quyết định không thể thực hiện (error).

 Từ kết quả Test and Score qua 2 lần chia mẫu thành 5 và 10 phần, dễ dàng nhận thấy phương pháp Logistic Regression dẫn đầu với các chỉ số AUC, CA, F1, Precision và Recall luôn lớn nhất trong 4 phương pháp và xếp thứ 2 là Neural Network Vì hai phương pháp có số điểm gần tương đương nhau nên không thể chỉ dựa vào số điểm để đánh giá được mô hình nào tốt nhất Nên nhóm sử dụng hai phương pháp đánh giá mô hình phân lớp khác là Confusion Matrix và ROC Analysis.

Hình 3.6: Kết quả ma trận nhầm lẫn của Logistic Regresion

Hình 3.8: Kết quả ma trận nhầm lẫn SVM

Hình 3.9: Kết quả man trận nhầm lẫn của Neural Network

Hình 3.10: Đường cong ROC của Target là Dropout

Hình 3.11:Đường cong ROC của Target là Enrolled

Hình 3.11: Đường cong ROC của Target là Graduate

ĐÁNH GIÁ VÀ LỰA CHỌN MÔ HÌNH

Các kết quả đạt được

4.1.1 Phương pháp đánh giá phân lớp bằng Confusion Matrix (ma trận nhầm lẫn):

- Phương pháp Hồi quy Logistic:

 Tỷ lệ dự đoán đúng của sinh viên bỏ học so với thực thế là 79.9%, sinh viên ghi danh là 54.3%, sinh viên tốt nghiệp là 79.2% Nhìn chung tỷ lệ này khá tốt.

 Tỷ lệ dự đoán sai sinh viên ghi danh nhưng thực tế bỏ học là 25.2% và thực tế tốt nghiệp là 20.5% Tỷ lệ sai này khá cao, trên 20%.

 Tỷ lệ dự đoán sai sinh viên bỏ học nhưng thực tế ghi danh là 13.8% và thực tế tốt nghiệp là 6.5%.

 Tỷ lệ dự đoán sai sinh viên tốt nghiệp nhưng thực tế ghi danh là 13.0% và thực tế bỏ học là 7.8%.

 Tỷ lệ dự đoán đúng của sinh viên ghi danh thấp, chỉ ở mức 54.3%, đồng thời, sự nhầm lẫn giữa dự đoán và thực tế của sinh viên ghi danh cũng khá cao, từ 10 đến hơn 20%.

 Tỷ lệ dự đoán đúng của sinh viên bỏ học với thực tế là 64.6%, sinh viên ghi danh là 27.9%, sinh viên tốt nghiệp là 70.4% Nhìn chung tỷ lệ này không tốt.

 Tỷ lệ dự đoán sai sinh viên ghi danh nhưng thực tế bỏ học là 54.2%, mức quá cao, dự đoán sai nhiều hơn dự đoán đúng Và tỉ lệ dự đoán sai sinh viên ghi danh thực tế tốt nghiệp là 18.0%, tỷ lệ thấp nhất trong ba phương pháp

 Tỷ lệ dự đoán sai sinh viên bỏ học nhưng thực tế ghi danh là 16.0%, và thực tết tốt nghiệp là 16.4%, cao hơn phương pháp Logistic và Neural Network.

 Tỷ lệ dự đoán sai sinh viên tốt nghiệp nhưng thực tế ghi danh là 17.9%, và thực tế bỏ học là 11.7%, tỷ lệ này cao hơn hai phương pháp còn lại

 Tỷ lệ dự đoán đúng của sinh viên ghi danh rất thấp, chỉ ở mức 27.9%, hầu như không đúng

 Tỷ lệ dự đoán đúng của sinh viên bỏ học với thực tế là 75,0%, sinh viên ghi danh là 45,8%, sinh viên tốt nghiệp là 78,8% Nhìn chung tỷ lệ này là khá tốt.

 Tỷ lệ dự đoán sai sinh viên ghi danh nhưng thực tế bỏ học là 24,0% và thực tế tốt nghiệp là 30,2% Tỷ lệ sai này cao, trên 20%.

 Tỷ lệ dự đoán sai dinh viên bỏ học nhưng thực tế ghi danh là 14.7% và thực tế tốt nghiệp là 10.3%

 Tỷ lệ dự đoán sai sinh viên tốt nghiệp như thực tế ghi danh là 12.7% và thực tế bỏ học là 8.5%.

 Tỷ lệ dự đoán đúng của sinh viên ghi danh thấp, chỉ ở mức 45.8%, đồng thời, sự nhầm lẫn giữa dự đoán và thực tế của sinh viên ghi danh cũng khá cao, từ 10 đến 30%.

Mô hình hiệu quả nhất khi có FPR thấp và TPR cao, hay đường cong ROC càng tiệm cận với điểm (0;1) trong đồ thị thì mô hình càng hiệu quả Nên khi nhìn hình có thể thấy được mô hình Hồi quy Logistic có đường cong ROC tiệm cận điểm (0;1) nhất.

Qua biến Target lần lượt là Dropout, Enrolled, Graduate, nhóm nhận thấy phương pháp Hồi quy Logistic là phương pháp cho chỉ số tốt nhất vì:

 Có AUC hay diện tích nằm dưới đường cong ROC lớn nhất.

 Có CA hay tính chính xác cao nhất

 Có đường cong ROC tiệm cận với điểm (0;1) nhất.

Lựa chọn mô hình

Qua 3 ma trận nhầm lẫn của 3 mô hình phân lớp, thấy được rằng khi sử dụng phương pháp SVM là không hiệu quả và phương pháp Logistic Regression là tốt nhất, tất cả các chỉ số dự đoán đề tốt hơn so với khi sử dụng Neural Network.

Việc dự đoán sai sinh viên ghi danh thành lớp sinh viên khác, hoặc sinh viên khác thành sinh viên ghi danh thường có tỷ lệ cao, điều này có thể do sinh viên ghi danh có điểm đương đồng với hai lớp sinh viên còn lại vì lớp này là lớp trung gian giữa sinh viên bỏ học và sinh viên tốt nghiệp Dẫn tới việc dự đoán đúng sinh viên ghi danh thấp Kết quả dự đoán là sinh viên ghi danh vẫn nên được cân nhắc và xem xét.

Bên cạnh đó, dự đoán đúng sinh viên bỏ học và sinh viên tốt nghiệp là khá tốt, từ 78 đến 80% Thấy rằng dữ liệu thu thập đã có thể thể hiện sự khác biệt của lớp này qua cái thuộc tính Kết quả dự đoán sinh viên thuộc một trong hai lớp này có thể chấp nhận được. Mặc dù có lớp sinh viên ghi danh giữa 2 lớp sinh viên bỏ học và sinh viên tốt nghiệp, tỉ lệ chính xác 54.3% thì việc dự đoán sai giữa hai lớp này vẫn ở mức 5 đến 10% Nghĩa là một sinh viên được dự báo bỏ học thì vẫn có khả năng tốt nghiệp và ngược lại Vậy nên dự báo sinh viên ở lớp bỏ học hay tốt nghiệp chỉ ở mức tham khảo.

Qua cả ba phương pháp đánh giá các mô hình phân lớp, nhóm nhận thấy phương pháp Hồi quy Logistic là phương pháp thích hợp nhất để nhóm thực hiện đề tài.

Dự đoán kết quả

Sau khi đánh giá và lựa chọn mô hình, nhóm tiến hành sử dụng Prediction Widget để dự báo theo phương pháp Hồi quy Logistic

Hình 4.1: Mô hình dự báo 100 mẫu dữ liệu

Hình 4.2: Kết quả của Rediction Widget

Hình 4.3: Kết quả dữ liệu dự báo

TRIỂN KHAI MÔ HÌNH

Mục đích ý nghĩa của việc triển khai mô hình trong lĩnh vực cụ thể

Nhóm đã quyết định sử dụng mô hình phân lớp để thực hiện đề tài này.Qua đề tài nhóm thực hiện, nhóm muốn chú trọng sâu về lĩnh vực giáo dục và kinh tế xã hội Dự đoán bỏ học và thành công trong học tập của sinh viên có liên quan đến các yếu tố xã hội như: tình trạng hôn nhân, nghề nghiệp ba hoặc mẹ,

Mô hình trên mang tính sàn lọc học sinh, sinh viên, cho biết được ai sẽ tốt nghiệp và ai sẽ bỏ học từ đó các trường sẽ có thể đưa ra những phương án bồi dưỡng phù hợp.

Phân tích đánh gía hiệu qủa kinh tế khi triển khai mô hình

Mô hình phân tích, dự toán tỷ lệ bỏ học hoặc tốt nghiệp của nhóm có thể áp dụng vào nhiều mặt của thực tế, đặc biệt là ở trong ngành giáo dục.

Từ mô hình nhóm đã dự đoán có thể thấy số lượng người có nguy cơ bỏ học vẫn còn khá cao Theo đó có thể thấy với những yếu tố ảnh hưởng hiện nay thì những gì nhà trường cung cấp vẫn chưa thể giúp cho số người cảm thấy việc học là có ý nghĩa hoặc là những người điều kiện hiện tại đã không cho phép họ được tiếp tục đi học.

Nhà trường nên có những chính sách tốt hơn trong việc khuyến khích học sinh đi học và tạo điều kiện thoải mái hơn cho những học sinh không có điều kiện được tiếp tục đi học. Song, việc bỏ học không phải là lỗi từ phía nhà trường mà xuất phát từ chính những học sinh cho nên nhà trường chỉ có thể đưa ra những phương án, điều kiện tốt nhất cho học sinh. Nên nhà trường không nhất thiết nghĩ cách để khuyến khích học sinh đi học, mà từ bản dữ liệu đã được dự đoán đó có thể biết được ai sẽ là người tốt nghiệp ai sẽ là người bỏ học mà tập trung bồi dưỡng Việc tỷ lệ người bỏ học hay tốt nghiệp cũng sẽ ảnh hưởng phần nào đến trường và nguồn lực xã hội, nên có thể áp dụng mô hình này vào việc tuyển sinh của trường và sẽ lựa chọn những người có tỷ lệ tốt nghiệp và tỷ lệ bỏ học thấp, bỏ qua những người có tỷ lệ bỏ học cao và nhường cơ hội học tập đó cho người khác tuy họ có thành tích thấp hơn từ đó có thể tối đa hóa nguồn tài nguyên để đào tạo nhân tài cho đất nước và tránh được những lãng phí không cần thiết. Đây là những ví dụ tiêu biểu, rõ ràng và thực tế nhất nhóm đưa ra nếu như áp dụng mô hình dự đoán số người tốt nghiệp hay bỏ học vào trong thực tế, có thể dễ dàng thấy được nhất là mô hình đã sàng lọc ra được nguồn nhân lực chất lượng cho đất nước, giúp cho các trường đại học có thể sàng lọc được chất lượng sinh viên và từ đó tránh gây tình trạng lãng phí nguồn lực kinh tế xã hội.

Mô hình trên của nhóm chỉ là những bước cơ sở, nền tảng để tạo ra được một hệ thống chọn lọc tốt, mô hình trên vẫn có thể tiếp tục phát triển không ngừng khi tiếp tục thêm dữ liệu và những thuộc tính khác để có thể xét 1 cách đa chiều của nhiều khía cạnh giúp cho mô hình có thể đưa ra những dự đoán chính xác hơn giúp người sử dụng đưa ra quyết định chính xác hơn Cuộc sống có nhiều khía cạnh và nhiều mặt khác nhau, ví dụ như một người có tỷ lệ bỏ học cao nhưng họ lại là người có tố chất rất tốt, phong cách làm việc tốt và đạt được nhiều thành quả, bởi vậy việc tiếp tục xét về nhiều mặt như vậy giúp cho nhà trường tối đa hóa nguồn lực cũng như nhân tài cho đất nước.

Ngày đăng: 20/06/2024, 16:46

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Mô hình về quá trình phân lớp dữ liệu. - tiểu luận đề tài dự đoán tỉ lệ sinh viên bỏ học và thành công trong họctập bằng phương pháp phân lớp
Hình 1.1 Mô hình về quá trình phân lớp dữ liệu (Trang 5)
Hình 1.2: Một số phương pháp phân lớp - tiểu luận đề tài dự đoán tỉ lệ sinh viên bỏ học và thành công trong họctập bằng phương pháp phân lớp
Hình 1.2 Một số phương pháp phân lớp (Trang 6)
Hình 1.3: Đồ thị đường hồi quy logistic - tiểu luận đề tài dự đoán tỉ lệ sinh viên bỏ học và thành công trong họctập bằng phương pháp phân lớp
Hình 1.3 Đồ thị đường hồi quy logistic (Trang 6)
Hình 1.5: Ví dụ: xây dựng mô hình cây quyết định - tiểu luận đề tài dự đoán tỉ lệ sinh viên bỏ học và thành công trong họctập bằng phương pháp phân lớp
Hình 1.5 Ví dụ: xây dựng mô hình cây quyết định (Trang 7)
Hình 1.4: Mô hình phân lớp nhị phân sử dụng phương pháp hồi quy - tiểu luận đề tài dự đoán tỉ lệ sinh viên bỏ học và thành công trong họctập bằng phương pháp phân lớp
Hình 1.4 Mô hình phân lớp nhị phân sử dụng phương pháp hồi quy (Trang 7)
Hình 1.6: Đồ thị biểu diễn khoảng cách giữa siêu phẳng - tiểu luận đề tài dự đoán tỉ lệ sinh viên bỏ học và thành công trong họctập bằng phương pháp phân lớp
Hình 1.6 Đồ thị biểu diễn khoảng cách giữa siêu phẳng (Trang 8)
Hình 1.7: Các biến thể của SVM - tiểu luận đề tài dự đoán tỉ lệ sinh viên bỏ học và thành công trong họctập bằng phương pháp phân lớp
Hình 1.7 Các biến thể của SVM (Trang 9)
Hình dự đoán một người bị ung thư và người đó hoàn toàn khỏe mạnh. - tiểu luận đề tài dự đoán tỉ lệ sinh viên bỏ học và thành công trong họctập bằng phương pháp phân lớp
Hình d ự đoán một người bị ung thư và người đó hoàn toàn khỏe mạnh (Trang 10)
Hình 1.10: Đồ thị đường ROC - tiểu luận đề tài dự đoán tỉ lệ sinh viên bỏ học và thành công trong họctập bằng phương pháp phân lớp
Hình 1.10 Đồ thị đường ROC (Trang 11)
Hình 1.11: 5-fold cross validation - tiểu luận đề tài dự đoán tỉ lệ sinh viên bỏ học và thành công trong họctập bằng phương pháp phân lớp
Hình 1.11 5-fold cross validation (Trang 12)
Hình 2.1: Hình nạp dữ liệu từ file Dataset.csv - tiểu luận đề tài dự đoán tỉ lệ sinh viên bỏ học và thành công trong họctập bằng phương pháp phân lớp
Hình 2.1 Hình nạp dữ liệu từ file Dataset.csv (Trang 26)
Hình 3.5: Dùng “Test and Score” widget với chia mẫu thành 10 phần Với phương pháp cây quyết định chỉ thực hiện được khi bộ dữ liệu có dưới 16 thuộc tính. - tiểu luận đề tài dự đoán tỉ lệ sinh viên bỏ học và thành công trong họctập bằng phương pháp phân lớp
Hình 3.5 Dùng “Test and Score” widget với chia mẫu thành 10 phần Với phương pháp cây quyết định chỉ thực hiện được khi bộ dữ liệu có dưới 16 thuộc tính (Trang 32)
Hình 3.6: Kết quả ma trận nhầm lẫn của Logistic Regresion - tiểu luận đề tài dự đoán tỉ lệ sinh viên bỏ học và thành công trong họctập bằng phương pháp phân lớp
Hình 3.6 Kết quả ma trận nhầm lẫn của Logistic Regresion (Trang 33)
Hình 3.8: Kết quả ma trận nhầm lẫn SVM - tiểu luận đề tài dự đoán tỉ lệ sinh viên bỏ học và thành công trong họctập bằng phương pháp phân lớp
Hình 3.8 Kết quả ma trận nhầm lẫn SVM (Trang 33)
Hình 3.10: Đường cong ROC của Target là Dropout - tiểu luận đề tài dự đoán tỉ lệ sinh viên bỏ học và thành công trong họctập bằng phương pháp phân lớp
Hình 3.10 Đường cong ROC của Target là Dropout (Trang 34)
Hình 3.11:Đường cong ROC của Target là Enrolled - tiểu luận đề tài dự đoán tỉ lệ sinh viên bỏ học và thành công trong họctập bằng phương pháp phân lớp
Hình 3.11 Đường cong ROC của Target là Enrolled (Trang 34)
1. Bảng đánh giá - tiểu luận đề tài dự đoán tỉ lệ sinh viên bỏ học và thành công trong họctập bằng phương pháp phân lớp
1. Bảng đánh giá (Trang 42)