1. Trang chủ
  2. » Công Nghệ Thông Tin

Ứng dụng khai phá dữ liệu để phân tích dữ liệu tuyển sinh dựa vào xét điểm học bạ tại trường Đại học Phú Yên trong năm học 2018 – 2019

8 59 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Nội dung

Bài viết giới thiệu ứng dụng khai phá dữ liệu để phân tích dữ liệu tuyển sinh dựa vào xét học bạ tại Trường Đại học Phú Yên (ĐHPY). Chúng tôi tiến hành sưu tập dữ liệu tuyển sinh năm học 2018 – 2019 tại Trường ĐHPY, sau đó thực hiện bước xây dựng cơ sở dữ liệu, tiền xử lý dữ liệu, đưa dữ liệu ra cấu trúc bảng.

34 TRƯỜNG ĐẠI HỌC PHÚ YÊN ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ PHÂN TÍCH DỮ LIỆU TUYỂN SINH DỰA VÀO XÉT ĐIỂM HỌC BẠ TẠI TRƯỜNG ĐẠI HỌC PHÚ YÊN TRONG NĂM HỌC 2018 – 2019 Hồ Thị Duyên*, Lê Thị Kim Anh Trường Đại học Phú Yên Tóm tắt Trong báo này, giới thiệu ứng dụng khai phá liệu để phân tích liệu tuyển sinh dựa vào xét học bạ Trường Đại học Phú Yên (ĐHPY) Chúng tiến hành sưu tập liệu tuyển sinh năm học 2018 – 2019 Trường ĐHPY, sau thực bước xây dựng sở liệu, tiền xử lý liệu, đưa liệu cấu trúc bảng Chúng đề xuất sử dụng giải thuật định học từ liệu để rút trích tập luật quan trọng liên quan đến việc tuyển sinh Kết thu sau rút trích cung cấp thơng tin hữu ích cho việc tuyển sinh cao đẳng đại học tổ chức kế hoạch tuyển sinh cho năm học sau Từ khóa: Khai phá liệu, giải thuật định, tuyển sinh Abstract Application of data using to analyze enrollment data based on academic records at Phu Yen University in the academic year of 2018 - 2019 In this article, we introduce data mining application to analyze enrollment data based on academic records at Phu Yen University (ĐHPY) We will collect the enrollment data for the school year of 2018 - 2019 at ĐHPY, and then carry out the step of building the database, data preprocessing and bringing the data to the table structure We propose using Decision Tree algorithm of learning from the database to extract important rule sets relating to the enrollment The result obtained after the extract can provide useful information for collegeuniversity admissions and organize the enrollment plan for University entrance exam year Keyword: Data mining, Decision Tree algorithm, University entrance exam Giới thiệu Năm học 2018 – 2019 năm áp dụng phương pháp xét tuyển cao đẳng đại học xét điểm thi trung học phổ thông xét điểm trung bình lớp 12 Đồng thời, thí sinh đăng ký nhiều nguyện vọng học tập cho nhiều trường, lý làm ảnh hưởng lớn đến việc tuyển sinh trường cao đẳng, đại học tồn quốc Với lý trên, chúng tơi đề xuất phương pháp phát yếu tố ảnh hưởng đến việc định nhập học Trường Đại học Phú Yên (ĐHPY) dựa vào việc ứng dụng công nghệ khai phá liệu (data mining) Các bước thực nghiên cứu bao gồm thu thập liệu tuyển sinh cao đẳng đại học xét điểm học bạ, sau thực xây dựng sở liệu, tiền xử lý liệu, đưa liệu cấu trúc bảng dùng giải thuật định để huấn luyện, rút trích liệu yếu tố ảnh hưởng đến việc nhập học Kết * Email: duyen.th2@gmail.com TẠP CHÍ KHOA HỌC SỐ 20 * 2019 35 thu sau rút trích liên quan đến: học lực, khu vực, năm sinh, ngành học Nghiên cứu ứng dụng khai phá liệu vào quản lý giáo dục đào tạo xem cần thiết cho nhà quản lý giáo dục, giúp công tác quản lý hoạch định chiến lược giáo dục ngày hiệu Gần có cơng trình nghiên cứu ứng dụng khai phá liệu giáo dục Nghiên cứu (Nhượng, 2012) [1] đề xuất sử dụng khai phá liệu kết học tập học sinh trường Cao đẳng nghề Văn Lang Hà Nội Nghiên cứu số kỹ thuật phân cụm khai phá liệu: phân cụm phân chia, phân cụm dựa mật độ phân cụm dựa lưới Kết đạt tiến hành áp dụng giải thuật khai phá liệu để rút trích yếu tố ảnh hưởng đến kết học tập người học trường Cao đẳng nghề Văn Lang Hà Nội Nghiên cứu (Nghị, 2014) [2] đề xuất sử dụng giải thuật rừng ngẫu nhiên học từ liệu để rút trích mơn học quan trọng chương trình đào tạo ngành Công nghệ thông tin Kết thu sau rút trích cung cấp thơng tin hữu ích cho nhà quản lý giáo dục việc tổ chức giảng dạy để nâng cao hiệu đào tạo Nghiên cứu (Vinh, 2014) [3] đề xuất ứng dụng khai phá liệu chọn ngành nghề cho học sinh THPT Đề tài sử dụng thuật toán ID3, cho mơ hình phân lớp tập luật dạng đơn giản dễ hiểu, có độ xác cao thời gian chạy chấp nhận Thuật toán xây dựng website, thuận tiện cho người sử dụng nơi đâu có kết nối Internet Các nghiên cứu tập trung vào việc dự đoán kết học tập, định hướng chọn ngành nghề Nghiên cứu chúng tơi đề xuất khơng theo hướng dự đốn xác kết quả, mà quan tâm đến việc phát yếu tố ảnh hưởng đến kết nhập học dựa giải thuật định Phần viết trình bày sau: Phần trình bày giải thuật định; Phần trình bày kết thực nghiệm; Phần trình bày kết luận hướng phát triển Giải thuật định Cuối năm 70 đầu năm 80, J.Ross Quinlan [4] xây dựng thuật toán sinh định Đây tiếp cận tham lam, xác định định xây dựng từ xuống cách đệ quy theo hướng chia để trị Hầu hết thuật toán sinh định dựa tiếp cận top-down trình bày sau đây, tập huấn luyện nhãn phân lớp chúng Tập huấn luyện chia nhỏ cách đệ quy thành tập q trình xây dựng Generate_decision_tree: Thuật tốn sinh định từ liệu huấn luyện nguồn liệu D Đầu vào: - Nguồn liệu D, có chứa liệu huấn luyện nhãn phân lớp - Attribute_list - danh sách thuộc tính - Attribute_selection_method, thủ tục để xác định tiêu chí phân chia liệu cách tốt thành lớp Tiêu chí bao gồm thuộc tính phân chia TRƯỜNG ĐẠI HỌC PHÚ YÊN 36 splitting_attribute, điểm chia split_point tập phân chia splitting_subset Đầu ra: Một định Nội dung thuật toán: Tạo nút N If D có nhãn lớp C then Trả N thành nút với nhãn lớp C If danh sách thuộc tính attribute_list rỗng then Trả N thành nút với nhãn lớp chiếm đa số D (Việc thực qua gọi hàm Attribute_selection_method(D, attribute_list) để tìm tiêu chí phân chia tốt splitting_criterion gán nhãn cho N tiêu chí đó) If splitting_attribute giá trị rời rạc có nhiều cách chia then Attribute_list = attribute_list – splitting_attribute // Loại bỏ thuộc tính splitting_attribute Foreach j insplitting_criterion // Phân chia xây dựng cho phân chia 10 Đặt Dj tập D phù hợp với tiêu chí j 11 If Dj rỗng then 12 Gắn nhãn cho nút N với nhãn phổ biến D 13 Else Gắn nút trả hàm Generate_decision_tree(Dj, attribute_list) cho nút N 14 Endfor 15 Return N Lựa chọn thuộc tính Việc lựa chọn thuộc tính phân tách tốt mẫu tập liệu D vào lớp phân biệt Nếu chia D thành vùng nhỏ dựa kết tìm tiêu chí phân chia, vùng chủng (Nghĩa tập vùng phân chia hồn toàn thuộc lớp) Điều giúp xác định cách giá trị nút xác định chia Cây tạo cho phân vùng D gán nhãn với tiêu chí phân chia, nhánh hình thành vào kết phân chia Giả sử D phân vùng liệu chứa huấn luyện gán nhãn Các nhãn có m giá trị phân biệt xác định m lớp, Ci (với i = 1, ,m) Gọi C i,D tập lớp Ci D Thông tin cần thiết để phân lớp D cho ( ) ∑ ( ) Trong pi khả D thuộc lớp Ci xác định |Ci,D| /|D| Giờ giả sử phân chia D dựa số thuộc tính A có v giá trị phân biệt {a1, , av} Thuộc tính A dùng để chia D thành v phân vùng tập {D1, D2, …, Dv} Dj chứa D có kết đầu aj Các phân vùng tương đương với nhánh nút N TẠP CHÍ KHOA HỌC SỐ 20 * 2019 37 Thông tin xác định xem việc phân chia gần tiếp cận đến phân lớp cho sau ( ) | | | | ∑ | | | | ( ) trọng lượng phân vùng thứ j InfoA(D) thể thông tin cần thiết để phân lớp D dựa phân lớp theo A Giá trị thông tin nhỏ cho phân vùng túy tương ứng Độ đo thông tin thu được cho ( ) ( ) ( ) Gain(A) cho biết nhánh thu nhận từ A Thuộc tính A với độ đo thơng tin thu lớn dùng làm thuộc tính phân chia nút N Kết thực nghiệm Trong phần thực nghiệm, tiến hành thu thập liệu tuyển sinh năm học 2018 -2019 Trường Đại học Phú Yên theo hình thức xét điểm học bạ Dữ liệu thu thập bao gồm danh sách đăng ký xét học bạ hệ cao đẳng hệ đại học; danh sách sinh viên trúng tuyển nhập học năm học 2018 – 2019 Dữ liệu thu thập có cấu trúc bảng lưu trữ dạng file Microsoft Excel, liệu thu thập vào ngày 25 tháng năm 2018 (nguồn liệu: Phòng Đào Tạo Phịng Cơng Tác Học Sinh Viên – Trường Đại học Phú Yên) Mỗi tập tin “Danh sách đăng ký xét học bạ Đại học Cao đẳng” chứa thơng tin: Mã học sinh, Họ tên, giới tính, ngày sinh, khu vực, đối tượng, điểm trung bình lớp 12, xếp loại học lực, Hình Cấu trúc tập tin Danh sách đăng ký xét học bạ Đại học Cao đẳng Tập tin “Danh sách sinh viên trúng tuyển nhập học năm học 2018 – 2019” chứa thông tin: ngành đào tạo, số báo danh, họ tên, ngày sinh, giới tính, nơi sinh, hộ thường trú, đối tượng, khu vực, tổng điểm, đợt, mã số sinh viên 38 TRƯỜNG ĐẠI HỌC PHÚ YÊN Hình Cấu trúc tập tin Danh sách sinh viên trúng tuyển nhập học năm học 2018 – 2019 3.1 Xây dựng sở liệu Dữ liệu thu thập tổng hợp chuyển liệu từ file Microsoft Excel sang tổ chức lưu trữ liệu hệ quản trị sở liệu Microsoft SQL Server 2008 Chúng xây dựng sở liệu tên QLTuyenSinh dựa vào liệu thu thập Cấu trúc sở liệu QLTuyenSinh gồm bảng: thisinh (lưu danh sách đăng ký xét học bạ Cao đẳng Đại học), nhaphoc (lưu danh sách sinh viên trúng tuyển nhập học năm học 2018-2019) nganh (lưu thông tin ngành đào tạo) Tập tin thisinh chứa thông tin: cao đẳng đại học, Họ, Tên, Giới tính, Ngày sinh, Nơi sinh, Khu vực, Đối tượng, điểm trung bình, học lực, mã ngành Tập tin nhaphoc chứa thông tin: mã ngành, cao đẳng đại học, Họ, Tên, ngày sinh, Giới tính, Ngày sinh, Nơi sinh, Khu vực, Đối tượng, điểm trung bình, học lực, mã sinh viên Tập tin nganh chứa thông tin: mã ngành, tên ngành 3.2 Tiền xử lý liệu Bước tiền xử lý liệu: liệu sau chuyển sang hệ quản trị sở liệu tổng hợp chuyển bảng liệu nhất, cột gồm: mã ngành, mã thí sinh, giới tính, năm sinh, nơi sinh, khu vực, điểm trung bình, học lực, nhập học Để làm điều tiến hành hai bước: Bước 1: cập nhật lại liệu nhập sai thiếu trình nhập liệu từ file Microsoft Excel Bước 2: dựa liệu vừa xây dựng bước 1, tiếp tục tạo bảng ảo (view) chứa thông tin danh sách xét học bạ danh sách nhập học thành bảng Bảng ảo có tên xldltong (xử lý liệu tổng) gồm thông tin: Mã ngành, Giới tính, Năm sinh, Nơi sinh, Khu vực, điểm trung bình, học lực, nhập học Sau trình tiền xử lý liệu, chúng tơi thu bảng liệu có 351 dịng trường TẠP CHÍ KHOA HỌC SỐ 20 * 2019 39 Hình Cấu trúc tập tin sau tiền xử lý liệu Sau thực tiền xử lý liệu, tập tin liệu có cấu trúc bảng, sử dụng để phân tích liệu tuyển sinh dựa vào xét học bạ Trường Đại học Phú Yên năm học 2018 – 2019 3.3 Xây dựng mơ hình định Chương trình chúng tơi dùng phần mềm WEKA 3.8.3 (New Zealand, 1999-2018) [5] Tiến hành xây dựng mơ hình định theo thuật tốn C4.5 chương trình hóa mục phân lớp cơng cụ Weka J48 Kết đánh giá liệu thu từ Weka là: trường hợp phân loại xác 75,2% trường hợp phân loại khơng xác 24,8% hình Kết trình xây dựng mơ hình định hình Hình Kết đánh giá liệu 40 TRƯỜNG ĐẠI HỌC PHÚ N Hình Mơ hình định liệu tuyển sinh Mơ hình nhị phân thấy học lực thí sinh định nhiều đến việc xác nhận thực học trường:  Nếu học lực trung bình khơng học trường  Nếu học lực trung bình xác nhận nhập học trường  Nếu học lực phải xét đến yếu tố khu vực nhóm thí sinh có nhập học không nhập học Học lực Khá thí sinh khu vực khơng nhập học; khu vực phải xét thêm yếu tố năm sinh ngành học; khu vực 2NT phải xét thêm yếu tố giới tính ngành học  Nếu học lực giỏi xét đến yếu tố ngành học Kết thực tế nhập học sinh viên năm trường tính đến ngày 25/09/2018, chúng tơi tiến hành kiểm tra tỷ lệ phần trăm số lượng sinh viên nhập học theo nhóm học lực so với tổng số sinh viên nhập học tập liệu thu thập kết thực tế so với kết từ mơ hình định xây dựng theo giải thuật J48 bảng Học lực Tỷ lệ % sinh viên nhập Tỷ lệ % sinh viên nhập học học thực tế theo mơ hình xây dựng Giỏi 27.01% 38.71% Khá 60.92% 51.61% Trung bình – Khá 3.45% 0% Trung bình 8.62% 9.68% Bảng Thống kê nhập học thực tế sinh viên năm xét điểm học bạ Theo bảng kết tương đối tương đồng kết thực tiễn kết rút TẠP CHÍ KHOA HỌC SỐ 20 * 2019 41 trích từ mơ hình định xây dựng Do vậy, tập luật rút trích vấn đề đáng quan tâm việc tuyển sinh Kết luận hướng phát triển Chúng tơi vừa trình bày cách tiếp cận khai phá liệu để phân tích liệu tuyển sinh dựa vào xét học bạ trường Đại học Phú Yên năm học 2018 – 2019 Các bước thực bao gồm thu thập liệu tuyển sinh trường, xây dựng sở liệu, tiền xử lý liệu xây dựng mơ hình định cho phép rút trích tập luật quan trọng Kết thu sau rút trích tập luật quan trọng, cung cấp thơng tin hữu ích cho việc tuyển sinh năm học 2019 -2020: dự đốn đối tượng học sinh định học trường nhà trường lên kế hoạch tuyển sinh hợp lý Trong tương lai dự định mở rộng nghiên cứu phát triển cho việc đánh giá kết học tập sinh viên Ngoài ra, cần phải tham khảo thêm nhiều ý kiến khác chuyên gia để góp phần nâng cao độ tin cậy việc tìm tập luật quan trọng [1] [2] [3] [4] [5] TÀI LIỆU THAM KHẢO Nguyễn Đăng Nhượng (2012), Khai phá liệu kết học tập học sinh trường Cao đẳng nghề Văn Lang Hà Nội, Thạc sĩ, Trường Đại học Công nghệ Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Minh Trung Trịnh Trung Hưng (2014), “Phát môn học quan trọng ảnh hưởng đến kết học tập sinh viên ngành Cơng Nghệ Thơng Tin”, Tạp chí Khoa học Trường Đại học Cần Thơ, Số 33 (2014), Trang: 49-57 Nguyễn Đặng Thế Vinh (2014), Ứng dụng khai phá liệu chọn ngành nghề cho học sinh THPT, Thạc sĩ, Trường Đại học Quốc tế Hồng Bàng Jiawei Han, Micheline Kamber, Jian Pei (2012), Data Mining: Concepts and Techniques, 3rd Edition, Morgan Kaufmann https://www.cs.waikato.ac.nz/ml/weka/downloading.html (Ngày nhận bài: 09/10/2018; ngày phản biện: 26/11/2018; ngày nhận đăng: 04/01/2019) ... hướng phát triển Chúng vừa trình bày cách tiếp cận khai phá liệu để phân tích liệu tuyển sinh dựa vào xét học bạ trường Đại học Phú Yên năm học 2018 – 2019 Các bước thực bao gồm thu thập liệu tuyển. .. HỌC SỐ 20 * 2019 39 Hình Cấu trúc tập tin sau tiền xử lý liệu Sau thực tiền xử lý liệu, tập tin liệu có cấu trúc bảng, sử dụng để phân tích liệu tuyển sinh dựa vào xét học bạ Trường Đại học Phú. .. làm thuộc tính phân chia nút N Kết thực nghiệm Trong phần thực nghiệm, tiến hành thu thập liệu tuyển sinh năm học 2018 -2019 Trường Đại học Phú Yên theo hình thức xét điểm học bạ Dữ liệu thu thập

Ngày đăng: 06/11/2020, 01:42

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w