1. Trang chủ
  2. » Tất cả

Nghiên cứu và áp dụng kỹ thuật khai phá dữ liệu trên bộ dữ liệu sinh viên đại học phục vụ công tác cố vấn học tập

71 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 71
Dung lượng 3,41 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ    ĐINH CHUNG DŨNG NGHIÊN CỨU VÀ ÁP DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU TRÊN BỘ DỮ LIỆU SINH VIÊN ĐẠI HỌC PHỤC VỤ CÔNG TÁC CỐ VẤN HỌC TẬP LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI, 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐINH CHUNG DŨNG NGHIÊN CỨU VÀ ÁP DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU TRÊN BỘ DỮ LIỆU SINH VIÊN ĐẠI HỌC PHỤC VỤ CÔNG TÁC CỐ VẤN HỌC TẬP Ngành : Công nghệ thông tin Chuyên ngành : Truyền liệu mạng máy tính Mã số : Chuyên ngành đào tạo thí điểm LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HƯỚNG DẪN KHOA HỌC: TS NGUYỄN TRUNG TUẤN HÀ NỘI, 2017 LỜI CẢM ƠN Tác giả luận văn xin chân thành cảm ơn đến người hướng dẫn khoa học TS Nguyễn Trung Tuấn, Viện Công nghệ Thông tin Kinh tế, Trường Đại học Kinh tế Quốc dân Thầy dành nhiều thời gian tâm huyết để hướng dẫn giúp đỡ tác giả hoàn thành luận văn Tác giả xin cảm ơn Thầy, Cô Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội tạo điều kiện thuận lợi, giúp đỡ có đóng góp quý báu thời gian nghiên cứu hoàn thành luận văn tác giả Xin chân thành cảm ơn gia đình, bạn bè đồng nghiệp giúp đỡ, động viên tác giả suốt thời gian nghiên cứu luận văn Hà Nội, Ngày……tháng… năm 2017 Đinh Chung Dũng Lời cam đoan Tôi xin cam đoan cơng trình nghiên cứu tơi hướng dẫn khoa học TS Nguyễn Trung Tuấn Các số liệu kết nghiên cứu, công bố luận văn trung thực chưa cơng bố cơng trình khác Hà Nội, Ngày……tháng… năm 2017 Đinh Chung Dũng MỤC LỤC MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu chương 1.2 Tổng quan phát tri thức khai phá liệu 1.3 Quá trình phát tri thức khai phá liệu 10 1.4 Các phương pháp khai phá liệu 12 1.5 Các vấn đề cần nghiên cứu phát tri thức khai phá liệu 14 1.6 Các lĩnh vực ứng dụng phát tri thức khai phá liệu 16 1.7 Kỹ thuật khai phá luật kết hợp 17 1.7.1 Lý thuyết luật kết hợp 17 1.7.2 Định nghĩa luật kết hợp 18 1.7.3 Một số hướng tiếp cận khai phá luật kết hợp 20 1.8 Cây định 22 1.8.1 Sơ lược định 22 1.8.2 Định nghĩa định 23 1.8.3 Xây dựng định 23 1.8.4 Một số thuật toán xây dựng định 23 1.8.5 Ưu điểm định 29 1.9 Tổng kết chương 30 CHƯƠNG 31 BÀI TOÁN CỐ VẤN HỌC TẬP VÀ ĐẶC TRƯNG BỘ DỮ LIỆU SINH VIÊN ĐẠI HỌC TẠI TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN 31 2.1 Giới thiệu chương 31 2.2 Những vấn đề cố vấn học tập theo hình thức đào tạo tín trường Đại học Kinh tế Quốc dân 31 2.2.1 Tổ chức hệ thống cố vấn học tập 31 2.2.2 Chức cố vấn học tập 32 2.2.3 Nhiệm vụ cố vấn học tập 32 MỤC LỤC 2.2.3.1 Nhiệm vụ chung CVHT chuyên trách kiêm nhiệm 32 2.2.3.2 Nhiệm vụ cụ thể 33 2.3 Bài toán cố vấn học tập trường Đại học kinh tế quốc dân 35 2.3.1 Vấn đề thực tế xung quanh toán 35 2.3.2 Phát biểu toán 36 2.3.3 Mục tiêu ý nghĩa toán 36 2.3.4 Quy trình giải toán 37 2.4 Đặc trưng liệu sinh viên trường Đại học kinh tế quốc dân 38 2.4.1 Hệ thống quản lý đào tạo, quản lý sinh viên 38 2.4.2 Mô tả phần sở liệu quản lý sinh viên dựa thông tin thu thập 40 2.5 Tổng kết chương 41 CHƯƠNG 42 ỨNG DỤNG THỬ NGHIỆM GIẢI BÀI TOÁN CỐ VẤN HỌC TẬP TẠI TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN 42 3.1 Giới thiệu chương 42 3.2 Giới thiệu số công cụ khai phá liệu phát tri thức 42 3.2.1 Weka 42 3.2.2 Ngôn ngữ R 43 3.2.3 SQL Datamining 44 3.2.3.1 Giới thiệu 44 3.2.3.2 Thuật tốn kết hợp cơng cụ (Assocication Algorithm) 45 3.2.3.3 Thuật tốn phân loại cơng cụ (Classification Algorithm) 46 3.3 Quy trình thực khai phá liệu sinh viên phát tri thức với toán cố vấn học tập Trường Đại học Kinh tế Quốc dân 47 3.4 Khai phá liệu luật kết hợp giải toán 48 3.4.1 Từ liệu thô thu thập 48 3.4.2 Tiến hành biến đổi liệu theo toán 49 3.4.3 Thực thử nghiệm công cụ BIDS 49 3.5 Khai phá liệu giải toán 55 MỤCđịnh LỤC 3.5.1 Từ liệu thô thu thập 55 3.5.2 Tiến hành biến đổi liệu theo toán 56 3.5.3 Thực thử nghiệm công cụ BIDS 58 3.6 Một số đề xuất, kiến nghị 60 3.7 Tổng kết chương 60 KẾT LUẬN 61 DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT Từ viết tắt Tiếng Anh Tiếng Việt BI Kinh doanh thơng minh/trí Business Intelligence tuệ doanh nghiệp BIDS Business Intelligence Bộ cơng cụ phân tích Development Studio liệu MicroSoft SQL Server DA/PA Data/Pattern analysis Phân tích liệu/mẫu DBMS Database Management System Hệ quản trị sở liệu KDD Knowledge Discovery and Data Phát tri thức Khai Mining phá liệu KE Knowledge Extraction Trích chọn tri thức ML Machine Learning Học máy SQL Structured Query Language Ngôn ngữ truy vấn cấu trúc DANH MỤC CÁC HÌNH Hình 1.1 Mối quan hệ KDD với lĩnh vực khác [4] Hình 1.2 Mối quan hệ KDD kinh doanh thông minh [4] Hình 1.3 Qui trình bước khai phá liệu 11 Hình 1.4 Phân lớp dựa theo mức chi tiêu thu nhập hộ gia đình 12 Hình 2.1 Quy trình giải tốn 38 Hình 2.2 Hệ thống quản lý đào tạo 39 Hình 2.3 Cơ sở liệu quản lý sinh viên 40 Hình 3.1 Dữ liệu thu thập 48 Hình 3.2 Dữ liệu cho khai phá luật kết hợp 49 Hình 3.3 L1.1: minsupport=0.4 minprobability = 0.4 50 Hình 3.4 L1.2: minsupport=0.4 minprobability = 0.9 51 Hình 3.5 L2.1: minsupp= 0.03, minprobability= 0.54 52 Hình 3.6 L2.2: minsupp= 0.03, minprobability= 0.9 52 Hình 3.7 L3.1: minsupport=0.01, minprobability= 0.4 53 Hình 3.8 L3.2: minsupport=0.01, minprobability= 0.7 54 Hình 3.9 L3.3: thể tập mục phổ biến (Itemsets) 55 Hình 3.10 Bảng điểm chuyên ngành theo kỳ sau biến đổi 56 Hình 3.11 Bảng điểm tổng kết kỳ, tất chuyên ngành (ví dụ kỳ 5) 57 Hình 3.12 Bảng liệu đưa vào khai phá 58 Hình 3.13 Cây định phân lớp kỳ 58 Hình 3.14 Cây định phân lớp kỳ 59 Hình 3.15 Cây định phân lớp kỳ 59 MỞ ĐẦU Lý lựa chọn đề tài Khai phá liệu phát tri thức lĩnh vực nhà khoa học quan tâm nghiên cứu nhiều năm gần Ứng dụng khai phá liệu thực nhiều lĩnh vực khác giáo dục, y tế, tài chính, ngân hàng, kinh doanh… Đặc biệt, thời gian gần đây, khai phá liệu phát tri thức lĩnh vực giáo dục quan tâm nghiên cứu Đối với bậc giáo dục Đại học nay, sinh viên học tập trường Đại học theo hình thức đào tạo tín Đối với hình thức đào tạo yêu cầu sinh viên phải có chủ động cao, có nhiều lựa chọn mềm dẻo môn học chuyên ngành đào tạo Sinh viên phải tự phân bổ mơn học cho kỳ cho đủ số tín theo quy chế đào tạo, sinh viên học nhanh để trường sớm hạn với số điểm cao Trên thực tế có nhiều trường hợp thời gian học hết em chưa hồn thành đủ tín chỉ, cịn nợ mơn chuyên ngành Các sinh viên chưa quen gặp nhiều khó khăn định hướng học tập, làm ảnh hưởng đến trình học tập ảnh hưởng đến kết đào tạo nhà trường Chính cơng tác cố vấn học tập cho sinh viên đặt công việc quan trọng hình thức đào tạo theo tín Đây toán đặt cho lĩnh vực khai phá liệu có số liệu lớn sinh viên trình học tập sinh viên nhà trường nhằm trợ giúp cho cố vấn học tập đạt hiệu cao Hiện công tác Trường Đại học Kinh tế quốc dân, trước thực trạng tồn nơi làm việc với lĩnh vực theo học, đồng ý TS Nguyễn Trung Tuấn chọn đề tài luận văn: “Nghiên cứu áp dụng kỹ thuật khai phá liệu liệu sinh viên đại học phục vụ công tác cố vấn học tập”, luận văn góp phần vào việc giải vấn đề cấp bách cần thiết thực tế Mục tiêu nghiên cứu luận văn Mục tiêu nghiên cứu luận văn để hiểu kỹ thuật khai phá liệu phát tri thức bản, tập trung chủ yếu vào hai kỹ thuật kỹ thuật khai phá luật kết hợp định Đây kỹ thuật có nhiều nhà khoa học nghiên cứu có nhiều đóng góp vào thực tiễn Hiểu quy chế, quy định, thông tư hướng dẫn triển khai thực đào tạo đại học quy theo hệ thống tín chỉ, văn liên quan đến quy định cố vấn học tập, chương trình đào tạo quy theo học chế tín thuộc chuyên ngành Trường Đại học Kinh 50 Kết khai phá liệu giải toán sử dụng kỹ thuật khai phá luật kết hợp lần sau: Lần 1: Với tất liệu đăng ký môn học phần (cả tự chọn bắt buộc) khóa học với tất chuyên ngành đưa view vào hệ quản trị sở liệu SQL - Thực khai phá, chọn thuộc tính đầu vào (input) thuộc tính dự đốn (predict) thuộc tính tên mơn học phần hai bảng lồng (DanhSachSV chọn case, SV_DangKy_MonHoc chọn nested) - Tiến hành chạy với minsupport=0.4 minprobability = 0.4, thu kết gồm 1284 luật kết hợp với tất môn học 45 chuyên ngành năm học Hình 3.3 L1.1: minsupport=0.4 minprobability = 0.4 - Sau điều chỉnh tăng minprobability = 0.9, minsupport=0.4 thu 421 luật 51 Hình 3.4 L1.2: minsupport=0.4 minprobability = 0.9 Nhận xét: Công cụ cho luật mong muốn, luật khơng có thơng tin chun ngành (vì liệu gồm tất môn tất chuyên ngành), nên muốn tư vấn cho chuyên ngành lại phải tìm xem mơn thuộc chun ngành việc tư vấn cho chuyên nghành khó khăn Có nhiều luật luật lại kết hợp học phần tự chọn học phần bắt buột nên lần chạy không khả thi, tiến hành thử nghiệm lần Lần 2: Vẫn liệu lần có thay đổi sau: - Loại bỏ học phần bắt buộc khỏi liệu (còn lại học phần tự chọn) - Đưa thêm mã chuyên ngành vào sau môn học phần tự chọn (ví dụ; xã hộ học(KDQT), quản lý cơng nghệ(QTDN) ) Kết quả: Chạy với minsupp= 0.03, minprobability= 0.54, thu 663 luật 52 Hình 3.5 L2.1: minsupp= 0.03, minprobability= 0.54 - Sau thay đổi: minsupp= 0.03, minprobability= 0.9, thu 413 luật Hình 3.6 L2.2: minsupp= 0.03, minprobability= 0.9 53 Nhận xét: Tất luật thu lần chạy mong muốn, tăng minprobability= 0.9, thu 413 luật cho nhiều chuyên ngành với xác suất cao , không đủ cho tất chuyên ngành, muốn tư vấn theo chuyên ngành phải dùng cơng cụ lọc (Filter Rule) theo mã chun ngành, khơng có ý nghĩa với tốn, Lần chạy không khả thi, tiến hành thử nghiệm lần Lần 3: Vẫn liệu loại bỏ học phần bắt buộc lần chạy thứ hai có vài thay đổi sau: - Dữ liệu lúc tách chuyên ngành view thể sinh viên, môn học chun ngành q trình đăng ký học phần tự chọn Tiến hành chạy thử với chuyên ngành Quản trị kinh doanh tổng hợp - Kết quả: chạy với minsupport=0.01, minprobability= 0.4, thu 31 Hình 3.7 L3.1: minsupport=0.01, minprobability= 0.4 - Sau tăng minprobability= 0.7, giữ nguyên minsupport=0.01, thu luật với xác suất xảy 100% 54 Hình 3.8 L3.2: minsupport=0.01, minprobability= 0.7 Nhận xét: Dễ dành nhận thấy kết luật thu lần phù hợp với ý nghĩa toán phát biểu nhất, có giá trị để tư vấn cho sinh viên đăng ký học phần tự chọn chuyên ngành quản trị kinh doanh tổng hợp Có ý nghĩa phù hợp với yêu cầu toán 1, làm sở thông tin cho cố vấn học tập tư vấn đăng ký mơn học cho sinh viên Ví dụ Luật : An sinh xã hội, Quản trị kinh doanh công nghiệp  Quản trị kinh doanh văn phòng (xảy với xác suất 100%) - Phát biểu luật tư vấn: Sinh viên đăng ký môn An sinh xã hội tổ hợp kiến thức lựa chọn ngành, đăng ký môn Quản trị kinh doanh công nghiệp tổ hợp kiến thức lựa chọn ngành, thường đăng ký môn Quản trị kinh doanh văn phòng tổ hợp kiến thức lựa chọn ngành với xác suất 100% - Do với lần thử nghiệm chạy với liệu lần thử nghiệm thứ riêng cho chuyên ngành ngành khác Luận văn chọn ngành, chuyên ngành có số lượng sinh viên lớn để chạy thử nghiệm, kết thu hữu ích cho cán cố vấn tư vấn đăng ký môn học cho sinh viên Phần kết cho chuyên ngành khác phát biểu luật tư vấn trình bày phần phụ lục 55 Ngoài Trong Tab Itemsets: Itemsets tập mục phổ biến, cho biết thông tin quan trọng luật kết hợp Support (độ hỗ trợ luật kết hợp), Size (Số items Itemsets) - Thể Tab Itemsets: tập mục phổ biến có Support 114 gồm mơn học (items) Kỹ quản trị, Giao tiếp kinh doanh thuyết trình, Xã hội học, có ý nghĩa tất lượt đăng ký mơn học xuất 114 (nhiều tập items) lần sinh viên đăng ký học phần tự chọn với hay nói cách khác tập mơn học phần tự chọn hay sinh viên đăng ký Hình 3.9 L3.3: thể tập mục phổ biến (Itemsets) Kết luận thực hiện: Thử nghiệm tiến hành nhiều lần với nhiều chuyên ngành khác kết thu có ý nghĩa với tốn giúp cán cố vấn học tập có thêm sở tư vấn lựa chọn môn học cho sinh viên, tập luật kết hợp giúp sinh viên nên đăng ký môn môn kia, tập môn phổ biến mơn học hay đăng ký 3.5 Khai phá liệu định giải toán 3.5.1 Từ liệu thơ thu thập Dựa vào u cầu tốn để phân loại dự báo sinh viên có trường hạn hay không dựa vào quy chế đào tạo số lượng tín chỉ, xếp loại học lực kỳ, mơ hình định xây dựng để giải tốn sử dụng thơng tin 56 đầu vào liên quan đến thuộc tính số tín chỉ, xếp loại học lực từ điểm trung bình chung cuối kỳ Hình 3.10 Bảng điểm chuyên ngành theo kỳ sau biến đổi 3.5.2 Tiến hành biến đổi liệu theo toán Dữ liệu biến đổi sang dạng bảng điểm lớp chuyên ngành theo kỳ (các môn học quay lên cột (ký hiệu số), sinh viên với điểm ghi), mục đích để có điểm học phần học kỳ đó, từ tính cột thơng tin tín học lực cho kỳ, thông tin ảnh hưởng đến khả trường sinh viên - Từ bảng điểm cho lớp chuyên ngành theo kỳ hình trên, tiến hành loại bỏ thuộc tính mơn học phần, giữ lại thuộc tính cuối là; Tín tích lũy kỳ đó, tín tích lũy từ kỳ đầu kỳ đó, điểm chung bình chung kỳ đó, điểm chung bình chung tích lũy từ kỳ đầu đến kỳ đó, bảng liệu sau: - Làm tương tự với kỳ lại với chuyên ngành khác, cuối gộp tất chuyên ngành theo kỳ, liệu tổng kết tương ứng với kỳ thu sau: 57 Hình 3.11 Bảng điểm tổng kết kỳ, tất chuyên ngành (ví dụ kỳ 5) - Theo toán phân lớp dự đoán sinh viên có trường hạn hay khơng, thực tế năm thứ trở sinh viên thường hay làm thêm có nhiều nguyên nhân dẫn đến lười học Cán cố vấn thường xuyên phải theo dõi kỳ cuối Do mơ hình khai phá đề xuất cho kỳ cuối kỳ 5, kỳ 6, kỳ xây dựng dựa định Dự báo kịp thời vào kỳ cuối có ý nghĩa với toán phát biểu - Bảng điểm kỳ 5, 6, (dạng số) sau thu biết đổi dạng rời rạc (các giá trị rời rạc), thuộc tính đầu vào (input) thay giá trị rời rạc sau: + TCKy5, TCKy6, TCKy7 mà lớn 15 tín giá trị “đủ”, nhỏ 15 tín giá trị “khơng đủ” + TCTichLuyK5 mà lớn 75 tín nhận giá trị “đủ”, nhỏ 75 tín nhận giá trị “khơng đủ” + TCTichLuyK6 mà lớn 90 tín nhận giá trị “đủ”, nhỏ 90 tín nhận giá trị “không đủ” + TCTichLuyK7 mà lớn 105 tín nhận giá trị “đủ”, nhỏ 112 tín “khơng đủ” + HlucKy5,6,7 HLucDenKy5,6,7: nằm khoảng sau: 3.6< xuất sắc< | 3.2< Giỏi< 3.6 | 2.5< Khá< 3,5 | < tb

Ngày đăng: 31/03/2023, 08:35

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w