ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN HOÀNG HẢI XÂY DỰNG HỆ HỖ TRỢ TƯ VẤN TUYỂN SINH TẠI TRƯỜNG CAO ĐẲNG CỘNG ĐỒNG VĨNH LONG LUẬN VĂN THẠC SỸ KỸ THUẬT Đà Nẵng, Năm 2017 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN HOÀNG HẢI XÂY DỰNG HỆ HỖ TRỢ TƯ VẤN TUYỂN SINH TẠI TRƯỜNG CAO ĐẲNG CỘNG ĐỒNG VĨNH LONG Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SỸ KỸ THUẬT Người hướng dẫn khoa học: TS TRƯƠNG NGỌC CHÂU Đà Nẵng, Năm 2017 i LỜI CAM ĐOAN Tôi xin cam đoan đề tài khoa học “Xây dựng hệ hỗ trợ tư vấn tuyển sinh Trường Cao đẳng Cộng đồng Vĩnh Long” nghiên cứu thân tơi Ngoại trừ tài liệu tham khảo trích dẫn luận văn này, tơi cam đoan toàn phần hay phần nhỏ luận văn chưa công bố hay sử dụng để nhận cấp nơi khác, số liệu kết luận văn trung thực Tơi xin chịu trách nhiệm luận văn Tác giả Nguyễn Hồng Hải ii TĨM TẮT LN VĂN XÂY DỰNG HỆ HỖ TRỢ TƯ VẤN TUYỂN SINH TẠI TRƯỜNG CAO ĐẲNG CỘNG ĐỒNG VĨNH LONG Học viên: Nguyễn Hồng Hải Chun ngành: Khoa học máy tính Mã số: 64.08.01 Trường Đại học Bách khoa Tóm tắt: Ngành giáo dục ln vấn đề sống quốc gia giới Trong năm gần đây, phủ Việt Nam đặc biệt đầu tư cho ngành mũi nhọn thơng qua sách, nguồn vốn dành cho trang thiết bị, sở hạ tầng nghiên cứu khoa học Trong lĩnh vực nghiên cứu khoa học, ngày có nhiều cơng trình khoa học giáo dục Với phát triển không ngừng xã hội việc ứng dụng công nghệ thông tin vào nhiều lĩnh vực cần thiết Trong cơng tác tuyển sinh trường có hệ thống hỗ trợ tư vấn cần thiết Chính đề tài nghiên cứu qui chế tuyển sinh, khai phá liệu với luật kết hợp định để xây dựng hệ thống tư vấn cho thí sinh tốt nghiệp trung học phổ thơng, dự đốn kết học tập thí sinh sau trường, dựa vào kết đầu vào kết đầu sinh viên học Nghiên cứu tiến hành theo bước chính: (1) Tìm hiểu cơng tác liên quan đến cơng tác tuyển sinh trường Cao đẳng; (2) Thu thập tiền xử lý liệu tuyển sinh kết học tập Sinh viên; (3) Tìm hiểu luật kết hợp định khai phá liệu, lựa chọn thuật toán phù hợp với yêu cầu toán đặt liệu thu thập được; (4) Thực nghiệm chương trình máy tính đánh giá kết thực tiễn Ngoài ra, đề tài xây dựng mơ hình hỗ trợ tư vấn kết học tập cho ngành khác nhằm hỗ trợ cho thí sinh lựa chọn ngành phù hợp với lực thân thay cho cách tư thủ công trường BUILDING SUPPORT SYSTEMS TO SUPPORT CONSULTANCY IN VINH LONG COMMUNE COLLEGE Abstract: Education is always playing an important role of any countries all over the world In the recent years, Vietnamese Government has been investing especially for that one via policies and capital intended for equipment, infrastructures and scientific researches In the field of scientific research, there are more and more scientific research works for education Society is always developing and the application of information technology on many fields that is essential On the admission of universities or colleges, an iii consultant supporting system is very important Therefore, my research object is about admission regulations, mining databases with combining rules and decision tree so that structuring consulting system for new graduates from high school, predicting study results for new graduate students, that is based on student’s income and outcome results Research was implemented through four main steps: (1) comprehending any issues related to admission at the college; (2) collecting and pre-processing databases for admission and study results of students; (3) comprehending about combining rules and decision tree in databases mining , selecting appropriate algorithm that best fits the requirements and collected databases; (4) experimenting the computer program and evaluating results on the real application Moreover, research has also structured the model of consultant supporting for student results of different majors which aim to support candidates selecting their suitable major to abilities themselves and can replace for the college’s manual consulting iv MỤC LỤC LỜI CAM ĐOAN i TÓM TẮT LUÂN VĂN .ii MỤC LỤC iv DANH MỤC TỪ VIẾT TẮT vii DANH MỤC CÁC BẢNG viii DANH MỤC CÁC HÌNH ix MỞ ĐẦU 1 Lý chọn đề tài Mục tiêu nội dung nghiên cứu Đối tượng phạm vi nghiên cứu Phuơng pháp nghiên cứu Ý nghĩa khoa học thực tiễn đề tài Bố cục luận văn CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu 1.2 Một số định nghĩa mang tính mơ tả khai phá liệu 1.3 Các bước trình phát tri thức [2] 1.4 Mơ hình khai phá liệu 1.5 Các phương pháp khai phá liệu 1.5.1 Các thành phần giải thuật khai phá liệu 1.5.2 Một số phương pháp khai thác liệu phổ biến 1.5.2.1 Phương pháp quy nạp (Induction) 1.5.2.2 Cây định luật 1.5.2.3 Phát luật kết hợp 1.6 Các giai đoạn trình khai phá liệu [1]: 10 1.6.1 Tìm hiểu nghiệp vụ liệu 10 1.6.2 Chuẩn bị liệu 10 1.6.3 Mô hình hóa liệu 10 1.6.4 Hậu xử lý đánh giá mơ hình 10 1.6.5 Triển khai mô hình 10 1.7 Ứng dụng khai phá liệu 11 1.8 Kết chương 12 v CHƯƠNG CƠ SỞ LÝ THUYẾT VỀ LUẬT KẾT HỢP 13 2.1 Lý thuyết luật luật kết hợp 13 2.1.1 Luật kết hợp 13 2.1.2 Luật thừa 15 2.1.3 Một số tính chất luật kết hợp[10] 16 2.1.4 Phát biểu toán khai phá luật kết hợp[11] 18 2.1.5 Một số dạng luật khai phá luật kết hợp 18 2.1.6 Các đặc trưng luật kết hợp 20 2.1.6.1 Không gian tìm kiếm luật 20 2.1.6.2 Độ hỗ trợ luật 22 2.2 Một số giải thuật khai phá tập mục phổ biến 23 2.2.1 Phân loại giải thuật 23 2.2.2 Kỹ thuật BFS với thuật toán Apriori 23 2.3 Cây định 31 2.3.1 Định nghĩa 31 2.3.2 Giới thiệu định 31 2.3.3 Các kiểu định 32 2.3.4 Cấu trúc định 32 2.3.5 Sử dụng định dự đoán lớp liệu chưa biết 33 2.3.6 Đánh giá định lĩnh vực khai phá liệu: 35 2.3.7 Các thuật toán định: 35 2.3.8 Đánh giá hiệu phân lớp 35 2.4 Thuật toán C4.5 xây dựng định 37 2.4.1 Tổng quan 37 2.4.2 Mã giả thuật toán C4.5 38 2.2.3 Thuật toán C4.5 dùng Gain-entropy 39 2.5 Kết chương 41 CHƯƠNG XÂY DỰNG HỆ HỖ TRỢ TƯ VẤN TUYỂN SINH 42 3.1 Giới thiệu trường CĐCĐ Vĩnh Long 42 3.2 Giới thiệu công cụ khai phá liệu 44 3.3 Mơ hình tốn xậy dựng hệ hỗ trợ tư vấn tuyển sinh 45 3.3.1 Mơ hình 45 3.3.2 Giới thiệu toán 46 3.4 Phân tích thiết kế hệ thống 46 3.4.1 Biểu đồ ca sử dụng 46 vi 3.4.2 Biểu đồ tương tác 47 3.4.3 Biểu đồ lớp 48 3.4.4 Biểu đồ 48 3.4.5 Biểu đồ trạng thái 49 3.5 Xây dựng sở liệu 49 3.6 Mô tả việc tổng hợp liệu cho toán 50 3.7 Chuẩn hóa liệu đầu vào cho thuật tốn 52 3.7.1 Lọc thuộc tính (Filtering Attributes) 53 3.7.2 Rời rạc hóa liệu (Discretization) 54 3.8 Phân tích sở liệu 56 3.8.1 Tìm hiểu chuẩn bị liệu 56 3.8.2 Mô hình hóa liệu 57 3.8.3 Đánh giá mơ hình 57 3.9 Khai phá liệu rút tri thức 59 3.10 Kết chương 63 CHƯƠNG TRIỂN KHAI HỆ THỐNG VÀ ĐÁNH GIÁ KẾT QUẢ 64 4.1 Biểu đồ triển khai hệ thống 64 4.2 Triển khai chương trình 64 4.2.1 Cài đặt chương trình 64 4.2.2 Hướng dẫn sử dụng 64 4.3 Hình ảnh trích từ chương trình demo 65 4.3.1 Giao diện cài đặt chương trình 65 4.3.2 Giao diện trước chọn ngành 66 4.3.3 Giao diện sau chọn ngành 66 4.4 Đánh giá kết 68 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 69 DANH MỤC TÀI LIỆU THAM KHẢO 70 PHỤ LỤC QUYẾT ĐỊNH GIAO ĐỀ TÀI BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC PHẢN BIỆN vii DANH MỤC TỪ VIẾT TẮT Tiếng Việt KPDL Khai phá liệu CSDL Cơ sở liệu SQL Ngơn ngữ truy vấn mang tính cấu trúc (Structured Query Language) Tiếng Anh KDD K-mean TID OLAP Knowledge Discovery Database K-mean clustering Transaction IDentifier Online Analysis Processing MOLAP multidimensional OLAP ROLAP Relational OLAP ADO Active X Data Object BFS Breadth First Search ID3 Decision tree Cart Classification and Regression Trees SLIQ Supervised Learning In Quest Sprint Scalable PaRallelization INduction of decision Trees Weka Waikato Environment for Knowledge Analysis viii DANH MỤC CÁC BẢNG Số hiệu Tên bảng bảng 2.1 2.2 Ví dụ sở liệu dạng giao dịch – D Các tập phổ biến CSDL bảng với độ hỗ trợ tối thiểu 50% Trang 13 14 2.3 Ví dụ thuật toán Apriori 29 2.4 Bảng liệu thời tiết [9] 33 2.5 Ví dụ thời tiết ngày 34 2.6 Kết phân lớp liệu cho bảng 2.5 [9] 34 2.7 Huấn luyện với thuộc tính phân lớp buys computer [14] 40 3.1 Danh sách bảng CSDL 49 3.2 Cấu trúc bảng liệu mẫu 50 3.3 Cấu trúc bảng kết luật suy diễn 50 3.4 Cấu trúc file liệu luận văn 52 3.5 Kết sau rời rạc thuộc tính TongDiemThi 55 3.6 Mức độ quan trọng thuộc tính 56 3.7 Giải thuật thuộc tính sử dụng cho hệ thống 57 3.8 Độ xác mơ hình dự đốn 57 3.9 Confusion matrix kết dự đoán lớp 58 66 4.3.2 Giao diện trước chọn ngành Hình 4.3 Giao diện trước chọn ngành 4.3.3 Giao diện sau chọn ngành Ví dụ chọn khối A1, Khu vực thi một, ngành Kế toán, Tổng điểm thi 12 cho kết hình bên - Hình 4.4 Giao diện chọn ngành tổng điểm nhỏ 13 67 Ví dụ chọn khối A1, Khu vực thi một, ngành Kế toán, Tổng điểm thi 14 cho kết hình bên - Hình 4.5 Giao diện chọn ngành tổng điểm nhỏ 15 Ví dụ chọn khối A1, Khu vực thi một, ngành Kế toán, Tổng điểm thi 19 cho kết hình bên - Hình 4.6 Giao diện chọn ngành tổng điểm nhỏ 21 68 Ví dụ chọn khối A1, Khu vực thi một, ngành Kế toán, Tổng điểm thi 22 cho kết hình bên - Hình 4.7 Giao diện chọn ngành tổng điểm nhỏ 26 4.4 Đánh giá kết Chức hệ thống hoạt động theo yếu cầu đặt là: Tư vấn chọn ngành nghề hệ thống tư vấn theo số điểm thi đầu vào thí sinh, đồng thời chức gợi ý ngành phù hợp với điều kiện thí sinh 69 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Trải qua thời gian nghiên cứu thực luận văn, tác giả hoàn thành luận văn với mục tiêu mà toán đặt ban đầu, luận văn ứng dụng công nghệ thông tin vào lĩnh vực giáo dục Cụ thể luận văn đạt kết sau: - Kết đề tài xây dựng hệ hỗ trợ tư vấn mang tính chất cộng đồng - Giới thiệu phương pháp tổng quát xây dựng định, trình bày cụ thể thuật tốn xây dựng định thuật toán C4.5 - Xây dựng Website hỗ trợ tư vấn chọn ngành phù hợp lực người học - Xây dựng, lưu trữ tập luật CSDL điểm để tư vấn chọn ngành - Tập liệu test huấn luyện kiểm thử có tỉ lệ chênh lệch khơng cao - Luận văn giải vấn đề đặt tốn bên cạnh có số vấn đề chưa thỏa mãn mong đợi tác giả: + Nguồn liệu thu thập chưa nhiều số lượng tuyển sinh trường + Việc rời rạc liệu đạt tỉ lệ độ xác chưa thật cao dẫn đến kết chưa thật tốt có số luật thừa khơng mong muốn nhiên tác giả cắt bỏ số luật thừa phát triển ứng dụng Ngoài đề tài phát triển để hỗ trợ nhanh tương đối xác cho người cần tham khảo để chọn ngành số ngành cần gợi ý thêm Hướng phát triển Khai phá liệu lĩnh vực nhiều người quan tâm nghiên cứu, ứng dụng rộng rãi nhiều lĩnh vực nhiên để mở rộng ứng dụng đưa vào thực tiễn ta cần quan tâm đến số cộng việc sau: - Tìm hiểu phương pháp xây dựng định liệu nhiều phân lớp - CSDL phải thu thập với số lượng nhiều - Xử lý liệu tốt để tăng hiệu suất thực thi chương trình - Cần hợp tác với cán đào tạo chuyên gia quản lý công nghệ thông tin trường - Tìm hiểu kỹ thuật phân rã ma trận thiên vị (biased matrix factorization – BMF) áp dụng vào liệu để xây dựng hệ thống có tỉ lệ xác cao - Cần tiếp tục phát triển hồn thiện ứng dụng để tích hợp với website quản lý hệ thống trường cao đẳng cộng đồng - Tìm hiểu nhu cầu thực tế người học để phát triển cải tiến toán theo thuật toán nghiên cứu để phát triển thành ứng dụng phổ biến đáp ứng nhu cầu cho xã hội 70 DANH MỤC TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Đức Cường, “Slide giảng môn học BI & DM: Bussiness Intellegent and Data Mining”, 2011-2012 [2] Bao Ho Tu (1998), Introduction to Knowledge Discovery and Data mining, Institute of Information Technology National Center for Natural Science and Technology [3] Nguyễn Thị Thanh Thủy, Nguyễn Trần Quốc Vinh, Ứng dụng khai phá liệu xây dựng cơng cụ dự đốn kết học tập sinh viên Hội nghị sinh viên nghiên cứu khoa học lần thứ 8, Đại học Đà Nẵng, 2012 [4] Nguyễn Chí Ngơn Nguyễn Thái Nghe 2010 Hệ chuyên gia hổ trợ sinh viên lập kế hoạch học tập (dựa phương pháp khai phá liệu - data mining) Đề tài NCKH cấp trường Đại học Cần Thơ [5] Nguyễn Thái Nghe 2013a Hệ thống dự báo lực học tập hỗ trợ sinh viên lựa chọn môn học Đề tài NCKH cấp trường Đại học Cần Thơ [6] Nguyễn Thái Nghe, Huỳnh Xuân Hiệp 2012 Ứng dụng kỹ thuật phân rã ma trận đa quan hệ xây dựng hệ trợ giảng thông minh, Kỷ yếu Hội thảo quốc gia lần thứ XV: Một số vấn đề chọn lọc CNTT&TT (@2012) Nhà xuất Khoa học Kỹ thuật ISBN: 893-5048-931578 [7] TS Trương Ngọc Châu, Bài Giảng Khai phá liệu, Đại học Bách Khoa, Đại học Đà Nẵng [8] TS Trương Ngọc Châu, Bài Giảng Cơ sở liệu, Đại học Bách Khoa, Đại học Đà Nẵng Tiếng Anh [9] J Han and Micheline Kamber Data Mining:Concepts and Techniques, 3rd Edition Morgan Kaufmann Publishers, 2011 [10] John Wiley & Sons (2003) - Data Mining-Concepts Models Methods And Algorithms, Copyright © 2003 The Institute of Electrical and Electronics Engineers, Inc [11] Jean – Marc Adamo (2001), Data Mining for Association Rules and Sequential Patterns, Sequential and Parallel Algorithms, Springer – Verlag New York, Inc [12] John Shafer, Rakesh Agrawal, Manish Mehta “Sprint – A Scalable Classifier for Data mining” in Predeeings of the 22nd International Conference on very large database, India 1996 [13] J Ross Quinlan C4.5: Programs for Machine Learning Morgan Kaufmann Publishers, 1993 71 [14] Ming Li “Data mining Chepter 10 : Predictive Modeling”, Department of Computer Science and Technology Nanjing University, 2011 Tài liệu internet [15] http://technet.microsoft.com/en-us/library/bb895174.aspx truy cập ngày 22/6/2017 - [16] http://bis.net.vn/forums/p/369/631.aspx truy cập ngày 11/05/2017 PHỤ LỤC Tập luật sinh từ định STT LUẬT Nếu (TongDiemThi