Tìm hiểu các giải thuật data mining tìm kiếm các ứng dụng trên kết quả học tập của sinh viên khoa công nghệ thông tin

101 23 0
Tìm hiểu các giải thuật data mining tìm kiếm các ứng dụng trên kết quả học tập của sinh viên khoa công nghệ thông tin

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA PHÒNG ĐÀO TẠO SĐH - CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM ĐỘC LẬP - TỰ DO - HẠNH PHÚC -Tp HCM, ngày ……tháng ……năm 2005 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên : BÀNH THU THẢO Giới tính : Nữ Ngày tháng năm sinh : 24/05/1979 Nơi sinh : Tây Ninh Chuyên ngành : Công nghệ thơng tin MSHV : 00703187 I TÊN ĐỀ TÀI: Tìm hiểu giải thuật data mining, tìm kiếm ứng dụng kết học tập sinh viên khoa Công nghệ thông tin II NHIỆM VỤ VÀ NỘI DUNG: - Tìm hiểu sở lý thuyết kỹ thuật máy học khai phá liệu - Tìm hiểu giải thuật máy học khai phá liệu - Tìm hiểu cơng cụ thực kỹ thuật khai phá liệu Weka - Tìm hiểu sở liệu điểm sinh viên khoa Công nghệ thông tin, trường Đại học Bách Khoa Tp.HCM - Xây dựng ứng dụng phù hợp với thực tế III NGÀY GIAO NHIỆM VỤ (Ngày ký Quyết định giao đề tài) : IV NGÀY HOÀN THÀNH NHIỆM VỤ : V HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: Tiến sĩ NGUYỄN ĐỨC CƯỜNG CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN QUẢN LÝ CHUYÊN NGÀNH Nội dung đề cương luận văn thạc sĩ Hội Đồng Chuyên Ngành thông qua TRƯỞNG PHÒNG ĐT - SĐH Ngày…….tháng …….năm …… TRƯỞNG KHOA QL NGÀNH i MỤC LỤC CHƯƠNG GIỚI THIỆU 1.1 Đặt vấn đề 1.2 Mục tiêu đề tài 1.3 Cấu trúc báo cáo CHƯƠNG CƠ SỞ LÝ THUYẾT 2.1 Máy học khai phá liệu 2.1.1 Giới thiệu máy học 2.1.2 Khai phá liệu 2.2 Quá trình khai phá liệu 2.2.1 Tìm hiểu nghiệp vụ (Business Understanding) 2.2.2 Tìm hiểu liệu (Data Understanding) 2.2.3 Chuẩn bị liệu (Data Preparation) 2.2.4 Mơ hình hoá liệu (Data Modeling) 2.2.5 Đánh giá (Evaluation) 2.2.6 Triển khai (Deployment) 10 2.3 Các giải thuật khai phá liệu 10 2.3.1 Luật kết hợp (Association rule) 10 2.3.1.1 Định nghĩa 10 2.3.1.2 Giải thuật Apriori 11 2.3.2 Data clustering 14 2.3.2.1 Hierarchical clustering 15 2.3.2.2 Partitioning clustering 17 2.3.2.3 K-means 17 2.4 Giới thiệu công cụ WEKA 19 2.5 Tổng kết 21 CHƯƠNG 22 MƠ TẢ BÀI TỐN 22 3.1 Đặt vấn đề 22 3.2 Giải vấn đề 22 ii 3.2.1 Mơ tả tốn 22 3.2.2 Phân tích tốn 23 3.2.2.1 Bài toán đánh giá mối quan hệ môn học 24 3.2.2.2 Bài tốn tìm kiếm vấn đề bất thường môn học 25 3.2.3 Xác định độ đo 31 3.2.4 Mô tả liệu 32 3.3 Kết luận 35 CHƯƠNG 36 ĐÁNH GIÁ MỐI QUAN HỆ GIỮA CÁC MÔN HỌC 36 4.1 Giới thiệu toán 36 4.2 Bổ sung thực nghiệm 39 4.2.1 Xét mối quan hệ cặp môn học M1 M2 39 4.2.2 Xét mối quan hệ cặp môn học M3 M4 51 4.2.3 Sử dụng công cụ hỗ trợ để tìm kiếm luật liên kết 58 4.3 Kết luận 61 CHƯƠNG 62 TÌM KIẾM CÁC VẤN ĐỀ BẤT THƯỜNG CỦA CÁC MÔN HỌC 62 5.1 Giới thiệu toán 62 5.2 Phân tích tốn 62 5.3 Bổ sung thực nghiệm 67 5.4 Quy trình hóa q trình tìm kiếm vấn đề bất thường môn học 71 5.4.1 Mô tả liệu 71 5.4.2 Đánh giá kết môn học thuộc Khoa Công nghệ thông tin 71 5.4.2.1 Chuẩn bị liệu đưa vào mơ hình phân nhóm 71 5.4.2.2 Mơ hình hóa liệu 74 5.4.2.3 Đánh giá kết 78 5.4.3 Đánh giá kết tất môn học 78 5.4.3.1 Chuẩn bị liệu 78 5.4.3.2 Mơ hình hóa liệu 81 5.4.3.3 Đánh giá kết 84 5.4.4 Đánh giá kết thu từ việc phân nhóm liệu mơn học 84 5.4.4.1 Phân tích kết 84 iii 5.4.4.2 Tìm kiếm mơn học thuộc nhóm liệu đột biến 86 5.5 Tổng kết 88 CHƯƠNG 89 TỔNG KẾT - HƯỚNG PHÁT TRIỂN 89 6.1 Tổng kết 89 6.2 Hướng phát triển 90 TÀI LIỆU THAM KHẢO 91 PHỤ LỤC 95 iv DANH MỤC HÌNH Hình 2.1 - Q trình khai phá liệu [15] Hình 2.2 - Giải thuật tìm luật liên kết 13 Hình 2.3 - Giải thuật Apriori 13 Hình 2.4 - Giải thuật để tạo tập k phần tử từ tập frequent k-1 itemset 13 Hình 2.5 - Khoảng cách Euclidean hai điểm 16 Hình 2.6 - Dendrogram 16 Hình 2.7 - Giải thuật K-means 18 Hình 2.8 - WEKA Explorer 20 Hình 3.1- Sự tương tác yếu tố ảnh hưởng tới hiệu mơn học 28 Hình 4.1 - Kết đánh môn học M1 M2 HK1 năm học 1999-2000 40 Hình 4.2 - Kết đánh giá tất sinh viên môn học M1 M2 48 Hình 4.3 - Kết đánh giá M3 M4 (chọn M3 học kỳ năm 1998) 54 Hình 4.4 - Kết đánh giá M3 M4 (chọn M3 học kỳ năm 1998) 54 Hình 4.5 - Kết đánh giá M3 M4 qua tất học kỳ 56 Hình 4.6 - Q trình xử lý liệu kết mơn học M3 M4 60 Hình 4.7 - Kết xử lý liệu kết môn học M3 M4 60 Hình 5.1 - Biểu đồ thống kê kết môn C1 – Học kỳ năm 1998 64 Hình 5.2 - Biểu đồ thống kê kết môn C1 qua học kỳ 64 Hình 5.3 - Tập tin liệu nhập cntt.arff 73 Hình 5.4 - Quá trình đưa tập tin liệu nhập cntt.arff vào WEKA 73 Hình 5.5 - Quá trình phân nhóm tập liệu cntt.arff 75 Hình 5.6 - Kết thu từ q trình phân nhóm liệu tập tin cntt.arff 76 Hình 5.7 - Biểu đồ nhóm liệu khoa Công nghệ thông tin 77 Hình 5.8 - Tập tin all_subjects.arff 79 Hình 5.9 - Quá trình đưa tập tin liệu nhập all_subjects.arff vào WEKA 80 Hình 5.10 - Q trình phân nhóm tập liệu all_subjects.arff 82 Hình 5.11 - Biểu đồ nhóm liệu khoa khác 83 Hình 5.12 - Kết mơn học thuộc nhóm 87 Hình 5.13 - Kết mơn học thuộc nhóm 87 v DANH MỤC BẢNG Bảng 3.1 - Độ ảnh hưởng nhân tố ảnh hưởng tới môn học 28 Bảng 3.2 - Phân loại điểm sinh viên dựa thang định danh 34 Bảng 3.3 - Một số bảng liệu sử dụng đề tài 34 Bảng 4.1 - Bảng đánh giá kết mối quan hệ hai môn học 38 Bảng 4.2 - Kết đánh giá môn học M1 M2 HK1 năm học 1999-2000 40 Bảng 4.3 - Kết học tập sinh viên trường hợp A1 qua học kỳ 41 Bảng 4.4 - Kết học tập sinh viên trường hợp C1 qua học kỳ 43 Bảng 4.5 - Kết học tập sinh viên trường hợp A2 45 Bảng 4.6 - Kết học tập sinh viên trường hợp C2 45 Bảng 4.7 - Kết học tập tất sinh viên môn học M1 M2 48 Bảng 4.8 - Tỉ lệ đột biến trường hợp A1 49 Bảng 4.9 - Tỉ lệ đột biến trường hợp A2 49 Bảng 4.10 - Tỉ lệ đột biến trường hợp C2 49 Bảng 4.11 - Kết đánh giá mối quan hệ M3 M4 (chọn M3 học kỳ 1-1998) 52 Bảng 4.12 - Kết đánh giá mối quan hệ M3 M4 (chọn M3 học kỳ 2-1998) 52 Bảng 4.13 - Kết đánh giá mối quan hệ M3 M4 (chọn M3 học kỳ 1-1999) 52 Bảng 4.14 - Kết đánh giá mối quan hệ M3 M4 (chọn M3 học kỳ 2-1999) 53 Bảng 4.15 - Kết đánh giá mối quan hệ M3 M4 qua tất học kỳ 56 Bảng 4.16 - Dữ liệu nhập dùng để đánh giá mối quan hệ M3 M4 59 Bảng 5.1 - Thống kê điểm môn học C1 63 Bảng 5.2 - Kết môn học học kỳ năm học 1998 68 Bảng 5.3 - Kết môn học C1 học kỳ 70 Bảng 5.4 - Thông tin chi tiết nhóm liệu khoa Cơng nghệ thơng tin 77 Bảng 5.5 - Thông tin chi tiết nhóm liệu khoa khác 83 vi CHƯƠNG GIỚI THIỆU 1.1 Đặt vấn đề Chất lượng giáo dục đại học chủ đề dư luận quan tâm Trước hết mở rộng quy mô, nhiều sở giáo dục đại học chưa đủ điều kiện đội ngũ, sở vật chất, thiết bị đảm bảo chất lượng đào tạo Thứ hai, điều kiện bảo đảm chất lượng trình độ người tốt nghiệp đại học nước ta thấp so với chuẩn mực quốc tế Để củng cố niềm tin khẳng định vị trí xã hội, tổ chức giáo dục địi hỏi cần phải có chế quản lý chất lượng giáo dục tốt Trường Đại học Bách khoa Tp.Hồ Chí Minh nhìn chung đánh giá cao chất lượng dạy học Tuy nhiên, nhà trường cần phải liên trì hồn thiện chất lượng giáo dục Để thực tốt điều này, nhà trường cần nhiều nguồn thơng tin q trình tổ chức thực giảng dạy Với mong muốn góp phần cung cấp thêm thơng tin hữu ích cho công việc quản lý chất lượng đào tạo nhà trường, đề tài nghiên cứu kỹ thuật nước ta kỹ thuật khai phá liệu, tìm hiểu ứng dụng kỹ thuật sở liệu điểm sinh viên, cụ thể sinh viên Khoa Công nghệ thông tin, nhằm phát thông tin hữu dụng Hiện giới, cơng trình nghiên cứu ứng dụng khai phá liệu phát triển rộng rãi đạt kết khả quan Các ứng dụng phần lớn áp dụng lĩnh vực thương mại (phân tích liệu tài chính, xây dựng hệ thống hỗ trợ định, định hướng kinh doanh,…), khoa học (phân tích hình ảnh) Riêng giáo dục giới, nghiên cứu ứng dụng có liên quan đến khai phá liệu cịn ít, kết đạt tốt Đầu tiên phải kể đến ứng dụng “Data mining applications in higher education” TS.Jing Luan [22] Mục tiêu ứng dụng thơng qua q trình phân tích biểu diễn liệu tổ chức giáo dục tìm phương pháp để phân phối tài nguyên, nhân lực đạt hiệu cao nhất, đưa giải pháp góp phần cải tiến kết học tập sinh viên Bài báo trình bày dạng ý tưởng khơng đưa phương pháp cụ thể Kế đến ứng dụng LON-CAPA (Behrouz Minaei-Bigdoli, Deborah A.Kashy, Gred Kortemeyer, William F.Punch - Michigan State University) [23] Mục tiêu ứng dụng tìm hiểu thơng tin tình hình sinh viên tham gia học tập qua mạng, họ học nào, sau đưa giải pháp để giúp họ học tập thành công Đối với Việt Nam đề tài tất lĩnh vực kể lĩnh vực giáo dục Mục đích đề tài nghiên cứu kỹ thuật này, tìm hiểu giải thuật sử dụng để thực khai phá liệu Ngồi ra, đề tài cịn có nhiệm vụ quan trọng khác nghiên cứu khả vận dụng khai phá liệu vào lĩnh vực giáo dục, cụ thể tìm kiếm ứng dụng phù hợp với thực tế môi trường đào tạo khoa Công nghệ thông tin, trường Đại học Bách khoa Tp.Hồ Chí Minh 1.2 Mục tiêu đề tài Mục tiêu đề tài nghiên cứu là: - Tìm hiểu sở lý thuyết kỹ thuật máy học khai phá liệu - Tìm hiểu giải thuật máy học khai phá liệu - Tìm hiểu cơng cụ thực kỹ thuật khai phá liệu Weka - Tìm hiểu sở liệu điểm sinh viên khoa Công nghệ thông tin, trường Đại học Bách Khoa Tp.HCM - Xây dựng ứng dụng phù hợp với thực tế 1.3 Cấu trúc báo cáo Nội dung báo cáo bao gồm chương, tổ chức sau: Chương 1: Đặt vấn đề, xác định mục tiêu đề tài Chương 2: Giới thiệu đề tài, trình bày tổng quan kỹ thuật máy học, khai phá liệu công cụ thực Weka Trình bày nội dung giải thuật học Luật liên kết Phân nhóm liệu Chương 3: Mơ tả tốn xem xét đề tài Bài tốn thứ đánh giá mối quan hệ môn học Bài toán thứ hai phát vấn đề bất thường số môn học Chương 4: Bài tốn mối quan hệ mơn học Chương 5: Bài toán vấn đề bất thường số môn học Chương 6: Tổng kết, đánh giá nêu hướng phát triển CHƯƠNG CƠ SỞ LÝ THUYẾT 2.1 Máy học khai phá liệu 2.1.1 Giới thiệu máy học Một mục tiêu quan trọng nghiên cứu lĩnh vực trí tuệ nhân tạo (Artificial Intelligent) tạo thông minh cho máy Nếu máy tính có trí thơng minh, có khả học tri thức để cải thiện hiệu suất Những tri thức học từ máy chí cịn mở mang thêm kiến thức cho người Chính kỹ thuật máy học (Machine learning) chìa khóa quan trọng lĩnh vực trí tuệ nhân tạo Máy học bao gồm kỹ thuật thu thập, học hỏi khái niệm, kinh nghiệm, chiến lược giải vấn đề thông qua mẫu thông tin theo cách thức gần giống người học Thông qua việc tương tác với mơi trường, máy tính thơng minh có khả quan sát, nhận định, sau rút trích tri thức hữu ích Có phương pháp học: - Học có điều khiển (Supervised learning): phương pháp học sử dụng biết trước tri thức đích, việc học tìm phương cách để dẫn đến tri thức đích - Học khơng có điều khiển (Unsupervised learning): q trình phát mẫu (pattern) từ liệu khứ Các mẫu giúp ta hiểu rõ thêm thông tin liệu thông tin hữu ích Phương pháp học thường dùng trường hợp ta cần trả lời cho câu hỏi: Thơng tin có liệu? Có mẫu thơng tin bất thường khơng? Thơng thường phương pháp học khơng có điều khiển cần phải có tương tác với người sử dụng, giải thuật tìm mẫu thơng tin có liệu 5.4.3.2 Mơ hình hóa liệu Ta sử dụng giải thuật SimpleKMeans cơng cụ WEKA để phân tích liệu Hình 5.10 Thơng tin chi tiết nhóm liệu thu trình bày Bảng 5.5 Từ thơng tin chi tiết nhóm, ta xây dựng biểu đồ nhóm liệu trình bày Hình 5.11 81 Hình 5.10 - Quá trình phân nhóm tập liệu all_subjects.arff 82 Bảng 5.5 - Thơng tin chi tiết nhóm liệu khoa khác Nhóm Giỏi 0,07 0,01 0,55 0,15 0,02 Khá 0,18 0,05 0,28 0,44 0,17 Trung bình 0,36 0,25 0,11 0,31 0,64 Kém 0,38 0,69 0,06 0,10 0,17 Số đối tượng 563 288 201 513 268 Tỉ lệ 30% 16% 11% 28% 15% 0,80 0,70 0,60 Nhóm 0,50 0,40 Nhóm Nhóm 0,30 Nhóm 0,20 Nhóm 0,10 0,00 Giỏi Khá TB Kém Loại Hình 5.11 - Biểu đồ nhóm liệu khoa khác 83 5.4.3.3 Đánh giá kết - Các nhóm kết có dạng hình chng: nhóm nhóm , chiếm 43% - Các nhóm cịn lại 0,1 nhóm có dạng biểu đồ đặc trưng, tức mơn học thuộc vào nhóm mơn học có điều khơng bình thường Trong đó: - Nhóm có hình dạng đặc trưng gần giống nhau, tỉ lệ giỏi thấp, thấp tỉ lệ khá, tỉ lệ thấp tỉ lệ trung bình cao kém, tức nhóm có điểm đặc trưng chung điểm (

Ngày đăng: 10/02/2021, 09:27

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan