1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai phá dữ liệu

28 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 28
Dung lượng 1,97 MB

Nội dung

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH LỚP CAO HỌC MIS 2009 Bài tập mơn học: GV giảng dạy : GS TS Dương Nguyên Vũ Người thực : Phạm Thị Thanh Tâm – 09320849 Tp HCM, Tháng 06/2010 Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM MỤC LỤC MỤC LỤC i DANH MỤC CÁC HÌNH ẢNH iii DANH MỤC CÁC BẢNG BIỂU iii BÀI TẬP 1: CÁC ĐỊNH NGHĨA .1 KHAI PHÁ DỮ LIỆU .1 1.1 Khai phá liệu gì? .1 1.2 Các bước trình khai phá liệu 1.3 Nhiệm vụ khai phá liệu .2 1.4 Các phương pháp khai phá liệu 1.4.1 Các thành phần giải thuật khai phá liệu 1.4.2 Một số phương pháp khai phá liệu phổ biến .3 1.5 Những thách thức nghiên cứu ứng dụng kỹ thuật khai phá liệu .3 1.5.1 Những vấn đề Cơ sở liệu .3 1.5.2 Một số vấn đề khác HỆ THỐNG GIÁO DỤC ẢO BÀI TẬP 2: TỔNG QUAN TÀI LIỆU TÍNH ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG HỆ THỐNG GIÁO DỤC ẢO (APPLY DATA MINING IN VIRTUAL LEARNING ENVIROMENT) 2.1 Những vấn đề liên quan đến sinh viên .6 2.2 Những vấn đề liên quan đến giảng viên 2.3 Những vấn đề liên quan đến chương trình học 10 2.4 Những vấn đề liên quan đến việc dạy học 10 Bài tập môn học: Phương pháp nghiên cứu khoa học Trang i Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM 2.5 Những vấn đề khác xoay quanh hệ thống thống giáo dục ảo 11 BÀI TẬP 3: ĐỂ CƯƠNG CHI TIẾT .17 Ý nghĩa đề tài 17 Mục tiêu đề tài 17 Mục đích nghiên cứu .17 Phương pháp nghiên cứu 18 Nội dung đề tài .20 Kết đạt 20 Kế hoạch thực 20 Tài liệu tham khảo 21 Bài tập môn học: Phương pháp nghiên cứu khoa học Trang ii Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM DANH MỤC CÁC HÌNH ẢNH Hình – Q trình phát tri thức Hình – Các bước trình khai phá liệu .2 Hình – Tổng quan tài liệu ứng dụng khai phá liệu hệ thống giáo dục ảo Hình – Những vấn đề liên quan đến sinh viên hệ thống giáo dục ảo Hình – Những vấn đề liên quan đến giảng viên hệ thống giáo dục ảo Hình – Những vấn đề liên quan đến chương trình học hệ thống giáo dục ảo 10 Hình – Những vấn đề liên quan đến việc dạy học hệ thống giáo dục ảo 10 Hình – Những vấn đề khác xoay quan hệ thống giáo dục ảo 12 Hình – Sơ đồ mạng nơron đơn giản 18 Hình 10 – Đơn vị xử lý (Procesing unit) 19 Hình 11 – Sơ đồ trình khai phá liệu mạng nơron 19 DANH MỤC CÁC BẢNG BIỂU Bảng - Bảng tóm tắt báo tham khảo 13 Bài tập môn học: Phương pháp nghiên cứu khoa học Trang iii Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM BÀI TẬP 1: CÁC ĐỊNH NGHĨA Từ khóa: Data mining, Virtual Learning Enviroment, Virtual Learning System KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu gì? Khai phá liệu (Data Mining – DM) trình khám phá tri thức tri thức có ích dạng tiềm nguồn liệu lớn có (các kho liệu) Khai phá liệu bước đặc biệt tồn q trình phát tri thức có ích từ tập liệu lớn, sử dụng giải thuật đặc biệt để chiết suất mẫu (pattern) (hay mô hình) từ liệu Xác định tốn Thu thập Tiền xử lý liệu KHAI PHÁ DỮ LIỆU Chiết xuất tri thức Phát biểu kết đánh giá Sử dụng tri thức phát Hình – Quá trình phát tri thức 1.2 Các bước trình khai phá liệu Thống kê, tóm tắt Xác định nhiêm vụ Xác định liệu liên quan Thu thập Xác định liệu tiền xử lýliêndữquan liệu Giải thuật khai phá liệu Dữ liệu trực tiếp Bài tập môn học: Phương pháp nghiên cứu khoa học Mẫu Trang Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM Hình – Các bước trình khai phá liệu 1.3 Nhiệm vụ khai phá liệu Mục đích khai phá liệu tri thức chiết suất sử dụng cho lợi ích cạnh tranh thương trường lợi ích nghiên cứu khoa học Do đó, ta coi mục đích khai thác liệu mơ tả (description) dự đoán (prediction) Các mẫu khai phá liệu phát nhằm vào hai mục đích Để đạt hai mục đích này, nhiệm vụ khai phá liệu bao gồm:  Phân lớp (Classification)  Hồi quy (Regression)  Phân nhóm (Clustering)  Tóm rắt (summarization)  Mơ hình hóa phụ thuộc (Dependency Modeling)  Phát thay đổi độ lệch (Change and Deviation Detection) 1.4 Các phương pháp khai phá liệu 1.4.1 Các thành phần giải thuật khai phá liệu  Biểu diễn mơ hình  Đánh giá mơ hình  Phương pháp tìm kiếm 1.4.2 Một số phương pháp khai phá liệu phổ biến  Phương pháp quy nạp (Induction) o Phương pháp suy diễn o Phương pháp quy nạp  Cây định luật (Decision Tree and Rule)  Phát luật kết hợp (Assosciation Rule) Bài tập môn học: Phương pháp nghiên cứu khoa học Trang Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM  Các phương pháp phân lớp hồi quy phi tuyến  Phân nhóm phân đoạn (Clustering and Degmentation)  Các phương pháp dựa mẫu  Mơ hình phụ thuộc dựa đồ thị xác xuất  Mơ hình học quan hệ  Khai phá liệu dạng văn (Text Mining)  Mạng nơron (Neuron Network)  Giải thuật di truyền (Genetic Algorithm) 1.5 Những thách thức nghiên cứu ứng dụng kỹ thuật khai phá liệu 1.5.1 Những vấn đề Cơ sở liệu  Dữ liệu lớn  Kích thước lớn  Dữ liệu đóng  Các trường liệu không phù hợp  Các giá trị bị thiếu  Các trường bị thiếu  Độ nhiễu không chắn  Mối quan hệ phức tạp trường liệu 1.5.2 Một số vấn đề khác  “Quá phù hợp” (Overfitting)  Đánh giá tầm quan trọng thống kê  Khả biểu đạt mẫu  Sự tương tác với người sử dụng tri thức sẵn có Bài tập mơn học: Phương pháp nghiên cứu khoa học Trang Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM HỆ THỐNG GIÁO DỤC ẢO Hệ thống giáo dục ảo (Virtual Learning Enviroment – VLE) hệ thống thiết kế cho việc dạy học môi trường giáo dục mà người dạy (giáo viên/giảng viên) người học (học sinh/sinh viên) phân cách không gian hay thời gian, hai Giáo viên cung cấp nội dung khóa học thơng qua ứng dụng quản lý khóa học, nguồn tài nguyên đa phương tiện, Internet, hội nghị truyền hình Sinh viên nhận học giao tiếp với giáo viên thông qua công nghệ tương tự Bài tập môn học: Phương pháp nghiên cứu khoa học Trang Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM BÀI TẬP 2: TỔNG QUAN TÀI LIỆU TÍNH ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU Khai phá liệu (Data Mining – DM) công nghệ ứng dụng nhiều ngành khác nhau, kết hợp trí tuệ nhân tạo (Artificial Intelligence), máy học (Machine Learning), quản trị sở liệu (Database Management), trực quan hóa liệu (Data Visualization), thuật giải tốn học (Mathematich Algorithms) thống kê (Statistics) DM công nghệ cho trình khám phá tri thức sở liệu khổng lồ, cung cấp phương pháp luận khác cho trình định, giải vấn đề, phân tích, lập kế hoạch, chẩn đốn, dị tìm đổi Một số ứng dụng khai phá liệu:  Ứng dụng “cơ sở liệu thị trường” (database marketing): phân tích CSDL khác hàng, tìm kiếm mẫu số khách hàng sử dụng mẫu để lựa chọn khách hàng tương lại  Ứng dụng kinh doanh phân tích chứng khốn văn kiện tài chính, phân tích báo cáo thay đổi liệu  Phát phòng chống gian lận  Ứng dụng thiên văn học  Ứng dụng phân tử sinh học  Mơ hình hóa thay đổi thời tiết  v.v… ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG HỆ THỐNG GIÁO DỤC ẢO (APPLY DATA MINING IN VIRTUAL LEARNING ENVIROMENT) Trong phạm vi đề tài này, nghiên cứu ứng dụng DM hệ thống giáo dục ảo Có nhiều báo nhiều tác giả nghiên cứu đề tài Và sau xin tổng quan lại báo tiêu biểu mà tơi tìm hiểu (Hình 3) Bài tập mơn học: Phương pháp nghiên cứu khoa học Trang Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM 2.1 Những vấn đề liên quan đến sinh viên [2] Lajos Izsó & Péter Tóth: Applying Web-Mining Methods for Analysis of Student Behaviour in VLE Courses, 2008: sử dụng phương pháp dựa log file tạo server khóa học tương tác người dạy người học để phân tích hành vi sinh viên khóa học mạng Kết là… Với kết này, tác giả đưa hướng phát triển phải kết hợp với media trình giảng dạy để mang lại hiệu [4] Jiye Ai & James Laffey: Web Mining as a Tool for Understanding Online Learning, 2007: nghiên cứu vấn đề dự đoán hành động sinh viên qua viết phương pháp thử nghiệm với phân cấp mẫu [13] Behrouz Minaei-Bidgoli, Deborah A Kashy, Gerd Kortemeyer & William F Punch: Predicting student performance: An application of Data Mining methods with the educational Web-based system LON-CAPA, 2003: nghiên cứu vấn đề phân loại sinh viên để dự đoán kết học tập sinh viên phương pháp đưa series phân loại mẫu so sánh hành động chúng tập liệu khóa học online Bài tập mơn học: Phương pháp nghiên cứu khoa học Trang Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM 2.3 Những vấn đề liên quan đến chương trình học [5] Shana R Ponelis: Finding Diamonds in Data Reflections on Teaching Data Mining from the Coal Face (2009): nghiên cứu vấn đề phát triển chương trình giảng dạy cho khóa học dựa chương trình với mơ hình có sẵn từ ACM SIGKDD [9] Changjie Tang, Huabei Yin, Tong Li, Rynson W.H Lau, Qing Li & Danny Kill: Personlized Courseware Construction Based on Web Data Mining (không xác định năm): xây dựng chương học cho cá nhân cách tạo Web tutor tree cá nhân giải thuật Native Algorithms Level_generate Algorithms kết hợp với khai thác liệu hai: theo ngữ cảnh theo cấu trúc chương trình học Hình – Những vấn đề liên quan đến chương trình học hệ thống giáo dục ảo 2.4 Những vấn đề liên quan đến vic dy v hc [14] P W Haămaălaăinen, T H Laine, E Sutinen: Data Mining in Personalizing Distance Education Courses (không xác định năm): nghiên cứu xây dựng hệ thống để theo dõi, can thiệp đưa lời khuyên trình học tập & giảng dạy phương pháp hồi quy tuyến tính mơ hình xác xuất Hình – Những vấn đề liên quan đến việc dạy học hệ thống giáo dục ảo Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 10 Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM 2.5 Những vấn đề khác xoay quanh hệ thống thống giáo dục ảo [3] Youtian QU, Lili ZHONG, Huilai ZOU, Chaonan WANG: Research about the Application of Web Mining in Distance Education Platform (2009): nghiên cứu vấn đề sử dụng Web-mining để cải tiến giáo dục từ xa nhằm giải việc sử dụng không tương xứng nguồn lực giảng dạy thiếu hụt nhân tảng giáo dục từ xa [7] C Romero, S Ventura: Educational data mining A survey from 1995 to 2005 (2007): khảo sát ứng dụng Data mining hệ thống giáo dục từ năm 1995 – 20005 [12] Margo Hana: Data Mining in the E-Learning domain (2004): nghiên cứu lợi ích việc tích hợp Data Mining cơng nghệ E-Learning Hướng phát triển nghiên cứu sử dụng statistical package thay cho công cụ data mining sở liệu để đưa kết xác theo thời gian thực [10] Félix Castro, Alfredo Vellido, Àngela Nebot, Francisco Mugica: Applying Data Mining Techniques to E-Learning Problems (không xác định năm): sử dụng phương pháp mơ hình hóa kỹ thuật: mạng nơron, thuật giải di truyền, gom nhóm, trực quan hóa, logic mờ, … để phân loại vấn đề E-Learning như: phân loại sinh viên dựa việc học tập, tìm hành vi gian lận học tập, định hướng hệ thống EL tối ưu hóa q trình tương tác, phân nhóm hệ thống EL theo cách sử dụng giống nhau, làm cho hệ thống có khả thích ứng với yêu cầu khả sv [11] Cristóbal Romero, Sebastián Ventura, Enrique García: Data mining in course management systems: Moodle case study and tutorial (không xác định năm): khảo sát hệ thống quản lý khóa học (Moodle) phương pháp: thống kê, trực quan hóa, gom nhóm, phân lớp, luật kết hợp, khai phá mẫu, khai phá văn liệu Moodle Hướng phát triển nghiên cứu xây dựng hệ thống E-Learning dễ sử dụng, giao diện thân thiện, dễ nhìn, đầy đủ chức năng, tích hợp với hệ thống E-Learning khác Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 11 Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM Hình – Những vấn đề khác xoay quan hệ thống giáo dục ảo Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 12 Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM Bảng - Bảng tóm tắt báo tham khảo STT TÊN BÀI BÁO TÁC GIẢ TÓM TẮT Peter Toth Vấn đề: Phân tích hành vi sinh viên khóa học mạng (hệ thống Moodle) Phương pháp: dựa log file tạo server khóa học tương tác người dạy người học Hướng phát triển: giảng dạy kết hợp với media để học hiệu Applying Web-mining Methods for Analysis in Virtual Learning Environment Applying Web-Mining Methods for Analysis of Student Behaviour in VLE Courses Lajos Izsó Péter Tóth Vấn đề: Phân tích hành vi sinh viên khóa học mạng Phương pháp: dựa log file tạo server khóa học tương tác người dạy người học Hướng phát triển: giảng dạy kết hợp với media để học hiệu Research about the Application of Web Mining in Distance Education Platform Youtian QU Lili ZHONG Huilai ZOU Chaonan WANG Vấn đề: cải tiền tảng giáo dục từ xa để giải việc sử dụng không tương xứng nguồn lực giảng dạy thiếu hụt nhân tảng giáo dục Phương pháp: sử dụng web-mining WebMiningasaTool For Understanding Online Learning JiyeAi JamesLaffey Vấn đề: giới thiệu web-mining, e-learning ứng dụng web-mining kinh doanh giáo dục từ dự đốn hành động sinh viên môi trường WebCT Phương pháp: thử nghiệm với phân cấp mẫu Finding Diamonds in Data Reflections on Teaching Data Mining Shana R Ponelis Bài tập môn học: Phương pháp nghiên cứu khoa học Vấn đề: Mô tả phát triển chương trình giảng dạy cho khóa học khai thác liệu chương trình sau đại học ngành hệ thống thông Trang 13 Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM tin Phương pháp: dựa chương trình với mơ hình có sẵn từ ACM SIGKDD  Điều có ích cho nhà giáo dục chịu trách nhiệm việc phát triển chương trình giảng dạy khai thác liệu giảng dạy đến với sinh viên cao học ngành hệ thống thông tin from the Coal Face Data Mining Technology for the Evaluation of Web-Based Teaching and Learning Systems Pahl Claus Donnellan Dave Vấn đề: phân tích q trình học tập sinh viên nhằm giải quyết:  Hình thức dạy học mạng mạng lại kết tốt  Khơng có tương tác người dạy người học  Khó khăn việc đánh giá hiệu khóa học mạng Phương pháp: sử dụng kỹ thuật data mining Educational data mining A survey from 1995 to 2005 C Romero S Ventura Vấn đề: khảo sát ứng dụng Data Mining hệ thống giáo dục truyền thống Phương pháp: Thống kê trực quan hóa, gom lại, phân loại, dị tìm bên ngoài, khai thác luật kết hợp, khai thác mẫu, khai thác văn Hướng phát triển:  Đưa công cụ khai thác dễ sử dụng cho nhà giáo dục người chuyên gia lĩnh vực khai thác liệu  Chuẩn hóa lại phương pháp liệu  Tích hợp với hệ thống E-Learning  Đưa kỹ thuật khai thác liệu cụ thể Educational Data Mining a Case Study Agathe MERCERON; Vấn đề: giúp giảng viên hiểu hỗ trợ việc học tập sinh viên Phương pháp: Dựa log file tạo server khóa học Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 14 Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM Kalina YACEF Personlized Courseware 10 11 12 13 Construction Based on Web Data Mining Applying Data Mining Techniques to E-Learning Problems Data mining in course management systems: Moodle case study and tutorial Data Mining in the ELearning domain Predicting student performance: An application of Data tương tác người học & người dạy Changjie Tang Huabei Yin Tong Li Rynson W.H Lau Qing Li Danny Kill Vấn đề: xây dựng chương trình học cho sinh viên Phương pháp:  Tạo Web tutor tree cá nhân giải thuật: Native Algorithms Level_generate Algorithms  Khai thác liệu hai: theo ngữ cảnh theo cấu trúc chương trình học Félix Castro Alfredo Vellido Àngela Nebot Francisco Mugica Vấn đề: Phân loại vấn đề E-Learning Phương pháp: Mơ hình hóa kỹ thuật: Neural Networks, GA, Clusterring, trực quan hóa, Fuzzy Logic, Intelligent agent, Inductive Reasoning Cristóbal Romero Sebastián Ventura Enrique García Vấn đề: Khảo sát hệ thống quản lý khóa học (Moodle) Phương pháp: Thống kê, trực quan hóa, clustering, classification, mining luật kết hợp, mining mẫu, mining text liệu Moodle Hướng phát triển: Xây dựng hệ thống E-Learning dễ sử dụng, giao diện thân thiện, dễ nhìn, đầy đủ chức năng, tích hợp với hệ thống E-Learning khác Margo Hana Vấn đề: Những lợi ích việc tích hợp Data Mining công nghệ ELearning Phương pháp: Sử dụng statistical package thay cho công cụ data mining sở liệu để đưa kết xác theo thời gian thực Behrouz MinaeiBidgoli; Bài tập môn học: Phương pháp nghiên cứu khoa học Vấn đê: Phân loại sinh viên để dự đoán kết học tập sinh viên Phương pháp: Đưa series phân loại mẫu so sánh hành Trang 15 Lớp cao học MIS 2009 – Đại hoc Bách Khoa, Tp.HCM 14 15 Mining methods with the educational Web-based system LONCAPA Deborah A Kashy Gerd Kortemeyer William F Punch động chúng tập liệu khóa học online Data Mining in Personalizing Distance Education Courses W Haămaălaăinen T H Laine E Sutinen Vấn đề: Xây dựng hệ thống để theo dõi, can thiệp đưa lời khuyên trình học tập & giảng dạy Phương pháp: Hồi quy tuyến tính, Mơ hình xác xuất Vấn đề: phân loại sinh viên để dự đoán kết học tập sinh viên Using Genetic Algorithms Phương pháp: for Data Mining Behrouz Minaei Kết hợp với thuật giải di truyền Optimization in an Bidgoli, William F  Dựa đặc tính trích từ liệu đầu vào hệ thống Educational Web-based Punch III giáo dục dựa web System  Sự kết hợp nhiều lớp Bài tập môn học: Phương pháp nghiên cứu khoa học Trang 16

Ngày đăng: 25/09/2023, 11:11

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w