1. Trang chủ
  2. » Giáo Dục - Đào Tạo

KHAI PHÁ DỮ LIỆU TRONG GIÁO DỤC

18 65 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 18
Dung lượng 503,23 KB

Nội dung

BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC Chuyên ngành: CNTT Đề tài KHAI PHÁ DỮ LIỆU TRONG GIÁO DỤC CBHD: Sinh viên: Mã sinh viên: Ths Hoàng Quang Huy Nguyễn Thị May 2018123456 Hà Nội – 2020 Phần danh mục Đồ án tốt nghiệp BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc PHIẾU GIAO ĐỀ TÀI TỐT NGHIỆP Chuyên ngành CNTT Số: ……… Họ tên sinh viên: Lớp: Khóa: Khoa: Giáo viên hướng dẫn: NỘI DUNG THUYẾT MINH Ngày giao đề tài: Ngày hoàn thành: Hà Nội, ngày……tháng …… năm …… GIÁO VIÊN HƯỚNG DẪN (Ký tên) KHOA (Ký tên) HIỆU TRƯỞNG (Ký tên) Phần danh mục Phần danh mục MỤC LỤ MỤC LỤC DANH MỤC BẢNG BIỂU DANH MỤC HÌNH ẢNH LỜI NÓI ĐẦU .5 Chương GIỚI THIỆU TỔNG QUAN 1.1 Bài toán ứng dụng KPDL để xây dựng hệ thống tư vấn 1.2 Một số hướng nghiên cứu khai phá liệu giáo dục 1.3 Hướng tiếp cận luận văn Chương 2.1 CÁC KIẾN THỨC CƠ SỞ LIÊN QUAN .8 Khai phá liệu .8 2.1.1 Khái niệm KPDL [1] .8 2.1.2 Ứng dụng KPDL giáo dục 2.2 Một số kỹ thuật KPDL phân lớp, dự báo .9 2.2.1 Cây định 2.2.2 Phân lớp Naïve Bayes 10 2.2.3 Mạng nơ ron nhân tạo 11 Chương XÂY DỰNG HỆ THỐNG TƯ VẤN HỌC TẬP 12 3.1 Lựa chọn mơ hình 12 3.2 Sơ đồ hoạt động hệ thống: 12 3.3 Kết đạt được: 13 KẾT LUẬN 14 TÀI LIỆU THAM KHẢO 15 Phần danh mục DANH MỤC BẢNG BIỂU Bảng 1.1 Lựa chọn thuật tốn KPDL theo mục đích Bảng 2.1 Tập liệu học ban đầu kết phân lớp 11 DANH MỤC HÌNH ẢNHY Hình 2.1 Các bước xây dựng hệ thống KPDL .8 Hình 2.2 Biểu diễn định 10 Hình 3.1 Kết tư vấn học tập với mơ hình Naive Bayes .13 Phần danh mục LỜI NĨI ĐẦU Trường Đại học Cơng nghiệp Hà Nội triển khai đào tạo theo học chế tín năm học 2008 – 2009 Đào tạo tín có ưu điểm giúp sinh viên tự quản lý quỹ thời gian tùy theo khả để tự định mơn học theo kỳ Đối với sinh viên, việc lựa chọn cho lộ trình học phù hợp theo quy trình đào tạo việc khó khăn, đặc biệt với sinh viên vào trường, mà kinh nghiệm học tập bậc đại học hình thức đào tạo tín cịn mẻ Đó khó khăn chung khơng sinh viên, mà cố vấn học tập, giáo viên chủ nhiệm tổ chức quản lý trường Xuất phát từ thực tế đó, việc tư vấn lựa chọn lộ trình học cho sinh viên theo ngành học đăng ký việc làm thiết thực ý nghĩa Vì em xin chọn đề tài " KHAI PHÁ DỮ LIỆU TRONG GIÁO DỤC" làm đồ án tốt nghiệp chuyên ngành CNTT Đề tài trình bày qua phần chính: Chương I Giới thiệu tổng quan Chương II Các kiến thức sở liên quan Chương III Xây dựng hệ thống hỗ trợ học tập Do thời gian kiến thức có hạn nên khóa luận em cịn nhiều thiếu sót, kính mong góp ý bảo từ thầy cô bạn Phần danh mục Chương GIỚI THIỆU TỔNG QUAN 1.1 Bài toán ứng dụng KPDL để xây dựng hệ thống tư vấn Một thực tế đặt trường đại học thu hút nhiều sinh viên dựa “thương hiệu” nhà trường, để đáp ứng tiêu đào tạo Tuy nhiên, yêu cầu đặt số lượng phải kèm theo yêu cầu chất lượng đào tạo Vấn đề nâng cao chất lượng đào tạo vấn đề nhà trường quan tâm Nhằm đổi giáo dục đại học Việt Nam, Bộ Giáo dục Đào tạo yêu cầu chuyển đổi từ việc thực chương trình đào tạo theo hệ thống niên chế thành đào tạo theo hệ thống tín kiểu Hoa Kỳ, năm học 2008-2009 địi hỏi phải hồn tất việc chuyển đổi trước năm 2012 Trường Đại học Công nghiệp Hà Nội triển khai đào tạo theo học chế tín năm học 2008 – 2009 Đào tạo tín có ưu điểm giúp sinh viên tự quản lý quỹ thời gian tùy theo khả để tự định mơn học theo kỳ Vì vậy, việc tư vấn học tập, chủ yếu liên quan đến lựa chọn lộ trình học phù hợp nhằm đạt kết học tập cao cho sinh viên đặc biệt quan tâm Các giảng viên chuyên trách, cố vấn học tập khơng thể tiếp cận tồn liệu điểm sinh viên 1.2 Một số hướng nghiên cứu khai phá liệu giáo dục Hiện có nhiều nghiên cứu ứng dụng KPDL cho giáo dục Những khai phá liệu giáo dục bật lên lĩnh vực nghiên cứu độc lập năm gần đây, mà cao điểm năm 2008 với thành lập hội nghị quốc tế khai phá liệu giáo dục, báo khai phá liệu giáo dục Đó “Applying Data Mining Techniques to e-Learning Problems” Félix Castrol,… Các nhà nghiên cứu việc KPDL giáo dục tập trung vào nhiều vấn đề bao gồm việc học cá nhân từ phần mềm giáo dục, học cộng tác với giúp đỡ máy tính, kiểm nghiệm khả thích ứng với máy tính, nhiều nhân tố kết hợp với sinh viên khơng có khả thiếu định hướng q trình học tập Mỗi lĩnh vực việc ứng dụng khai phá liệu vào giáo dục phát triển mơ hình hướng đối tượng sinh viên Các mơ hình sinh viên thể thơng tin nét đặc trưng hay tình trạng sinh viên, kiến thức sinh viên, động thúc đẩy học tập, quan điểm nguyện vọng sinh viên… Phần danh mục Ở Việt Nam, KPDL nghiên cứu ứng dụng nhiều tổ chức, doanh nghiệp đem lại hiệu cao lĩnh vực giáo dục, y tế, thương mại, tài Nhiều cơng trình khoa học nghiên cứu để áp dụng vào thực tế Song bên cạnh đó, việc khai thác thơng tin có giá trị số đơn vị chưa thực hiệu quả, việc áp dụng thực tế hạn chế 1.3 Hướng tiếp cận luận văn Luận văn tập trung nghiên cứu lý thuyết khai phá liểu, sử dụng công cụ khai phá liệu BIDS1 Microsoft, KPDL điểm thực tế sinh viên trường ĐHCNHN Bên cạnh đó, luận văn sử dụng số thuật tốn điển hình khai phá liệu hỗ trợ sẵn SQL Server2 nhằm giải toán dự báo, dự đoán kết học tập sinh viên Nhiệm vụ Thuật toán Microsoft sử dụng Microsoft Decision Trees Algorithm Dự đốn thuộc tính rời rạc Microsoft Naive Bayes Algorithm Microsoft Clustering Algorithm Microsoft Neural Network Algorithm Dự đốn thc tính liên tục Microsoft Decision Trees Algorithm Microsoft Time Series Algorithm Dự đốn trình tự Microsoft Sequence Clustering Algorithm Tìm nhóm mục Microsoft Association Rules Algorithm chọn giao dịch Tìm mục giống Microsoft Decision Trees Algorithm Microsoft Clustering Algorithm Microsoft Sequence Clustering Algorithm Bảng Lựa chọn thuật tốn KPDL theo mục đích Sau đánh giá mơ hình dự đốn tốt nhất, tác giả xây dựng chương trình thực nghiệm để hỗ trợ tư vấn học tập cho sinh viên năm đầu Business Intelligence Development Studio Hệ quản trị sở liệu Microsoft Phần danh mục Chương CÁC KIẾN THỨC CƠ SỞ LIÊN QUAN 2.1 Khai phá liệu 2.1.1 Khái niệm KPDL [ CITATION ĐỗP06 \l 1066 ] "KPDL trình khảo sát phân tích khối lượng lớn liệu lưu trữ sở liệu, kho liệu…để từ trích xuất thơng tin quan trọng, có giá trị tiềm ẩn bên trong" Do nhu cầu nghiệp vụ cần có cách nhìn thơng tin quy mơ tồn đơn vị Các liệu thu từ nhiều nguồn, đa số từ phần mềm nghiệp vụ như: phần mềm tài chính, kế tốn, hệ thống quản lý tài nguyên doanh nghiệp, hệ thống quản lý khách hang hay từ tác công cụ lưu trữ thông tin web… Đây khối liệu khổng lồ thơng tin mà thể lộn xộn “nghèo” người dùng Kích thước khối liệu khổng lồ tăng với tốc độ nhanh chiếm nhiều dung lượng lưu trữ KPDL liệu giúp trích xuất mẫu điển hình có giá trị biến chúng thành tri thức hữu ích Q trình gồm số bước thể hình sau Hình Các bước xây dựng hệ thống KPDL Ý nghĩa cụ thể bước sau: - Lựa chọn liệu liên quan đến toán quan tâm - Tiền xử lý liệu, làm liệu, chiếm tới gần 60% nỗ lực - Chuyển đổi liệu dạng phù hợp thuận lợi cho việc khai phá - KPDL, trích xuất mẫu liệu (mơ hình) - Đánh giá mẫu Phần danh mục - Sử dụng tri thức khai phá 2.1.2 Ứng dụng KPDL giáo dục  Tư vấn lựa chọn ngành học Cho kho liệu lưu giữ thông tin kết học tập sinh viên tốt nghiệp Hãy tìm quy luật lựa chọn chuyên ngành cách hợp lý cho đạt kết tốt Nhằm mục đích người ta mong muốn nhận từ liệu phát biểu như: “80% sinh viên học tốt mơn Kinh tế trị Tiếng Anh tốt nghiệp chun ngành Kế tốn ngân hàng loại giỏi”, … Để đạt phát biểu trên, sử dụng thuật toán Khai phá luật kết hợp từ sở liệu  Tư vấn lựa chọn môn học Cho kho liệu thông tin kết học tập sinh viên Hãy tư vấn cho sinh viên lựa chọn môn học cho học kỳ sau dựa kết học kỳ trước cho kết học tập kỳ cao Để thực việc này, cần sử dụng thuật toán KPDL dạng phân lớp dự đoán Cây định, mạng Naive Bayes, Neural Network hay luật kết hợp  Tư vấn lựa chọn lộ trình học Cho kho liệu đào tạo (theo hình thức tín chỉ) bao gồm mơn học (học phần) tương ứng với ngành học học kỳ (gọi chương trình đào tạo), với thơng tin kết học tập sinh viên tốt nghiệp Hãy tư vấn cho sinh viên vào trường cách lựa chọn lộ trình học phù hợp cho ngành học mà sinh viên đăng ký cho kết tốt nghiệp trường sinh viên cao Đây tốn mà luận văn hướng đến Để thực việc này, cần sử dụng thuật toán KPDL dạng phân lớp dự đoán Cây định, mạng Naive Bayes, Neural Network hay luật kết hợp Phần danh mục 2.2 Một số kỹ thuật KPDL phân lớp, dự báo 2.2.1 Cây định Cây định cấu trúc biễu diễn dạng Trong đó, nút (internal node) biễu diễn thuộc tính, nhánh (branch) biễu diễn giá trị có thuộc tính, (leaf node) biểu diễn lớp định đỉnh gọi gốc (root) Hình Biểu diễn định Trong lĩnh vực học máy, định kiểu mơ hình dự báo (predictive model), nghĩa ánh xạ từ quan sát vật/hiện tượng tới kết luận giá trị mục tiêu vật/hiện tượng Mỗi nút (internal node) tương ứng với biến, đường nối với nút thể giá trị cụ thể cho biến Mỗi nút đại diện cho giá trị dự đoán biến mục tiêu, cho trước giá trị dự đoán biến biểu diễn đường từ nút gốc tới nút Kỹ thuật học máy dùng định gọi học định, hay gọi với tên ngắn gọn định Cây định (Decision Tree) phân cấp có cấu trúc dùng để phân lớp đối tượng dựa vào dãy luật (series of rules) Các thuộc tính đối tượng (ngoại trừ thuộc tính phân lớp – Category attribute) thuộc kiểu liệu khác (Binary, Nominal, ordinal, quantitative values) thuộc tính phân lớp phải có kiểu liệu Binary Ordinal 2.2.2 Phân lớp Naïve Bayes Định lý Bayes[ CITATION DHa01 \l 1066 ] cho phép tính xác suất xảy kiện ngẫu nhiên A biết kiện liên quan B xảy Xác suất ký hiệu Phần danh mục P(A|B), đọc "xác suất A có B" Đại lượng gọi xác suất có điều kiện rút từ giá trị cho B phụ thuộc vào giá trị Phương pháp Naive Bayes phù hợp tốn có u cầu chi phí xuất giá trị thuộc tính Documen t Training Content Data d1 hanoi chaolong Class B hanoi d2 hanoi buncha omai B d3 banhgio omai B d4 saigon hutiu banhbo N hanoi hanoi buncha ? Test d5 hutiu Bảng Tập liệu học ban đầu kết phân lớp 2.2.3 Mạng nơ ron nhân tạo Neural nhân tạo mô đơn giản neural sinh học Mỗi neural nhân tạo thực hai chức năng: chức tổng hợp đầu vào chức tạo đầu Chức đầu vào tổng có trọng số tín hiệu vào kết hợp với ngưỡng để tạo tín hiều đầu vào Chức tạo đầu thực hàm truyền đạt Microsoft Neural Network sử dụng mạng đa tầng bao gồm ba lớp tế bào thần kinh Các lớp lớp đầu vào, lớp ẩn lớp đầu Trong mạng Neural, neural nhận nhiều đầu vào sản xuất nhiều kết đầu Mỗi đầu hàm phi tuyến đơn giản tổng đầu vào Phần danh mục Hình Sơ đồ mạng Neural Phần danh mục Chương XÂY DỰNG HỆ THỐNG TƯ VẤN HỌC TẬP 3.1 Lựa chọn mơ hình u cầu Mơ hình Nạve Bayes cho kết dự đốn kết học tập sinh viên với độ xác cao nên mơ hình lựa chọn để xây dựng hệ thống tư vấn học tập Trong khuôn khổ luận văn, để giúp người dùng thấy khác biệt kết dự đoán mơ hình, hệ thống tư vấn có đưa thêm vào chức cho phép người dùng chọn mơ hình khác (trong 04 mơ hình xây dựng) để kiểm tra so sánh kết Hệ thống xây dựng ngôn ngữ Visual C#.NET với hệ quản trị CSDL MS SQL Server 2008 Windows Forms (việc xây dựng Web tương tự) 3.2 Sơ đồ hoạt động hệ thống: Để sử dụng hệ thống, người dùng nhập vào thông tin như: ngành học, điểm thi tuyển sinh, giới tính lựa chọn mơ hình sử dụng để dự báo (nếu khơng lựa chọn mặc định hệ thống sử dụng mơ hình Nạve Bayes) Trong phạm vi thử nghiệm, chương trình cho hiển thị kết dự đốn 03 mơ hình khơng lựa chọn Luật kết hợp, Neural Network Decision Tree để mang tính chất tham khảo đánh giá lại mô hình dự đốn thực tế Tuy nhiên, phân tích trên, người dùng cần tin tưởng mơ hình Nạve Bayes đánh giá dự đốn kết học tập với độ xác tốt Phần danh mục 3.3 Kết đạt được: Hình Kết tư vấn học tập với mơ hình Naive Bayes Theo đánh giá mơ hình từ trước mơ hình Nạve Bayes cho kết dự báo tốt nên sinh viên cần lấy kết mơ hình để tham khảo Cũng theo cảm tính, sinh viên thi điểm đầu vào cao học sinh nữ, học ngành kế toán nên tỷ lệ sinh viên học đạt kết giỏi cao (sinh viên nữ thường chăm sinh viên nam ngành kế toán hợp với sinh viên nữ hơn) Phần danh mục KẾT LUẬN Sau thời gian nghiên cứu làm việc nghiêm túc, từ việc nghiên cứu yêu cầu cấp thiết đặt công tác quản lý vào đào tạo trường ĐHCNHN, luận văn đạt số kết sau đây: Xây dựng hệ thống tư vấn học tập với đầu vào thông tin cá nhân sinh viên như: ngành học, điểm thi tuyển sinh, giới tính, sử dụng mơ hình dự báo Naive Bayes Hệ thống có chức cho phép người quản trị cập nhật sở liệu cập nhật lại mơ hình kết thúc năm học với khóa tốt nghiệp, qua giúp hệ thống ngày đạt độ xác cao khách quan Với việc triển khai hệ thống thử nghiệm cho thấy khả ứng dụng kết việc dự đoán kết học tập sinh viên Hệ thống không hỗ trợ cho sinh viên mà hỗ trợ cho giáo viên chủ nhiệm, khoa chuyên ngành, phòng đào tạo quan tâm + Đối với sinh viên: giúp lựa chọn lộ trình học phù hợp với điều kiện lực thân để đạt kết học tập tối ưu + Đối với cố vấn học tập: tư vấn cho sinh viên việc chọn lộ trình học phù hợp + Đối với khoa chuyên ngành phòng đào tạo: hỗ trợ việc đánh giá chất lượng cho lộ trình học nhằm nâng cao, cải thiện việc xây dựng lộ trình học để phù hợp với điều kiện lực sinh viên Cuối cùng, em xin chân thành cảm ơn thầy Hồng Quang Huy thầy khác tận tình giúp đỡ em hồn thành đề tài Do thời gian kiến thức có hạn nên cịn nhiều thiếu sót, kính mong góp ý bảo từ thầy cô bạn SINH VIÊN THỰC HIỆN Nguyễn Thị May Phần danh mục TÀI LIỆU THAM KHẢO Việt Nam [1] Đ Phúc, Giáo trình khai thác liệu, Tp HCM: NXB ĐH Quốc gia, 2006 [3] Đ Phương, Máy học, Hà Nội: NXB KHKT, 2002 Bibliography [2] D.Hand, Data Mining, London: The MIT press, 2001 [4] David Wilson, Machine learning, Singapore: The RAM Institute, 1999 ... việc khai thác thơng tin có giá trị số đơn vị chưa thực hiệu quả, việc áp dụng thực tế hạn chế 1.3 Hướng tiếp cận luận văn Luận văn tập trung nghiên cứu lý thuyết khai phá liểu, sử dụng công cụ khai. .. cho sinh viên theo ngành học đăng ký việc làm thiết thực ý nghĩa Vì em xin chọn đề tài " KHAI PHÁ DỮ LIỆU TRONG GIÁO DỤC" làm đồ án tốt nghiệp chuyên ngành CNTT Đề tài trình bày qua phần chính:... cận toàn liệu điểm sinh viên 1.2 Một số hướng nghiên cứu khai phá liệu giáo dục Hiện có nhiều nghiên cứu ứng dụng KPDL cho giáo dục Những khai phá liệu giáo dục bật lên lĩnh vực nghiên cứu độc

Ngày đăng: 19/10/2021, 19:11

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w