1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng khai phái dữ liệu trợ giúp tư vấn học tập tại trường đại học sư phạm hà nội 2

52 314 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 52
Dung lượng 1,29 MB

Nội dung

TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI KHOA CÔNG NGHỆ THƠNG TIN ************ CAO HỒNG LONG ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRỢ GIÚP TƢ VẤN HỌC TẬP TẠI TRƢỜNG ĐH SP HN KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC Chuyên ngành: Khoa học máy tính HÀ NỘI – 2015 TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI KHOA CƠNG NGHỆ THƠNG TIN ************ CAO HỒNG LONG ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRỢ GIÚP TƢ VẤN HỌC TẬP TẠI TRƢỜNG ĐH SP HN KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC Chuyên ngành: Khoa học máy tính Ngƣời hƣớng dẫn khoa học PGS.TS TRỊNH ĐÌNH THẮNG HÀ NỘI – 2015 LỜI CAM ĐOAN Tên em là: Cao Hoàng Long Sinh viên lớp: K37A – Tin học, khoa Công nghệ Thông tin, trƣờng Đại học Sƣ phạm Hà Nội Em xin cam đoan: Nội dung đề tài: “Ứng dụng khai phá liệu trợ giúp tƣ vấn học tập trƣờng Đại học Sƣ phạm Hà Nội 2” nghiên cứu riêng em Kết nghiên cứu em không trùng với kết tác giả khác Nếu sai em xin hoàn toàn chịu trách nhiệm Sinh viên Cao Hoàng Long LỜI CẢM ƠN Để hồn thành khóa luận này, trƣớc tiên em xin gửi lời cảm ơn chân thành đến tồn thể thầy Khoa CNTT trƣờng Đại học Sƣ Phạm Hà Nội 2, ngƣời giảng dạy cho em nhiều kiến thức thời gian học tập trƣờng Trên hết, trình tìm hiểu nghiên cứu đề tài này, em nhận đƣợc giúp đỡ nhiệt tình từ giảng viên hƣớng dẫn PGS.TS Trịnh Đình Thắng để em hồn thành khóa luận cách hồn chỉnh Với lịng biết ơn sâu sắc, em xin gửi lời cảm ơn tới quý thầy cô chúc quý thầy cô dồi sức khỏe để tiếp tục đào tạo hệ sinh viên tƣơng lai Và em xin gửi lời cảm ơn chân thành tới ngƣời thân bạn bè bên cạnh giúp đỡ động viên em thời gian Với điều kiện thời gian nghiên cứu vốn kiến thức thân em hạn chế nên chƣơng trình khơng tránh khỏi thiếu sót Em mong nhận đƣợc bảo quý báu quý thầy, giáo bạn bè để chƣơng trình em đƣợc hoàn thiện Em xin chân thành cảm ơn! Vĩnh Phúc, ngày 08 tháng 05 năm 2015 Sinh viên Cao Hoàng Long MỤC LỤC MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu 1.1.1 Định nghĩa 1.1.2 Các ứng dụng khai phá liệu 10 1.2 Kiến trúc hệ thống 11 1.2.1 Database, data warehouse, World Wide Web, information repositories 12 1.2.2 Database hay data warehouse server 12 1.2.3 Knowledge base 12 1.2.4 Data mining engine 12 1.2.5 Pattern evaluation module 12 1.2.6 User interface 12 1.3 Các bƣớc trình khai phá liệu 13 1.4 Tiền xử lý liệu 15 1.4.1 Dữ liệu 15 1.4.2 Làm liệu 16 1.4.3 Tích hợp liệu 18 1.4.4 Biến đổi liệu 18 1.4.5 Thu giảm liệu 19 CHƢƠNG 2: MỘT SỐ PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU 21 2.1 Phƣơng pháp dự báo 21 2.1.1 Giới thiệu dự báo 21 2.1.2 Tổng quan hồi quy 21 2.1.3 Hồi quy tuyến tính 22 2.1.4 Hồi quy phi tuyến 22 2.2 Phƣơng pháp phân lớp 22 2.2.1 Giới thiệu phân lớp 22 2.2.2 Cây định 23 2.3 Phƣơng pháp gom cụm 24 2.3.1 Định nghĩa gom cụm 24 2.3.2.Mục tiêu gom cụm 24 2.3.3 Các ứng dụng gom cụm 25 2.4 Phƣơng pháp khai phá luật kết hợp 26 2.4.1 Giới thiệu luật kết hợp 26 2.4.2 Bài toán 26 2.4.3 Thuật toán Apriori 28 CHƢƠNG 3: KHAI PHÁ DỮ LIỆU TRONG CSDL ĐIỂM ĐỂ TRỢ GIÚP TƢ VẤN HỌC TẬP 41 3.1 Giới thiệu toán 41 3.1.1 Mục tiêu 41 3.1.2 Lựa chọn giải pháp 41 3.2 Đặc tả liệu 42 3.3 Giao diện chƣơng trình 45 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 48 DANH MỤC HÌNH ẢNH VÀ BẢNG Tên hình (bảng) Trang Hình 1.1 Kiến trúc hệ thống khai phá liệu 11 Hình 1.2 Các bƣớc trình khai phá liệu 14 Hình 2.1 Lƣợc đồ biểu diễn tập mục cần xét đƣợc loại bỏ theo độ hỗ trợ 29 Hình 3.1 Sơ đồ quan hệ sở liệu điểm sinh viên 43 Hình 3.2 Nhập thơng tin sinh viên 45 Hình 3.3 Danh mục mơn học 45 Hình 3.4 Chi tiết mơn học 45 Hình 3.5 Cập nhật điểm sinh viên 46 Hình 3.6 Kết sau khai phá liệu 47 Bảng 2.1 Ví dụ thuật tốn Apriori 37 Bảng 2.2 Ví dụ thuật tốn Apriori trợ giúp tƣ vấn học tập Bảng 3.1 Ví dụ CSDL điểm sinh viên Bảng 3.2 Thuộc tính điểm đƣợc chia thành khoảng ký hiệu Bảng 3.3 CSDL điểm đƣợc mã hóa 40 44 44 44 MỞ ĐẦU Lý chọn đề tài Trong thời đại ngày với phát triển vƣợt bậc công nghệ thông tin, hệ thống thông tin lƣu trữ khối lƣợng liệu lớn hoạt động hàng ngày chúng Từ khối liệu này, kĩ thuật khai phá liệu dùng để trích xuất thơng tin hữu ích mà chƣa biết Các tri thức vừa tìm đƣợc vận dụng để cải thiện hoạt động hệ thống thông tin ban đầu Việc chọn lọc liệu có ích từ lƣợng liệu khổng lồ nhƣ giúp cải thiện hoạt động hay dự đoán giúp đƣa định tƣơng lai xác Từ phát triển kĩ thuật cho phép khai thác tri thức hữu dụng từ sở liệu lớn đƣợc gọi kĩ thuật khai phá liệu, đƣợc ứng dụng nhiều lĩnh vực nhƣ: kinh tế, tài chính, giáo dục, y tế Trong đó, lĩnh vực giáo dục đƣợc quan tâm hàng đầu để định hƣớng, xây dựng sách giáo dục đào tạo cần phải đƣợc hỗ trợ công cụ khoa học để tránh sai lầm đáng tiếc Khai phá liệu cơng cụ hữu ích có tính khoa học cao giúp nhà quản lý có tri thức q giá phục vụ cơng tác quản lý học sinh, sinh viên sử dụng kết hữu ích từ q trình chắt lọc khai phá liệu Việc khai phá luật kết hợp đào tạo chƣa đƣợc nghiên cứu ứng dụng cách triệt để Trong thời gian học môn "Các vấn đề đại khoa học máy tính", em đƣợc giảng viên giới thiệu qua khai phá liệu, nhƣng em trả lời đƣợc câu hỏi "khai phá liệu gì?" mà chƣa trả lời đƣợc "khai phá liệu nhƣ nào?" Qua lần đƣợc nhận đề tài khóa luận em định chọn đề tài "ứng dụng khai phá liệu trợ giúp tƣ vấn học tập trƣờng ĐHSPHN2" để tìm hiểu khai phá liệu áp dụng ngơi trƣờng mà em theo học Mục đích nghiên cứu Tìm hiểu khai phá liệu, khai phá liệu luật kết hợp, thuật toán Apriori ứng dụng vào tƣ vấn học tập cho sinh viên Nhiệm vụ nghiên cứu Nghiên cứu định nghĩa khai phá liệu, sâu tập trung tìm hiểu phƣơng pháp khai phá viết chƣơng trình demo Đối tƣợng phạm vi nghiên cứu Khóa luận sâu vào nghiên cứu khai phá luật kết hợp thuật toán Apriori Cơ sở liệu điểm sinh viên khoa Công nghệ Thông tin trƣờng đại học Sƣ phạm Hà Nội để tìm mối tƣơng quan mơn học Giả thuyết khoa học Tìm hiểu phƣơng pháp khai phá liệu giúp ngƣời lập trình hiểu rõ việc phát thông tin hữu ích sở liệu lớn Từ việc định hƣớng cho hoạt động tƣơng lai trở nên dễ dàng Chƣơng trình đƣợc xây dựng đƣa vào thực tế trợ giúp để phát liên hệ môn học để trợ giúp tƣ vấn cho sinh viên, hiệu so với phƣơng pháp truyền thống Phƣơng pháp nghiên cứu  Phương pháp nghiên cứu lý luận Nghiên cứu qua việc đọc sách, báo tài liệu liên quan nhằm xây dựng sở lý thuyết đề tài biện pháp cần thiết để giải vấn đề đề tài  Phương pháp chuyên gia Tham khảo ý kiến chuyên gia để thiết kế chƣơng trình phù hợp với yêu cầu thực tiễn Nội dung xử lý nhanh đáp ứng nhu cầu ngày cao ngƣời dùng  Phương pháp thực nghiệm Thơng qua q trình học tập, trích rút đƣợc mối liên hệ số môn học lý luận đƣợc nghiên cứu kết đạt đƣợc qua phƣơng pháp Cấu trúc khóa luận  Chƣơng 1: Tổng quan khai phá liệu Nội dung chƣơng giới thiệu khai phá liệu, kiến trúc hệ thống khai phá liệu, bƣớc trình khai phá ứng dụng khai phá liệu  Chƣơng 2: Một số phƣơng pháp khai phá liệu Chƣơng trình bày bƣớc trình khai phá tìm giải pháp thuật tốn phù hợp để tiến hành khai phá Một số phƣơng pháp đƣợc trình bày chƣơng là: - Phƣơng pháp phân lớp - Phƣơng pháp gom cụm - Phƣơng pháp dự báo - Phƣơng pháp khai phá luật kết hợp  Chƣơng 3: Khai phá liệu CSDL điểm sinh viên để trợ giúp tƣ vấn học tập Chƣơng xây dựng chƣơng trình demo để thử nghiệm CSDL điểm khoa CNTT trƣờng Đại học Sƣ Phạm HN để tìm mối liên hệ mơn học qua thuật tốn Apriori {C, E} Qt tồn D: C2 2- Count- itemset support {A, B} – 25% {A, C} – 50% {A, E} – 25% {B, C} – 50% {B, E} – 75% {C, E} – 50% Tỉa: L2 2- Count- itemset support {A, C} – 50% {B, C} – 50% {B, E} – 75% {C, E} – 50% Kết nối L2 & L2: 3-itemset {A, B, C} 36 {A, B, E} {B, C, E} Tỉa: 3-itemset {B, C, E} Quét toàn D: C3 3-itemset Countsupport {B, C, E} - 50% Xóa bỏ mục support < minsup: L3 3-itemset Count-support {B, C, E} - 50% Bảng 2.1 Ví dụ thuật tốn Apriori 37 Ví dụ 2: Giả sử có sở liệu nhƣ sau: Thuật tốn Apriori tìm luật kết hợp cho sở liệu nhƣ sau: Với support = 40%, nghĩa tần xuất tất item thỏa mãn lớn 40%, ta có: 38 Sau loại bỏ item không thuộc tập mục phổ biến ta đƣợc: Bƣớc bƣớc 3: 39 Bƣớc 4: sup=40% Bƣớc 5: sup= 40%, conf= 70% Bảng 2.2 Ví dụ thuật tốn Apriori trợ giúp tƣ vấn học tập Kết ta có luật kết hợp sau (với min_sup= 40%, min_conf=70%) R1: CSDL => HỆ ĐIỀU HÀNH (support =60%, confidence = 75%) R2: HỆ ĐIỀU HÀNH => CSDL (support =60%,confidence = 75%) R3: TOÁN RỜI RẠC => CSDL (support =40%, confidence = 100%) R4: GIẢI TÍCH => HỆ ĐIỀU HÀNH (support =40%,confidence = 100%) Thuật toán Apriori đƣợc dùng để phát luật kết hợp dạng khẳng định (Positive Rule X=>Y) nhị phân (Binary Association Rules) phát luật kết hợp dạng phủ định (Negative Association Rule) chẳn hạn nhƣ kết hợp dạng "Sinh viên học tốt môn A thƣờng KHƠNG học tốt mơn B” 40 CHƢƠNG 3: KHAI PHÁ DỮ LIỆU TRONG CSDL ĐIỂM ĐỂ TRỢ GIÚP TƢ VẤN HỌC TẬP 3.1 Giới thiệu toán Trƣờng Đại học Sƣ phạm Hà nội đào tạo hệ thống tín Để tạo điều kiện cho sinh viên đăng ký môn học, lựa chọn ngành nghề, hỗ trợ sau tốt nghiệp phải dựa hệ thống điểm mà sinh viên đạt đƣợc, sở mang tính khoa học Sử dụng khai phá liệu để tìm mối liên hệ mơn học để trợ giúp tƣ vấn cho sinh viên 3.1.1 Mục tiêu Bài toán tiến hành sử dụng liệu điểm sinh viên khoa công nghệ thông tin Qua kỹ thuật khai phá liệu đƣa đƣợc đánh giá từ kết học tập sinh viên để giúp cán đào tạo dự đoán tƣ vấn học tập cho sinh viên Mục tiêu: - Phân tích hệ thống điểm sinh viên - Tìm mối liên hệ mơn học - Từ mối liên hệ tìm đƣợc, trợ giúp tƣ vấn học tập cho sinh viên 3.1.2 Lựa chọn giải pháp Để thử nghiệm thực tiễn ứng dụng khai phá liệu tƣ vấn học tập Chƣơng trình cài đặt ngơn ngữ C#, CSDL thiết kế SQL sever 2008, hệ điều hành Windows 41 Hình 3.1 Sơ đồ liệu quan hệ CSDL điểm sinh viên 3.2 Đặc tả liệu Trong quy chế đào tạo theo hệ thống tín chỉ, điểm trung bình mơn học sinh viên K37 trƣờng Đại học Sƣ Phạm Hà Nội đƣợc tính 20% điểm thành phần + 20% điểm thành phần + 60% điểm thi, quy đổi chữ A,B,C,D,F với điểm A điểm thuộc khoảng [8.5 10], điểm B điểm thuộc khoảng [7.0 8.5), điểm C thuộc khoảng [5.5 7.0), điểm D thuộc khoảng [4.0 5.5), lại điểm F Nhƣng để tiện cho việc tính tốn, em chia khoảng điểm môn thành khoảng [0 5], (5 7], (7 8], (8 10] để tìm đƣợc kết tốt Việc chia khoảng nhƣ giúp tìm luật sinh viên có xu hƣớng điểm khoảng môn A, kéo theo điểm khoảng môn B với mục đích khai phá liệu 42 Họ tên Mã SV Lớp Hệ điều CSDL Lập trình hƣớng đối tƣợng hành 1151030000 SV K37-Tin 1151030001 SV K37-Tin 1151030002 SV K37-Tin 1151030003 SV K37-Tin 1151030004 SV K37-Tin 1151030005 SV K37-Tin Bảng 3.1 Ví dụ CSDL điểm sinh viên Dữ liệu đƣợc biểu diễn thành kí hiệu: Tên Môn [0 5] (5 7] (7 8] (8 10] Lập trình hƣớng đối tƣợng RR1 RR2 RR3 RR4 Cơ sở liệu QQ1 QQ2 QQ3 QQ4 Hệ điều hành H1 H2 H3 H4 Bảng 3.2 Thuộc tính điểm đƣợc chia thành khoảng ký hiệu Khi sinh viên trở thành Transaction (giao dịch): STT Các mục H3, RR1, QQ2 H2, RR2, QQ3 H4, RR3, QQ2 H2, RR2, QQ1 H1, RR1, QQ3 H4, RR1, QQ3 Bảng 3.3 CSDL điểm đƣợc mã hóa 43 Sau q trình mã hóa ta tính đƣợc support cho tập mục thực thuật toán Apriori để phát tập mục phổ biến nhƣ ví dụ nêu chƣơng Việc mã hóa nhƣ xảy vấn đề nhƣ số lƣợng khoảng nhiều support cho khoảng điểm nhỏ nên sup toán phải điều chỉnh đƣợc Một số thơng tin bị việc chia khoảng số thông tin không hữu dụng nhƣ xu hƣớng đƣợc điểm thấp môn A -> điểm thấp môn B, điểm cao môn A -> điểm thấp môn B ngƣợc lại Vì cần tạo lọc để lấy luật mà điểm sinh viên đạt từ (8 10] Bài toán khai phá luật kết hợp lúc thực qua bƣớc sau: Bƣớc 1: Tìm support cho giá trị thuộc tính phân loại lẫn thuộc tính số lƣợng, tìm tất tập mục đạt minsup Bƣớc 2: Tìm confidence cho quan hệ tập mục, sinh luật kết hợp Bƣớc 3: Lọc luật đáng quan tâm 44 3.3 Giao diện chƣơng trình Hình 3.2: Nhập thơng tin sinh viên Hình 3.3 Danh mục mơn học Hình 3.4: Chi tiết mơn học 45 Hình 3.5: Cập nhật điểm sinh viên Hình 3.6.1 Kết với minsup = 50%, minconf = 80% 46 Hình 3.6.2 Kết với minsup = 60%, minconf = 80% Hình 3.6.3 Kết với minsup = 70%, minconf = 80% 47 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Kết luận Sau khoảng thời gian tìm hiểu đề tài, em đạt đƣợc kết là: - Hiểu đƣợc khai phá liệu, quy trình khai phá phƣơng pháp khai phá liệu - Tìm hiểu ứng dụng khai phá liệu đào tạo để suy mối tƣơng quan môn học sở liệu điểm có sẵn - Xây dựng chƣơng trình thực nhiệm vụ Khai phá liệu lĩnh vực hữu ích cho mặt sống Trên trình bày vấn đề nhất, phƣơng pháp khai phá liệu sâu vào tìm hiểu luật kết hợp Bài tốn tìm luật cho kết tốt năm học tiếp theo, đồng thời hỗ trợ sinh viên lựa chọn môn học, hỗ trợ cán đào tạo đƣa định Khai phá liệu đƣợc nghiên cứu phát triển mạnh để bƣớc nâng cao chất lƣợng tất lĩnh vực sống khả tìm đƣợc thơng tin có ích từ dự báo giúp có kế hoạch đắn tƣơng lai Chƣơng trình cịn nhiều hạn chế phải nhập điểm sinh viên từ bàn phím q trình tiền xử lý liệu chƣa thống đƣợc tệp CSDL khác Nhƣng qua thuật toán Apriori, ta thu đƣợc luật hữu ích phục vụ cho đào tạo, hỗ trợ sinh viên lựa chọn mơn học Bài khóa luận giúp em đƣợc tìm hiểu sâu vấn đề, nhờ em đƣợc đánh giá, phân tích thực tế để đối chiếu với kiến thức học đƣợc trƣờng Đó thời gian để em học hỏi nhiều kinh nghiệm để hoàn thành tốt nhiệm vụ khác tƣơng lai 48 Hƣớng phát triển Trong tƣơng lai em mong muốn chƣơng trình gắn liền với thực tế để đƣợc sử dụng rộng rãi Đồng thời phát triển nhƣ: - Xây dựng thêm nhiều lọc để tìm thêm luật có ích - Phân biệt đƣợc môn học tự chọn, môn học bắt buộc - Phân biệt đƣợc thứ tự môn học (ví dụ: mơn A học trƣớc mơn B) - Kết nối đƣợc với sở liệu phức tạp - Đánh giá độ xác sau tƣ vấn cho sinh viên 49 TÀI LIỆU THAM KHẢO [1] Nhà xuất khoa học kỹ thuật (2010) - Một số vấn đề chọn lọc công nghệ thông tin [2] Lê Văn Phùng, Quách Xuân Trƣờng (2008) - Khai phá liệu [3] Nguyễn Nhật Quang (2010 - 2011) - Giáo trình khai phá liệu [4] Đại học Bách khoa TP Hồ Chí Minh (2008) - Khai phá liệu [5] Nguyễn Văn Chức (2011) - Bài giảng thuật toán Apriori khai phá luật kết hợp 50 ... 22 2. 2 Phƣơng pháp phân lớp 22 2. 2.1 Giới thiệu phân lớp 22 2. 2 .2 Cây định 23 2. 3 Phƣơng pháp gom cụm 24 2. 3.1 Định nghĩa gom cụm 24 2. 3 .2. Mục... nghệ Thông tin, trƣờng Đại học Sƣ phạm Hà Nội Em xin cam đoan: Nội dung đề tài: ? ?Ứng dụng khai phá liệu trợ giúp tƣ vấn học tập trƣờng Đại học Sƣ phạm Hà Nội 2? ?? nghiên cứu riêng em Kết nghiên cứu...TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI KHOA CÔNG NGHỆ THƠNG TIN ************ CAO HỒNG LONG ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRỢ GIÚP TƢ VẤN HỌC TẬP TẠI TRƢỜNG ĐH SP HN KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC Chuyên

Ngày đăng: 24/09/2015, 08:49

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w