Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 97 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
97
Dung lượng
124,05 KB
Nội dung
TRƯỜNG ĐẠI HỌC sư PHẠM HÀ NỘI • ••• KHOA CƠNG NGHỆ THƠNG TIN CAO HỒNG LONG ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRỢ GIÚP Tư VẤN HỌC TẬP TẠI TRƯỜNG ĐH SP HN KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC • ••• Chun ngành: Khoa học máy tính HÀ NỘI - 2015 ■ TRƯỜNG ĐẠI HỌC sư PHẠM HÀ NỘI • ••• KHOA CƠNG NGHỆ THƠNG TIN CAO HOÀNG LONG ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRỢ GIÚP Tư VẤN HỌC TẬP TẠI TRƯỜNG ĐH SP HN KHĨA LUẬN TĨT NGHIỆP ĐẠI HỌC • ••• Chun ngành: Khoa học máy tính Người hướng dẫn khoa học PGS.TS TRỊNH ĐÌNH THẮNG HÀ NỘI - 2015 LỜI CAM ĐOAN Tên em là: Cao Hoàng Long Sinh viên lớp: K37A - Tin học, khoa Công nghệ Thông tin, trường Đại học Sư phạm Hà Nội Em xin cam đoan: Nội dung đề tài: “ứng dụng khai phá liệu ừợ giúp tư vấn học tập trường Đại học Sư phạm Hà Nội 2” nghiên cứu riêng em Kết nghiên cứu em không trùng với kết tác giả khác Nếu sai em xin hoàn toàn chịu trách nhiệm Sinh viên Cao Hoàng Long LỜI CẢM ƠN Để hồn thành khóa luận này, trước tiên em xin gửi lời cảm ơn chân thành đến toàn thể thầy cô ừong Khoa CNTT trường Đại học Sư Phạm Hà Nội 2, người giảng dạy cho em nhiều kiến thức thời gian học tập trường Trên hết, trình tìm hiểu nghiên cứu đề tài này, em nhận giúp đỡ nhiệt tình từ giảng viên hướng dẫn PGS.TS Trịnh Đình Thắng để em hồn thành khóa luận cách hồn Với lòng biết ơn sâu sắc, em xin gửi lời cảm ơn tới quý thầy cô chúc quý thầy cô dồi sức khỏe để tiếp tục đào tạo hệ sinh viên tương lai Và em xin gửi lời cảm ơn chân thành tới người thân bạn bè bên cạnh giúp đỡ động viên em thời gian Với điều kiện thời gian nghiên cứu vốn kiến thức thân em cịn hạn chế nên chương trình khơng tránh khỏi thiếu sót Em mong nhận bảo quý báu quý thày, cô giáo bạn bè để chương trình em hồn thiện Em xin chân thành cảm ơn! Vĩnh Phúc, ngày 08 tháng 05 năm 2015 Sinh viên Cao Hoàng Long MỤC LỤC DANH MỤC HÌNH ẢNH VÀ BẢNG Tên hình (bảng) Trang Hình 1.1 Kiến trúc hệ thống khai phá liệu 11 Hình 1.2 Các bước trình khai phá liệu 14 Hình 2.1 Lược đô biêu diên tập mục cân xét đươc loai bỏ theo hỗ trơ 29 •••• Hình 3.1 Sơ đô quan hệ sở liệu điêm sinh viền Hình 3.2 Nhập thơng tin sinh viên 43 45 Hình 3.3 Danh mục mơn học 45 Hình 3.4 Chỉ tỉêt mơn hoc 45 Hình 3.5 Cập nhật đỉêm sinh viền 46 Hình 3.6 Kêt sau khỉ khai phá liệu 47 Bảng 2.1 Ví dụ vê thuật tốn Aprỉorỉ 37 • Bảng 2.2 Ví dụ vê thuật tốn Aprỉorỉ trợ giúp tư 40 vân học tập Bảng 3.1 Ví dụ vê CSDL điềm sinh viên Bảng 3.2 Thuộc tính đỉêm chia thành 44 44 khoảng ký hiệu Bảng 3.3 CSDL điểm mã hóa 44 MỞ ĐẦU Lý chọn đề tài Trong thời đại ngày với phát triển vượt bậc cơng nghệ thơng tin, hệ thống thơng tin lưu trữ khối lượng liệu lớn hoạt động hàng ngày chúng Từ khối liệu này, kĩ thuật khai phá liệu dùng để trích xuất thơng tin hữu ích mà chứng ta chưa biết Các tri thức vừa tìm vận dụng để cải thiện hoạt động hệ thống thông tin ban đàu Việc chọn lọc liệu có ích từ lượng liệu khổng lồ giúp cải thiện hoạt động hay dự đoán giúp đưa định tương lai xác Từ phát triển kĩ thuật cho phép khai thác tri thức hữu dụng từ sở liệu lớn gọi kĩ thuật khai phá liệu, ứng dụng nhiều lĩnh vực như: kinh tế, tài chính, giáo dục, y tế Trong đó, lĩnh vực giáo dục quan tâm hàng đàu để định hướng, xây dựng sách giáo dục đào tạo cần phải hỗ trợ công cụ khoa học để tránh sai lầm đáng tiếc Khai phá liệu cơng cụ hữu ích có tính khoa học cao giúp nhà quản lý có tri thức quý giá phục vụ công tác quản lý học sinh, sinh viên sử dụng kết hữu ích từ q trình chắt lọc khai phá liệu Việc khai phá luật kết họp đào tạo chưa nghiên cứu ứng dụng cách triệt để Trong thời gian học môn "Các vấn đề đại khoa học máy tính", em giảng viên giới thiệu qua khai phá liệu, nhung em trả lời câu hỏi "khai phá liệu gì?" mà chưa trả lời "khai phá liệu nào?" Qua lần nhận đề tài khóa luận em định chọn đề tài "ứng dụng khai phá liệu trợ giúp tư vấn học tập trường ĐHSPHN2" để tìm hiểu khai phá liệu áp dụng ngơi trường mà em theo học Mục đích nghiền cứu Tìm hiểu khai phá liệu, khai phá liệu luật kết họp, thuật toán Apriori ứng dụng vào tư vấn học tập cho sinh viên Nhiệm vụ nghiền cứu Nghiên cứu định nghĩa khai phá liệu, sâu tập trung tìm hiểu phương pháp khai phá viết chương trình demo Đổi tượng phạm vỉ nghiên cứu Khóa luận sâu vào nghiên cứu khai phá luật kết hợp thuật toán Apriori Cơ sở liệu điểm sinh viên khoa Công nghệ Thông tin trường đại học Sư phạm Hà Nội để tìm mối tương quan mơn học Giả thuyết khoa học Tìm hiểu phương pháp khai phá liệu giúp người lập trình hiểu rõ việc phát thơng tin hữu ích sở liệu lớn Từ việc định hướng cho hoạt động tương lai ừở nên dễ dàng Chương trình xây dựng đưa vào thực tế ừợ giúp để phát liên hệ môn học để trợ giúp tư vấn cho sinh viên, hiệu so với phương pháp truyền thống Phương pháp nghiên cứu • Phương pháp nghiên cứu lý luận Nghiên cứu qua việc đọc sách, báo tài liệu liên quan nhằm xây dựng sở lý thuyết đề tài biện pháp cần thiết để giải vấn đề đề tài • Phương pháp chuyên gia Tham khảo ý kiến chuyên gia để thiết kế chương trình phù họp với u cầu thực tiễn Nội dung xử lý nhanh đáp ứng nhu cầu ngày cao người dùng • Phương pháp thực nghiệm Thơng qua q trình học tập, trích rút mối liên hệ số môn học lý luận nghiên cứu kết đạt qua phương pháp 7 Cấu trúc khóa ỉn • Chương 1: Tổng quan khai phá liệu Nội dung chương giới thiệu khai phá liệu, kiến trúc hệ thống khai phá liệu, bước trình khai phá ứng dụng khai phá liệu • Chương 2: Một số phương pháp khai phá liệu Chương trình bày bước trình khai phá tìm giải pháp thuật tốn phù họp để tiến hành khai phá Một số phương pháp trình bày chương là: - Phương pháp phân lớp - Phương pháp gom cụm - Phương pháp dự báo - Phương pháp khai phá luật kết hợp • Chương 3: Khai phá liệu ừên CSDL điểm sinh viên để trợ giúp tư vấn học tập Chương xây dựng chương trình demo để thử nghiệm CSDL điểm khoa CNTT trường Đại học Sư Phạm HN để tìm mối liên hệ mơn học qua thuật toán Apriori CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu ỉà 1.1.1 Định nghĩa Khai phá liệu (data mining) hay khám phá tri thức tị liệu việc trích rút mẫu tri thức quan ừọng tò lượng liệu lớn để phục vụ mục đích Khai phá liệu dùng để mơ tả trình phát tri thức CSDL Quá trình kết xuất tri thức tiềm ẩn tò liệu giúp cho việc dự báo kinh doanh, hoạt động sản xuất, Khai phá liệu làm giảm chi phí thời gian so với phương pháp truyền thống trước (ví dụ phương pháp thống kê) Sau số định nghĩa mang tính mơ tả nhiều tác giả khai phá liệu: Định nghĩa Ferruzza: “Khai phá liệu tập hợp phương pháp dùng ừong tiến trình khám phá tri thức để khác biệt mối quan hệ mẫu chưa biết bên liệu” Định nghĩa Parsaye: “Khai phá liệu trình trợ giúp định, ừong tìm kiếm mẫu thơng tin chưa biết bất ngờ CSDL lớn” Định nghĩa Fayyad: “Khai phá tri thức trình khơng tầm thường nhận mẫu liệu có giá trị, mới, hữu ích, tiềm hiểu được” Các vấn đề tương tự: - Khám phá tri thức sở liệu - Trích rút tri thức 1.1.2 - Phân tích mẫu/dữ liệu Các ứng dụng khai phá liệu Phát tri thức khai phá liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, sở liệu, thuật tốn, tính tốn song song tốc độ cao, thu thập tri thức cho hệ chuyên gia, quan sát liệu Đặc biệt phát tri thức khai phá liệu gàn gũi với lĩnh vực thống kê, sử dụng phương pháp thống kê để mơ hình liệu phát mẫu, luật Ngân hàng liệu (Data Warehousing) cơng cụ phân tích trực tuyến (OLAPOn Line Analytical Processing) liên quan chặt chẽ với phát tri thức khai phá liệu Khai phá liệu có nhiều ứng dụng thực tế, ví dụ như: Bảo hiểm, tài thị trường chứng khốn: phân tích tình hình tài dự báo giá loại cổ phiếu ừong thị trường chứng khoán Danh mục vốn giá, lãi suất, liệu thẻ tín dụng, phát gian lận, Điều tri y học chăm sóc y tế: số thơng tin chuẩn đốn bệnh lưu hệ thống quản lý bệnh viện Phân tích mối liên hệ triệu chứng bệnh, chuẩn đoán phương pháp điều ừị (chế độ dinh dưỡng, thuốc, ) Sản xuất chế biến: Quy trình, phương pháp chế biến xử lý cố Text mining Web mining: Phân lớp văn trang Web, tóm tắt văn bản, Lĩnh vực khoa học: Quan sát thiên văn, liệu gene, liệu sinh vật học, tìm kiếm, so sánh hệ gene thơng tin di truyền, mối liên hệ gene số bệnh di truyền, Mạng viễn thơng: Phân tích gọi điện thoại hệ thống giám sát lỗi, cố, chất lượng dịch vụ, 2.3.3 C ác ứng dụng gom cụm Tiếp thị: khám phá nhóm khách hàng phân biệt CSDL mua hàng Hoạc h định thành phố: nhận dạng nhóm nhà cửa theo loại nhà, giá trị vị trí địa lý Bảo hiểm: dạng nhóm nhận cơng ty có sách bảo hiểm Thươn g mại: nhận dạng sản phẩm hàng hóa, kinh doanh, Một phương pháp phân cụm tốt tạo cụm có chất lượng cao với: - Tương tự cao lớp - Tương tự thấp lớp Chất lượng kết gom cụm phụ thuộc vào: - Độ đo tương tự sử dụng - Phương pháp cài đặt độ đo tương tự Tươn g tự bất tương tự hai đối tượng: Định nghĩa tương tự bất tương tự đối tượng phụ thuộc: Loại liệu khảo sát loại tương tự cần thiết - Tương tự/bất tương biểu tự diễn qua độ đo khoảng cách d(x,y) - Độ đo khoảng cách thỏa mãn điều kiện: * d(x,y) > * d(x,y) =0 x=y * d(x,y) = d(y,x) * d(x,z) < d(x,y) + d(y,z) 2.4 Phương pháp khai phá luật kết họp 2.4.1 G iói thiệu luật kết họp Trong lĩnh vực Data Mining, mục đích luật kết họp (Association Rule - AR) tìm mối quan hệ đối tượng khối lượng lớn liệu Nội dung luật kết họp tóm tắt 2.4.2 B ài tốn Cho sở liệu gồm giao dịch T tập giao dịch tl, t2, t n T = {ti, t2, tn} T gọi sở liệu giao dịch (transaction Database) Mỗi giao dịch ti bao gồm tập đối tượng I (gọi itemset) I = {il, Ỉ , • • -, im}- Một itemset gồm k items gọi k-itemset Mục đích luật kết họp tìm kết họp (association) hay quan tương (correlation) items Những luật kết họp có dạng X =>Y Luật kết họp X =>Y hiểu người mua mặt hàng tập X thường mua hàng mặt tập Y (X Y gọi itemset) Ví dụ tốn tư vấn học tập X={Tốn cao cấp 3, Giải tích số} Y={Hệ điều hành, Tốn rời rạc} chứng ta nói sinh viên học tốt Tốn cao cấp giải tích số học tốt Hệ hành điều Toán rời rạc Theo quan điểm thống kê, X xem biến độc lập (Independen t variable) Y xem biến phụ thuộc (Dependent variable) Độ hỗ trợ (support) độ tin (confidence) tham số dùng để đo lường luật kết họp Độ hỗ trợ (support) luật kết họp X =>Y tần suất giao dịch chứa tất items hai tập X Y Ví dụ, support luật X =>Y 5% có nghĩa % giao dịch X Y mua Cơng thức để tính support luật X =>Y sau: support y) uy) ——— nGru Y) (X p(x = JV Trong đó: N tổng số giao dịch Độ tin cậy (Confidence ) luật kết hợp X =>Y xác suất xảy Y biết X Ví dụ độ tin cậy luật kết hợp {Apple} =>Banana} 80% có nghĩa 80% khách hàng mua Apple mua Banana Cơng thức để tính độ tin cậy luật kết họp X =>là xác suất có điều kiện Y biết X sau : , nỌfU Y ) confidence (X —'> 7) — PfyiJO — n{X) Trong đó: n(X) số giao dịch chứa X Để thu luật kết họp, ta thường áp dụng tiêu chí: minimum support (min_sup) minimum confidence (min_conf) Các luật thỏa mãn có support confidence thỏa mãn (lớn bằng) Minimum support Minimum confidence gọi luật mạnh (Strong Rle) Mini mum support Minimum confidence gọi giá trị ngưỡng (threshold) phải xác định trước sinh luật kết hợp Một itemsets mà tần suất xuất ...TRƯỜNG ĐẠI HỌC sư PHẠM HÀ NỘI • ••• KHOA CƠNG NGHỆ THƠNG TIN CAO HỒNG LONG ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRỢ GIÚP Tư VẤN HỌC TẬP TẠI TRƯỜNG ĐH SP HN KHÓA LUẬN TÓT NGHIỆP ĐẠI HỌC • ••• Chun... nghệ Thông tin, trường Đại học Sư phạm Hà Nội Em xin cam đoan: Nội dung đề tài: ? ?ứng dụng khai phá liệu ừợ giúp tư vấn học tập trường Đại học Sư phạm Hà Nội 2? ?? nghiên cứu riêng em Kết nghiên cứu... hỏi "khai phá liệu gì?" mà chưa trả lời "khai phá liệu nào?" Qua lần nhận đề tài khóa luận em định chọn đề tài "ứng dụng khai phá liệu trợ giúp tư vấn học tập trường ĐHSPHN2" để tìm hiểu khai