Nghiên cứu một số kỹ thuật khai phá luật kết hợp và ứng dụng trong bài toán tư vấn học tập tại trường cao đẳng kỹ nghệ ii luận văn thạc sỹ ngành công nghệ thông tin

80 3 0
Nghiên cứu một số kỹ thuật khai phá luật kết hợp và ứng dụng trong bài toán tư vấn học tập tại trường cao đẳng kỹ nghệ ii luận văn thạc sỹ ngành công nghệ thông tin

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI NGUYỄN VĂN HƢNG NGHIÊN CỨ ỘT TH ẬT H I PH ẬT T H P VÀ ỨNG DỤNG TRONG BÀI TO N TƢ VẤN HỌC TẬP TẠI TRƢỜNG C O ĐẲNG K NGHỆ II LUẬN VĂN THẠC S K THUẬT TP Hồ Chí Minh – 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI NGUYỄN VĂN HƢNG NGHIÊN CỨ ỘT TH ẬT H I PH ẬT T H P VÀ ỨNG DỤNG TRONG BÀI TO N TƢ VẤN HỌC TẬP TẠI TRƢỜNG C O ĐẲNG K NGHỆ II NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ S : 60.48.02.01 LUẬN VĂN THẠC S K THUẬT NGƢỜI HƢỚNG DẪN KHOA HỌC TS NGUYỄN QU C TUẤN TP Hồ Chí Minh – 2017 i TRÍCH Y U LUẬN VĂN C O HỌC Họ tên học viên: NGUYỄN VĂN HƢNG Năm sinh: 1979 Cơ quan công tác: TRƢỜNG CAO ĐẲNG KỸ NGHỆ II Khóa: 23.2 – Phân hiệu Hồ Chí Minh Chun ngành: Cơng nghệ thơng tin Mã số: 60.48.02.01 Giảng viên hƣớng dẫn: TS Nguyễn Quốc Tuấn; Bộ môn: Mạng Các HTTT Tên luận văn: “Nghiên p v ứng dụng rong b ộ ậ o n ƣ vấn học tập p ậ rƣờng C O ĐẲNG K NGHỆ II” Mục đích nghiên cứu: Đối tƣợng nghiên cứu thông tin học tập sinh viên Từ liệu học tập sinh viên thực kỹ thuật khai phá liệu để tìm mối liên hệ kết học tập nhóm mơn học chun ngành với kết tốt nghiệp sinh viên để từ đƣa đánh giá trợ giúp cho trình học tập sinh viên Phƣơng pháp nghiên cứu kết đạt đƣợc: - Phƣơng pháp nghiên cứu đề tài: Nghiên cứu kỹ thuật khai phá liệu sử dụng luật kết hợp áp dụng cho việc phân tích liệu học tập sinh viên - Kết đạt đƣợc: Phân tích liệu học tập sinh viên để từ tìm mối liên hệ việc học tập môn với kết đầu sinh viên Đ ểm bình qn mơn học:…… Đ ểm t t nghiệp/luận văn: … Ngày 09 tháng 02 năm 2018 Xác nhận Giảng viên hƣớng dẫn TS Nguyễn Qu c Tuấn Học viên Nguyễn Văn Hƣng ii LỜI C ĐO N Học viên cam kết tự nghiên cứu thực đề tài này, kiến thức thực tiễn chun mơn đƣợc đào tạo q trình học Cao học trƣờng Giao thông Vận tải – Phân hiệu Hồ Chí Minh, ngành Cơng nghệ thơng tin khóa 23.2, với quan tâm, hƣớng dẫn trực tiếp Giảng viên TS Nguyễn Qu c Tuấn Mọi tham khảo luận văn đƣợc trích dẫn nguồn rõ ràng có độ xác cao phạm vi hiểu biết Mọi chép không hợp lệ, vi phạm quy chế đào tạo hay gian lận, xin hoàn toàn chịu trách nhiệm Tp HCM, ngày 09 tháng 02 năm 2018 Học viên Nguyễn Văn Hƣng iii LỜI CẢ ƠN Để hoàn thành luận văn này, ngồi cố gắng thân, tơi nhận đƣợc giúp đỡ quý thầy giáo, cô giáo bạn đồng nghiệp Trƣớc hết, xin bày tỏ lịng kính trọng biết ơn sâu sắc tới Giảng viên TS Nguyễn Quốc Tuấn, Trƣờng Đại học Giao thơng Vận tải, ngƣời ln tận tình hƣớng dẫn, động viên giúp đỡ tơi hồn thành luận văn Tơi xin bày tỏ lịng biết ơn tới thầy cô giáo khoa Công nghệ thông tin khoa Sau Đại học - Trƣờng Đại học Giao thông Vận tải tạo điều kiện thuận lợi cho tơi q trình học tập, nghiên cứu Bên cạnh đó, tơi xin đƣợc gửi lời cảm ơn chân thành tới Trƣờng Cao Đẳng Kỹ Nghệ II nơi tơi cơng tác giúp đỡ nhiệt tình tạo điều kiện thuận lợi để tơi hồn thành luận văn Cuối cùng, tơi xin bày tỏ lịng biết ơn tới ngƣời thân gia đình, bạn bè đồng nghiệp động viên suốt trình hồn thành khố học Xin trân trọng cảm ơn! Tp HCM, ngày 09 tháng 02 năm 2018 Học viên Nguyễn Văn Hƣng iv MỤC LỤC TRÍCH YẾU LUẬN VĂN CAO HỌC i LỜI CAM ĐOAN ii LỜI CẢM ƠN iii MỤC LỤC iv DANH MỤC HÌNH ẢNH vi DANH MỤC TỪ VIẾT TẮT viii PHẦN MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ LUẬT KẾT HỢP 1.1 Tổng quan khai phá liệu 1.1.1 Mở đầu 1.1.2 Định nghĩa khai phá liệu 1.1.3 Quá trình khám phá tri thức 1.1.4 Kiến trúc hệ thống khai phá liệu 1.1.5 Các hướng tiếp cận kỹ thuật KPDL 12 1.1.6 Các dạng liệu khai phá 13 1.1.7 Một số ứng dụng khai phá liệu 13 1.2 Luật kết hợp (association rule) 14 1.2.1 Một số khái niệm 15 1.2.2 Luật kết hợp gì? 16 1.2.3 Bài toán khai phá luật kết hợp 17 1.2.4 Một số tính chất tập mục phả biến luật kết hợp 17 1.2.5 Các loại luật kết hợp 19 v CHƢƠNG MỘT SỐ PHƢƠNG PHÁP KHAI PHÁ LUẬT KẾT HỢP 23 2.1 Mở đầu 23 2.2 Thuật tốn Apriori tìm tập mục phổ biến 23 2.3 Khai phá tập mục phổ biến theo hƣớng tiếp cận không sinh ứng cử 29 2.3.1 Mở đầu 29 2.3.2 Thuật toán xây dựng FP_Tree 30 2.3.3 Khai phá tập mục phổ biến từ FP-Tree 32 2.4 Nhận xét thuật toán 35 2.5 Khai phá luật kết hợp từ tập mục phổ biến 36 2.6 Đánh giá độ tin cậy luật 37 2.6.1 Độ đo hữu ích luật [4][7] 38 2.6.2 Độ đo quan trọng luật (RIM) 42 CHƢƠNG XÂY DỰNG ỨNG DỤNG TƢ VẤN HỌC TẬP 46 3.1 Mơ tả tốn 46 3.2 Xây dựng mơ hình 47 3.3 Khai phá liệu học tập sinh viên 50 3.3.1 Phần mềm WEKA 50 3.3.2 Khai phá luật kết hợp từ liệu điểm sinh viên trường Cao đẳng Kỹ nghệ II 61 KẾT LUẬN 68 TÀI LIỆU THAM KHẢO 70 vi DANH MỤC HÌNH ẢNH Hình Quá trình khám phá tri thức [5] Hình Kiến trúc hệ KPDL 10 Hình Sinh tập mục ứng viên tập mục thƣờng xuyên 28 Hình Cây FP-Tree ghi đầy đủ thơng tin mẫu thƣơng xun 34 Hình Sơ đồ đánh giá độ quan trọng luật 43 Hình Kết học tập tồn khóa sinh viên trƣờng Cao Đẳng Kỹ Nghệ II 50 Hình Kết học tập tồn khóa sinh viên dạng xếp loại điểm 50 Hình Giao diện phần mềm Weka 51 Hình Minh họa Header Data file ARFF 52 Hình 10 Các kiểu liệu lƣu trữ file ARFF 53 Hình 11 Tiền xử lý liệu với Weka 54 Hình 12 Tìm tập phổ biến luật kết hợp với Apriori 54 Hình 13 Các tham số giải thuật Apriori 55 Hình 14 Kết chạy với giải thuật Apriori 56 Hình 15 Tìm tập phổ biến luật kết hợp với FP_Growth 57 Hình 16 Các tham số giải thuật FP_Growth 58 Hình 17 Kết chạy với giải thuật FP_Growth 59 Hình 18 Phân loại liệu với thuật tốn Nạve Bayes 59 Hình 19 Kết phân loại liệu với thuật toán Nạve Bayes 60 Hình 20 Phân cụm liệu với k-means 60 Hình 21 Kết phân cụm liệu với k-means 61 Hình 22 Dữ liệu chuẩn hóa dạng arff 62 vii Hình 23 Dữ liệu đầu vào khai phá liệu 152 sinh viên với 16 học phần 63 Hình 24 Kết chạy giải thuật Apriori với điểm học phần tính theo xếp loại điểm 64 Hình 25 Dữ liệu điểm sinh viên với mức đạt khơng đạt 65 Hình 26 Hiển thị thống kê số liệu điểm theo thuật toán FP_Growth 66 Hình 27 Kết luật kết hợp tìm đƣợc theo thuật tốn FP_Growth 67 viii DANH MỤC TỪ VI T TẮT Ký hiệu vi t tắt Ti ng Anh Ti ng Việt CSDL Database Cơ sở liệu FP-Tree Frequent Pattern Tree Cây mẫu thƣờng xuyên KPDL Datamining Khai phá liệu Minconf Minimum confidence Độ tin cậy tối thiểu Minsup Minimum support Độ hỗ trợ tối thiểu TID Transaction Giao dịch Identification 56 - [lowerBoundMinSupport, upperBoundMinSupport]: Độ phổ biến tập hạng mục khai thác đƣợc nằm khoảng - metricType: Độ đo tính lý thú luật kết hợp, gồm có Confidence, Lift, Leverage, Conviction - minMetric: Các luật khai thác đƣợc có độ đo thỏa giá trị - numRule delta: Thuật tốn ln khởi động với mức độ lý thú mục tiêu cao Khisố luật đạt số numRule, thuật toán dừng, ngược lại giá trị minMetric giảm lượng delta để tìm luật có độ đo lý thú thấp - outputItemsets: Kết xuất tập phổ biến kết Sau chọn Start để thực giải thuật Apriori cho liệu đƣợc chọn, ta thu đƣợc kết kích thƣớc tập phổ biến nhƣ tập luật kết hợp thỏa mãn ràng buộc độ hỗ trợ tối thiểu độ tin cậy tối thiểu nh 14 Kết chạy với giải thuật Apriori 57 3.3.1.5 Tập phổ biến luật kết hợp với FP_Growth Weka hỗ trợ việc tìm tập phổ biến luật kết hợp với thuật toán FP_Growth Đầu tiên ta chọn kiểu tìm kiếm tập phổ biến FP_Growth sau điều chỉnh tham số cho phù hợp với thuật toán FP_Growth nh 15 Tìm tập phổ biến luật kết hợp với FP_Growth 58 nh 16 Các tham số giải thuật FP_Growth Ngoài tham số nhƣ Apriori, FP-Growth Weka đƣợc hỗ trợ số tiện ích khác: - findAllRulesForSupportedLevel: Khai thác tất luật với độ đo lƣợng chọn - maxNumberofItems:Số hạng mục tối đa lụât khai thác đƣợc - rulesMustContainvà transactionsMustContain:Chỉ khai thác hạng mục đƣợc quan tâm 59 Kết tìm tập phổ biến luật kết hợp với giải thuật FP_Growth nh 17 Kết chạy với giải thuật FP_Growth 3.3.1.6 Phân loại liệu với Weka Phần mềm Weka cho phép thực phân loại liệu với nhiều giải thuật khác nhƣ Naïve Bayes, Bayes Net, … nh 18 Phân loại liệu với thuật tốn Nạve Bayes 60 nh 19 Kết phân loại liệu với thuật tốn Nạve Bayes 3.3.1.7 Phân cụm liệu với Weka Weka hỗ trợ phân cụm liệu với giải thuật phổ biến nhƣ kmeans, nh 20 Phân cụm liệu với k-means 61 Kết phân cụm liệu với k-means nh 21 Kết phân cụm liệu với k-means 3.3.2 Khai phá luật kết hợp từ liệu điểm sinh viên trường Cao đẳng Kỹ nghệ II Phần mềm Weka phù hợp với khai phá liệu nói chung nhƣ việc khai phá liệu giáo dục Phần mềm cung cấp đầy đủ giải thuật khai phá luật kết hợp Apriori FP-Growth Chính vậy, thay cài đặt giải thuật định chọn phần mềm Weka để thực khai phá liệu cho luận văn Sau thực tiền xử lý liệu kết điểm thi kết thúc học phần sinh viên, liệu đƣợc chuyển sang lƣu dƣới định dạng file ARFF để phù hợp với phần mềm Weka 3.3.2.1 Sử dụng giải thuật Apriori Để sử dụng giải thuật Apriori, luận văn sử dụng phép chuyển đổi 62 liệu điểm thi học phần dạng điểm chữ nhƣ trình bày phần 3.2 Tạo file với tên tên tập luật cần khai phá, có phần mở rộng arff Trong file này, tên lớp bổ sung thêm @relation trƣớc Các học phần chuyển thành tên thuộc tính rút gọn cột điểm đƣợc quy đổi dạng chữ Ta lƣu file dƣới dạng cvs (Comma delimited) lƣu lại Mở file arff tạo, thêm từ khóa @data vào cuối file chép toàn liệu file text vừa tạo sang Nhƣ ta chuẩn hóa đƣợc file liệu dạng excel sang dạng chuẩn arff Dữ liệu sau chuẩn hóa dạng arff nhƣ sau: nh 22 Dữ liệu chuẩn hóa dạng arff Sau nhập file liệu xử lý 16 học phần vào phần mềm Weka ta thu đƣợc kết sau 63 nh 23 Dữ liệu đầu vào khai phá liệu 152 sinh viên với 16 học phần Kết khai phá tập luật kết hợp theo thuật toán Apriori với minsupp =0.6, minconf=0.8 64 nh 24 Kết chạy giải thuật Apriori với điểm học phần tính theo xếp loại điểm Các luật kết hợp tìm đƣợc với giải thuật Apriori Qua kết chạy giải thuật Apriori ta thấy đƣợc mối liên hệ môn học giúp cho sinh viên thấy đƣợc tầm quan trọng môn học đến kết học tập 65 3.3.2.2 Sử dụng giải thuật FP_Growth Đầu tiên ta thực chuẩn hóa liệu nhƣ chuẩn hóa liệu sử dụng cho thuật tốn Apriori Tất phƣơng án lựa chọn đƣợc hiển thị phần quan hệ liệu Nếu phƣơng án đƣợc lựa chọn, đƣợc thị chữ “t” bảng liệu, nêu phƣơng án lựa chọn khơng xuất thay thể dấu “?” nh 25 Dữ liệu điểm sinh viên với mức đạt không đạt 66 nh 26 Hiển thị thống kê số liệu điểm theo thuật toán FP_Growth Chạy giải thuật FP_Growth với minsup = 0.6 minconf =0.8 67 nh 27 Kết luật kết hợp t m theo thuật toán FP_Growth Các luật kết hợp thu đƣợc từ giải thuật FP_Growth Kết thu đƣợc từ giải thuật FP_Growth với đầu vào điểm thi xét mức Đạt Không đạt cho thấy đƣợc liên hệ mật thiết học phần ngành Cơng nghệ tơ phản ánh thực tế diễn Trƣờng Cao Đẳng Kỹ Nghệ II 68 K T LUẬN K t luận Một phƣơng pháp quan trọng kỹ thuật khai phá liệu mà luận văn sâu tìm hiểu khai phá luật kết hợp Mục tiêu phƣơng pháp phát đƣa mối liên hệ giá trị liệu sở liệu Mẫu đầu giải thuật khai phá liệu luật kết hợp tìm đƣợc Phƣơng pháp đƣợc sử dụng hiệu lĩnh vực nhƣ maketing có chủ đích, phân tích định, quản lý kinh doanh, phân tích giá thị trƣờng … Luận văn tổng kết kiến thức phƣơng pháp khai phá luật kết hợp Có thể xem đề tài tài liệu tham khảo đầy đủ, rõ ràng kiến thức phƣơng pháp phát luật kết hợp Đồng thời, từ việc tìm hiểu kỹ thuật khai phá liệu, vấn đề liên quan đến khai phá luật kết hợp nhằm phát đƣa mối liên hệ giá trị liệu CSDL đề tài áp dụng chúng vào toán hỗ trợ tƣ vấn học tập cho sinh viên trƣờng CAO ĐẲNG KỸ NGHỆ II dựa thuật toán Apriori FP_Growth Hƣớng phát triển Một công việc quan trọng khai phá luật kết hợp tìm tất tập phổ biến sở liệu, nên thời gian tới luận văn mở rộng nghiên cứu theo hƣớng: Ứng dụng thuật toán song song áp dụng cho toán khai phá luật kết hợp mờ Tiếp tục hoàn thiện hệ thống hỗ trợ tƣ vấn học tập cho sinh viên ứng dụng thêm vào nội dung khác lĩnh vực quản lý đào tạo 69 Tìm hiểu thêm chế lọc luật, giúp chƣơng trình loại bỏ luật vơ nghĩa tăng khả tìm đƣợc luật có ích Mở rộng việc tìm luật nhiều thuộc tính khác liên quan đến sinh viên, nhƣ vùng miền, điểm tuyển sinh,… 70 TÀI LIỆU THAM KHẢO [1] R Agrawal and R Srikant (1994) “Fast algorithms for mining association rules” The International Conference on Very Large Databases, pages 487– 499 [2] R Agrawal, T Imielinski, and A Swami (1993), “Mining association rules between sets of items in large database”, In proc of the ACM SIGMOD Conference on Management of Data, Washington, D.C [3] R Bouckaert, E Frank (2013), Weka Manual for version 3-7-8, The University of Waikato [4] L Geng and H J Hamilton(2006) “Interestingness measures for data mining: A survey” ACM Comput Surv., 38(3):9 [5] J Han, M Kamber, and J Pei (2011), Data Mining: Concepts and Techniques, 3rd edition, Morgan Kaufmann [6] J Li, N Cercone(2005), “Discovering and Ranking Important Rules” Granular Computing, IEEE International Conference on Volume [7] P.Tan, V.Kumar, J.Sivastava(2002) “Selecting the Right Interestingness Measure for Association Patterns”, in SIGKDD’02 ACM [8] http://www.cs.waikato.ac.nz/~ml/weka/

Ngày đăng: 31/05/2023, 08:30

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan