Nghiên cứu khai phá luật kết hợp và ứng dụng trong bài toán tư vấn học tập tại trường đại học giao thông vận tải phân hiệu tại thành phố hồ chí minh luận văn thạc sĩ ngành công nghệ thông tin

74 2 0
Nghiên cứu khai phá luật kết hợp và ứng dụng trong bài toán tư vấn học tập tại trường đại học giao thông vận tải   phân hiệu tại thành phố hồ chí minh luận văn thạc sĩ ngành công nghệ thông tin

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI NGUYỄN HỮU TÂN NGHIÊN CỨU KHAI PHÁ LUẬT KẾT HỢP VÀ ỨNG DỤNG TRONG BÀI TOÁN TƢ VẤN HỌC TẬP TẠI TRƢỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI PHÂN HIỆU THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SỸ KỸ THUẬT TP HỒ CHÍ MINH - 2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI NGUYỄN HỮU TÂN NGHIÊN CỨU KHAI PHÁ LUẬT KẾT HỢP VÀ ỨNG DỤNG TRONG BÀI TOÁN TƢ VẤN HỌC TẬP TẠI TRƢỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI PHÂN HIỆU THÀNH PHỐ HỒ CHÍ MINH NGÀNH: CƠNG NGHỆ THÔNG TIN MÃ SỐ: 8.48.02.01 LUẬN VĂN THẠC SỸ KỸ THUẬT NGƢỜI HƢỚNG DẪN KHOA HỌC TS NGUYỄN QUỐC TUẤN TP HỒ CHÍ MINH - 2019 i TRÍCH YẾU LUẬN VĂN CAO HỌC Họ tên học viên: Nguyễn Hữu Tân Năm sinh: Cơ quan công tác: Trƣờng Đại học Giao thơng vận tải – Phân hiệu Hồ Chí Minh Khóa: 25.1 Chun ngành: Cơng nghệ thơng tin Mã số: 8.48.02.01 Cán hƣớng dẫn: TS Nguyễn Quốc Tuấn Bộ môn: Mạng Các HTTT Tên luận văn: “Nghiên cứu khai phá luật kết hợp ứng dụng toán tƣ vấn học tập trƣờng Đại học Giao thông vận tải Phân hiệu thành phố Hồ Chí Minh” Mục đích nghiên cứu: Đối tƣợng nghiên cứu thông tin học tập sinh viên Từ liệu học tập sinh viên thực kỹ thuật khai phá liệu để tìm mối liên hệ kết học tập nhóm mơn học chun ngành với kết tốt nghiệp sinh viên để từ đƣa đánh giá trợ giúp cho trình học tập sinh viên Phƣơng pháp nghiên cứu kết đạt đƣợc: - Phƣơng pháp nghiên cứu đề tài: Nghiên cứu kỹ thuật khai phá liệu sử dụng luật kết hợp áp dụng cho việc phân tích liệu học tập sinh viên - Kết đạt đƣợc: Phân tích liệu học tập sinh viên để từ tìm mối liên hệ việc học tập môn với kết đầu sinh viên Điểm bình qn mơn học:……… Điểm bảo vệ luận văn: ……… Ngày 20 tháng 07 năm 2019 Xác nhận cán hƣớng dẫn TS Nguyễn Quốc Tuấn Học viên Nguyễn Hữu Tân ii LỜI CAM ĐOAN Học viên cam kết tự nghiên cứu thực đề tài này, kiến thức thực tiễn chun mơn đƣợc đào tạo q trình học Đại học Cao học trƣờng Giao thông Vận tải, ngành Cơng nghệ thơng tin khóa 25.1, với quan tâm, hƣớng dẫn trực tiếp thầy giáo TS Nguyễn Quốc Tuấn Mọi tham khảo luận văn đƣợc trích dẫn nguồn rõ ràng có độ xác cao phạm vi hiểu biết Mọi chép không hợp lệ, vi phạm quy chế đào tạo hay gian lận, tơi xin hồn tồn chịu trách nhiệm Hà Nội, ngày 20 tháng 07 năm 2019 Học viên Nguyễn Hữu Tân iii LỜI CẢM ƠN Để hoàn thành luận văn này, cố gắng thân, nhận đƣợc giúp đỡ thầy giáo, cô giáo bạn đồng nghiệp Trƣớc hết, tơi xin bày tỏ lịng kính trọng biết ơn sâu sắc tới Thầy giáo TS Nguyễn Quốc Tuấn, Trƣờng Đại học Giao thông Vận tải Hà Nội, ngƣời ln tận tình hƣớng dẫn, động viên giúp đỡ tơi hồn thành luận văn Tơi xin bày tỏ lịng biết ơn tới thầy cô giáo khoa Công nghệ thông tin khoa Sau Đại học – Trƣờng Đại học Giao thông Vận tải tạo điều kiện thuận lợi cho tơi q trình học tập, nghiên cứu Bên cạnh đó, tơi xin đƣợc gửi lời cảm ơn chân thành tới Trƣờng Đại học Giao thông vận tải nơi tơi cơng tác giúp đỡ nhiệt tình tạo điều kiện thuận lợi để tơi hồn thành luận văn Cuối cùng, tơi xin bày tỏ lịng biết ơn tới ngƣời thân gia đình, bạn bè đồng nghiệp động viên suốt q trình hồn thành khố học Xin trân trọng cảm ơn! Hà Nội, ngày 20 tháng 07 năm 2019 Học viên Nguyễn Hữu Tân MỤC LỤC TRÍCH YẾU LUẬN VĂN CAO HỌC i LỜI CAM ĐOAN ii LỜI CẢM ƠN iii MỤC LỤC DANH MỤC HÌNH ẢNH DANH MỤC TỪ VIẾT TẮT PHẦN MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ LUẬT KẾT HỢP 1.1 Tổng quan khai phá liệu 1.1.1 Mở đầu 1.1.2 Định nghĩa khai phá liệu 11 1.1.3 Quá trình khám phá tri thức 12 1.1.4 Kiến trúc hệ thống khai phá liệu 14 1.1.5 Các hƣớng tiếp cận kỹ thuật KPDL 16 1.1.6 Các dạng liệu khai phá 17 1.1.7 Một số ứng dụng khai phá liệu 18 1.2 Luật kết hợp (association rule) 19 1.2.1 Một số khái niệm 20 1.2.2 Luật kết hợp gì? 21 1.2.3 Bài toán khai phá luật kết hợp 22 1.2.4 Một số tính chất tập mục phả biến luật kết hợp 23 1.2.5 Các loại luật kết hợp 25 CHƢƠNG MỘT SỐ PHƢƠNG PHÁP KHAI PHÁ LUẬT KẾT HỢP 29 2.1 Mở đầu 29 2.2 Thuật tốn Apriori tìm tập mục phổ biến 29 2.3 Khai phá tập mục phổ biến theo hƣớng tiếp cận không sinh ứng cử 35 2.3.1 Mở đầu 35 2.3.2 Thuật toán xây dựng FP_Tree 36 2.3.3 Khai phá tập mục phổ biến từ FP-Tree 38 2.4 Nhận xét thuật toán 41 2.5 Khai phá luật kết hợp từ tập mục phổ biến 42 CHƢƠNG XÂY DỰNG ỨNG DỤNG TƢ VẤN HỌC TẬP 44 3.1 Mơ tả tốn 44 3.2 Xây dựng mơ hình 45 3.3 Khai phá liệu học tập sinh viên 50 3.3.1 Phần mềm WEKA 50 3.3.2 Khai phá luật kết hợp từ liệu điểm sinh viên ngành CNTT 58 KẾT LUẬN 67 TÀI LIỆU THAM KHẢO 69 DANH MỤC HÌNH ẢNH Hình Q trình khám phá tri thức [1] 12 Hình Kiến trúc hệ KPDL 15 Hình Sinh tập mục ứng viên tập mục thƣờng xuyên 34 Hình Cây FP-Tree ghi đầy đủ thông tin mẫu thƣờng xuyên 40 Hình Kết học tập tồn khóa lớp ngành CNTT 47 Hình Giao diện phần mềm Weka 50 Hình Minh họa Header Data file ARFF 51 Hình Các kiểu liệu lƣu trữ file ARFF 52 Hình 10 Tiền xử lý liệu với Weka 53 Hình 11 Tìm tập phổ biến luật kết hợp với Apriori 53 Hình 12 Các tham số giải thuật Apriori 54 Hình 13 Kết chạy với giải thuật Apriori 55 Hình 14 Tìm tập phổ biến luật kết hợp với FP_Growth 56 Hình 15 Các tham số giải thuật FP_Growth 57 Hình 16 Kết chạy với giải thuật FP_Growth 58 Hình 17 Dữ liệu chuẩn hóa dạng arff 59 Hình 18 Dữ liệu đầu vào khai phá liệu 63 sinh viên với 15 học phần 60 Hình 19 Kết chạy giải thuật Apriori với điểm học phần tính theo hệ chữ 61 Hình 20 Hiển thị liệu điểm mức Đạt Khơng đạt 62 Hình 21 Kết chạy giải thuật Apriori với điểm thi mức Đạt Không đạt 63 Hình 22 Dữ liệu điểm sinh viên với mức đạt không đạt 64 Hình 23 Hiển thị thống kê số liệu điểm theo thuật tốn FP_Growth 65 Hình 24 Kết luật kết hợp tìm đƣợc theo thuật tốn FP_Growth 65 DANH MỤC TỪ VIẾT TẮT Ký hiệu viết tắt Tiếng Anh Tiếng Việt CSDL Database Cơ sở liệu KPDL Datamining Khai phá liệu TID Transaction Giao dịch Identification FP-Tree Frequent Pattern Tree Cây mẫu thƣờng xuyên Minsup Minimum support Độ hỗ trợ tối thiểu Minconf Minimum confidence Độ tin cậy tối thiểu PHẦN MỞ ĐẦU Tính cấp thiết đề tài Khai phá liệu (KPDL) khai thác thông tin tiềm ẩn mang tính dự đốn từ CSDL lớn, hƣớng tiếp cận có khả giúp đơn vị, tổ chức trọng vào thông tin có nhiều ý nghĩa từ tập liệu lớn (Databases, Data Warehouses, Data repositories) Các cơng cụ KPDL dự đoán đƣợc xu hƣớng tƣơng lai đơn vị, tố chức đƣa định mang tính định hƣớng kịp thời dựa tri thức mà đem lại Sự phân tích liệu cách tự động mang tính dự báo KPDL có ƣu hẳn so với phƣơng pháp phân tích thơng thƣờng dựa kiện khứ hệ hỗ trợ định truyền thống trƣớc Trong thập niên gần đây, khai phá liệu (KPDL) trở thành hƣớng nghiên cứu đƣợc nhiều khoa học quan tâm lĩnh vực khoa học máy tính cơng nghệ tri thức Trong q trình phát triến với hàng loạt nghiên cứu, đề xuất đƣợc thử nghiệm ứng dụng thành công vào đời sống, chứng tỏ KPDL lĩnh vực nghiên cứu ổn định, có tảng vững KPDL bao hàm nhiều hƣớng tiếp cận khác Các kỹ thuật đƣợc áp dụng lĩnh vực phần lớn đƣợc thừa kế từ lĩnh vực sở liệu (CSDL), học máy, trí tuệ nhân tạo, lý thuyết thơng tin, xác xuất thống kê tính tốn hiệu cao (hight performance computing) Các toán chủ yếu KPDL khai phá luật kết hợp (Association rules mining), phân lớp/dự đoán classihcation/prediction), phân cụm (clustering), khai phá chuỗi (Sequence mining), Lĩnh vực điểm hội tụ giao thoa nhiều lĩnh vực khác KPDL đƣợc ứng dụng thành công thƣơng mại, tài & thị trƣờng chứng khốn, sinh học, y học, giáo dục, viễn thông, 55 - [lowerBoundMinSupport, upperBoundMinSupport]: Độ phổ biến tập hạng mục khai thác đƣợc nằm khoảng - metricType: Độ đo tính lý thú luật kết hợp, gồm có Confidence, Lift, Leverage, Conviction - minMetric: Các luật khai thác đƣợc có độ đo thỏa giá trị - numRule delta: Thuật tốn ln khởi động với mức độ lý thú mục tiêu cao Khisố luật đạt số numRule, thuật toán dừng, ngược lại giá trị minMetric giảm lượng delta để tìm luật có độ đo lý thú thấp - outputItemsets: Kết xuất tập phổ biến kết Sau chọn Start để thực giải thuật Apriori cho liệu đƣợc chọn, ta thu đƣợc kết kích thƣớc tập phổ biến nhƣ tập luật kết hợp thỏa mãn ràng buộc độ hỗ trợ tối thiểu độ tin cậy tối thiểu nh 12 Kết chạy với giải thuật Apriori 56 3.3.1.5 Tập phổ biến luật kết hợp với FP_Growth Weka hỗ trợ việc tìm tập phổ biến luật kết hợp với thuật toán FP_Growth Đầu tiên ta chọn kiểu tìm kiếm tập phổ biến FP_Growth sau điều chỉnh tham số cho phù hợp với thuật toán FP_Growth nh 13 Tìm tập phổ biến luật kết hợp với FP_Growth 57 nh 14 Các tham số giải thuật FP_Growth Ngoài tham số nhƣ Apriori, FP-Growth Weka đƣợc hỗ trợ số tiện ích khác: - findAllRulesForSupportedLevel: Khai thác tất luật với độ đo lƣợng chọn - maxNumberofItems:Số hạng mục tối đa lụât khai thác đƣợc - rulesMustContainvà transactionsMustContain:Chỉ khai thác hạng mục đƣợc quan tâm 58 Kết tìm tập phổ biến luật kết hợp với giải thuật FP_Growth nh 15 Kết chạy với giải thuật FP_Growth Ngoài ra, phần mềm Weka cho phép thực phân loại liệu với nhiều giải thuật khác nhƣ Naïve Bayes, Bayes Net, … Weka hỗ trợ phân cụm liệu với giải thuật phổ biến nhƣ k-means, 3.3.2 Khai phá luật kết hợp từ liệu điểm sinh viên ngành CNTT Phần mềm Weka phù hợp với khai phá liệu nói chung nhƣ việc khai phá liệu giáo dục Phần mềm cung cấp đầy đủ giải thuật khai phá luật kết hợp Apriori FP-Growth Chính vậy, thay cài đặt giải thuật định chọn phần mềm Weka để thực khai phá liệu cho luận văn Sau thực tiền xử lý liệu kết điểm thi kết thúc học phần sinh viên, liệu đƣợc chuyển sang lƣu dƣới định dạng file ARFF để phù hợp với phần mềm Weka 59 3.3.2.1 Sử dụng giải thuật Apriori Để sử dụng giải thuật Apriori, luận văn sử dụng phép chuyển đổi liệu điểm thi học phần dạng điểm chữ nhƣ trình bày phần 3.2 Tạo file với tên tên tập luật cần khai phá, có phần mở rộng arff Trong file này, tên lớp bổ sung thêm @relation trƣớc Các học phần chuyển thành tên thuộc tính rút gọn cột điểm đƣợc quy đổi dạng chữ Ta lƣu file dƣới dạng csv (Comma delimited) lƣu lại Mở file arff tạo, thêm từ khóa @data vào cuối file chép toàn liệu file text vừa tạo sang Nhƣ ta chuẩn hóa đƣợc file liệu dạng excel sang dạng chuẩn arff Dữ liệu sau chuẩn hóa dạng arff nhƣ sau: nh 16 Dữ liệu chuẩn hóa dạng arff 60 Sau nhập file liệu xử lý 15 học phần vào phần mềm Weka ta thu đƣợc kết sau nh 17 Dữ liệu đầu vào khai phá liệu 63 sinh viên với 15 học phần Kết khai phá tập luật kết hợp theo thuật toán Apriori với minsupp =0.3, minconf=0.5 61 nh 18 Kết chạy giải thuật Apriori với điểm học phần tính theo hệ chữ Qua kết chạy giải thuật Apriori ta thấy luật sinh phù hợp với thực tế nhƣ mối liên hệ làm đồ án tốt nghiệp kết thực tập tốt nghiệp (luật luật 2): làm thực tập tốt nghiệp tốt kết đồ án tốt nghiệp tốt ngƣợc lại Ngồi luật cịn lại hiển nhiên thực tập chuyên ngành đồ án tốt nghiệp học phần sinh viên tập trung làm đồ án nên kết tƣơng đồng Các luật sinh đƣợc liên quan môn học khác với phần điểm thi đƣợc phân chia thành nhiều mức theo thực tế Chính tác giả thay đổi giá trị điểm thi có mức Đạt Không đạt để thực khai phá liệu tìm luật kết hợp thể mối liên hệ môn học với kết tốt nghiệp 62 nh 19 Hiển thị liệu điểm mức Đạt Không đạt 63 Kết khai phá tập luật kết hợp theo thuật toán Apriori với minsupp =0.3, minconf=0.5 nh 20 Kết chạy giải thuật Apriori với điểm thi mức Đạt Không đạt Kết thu đƣợc từ giải thuật Apriori với đầu vào điểm thi xét mức Đạt Không đạt cho thấy đƣợc liên hệ mật thiết học phần Lập trình hƣớng đối tƣợng với học phần Tốn rời rạc, Các học phần lập trình (Lập trình thiết bị di động) với học phần thực tốt nghiệp học phần đồ án tốt nghiệp điều hoàn toàn phù hợp với thực tế học phần thực tập tốt nghiệp đồ án tốt nghiệp sử dụng ngơn ngữ lập trình để cài đặt Từ giúp cho mơn CNTT có định hƣớng việc xây dựng chƣơng trình đào tạo đề cƣơng học phần 3.3.2.2 Sử dụng giải thuật FP_Growth Đầu tiên ta thực chuẩn hóa liệu nhƣ chuẩn hóa liệu sử dụng cho thuật tốn Apriori Tất phƣơng án lựa chọn đƣợc hiển thị phần quan hệ liệu Nếu phƣơng án đƣợc lựa chọn, đƣợc thị chữ “t” bảng 64 liệu, nêu phƣơng án lựa chọn khơng xuất thay thể dấu “?” nh 21 Dữ liệu điểm sinh viên với mức đạt không đạt 65 nh 22 Hiển thị thống kê số liệu điểm theo thuật toán FP_Growth Chạy giải thuật FP_Growth với minsup = 0.3 minconf =0.5 nh 23 Kết luật kết hợp t m theo thuật toán FP_Growth Kết thu đƣợc từ giải thuật FP_Growth với đầu vào điểm thi xét mức Đạt Không đạt cho thấy đƣợc liên hệ mật thiết học phần lập trình với Thực tập chuyên môn Thực tập chuyên ngành nhƣ Đồ án tốt nghiệp phản ánh thực tế diễn môn CNTT học phần Thực tập chuyên môn, Thực tập chuyên ngành Đồ 66 án tốt nghiệp yêu cầu sinh viên hoàn thành đề tài liên quan đến lập trình Kết thuật tốn FP_Growth tƣơng đồng với kết thuật toán Apriori 67 KẾT LUẬN Kết luận Một phƣơng pháp quan trọng kỹ thuật khai phá liệu mà luận văn sâu tìm hiểu khai phá luật kết hợp Mục tiêu phƣơng pháp phát đƣa mối liên hệ giá trị liệu sở liệu Mẫu đầu giải thuật khai phá liệu luật kết hợp tìm đƣợc Phƣơng pháp đƣợc sử dụng hiệu lĩnh vực nhƣ maketing có chủ đích, phân tích định, quản lý kinh doanh, phân tích giá thị trƣờng … Luận văn tổng kết kiến thức phƣơng pháp khai phá luật kết hợp Có thể xem đề tài tài liệu tham khảo đầy đủ, rõ ràng kiến thức phƣơng pháp phát luật kết hợp Đồng thời, từ việc tìm hiểu kỹ thuật khai phá liệu, vấn đề liên quan đến khai phá luật kết hợp nhằm phát đƣa mối liên hệ giá trị liệu CSDL đề tài áp dụng chúng vào toán hỗ trợ tƣ vấn học tập cho sinh viên trƣờng Đại học Giao thông Vận tải Phân hiệu Thành phố Hồ Chí Minh dựa thuật tốn Apriori FP_Growth Hƣớng phát triển Một công việc quan trọng khai phá luật kết hợp tìm tất tập phổ biến sở liệu, nên thời gian tới luận văn mở rộng nghiên cứu theo hƣớng: Ứng dụng thuật toán song song áp dụng cho toán khai phá luật kết hợp mờ Tiếp tục hoàn thiện hệ thống hỗ trợ tƣ vấn học tập cho sinh viên ứng dụng thêm vào nội dung khác lĩnh vực quản lý đào tạo Tìm hiểu thêm chế lọc luật, giúp chƣơng trình loại bỏ luật vơ nghĩa tăng khả tìm đƣợc luật có ích 68 Mở rộng việc tìm luật nhiều thuộc tính khác liên quan đến sinh viên, nhƣ vùng miền, điểm tuyển sinh,… Do số lƣợng sinh viên ngành CNTT Phân hiệu thành phố Hồ Chí Minh thấp nên thử nghiệm khoa có số lƣợng sinh viên đơng để kiểm nghiệm đánh giá kết đƣợc tốt 69 TÀI LIỆU THAM KHẢO [1] Jiawei Han, Micheline Kamber, and Jian Pei (2011), Data Mining: Concepts and Techniques, 3rd edition, Morgan Kaufmann [2] Jiye Li, Nick Cercone(2005), “Discovering and Ranking Important Rules” Granular Computing, IEEE International Conference on Volume [3] L Geng and H J Hamilton(2006) “Interestingness measures for data mining: A survey” ACM Comput Surv., 38(3):9 [4] P.Tan, V.Kumar, J.Sivastava(2002) “Selecting the Right Interestingness Measure for Association Patterns”, in SIGKDD’02 ACM [5] Rakesh Agrawal and R Srikant (1994) “Fast algorithms for mining association rules” The International Conference on Very Large Databases, pages 487– 499 [6] Rakesh Agrawal, Tomasz Imielinski, and Arun Swami (1993), “Mining association rules between sets of items in large database”, In proc of the ACM SIGMOD Conference on Management of Data, Washington, D.C [7] Remco R Bouckaert, Eibe Frank (2013), Weka Manual for version 3-7- 8, The University of Waikato [8] http://www.cs.waikato.ac.nz/~ml/weka/

Ngày đăng: 31/05/2023, 08:31

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan