TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN NGUYỄN THỊ THU TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG TRONG ĐÀO TẠO KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC Chuyên ngành: Sư phạm Tin học HÀ NỘI, 2019 TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN NGUYỄN THỊ THU TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG TRONG ĐÀO TẠO KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC Chuyên ngành: Sư phạm Tin học Giáo viên hướng dẫn: Đỗ Thị Lan Anh HÀ NỘI, 2019 LỜI CẢM ƠN Trong thời gian nghiên cứu làm đề tài, em gặp khơng khó khăn cách làm kiến thức Tuy nhiên, em nhận giúp đỡ tận tình giáo bạn, em hồn thành đề tài Có thành này, cho phép em bày tỏ lời cảm ơn đến thầy cô giáo Viện Công Nghệ Thông Tin Trường Đại Học Sư Phạm Hà Nội giúp em hồn thành chương tìn đề tài Đồng thời em gửi lời cảm ơn đặc biệt hướng dẫn bảo giáo Ths Đỗ Thị Lan Anh tận tình giúp đỡ em suốt q trình hồn thành chương trình đề tài Cùng với góp ý hỗ trợ bạn lớp K41- Sư phạm Tin học Tuy nhiên thời gian có hạn, kinh nghiệm thiếu nên đề tài khơng tránh khỉ thiếu xót, hạn chế định Những ý kiến, nhận xét thầy cô bạn sở để em học hỏi hồn thiện tốt kiến thức Em mong nhận nhận xét góp ý thầy cô bạn Em xin chân thành cảm ơn! Sinh viên thực Nguyễn Thị Thu LỜI CAM ĐOAN Tơi xin cam đoan khố luận hồn thành cố gắng thân, hướng dẫn tận tình giảng viên Ths Đỗ Thị lan Anh tham khảo số tài liệu ghi rõ nguồn Khố luận hồn tồn khơng chép từ tài liệu có sẵn Kết nghiên cứu không trùng lặp với tác giả khác Nếu sai, tơi xin hồn tồn chịu trách nhiệm! Sinh viên thực Nguyễn Thị Thu MỤC LỤC ĐẶT VẤN ĐỀ CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khái niệm khai phá liệu phát triển tri thức 1.2 Các bước trình phát tri thức 1.3 Kiến trúc hệ thống khai phá liệu 1.4 Các nhiệm vụ khai phá liệu 1.4.1 Phát luật tối ưu truy vấn ngữ nghĩa 1.4.2 Phát phụ thuộc sở liệu 1.4.3 Phát sai lệch 1.4.4 Phát luật kết hợp 1.4.5 Mơ hình hóa phụ thuộc 1.4.6 Mơ hình hóa nhân 1.4.7 Phân nhóm 10 1.4.8 Phân lớp 10 1.4.9 Hồi quy 11 1.4.10 Tổng hợp 11 1.5 Sơ lược số kĩ thuật khai phá liệu 12 1.5.1 Phân lớp liệu 12 1.5.2 Phân cụm liệu 12 1.5.3 Cây định 12 1.5.4 Luật kết hợp 13 1.5.5 Hồi quy 13 1.5.6 Mạng Nơron 14 1.5.7 Giải thuật di truyền 14 1.6 Các cách thức giải pháp 14 1.7 Kết luận 16 CHƯƠNG 2: CƠ SỞ LÍ THUYẾT LUẬT KẾT HỢP 17 2.1 Lí thuyết luật kết hợp 17 2.1.1 Luật thừa 17 2.1.2 Luật kết hợp 18 2.1.3 Một số tính chất luật kết hợp 21 2.1.4 Phát biểu toán khai phá luật kết hợp 22 2.1.5 Một số hướng tiếp cận khai phá luật kết hợp 23 2.2 Các đặc trưng luật kết hợp 26 2.2.1 Khơng gian tìm kiếm luật 26 2.2.2 Độ hỗ trợ luật 28 2.3 Một số thuật toán 29 2.3.1 Thuật toán Apriori 29 2.3.2 Thuật toán Apriori-tid 34 2.3.3 Thuật toán AIS 37 2.3.4 Thuật toán SETM 39 2.3.5 Thuật toán CHARM 42 2.4 Kết luận 44 CHƯƠNG 3: ỨNG DỤNG KHAI PHÁ LUẬT KẾT HỢP TRONG ĐÀO TẠO 45 3.1 Bài toán 45 3.2 Cơng cụ sử dụng chương trình 45 3.3 Mô tả liệu toán 47 3.4 Chuẩn hoá liệu đầu vào cho thuật toán 48 3.5 Kết khai phá luật kết hợp sử dụng thuật toán Apriori 50 3.6 Kết khai phá liệu từ sở liệu điểm trường Đại học Sư Phạm Hà Nội 53 3.7 Kết luận 53 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 54 TÀI LIỆU THAM KHẢO 55 DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Tiếng Anh Tiếng Việt Ck Ck Tập K-itemset ứng cử Conf Confidence Độ tin cậy CSDL Database Cơ sở liệu Item Item Khoản mục Itemset Itemset Tập khoản mục K-itemset K- itemset Tập gồm K mục KDD Knowledge Discovery and Kĩ thuật phát tri thức Data Mining khai phá liệu Lk Lk Tập K- itemset phổ biến Min_conf Minimum Confidence Độ tin cậy tối thiểu Minsup Minimum Support Độ hỗ trợ tối thiểu Supp Support Độ hỗ trợ TID Transaction Indentification Định danh giao tác SQL Structured Query Language Ngôn ngữ vấn đáp chuẩn SQO Sematics Query Optimization Tối ưu hoá truy vấn ngữ nghĩa DANH MỤC HÌNH VẼ Hình 1.1 Quy trình phát tri thức Hình 2.1: Dàn cho tập I = {1, 2, 3, 4} 26 Hình 2.2 Cây cho tập I = {1, 2, 3, 4} 27 Hình 2.3: Các bước thực thuật toán apriori 33 Hình 2.4: Các bước thực thuật tốn Apriori_TID 36 Hình 2.5 Các bước thực thuật toám AIS 38 Hình 2.6: Các bước thực thuật toám SETM 41 Hình 3.1 Giao diện phần mềm WEKA 46 Hình 3.2 Mơi trường Weka Explorer 47 Hình 3.3: Bảng liệu khố 41 48 Hình 3.4: Phân bố điểm sinh viên học môn Tin học đại cương 50 Hình 3.5: Phân bố điểm sinh viên ứng với môn khác 51 DANH MỤC BẢNG Bảng 2.1: Ví dụ sở liệu dạng giao dịch - F 19 Bảng 2.2 : Các tập phổ biến sở liệu bảng 2.1 với độ hỗ trợ tối thiểu 25% 20 Bảng 2.3 Cơ sở liệu giao dịch D 32 Bảng 2.4: Cơ sở liệu giao dịch D1 35 Bảng 3.1: Các luật thu liệu sinh viên lớp Sư phạm Tin học khoá 41 52 ĐẶT VẤN ĐỀ Lí chọn đề tài Khai phá liệu (KPDL) trình dựa liệu có sẵn, tìm kiếm mẫu mới, thơng tin tiềm ẩn mang tính dự đốn khối liệu lớn Những công cụ khai phá liệu dự đốn xu hướng tương lai Sự phân tích cách tự động mang tính dự báo khai phá liệu có ưu hẳn so với phân tích thơng thường chỗ, khai phá liệu sử dụng với sở liệu (CSDL) chứa liệu không đầy đủ biến đổi liên tục Một nội dung khai phá liệu phổ biến phát luật kết hợp Phương pháp nhằm tìm tập thuộc tính thường xuất đồng thời sở liệu rút luật ảnh hưởng tập thuộc tính dẫn đến xuất thuộc tính khác Apriori thuật tốn luật kết hợp, việc áp dụng thuật toán Apriori vào khai phá liệu giúp phát luật kết hợp Vì vậy, việc lựa chọn thuật tốn luật kết hợp để ứng dụng vào việc khai phá liệu mang lại hiệu tốt Đây phương pháp điển hình cho việc tư vấn, đặc biệt đào tạo.Vì tơi chọn đề tài “Tìm hiểu khai phá liệu ứng dụng đào tạo” Kết nghiên cứu cung cấp thông tin hỗ trợ sinh viên lựa chọn môn học, hướng nghiên cứu, đồng thời hỗ trợ cán phòng đào tạo thuận lợi công tác đào tạo Cụ thể tìm luật có ích giúp cho nhà quản lí đào tạo xếp khung chương trình, lên thời khố biểu,… Mục đích nhiệm vụ nghiên cứu - Mục đích: Giúp tư vấn cho trình đào tạo từ việc cài đặt thuật tốn Apriori sinh luật kết hợp từ giúp tư vấn đào tạo - Nhiệm vụ nghiên cứu: + Tìm hiểu khai phá liệu + Tìm hiểu thuật toán khai phá đặc biệt thuật toán Apriori + Cài đặt chương trình thử nghiệm Phương pháp nghiên cứu - Phương pháp nghiên cứu lí thuyết - Phương pháp thực nghiệm: lấy liệu mẫu cài đặt thử nghiệm CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khái niệm khai phá liệu phát triển tri thức Với phát triển mạnh mẽ công nghệ thông tin người xây dựng nhiều hệ CSDL lớn tập trung phân tán, nhiều hệ quản trị CSDL mạnh với công cụ phong phú giúp người khai thác hiệu nguồn tài nguyên liệu hoạt động kinh tế xã hội Sự phát triển nhanh chóng cơng nghệ thơng tin dẫn đến lượng lớn liệu thu thập lưu trữ CSDL lớn vượt qua khả người hiểu chúng khơng có công cụ hỗ trợ tốt Dẫn tới lượng lớn liệu xem xét tới Vì người đưa định thường không dựa vào thông tin liệu thu thập mà dựa vào nhận thức suy đoán để đưa định Tình đặt nhiều liệu thiếu thông tin thiếu tri thức Do kĩ thuật đời kĩ thuật khai phá tri thức sở liệu (Knowledge Discovery in Database) gọi tắt KDD Năm 1989 thuật ngữ KDD đưa với ý nghĩa thực xử lý để tìm tri thức CSDL mục đích nhấn mạnh đến ứng dụng mức cao khai phá liệu (data mining) Khai phá liệu thường dùng lĩnh vực thống kê, sử dụng phương pháp thống kê để mơ hình liệu phát mẫu, luật,… KDD trình tổng thể bao gồm nhiều bước nhằm phát tri thức hữu ích liệu khai phá liệu tập trung vào việc ứng dụng thuật toán nhằm phát mẫu từ liệu mà khơng có thêm bước q trình KDD bước kết hợp với tri thức có bước đánh giá kết thu Các bước thêm vào cần thiết để thấy thông tin thu từ liệu thực hữu ích Nhiều mẫu thu từ trình khai phá liệu nhờ việc thực ứng dụng khơng có giá trị khơng phục vụ mục đích Như vậy, q trình phát tri thức từ liệu đặc trưng bước lặp lặp lại ứng dụng theo thuật toán khai phá liệu cụ thể hiểu mẫu thu từ thuật tốn Định nghĩa: “KDD q trình khơng tầm thường việc xác định mẫu mới, có giá trị, có hiệu sử dụng hiểu sở liệu”.[6] Định nghĩa Ferruzza: “Khai phá liệu tập hợp phương pháp dùng tiến trình khám phá tri thức để khác biệt mối quan hệ mẫu chưa biết bên liệu” [2] 1.2 Các bước trình phát tri thức Quy trình phát tri thức thường tuân theo bước sau [2]: Hình thành định nghĩa tốn Thu thập tiền xử lí liệu Khai phá liệu, rút tri thức Phân tích kiểm định kết Sử dụng tri thức phát Hình 1.1 Quy trình phát tri thức Bước 1: Hình thành, xác định định nghĩa tốn: Là tìm hiểu lĩnh vực ứng dụng từ hình thành tốn, xác định nhiệm vụ cần phải hoàn thành Bước định cho việc rút tri thức hữu ích cho phép chọn phương pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu Bước 2: Thu thập tiền xử lí liệu: Là thu thập xử lí thơ, gọi tiền xử lí liệu nhằm loại bỏ nhiễu (làm liệu), xử lí việc thiếu liệu (làm giàu liệu), biến đổi liệu rút gọn liệu cần thiết, bước thường chiếm nhiều thời gian toàn quy trình phát tri thức Do liệu lấy từ nhiều nguồn khác nhau, không đồng nhất, … gây nhầm lẫn Sau bước này, liệu quán, đầy đủ, rút gọn rời rạc hóa Bước 3: Khai phá liệu, rút tri thức: Là khai phá liệu, hay nói cách khác trích mẫu hoặc/và mơ hình ẩn liệu Giai đoạn quan trọng bao gồm công đoạn như: chức năng, nhiệm vụ mục đích khai phá liệu, dùng phương pháp khai phá nào? Thông thường, toán khai phá liệu bao gồm: tốn mang tính mơ tả đưa tính chất chung liệu, toán dự báo – bao gồm việc phát suy diễn dựa liệu có Tùy theo tốn xác định mà ta sử dụng phương pháp khai phá liệu cho phù hợp Bước 4: Phân tích kiểm định kết quả: Là hiểu tri thức tìm được, đặc biệt làm sáng tỏ mơ tả dự đốn Các bước lặp lặp lại nhiều lần, kết thu lấy trung bình tất lần thực Bước 5: Sử dụng tri thức phát được: Là đưa tri thức tìm ứng dụng vào thực tế Do kết dự đốn mơ tả nên chúng đưa vào hệ thống hỗ trợ định nhằm tự động hóa q trình Tóm lại: KDD trình kết xuất tri thức từ kho liệu mà khai phá liệu công đoạn quan trọng 1.3 Kiến trúc hệ thống khai phá liệu Kiến trúc hệ thống khai phá liệu chia thành thành phần sau: - Kho liệu: tập sở liệu, công cụ làm liệu tích hợp liệu thực chúng - Cơ sở tri thức: yếu tố tri thức dùng để đánh giá mẫu kết khai phá - Kỹ thuật khai phá: công cụ để thực nhiệm vụ: mô tả, kết hợp, phân lớp, phân nhóm liệu - Cơng cụ đánh giá mẫu: gồm số modul sử dụng độ đo tương tác với modul khai phá liệu để tập trung vào thuộc tính cần quan tâm - Biểu diễn dạng đồ họa: modul giao tiếp với người dùng hệ thống khai phá liệu 1.4 Các nhiệm vụ khai phá liệu Ngày nay, nhu cầu phát tri thức từ CSDL ngày cao dẫn tới phát triển mạnh mẽ loại hệ thống phát tri thức CSDL Để đáp ứng nhu cầu từ nhiều lĩnh vực khác mà việc phát tri thức trở lên đa dạng phong phú Do đó, nhiệm vụ phát tri thức CSDL trở nên đa dạng phát nhiều tri thức khác 1.4.1 Phát luật tối ưu truy vấn ngữ nghĩa Là biến đổi câu truy vấn ban đầu thành câu truy vấn cách thêm xóa mối liên kết việc sử dụng tri thức CSDL ngữ nghĩa bao gồm ràng buộc tính tồn vẹn phụ thuộc hàm để sản sinh câu truy vấn hiệu Như câu truy vấn biến đổi trả lại câu trả lời giống câu truy vấn ban đầu trạng thái CSDL thỏa mãn kiến thức ngữ nghĩa sử dụng phép biến đổi Các hệ thống phát luật SQO chia thành ba lớp: - Các hệ thống hướng truy vấn (hệ thống báo cáo) thuật tốn phát tri thức CSDL nhằm phục vụ truy vấn CSDL thực người dùng - Các hệ thống hướng liệu (hệ thống tác nghiệp) thuật tốn phát tri thức CSDL chủ yếu phục vụ phân bổ liệu trạng thái thời CSDL - Các hệ thống kết hợp đặc tính hệ thống hướng truy vấn hướng liệu Một đặc tính quan trọng luật SQO, khác với kiểu phát tri thức khác, việc chọn thuộc tính để tổng hợp SQO cần phải tính đến chi phí liên quan dùng phương pháp truy cập sơ đồ số hệ quản trị CSDL Việc cần thiết để tiết kiệm thời gian xử lí truy vấn Một thuật tốn phát tri thức CSDL loại đòi hỏi phải xem xét tối ưu chi phí 1.4.2 Phát phụ thuộc sở liệu Trong mơ hình sở liệu quan hệ, nghiên cứu quan hệ CSDL quan hệ khơng tính đến quan hệ thuộc tính Các quan hệ thường thể thông qua phụ thuộc liệu ràng buộc toàn vẹn Ở sử dụng thuật ngữ phụ thuộc CSDL để phụ thuộc liệu kiểu Sự phụ thuộc CSDL sử dụng thiết kế trì CSDL Phương pháp phát tự động phụ thuộc CSDL kiểu nhiệm vụ khai phá liệu 1.4.3 Phát sai lệch Nhiệm vụ nhằm khám phá thay đổi có ý nghĩa dạng độ đo biết trước giá trị chuẩn, phát sai lệch đáng kể nội dung tập liệu thực nội dung mong đợi Hai mơ hình sai lệch hay dùng lệch theo thời gian lệch theo nhóm Sai lệch theo thời gian thay đổi có ý nghĩa liệu theo thời gian Sai lệch theo nhóm khác liệu hai tập liệu, tính trường hợp tập liệu thuộc tập kia, nghĩa xác định liệu nhóm đối tượng có khác đáng kể so với tồn đối tượng khơng? Theo cách này, sai sót liệu hay sai lệch so với giá trị thông thường phát 1.4.4 Phát luật kết hợp Xét ví dụ: Xét tập mặt hàng giỏ mua hàng Vấn đề đặt tìm mối liên hệ mặt hàng giỏ hàng Một cách chi tiết tập thuộc tính nhị phân với tập bộ, gọi giỏ Các thuộc tính nhị phân gọi mục hay mặt hàng giỏ mà mục nhận hai giá trị sai tùy thuộc vào việc khách hàng có mua mặt hàng hay khơng Chúng thường thu thập thông qua công nghệ thông qua mã vạch hoạt động kinh doanh siêu thị, cửa hàng tạp hóa,… Một giao dịch chứa số điều khoản, tập hợp tất điều khoản thuộc vào khơng gian A mà giao dịch tập A Chúng ta cần phát mối quan hệ, mối kết hợp số điều khoản chứa giao dịch liệu cho xuất số điều khoản giao dịch kéo theo xuất số điều khoản khác giao dịch Một luật kết hợp quan hệ có dạng X → Y, X Y tập phần tử X ∩ Y = Mỗi luật kết hợp đặc trưng độ hỗ trợ (supp) độ tin cậy (conf) Độ hỗ trợ định nghĩa tỷ lệ số giỏ thỏa mãn X Y toàn số giỏ thỏa mãn X 1.4.5 Mơ hình hóa phụ thuộc Nhiệm vụ liên quan tới việc tìm kiếm mơ hình mơ tả phụ thuộc biến, thuộc tính theo hai mức: mức cấu trúc mức định lượng Mức cấu trúc mơ hình mô tả thường biểu diễn dạng đồ thị Trong đó, biến phụ thuộc phận vào biến khác Mức định lượng mơ hình mơ tả mức độ phụ thuộc biểu thị dạng luật “nếu – thì”: “nếu (tiên đề đúng) (kết luận đúng)” Về nguyên tắc tiên đề luật kết hợp kết hợp logic giá trị thuộc tính Trên thức tế, tiên đề thường nhóm giá trị thuộc tính kết luận giá trị thuộc tính Hơn hệ thống phát luật phân lớp tất luật cần phải có thuộc tính người dùng kết luận Quan hệ phụ thuộc biểu diễn dạng mạng tin cậy Bayes Đó đồ thị có hướng, khơng có chu trình Các nút biểu diễn thuộc tính trọng số biểu diễn độ mạnh phụ thuộc nút 1.4.6 Mơ hình hóa nhân Nhiệm vụ tập trung phát mối nhân thuộc tính Giống luật phụ thuộc luật nhân luật “nếu – thì” mạnh Luật phụ thuộc đơn giản mối quan hệ tương hỗ tiên đề kết luận luật mà ý nghĩa quan hệ nhân quan hệ Do đó, tiên đề kết luận quan hệ ảnh hưởng biến thứ ba, nghĩa thuộc tính có tiên đề kết luận Luật nhân không chỉ mối tương quan tiên đề kết luận mà cho biết tiên đề thực tạo kết luận mối quan hệ hai thành phần trực tiếp Tập mối quan hệ biểu diễn đồ thị nhân Thuật toán CAUDISCO phát luật nhân cách áp dụng phép kiểm tra độc lập thống kê cặp thuộc tính Sau đó, thuộc tính phụ thuộc lẫn nhau, thuật toán xác định mối quan hệ có xác thực, tiềm liên kết giả tạo, không phụ thuộc vào tập điều kiện thỏa mãn quan hệ nhân Các quan hệ nhân cần phụ thuộc vào thời gian theo định nghĩa nguyên nhân trước kết luận Nguyên nhân kết có kiện thời gian kèm thời gian kết phải sau thời gian nguyên nhân Mặc dù yếu tố thời gian làm rõ ý nghĩa nhân hệ thống thường khó phân biệt liên kết giả tạo 1.4.7 Phân nhóm Là việc mơ tả chung để tìm tập hay nhóm, loại mơ tả liệu Các nhóm tách phân cấp Tức liệu vừa thuộc nhóm lại vừa thuộc nhóm khác Các ứng dụng khai phá liệu có nhiệm vụ phân nhóm như: phát tập cửa hàng bán hàng trực tuyến uy tín ứng dụng bán hàng trực tuyến; xác định quang phổ từ phương pháp đo tia hồng ngoại, … Liên quan chặt chẽ đến việc phân nhóm nhiệm vụ đánh giá liệu, hàm mật độ xác suất đa biến/ trường CSDL 1.4.8 Phân lớp Phân lớp việc xác định hàm ánh xạ từ mẫu liệu vào số lớp biết trước Mục tiêu thuật tốn phân lớp tìm mối quan hệ thuộc tính dự báo thuộc tính phân lớp Q trình phân lớp sử dụng mối quan hệ để dự báo cho mục Các kiến thức biểu diễn dạng luật có dạng: “Nếu thuộc tính dự báo mục thỏa mãn điều kiện tiền đề mục nằm lớp kết luận” Ví dụ: Một mục biểu diễn thơng tin nhân viên thuộc tính dự báo là: họ tên, tuổi, giới tính, trình độ học vấn,… thuộc tính phân lớp trình độ lãnh đạo nhân viên 10 1.4.9 Hồi quy Hồi quy việc học hàm ánh xạ từ mẫu liệu thành biến dự đốn có giá trị thực Về khái niệm, nhiệm vụ hồi quy tương tự phân lớp Điểm khác chỗ thuộc tính để dự báo liên tục khơng phải rời rạc Việc dự báo giá trị số thường làm phương pháp thống kê cổ điển, chẳng hạn hồi quy tuyến tính Tuy nhiên, phương pháp mơ hình hóa sử dụng định, nút mơ hình tuyến tính phát sinh tập lớp giả có giá trị thuộc tính đích tương tự nhau, sau sử dụng phương pháp quy nạp để thay lớp luật quy nạp tổ hợp giá trị thuộc tính lớp cho liệu theo luật Ứng dụng hồi quy nhiều: dự báo nhu cầu người dùng với sản phẩm dịp tết; dự đoán số lượng sinh vật phát quang thời khu rừng cách dò tìm vi sóng thiết bị cảm biến từ xa; dự đoán giá bất động sản cách kiểm tra thuộc tính như: vị trí địa lí, năm xây dựng, số phòng ngủ,… 1.4.10 Tổng hợp Nhiệm vụ tổng hợp công việc liên quan đến phương pháp tìm kiếm mơ tả tập liệu Kĩ thuật tổng hợp thường áp dụng việc phân tích liệu có tính thăm dò báo cáo tự động Nhiệm vụ tổng hợp sản sinh mô tả đặc trưng cho lớp Mô tả kiểu tổng hợp, tóm tắt đặc tính chung tất hay hầu hết mục lớp Các mô tả đặc trưng thể theo luật có dạng sau: “Nếu mục thuộc lớp tiền đề mục có tất thuộc tính nêu kết luận” Cần lưu ý luật có đặc trưng khác biệt so với luật phân lớp Luật phát đặc trưng cho lớp sản sinh mục thuộc lớp 11 1.5 Sơ lược số kĩ thuật khai phá liệu Có nhiều kỹ thuật khác sử dụng đề khai phá liệu nhằm thực chức mô tả dự đốn Với chức có kĩ thuật khai phá liệu tương ứng 1.5.1 Phân lớp liệu Mục tiêu phân lớp liệu dự đoán nhãn lớp cho mẫu liệu Quá trình phân lớp liệu chia làm bước là: Xây dựng mơ hình liệu sử dụng mơ hình liệu Mơ hình liệu sử dụng để dự đoán nhãn lớp độ xác mơ hình chấp nhận Một số phương pháp phân lớp liệu phổ biến là: phân lớp theo định, phân lớp kiểu Bayes, phân lớp dựa quy tắc if – then, … 1.5.2 Phân cụm liệu Mục tiêu kĩ thuật phân cụm liệu nhóm đối tượng tương tự tập liệu vào cụm cho nhóm lớp đối tượng tương tự Kĩ thuật phân cụm thường không thực độc lập mà sử dụng kết hợp với kĩ thuật khác Một lớp phân cụm đưa phải có kĩ thuật khác áp dụng lớp để đưa ý nghĩa cụm Hai kĩ thuật phân cụm phân hoạch (partitional) phân cấp (hierarchical) Ngồi ra, số kĩ thuật phân cụm khác như: phân cụm dựa vào mật độ, phân cụm dựa vào lưới, phân cụm dựa vào mơ hình,… Một số thuật toán khai phá liệu phân cụm liệu là: thuật toán k-means, thuật toán PAM (Partitioning Around Medoids), thuật toán CALAR (Clustering LARge Application), thuật toán BRICH (Balanced Interative Reducing and Clustering Using Hierarchies), thuật toán DBCAN (Density – Based Spatial Clustering of Application with Noise),… 1.5.3 Cây định Kĩ thuật định công cụ mạnh hiệu phân lớp dự báo Các đối tượng liệu phân thành lớp giá trị 12 đối tượng liệu chưa biết dự đoán Cây định biểu diễn dạng sơ đồ có cấu trúc Nút gọi nút gốc Mỗi nút (trừ nút lá) ghi phép thử thuộc tính, nhánh biểu diễn kết phép thử Mỗi nút ghi nhãn lớp Tri thức rút từ kĩ thuật định thường mô tả rõ ràng, tường minh, dễ hiểu cho người sử dụng Một số thuật toán khai phá liệu định là: Thuật toán CLS (Concept Learning System), thuật toán ID3 (Interactive Dichotomizer 3), thuật toán C4.5, thuật toán SLIQ (Supervised Learning In Quest),… 1.5.4 Luật kết hợp Mục tiêu phương pháp phát đưa mối quan hệ giá trị sở liệu Kết luật kết hợp tập luật kết hợp tìm Phương pháp khai phá luật kết hợp gồm hai bước: - Bước 1: Tìm tất tập mục phổ biến Một tập mục phổ biến xác định thơng qua việc tính độ hỗ trợ thoả mãn độ hỗ trợ cực tiểu - Bước 2: Sinh luật kết hợp mạnh từ tập mục phổ biến, luật phải thoả mãn độ hỗ trợ độ tin cậy cực tiểu Một số thuật toán khai phá liệu luật kết hợp là: thuật toán AIS, thuật toán Apriori, thật toán Apriori_TID, thuật toán SETM, thuật toán FT_growth,… 1.5.5 Hồi quy Mục tiêu hồi quy dự đoán giá trị liên tục đầu Ví dụ dự đoán lương giảng viên đại học sau năm kinh nghiệm, hay dự đoán giá cổ phiếu công ty sau thời gian sàn chứng khoán Phương pháp hồi quy lựa chọn tốt tất biến độc lập giá trị liên tục Nhiều tốn giải hồi quy tuyến tính Nhiều tốn phi tuyến tính giải cách chuyển 13 sang giải lặp tốn tuyến tính Một số phương pháp hồi quy là: mơ hình hồi quy, hồi quy Poisson, hồi quy logistic,… 1.5.6 Mạng Nơron Mạng Nơ-ron kĩ thuật khai phá liệu ứng dụng phổ biến Kĩ thuật đời mong muốn nâng khả làm việc máy tính dần tăng khả làm việc não người Kết mạng nơ-ron khả tạo mơ hình dự đốn có độ xác cao, áp dụng cho nhiều toán khác Tuy nhiên, kĩ thuật phức tạp, tiến hành gặp nhiều khó khăn như: nhiều thời gian, nhiều liệu nhiều lần kiểm tra thử 1.5.7 Giải thuật di truyền Giải thuật di truyền phương pháp tìm kiếm cực trị tổng thể, kỹ thuật tối ưu tổng thể có tầm qua trọng lớn nhiều vấn đề khác khoa học kĩ thuật Ý tưởng giải thuật di truyền mô theo chế trình chọn lọc di truyền tự nhiên 1.6 Các cách thức giải pháp Khai phá liệu việc đơn giản mà có nhiều khó khăn thách thức Tuy nhiên khơng có nghĩa việc giải hồn tồn bế tắc mà phải xem xét tìm cách giải vấn đề Đầu vào chủ yếu hệ thống khai thác tri thức liệu thô sở phát sinh khai phá liệu Do liệu thực tế thường động, không đầy đủ, lớn bị nhiễu Trong nhiều trường hợp khác, người ta sở liệu có chứa thơng tin cần thiết cho việc khai thác liệu hay không làm để giải với dư thừa thông tin khơng thích hợp Dữ liệu lớn: Các CSDL lớn với hàng trăm trường bảng với hàng triệu ghi với kích thước đến gigabyte terabyte chuyện 14 bình thường Các phương pháp giải đưa ngưỡng cho sở liệu, lấy mẫu, phương pháp xấp xỉ, xử lý song song Kích thước lớn: Khơng có số lượng ghi lớn mà số trường sở liệu nhiều Vì kích thước tốn trở lên lớn Một tập liệu kích thước lớn làm tăng khơng gian tìm kiếm mơ hình suy diễn làm tăng khả giải thuật khai phá liệu tìm thấy mẫu giả Chúng ta khắc phục cách làm giảm kích thước tác động tốn sử dụng tri thức biết trước để xác định biến không phù hợp Dữ liệu động: Nội dung sở liệu thay đổi liên tục Dữ liệu thay đổi theo thời gian việc khai phá liệu bị ảnh hưởng thời gian quan sát liệu Việc liệu thay đổi nhanh chóng làm cho mẫu khai thác trước giá trị Các biến CSDL ứng dụng cho bị thay đổi, bị xóa, tăng lên theo thời gian Vấn đề giải giải pháp tăng trưởng để nâng cấp mẫu coi thay đổi hội để khai thác cách sử dụng để tìm kiếm mẫu bị thay đổi Các trường không phù hợp: Một đặc điểm khác tính khơng thích hợp liệu, nghĩa mục liệu trở thành khơng thích hợp với trọng tâm việc khai thác Một khía cạnh khác liên quan đến độ phù hợp tính ứng dụng thuộc tính tập sở liệu Vấn đề giải cách lấy ví dụ mẫu, chọn lọc liệu đặc trưng tốt Các giá trị bị thiếu: Đây vấn đề nói khó khăn việc khai phá liệu Sự có mặt hay vắng mặt giá trị thuộc tính liệu phù hợp ảnh hưởng đến việc khai phá liệu Trong hệ thống tương tác, thiếu vắng liệu quan trọng dẫn đến việc yêu cầu cho giá trị kiểm tra để xác định giá trị Hoặc coi 15 vắng mặt liệu điều kiện, thuộc tính bị coi giá trị trung gian giá trị khơng biết Chúng ta tận dụng xử lí song song để khắc phục vấn đề Hiện nay, giá thành phần cứng khơng cao lắm, áp dụng giải pháp song song cho việc khai phá liệu: Phân chia nhiệm vụ, liệu cho nhiều xử lí thực đồng thời 1.7 Kết luận Nội dung chương tìm hiểu trình phát tri thức vấn đề khai phá liệu Phát tri thức trình rút tri thức từ liệu mà khai phá liệu giai đoạn quan trọng Khai phá liệu nhiệm vụ tìm liệu có ích từ số lượng lớn liệu Trong chương tóm tắt số kĩ thuật dùng để khai phá liệu phân tích việc khai phá liệu Trong kĩ thuật khai phá liệu, phát luật kết hợp lĩnh vực quan tâm lĩnh vực nghiên cứu khoá luận, trình bày chi tiết chương 16 CHƯƠNG 2: CƠ SỞ LÍ THUYẾT LUẬT KẾT HỢP 2.1 Lí thuyết luật kết hợp 2.1.1 Luật thừa a) Định nghĩa Xét luật r: X→Y thuộc tập luật {R} sở tri thức [3] Luật r gọi luật thừa với luật lại thuộc tập R {r} suy luật r: X→Y Một định nghĩa khác: Gọi R: tập luật sở tri thức; r thuộc R: X→Y; (X)R-{r}: tập mệnh đề suy từ X luật thuộc R-{r}; luật r: X→Y thuộc R gọi thừa Y thuộc (X)R-{r} Ví dụ: Xét tập luật sau: • R1: X→Y • R2: Y→Z • R3: Z→T • R4: Y→T Trong luật trên, ta thấy luật R4: Y→T thừa vì: Từ Rl, R2, R3, ta có: X→Y→Z→T Thuật tốn xác định (X)R-{r} Bước 1: Ketqua:= X; Bước 2: Với r thuộc R, vế trái r thuộc kết Ketqua:= Ketqua ∪ Vephai(r) Bước 3: Lặp lại bước kết khơng thay đổi Khi ta có (X)R-{r} b) Thuật toán loại bỏ luật thừa: Tư tưởng thuật toán loại bỏ luật thừa gồm bước sau: Buớc 1: t R = R {r}, từ định nghĩa luật thừa trên, có thuật tốn kiểm tra luật r: X →Y có thừa tập luật R hay 17 không Bước 2: Xác định (X)R = (Aj| Aj mệnh đề suy diễn từ X dựa tập luật R) Bước : Kiểm tra Y thuộc (X)R hay không: • Nếu đúng: luật r thừa tập R • Ngược lại: luật r khơng thừa tập R Giải thuật loại bỏ luật thừa: Bước 1: Xét luật r tập luật R, kiểm tra r có thừa tập R {r} khơng? Bước : Nếu thừa R= R {r}; lặp lại bước với luật khác Bước 3: Lặp lại khơng bỏ luật 2.1.2 Luật kết hợp Cho tập I = {I1, I2, ,Im} tập gồm m khoản mục (item), gọi thuộc tính (attribute) Các phần tử I phân biệt X ⊆I gọi tập mục (itemset) Nếu lực lượng X k (tức |X| = k) X gọi k-itemset Một giao dịch (transaction) T định nghĩa tập (subset) khoản mục I (T ⊆l) Tương tự khái niệm tập hợp, giao dịch khơng trùng lặp, nới rộng tính chất tập hợp thuật toán sau này, người ta giả thiết khoản mục giao dịch tất tập mục (item set) khác, coi chúng xếp theo thứ tự từ điển item Gọi D CSDL n giao dịch giao dịch đánh nhãn với định danh (Unique Transasction IDentifier-TID) Nói rằng, giao dịch T ∈ D hỗ trợ (support) cho tập X ⊆ I chứa tất item X, nghĩa X ⊆ T, số trường hợp người ta dùng ký hiệu T(X) để tập giao dịch hỗ trợ cho X Kí hiệu support(X) (hoặc supp(X), 18 s(X)) tỷ lệ phần trăm giao dịch hỗ trợ X tổng giao dịch D, nghĩa là: |{𝑇 ∈ 𝐷|𝑋 ⊆ 𝑇}| 𝐷 Ví dụ sở liệu F (dạng giao dịch) : X = {A, B, C, D, E}, supp(𝑋) = T = {1, 2, 3, 4} Thông tin giao dịch cho bảng sau : Định danh giao dịch (TID) Giao tác (transaction) T01 T02 T03 T04 {A, C, D} {B, C, E} {A, B, C, E} {B, E} Bảng 2.1: Ví dụ sở liệu dạng giao dịch - F Tập phổ biến (frequent itemset) [2]: Support tối thiểu minsup ∈ ( 0, 1] (Minimum Support) giá trị cho truớc nguời sử dụng Nếu tập mục X ⊆ I có supp(X) ≥ minsup ta nói X tập phổ biến - frequent itemset (hoặc large itemset) Một frequent itemset đuợc sử dụng tập đáng quan tâm thuật toán Ngược lại, tập frequent itemset tập không đáng quan tâm Trong trình bày sau này, ta sử dụng cụm từ khác “X có support tối thiểu” hay “X khơng có support tối thiểu” để nói lên X thỏa mãn hay khơng thỏa mãn support(X) ≥ minsup Ví dụ: Với sở liệu F cho bảng 2.1 giá trị ngưỡng minsup = 25% liệt kê tất tập phổ biến (frequent-itemset) sau : 19 Các tập mục phổ biến Độ hỗ trợ (supp) tương ứng C, B, BE 75% (3/4) AC, CE, BC, BCE 50% (2/4) AD, AE, AB, ACD, ABCE 25% (1/4) Bảng 2.2 : Các tập phổ biến sở liệu bảng 2.1 với độ hỗ trợ tối thiểu 25% Một số tính chất (TC) liên quan đến frequent itemset [4]: Tính chất 1: support cho tất subset: A ⊆ B A, B itemset supp(A) ≥ supp(B) tất giao dịch D support B support A Tính chất : Nếu item A khơng có support tối thiểu D nghĩa support(A) < minsup superset B A frequent support(B) ≤ support(A) < minsup Tính chất 3: Nếu item B frequent D, nghĩa support(B) ≥ minsup subset A B frequent D support(A) ≥ support(B) > minsup Định nghĩa luật kết hợp [2] Một số luật kết hợp có dạng R: X => Y, X, Y ⊆ I X ∩ Y = ∅ X gọi tiên đề Y gọi hệ luật Luật X => Y tồn độ tin cậy c (confidence-conf) Độ tin cậy c định nghĩa khả giao dịch T hỗ trợ X hỗ trợ Y Ta có cơng thức tính độ tin cậy c sau: Conf(X => Y) = 𝑝(𝑌 ⊆ 𝐼|𝑋 ⊆ 𝐼) = 𝑝(𝑌⊆𝑇˄𝑋⊆𝑇) 𝑝(𝑋⊆𝑇) = supp(𝑋∪𝑌) supp(𝑋) Tuy nhiên, luật kết hợp có mặt tập luật sinh có ý nghĩa thực tế Mà tất luật 20 phải thoả mãn ngưỡng hỗ trợ tin cậy cụ thể Thật vậy, cho tập giao dịch D, toán phát luật kết hợp sinh tất luật kết hợp mà có độ tin cậy conf lớn độ tin cậy tối thiểu min_conf độ hỗ trợ lớn độ hỗ trợ tối thiểu minsup người dùng xác định Khi khai phá luật kết hợp, có vấn đề cần phải giải : ■ Thứ nhất, độ phức tạp giải thuật, số luợng luật tăng theo cấp độ luỹ thừa với số lượng mục (item) Tuy nhiên, giải thuật giảm bớt khơng gian tìm kiếm dựa ngưỡng tối thiểu để đánh giá độ hiệu luật ■ Thứ hai, luật tốt (tối ưu) phải đuợc lấy từ tập hợp luật tìm đuợc Điều khó tập hợp luật tìm đuợc lớn, số lượng luật dùng lại chiếm tỷ lệ vô nhỏ Các nghiên cứu liên quan đến vấn đề thứ hai hầu hết trọng vào việc giúp người dùng duyệt tập luật việc phát triển độ đo chất lượng luật 2.1.3 Một số tính chất luật kết hợp Luật kết hợp có số tính chất sau [1]: - Tính chất 1: Khơng hợp luật kết hợp Nếu có hai luật X => Y Y => Z D khơng thiết X∪Y=>Z Xét trường hợp X ∩ Y = ∅ giao dịch D hỗ trợ Z chúng hỗ trợ X Y, X∪ Y => Z có độ hỗ trợ 0% Tương tự X => Y X => Z khơng thiết X => Y∪ Z - Tính chất 2: Không tách luật Nếu X∪ Y => Z X => Y X => Z chưa xảy Ví dụ: Trong trường hợp Z có mặt tác vụ X Y có mặt tác vụ Tức s(X ∪ Y), s(Z) độ hỗ trợ X Y thoả mãn 21 s(X) > s(X ∪ Y) s(Y) > s(X ∪ Y) hai luật riêng biệt khơng đủ độ tin cậy - Tính chất 3: Các luật kết hợp khơng có tính chất bắc cầu Nếu X => Y X => Z khơng thể suy X => Z Ví dụ: Giả sử X, Y, Z có số tác vụ tương ứng t(X), t(Y), t(Z) độ tin cậy cực tiểu min_conf, c(X => Y) = c(Y => Z) = min_conf c(X => Z) = min_conf2 < min_conf min_conf < 1, luật khơng đủ độ tin cậy - Tính chất 4: + Nếu X=> (L – X) khơng thoả mãn độ tin cậy cực tiểu luật Y=>(LX) không thoả mãn, với X, Y, L tập mục Y ⊆ X Ta có S(Y) ≥ S(X) nên: C(L=> (L – Y)) = 𝑠(𝐿) 𝑠(𝑌) ≤ 𝑠(𝐿) 𝑠(𝑋) < min_conf + Nếu có luật (L – X) => X thoả mãn độ tin cậy ta có luật (L – Y)=>Y thoả mãn độ tin cậy, với X, Y, L tập mục Y ⊆ X Vì Y ⊆ X nên (L – X) ⊆(L – Y) đó: S(L – Y) ≤ S(L – X) ⇒ 𝑠(𝐿) 𝑠(𝐿−𝑌) ≤ 𝑠(𝐿) 𝑠(𝐿−𝑋) ≥ min_conf 2.1.4 Phát biểu toán khai phá luật kết hợp Khai phá luật kết hợp phân thành tốn con: Bài tốn 1: Tìm tất tập mục mà có độ hỗ trợ lớn độ hỗ trợ tối thiểu người dùng xác định, Các tập mục thoả mãn độ hỗ trợ tối thiểu gọi tập mục phổ biến Bài toán 2: Dùng tập mục phổ biến để sinh luật mong muốn Ý tưởng chung gọi ABCD AB tập mục phổ biến, chúng xác định luật AB => CD giữ lại với tỷ lệ độ tin cậy: Conf = 22 supp(𝐴𝐵𝐶𝐷) supp(𝐴𝐵) conf ≥ min_conf luật giữ lại (luật thoả mãn độ hỗ trợ tối thiểu ABCD phổ biến) 2.1.5 Một số hướng tiếp cận khai phá luật kết hợp Lĩnh vực khai phá luật kết hợp đuợc nghiên cứu phát triển theo nhiều hướng khác Có đề xuất nhằm cải tiến tốc độ thuật tốn, có đề xuất nhằm tìm kiếm luật có ý nghĩa có số hướng sau a) Luật kết hợp nhị phân (binary association rule boolean association rule) : hướng nghiên cứu luật kết hợp Hầu hết nghiên cứu thời kỳ đầu luật kết hợp liên quan đến luật kết hợp nhị phân Trong dạng luật kết hợp này, mục (thuộc tính) đuợc quan tâm có hay khơng xuất giao dịch CSDL không quan tâm “mức độ“ xuất Ví dụ: Trong hệ thống bán sách việc bạn mua sách khoa học hay sách khoa học xem giống Thuật toán tiêu biểu khai phá dạng luật thuật toán Apriori biến thể Đây dạng luật đơn giản luật khác chuyển dạng luật nhờ số phuơng pháp rời rạc hoá, mờ hoá, Một ví dụ dạng luật : “sách toán= ‘yes’ AND sách tập toán= ‘yes’ => sách để học tốt toán= ‘yes’ AND sách giải tập toán = ‘yes’, với độ hỗ trợ 20% độ tin cậy 80%” b) Luật kết hợp có thuộc tính số thuộc tính hạng mục (quantitative and categorial association rule) : Các thuộc tính CSDL thực tế có kiểu đa dạng (nhị phân - binary, số - quantitative, hạng mục categorial, ) Để phát luật kết hợp với thuộc tính này, nhà nghiên cứu đề xuất số phương pháp rời rạc hoá nhằm chuyển dạng luật dạng nhị phân để áp dụng thuật tốn có Một ví dụ dạng luật “Phân tích thiết kế hệ thống [C] AND lập 23 trình C++ [B] => hệ điều hành [C], với độ hỗ trợ 37%, độ tin cậy 94%” c) Luật kết hợp tiếp cận theo hướng tập thô (mining association rules base on rough set): Tìm kiếm luật kết hợp dựa lý thuyết tập thô d) Luật kết hợp nhiều mức (multi-level association rule) : Với cách tiếp cận theo luật tìm kiếm thêm luật có dạng “ mua laptop => mua hệ điều hành AND mua phần mềm diệt virut, ” thay luật cụ thể “mua laptop Dell => mua hệ điều hành Microsoft Windows AND mua phần mềm diệt virut BKAV, ” Như dạng luật đầu dạng luật tổng quát hoá dạng luật sau tổng quát theo nhiều mức khác e) Luật kết hợp mờ (fuzzy association rule) : Với hạn chế gặp phải q trình rời rạc hố thuộc tính số (quantitave attributes), nhà nghiên cứu đề xuất luật kết hợp mờ nhằm khắc phục hạn chế chuyển luật kết hợp dạng tự nhiên hơn, gần gũi với nguời sử dụng Một ví dụ dạng : “Phân tích thiết kế hệ thống trung bình AND lập trình C++ => hệ điều hành trung bình, với độ hỗ trợ 37%, độ tin cậy 94%” Trong luật trên, điều kiện điểm mơn đuợc mờ hố mức điểm yếu kém, trung bình, giỏi f) Luật kết hợp với thuộc tính đánh trọng số (association rule with weighted items): Trong thực tế, thuộc tính CSDL khơng phải lúc có vai trò Có số thuộc tính đuợc trọng có mức độ quan trọng cao thuộc tính khác Ví dụ khảo sát doanh thu hàng tháng, thông tin thời gian đàm thoại, vùng cước quan trọng nhiều so với thông tin phương thức gọi Trong trình tìm kiếm luật, gán thời gian gọi, vùng cước trọng số lớn thuộc tính phương thức gọi Đây huớng nghiên cứu thú vị số nhà nghiên cứu đề xuất cách giải toán Với luật kết hợp có 24 thuộc tính đuợc đánh trọng số, khai thác đuợc luật “hiếm” (tức có độ hỗ trợ thấp, có ý nghĩa đặc biệt mang nhiều ý nghĩa) g) Luật kết hợp song song (parallel mining of association rules): Bên cạnh khai phá luật kết hợp tuần tự, nhà làm tin học tập trung vào nghiên cứu thuật giải song song cho trình phát luật kết hợp Nhu cầu song song hoá xử lý phân tán cần thiết kích thước liệu ngày lớn nên đòi hỏi tốc độ xử lý dung lượng nhớ hệ thống phải đảm bảo Có nhiều thuật tốn song song khác đề xuất để khơng phụ thuộc vào phần cứng Bên cạnh nghiên cứu biến thể luật kết hợp, nhà nghiên cứu trọng đề xuất thuật tốn nhằm tăng tốc độ trình tìm kiếm tập phổ biển từ CSDL Ngồi ra, có số hướng nghiên cứu khác khai phá luật kết hợp như: khai phá luật kết hợp trực tuyến, khai phá luật kết hợp kết nối trực tuyến đến kho liệu đa chiều (Multidimensional data, data warehouse) thông qua công nghệ OLAP (Online Analysis Processing), MOLAP (multidimensional OLAP), ROLAP (Relational OLAP), ADO (Active X Data Object) for OLAP V V 25 2.2 Các đặc trưng luật kết hợp 2.2.1 Khơng gian tìm kiếm luật Ta phải tìm tất itemset thỏa ngưỡng minsupp Với ứng dụng thực tiễn, việc duyệt tất tập I hồn tồn thất bại khơng gian tìm kiếm lớn Trên thực tế, tăng tuyến tính số lượng item kéo theo tăng theo cấp lũy thừa itemset cần xem xét Với trường hợp đặc biệt I={1,2,3,4}, ta biểu diễn khơng gian tìm kiếm thành lưới hình 2.2.1 Hình 2.1: Dàn cho tập I = {1, 2, 3, 4} Các tập phổ biến nằm phần hình tập không phổ biến lại nằm phần Mặc dù không cách tường minh giá trị hỗ trợ cho itemset ta giả sử đường biên đậm hình phân chia tập phổ biến tập không phổ biến Sự tồn đường biên không phụ thuộc vào sở liệu D minsup Sự tồn đơn đảm bảo tính chặn itemset thỏa ngưỡng minsup Nguyên lý giải thuật thông thường sử dụng đường biên 26 để thu hẹp khơng gian tìm kiếm cách có hiệu Khi đường biên tìm thấy, giới hạn việc xác định giá trị hỗ trợ itemset phía đường biên bỏ qua itemset phía đường biên Cho ánh xạ: I → {1, , |I|} phép ánh xạ từ phần tử x ∈ I ánh xạ -1 vào số tự nhiên Bây giờ, phần tử xem có thứ tự hoàn toàn quan hệ “}//nó xếp theo TID For (k = 2; Lk-1 ≠ Ø; k++) begin 𝐶𝑘 = Ø; Forall transaction T ∈ D to begin LT = {l ∈ 𝐿𝑘−1 │l.TID};//Frequent (k-1) – itemset contained in T Forall frequent itemsets lT ∈ LT begin CT = 1- extensions of lT contained in t;//Candidates contained in T 𝐶𝑘 + = {< T.TID, c >│c ∈ CT}; 10 end 11 End 12 Sort 𝐶𝑘 on itemsets; 13 Delete all itemsets c ∈ 𝐶𝑘 For which c.count < min_sup_count giving 𝐿𝑘 ; 14 Lk = {< l.itemset, count of in l in 𝐿𝑘 >│l ∈ 𝐿𝑘 }; //combined with step 13 Sort 𝐿𝑘 on TID; 15 16 End 17.Return L = UkLk; Ví du: Cho CSDL giao dịch bảng 2.4: Tìm tập mục thường xuyên thuật tốn SETM với min_sup_count =2 40 Hình 2.6: Các bước thực thuật toám SETM 41 2.3.5 Thuật toán CHARM CHARM thực không gian tập phổ biến (itemset) không gian tập định danh (TIDset) CHARM khơng tìm tất tập tập mục mà thuật tốn kết hợp tìm tập đóng hiệu (bottomup) Nếu CSDL tập mục lớn tập mục phổ biến dày CHARM duyệt không gian tập mục tập định danh Đồng thời bỏ qua nhiều mức để tìm tập phổ biến đóng thay cho việc tính tốn nhiều tập khơng đóng CHARM sử dụng hai kỹ thuật cắt tỉa: Tỉa ứng cử viên tập khơng phổ biến đồng thời tỉa nhánh dựa tính chất khơng đóng (non-closure-property) Bất kỳ tập khơng đóng bị tỉa CHARM không sử dụng cấu trúc liệu băm (hash tree), phép toán sở sử dụng hợp tập mục giao tập định danh Thuật toán bắt đầu việc khởi tạo nút để kiểm tra mục đơn phổ biến tập giao dịch chúng dòng Tính tốn thực CHARM-EXTEND, trả tập mục đóng phổ biến c CHARM-EXTEND có trách nhiệm kiểm tra nhánh có khả Nó rút cặp tập mục - tập giao dịch (itemset-tidset) tập nút Node (Xi x t(Xi), dòng 3), kết nối với cặp khác mà đứng sau (Xi x t(Xi), dòng 5) theo thứ tự tuyệt đối f Việc kết nối cặp itemset-tidsset tính tốn Thủ tục CHARM-PROPERTY kiểm tra tập kết với độ hỗ trợ yêu cầu áp dụng thuộc tính thảo luận Lưu ý thủ tục thay đổi tập nút việc xoá cặp itemsettidset mà chứa cặp Nó chèn cặp phổ biến sinh tập nút New Nếu tập khác rỗng thực lại trình theo chiều sâu (dòng 8) Sau đó, chèn tập mục mở rộng có X Xi tập tập mục đóng, khơng thể thực hiện; giai đoạn tập mục đóng chứa X, 42 sinh ra, sau quay lại dòng để xử lý nhánh (không tỉa) Thủ tục CHARM-PROPERTY kiểm tra đơn giản cặp phổ biến Sau kiểm tra cặp itemset-tidset với thuộc tính bản, việc mở rộng tập mục có, xố nhánh gộp từ nút có, việc chèn cặp tập nút cho bước (theo chiều sâu) Đặc tả thuật toán CHARM CHARM (R ⊆ I x T, minsup) Nodes = {Ij x t(Ij): Ij ∈ I ˄│t(Ij) │ ≥ minsup} CHARM – EXTEND (Nodes, C) for (mỗi Xi x t(Xj) ∈ Nodes) New N Φ & X = Xi for (mỗi Xj x t(Xj) ∈ Nodes với f(j) > f(i)) X = X ∪ Xj Y = t(Xi) x t(Xj) CHARM-PROPERTY (Nodes, NewN) if (NewN ≠ Φ) CHARM-EXTEND (NewN) C = C ∪ X; //Nếu X chưa gộp CHARM-PROPERTY (Nodes), NewN) 10 if (‖Y‖ ≥ minsup) 11 if (t(Xi) = t(Xj)) //Thuộc tính 12 loại Xj khỏi Nodes 13 Thay tất Xi X 14 else if (t(Xi) ⸦ t(Xj) // Thuộc tính 15 Thay tất Xj khỏi Nodes 16 else (if t(Xi) ⊃ t(Xj)) // Thuộc tính 17 Xoá tất Xj khỏi Nodes 18 Bổ sung X x Y vào NewN 19 else if (t(Xi) ≠ t(Xj)) // Thuộc tính 20 Bổ sung X x Y vào NewN 43 2.4 Kết luận Chương II trình bày lí thuyết luật kết hợp số thuật toán tiêu biểu để khai phá luật kết hợp.Thuật tốn kinh điển Apriori tìm tập mục phổ biến theo cách sinh ứng xử, biến thể thuật toán Apriori thuật toán Apriori thuật toán Apriori_TID thuật toán AIS, SETM, CHARM Độ phức tạp thuật tốn tìm tập mục phổ biến khó, thời gian tìm tập mục phổ biến tuyến tính với kích thước CSDL CSDL thường thừa thuật toán dùng số kĩ thuật tỉa hiệu 44 CHƯƠNG 3:ỨNG DỤNG KHAI PHÁ LUẬT KẾT HỢP TRONG ĐÀO TẠO 3.1 Giới thiệu toán Hiện trường Đại học Sư phạm Hà Nội thực chương trình đào tạo theo hệ thống tín chỉ, nên đầu học kì sinh viên phải tiến hành đăng kí mơn học Để tạo điều kiện cho việc đăng kí mơn học cho học kì, phòng Đào tạo phải lên danh sách lớp học kèm theo thời khố biểu Để hỗ trợ cho sinh viên đăng kí mơn học cách tốt cán phòng Đào tạo phải tổ chức liệu cách khoa học tiến hành lấy thông tin dựa kết học tập khố, kì trước Bài tốn đặt từ kết học tập lớp, khố sinh viên để tìm luật nhằm giúp cho nhà quản lí đào tạo đưa khung chương trình, xếp thời khố biểu mơn học cho phù hợp để giúp sinh viên có kết học tập tốt 3.2 Công cụ sử dụng chương trình Cơng cụ sử dụng chương trình phần mềm mã nguồn mở Weka Weka (Waikato Environment for Knowledge Analysis) phần mềm khai thác liệu, thuộc dự án nghiên cứu đại học Waikato, New Zealand Mục tiêu dự án xây dựng công cụ đại nhằm phát triển kỹ thuật học máy áp dụng chúng vào toán khai thác liệu thực tế Weka cung cấp tính sau: - Bao gồm nhiều cơng cụ đa dạng để thay đổi tập liệu, xử lý liệu, giải thuật học phương pháp đánh giá - Giao diện đồ họa người dùng (trực quan hóa liệu) - Môi trường để so sánh giải thuật học - Có thể xử lý trước tập liệu, cho vào sơ đồ, phân chia lớp kết thực mà khơng cần viết chương trình 45 - Weka lấy liệu từ file có định dạng csv, arff, sinh từ file bảng sở liệu Hình 3.1 Giao diện phần mềm WEKA Weka có năm mơi trường chính: - Explorer: Môi trường cho phép sử dụng tất khả WEKA để khai phá liệu (Chúng ta chủ yếu sử dụng môi trường này) - Experimenter: Môi trường cho phép tiến hành thí nghiệm thực kiểm tra thống kê (statistical tests) mơ hình học máy - KnowledgeFlow: Mơi trường cho phép tương tác đồ họa kiểu kéo/thả để thiết kế bước (các thành phần) thí nghiệm - Workbench: tảng đại cho máy học ứng dụng - Simple CLI: Giao diện đơn giản kiểu dòng lệnh (như MSDOS) 46 Hình 3.2 Mơi trường Weka Explorer 3.3 Mơ tả liệu tốn Dữ liệu đầu vảo toán file excel lưu trữ điểm thành phần sinh viên khoá khác Ở khoá sinh viên chia thành lớp: Sư phạm Tin học Công nghệ thông tin Dữ liệu lớp gồm có số thứ tự, họ tên sinh viên, ngày sinh, điểm môn học theo kì, điểm thực tập,… 47 Hình 3.3: Bảng liệu khoá 41 3.4 Chuẩn hoá liệu đầu vào cho thuật toán Đầu vào phần mềm Weka file định dạng arff nên toàn bộ liệu excel toán phải chuyển đổi sang dạng chuẩn arff Cấu trúc file arff sau: Một file arff gồm có phần Phần Header phần khai báo quan hệ biến, phần Data phần liệu ứng với thuộc tính khai báo phần Header Mở đầu file arff từ khóa @relation định nghĩa tên hay quan hệ liệu Ví dụ: @relation Khoa41SP Tiếp sau dòng thuộc tính liệu với từ khóa @attribute Dữ liệu Weka định nghĩa theo kiểu sau: - Numeric: kiểu liệu số, gồm kiểu số nguyên (integer) kiểu số thực (real) - Nominal: kiểu liệu danh sách - String: kiểu liệu dạng chuỗi - Date: kiểu liệu thời gian (ngày tháng năm, phút giây) 48 Phần liệu toán mở đầu từ khóa @data Sau giá trị thuộc tính liên tiếp ngăn cách dấu phẩy Ví dụ: @data C,B,A,B,A,C,A,B+,B,A,C,B,C,B+,A+,B,B,A+,B,A,B+,A,B+,C+,B+,A, A,A,A,B,A,B,B,B+,A,B,C,C,B+,B,C,B,B+,C+,A,B,C,B,B,C+ Như để chuyển từ file excel sang file dạng arff, công việc cần phải làm sau: - Mỗi lớp khóa lưu thành file arff với tên tên lớp khóa - Loại bỏ thuộc tính khơng liên quan đến việc phân tích luật kết hợp như: số thứ tự, mã sinh viên, họ tên sinh viên, ngày sinh - Mỗi môn học thuộc tính Do sử dụng luật kết hợp Weka không cho phép sử dụng liệu số liên tục nên thuộc tính nhận giá trị rời rạc {F,F+,D,D+,C,C+,B,B+,A} Ví dụ: @attribute “Ngon ngu SQL” { F,F+,D,D+,C,C+,B,B+,A } - Điểm môn học sinh viên lưu vào phần data với điểm môn ngăn cách dấy phẩy - Tất tên lớp môn học phải đổi sang chữ tiếng việt khơng dấu phần mềm Weka khơng hỗ trợ ngơn ngữ tiếng việt Có nhiều cách chuyển đổi file liệu excell sang file arff Cách chuyển đơn giản thủ cơng ta xóa thơng tin khơng cần thiết file excell, xóa trường số thứ tự, mã sinh viên, họ tên, ngày sinh Tạo file với tên tên lớp khóa, có phần mở rộng arff Trong file này, tên lớp bổ sung thêm @relation trước Các mơn học chuyển thành tên thuộc tính 49 Với file excel để lại cột điểm môn sinh viên, ta lưu file dạng cvs (Comma delimited) lưu lại Mở file arff tạo, thêm từ khóa @data vào cuối file chép toàn liệu file text vừa tạo sang Như ta chuẩn hóa file liệu dạng excel sang dạng chuẩn arff 3.5 Kết khai phá luật kết hợp sử dụng thuật toán Apriori Sau liệu chuẩn hóa theo định dạng ARFF Weka, sử dụng phần mềm Weka để tiến hành khai phá luật kết hợp sử dụng thuật toán Apriori trình bày Chương Trong chương khảo sát mối liên hệ điểm thi sinh viên lớp ứng với khóa Xét sinh viên lớp sư phạm Tin học khoá 41 Bảng liệu gồm 50 ghi theo 29 trường thuộc tính Mỗi thuộc tính tương ứng môn học mà sinh viên lớp sư phạm Tin học khoá 41 học F F+ D D+ C C+ B B+ A Hình 3.4: Phân bố điểm sinh viên học mơn Tin học đại cương 50 Hình 3.4 mô tả phân bố điểm sinh viên học mơn học “Tin học đại cương” số sinh viên nhận điểm A, B+, C+ C 13, 7, 12, 12 Khơng có sinh viên điểm F, F+, D D+ mơn Hình 3.5: Phân bố điểm sinh viên ứng với mơn khác Tương tự hình 3.4, có phân bố điểm mơn khác Hình 3.5 Sau sử dụng công cụ Apriori Weka với tham số cấu Hình 3.5.Kết thu luật bảng 3.1 Phuong phap day hoc Tin hoc 1=B+ 29 ==> Phuong phap day hoc Tin hoc 2=B 29 Nhap mon lap trinh=B+ Ngon ngu lap trinh Java=B 25 ==> Cau truc du lieu va giai thuat=B 25 Nhap mon lap trinh=B+ Cau truc du lieu va giai thuat=B 25 ==> Ngon ngu lap trinh Java=B 25 Lap trinh huong doi tuong=B Ngon ngu lap trinh Java=B 25 ==> Cau truc du lieu va giai thuat=B 25 Cau truc du lieu va giai thuat=B Lap trinh huong doi tuong=B 25 ==> Ngon ngu lap trinh Java=B 25 51 Cau truc du lieu va giai thuat=B 27 ==> Ngon ngu lap trinh Java=B 26 Lap trinh huong doi tuong=B 26 ==> Cau truc du lieu va giai thuat=B 25 Lap trinh huong doi tuong=B 26 ==> Ngon ngu lap trinh Java=B 25 Cau truc du lieu va giai thuat=B Ngon ngu lap trinh Java=B 26 ==> Nhap mon lap trinh=B+ 25 10 Cau truc du lieu va giai thuat=B Ngon ngu lap trinh Java=B 26 ==> Lap trinh huong doi tuong=B 25 Bảng 3.1: Các luật thu liệu sinh viên lớp Sư phạm Tin học khoá 41 Bảng 3.1 cho thấy mối quan hệ tương quan môn học lớp Sư phạm Tin học khoá 41 Các luật xếp theo chiều giảm dần độ tin cậy Ví dụ luật 6, môn “Cấu trúc liệu giải thuật” sinh viên nhận điểm B phần lớn mơn “Ngơn ngữ lập trình Java” nhận điểm B Độ tin cậy 96% nghĩa tổng số 27 ghi tìm thấy giá trị B môn “Cấu trúc liệu giải thuật” có 26 ghi nhận giá trị B mơn “Ngơn ngữ lập trình Java” Việc xếp môn theo chiều giảm dần độ tin cậy cho phép đưa thứ tự ưu tiên chọn luật cho sinh viên chọn môn học phù hợp để thu điểm số cao theo mơn Ví dụ bảng 3.1, môn “Phương pháp dạy học tin học 1” xếp học trước môn “Phương pháp dạy học tin học 2” điểm mơn “Phương pháp dạy học tin học 1” B+ mơn “Phương pháp dạy học tin học 2” chắn B Ý nghĩa luật kết hợp tìm cho sinh viên lớp Sư phạm tin học khoá 41 làm rõ 52 3.6 Kết khai phá liệu từ sở liệu điểm trường Đại học Sư Phạm Hà Nội Đối với liệu chương bao gồm khóa liên tiếp lớp Viện Công nghệ thông tin – Trường Đại học Sư phạm Hà Nội 2, khoá luận sử dụng cơng cụ Apriori với cấu hình tham số phần khố luận trình bày để tìm luật kết hợp lớp Kết ghi phần Phụ Lục Để giới hạn lại, thực xếp luật thu bảng phụ lục chọn luật có min_conf cao nhất, nhóm theo lớp khóa Mục đích việc phân tích nhằm giúp cho sinh viên khóa sau lựa chọn mơn học phù hợp để đạt điểm số cao Các kết tư vấn cho sinh viên cách thức chọn môn học phù hợp để nhằm đạt điểm số cao Các luật lựa chọn theo độ tin cậy cao nên kênh thông tin phù hợp cho việc cho nhà quản lí đào tạo tư vấn cho sinh viên lựa chọn mơn học 3.7 Kết luận Chương khố luận mô tả phần mềm Weka, cách thức chuyển đổi liệu phù hợp cho thuật toán Và áp dụng thuật toán Apriori Weka liệu thu số kết để hỗ trợ cho cơng tác quản lí đào tạo, tư vấn việc chọn môn học, lên khung chương trình, thời khố biểu,… 53 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Nội dung khố luận tập trung vào tìm hiểu kiến thức khai phá luật kết hợp sâu vào tìm hiểu cơng cụ khai phá liệu mã nguồn mở sử dụng phổ biến Weka Khoá luận trình bày được: - Tổng quan lĩnh vực khai phá liệu - Chi tiết thuật toán khai phá luật kết hợp Apriori dựa khái niệm độ hỗ trợ độ tin cậy - Trong chương 3, khoá luận ứng dụng chạy thuật toán Apriori phần mềm Weka cho liệu điểm thi môn học sinh viên trường Đại học Sư phạm Hà Nội Các kết thu gồm bảng luật phụ lục Các kết góp phần hỗ trợ cơng tác quản lí đào tao, tư vấn việc chọn môn học lên khung chương trình, thời khố biểu,… Khố luận đạt số định chưa thể đáp ứng yêu cầu thực tế tồn số khó khăn như: Cơ sở liệu chưa đủ lớn, chưa xây dựng thiết kế giao diện chương trình Trong tương lai tác giả cải thiện bổ sung CSDL, thiết kế giao diện chương trình để hồn thiện đưa vào sử dụng 54 TÀI LIỆU THAM KHẢO Tiếng Việt [1] TS Lê Văn Phùng, Ths Quách Xuân Trường, Khai phá liệu,Nhà xuất [2] Trường Đại học Hàng Hải Việt Nam – Khoa Công nghệ thông tin, Bài giảng khai phá liệu, Hải Phòng - 2011 [3] Nguyễn Nhật Quang, Bài giảng môn học: Khai phá liệu, Trường Đại học Bách Khoa Hà Nội, 2010 [4] Đỗ Trung Tuấn (1999), Cơ sở liệu, Nhà xuất Giáo dục [5] Nguyễn Thanh Thuỷ, Khai phá liệu – kĩ thuật ứng dụng, Hà Nội, 2001 Tiếng Anh [6] Bao Ho Tu (1998), Introduction to Knowledge Discovery and Data mining, Institute of Information Technology National Center for Natural Science and Technology [7] Mohammet J.Zaki and Jui Hasiao CHAM, An effficient Algorithm for Close Itemset Mining [8] Jean – Marc Adamo (2001), Data Minning for Association Rules and Sequential Patterns, Sequential and Parallel Algorithms, Springer – Verlag New York, Inc 55 PHỤ LỤC Ngon ngu SQL=B+ 31 ==> Lap rinh Web=B 31 conf:(1) Lap trinh huong doi tuong=B+ 30 ==> Ngon ngu lap trinh C=A 29 Thuc hanh chuyen nganh=B+ 30 ==> Thuc tap chuyen nganh=A 29 Ngon ngu lap trinh C=A 31 ==> Lap trinh huong doi tuong=B+ 29 lift:(1.56) Ly thuyet nhan dang=B 29 ==> Nhap mon khai pha du lieu=B 27 An toan du lieu=B 31 ==> Nhap mon khai pha du lieu=B 28 Tinh toan song song=C+ 31 ==> He chuyen gia=B 28 Bảng 1: Các luật thu liệu sinh viên lớp CNTT khoá 41 Day hoc Tin hoc theo chu de=B 14 ==> Thiet ke to chuc hoat dong trai nghiem sang tao=B+ 14 Phuong phap day hoc Tin hoc 1=B+ Day hoc Tin hoc theo chu de=B 13 ==> Thiet ke to chuc hoat dong trai nghiem sang tao=B+ 13 Thiet ke to chuc hoat dong trai nghiem sang tao=B+ 15 ==> Phuong phap day hoc Tin hoc 1=B+ 14 Phuong phap day hoc Tin hoc 1=B+ 15 ==> Thiet ke to chuc hoat dong trai nghiem sang tao=B+ 14 Ngon ngu SQL=B 15 ==> He quan tri co so du lieu=B+ 14 Thiet ke to chuc hoat dong trai nghiem sang tao=B+ 15 ==> Day hoc Tin hoc theo chu de=B 14 Day hoc Tin hoc theo chu de=B 14 ==> Phuong phap day hoc Tin hoc 1=B+ 13 Day hoc Tin hoc theo chu de=B Thiet ke to chuc hoat dong trai nghiem sang tao=B+ 14 ==> Phuong phap day hoc Tin hoc 1=B+ 13 Phuong phap day hoc Tin hoc 1=B+ Thiet ke to chuc hoat dong trai nghiem sang tao=B+ 14 ==> Day hoc Tin hoc theo chu de=B 13 10 Day hoc Tin hoc theo chu de=B 14 ==> Phuong phap day hoc Tin hoc 1=B+ Thiet ke to chuc hoat dong trai nghiem sang tao=B+ 13 Bảng 2: Các luật thu liệu sinh viên lớp Sư phạm Tin học khoá 42 Nhap mon CSDL=A 27 ==> Ngon ngu SQL=B+ 27 Nhap mon CSDL=A 27 ==> CSDL phan tan=B 27 Nhap mon CSDL=A CSDL phan tan=B 27 ==> Ngon ngu SQL=B+ 27 Nhap mon CSDL=A Ngon ngu SQL=B+ 27 ==> CSDL phan tan=B 27 Nhap mon CSDL=A 27 ==> Ngon ngu SQL=B+ CSDL phan tan=B 27 Lap trinh huong doi tuong=B+ 29 ==> Ngon ngu lap trinh C=A 28 CSDL phan tan=B 29 ==> Ngon ngu SQL=B+ 28 Ngon ngu SQL=B+ 29 ==> CSDL phan tan=B 28 Ngon ngu SQL=B+ CSDL phan tan=B 28 ==> Nhap mon CSDL=A 27 10 Ngon ngu lap trinh C=A 30 ==> Lap trinh huong doi tuong=B+ 28 Bảng 3: Các luật thu liệu sinh viên lớp CNTT khoá 42 Cau truc du lieu va giai thuat=C+ 29 ==> Nhap mon lap trinh=C 28 Nhap mon lap trinh=C 29 ==> Cau truc du lieu va giai thuat=C+ 28 Phuong phap day hoc Tin hoc 2=C+ 27 ==> Phuong phap day hoc Tin hoc 1=B 26 Phuong phap day hoc Tin hoc 2=C+ 27 ==> Thuc hanh su pham 1=B 26 Phuong phap day hoc Tin hoc 2=C+ Thuc hanh su pham 1=B 26 ==> Phuong phap day hoc Tin hoc 1=B 25 Phuong phap day hoc Tin hoc 1=B Phuong phap day hoc Tin hoc 2=C+ 26 ==> Thuc hanh su pham 1=B 25 Phuong phap day hoc Tin hoc 2=C+ 27 ==> Phuong phap day hoc Tin hoc 1=B Thuc hanh su pham 1=B 25 Tin hoc dai cuong=B+ 31 ==> Ren nghiep vu su pham thuong xuyen=B+ 28 Bảng 4: Các luật thu liệu sinh viên lớp Sư phạm Tin học khoá 43 Nhap mon CSDL=B+ 32 ==> He dieu hanh Unix=B+ 32 He dieu hanh Unix=B+ 32 ==> Nhap mon CSDL=B+ 32 Nhap mon khai pha du lieu=B 32 ==> Ngon ngu mo hinh hoa=B 32 Ngon ngu mo hinh hoa=B 32 ==> Nhap mon khai pha du lieu=B 32 Kien truc may tinh=A 30 ==> Nguyen li he dieu hanh=B 30 Nhap mon CSDL=B+ Ngon ngu mo hinh hoa=B 30 ==> He dieu hanh Unix=B+ 30 He dieu hanh Unix=B+ Ngon ngu mo hinh hoa=B 30 ==> Nhap mon CSDL=B+ 30 Nhap mon CSDL=B+ Nhap mon khai pha du lieu=B 30 ==> He dieu hanh Unix=B+ 30 He dieu hanh Unix=B+ Nhap mon khai pha du lieu=B 30 ==> Nhap mon CSDL=B+ 30 10 He dieu hanh Unix=B+ Nhap mon khai pha du lieu=B 30 ==> Ngon ngu mo hinh hoa=B 30 Bảng 5: Các luật thu liệu sinh viên lớp CNTT khoá 43 Kien truc may tinh=A He dieu hanh Unix=B 27 ==> Nhap mon lap trinh=A 27 He dieu hanh Unix=B 30 ==> Nhap mon lap trinh=A 29 Nhap mon lap trinh=A Kien truc may tinh=A 28 ==> He dieu hanh Unix=B 27 Kien truc may tinh=A 30 ==> Nhap mon lap trinh=A 28 Nhap mon lap trinh=A He dieu hanh Unix=B 29 ==> Kien truc may tinh=A 27 ) Nhap mon lap trinh=A 32 ==> He dieu hanh Unix=B 29 He dieu hanh Unix=B 30 ==> Kien truc may tinh=A 27 Kien truc may tinh=A 30 ==> He dieu hanh Unix=B 27 He dieu hanh Unix=B 30 ==> Nhap mon lap trinh=A Kien truc may tinh=A 27 10 Kien truc may tinh=A 30 ==> Nhap mon lap trinh=A He dieu hanh Unix=B 27 Bảng 6: Các luật thu liệu sinh viên lớp CNTT khoá 44 Cau truc du lieu va giai thuat=A 30 ==> Nhap mon lap trinh=A 29 Kien truc may tinh=A Cau truc du lieu va giai thuat=A 26 ==> Nhap mon lap trinh=A 25 Kien truc may tinh=A 30 ==> Nhap mon lap trinh=A 28 Nhap mon lap trinh=A 32 ==> Cau truc du lieu va giai thuat=A 29 Bảng 7: Các luật thu liệu sinh viên lớp Sư phạm Tin học khoá 44 ... THỊ THU TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG TRONG ĐÀO TẠO KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC Chuyên ngành: Sư phạm Tin học Giáo viên hướng dẫn: Đỗ Thị Lan Anh HÀ NỘI, 2019 LỜI CẢM ƠN Trong thời... liệu mà khai phá liệu giai đoạn quan trọng Khai phá liệu nhiệm vụ tìm liệu có ích từ số lượng lớn liệu Trong chương tóm tắt số kĩ thuật dùng để khai phá liệu phân tích việc khai phá liệu Trong. .. VỀ KHAI PHÁ DỮ LIỆU 1.1 Khái niệm khai phá liệu phát triển tri thức 1.2 Các bước trình phát tri thức 1.3 Kiến trúc hệ thống khai phá liệu 1.4 Các nhiệm vụ khai phá liệu