BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI VŨ NGỌC LINH ỨNG DỤNG LÝ THUYẾT TẬP MỜ TRONG KHAI PHÁ DỮ LIỆU THÔNG TIN SINH VIÊN CỦA TRƢỜNG ĐẠI HỌC QUỐC TẾ HỒNG BÀNG NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: 8480201 LUẬN VĂN THẠC SỸ KỸ THUẬT HƢỚNG DẪN KHOA HỌC: TS PHẠM THANH HÀ TP Hồ Chí Minh - 2019 LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Ứng dụng lý thuyết tập mờ khai phá liệu thông tin sinh viên trƣờng Đại học Quốc tế Hồng Bàng” cơng trình nghiên cứu tơi Những nội dung luận văn thực dƣới hƣớng dẫn khoa học thầy TS Phạm Thanh Hà Các nội dung nghiên cứu, kết đƣợc trình bày luận văn trung thực chƣa cơng bố dƣới hình thức trƣớc Những tham khảo dùng luận văn đƣợc trích dẫn rõ ràng trung thực tên tác giả, tên cơng trình, thời gian địa điểm cơng bố Tơi xin chịu hồn tồn trách nhiệm trung thực luận văn với chép không hợp lệ, hay gian trá Tác giả luận văn Vũ Ngọc Linh i LỜI CẢM ƠN Trƣớc hết em xin gửi lời cảm ơn chân thành đến quý Thầy Cô Khoa Công nghệ thông tin, quý Thầy Cô Phịng Đào tạo Sau đại học tận tình giảng dạy nhƣ tạo điều kiện cho em học tập nghiên cứu thời gian vừa qua Em xin gửi lời cảm ơn tới thầy giáo TS Phạm Thanh Hà, ngƣời tận tình hƣớng dẫn, động viên giúp đỡ em thực luận văn từ bƣớc đến hồn thành Tơi xin cảm ơn đồng nghiệp ngƣời thân động viên, giúp đỡ tơi q trình nghiên cứu thực luận văn Do thời gian có hạn vốn kiến thức hạn chế, chắn luận văn khơng thể tránh khỏi thiếu sót Em mong nhận đƣợc ý kiến đóng góp quý thầy cô bạn để luận văn đƣợc hoàn thiện Xin trân trọng cảm ơn! TP Hồ Chí Minh, ngày … tháng 06 năm 2019 ii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii KÝ HIỆU VÀ TỪ VIẾT TẮT v DANH MỤC CÁC HÌNH VẼ vi DANH MỤC CÁC BẢNG BIỂU vii MỞ ĐẦU CHƢƠNG 1.1 LÝ THUYẾT TẬP MỜ VÀ LOGIC MỜ Lý thuyết tập mờ 1.1.1 Tập mờ 1.1.1.1 Khái niệm tập rõ 1.1.1.2 Khái niệm tập mờ 1.1.1.3 Một số khái niệm liên quan 10 1.1.2 Các phép toán tập mờ 11 1.1.2.1 Các phép toán chuẩn tập mờ 11 1.1.2.1 1.1.3 1.2 Các phép toán mở rộng tập mờ 13 Quan hệ mờ nguyên lý mở rộng 18 1.1.3.1 Quan hệ mờ 18 1.1.3.2 Hợp thành quan hệ mờ 19 1.1.3.3 Nguyên lý mở rộng 21 Logic mờ 23 1.2.1 Biến ngôn ngữ 23 1.2.2 Mệnh đề mờ 24 1.2.3 Các mệnh đề hợp thành 26 1.2.4 Kéo theo mờ (Luật if – then mờ) 27 1.2.5 Phƣơng pháp lập luận xấp xỉ 31 CHƢƠNG 2.1 KHAI PHÁ LUẬT KẾT HỢP MỜ 35 Tổng quan khai phá liệu 35 2.1.1 Khái niệm: 35 2.1.2 Quá trình khám phá tri thức CSDL 35 2.1.3 Kiến trúc hệ thống khai phá liệu 37 2.1.4 Quá trình khai phá liệu 38 2.1.5 Nhiệm vụ khai phá liệu 39 2.1.6 Các phƣơng pháp khai phá liệu 41 2.1.6.1 Phƣơng pháp phát luật kết hợp 41 iii 2.1.6.2 Phƣơng pháp sử dụng định luật 42 2.1.6.3 Phƣơng pháp ứng dụng K-láng giềng gần 42 2.1.6.4 Các phƣơng pháp dựa mẫu 43 2.1.7 2.2 Các ứng dụng khai phá liệu 43 Khai phá luật kết hợp 44 2.2.1 Luật kết hợp 44 2.2.2 Bài toán khai phá luật kết hợp 45 2.2.3 Một số tính chất tập mục phổ biến luật kết hợp 48 2.2.3.1 Một số tính chất tập mục phổ biến 48 2.2.3.2 Một số tính chất luật kết hợp 48 2.2.4 2.3 Các loại luật kết hợp 49 Khai phá luật kết hợp mờ 51 2.3.1 Bài toán khai phá luật kết hợp mờ 51 2.3.2 Thuật toán khai phá luật kết hợp mờ 52 CHƢƠNG ỨNG DỤNG KHAI PHÁ LUẬT KẾT HỢP MỜ TỪ DỮ LIỆU SINH VIÊN ĐẠI HỌC QUỐC TẾ HỒNG BÀNG 57 3.1 Dữ liệu sinh viên Đại học Quốc tế Hồng Bàng 57 3.2 Ứng dụng khai phá luật kết hợp dựa liệu sinh viên 68 3.3 Kết khai phá liệu Đại học Quốc tế Hồng Bàng 76 KẾT LUẬN VÀ KIẾN NGHỊ 77 TÀI LIỆU THAM KHẢO 78 iv KÝ HIỆU VÀ TỪ VIẾT TẮT Bảng từ viết tắt: Từ cụm từ Từ viết tắt Tiếng Anh Khai phá tri thức KDD Knowledge Discovery Data Khai phá liệu KPDL Data Mining Cơ sở liệu CSDL Database v DANH MỤC CÁC HÌNH VẼ Hình 1.1 Các hàm thuộc khác số tập mờ số gần Hình 1.2 Các tập mờ “tốc độ chậm”, “tốc độ trung bình”, “tốc độ nhanh” Hình 1.3 Các tập mờ dạng hình tam giác .7 Hình 1.4 Các tập mờ dạng hình thang Hình 1.5 Các tập mờ dạng hình chng .9 Hình 1.6 Giá đỡ, nhân biên tập mờ 10 Hình 1.7 Hàm thuộc tập mờ “nhiệt độ cao” 24 Hình 1.8 Các tập mờ “Chậm”, “Nhanh”, Trung bình” 24 Hình 1.9 Tập mờ “tuổi trẻ” 26 Hình 2.1 Quá trình khàm phá tri thức 36 Hình 2.2 Kiến trúc hệ thống khai phá liệu 37 Hình 2.3 Quá trình khai phá liệu 39 Hình 2.4 Mẫu kết với phƣơng pháp định .42 Hình 2.6 Đồ thị hàm thuộc tập mờ ứng với biến ngôn ngữ tuổi 53 Hình 2.7 Đồ thị hàm thuộc tập mờ ứng với biến ngôn ngữ Cholesterol .54 Hình 3.1 Tập mờ đăng ký .69 Hình 3.2 Tập mờ đăng ký 69 Hình 3.3 Tập mờ đăng ký tƣơng đối đủ 70 Hình 3.4 Tập mờ đăng ký đủ .70 Hình 3.5 Tập mờ đăng ký nhiều 71 Hình 3.6 Tập mờ kết học tập 72 Hình 3.7 Tập mờ kết học tập trung bình 72 Hình 3.8 Tập mờ kết học tập 73 Hình 3.9 Tập mờ kết học tập giỏi 73 vi DANH MỤC CÁC BẢNG BIỂU Bảng 1.1 Mức độ thuộc điểm thi vào tập mờ Bảng 1.2 Các tập mờ đƣợc xác định từ tập mờ có dạng hình tam giac Bảng 1.3 Các tập mờ đƣợc xác định từ tập mờ dạng hình thang Bảng 1.4 Các tập mờ đƣợc xác định từ tập mờ dạng hình chng Bảng 2.1 Ví dụ CSDL giao dịch 45 Bảng 2.2 Các tập mục phổ biến CSDL với minsup = 50% .46 Bảng 2.3 Các luật kết hợp đƣợc sinh từ tập mục phổ biến ACW 47 Bảng 2.4 CSDL khám chẩn đoán bệnh tim 13 bệnh nhân 52 Bảng 2.5 Bảng liệu sau đƣợc mờ hoá 54 Bảng 2.6 Tập tập phổ biến có lực lƣợng .55 Bảng 2.7 Tập tất tập phổ biến có lực lƣợng 55 Bảng 2.8 Tập luật sau khai phá bảng liệu 55 Bảng 3.1 Thông tin sinh viên 57 Bảng 3.2 Thông tin kết học tập điểm rèn luyện 60 Bảng 3.3 Thông tin sinh viên đƣợc sử dụng luận văn 63 Bảng 3.4 Danh sách sinh viên thử nghiệm sau chuẩn hóa 68 Bảng 3.5 Kết mờ hóa thuộc tính số tín đăng ký .71 Bảng 3.6 Kết mờ hóa thuộc tính cịn lại 74 vii MỞ ĐẦU Đặt vấn đề Trong vài thập niên gần đây, khai phá liệu (KPDL) trở thành hƣớng nghiên cứu lĩnh vực khoa học máy tính cơng nghệ tri thức Trong q trình phát triển với hàng loạt nghiên cứu, đề xuất đƣợc thử nghiệm ứng dụng thành công vào đời sống, chứng tỏ KPDL lĩnh vực nghiên cứu ổn định, có tảng lý thuyết vững KPDL bao hàm nhiều hƣớng tiếp cận Các kỹ thuật đƣợc áp dụng lĩnh vực phần lớn đƣợc thừa kế từ lĩnh vực sở liệu (CSDL), học máy, trí tuệ nhân tạo, lý thuyết thơng tin, xác xuất thống kê tính tốn hiệu cao (hight performance computing) Các toán chủ yếu KPDL khai phá luật kết hợp (Association rules mining), phân lớp/dự đoán (classification/ prediction), phân cụm (clustering), khai phá chuỗi (Sequence mining), … Lĩnh vực điểm hội tụ giao thoa nhiều lĩnh vực khác KPDL đƣợc ứng dụng thành công thƣơng mại, tài thị trƣờng chứng khốn, sinh học, y học, giáo dục, viễn thông, … [4-13] Lý thuyết tập mờ logic mờ sở toán học cho việc nghiên cứu, phát triển phƣơng pháp lập luận khác nhau, đƣợc gọi phƣơng pháp lập luận xấp xỉ (approximate reasoning method), để mô cách thức ngƣời lập luận Trên thực tế lý thuyết tập mờ logic mờ công cụ hữu hiệu giúp giải nhiều tốn, có tốn khai phá luật kết hợp mờ [14] Hiện trƣờng Đại học Quốc tế Hồng Bàng có quy mơ đào tạo lên tới 10000 sinh viên, thuộc 32 ngành đào tạo Qua nhiều năm trƣờng có sở liệu lớn thông tin sinh viên kết học tập sinh viên với hàng triệu ghi Từ nguồn liệu ứng dụng đƣợc kỹ thuật khai phá liệu tìm thơng tin, quy luật có giá trị hỗ trợ việc định, dự báo, … lĩnh vực đào tạo nghiên cứu khoa học trƣờng Và lý để em chọn đề tài: “Ứng dụng lý thuyết tập mờ khai phá liệu thông tin sinh viên trường Đại học Quốc tế Hồng Bàng” Trang Đối tƣợng phạm vi nghiên cứu - Các khái niệm liên quan đến lý thuyết tập mờ, logic mờ - Các khái niệm liên quan đến khai phá liệu - Nghiên cứu ứng dụng lý thuyết tập mờ khai phá luật kết hợp - Khai phá luật kết hợp mờ từ sở liệu thông tin sinh viên trƣờng Đại học Quốc tế Hồng Bàng Hƣớng nghiên cứu đề tài - Nghiên cứu lý thuyết tập mờ, logic mờ - Nghiên cứu khai phá luật kết hợp mờ - Ứng dụng khai phá luật kết hợp dựa liệu thông tin sinh viên Phƣơng pháp nghiên cứu - Nghiên cứu lý thuyết kết hợp với cài đặt thực nghiệm Ý nghĩa khoa học đề tài Hệ thống kiến thức tập mờ, logic mờ Nghiên cứu phƣơng pháp khai phá luật kết hợp, khai phá luật kết hợp mờ Ứng dụng số phƣơng pháp khai phá luật kết hợp mờ sở liệu thông tin sinh viên Trang Phƣơng thƣơng mại Quản Trị Kinh Doanh 151401563 Hoàng Tiến Anh 18 1.07 Kon Tum TRUE Huỳnh 161303315 Nguyễn Thanh Anh 86 6.79 TP.HCM FALSE Dƣợc Học 151303511 Lê Đức Anh 112 4.26 TP.HCM TRUE Anh 113 5.72 Tây Ninh FALSE 151603173 Lê Minh Anh 116 7.85 Gia Lai FALSE 151302089 Lê Tuấn Anh 109 5.73 TP.HCM TRUE 151305047 Lê Tuấn Anh 122 7.34 151303074 Lê Huỳnh Ngọc 161301087 Lƣơng Thiên Anh 151303124 Lƣu Trúc Lâm Mai Hồng Duy Nghiêm Võ 161706002 Minh 151701263 51 5.88 Bình Định TP.HCM TRUE FALSE Anh 113 5.7 Lâm Đồng FALSE Anh 127 6.19 Đồng Nai TRUE Anh 59 TP.HCM FALSE 5.88 151303727 Ngô Thị Kim Anh 113 6.15 Đồng Tháp FALSE 151604090 Nguyễn Ái Vân Anh 25 Cà Mau FALSE 151303799 Nguyễn Hải Minh Anh 113 6.85 Tiền Giang FALSE 151303465 Nguyễn Hoàng Vân Anh 113 5.29 TP.HCM FALSE Anh 124 6.1 Kiên Giang FALSE Anh 113 6.09 TP.HCM FALSE Anh 112 5.89 Đồng Nai FALSE Anh 127 6.66 TP.HCM FALSE 151701390 Nguyễn Lan 151303150 Nguyễn Minh Nguyễn Ngọc 151701339 Nguyễn 151405093 0.58 Trang 65 Quản lý cung ứng thuốc Quản lý cung ứng thuốc Nhật Bản Học Xét Nghiệm Y Học Phục Hồi Chức Năng Điều Dƣỡng Quản lý cung ứng thuốc Tiếng Anh thƣơng mại Quan Hệ Quốc Tế Quản lý cung ứng thuốc Hàn Quốc Học Quản lý cung ứng thuốc Quản lý cung ứng thuốc Phƣơng Pháp Giảng Dạy Tiếng Anh Quản lý cung ứng thuốc Tài Chính Ngân Hàng Tiếng Anh Ngọc Trâm Nguyễn Thị 151701310 Kiều Nguyễn Thị 151302272 Kim Nguyễn Thị 151303743 Kim Anh 104 2.43 Anh 109 Anh 113 6.39 Long An Ninh Thuận Bình Thuận FALSE FALSE FALSE thƣơng mại Tiếng Anh thƣơng mại Xét Nghiệm Y Học Dƣợc lâm sàng Truyền thông đa phƣơng tiện 151606013 Nguyễn Thị Lan Anh 112 6.58 Bắc Ninh FALSE 161303300 Nguyễn Thị Lan Anh 86 Kiên Giang FALSE Dƣợc Học 4.66 Quản lý FALSE cung ứng thuốc Quản lý FALSE cung ứng thuốc Nguyễn Thị 151303594 Mỹ Anh 113 6.28 Đăk Lăk 151303384 Nguyễn Vân Anh 113 5.61 Bình Dƣơng Anh 15 TP.HCM FALSE Dƣợc Học Bình Phƣớc FALSE 151303214 Phan Thị Thúy 161302017 Phạm Hoàng Anh 151604042 Phạm Thị Hồng Anh 116 6.02 Đăk Lăk FALSE 151406084 Trần Danh Hoàng Anh 86 4.8 Đăk Lăk TRUE Anh 96 6.22 Cần Thơ FALSE Anh 15 0.27 TP.HCM FALSE Anh 99 7.02 Cần Thơ FALSE 151303708 Võ Nhật Anh 113 6.13 TP.HCM TRUE 151302076 Vũ Trâm Anh 109 7.44 Đồng Nai FALSE 151302326 Vƣơng Đức Anh 109 6.65 Đồng Tháp TRUE 161604007 Trần Kim Trần Minh Hoàng Trƣơng 151302270 Xuân 151401127 151303616 Nguyễn Thúy Ái 113 6.2 Cà Mau FALSE 151407008 Phan Thị Diệu Ái 103 7.64 Đồng Tháp FALSE Trang 66 Xét Nghiệm Y Học Hàn Quốc Học Quản Trị Khách Sạn, Nhà Hàng, Nhà Bếp Hàn Quốc Học Quản Trị Kinh Doanh Xét Nghiệm Y Học Quản lý cung ứng thuốc Xét Nghiệm Y Học Xét Nghiệm Y Học Dƣợc lâm sàng Quản Trị Dịch Vụ Du Lịch Và Lữ Hành 151405046 Trịnh Thị Diệp Ái 112 6.17 Bình Định 151406086 Đinh Thị Ngọc Ánh 104 6.62 Bà Rịa FALSE Vũng Tàu Ánh 122 7.15 Bình Thuận FALSE Ánh 109 7.16 An Giang FALSE Ánh 109 6.85 Nghệ An FALSE Ánh 105 7.78 TP.HCM FALSE Ánh 15 Quảng Nam FALSE 105 7.3 Tây Ninh FALSE 91 6.14 Bạc Liêu FALSE 113 7.29 TP.HCM FALSE 25 Lâm Đồng TRUE Lê Thị Nguyệt Nguyễn Lê 151302240 Minh Nguyễn 151400076 Ngọc Nguyễn Thị 151401404 Diệu 151305029 151403026 Nguyễn Thị Minh Phạm Thị Ánh Ngọc 161303001 Lâm Ngọc Ại Nguyễn Kim 151706076 Ân Minh 151401285 151604045 Ninh Tùng Ân 0.46 FALSE Tài Chính Ngân Hàng Quản Trị Khách Sạn, Nhà Hàng, Nhà Bếp Phục Hồi Chức Năng Xét Nghiệm Y Học Kế Toán Kiểm Toán Quản Trị Kinh Doanh Quản Trị Ngoại Thƣơng Quản Trị Kinh Doanh Dƣợc Học Quan Hệ Quốc Tế Hàn Quốc Học Để phục vụ khai phá luật kết hợp, ta chuẩn hóa danh sách sinh viên, đƣa thuộc tính phi số thuộc tính số cụ thể: + Số tín đăng ký 0-130 (số tín theo thiết kế chƣơng trình 130) + Giới tính đƣợc quy – nữ, – nam + Địa bàn đƣợc quy – nông thông, – thành thị + Các ngành học đƣợc quy lĩnh vực: – Y, dƣợc; – Các ngành khác + Điểm trung bình 0-10 (theo quy định chung) Ví dụ nhƣ 20 sinh viên đầu danh sách sinh viên nghiên cứu luận văn đƣợc chuẩn hóa nhƣ sau: Trang 67 Bảng 3.4 Danh sách sinh viên thử nghiệm sau chuẩn hóa Số TC (ĐK) 62 78 125 113 113 116 127 113 113 112 90 112 113 109 124 23 105 105 125 Giới tính 0 1 0 0 0 0 0 0 0 Tỉnh/TP Ngành học 0 0 0 0 0 0 0 1 0 1 1 0 1 1 0 0 ĐTB Chung 6.16 4.57 6.89 5.29 7.28 5.93 5.73 7.57 4.96 6.74 6.12 7.31 5.67 7.05 7.07 5.2 6.64 8.05 6.1 3.2 Ứng dụng khai phá luật kết hợp dựa liệu sinh viên Xây dựng tập mờ cho thuộc tính Số tín đăng ký: Rất ít, ít, gần đủ, tƣơng đối đủ, cao Giới tính: Nữ - 0, Nam – Địa bàn cƣ trú (Nông thôn -0, Thành phố - 1) Lĩnh vực theo học (Ngôn ngữ, Quản lý, kinh doanh- 0, Y, dƣợc - 1) Xếp loại (kém, trung bình, khá, giỏi) Sau tập mờ đƣợc xây dựng cho thuộc tính - Xây dựng tập mờ ứng với thuộc tính số tín đăng ký Trang 68 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 20 40 60 80 100 Hình 3.1 Tập mờ đăng ký 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 20 40 60 80 Hình 3.2 Tập mờ đăng ký Trang 69 100 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 20 40 60 80 100 Hình 3.3 Tập mờ đăng ký tương đối đủ 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 20 40 60 80 Hình 3.4 Tập mờ đăng ký đủ Trang 70 100 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 20 40 60 80 100 Hình 3.5 Tập mờ đăng ký nhiều Dựa hàm thuộc tập mờ ta tiến hành mờ hóa thuộc số tín đăng ký bảng liệu sinh viên (bảng 3.4) nhƣ sau: Bảng 3.5 Kết mờ hóa thuộc tính số tín đăng ký Đăng ký (1) 0 0 0 0 0 0 0 0.233333 0 0 Đăng ký (2) 0 0 0 0 0 0 0 0.766667 0 0 Đăng ký tƣơng đối đủ (3) 0.933333 0.4 0 0 0 0 0 0 0 0 0 Trang 71 Đăng ký đủ (4) 0.066667 0.6 0.233333 0.233333 0.133333 0.233333 0.233333 0.266667 0.266667 0.233333 0.366667 0 0.5 0.5 0.766667 Đăng ký nhiều (5) 0 0.833333 0.766667 0.766667 0.866667 0.766667 0.766667 0.766667 0.733333 0.733333 0.766667 0.633333 0.866667 0.5 0.5 0.833333 0.233333 Các thuộc tính nhƣ giới tính, địa bàn cƣ trú, lĩnh vực học tập nhận giá trị Xây dựng tập mờ ứng với tính kết học tập (điểm trung bình) 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 10 Hình 3.6 Tập mờ kết học tập 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 10 Hình 3.7 Tập mờ kết học tập trung bình Trang 72 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 10 Hình 3.8 Tập mờ kết học tập 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 10 Hình 3.9 Tập mờ kết học tập giỏi Căn vào hàm thuộc tập mờ, ta mờ hóa đƣợc thuộc tính cịn lại bảng 3.4 nhƣ sau: Trang 73 Bảng 3.6 Kết mờ hóa thuộc tính cịn lại Nữ (6) Nam (7) 1 0 1 1 1 1 1 1 1 1 0 1 0 0 0 0 0 0 0 0 Nông Thành thôn phố (8) (9) 1 0 1 1 1 1 1 1 0 1 1 QL, KT (10) 0 1 0 1 0 1 1 0 Y Dƣợc (11) 1 1 0 1 1 0 0 1 Kém (12) 0.215 0 0 0 0.02 0 0 0 0 0 Trung bình (13) 0.42 0.785 0.055 0.855 0.535 0.635 0.98 0.13 0.44 0.665 0 0.9 0.18 0.45 Khá (14) Giỏi (15) 0.58 0.945 0.145 0.86 0.465 0.365 0.715 0.87 0.56 0.845 0.335 0.975 0.965 0.1 0.82 0.475 0.55 0.74 0 0 0.14 0 0.285 0 0.155 0.025 0.035 0 0.525 0.26 Tiến hành khai phá luật kết hợp mờ theo thuật toán với tham số: + Độ hỗ trợ lớn 0.4 + Độ tin cậy lớn 0.4 Kết nhƣ sau: phobien1 = s1 =0 0.1500 Select= 0.0250 0.4500 0.0200 0.9300 0.5500 1.0000 11 10 0.9000 12 5->6, ho tro 83.00, tin cay 89.25 5->8, ho tro 83.00, tin cay 89.25 5->11, ho tro 53.00, tin cay 56.99 5->12, ho tro 93.00, tin cay 100.00 Trang 74 0.1000 0.8500 6->8, ho tro 80.00, tin cay 88.89 6->10, ho tro 45.00, tin cay 50.00 6->11, ho tro 45.00, tin cay 50.00 6->12, ho tro 90.00, tin cay 100.00 8->11, ho tro 50.00, tin cay 58.82 8->12, ho tro 85.00, tin cay 100.00 10->12, ho tro 45.00, tin cay 100.00 11->12, ho tro 55.00, tin cay 100.00 Giải thích luật 5->6, ho tro 83.00, tin cay 89.25 Các sinh viên đăng ký nhiều thƣờng sinh viên nữ 5->8, ho tro 83.00, tin cay 89.25 Các sinh viên đăng ký nhiều thƣờng sinh viên nông thôn 5->11, ho tro 53.00, tin cay 56.99 Các sinh viên đăng ký nhiều thƣờng học lĩnh vực y dƣợc 5->12, ho tro 93.00, tin cay 100.00 Các sinh viên đăng ký nhiều thƣờng có kết học tập 6->8, ho tro 80.00, tin cay 88.89 Các sinh viên nữ thƣờng nông thôn 6->10, ho tro 45.00, tin cay 50.00 Các sinh viên nữ thƣờng học ngành Quản lý, kinh tế, ngôn ngữ 6->11, ho tro 45.00, tin cay 50.00 Các sinh viên nữ thƣờng học Y dƣợc 6->12, ho tro 90.00, tin cay 100.00 Các sinh viên nữ thƣờng có kết học tập 8->11, ho tro 50.00, tin cay 58.82 Các sinh viên nông thôn thƣờng học ngành Y dƣợc 8->12, ho tro 85.00, tin cay 100.00 Các sinh viên nơng thơn thƣờng có kết học tập Trang 75 3.3 Kết khai phá liệu Đại học Quốc tế Hồng Bàng Trong mục 3.2 luận văn ứng dụng phƣơng pháp khai phá luật kết hợp mờ thử nghiệm liệu 20 sinh viên Tuy nhiên liệu thử nghiệm có 20 sinh viên nên kết khơng xác khơng mang tính đại diện Sau luận văn triển khai việc khai phá liệu với liệu 800 sinh viên đƣợc cung cấp trƣờng đại học Quốc tế Hồng Bàng nhƣ đề cập Các bƣớc chuẩn hóa liệu, xây dựng tập mờ, mờ hóa liệu đƣợc tiến hành nhƣ thử nghiệm Tiến hành khai phá luật kết hợp theo thuật toán với tham số: + Độ hỗ trợ lớn 0.4 + Độ tin cậy lớn 0.4 Kết nhƣ sau: phobien1 = s1 = 0.7457 0.0464 0.1335 0.2543 0.5630 select = 0.4370 0.0507 0.1889 0.0729 0.2349 10 11 0.4076 0.4432 0.6717 0.3283 0.0106 14 6->8, ho tro 51.10, tin cay 76.08 8->10, ho tro 40.81, tin cay 54.73 Giải thích luật thu đƣơc Các sinh viên nữ thƣờng nông thôn Các sinh viên nông thôn thƣờng học ngành quản lý, kinh tế, ngôn ngữ Nhƣ kết khai phá với 800 liệu sinh viên tìm đƣợc luật có độ hỗ trợ độ tin cậy đạt tiêu chí đặt Trang 76 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận Sau thời gian nghiên cứu nghiêm túc theo định hƣớng giáo viên hƣờng dẫn, luận văn đạt đƣợc số kết sau: - Hệ thống đƣợc kiến thức lý thuyết tập mờ luật kết hợp mờ - Hệ thống đƣợc kiến thức khai phá luật kết hợp - Đi sâu nghiên cứu thuật toán khai phá luật kết hợp mờ - Xây dựng đƣợc ứng dụng khai phá luật kết hợp ứng dụng cụ thể CSDL sinh viên trƣờng Đại học Quốc tế Hồng Bàng Kiến nghị Khai phá luật kết hợp toán đƣợc nhiều nhà nghiên cứu quan tâm, chứa đựng nhiều hƣớng nghiên cứu khác nhiều vấn đề cần giải Tuy nhiên thời gian có hạn vấn đề đặt học viên nên kết kết bƣớc đầu, cần có nghiên cứu nhƣ thử nghiệm rộng sâu để ứng dụng vào thực tế Trong thời gian tới tơi mở rộn hƣớng nghiên cứu hƣớng sau: - Tăng thêm thuộc tính - Thay đổi phƣơng pháp mờ hóa Trang 77 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt: [1] Phan Đình Diệu (1999), Logic hệ tri thức, NXB ĐH Quốc Gia Hà nội [2] Vũ Đức Thi (1997), Cơ sở liệu - Kiến thức thực hành NXB Thống kê [3] Nguyễn Thanh Thuỷ (2001), Khai phá liệu - Kỹ thuật ứng dụng, NXB Khoa học kỹ thuật Tài liệu tiếng Anh [4] Attila Gyenesei and Jukka Teuhola, “Probabilistic Iterative Expansion of Candidates in Mining Frequent Intemsets”, Turku Center for Computer Science, Dept of Inf Technology, Univ of Turku, Finland [5] Attila Gyênsei (2000), A fuzzy Approach for Mining Quantitive Association Rules Turku Centre For Computer Scinence, TUCS Technical Reports, No 336 [6] Ferenc Bondon, “A Fast APRIORI implementation”, Informatics Laboratory, Computer and Automation Rearch Intitute, Hungarian Academy of Science [7] Gösta Grahne and Jianfei Zhu, “Efficiently Using Prefix-trees in Mining Frequent Itemsets”, Concordia University Montreal Canada [8] Guimei Liu, Hongjun Lu, Jefrey Xu yu, Wei Wang, Xiangye Xiao, “AFOPT: An Efficient Implementation of Pattern Growth Approach” [9] Jiawei Han and Micheline Kamber (2001), Data Mining: Concepts and Techniques, Hacours Science and Technology Company, USA [10] John Wiley & Sons © 2003 _Data Mining, Concepts, Models, Methods, and Algorithms [11] Mohammed J Zaki * and Ching-Jui Hsiao, “CHARM: An Efficient Algorithm for Close Itemset Mining” [12] Rakesh Agrawal, Ramakrishnan Srikant (1994), “Fast Algorithms for Minging Assosiation Rules” Trang 78 [13] Rakesh Agrawal, Tomaz Imielinski, and Arun Swami 1993, Mining association rules between sets of items in large databases In proc of he ACM SIGMOD Conference on Management of data, Washington D.C [14] Ross T J (2004), Fuzzy logic with Engineering Applications, Second Edition, International Edition Mc Graw-Hill, Inc [15] Soumen Chakrabarti, “Mining the WEB Discovery Knowledge FromHyperText Data”, Indian Intitute of Technology, Bombay [16] Usama Fayyad, Georges G Grinstein, Andreas Wierse, “Information Visualization in Data Mining and Knowledge Discovery” Trang 79