Luận án tiến sĩ khai phá luật quyết định trên mô hình dữ liệu dạng khối

129 15 0
Luận án tiến sĩ khai phá luật quyết định trên mô hình dữ liệu dạng khối

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ - Đỗ Thị Lan Anh KHAI PHÁ LUẬT QUYẾT ĐỊNH TRÊN MƠ HÌNH DỮ LIỆU DẠNG KHỐI LUẬN ÁN TIẾN SĨ MÁY TÍNH Hà Nội – Năm 2020 BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ - Đỗ Thị Lan Anh KHAI PHÁ LUẬT QUYẾT ĐỊNH TRÊN MƠ HÌNH DỮ LIỆU DẠNG KHỐI Chun ngành: Khoa học máy tính Mã số: 48 01 01 LUẬN ÁN TIẾN SĨ MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Trịnh Đình Thắng Hà Nội – Năm 2020 i LỜI CẢM ƠN Lời đầu tiên, cho phép tác giả xin bày tỏ lòng biết ơn sâu sắc chân thành tới PGS TS Trịnh Đình Thắng, người thầy tận tình hướng dẫn, bảo cho tác giả suốt trình học tập, nghiên cứu hoàn thành luận án Tác giả xin chân thành cảm ơn tới tập thể thầy cô giáo, nhà khoa học thuộc: Viện Công nghệ Thông tin – viện Hàn lâm Khoa học Công nghệ Việt Nam, Khoa Công nghệ Thông tin – Học viện Khoa học Công nghệ, viện Công nghệ Thông tin – trường Đại học Sư phạm Hà Nội giúp đỡ chuyên môn tạo điều kiện thuận lợi cho tác giả suốt thời gian học tập nghiên cứu Cuối cùng, tác giả xin gửi tới gia đình, người thân, bạn bè lời cảm ơn chân thành ủng hộ, đồng hành, chỗ dựa vững động lực giúp tác giả hoàn thành luận án Tác giả luận án Đỗ Thị Lan Anh ii LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu tơi hướng dẫn khoa học PGS TS Trịnh Đình Thắng Các kết viết chung với đồng tác giả chấp thuận tác giả trước đưa vào luận án Các kết nêu luận án trung thực chưa cơng bố cơng trình khác Tác giả luận án Đỗ Thị Lan Anh iii MỤC LỤC Trang Danh mục ký hiệu, chữ viết tắt v Danh mục bảng, hình vẽ vi MỞ ĐẦU CHƯƠNG 1: MỘT SỐ KIẾN THỨC CƠ SỞ 1.1 Khai phá liệu 1.1.1 Định nghĩa khai phá liệu 1.1.2 Một số kỹ thuật khai phá liệu 1.2 Khai phá luật định 10 1.2.1 Hệ thông tin 10 1.2.2 Quan hệ không phân biệt 11 1.2.3 Bảng định 13 1.2.5 Luật định 14 1.3 Mơ hình liệu dạng khối 16 1.3.1 Khối, lược đồ khối 16 1.3.2 Lát cắt 18 1.3.3 Đại số quan hệ khối 18 1.4 Kết luận chương 21 CHƯƠNG 2: KHAI PHÁ LUẬT QUYẾT ĐỊNH TRÊN KHỐI DỮ LIỆU CÓ GIÁ TRỊ THUỘC TÍNH THAY ĐỔI 22 2.1 Một số khái niệm xây dựng khối 22 2.1.1 Khối thông tin 22 2.1.2 Quan hệ không biệt 25 2.1.3 Khối định 26 2.1.4 Luật định khối lát cắt 28 2.2 Thuật toán khai phá luật định khối lát cắt (MDLB) 31 2.3 Khai phá luật định khối có giá trị thuộc tính thay đổi 34 2.3.1 Làm mịn, thơ lớp tương đương điều kiện khối lát cắt 40 2.3.2 Làm mịn, thô lớp tương đương định khối lát cắt 44 2.3.3 Làm mịn cảm sinh hồn tồn thuộc tính số lát cắt 2.3.4 Thuật toán khai phá luật định khối có giá trị thuộc tính 48 iv thay đổi (MDLB_VAC) 50 2.4 Độ phức tạp thuật tốn tính ma trận Sup khối lát cắt 60 2.5 Ví dụ minh họa 62 2.5.1 Minh họa toán sinh luật định khối 62 2.5.2 Minh họa toán sinh luật định khối làm mịn, thơ giá trị thuộc tính số 63 2.6 Kết luận 66 CHƯƠNG 3: KHAI PHÁ LUẬT QUYẾT ĐỊNH TRÊN KHỐI CÓ TẬP ĐỐI TƯỢNG THAY ĐỔI 67 3.1 Mơ hình bổ sung, loại bỏ đối tượng khối lát cắt 67 3.2 Tính toán gia tăng Acc Cov bổ sung, loại bỏ đối tượng khối 74 3.2.1 Bổ sung đối tượng x vào khối định 74 3.2.2 Loại bỏ phần tử x khỏi khối định 77 3.3 Thuật tốn sinh luật định phương pháp tính gia tăng ma trận Acc Cov sau bổ sung, loại bỏ phần tử (MDLB_OSC1) 78 3.4 Độ phức tạp thuật tốn MDLB_OSC1 83 3.5 Tính toán gia tăng Sup bổ sung, loại bỏ đối tượng khối lát cắt 86 3.6 Thuật toán sinh luật định phương pháp tính gia tăng ma trận Sup sau bổ sung loại bỏ đối tượng (MDLB_OSC2) 88 3.7 Độ phức tạp thuật toán MDLB_OSC2 96 3.8 So sánh hai phương pháp tính gia tăng 97 3.9 Ví dụ minh họa 97 3.10 Thực nghiệm 103 3.11 Kết luận 112 KẾT LUẬN 113 DANH MỤC CÁC CƠNG TRÌNH CỦA TÁC GIẢ 114 TÀI LIỆU THAM KHẢO 115 v DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT Kí hiệu, chữ viết tắt Diễn giải Acc Accuracy (Độ xác) Cov Coverage (Độ phủ) Sup Support (Độ hỗ trợ) IND(P) Quan hệ khơng phân biệt id  id’ Tích rời rạc hai tập số id id’ P(r) Phép chiếu khối r lược đồ P F(r) Phép chọn khối r theo biểu thức Boole F r  s Phép kết nối hai khối r s IB = (U, A, V, f) Khối thông tin DB = (U, CD) Khối định U/C Tập lớp tương đương điều kiện khối U/D Tập lớp tương đương định khối U/Cx Tập lớp tương đương điều kiện lát cắt điểm x U/Dx Tập lớp tương đương định lát cắt điểm x  Ngưỡng độ xác tối thiểu  Ngưỡng độ phủ tối thiểu vi DANH MỤC CÁC BẢNG Trang Bảng 1.1 Bảng Bệnh nhân Bảng 1.1 Một ví dụ hệ thơng tin 11 Bảng 1.2 Bảng định bệnh cúm 14 Bảng 2.1 Bảng biểu diễn khối thông tin Bệnh nhân bị sốt virut khoa Nhi A Bệnh viện Bạch Mai sở 25 Bảng 3.1 Bảng so sánh hai phương pháp tính gia tăng 98 Bảng 3.2 Các thơng tin CSDL thực nghiệm 104 vii DANH MỤC CÁC HÌNH VẼ Hình 1.1 Ví dụ Khối Bệnh nhân Hình 1.2 Ví dụ khối Khách hàng 19 Hình 1.3 Minh họa lát cắt khối Khách hàng điểm x = 3/2019 20 Hình 2.1 Minh họa khối thông tin bệnh nhân bị sốt virut Khoa Nhi A – Bệnh viện Bạch Mai sở 24 Hình 2.2 Minh họa khối định Bệnh nhân sốt vi rút 28 Hình 3.1 Menu chương trình 105 Hình 3.2 Tìm lớp tương đương điều kiện, định 105 Hình 3.3 Ma trận Sup, Acc, Cov tìm 106 Hình 3.4 Luật định tìm khối 106 Hình 3.5 Mối quan hệ số lượng luật kết ngưỡng min_acc, min_cov 107 Hình 3.6 Chọn giá trị làm mịn 107 Hình 3.7 Tính ma trận Sup, Acc, Cov trước sau làm mịn 108 Hình 3.8 Chọn giá trị thuộc tính làm thơ 108 Hình 3.9 Tính ma trận Sup, Acc, Cov trước sau làm thô 109 Hình 3.10 Luật định tìm sau làm thơ, mịn giá trị thuộc tính 109 Hình 3.11 Chọn đối tượng bị loại bỏ 110 Hình 3.12 Nhập đối tượng bổ sung vào khối 110 Hình 3.13 Kết chương trình tính gia tăng ma trận Acc, Cov luật định thu 111 Hình 3.14 Kết chương trình tính gia tăng ma trận Sup luật định thu 111 Hình 3.15 Thời gian chạy (mili giây) trung bình hai thuật tốn 112 MỞ ĐẦU Lý chọn đề tài Khai phá liệu lĩnh vực nhận nhiều quan tâm nghiên cứu nhà khoa học giới Hội nghị quốc tế khai phá liệu KDD lần thứ 26 tổ chức California, Mỹ vào tháng năm 2020 hội nghị lớn tiếng hàng đầu lĩnh vực khai phá liệu quy tụ hàng trăm nhà khoa học tham gia [1], [2] Một số hội nghị khai phá liệu tiếng tổ chức thường niên hàng năm giới kể đến như: hội nghị KDD, ICDE, IEEE ICDM, CIKM, SIAM SDM, PKDD, PAKDD… Nhóm tốn thường nghiên cứu khai phá liệu gồm có: Phân lớp, dự đoán, luật kết hợp phân cụm [3], [4], [5] Khai phá luật định kĩ thuật nằm nhóm tốn phân lớp đối tượng Đây kĩ thuật khai phá liệu phổ biến nhiều chuyên gia ngồi nước nghiên cứu mơ hình sở liệu quan hệ số mô hình mở rộng mơ hình liệu quan hệ mơ hình datacube, mơ hình nhà kho liệu, mơ hình liệu đa chiều ….[6], [7], [8], [9], [10], [11] Năm 1998, tác giả Nguyễn Xuân Huy, Trịnh Đình Thắng đề xuất mơ hình liệu dạng khối, mở rộng mơ hình quan hệ [9] Mơ hình xây dựng lý thuyết cài đặt thực nghiệm Với việc đưa thêm trục id cho phép theo dõi thay đổi liệu theo q trình, cụ thể theo thời gian, giai đoạn, khoảng cách [12], [13], [14], [15], [16], [17], [18], [19] Kết tốn khai phá luật mơ hình quan hệ cho ta luật hữu ích thời điểm Tuy nhiên, thực tế với số vấn đề đặc thù chuẩn đốn bệnh, theo dõi q trình mua bán hàng siêu thị hay q trình quản lí cán quan, Việc tìm mối quan hệ (các luật) đối tượng sở liệu theo q trình giúp ích cho chuyên gia đưa định xác Ví dụ: bảng định Bệnh nhân ... Luật định 14 1.3 Mơ hình liệu dạng khối 16 1.3.1 Khối, lược đồ khối 16 1.3.2 Lát cắt 18 1.3.3 Đại số quan hệ khối 18 1.4 Kết luận chương 21 CHƯƠNG 2: KHAI PHÁ LUẬT QUYẾT ĐỊNH TRÊN KHỐI DỮ LIỆU...113 KẾT LUẬN 1) Những kết luận án Luận án tập trung nghiên cứu toán khai phá luật định khối số trường hợp với kết sau: - Xây dựng mơ hình khai phá luật định khối với khái niệm, định lí, tính c... dựng khối 22 2.1.1 Khối thông tin 22 2.1.2 Quan hệ không biệt 25 2.1.3 Khối định 26 2.1.4 Luật định khối lát cắt 28 2.2 Thuật toán khai phá luật định khối lát cắt (MDLB) 31 2.3 Khai phá luật định

Ngày đăng: 08/06/2021, 10:10

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan