Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 120 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
120
Dung lượng
1,48 MB
Nội dung
1 MỞ ĐẦU Lý chọn đề tài Khai phá liệu lĩnh vực nhận nhiều quan tâm nghiên cứu nhà khoa học giới Hội nghị quốc tế khai phá liệu KDD lần thứ 26 tổ chức California, Mỹ vào tháng năm 2020 hội nghị lớn tiếng hàng đầu lĩnh vực khai phá liệu quy tụ hàng trăm nhà khoa học tham gia [1], [2] Một số hội nghị khai phá liệu tiếng tổ chức thường niên hàng năm giới kể đến như: hội nghị KDD, ICDE, IEEE ICDM, CIKM, SIAM SDM, PKDD, PAKDD… Nhóm tốn thường nghiên cứu khai phá liệu gồm có: Phân lớp, dự đốn, luật kết hợp phân cụm [3], [4], [5] Khai phá luật định kĩ thuật nằm nhóm tốn phân lớp đối tượng Đây kĩ thuật khai phá liệu phổ biến nhiều chun gia ngồi nước nghiên cứu mơ hình sở liệu quan hệ số mơ hình mở rộng mơ hình liệu quan hệ mơ hình datacube, mơ hình nhà kho liệu, mơ hình liệu đa chiều ….[6], [7], [8], [9], [10], [11] Năm 1998, tác giả Nguyễn Xuân Huy, Trịnh Đình Thắng đề xuất mơ hình liệu dạng khối, mở rộng mơ hình quan hệ [9] Mơ hình xây dựng lý thuyết cài đặt thực nghiệm Với việc đưa thêm trục id cho phép theo dõi thay đổi liệu theo trình, cụ thể theo thời gian, giai đoạn, khoảng cách [12], [13], [14], [15], [16], [17], [18], [19] Kết tốn khai phá luật mơ hình quan hệ cho ta luật hữu ích thời điểm Tuy nhiên, thực tế với số vấn đề đặc thù chuẩn đốn bệnh, theo dõi q trình mua bán hàng siêu thị hay q trình quản lí cán quan, Việc tìm mối quan hệ (các luật) đối tượng sở liệu theo q trình giúp ích cho chuyên gia đưa định xác Ví dụ: bảng định Bệnh nhân Sốt Ho Sổ mũi Mức Sốt VR (A1) (A2) (A3) (A4) 1 3 3 3 Bảng 1.1: Bảng Bệnh nhân Bảng gồm thuộc tính điều kiện là: Sốt (A1), Ho (A2), Sổ mũi (A3) thuộc tính định Mức Sốt VR (A4) Theo định nghĩa luật định bảng định có dạng: Ci → Dj với Ci lớp tương đương điều kiện, Dj lớp tương đương định.[20] Giả sử sau khai phá ta có luật C3 → D3 bảng định luật có ý nghĩa sau: tất nhóm bệnh nhân có triệu chứng sốt độ 3, ho độ 2, sổ mũi độ kết luận nhóm bệnh nhân sốt virut mức Có nghĩa luật tìm cho ta thấy triệu chứng kết luận bệnh thời điểm Trên thực tế, việc điều trị bệnh trình cần thời gian theo dõi dài ngày từ ngày đầu nhập viện, đến ngày viện Mặt khác, mức độ sốt thay đổi người quản lí cập nhật mức sốt cho bệnh nhân đó, mức sốt cũ mà thay mức sốt Tình trạng tương tự với thuộc tính: ho sổ mũi bệnh nhân Do đó, với bảng người quản lí muốn theo dõi trình diễn biến triệu chứng bệnh việc tìm số ngày bệnh nhân nằm viện ngày sốt cao nhất, ngày mức độ ho giảm mạnh nhất, … công việc khó khăn Tuy nhiên, mơ hình liệu dạng khối việc lại trở nên đơn giản Giả sử xây dựng Khối bệnh nhân gồm thuộc tính số điều kiện là: Sốt (A1), Ho (A2), Sổ mũi (A3) thuộc tính số định phác đồ điều trị: PĐĐT (A4) Sốt VR (A5), trục id = {x, y, z, t} tương ứng với số ngày theo dõi nằm viện Hình 1.1: Minh họa Khối Bệnh nhân Với liệu theo dõi Khối Bệnh nhân: bệnh nhân có thay đổi triệu chứng bệnh, ta bổ sung ngày vào trục thời gian khối sinh lát cắt mới, ứng với ngày vừa bổ sung để người quản lí cập nhật thơng tin (trục thời gian tính theo ngày, giờ, … tùy theo yêu cầu chẩn đoán) Đồng thời, giả sử sau khai phá Khối tìm luật có dạng: Ci → Dj với Ci lớp tương đương điều kiện khối, Dj lớp tương đương định khối Ví dụ cụ thể tìm luật C3 → D4 khối, luật có ý nghĩa sau: tất nhóm bệnh nhân có tập triệu trứng qua ngày (sốt ngày độ 3, ho ngày độ 2, sổ mũi ngày độ 3, sốt ngày độ 3, ho ngày độ 1, …., sốt ngày độ 0, ho ngày độ 1, sổ mũi ngày độ 0) sử dụng phác đồ điều trị cho kết bệnh thuyên giảm dần từ ngày thứ đến ngày thứ (sốt vi rút ngày độ 3, ngày độ 2, ngày độ 1, ngày độ 0) Như luật tìm khối cho ta thấy trình đáp ứng bệnh với phác đồ điều trị phù hợp (thơng qua tiến trình thay đổi triệu chứng bệnh) Với dạng tốn trên, khơng xảy lĩnh vực y tế, mà giáo dục, quản trị kinh doanh, … Do đó, việc nghiên cứu tốn tìm luật định khối để hỗ trợ cho nhà quản lí điều cần thiết Tổng quan tình hình nghiên cứu liên quan đến luận án a) Các nghiên cứu giới Các nghiên cứu toán khai phá luật mơ hình quan hệ, mơ hình mở rộng mơ hình quan hệ nhiều nhóm tác giả nghiên cứu đưa năm vừa qua Ngoài ra, việc nghiên cứu toán khai phá luật trường hợp giá trị liệu thay đổi tập đối tượng thay đổi quan tâm Năm 1995, nhóm tác giả Shan Ziarko đưa phương pháp để tìm tất luật định chắn dựa học gia tăng Tuy nhiên, thuật tốn có hạn chế chưa xem xét đến việc tìm luật bảng định không quán [21] Mục tiêu để giải vấn đề trên, năm 1998, tác giả Bian [22] đề xuất thuật toán cải tiến sở thuật toán Shan Ziarko, thuật toán sử dụng ma trận định mở rộng để giải vấn đề liệu không quán Tuy vậy, hai thuật toán tồn hạn chế thuật tốn khơng đưa luật định không chắn độ đo luật độ xác, độ phủ khơng cập nhật đồng thời Năm 2002, nhóm tác giả Tong An [23] sử dụng thuật toán dựa vào ma trận định để học gia tăng luật định sở đưa bảy trường hợp xảy đối tượng bổ sung Tuy nhiên, trường hợp loại bỏ đối tượng khỏi bảng liệu chưa nhóm tác giả đề cập đến Năm 2009, tác giả Liu [24] đề xuất mơ hình thuật toán để phát luật định bổ sung loại bỏ đối tượng khỏi bảng liệu dựa việc tính tốn gia tăng ma trận độ xác ma trận độ phủ làm sở để sinh luật định Thuật toán Liu phải sử dụng nhiều không gian nhớ thời gian tính tốn phải lưu cập nhật lại nhiều lần ma trận độ xác ma trận độ phủ Năm 2010, tác giả Chen [25] đề nghị thuật toán gia tăng để cập nhật xấp xỉ khái niệm (một lớp tương đương định) làm mịn giá trị thuộc tính điều kiện Tuy nhiên, vấn đề làm để sinh luật định có ý nghĩa giá trị có thuộc tính thay đổi chưa đề cập Các nghiên cứu chủ yếu tập trung khai phá liệu mơ hình quan hệ Trên giới có số nghiên cứu khai phá liệu mơ hình liệu đa chiều [26], [27], [28], [29], [30], [31], [32], [33], [34], [35], [36], [37], Năm 1997, Kamber đồng nghiệp [38] nhóm đưa vấn đề khai thác luật kết hợp từ liệu đa chiều Các luật kết hợp đa chiều khai thác từ mức đơn chiều Quá trình khai thác xem xét khối liệu (data cube), độ hỗ trợ độ tin cậy tính dựa theo tham số Count Năm 1998, Zhu đưa vấn đề khai phá luật kết hợp từ khối liệu theo ba nhóm: liên chiều (inter-dimensional), nội chiều (intra- dimensional), luật kết hợp lai Luật kết hợp intra - dimensional bao gồm vị từ lặp lại từ chiều đơn, luật kết hợp inter-dimensional khai thác từ nhiều chiều không lặp lại vị từ chiều [39] Năm 2000, Chen cộng đưa nghiên cứu khai thác luật kết hợp nội chiều (intra - dimensional) cách thêm đặc trưng từ chiều khác nhiều mức [40] Tuy nhiên, việc sử dụng luật kết hợp phương pháp cho phép áp dụng truy vấn liệu Web mà chưa ứng dụng lĩnh vực khác Năm 2003, luật kết hợp mở rộng đề xuất [41] Nestorov Juki'c Các tác giả khai thác luật kết hợp từ kho liệu cách sử dụng sức mạnh xử lý SQL kho liệu mà khơng cần sử dụng công cụ khai thác liệu khác Họ tập trung vào khai thác luật kết hợp từ sở liệu giao dịch không đưa số bậc chiều tính tốn tham số khối lập phương độ hỗ trợ độ tin cậy Năm 2005, Tjioe Taniar [42] đề xuất phương pháp khai phá luật kết hợp kho liệu dựa vào việc tổ chức liệu đa chiều Phương pháp họ trích xuất luật kết hợp từ nhiều chiều nhiều mức cách tập trung vào việc tổng hợp liệu theo tham số COUNT theo bốn thuật toán: VAvg, HAvg, WMAvg, ModusFilter Năm 2006, [43], tác giả Riadh Ben Sabine Loudcher nghiên cứu việc khai thác luật kết hợp liên chiều (inter-dimensional) từ khối lập phương Các tác giả đưa tập quy tắc cho phép tính tốn độ hỗ trợ độ tin cậy luật kết hợp dựa tham số khối lập phương không dựa tham số Count truyền thống Các tác giả cịn đưa hai tiêu chí đánh giá luật Lift Loevinger Các tiêu chí đánh giá thể mối liên quan luật cách xác so với tham số độ tin cậy độ hỗ trợ Năm 2015, tác giả Volker, Wolfram Mathias nghiên cứu việc tích hợp khai phá liệu mơ hình liệu đa chiều cách “khoan” sâu chiều liệu để tìm tri thức có ích Phương pháp có số hạn chế việc chưa xây dựng mơ hình lí thuyết cho việc khai phá liệu đa chiều, việc tìm tri thức theo chiều tính tổng qt luật tìm chưa xác định [44] Năm 2017, nhóm tác giả Omar Mohamed đề xuất mẫu thử đa tiêu chí MCA tích hợp OLAP để giải vấn đa tiêu chí liệu đa chiều Tuy nhiên, phương pháp dừng lại giải tính đa chiều liệu mà chưa đưa phương pháp tìm luật [45] Năm 2018, tác giả Viktor, Nataliia Sergiy đưa nghiên cứu việc khai phá liệu kiện mạng khối không gian – thời gian (data cube) Việc sử dụng phương pháp cho phép thực việc phân tích thống kê phát cụm thời gian có ý nghĩa thống kê liệu [46] Năm 2019, tác giả Hanen Brahmi đưa hướng tiếp cận phương pháp khai phá liệu khối datacube bẳng cách phân cấp thứ nguyên đặc trưng khối theo hướng tổng hợp luật thu Cũng giống phương pháp tác giả Volker, Wolfram Mathias đề cập trên, phương pháp chưa xác định mơ hình lí thuyết cho việc khai phá liệu đa chiều tính tổng quan luật tìm [47] b) Các nghiên cứu Việt Nam Tại Việt Nam, có nhiều tác giả, nhóm tác giả quan tâm, nghiên cứu, đề xuất giải pháp khác nhằm giải toán khai phá tri thức bảng liệu mơ hình quan hệ mơ hình mở rộng mơ hình quan hệ Năm 2008, tác giả Nguyễn Hữu Trọng [48] đề xuất thuật toán để khai phá luật kết hợp bảng liệu gia tăng theo chiều dọc sử dụng kỹ thuật định để sinh luật bảng gia tăng theo chiều ngang Năm 2012, tác giả Nguyễn Long Giang [49] đề xuất thuật toán rút gọn thuộc tính hệ thơng tin khơng đầy đủ bảng định không đầy đủ sử dụng metric Cũng năm này, tác giả Nguyễn Quang Khanh [50] đề cập đến vấn đề khai phá luật định bảng liệu có tập giá trị thuộc tính thay đổi Năm 2017, tác giả Cao Chính Nghĩa [51] đề xuất phương pháp rút gọn thuộc tính trực tiếp bảng định miền giá trị thực sinh luật định mờ Mục tiêu, đối tượng phương pháp nghiên cứu Trong thực tế với khối liệu có tập đối tượng lớn, việc tìm mối quan hệ toàn tập đối tượng khó khăn Chính vậy, mục đích tốn tìm mối quan hệ (các luật định) từ nhóm đối tượng nhỏ hơn, cụ thể lớp đối tượng chia theo quan hệ tương đương Với mục đích trên, mục tiêu luận án tập trung giải ba toán là: - Tìm luật định khối lát cắt - Tìm luật định nhóm đối tượng khối có thay đổi giá trị thuộc tính, cụ thể làm mịn, làm thơ giá trị thuộc tính - Tìm luật định nhóm đối tượng khối bổ sung, loại bỏ phần tử khối Đối tượng nghiên cứu luận án luật định Phạm vi nghiên cứu mơ hình khối Phương pháp nghiên cứu luận án: nghiên cứu lý thuyết nghiên cứu thực nghiệm Giả thuyết nghiên cứu Với lí mục tiêu đề cập trên, luận án mong muốn đạt giả thuyết nghiên cứu sau: - Đề xuất khái niệm, chứng minh mệnh đề, tính chất để xây dựng mơ hình khai phá luật khối lắt cắt khối - Đề xuất số thuật toán tính ma trận độ hỗ trợ, từ tính ma trận độ xác, ma trận độ phủ suy luật định có ý nghĩa khối - Xây dựng thuật tốn tìm luật định khối trường hợp giá trị thuộc tính số thay đổi, tính tốn độ phức tạp cài đặt thực nghiệm - Xây dựng mơ hình bổ sung loại bỏ phần tử khối định, đề xuất hai phương pháp tìm luật khối tập đối tượng thay đổi phương pháp tính gia tăng ma trận độ xác, độ phủ phương pháp tính gia tăng ma trận độ hỗ trợ Tính tốn độ phức tạp thuật toán đề xuất thực nghiệm so sánh hai phương pháp đề xuất Bố cục luận án Luận án gồm phần mở đầu, chương cuối phần kết luận Chương đầu trình bày số khái niệm sở mơ hình liệu dạng khối, khai phá liệu, khai phá luật định quan hệ tương đương Chương đưa thuật toán khai phá luật định khối Đồng thời đề xuất kết nghiên cứu việc làm thô, làm mịn giá trị thuộc tính sổ điều kiện định Từ tìm luật định khối lát cắt cài đặt thử nghiệm thuật toán đề xuất Chương xây dựng mơ hình tăng giảm tập đối tượng khối định; đưa hai phương pháp tính gia tăng ma trận độ đo Acc, Cov, Supp Từ tìm luật định khối định lát cắt tập đối tượng thay đổi cài đặt thử nghiệm CHƯƠNG MỘT SỐ KIẾN THỨC CƠ SỞ Nội dung chương trình bày kiến thức sở khai phá liệu, khai phá luật định, mơ hình liệu dạng khối Đây kiến thức tảng cho nghiên cứu chương sau luận án 1.1 Khai phá liệu 1.1.1 Định nghĩa khai phá liệu Khai phá liệu khâu chủ yếu trình phát tri thức sở liệu Quá trình kết xuất tri thức tiềm ẩn từ liệu giúp cho việc dự báo, định kinh doanh, quản lý, hoạt động sản xuất, [52], [53] Quá trình khai phá liệu trải qua ba bước [52], [53]: Bước 1: Lọc liệu hay gọi tiền xử lý Khi liệu thu thập từ nhiều nguồn khác nên có sai sót, dư thừa trùng lặp Lọc liệu cắt bỏ dư thừa để liệu định dạng thống Dữ liệu sau lọc chỉnh sửa nhỏ hơn, xử lý nhanh chóng Bước 2: Khai phá liệu, công việc chính, sử dụng thuật tốn khác để khai phá kiến thức tiềm ẩn liệu Bước 3: Hậu xử lý, trình ước lượng kết khai phá theo yêu cầu người dùng Nhiều kỹ thuật khai phá liệu ứng dụng cho nguồn liệu, kỹ thuật khác cho kết khác Các kết ước lượng tiêu chí đánh giá đó, cuối kết khơng thỏa mãn u cầu, phải làm lại với kỹ thuật khác có kết mong muốn 1.1.2 Một số kỹ thuật khai phá liệu Trong khai phá liệu, tốn phân thành bốn loại [52]: - Phân lớp (Classification): Là tốn thông dụng khai phá liệu Với tập liệu huấn luyện cho trước huấn luyện người, giải thuật phân loại học phân loại (classifier) dùng để phân liệu vào lớp (còn gọi loại) xác định trước Nhận dạng toán thuộc kiểu phân lớp - Dự đốn (Prediction): Với mơ hình học tương tự toán phân lớp, lớp toán dự đoán học dự đốn Khi có liệu đến, dự đốn dựa thơng tin có để đưa giá trị số học cho hàm cần dự đoán Bài toán 10 tiêu biểu nhóm dự đốn giá sản phẩm để lập kế hoạch kinh doanh - Luật kết hợp (Association Rule): Các giải thuật tìm luật kết hợp tìm kiếm mối liên kết phần tử liệu, ví dụ nhóm hàng thường mua kèm với siêu thị - Phân cụm (Clustering): Các kỹ thuật phân cụm nhóm đối tượng liệu có tính chất giống vào nhóm Có nhiều cách tiếp cận với mục tiêu khác phân cụm Các tài liệu [44, 49] giới thiệu đầy đủ chi tiết cách tiếp cận phân cụm Các kỹ thuật toán thường vận dụng vấn đề phân hoạch liệu tiếp thị hay khảo sát sơ liệu 1.2 Khai phá luật định 1.2.1 Hệ thơng tin Một cách phi hình thức, hệ thông tin tập liệu cho dạng bảng, hàng biểu diễn thông tin đối tượng, cột biểu diễn thơng tin thuộc tính đối tượng tập liệu Một cách hình thức, hệ thơng tin định nghĩa sau: Định nghĩa 1.1 [54], [55] (Hệ thông tin) Hệ thông tin bốn S= (U, A, V, f) U tập đối tượng tập hữu hạn, khác rỗng đối tượng (U gọi tập vũ trụ) A tập thuộc tính tập hữu hạn, khác rỗng thuộc tính; V tập giá trị, V = Va a A với Va tập giá trị thuộc tính a A, f hàm thông tin f : U x A→V, a A, u U: f(u,a) Va Với u U, a A, dùng ký hiệu u(a) thay cho f(u,a) để biểu thị giá trị đối tượng u thuộc tính a; rõ ràng u(a) Va với u U Với tập thuộc tính B = {b1, b2, …, bk} A, ký hiệu giá trị {u(bi)|biB} u(B), với hai đối tượng u, vU, viết u(B) = v(B) u(bi) = v(bi) i = k Nếu uU, aA mà giá trị hàm thơng tin f(u,a) khơng xác định hệ thơng tin S gọi hệ thông tin không đầy đủ (Uncompleted Information System), ngược lại S gọi hệ thông tin đầy đủ (Completed Information System) [56] 106 Hình 3.4: Luật định tìm khối Khi thay đổi acc cov số lượng luật thu thay đổi: Number of rules 60 50 Acc =0.1 40 Acc =0.2 30 Acc =0.3 20 Acc =0.4 10 Acc =0.5 0.1 0.2 0.3 0.4 0.5 0.6 0.7 Acc =0.6 Number of rule Coverage 16 14 12 10 Cov = 0.65 Cov = 0.7 Cov = 0.75 Cov = 0.8 Cov = 0.85 0.15 0.2 0.25 0.3 0.35 0.4 Accuracy Hình 3.5: Môi quan hệ số lượng luật kết với ngưỡng min_acc, min_cov - Với tốn 2: tìm luật định khối lát cắt khối làm mịn, làm thơ giá trị thuộc tính (thuật tốn MDLB_VAC) Ta có, kết chương trình: 107 Hình 3.6: Chọn giá trị làm mịn Hình 3.7: Tính ma trận Sup, Acc, Cov trước sau làm mịn 108 Hình 3.8: Chọn giá trị thuộc tính làm thơ Hình 3.9: Tính ma trận Sup, Acc, Cov trước sau làm thơ 109 Hình 3.10: Luật định tìm sau làm mịn, thơ giá trị thuộc tính - Với tốn 3: tìm luật định khối lát cắt khối bổ sung, loại bỏ phần tử (Thuật toán MDLB_OSC1 MDLB_OSC2) Ta có, kết chương trình với phương pháp tính: tính gia tăng ma trận Acc, Cov (thuật tốn MDLB_OSC1) tính gia tăng ma trận Sup (thuật tốn MDLB_OSC2) Hình 3.12: Chọn đối tượng bị loại bỏ 110 Hình 3.12: Nhập đối tượng bổ sung vào khối + Kết chương trình tính gia tăng ma trận Acc, Cov (thuật tốn MDLB_OSC1): Hình 3.13: Kết thuật toán MDLB_OSC1 luật định thu 111 + Kết chương trình tính tính gia tăng ma trận Sup (thuật tốn MDLB_OSC2): Hình 3.14: Kết thuật toán MDLB_OSC2 luật định thu Ta thấy phương pháp cho kết tập luật với tập Time (ms) nguồn, khác thời gian thực hiện: 9000 8000 7000 6000 5000 4000 3000 2000 1000 Thuật toán MDLB_OSC1 Thuật toán MDLB_OSC2 BVBM2KNA Kid Patient Fever Virus BVBM2KNB Hình 3.15: Thời gian chạy (mili giây) trung bình hai thuật tốn 3.11 Kết luận Từ mơ hình bổ sung loại bỏ đối tượng khối định lát cắt đề xuất, số tính chất ma trận Acc Cov chứng minh Trên 112 sở đó, hai thuật tốn tìm luật định khối lát cắt đưa ra: - Thuật tốn MDLB_OSC1 tính gia tăng ma trận Acc, Cov để tìm luật định có ý nghĩa khối lát cắt - Thuật tốn MDLB_OSC2 tính gia tăng ma trận độ hỗ trợ Sup để tìm luật định có ý nghĩa Cuối chương phần so sánh hai thuật toán đề xuất cài đặt thực nghiệm 113 KẾT LUẬN 1) Những kết luận án Luận án tập trung nghiên cứu toán khai phá luật định khối số trường hợp với kết sau: - Xây dựng mơ hình khai phá luật định khối với khái niệm, định lí, tính chất chứng minh - Đề xuất 03 thuật toán tìm luật định khối trường hợp: liệu khối cố định; giá trị thuộc tính số thay đổi; trường hợp tập đối tượng thay đổi Các kết nghiên cứu với mục đích tìm tri thức có ý nghĩa khối định để giúp ích cho nhà quản lí, nhà hoạch định, kinh doanh việc theo dõi, quản lí, định… thực tế cơng việc 2) Hướng phát triển luận án - Tiếp tục nghiên cứu vấn đề khai phá luật định khối có thuộc tính thay đổi đồng thời, liệu không đầy đủ… - Khai phá luật định có ý nghĩa chuỗi khối định liên kết với (tương đồng với cơng nghệ blockchain) 114 DANH MỤC CÁC CƠNG TRÌNH CỦA TÁC GIẢ CT1 Trịnh Đình Thắng, Trần Minh Tuyến, Đỗ Thị Lan Anh, “Khai phá luật định khối liệu có giá trị thuộc tính thay đổi”, Kỷ yếu Hội thảo Quốc gia lần thứ XIX: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông, Hà Nội, 01- 02/10/2016, Tr 163 – 169 CT2 Trịnh Đình Thắng, Trần Minh Tuyến, Đỗ Thị Lan Anh, Nguyễn Thị Quyên, “Một số kết khai phá luật định khối liệu có giá trị thuộc tính thay đổi”, Kỷ yếu Hội nghị Khoa học Công nghệ Quốc gia lần thứ X: Nghiên cứu ứng dụng công nghệ thông tin, Đà Nẵng, 17-18/08/2017, Tr 623 – 632 CT3 Trịnh Đình Thắng, Đỗ Thị Lan Anh, “Một số thuật tốn xác định ma trận độ hỗ trợ khối liệu có giá trị thuộc tính thay đổi”, Kỷ yếu Hội thảo Quốc gia lần thứ XXI: Một số vấn đề chọn lọc Công nghệ thông tin truyền thơng, Thanh Hóa, 27- 28/07/2018, Tr 216 – 225 CT4 Thang Trinh Dinh, Anh Do Thi Lan, “Some properties about smoothing, roughen the values of the index attribute on the decision block”, International Journal of Advanced Research in Computer Science, Volume 10 issue March – April 2019 CT5 Đỗ Thị Lan Anh, Trịnh Đình Thắng, “Một phương pháp gia tăng để tính độ xác độ phủ luật định khối liệu có tập đối tượng thay đổi”, Chun san cơng trình nghiên cứu phát triển Công nghệ thông tin truyền thông, Tạp chí thơng tin Khoa học cơng nghệ Bộ Thông tin truyền thông, Tập 2019 số 1, 2019, Tr – 10 CT6 Trịnh Đình Thắng, Đỗ Thị Lan Anh, Trần Minh Tuyến, Cao Hồng Huệ, “Phương pháp gia tăng ma trận độ hỗ trợ khối liệu lát cắt có tập đối tượng thay đổi”, Kỷ yếu Hội nghị Khoa học Công nghệ Quốc gia lần thứ XII: Nghiên cứu ứng dụng công nghệ thông tin, Huế, 7-8/06/2019 115 TÀI LIỆU THAM KHẢO [1] https://www.kdd.org/kdd2019/ [2] https://www.kdd.org/kdd2020/ [3] Lê Văn Phùng, Quách Xuân Trưởng (2010), Khai phá liệu – Data Mining, Nhà xuất thông tin truyền thông [4] Nguyễn Thanh Thủy (2001), Khai phá liệu – kỹ thuật ứng dụng, Hà Nội [5] Jiawei Han, Micheline Kamber, Jian Pei (2011), Data mining: concepts and techniques, Elsevier publisher [6] Akrivi Vlachou, Christos Doulkeridis, Kjetil Norvag, Yannis Kotidis, Peer-toPeer Query Processing over Multidimensional Data (SpringerBriefs in Computer Science) Paperback, Springer; 2012 edition, 2012 [7] Brian Ciampa, The Data Warehouse Workshop: Providing Practical Experience to the Aspiring ETL Developer Paperback, CreateSpace Independent Publishing Platform, 2014 [8] Christian S.Jensen, Torben Bach Pedersen, Christian Thomsen (2010), Multidimensional Databases and Data Warehousing (Synthesis Lectures on Data Management) Paperback, Morgan and Claypool Publishers; edition [9] Haiping Lu, Konstantinos N Plataniotis, Anastasios Venetsanopoulos (2013), Multilinear Subspace Learning: Dimensionality Reduction of Multidimensional Data (Chapman & Hall/Crc Machine Learning & Pattern Recognition) Hardcover, Chapman and Hall/CRC; edition [10] Krish Krishnan (2013), Data Warehousing in the Age of Big Data (The Morgan Kaufmann Series on Business Intelligence), Paperback, Morgan Kaufmann; edition [11] Ladjel Bellatreche, Mukesh K Mohania (2014), Data Warehousing and Knowledge Discovery, 16th International Conference, DaWaK 2014, Munich, Germany, September 2-4, 2014 Proceedings (Lecture Notes Applications, incl Internet/Web, and HCI) Paperback, Springer; 2014 edition [12] Trần Minh Tuyến, Trịnh Ðình Thắng (2014), Phụ thuộc Boole dương tổng qt mơ hình liệu dạng khối, Kỷ yếu Hội thảo quốc gia lần thứ XVII "Một số vấn đề chọn lọc Công nghệ Thông tin Truyền thông", Buôn Ma Thuột, tr 274279 116 [13] Trịnh Đình Thắng, Mơ hình liệu dạng khối, NXB Lao động, 2011 [14] Trịnh Đình Thắng, Một số kết bao đóng, khóa phụ thuộc hàm mơ hình liệu dạng khối, Kỷ yếu Hội thảo quốc gia lần thứ IV “Một số vấn đề chọn lọc Công nghệ Thông tin”, (245-251), Hải Phịng 05-07/06/2001 [15] Trịnh Đình Thắng, Trần Minh Tuyến, Ánh xạ đóng phép dịch chuyển lược đồ khối, Kỷ yếu Hội nghị quốc gia lần thứ VI Nghiên cứu ứng dụng Công nghệ Thông tin (FAIR), (174-179), Thừa Thiên–Huế 20-21/6/2013 [16] Trịnh Đình Thắng, Trần Minh Tuyến, Trịnh Ngọc Trúc, Phụ thuộc boolean dương đa trị mơ hình liệu dạng khối, Kỷ yếu Hội nghị quốc gia lần thứ IX FAIR, Nghiên cứu ứng dụng Công nghệ Thơng tin, (602-609), Cần Thơ 04-05/08/2016 [17] Trịnh Đình Thắng, Trịnh Đình Vinh (2008), Phụ thuộc đa trị mơ hình liệu dạng khối, Kỷ yếu Hội thảo quốc gia lần thứ 11 "Một số vấn đề chọn lọc Công nghệ Thông tin Truyền thông", Huế, tr 321-328 [18] Trinh Dinh Thang, Tran Minh Tuyen, Trinh Ngoc Truc, Pham Thi Phuong (2020), Some properties of multivalued positive Boolean dependencies in the database model of block form, Indian Journal of Science and Technology, volume 13(25), pp 2509-2519 [19] Trinh Dinh Thang, Trinh Ngoc Truc, Tran Minh Tuyen, Nguyen Nhu Son (2020), Multivalued positive boolean dependencies by groups in the database model of block form, International Journal of Advanced Research in Computer Science, Volume 11 [20] Z Pawlak (2002), Rough sets and intelligent data analysis, Information Sciences, 147, pp 1-12 [21] Shan N., Ziarko, W (1995), Data–based acquisition and incremental modification of classification rules, Computational Intelligentce, 11, pp 357-370 [22] Bian, X (1998), Certain rule learning of the inconsistent data, Journal of East China Shipbuilding Institute, 12(1), pp 25-30 (In Chinese) [23] Tong, L An (2002), Incremental learning of decision rules based on rough set theory, Proceedings of the World Congress on Intellighent Control and Automation 117 (WCIC2002), pp/ 420-425) [24] Liu, D., Li, T., Ruan, D., Zou, W (2009), An incremental approach for inducing knowledge from dynamic information systems, Fundam Inform., (94), pp 245–260 [25] Chen, H., Li, T., Qiao S., Ruan D (2010), A Rough Set based dynamic maintenance approach for approximations in coarsening and refining attribute values, International journal of intelligent systems, (25), pp 1005-1026 [26] Asma Lamani, Brahim Erraha, Malika Elkyal, Abdallah Sair (2019), Data mining techniques application for prediction in OLAP cube, International Journal of Electrical and Computer Engineering (IJECE) Volume 9, pp 2094 – 2102 [27] C.K.H Lee, K.L Choy, G.T.S Ho, K.S Chin, K.M.Y.Law, Y.K.Tse (2013), A hybrid OLAP-association rule mining based quality management system for extracting defect patterns in the garment industry, Expert Systems with Applications, Volume 40, pp 2435 – 2466 [28] H C Tjioe and D Taniar, Mining Association Rules in Data Warehouses, International Journal of Data Warehousing and Mining, 28–62, 2005 [29] Holger Gunzel, Jens Albrecht, Wolfgang Lehner (1999), Data Mining in a Multidimensional Environment, Advances in Databases and Information Systems, Springer Publisher, pp 191 – 204 [30] H Zhu, On-Line Analytical Mining of Association Rules Master’s thesis, Simon Fraser University, Burnaby, British Columbia, Canada, December 1998 [31] J Han and Y Fu, Discovery of Multiple-Level Association Rules from Large Databases, In Proceedings of the 21st International Conference on Very Large Data Bases (VLDB 1995), pages 420–431, Zurich, Switzerland, September 1995 Morgan Kaufmann [32] Jigna J Jadav, Mahesh Panchal (2012), Association Rule Mining Method On OLAP Cube, International Journal of Engineering Research and Applications, Vol 2, pp.1147-1151 [33] Alina A.von Davier, Park Chung Wong, , The argument for a “Data cube” for large – scale Spychometric data [34] Omar Boutkhoum, Mohamed Hanine (2017), An integrated decision-making prototype based on OLAP systems and multicriteria analysis for complex decision- 118 making problems, Applied Informatic, Stringer, 2017 edition [35] Riadh Ben Messaoud, Sabine Loudcher Rabas´eda (2006), Enhanced Mining of Association Rules from Data Cubes [36] Salvatore Greco, Benedetto Matarazzo, Roman Slowinski, Decision Rule Approach, Multiphle Criteria Decision Analysis, International Series in Operations Research & Management Science, volume 223, pp 497 – 552 [37] S Nestorov and N Juki´c Ad-Hoc, Association-Rule Mining within the Data Warehouse In Proceedings of the 36th Hawaii International Conference on System Sciences (HICSS 2003), pages 232–242, Big Island, Hawaii, USA, January 2003 IEEE Computer Society [38] M Kamber, J Han, and J Chiang, Metarule-Guided Mining of MultiDimensional Association Rules Using Data Cubes, In Proceedings of the rd International Conference on Knowledge Discovery and Data Mining (KDD 1997), pages 207–210, Newport Beach, CA, USA, August 1997 The AAAI Press [39] H Zhu, On-Line Analytical Mining of Association Rules Master’s thesis, Simon Fraser University, Burnaby, British Columbia, Canada, December 1998 [40] Q Chen, U Dayal, and M Hsu, An OLAP-based Scalable Web Access Analysis Engine, In Proceedings of the nd International Conference on Data Warehousing and Knowledge Discovery (DaWaK 2000), Lecture Notes in Computer Science, pages 210–223, London, UK, September 2000 Springer-Verlag [41] S Nestorov and N Juki´c Ad-Hoc, Association-Rule Mining within the Data Warehouse In Proceedings of the 36th Hawaii International Conference on System Sciences (HICSS 2003), pages 232–242, Big Island, Hawaii, USA, January 2003 IEEE Computer Society [42] H C Tjioe and D Taniar, Mining Association Rules in Data Warehouses, International Journal of Data Warehousing and Mining, 28–62, 2005 [43] Riadh Ben Messaoud, Sabine Loudcher Rabas´eda (2006), Enhanced Mining of Association Rules from Data Cubes [44] Wolfram Hopken, Volker Meyer, Matthias Fuchs, Maria Lexhagen (2015), Integration of data mining results into multi-dimensional data models, Information and Communication Technologies in Tourism, pp 155 – 168 [45] Omar Boutkhoum, Mohamed Hanine (2017), An integrated decision-making 119 prototype based on OLAP systems and multicriteria analysis for complex decisionmaking problems, Applied Informatic, Stringer, 2017 edition [46] Viktor Putrenko, Nataliia Pashvnska, Data Mining of Network Events with Space-Time Cube Application, 2018 IEEE Second International Conference on Data Stream Mining & Processing (DSMP) [47] Hanen Brahmi (2019), Post-Mining of Generalized Association Rules from Data Cubes, 2019 International Conference on Information Networking (ICOIN), IEEE Publisher [48] Nguyễn Hữu Trọng (2008), Phát triển số thuật toán khai phá luật kết hợp sở liệu gia tăng, Luận án Tiến sĩ Toán học [49] Nguyễn Long Giang (2012), Nghiên cứu số phương pháp khai phá liệu theo tiếp cận lí thuyết tập thơ, Luận án Tiến sĩ Tốn học [50] Nguyễn Quang Khanh (2012), Khai phá luật định bảng liệu động, Luận án Tiến sĩ Toán học [51] Cao Chính Nghĩa (2017), Nghiên cứu phương pháp rút gọn thuộc tính sinh luật định theo tiếp cận tập thô mờ, Luận án Tiến sĩ Toán học [52] J Han and Y Fu, Discovery of Multiple-Level Association Rules from Large Databases, In Proceedings of the 21st International Conference on Very Large Data Bases (VLDB 1995), pages 420–431, Zurich, Switzerland, September 1995 Morgan Kaufmann [53] Bharati M Ramageri, (2019) Data mining techniques and applications, Indian Journal of Computer Science and Engineering Vol No 301-305 [54] Zdzislaw Pawlak (1982), Rough sets, International Journal of Computer and Information Sciences, 11 (5), pp 341-356 [55] L Sumalathai, P Sanraki, B Sujatha (2016), Rough set based decision rule generation to find behavioural patterns of customers, Vol 41, No 9, September 2016, pp 985–991 Indian Academy of Sciences [56] Kryszkiewicz, M (1999), Rule in complete information systems, Information Science, (113), pp 271 - 292 [57] Apostolos Benisis, Business Process Management: A Data Cube To Analyze Business Process Simulation Data For Decision Making Paperback, VDM Verlag Dr Müller, 2010 120 [58] Christian S.Jensen, Torben Bach Pedersen, Christian Thomsen (2010), Multidimensional Databases and Data Warehousing (Synthesis Lectures on Data Management) Paperback, Morgan and Claypool Publishers; edition [59] Z Pawlak (2002), Rough sets and intelligent data analysis, Information Sciences, 147, pp 1-12 [60] Tsumoto, S (2002), Accuracy and coverage in rough set rule induction, RSCTC2002, LNAI, 2475, pp 373-380 ... kiến thức sở khai phá liệu, khai phá luật định, mơ hình liệu dạng khối Đây kiến thức tảng cho nghiên cứu chương sau luận án 1.1 Khai phá liệu 1.1.1 Định nghĩa khai phá liệu Khai phá liệu khâu chủ... so sánh hai phương pháp đề xuất Bố cục luận án Luận án gồm phần mở đầu, chương cuối phần kết luận Chương đầu trình bày số khái niệm sở mơ hình liệu dạng khối, khai phá liệu, khai phá luật định. .. pháp khác nhằm giải toán khai phá tri thức bảng liệu mơ hình quan hệ mơ hình mở rộng mơ hình quan hệ Năm 2008, tác giả Nguyễn Hữu Trọng [48] đề xuất thuật toán để khai phá luật kết hợp bảng liệu