Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 25 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
25
Dung lượng
697,33 KB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ - Đỗ Thị Lan Anh KHAI PHÁ LUẬT QUYẾT ĐỊNH TRÊN MƠ HÌNH DỮ LIỆU DẠNG KHỐI Chuyên ngành: Khoa học máy tính Mã số: 48 01 01 TÓM TẮT LUẬN ÁN TIẾN SĨ MÁY TÍNH Hà Nội – Năm 2020 Cơng trình hồn thành tại: Học viện Khoa học Công nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam Người hướng dẫn khoa học: PGS TS Trịnh Đình Thắng Phản biện 1: PGS TS Nguyễn Hữu Quỳnh Phản biện 2: PGS TS Đỗ Năng Toàn Phản biện 3: PGS TS Phạm Văn Cường Luận án bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Học viện, họp Học viện Khoa học Công nghệ Viện Hàn lâm Khoa học Công nghệ Việt Nam vào hồi … , ngày … tháng … năm 201… Có thể tìm hiểu luận án tại: - Thư viện Học viện Khoa học Công nghệ - Thư viện Quốc gia Việt Nam MỞ ĐẦU Tính cấp thiết luận án Khai phá luật định trình xác định luật định bảng định cho trước, phục vụ cho toán phân lớp đối tượng Đây kĩ thuật khai phá liệu phổ biến nhiều chuyên gia ngồi nước nghiên cứu mơ hình quan hệ mơ hình mở rộng mơ hình quan hệ Các nghiên cứu giới nước ta nhằm mục đích tìm tri thức có ý nghĩa, cụ thể luật mơ hình liệu khác với hướng nghiên cứu khác Một hướng tiếp cận với mơ hình liệu dạng khối nhóm tác giả với mục đích theo dõi luật diễn q trình thay đổi theo thời gian, giai đoạn… mong muốn đóng góp luận án Mục tiêu nghiên cứu luận án Mục tiêu luận án tập trung giải ba toán: - Tìm luật định khối lát cắt - Tìm luật định nhóm đối tượng khối có thay đổi giá trị thuộc tính, cụ thể làm mịn, làm thơ giá trị thuộc tính - Tìm luật định nhóm đối tượng khối bổ sung, loại bỏ phần tử khối Bố cục luận án Luận án gồm phần mở đầu, chương cuối phần kết luận 2 Chương đầu trình bày số khái niệm sở mơ hình liệu dạng khối, khai phá liệu, khai phá luật định quan hệ tương đương Chương trình bày hai kết nghiên cứu: thứ đề xuất thuật toán MDLB để tìm luật định khối lát cắt khối Thứ hai đề xuất thuật toán MDLB_VAC nhằm tìm luật định khối trường hợp giá trị thuộc tính thay đổi Thêm vào đó, đưa nghiên cứu lí thuyết khai phá khối, tính tốn độ phức tạp cài đặt thử nghiệm thuật toán đề xuất Chương xây dựng mơ hình tăng giảm tập đối tượng khối định; đề xuất hai thuật toán gia tăng MDLB_OSC1 MDLB_OSC2 để tìm luật định khối định tập đối tượng thay đổi cài đặt thử nghiệm CHƯƠNG MỘT SỐ KIẾN THỨC CƠ SỞ 1.1 1.1.1 Khai phá liệu Định nghĩa khai phá liệu Khai phá liệu khâu chủ yếu trình phát tri thức sở liệu Quá trình kết xuất tri thức tiềm ẩn từ liệu giúp cho việc dự báo, định kinh doanh, quản lý, hoạt động sản xuất,… 1.1.2 Một số kỹ thuật khai phá liệu - Phân lớp (Classification) - Dự đoán (Prediction) - Luật kết hợp (Association Rule) - Phân cụm (Clustering) 1.2 Khai phá luật định 1.2.1 Hệ thông tin Định nghĩa 1.1 (Hệ thông tin) Hệ thông tin bốn S = (U,A,V,f) U tập đối tượng tập hữu hạn, khác rỗng đối tượng (U gọi tập vũ trụ) A tập thuộc tính tập hữu hạn, khác rỗng thuộc tính; V tập giá trị, 𝑉 = ∪ 𝑉𝑎 với 𝑎∈𝐴 Va tập giá trị thuộc tính a A, f hàm thơng tin f : U x A→V, a A, u U: f(u,a) Va 1.2.2 Quan hệ không phân biệt Cho hệ thông tin S = (U,A,V,f) với tập thuộc tính P A, tồn quan hệ hai U, ký hiệu IND(P), xác định sau: IND(P) = {(u,v) U x U|u(a) = v(a), a P) IND(P) gọi quan hệ không phân biệt (Indiscernibility Relation) 1.2.3 Bảng định Bảng định hệ thông tin đặc biệt tập thuộc tính 𝐴 chia thành hai tập khác rỗng rời C D (A= CD, CD = ) tương ứng gọi tập thuộc tính điều kiện C tập thuộc tính định D Bảng định ký hiệu là: DS = (U,CD,V,f) hay đơn giản DS = (U,CD) 1.2.4 Luật định Định nghĩa 1.4 (Luật định) Cho bảng định DS = (U,CD), giả sử U/C = {C1,C2,…,Cm} U/D = {D1,D2,…,Dn} phân hoạch sinh C, D Với Ci U/C, Dj U/D luật định biểu diễn dạng: Ci → Dj , i=1 m, j=1 n 4 1.3 Mơ hình liệu dạng khối 1.3.1 Khối Định nghĩa 1.8 Gọi R = (id;A1,A2, ,An) hữu hạn phần tử, id tập số hữu hạn khác rỗng, Ai (i=1 n) thuộc tính Mỗi thuộc tính Ai (i=1 n) có miền giá trị tương ứng dom(Ai ) Một khối r tập R, kí hiệu r(R) gồm số hữu hạn phần tử mà phần tử họ ánh xạ từ tập số id đến miền trị thuộc tính Ai, (i=1 n) Nói cách khác: t r(R) t = {ti: id → dom(Ai)} i =1 n 1.3.2 Lát cắt Cho R = (id;A1,A2, ,An), r(R) khối R Với x id ta kí hiệu r(Rx) khối với Rx = ({x};A1,A2, ,An) cho: tx r(Rx ) tx = {tix = ti }i =1 n với t r t = {ti : id → x dom(Ai) }i =1 n tix(x) = ti(x) với i=1 n Khi r(Rx) gọi lát cắt khối r(R) điểm x Từ đây, để đơn giản sử dụng kí hiệu: x(i)=(x;Ai); id(i) = {x(i)|x id} Ta gọi x(i) (x id, i = n) thuộc tính số lược đồ khối R = (id;A1,A2, ,An ) 1.3.3 Đại số quan hệ khối Phép hợp Phép giao Phép trừ Tích Đề Tích Đề theo tập số Phép chiếu Phép chọn Phép kết nối Phép chia 1.4 Kết luận chương Chương luận án trình bày tổng quan khai phá liệu, kỹ thuật khai phá liệu, kiến thức khai phá luật định, lớp tương đương… Phần cuối chương trình bày số khái niệm mơ hình liệu dạng khối: khối, lát cắt khối điểm, đại số quan hệ khối Những kiến thức sở cho vấn đề trình bày chương luận án CHƯƠNG KHAI PHÁ LUẬT QUYẾT ĐỊNH TRÊN KHỐI DỮ LIỆU CÓ GIÁ TRỊ THUỘC TÍNH THAY ĐỔI 2.1 Một số khái niệm xây dựng khối 2.1.1 Khối thông tin Định nghĩa 2.1 Cho lược đồ khối R = (id;A1,A2, ,An), r khối R Khi khối thơng tin bốn IB = (U,A,V,f) với U tập đối tượng thuộc r gọi không gian đối tượng, A = ⋃𝑛𝑖=1 𝑖𝑑 (𝑖) tập thuộc tính số đối tượng, V = ⋃𝑥 (𝑖) ∈𝐴 𝑉𝑥 (𝑖) , 𝑉𝑥 (𝑖) tập giá trị đối tượng ứng với thuộc tính số x(i), f hàm thông tin UxA→ V thỏa mãn: uU, x(i)A ta có f(u, x(i)) 𝑉𝑥(𝑖) 2.1.2 Quan hệ không phân biệt Định nghĩa 2.3 Cho khối thơng tin IB = (U,A,V,f) Khi với tập thuộc tính số P A ta xác định quan hệ tương đương, kí hiệu IND(P) định nghĩa sau: IND(P) = {(u,v) UxU | x(i)P: f(u,x(i))=f(v,x(i))}, gọi quan hệ không phân biệt 2.1.3 Khối định Định nghĩa 2.5 Cho khối thông tin IB = (U,A,V,f) với U không gian đối tượng,n A = id (i ) Khi A chia thành tập C D i =1 cho: C=⋃𝑘𝑖=1,𝑥∈𝑖𝑑 𝑥 (𝑖) , D=⋃𝑛𝑖=𝑘+1,𝑥∈𝑖𝑑 𝑥 (𝑖) , khối thơng tin IB gọi khối định kí hiệu DB=(U,CD,V,f) 2.1.4 Luật định khối lát cắt Định nghĩa 2.7 Cho khối định DB = (U,CD), với U không gian đối tượng: C = ⋃𝑘𝑖=1,𝑥∈𝑖𝑑 𝑥 (𝑖) , D =⋃𝑛𝑖=𝑘+1,𝑥∈𝑖𝑑 𝑥 (𝑖) , Cx=⋃𝑘𝑖=1 𝑥 (𝑖) , Dx=⋃𝑛𝑖=𝑘+1 𝑥 (𝑖) , xid Khi đó: U/C={C1,C2,…,Cm}, U/Cx = {𝐶𝑥1 , 𝐶𝑥2 , , 𝐶𝑥𝑡𝑥 }, U/D={D1,D2,…,Dk}, U/Dx = {𝐷𝑥1 , 𝐷𝑥2 , , 𝐷𝑥𝑡𝑥 } tương ứng phân hoạch sinh C, Cx, D, Dx Một luật định khối có dạng: Ci → Dj, i=1 m, j=1 k, lát cắt điểm x có dạng: Cxi → Dxj , i=1 tx, j=1 hx Định nghĩa 2.8 Cho khối định DB=(U,CD), CiU/C, DjU/D, 𝐶𝑥𝑝𝑥 U/Cx, 𝐷𝑥𝑞𝑥 U/Dx, i=1 m, j=1 n, p{1,2,…,tx}, q{1,2,…,hx}, xid Khi đó, độ hỗ trợ, độ xác độ phủ luật định Ci→ Dj khối là: - Độ hỗ trợ: Sup(Ci,Dj) = |CiDj)|, - Độ xác: Acc(Ci,Dj) = - Độ phủ: Cov(Ci,Dj) = |𝐶𝑖 ∩𝐷𝑗 | |𝐶𝑖 ∩𝐷𝑗 | |𝐷𝑗 | |𝐶𝑖 | , Định nghĩa 2.9 Cho khối định DB=(U,CD), CiU/C, DjU/D tương ứng lớp tương đương điều kiện lớp tương đương định sinh C, D, Ci→ Dj luật định khối DB, i=1 m, j=1 n - Nếu Acc(Ci→ Dj) = Ci→ Dj gọi luật định chắn - Nếu < Acc(Ci→ Dj) < Ci→ Dj gọi luật định không chắn Định nghĩa 2.10 Cho khối định DB=(U,CD), CiU/C, DjU/D, i=1 m, j=1 n tương ứng lớp tương đương điều kiện lớp tương đương định sinh C, D; , hai ngưỡng cho trước (, (0,1)) Khi đó, Acc (Ci,Dj) Cov (Ci,Dj) ta gọi Ci→ Dj luật định có ý nghĩa 2.2 Thuật tốn khai phá luật định khối lát cắt (MDLB) Thuật toán MDLB gồm bước sau: - Bước 1: Phân lớp tương đương điều kiện, định khối (trên lát cắt) - Bước 2: Tính ma trận độ hỗ trợ khối (trên lát cắt) - Bước 3: Tính ma trận độ xác, ma trận độ phủ - Bước 4: Tìm luật định khối 2.3 Khai phá luật định khối có giá trị thuộc tính thay đổi Định nghĩa 2.11(Định nghĩa làm mịn giá trị thuộc tính số khối) Cho khối định DB= (U,CD,V,f), với U không gian đối tượng, a CD, Va tập giá trị có thuộc tính số a Giả sử Z={xsU | f(xs,a) = z} tập đối tượng có giá trị z thuộc tính số a Nếu Z phân hoạch thành hai tập W Y cho: Z=WY, WY= với W={xpU| f(xp,a) = w, wVa}, Y={xqU| f(xq,a) = y, yVa}, ta nói giá trị z thuộc tính số a làm mịn thành hai giá trị w y Định nghĩa 2.12(Định nghĩa làm thơ giá trị thuộc tính số khối) Cho khối định DB=(U,CD,V,f), với U không gian đối tượng, a CD, Va tập giá trị có thuộc tính số a Giả sử f(xp,a)=w, f(xq,a)=y tương ứng giá trị xp, xq thuộc tính số a (pq) Nếu thời điểm ta có: f(xp,a)= f(xq,a)=z, (zVa) ta nói hai giá trị w, y a làm thô thành giá trị z Định lý 2.1 Cho khối định DB = (U,CD,V,f ), với U không gian đối tượng, a CD, Va tập giá trị có thuộc tính số a Khi đó, hai lớp tương đương Ep, Eq (Ep, EqU/E, E{C,D}) làm thô thành lớp tương đương Es aj a: f(Ep,aj) = f(Eq,aj) Định lý 2.2 Cho khối định DB = (U,CD,V,f ), với U không gian đối tượng, a CD, Va tập giá trị có thuộc tính số a Khi đó, lớp tương đương Es (EsU/E, E{C,D}) làm mịn thành hai lớp tương đương Ep, Eq ta đặt: f(Ep,a)=w, f(Eq,a)=y Ep Eq=Es, w, yVa, w y Định lý 2.3 Cho khối định DB = (U, CD) , hai ngưỡng cho trước (, (0,1)) Khi Ci → Dj luật định có ý nghĩa khối định luật định có ý nghĩa lát cắt khối định xid 2.3.1 Làm mịn, thô lớp tương đương điều kiện khối định lát cắt Mệnh đề 2.3 Cho khối định DB = (U, CD, V, f ), a=x(i) C, Va tập giá trị có thuộc tính số điều kiện a, giá trị z a làm mịn thành hai giá trị w y Khi đó, lớp tương đương điều kiện Cs U/C, (f(Cs,a)=z ) làm mịn thành hai lớp tương đương điều kiện Cp,Cq (f(Cp,a)=w, f(Cq,a)=y, với w,yVa ) lát cắt rx, tồn lớp tương đương Cxi thỏa mãn: Cs Cxi , làm mịn thành hai lớp tương đương điều kiện Cxi’ Cxi’’ cho: Cp Cxi’, Cq Cxi’’ (f(Cxi’,a)=w, f(Cxi’’,a)=y) Mệnh đề 2.5 Cho khối định DB = (U,CD,V,f), a=x(i) C, Va tập giá trị có thuộc tính số điều kiện a, giá trị w y a làm thô thành giá trị z Khi đó, hai lớp tương đương điều kiện Cp,CqU/C, (f(Cp,a)=w, f(Cq,a)=y) làm thô thành lớp tương đương điều kiện Cs U/C (f(Cs,a)=z) lát cắt rx tồn hai lớp tương đương điều kiện Cxi, Cxj thỏa mãn: Cp Cxi, Cq Cxj, làm thô thành lớp tương đương điều kiện Cxk cho: Cs Cxk 2.3.2 Làm mịn, thô lớp tương đương định khối lát cắt Mệnh đề 2.7 10 Cho khối định DB = (U,CD,V,f), a=x(i) D, Va tập giá trị có thuộc tính số định a, giá trị z a làm mịn thành hai giá trị w y Khi đó, lớp tương đương định Ds U/D (f(Ds,a)=z) làm mịn thành hai lớp tương đương định Dp,Dq (f(Dp,a)=w, f(Dq,a)=y, với w,yVa) lát cắt rx, tồn lớp tương đương Dxi thỏa mãn: Ds Dxi , làm mịn thành hai lớp tương đương định Dxi’ Dxi’’ cho: Dp Dxi’, Dq Dxi’’ (f(Dxi’,a)=w, f(Dxi’’,a)=y) Mệnh đề 2.9 Cho khối định DB = (U,CD,V,f), a=x(i) D, Va tập giá trị có thuộc tính số định a, giá trị w y a làm thô thành giá trị z Khi đó, hai lớp tương đương định Dp,Dq, (f(Dp,a)=w, f(Dq,a)=y) làm thơ thành lớp tương đương định Ds U/D (f(Ds,a)=z) lát cắt rx tồn hai lớp tương đương định Dxi, Dxj thỏa mãn: Dp Dxi, Dq Dxj, làm thô thành lớp tương đương định Dxk cho: Ds Dxk 2.3.4 Thuật tốn khai phá luật định khối có giá trị thuộc tính số thay đổi (MDLB_VAC) Thuật tốn MDLB_VAC gồm bước sau: Bước 1: Tính ma trận độ hỗ trợ Sup(C,D) khối ban đầu Bước 2: Tính gia tăng ma trận độ hỗ trợ khối Sup(C’,D’) sau làm thơ/mịn giá trị thuộc tính số 11 Bước 3: Tính ma trận độ xác Acc(C’,D’), ma trận độ phủ Cov(C’,D’) sau làm thô/mịn giá trị thuộc tính số từ ma trận Sup(C’,D’) Bước 4: Sinh luật định khối 2.4 Độ phức tạp thuật tốn tính ma trận Sup khối lát cắt Mệnh đề 2.13: Thuật toán tính ma trận độ hỗ trợ cho khối định cho lát cắt điểm xid có độ phức tạp O(|U|2) Mệnh đề 2.14: Thuật tốn tính ma trận độ hỗ trợ cho khối định cho lát cắt điểm xid sau làm thô giá trị thuộc tính số điều kiện có độ phức tạp O(|U|2) Mệnh đề 2.15: Thuật tốn tính ma trận độ hỗ trợ cho khối định cho lát cắt điểm xid sau làm mịn giá trị thuộc tính số điều kiện có độ phức tạp O(|U|2) 2.6 Kết luận Chương trình bày kết luận án: Xây dựng số khái niệm khai phá luật khối Trên sở số tính chất, mệnh đề, định lí liên quan phát biểu chứng minh - Xây dựng thuật tốn MDLB tìm luật định khối lát cắt - Đề xuất chứng minh số kết mối quan hệ việc làm thô, làm mịn giá trị thuộc tính điều kiện định khối lát cắt Đồng thời, đề xuất thuật tốn MDLB_VAC tính ma trận độ hỗ trợ khối lát cắt, tìm luật định có ý nghĩa giá trị thuộc tính số thay đổi 12 CHƯƠNG KHAI PHÁ LUẬT QUYẾT ĐỊNH TRÊN KHỐI CÓ TẬP ĐỐI TƯỢNG THAY ĐỔI 3.1 Mơ hình bổ sung loại bỏ đối tượng khối lát cắt Mệnh đề 3.1: Cho khối định DB = (U,CD,V,f), AN DM tập đối tượng bổ sung loại bỏ tương ứng khối định DB Khi ta có: Acc(C’,D’)=Acc(C’i,D’j)ij với: i =1 m+p, j = h+q |𝐶𝑖 ∩ 𝐷𝑗 | + 𝑁ij − 𝑀ij , 𝑖 = 𝑚, 𝑗 = ℎ, ℎ+𝑞 |𝐶𝑖 | + ∑𝑗′=1 𝑁ij' − ∑ℎ𝑗′=1 𝑀ij' 𝑁ij , 𝑖 = 𝑚, 𝑗 = ℎ + ℎ + 𝑞 𝐴𝑐𝑐(𝐶′𝑖 , 𝐷′𝑗 ) = ℎ+𝑞 |𝐶𝑖 | + ∑𝑗′=1 𝑁ij' − ∑ℎ𝑗′=1 𝑀ij' 𝑁ij , 𝑖 = 𝑚 + 𝑚 + 𝑝, 𝑗 = ℎ + 𝑞 ℎ+𝑞 ∑𝑗=1 𝑁ij { Mệnh đề 3.3 Cho khối định DB = (U,CD,V,f), AN DM tập đối tượng bổ sung loại bỏ tương ứng khối định DB Khi ta có: Cov(C’,D’) = Cov(C’i,D’j)ij (m+p)x(h+q), với i =1 m+p, j=1 h+q |𝐶𝑖 ∩ 𝐷𝑗 | + 𝑁𝑖𝑗 − 𝑀𝑖𝑗 𝑚+𝑝 𝐶𝑜𝑣(𝐶′𝑖 , 𝐷′𝑗 ) = |𝐷𝑗 | + ∑𝑖′=1 𝑁𝑖′𝑗 − ∑𝑚 𝑖′=1 𝑀𝑖′𝑗 𝑁𝑖𝑗 , 𝑖 = 𝑚, 𝑗 = ℎ , 𝑖 = 𝑚 + 𝑚 + 𝑝, 𝑗 = ℎ 𝑚+𝑝 |𝐷𝑗 | + ∑𝑖′=1 𝑁𝑖′𝑗 − ∑𝑚 𝑖′=1 𝑀𝑖′𝑗 𝑁𝑖𝑗 , 𝑖 = 𝑚 + 𝑝, 𝑗 = ℎ + ℎ + 𝑞 𝑚+𝑝 {∑𝑖′=1 𝑁𝑖′𝑗 3.2 Tính tốn gia tăng Acc Cov bổ sung loại bỏ đối tượng khối định 3.2.1 Bổ sung đối tượng x vào khối định 13 Trường hợp 1: Sinh lớp điều kiện lớp định Acc(C’m+1,D’h+1) = Cov(C’m+1,D’h+1) = 1, j=1 h: Acc(C’m+1,D’j) = Cov(C’m+1,D’j) = 0, i=1 m: Acc(C’i,D’h+1) = Cov(C’i,D’h+1) = Mặt khác, i=1 m, j=1 h: Acc(C’i,D’j) = Acc(Ci,Dj) , Cov(C’i,D’j) = Cov(Ci,Dj) Trường hợp 2: Chỉ sinh lớp điều kiện Acc(C’m+1,D’j*) = Cov(C’m+1,D’j*) = |𝐷𝑗∗ |+1 Nếu k j* thì: Acc(C’m+1,D’k) = Cov(C’m+1,D’k) = Nếu i m+1 thì: Acc(C’i,D’j*) = Acc(Ci,Dj*), Cov(C’i,D’j*) |𝐶𝑖 ∩𝐷𝑗∗ | = |𝐷𝑗∗ |+1 Mặt khác, i m+1, j j*: Acc(C’i,D’j) = Acc(Ci,Dj) Cov(C’i,D’j) = Cov(Ci,Dj) Trường hợp 3: Chỉ sinh lớp định Acc(C’i*,D’h+1) = Cov(C’i*,D’h+1) = |𝐶𝑗∗ |+1 Nếu i i* thì: Acc(C’i,D’h+1) = Cov(C’i,D’h+1) = Nếu k h+1 thì: Acc(C’i*,D’k) = |𝐶𝑖 ∩𝐷𝑘 | |𝐶𝑖∗ |+1 , Cov(C’i*,D’k) = Cov(Ci*,Dk) Mặt khác, i i*, j h+1: Acc(C’i,D’j) = Acc(Ci,Dj) Cov(C’i,D’j) = Cov(Ci,Dj) Trường hợp 4: Không sinh thêm lớp điều kiện lớp định |𝐶𝑖∗ ∩𝐷𝑗∗ |+1 |𝐶𝑖∗ ∩𝐷𝑗∗ |+1 |𝐶𝑖∗ |+1 |𝐷𝑗∗ |+1 Acc(C’i*,D’j*) = Cov(C’i*,D’j*) = 14 |𝐶𝑖∗ ∩𝐷𝑘 |+1 - Nếu k j* thì: Acc(C’i*,D’k)= |𝐶𝑖∗ |+1 ; Cov(C’i*,D’k)= Cov(Ci*,Dk) - Nếu u i* thì: Acc(C’u,D’j*) = Acc(Cu,Dj*) Cov(C’u,D’j*) = |𝐶𝑢 ∩𝐷𝑗∗ | |𝐷𝑗∗ |+1 - Nếu i i* j j* thì: Acc(C’i,D’j) = Acc(Ci,Dj) Cov(C’i,D’j) = Cov(Ci,Dj) 3.2.2 Loại bỏ phần tử x khỏi khối định Acc(C’i*,D’j*) = |𝐶𝑖∗ ∩𝐷𝑗∗ |−1 |𝐷𝑖∗ |−1 Cov(C’i*,D’j*) = - Nếu k j* thì: Acc(C’i*,D’k) = |𝐶𝑖∗ ∩𝐷𝑗∗ |−1 |𝐶𝑖∗ |−1 |𝐶𝑖∗ ∩𝐷𝑘 | |𝐶𝑖∗ |−1 Cov(C’i*,D’k) = Cov(Ci*,Dk) - Nếu u i* thì: Acc(C’u,D’j*) = Acc(Cu,Dj*) Cov(C’u,D’j*) |𝐶𝑢 ∩𝐷𝑗∗ | = |𝐷𝑗∗ |−1 - Nếu i i* j j* thì: Acc(C’i,D’j) = Acc(Ci,Dj) Cov(C’i,D’j) = Cov(Ci,Dj) 3.3 Thuật toán sinh luật định phương pháp tính gia tăng ma trận Acc Cov sau bổ sung, loại bỏ phần tử (MDLB_OSC1) Bước 1: Tính ma trận độ xác Acc(C,D) độ phủ Cov(C,D) khối trước bổ sung, loại bỏ đối tượng Bước 2: Tính gia tăng ma trận độ xác Acc(C’,D’) độ phủ Cov(C’,D’) sau bổ sung, loại bỏ đối tượng Bước 3: Loại bỏ dòng/cột ma trận Acc(C’,D’) Cov(C’,D’) mà có tồn giá trị Bước 4: Sinh luật định khối 3.4 Độ phức tạp thuật toán MDLB_OSC1 15 Mệnh đề 3.5: Độ phức tạp thuật toán xác định Acc Cov O(|U|2 ) Mệnh đề 3.6: Độ phức tạp thuật tốn tính gia tăng Acc Cov bổ sung N đối tượng O(N|U|2) Mệnh đề 3.7: Độ phức tạp thuật tốn tính gia tăng Acc Cov loại bỏ M đối tượng O(M|U|2) Mệnh đề 3.8: Độ phức tạp thuật tốn xóa dịng/cột ma trận Acc Cov có tồn giá trị O(|U|2) 3.5 Tính tốn gia tăng Sup bổ sung loại bỏ đối tượng khối định lát cắt Khi bổ sung N đối tượng loại bỏ M đối tượng ta có: Sup(C’i,D’j) = Sup(Ci,Dj) + Nij – Mij, i=1 m+p, j=1 h+q Mij = Sup(Ci,Dj)=0, i=m+1 m+p, j=h+1 h+q 3.6 Thuật toán sinh luật định phương pháp tính gia tăng ma trận Sup sau bổ sung loại bỏ đối tượng (MDLB_OSC2) Bước 1: Tính ma trận độ hỗ trợ Sup(C,D) trước khối bổ sung, loại bỏ đối tượng Bước 2: Tính gia tăng ma trận độ hỗ trợ Sup(C’,D’) sau bổ sung, loại bỏ đối tượng Bước 3: Loại bỏ dịng/cột ma trận Sup(C’,D’) mà có tồn giá trị Bước 4: Tính ma trận Acc(C’,D’) Cov(C’,D’) thông qua giá trị ma trận Sup(C’,D’) Bước 5: Sinh luật định khối 3.7 Độ phức tạp thuật toán MDLB_OSC2 Mệnh đề 3.9: Độ phức tạp thời gian thuật toán tính gia tăng ma trận Sup bổ sung N đối tượng O(N|U|) 16 Mệnh đề 3.10: Độ phức tạp thời gian thuật tốn tính gia tăng ma trận Sup loại bỏ M đối tượng O(M|U|) Mệnh đề 3.11: Độ phức tạp thời gian thuật tốn tính gia tăng ma trận Sup để trích rút luật định có ý nghĩa bổ sung, loại bỏ đối tượng O(|U|2) Mệnh đề 3.12: Độ phức tạp thời gian thuật tốn tính gia tăng ma trận Sup bổ sung N đối tượng xét lát cắt khối điểm xid O(N|U|) Mệnh đề 3.13: Độ phức tạp thời gian thuật tốn tính gia tăng ma trận Sup loại bỏ M đối tượng xét lát cắt khối điểm xid O(M|U|) 3.10 Thực nghiệm 3.10.1 Mục tiêu thực nghiệm (1) Đánh giá tính thực thi thuật tốn tìm luật kết hợp khối thuật tốn gia tăng tìm luật khối trường hợp khối có giá trị thuộc tính thay đổi (2) Đánh giá tính thực thi hiệu thời gian thực thuật tốn tính gia tăng ma trận độ xác, ma trận độ phủ so với thuật tốn tính gia tăng ma trận độ hỗ trợ để tìm luật định khối tập đối tượng thay đổi 3.10.2 Dữ liệu thử nghiệm Việc thử nghiệm thực tập liệu lấy từ khoa Nhi A, B Bệnh viện Bạch Mai sở từ ngày 10/03/2020 đến ngày 14/03/2020 Dữ liệu thu thập qua trình tiền xử lí với liệu gồm thuộc tính số điều kiện triệu chứng bệnh gồm sốt, ho, sổ mũi 17 thuộc tính số định phác đồ điều trị mức độ sốt vi rút theo dõi qua ngày Số phần tử liệu là: Tên CSDL BVBM2KNA BVBM2KNB KID PATIENT FEVER VIRUS Số đối tượng 160 1360 939 Bảng 3.2: Các thông tin sở liệu thực nghiệm 3.10.3 Công cụ môi trường thử nghiệm Công cụ thực lập trình thuật tốn ngơn ngữ Java Mơi trường thử nghiệm máy tính PC với cấu hình Intel(R) Core™ i5 2.5Ghz, RAM 4G, Windows OS 3.10.4 Kết thực nghiệm Sau chạy thuật toán liệu ta thu kết sau: - Với tốn 1: tìm luật định khối lát cắt khối: Hình 3.5: Luật định tìm khối 18 Khi thay đổi min_acc min_cov số lượng luật thu thay đổi: - Với tốn 2: tìm luật định khối lát cắt khối làm mịn, làm thơ giá trị thuộc tính Hình 3.8: Tính ma trận Sup, Acc, Cov trước sau làm mịn 19 Hình 3.11: Luật định tìm sau làm mịn, thơ giá trị thuộc tính - Với tốn 3: tìm luật định khối lát cắt khối bổ sung, loại bỏ phần tử + Kết chương trình tính theo phương pháp 1(tính gia tăng ma trận Acc, Cov): 20 + Kết chương trình tính theo phương pháp (tính gia tăng ma trận Sup): Ta thấy phương pháp cho kết tập luật với tập nguồn, khác thời gian thực hiện: 3.11 Kết luận Từ mô hình bổ sung loại bỏ đối tượng khối định lát cắt đề xuất, số tính chất ma trận 21 Acc Cov chứng minh Trên sở đó, hai thuật tốn tìm luật định khối lát cắt đưa ra: - Thuật toán MDLB_OSC1 tính gia tăng ma trận Acc, Cov để tìm luật định có ý nghĩa khối lát cắt - Thuật tốn MDLB_OSC2 tính gia tăng ma trận độ hỗ trợ Sup để tìm luật định có ý nghĩa Cuối chương phần so sánh hai thuật toán đề xuất cài đặt thực nghiệm KẾT LUẬN 1) Những kết luận án Luận án tập trung nghiên cứu toán khai phá luật định khối số trường hợp với kết sau: - Xây dựng mơ hình khai phá luật định khối với khái niệm, định lí, tính chất chứng minh - Đề xuất 03 thuật toán tìm luật định khối trường hợp: liệu khối cố định; giá trị thuộc tính số thay đổi; trường hợp tập đối tượng thay đổi 2) Hướng phát triển luận án - Tiếp tục nghiên cứu vấn đề khai phá luật định khối có thuộc tính thay đổi, liệu không đầy đủ… - Khai phá luật định có ý nghĩa chuỗi khối định liên kết với (tương đồng với công nghệ blockchain) NHỮNG ĐÓNG GÓP MỚI CỦA LUẬN ÁN 22 Luận án có đóng góp sau: - Xây dựng mơ hình khai phá luật định khối với khái niệm, định lí, mệnh đề chứng minh - Đề xuất ba thuật tốn tìm luật định khối trường hợp: liệu khối cố định; giá trị thuộc tính số thay đổi; trường hợp tập đối tượng thay đổi DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CT1 Trịnh Đình Thắng, Trần Minh Tuyến, Đỗ Thị Lan Anh, “Khai phá luật định khối liệu có giá trị thuộc tính thay đổi”, Kỷ yếu Hội thảo Quốc gia lần thứ XIX: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông, Hà Nội, 01- 02/10/2016, Tr 163 – 169 CT2 Trịnh Đình Thắng, Trần Minh Tuyến, Đỗ Thị Lan Anh, Nguyễn Thị Quyên, “Một số kết khai phá luật định khối liệu có giá trị thuộc tính thay đổi”, Kỷ yếu Hội nghị Khoa học Công nghệ Quốc gia lần thứ X: Nghiên cứu ứng dụng công nghệ thông tin, Đà Nẵng, 17-18/08/2017, Tr 623 – 632 CT3 Trịnh Đình Thắng, Đỗ Thị Lan Anh, “Một số thuật toán xác định ma trận độ hỗ trợ khối liệu có giá trị thuộc tính thay đổi”, Kỷ yếu Hội thảo Quốc gia lần thứ XXI: Một số vấn đề chọn lọc Công nghệ thông tin truyền thơng, Thanh Hóa, 27- 28/07/2018, Tr 216 – 225 CT4 Thang Trinh Dinh, Anh Do Thi Lan, “Some properties about smoothing, roughen the values of the index attribute on the decision block”, International Journal of 23 Advanced Research in Computer Science, Volume 10 issue March – April 2019 CT5 Đỗ Thị Lan Anh, Trịnh Đình Thắng, “Một phương pháp gia tăng để tính độ xác độ phủ luật định khối liệu có tập đối tượng thay đổi”, Chuyên san cơng trình nghiên cứu phát triển Cơng nghệ thơng tin truyền thơng, Tạp chí thơng tin Khoa học công nghệ Bộ Thông tin truyền thông, Tập 2019 số 1, 2019, Tr – 10 CT6 Trịnh Đình Thắng, Đỗ Thị Lan Anh, Trần Minh Tuyến, Cao Hồng Huệ, “Phương pháp gia tăng ma trận độ hỗ trợ khối liệu lát cắt có tập đối tượng thay đổi”, Kỷ yếu Hội nghị Khoa học Công nghệ Quốc gia lần thứ XII: Nghiên cứu ứng dụng công nghệ thông tin, Huế, 7-8/06/2019 ... khai phá liệu, kỹ thuật khai phá liệu, kiến thức khai phá luật định, lớp tương đương… Phần cuối chương trình bày số khái niệm mơ hình liệu dạng khối: khối, lát cắt khối điểm, đại số quan hệ khối. .. CƠ SỞ 1.1 1.1.1 Khai phá liệu Định nghĩa khai phá liệu Khai phá liệu khâu chủ yếu trình phát tri thức sở liệu Quá trình kết xuất tri thức tiềm ẩn từ liệu giúp cho việc dự báo, định kinh doanh,... CHƯƠNG KHAI PHÁ LUẬT QUYẾT ĐỊNH TRÊN KHỐI DỮ LIỆU CÓ GIÁ TRỊ THUỘC TÍNH THAY ĐỔI 2.1 Một số khái niệm xây dựng khối 2.1.1 Khối thông tin Định nghĩa 2.1 Cho lược đồ khối R = (id;A1,A2, ,An), r khối