Một phương pháp gia tăng để tính độ chính xác và độ phủ của các luật quyết định trên khối dữ liệu có tập đối tượng thay đổi

10 18 0
Một phương pháp gia tăng để tính độ chính xác và độ phủ của các luật quyết định trên khối dữ liệu có tập đối tượng thay đổi

Đang tải... (xem toàn văn)

Thông tin tài liệu

Bài viết đưa ra mô hình tăng hoặc giảm tập đối tượng của khối quyết định. Từ đó trình bày các thuật toán gia tăng để tính ma trận độ chính xác và ma trận độ phủ của các luật quyết định trên khối dữ liệu có tập đối tượng thay đổi. Đồng thời phát biểu và chứng minh độ phức tạp của các thuật toán này.

Các cơng trình nghiên cứu phát triển Cơng nghệ Thơng tin Truyền thông Một phương pháp gia tăng để tính độ xác độ phủ luật định khối liệu có tập đối tượng thay đổi Đỗ Thị Lan Anh1,2 , Trịnh Đình Thắng1 Viện Công nghệ Thông tin, Trường Đại học Sư phạm Hà Nội 2 Học viện Khoa học Công nghệ, Viện Hàn lâm Khoa học Công nghệ Việt Nam Tác giả liên hệ: Đỗ Thị Lan Anh, dothilananh@hpu2.edu.vn Ngày nhận bài: 25/09/2018, ngày sửa chữa: 17/04/2019, ngày duyệt đăng: 22/04/2019 Xem sớm trực tuyến: 26/05/2019, định danh DOI: 10.32913/mic-ict-research-vn.v2019.n1.804 Biên tập lĩnh vực điều phối phản biện định nhận đăng: PGS.TS Lê Hồng Sơn Tóm tắt: Bài báo đưa mơ hình tăng giảm tập đối tượng khối định Từ trình bày thuật tốn gia tăng để tính ma trận độ xác ma trận độ phủ luật định khối liệu có tập đối tượng thay đổi Đồng thời phát biểu chứng minh độ phức tạp thuật tốn Từ khóa: Phương pháp gia tăng, ma trận độ xác, ma trận độ phủ, khối liệu, khối định Title: Abstract: Keywords: An incremental method for calculating accuracy and coverage of decision laws on data block having changed object set The paper gives a model of increasing or decreasing the object set of a decision block From there, we present the incremental algorithms to calculate the precision matrix and the coverage matrix of the decision laws on the data block having the object set changed The complexities of these algorithms have also been stated and proved Incremental method, precision matrix, coverage matrix, data block, decision block I GIỚI THIỆU II CÁC KHÁI NIỆM CƠ BẢN Khối Định nghĩa 1: Gọi R = (id; A1, A2, , An ) hữu hạn phần tử, id tập số hữu hạn khác rỗng, { Ai } với i = 1, , n thuộc tính Mỗi thuộc tính Ai có miền giá trị tương ứng dom(Ai ) Một khối r R gồm số hữu hạn phần tử mà phần tử họ ánh xạ từ tập số id đến miền trị thuộc tính { Ai } Nói cách khác, Việc nghiên cứu để tìm kiếm luật định bảng định cách đánh giá độ đo luật định cách tiếp cận gia tăng, xác định luật định, v.v nhiều nhóm tác giả nghiên cứu, chẳng hạn [1–5] Tuy nhiên, luật định bảng định mang tính chất thời điểm mà khơng áp dụng cho q trình, khoảng thời gian Khi đó, để khắc phục nhược điểm nhóm tác giả tập trung nghiên cứu đề xuất mơ hình thuật tốn tương ứng để phát luật định khối liệu [6] Trên khối định, việc nghiên cứu tính chất làm mịn làm thơ giá trị thuộc tính số khối nhóm tác giả quan tâm nghiên cứu [7] Nối hướng nghiên cứu trên, báo nhóm tác giả đưa phương pháp để tính tốn gia tăng ma trận độ xác (Acc) độ phủ (Cov) luật định bố sung, hay loại bỏ đối tượng khỏi khối liệu, đồng thời đánh giá độ phức tạp thuật toán phương pháp t ∈ r(R) ⇔ t = t i : id −→ dom(Ai ) i=1, ,n Khối ký hiệu r(R), r(id; A1, A2, , An ), đơn giản r Lát cắt khối Định nghĩa ([8]): Cho R = (id; A1, A2, , An ), r(R) khối R Với x ∈ id ta kí hiệu r(Rx ) khối với Rx = ({x}; A1, A2, , An ) cho tx ∈ r(Rx ) ⇔ tx = txi = t i x i=1, ,n , Các cơng trình nghiên cứu phát triển Cơng nghệ Thơng tin Truyền thơng txi (x) = t i (x) Khi r(Rx ) gọi mội lát cắt khối r(R) điểm x, kí hiệu rx Sau đây, đơn giản ta sử dụng kí hiệu Định nghĩa ([6]): Cho khối DB = (U, C∪D,V, f ) với C tập thuộc tính số điều kiện D tập thuộc tính số định Khi lát cắt khối định x, x ∈ id, bốn DBx = (U, C x ∪D x ,Vx , fx ) với U tập đối tượng thuộc r gọi không gian đối tượng, k x (i) , A = C x ∪ D x , V = C x = ∪x (i) ∈ A x Vx (i) , D x = ∪i=1 x x n ∪i=k+1 x (i) , với Vx (i) tập giá trị đối tượng ứng với thuộc tính số x (i) , fx : Ux × Ax → Vx hàm thông tin thỏa mãn với u ∈ U với x (i) ∈ Ax ta có f (u, x (i) ) ∈ Vx (i) x (i) = (x; Ai ) id (i) = {x (i) | x ∈ id} Ta gọi x (i) (x ∈ id, i = 1, , n) thuộc tính số lược đồ khối R = (id; A1, A2, , An ) Khối thông tin Định nghĩa ([6]): Cho R = (id; A1, A2, , An ) r khối R Khi khối thông tin bốn I B = (U, A,V, f ) với U tập đối tượng thuộc r gọi không gian đối tượng, A tập thuộc tính số đối tượng, V tập giá trị đối tượng ứng với thuộc tính số x (i) chúng xác định sau: Luật định khối lát cắt Định nghĩa ([6]): Cho khối định DB = (U, C∪D) k x (i) , D = với U không gian đối tượng, C = ∪i=1 n (i) x k (i) x n (i) ∪i=k+1 x , C = ∪i=1 x , D = ∪i=k+1 x , x ∈ id Khi đó, U/C = {C1, C2, , Cm } , n A= id (i), V= i=1 U/C x = Cx1, Cx2, , Cxtx , Vx (i) U/D = {D1, D2, , Dh } , x (i) ∈ A U/D x = Dx1, Dx2, , Dxsx , Cuối cùng, f : U × A → V hàm thơng tin thỏa mãn với u ∈ U với x (i) ∈ A ta có f (u) ∈ Vx (i) Khi đó, ta gọi f (u, x (i) ) giá trị đối tượng u thuộc tính số x (i) tương ứng phân hoạch sinh C, C x , D, D x m, h, tx , sx số lớp tương đương phân hoạch U/C, U/C x , U/D, U/D x Một luật định khối có dạng Định nghĩa ([6]): Cho R = (id; A1, A2, , An ), r khối R, rx lát cắt khối r x ∈ id Khi đó, lát cắt khối thơng tin x bốn I Bx = (U, Ax ,Vx , fx ) với U tập đối tượng thuộc r gọi không gian đối tượng, Ax tập thuộc tính số đối tượng lát cắt x xác định sau: Ci −→ D j , i = 1, , m j = 1, , h lát cắt điểm x có dạng Cxi −→ Dx j , i = 1, , tx , j = 1, , sx Mệnh đề ([6]): Cho khối định DB = (U, C ∪ D) k x (i) , D = với U không gian đối tượng C = ∪i=1 n (i) x k (i) x n (i) ∪i=k+1 x , C = ∪i=1 x , D = ∪i=k+1 x , x ∈ id, ≤ k < n, phân hoạch U/C, U/C x , U/D, U/D x phân hoạch sinh bởi C, C x , D, D x , định nghĩa Khi đó, với Ci ∈ U/C với D j ∈ U/D, i = 1, , m, j = 1, , h, ta có n Ax = x (i) i=1 Tập thứ ba bộ, Vx , xác định sau: Vx = Vx (i) , x (i) ∈ A x Ci = Vx (i) tập giá trị đối tượng ứng với thuộc tính số x (i) Cuối cùng, fx : Ux × Ax → Vx hàm thông tin thỏa mãn với u ∈ U với x (i) ∈ Ax ta có f (u, x (i) ) ∈ Vx (i) Cx p x , Dj = x ∈id Dxqx , x ∈id với px ∈ {1, 2, , tx } qx ∈ {1, 2, , sx } Định nghĩa ([6]): Cho khối định DB = (U, C ∪ D), Ci ∈ U/C, D j ∈ U/D, Cx p ∈ U/C x , Dxq ∈ U/D x , với i = 1, , m, j = 1, , h, p ∈ {1, , tx }, q ∈ {1, , sx }, x ∈ id Khi đó, độ hỗ trợ, độ xác độ phủ luật định Ci −→ D j khối cho tương ứng sau: Khối định Định nghĩa ([6]): Cho khối thông tin I B = (U, A,V, f ) n id (i) Khi đó, với U không gian đối tượng A = ∪i=1 k x (i) , A chia thành hai tập C D cho C = ∪i=1 n (i) D = ∪i=k+1 x , x ∈ id, với ≤ k < n, khối thơng tin I B gọi khối định kí hiệu DB = (U, C ∪ D,V, f ) với C tập thuộc tính số điều kiện D tập thuộc tính số định Ta kí hiệu khối định cách đơn giản DB = (U, C ∪ D) Sup(Ci , D j ) = Ci ∩ D j , Ci ∩ D j , |Ci | Ci ∩ D j Cov(Ci , D j ) = Dj Acc(Ci , D j ) = Tập 2019, Số 1, Tháng III KẾT QUẢ Còn độ hỗ trợ, độ xác độ phủ luật định Cx p −→ Dxq lát cắt khối điểm x cho tương ứng sau: Mơ hình bổ sung loại bỏ đối tượng khối định lát cắt Cho khối định DB = (U, C ∪ D,V, f ) định nghĩa Giả sử, ta cần bổ sung vào khối định N đối tượng, kí hiệu AN loại bỏ khối M đối tượng, kí hiệu DM Khi đó, ta cần tính ma trận độ xác Acc ma trận độ phủ Cov khối lát cắt sau bổ sung loại bỏ đối tượng khối định Các kết giúp tìm luật định khối lát cắt Sup(Cx p , Dxq ) = Cx p ∩ Dxq , Acc(Cx p , Dxq ) = Cov(Cx p , Dxq ) = Cx p ∩ Dxq Cx p Cx p ∩ Dxq Dxq , Từ định nghĩa trên, ta có kết sau: ≤ Acc(Ci , D j ) ≤ 1, Giả sử bổ sung N đối tượng vào khối định N đối tượng sinh thêm p lớp tương đương điều kiện tập U/C, px lớp tương đương điều kiện tập U/C x , q lớp tương đương đương định tập U/D qx lớp tương đương định tập U/D x Kí hiệu Ni số đối tượng bổ sung cho lớp Ci ∈ U/C (i = 1, , m + p), Nxi số đối tượng bổ sung cho lớp Cxi ∈ U/C x (i = 1, , tx + px ) Ni đối tượng có Ni j đối tượng bổ sung cho lớp D j ∈ U/D ( j = 1, , h + q), lát cắt x Nxi đối tượng có Nxi j đối tượng bổ sung cho lớp Dx j ∈ U/D x ( j = 1, , sx + qx ) Trong M đối tượng bị loại bỏ có Mi đối tượng bị loại khỏi lớp Ci ∈ U/C (i = 1, , m) có Mi j đối tượng bị loại bỏ khỏi lớp Di ( j = 1, , h), cịn lát cắt x Mxi ( j = 1, , sx ) đối tượng bị loại bỏ khỏi lớp Dx j ∈ U/D x ≤ Acc(Cx p , Dxq ) ≤ 1, sx h Acc(Ci , D j ) = 1, j=1 Acc(Cx p , Dxq ) = 1, q=1 ≤ Cov(Ci , D j ) ≤ 1, ≤ Cov(Cx p , Dxq ) ≤ 1, tx m Cov(Ci , D j ) = 1, j=1 Cov(Cx p , Dxq ) = p=1 Ta biểu diễn độ đo luật định khối dạng ma trận độ hỗ trợ, độ xác độ phủ tương ứng sau: Sup(C1, D1 ) Sup(C, D) = Sup(Cm, D1 ) Acc(C1, D1 ) Acc(C, D) = Acc(Cm, D1 ) Cov(C1, D1 ) Cov(C, D) = Cov(Cm, D1 ) ··· ··· ··· ··· ··· ··· Sup(C1, Dh ) , Từ mơ hình ta có Sup(Cm, Dh ) h+q Acc(C1, Dh ) , Ni = Acc(Cm, Dh ) Mi = Nxi = Cov(Ci , D j ) = h q=1 Sup(Ci , Dq ) M= Nxi j , Mxi = Nx = h Mi j , i=1 j=1 t x +p x s x +q x Nxi = i=1 tx Mxi j , j=1 m Mi = i=1 t x +p x j=1 sx Mx = Nxi j , i=1 tx sx Mxi = i=1 j=1 Mxi j i=1 j=1 Ta kí hiệu lớp tương đương sau bổ sung loại bỏ đối tượng Mệnh đề ([1, 7]): Cho khối định DB = (U, C ∪ k x (i) , D = D), với U không gian đối tượng, C = ∪i=1 n (i) ∪i=k+1 x , x ∈ id Khi với Ci ∈ U/C với D j ∈ U/D, i ∈ {1, , m} j ∈ {1, , h}, ta có Sup(Ci , D j ) Ni j , i=1 j=1 m Mi j , j=1 s x +q x Cov(Cm, Dh ) Ni = i=1 h Với luật định lát cắt khối ta có ma trận độ hỗ trợ, độ xác độ phủ tương tự Acc(Ci , D j ) = N= j=1 Cov(C1, Dh ) m+p h+q m+p Ni j , U/C = C1, C2, , Cm, , U/C x = Cx1, Cx2, , Cxtx , , U/D = D1, D2, , Dh , , U/D x = Dx1, Dx2, , Dxsx , , Từ định nghĩa ta thấy Ci Ci (i = 1, , m) khác số lượng phần tử bổ sung loại bỏ đối tượng, nghĩa với a ∈ C ta có f (Ci , a) = f (Ci , a), Sup(Ci , D j ) m p=1 Sup(Cp , D j ) Các cơng trình nghiên cứu phát triển Cơng nghệ Thông tin Truyền thông với i ∈ {1, , m} j ∈ {h + 1, , h + q} với lớp từ Cm+1 , Cm+2 , , Cm+p lớp tương đương điều kiện hồn tồn Trên lát cắt x Cxi Cxi (i = 1, , tx ) khác số lượng phần tử sau bổ sung loại bỏ đối tượng với a ∈ C ta có f (Cxi , a) = f (Cxi , a), với lớp từ Cxi (i = tx + 1, , tx + px ) lớp tương đương điều kiện hoàn toàn Acc(Ci , D j ) = Ni , |Ci | + |Ci | = h+q j=1 Ni j , Acc(Ci , D j ) = m+p i=1 Ni j , Ni j − Nxi , s x +q x j=1 s x +q x j=1 |Dx j | = Nxi j , |Dx j | + t x +p x i=1 Nxi j − Acc(Ci , D j ) = Nxi j , Nxi j − j = 1, , h, Mxi j , i = 1, , tx , A1 B1 h+q |Ci | = |Ci | + Ni − Mi = |Ci | + tx i=1 Mxi j , j = 1, , sx , Mi j = B2 j=1 Suy Acc(Ci , D j ) = |Ci ∩ D j | |Ci | = A2 B2 (iii) i = m + 1, , m + p j = 1, , h + q: Theo định nghĩa, ta có |Ci ∩ D j | Acc(Ci , D j ) = |Ci | Khi |Ci ∩ D j | = Ni j = A3, h+q |Ci | = Ni j = B3 j=1 với i ∈ {1, , m} j ∈ {1, , h} Từ |Ci ∩ D j | + Ni j − Mi j Ni j − h Ni j − j=1 Acc(C , D ) = Acc(Ci , D j )ix j , h+q j =1 = |Ci ∩ D j | = Ni j = A2, j = sx + 1, sx + qx |Ci | + |Ci | Khi Mệnh đề 3: Cho khối định DB = (U, C ∪ D,V, f ), AN DM tập đối tượng bổ sung loại bỏ tương ứng khối định DB Khi ma trận độ xác khối định sau bổ sung N loại bỏ M đối tượng với i ∈ {1, , m + p} j ∈ {1, , h + q} Acc(Ci , D j ) = |Ci ∩ D j | (ii) i = 1, , m j = h + 1, , h + q: Theo định nghĩa, ta có |Ci ∩ D j | Acc(Ci , D j ) = |Ci | i = tx + 1, , tx + px , t x +p x i=1 Mi j = B1 j =1 Kết cho ta i = 1, , m, sx j=1 h Ni j − j =1 i = 1, , m, Mi j , h+q |Ci | = |Ci | + Ni − Mi = |Ci | + i = m + 1, , m + p, |Cxi | + |Cxi | = m i=1 |Ci | |Ci ∩ D j | = |Ci ∩ D j | + Ni j − Mi j = A1, j = h + 1, , h + q, |Cxi | + Nxi − Mxi , |Cxi | = Mi j , |Ci ∩ D j | Khi i = m + 1, , m + p, m+p i=1 |D j | + |D j | = Ni j − (i) i = 1, , m j = 1, , h: Theo định nghĩa, ta có i = 1, , m, h j=1 , Mi j Chứng minh: Ta xác định giá trị Acc(Ci , D j ) theo ba trường hợp sau i = m + 1, , m + p, h+q j=1 h j =1 Ni j − Ni j h+q j=1 Ni j Acc(Ci , D j ) = Từ tính chất lớp tương đương điều kiện, lớp tương đương định khối lát cắt ta có mối quan hệ số lượng phần tử lớp sau: |Ci | + Ni − Mi , |Ci | + với i ∈ {m + 1, , m + p} j ∈ {1, , h + q} Tương tự, Di Di (i = 1, , h) khác số lượng phần tử, nghĩa với a ∈ D ta có f (Di , a) = f (Di , a), với lớp từ Dh+1 , Dh+2, , Dh+q lớp tương đương định hoàn tồn Trên lát cắt x Dxi Dxi (i = 1, , sx ) khác số lượng phần tử sau bổ sung loại bỏ đối tượng, lớp từ Dh j ( j = sx + 1, , sx + qx ) lớp tương đương định hoàn toàn |Ci | = Ni j h+q j =1 h j =1 Acc(Ci , D j ) = , Mi j |Ci ∩ D j | |Ci | = A3 B3 Tập 2019, Số 1, Tháng Mệnh đề 4: Cho khối định DB = (U, C ∪ D,V, f ), AN DM tập đối tượng bổ sung loại bỏ tương ứng khối định DB Khi ma trận độ xác lát cắt x sau bổ sung N loại bỏ M đối tượng với i = 1, , tx + px j = 1, , sx + qx Khi Acc(Cx , Dx ) = Acc(Cxi , Dx j )ix j , Suy |Cxi ∩ Dx j | = Nxi j = Ax3, s x +q x |Cxi | = Nxi = với i ∈ {1, , tx } j ∈ {1, , sx } Acc(Cxi , Dx j ) = |Cxi ∩ Dx j | + Nxi j − Mxi j |Cxi | + s x +q x j =1 sx j =1 Nxi j − Mxi j Acc(Cxi , Dx j ) = , với i ∈ {tx + 1, , tx + p}, j ∈ {1, , sx + qx } Nxi j Acc(Cxi , Dx j ) = h+q N xi j j=1 với i ∈ {m + 1, , m + p} j ∈ {1, , h} Ni j Cov(C i , D j ) = , m+p |D j | + i =1 Ni j − im=1 Mi j với i ∈ {1, , m + p}, j ∈ {h + 1, , h + q} Ni j Cov(Ci , D j ) = m+p i =1 Ni j Khi |Cxi ∩ Dx j | = |Cxi ∩ Dx j | + Nxi j − Mxi j = Ax1, s x +q x |Cxi | = |Cxi |+Nxi − Mxi = |Cxi |+ sx Mxi j = Bx1 Nxi j − j =1 Chứng minh: Ta xác định giá trị Cov(Ci , D j ) the ba trường hợp sau Ii) i = 1, , m j = 1, , h: Theo định nghĩa, ta có |Ci ∩ D j | Cov(Ci , D j ) = |D j | j =1 Suy Acc(Cxi , Dx j ) = |Cxi ∩ Dx j | |Cxi | = Ax1 Bx1 (ii) i = 1, , tx j = sx + 1, , sx + qx : Theo định nghĩa, ta có |Cxi ∩ Dx j | Acc(Cxi , Dx j ) = |Cxi | Khi |Ci ∩ D j | = |Ci ∩ D j | + Ni j − Mi j = A1, m+p |D j | = |D j | + N j − M j = |D j | + s x +q x Cov(Ci , D j ) = sx Mxi j = Bx2 Nxi j − Suy |Cxi ∩ Dx j | |Cxi | = Ax2 Bx2 Acc(Cxi , Dx j ) = |Cxi | |D j | = A1 B1 Khi (iii) i = tx + 1, , tx + px j = 1, , sx + qx : Theo định nghĩa, ta có |Cxi ∩ Dx j | |Ci ∩ D j | (ii) i = m +1, , m + p j = 1, , h: Theo định nghĩa, ta có |Ci ∩ D j | Cov(Ci , D j ) = |D j | j =1 j =1 Mi j = B1 i =1 Suy |Cxi ∩ Dx j | = Nxi j = Ax2, Acc(Cxi , Dx j ) = m Ni j − i =1 Khi |Cxi | = |Cxi |+Nxi − Mxi = |Cxi |+ Ax3 Bx3 với i ∈ {1, , m} j ∈ {1, , h} |Ci ∩ D j | + Ni j − Mi j Cov(Ci , D j ) = , m+p |D j | + i =1 Ni j − im=1 Mi j (i) i = 1, , tx j = 1, , sx : Theo định nghĩa, ta có |Cxi | Cxi = Cov(C , D ) = Cov(Ci , Di )ix j , Chứng minh: Ta xác định giá trị Acc(Cxi , Dx j ) theo ba trường hợp sau |Cxi ∩ Dx j | |Cxi ∩ Dx j | Mệnh đề 5: Cho khối định DB = (U, C ∪ D,V, f ), AN DM tập đối tượng bổ sung loại bỏ tương ứng khối định DB Khi ma trận độ phủ khối định sau bổ sung N loại bỏ M đối tượng với i ∈ {1, , m + p} j ∈ {1, , h + q} với i ∈ {1, , tx } j ∈ {sx + 1, , sx + qx } Nxi j , Acc(Cxi , Dx j ) = s x +q x |Cxi | + j =1 Nxi j − sj x=1 Mxi j Acc(Cxi , Dx j ) = Nxi j = Bx3 j=1 |Ci ∩ D j | = Ni j = A2, m+p |D j | = |D j | + i =1 m Mi j = B2 Ni j − i =1 Các cơng trình nghiên cứu phát triển Cơng nghệ Thơng tin Truyền thông (ii) i = tx + 1, , tx + px j = 1, , sx : Theo định nghĩa, ta có Suy |Ci ∩ D j | Cov(Ci , D j ) = |D j | A = B2 Cov(Cxi , Dx j ) = (iii) i = 1, , m + p j = h + 1, , h + q: Theo định nghĩa, ta có |Ci ∩ D j | Cov(Ci , D j ) = |D j | |Cxi ∩ Dx j | |Dx j | Khi |Cxi ∩ Dx j | = Nxi j = Ax2, t x +p x Khi |Dx j | = |Dx j | + |Ci ∩ D j | = Ni j = A3, i =1 Cov(Cxi , Dx j ) = Suy |Ci ∩ D j | |D j | = A3 B3 m i =1 Nxi j − tx i =1 Nxi j − Nxi j t x +p x i =1 Nxi j Mxi Cov(Cxi , Dx j ) = j Mxi |Dx j | |Cxi ∩ Dx j | Mxi j = Bx1 i =1 |Dx j | = Ax1 Bx1 (ii) Chỉ sinh lớp điều kiện mới: Trường hợp ta {1, , h} có x Ci (i = 1, , m) tồn j cho x ∈ D j ∗ Suy x ∈ Cm+1 x ∈ D j ∗ Do ta có Acc(Cm+1, D j ∗ ) = tx Suy Cov(Cxi , Dx j ) = Bx3 (i) Sinh lớp điều kiện lớp định mới: Với trường hợp ta có x Ci (i = 1, , m) x D j ( j = 1, , h) Suy x ∈ Cm+1 x ∈ Dh+1 Do Acc(Cm+1, Dh+1 ) = Cov(Cm+1, Dh+1 ) = Với j = 1, , h, ta có Acc(Cm+1, D j ) = Cov(Cm+1, D j ) = Với i = 1, , m, ta có Acc(Ci , Dh+1 ) = Cov(Ci , Dh+1 ) = Mặt khác, với i = 1, , m j = 1, , h, ta có Acc(Ci , D j ) = Cov(Ci , D j ) Cov(Ci , D j ) = Cov(Ci , D j ) |Cxi ∩ Dx j | = |Cxi ∩ Dx j | + Nxi j − Mxi j = Ax1, i =1 Ax3 1) Bổ sung đối tượng x vào khối định: Chúng ta có bốn trường hợp sau Nxi j − |Dx j | = Tính tốn gia tăng Acc Cov bổ sung loại bỏ đối tượng khối định t x +p x |Cxi ∩ Dx j | , Khi |Dx j | = |Dx j |+Nx j − Mx j = |Dx j |+ j (i) i = 1, , m j = 1, , h: Theo định nghĩa, ta có |Cxi ∩ Dx j | |Dx j | Suy Chứng minh: Ta xác định giá trị Cov(Cxi , Dx j ) theo ba trường hợp sau Cov(Cxi , Dx j ) = |Cxi ∩ Dx j | Nxi j = Bx3 , với i ∈ {1, , tx + px } j ∈ {sx , , sx + qx } Cov(C xi , D x j ) = i =1 Nxi j |Dx j | + Bx2 t x +p x |Dx j | = |Cxi ∩ Dx j | + Nxi j − Mxi j t x +p x i =1 Ax2 |Cxi ∩ Dx j | = Nxi j = Ax3, với i ∈ {tx + 1, , tx + px } j ∈ {1, , sx }sẽ Cov(C xi , D x j ) = = Khi với i ∈ {1, , tx } j ∈ {1, , sx } m+p i =1 |Dx j | Cov(Cxi , Dx j ) = Cov(Cx , Dx ) = Cov(Cxi , Dx j )ix j , |Dx j | + |Cxi ∩ Dx j | (iii) i = 1, , tx + px j = sx + 1, , sx + qx : Theo định nghĩa, ta có Mệnh đề 6: Cho khối định DB = (U, C ∪ D,V, f ), AN DM tập đối tượng bổ sung loại bỏ tương ứng với khối định DB Khi ma trận độ phủ lát cắt x sau bổ sung N loại bỏ M đối tượng với i = 1, , tx + px j = 1, , sx + qx Cov(C xi , D x j ) = Mxi j = Bx2 i =1 Suy Ni j = B3 Cov(Ci , D j ) = tx Nxi j − i =1 m+p |D j | = Cov(Cm+1, D j ∗ ) = |D j ∗ | + Tập 2019, Số 1, Tháng Nếu k j ∗ Acc(Cm+1, Dk ) = Cov(Cm+1, Dk ) = Nếu i m + Acc(Ci , D j ∗ ) = Acc(Ci , D j ∗ ) Cov(Ci , D j ∗ ) = Thuật tốn 1: Tính tốn ma trận Acc Cov trước bổ sung loại bỏ đối tượng Dữ liệu vào: • Các lớp tương đương điều kiện Ci với i = 1, , m • Các lớp tương đương định D j với i = 1, , h Dữ liệu ra: • Ma trận Acc(C, D) ma trận Cov(C, D) |Ci ∩ DJ ∗ | |D j ∗ | + Mặt khác, với i m + j j ∗ , ta có Acc(Ci , D j ) = Acc(Ci , D j ) Cov(Ci , D j ) = Cov(Ci , D j ) // Tính đồng thời hai ma trận Acc Cov for i = : m for j = : h |Ci ∩ D j | Acc(Ci , D j ) = ; |Ci | |Ci ∩ D j | Cov(Ci , D j ) = |D j | end end (iii) Chỉ sinh lớp định mới: Trường hợp này, x D j ( j = 1, , h) tồn i ∗ {1, , m} cho x ∈ Ci∗ Suy x ∈ Dh+1 x ∈ Ci∗ Do Cov(Ci∗ , Dh+1 ) = Acc(Ci∗ , Dh+1 ) = |Ci∗ | + Nếu i i ∗ Acc(Ci , Dh+1 ) = Cov(Ci , Dh+1 ) = Nếu k h + Cov(Ci∗ , Dk ) = Cov(Ci∗ , Dk ) Acc(Ci∗ , Dk ) = |Ci ∩ Dk | |Ci∗ | + Nếu u Mặt khác, với i i ∗ j h + ta có Acc(Ci , D j ) = Acc(Ci , D j ), Cov(Ci , D j ) = Cov(Ci , D j ) Cov(Cu , D j ∗ ) = (iv) Không sinh thêm lớp điều kiện lớp định mới: Với trường hợp này, tồn i ∗ ∈ {1, , m} cho x ∈ Ci∗ tồn j ∗ ∈ {1, , h} cho x ∈ Di∗ Như vậy, việc bổ sung phần tử x tăng thêm số phần tử Ci∗ Di∗ Khi Nhận xét: Khi thực thao tác loại bỏ phần tử khỏi khối định xảy trường hợp lớp tương đương điều kiện lớp tương đương định trở thành rỗng Khi ta có hai trường hợp sau: |Ci∗ ∩ D j ∗ | + , |Ci∗ | + |Ci∗ ∩ D j ∗ | + Cov(Ci∗ , D j ∗ ) = |Di∗ | + Nếu u • j ∗ Cov(Ci∗ , Dk ) = Cov(Ci∗ , Dk ) Acc(Ci∗ , Dk ) = |Ci∗ ∩ Dk | + |Ci∗ | + • i ∗ Acc(Cu , D j ∗ ) = Acc(Cu , D j ) Cov(Cu , D j ∗ ) = |Cu ∩ D j ∗ | + |D j ∗ | + 2) Loại bỏ phần tử x khỏi khối định: Với trường hợp này, tồn i ∗ ∈ {1, , m} cho x ∈ Ci∗ tồn j ∗ ∈ {1, , h} cho x ∈ D j ∗ Như vậy, việc loại bỏ phần tử x làm giảm số phần tử Ci∗ Di∗ Khi Các thuật tốn tính gia tăng Acc Cov sau bổ sung loại bỏ phần tử Sau đây, phương pháp tính ma trận Acc Cov trước bổ sung loại bỏ đối tượng trình bày Thuật tốn Phương pháp tính gia tăng ma trận Acc Cov sau bổ sung phần tử trình bày Thuật tốn Phương pháp tính gia tăng ma trận Acc Cov sau loại bỏ phần tử trình bày Thuật tốn Cuối cùng, phương pháp loại bỏ dòng/cột ma trận Acc Cov mà có tồn giá trị trình bày Thuật tốn |Ci∗ ∩ D j ∗ | − , |Ci∗ | − |Ci∗ ∩ D j ∗ | − Cov(Ci∗ , D j ∗ ) = |Di∗ | − Acc(Ci∗ , D j ∗ ) = j ∗ Cov(Ci∗ , Dk ) = Cov(Ci∗ , Dk ) Acc(Ci∗ , Dk ) = Nếu Ci = (i = 1, , m) Ci ∩ D j = Suy Ci ∩ D j = 0, nghĩa tất phần tử dòng i ma trận Acc(C , D ) dòng i ma trận Cov(C , D ) Nếu D j = (i = 1, , h) Ci ∩ D j = Suy Ci ∩ D j = 0, nghĩa tất phần tử cột j ma trận Acc(C , D ) cột j ma trận Cov(C , D ) Do đó, trước tiến hành sinh luật định có ý nghĩa ta cần thực việc loại bỏ dòng/cột ma trận Acc ma trận Cov mà có tồn giá trị Nếu i i ∗ j j ∗ Acc(Ci , D j ) = Acc(Ci , D j ) Cov(Ci , D j ) = Cov(Ci , D j ) Nếu k |Cu ∩ D j ∗ | |D j ∗ | − Nếu i i ∗ j j ∗ Acc(Ci , D j ) = Acc(Ci , D j ) Cov(Ci , D j ) = Cov(Ci , D j ) Acc(Ci∗ , D j ∗ ) = Nếu k i ∗ Acc(Cu , D j ∗ ) = Acc(Cu , D j ∗ ) |Ci∗ ∩ Dk | |Ci∗ | − Các cơng trình nghiên cứu phát triển Cơng nghệ Thơng tin Truyền thơng Thuật tốn 2: Tính tốn gia tăng ma trận Acc Cov sau bổ sung phần tử Thuật tốn 4: Loại bỏ dịng/cột ma trận Acc Cov mà có tồn giá trị Dữ liệu vào: • Các lớp tương đương điều kiện Ci với i = 1, , m • Các lớp tương đương định D j với j = 1, , h • Tập AN chứa N phần tử bổ sung Dữ liệu ra: • Ma trận Acc(C , D ) ma trận Cov(C , D ) Dữ liệu vào: • Ma trận Acc(C , D ) • Ma trận Cov(C , D ) Dữ liệu ra: • Ma trận Acc(C , D ) ma trận Cov(C , D ) sau loại bỏ dịng/cột tồn giá trị foreach x ∈ AN p = 0; for i = : m + p q = 0; for j = : h + q Thực trường hợp (i) mục III.2.1; p = p + q = q + 1; end if ∀x Ci ∃ j ∗ : x ∈ D j ∗ then Thực trường hợp (ii) mục III.2.1; p = p + 1; end if ∃i ∗ : x ∈ Ci ∗ ∀j : x D j then Thực trường hợp (iii) mục III.2.1; q = q + 1; end if ∃i ∗ : x ∈ Ci ∗ ∃ j ∗ : x ∈ D j ∗ then Thực trường hợp (iv) mục III.2.1; end end end // Thực xóa dịng tồn giá trị for i = : m + p kt = 0; for j = : h + q if Acc(Ci , D j ) Cov(Ci , D j ) kt = 1; break; end end if kt = then Xóa dịng i, loại bỏ Ci ; p = p − 1; i = i − 1; end end // Thực xóa cột tồn giá trị for j = : h + q kt = 0; for i = : m + p if Acc(Ci , D j ) Cov(Ci , D j ) kt = 1; break; end end if kt = then Xóa cột j, loại bỏ D j ; q = q − 1; j = j − 1; end end Thuật tốn 3: Tính tốn gia tăng ma trận Acc Cov sau loại bỏ phần tử Dữ liệu vào: • Các lớp tương đương điều kiện Ci với i = 1, , m • Các lớp tương đương định D j với j = 1, , h • Tập DM chứa M phần tử bị loại bỏ Dữ liệu ra: • Ma trận Acc(C , D ) ma trận Cov(C , D ) foreach x ∈ DM for i = : m for j = : h Thực trường hợp mục III.2.2; end end end then then |U| |U| × × m × h = |U| m h Do độ phức tạp thời gian thuật toán O(|U| ) Mệnh đề 8: Độ phức tạp thuật tốn tính gia tăng Acc Cov bổ sung N đối tượng O(N |U| ) Chứng minh: Khi bổ sung đối tượng x, để kiểm tra xem x thuộc lớp tương đương điều kiện ta cần thực sm phép so sánh, để kiểm tra x thuộc lớp tương đương định ta cần sh phép so sánh Do đó, việc kiểm tra phần tử x bổ sung cần sm + sh phép so sánh (sm sh số lớp tương đương điều kiện số lớp tương đương định tương ứng) Độ phức tạp thuật tốn tính gia tăng Acc Cov sau bổ sung loại bỏ phần tử khối định Mệnh đề 7: Độ phức tạp thuật toán xác định Acc Cov O(|U| ) Cập nhật ma trận Acc Cov bổ sung x, ta có bốn trường hợp sau Chứng minh: Ta có lực lượng trung bình lớp tương đương điều kiện lớp tương đương định tương ứng |U|/m, |U|/h Vì có tất m × h phần tử, nên để tính độ xác độ phủ luật số phép tính cần thực (i) Nếu hình thành lớp điều kiện lớp định hai ma trận Acc Cov bổ Tập 2019, Số 1, Tháng sung thêm dịng (kí hiệu i ∗ ) cột (kí hiệu j ∗ ) Như ta có Acc(Ci∗ , D j ∗ ) = Cov(Ci∗ , D j ∗ ) = 1; Acc(Ci∗ , D j ∗ ) = Cov(Ci∗ , D j ∗ ) = 0, ( j = 1, , sh ); Acc(Ci∗ , D j ∗ ) = Cov(Ci∗ , D j ∗ ) = 0, (i = 1, , sm ) Độ xác độ phủ luật cịn lại khơng thay đổi Do vậy, trường hợp cần 2(sm + sh + 1) phép gán phép tính cần thực để cập nhật cho ma trận Acc Cov bổ sung N phần tử N(m + p + h + q) 2(m + p + h + q) + Mặt khác, m, h ≤ |U|, suy độ phức tạp thuật toán O(N |U| ) (ii) Nếu hình thành lớp điều kiện mới, cịn số lớp định khơng đổi hai ma trận Acc Cov bổ sung thêm dòng i ∗ x làm ảnh hưởng đến cột j ∗ hai ma trận Như vậy, x ∈ Ci∗ x ∈ D j ∗ , suy Ci∗ ∩ D j ∗ = {x}, Cu ∩ D j ∗ không đổi u i ∗ , Ci∗ ∩ Dk = k j ∗ Từ ta có Acc(Ci∗ , D j ∗ ) = Cov(Ci∗ , D j ∗ ) = Nếu u i ∗ Acc(Cu , D j ∗ ) không đổi Cov(Cu , D j ∗ ) = |Cu ∩ D j ∗ | |D j ∗ | + Mệnh đề 9: Độ phức tạp thuật tốn tính gia tăng Acc Cov loại bỏ M đối tượng O(M |U| ) Chứng minh: Khi loại bỏ đối tượng x, để kiểm tra xem x thuộc lớp tương đương điều kiện ta cần thực sm phép so sánh, để kiểm tra x thuộc lớp tương đương định ta cần sh phép so sánh Do đó, việc kiểm tra phần tử x để loại bỏ cần sm + sh phép so sánh (sm sh số lớp tương đương điều kiện số lớp tương đương định tương ứng) (1) Nếu k j ∗ Acc(Ci∗ , Dk ) = Cov(Ci∗ , Dk ) = Độ xác độ phủ luật cịn lại khơng thay đổi Do đó, độ phức tạp trường hợp phụ thuộc vào việc tính Cov(Cu , D j ∗ ) Khi đó, để xác định Cov(Cu , D j ∗ ) ta cần sm −1 phép cộng để tính tổng giá trị phần tử cột j ∗ , sm phép tính Sup(Cu , D j ∗ ) Với phép tính Sup(Cu , D j ∗ ) cần (|U|/sm ) × (|U|/sk ) phép tính sm phép chia Từ suy số phép tính cần thực sm − + sm Cập nhật ma trận Acc Cov loại bỏ x Khi loại bỏ x làm thay đổi đến dòng i ∗ đến cột j ∗ ma trận Acc Cov, thực giống việc thực trường hợp (iv) chứng minh mệnh đề Từ suy số phép tính cần thực xóa M đối tượng khối định M(sm + sh ) 2(sm + sh ) + |U| |U| |U| + sm = 2sm + − s m sk sk M(m + p + h + q) 2(m + p + h + q) + (iv) Nếu khơng hình thành lớp điều kiện mới, khơng hình thành lớp định việc thực trường hợp tương tự với việc thực đồng thời hai trường hợp Từ số phép tính cần thực |U| |U| + −2 m+p h+q Do m, h ≤ |U|, suy độ phức tạp thuật toán O(M |U| ) Mệnh đề 10: Độ phức tạp thuật toán xóa dịng/cột ma trận Acc Cov có tồn giá trị O(|U| ) |U| |U| + − sm sk Chứng minh: Với dịng ma trận Acc Cov có tồn giá trị ta cần thực h + q phép kiểm tra h+q phép xóa phần tử dịng Tiếp thực phép xóa Ci khỏi U/C hai phép gán Như ta cần thực 2(h +q)+3 phép tính để xóa dòng Trong trường hợp xấu ta cần thực (m + p)(2(h + q) + 3) phép tính để xóa hết tất m + p dịng ma trận Acc Cov Do đó, với phần tử x bổ sung trường hợp xấu ta phải thực số phép tính 2(sm + sh ) sm + sh + |U| |U| + −2 sm sk Tương tự chứng minh mệnh đề 8, ta xem sm = m + p sh = h + q, số phép tính cần thực để cập nhật ma trận Acc Cov loại bỏ M đối tượng (iii) Nếu hình thành lớp định mới, cịn số lớp điều kiện khơng đổi tương tự trường hợp (ii) ta cần thay đổi cột thành dòng: j ∗ thành i ∗ , tổng cột thành tổng dòng, Cov thành Acc Như vậy, số phép tính trường hợp 2sm + (|U| /sm ) − 2(sm + sh ) + |U| |U| + −2 m+p h+q |U| |U| + −2 sm sk Như vậy, số phép tính cần thực bổ sung N phần tử Với cột có tất phần tử ma trận Acc Cov tương tự trường hợp xấu ta cần thực (h + q)(2(m + p) + 3) phép tính để xóa hết tất h + q cột ma trận Acc Cov Do m, h ≤ |U|, suy độ phức tạp thuật toán O(|U| ) |U| |U| 2N(sm + sh ) sm + sh + + −2 sm sk Trong q trình tính tốn ma trận Acc Cov sm dần tới m + p, sh dần tới h + q, sm ≤ m + p, sh ≤ h + q nên ta coi sm = m + p, sh = h + q Từ suy số Các cơng trình nghiên cứu phát triển Công nghệ Thông tin Truyền thông IV KẾT LUẬN Đỗ Thị Lan Anh sinh năm 1988 Hà Nam Tốt nghiệp Cử nhân Tin học Đại học Sư phạm Hà Nội năm 2006 Tốt nghiệp Thạc sĩ Khoa học máy tính Đại học Sư phạm Hà Nội năm 2013 Hiện công tác Viện Công nghệ Thông tin, Trường Đại học Sư phạm Hà Nội nghiên cứu sinh tiến sỹ năm thứ tư Học viện Khoa học Công nghệ, Viện Hàn lâm Khoa học Công nghệ Việt Nam Lĩnh vực nghiên cứu bao gồm khai phá liệu sở liệu Từ thay đổi việc bổ sung loại bỏ phần tử khối định, báo phát biểu chứng minh số tính chất ma trận Acc Cov, đề xuất số thuật tốn tính gia tăng ma trận độ xác ma trận độ phủ khối định lát cắt Từ thuật toán đề xuất, độ phức tạp chúng phát biểu chứng minh Những kết nói sở để giúp tính gia tăng ma trận độ xác ma trận độ phủ khối lát cắt, từ kết tìm luật định có ý nghĩa khối lát cắt tập đối tượng khối định có thay đổi Các kết góp phần làm phong phú thêm ứng dụng lý thuyết thiết kế mơ hình sở liệu dạng khối Trịnh Đình Thắng sinh năm 1955 Hà nội Tốt nghiệp Cử nhân Toán Đại học Sư phạm Hà Nội năm 1977 Tốt nghiệp Thạc sĩ Toán học Đại học Sư phạm Hà Nội năm 1986 Tốt nghiệp Tiến sỹ Công nghệ thông tin Viện Công nghệ Thông tin, Viện Hàn lâm Khoa học Công nghệ Việt Nam Hiện công tác Viện Công nghệ Thông tin, Trường Đại học Sư phạm Hà Nội Lĩnh vực nghiên cứu bao gồm sở liệu, khai phá liệu, mạng máy tính TÀI LIỆU THAM KHẢO [1] T D Thắng and D T L Anh, “Một số thuật toán xác định ma trận độ hỗ trợ khối liệu có giá trị thuộc tính thay đổi,” in Kỷ yếu Hội thảo quốc gia lần thứ XXI: Một số vấn đề chọn lọc Công nghệ Thông tin Truyền thông, 2018, pp 216–225 [2] C C Nghĩa, “Nghiên cứu phương pháp rút gọn thuộc tính sinh luật định theo tiếp cận tập thô mờ,” Ph.D dissertation, Học viện Cơng nghệ Bưu Viễn thơng, 2017 [3] D Liu, T Li, D Ruan, and W Zou, “An incremental approach for inducing knowledge from dynamic information systems,” Fundamenta Informaticae, vol 94, no 2, pp 245–260, 2009 [4] K Shi and B Yao, “Function s-rough sets and law identification,” Science in China Series F: Information Sciences, vol 51, no 5, p 499, 2008 [5] V Putrenko, N Pashvnska, and S Nazarenko, “Data mining of network events with space-time cube application,” in 2018 IEEE Second International Conference on Data Stream Mining & Processing (DSMP), 2018, pp 79–83 [6] T D Thắng, T M Tuyến, and D T L Anh, “Khai phá luật định khối liệu có giá trị thuộc tính thay đổi,” in Kỷ yếu Hội thảo quốc gia lần thứ XIX: Một số vấn đề chọn lọc Công nghệ Thông tin Truyền thông, 2016, pp 163–169 [7] T D Thắng, T M Tuyến, D T L Anh, and N T Quyên, “Một số kết khai phá luật định khối liệu có giá trị thuộc tính thay đổi,” in Kỷ yếu Hội nghị Khoa học công nghệ quốc gia lần thứ X (FAIR), 2017, pp 623–632 [8] T D Thang and T M Tuyen, “Key and key attributes set, non-key attributes set with translation of block schemes,” International Journal of Advanced Research in Computer Science, vol 3, no 3, pp 335–339, 2012 10 ... xuất, độ phức tạp chúng phát biểu chứng minh Những kết nói sở để giúp tính gia tăng ma trận độ xác ma trận độ phủ khối lát cắt, từ kết tìm luật định có ý nghĩa khối lát cắt tập đối tượng khối định. .. vào khối định N đối tượng, kí hiệu AN loại bỏ khối M đối tượng, kí hiệu DM Khi đó, ta cần tính ma trận độ xác Acc ma trận độ phủ Cov khối lát cắt sau bổ sung loại bỏ đối tượng khối định Các kết... liệu sở liệu Từ thay đổi việc bổ sung loại bỏ phần tử khối định, báo phát biểu chứng minh số tính chất ma trận Acc Cov, đề xuất số thuật tốn tính gia tăng ma trận độ xác ma trận độ phủ khối định

Ngày đăng: 04/11/2020, 07:19

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan