Khai phá không gian con để tìm ra tập phổ biến đóng FCPs

Một phần của tài liệu phương pháp khai phá dữ liệu dạng đóng và ứng dụng (Trang 38 - 45)

Để tạo ra FCPs thực sự, mỗi không gian con đƣợc khai phá độc lập. Chúng ta sử dụng D-Miner (hay splitting tree) để loại đi các ô có giá trị “0” trong cơ sở dữ liệu.

Trong phần này chúng ta cần khai phá FCP f từ không gian con Si, và loại bỏ FCP lỗi và FCP thừa. Dƣới đây là 3 trƣờng hợp FCP thừa và lỗi có thể xảy ra

tập đóng toàn cục. Trƣờng hợp này xảy ra khi tồn tại 1 hàng rxR nằm ngoài không gian Si nhƣng chứa Cf (tập các cột của f). Do vậy, ở đây phải tồn tại f‟MineFCP(Sj) và ff‟. Ví dụ, f=aa‟bb‟ đƣợc tìm ra từ không gian Si=ABCD không phải là tập đóng toàn cục. và f‟=aa‟cc‟ đƣợc tìm thấy từ Sj=GBEF là tập đóng đầy đủ. Vậy chúng ta kết luận: cho f=(Rf x Cf) MineFCP(Si), Nếu tồn tại hàng rxR và rxRi (tập các hàng của Si) và cyCf, Ox,y=1, thì f sẽ bị cắt bỏ.

Trƣờng hợp 2: tập các cột của f = (Rf x Cf)  MineFCP(Si) không là tập đóng toàn cục. Cho Si = {li1, li2,….. , liu} x Ci, ở đây Ci là tập các cột và liu là các cluster-row thuộc về Si. Cho Li1, Li2, …., Liu là tập các hàng trong dataset gốc tƣơng ứng với các cluster. Giả sử lix{ li1, li2,….. , liu} sao cho Rf  Lix = , nghĩa là tồn tại cluster-row không thuộc f. Trong trƣờng hợp này sẽ tồn tại không gian con không có cluster-row đó: Sj = ({ li1, li2,….. , liu}\lix) x Cj, CiCj. Qua đó, f‟ = (R‟ x Cf‟)  MineFCP(Sj) khi Rf=Rf‟ và Cf=Cf‟. Trƣờng hợp Cf=Cf‟ sẽ đƣợc xét trong trƣờng hợp 3 bên dƣới. Nếu Cf=Cf‟ nên đƣợc cắt giảm khi nó không đóng toàn cục trong tập các cột.

Ví dụ: f=aa‟bb‟ đƣợc tìm từ Si = ABCD không phải là tập đóng toàn cục, nếu tồn tại f‟=aa‟cc‟ có thể khai phá đƣợc từ Sj = EFGH.

Trƣờng hợp 3: fMineFCP(Si) là thừa, và fMineFCP(Sj). Theo điều kiện tiên quyết trong trƣờng hợp 2 bên trên, nếu Cf=Cf‟, thì f=f‟. Vì vậy, f là thừa và chúng ta có thể cắt bỏ. Ví dụ, f=aa‟bb‟ có thể đƣợc tìm ra trong cả 2 không gian con Si = ABCD và Sj = EFGH.

Qua 3 trƣờng hợp bên trên, chúng ta có thể đảm bảo rằng kết quả chứa tất cả các câu trả lời đúng.

Định nghĩa Compact Row Set (tập các cột liên kết với nhau): Cho 1

các không gian con liên kết với nhau Si = {li1, li2, ….., liu} x Ci, ở đây Ci là tập các cột và lix là cluster-row thuộc về Si, chúng ta định nghĩa Li1, Li2, ….., Liu là

tìm ra từ không gian con Si, chúng ta sẽ lƣợc bỏ FCPs thừa hoặc FCPs lỗi: dựa vào bổ đề 2 (bên dƣới).

Bổ đề 2: Cho ma trận O là không gian gốc. Cho S1, S2, …., St là các không gian con đƣợc sinh ra trong phần 1 của thuật toán C-Miner. Cho Si = Ri x Ci và cho f = (Rf x Cf)MineFCP(Si). Vậy f có thể cắt bỏ nếu (a) Lix Ri và RfLix=; hoặc (b) ry(R\Ri) và czCf, Oy, z = 1.

Chứng minh: Cho fMineFCP(Si). Nếu (a) Rf  (Ri\Lix). Trƣờng hợp này sẽ tồn tại không gian con khác Sj = (Ri\Lix) x Cj điều kiện CiCj, fSj. Suy ra f ‟ = Rf x Cf‟ = MineFCP(Sj). Nếu Cf=Cf‟, f=f ‟, thì f có thể đƣợc cắt bỏ (trƣờng hợp thừa); nếu Cf Cf‟, f có thể đƣợc cắt bỏ bởi vì tập các cột không đóng. Nếu (b) f‟ = R(Cf) x Cf điều kiện ryR(Cf). Từ đó ta có f = Rf x Cf 

MineFCP(Si), RfR(Cf), do vậy f có thể cắt bỏ bởi vì tập các hàng không đóng.

Bổ đề 3: Cho ma trận O là không gian gốc. Cho S1, S2, …., St là các không gian con đƣợc sinh ra trong phần 1 của thuật toán C-Miner. Cho P1, P2, …., Pt là tập các FCPs đƣợc cắt bỏ trong phần 2 của thuật toán C-Miner. Suy ra, MineFCP(Si) – Pi  MineFCP(O).

Chứng minh: giả sử fMineFCP(Si) – Pi và fMineFCP(O). Vậy fMineFCP(O), ở đây sẽ tồn tại không gian con Sj và tồn tại f ‟ = Rf‟ x Cf‟MineFCP(Sj) và f ‟MineFCP(O), và có thể tồn tại các trƣờng hợp: (1) Rf = Rf‟ và CfCf‟, hoặc (2) RfRf‟ và Cf=Cf‟. Suy ra f không bị cắt bỏ khi cả 2 điều kiện (a), (b) trong bổ đề 2 ở trên đều vi phạm. Vi phạm điều kiện (a): chỉ ra rằng LixRi, RfLix , và LjxRj, Rf‟Ljx . Vi phạm điều kiện (b) chỉ ra rằng Rf = R(Cf) và Rf‟ = R(Cf‟). Giả sử (1) Rf = Rf‟ và Cf Cf‟ là thỏa mãn. Từ Rf = Rf‟, chúng ta biết rằng Si = Sj (vi phạm điều kiện (a)). Vì Cf Cf‟, f ‟ thay thế cho f sẽ đƣợc tìm thấy trong không gian Si, mâu thuẫn với giả thiết là fMineFCP(Si) – Pi. Giả sử (2) Rf Rf‟ và Cf = Cf‟ là thỏa mãn. Từ Cf = ‟, chúng ta biết rằng R ‟) = R‟ (vi phạm điều kiện (b)), mâu

MineFCP(Si) – Pi  MineFCP(O).

Định lý: Cho ma trận O là không gian gốc. Cho S1, S2, …., St là các không gian con đƣợc sinh ra trong phần 1 của thuật toán C-Miner. Cho P1, P2, …., Pt là tập các FCPs đƣợc cắt bỏ trong phần 2 của thuật toán C-Miner. Vậy MineFCP(O) = ti1(MineFCP Si( )Pi).

Trong ví dụ của chúng ta, sau khi thực hiện xong cả 2 phần của thuật toán C-Miner ta đƣợc kết quả FCPs nhƣ bảng Bảng 2.5 bên dƣới:

Bảng 2.5 FCP (minsup=3, minle=2)

2.4. Tổng quan khai phá khối phổ biến đóng FCC trong không gian 3 chiều

Thuật toán khai phá tập phổ biến đóng FCP chỉ giới hạn trong không gian 2 chiều. Nhƣng việc khai phá các mối quan hệ của các mẫu gene theo thời gian lại có giá trị hơn. Thậm trí ngay cả trong việc phân tích thị trƣờng kinh doanh, chúng ta không chỉ có thông tin về khách hàng theo 1 chiều; mà bảng dữ liệu về các mặt hàng kinh doanh đƣợc lƣu trữ theo các vùng miền qua các thời điểm (các mùa) khác nhau. Xu hƣớng này thúc đẩy chúng ta phải mở rộng việc khai phá tập thƣờng xuyên đóng trong không gian 2 chiều thành khai phá tập thƣờng xuyên đóng trong không gian 3 chiều. Chúng ta coi tập thƣờng xuyên đóng trong không gian 3 chiều là khối đóng. Trong phần này chúng ta sẽ thiết kế thuật toán khám phá ra khối phổ biến đóng FCCs một cách hiệu quả.

thông tin hữu ích hơn trong không gian 3 chiều.

Ví dụ: xét cơ sở dữ liệu microarray. Phân tích sự kết hợp của các gene trên dựa trên FCCs có thể biểu lộ sự thể hiện của 1 gene nhƣ thế nào khi nó kết hợp với một tập các gene trong môi trƣờng xác định qua 1 giai đoạn. Qua đó chúng ta dễ dàng thấy đƣợc các gene tham gia vào một vài loại mạng gene rất phức tạp. Hơn nữa, các luật kết hợp thƣờng liên quan đến sự thể hiện đồng thời của các gene và môi trƣờng, giai đoạn của các tế bào. Luật kết hợp có thể giúp chúng ta phát hiện ra các gene ung thƣ đang ở giai đoạn nào; đặc biệt khi bệnh ung thƣ có nguyên nhân là 1 tập các gene làm việc cùng nhau thay vì 1 gene làm việc độc lập.

Ví dụ về phân tích thị trƣờng. Khi phân tích luật kết hợp dựa trên các tập đóng trong không gian 2 chiều đặc trƣng cho 1 tập hợp các mặt hàng đƣợc mua cùng nhau trong 1 tập hợp các giao dịch. Khối đóng trong không gian 3 chiều qua bảng dữ liệu lƣu trữ các mặt hàng theo thời gian và vùng miền sẽ thể hiện 1 tập các mặt hàng đƣợc mua cùng nhau trong 1 vài vùng miền qua những giai đoạn khác nhau. Thông tin này sẽ giúp cho nhà cung cấp triển khai bày bán các sản phẩm ở những địa điểm khác nhau trong suốt 1 giai đoạn nào đó, những địa điểm này khách hàng cùng có chung nhu cầu.

Trong phần này chúng ta sẽ tìm hiểu về thuật toán Representative Slice Mining (RSM) để khai phá ra khối phổ biến đóng FCCs. Ý tƣởng ở đây biến đổi cơ sở dữ liệu 3 chiều sang cơ sở dữ liệu 2 chiều, sau đó khai phá tập phổ biến đóng FCP trong không gian 2 chiều sử dụng thuật toán C-Miner đã trình bày ở trên. Cuối cùng chúng ta sẽ lƣợc bỏ các khối phổ biến nhƣng không đóng, các khối còn lại sẽ là các khối thƣờng xuyên đóng.

2.5. Mở đầu khai phá khối phổ biến đóng FCC trong không gian 3 chiều

C = {c1, c2, …., cm} là tập các cột

H = {h1, h2, ….., hl} là tập các chiều cao.

Bảng cơ sở dữ liệu 3 chiều này đƣợc đại diện bởi ma trận nhị phân l x n x m, O = H x R x C = {Ok,i,j} với k[1,l], i[1,n], j[1,m]. Mỗi ô Okij tƣơng ứng với mối quan hệ giữa chiều cao hk, hàng ri, và cột cj. Giá trị đúng “1” thể hiện mối quan hệ “giữa 2 chiều đồng thời đƣợc chứa trong chiều thứ 3 còn lại”.

Bảng 2.6 Ma trận O trong không gian 3 chiều

Bảng 2.6 cho chúng ta thấy bảng cơ sở dữ liệu nhị phân 3 chiều. Trong Bảng 2.6, chiều cao h1, và hàng r4 đều đƣợc chứa trong c3 và c5, kí hiệu: C(h1 x (adsbygoogle = window.adsbygoogle || []).push({});

c1 đều đƣợc chứa trong h1 và h3, kí hiệu: H(r2 x c1) = {h1, h3}.

Heigh support set và H-Support: Cho 1 tập các hàng R‟R và 1 tập các cột C‟C, tập các chiều cao lớn nhất đồng thời chứa R‟ và C‟ đƣợc định nghĩa là Height Support Set H(R x C) H. Tập các chiều cao trong H(R‟ x C‟) đƣợc định nghĩa là H-Support của (R‟ x C‟), Kí hiệu: |H(R‟ x C‟)|.

Ví dụ: Trong Bảng 2.6, cho R‟ = {r1, r2} và C‟ = {c1, c2, c3}, suy ra H(R‟ x C‟) = {h1, h2}, vì cả h1 và h2 đồng thời chứa {r1, r2} và {c1, c2, c3}, và không có thêm chiều cao nào đồng thời chứa R‟ và C‟ nữa.

Row Support Set và R-Support: cho 1 tập các cột C‟C và tập các chiều cao H‟H, tập lớn nhất các hàng đồng thời chứa C‟ và H‟ đƣợc định nghĩa là Row Support Set R(C‟ x H‟) R. Tập các hàng trong R(C‟ x H‟) đƣợc định nghĩa là R-Support của (C‟ x H‟), Kí hiệu |R(C‟ x H‟)|.

Ví dụ: Trong Bảng 2.6, cho C‟ = {c1, c2, c3} và H‟ = {h1, h3}, suy ra R(C‟ x H‟) = {r1, r2, r3}, vì r1, r2 và r3 đồng thời chứa {c1, c2, c3} và {h1, h3}, và không còn hàng nào chứa đồng thời C‟ và H‟.

Column Support Set và C-Support: cho 1 tập các hàng R‟R và một tập các chiều cao H‟H, tập lớn nhất các cột đồng thời chứa R‟ và H‟ đƣợc định nghĩa là Column Support Set C(R‟ x H‟) C. Số cột trong C(R‟ x H‟) đƣợc định nghĩa là C-Support của (R‟ x H‟), kí hiệu: |C(R‟ x H‟)|.

Ví dụ: Trong Bảng 2.6, cho R‟ = {r3, r4} và H‟ = {h2, h3}, suy ra C(R‟ x H‟) = {c1, c2}; vì cả c1 và c2 đồng thời chứa {r3, r4} và {h2, h3}, và không có cột nào khác đồng thời chứa R‟ và H‟.

Closed Cube (khối đóng): Cho 1 tập các hàng R‟R, tập các cột C‟C, và tập các chiều cao H‟H, một khối A = {H‟ x R‟ x C‟}O đƣợc định nghĩa là một khối đóng nếu (1) R‟ = R(C‟ x H‟); (2) C‟ = C(R‟ x H‟); và (3) H‟ = H(R‟ x C‟). Và A = {H‟ x R‟ x C‟} có thể đƣợc viết dƣới dạng A = {H‟,R‟,C‟}. Hơn

cao đóng. Một khối đóng ta thấy là 1 khối lớn nhất với tất cả các ô bên trong có giá trị “1”

Frequent Closed Cube (FCC) (Khối phổ biến đóng): Một khối A =

{H‟, R‟, C‟}O đƣợc gọi là khối phổ biến đóng nếu (1) H-Support |H(R‟ x C‟)|, R-Support|R(H‟ x C‟)|, và C-Support|C(R‟ x H‟)| đều lớn hơn các ngƣỡng: H- Support (minH), R-Support (minR), C-Support (minC); và (2) A là một khối đóng.

Ví dụ: Cho minH = minR = minC = 2, khối A = {h1, h3} x {r1, r2, r3} x {c1, c2, c3} là khối phổ biến đóng trong Bảng6. Tuy nhiên, A‟ = {h1, h3} x {r2, r3} x {c1, c2, c3} không là khối phổ biến đóng vì: {r2, r3}  R({h1, h3} x {c1, c2, c3}) = {r1, r2, r3}. Khối A‟ = {h1, h3} x {r2, r3} x {c1, c2, c3} có thể viết dƣới dạng: A‟ = (h1h3, r2r3, c1c2c3}.

Một phần của tài liệu phương pháp khai phá dữ liệu dạng đóng và ứng dụng (Trang 38 - 45)