1.9.1. Định nghĩa thông qua ví dụ
Cho CSDL D={t1, t2,….. , tn} và tập các lớp C={c1, c2, ….., cm}, phân lớp là quá trình xác định ánh xạ f: D -> C sao cho mỗi ti đƣợc gán vào 1 lớp trong C.
Ví dụ: dự đoán tế bào khối u là lành hay ác. Dự đoán khi nào sông có lũ.
1.9.2. Quy trình phân lớp
Bƣớc 1: xây dựng mô hình Mô tả tập các lớp xác định trƣớc
*Tập huấn luyện: các mẫu/bộ dành cho xây dựng mô hình *Mỗi mẫu/bộ thuộc về 1 lớp đã định nghĩa trƣớc.
*Tìm luật phân lớp, cây quyết định hoặc công thức toán mô tả lớp. Bƣớc 2: Sử dụng mô hình
Phân lớp các đối tƣợng chƣa biết:
*Xác định độ chính xác của mô hình, sử dụng tập dữ liệu kiểm tra độc lập.
*Độ chính xác chấp nhận đƣợc -> áp dụng mô hình để phân lớp các mẫu/bộ chƣa xác định đƣợc nhãn lớp.
1.10. Phân cụm dữ liệu
1.10.1. Phân cụm là gì?
Phân cụm dữ liệu là quá trình gom các đối tƣợng thành các cụm có ý nghĩa. Các đối tƣợng trong cùng 1 cụm có nhiều tính chất chung và có những tính chất khác với các đối tƣợng ở cụm khác.
Cho CSDL D={t1, t2, ….., tn} và số nguyên k, phân cụm là bài toán xác định ánh xạ f: D -> {1,….., k} sao cho mỗi ti đƣợc gán vào 1 cụm kj, 1<= j <=k.
Không giống bài toán phân lớp, các cụm không đƣợc biết trƣớc.
1.10.2. Phân biệt phân lớp và phân cụm
* Phân lớp: học có giám sát
Tìm phƣơng pháp để dự đoán lớp của mẫu mới từ các mẫu đã gán nhãn lớp (phân lớp) trƣớc.
*Phân cụm: học không có giám sát
Hình 1.3 Minh họa phân cụm dữ liệu
1.10.3. Ứng dụng phân cụm
Trong xử lý ảnh (phân đoạn ảnh, rút gọn độ phân giải của ảnh). Phân cụm các tài liệu liên quan để dễ tìm kiếm.
Khoa học kinh tế (đặc biệt nghiên cứu tiếp thị). Phân cụm các gene và protein có cùng chức năng. Phân cụm các vùng theo lƣợng mƣa
1.10.4. Ví dụ
Hình 1.4 Phân cụm các điểm trong không gian
CHIỀU VÀ KHAI PHÁ KHỐI ĐÓNG TRONG KHÔNG GIAN 3 CHIỀU 2.1. Tổng quan khai phá tập phổ biến đóng FCP trong không gian 2 chiều
Trong phần này chúng ta sẽ giải quyết vấn đề khai phá tập phổ biến đóng (FCPs) từ bảng dữ liệu kết hợp trong không gian 2 chiều. Bảng cơ sở dữ liệu microarray thực tế thƣờng có xấp xỉ 50% các ô nhận giá trị là “1”, các ô còn lại nhận giá trị “0”.
Chúng ta sử dụng Framework, nó cho phép chúng ta khai phá tập phổ biến đóng (FCPs) từ cơ sở dữ liệu đặc một cách hiệu quả. Frame work gồm 2 phần. Phần 1, không gian khai phá đƣợc chia thành các không gian con nhỏ hơn, và mỗi không gian con đều có thể khai phá độc lập. Trong phần 2, mỗi không gian con đƣợc khai phá độc lập để trả về các tập phổ biến đóng. Nhiệm vụ chủ yếu trong phần này là lƣợc bỏ các tập FCPs thừa (là những tập đóng có thể đƣợc tạo ra từ không gian con khác) và FCPs lỗi (là những tập phổ biến đóng trong không gian con nhƣng không là tập phổ biến đóng trong không gian gốc).
2.2. Mở đầu khai phá tập phổ biến đóng FCP trong không gian 2 chiều
Chúng ta sẽ định nghĩa một vài kí hiệu sử dụng trong bài.
Cho R={r1, r2,….., rn} là 1 tập các hàng, và C={c1, c2, …., cn} là 1 tập các cột. Trong bảng cơ sở dữ liệu, mỗi hàng ri chứa 1 tập các cột, và mỗi cột ci chứa 1 tập các hàng. Và chúng ta sẽ sẽ thể hiện cơ sở dữ liệu bởi 1 bảng ma trận nhị phân O = n x m, các ô Oi,j tƣơng ứng với mối quan hệ giữa hàng i và cột j; nếu Oi,j = 1 thì hàng i chứa cột j, và ngƣợc lại Oi,j = 0 thì hàng i không chứa cột j. Trong Bảng 2.1, r3 chứa c2 và c6, kí hiệu: C(r3) = {c2, c6}; và c7 chứa r5 và r6, kí hiệu: R(c7) = {r5, r6}.
Định nghĩa:
Column support set R(C’): cho 1 tập các cột C‟ C, tập lớn nhất các hàng chứa C‟ đƣợc gọi là column support set R(C‟) R.
Ví dụ: trong bảng 2.1, cho C‟ = {c1, c4}, ta có R(C‟) = {r4, r5, r6}, r4, r5 và r6 cùng chứa c1 và c4, và không còn hàng nào cùng chứa cả c1 và c4 nữa.
Row support set C(R’): cho 1 tập các hàng R‟ R, tập lớn nhất các cột chứa R‟ đƣợc gọi là row support set C(R‟) C.
Ví dụ: trong bảng 2.1, cho R‟ = {r1, r2}, ta có C(R‟) = {c1, c6}, c1 và c6 cùng chứa r1 và r2, và không tồn tại cột nào khác cùng chứa cả 2 hàng này.
Support |R(C’)|: cho 1 tập các cột C‟, tổng số hàng trong dataset chứa C‟
đƣợc gọi là support của C‟, kí hiệu |R(C‟)|.
Closed Patterns (CP): cho 1 tập các cột C‟C đƣợc gọi là khối đóng (CP) nếu không tồn tại C‟‟ thỏa mãn: C‟C‟‟ và |R(C‟)|=|R(C‟)|.
Frequent closed pattern (FCP): tập các cột C‟ C đƣợc gọi là tập phổ biến đóng nếu: (1) support của tập C‟ lớn hơn ngƣỡng support nhỏ nhất; và (2) C‟ là tập đóng.
Ví dụ: cho minsup=1, tập các cột { c1, c5, c6} sẽ là tập phổ biến đóng trong bảng 2.1 khi support lớn hơn ngƣỡng minsup. Tuy nhiên {c2, c3} không là
có |R({c1, c2, c3})| = |R({c2, c3})|.
Pattern length: cho một tập phổ biến đóng, số cột chứa tập đóng đƣợc gọi là pattern length, kí hiệu: len.
Ví dụ: cho tập phổ biến đóng FCP = {c1, c2, c3}, ta có len = 3.
FCP Mining: ta có 1 bảng dataset O, vấn đề của chúng ta là tìm các tập
phổ biến đóng FCPs với ngƣỡng minsup, minlen của ngƣời sử dụng.
2.3. Tiến hành khai phá tập phổ biến đóng FCP
2.3.1. Sơ lược về quá trình khai phá tập phổ biến đóng
Cho ma trận O là dataset gốc đƣợc khai phá. Chúng ta coi O nhƣ là không gian gốc. Cho MineFCP(M) là tập các tập phổ biến đóng (FCPs) đƣợc khai phá từ không gian M. Ý tƣởng cơ bản của framework gồm 2 phần là: tạo ra các không gian con, và khai phá các không gian con.
chia thành các ma trận con (không gian con) S1, S2, S3,….., St; t1
Kí hiệu: MineFCP(O) = 1 ( ) t i MineFCP Si
Các không gian con đƣợc chia nhỏ từ không gian gốc ban đầu, giúp chúng ta khai phá FCPs độc lập một cách hiệu quả hơn.
Phần 2, là phần khai phá các không gian con, mỗi không gian con đƣợc khai
phá để tìm ra FCPs một cách độc lập. Tuy nhiên, các FCPs đƣợc khai phá từ không gian con có thể chứa các mẫu không thỏa mãn. Có 2 trƣờng hợp xảy ra: (1) FCPs đƣợc khai phá từ không gian con có thể chứa false drops – tức là mẫu là FCP của không gian con, nhƣng không phải là FCP của không gian gốc ban đầu; (2) FCPS đƣợc khai phá từ không gian con có thể bị thừa, tức là FCP tìm đƣợc trong không gian con đang xét có thể khai phá đƣợc từ không gian con khác. (MineFCP(Si) Mine FCP(Sj) ).
Kĩ thuật lƣợc bớt các mẫu không thỏa mãn phải đƣợc triển khai để lƣợc bỏ các mẫu không đóng trên toàn bộ không gian gốc, và mẫu thừa (redundant FCPs). Vậy các kết quả trả về sẽ là câu trả lời chính xác.
2.3.2. Thuật toán C-Miner
Trong phần này, chúng ta sẽ tìm hiểu thuật toán C-Miner dựa vào liệt kê các hàng kết hợp (dựa vào các giá trị “1” của từng hàng).
2.3.2.1. Thuật toán phân cụm (thuật toán increamental k-mean)
Nhƣ chúng ta biết, thuật toán k-mean bắt đầu bằng cách chọn k cụm và chọn ngẫu nhiên k điểm là trung tâm của cụm, hoặc chọn phân hoạch ngẫu nhiên k cụm và tính trọng tâm của từng cụm này. Việc chọn ngẫu nhiên k điểm làm trung tâm của cụm nhƣ đã nói ở trên có thể cho ra k kết quả khác nhau tùy vào cách chọn k điểm ban đầu. Thuật toán increamental k-mean về cơ bản vẫn dựa trên thuật toán k-mean nhƣng sẽ không chọn k điểm làm trọng tâm cho k cụm,
độ méo dạng lớn nhất và tính lại trọng tâm các cụm.
Thuật toán đƣợc trình bày nhƣ sau:
Gán k=1;
Phase 1:
Bƣớc 1: Nếu k=1 chọn bất kì một điểm làm trung tâm cụm.
Nếu k>1 thêm trung tâm của cụm mới vào cụm có độ méo dạng lớn nhất
Bƣớc 2: Gán từng điểm vào cụm có trung tâm gần điểm đang xét nhất và cập nhật lại trung tâm của cụm.
Bƣớc 3: Nếu trung tâm cụm không thay đổi, thực hiện tiếp phase-2. Nếu không, thực hiện phase 1 bƣớc 2.
Phase 2: (Tăng số cụm)
Nếu k<=giá trị ấn định số cụm (do ngƣời dùng nhập vào), thực hiện phase 1 bƣớc 1.
Nếu không, Dừng lại.
Các bƣớc của thuật toán gần giống nhƣ thuật toán k-means, tuy nhiên có điểm khác biệt đó là thuật toán cần phải tính độ biến dạng của các cụm. Dựa trên độ biến dạng để chia cụm.
Tính độ biến dạng:
I=S – N(d(d(w,x)) W: trung tâm của cụm N: số objects trong cụm.
D(w,x): khoảng cách giữa trung tâm w của cụm và trung tâm của không gian euclidean x.
Một cụm có độ biến dạng lớn có nghĩa là trung tâm cụm có trị trí không thích hợp. Việc xác định các cụm đồng nghĩa với việc xác định trung tâm của cụm. Thuật toán chủ yếu tìm trung tâm cụm chính xác và xác định lại các đối tƣợng trong cụm.
Phase 1 của thuật toán k-means chỉ khác thuật toán increament k-mean ở chỗ: không xác định trƣớc k điểm mà tăng k từ 1 lên.
Điểm khác biệt thứ 2 là chọn cụm có độ biến dạng lớn để phân thành 2 cụm.
Khi ta phân 1 cụm có độ biến dạng lớn thành 2 cụm thì độ biến dạng của 2 cụm sẽ giảm. Tính lại các đối tƣợng objects cho các cụm và cập nhật lại trung tâm cụm. Sau khi trung tâm các cụm không đổi, ta qua phase và tăng k lên 1 và quay lại phase 1. Tìm cụm có độ biến dạng lớn nhất trong các cụm và tiếp tục tách cụm thành 2 cụm mới.
Thuật toán ngừng khi k bằng số cụm cần tìm.
2.3.2.2 Quá trình chia không gian khai phá
Quá trình chia không gian khai phá trong thuật toán C-Miner bao gồm 3 bƣớc:
Bƣớc 1, các hàng tƣơng tự nhau trong dataset gốc (matrix nhị phân O)
đƣợc nhóm lại cùng nhau bằng cách phân cụm. Thuật toán phân cụm có thể áp dụng ở đây. Thuật toán phân cụm sẽ thực hiện chia đôi k-1 lần. Mỗi lần lặp (hoặc đệ qui) sẽ có 1 ma trận đƣợc chia thành 2 nhóm, sau đó 1 trong những nhóm còn lại sẽ đƣợc lựa chọn và chia đôi tiếp. Quá trình sử lý tiếp tục cho đến khi tìm đủ số cụm mong muốn. Phƣơng pháp phân cụm dựa trên hàm lọc
1 ,
i u v Ri
, Ri là tập các hàng đƣợc gán cho cụm thứ i; v và u đại diện cho 2 hàng u, v; và sim(u,v) là các hàng tƣơng tự nhau. Cụm đƣợc lựa chọn để chia nhỏ hơn đƣợc kiểm soát bởi hàm lọc trên. (sim(u,v): đối tƣợng u và đối tƣợng v có tính chất tƣơng tự nhau).
Bƣớc 2, Các hàng trong cùng 1 cụm đƣợc kết hợp với nhau tạo thành 1 hàng
kết hợp mới, gọi là cluster-row. Cho G={r1,r2,…., rq} là tập các hàng nằm trong cụm tƣơng ứng D. Cụm này có thể đƣợc thể hiện bởi ma trận D = q x m. cluster- row của D: L = {l1, l2, …., lm}, đƣợc kết hợp theo luật lj = q1 ij
i d
, j=1, 2, 3,..
m. Giá trị của các ô trong cluster-row bằng “0” khi ô đó đƣợc kết hợp bởi tất cả các ô có giá trị bằng “0”; trƣờng hợp còn lại nó sẽ nhận giá trị bằng “1”. Sau khi phân cụm, từ ma trận O ban đầu ta tạo ra đƣợc ma trận mới O‟ = l x m, l là số các cụm và l n.
Ví dụ: từ ma trận O ban đầu, sau khi phân cụm ta đƣợc ma trận mới O‟ nhƣ sau:
Bảng 2.2 Ma trận rút gọn O’
Bƣớc 3, thuật toán C-Miner đƣợc áp dụng để liệt kê ra hàng đặc dựa vào
ma trận O‟ đặc để chia không gian O thành các không gian con. Trong thuật toán C-Miner, độ quan trọng (the weight) của mỗi cluster-row đƣợc đo bằng tổng số các hàng tạo nên nó. Vì vậy, trong suốt quá trình liệt kê cluster-row, hệ số support của không gian con đƣợc chỉ ra bởi tổng số weight của các cluster- rows tƣơng ứng. Chúng ta chỉ ra các không gian con đƣợc sinh ra trong bƣớc này (dựa trên O‟) gọi là compact subspace (CS). Trong khi thuật toán liệt kê các
hoặc các ô có giá trị “0” của hàng. Chúng ta sử dụng chiến lƣợc chia cây theo chiều sâu (depth-first tree splitting), nó làm việc hiệu quả trong bảng dữ liệu đặc.
Bảng 2.3 Lát cắt
Bảng 2.4 Kết quả các không gian rút gọn và không gian con (minsup=3, minlen=2)
Cách tạo ra các cutter: chúng ta nhóm tất cả các ô có giá trị “0” trong mỗi cluster-row lại, và định nghĩa mỗi group là 1 cutter C(X,Y) với XL và YC. Vì vậy, tổng số các cutter bằng tổng số hàng có chứa ít nhất 1 ô có giá trị “0”. Trong cutter C(X,Y), liX, và cjY, O‟i,j = 0 và ck(C\Y), O‟i,k= 1. Trong Bảng 2.3 là 3 cutter đƣợc tạo ra từ matrix O‟ trong Bảng 2.2.
Quá trình splitting cây có sử dụng ma trận O‟(X,Y) toàn vẹn (coi ma trận O‟ là gốc) và lặp để splitting O‟ sử dụng các cutter, và kết quả là tất cả các ô trong mỗi không gian con (CS) đều có giá trị bằng “1”. Một cutter C(X,Y) đƣợc sử dụng để cắt một node (L‟,C‟) nếu XL‟ . Chúng ta định nghĩa con bên trái của node là (L‟\X, C‟) và con bên phải của node là (L‟,C‟\Y). Kết quả tạo ra các CSs thể hiện đầy đủ các cluster-rows đáp ứng đƣợc các ràng buộc support và pattern length. Chỉ những node không đáp ứng đƣợc minsup và minlen bị loại bỏ. Vậy, những thông tin không có giá trị cho việc khai phá FCP sẽ bị loại
tổng các weight của các cluster-rows.
Cho minsup=3 và minlen=2. Ta sẽ có các CSs đƣợc tạo ra nhƣ sau:
Hình 2.2 Cây phân chia sử dụng lát cắt.
Để các cutter làm việc hiệu quả, thì chúng ta sẽ áp dụng các cutters có nhiều ô có giá trị “0” trƣớc. Nhƣ vậy kết quả sẽ tạo ra cây ngắn hơn (và quá trình xử lý sẽ hiệu quả hơn).
Cuối cùng, với mỗi không gian con (CS), từ các cluster-rows của nó chúng ta sẽ tìm ra các hàng gốc. Những hàng trong O gốc này có thể có ô chứa giá trị “0”. Bây giờ, mỗi không gian con có thể khai phá độc lập để tìm ra các FCPs của không gian gốc. Ví dụ: không gian con chúng ta tìm đƣợc trong Bảng 4 cột 2 đến cột 5.
Bổ đề 1:
Cho không gian gốc O. Các không gian con đƣợc tạo ra theo phần 1 của thuật toán C-Miner, giả sử là S1, S2, ……, Sn, t1. Thì
MineFCP(O) ( )
t
MineFCP Si
Chúng ta thấy mọi FCP có thể khai phá từ O thì cũng có thể khai phá từ không gian con. Một FCP bất kì thuộc O, đƣợc biểu diễn: A = {r1, r2, ……….., ru} x {c1, c2, ……., cv}, riR và cjC. Rõ ràng với i,j thì Oi,j = 1. Cho các cluster C1, C2, ……, Cq chứa các hàng r1, r2,…., ru; q<u. Cho l1, l2, …., lq là các cluster-rows thuộc cluster tƣơng ứng. Sau khi giản lƣợc các ô có giá trị “0” chúng ta đƣợc O‟(li,cj) =1. Do đó, bằng cách liệt kê các cluster-row trong O‟, không gian A‟ = { l1, l2, …., lq} x { c1, c2, ……., cv , cv+1, ……., cm } đƣợc tạo ra. Chúng ta liệt kê đầy đủ các cluster-rows sử dụng splitting-tree, và chỉ các không gian không thỏa mãn bị lƣợc bỏ. Sau đó từ A‟ ta tìm đƣợc A‟‟ = {r1, r1‟, r1‟‟, ….., ru, ru‟} x {c1, …., cv, cv+1, …., cm}, r1, r1‟, r1‟‟ là các hàng thuộc cluster 1. Rõ ràng AA‟‟, Vậy A = {r1, r2, ……….., ru} x {c1, c2, ……., cv} là FCP, nó sẽ đƣợc tìm ra bởi phần 2 của thuật toán C-Miner từ không gian A‟‟ = {r1, r1‟, r1‟‟, ….., ru, ru‟} x {c1, …., cv, cv+1, …., cm}. Vậy bổ đề 1 luôn đúng.
2.3.2.3. Khai phá không gian con để tìm ra tập phổ biến đóng FCPs
Để tạo ra FCPs thực sự, mỗi không gian con đƣợc khai phá độc lập.