CC-Bicluster trong dữ liệu biểu hiện gien theo chuỗi thời gian

Một phần của tài liệu Nghiên cứu các thuật toán biclustering cho trường hợp dữ liệu biểu hiện gien theo chuỗi thời gian (Trang 28 - 29)

- Output: l(k) (2 k≤ m) các chuỗi con và độ dài của nó.

3.1.2.CC-Bicluster trong dữ liệu biểu hiện gien theo chuỗi thời gian

HIỆN GIEN THEO CHUỖI THỜI GIAN 3.1 Thuật toán CCC-Biclustering.

3.1.2.CC-Bicluster trong dữ liệu biểu hiện gien theo chuỗi thời gian

Trong dữ liệu biểu hiện gien theo chuỗi thời gian, khả năng chồng chéo các biclusters với các hàng tùy ý và các cột phải liền kề nhau. Chúng ta có một số khái niệm như sau:

Định nghĩa 3.3 (CCC-Bicluster). Một bicluster gắn kết cột láng giềng (contiguous column coherent bicluster: ccc-bicluster) AIJ = (I,J) là tập con của các hàng I={i1, ..., ik} và tập con các cột láng giềng J = {r, r+1, ..., s-1, s} mà Aij = Alj, với mỗi i, l I và các cột j J. Mỗi CCC-Bicluster xác định một chuỗi S phổ biến với mọi hàng I và cột J.

Định nghĩa 3.4 (Row-Maximal CCC-Bicluster). Một CCC-Bicluster AIJ là cực đại hàng nếu không thể thêm được bất kỳ hàng I nào vào nó và được xác nhận thuộc tính gắn kết như định nghĩa 3.3.

Định nghĩa 3.5 (Left-Maximal and Right-maximal CCC-Bicluster). Một CCC-Bicluster AIJ là cực đại trái/phải nếu chúng ta không thể mở rộng nó bởi mẫu biểu thức S vào trái/phải bằng cách thêm một ký tự (cột láng giềng) vào đầu/cuối của bicluster mà không làm thay đổi tập hàng I.

Định nghĩa 3.6 (Maximal CCC-Bicluster). Một CCC-Bicluster AIJ là cực đại, khi nó không có CCC-Bicluster nào khác bao hàm được những thuộc tính của AIJ, có nghĩa là, nếu cho tất cả các CCC-Biclusters ALM, I L J

M I = L J = M.

Với định nghĩa như vậy chúng ta có thể hiểu rằng “CCC-Bicluster cực đại là một CCC-Bicluster cực đại trái/ phải và cực đại hàng”.

Vấn đề đặt ra là, cho ma trận biểu hiện gien A, xác định tất cả các CCC-Bicluster cực đại BK=AIkJk . Để giải quyết vấn đề của bài toán đó chúng tôi xin trình bày đề xuất của thuật toán sử dụng kỹ thuật xử lý chuỗi dựa trên cây hậu tố để xác định các CCC-Bicluster cực đại với thời gian tuyến tính. Ví dụ một số bicluster cực đại có mẫu biểu hiện hoàn hảo dưới đây:

B1=({G4,G5}, {C1})

SB1=[U] B2=({G1,G2,G3,G4},{C4}) SB2=[U] B3=({G1,G3,},{C4-C5}) SB3=[U N]

B4=({G1,G2,G4},{C2-C4}) SB4=[U D U] B5=({G4,G5},{C5}) SB5=[U] B6=({G1,G3,},{C1})

SB6=[N]

Hình 3.2 Minh họa các CCC-Bicluster cực đại có mẫu biểu hiện hoàn hảo.

Thuật toán biclustering xác định tập con các hàng và tập con các cột là một tập chuỗi (là các hàng của ma trận đã chuẩn hóa). Chúng ta gọi bicluster có mẫu biểu hiện hoàn hảo nếu tất cả các gien trong bicluster có mẫu biểu hiện giống nhau trong khoảng thời gian như đã định nghĩa bicluster ở trên. Hình 3.2 thể hiện các CCC-biclusters cực đại với mẫu biểu hiện hoàn hảo, có ít nhất hai hàng trong ma trận A (hình 3.1) là tập con của các hàng và các cột. Chuỗi SB1 = [U], SB2 = [U], SB3 = [U N], SB4 = [U D N], SB5 = [U], SB6 = [N]

phù hợp với mẫu biểu hiện CCC-Biclusters cực đại khác nhau lần lượt là B1, B2, B3, B4, B5 và B6.

Một phần của tài liệu Nghiên cứu các thuật toán biclustering cho trường hợp dữ liệu biểu hiện gien theo chuỗi thời gian (Trang 28 - 29)