CCC-Bicluster với mẫu biểu hiện xấp xỉ

- Output: l(k) (2 k≤ m) các chuỗi con và độ dài của nó.

13. Đưa ra CCC-Bicluster tương ứng với nút v.

3.2.1. CCC-Bicluster với mẫu biểu hiện xấp xỉ

Các CCC-Biclusters định nghĩa trong phần trước được gọi là Bicluster hoàn hảo, theo nghĩa là không được phép có lỗi trong các mẫu biểu hiện S xác định CCC-Bicluster hay nói cách khác số lỗi bằng 0. Điều này có nghĩa rằng

J. Trong phần này chúng ta quan tâm đến các CCC-Biclusters với mẫu biểu hiện xấp xỉ, mà các CCC-Biclusters có một số lỗi nhất định ở mỗi gien. Một số khái niệm về e-CCC-Bicluster và liên quan như sau:

Định nghĩa 3.8 (e-Neighborhood). e-Neighborhood của một chuỗi S có chiều dài |S|, được xác định trong bảng chữ cái ∑ với |∑| ký tự, N(e, S), là tập các chuỗi Si mà: |S| = |Si| và Hamming(S, Si) ≤ e, trong đó e ≥ 0. Có nghĩa là độ sai lệch Hamming giữa S và Si là không quá e, hay nói cách khác cần ít nhất e ký tự thay thế để có được Si từ S.

Định nghĩa 3.9 (e-CCC-Bicluster). Một bicluster gắn kết cột láng giềng với

e lỗi cho mỗi gien gọi là e-CCC-Bicluster, một CCC-Bicluster AIJ mà tất cả các chuỗi Si xác định mẫu biểu hiện của mỗi gien I có trong e-Neighborhood của mẫu biểu hiện S xác định e-CCC-Bicluster: Si ∈ N(e,S), ∀i ∈ I. Một 0- CCC-Bicluster tương đương với một CCC-Bicluster.

Định nghĩa 3.10 (e-CCC-Bicluster cực đại). Một e-CCC-Bicluster AIJ là cực đại nếu nó có hàng cực đại, trái cực đại và phải cực đại. Điều này có nghĩa rằng không có các hàng hoặc các cột láng giềng nào có thể được thêm vào I hoặc J, tương ứng, duy trì thuộc tính gắn kết trong định nghĩa 3.9.

Hình 3.6 ví dụ tất cả các e-CCC-Biclusters cực đại có ít nhất ba hàng (gien) và ba cột, được thể hiện trong ma trận hình 3.3(a), có một lỗi (e = 1) cho mỗi gien. Khi lỗi cho phép, các mẫu khác nhau có thể xác định cùng một e-CCC-Bicluster.

B1=({G1,G2,G4}, {C1-C4}) SB1=[D U D U]B2=({G1,G2,G4},{C2-C4}) SB2=[D D U] B3=({G1-G4,},{C3-C5}) SB3=[D U N] SB3=[D U N]

B4=({G1-G4},{C2-C4}) SB4=[N D U] B5=({G1,G2,G4},{C2-C5})

CCC-Bicluster với mẫu biểu hiện xấp xỉ

Chuẩn hóa dữ liệu biểu hiện gien

CCC-Bicluster và cây hậu tố tổng quát