Chuẩn hóa dữ liệu biểu hiện gien

- Output: l(k) (2 k≤ m) các chuỗi con và độ dài của nó.

HIỆN GIEN THEO CHUỖI THỜI GIAN 3.1 Thuật toán CCC-Biclustering.

3.1.1. Chuẩn hóa dữ liệu biểu hiện gien

Cho A’ là ma trận biểu hiện gien được xác định bởi |R| hàng và |C| cột, trong đó, tập các hàng (gien) R, và tập các cột (thời điểm) C. Chúng ta xét mức độ thể hiện gien trong ma trận A’, mà mỗi phần tử là tập các ký tự trong bảng chữ cái ∑. Sau quá trình chuẩn hóa dữ liệu từ ma trận A’ sang ma trận A,

mỗi phần tử Aij∈∑ đại diện cho các giá trị tùy thuộc vào mức độ thể hiện của gien i tại thời điểm j. Ví dụ:

C1 C2 C3 C4 C5 C1 C2 C3 C4 C5 G1 0.07 0.73 -0.54 0.45 0.25 G1 N U D U N G2 -0.34 0.46 -0.38 0.76 -0.44 G2 D U D U D G3 0.22 0.17 -0.11 0.44 -0.11 G3 N N N U N G4 0.70 0.71 -0.41 0.33 0.35 G4 U U D U U G5 0.70 0.17 0.70 -0.33 0.75 G5 U N U D U (a) (b)

Hình 3.1 Minh họa quá trình chuẩn hóa dữ liệu từ ma trận A’ (hình a) sang ma trận A (hình b). Theo kỹ thuật sử dụng bảng chữ cái với ba ký tự ∑ = {D, N, U} các ký tự

D qui định giảm (down - regulation), N qui định không thay đổi (no-change), U qui địnhtăng (up-regulation). Trong trường này các giá trị Aij∈ [-0.3,0.3] qui định là N; Aij≤ -0.3 tăng (up-regulation). Trong trường này các giá trị Aij∈ [-0.3,0.3] qui định là N; Aij≤ -0.3

qui định là D; và Aij≥ 0.3 qui định là U.

Ma trận A ở trên được xác định làm ví dụ cơ sở cho các khái niệm bicluster và mục tiêu của thuật toán biclustering sau này, dưới đây là một số khái niệm được sử dụng trong thuật toán.

Định nghĩa 3.1 (Bicluster). Một bicluster là một ma trận con AIJ được xác định bởi I ⊆ R là tập con các hàng và J ⊆ C là tập con các cột. Một bicluster chỉ có một hàng hoặc một cột thì gọi là bicluster tầm thường.

Mục tiêu của thuật toán biclustering là xác định một tập con các bicluster Bk= (Ik,Jk) sao cho mỗi bicluster đáp ứng các đặc tính riêng biệt. Những đặc tính đồng nhất chính xác mà một bicluster thể hiện thay đổi tùy theo cách tiếp cận [22].

Định nghĩa 3.2 (CC-Bicluster). Một bicluster gắn kết cột AIJ là bicluster mà Aij = Alj với tất cả hàng i, l ∈ I và cột j ∈ J.

Việc tìm kiếm tất cả bicluster cực đại thỏa mãn các thuộc tính gắn kết trong định nghĩa 3.2 được biết đến nay vẫn là một vấn đề của bài toán NP-khó [16].

CCC-Bicluster và cây hậu tố tổng quát

CCC-Bicluster với mẫu biểu hiện xấp xỉ