Trong bài báo này, chúng tôi trình bày một hướng tiếp cận mới dựa trên các thuật toán biclustering (phân cụm hai chiều) để tìm các mẫu quan trọng từ lượng lớn dữ liệu biểu hiện gen. Cụ thể, chúng tôi giới thiệu thuật toán dựa trên cây hậu tố CCC-biclustering, sau đó thực nghiệm trên hai tập dữ liệu biểu hiện gen theo thời gian.
JOURNAL OF SCIENCE OF HNUE FIT., 2013, Vol 58, pp 47-59 This paper is available online at http://stdb.hnue.edu.vn MỘT THUẬT TỐN TÌM CÁC BICLUSTERS TRONG DỮ LIỆU BIỂU HIỆN GEN THEO THỜI GIAN DỰA TRÊN CÂY HẬU TỐ Nguyễn Văn Trung1, Đỗ Văn Dư2 Trần Đăng Hưng3 Trường Cao đẳng Y tế Lạng Sơn, Trường Cao đẳng Sư phạm Nam Định Khoa Công nghệ Thông tin, Trường Đại học Sư phạm Hà Nội Email: hungtd@hnue.edu.vn Tóm tắt Phân tích liệu biểu gen theo thời gian thao tác quan trọng để tìm chức phần tử sinh học Với lượng liệu ngày nhiều, phương pháp thống kê cổ điển khơng cịn phù hợp Điều địi hỏi phải phát triển phương pháp tính tốn để phân tích hiệu nguồn liệu biểu gen Trong báo này, trình bày hướng tiếp cận dựa thuật tốn biclustering (phân cụm hai chiều) để tìm mẫu quan trọng từ lượng lớn liệu biểu gen Cụ thể, chúng tơi giới thiệu thuật tốn dựa hậu tố CCC-biclustering, sau thực nghiệm hai tập liệu biểu gen theo thời gian Kết cho thấy mẫu tìm có độ biểu tương đồng cao, từ mẫu dự đoán tiên lượng chức cho phần tử sinh học Từ khóa: Bicluster, liệu biểu gen, hậu tố, Mở Đầu Việc phân tích liệu biểu gen, mà cụ thể phân nhóm gen có biểu giống thời điểm thành cụm (cluster) thực thuật toán phân cụm (clustering) Các thuật tốn thường tìm cách nhóm gen có biểu phụ thuộc tồn điều kiện thí nghiệm Tuy nhiên, thực tế gen thường thể phụ thuộc với số điều kiện độc lập với điều kiện khác Điều dẫn đến hạn chế lớn thuật toán clustering khơng thể tìm gen thể giống số điều kiện thí nghiệm Để khắc phục hạn chế này, người ta đề xuất phương pháp phân cụm có tên biclustering Các thuật tốn biclustering tìm cách phân cụm đồng thời hàng (gene) cột (condition) ma trận liệu biểu gen nhằm tìm ma trận thoả mãn số tiêu chí đặt ra, từ giúp hiểu thêm tiến trình sinh học gen cá thể 47 Nguyễn Văn Trung, Đỗ Văn Dư, Trần Đăng Hưng Trong trường hợp liệu biểu gen theo chuỗi thời gian, mẫu sinh học thường đo theo khoảng thời gian định nhằm quan sát tiến trình sinh học xảy cá thể Vì vậy, việc tìm mẫu giống khoảng thời gian liên tục hình dung chúng vừa hồn thành tiến trình sinh học, giai đoạn chức sinh học Phân tích liệu thể gen cho phép hiểu chế điều khiển gen tương tác chúng, tri thức sử dụng nghiên cứu chế tạo thuốc, phát khối u, nghiên cứu lâm sàng Các mẫu liệu coi bicluster gồm hàng cột liên tục ma trận Với trường hợp liệu biểu gen theo chuỗi thời gian, người ta đề xuất thuật toán hiệu với thời gian chạy tuyến tính, hàm đa thức để tìm bicluster tốt Các thuật tốn khơng khai phá trực tiếp liệu gốc, mà chuẩn hóa sang dạng liệu mới, sau xây dựng hậu tố để tìm kiếm Mỗi hậu tố biểu diễn ma trận liệu, việc tìm bicluster coi tìm xâu chung lớn tập xâu dựa vào hậu tố Cây hậu tố (suffix trees) cấu trúc liệu biểu diễn hậu tố chuỗi Nó cho phép thực nhiều thuật toán hiệu liệu chuỗi ứng dụng rộng rãi nhiều lĩnh vực khác khoa học máy tính như: đối sánh mẫu, tìm xâu chung, thống kê tần suất “từ”, Trong báo này, giới thiệu thuật tốn biclustering dựa hậu tố, sau tiến hành thực nghiệm hai tập liệu sinh học khác Phân tích đánh giá kết với tri thức sinh học biết, thấy thuật tốn cho phép tìm bicluster với độ tương đồng cao, từ bicluster phát chức cho gen 2.1 Nội dung nghiên cứu Thuật toán CCC-biclustering Trong phần chúng tơi giới thiệu thuật tốn CCC-biclustering [3], thuật tốn tìm đưa tất biclusters cực đại hồn hảo Một bicluster có mẫu biểu hoàn hảo tất gen bicluster có mẫu thể khoảng thời gian liên tục Một bicluster cực đại khơng thể mở rộng gen có mẫu thời điểm sau Ý tưởng thuật tốn sử dụng kĩ thuật xử lí chuỗi dựa hậu tố, mối quan hệ tương đồng biclusters cực đại với nút hậu tố tổng quát xây dựng cho chuỗi (các hàng) đại diện mẫu thể gen ma trận liệu biểu gen 2.1.1 Chuẩn hóa liệu biểu gen Cho A′ ma trận biểu gen xác định |R| hàng |C| cột, đó, tập hàng (gen) R, tập cột (thời điểm) C Chúng ta xét mức độ thể gen 48 Một thuật tốn tìm biclusters liệu biểu gien ma trận A′ , mà phần tử tập kí tự bảng chữ Σ Sau q trình chuẩn hóa liệu từ ma trận A′ sang ma trận A, phần tử Aij ∈ Σ đại diện cho giá trị tùy thuộc vào mức độ thể gen i thời điểm j Ví dụ: (a) (b) C1 C2 C3 C4 C5 C1 C2 C3 C4 C5 G1 0.07 0.73 -0.54 0.45 0.25 G1 N U D U N G2 -0.34 0.46 -0.38 0.76 -0.44 G2 D U D U D G3 0.22 0.17 -0.11 0.44 -0.11 G3 N N N U N G4 0.70 0.71 -0.41 0.33 0.35 G4 U U D U U G5 0.70 0.17 0.70 -0.33 0.75 G5 U N U D U Quy định giá trị Aij ∈ [−0.3, 0.3] N; Aij ≤ −0.3 D; Aij ≥ 0.3 U Hình 2.1 Minh họa q trình chuẩn hóa liệu từ ma trận A′ (a) sang ma trận A (b) theo kĩ thuật sử dụng bảng chữ với ba kí tự Σ = {D, N, U} Ma trận A xác định làm ví dụ sở cho khái niệm bicluster mục tiêu thuật toán biclustering sau này, số khái niệm sử dụng thuật toán Định nghĩa 2.1 (bicluster): Một bicluster ma trận AIJ xác định I ⊆ R tập hàng J ⊆ C tập cột Một bicluster có hàng cột gọi bicluster tầm thường Định nghĩa 2.2: Một bicluster kết dính theo cột AIJ (CCC-bicluster) bicluster mà Aij = Alj với tất hàng i, l ∈ I cột j ∈ J Định nghĩa 2.3: Một bicluster kết dính theo cột liên tục AIJ = (I, J) (CCC-bicluster) tập hàng I = {i1 , , ik } tập cột láng giềng J = {r, r + 1, , s − 1, s} mà Aij = Alj , với i, l ∈ I cột j ∈ J Mỗi CCC-bicluster xác định chuỗi S phổ biến với hàng I cột J Định nghĩa 2.4: Một CCC-bicluster AIJ cực đại hàng khơng thể thêm hàng I vào xác nhận thuộc tính gắn kết định nghĩa 2.3 Định nghĩa 2.5: Một CCC-bicluster AIJ cực đại trái/phải khơng thể mở rộng mẫu biểu thức S vào trái/phải cách thêm kí tự (cột láng giềng) vào đầu/cuối bicluster mà không làm thay đổi tập hàng I Định nghĩa 2.6: Một CCC-bicluster AIJ cực đại, khơng có CCC-bicluster khác bao hàm thuộc tính AIJ , có nghĩa là, cho tất CCC-biclusters ALM , I ⊆ L ∧ J ⊆ M ⇒ I = L ∧ J = M Với định nghĩa hiểu “CCC-bicluster cực đại CCC-bicluster cực đại trái/ phải cực đại hàng” Vấn đề đặt là, cho ma trận biểu gen A, xác định tất CCC-bicluster cực 49 Nguyễn Văn Trung, Đỗ Văn Dư, Trần Đăng Hưng đại BK = AIkJk Để giải vấn đề tốn chúng tơi xin trình bày đề xuất thuật tốn sử dụng kĩ thuật xử lí chuỗi dựa hậu tố để xác định CCC-bicluster cực đại với thời gian tuyến tính 2.1.2 Tìm tất bicluster cực đại với mẫu biểu hoàn hảo - CCC-bicluster hậu tố tổng quát Ý tưởng trọng tâm thuật toán CCC-biclustering mối quan hệ tương đồng CCC-bicluster với nút hậu tố tổng quát Đầu tiên chuyển chữ ma trận A cách thêm số cột cho phần tử ma trận (thực bước tiền xử lí thuật tốn) Khi ta có bảng chữ ′ = x{1, , |C|} phần tử ′ ghép với kí tự với số khoảng {1, , |C|} Khi ta có tập chuỗi {S1 , , S|R| } thu cách áp dụng chuẩn hóa hàng AiC ma trận A sau: Hình 2.2 Minh họa trình chuẩn hóa liệu (a) ma trận A hình 2.1, (b) ma trận thể sau chuẩn hóa chữ ghép thêm thứ tự cột Chúng ta thấy CCC-biclusters cực đại ma trận gốc A mơ tả xác tương ứng với nút hậu tố tổng quát T xây dựng từ tập chuỗi {S1 , , S|R| } Sự gia tăng kích thước bảng chữ sau chuẩn hóa khơng ảnh hưởng đến việc xây dựng thao tác hậu tố tổng quát Xét nút v T theo chiều sâu ta có P (v) số cột Cho L(v) biểu thị số lượng có gốc v, trường hợp v nút Bằng cách phân tích ví dụ minh họa (Hình 2.3), dễ dàng xác định tất nút T tương ứng với CCC-bicluster cực đại hàng, cực đại phải ma trận A Vì nút v T tương ứng với chuỗi (substring) phổ biến cho hàng có gốc v Vì vậy, nút v xác định CCC-bicluster có P (v) cột, số hàng L(v) Nó với tất nút cho phép, trừ nút có nhãn cạnh đơn cuối xác định CCC-biclusters Tuy nhiên số CCC-biclusters khơng cực đại (như nút có chuỗi nhãn [D3 U4] [N5]) Một nút tương ứng với CCC-bicluster cực đại khơng có liên kết hậu tố đến từ nút có giá trị L(v) 50 Một thuật tốn tìm biclusters liệu biểu gien Như có nút với chuỗi nhãn [U1], [U4], [U4 N5], [U2 D3 U4], [N1] xác định CCC-biclusters cực đại có hai hàng Những nút tương ứng với CCC-biclusters cực đại từ nút B1 đến B6 hình 2.4(b) Hình 2.3 CCC-bicluster hậu tố tổng quát Lưu ý hàng CCC-bicluster thu nút v từ chuỗi kí tự kết thúc Giá trị P (v) kí tự chuỗi nhãn nút v cung cấp thông tin cần thiết để xác định tập cột liền kề - Tìm đưa tất CCC-bicluster thời gian tuyến tính Thuật tốn tìm đưa tất CCC-bicluster cực đại, liệu chuẩn hóa từ ma trận biểu gen A thời gian tuyến tính theo kích thước ma trận xây dựng dựa hậu tố với tập chuỗi {S1 , , S|R| } thu mô tả 51 Nguyễn Văn Trung, Đỗ Văn Dư, Trần Đăng Hưng Các nút không thỏa mãn điều kiện đánh dấu không hợp lệ “Invalid” Trường hợp ngược lại, tương ứng với nút hậu tố CCC-bicluster cực đại Thuật toán: CCC-biclustering Input: Ma trận biểu gen Output: Các CCC-biclusters Chuẩn hóa ma trận thu tập chuỗi S1, , S|R|; Xây dựng hậu tố tổng quát T cho S1, , S|R|; for each internal node v ∈ T Đánh dấu nút v hợp lệ “Valid”; Tính P(v) theo chiều sâu; for each internal node v ∈ T Tính số lượng L(v) có gốc v; for each internal node v ∈ T Nếu có liên kết từ nút v đến u L(u) = L(v) 10 Đánh dấu nút không hợp lệ (“Invalid”); 11 for each internal node v ∈ T 12 13 Nếu v đánh dấu hợp lệ Đưa CCC-bicluster tương ứng với nút v Trong thuật toán cần quan tâm đến ba vấn đề chi tiết dẫn đến hiệu thuật toán sau: Cấu trúc liệu dùng hậu tố tổng quát Chúng ta sử dụng ba kiểu nút để xây dựng hậu tố tổng quát T là: nút gốc (root), nút nút - Nút gốc (root) lưu trữ mảng gọi children với |C|| | + |R| vị trí, vị trí trỏ Mảng xếp theo thứ tự đảo ngược từ kí tự nhãn cạnh nút Đầu tiên với |C|| | vị trí lưu trữ nút có nhãn cạnh bắt đầu với ′ [|C|| |] ′ [1] Cuối |R| vị trí lưu trữ |R| chuỗi kết thúc Trong thiết lập này, children[j], j ∈ 1, , |C|| | null khơng có hậu tố chuỗi Si bắt đầu với kí tự ′ [j], nút gọi khả có nhãn cạnh bắt đầu với kí tự ′ [j] Sử dụng thứ tự đảo ngược thực tế bước chuẩn hóa bảng chữ tập số nguyên dương giá trị kết thúc đại diện số nguyên âm - Nút (internal node): Mỗi nút v lưu trữ trỏ, chiều dài P (v), số lượng L(v) đánh dấu tương ứng với CCC-bicluster cực đại không Nút thứ nút phần tử danh sách, nút tương ứng xếp đảo ngược kí tự nhãn cạnh Chèn nút xếp theo thứ tự đảo ngược kí tự nhãn cạnh gồm O(| |) phần 52 Một thuật tốn tìm biclusters liệu biểu gien tử vào danh sách tương ứng với kí tự ′ sau chèn O(|R|) kí tự kết thúc Việc tìm kiếm kí tự ′ nút nút v luôn có thời gian O(| |) Các nút anh em nút v phần tử đầu danh sách liên kết lưu trữ - Nút (leaf) lưu trữ thông tin tương tự nút Chuyển đổi bảng chữ hậu tố tổng quát Một hậu tố tổng quát xây dựng cho tập chuỗi (mảng kí tự) bảng chữ Khi phần tử khơng kí tự, chuyển đổi bảng chữ sang bảng số nguyên Trong nội dung này, tập chuỗi {S1 , , S|R| } thu cách áp dụng chuyển đổi bảng chữ cho hàng AiC ma trận A sử dụng để xây dựng hậu tố tổng quát T Trong thuật toán CCC-biclustering lúc áp dụng với mảng số nguyên, mà khơng phải mảng kí tự Mỗi phần tử ′ số nguyên thu cách ghép mã ASCII tương ứng với kí tự phạm vi {1, , |C|} Hình 2.4 kết việc chuyển đổi bảng chữ cái, áp dụng thực cho ví dụ minh họa Hình 2.1 Do đó, trường hợp = {D, N, U}, phần ′ tử thu cách ghép mã ASCII tương ứng với {68, 78, 85} số phạm vi {1, , 5} Chuyển đổi bảng chữ sử dụng trình ′ = {681, 682, 683, 684, 685; 781, 782, 783, 784, 785; 851, 852, 853, 854, 855} Hình 2.4 Minh họa sau q trình chuẩn hóa liệu cách ghép mã ASCII (a) ma trận A hình 2.1; (b) ma trận A sau chuyển đổi bảng chữ sử dụng ví dụ trên, kết thúc chuỗi i; (c) ma trận sau chuyển đổi bảng chữ dùng thao tác kĩ thuật CCC-biclusters Mỗi gen đại diện mảng số nguyên Cuối −(|R| − i + 1) sử dụng cho gen |R| = ∗ Chuỗi kết thúc tập chuỗi {S1 , , S|R| } sử dụng trình thực tập số nguyên, kí tự kết thúc sử dụng giá trị số nguyên i cho gen i Tuy nhiên, số lượng gen ma trận A lớn số nguyên bé ′ , sử dụng số nguyên tuyệt đối để đại diện cho kí tự kết thúc Như vậy, ta sử dụng số nguyên âm Để hiệu tốt ta sử dụng kí tự cuối −1 tới −|R| theo thứ tự ngược Điều có nghĩa kết thúc sử dụng cho mảng số nguyên đại diện cho gen i tính (|R| − i + 1) Trong ví dụ này, theo thuật toán CCC-biclustering thực hiện, sử dụng tập kí hiệu kết thúc {−5, −4, −3, −2, −1} cho tập gen {G1, G2, G3, G4, G5} 53 Nguyễn Văn Trung, Đỗ Văn Dư, Trần Đăng Hưng Cây hậu tố tổng quát T sau xây dựng từ mảng tập số nguyên {S1 , , S|R| } tính tốn mơ tả cách sửa đổi thuật toán Ukkonen, cho phép thời gian tuyến tính xây dựng hậu tố tổng quát với mảng số nguyên thay chuỗi Thuật tốn CCC-biclustering tìm kiếm đưa tất CCC-biclusters cực đại thời gian tuyến tính Điều có nghĩa khơng bước cần thiết để xác định CCC-biclusters cực đại chạy thời gian tuyến tính mà bước cần thiết để đưa tất CCC-biclusters cực đại xác định nút đánh dấu hợp lệ (valid) phải có thời gian tuyến tính Để đạt độ phức tạp thời gian tuyến tính, thủ tục duyệt phải thực theo chiều sâu, nút hậu tố tổng quát duyệt lần - Độ phức tạp thuật toán Với cấu trúc liệu phù hợp sử dụng thuật toán Ukkonen [6], thời gian xây dựng hậu tố tuyến tính kích thước ma trận đầu vào tính O(|R||C|) Các bước cịn lại thuật tốn CCC-biclustering tuyến tính, vịng lặp thực cách tìm kiếm theo sâu (dfs) hậu tố Kể có nút nút lá, độ phức tạp với thời gian tuyến tính thuật tốn CCC-biclustering kết khả thi Trên thực tế độ phức tạp việc dựng hậu tố phụ thuộc vào kích thước bảng chữ mà trở nên quan trọng bảng chữ đủ lớn Do đó, người ta phải đảm bảo gia tăng kích thước bảng chữ từ | | đến |C|| | lớn, việc chuyển đổi bảng chữ mô tả phần trên, không ảnh hưởng đến độ phức tạp thuật tốn Tuy nhiên, có nút trong, nút gốc (root), có số lượng nút phụ thuộc vào số lượng cột Có thể quan sát thấy hậu tố ví dụ hình 2.4 tất nút khác nút gốc có số lượng nút không ảnh hưởng số lượng cột Bởi vì, sau việc chuyển đổi bảng chữ cái, chuỗi nhãn nút tương ứng với mẫu biểu chung cho tập gen tập thời điểm liên tục, bắt đầu thời điểm cụ thể Điều dẫn đến lượng lớn nút O(| |) mà khơng phải O(|C|| |) Các nút có với nhãn cạnh kí tự kết thúc, có số nút phát triển với số lượng hàng ma trận, số lượng không phụ thuộc vào số lượng cột Việc phân nhánh gốc thực thời gian số Như theo nhận xét tổng độ phức tạp thuật toán CCC-biclustering O(|R||C|) 2.2 Thực nghiệm 2.2.1 Các tập liệu Tập liệu Yeastsress: Một tập liệu thu từ Gasch [1], đo cho 54 Một thuật tốn tìm biclusters liệu biểu gien phản ứng sốc nhiệt Tập liệu bao gồm tám thời điểm khác nhau, nhiệt độ 370 C (5, 10, 15, 20, 30, 40, 60 80 phút) Kết thu ma trận, có kích thước kí hiệu YM(5955x8), số gen 5955 số thời điểm Mỗi phần tử ma trận thể cặp (gen, thời điểm) số thực Trong số thời điểm số gen không biểu giá trị khuyết thiếu Địa liệu tại: http://genome-www.stanford.edu/yeast_stress/data.shtml Tập liệu CellCycle: Tập liệu mô tả Tavazoie [7] xử lí trước Cheng and Church [4], liên quan đến phản ứng hai chu kì tế bào Đây tập liệu bao gồm 17 điểm thời gian thí nghiệm 2884 gen sau loại bỏ gen Địa liệu tại: http://arep.med.harvard.edu/biclustering 2.2.2 Kết thực nghiệm Chúng thực nghiệm thuật toán CCC-biclustering tập liệu Dưới tham số cụ thể thuật toán ma trận liệu, phần mềm BigGesTS [2] Ở không đưa cụ thể tồn bicluster (vì lí độ dài liệu) mà đưa kích thước mười bicluster bảng sau: Bảng Kết thuật toán CCC-biclustering với hai tập liệu Bicluster Yeaststress Bicluster CellCycle Tên Kích Số thời Khoảng Kích Số thời Khoảng Gen Gen thước điểm thời gian thước điểm thời gian Bicluster1 631 1262 60-80 739 1478 16-17 Bicluster2 1509 3018 40-60 645 1290 15-16 Bicluster3 245 735 40-80 61 183 15-17 Bicluster4 1126 3378 40-80 313 939 15-17 Bicluster5 138 414 40-80 271 813 15-17 Bicluster6 1292 2584 30-40 649 1298 14-15 Bicluster7 405 1215 30-60 59 177 14-16 Bicluster8 14 56 30-80 14-17 Bicluster9 377 1508 30-80 37 148 14-17 Bicluster10 14 56 30-80 20 80 14-17 Với tập liệu loài Yeast, thấy mười bicluster tổng số 1993 bicluster tập liệu Yeaststress, Bicluster1 bicluster xấu Bicluster9 bicluster tốt Dựa vào danh sách bicluster, chúng tơi chọn Bicluster8 để làm ví dụ mơ tả chi tiết hình ảnh biến thiên giá trị thành phần chúng: Nhóm gen: {PHO3, YCR016w, PMP1, SWM1, CCA1, TAF6, MNT2, RPL26b, CBP1, BIR1, YNL089c, WTM2, YOR283w, FHL1} Nhóm thời điểm: {30, 40, 60, 80} 55 Nguyễn Văn Trung, Đỗ Văn Dư, Trần Đăng Hưng Hình 2.5 Đồ thị thể liệu biểu gen Bicluster Với tập liệu CellCycle Ở không đưa cụ thể toàn bicluster mà đưa cụ thể kích thước mười bicluster tổng số 16186 bicluster Được thực ma trận chuẩn hóa với tập kí tự bảng chữ Nhìn chung bicluster biến thiên tương đối tập trung nhóm gen, số bicluster thể số lượng gen Bicluster8, số lượng gen bicluster có chênh lệch lớn Bicluster1 bicluster xấu Bicluster5 bicluster tốt Dựa vào danh sách bicluster, chọn Bicluster10 để làm ví dụ mơ tả chi tiết hình ảnh biến thiên giá trị thành phần chúng: Hình 2.6 Đồ thị biểu gen 10 Bicluster tập liệu CellCycle Dưới chọn Bicluster10 để làm ví dụ mơ tả chi tiết hình ảnh biến thiên giá trị thành phần chúng: Nhóm gồm: 20 gen điều kiện (14, 15, 16, 17) 56 Một thuật tốn tìm biclusters liệu biểu gien Hình 2.7 Đồ thị thể liệu biểu gen Bicluster 10 2.2.3 Thảo luận Việc tìm kiếm bicluster tốn khó, dựa loại liệu cụ thể mà định sử dụng thuật toán cho phù hợp Đặc biệt với liệu biểu gen theo chuỗi thời gian, đòi hỏi bicluster tìm phải nằm khoảng thời điểm liên tục, với kết dính cột liên tục Ngoài ra, số lượng ảnh hưởng đến chất lượng bicluster tìm Với ma trận biểu gen theo chuỗi thời gian việc xác định tất bicluster dựa hậu tố tổng quát đề xuất hiệu Với hai liệu Yeaststress CellCycle chạy thử nghiệm thuật tốn CCC-biclustering, chọn mười bicluster chúng tơi thấy khả thể gen bicluster tương đồng, chẳng hạn Bicluster8 (Hình 2.5) có 14 gen thời điểm liên tục Điều có nghĩa nhóm gen phản ứng nhiệt có biến thiên tương đồng khoảng thời gian Ngoài ra, để tham khảo chức sinh học gen bicluster tìm được, chúng tơi sử dụng thông tin giải gen từ liệu từ điển gen GO (Gene Ontology) GoToolBox mô tả cấu trúc gen gồm: từ điển chức phân tử (molecular function), từ điển tiến trình sinh học (boilogical processes), từ điển thành phần tế bào (cellular componets) Mỗi nút cấu trúc gọi term đánh số nhất, có nhiều gen liên kết với term Như Bicluster8 (Hình 2.5) có gen PMP1 có từ điển sinh học là: Gene: PMP1 Annotated GO Terms: GO:0030234 enzyme regulator activity GO:0016020 membrane GO:0006812 cation transport GO:0005886 plasma membrane 57 Nguyễn Văn Trung, Đỗ Văn Dư, Trần Đăng Hưng GO:0016021 integral to membrane Những phát triển gần kĩ thuật DNA công nghệ đại, người ta đo mức độ biểu số lượng lớn gen điều kiện thực nghiệm khác Phương pháp học máy giám sát sử dụng phân tích liệu biểu gen Gần biclustering, cách tiếp cận khơng giám sát thực phân nhóm đồng thời kích thước gen điều kiện ma trận biểu gen, chứng minh hiệu đáng kể loạt ứng dụng Những lợi biclustering việc khám phá mẫu cục bộ, mô tả liên kết chặt chẽ tập gen tập điều kiện nghiên cứu Một kiểu đặc biệt liệu biểu gen thể theo thời gian thu từ thí nghiệm microarray thực thời gian chốc lát, phương thức ngày phổ biến để nghiên cứu loạt tiến trình sinh học phức tạp chuyên nghiệp, chẳng hạn tiến triển bệnh, tăng trưởng, phát triển phản ứng thuốc Tuy nhiên, phân tích nhà nghiên cứu thí nghiệm phải đối mặt với nhiều thách thức tính tốn Các thuật tốn thiết kế đặc biệt cho thí nghiệm riêng, yêu cầu để tận dụng lợi tính độc đáo giải vấn đề nhất, hầu hết công thức biclustering NP- khó làm việc với liệu biểu gen theo chuỗi thời gian Thuật toán CCC-biclustering thuật tốn hiệu việc tìm đưa tất bicluster cực đại gắn kết cột liên tục có thời gian tuyến tính với kích thước ma trận thể Phương pháp chấm điểm để xếp hạng CCC-biclusters dựa ý nghĩa thống kê Các kết thu cách sử dụng dịch mơ hình tượng xảy phản ứng stress nhiệt, cho thấy không khả phương pháp đề xuất để trích xuất thơng tin có liên quan tương thích với kiến thức sinh học mà cịn tiện ích thuật tốn Hơn nữa, thí nghiệm chứng minh việc chuẩn hóa ma trận liệu sử dụng bước tiền xử lí biclustering không tác động tiêu cực đến ý nghĩa thống kê kết tìm Việc xác định gen, đồng thời tham gia vào tiến trình sinh học, đường mở cho nhà nghiên cứu, khả hiệu phương pháp đề xuất để xác định gen theo thống kê sinh học, hiển thị mẫu có liên quan phát tượng sinh học, dẫn đến chứng thuyết phục chế cụ thể Kết luận Phân tích liệu biểu gen cách hiệu để tìm chức gen nhóm gen Dựa giả thuyết gen có mức thể giống điều kiện khả có chức giống cao Với lượng liệu biểu gen đưa ngày nhiều, yêu cầu có phương pháp 58 Một thuật tốn tìm biclusters liệu biểu gien tính tốn hiệu để tìm mẫu (pattern) đặc biệt xuất liệu Trong báo này, trình bày hướng tiếp cận để phân tích liệu biểu gen, sử dụng thuật toán biclustering dựa hậu tố Thuật tốn quy việc tìm biclusters tốn tìm chuỗi chung cực đại hậu tố Thực nghiệm liệu sinh học phân tử, thấy việc tìm biclusters có chất lượng cao giúp cho nhà sinh học tiên lượng dự đoán chức phần tử sinh học TÀI LIỆU THAM KHẢO [1] A.P Gasch, P T Spell man, C M Kao, O Carmel-Harel, M B Eisen, G Storz, D Botstein and P O Brown, 2000 Genomic expression programs in the response of yeast cells to environmental changes Molecular Biology of the Cell, Vol 11, pp 4241-4257 [2] BiGGEsTS: http://kdbio.inesc-id.pt/software/biggests/ [October 6, 2008] [3] CCC- Biclustering http://kdbio.inesc-id.pt/software/ccc-biclutering [October 6, 2008] [4] Cheng & Church, 2000 Biclustering of Expression Data In proc, of the 8th International Conference on Intelligent Systems for Molecular Biology, pp 93-103 [5] D Gusfield, 1997 Algorithms on strings, trees and sequences Computer Science and Computational Biology Series Cambridge University Press [6] E Ukkonen, 1995 On-line construction of suffix trees Algorithmica, Vol.14, pp 249-260 [7] S Tavazoie, J D Hughes, M J Campbell, R J Cho and G M Church, 1999 Systematic determination of genetic network architecture Nature Genetics, Vol 22, pp 281-285 ABSTRACT An algorithm finding biclusters from time series gene expression data based on the suffix tree Analyzing time series gene expression data is one of the important tasks to elucidate the functions of the biological elements With increasing amounts of data, the classical statistical methods are no longer suitable This creates the need to develop new computational methods for effective analysis of gene expression data sources In this paper, we present a new approach based on biclustering algorithms (two-way clustering) to find important patterns from large amounts of time series gene expression data Specifically, we first present an algorithm based on the suffix tree, namely CCC-biclustering, then carry out experiments on two data sets The results show that the found patterns contain highly similar expression and these pattern can be used to predict new functions of the biological elements 59 ... dạng liệu mới, sau xây dựng hậu tố để tìm kiếm Mỗi hậu tố biểu diễn ma trận liệu, việc tìm bicluster coi tìm xâu chung lớn tập xâu dựa vào hậu tố Cây hậu tố (suffix trees) cấu trúc liệu biểu. .. xuất liệu Trong báo này, chúng tơi trình bày hướng tiếp cận để phân tích liệu biểu gen, sử dụng thuật toán biclustering dựa hậu tố Thuật tốn quy việc tìm biclusters tốn tìm chuỗi chung cực đại hậu. .. 56 Một thuật tốn tìm biclusters liệu biểu gien Hình 2.7 Đồ thị thể liệu biểu gen Bicluster 10 2.2.3 Thảo luận Việc tìm kiếm bicluster tốn khó, dựa loại liệu cụ thể mà định sử dụng thuật toán