NGHIÊN CỨU VÀ ỨNG DỤNG CÁC THUẬT TOÁN BICLUSTERING TRONG VIỆC KHAI PHÁ BICLUSTER TRONG DỮ LIỆU BIỂU HIỆN GIEN THEO CHUỖI THỜI GIAN DỰA TRÊN CÂY HẬU TỐ LUẬN VĂN CÔNG NGHỆ SINH HỌC
Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 72 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
72
Dung lượng
1,43 MB
Nội dung
MỞ ĐẦU Lý chọn đề tài Việc phân tích liệu biểu gien, mà cụ thể phân nhóm gien có biểu giống thời điểm thành nhóm (cluster) thực thuật toán phân cụm (clustering methods) Các thuật tốn thường tìm cách nhóm gien có biểu phụ thuộc tồn điều kiện thí nghiệm. nghiệm. Tuy nhiên, thực tế gien thường thể phụ thuộc với số điều kiện độc lập với điều kiện khác Điều dẫn đến hạn chế lớn thuật toán clustering khơng thể tìm gien thể giống số điều kiện thí nghiệm Để khắc phục hạn chế này, người ta đề xuất phương pháp phân cụm có tên biclustering (hoặc co co-clustering) -clustering) Các thuật toán biclustering tìm cách phân cụm đồng thời hàng (gien) và cột (condition) ma trận liệu biểu gien nhằm tìm ma trận thoả mãn số tiêu chí đặt ra, từ giúp hiểu thêm tiến trình sinh học gien cá thể Nhưng gần tất phương pháp tiếp cận đến heuristic khơng đảm bbảo ảo để tìm giải pháp tối ưu Trong trường hợp liệu biểu gien gien theo chuỗi thời gian, gian, mẫu sinh học thường đo theo thời điểm điểm định nhằm quan sát tiến trình sinh học xảy cá thể Vì vậy, việc tìm mẫu giống khoảng thời gian gian liên tục tục đó, đó, hình dung chúng vừa hồn thành tiến trình sinh học, giai đoạn chức sinh học đó. đó. Việc phân tích liệu liệu thể gien cho phép hiểu chế điều khiển gien tương tác chúng, tri thức sử dụng nghiên cứu chế tạo thuốc, phát khối u, nghiên cứu lâm sàng. sàng. Các mẫu liệu coi bicluster gồm hàng cột liên tục tục trong ma trận. trận. Với trường hợp hợp liệu biểu gien theo chuỗi thời gian, gian, người ta đề xuất thuật toán hiệu với thời gian chạy tuyến tính, hàm đa thức để tìm bicluster tốt Các thuật tốn khơng khai phá trực tiếp liệu gốc, mà chuẩn hóa sang dạng liệu mới, sau xây dựng các hậu hậu tố để tìm kiếm Mỗi hậu hậu tố biểu diễn ma trận liệu, việc tìm bicluster coi tìm xâu chung lớn tập xâu dựa vào hậu hậu tố Trong luận văn này, đặt mục tiêu nghiên cứu ứng dụng thuật toán việc khai phá bicluster liệu biểu gien theo chuỗi thời gian gian dựa hậu tố tố Mục đích nghiên cứu - Nghiên cứu thuật tốn biclustering biclustering cho trường hợp liệu liệu biểu gien theo theo chuỗi chuỗi thời gian (nội dung chính) chính) tốn bic biclus luster tering ing vào tập liệ liệuu biể biểuu - Áp dụng số thuật toán gien theo chuỗi thời gian cụ thể, phân tích đánh giá biclusters thu được. được. Đối tượng nghiên cứu Các lý lý thuyết thuyết cơ bản về phân hậu tố.dữ tố. liệu liệu biểu gien Các cụm theo chuỗi thời gian. gian. Giả thuyết khoa học - Việc sử dụng thuật toán biclustering cho phép tìm gien thể giống khoảng khoảng điều kiện, từ tìm gien liên quan đến số tiến trình sinh học cụ thể. thể. Nhiệm vụ nghiên cứu - Tìm hiểu số thuật tốn biclustering hiệu - Cài đặt số thuật toán v thử nghiệm với liệu thực tế tế - Phân tích tích ưu nhược nhược điểm cải tiến thuật tốn được. được. Phạm vi nghiên cứu - Các thuật toán phân cụm liệu liệu biểu gien theo chuỗi thời gian số loài. loài. Phương pháp nghiên cứu thuyết - Phương pháp đọc tài liệu, phân tích, tổng hợp lý thuyết - Phương pháp xây dựng giả thuyết thuyết - Phương pháp quan sát, thực nghiệm đối chứng. chứng. NỘI DUNG Chương I GIỚI THIỆU th eo chuỗi thời gian 1.1 Dữ liệu biểu gien theo Dữ liệu biểu biểu hiện gien biểu diễn dạng ma trận hàng tương ứng với gien cột tương ứng với thời điểm hay điều kiện thí nghiệm Mỗi ma trận chứa mức độ độ thể gien điều kiện tương ứng Tuỳ theo độ phức tạp gien, ma trận có từ vài nghìn tới vài chục nghìn nghìn dịng từ vài cột vài trăm cột. cột. Khi phân tích liệu liệu biểu gien theo chuỗi thời gian, cần tìm mẫu (bicluster) liệu gồm dịng khơng cần liên tục, cột liên tục (theo thời gian) gian) Điều dẫn đến đến giảm bớt độ độ phức tạp biến đổi đổi thuật tốn biclustering so với trường hợp tìm bicluster thông thường thường Chúng ta quan tâm đến trình sinh học diễn suốt tiến tiến trình từ khi bắt bắt đầu đến kết thúc thúc để biết biến đổi gien nhóm gien sau tiến trình sinh học Như vậy, trường hợp bicluster tập dòng (gien) tập liên tục cột (điều kiện) kiện) Như hình 1.1 minh họa trình sinh học (P1, P2 P3) tập gien khác miêu tả biclusters học b iclusters với cột liên tục tục Mục đích cuối thuật tốn tốn biclustering trường hợp tìm tìm tập biclusters Bk = (I kk , J kk ) với cột liền kề, mà bicluster B Bk tính chất chất đặc trưng riêng riêng trình sinh học định định Time G e n e s Hình 1.1 Quá trình sinh học và biclusters với cột liền kề 1.2 Các kiểu thuật toán Biclustering Mặc dù nhiều thuật toán được đề xuất để giải vấn đề chung biclustering biclustering [10], [23] phân lớp dự đoán, khai phá chuỗi theo thời gian, phân cụm cụm biết đến tầm quan trọng của việc phát mẫu cục bộ, bộ, có vài đề xuất gần giải vấn đề trường hợp cụ thể của của liệu biểu gien theo theo chuỗi thời gian gian Những phương pháp tiếp cận cận đó đó thuộc thuộc một hai nhóm thuật tốn sau: Tìm kiếm tham lam lặp lặp lại (Greedy iterative search): thuật toán CC-TSB[30] Liệt kê đầy đủ (Exhaustive enumeration): thuật toán qClustering [12], q-Subsequences [27], ts-Clustering [28], CCC-Biclustering [17] e-CCC-Biclustering [18] Những phương pháp làm việc với một một ma trận trận biểu biểu gien, nhằm hằm tìm kiếm biclusters bằng biclusters bằng cách cách xác định tập gien tập điều kiện (thời điểm) điểm) khoảng thời gian gian liên tục tục Thuật tốn CCCBiclustering [17] e-CCC-Biclustering [18] thuộc nhóm thuật tốn liệt kê đầy đủ, trình bày luận luận văn mô tả tả chi tiết ở chương 3, c ả hai th thuật uật toán toán giải toán toán theo hướng dựa vào vào ma trận biểu gien gien theo chuỗi thời gian, để tìm biclusters với mẫu biểu hiện hiện hoàn hảo và và mẫu biểu hiện xấp xỉ xỉ. Dưới xin trình bày tóm tắt ý tưởng thuật toán biclustering số tác giả đề xuất, để giải tốn tìm biclusters liệu biểu biểu gien theo theo chuỗi chuỗi thời gian. gian. 1.2.1 Thuật toán CC-TSB Zhang [30] [30] đề xuất thuật tốn CC-TSB (Time-Series Biclustering), có cải tiến tiến thuật toán heuristic Cheng and Church [4], [4], cách thêm xoá xoá phần cột tiếp giáp giáp bicluster đã xây dựng, dựng, bicluster kết có cột liền liền kề nnhau hau tốn CC-TSB có hai thủ tục là: thủ tục xóa thủ tục chèn Thuật tốn lặp lặp lại lại Kết quả quả thu thuật toán ma trận con, miêu tả bicluster Đầu Đầu tiên thuật toán toán thực hiện, ma trận xem toàn bộ ma trận biểu bộ biểu hiện gien Sau Sau loại bỏ dần hàng (gien) (gien) cột (thời điểm) từ ma trận con, với mục đích đích giảm thiểu thiểu bình phương trung bình dư dư lượng (MSR) (MSR) [4] [4] ma trận con con kết Một hàng lấy từ ma trận khác với hàng lại lại trong ma trận, đo tỷ tỷ lệ MSR Nếu tỷ lệ lớn ngưỡng thực nghiệm nghiệ m , hàng bị bị loại bỏ Cột (thời điểm đ iểm)) loại bỏ khỏi khỏi ma trận con con cũng thực hiện hiện tương tự tự như hàng Để đảm bảo bảo các thời điểm bicluster ln ln liên tục, có cột cột cuối ma trận con bị xóa Q trình xóa kết thúc MSR bicluster có kết thấp giới hạn Thao tác chèn thực hiện tương tự cho cột cột,, ngược ngược lại với thao tác xóa thao tác chèn thêm: MSR của của một hàng trong trong ma trận nhỏ hơn hơn , gien gien tương ứng với hàng chèn vào bicluster Thỏa mãn với yêu yêu cầu tiếp giáp cột, có vùng lân cận cận ma trận mới được xem xét để chèn. chèn. 1.2.2 Thuật toán q-Clustering Như thuật toán biclustering đđãã đề xuất xuất,, Ji and Tan [12] quan tâm đến việc tìm kiếm biclusters với cột liên tục, tục, được xác định bằng bằng một một mẫu biểu mẫu biểu tập ký hiệu liền kề kề bảng chữ cho trước. trước. Thuật tốn có ba giai đoạn, mơ tả tả như sau: sau: Giai đoạn 1: Chuyển ma trận trận Ma trận biểu gien gốc gốc được chuyển chuyển thành ma trận "dốc dốc", ", bằng bằng cách sử dụng bảng ba ký tự tự ∑={-1,0, 1}. Giai đoạn 2: 2: Sinh tập tập q-clusters sử dụng hàng ma trận trận “dộc dộc””, mỗi chuỗi mỗi chuỗi trình tự gồm giá trị -1, Mỗi Mỗi q-cluster chứa tập gien mẫu mẫu biểu biểu trong q thời điểm liên tục tục Để Để tìm kiếm gien có chuỗi chuỗi trình tự tự với với chiều dài (q - 1), q tham số Mỗi Mỗi qcluster có một định danh nhất, gọi q-clusterID Các q-cluster tạo sau: hàng (gi (gien) ma trận "dốc dốc", ", sử dụng dụng một khung khung trượt có độ dài (q - 1) để kiểm tra tra Khi kiểm tra chuỗi (q - 1) xác định q-clusterID cặp (GeneID, st ) đưa vào nhóm q-cluster tương ứng, ứng, GeneID tên gien gien st là vị trí trí điểm bắt đầu khung trượt (q -1) Để xác định chất lượng bicluster bicluster,, ta sử dụng giá trị MSR, đó đó nếu nếu MSR nhỏ giá trị người người dùng quy định định bicluster chất lượng tốt sẽ sẽ được giữ lại, lại, và phần và phần khác loại bỏ. bỏ Giai đoạn 3: 3: Đưa bicluster từ q-clusters xếp theo vị trí st , tất cặp cặp ( GeneID, st ) có vị trí được được nhóm lại với xác định bicluster mỗi q-cluster với tất gien cùng vị trí trí bắt bắt đầu đầu mẫu với q điều kiện kiện Các bicluster có giá trị MSR nhỏ giá trị người dùng định nghĩa có chất lượng tốt hơn. hơn. 1.2.3 Thuật toán q-Subsequences Zeng and Liu [27] [27] đề xuất cách tiếp cận biclustering cho việc phân tích khoảng thời gian cụm liệu biểu biểu gien gien,, kết hợp phương pháp q-Clustering số số ý tưởng thuật toán toán CCC-Biclustering Thực chất cách tiếp cận q-Clustering dựa hậu tố tố Tuy nhiên, lại không xét tới tới mối quan hệ hệ tác động bên mẫu mẫu xấp xấp xỉ xỉ Đầu tiên tiên ma trận trận liệu biểu gien được được chuyển đổi đổi như trong trong kỹ thuật q-Clustering Sau xây dựng hậu tố tố tổng quát cho tập chuỗi xác định định mẫu cho gien chuỗi chuỗi thời gian gian ma trận biểu hiện Mục tiêu để tìm biclusters với cột liền kề mà mẫu mẫu biểu biểu có chiều dài q khoảng thời gian gian hoạt động gien gien Để làm điều sau xây dựng dự ng hậu tố tố ban cho tập chuỗi, chuỗi, tất nút có độ sâu lớn q bị bị xóa xóa ban đầu cho bỏ Các thông tin bỏ tin nút (chứa số số lần xuất của của q-subsequence) được phân phân tích sử dụng để xác định bicluster khoảng thời gian q thời điểm Nút chia thành ba loại Một loại nút lá, gọi nút không hoạt động, đại diện cho q-subsequence mà không xuất bất kỳ kỳ chuỗi phân tích nào Một loại loại nút lá, gọi nút nút hoạt động, đại diện cho q-subsequence xuất lần chuỗi phân tích, hai loại nút tương ứng ứng với với q-subsequences như khơng đưa phân tích Loại nút cuối cùng tương ứng với q-subsequences xuất hiện hiện hai lần gien hai gien, những nút tương ứng với biclusters khoảng thời gian phân tích tích 1.2.4 Thuật tốn ts-Clustering Yin [28] đề xuất tìm cụm liên kết trong biểu biểu gien theo chuỗi thời gian gọi ts-Clusters, cho phép biểu gien gien cụm gắn kết tập khác nhau nhau điều kiện, mức độ biểu tương đối được được ưu tiên tiên thực hiện, hiện, hạn chế tác động gây nhiễu nhiễu Trong cáchh thiết lập này, cặp gien quy định nhóm có mẫu mẫu liên kết kết hoặc hoặc thời gian chuyển mẫu liên kết kết Đây Đây thuật toán phân cụm cụm dựa sở để để phát phát ts-Clusters Mơ hình ts-Cluster khai thác thời gian chuyển chuyển mẫu sau: giả sử sử tập m gien G = {g1 , g1 , , gm }, tập n thời điểm với khoảng thời gian nhất định định,, T = {t 1 , t 2 , , t n }, ma trận D= G x T trong d i,j i,j giá trị biểu gien i tại thời điểm j. Những Những giá trị khuyết khuyết thiếu ma trận “lấp đầy” đầy” bởi số ngẫu nhiên S Sau au đó, xác định Y = < t ii11 , t ii22 , , t ilil > theo trình tự thời gian nếu t ii11 < t ii22 < < t ilil chiều dài Y |Y | = l Chuỗi thờ i gian Y là L-segment nếu chiều dài |Y | (L + 1) Xét hai chuỗi chuỗi thời gian L-segment là Y P = , Y q = mà đó mối quan hệ giữa nếu nếu jjk = ik + t ’’ , với k [1, l] , t ’ ’ là số khoảng thời gian giữa giữa Y q Y P (Y q giống Y P t’ = khoảng thời hệ giữa giữa gian chuyển chuyển bằng 0) 0) Khi Y q Y p giống ta xét đến mối quan hệ chuỗi thời gian khoảng thời gian trường hợp sau: - Nếu dựa vào gien x l-segment có cách chuyển đổi là, d xi d xj giá trị biểu gien x tại thời điểm t i t j , tham số số (>0) một một ngưỡng điều chỉnh chỉnh (1) Điều chỉnh lên, lên, có nghĩa O x(t ,i t j) = , d xj - d xi > (2) Khơng điều chỉnh, chỉnh, có nghĩa O x(t ,i t j) = , d xj - d xi≥ (3) Điều chỉnh xuống, xuống, có nghĩa O x(t ,i t j) = , d xj - d xi < - - Nếu dựa vào gien x, y (n-1)-segment Y = , x y giống Ox(t ,t (i ( i1 , i2 , , in) t i j )= O y(t ((j+ j+t) ,t (k+ (k+t)) đó: j,k khoảng cách thời gian hai kiện kiện. Dựa vào vào định nghĩa: chuỗi thời gian; gian; L-segment L-segment ; tính O và xác định trên, ts-Cluster xác định sau: C U ir 1 X iY i {cxy}, X i một tập gien (Xi G) Y i tập thời điểm (Y (Yi T), X i x Y i ma trận đặc biệt của D = G x T C một ts-Cluster nếu nếu: nếu: (1) Y Y i ,Y j ,1 i, j r, |Y i| = |Y j |, (2) Y Y i ,Y j ,1 i, j r , quan hệ thời gian chuyển Y i Y j (3) g x X i , g y X j , i, j r giả giả sử t khoảng thời gian Y i đến i j )= O y(t (i+t) ,t (j+t)) Y j , t t ,i t j Y i điều kiện O x(t ,t Khi β xác xác định định tập tập tất ts-Cluster thỏa mãn mãn điều kiện giàng buộc, C β β gọi ts-Cluster cực đại đại nếu khơng có cụm C’ β β mà C’ C’ chứa C C Vấn đề giải bằng thuật tốn ts-Clustering là: tìm tất tsđại, ngưỡng ngưỡng cực đại đại được người dùng dùng quy định, tính lượng Cluster cực đại, thời điểm/lượng gien tối thiểu thiểu Thuật toán ts-C -Clustering lustering có hai bước chính: : Trước tiên tiên xây dựng một một TS-Tree -Tree ban ban đầu ("Construct Initial TS-Tree"), "), thơng tin chuyển đổi từ đổi từ ts-Clusters ban ban đầu tất ll-segments xác định Chỉ điều chỉnh chỉnh giá trị theo hai nhánh nhánh lên xuống xuống Bước Bước thứ hai phát triển triển cây ban đầu đầu để tìm tất ts-Cluster cực đại, kết hợp hợp tìm kiếm kiếm theo chiều chiều rộng rộng chiều cao đạt mint - l, tìm kiếm theo độ sâu. sâu. Mặc dù ts-Clustering khơng sử dụng dụng hướng hướng tiếp cận cận trực tiếp ma trận trận gốc,, thao tác O có thể xem bước chuyển gốc chuyển hoá từ TStree đã đã xây dựng cách sử dụng phân nhánh với hai biểu tượng lên “ ” xuống ” ” [28] 1.3 Định nghĩa toán bicluster liệu thể gien theo chuỗi thời gian. Với ma trận (n×m), thành phần giá trị thực Trong trường hợp hợp ma trận biểu biểu gien, aij miêu tả mức thể gien i điều kiện j Ví dụ bảng minh họa đây. đây. 10 4.1.2 Tập liệu CellCycle Tập dữ dữ liệu mô tả Tavazoie [26] xử lý trước trước đó bởi bởi Cheng and Church, Church, liên quan đến phản ứng hai chu kỳ tế bào Đây tập liệu bao gồm 17 điểm thời gian gian thí nghiệm 2884 gien sau loại bỏ gien hiện. hiện. Địa liệu tại: http://arep.med.harvard.edu/biclustering ập liệu CellCycle Hình 4.2 T ập 58 4.2 Kết quả thực nghiệm Cả hai thuật toán CCC-Biclustering e-CCC-Biclustering làm việc việc với ma trận với trận thể tập tập dữ liệu YeastStress tập tập dữ liệu CellCycle 4.2.1. Sử dụng thuật toán CCC-Biclustering CCC-Biclustering. Dưới tham số cụ thể thuật toán ma trận liệu, bằng phần mềm BigGesTS [2] Ở không đưa cụ thể tồn bộ cá c bicluster (vì lý độ dài liệu) mà đưa cụ thể kích thước 10 bicluster bảng sau sau Bicluster Yeaststress Tên Bicluster CellCycle Kích Số thời Khoảng Gien thước điểm thời gian Gien Kích thước Số thời điểm Khoảng thời gian Bicluster1 Bicluster2 631 1509 1262 3018 2 60-80 40-60 739 645 1478 1290 2 16-17 15-16 Bicluster3 245 735 40-80 61 183 15-17 Bicluster4 1126 3378 40-80 313 939 15-17 Bicluster5 138 414 40-80 271 813 15-17 Bicluster6 1292 2584 30-40 649 1298 14-15 Bicluster7 405 1215 30-60 59 177 14-16 Bicluster8 14 56 30-80 14-17 Bicluster9 377 1508 30-80 37 148 14-17 Bicluster10 14 56 30-80 20 80 14-17 Bảng Kết thuật toán CCC- Biclustering Biclustering với hai tập dữ liệu Biểu diễn Bicluster Với bảng liệu loài Yeast, tham số detal =0.01, thấy 10 bicluster trên tổng số 1993 bicluster tập tập liệu Yeaststress Bicluster1 bicluster xấu bicluster9 bicluster9 bicluster tốt Dựa vào danh sách bicluster, chúng tơi chọn bicluster để làm ví dụ mơ tả chi tiết hình ảnh biến thiên giá trị thành phần chúng: chúng : 59 Nhóm gien: {PHO3, YCR016w, PMP1, SWM1, CCA1, TAF6, MNT2, RPL26b, CBP1, BIR1, YNL089c, WTM2, YOR283w, FHL1 Nhóm thời điểm: điểm: {30, 40, 60, 80 } } Hình 4.3 Hình ảnh liệu biểu hiện các gien Bicluster 8 Hình 4.4 Đồ thị thể hiện liệu biểu hiện gien Bicluster 8 Với tập tập dữ liệu CellCycle Ở Ở đây không đưa cụ cụ thể toàn bicluster mà đưa cụ thể kích thước củ a 10 bicluster 60 tổng số 16186 bicluster Được thực ma trận trận đã chuẩn hóa hóa với tập ký tự bảng chữ ∑ Nhìn chung Bicluster biến thiên tương đối tập trung nhóm gien, số bicluster thể số lượng gien Bicluster 8, số lượng gien Bicluster có chênh lệch lớn Bicluster bicluster xấu bicluster bicluster tốt Dựa lớn vào danh sách bicluster, chúng tơi chọn bicluster 10 để làm ví dụ mơ tả chi tiết hình ảnh biến thiên giá trị thành phần chúng: chúng: Hình 4.5 Đồ thị biểu gien 10 Bicluster trong tập dữ liệu CellCycle Dưới chọn bicluster10 để làm ví dụ mơ tả chi tiết hình ảnh biến thiên giá trị thành phần chúng: chúng: Nhóm gồm gồm:: 20 gien điều kiện (14, 15, 16, 17) Hình 4.6 Hình ảnh thể liệu gien Bicluster 10 61 Hình 4.7 Đồ thị thể hiện liệu biểu hiện gien Bicluster 10 4.2.2. Sử dụng thuật toán e-CCC-Biclustering Trong thử nghiệm nghiệm thuật toán e-CCC-Biclustering e-CCC-Biclustering với với tập liệu Yeaststress Sau chọn lọc loại bỏ gien có liệu khuyết thiếu 25% giá trị trung bình dịng cịn lại 5150 gien Lỗi cho phép một một (e=1) coi vùng lân cận cận gồm tập chữ ∑ = {D, N, U}, thuật tốn tìm 4582 bicluster Dưới bảng danh sách 10 bicluster từ đến 10. 10. Hình 4.8 Đồ thị biểu gien 10 Bicluster trong tập dữ liệu Yeaststress 62 Dưới bảng chi tiết số liệu bicluster từ đến 10 Bicluster1 Số lượng Gien 5150 Kích thước 10300 Số thời điểm Khoảng thời gian 5-10 Bicluster2 Bicluster3 1883 497 5649 1988 5-15 5-20 Bicluster4 58 290 5-30 Bicluster5 18 5-40 Bicluster6 16 5-80 Bicluster7 28 168 5-40 Bicluster8 27 189 5-60 Bicluster9 24 5-80 Bicluster10 19 152 5-80 Tên Bảng Kết của 10 bicluster tập liệu Yeaststress Để đánh giá phù hợp sinh học e-CCC-Bic e -CCC-Biclusters lusters bộ bộ dữ liệu thực thực Chúng thử nghiệm có lỗi ( e =1) coi lỗi 1 1 vùng lân cận cận gồm gồm ký tự tự bảng chữ ∑= ∑= {D, N, U} Mục tiêu tránh khả ảnh hưởng hưởng của ngưỡn ngưỡngg lựa chọn đơn điệu chuẩn hóa hóa của của thuật tốn để tìm tất gi g ien với mẫu gắn kết kết Vậy, Vậy, lỗi giao động lỗi động D với N N với U v có có lỗi giao động D với U lỗi 4.3 Đánh giá thuật tốn biclustering Trong bảng tóm tắt thuật toán khác đề cập cập đến luận văn, đặc biệt liệu biểu biểu hiện gien theo chuỗi thời gian dựa hướng phân tích Cột thứ hai kiểu bicluster mà thuật tốn tìm được, cột thứ ba mẫu bicluster, cột thứ thứ tư cách khai phá cuối cách cách tiếp cận thuật toán. toán 63 Bảng đánh giá số thuật toán biclustering: biclustering: Kiểu bicluster Mẫu biểu hiện Khai phá Các giá trị liên kết kết Hoàn hảo/ hảo/ Xấp xỉ xỉ Một tập thời gian gian q-Clustering Tiến triển có liên kết kết Hồn hảo/ hảo/ Xấp xỉ xỉ Đồng thời thời Liệt kê bicluster tổng quát quát q-Subsequence Tiến triển có liên kết kết Hoàn hảo hảo Đồng thời thời Liệt kê bicluster tổng quát quát Các giá trị liên kết kết Hoàn hảo/ hảo/ Xấp xỉ xỉ Đồng thời thời Liệt kê bicluster tổng quát quát Tiến triển có liên kết kết Hoàn hảo hảo Đồng thời thời Liệt kê bicluster tổng qt qt Tiến triển có Hồn hảo/ hảo/ Thuật tốn CC-TSB ts-Clustering CCC-Clustering e-CCC-Clustering Đồng thời thời Cách tiếp cận Tham lam Liệt kê bicluster liên kết kết Xấp xỉ xỉ tổng quát quát Bảng 4 So sánh tổng quát thuật toán biclustering 4.4 Kết thảo luận Việc tìm kiếm bicluster tốn khó, dựa loại liệu cụ thể mà định sử dụng thuật toán cho phù hợp. hợp Đặc biệt với liệu biểu biểu hiện gien theo chuỗi thời gian, địi hỏi bicluster tìm phải nằm khoảng thời điểm liên tục, với gắn kết kết cột láng giềng. giềng. Ngoài ra, số lượng ảnh hưởng đến chất lượng bicluster tìm Với ma trận biểu biểu hiện hiện gien theo chuỗi thời gian việc xá xácc định tất biclusters b iclusters dựa hậu tố tố tổn tổngg quát đề xuất hiệu quả. quả. Với hai liệu Yeaststress CellCycle chạy thử nghiệm thuật toán CCCCCC-Biclustering, chọn chọn 10 bicluster thấy khả thể gien bicluster tương đồng, chẳng chẳ ng hạn bicluster (hình 4.4) 4.4 ) có 14 gien thời điểm liên tục tục Điều có nghĩa nghĩa nhóm gien phản ứng nhiệt có biến thiên tương đồng khoảng thời gian Ngoài ra, để tham khảo chức sinh học gien bicluster tìm được, được, chúng tơi sử dụng thông tin 64 giải gien từ liệu từ điển gien GO (Gene Ontology) GoToolBox mô tả cấu trúc gien gồm: từ điển chức phân tử (molecular function), từ điển tiến trình sinh học (boilogical processes), từ điển thành phần tế bào (cellular componets) Mỗi nút cấu trúc được gọi gọi là term đánh số nhất, có nhiều gien liên kết với term Như bicluster8 (hình 4.4) 4.4) có gien PMP1 có từ điển sinh học là: là: Gene: PMP1 Annotated GO Terms: GO:0030234 enzyme regulator activity GO:0016020 membrane GO:0006812 cation transport GO:0005886 plasma membrane GO:0016021 integral integra l to membrane Những phát triển gần đây đây của kỹ thuật DNA DNA và công nghệ nghệ hiện đại, đại, người ta đo được được mức độ biểu số lượng lớn gien g ien điều kiện kiện thực nghiệm khác nhau Phương pháp học máy khơng có giám sát được được sử dụng phân tích liệu biểu gien g ien Gần đây, biclustering cách tiếp cận khơng giám sát thực phân nhóm đồng thời kích thước gi gien điều kiện ma trận biểu gi g ien, chứng minh hiệu quả quả đáng kể loạt ứng dụng Những lợi biclustering việc khám phá mẫu mẫu cục bộ, mô tả liên kết kết chặt chẽ tập gien gien tập điều kiện kiện đã đã được nghiên cứu cứu Một kiểu đặc biệt liệu biểu gi g ien thể thể theo thời gian thu từ thí nghiệm microarray thực thời gian gian chốc lát, phương thức thức ngày phổ biến để nghiên cứu loạt các tiến trình trình sinh học phức tạp chuyên nghiệp, chẳng hạn như tiến triển triển bệnh, bệnh, tăng trưởng, phát triển, phản ứng thuốc [10] Tuy nhiên, phân tích nhà nghiên cứu thí nghiệm phải đối mặt với nhiều thách thức tính tốn Các thuật tốn thiết kế đặc biệt cho thí nghiệm riêng, yêu cầu để tận 65 dụng lợi tính độc đáo giải vấn đề Mặc dù hầu hết công thức biclustering biclustering NP-khó, làm việc với liệu liệu biểu biểu gien theo chuỗi chuỗi thời gian gian Thuật toán CCC-Biclustering thuật toán hiệu việc tìm đưa ra ra tất các các bicluster bicluster cực đại gắn kết kết cột liên tục có thời gian tuyến tính với kích thước ma trận trận thể Phương pháp chấm điểm để xếp hạng CCC-Biclusters CCCBiclusters dựa trên trên ý nghĩa nghĩa thống kê Các kết thu cách sử dụng dịch mơ hình hình hiện hiện tượng tượng xảy trong phản trong phản ứng ứng stress nhiệt, cho thấy không khả phương pháp đề xuất để trích xuất thơng tin có liên quan tương thích với kiến thức sinh học mà cịn tiện tiện ích thuật tốn Hơn nữa, thí nghiệm nghiệm chứng minh rằng việc chuẩn hóa hóa ma trận trận liệu liệu được sử dụng như như bước bước tiền xử lý lý biclustering không tác động tiêu cực đến đến ý nghĩa thống kê kết tìm CCC-Biclustering CCCBiclustering xác định mẫu biểu hoàn hảo hảo khơng thể giải hết lỗi đo lường, vốn có trong thí nghiệm microarray, lỗi chuẩn chuẩn hóa ngưỡng ngưỡng lựa chọn nghèo số số lượng ký tự, e-CCCe-CCC-Biclustering, Biclustering, thuật tốn tốn tìm mẫu biểu hiện hiện gần gần đúng thời gian đa thức với với kích thước ma trận Các kết với liệu thực cho thấy việc xét mơ hình gần xác định gien liên quan Việc xác định gien, đồng thời tham gia vào tiến tiến trình sinh học, học, đường mở cho nhà nghiên cứu, cứu , khả hiệu phương pháp đề xuất để xác định gien theo theo thống kê sinh học, học, hiển thị mẫu có liên quan phát tượng sinh học, dẫn đến chứng thuyết phục chế cụ thể. thể 66 KẾT LUẬN Sau trình tìm hiểu, nghiên cứu thực luận văn tơi tích lũy cho thêm nhiều kiến thức sinh học, toán học, kỹ thuật xử lý liệu, đặc biệt rèn luyện kỹ để thực nghiên cứu khoa học cụ thể kết sau đây: đây: Tìm hiểu số kiến thức tổng quan hậu tố, phương pháp xử lý chuỗi chuỗi hiệu quả, ưu điểm hậu tố cho phép dễ dàng thay đổi mở rộng cấu trúc có cập nhật liệu Tính chất cho phép xử lý tập liệu lớn với nhiều dạng liệu khác nhau, tiết kiệm thời gian không gian xử lý liệu. liệu Ứng dụng hậu tố để xử lý, tìm kiếm chuỗi, chuỗi , ngồi ứng dụng hậu tố Sinh học để tìm kiếm chuỗi DNA ứng dụng Hóa học để xử lý Protein Nắm kiến thức tổng quan biclustering, phương pháp hiệu khai phá liệu biểu biểu gien theo chuỗi thời gian Nội Nội dung hai thuật tốn tìm kiếm bicluster dựa hậu tố tổng quát Thuật toán CCC-Biclustering CCC-Biclustering tìm kiếm bicluster với mẫu biểu hồn hảo Mỗi bicluster tương ứng với nút hậu tố thể chuỗi (các hàng ma trận) trận) Thuật tốn e-CCC-Biclustering e-CCC-Biclustering có mối quan hệ hệ tương đồng đồng e-CCC-Biclusters cực đại với ới mẫu motifs phổ biến tập chuỗi chuỗi (strings) (strings) Việc Việc tìm kiếm tất e-CCC-Bicluster e-CCC-Bicluster cực đại chưa có thuật tốn hiệu nào được đề xuất xuất để giải quyết Song việc việc tìm kiếm kiếm mẫu motifs phổ biến biến đến có có số thuật tốn hiệu quả quả dựa kỹ thuật xử lý chuỗi đề xuất xuất Đưa ra số kết quả quả ứng dụng tập liệu thực Dựa hai thuật tốn biclustering tìm hiểu số cơng cụ có sẵn Chúng tơi 67 áp dụng dụng một số thuật toán vào hai liệu biểu biểu hiện gien theo thời gian Khi thu bicluster chúng tơi tiến hành phân tích chúng để tìm ý nghĩa sinh học liên quan. quan. Với tầm quan trọng phát mẫu Với mẫu tổng quát cho việc nghiên cứu liệu biểu gien theo chuỗi thời gian Chúng đề xuất mở rộng thuật toán CCC-Biclustering CCC-Biclustering e-CCC e-CCC Biclustering khám phá biclusters với quy mơ hơn, chất lượng hơn, thời thời gian trễ mẫu biểu hiện, xử lý giá trị khuyết thiếu thống phương pháp chấm điểm để giải biclusters với mơ hình biểu chung. chung. Trong thời gian tới, nghiên cứu cải tiến thuật toán biclustering để nâng cao cao hiệu làm việc với sở liệu biểu gien lớn Vì thuật tốn CCC-biclustering CCC-biclustering e-CCC- biclustering biclustering dựa hậu tố tốn không gian lưu trữ, đề xuất sử dụng mảng hậu tố kết hợp với phương pháp sử dụng hàm băm (hash (hash table) để khắc phục hạn chế này. này. 68 Tài liệu tham khảo [1] A.P Gasch, P T Spell man, C M Kao, O Carmel-Harel, M B Eisen, G Storz, D Botstein, and P O Brown Genomic expression programs in the response of yeast cells to environmental changes Molecular Biology of the Cell, 11: 4241 – 4257, 4257, 2000. [2] BiGGEsTS: http://kdbio.inesc-id.pt/software/biggests / [October 6, 2008] [3] CCC- Biclustering http://kdbio.inesc-id.pt/software/ccc-biclutering [October 6, 2008]. th [4] Cheng & Church Biclustering of Expression Data In proc, of the International Conference on Intelligent Systems for Molecular Biology, pages 93 – 103, 103, 2000. [5] D Gusfield Algorithms on strings, trees, and sequences Computer Science and Computational Biology Series Cambridge University Press, 1997 14:249-260, 1995 [6] E Ukkonen On-line construction of suffix trees Algorithmica, 14:249-260, [7] e-CCC- Biclustering http://kdbio.inesc-id.pt/software/e-ccc-biclutering [October 6, 2008]. [8] G J McLachlan, K Do, and C Ambroise Analysing microarray gene expression data Wiley Series in Probability and Statistics, 2004 [9] I P Androulakis, E Yang, and R R Almon Analysis of time-series gene expression data: methods, challenges, and opportunities Annual Review of Biomedical Engineering, Engineering, 9: 205 – 228, 228, 2007. [10] I Van Mechelen, H H Bock, and P De Boeck Two mode clustering methods: a structured overview Statistical Methods in Medical Research, 13(5):979 – 981, 981, 2004. [11] Inferene of Complex Motifs using Bilustering Tehniques [12] L Ji and K Tan Identifying time-lagged gene clusters using gene expression data Bioinformatics, 21(4): 21(4): 509-516, 2005 [13] L Ji and K Tan Mining gene expression data for positive and negative coregulated gene clusters. Bioinformatics, 20(16): 20(16): 2711 – 2718, 2718, 2004. [14] M.-F Sagot Spelling approximate repeated or common motifs using a suffix tree In Proc of Latin’98, pages 111– 127 127 Springer Verlag, LNCS 1380, 1998. [15] Materials and methods [16] R Peeters The maximun edege biclique problem NP-complete [17] S C Madeira and A L Oliveira A linear timeth biclustering algorithm for time series gene expression data In Proc of Workshop on Algorithms in Bioinformatics, pages pages 39 – 52 52 Springer Verlag, LNCS/LNBI 3692, 2005 [18] S C Madeira and A L Oliveira A polynomial time biclustering algorithm for finding approximate expression patterns in gene expression time series BMC Algorithms in Molecular Molecular Biology (ac (accepted cepted with chan changes), ges), 2008. 69 [19] S C Madeira and A L Oliveira An efficient biclustering algorithm for finding genes with similar patterns in time-series gene expression data In Proc of the 5th Asia Pacific Bioinformatics Conference, Series in Advances in Bioinformatics and Computational Biology, volume 5, pages 67 – 80 80 Imperial College Press, 2007. S C Madeira and A L Oliveira An evaluation of discretization methods for non[20] supervised analysis of time series gene expression data [21] S C Madeira and A L Oliveira Biclustering algorithms for biological data analysis: a survey IEEE/ACM Transactions on Computational Biology and Bioinformatics, 1(1): 1(1): 24 – 45, 45, January – March 2004. L Oliveira Efficient Biclustering Algorithms for Time Series [22] S C Madeira and A L Gene Expression Data Analysis [23] S C Madeira and A L Oliveira Identification of regulatory modules in time series gene expression data using a linear time biclustering algorithm EEE/ACM Transactions on Computational Biology and Bioinformatics, 21 Mar 2008 IEEE Computer Society Digital Library IEEE Computer Society, 24 March 2008 [24] Selnur Erdal , Ozgur Ozturk A time series analysis of microarray data [25] Stefano Lonardi Qiaofeng Yang Finding biclusters by random projections [26] S Tavazoie, J D Hughes, M J Campbell, R J Cho, and G M Church Systematic determination of genetic network architecture Nature Genetics, 22: 281 – 285, 285, 1999. [27] T Zeng and J Liu Analysis on time-lagged gene clusters in time series expression data In Proc of the 2007 IInternational nternational Conference on Computational Intelligence I ntelligence and Security, pages 181 – 185 185 IEEE Computer Society, 2007 [28] Y Yin, Y Zhao, B Zhang, and G Wang Mining time-shifting co-regulation patterns from gene expression data [29] Yeast cell cycle project http://genome-www.stanford.edu/cellcycle [30] Y Zhang, H Zha, and C H Chu A time-series biclustering algorithm for revealing th In Proc of the IEEE International Conference on co-regulated Technology: genes Information Tech nology: Coding an and d Computing, pag pages es 32 – 37, 37, 2005. 70 MỤC LỤC MỞ ĐẦU ĐẦU 1 NỘI DUNG 4 Chương I GIỚI THIỆU 4 1.1 Dữ liệu biểu gien theo chuỗi thời gian gian 4 1.2 Các kiểu thuật toán Biclustering 5 1.2.1 Thuật toán CC -TSB -TSB 6 1.2.2 Thuật toán q-Clustering 7 1.2.3 Thuật toán q-Subsequences 7 1.2.4 Thuật toán ts-Clustering 8 1.3 Định nghĩa toán bicluster liệu thể gien theo chuỗi thời gian gian 10 10 1.4 Các hướng tiếp cận để tìm bicluster liệu biểu gien theo chuỗi thời gian gian 12 1.5 Mục đích luận văn 12 1.6 Cấu trúc luận văn văn 13 Chương Ch ương II CÂY HẬU TỐ TỐ 14 2.1 Giới thiệu chung chung 14 2.2 Các Các khái niệm 14 2.3 Biểu diễn hậu tố tổng quát máy tính 17 2.4 Thuật toán dựng hậu tố tố 18 2.4.1 Dựng hậu tố ngầm ngầ m định (implicit suffix tree) 18 2.4.2 Dựng hậu tố tổng quát 23 2.5 Ứng dụng hậu tố 24 Chương III THUẬT TỐN DỰA TRÊN CÂY HẬU TỐ TỔNG QT ĐỂ TÌM KIẾM CÁC BICLUSTER TRONG DỮ LIỆU BIỂU HIỆN GIEN THEO CHUỖI THỜI GIAN GIAN 26 3.1 Thuật toán CCC-Biclustering CCC-Biclustering 26 3.1.1 Chuẩn hóa liệu biểu h iện gien 26 3.1.2 CC- Bicluster Bicluster liệu liệu biểu gien theo chuỗi thời gian gian 28 3.1.3 Tìm tất bicluster với mẫu biểu hoàn hảo 29 3.2 Thuật toán e-CCC-Biclustering e-CCC-Biclustering 39 71 3.2.1 CCC- Bicluster với mẫu biểu hiện xấp xấp xỉ 39 3.2.2 Tìm kiếm e-CCC-Bicluster với các Motif phổ biến biến 42 3.2.3 Tìm đưa ra tất e-CCC-Bicluster cực đại 47 Chương IV KẾT QUẢ THỰC NGHIỆM NGHIỆM 56 4.1 Các liệu 56 4.1.1 Tập liệu Yeaststress Yeaststress 56 4.1.2 Tập liệu CellCycle CellCycle 58 4.2 Kết thực nghiệm 59 4.2.1 Sử dụng thuật toán CCC -Biclustering -Biclustering 59 4.2.2 Sử dụng thuật toán e-CCC-Biclustering 62 4.3 Đánh giá thuật toán biclustering 63 4.4 Kết thảo luận luận 64 KẾT LUẬN 67 TÀI LIỆU THAM KHẢO KHẢO 69 72 ... bicluster liệu biểu gien theo chuỗi thời gian? ? gian? ?dựa hậu tố tố Mục đích nghiên cứu -? ?Nghiên cứu thuật toán biclustering biclustering cho trường hợp liệu liệu biểu gien theo? ? theo? ?chuỗi chuỗi ? ?thời. .. đề tốn NP-khó NP-khó [16] 27 3.1.2 CC -Bicluster CC -Bicluster liệu biểu? ?hiện gien theo chuỗi thời gian? ? Trong liệu biểu? ? biểu? ?hiện gien gien theo chuỗi thời gian, gian, khả chồng chéo các? ?biclusters... Đối tượng nghiên cứu? ? Các lý lý thuyết thuyết cơ bản về phân hậu tố .dữ tố. liệu liệu biểu gien Các cụm theo chuỗi thời gian. gian. Giả thuyết khoa học? ? - Việc sử dụng thuật toán biclustering