Nghiên cứu các thuật toán biclustering cho trường hợp dữ liệu biểu hiện gien theo chuỗi thời gian

71 830 2
Nghiên cứu các thuật toán biclustering cho trường hợp dữ liệu biểu hiện gien theo chuỗi thời gian

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MỞ ĐẦU Lý chọn đề tài Việc phân tích liệu biểu gien, mà cụ thể phân nhóm gien có biểu giống thời điểm thành nhóm (cluster) thực thuật toán phân cụm (clustering methods) Các thuật toán thường tìm cách nhóm gien có biểu phụ thuộc toàn điều kiện thí nghiệm Tuy nhiên, thực tế gien thường thể phụ thuộc với số điều kiện độc lập với điều kiện khác Điều dẫn đến hạn chế lớn thuật toán clustering tìm gien thể giống số điều kiện thí nghiệm Để khắc phục hạn chế này, người ta đề xuất phương pháp phân cụm có tên biclustering (hoặc co-clustering) Các thuật toán biclustering tìm cách phân cụm đồng thời hàng (gien) cột (condition) ma trận liệu biểu gien nhằm tìm ma trận thoả mãn số tiêu chí đặt ra, từ giúp hiểu thêm tiến trình sinh học gien cá thể Nhưng gần tất phương pháp tiếp cận đến heuristic không đảm bảo để tìm giải pháp tối ưu Trong trường hợp liệu biểu gien theo chuỗi thời gian, mẫu sinh học thường đo theo thời điểm định nhằm quan sát tiến trình sinh học xảy cá thể Vì vậy, việc tìm mẫu giống khoảng thời gian liên tục đó, hình dung chúng vừa hoàn thành tiến trình sinh học, giai đoạn chức sinh học Việc phân tích liệu thể gien cho phép hiểu chế điều khiển gien tương tác chúng, tri thức sử dụng nghiên cứu chế tạo thuốc, phát khối u, nghiên cứu lâm sàng Các mẫu liệu coi bicluster gồm hàng cột liên tục ma trận Với trường hợp liệu biểu gien theo chuỗi thời gian, người ta đề xuất thuật toán hiệu với thời gian chạy tuyến tính, hàm đa thức để tìm bicluster tốt Các thuật toán không khai phá trực tiếp liệu gốc, mà chuẩn hóa sang dạng liệu mới, sau xây dựng hậu tố để tìm kiếm Mỗi hậu tố biểu diễn ma trận liệu, việc tìm bicluster coi tìm xâu chung lớn tập xâu dựa vào hậu tố Trong luận văn này, đặt mục tiêu nghiên cứu ứng dụng thuật toán việc khai phá bicluster liệu biểu gien theo chuỗi thời gian dựa hậu tố Mục đích nghiên cứu - Nghiên cứu thuật toán biclustering cho trường hợp liệu biểu gien theo chuỗi thời gian (nội dung chính) - Áp dụng số thuật toán biclustering vào tập liệu biểu gien theo chuỗi thời gian cụ thể, phân tích đánh giá biclusters thu Đối tượng nghiên cứu - Các lý thuyết hậu tố - Các lý thuyết phân cụm liệu liệu biểu gien theo chuỗi thời gian Giả thuyết khoa học - Việc sử dụng thuật toán biclustering cho phép tìm gien thể giống khoảng điều kiện, từ tìm gien liên quan đến số tiến trình sinh học cụ thể Nhiệm vụ nghiên cứu - Tìm hiểu số thuật toán biclustering hiệu - Cài đặt số thuật toán thử nghiệm với liệu thực tế - Phân tích ưu nhược điểm cải tiến thuật toán Phạm vi nghiên cứu - Các thuật toán phân cụm liệu liệu biểu gien theo chuỗi thời gian số loài Phương pháp nghiên cứu - Phương pháp đọc tài liệu, phân tích, tổng hợp lý thuyết - Phương pháp xây dựng giả thuyết - Phương pháp quan sát, thực nghiệm đối chứng NỘI DUNG Chương I GIỚI THIỆU 1.1 Dữ liệu biểu gien theo chuỗi thời gian Dữ liệu biểu gien biểu diễn dạng ma trận hàng tương ứng với gien cột tương ứng với thời điểm hay điều kiện thí nghiệm Mỗi ô ma trận chứa mức độ thể gien điều kiện tương ứng Tuỳ theo độ phức tạp gien, ma trận có từ vài nghìn tới vài chục nghìn dòng từ vài cột vài trăm cột Khi phân tích liệu biểu gien theo chuỗi thời gian, cần tìm mẫu (bicluster) liệu gồm dòng không cần liên tục, cột liên tục (theo thời gian) Điều dẫn đến giảm bớt độ phức tạp biến đổi thuật toán biclustering so với trường hợp tìm bicluster thông thường Chúng ta quan tâm đến trình sinh học diễn suốt tiến trình từ bắt đầu đến kết thúc để biết biến đổi gien nhóm gien sau tiến trình sinh học Như vậy, trường hợp bicluster tập dòng (gien) tập liên tục cột (điều kiện) Như hình 1.1 minh họa trình sinh học (P1, P2 P3) tập gien khác miêu tả biclusters với cột liên tục Mục đích cuối thuật toán biclustering trường hợp tìm tập biclusters Bk = (Ik, Jk) với cột liền kề, mà bicluster Bk tính chất đặc trưng riêng trình sinh học định Time Ge nes Hình 1.1 Quá trình sinh học biclusters với cột liền kề 1.2 Các kiểu thuật toán Biclustering Mặc dù nhiều thuật toán đề xuất để giải vấn đề chung biclustering [10], [23] phân lớp dự đoán, khai phá chuỗi theo thời gian, phân cụm biết đến tầm quan trọng việc phát mẫu cục bộ, có vài đề xuất gần giải vấn đề trường hợp cụ thể liệu biểu gien theo chuỗi thời gian Những phương pháp tiếp cận thuộc hai nhóm thuật toán sau: Tìm kiếm tham lam lặp lặp lại (Greedy iterative search): thuật toán CC-TSB[30] Liệt kê đầy đủ (Exhaustive enumeration): thuật toán qClustering [12], q-Subsequences [27], ts-Clustering [28], CCC-Biclustering [17] e-CCC-Biclustering [18] Những phương pháp làm việc với ma trận biểu gien, nhằm tìm kiếm biclusters cách xác định tập gien tập điều kiện (thời điểm) khoảng thời gian liên tục Thuật toán CCCBiclustering [17] e-CCC-Biclustering [18] thuộc nhóm thuật toán liệt kê đầy đủ, trình bày luận văn mô tả chi tiết chương 3, hai thuật toán giải toán theo hướng dựa vào ma trận biểu gien theo chuỗi thời gian, để tìm biclusters với mẫu biểu hoàn hảo mẫu biểu xấp xỉ Dưới xin trình bày tóm tắt ý tưởng thuật toán biclustering số tác giả đề xuất, để giải toán tìm biclusters liệu biểu gien theo chuỗi thời gian 1.2.1 Thuật toán CC-TSB Zhang [30] đề xuất thuật toán CC-TSB (Time-Series Biclustering), có cải tiến thuật toán heuristic Cheng and Church [4], cách thêm xoá phần cột tiếp giáp bicluster xây dựng, bicluster kết có cột liền kề Thuật toán CC-TSB có hai thủ tục là: thủ tục xóa thủ tục chèn lặp lặp lại Kết thu thuật toán ma trận con, miêu tả bicluster Đầu tiên thuật toán thực hiện, ma trận xem toàn ma trận biểu gien Sau loại bỏ dần hàng (gien) cột (thời điểm) từ ma trận con, với mục đích giảm thiểu bình phương trung bình dư lượng (MSR) [4] ma trận kết Một hàng lấy từ ma trận khác với hàng lại ma trận, đo tỷ lệ MSR Nếu tỷ lệ lớn ngưỡng thực nghiệm α, hàng bị loại bỏ Cột (thời điểm) loại bỏ khỏi ma trận thực tương tự hàng Để đảm bảo thời điểm bicluster luôn liên tục, có cột cột cuối ma trận bị xóa Quá trình xóa kết thúc MSR bicluster có kết thấp giới hạn δ Thao tác chèn thực tương tự cho cột, ngược lại với thao tác xóa thao tác chèn thêm: MSR hàng ma trận nhỏ α, gien tương ứng với hàng chèn vào bicluster Thỏa mãn với yêu cầu tiếp giáp cột, có vùng lân cận ma trận xem xét để chèn 1.2.2 Thuật toán q-Clustering Như thuật toán biclustering đề xuất, Ji and Tan [12] quan tâm đến việc tìm kiếm biclusters với cột liên tục, xác định mẫu biểu tập ký hiệu liền kề bảng chữ cho trước Thuật toán có ba giai đoạn, mô tả sau: Giai đoạn 1: Chuyển ma trận Ma trận biểu gien gốc chuyển thành ma trận "dốc", cách sử dụng bảng ba ký tự ∑={-1,0, 1} Giai đoạn 2: Sinh tập q-clusters sử dụng hàng ma trận “dộc”, chuỗi trình tự gồm giá trị -1, Mỗi q-cluster chứa tập gien mẫu biểu q thời điểm liên tục Để tìm kiếm gien có chuỗi trình tự với chiều dài (q - 1), q tham số Mỗi qcluster có định danh nhất, gọi q-clusterID Các q-cluster tạo sau: hàng (gien) ma trận "dốc", sử dụng khung trượt có độ dài (q - 1) để kiểm tra Khi kiểm tra chuỗi (q - 1) xác định q-clusterID cặp (GeneID, st) đưa vào nhóm q-cluster tương ứng, GeneID tên gien st vị trí điểm bắt đầu khung trượt (q -1) Để xác định chất lượng bicluster, ta sử dụng giá trị MSR, MSR nhỏ giá trị người dùng quy định bicluster chất lượng tốt giữ lại, phần khác loại bỏ Giai đoạn 3: Đưa bicluster từ q-clusters xếp theo vị trí st, tất cặp (GeneID, st) có vị trí nhóm lại với xác định bicluster q-cluster với tất gien vị trí bắt đầu mẫu với q điều kiện Các bicluster có giá trị MSR nhỏ giá trị người dùng định nghĩa có chất lượng tốt 1.2.3 Thuật toán q-Subsequences Zeng and Liu [27] đề xuất cách tiếp cận biclustering cho việc phân tích khoảng thời gian cụm liệu biểu gien, kết hợp phương pháp q-Clustering số ý tưởng thuật toán CCC-Biclustering Thực chất cách tiếp cận q-Clustering dựa hậu tố Tuy nhiên, lại không xét tới mối quan hệ tác động bên mẫu xấp xỉ Đầu tiên ma trận liệu biểu gien chuyển đổi kỹ thuật q-Clustering Sau xây dựng hậu tố tổng quát cho tập chuỗi xác định mẫu cho gien chuỗi thời gian ma trận biểu Mục tiêu để tìm biclusters với cột liền kề mà mẫu biểu có chiều dài q khoảng thời gian hoạt động gien Để làm điều sau xây dựng hậu tố ban đầu cho tập chuỗi, tất nút có độ sâu lớn q bị xóa bỏ Các thông tin nút (chứa số lần xuất q-subsequence) phân tích sử dụng để xác định bicluster khoảng thời gian q thời điểm Nút chia thành ba loại Một loại nút lá, gọi nút không hoạt động, đại diện cho q-subsequence mà không xuất chuỗi phân tích Một loại nút lá, gọi nút hoạt động, đại diện cho q-subsequence xuất lần chuỗi phân tích, hai loại nút tương ứng với q-subsequences không đưa phân tích Loại nút cuối tương ứng với q-subsequences xuất hai lần gien hai gien, nút tương ứng với biclusters khoảng thời gian phân tích 1.2.4 Thuật toán ts-Clustering Yin [28] đề xuất tìm cụm liên kết biểu gien theo chuỗi thời gian gọi ts-Clusters, cho phép biểu gien cụm gắn kết tập khác điều kiện, mức độ biểu tương đối ưu tiên thực hiện, hạn chế tác động gây nhiễu Trong cách thiết lập này, cặp gien quy định nhóm có mẫu liên kết thời gian chuyển mẫu liên kết Đây thuật toán phân cụm dựa sở để phát ts-Clusters Mô hình ts-Cluster khai thác thời gian chuyển mẫu sau: giả sử tập m gien G = {g1, g1, , gm}, tập n thời điểm với khoảng thời gian định, T = {t1, t2, , tn}, ma trận D= G x T di,j giá trị biểu gien i thời điểm j Những giá trị khuyết thiếu ma trận “lấp đầy” số ngẫu nhiên Sau đó, xác định Y = < ti1, ti2, , til > theo trình tự thời gian ti1 < ti2 < < til chiều dài Y |Y | = l Chuỗi thời gian Y L-segment chiều dài |Y | (L + 1) Xét hai chuỗi thời gian L-segment YP = , Yq = mà til < tjl, mối quan hệ thời gian chuyển YP Yq jk = ik + t’, với k ∈ [1, l], t’ số khoảng thời gian Yq YP (Yq giống YP t’= khoảng thời gian chuyển 0) Khi Yq Yp giống ta xét đến mối quan hệ chuỗi thời gian khoảng thời gian trường hợp sau: - Nếu dựa vào gien x l-segment có cách chuyển đổi là, dxi dxj giá trị biểu gien x thời điểm ti tj , tham số δ (>0) ngưỡng điều chỉnh (1) Điều chỉnh lên, có nghĩa Ox(ti, tj) = ↑, dxj - dxi > δ (2) Không điều chỉnh, có nghĩa Ox(ti, tj) = →, dxj - dxi≥ δ (3) Điều chỉnh xuống, có nghĩa Ox(ti, tj) = ↓, dxj - dxi < -δ - Nếu dựa vào gien x, y (n-1)-segment Y = , x y giống Ox(ti,tj )= Oy(t(j+∆t),t(k+∆t)) đó: j,k∈(i1, i2, , in) ∆t khoảng cách thời gian hai kiện Dựa vào định nghĩa: chuỗi thời gian; L-segment; tính O xác định trên, ts-Cluster xác định sau: C = U ir=1 = X iYi = {c xy } , Xi tập gien (Xi ⊆ G) Yi tập thời điểm (Yi ⊆ T), Xi x Yi ma trận đặc biệt D = G x T C ts-Cluster nếu: (1) ∀Yi ,Yj,1 ≤ i, j ≤ r, |Yi| = |Yj |, (2) ∀Yi ,Yj,1 ≤ i, j ≤ r , quan hệ thời gian chuyển Yi Yj (3) ∀gx∈ Xi , ∀gy∈ Xj , ≤ i, j ≤ r giả sử ∆t khoảng thời gian Yi đến Yj, ∀ti, tj ∈ Yi điều kiện Ox(ti,tj )= Oy(t(i+∆t),t(j+∆t)) Khi β xác định tập tất ts-Cluster thỏa mãn điều kiện giàng buộc, C ∈ β gọi ts-Cluster cực đại cụm C’ ∈ β mà C’ chứa C Vấn đề giải thuật toán ts-Clustering là: tìm tất tsCluster cực đại, ngưỡng cực đại người dùng quy định, tính lượng thời điểm/lượng gien tối thiểu Thuật toán ts-Clustering có hai bước chính: Trước tiên xây dựng TS-Tree ban đầu ("Construct Initial TS-Tree"), thông tin chuyển đổi từ ts-Clusters ban đầu tất l-segments xác định Chỉ điều chỉnh giá trị theo hai nhánh lên xuống Bước thứ hai phát triển ban đầu để tìm tất ts-Cluster cực đại, kết hợp tìm kiếm theo chiều rộng chiều cao đạt mint - l, tìm kiếm theo độ sâu Mặc dù ts-Clustering không sử dụng hướng tiếp cận trực tiếp ma trận gốc, thao tác O xem bước chuyển hoá từ TStree xây dựng cách sử dụng phân nhánh với hai biểu tượng lên “↑” xuống ”↓” [28] 1.3 Định nghĩa toán bicluster liệu thể gien theo chuỗi thời gian Với ma trận (n×m), thành phần giá trị thực Trong trường hợp ma trận biểu gien, aij miêu tả mức thể gien i điều kiện j Ví dụ bảng minh họa 10 Địa liệu tại: http://genome-www.stanford.edu/yeast_stress/data.shtml Hình 4.1 Tập liệu Yeaststress 57 4.1.2 Tập liệu CellCycle Tập liệu mô tả Tavazoie [26] xử lý trước Cheng and Church, liên quan đến phản ứng hai chu kỳ tế bào Đây tập liệu bao gồm 17 điểm thời gian thí nghiệm 2884 gien sau loại bỏ gien Địa liệu tại: http://arep.med.harvard.edu/biclustering Hình 4.2 Tập liệu CellCycle 58 4.2 Kết thực nghiệm Cả hai thuật toán CCC-Biclustering e-CCC-Biclustering làm việc với ma trận thể tập liệu YeastStress tập liệu CellCycle 4.2.1 Sử dụng thuật toán CCC-Biclustering Dưới tham số cụ thể thuật toán ma trận liệu, phần mềm BigGesTS [2] Ở không đưa cụ thể toàn bicluster (vì lý độ dài liệu) mà đưa cụ thể kích thước 10 bicluster bảng sau Bicluster Yeaststress Tên Bicluster CellCycle Bicluster1 631 Kích thướ c 1262 Bicluster2 1509 3018 40-60 645 1290 15-16 Bicluster3 245 735 40-80 61 183 15-17 Bicluster4 1126 3378 40-80 313 939 15-17 Bicluster5 138 414 40-80 271 813 15-17 Bicluster6 1292 2584 30-40 649 1298 14-15 Bicluster7 405 1215 30-60 59 177 14-16 Bicluster8 14 56 30-80 14-17 Bicluster9 377 1508 30-80 37 148 14-17 Bicluster1 14 56 30-80 20 80 14-17 Gien Số thời điểm Khoảng thời gian Gien Kích thước Số thời điểm Khoảng thời gian 60-80 739 1478 16-17 Bảng Kết thuật toán CCC-Biclustering với hai tập liệu Biểu diễn Bicluster Với bảng liệu loài Yeast, tham số detal =0.01, thấy 10 bicluster tổng số 1993 bicluster tập liệu Yeaststress Bicluster1 bicluster xấu bicluster9 bicluster tốt Dựa vào danh sách bicluster, chọn bicluster để làm ví dụ mô tả chi tiết hình ảnh biến thiên giá trị thành phần chúng: 59 Nhóm gien: {PHO3, YCR016w, PMP1, SWM1, CCA1, TAF6, MNT2, RPL26b, CBP1, BIR1, YNL089c, WTM2, YOR283w, FHL1} Nhóm thời điểm: {30, 40, 60, 80} Hình 4.3 Hình ảnh liệu biểu gien Bicluster Hình 4.4 Đồ thị thể liệu biểu gien Bicluster Với tập liệu CellCycle Ở không đưa cụ thể toàn bicluster mà đưa cụ thể kích thước 10 bicluster 60 tổng số 16186 bicluster Được thực ma trận chuẩn hóa với tập ký tự bảng chữ ∑ Nhìn chung Bicluster biến thiên tương đối tập trung nhóm gien, số bicluster thể số lượng gien Bicluster 8, số lượng gien Bicluster có chênh lệch lớn Bicluster bicluster xấu bicluster bicluster tốt Dựa vào danh sách bicluster, chọn bicluster 10 để làm ví dụ mô tả chi tiết hình ảnh biến thiên giá trị thành phần chúng: Hình 4.5 Đồ thị biểu gien 10 Bicluster tập liệu CellCycle Dưới chọn bicluster10 để làm ví dụ mô tả chi tiết hình ảnh biến thiên giá trị thành phần chúng: Nhóm gồm: 20 gien điều kiện (14, 15, 16, 17) Hình 4.6 Hình ảnh thể liệu gien Bicluster 10 61 Hình 4.7 Đồ thị thể liệu biểu gien Bicluster 10 4.2.2 Sử dụng thuật toán e-CCC-Biclustering Trong thử nghiệm thuật toán e-CCC-Biclustering với tập liệu Yeaststress Sau chọn lọc loại bỏ gien có liệu khuyết thiếu 25% giá trị trung bình dòng lại 5150 gien Lỗi cho phép (e=1) coi vùng lân cận gồm tập chữ ∑ = {D, N, U}, thuật toán tìm 4582 bicluster Dưới bảng danh sách 10 bicluster từ đến 10 Hình 4.8 Đồ thị biểu gien 10 Bicluster tập liệu Yeaststress 62 Dưới bảng chi tiết số liệu bicluster từ đến 10 Số lượng Gien Kích thước Số thời điểm Khoảng thời gian Bicluster1 5150 10300 5-10 Bicluster2 1883 5649 5-15 Bicluster3 497 1988 5-20 Bicluster4 58 290 5-30 Bicluster5 18 5-40 Bicluster6 16 5-80 Bicluster7 28 168 5-40 Bicluster8 27 189 5-60 Bicluster9 24 5-80 Bicluster10 19 152 5-80 Tên Bảng Kết 10 bicluster tập liệu Yeaststress Để đánh giá phù hợp sinh học e-CCC-Biclusters liệu thực Chúng thử nghiệm có lỗi (e =1) coi lỗi vùng lân cận gồm ký tự bảng chữ ∑= {D, N, U} Mục tiêu tránh khả ảnh hưởng ngưỡng lựa chọn đơn điệu chuẩn hóa thuật toán để tìm tất gien với mẫu gắn kết Vậy, lỗi giao động D với N N với U có lỗi giao động D với U 4.3 Đánh giá thuật toán biclustering Trong bảng tóm tắt thuật toán khác đề cập đến luận văn, đặc biệt liệu biểu gien theo chuỗi thời gian dựa hướng phân tích Cột thứ hai kiểu bicluster mà thuật toán tìm được, cột thứ ba mẫu bicluster, cột thứ tư cách khai phá cuối cách tiếp cận thuật toán 63 Bảng đánh giá số thuật toán biclustering: Kiểu bicluster Mẫu biểu Khai phá Các giá trị liên kết Hoàn hảo/ Xấp xỉ Một tập thời gian q-Clustering Tiến triển có liên kết Hoàn hảo/ Xấp xỉ Đồng thời Liệt kê bicluster tổng quát q-Subsequence Tiến triển có liên kết Hoàn hảo Đồng thời Liệt kê bicluster tổng quát Các giá trị liên kết Hoàn hảo/ Xấp xỉ Đồng thời Liệt kê bicluster tổng quát CCC-Clustering Tiến triển có liên kết Hoàn hảo Đồng thời Liệt kê bicluster tổng quát e-CCC-Clustering Tiến triển có liên kết Hoàn hảo/ Xấp xỉ Đồng thời Liệt kê bicluster tổng quát Thuật toán CC-TSB ts-Clustering Cách tiếp cận Tham lam Bảng So sánh tổng quát thuật toán biclustering 4.4 Kết thảo luận Việc tìm kiếm bicluster toán khó, dựa loại liệu cụ thể mà định sử dụng thuật toán cho phù hợp Đặc biệt với liệu biểu gien theo chuỗi thời gian, đòi hỏi bicluster tìm phải nằm khoảng thời điểm liên tục, với gắn kết cột láng giềng Ngoài ra, số lượng ảnh hưởng đến chất lượng bicluster tìm Với ma trận biểu gien theo chuỗi thời gian việc xác định tất biclusters dựa hậu tố tổng quát đề xuất hiệu Với hai liệu Yeaststress CellCycle chạy thử nghiệm thuật toán CCC-Biclustering, chọn 10 bicluster thấy khả thể gien bicluster tương đồng, chẳng hạn bicluster (hình 4.4) có 14 gien thời điểm liên tục Điều có nghĩa nhóm gien phản ứng nhiệt có biến thiên tương đồng khoảng thời gian Ngoài ra, để tham khảo chức sinh học gien bicluster tìm được, sử dụng thông tin 64 giải gien từ liệu từ điển gien GO (Gene Ontology) GoToolBox mô tả cấu trúc gien gồm: từ điển chức phân tử (molecular function), từ điển tiến trình sinh học (boilogical processes), từ điển thành phần tế bào (cellular componets) Mỗi nút cấu trúc gọi term đánh số nhất, có nhiều gien liên kết với term Như bicluster8 (hình 4.4) có gien PMP1 có từ điển sinh học là: Gene: PMP1 Annotated GO Terms: GO:0030234 enzyme regulator activity GO:0016020 membrane GO:0006812 cation transport GO:0005886 plasma membrane GO:0016021 integral to membrane Những phát triển gần kỹ thuật DNA công nghệ đại, người ta đo mức độ biểu số lượng lớn gien điều kiện thực nghiệm khác Phương pháp học máy giám sát sử dụng phân tích liệu biểu gien Gần đây, biclustering cách tiếp cận không giám sát thực phân nhóm đồng thời kích thước gien điều kiện ma trận biểu gien, chứng minh hiệu đáng kể loạt ứng dụng Những lợi biclustering việc khám phá mẫu cục bộ, mô tả liên kết chặt chẽ tập gien tập điều kiện nghiên cứu Một kiểu đặc biệt liệu biểu gien thể theo thời gian thu từ thí nghiệm microarray thực thời gian chốc lát, phương thức ngày phổ biến để nghiên cứu loạt tiến trình sinh học phức tạp chuyên nghiệp, chẳng hạn tiến triển bệnh, tăng trưởng, phát triển, phản ứng thuốc [10] Tuy nhiên, phân tích nhà nghiên cứu thí nghiệm phải đối mặt với nhiều thách thức tính toán Các thuật toán thiết kế đặc biệt cho thí nghiệm riêng, yêu cầu để tận 65 dụng lợi tính độc đáo giải vấn đề Mặc dù hầu hết công thức biclustering NP-khó, làm việc với liệu biểu gien theo chuỗi thời gian Thuật toán CCC-Biclustering thuật toán hiệu việc tìm đưa tất bicluster cực đại gắn kết cột liên tục có thời gian tuyến tính với kích thước ma trận thể Phương pháp chấm điểm để xếp hạng CCC-Biclusters dựa ý nghĩa thống kê Các kết thu cách sử dụng dịch mô hình tượng xảy phản ứng stress nhiệt, cho thấy không khả phương pháp đề xuất để trích xuất thông tin có liên quan tương thích với kiến thức sinh học mà tiện ích thuật toán Hơn nữa, thí nghiệm chứng minh việc chuẩn hóa ma trận liệu sử dụng bước tiền xử lý biclustering không tác động tiêu cực đến ý nghĩa thống kê kết tìm CCC-Biclustering xác định mẫu biểu hoàn hảo giải hết lỗi đo lường, vốn có thí nghiệm microarray, lỗi chuẩn hóa ngưỡng lựa chọn nghèo số lượng ký tự, e-CCC-Biclustering, thuật toán tìm mẫu biểu gần thời gian đa thức với kích thước ma trận Các kết với liệu thực cho thấy việc xét mô hình gần xác định gien liên quan Việc xác định gien, đồng thời tham gia vào tiến trình sinh học, đường mở cho nhà nghiên cứu, khả hiệu phương pháp đề xuất để xác định gien theo thống kê sinh học, hiển thị mẫu có liên quan phát tượng sinh học, dẫn đến chứng thuyết phục chế cụ thể 66 KẾT LUẬN Sau trình tìm hiểu, nghiên cứu thực luận văn tích lũy cho thêm nhiều kiến thức sinh học, toán học, kỹ thuật xử lý liệu, đặc biệt rèn luyện kỹ để thực nghiên cứu khoa học cụ thể kết sau đây: Tìm hiểu số kiến thức tổng quan hậu tố, phương pháp xử lý chuỗi hiệu quả, ưu điểm hậu tố cho phép dễ dàng thay đổi mở rộng cấu trúc có cập nhật liệu Tính chất cho phép xử lý tập liệu lớn với nhiều dạng liệu khác nhau, tiết kiệm thời gian không gian xử lý liệu Ứng dụng hậu tố để xử lý, tìm kiếm chuỗi, ứng dụng hậu tố Sinh học để tìm kiếm chuỗi DNA ứng dụng Hóa học để xử lý Protein Nắm kiến thức tổng quan biclustering, phương pháp hiệu khai phá liệu biểu gien theo chuỗi thời gian Nội dung hai thuật toán tìm kiếm bicluster dựa hậu tố tổng quát Thuật toán CCC-Biclustering tìm kiếm bicluster với mẫu biểu hoàn hảo Mỗi bicluster tương ứng với nút hậu tố thể chuỗi (các hàng ma trận) Thuật toán e-CCC-Biclustering có mối quan hệ tương đồng e-CCC-Biclusters cực đại với mẫu motifs phổ biến tập chuỗi (strings) Việc tìm kiếm tất e-CCC-Bicluster cực đại chưa có thuật toán hiệu đề xuất để giải Song việc tìm kiếm mẫu motifs phổ biến đến có số thuật toán hiệu dựa kỹ thuật xử lý chuỗi đề xuất Đưa số kết ứng dụng tập liệu thực Dựa hai thuật toán biclustering tìm hiểu số công cụ có sẵn Chúng 67 áp dụng số thuật toán vào hai liệu biểu gien theo thời gian Khi thu bicluster tiến hành phân tích chúng để tìm ý nghĩa sinh học liên quan Với tầm quan trọng phát mẫu tổng quát cho việc nghiên cứu liệu biểu gien theo chuỗi thời gian Chúng đề xuất mở rộng thuật toán CCC-Biclustering e-CCC Biclustering khám phá biclusters với quy mô hơn, chất lượng hơn, thời gian trễ mẫu biểu hiện, xử lý giá trị khuyết thiếu thống phương pháp chấm điểm để giải biclusters với mô hình biểu chung Trong thời gian tới, nghiên cứu cải tiến thuật toán biclustering để nâng cao hiệu làm việc với sở liệu biểu gien lớn Vì thuật toán CCC-biclustering e-CCC-biclustering dựa hậu tố tốn không gian lưu trữ, đề xuất sử dụng mảng hậu tố kết hợp với phương pháp sử dụng hàm băm (hash table) để khắc phục hạn chế 68 Tài liệu tham khảo [1] A.P Gasch, P T Spell man, C M Kao, O Carmel-Harel, M B Eisen, G Storz, D Botstein, and P O Brown Genomic expression programs in the response of yeast cells to environmental changes Molecular Biology of the Cell, 11: 4241–4257, 2000 [2] BiGGEsTS: http://kdbio.inesc-id.pt/software/biggests/ [October 6, 2008] [3] CCC- Biclustering http://kdbio.inesc-id.pt/software/ccc-biclutering [October 6, 2008] th [4] Cheng & Church Biclustering of Expression Data In proc, of the International Conference on Intelligent Systems for Molecular Biology, pages 93–103, 2000 [5] D Gusfield Algorithms on strings, trees, and sequences Computer Science and Computational Biology Series Cambridge University Press, 1997 [6] E Ukkonen On-line construction of suffix trees Algorithmica, 14:249-260, 1995 [7] e-CCC- Biclustering http://kdbio.inesc-id.pt/software/e-ccc-biclutering [October 6, 2008] [8] G J McLachlan, K Do, and C Ambroise Analysing microarray gene expression data Wiley Series in Probability and Statistics, 2004 [9] I P Androulakis, E Yang, and R R Almon Analysis of time-series gene expression data: methods, challenges, and opportunities Annual Review of Biomedical Engineering, 9: 205–228, 2007 [10] I Van Mechelen, H H Bock, and P De Boeck Two mode clustering methods: a structured overview Statistical Methods in Medical Research, 13(5):979–981, 2004 [11] Inferene of Complex Motifs using Bilustering Tehniques [12] L Ji and K Tan Identifying time-lagged gene clusters using gene expression data Bioinformatics, 21(4): 509-516, 2005 [13] L Ji and K Tan Mining gene expression data for positive and negative coregulated gene clusters Bioinformatics, 20(16): 2711–2718, 2004 [14] M.-F Sagot Spelling approximate repeated or common motifs using a suffix tree In Proc of Latin’98, pages 111–127 Springer Verlag, LNCS 1380, 1998 [15] Materials and methods [16] R Peeters The maximun edege biclique problem NP-complete [17] S C Madeira and A L Oliveira A linear time biclustering algorithm for time series gene expression data In Proc of 5th Workshop on Algorithms in Bioinformatics, pages 39–52 Springer Verlag, LNCS/LNBI 3692, 2005 [18] S C Madeira and A L Oliveira A polynomial time biclustering algorithm for finding approximate expression patterns in gene expression time series BMC Algorithms in Molecular Biology (accepted with changes), 2008 69 [19] S C Madeira and A L Oliveira An efficient biclustering algorithm for finding genes with similar patterns in time-series gene expression data In Proc of the 5th Asia Pacific Bioinformatics Conference, Series in Advances in Bioinformatics and Computational Biology, volume 5, pages 67–80 Imperial College Press, 2007 [20] S C Madeira and A L Oliveira An evaluation of discretization methods for nonsupervised analysis of time series gene expression data [21] S C Madeira and A L Oliveira Biclustering algorithms for biological data analysis: a survey IEEE/ACM Transactions on Computational Biology and Bioinformatics, 1(1): 24–45, January–March 2004 [22] S C Madeira and A L Oliveira Efficient Biclustering Algorithms for Time Series Gene Expression Data Analysis [23] S C Madeira and A L Oliveira Identification of regulatory modules in time series gene expression data using a linear time biclustering algorithm EEE/ACM Transactions on Computational Biology and Bioinformatics, 21 Mar 2008 IEEE Computer Society Digital Library IEEE Computer Society, 24 March 2008 [24] Selnur Erdal , Ozgur Ozturk A time series analysis of microarray data [25] Stefano Lonardi Qiaofeng Yang Finding biclusters by random projections [26] S Tavazoie, J D Hughes, M J Campbell, R J Cho, and G M Church Systematic determination of genetic network architecture Nature Genetics, 22: 281–285, 1999 [27] T Zeng and J Liu Analysis on time-lagged gene clusters in time series expression data In Proc of the 2007 International Conference on Computational Intelligence and Security, pages 181–185 IEEE Computer Society, 2007 [28] Y Yin, Y Zhao, B Zhang, and G Wang Mining time-shifting co-regulation patterns from gene expression data [29] Yeast cell cycle project http://genome-www.stanford.edu/cellcycle [30] Y Zhang, H Zha, and C H Chu A time-series biclustering algorithm for revealing co-regulated genes In Proc of the 5th IEEE International Conference on Information Technology: Coding and Computing, pages 32–37, 2005 MỤC LỤC 70 71 [...]... thuật toán CCC -Biclustering, một kỹ thuật phân tích dữ liệu biểu hiện gien theo chuỗi thời gian Thuật toán tìm và đưa ra tất cả các biclusters cực đại, các cột gắn kết liên tục với các mẫu biểu hiện hoàn hảo trong thời gian tuyến tính với kích thước của ma trận biểu hiện gien Một bicluster có mẫu biểu hiện hoàn hảo nếu tất cả các gien trong bicluster đều có cùng mẫu thể hiện trong một khoảng thời gian. .. vậy, kỹ thuật tiếp cận để xử lý dữ liệu biểu hiện gien theo chuỗi thời gian, trên cơ sở các giá trị của sự biến đổi trạng thái giữa các thời điểm Kỹ thuật tiếp cận này sử dụng hai hoặc ba ký tự và nó thường được xử lý bằng bước chuẩn hóa ma trận dữ liệu biểu hiện gien theo chuỗi thời gian gốc ban đầu Từ ma trận biểu hiện gien đã được chuẩn hóa, việc tìm kiếm các bicluster sẽ hiệu quả hơn và thời gian. .. 1.4 Các hướng tiếp cận chính để tìm bicluster trong dữ liệu biểu hiện gien theo chuỗi thời gian Do chức năng của gien thường liên quan tới mức độ thể hiện của gien nên bằng các phương pháp phân tích dữ liệu biểu hiện gien, chúng ta có thể dự đoán được chức năng của chúng hoặc một tiến trình tiếp theo Các phương pháp phân cụm đã được sử dụng rộng rãi trong việc phân tích dữ liệu biểu hiện gien theo chuỗi. .. trình bày các thuật toán biclustering dựa trên cây hậu tố tổng quát để tìm kiếm các bicluster hoàn hảo và các bicluster xấp xỉ trong dữ liệu biểu hiện gien theo thời gian Sau đó thực hiện các thuật 12 toán này trên một số tập dữ liệu sinh học thực tế để minh họa khả năng hoạt động cũng như kết qủa của các thuật toán Phân tích các bicluster thu được bằng cách sử dụng các thông tin chú giải gien (Gen... trong dữ liệu biểu hiện gien theo chuỗi thời gian Trong dữ liệu biểu hiện gien theo chuỗi thời gian, khả năng chồng chéo các biclusters với các hàng tùy ý và các cột phải liền kề nhau Chúng ta có một số khái niệm như sau: Định nghĩa 3.3 (CCC-Bicluster) Một bicluster gắn kết cột láng giềng (contiguous column coherent bicluster: ccc-bicluster) AIJ = (I,J) là tập con của các hàng I={i1, , ik} và tập con các. .. rộng các gien có cùng một mẫu và thời điểm tiếp giáp Sử dụng kỹ thuật xử lý chuỗi dựa trên cây hậu tố, là ý tưởng chính của thuật toán được đề xuất, trong đó mối quan hệ tương đồng giữa các biclusters cực đại với các nút trong của cây hậu tố tổng quát được xây dựng cho các bộ chuỗi (các hàng) là đại diện của các mẫu thể hiện của mỗi gien trong ma trận Việc chuẩn hóa ma trận biểu hiện gien theo chuỗi thời. .. gien theo chuỗi thời gian ban đầu, làm giảm độ phức tạp khi phân tích dữ liệu, dẫn đến hiệu quả của thuật toán CCCBiclustering là tuyến tính 3.1.1 Chuẩn hóa dữ liệu biểu hiện gien Cho A’ là ma trận biểu hiện gien được xác định bởi |R| hàng và |C| cột, trong đó, tập các hàng (gien) R, và tập các cột (thời điểm) C Chúng ta xét mức độ thể hiện gien trong ma trận A’, mà mỗi phần tử là tập các ký tự trong bảng... về các chức năng của cây hậu tố, một số kiến thức liên quan đến việc tìm kiếm chuỗi Những kiến thức quan trọng này sẽ làm nền tảng cho các kết quả sẽ trình bày trong các chương tiếp theo của luận văn 25 Chương III THUẬT TOÁN DỰA TRÊN CÂY HẬU TỐ TỔNG QUÁT ĐỂ TÌM KIẾM CÁC BICLUSTER TRONG DỮ LIỆU BIỂU HIỆN GIEN THEO CHUỖI THỜI GIAN 3.1 Thuật toán CCC -Biclustering Trong phần này chúng tôi xin trình bày thuật. .. học như: tìm kiếm các mẫu trình tự DNA; sắp xếp các chuỗi gien hay Protein (mà có thể được xem như chuỗi dài các ký tự); trong nén dữ liệu Cây hậu tố cũng được sử dụng trong phân tích cụm dữ liệu biểu hiện gien [17], để tìm kiếm các bicluster trong dữ liệu biểu hiện gien (chúng tôi sẽ trình bày chi tiết ở phần chương 3) Với nhiều ứng dụng và thường cung cấp giải pháp trong thời gian tuyến tính, dưới... và thời gian thực hiện cũng ít tốn kém hơn Một thuật toán hiệu quả sử dụng kỹ thuật xử lý chuỗi dựa trên cây hậu tố tổng quát, là ý tưởng chính của thuật toán được đề xuất Mà ở đó có mối quan hệ tương đồng giữa các biclusters với các nút trong của cây hậu tố tổng quát đã xây dựng cho các bộ chuỗi (các hàng trong ma trận) đại diện cho các mẫu biểu hiện của mỗi gien trong ma trận Thuật toán này sẽ được ... tiêu nghiên cứu ứng dụng thuật toán việc khai phá bicluster liệu biểu gien theo chuỗi thời gian dựa hậu tố Mục đích nghiên cứu - Nghiên cứu thuật toán biclustering cho trường hợp liệu biểu gien theo. .. III THUẬT TOÁN DỰA TRÊN CÂY HẬU TỐ TỔNG QUÁT ĐỂ TÌM KIẾM CÁC BICLUSTER TRONG DỮ LIỆU BIỂU HIỆN GIEN THEO CHUỖI THỜI GIAN 3.1 Thuật toán CCC -Biclustering Trong phần xin trình bày thuật toán CCC -Biclustering, .. .nghiên cứu lâm sàng Các mẫu liệu coi bicluster gồm hàng cột liên tục ma trận Với trường hợp liệu biểu gien theo chuỗi thời gian, người ta đề xuất thuật toán hiệu với thời gian chạy

Ngày đăng: 17/12/2015, 18:40

Từ khóa liên quan

Mục lục

  • MỞ ĐẦU

    • 1. Lý do chọn đề tài

    • 2. Mục đích nghiên cứu

    • 3. Đối tượng nghiên cứu

    • 4. Giả thuyết khoa học

    • 5. Nhiệm vụ nghiên cứu

    • 6. Phạm vi nghiên cứu

    • 7. Phương pháp nghiên cứu

    • NỘi dung

    • Chương I. GiỚi thiỆu

      • 1.1. Dữ liệu biểu hiện gien theo chuỗi thời gian

        • Dữ liệu biểu hiện gien có thể biểu diễn dưới dạng ma trận trong đó mỗi hàng tương ứng với một gien và mỗi cột tương ứng với một thời điểm hay một điều kiện thí nghiệm. Mỗi ô của ma trận chứa mức độ thể hiện của gien trong điều kiện tương ứng. Tuỳ theo độ phức tạp của bộ gien, ma trận có thể có từ vài nghìn tới vài chục nghìn dòng và từ vài cột cho tới vài trăm cột.

        • Khi chúng ta phân tích dữ liệu biểu hiện gien theo chuỗi thời gian, chúng ta cần tìm các mẫu (bicluster) dữ liệu gồm các dòng có thể không cần liên tục, nhưng các cột liên tục (theo thời gian). Điều đó dẫn đến giảm bớt độ phức tạp và biến đổi của thuật toán biclustering so với trường hợp tìm các bicluster thông thường. Chúng ta quan tâm đến quá trình sinh học diễn ra trong suốt tiến trình từ khi bắt đầu đến khi kết thúc để biết được sự biến đổi của một gien hoặc một nhóm gien sau một tiến trình sinh học nào đó. Như vậy, trong trường hợp này một bicluster là một tập con các dòng (gien) và một tập con liên tục các cột (điều kiện). Như hình 1.1 minh họa 3 quá trình sinh học (P1, P2 và P3) của các tập gien khác nhau được miêu tả bằng 3 biclusters với các cột liên tục.

        • Mục đích cuối cùng của các thuật toán biclustering trong trường hợp này là tìm ra một tập con các biclusters Bk = (Ik, Jk) với các cột liền kề, mà mỗi bicluster Bk có thể hiện các tính chất đặc trưng riêng trong mỗi quá trình sinh học nhất định.

          • Hình 1.1 Quá trình sinh học và biclusters với các cột liền kề

          • 1.2. Các kiểu thuật toán Biclustering

            • Mặc dù nhiều thuật toán đã được đề xuất để giải quyết các vấn đề chung của biclustering [10], [23] như phân lớp và dự đoán, khai phá chuỗi theo thời gian, phân cụm... và đã biết đến tầm quan trọng của việc phát hiện các mẫu cục bộ, nhưng chỉ có một vài đề xuất gần đây đã giải quyết vấn đề này trong trường hợp cụ thể của dữ liệu biểu hiện gien theo chuỗi thời gian. Những phương pháp tiếp cận đó thuộc một trong hai nhóm các thuật toán sau:

            • 1. Tìm kiếm tham lam lặp đi lặp lại (Greedy iterative search): như thuật toán CC-TSB[30].

            • 2. Liệt kê đầy đủ (Exhaustive enumeration): như các thuật toán q-Clustering [12], q-Subsequences [27], ts-Clustering [28], CCC-Biclustering [17] và e-CCC-Biclustering [18].

            • Những phương pháp này làm việc với một ma trận biểu hiện gien, nhằm tìm kiếm các biclusters bằng cách xác định tập con các gien và tập con các điều kiện (thời điểm) trong khoảng thời gian liên tục. Thuật toán CCC-Biclustering [17] và e-CCC-Biclustering [18] thuộc nhóm thuật toán liệt kê đầy đủ, sẽ được trình bày trong luận văn và mô tả chi tiết ở chương 3, cả hai thuật toán giải quyết bài toán theo hướng dựa vào ma trận biểu hiện gien theo chuỗi thời gian, để tìm các biclusters với mẫu biểu hiện hoàn hảo và mẫu biểu hiện xấp xỉ.

            • Dưới đây chúng tôi xin trình bày tóm tắt ý tưởng của các thuật toán biclustering đã được một số tác giả đề xuất, để giải quyết bài toán tìm các biclusters trong dữ liệu biểu hiện gien theo chuỗi thời gian.

            • 1.2.1. Thuật toán CC-TSB

              • Zhang [30] đề xuất thuật toán CC-TSB (Time-Series Biclustering), trong đó có cải tiến các thuật toán heuristic của Cheng and Church [4], bằng cách thêm hoặc xoá một phần cột tiếp giáp của bicluster đã xây dựng, do đó bicluster kết quả chỉ có các cột liền kề nhau.

              • Thuật toán CC-TSB có hai thủ tục chính là: thủ tục xóa và thủ tục chèn lặp đi lặp lại. Kết quả thu được của thuật toán là một ma trận con, miêu tả một bicluster. Đầu tiên thuật toán thực hiện, các ma trận con được xem như là toàn bộ ma trận biểu hiện gien. Sau đó loại bỏ dần các hàng (gien) và các cột (thời điểm) từ ma trận con, với mục đích giảm thiểu bình phương trung bình dư lượng (MSR) [4] của ma trận con kết quả. Một hàng được lấy ra từ ma trận con nếu có thể hiện khác với những hàng còn lại trong ma trận, được đo bởi tỷ lệ MSR. Nếu tỷ lệ này lớn hơn một ngưỡng thực nghiệm , hàng đó sẽ bị loại bỏ. Cột (thời điểm) được loại bỏ khỏi ma trận con cũng được thực hiện tương tự như đối với hàng. Để đảm bảo các thời điểm trong một bicluster luôn luôn liên tục, thì chỉ có cột đầu tiên và cột cuối cùng trong ma trận con có thể bị xóa. Quá trình xóa kết thúc khi MSR của bicluster có kết quả thấp hơn giới hạn . Thao tác chèn cũng được thực hiện tương tự cho các cột, ngược lại với thao tác xóa thao tác chèn thêm: nếu MSR của một hàng nào đó trong ma trận con nhỏ hơn , gien tương ứng với hàng đó sẽ được chèn vào bicluster. Thỏa mãn với yêu cầu tiếp giáp trong các cột, chỉ có vùng lân cận của ma trận con mới được xem xét để chèn.

Tài liệu cùng người dùng

Tài liệu liên quan