1. Trang chủ
  2. » Luận Văn - Báo Cáo

NGHIÊN CỨU VÀ ỨNG DỤNG CÁC THUẬT TOÁN BICLUSTERING TRONG VIỆC KHAI PHÁ BICLUSTER TRONG DỮ LIỆU BIỂU HIỆN GIEN THEO CHUỖI THỜI GIAN DỰA TRÊN CÂY HẬU TỐ LUẬN VĂN CÔNG NGHỆ SINH HỌC

72 30 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 72
Dung lượng 1,43 MB

Nội dung

  MỞ ĐẦU  Lý chọn đề tài  Việc phân tích liệu biểu gien, mà cụ thể phân nhóm gien có biểu giống thời điểm thành nhóm (cluster) thực thuật toán phân cụm (clustering methods) Các thuật tốn thường tìm cách nhóm gien có biểu phụ thuộc tồn điều kiện thí nghiệm.  nghiệm. Tuy nhiên, thực tế gien thường thể phụ thuộc với số điều kiện độc lập với điều kiện khác Điều dẫn đến hạn chế lớn thuật toán clustering khơng thể tìm gien thể giống số điều kiện thí nghiệm Để khắc phục hạn chế này, người ta đề xuất  phương pháp phân cụm có tên biclustering (hoặc co co-clustering) -clustering) Các thuật toán biclustering tìm cách phân cụm đồng thời hàng (gien) và cột (condition) ma trận liệu biểu gien nhằm tìm ma trận thoả mãn số tiêu chí đặt ra, từ giúp hiểu thêm tiến trình sinh học gien cá thể Nhưng gần tất  phương pháp tiếp cận đến heuristic khơng đảm bbảo ảo để tìm giải pháp tối ưu Trong trường hợp liệu biểu gien gien   theo chuỗi thời gian, gian, mẫu sinh học thường đo theo thời điểm  điểm  định nhằm quan sát tiến trình sinh học xảy cá thể Vì vậy, việc tìm mẫu giống khoảng thời gian  gian   liên tục  tục  đó, đó, hình dung chúng vừa hồn thành tiến trình sinh học, giai đoạn chức sinh học đó.  đó. Việc phân tích liệu  liệu thể gien cho phép hiểu chế điều khiển gien tương tác chúng, tri thức sử dụng nghiên cứu chế tạo thuốc, phát khối u,   nghiên cứu lâm sàng.  sàng.  Các mẫu liệu coi bicluster  gồm hàng cột liên tục  tục trong ma trận.  trận.  Với trường hợp  hợp  liệu biểu gien theo chuỗi thời gian, gian, người ta đề xuất thuật toán hiệu với thời gian chạy tuyến tính, hàm đa thức để tìm bicluster tốt Các thuật tốn khơng khai phá trực tiếp liệu gốc, mà chuẩn hóa sang dạng liệu mới, sau xây dựng các    hậu hậu   tố để tìm kiếm Mỗi hậu  hậu  tố biểu diễn ma trận liệu, việc tìm bicluster coi tìm xâu chung lớn tập xâu dựa vào hậu  hậu  tố Trong luận văn này, đặt mục tiêu nghiên cứu ứng dụng thuật toán việc khai phá bicluster liệu biểu gien theo chuỗi thời gian  gian dựa hậu tố tố Mục đích nghiên cứu   - Nghiên cứu thuật tốn biclustering biclustering cho trường hợp liệu liệu biểu gien theo  theo chuỗi chuỗi  thời gian (nội dung chính)  chính)  tốn   bic  biclus luster tering ing vào tập liệ liệuu biể biểuu - Áp dụng số thuật toán  gien theo chuỗi thời gian cụ thể, phân tích đánh giá biclusters thu được.  được.  Đối tượng nghiên cứu  Các lý lý thuyết thuyết cơ bản về phân hậu tố.dữ tố.    liệu liệu biểu gien Các cụm theo chuỗi thời gian.  gian.  Giả thuyết khoa học  - Việc sử dụng thuật toán biclustering cho phép tìm gien thể giống khoảng  khoảng   điều kiện, từ tìm gien liên quan đến số tiến trình sinh học cụ thể.  thể.  Nhiệm vụ nghiên cứu   - Tìm hiểu số thuật tốn biclustering hiệu   - Cài đặt số thuật toán v thử nghiệm với liệu thực tế  tế   - Phân tích tích ưu nhược  nhược điểm cải tiến thuật tốn được.  được.  Phạm vi nghiên cứu  - Các thuật toán phân cụm liệu liệu biểu gien theo chuỗi thời gian số loài.  loài.  Phương pháp nghiên cứu  thuyết  - Phương pháp đọc tài liệu, phân tích, tổng hợp lý thuyết  - Phương pháp xây dựng giả thuyết  thuyết  - Phương pháp quan sát, thực nghiệm đối chứng.  chứng.    NỘI DUNG Chương I GIỚI THIỆU  th eo chuỗi thời gian  1.1 Dữ liệu biểu gien theo Dữ liệu biểu  biểu hiện gien biểu diễn dạng ma trận hàng tương ứng với gien cột tương ứng với thời điểm hay điều kiện thí nghiệm Mỗi ma trận chứa mức độ  độ   thể gien điều kiện tương ứng Tuỳ theo độ phức tạp gien, ma trận có từ vài nghìn tới vài chục nghìn  nghìn dịng từ vài cột vài trăm cột.  cột.  Khi  phân tích liệu liệu   biểu gien theo chuỗi thời gian, cần tìm mẫu (bicluster) liệu gồm dịng khơng cần liên tục, cột liên tục (theo thời gian) gian) Điều dẫn đến  đến giảm bớt độ  độ   phức tạp biến đổi đổi   thuật tốn biclustering so với trường hợp tìm  bicluster thông thường thường Chúng ta quan tâm đến trình sinh học diễn suốt tiến  tiến  trình từ khi bắt  bắt đầu đến kết thúc  thúc  để biết biến đổi gien nhóm gien sau tiến trình sinh học  Như vậy, trường hợp bicluster tập dòng (gien) tập liên tục cột (điều kiện) kiện)  Như hình 1.1 minh họa trình sinh học  (P1, P2 P3) tập gien khác miêu tả biclusters học b iclusters với cột liên tục tục Mục đích cuối thuật tốn  tốn  biclustering trường hợp tìm tìm tập biclusters  Bk  = (I kk  ,  J kk )    với cột liền kề, mà bicluster  B  Bk  tính chất chất   đặc trưng riêng  riêng  trình sinh học định định   Time G e n e s  Hình 1.1 Quá trình sinh học và biclusters với cột liền kề   1.2 Các kiểu thuật toán Biclustering  Mặc dù nhiều thuật toán được    đề xuất để giải vấn đề chung biclustering biclustering [10], [23] phân lớp dự đoán, khai phá chuỗi theo thời gian, phân cụm   cụm   biết đến tầm quan trọng của    việc phát mẫu cục bộ, bộ, có vài đề xuất gần giải vấn đề trường hợp cụ thể của  của  liệu biểu gien theo  theo   chuỗi thời gian gian  Những phương pháp tiếp cận  cận đó đó  thuộc thuộc  một hai nhóm thuật tốn sau: Tìm kiếm tham lam lặp lặp lại (Greedy iterative search): thuật toán CC-TSB[30] Liệt kê đầy đủ (Exhaustive enumeration): thuật toán qClustering [12], q-Subsequences [27], ts-Clustering [28], CCC-Biclustering [17] e-CCC-Biclustering [18]  Những phương pháp làm việc với một  một  ma trận  trận  biểu  biểu   gien, nhằm hằm   tìm kiếm biclusters bằng biclusters  bằng cách  cách  xác định tập gien tập điều kiện (thời điểm) điểm) khoảng thời gian  gian  liên tục tục Thuật tốn CCCBiclustering [17] e-CCC-Biclustering [18] thuộc nhóm thuật tốn liệt kê đầy đủ, trình bày luận  luận  văn mô tả  tả  chi tiết ở   chương 3, c ả hai th thuật uật toán  toán giải toán  toán theo hướng dựa vào  vào ma trận biểu gien gien theo chuỗi thời gian, để tìm biclusters với mẫu biểu hiện  hiện hoàn hảo và  và mẫu biểu hiện  xấp xỉ xỉ.    Dưới xin trình bày tóm tắt ý tưởng thuật toán  biclustering số tác giả đề xuất, để giải tốn tìm  biclusters liệu biểu biểu gien theo theo  chuỗi chuỗi  thời gian.  gian.  1.2.1 Thuật toán CC-TSB Zhang [30] [30] đề xuất thuật tốn CC-TSB (Time-Series Biclustering), có cải tiến  tiến  thuật toán heuristic Cheng and Church [4], [4], cách thêm xoá  xoá  phần cột tiếp giáp  giáp  bicluster đã   xây dựng,  dựng,   bicluster kết có cột liền liền kề nnhau hau tốn CC-TSB có hai thủ tục là: thủ tục xóa thủ tục chèn Thuật tốn lặp lặp lại lại Kết quả  quả thu thuật toán ma trận con, miêu tả  bicluster Đầu  Đầu tiên thuật toán  toán thực hiện, ma trận xem toàn  bộ ma trận biểu   bộ  biểu hiện gien Sau Sau loại bỏ dần hàng (gien) (gien) cột (thời điểm) từ ma trận con, với mục đích  đích  giảm thiểu  thiểu  bình phương trung bình dư dư lượng (MSR) (MSR) [4] [4] ma trận con  con  kết Một hàng lấy từ ma trận khác với hàng lại  lại trong ma trận, đo tỷ  tỷ  lệ MSR Nếu tỷ lệ lớn ngưỡng thực nghiệm nghiệ m , hàng bị  bị loại  bỏ Cột (thời điểm đ iểm)) loại bỏ khỏi  khỏi ma trận con  con cũng thực hiện  hiện tương tự tự  như hàng Để đảm bảo  bảo các thời điểm bicluster ln ln liên tục, có cột cột cuối ma trận con    bị xóa Q trình xóa kết thúc MSR bicluster  có kết thấp giới hạn  Thao tác chèn thực hiện   tương tự cho cột cột,, ngược ngược lại với thao tác xóa thao tác chèn thêm: MSR  của của  một hàng trong  trong ma trận nhỏ hơn  hơn , gien gien tương ứng với hàng chèn vào bicluster Thỏa mãn với yêu  yêu  cầu tiếp giáp cột, có vùng lân cận  cận   ma trận mới  được xem xét để chèn.  chèn.    1.2.2 Thuật toán q-Clustering  Như thuật toán biclustering đđãã đề xuất xuất,, Ji and Tan [12] quan tâm đến việc tìm kiếm biclusters với cột liên tục,  tục, được xác định bằng  bằng một một   mẫu  biểu mẫu  biểu tập ký hiệu liền kề  kề  bảng chữ cho trước.  trước.  Thuật tốn có ba giai đoạn, mơ tả  tả như sau:  sau:  Giai đoạn 1: Chuyển ma trận trận Ma trận biểu gien gốc  gốc được chuyển  chuyển  thành ma trận "dốc dốc", ", bằng  bằng cách sử dụng bảng ba ký tự  tự ∑={-1,0, 1}.  Giai đoạn 2: 2: Sinh tập tập  q-clusters sử dụng hàng ma trận  trận “dộc dộc””, mỗi  chuỗi mỗi  chuỗi   trình tự gồm giá trị -1, Mỗi Mỗi   q-cluster   chứa tập gien mẫu mẫu   biểu biểu trong   q  thời điểm liên tục tục Để Để   tìm kiếm gien có chuỗi  chuỗi  trình tự  tự  với với   chiều dài (q - 1), q  tham số Mỗi  Mỗi   qcluster  có một định danh nhất, gọi q-clusterID Các q-cluster   tạo sau: hàng (gi (gien) ma trận "dốc dốc", ", sử dụng  dụng một khung  khung trượt có độ dài (q - 1) để kiểm tra tra Khi kiểm tra chuỗi (q - 1) xác định q-clusterID cặp (GeneID, st ) đưa vào nhóm q-cluster   tương ứng, ứng, GeneID tên gien gien st  là vị trí  trí điểm bắt đầu khung trượt (q -1) Để xác định chất lượng bicluster bicluster,, ta sử dụng giá trị  MSR, đó  đó nếu nếu    MSR  nhỏ giá trị người  người   dùng quy định  định  bicluster chất lượng tốt sẽ  sẽ được giữ lại, lại, và phần và phần khác loại bỏ.  bỏ   Giai đoạn 3: 3: Đưa bicluster từ q-clusters xếp theo vị trí st , tất cặp cặp ( GeneID, st ) có vị trí được  được nhóm lại với xác định bicluster mỗi   q-cluster   với tất gien cùng    vị trí  trí  bắt bắt đầu  đầu   mẫu với q điều kiện kiện Các bicluster có giá trị MSR nhỏ giá trị người dùng định nghĩa có chất lượng tốt hơn.  hơn.  1.2.3 Thuật toán q-Subsequences Zeng and Liu [27] [27] đề xuất cách tiếp cận biclustering cho việc phân tích khoảng thời gian cụm liệu biểu  biểu   gien gien,, kết hợp phương pháp   q-Clustering  số  số  ý tưởng thuật toán  toán   CCC-Biclustering Thực chất cách tiếp cận q-Clustering dựa hậu tố tố Tuy nhiên, lại không xét tới tới   mối quan hệ  hệ  tác động bên mẫu mẫu xấp  xấp  xỉ xỉ Đầu tiên  tiên  ma trận  trận  liệu biểu gien được  được  chuyển đổi  đổi như trong  trong kỹ thuật q-Clustering Sau xây dựng hậu tố  tố   tổng quát cho tập chuỗi xác định  định  mẫu cho gien chuỗi chuỗi   thời gian  gian  ma trận biểu hiện Mục tiêu để tìm biclusters với cột liền kề mà mẫu  mẫu  biểu biểu có chiều dài q khoảng thời gian  gian hoạt động gien gien Để làm điều sau xây dựng dự ng hậu tố  tố ban cho tập chuỗi, chuỗi,  tất nút có độ sâu lớn q bị  bị xóa  xóa   ban đầu cho   bỏ Các thông tin  bỏ tin nút (chứa số  số  lần xuất của  của  q-subsequence) được  phân  phân tích sử dụng để xác định bicluster khoảng thời gian q thời điểm Nút chia thành ba loại Một loại nút lá, gọi nút không hoạt động, đại diện cho q-subsequence mà không xuất  bất kỳ kỳ   chuỗi phân tích nào Một loại  loại  nút lá, gọi nút  nút  hoạt động, đại diện cho q-subsequence  xuất lần chuỗi phân tích, hai loại nút tương ứng  ứng với với  q-subsequences như khơng đưa phân tích Loại nút cuối cùng    tương ứng với q-subsequences  xuất hiện  hiện  hai lần gien hai gien, những nút tương ứng với  biclusters khoảng thời gian phân tích tích 1.2.4 Thuật tốn ts-Clustering Yin [28] đề xuất tìm cụm liên kết trong biểu  biểu gien theo chuỗi thời gian gọi ts-Clusters, cho phép biểu gien gien cụm gắn kết tập khác nhau  nhau  điều kiện, mức độ biểu tương đối được  được  ưu tiên  tiên  thực hiện, hiện, hạn chế tác động gây nhiễu nhiễu Trong cáchh thiết lập này, cặp gien quy định nhóm có mẫu mẫu  liên kết  kết hoặc hoặc   thời gian chuyển mẫu liên kết kết Đây Đây   thuật toán phân cụm  cụm   dựa sở để  để phát  phát ts-Clusters   Mơ hình ts-Cluster   khai thác thời gian chuyển  chuyển   mẫu sau: giả sử  sử  tập m gien G = {g1 , g1 , , gm }, tập n thời điểm với khoảng thời gian nhất  định định,, T  = {t 1 , t 2 , , t n }, ma trận  D= G x T trong d i,j i,j giá trị biểu gien i tại thời điểm j. Những  Những  giá trị khuyết  khuyết thiếu ma trận “lấp đầy”  đầy”    bởi số ngẫu nhiên S Sau au đó, xác định Y = < t ii11 , t ii22 , , t ilil > theo trình tự thời gian nếu  t ii11 < t ii22 < < t ilil  chiều dài Y  |Y | = l Chuỗi thờ i gian Y là L-segment  nếu chiều dài |Y | (L + 1) Xét hai chuỗi chuỗi  thời gian L-segment là Y P = , Y q =   mà đó  mối quan hệ giữa  nếu  nếu  jjk  = ik  + t ’’  , với k   [1, l] , t ’  ’ là số khoảng thời gian giữa  giữa  Y q  Y P (Y q  giống Y P t’ =   khoảng thời hệ giữa giữa   gian chuyển  chuyển  bằng 0) 0) Khi Y q Y  p giống ta xét đến mối quan hệ  chuỗi thời gian khoảng thời gian trường hợp sau: -  Nếu dựa vào gien  x  l-segment có cách chuyển đổi là, d  xi d  xj giá trị biểu gien  x tại thời điểm t i t  j , tham số  số   (>0) một  một ngưỡng điều chỉnh chỉnh (1) Điều chỉnh lên, lên, có nghĩa O x(t  ,i t  j) =   , d  xj - d  xi >    (2) Khơng điều chỉnh, chỉnh, có nghĩa O x(t  ,i t  j) =   , d  xj - d  xi≥    (3) Điều chỉnh xuống, xuống, có nghĩa O x(t  ,i t  j) =   , d  xj - d  xi < -   - Nếu dựa vào gien  x, y (n-1)-segment Y = , x  y  giống Ox(t  ,t  (i (  i1 , i2 , , in) t  i  j )= O y(t ((j+ j+t) ,t (k+ (k+t)) đó: j,k   khoảng cách thời gian hai kiện kiện.  Dựa vào vào định nghĩa: chuỗi thời gian;  gian; L-segment   L-segment ; tính O và xác định trên, ts-Cluster xác định sau: C   U ir 1   X iY i  {cxy},  X i một   tập gien (Xi   G) Y i tập thời điểm (Y (Yi   T),  X i x Y i  ma trận đặc biệt của D = G x T  C một ts-Cluster  nếu nếu: nếu:    (1)  Y  Y i ,Y  j ,1   i, j   r, |Y i| = |Y  j |, (2)  Y  Y i ,Y  j ,1   i, j   r , quan hệ thời gian chuyển Y i Y  j  (3)  g x  X i ,  g y  X  j ,   i, j   r  giả  giả sử  t khoảng thời gian Y i đến i  j )= O y(t (i+t) ,t (j+t)) Y  j ,  t  t ,i  t  j  Y i điều kiện O x(t  ,t  Khi β  xác  xác  định định   tập  tập  tất ts-Cluster   thỏa mãn  mãn  điều kiện giàng  buộc, C    β  β  gọi ts-Cluster  cực đại  đại nếu khơng có cụm C’    β  β   mà C’ C’ chứa C C Vấn đề giải bằng    thuật tốn ts-Clustering là: tìm tất tsđại, ngưỡng  ngưỡng  cực đại  đại  được   người dùng  dùng  quy định, tính lượng Cluster   cực đại, thời điểm/lượng gien tối thiểu thiểu Thuật toán ts-C -Clustering lustering có hai bước chính: : Trước tiên  tiên  xây dựng một  một  TS-Tree -Tree ban  ban đầu ("Construct Initial TS-Tree"), "), thơng tin chuyển đổi  từ đổi từ  ts-Clusters ban  ban đầu tất ll-segments xác định Chỉ điều chỉnh  chỉnh  giá trị theo hai nhánh  nhánh lên xuống xuống Bước Bước thứ hai phát triển  triển cây ban đầu  đầu để tìm tất ts-Cluster   cực đại, kết hợp  hợp  tìm kiếm  kiếm  theo chiều  chiều  rộng rộng   chiều cao đạt mint  - l, tìm kiếm theo độ sâu.  sâu.  Mặc dù ts-Clustering  khơng sử dụng  dụng  hướng hướng   tiếp cận  cận  trực tiếp ma trận  trận  gốc,, thao tác O có thể xem bước chuyển  gốc chuyển hoá từ TStree đã đã  xây dựng cách sử dụng phân nhánh với hai biểu tượng lên “ ” xuống ” ” [28] 1.3 Định nghĩa toán bicluster liệu thể gien theo chuỗi thời gian.  Với ma trận (n×m), thành phần giá trị thực Trong trường hợp hợp   ma trận biểu  biểu  gien, aij  miêu tả mức thể gien i  điều kiện j Ví dụ bảng minh họa đây.  đây.  10   4.1.2 Tập liệu CellCycle   Tập dữ  dữ  liệu mô tả Tavazoie [26] xử lý trước  trước  đó   bởi  bởi   Cheng and Church, Church, liên quan đến phản ứng hai chu kỳ tế bào Đây tập liệu bao gồm 17 điểm thời gian  gian thí nghiệm 2884 gien sau loại bỏ gien hiện.  hiện.  Địa liệu tại: http://arep.med.harvard.edu/biclustering ập liệu CellCycle   Hình 4.2 T ập 58   4.2 Kết quả thực nghiệm  Cả  hai thuật toán CCC-Biclustering e-CCC-Biclustering làm việc  việc  với  ma trận  với trận thể tập  tập dữ liệu YeastStress tập tập  dữ liệu CellCycle  4.2.1. Sử dụng thuật toán CCC-Biclustering CCC-Biclustering.   Dưới tham số cụ thể thuật toán ma trận liệu,   bằng  phần mềm BigGesTS [2] Ở  không đưa cụ thể tồn  bộ cá c bicluster (vì lý độ dài liệu) mà đưa cụ thể kích thước 10 bicluster bảng sau sau Bicluster Yeaststress Tên Bicluster CellCycle Kích Số thời Khoảng Gien thước điểm thời gian Gien       Kích thước  Số thời điểm  Khoảng thời gian  Bicluster1 Bicluster2 631 1509 1262 3018 2 60-80 40-60 739 645 1478 1290 2 16-17 15-16 Bicluster3 245 735 40-80 61 183 15-17 Bicluster4 1126 3378 40-80 313 939 15-17 Bicluster5 138 414 40-80 271 813 15-17 Bicluster6 1292 2584 30-40 649 1298 14-15 Bicluster7 405 1215 30-60 59 177 14-16 Bicluster8 14 56 30-80 14-17 Bicluster9 377 1508 30-80 37 148 14-17 Bicluster10 14 56 30-80 20 80 14-17  Bảng Kết thuật toán CCC- Biclustering  Biclustering với hai tập dữ liệu   Biểu diễn Bicluster   Với bảng liệu loài Yeast, tham số detal =0.01, thấy 10 bicluster trên tổng số 1993 bicluster tập  tập   liệu Yeaststress Bicluster1 bicluster xấu bicluster9  bicluster9   bicluster tốt Dựa vào danh sách bicluster, chúng tơi chọn bicluster   để làm ví dụ mơ tả chi tiết hình ảnh biến thiên giá trị thành phần chúng: chúng : 59   Nhóm gien: {PHO3, YCR016w, PMP1, SWM1, CCA1, TAF6, MNT2, RPL26b, CBP1, BIR1, YNL089c, WTM2, YOR283w, FHL1  Nhóm thời điểm: điểm: {30, 40, 60, 80 } }  Hình 4.3 Hình ảnh liệu biểu  hiện các gien Bicluster 8   Hình 4.4 Đồ thị thể  hiện liệu biểu hiện gien Bicluster 8  Với tập  tập dữ liệu CellCycle Ở  Ở đây không đưa cụ  cụ  thể toàn bicluster   mà đưa cụ thể kích thước củ a 10 bicluster 60   tổng số 16186 bicluster Được thực ma trận  trận đã chuẩn hóa  hóa với tập ký tự bảng chữ ∑ Nhìn chung Bicluster biến thiên tương đối tập trung nhóm gien, số bicluster thể số lượng gien Bicluster 8, số lượng gien Bicluster có chênh lệch lớn Bicluster bicluster xấu bicluster   bicluster tốt Dựa lớn vào danh sách bicluster, chúng tơi chọn bicluster 10 để làm ví dụ mơ tả chi tiết hình ảnh biến thiên giá trị thành phần chúng:  chúng:   Hình 4.5 Đồ thị biểu gien 10 Bicluster  trong tập dữ liệu CellCycle  Dưới chọn bicluster10 để làm ví dụ mơ tả chi tiết hình ảnh biến thiên giá trị thành phần chúng:  chúng:  Nhóm gồm gồm:: 20 gien điều kiện (14, 15, 16, 17)  Hình 4.6  Hình ảnh thể liệu gien Bicluster 10  61    Hình 4.7  Đồ thị thể  hiện liệu biểu hiện gien Bicluster 10   4.2.2. Sử dụng thuật toán e-CCC-Biclustering Trong thử nghiệm  nghiệm  thuật toán e-CCC-Biclustering e-CCC-Biclustering với với   tập liệu Yeaststress Sau chọn lọc loại bỏ gien có liệu khuyết thiếu 25% giá trị trung bình dịng cịn lại 5150 gien Lỗi cho phép một  một  (e=1) coi vùng lân cận  cận  gồm tập chữ ∑ = {D, N, U}, thuật tốn tìm 4582 bicluster  Dưới bảng danh sách 10  bicluster từ đến 10.  10.   Hình 4.8 Đồ thị biểu gien 10 Bicluster  trong tập dữ liệu Yeaststress 62   Dưới bảng chi tiết số liệu bicluster từ đến 10   Bicluster1 Số lượng Gien 5150 Kích thước  10300 Số thời điểm  Khoảng thời gian  5-10 Bicluster2 Bicluster3 1883 497 5649 1988 5-15 5-20 Bicluster4 58 290 5-30 Bicluster5 18 5-40 Bicluster6 16 5-80 Bicluster7 28 168 5-40 Bicluster8 27 189 5-60 Bicluster9 24 5-80 Bicluster10 19 152 5-80 Tên  Bảng Kết của 10 bicluster tập liệu Yeaststress Để đánh giá phù hợp sinh học e-CCC-Bic e -CCC-Biclusters lusters bộ  bộ dữ liệu thực thực Chúng thử nghiệm có lỗi ( e =1) coi lỗi 1  1  vùng lân cận  cận  gồm gồm   ký tự  tự  bảng chữ ∑= ∑= {D, N, U} Mục tiêu tránh khả ảnh hưởng  hưởng  của   ngưỡn ngưỡngg lựa chọn đơn điệu chuẩn hóa  hóa của của  thuật tốn để tìm tất gi g ien với mẫu gắn kết kết Vậy, Vậy, lỗi   giao động  lỗi động   D với N N với U v có  có  lỗi  giao động D với U lỗi 4.3 Đánh giá thuật tốn biclustering  Trong bảng tóm tắt thuật toán khác đề cập  cập  đến luận văn, đặc biệt liệu biểu  biểu  hiện   gien theo chuỗi thời gian dựa hướng phân tích Cột thứ hai kiểu bicluster mà thuật tốn tìm được, cột thứ ba mẫu bicluster, cột thứ  thứ  tư cách khai phá cuối cách  cách tiếp cận thuật toán.  toán   63   Bảng đánh giá số thuật toán biclustering: biclustering:   Kiểu bicluster Mẫu biểu hiện  Khai phá Các giá trị liên kết  kết  Hoàn hảo/  hảo/  Xấp xỉ  xỉ  Một tập thời gian  gian  q-Clustering Tiến triển có liên kết  kết  Hồn hảo/  hảo/  Xấp xỉ  xỉ  Đồng thời  thời  Liệt kê bicluster  tổng quát  quát  q-Subsequence Tiến triển có liên kết  kết  Hoàn hảo  hảo  Đồng thời  thời  Liệt kê bicluster  tổng quát  quát  Các giá trị liên kết  kết  Hoàn hảo/  hảo/  Xấp xỉ  xỉ  Đồng thời  thời  Liệt kê bicluster tổng quát  quát  Tiến triển có liên kết  kết  Hoàn hảo  hảo  Đồng thời  thời  Liệt kê bicluster  tổng qt  qt  Tiến triển có Hồn hảo/  hảo/  Thuật tốn  CC-TSB ts-Clustering CCC-Clustering e-CCC-Clustering Đồng thời  thời  Cách tiếp cận  Tham lam Liệt kê bicluster  liên kết  kết  Xấp xỉ  xỉ  tổng quát  quát   Bảng 4 So sánh tổng quát thuật toán biclustering   4.4 Kết thảo luận  Việc tìm kiếm bicluster tốn khó, dựa loại liệu cụ thể mà định sử dụng thuật toán cho phù hợp.  hợp   Đặc biệt với liệu biểu  biểu hiện gien theo chuỗi thời gian, địi hỏi bicluster tìm phải nằm khoảng thời điểm liên tục, với gắn kết  kết   cột láng giềng.  giềng.  Ngoài ra, số lượng ảnh hưởng đến chất lượng bicluster tìm Với ma trận biểu  biểu hiện hiện  gien theo chuỗi thời gian việc xá xácc định tất biclusters b iclusters dựa hậu tố  tố tổn tổngg quát đề xuất hiệu quả.  quả.  Với hai liệu Yeaststress CellCycle  chạy thử nghiệm thuật toán CCCCCC-Biclustering, chọn  chọn 10 bicluster thấy khả thể gien bicluster tương đồng, chẳng chẳ ng hạn bicluster (hình 4.4) 4.4 ) có 14 gien thời điểm liên tục tục Điều có nghĩa  nghĩa nhóm gien phản ứng nhiệt có biến thiên tương đồng khoảng thời gian Ngoài ra, để tham khảo chức sinh học gien bicluster  tìm được, được,   chúng tơi sử dụng thông tin 64   giải gien từ liệu từ điển gien GO (Gene Ontology) GoToolBox mô tả cấu trúc gien gồm: từ điển chức phân tử (molecular function), từ điển tiến trình sinh học (boilogical processes), từ điển thành phần tế bào (cellular componets) Mỗi nút cấu trúc được   gọi gọi  là term đánh số nhất, có nhiều gien liên kết với term Như bicluster8 (hình 4.4) 4.4) có gien PMP1 có từ điển sinh học là:  là:   Gene: PMP1 Annotated GO Terms: GO:0030234 enzyme regulator activity GO:0016020 membrane GO:0006812 cation transport GO:0005886 plasma membrane GO:0016021 integral integra l to membrane    Những phát triển gần đây  đây của kỹ thuật DNA  DNA và công nghệ  nghệ hiện đại, đại, người ta đo được  được mức độ biểu số lượng lớn gien g ien điều kiện  kiện  thực nghiệm khác nhau Phương pháp học máy khơng có giám sát được  được  sử dụng phân tích liệu biểu gien g ien Gần đây, biclustering cách tiếp cận khơng giám sát thực phân nhóm đồng thời kích thước gi gien điều kiện ma trận biểu gi g ien, chứng minh hiệu quả  quả  đáng kể loạt ứng dụng Những lợi  biclustering việc khám phá mẫu mẫu   cục bộ, mô tả liên kết  kết  chặt chẽ tập gien gien tập điều kiện  kiện đã đã  được nghiên cứu cứu Một kiểu đặc biệt liệu biểu gi g ien thể  thể  theo thời gian thu từ thí nghiệm microarray thực thời gian  gian   chốc lát, phương thức  thức  ngày phổ biến để nghiên cứu loạt các    tiến trình  trình  sinh học phức tạp chuyên nghiệp, chẳng hạn như   tiến triển  triển  bệnh, bệnh, tăng trưởng,  phát triển, phản ứng thuốc [10] Tuy nhiên, phân tích nhà nghiên cứu thí nghiệm phải đối mặt với nhiều thách thức tính tốn Các thuật tốn thiết kế đặc biệt cho thí nghiệm riêng, yêu cầu để tận 65   dụng lợi tính độc đáo giải vấn đề Mặc dù hầu hết công thức biclustering  biclustering   NP-khó, làm việc với liệu  liệu biểu  biểu gien theo chuỗi  chuỗi thời gian gian Thuật toán CCC-Biclustering thuật toán hiệu việc tìm đưa ra  ra  tất các  các  bicluster bicluster cực đại gắn kết kết   cột liên tục có thời gian tuyến tính với kích thước ma trận  trận  thể Phương pháp chấm điểm để xếp hạng CCC-Biclusters CCCBiclusters dựa trên  trên ý nghĩa  nghĩa thống kê Các kết thu cách sử dụng dịch mơ hình  hình  hiện hiện  tượng tượng  xảy trong phản trong phản ứng  ứng stress nhiệt, cho thấy không khả phương pháp đề xuất để trích xuất thơng tin có liên quan tương thích với kiến thức sinh học mà cịn tiện tiện ích thuật tốn Hơn nữa, thí nghiệm  nghiệm  chứng minh rằng    việc chuẩn hóa  hóa  ma trận  trận  liệu  liệu  được   sử dụng như  như  bước  bước  tiền xử lý  lý  biclustering không tác động tiêu cực đến  đến ý nghĩa thống kê kết tìm CCC-Biclustering CCCBiclustering xác định mẫu biểu hoàn hảo  hảo   khơng thể giải hết lỗi đo lường, vốn có trong    thí nghiệm microarray, lỗi chuẩn chuẩn hóa ngưỡng ngưỡng   lựa chọn nghèo số  số  lượng ký tự, e-CCCe-CCC-Biclustering, Biclustering, thuật tốn  tốn  tìm mẫu biểu hiện  hiện gần gần  đúng thời gian đa thức với  với kích thước ma trận Các kết với liệu thực cho thấy việc xét mơ hình gần xác định gien liên quan Việc xác định gien, đồng thời tham gia vào tiến  tiến   trình sinh học, học, đường mở cho nhà nghiên cứu, cứu , khả hiệu phương pháp đề xuất để xác định gien theo  theo  thống kê sinh học, học, hiển thị mẫu có liên quan phát tượng sinh học, dẫn đến chứng thuyết phục chế cụ thể.  thể   66   KẾT LUẬN  Sau trình tìm hiểu, nghiên cứu thực luận văn tơi tích lũy cho thêm nhiều kiến thức sinh học, toán học, kỹ thuật xử lý liệu, đặc biệt rèn luyện kỹ để thực nghiên cứu khoa học cụ thể kết sau đây:  đây:  Tìm hiểu số kiến thức tổng quan hậu tố, phương pháp xử lý chuỗi  chuỗi  hiệu quả, ưu điểm hậu tố cho phép dễ dàng thay đổi mở rộng cấu trúc có cập nhật liệu Tính chất cho phép xử lý tập liệu lớn với nhiều dạng liệu khác nhau, tiết kiệm thời gian không gian xử lý liệu.  liệu   Ứng dụng hậu tố để xử lý, tìm kiếm chuỗi, chuỗi , ngồi ứng dụng hậu tố Sinh học để tìm kiếm chuỗi DNA ứng dụng Hóa học để xử lý Protein  Nắm kiến thức tổng quan biclustering,  phương pháp hiệu khai phá liệu biểu biểu   gien theo chuỗi thời gian Nội Nội dung hai thuật tốn tìm kiếm bicluster dựa hậu tố tổng quát Thuật toán CCC-Biclustering CCC-Biclustering tìm kiếm bicluster với mẫu biểu hồn hảo Mỗi bicluster tương ứng với nút hậu tố thể chuỗi (các hàng ma trận) trận) Thuật tốn e-CCC-Biclustering e-CCC-Biclustering có mối quan hệ  hệ  tương đồng  đồng  e-CCC-Biclusters cực đại với  ới  mẫu motifs  phổ biến tập chuỗi chuỗi (strings) (strings) Việc Việc  tìm kiếm tất e-CCC-Bicluster e-CCC-Bicluster cực đại chưa có thuật tốn hiệu nào   được đề xuất  xuất để giải quyết Song việc việc tìm kiếm kiếm mẫu motifs phổ biến  biến  đến có  có  số thuật tốn hiệu quả  quả dựa kỹ thuật xử lý chuỗi đề xuất xuất Đưa ra   số kết quả  quả  ứng dụng tập liệu thực Dựa hai thuật tốn biclustering tìm hiểu số cơng cụ có sẵn Chúng tơi 67   áp dụng  dụng một số thuật toán vào hai liệu biểu  biểu  hiện gien theo thời gian Khi thu bicluster chúng tơi tiến hành phân tích chúng để tìm ý nghĩa sinh học liên quan.  quan.  Với  tầm quan trọng phát mẫu  Với  mẫu  tổng quát cho việc nghiên cứu liệu biểu gien theo chuỗi thời gian Chúng đề xuất mở  rộng thuật toán CCC-Biclustering CCC-Biclustering e-CCC e-CCC Biclustering khám phá  biclusters với quy mơ hơn, chất lượng hơn, thời thời   gian trễ mẫu biểu hiện, xử lý giá trị khuyết thiếu thống phương pháp chấm điểm để giải biclusters với mơ hình biểu chung.  chung.  Trong thời gian tới, nghiên cứu cải tiến thuật toán  biclustering để nâng cao  cao hiệu làm việc với sở liệu biểu gien lớn Vì thuật tốn CCC-biclustering CCC-biclustering e-CCC- biclustering  biclustering dựa hậu tố tốn không gian lưu trữ, đề xuất sử dụng mảng hậu tố kết hợp với phương pháp sử dụng hàm băm (hash  (hash   table) để khắc phục hạn chế này.  này.  68   Tài liệu tham khảo  [1] A.P Gasch, P T Spell man, C M Kao, O Carmel-Harel, M B Eisen, G Storz, D Botstein, and P O Brown Genomic expression programs in the response of yeast cells to environmental changes  Molecular Biology of the Cell, 11: 4241 – 4257, 4257, 2000.  [2] BiGGEsTS: http://kdbio.inesc-id.pt/software/biggests / [October 6, 2008]  [3] CCC- Biclustering http://kdbio.inesc-id.pt/software/ccc-biclutering [October 6, 2008].  th [4] Cheng & Church Biclustering of Expression Data  In proc, of the International Conference on Intelligent Systems for Molecular Biology, pages 93 – 103, 103, 2000.  [5] D Gusfield Algorithms on strings, trees, and sequences Computer Science and Computational Biology Series Cambridge University Press, 1997   14:249-260, 1995  [6] E Ukkonen On-line construction of suffix trees  Algorithmica, 14:249-260, [7] e-CCC- Biclustering http://kdbio.inesc-id.pt/software/e-ccc-biclutering [October 6, 2008].  [8] G J McLachlan, K Do, and C Ambroise Analysing microarray gene expression data Wiley Series in Probability and Statistics, 2004   [9] I P Androulakis, E Yang, and R R Almon Analysis of time-series gene expression data: methods, challenges, and opportunities  Annual Review of   Biomedical Engineering, Engineering, 9: 205 – 228, 228, 2007.  [10] I Van Mechelen, H H Bock, and P De Boeck Two mode clustering methods: a structured overview Statistical Methods in Medical Research, 13(5):979 – 981, 981, 2004.  [11] Inferene of Complex Motifs using Bilustering Tehniques [12] L Ji and K Tan Identifying time-lagged gene clusters using gene expression data  Bioinformatics, 21(4): 21(4): 509-516, 2005  [13] L Ji and K Tan Mining gene expression data for positive and negative coregulated gene clusters. Bioinformatics, 20(16): 20(16): 2711 – 2718, 2718, 2004.  [14] M.-F Sagot Spelling approximate repeated or common motifs using a suffix tree  In Proc of Latin’98, pages 111– 127 127 Springer Verlag, LNCS 1380, 1998.  [15] Materials and methods [16] R Peeters The maximun edege biclique problem NP-complete [17] S C Madeira and A L Oliveira A linear timeth biclustering algorithm for time series gene expression data  In Proc of Workshop on Algorithms in   Bioinformatics, pages pages 39 – 52 52 Springer Verlag, LNCS/LNBI 3692, 2005  [18] S C Madeira and A L Oliveira A polynomial time biclustering algorithm for finding approximate expression patterns in gene expression time series  BMC   Algorithms in Molecular Molecular Biology (ac (accepted cepted with chan changes), ges), 2008.  69   [19] S C Madeira and A L Oliveira An efficient biclustering algorithm for finding genes with similar patterns in time-series gene expression data  In Proc of the 5th  Asia Pacific Bioinformatics Conference, Series in Advances in Bioinformatics and  Computational Biology, volume 5, pages 67  – 80 80 Imperial College Press, 2007.  S C Madeira and A L Oliveira An evaluation of discretization methods for non[20] supervised analysis of time series gene expression data [21] S C Madeira and A L Oliveira Biclustering algorithms for biological data analysis: a survey  IEEE/ACM Transactions on Computational Biology and   Bioinformatics, 1(1): 1(1): 24 – 45, 45, January –   March 2004.  L Oliveira Efficient Biclustering Algorithms for Time Series [22] S C Madeira and A L Gene Expression Data Analysis [23] S C Madeira and A L Oliveira Identification of regulatory modules in time series gene expression data using a linear time biclustering algorithm  EEE/ACM  Transactions on Computational Biology and Bioinformatics, 21 Mar 2008 IEEE  Computer Society Digital Library IEEE Computer Society, 24 March 2008   [24] Selnur Erdal , Ozgur Ozturk A time series analysis of microarray data [25] Stefano Lonardi Qiaofeng Yang Finding biclusters by random projections [26] S Tavazoie, J D Hughes, M J Campbell, R J Cho, and G M Church Systematic determination of genetic network architecture  Nature Genetics, 22: 281 – 285, 285, 1999.  [27] T Zeng and J Liu Analysis on time-lagged gene clusters in time series expression data  In Proc of the 2007 IInternational nternational Conference on Computational Intelligence I ntelligence and Security, pages 181 – 185 185 IEEE Computer Society, 2007   [28] Y Yin, Y Zhao, B Zhang, and G Wang Mining time-shifting co-regulation patterns from gene expression data [29] Yeast cell cycle project http://genome-www.stanford.edu/cellcycle [30] Y Zhang, H Zha, and C H Chu A time-series biclustering algorithm for revealing th  In Proc of the IEEE International Conference on co-regulated Technology: genes  Information Tech nology: Coding an and d Computing, pag pages es 32 – 37, 37, 2005.  70   MỤC LỤC  MỞ ĐẦU ĐẦU 1   NỘI DUNG 4  Chương I GIỚI THIỆU 4  1.1 Dữ liệu biểu gien theo chuỗi thời gian gian 4  1.2 Các kiểu thuật toán Biclustering 5  1.2.1 Thuật toán CC -TSB -TSB 6  1.2.2 Thuật toán q-Clustering 7  1.2.3 Thuật toán q-Subsequences 7  1.2.4 Thuật toán ts-Clustering 8  1.3 Định nghĩa toán bicluster liệu thể gien theo chuỗi thời gian gian 10 10   1.4 Các hướng tiếp cận để tìm bicluster liệu biểu gien theo chuỗi thời gian gian 12  1.5 Mục đích luận văn 12  1.6 Cấu trúc luận văn văn 13  Chương Ch ương II CÂY HẬU TỐ TỐ 14  2.1 Giới thiệu chung chung 14  2.2 Các Các khái niệm 14  2.3 Biểu diễn hậu tố tổng quát máy tính 17  2.4 Thuật toán dựng hậu tố tố 18  2.4.1 Dựng hậu tố ngầm ngầ m định (implicit suffix tree) 18  2.4.2 Dựng hậu tố tổng quát  23  2.5 Ứng dụng hậu tố 24  Chương III THUẬT TỐN DỰA TRÊN CÂY HẬU TỐ TỔNG QT ĐỂ TÌM KIẾM CÁC BICLUSTER TRONG DỮ LIỆU BIỂU HIỆN GIEN THEO CHUỖI THỜI GIAN GIAN 26  3.1 Thuật toán CCC-Biclustering CCC-Biclustering 26  3.1.1 Chuẩn hóa liệu biểu h iện gien 26  3.1.2 CC- Bicluster  Bicluster liệu liệu biểu gien theo chuỗi thời gian gian 28  3.1.3 Tìm tất bicluster với mẫu biểu hoàn hảo 29  3.2 Thuật toán e-CCC-Biclustering e-CCC-Biclustering 39  71   3.2.1 CCC- Bicluster với mẫu biểu hiện xấp  xấp xỉ  39  3.2.2 Tìm kiếm e-CCC-Bicluster với các Motif phổ biến biến 42  3.2.3 Tìm đưa ra tất e-CCC-Bicluster cực đại 47  Chương IV KẾT QUẢ THỰC NGHIỆM NGHIỆM 56  4.1 Các liệu 56  4.1.1 Tập liệu Yeaststress Yeaststress 56  4.1.2 Tập liệu CellCycle CellCycle 58  4.2 Kết thực nghiệm 59  4.2.1 Sử dụng thuật toán CCC -Biclustering -Biclustering 59  4.2.2 Sử dụng thuật toán e-CCC-Biclustering 62  4.3 Đánh giá thuật toán biclustering 63  4.4 Kết thảo luận luận 64  KẾT LUẬN 67  TÀI LIỆU THAM KHẢO KHẢO 69  72 ... bicluster liệu biểu gien theo chuỗi thời gian? ? gian? ?dựa hậu tố tố Mục đích nghiên cứu   -? ?Nghiên cứu thuật toán biclustering biclustering cho trường hợp liệu liệu biểu gien theo? ? theo? ?chuỗi chuỗi ? ?thời. .. đề tốn NP-khó NP-khó [16] 27    3.1.2 CC -Bicluster CC -Bicluster liệu biểu? ?hiện gien theo chuỗi thời gian? ? Trong liệu biểu? ? biểu? ?hiện gien gien theo chuỗi thời gian, gian, khả chồng chéo các? ?biclusters... Đối tượng nghiên cứu? ? Các lý lý thuyết thuyết cơ bản về phân hậu tố .dữ tố.     liệu liệu biểu gien Các cụm theo chuỗi thời gian.   gian.   Giả thuyết khoa học? ? - Việc sử dụng thuật toán biclustering

Ngày đăng: 09/08/2020, 17:02

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w