1. Trang chủ
  2. » Giáo án - Bài giảng

Đoán nhận gen bằng kỹ thuật phân cụm trong tin học

11 47 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 11
Dung lượng 576,61 KB

Nội dung

Bài toán thường gặp trong sinh học đó là phân chia tập các dữ liệu thí nghiệm thành các cụm sao cho các điểm dữ liệu trong cùng cụm có độ tương đồng cao, và nếu ở khác cụm thì chúng sẽ khác biệt nhau. Có nhiều cách phân cụm, và không có cách phân cụm nào được cho là tốt nhất mà nó tùy thuộc vào mục đích của việc phân cụm.

48 TRƯỜNG ĐẠI HỌC PHÚ YÊN ĐOÁN NHẬN GEN BẰNG KỸ THUẬT PHÂN CỤM TRONG TIN HỌC Phan Thị Thanh Thủy Tóm tắt Bài tốn thường gặp sinh học phân chia tập liệu thí nghiệm thành cụm cho điểm liệu cụm có độ tương đồng cao, khác cụm chúng khác biệt Có nhiều cách phân cụm, khơng có cách phân cụm cho tốt mà tùy thuộc vào mục đích việc phân cụm Việc phân cụm gen hy vọng gen cụm có liên quan với thực chức Từ tìm chức số gen dựa vào gen biết trước Các nhà sinh học định chọn cách phân cụm hợp lý Từ khóa: phân cụm gen, kỹ thuật, tin học Tin sinh học lĩnh vực nghiên cứu Việt Nam đời kết hợp hai ngành khoa học cơng nghệ thơng tin công nghệ sinh học Tin sinh học tiếp tục đóng góp nhiều thành tựu khoa học sinh học, tìm nguyên nhân loại bệnh làm đẩy nhanh q trình chẩn đốn bệnh tìm loại thuốc chữa bệnh mới, tìm giống trồng vật nuôi cho suất cao Việc phân tích giống chuỗi DNA từ sinh vật khác mở hướng việc nghiên cứu lí thuyết tiến hóa Với phát triển mạnh hai lĩnh vực công nghệ sinh học công nghệ thông tin, ngày khối lượng khổng lồ liệu sinh học phân tử thu thập phục vụ cho q trình nghiên cứu Một ví dụ tiêu biểu có lẽ hồn thành việc giải mã đồ gen người vào năm 2003 Bộ gen người bao gồm khoảng tỷ nucleotide lưu trữ dạng số hóa Tuy nhiên, việc giải mã thành công gen người hay sinh vật khác chuột hay lúa bước trình tìm hiểu chúng Và để hiểu chức tất gen lại toán khác lâu giải xong, nhiều toán khác quan tâm nghiên cứu Số lượng gen lồi lớn, ứng dụng thuật toán vào việc biểu diễn gen giúp giảm bớt số lượng thí nghiệm, rút ngắn thời gian nghiên cứu, giảm bớt công sức chi phí đáng kể Các khái niệm sinh học Mọi sinh vật cấu tạo tế bào Mỗi tế bào hệ thống phức tạp gồm nhiều khối tạo dựng khác bọc màng Trong thể người có khoảng 6x1013 tế bào, với khoảng 320 kiểu khác nhau, tế bào da, bắp,  ThS, Khoa KT-CN, Trường ĐH Phú Yên TẠP CHÍ KHOA HỌC SỐ * 2013 49 não…Một đặc tính tế bào sống khả phát triển mơi trường thích hợp trải qua phân chia tế bào Mục tiêu hàng đầu tin sinh học gắn liền với q trình phân tích thơng tin sinh học 1.1 DNA DNA nằm nhân tế bào, biết đến chất hóa học chứa thơng tin di truyền hầu hết sinh vật sống Về cấu tạo, chuỗi ADN chứa loại nucleotide A, T, G C Trong xử lý liệu tin học, trình tự DNA xử lý chuỗi ký tự 1.2 Gen Gen cấu trúc đoạn DNA mang thông tin cần thiết mã hóa chuỗi polypeptide Trong đó, polypeptide thành phần cấu trúc tạo nên protein Đây nhóm phân tử đóng vai trị quan trọng việc quy định kiểu hình sinh vật 1.3 Sự biểu gen Biểu gen (gene expression), q trình liên quan đến việc chuyển đổi thơng tin di truyền chứa gen để chuyển thành axit amin (hay protein) (mỗi loại protein thể cấu trúc chức riêng tế bào) Gen biểu thành protein thông qua đường phiên mã dịch mã Biểu gen trình đa giai đoạn Từ phân tử DNA thông tin mã hoá sang mRNA phân tử mRNA vận chuyển ngồi nhân, thơng tin giải mã để sản xuất protein tương ứng mRNA đóng vai trò loại phân tử truyền tải Phân cụm để giải toán tương đồng gen Việc xác định chức gen có ý nghĩa quan trọng nghiên cứu sinh học y học Mỗi gen đảm nhận chức có mối liên hệ với gen khác Cho n gen, có số gen biết chức năng, người ta muốn tìm chức gen số Dựa vào kỹ thuật phân cụm, ta xác định gen thuộc cụm gen Những gen xếp cụm ta kết luận có liên quan với chức 2.1 Phân tích biểu gen Dựa vào việc phân tích mức độ biểu gen từ dãy DNA q trình điều hịa phiên mã - lượng mRNA sinh tế bào nhiều thời điểm, điều kiện khác Không phải tất gen có biểu liên tục Mức độ biểu gen khác tế bào khác theo giai đoạn chu trình tế bào Tất tế bào chứa thông tin di truyền, tế bào khác gen hoạt động Trong nhiều trường hợp, hoạt tính gen điều hòa mức độ phiên mã, qua tín hiệu bắt đầu bên tế bào phản ứng với điều kiện bên TRƯỜNG ĐẠI HỌC PHÚ YÊN 50 Kết thí nghiệm nghiên cứu ma trận biểu I(nm), n số gen m cột số thí nghiệm, tương ứng với thời điểm điều kiện khác Phần tử Ii,j ma trận biểu tượng trưng cho mức độ biểu gen i thí nghiệm j; tồn dịng i gọi mẫu biểu gen i Nếu hai gen i1 i2 có mẫu tương đồng có quyền hi vọng gen có chức tương tự hay chúng có liên quan với q trình sinh học Do đó, mẫu biểu gen mà tương đồng với mẫu biểu gen mà ta biết chức nhà sinh học có lí để nghi ngờ gen thực chức tương tự hay có liên hệ với Tuy nhiên, phân tích biểu gen khơng thực liệu sinh bị nhiễu với tỉ lệ lỗi cao Theo cách phân tích trên, gen đặc trưng vectơ m chiều, điểm không gian Rm Như tương đồng hai gen định lượng khoảng cách hai điểm tương ứng chúng khơng gian Rm Cuối cùng, ta có ma trận khoảng cách gen (D(i,j))nn, khoảng cách điểm tương ứng gen khoảng cách Euclide mà định nghĩa sau: Cho điểm X, Y không gian m chiều có tọa độ X=(x1,x2,…, xm) Y=(y1,y2, …, ym), khoảng cách Euclid chúng xác định bởi: D( X , Y )  ( x1  y1 )  ( x2  y2 )   ( xm  ym ) Chẳng hạn, ta có ma trận biểu I ghi lại kết thí nghiệm 10 gen thời điểm khác cho Bảng 2.1 đây: Times 1hr 2hr 3hr g1 10.0 8.0 10.0 g2 10.0 0.0 9.0 g3 4.0 8.5 3.0 g4 9.5 0.5 8.5 g5 g6 g7 g8 g9 4.5 10.5 5.0 2.7 9.7 8.5 9.0 8.5 8.7 2.0 2.5 12.0 11.0 2.0 9.0 g10 10.2 1.0 9.2 Bảng 2.1 Ma trận biểu I(10x3) 10 gen thời điểm TẠP CHÍ KHOA HỌC SỐ * 2013 51 Từ liệu ma trận này, ta tính tốn ma trận khoảng cách gen không gian chiều theo khoảng cách Euclide tính g1 g2 g3 g4 g5 g6 g7 g1 0.0 8.1 9.2 7.7 9.3 2.3 5.1 10.2 6.1 7.0 g2 8.1 0.0 12.0 0.9 12.0 9.5 10.1 12.8 2.0 1.0 g3 9.2 12.0 0.0 11.2 0.7 11.1 8.1 g4 7.7 g5 9.3 12.0 0.7 11.2 0.0 11.2 8.5 g6 2.3 g7 5.1 10.1 8.1 g8 10.2 12.8 1.1 12.0 1.0 12.1 9.1 g9 6.1 2.0 10.5 1.6 10.6 7.7 8.3 11.4 0.0 1.1 g10 7.0 1.0 11.5 1.1 11.6 8.5 9.3 12.4 1.1 0.0 0.9 11.2 0.0 11.2 9.2 9.5 11.1 9.2 11.2 0.0 9.5 8.5 5.6 g8 g9 g10 1.1 10.5 11.5 9.5 12.0 1.6 1.1 1.0 10.6 11.6 5.6 12.1 7.7 8.5 0.0 9.1 8.3 9.3 0.0 11.4 12.4 Bảng 2.2 Ma trận khoảng cách 10 gen khơng gian chiều Trong đó, chẳng hạn khoảng cách hai gen g1 g2 xác định bởi: D(1,2)  (10  10)  (0  8)  (9  10)  65  8.1 Các mẫu biểu điểm khơng gian chiều: Hình 2.1 Biểu diễn điểm liệu ma trận I không gian chiều Theo cách biểu diễn trực quan ta thấy gen có tọa độ gần phân thành cụm Các gen cụm có khoảng cách gần 52 TRƯỜNG ĐẠI HỌC PHÚ YÊN cách xa với cụm lại Để xử lý việc phân cụm gen chương trình máy tính địi hỏi phải dùng đến kỹ thuật phân cụm kỹ thuật giới thiệu phần 2.2 Các thuật toán phân cụm tin sinh học 2.2.1 Giới thiệu kỹ thuật phân cụm Có nhiều định nghĩa khác kỹ thuật này, chất ta hiểu phân cụm qui trình tìm cách nhóm đối tượng cho vào cụm, cho đối tượng cụm tương tự đối tượng khác cụm khơng tương tự Mục đích phân cụm tìm chất bên nhóm liệu gom đối tượng liệu thành nhóm phụ thuộc vào đánh giá tương tự đối tượng Các thuật toán phân cụm sinh cụm Tuy nhiên, để đánh giá hiệu phân tích phân cụm khơng có tiêu chí xem tốt mà điều phụ thuộc vào mục đích phân cụm như: rút gọn liệu, đốn số nhóm tự nhiên tập liệu, tìm nhóm có ích thích hợp, phát nhóm bất thường… 2.2.2 Thuật tốn phân cụm gen Thuật tốn phân cụm nhóm gen vào cụm hi vọng cụm tương ứng với nhóm gen liên quan với chức Để phân cụm, ma trận biểu I(n  m) chuyển sang ma trận khoảng cách D(n  n), Di,j phản ánh độ tương đồng gen i gen j Mục tiêu phân cụm nhóm gen vào cụm mà thỏa mãn điều kiện sau: Tính nhất: gen cụm phải có độ tương đồng cao Nói cách khác, khoảng cách D(i,j) phải nhỏ gen i gen j thuộc cụm Tính tách biệt: gen cụm khác phải khác Nói cách khác, khoảng cách D(i,j) phải lớn gen i gen j thuộc cụm khác 2.2.3 Phân cụm phân cấp Phân cụm phân cấp kỹ thuật tổ chức phần tử vào cây, thay phân chia dứt khoát phần tử vào cụm Trong trường hợp này, gen đại diện cho nút Các cạnh gán độ dài khoảng cách nút độ dài đường nối hai nút giá trị cho ma trận khoảng cách Cho H tập khác rỗng tập E H gọi phân cấp E điều kiện sau thỏa mãn: (i) E  H, (ii)  x  E, {x}  H (lớp đơn), (iii) hi, hj  H: hi  hj    hi  hj hj  hi TẠP CHÍ KHOA HỌC SỐ * 2013 53 Đồ thị biểu diễn phân cấp cây, đó: gốc biểu diễn lớp lớn E, n lớp đơn biểu diễn Chẳng hạn, với tập E= {a, b, c, d, e}, ta có cách phân cụm (khơng nhất) H={E, {a}, {b}, {c}, {d}, {e}, {a,b}, {c,d,e}, {c,d}}, mà minh họa Hình 2.2 E {a,b} {a} {c,d,e} {b} {c,d} {c} {e} {d} Hình 2.2 Cây gốc E,biểu diễn phân cấp tập H Phát biểu toán phân cụm: Input: Ma trận khoảng cách đối tượng Dnn Output: Tạo phân cấp T biểu diễn đối tượng Những gen cụm có chức tương tự nhau, việc thừa nhận kết phân cụm giúp ta xác định chức gen mới, tăng thêm hiểu biết sinh học 2.2.4 Phân cụm phân hoạch Vì n dịng ma trận biểu I(nm) tập n điểm không gian m chiều nên tốn đặt tìm cách phân chia điểm vào k tập con, với giả thiết k số cụm biết trước Một phương pháp phân cụm phân hoạch phổ biến điểm không gian đa chiều phân cụm k-means Cho tập n điểm liệu không gian m chiều số nguyên k Vấn đề đặt xác định k điểm hay k-tâm khơng gian m chiều cho bình phương khoảng cách từ điểm đến tâm nhỏ Cho điểm liệu v tập k tâm  ={x1, x2, …, xk}, khoảng cách từ v đến tâm  đo khoảng cách từ v đến điểm gần  d(v,  ) = d (v, xi ) x i  TRƯỜNG ĐẠI HỌC PHÚ YÊN 54 Khoảng cách trung bình bình phương từ tập n điểm V ={v1,v2,…, vn} tập tâm  ={x1,x2,…, xk} định nghĩa khoảng cách trung bình bình phương từ điểm liệu đến tập tâm: i1 d (vi ,  ) n d(V , ) = n Phát biểu toán phân cụm k-means: Input: Một tập V gồm n điểm tham số k Output: Một tập  gồm k điểm cho d(V , ) nhỏ 2.2.5 Phân cụm dựa đồ thị khối Một đồ thị đầy đủ Kn đồ thị vô hướng, gồm n đỉnh mà với đỉnh nối với cạnh K3 K5 K6 Hình 2.3 Đồ thị đầy đủ với k =3, k=5 k =6 Một “khối” (clique) đồ thị đồ thị đầy đủ lớn mà không chứa bên đồ thị đầy đủ khác Đồ thị khối (clique graph) đồ thị mà thành phần liên thông khối Hình 2.4 Đồ thị đỉnh có khối tạo đỉnh {1,2,6,7}, {2,3}, {5,6}, {3,4,5} Ví dụ Hình 2.4 đỉnh 1,6,7 tạo thành đồ thị đầy đủ khơng tạo thành khối, cịn đỉnh 1,2,6,7 tạo thành khối Cho n gen, ta xây dựng đồ thị với n đỉnh, hai gen có khoảng cách gần ngưỡng cho phép xem có cạnh nối chúng Rõ ràng đồ thị khối việc chọn khối cụm cách phân cụm hợp lý Tuy nhiên thường khơng phải đồ thị khối Vấn đề TẠP CHÍ KHOA HỌC SỐ * 2013 55 tìm đồ thị khối xấp xỉ với đồ thị Vì vậy, cách chia n phần tử vào k cụm biểu diễn đồ thị khối gồm n đỉnh với k thành phần Một tập đỉnh V’V đồ thị G(V,E) có dạng đồ thị đầy đủ đồ thị dựa đỉnh đầy đủ Tức là, hai đỉnh v w V’ nối với cạnh đồ thị Trong nghiên cứu phân tích biểu gen, ma trận khoảng cách (Di,j)nn thường chuyển thành đồ thị khoảng cách G = G(), đỉnh gen có cạnh nối gen i j khoảng cách chúng nhỏ ngưỡng , tức Di,j <  Các gen phân cụm thỏa mãn hai tính chất tính đồng tính tách biệt với ngưỡng  chọn phù hợp tương ứng với đồ thị khoảng cách đồ thị đồ thị khối Tuy nhiên, sai lệch liệu biểu ngưỡng  khơng thích hợp thường cho kết trả đồ thị khoảng cách mà đồ thị khối Ta gặp trường hợp vài gen có khoảng cách nhỏ ngưỡng  gen lại khơng có liên quan nhau, điều dẫn đến đồ thị xuất thêm cạnh nối với cụm khác Trong đó, có gen khác có khoảng cách ma trận khoảng cách lại vượt ngưỡng  gen lại có liên quan với nhau, điều dẫn đến đồ thị có cạnh liên quan lại bị xóa bỏ cụm Như cạnh không làm cho đồ thị khoảng cách đồ thị khối, người ta gọi đồ thị khối rạn nứt (Corrupted Cliques) Bài toán đặt ra, làm để chuyển từ đồ thị khoảng cách sang đồ thị khối với số cạnh thêm vào xóa Ma trận khoảng cách D cho Bảng 2.2 có khoảng cách ngưỡng =7.0 in đậm g1 g2 g3 g4 g5 g6 g7 g8 g9 g10 g1 8.1 9.2 7.7 9.3 2.3 5.1 10.2 6.1 7.0 g2 8.1 12.0 0.9 12.0 9.5 10.1 12.8 2.0 1.0 g3 9.2 12.0 11.2 0.7 11.1 8.1 1.1 10.5 11.5 g4 7.7 0.9 11.2 11.2 9.2 9.5 12.0 1.6 1.1 g5 9.3 12.0 0.7 11.2 11.2 8.5 1.0 10.6 11.6 g6 2.3 9.5 11.1 9.2 11.2 5.6 12.1 7.7 8.5 g7 5.1 10.1 8.1 9.5 8.5 5.6 9.1 8.3 9.3 g8 10.2 12.8 1.1 12.0 1.0 12.1 9.1 11.4 12.4 Từ ma trận này, ta có đồ thị khoảng cách thể sau : g9 6.1 2.0 10.5 1.6 10.6 7.7 8.3 11.4 1.1 g10 7.0 1.0 11.5 1.1 11.6 8.5 9.3 12.4 1.1 TRƯỜNG ĐẠI HỌC PHÚ YÊN 56 7,0 g1 g10 1,1 2,3 6,1 g6 g9 5,1 5,6 1,0 1,1 g7 2,0 1,6 g2 0,9 g8 g4 1,1 1,0 g5 0,7 g3 Hình 2.5 Đồ thị khoảng cách Đồ thị khoảng cách Hình 2.5 thể đồ thị khối, sau loại bỏ cạnh (g1, g10) (g1, g9) đồ thị khoảng cách chuyển thành đồ thị khối g1 g10 g9 g6 g7 g2 g8 g4 g5 g3 Hình 2.6 Đồ thị khối sau loại bỏ cạnh (g1, g10), (g1, g9) từ đồ thị khoảng cách Bài toán khối bị rạn nứt (Corrupted Cliques Problem) Giả sử ta có đồ thị G Nếu G khơng phải đồ thị khối tốn đặt là: xác định số cạnh cần thêm vào hay xóa để chuyển G thành đồ thị khối Input: Đồ thị khoảng cách G Output: Số cạnh cần thêm vào hay xóa để chuyển G thành đồ thị khối Bài toán khối bị rạn nứt đưa thuộc lớp toán NP-khó, nên người ta đề xuất vài giải thuật heuristic PCC (Parallel Classification with TẠP CHÍ KHOA HỌC SỐ * 2013 57 Cores), giải thuật tốn nhiều thời gian, CAST (Cluster Affinity Search Technique) kế thừa từ PCC tỏ thực tế Ý tưởng giải thuật PCC Giả sử cố gắng phân cụm tập gen S S’ tập S Nếu ta đưa cách phân cụm S’ {C1, …, Ck} Liệu mở rộng phân cụm S’ toàn tập gen S? Đặt S\S’ tập gen chưa phân cụm, N(j,Ci) số cạnh gen j  S\S’ gen cụm Ci đồ thị khoảng cách Chúng ta đánh giá tương đồng gen j với cụm Ci tỷ số sau đây: N ( j, Ci ) Ci Gen j phân vào cụm Ci tỷ số có giá trị lớn nhất, ta nói gen j tương đồng với cụm Ci Theo cách này, phân cụm S’ mở rộng thành phân cụm toàn tập gen S Ý tưởng giải thuật CAST Định nghĩa khoảng cách gen i cụm C khoảng cách trung bình  j  C d (i, j ) gen i tất gen cụm C: d(i, C) = Cho ngưỡng , gen C i gần với cụm C d(i,C)  Giải thuật CAST phân cụm S theo đồ thị khoảng cách G ngưỡng  CAST tạo phân chia P tập S cách tìm cụm C mà khơng có gen i  C mà gần với C khơng có gen i  C cách xa C P khởi tạo tập rỗng Kết luận: Trên số cách phân cụm kỹ thuật khai phá liệu, nhiên để tìm thuật tốn cho tối ưu tập liệu lớn đòi hỏi kỹ thuật xử lý có độ phức tạp lớn Tin sinh học liên quan chặt với lĩnh vực data mining (khai phá liệu) and machine learning (học máy) để giải tốn sinh học Bằng cơng nghệ người ta tìm chức nhiều loại gen nhiều sinh vật khác giúp cho ngành sinh học phân tử ngày phát triển đa dạng, phong phú TÀI LIỆU THAM KHẢO [1] [2] [3] [4] Nguyễn Văn Cách (2009), Tin sinh học, Nxb Khoa học kỹ thuật Lê Minh Hoàng (2002), Giáo trình giải thuật lập trình, Nxb ĐHSP Hà Nội Nguyễn Viết Nhân (2007), Giáo trình Di truyền y học, Nxb Đại học Huế Neil C Join, Pavel A Pevzner (2004), An Introduction to Bioinformatics Algorithms, A Bradford book The MIT Press Cambridge, Massachuetts London 58 TRƯỜNG ĐẠI HỌC PHÚ YÊN [5] Pang-Ning Tan, Michael Steibach, Vipin Kumar (2006), Introduction to Data Mining, Michigan Stage University, University of Minnesota and Army High Performance Computing Research Center T.Chandrasekhar, K.Thangavel and E.Elayaraja (2011), Performance Analysis of Enhanced Clustering Algorithm for Gene Expression Data, IJCSI International Journal of Computer Science Issues, Vol 8, Issue 6, No 3, November 2011 Gregory A Wilkin1 and Xiuzhen Huang (2008), A practical comparison of two KMeans clustering algorithms, BMC Bioinformatics [6] [7] Abstract Determining genes by clustering algorithms in information technology A common problem in biology is to divide a set of experimental data into clusters (groups) in such a way that the data points in each cluster are highly similar, while the data points in different clusters are different There are several algorithms that performs different types of clustering; each situation has its own best way of clustering and there is no common best choice in a general situation Clustering algorithms group genes with similar expression patterns into clusters with the hope that the genes in each cluster has a common function It, therefore, helps us to determine the new genes based on the information of already known genes Biologists will determine the most reasonable choice of clustering Key words: genes clustering, clustering algorithms, information technology ... kỹ thuật phân cụm kỹ thuật giới thiệu phần 2.2 Các thuật toán phân cụm tin sinh học 2.2.1 Giới thiệu kỹ thuật phân cụm Có nhiều định nghĩa khác kỹ thuật này, chất ta hiểu phân cụm qui trình tìm... tìm chức gen số Dựa vào kỹ thuật phân cụm, ta xác định gen thuộc cụm gen Những gen xếp cụm ta kết luận có liên quan với chức 2.1 Phân tích biểu gen Dựa vào việc phân tích mức độ biểu gen từ dãy... tách biệt: gen cụm khác phải khác Nói cách khác, khoảng cách D(i,j) phải lớn gen i gen j thuộc cụm khác 2.2.3 Phân cụm phân cấp Phân cụm phân cấp kỹ thuật tổ chức phần tử vào cây, thay phân chia

Ngày đăng: 27/09/2020, 18:39

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN