Bằng nhiều nghiên cứu khác nhau, các nhà khoa học cho thấy cấu trúc hệ gen của con ngƣời trên thế giới có tới 99,9% chuỗi DNA đồng nhất. Do đó chỉ một phần nhỏ của hệ gen đƣợc di truyền mang theo sự biển đổi về kiểu hình và đặc tính nhạy cảm với bệnh[5],[6] . Trƣớc bƣớc đột phá về công nghệ giải trình tự, chỉ có một số ít những thay đổi đặc trƣng về số lƣợng và cấu trúc của nhiễm sắc thể có thể quan sát đƣợc bao gồm nhƣ thể dị bội, thay đổi trên nhiễm sắc thể (đảo đoạn, lặp đoạn, chèn đoạn…). Kích thƣớc của những thay đổi này rất lớn (thông thƣờng hơn 3Mb nên có thể quan sát bằng kính hiển vi và đƣợc đặt tên theo những kiểu cấu trúc cực nhỏ. Cùng với sự tiến bộ của sinh học phân tử và công nghệ giải trình tự, cho phép chúng ta có thể quan sát đƣợc biến đổi mới và nhỏ hơn 1kb nhƣ SNPs, chèn, xóa, lặp đoạn. Sau khi giải mã thành công hệ gen của ngƣời, các công cụ đƣợc phát triển nhằm mô tả thành phần di truyền của hệ gen ngƣời ở mức độ nucleotide. Đặc biệt, những công nghệ mảng quét và sự phân tích chuỗi DNA so sánh hệ gen để lộ ra số lƣợng những sự biến đổi hệ gen nhỏ hơn mức vi mô và lớn hơn so với những phát hiện do phân tích trình tự quy ƣớc. Những sự biến đổi đó đƣợc định nghĩa nhƣ những sự biến đổi cấu trúc siêu hiển vi[4]. Hàng trăm bản sao số biến thể (CNVs) đã đƣợc mô tả trong bản đồ gen con ngƣời với trợ giúp của những công nghệ đó.
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Hình 1.7: Bản sao - số biến thể ( CNVs)[5]
Hình 1.7 trên cho thấy số lƣợng của CNVs, sự đảo đoạn tìm thấy cùng với phân phối kích thƣớc của chúng. Những thanh chắn xanh chỉ ra thông báo CNVs, những thanh chắn đỏ chỉ ra thông báo những điểm dừng đảo đoạn, những thanh chắn xanh lục tới bên trái chỉ báo những sao chép phân đoạn.
Bảng 1.4 Bảng cho thấy CNVs và đảo đoạn[5]
Chỉ số Mức phối Mức mẫu
CNVs 21801 610834
Đảo đoạn 892 1734
Hình 1.8: Đồ thị gia tăng CNV và InDel đã thêm vào CSDL từ năm 2002[5]
Khi bắt đầu nghiên cứu về nhiễm sắc thể, đột biến đảo đoạn luôn đƣợc quan tâm, đảo đoạn là một trong những nguyên nhân cơ bản nhất gây ra những sự sắp xếp lại hệ gen và có vai trò quan trọng trong quá trình tiến hóa động vật linh trƣởng. Khi so sánh hệ gen ngƣời và hệ gen tinh tinh chúng ta có thể quan sát đƣợc chín đột biến đảo đoạn bao gồm tâm động và nhiều
0 100000 200000 300000 400000 500000 600000 700000 800000 900000 1000000 2002 2004 2005 2006 2007 2008 2009 2010 2011 2012 Số lƣợn g
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
chuỗi trình tự bị đảo đoạn siêu nhỏ[5]. Phát hiện này cho thấy đảo đoạn có vai trò quan trọng trong việc thực hiện sắp xếp lại gen và xảy ra khá thƣờng xuyên trong quá trình tiến hóa của động vật linh trƣởng.
Hình 1.9: Đồ thị sự phân phối kích thước CNVs trong cơ sở dữ liệu[5]
0 50000 100000 150000 200000 250000 300000 350000 400000 450000 số lƣ ợn g Kích thƣớc
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Hình 1.10: Phần lớn sự đảo đoạn đến nay có cỡ 10 đến 100kb[5]
Các trình tự hệ gen của các loài sinh vật có thể đƣợc giải mã một cách hoàn thiện bằng các máy đọc trình tự thế hệ mới, tuy nhiên kết quả dữ liệu đó muốn xử lý để phát hiện ra sự biến đổi cấu trúc trong toàn bộ hệ gen là một vấn đề quan trọng. Yêu cầu đó tƣơng tự nhƣ việc gióng hàng và so sánh 2 chuỗi sinh học S1, S2. Gióng hàng và so sánh cặp chuỗi này có thể đƣợc thực hiện bằng cách chèn thêm vào hai chuỗi S1 và S2 các dấu cách (kí hiệu là - ) tại các vị trí bất kỳ với số lƣợng không hạn chế để tạo ra 2 chuỗi S1‟ và S2‟ tƣơng ứng, sau đó đặt một chuỗi trên chuỗi kia sao cho mỗi kí tự của chuỗi này gióng thẳng với một kí tự của chuỗi kia và cặp trình tự gióng không đồng thời là dấu cách.
Chuỗi sinh học ban đầu không có dấu cách và nếu loại bỏ dấu khỏi S1‟ và S2‟ ta sẽ có S1 và S2 ban đầu.
Phân loại:
Phép so sánh trình tự theo hƣớng toàn cục: Phép toán so sánh đƣợc áp dụng trên toàn bộ chuỗi trình tự. Thƣờng đƣợc sử dụng khi các trình tự so sánh có kích thƣớc gần tƣơng đƣơng và các trình tự này có độ tƣơng đồng,
0 50 100 150 200 250 0-1kb 1kb-10kb 10kb-100kb 100kb-1Mb >1Mb Số lƣợ ng Kích thƣớc
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
giống nhau cao. Công thức (1) tính toán cho việc so sánh nhƣ sau (so sánh 2 chuỗi)
F(i-1,j-1) + s(xi,yj)
F(i,j) = max F(i-1,j) – d (1) F(i,j-1) - d
Phép so sánh trình tự theo hƣớng cục bộ: Phép toán so sánh đƣợc sử dụng trên một phần của chuỗi trình tự. Thƣờng đƣợc sử dụng khi các trình tự có chiều dài lớn, độ tƣơng đồng giống nhau không cao, chỉ có một số ít các gene giống nhau trên 2 trình tự, hoặc khi 2 trình tự có kích thƣớc khác biệt lớn. Công thức (2) tính nhƣ sau:
F(i-1,j-1) + s(xi,yj)
F(i,j) = max F(i-1,j) – d (2) F(i,j-1) - d
0
Với F(i, j) là điểm số tƣơng đồng tích luỹ dần khi so sánh hai chuỗi trình tự tới vị trí i của chuỗi 1 và j của chuỗi 2. Và s là hàm tính toán sự tƣơng đồng từng ký hiệu đơn của hai chuỗi dựa trên các bảng đánh giá nhƣ PAM, BLOSUM. Với cách tính trên, kết quả của vị trí so sánh cuối cùng F(n1,n2) là số điểm tính sự tƣơng đồng giữa các trình tự.
Khi so sánh nhiều trình tự ta có cách tính tổng số điểm tƣơng đồng (SP – Sum of Pairs) là tổng điểm tƣơng đồng của từng cặp nhƣ sau:
S = =
Trong đó S(mi) là điểm tƣơng đồng tính tại một vị trí i của toàn bộ các trình tự, S( )là điểm tƣơng đồng của cặp trình tự j và k tại vị trí i. Từ trên ta thấy ở mức độ đơn giản, chỉ so sánh giữa hai trình tự với nhau (PSA – sắp hàng cặp trình tự), ta ký hiệu hai chuỗi trình tự là S1, S2. Trong đó S1 có độ dài là n1 và S2 có độ dài là n2 thì phƣơng pháp so trùng tìm sự tƣơng đồng tối ƣu có độ phức tạp là O(n1n2).
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Tuy nhiên với k chuỗi có độ dài n, khi áp dụng quy hoạch động thì độ phức tạp vẫn rất lớn: O((2k
-1) nk)[15]. Vấn đề càng phức tạp hơn khi có xu hƣớng so sánh toàn bộ hệ gen (lên tới cả tỷ ký tự) chứ không chỉ là một đoạn trình tự (thường chỉ vài trăm đến vài ngàn ký tự).
Bài toán đặt ra cho các nhà khoa học là phát hiện ra sự biến đổi cấu trúc trong hệ gen của các loài sinh vật nói chung và đột biến đảo đoạn trong hệ gen của cá thể sinh vật nói riêng, qua đó có thể giải thích cho các sự thay đổi sảy ra trong cá thể, đồng thời là cơ sở để đánh giá về sự tiến hóa, chọn lựa giống mới, tạo ra các loài mới. Tuy nhiên thử thách đặt ra với các nhà sinh vật ở đây là:
+ Mô tả cấu trúc dữ liệu hệ gen của các sinh vật.
+ Tổng hợp các hệ gen của một loài sinh vật để đƣa ra cấu trúc tham chiếu đại diện cho sinh vật đó.
+ So sánh hệ gen của một cá thể với hệ gen tham chiếu.
+ Xử lý các hệ gen của cá thể để đƣa ra đƣợc các đột biến cấu trúc trong cá thể.
Để giải quyết các vấn đề đó các nhà lập trình hệ thống đã đƣa ra phƣơng pháp giải quyết dựa trên cơ sở lý thuyết của công nghệ sinh học nhƣ sau:
+ Mô tả cấu trúc dữ liệu hệ gen bằng các ký tự văn bản A,T,G,C… tƣơng ứng cho từng Nucleotit, đồng thời tạo thêm các ràng buộc liên quan nhƣ về tên trình tự, vị trí trình tự, hoặc chất lƣợng các trình tự…
+ Xây dựng ngân hàng hệ gen tham chiếu NCBI của tất cả các loài. + Xây dựng các công cụ hỗ trợ so sánh hệ gen của cá thể với hệ gen tham chiếu nhƣ Bowtie, BWA, TMAP, Wgsim bằng các ngôn ngữ lập trình nhƣ C, Perl, Python… trên nền các hệ điều hành khác nhau nhƣ Windows, Unix, Linux…
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
+ Xứ lý hệ gen để đƣa ra các đột biến bằng các chƣơng trình nhƣ BreakDancer hoặc SVDetect ….
Tuy nhiên trong khuôn khổ luận văn này, tôi sẽ tìm hiểu về phƣơng pháp đọc trình tự gen, sử dụng hệ gen tham chiếu đã có sẵn trên NCBI và sử dụng một số công cụ nhƣ Bowtie, TMAP, Wgsim để so sánh hệ gen đồng thời xây dựng một chƣơng trình demo bằng ngôn ngữ Perl chạy trên nền Ubuntu mô phỏng thuật toán Smith-Waterman để phát hiện các đột biến đảo đoạn trong hệ gen của các loài sinh vật (cụ thể là hệ gen ngƣời Hg19).