Phần 2 Tổng quan tài liệu
2.3. Nguyên lý và ứng dụng của GBS
2.3.2. Nguyên lý của phƣơng pháp GBS
Sự phát triển của các chỉ thị phân tử ngày càng làm tăng độ chính xác trong việc xác định mức độ đa hình của các quần thể nghiên cứu nhƣng chi phí cao và yêu cầu nhiều nhân lực, trang thiết bị cũng nhƣ cần thời gian khá dài để tiến hành mỗi bƣớc. Sự xuất hiện của các mảng SNP (microarray) đã làm giảm đáng kể thời gian và công sức thực hiện nhƣng việc phát triển các chỉ thị mới vẫn địi hỏi chi phí đầu tƣ rất cao. Những marker này cũng chỉ đặc trƣng cho quần thể làm cơ sở để phát triển lên bộ chỉ thị đó, dẫn đến kết quả quy chiếu của các alen có thể khác nhau ở các quần thể, các loài khác nhau. Các thơng tin trình tự sơ bộ của các vùng xung quanh các SNPs quan tâm cũng đƣợc sử dụng để phát triển các marker, nhƣng chỉ một tỷ lệ rất nhỏ các SNPs trong các bộ dữ liệu giải trình tự thơng thƣờng có thể đƣợc coi là thích hợp để phát triển marker, bao gồm các SNPs nằm gần các vùng lặp, các vùng marker đã biết hoặc các vùng đáng quan tâm khác. Sự tiến bộ của hóa chất và các phần mềm phân tích dữ liệu đã làm cho giá thành của các nghiên cứu NGS giảm đáng kể, các nghiên cứu giải trình tự đƣợc mở rộng trên phạm vi cả quần thể chứ khơng cịn dừng lại ở một số cá thể có quan hệ họ hàng để tìm kiếm các biến thể, toàn bộ genome đồng thời đƣợc khảo sát và sẽ có hàng trăm nghìn markers đồng thời đƣợc ghi nhận (Elshire et al., 2011). Phƣơng pháp đánh giá kiểu gen dựa vào việc giải
trình tự - “Genotyping by Sequencing” (GBS) đƣợc thực hiện dựa trên nguyên tắc của phƣơng pháp giải trình tự NGS, phƣơng pháp này cũng sử dụng trực tiếp dữ liệu kiểu gen từ các quần thể. Các bƣớc cơ bản để tiến hành một nghiên cứu GBS bao gồm:
Bƣớc 1: Chuẩn bị mẫu ADN;
Bƣớc 2: Lựa chọn enzyme cắt giới hạn và thiết kế các bộ tiếp hợp (adapter) phù hợp với từng thí nghiệm;
Chú thích: Màu xanh đậm là ADN của mẫu 1, màu xanh nhạt là ADN của mẫu 2, vị trí màu đỏ là vị trí cắt của enzyme giới hạn, màu vàng là bộ tiếp hợp có gắn mã hóa 1, màu tím là bộ tiếp hợp có gắn mã hóa 2,
màu xám là vị trí gắn của bộ tiếp hợp thơng thƣờng.
Hình 2.6. Các bƣớc chính trong q trình thực hiện GBS
Bƣớc 3: Chuẩn bị thƣ viện ADN để đƣa vào giải trình tự theo phƣơng pháp NGS;
Bƣớc 4: Xử lý dữ liệu thô từ kết quả giải trình tự; Bƣớc 5: Sắp xếp các ADN theo chuỗi;
Bƣớc 6: Xác định các đa hình từ dữ liệu NGS.
Theo trình tự của các bƣớc này lần lƣợt ADN đƣợc chiết tách từ các cá thể nghiên cứu sẽ đƣợc làm giảm kích thƣớc bằng cách sử dụng các enzyme cắt giới hạn, các enzyme này đƣợc lựa chọn phụ thuộc vào mật độ marker, đối tƣợng và mục đích của các nhà nghiên cứu. Có thể kể đến một số loại enzyme đã đƣợc sử dụng nhƣ: ApeKI, PstI, SbfI,... (Davey et al., 2011).
Các đoạn cắt ADN từ các cá thể sẽ đƣợc gắn với một bộ tiếp hợp đã đƣợc mã hóa (để nhận biết từng cá thể) và các bộ tiếp hợp thông thƣờng (màu xám) một cách ngẫu nhiên, kết quả là chúng ta sẽ có các sản phẩm gắn kết gồm có các tổ hợp: bộ tiếp hợp gắn mã vạch + đoạn ADN + bộ tiếp hợp thông thƣờng, bộ tiếp hợp gắn mã vạch + đoạn ADN + bộ tiếp hợp gắn mã vạch, hoặc bộ tiếp hợp thông thƣờng + đoạn ADN + bộ tiếp hợp thông thƣờng. ADN của các mẫu đƣợc gộp lại và đƣợc khuếch đại trong các kênh dịng chảy của máy giải trình tự. Chỉ những đoạn ADN có kích thƣớc ngắn có một đầu gắn với bộ mã vạch, một đầu gắn với bộ tiếp hợp thơng thƣờng mới đƣợc khuếch đại và đọc trình tự. Các đoạn ADN nối giữa các vị trí tái biểu hiện sẽ đƣợc lọc qua suốt quá trình khuếch đại với bản ứng PCR, và đƣợc xác định bằng mơ hình “multiplexed shotgun genotyping hidden” của Markov.
Các đoạn ADN ngắn có độ dài 150 - 350 bp sẽ đƣợc đọc trình tự. Các bƣớc chính trong quá trình đánh giá genotyping bằng phƣơng pháp GBS đƣợc thể hiện cụ thể qua Hình 2.6. Để đảm bảo mức độ chính xác và khả năng thành cơng của GBS chúng ta cần đảm bảo chất lƣợng và độ tinh sạch của nguồn ADN đầu vào, vì chất lƣợng và độ tinh sạch của ADN ban đầu sẽ ảnh hƣởng trực tiếp đến kết quả của quá trình cắt giới hạn, và gắn bộ tiếp hợp (adapter). Thông thƣờng, nồng độ ADN thích hợp dùng cho một nghiên cứu GBS là 100 ng. Các bộ tiếp hợp đƣợc gắn với các bộ mã vạch phải đảm bảo mỗi bộ mã vạch có ít nhất 3 cặp nucleotide khác biệt với các bộ mã vạch khác để đảm bảo khả năng nhận biết của các mẫu ADN trong quá trình giải trình tự. Trong hệ thống giải trình tự Illumina
có từ hơn hai bộ mã vạch trở lên với sự đa dạng của các nucleotide tái biểu hiện, các adapter sẽ đƣợc cố định vị trí trên một bề mặt để loại bỏ một số hạn chế thƣờng gặp của phƣơng pháp giải trình tự Illumina.
Một trong những hạn chế thƣờng gặp của hệ thống giải trình tự Illumina là độ đa dạng thấp ở một số vị trí đặc biệt, khiến cho khả năng xác định trình tự của phần mềm trong hệ thống Illumina giảm đi. Độ đa dạng thấp cũng là một vấn đề làm giảm hiệu quả của phƣơng pháp này, điều này liên quan đến việc nhận biết vị trí cắt của các enzyme giới hạn ở các mẫu giống nhau, khiến cho hàng loạt đoạn cắt đƣợc tạo thành có chiều dài và trình tự giống nhau. Hạn chế này có thể đƣợc khắc phục khi chúng ta sử dụng rất nhiều các bộ mã vạch khác nhau, để tăng số lƣợng mã vạch có đƣợc, phƣơng pháp đánh giá kiểu gen GBS sử dụng các bộ mã vạch có độ dài khác nhau (dài khoảng 4-8 nucleotide). Tuy nhiên, khi thiết kế các bộ mã vạch dựa trên sự thay đổi chiều dài cần đặc biệt chú ý vì nếu trong quá trình giải trình tự chỉ cần 1 nucleotide bị bỏ qua thì bộ mã vạch đó sẽ đƣợc nhận biết nhƣ là một bộ mã vạch khác có độ dài ngắn hơn, và trình tự đó có thể đƣợc ghi nhận là đƣợc xuất phát từ một cá thể khác, làm rối loạn kết quả giải trình tự.
Quá trình nhân bản các đoạn cắt của ADN trong quá trình đọc trình tự là cần thiết, đặc biệt sự lặp lại của các bản copy từ cùng một mẫu ADN ban đầu sẽ giúp chúng ta xác định đƣợc trình tự của các đoạn cắt một các chính xác, đặc biệt là đối với các đoạn cắt không liên tục.
Tại mỗi locus, tổng số quan sát đƣợc của các lần đọc khác nhau có thể đƣợc coi nhƣ là một tập hợp của các mẫu độc lập từ một nhóm nhỏ các khả năng, tuân theo một phân phối đa thức. Trong trƣờng hợp khơng có lỗi, nếu mỗi mẫu hoặc mã vạch đại diện cho một tập hợp của các cá thể, xác suất quan sát đƣợc của mỗi một loại nucleotide trong tổng số 4 loại nucleotide tại một vị trí cụ thể là tần số alen trong tập hợp đó. Nếu mỗi mẫu nghiên cứu là một cá thể lƣỡng bội, xác suất dự kiến là 1 hoặc 0 cho các cá thể đồng hợp tử, là 0,5 hoặc 0 cho các cá thể dị hợp tử. Các xác suất này cần phải đƣợc hiệu chỉnh để khắc phục các ảnh hƣởng do các lỗi xuất hiện trong quá trình xác định SNP và trong phản ứng PCR. Do đó đối với các cá thể lƣỡng bội, xác suất quan sát đƣợc của bốn loại nucleotide ở các cá thể đồng hợp (di truyền 1/1), hoặc dị hợp tử (di truyền 1/2) đƣợc tính tốn theo cơng thức:
Trong đó: n1, n2, n3, n4 là số lần quan sát đƣợc của mỗi loại nucleotide, n là tổng số lần đọc, là tỉ lệ xảy ra lỗi trong quá trình giải trình tự (Davey et al., 2011).
Việc gán các khả năng cho các kiểu gen thay thế tại mỗi locus đƣợc thực hiện sử dụng phân tích kiểu Bayesian. Trong một nghiên cứu phân tích đa dạng kiểu gen GBS, cần đảm bảo số lƣợng cá thể đủ lớn và đa dạng để nâng cao hiệu quả đánh giá của phƣơng pháp này.
Việc cải tiến các quy trình tiến hành GBS để giảm thời gian, tăng độ chính xác và đồng thời giảm giá thành cho mỗi đơn vị nghiên cứu cũng thƣờng xuyên đƣợc các nhà khoa học quan tâm. Sonah et al. (2013) đã phát triển một đƣờng
ống dẫn phân tích mới để xác định đƣợc SNP và các indels từ kết quả đọc trình tự, đồng thời sử dụng một quy trình mới tạo thƣ viện GBS bằng enzyme cắt giới hạn ApeKI, đọc trình tự trên máy Illumina GAIIx. Ứng dụng phƣơng pháp này
trên bộ gen của 8 giống đậu tƣơng có nhiều khác biệt, tác giả đã xác định đƣợc 10120 SNPs chất lƣợng cao, trong đó có 39,5% các SNPs nằm trong vùng trình tự của các gen và 52,5% trong số đó nằm trong các vùng mã hóa protein. Đồng thời, 400 kiểu gen đƣợc khảo sát với 1 bộ SNPs đƣợc lựa chọn ngẫu nhiên từ kết quả nghiên cứu trên sử dụng phƣơng pháp giải trình tự kinh điển Sanger cho tỷ lệ thành cơng 98%. Sau đó tác giả tiến hành nghiên cứu sử dụng các cặp mồi chọn lọc để làm giảm độ phức tạp trong quá trình tạo thƣ viện GBS. Kết quả cho thấy có thể tăng số lƣợng SNPs tìm thấy lên khoảng 40%. Thành cơng của nghiên cứu này đã mở ra khả năng nâng cao số mẫu nghiên cứu, giảm giá thành, đồng thời nâng cao chất lƣợng và số lƣợng SNPs xác định đƣợc trong mỗi nghiên cứu (Sonah et al., 2013).
Với những cải tiến ngày càng tối ƣu hóa hiệu quả, nâng cao độ chính xác, giảm thời gian xử lý, giảm giá thành, GBS đã trở thành lựa chọn ƣa thích của các
nhà nghiên cứu di truyền và chọn tạo giống cây trồng. Các nghiên cứu ứng dụng GBS để phục vụ các mục tiêu khác nhau đang ngày càng mở rộng trên nhiều đối tƣợng cây trồng khác nhau. Theo thống kê của NCBI (National Center of Biotechnology Information, USA), số lƣợng các công bố liên quan đến GBS liên tục tăng trong 10 năm trở lại đây, số lƣợng tăng mạnh từ sau năm 2014, riêng năm 2017 đã có khoảng 200 cơng bố, và trong nửa đầu 2018 đã có khoảng trên 50 bài.