Phần 5 Kết luận và kiến nghị
2.6. Các bƣớc chính trong q trình thực hiện GBS
Bƣớc 3: Chuẩn bị thƣ viện ADN để đƣa vào giải trình tự theo phƣơng pháp NGS;
Bƣớc 4: Xử lý dữ liệu thô từ kết quả giải trình tự; Bƣớc 5: Sắp xếp các ADN theo chuỗi;
Bƣớc 6: Xác định các đa hình từ dữ liệu NGS.
Theo trình tự của các bƣớc này lần lƣợt ADN đƣợc chiết tách từ các cá thể nghiên cứu sẽ đƣợc làm giảm kích thƣớc bằng cách sử dụng các enzyme cắt giới hạn, các enzyme này đƣợc lựa chọn phụ thuộc vào mật độ marker, đối tƣợng và mục đích của các nhà nghiên cứu. Có thể kể đến một số loại enzyme đã đƣợc sử dụng nhƣ: ApeKI, PstI, SbfI,... (Davey et al., 2011).
Các đoạn cắt ADN từ các cá thể sẽ đƣợc gắn với một bộ tiếp hợp đã đƣợc mã hóa (để nhận biết từng cá thể) và các bộ tiếp hợp thông thƣờng (màu xám) một cách ngẫu nhiên, kết quả là chúng ta sẽ có các sản phẩm gắn kết gồm có các tổ hợp: bộ tiếp hợp gắn mã vạch + đoạn ADN + bộ tiếp hợp thông thƣờng, bộ tiếp hợp gắn mã vạch + đoạn ADN + bộ tiếp hợp gắn mã vạch, hoặc bộ tiếp hợp thông thƣờng + đoạn ADN + bộ tiếp hợp thông thƣờng. ADN của các mẫu đƣợc gộp lại và đƣợc khuếch đại trong các kênh dịng chảy của máy giải trình tự. Chỉ những đoạn ADN có kích thƣớc ngắn có một đầu gắn với bộ mã vạch, một đầu gắn với bộ tiếp hợp thông thƣờng mới đƣợc khuếch đại và đọc trình tự. Các đoạn ADN nối giữa các vị trí tái biểu hiện sẽ đƣợc lọc qua suốt quá trình khuếch đại với bản ứng PCR, và đƣợc xác định bằng mơ hình “multiplexed shotgun genotyping hidden” của Markov.
Các đoạn ADN ngắn có độ dài 150 - 350 bp sẽ đƣợc đọc trình tự. Các bƣớc chính trong q trình đánh giá genotyping bằng phƣơng pháp GBS đƣợc thể hiện cụ thể qua Hình 2.6. Để đảm bảo mức độ chính xác và khả năng thành công của GBS chúng ta cần đảm bảo chất lƣợng và độ tinh sạch của nguồn ADN đầu vào, vì chất lƣợng và độ tinh sạch của ADN ban đầu sẽ ảnh hƣởng trực tiếp đến kết quả của quá trình cắt giới hạn, và gắn bộ tiếp hợp (adapter). Thơng thƣờng, nồng độ ADN thích hợp dùng cho một nghiên cứu GBS là 100 ng. Các bộ tiếp hợp đƣợc gắn với các bộ mã vạch phải đảm bảo mỗi bộ mã vạch có ít nhất 3 cặp nucleotide khác biệt với các bộ mã vạch khác để đảm bảo khả năng nhận biết của các mẫu ADN trong quá trình giải trình tự. Trong hệ thống giải trình tự Illumina
có từ hơn hai bộ mã vạch trở lên với sự đa dạng của các nucleotide tái biểu hiện, các adapter sẽ đƣợc cố định vị trí trên một bề mặt để loại bỏ một số hạn chế thƣờng gặp của phƣơng pháp giải trình tự Illumina.
Một trong những hạn chế thƣờng gặp của hệ thống giải trình tự Illumina là độ đa dạng thấp ở một số vị trí đặc biệt, khiến cho khả năng xác định trình tự của phần mềm trong hệ thống Illumina giảm đi. Độ đa dạng thấp cũng là một vấn đề làm giảm hiệu quả của phƣơng pháp này, điều này liên quan đến việc nhận biết vị trí cắt của các enzyme giới hạn ở các mẫu giống nhau, khiến cho hàng loạt đoạn cắt đƣợc tạo thành có chiều dài và trình tự giống nhau. Hạn chế này có thể đƣợc khắc phục khi chúng ta sử dụng rất nhiều các bộ mã vạch khác nhau, để tăng số lƣợng mã vạch có đƣợc, phƣơng pháp đánh giá kiểu gen GBS sử dụng các bộ mã vạch có độ dài khác nhau (dài khoảng 4-8 nucleotide). Tuy nhiên, khi thiết kế các bộ mã vạch dựa trên sự thay đổi chiều dài cần đặc biệt chú ý vì nếu trong quá trình giải trình tự chỉ cần 1 nucleotide bị bỏ qua thì bộ mã vạch đó sẽ đƣợc nhận biết nhƣ là một bộ mã vạch khác có độ dài ngắn hơn, và trình tự đó có thể đƣợc ghi nhận là đƣợc xuất phát từ một cá thể khác, làm rối loạn kết quả giải trình tự.
Quá trình nhân bản các đoạn cắt của ADN trong quá trình đọc trình tự là cần thiết, đặc biệt sự lặp lại của các bản copy từ cùng một mẫu ADN ban đầu sẽ giúp chúng ta xác định đƣợc trình tự của các đoạn cắt một các chính xác, đặc biệt là đối với các đoạn cắt không liên tục.
Tại mỗi locus, tổng số quan sát đƣợc của các lần đọc khác nhau có thể đƣợc coi nhƣ là một tập hợp của các mẫu độc lập từ một nhóm nhỏ các khả năng, tuân theo một phân phối đa thức. Trong trƣờng hợp khơng có lỗi, nếu mỗi mẫu hoặc mã vạch đại diện cho một tập hợp của các cá thể, xác suất quan sát đƣợc của mỗi một loại nucleotide trong tổng số 4 loại nucleotide tại một vị trí cụ thể là tần số alen trong tập hợp đó. Nếu mỗi mẫu nghiên cứu là một cá thể lƣỡng bội, xác suất dự kiến là 1 hoặc 0 cho các cá thể đồng hợp tử, là 0,5 hoặc 0 cho các cá thể dị hợp tử. Các xác suất này cần phải đƣợc hiệu chỉnh để khắc phục các ảnh hƣởng do các lỗi xuất hiện trong quá trình xác định SNP và trong phản ứng PCR. Do đó đối với các cá thể lƣỡng bội, xác suất quan sát đƣợc của bốn loại nucleotide ở các cá thể đồng hợp (di truyền 1/1), hoặc dị hợp tử (di truyền 1/2) đƣợc tính tốn theo cơng thức:
Trong đó: n1, n2, n3, n4 là số lần quan sát đƣợc của mỗi loại nucleotide, n là tổng số lần đọc, là tỉ lệ xảy ra lỗi trong quá trình giải trình tự (Davey et al., 2011).
Việc gán các khả năng cho các kiểu gen thay thế tại mỗi locus đƣợc thực hiện sử dụng phân tích kiểu Bayesian. Trong một nghiên cứu phân tích đa dạng kiểu gen GBS, cần đảm bảo số lƣợng cá thể đủ lớn và đa dạng để nâng cao hiệu quả đánh giá của phƣơng pháp này.
Việc cải tiến các quy trình tiến hành GBS để giảm thời gian, tăng độ chính xác và đồng thời giảm giá thành cho mỗi đơn vị nghiên cứu cũng thƣờng xuyên đƣợc các nhà khoa học quan tâm. Sonah et al. (2013) đã phát triển một đƣờng
ống dẫn phân tích mới để xác định đƣợc SNP và các indels từ kết quả đọc trình tự, đồng thời sử dụng một quy trình mới tạo thƣ viện GBS bằng enzyme cắt giới hạn ApeKI, đọc trình tự trên máy Illumina GAIIx. Ứng dụng phƣơng pháp này
trên bộ gen của 8 giống đậu tƣơng có nhiều khác biệt, tác giả đã xác định đƣợc 10120 SNPs chất lƣợng cao, trong đó có 39,5% các SNPs nằm trong vùng trình tự của các gen và 52,5% trong số đó nằm trong các vùng mã hóa protein. Đồng thời, 400 kiểu gen đƣợc khảo sát với 1 bộ SNPs đƣợc lựa chọn ngẫu nhiên từ kết quả nghiên cứu trên sử dụng phƣơng pháp giải trình tự kinh điển Sanger cho tỷ lệ thành cơng 98%. Sau đó tác giả tiến hành nghiên cứu sử dụng các cặp mồi chọn lọc để làm giảm độ phức tạp trong quá trình tạo thƣ viện GBS. Kết quả cho thấy có thể tăng số lƣợng SNPs tìm thấy lên khoảng 40%. Thành cơng của nghiên cứu này đã mở ra khả năng nâng cao số mẫu nghiên cứu, giảm giá thành, đồng thời nâng cao chất lƣợng và số lƣợng SNPs xác định đƣợc trong mỗi nghiên cứu (Sonah et al., 2013).
Với những cải tiến ngày càng tối ƣu hóa hiệu quả, nâng cao độ chính xác, giảm thời gian xử lý, giảm giá thành, GBS đã trở thành lựa chọn ƣa thích của các
nhà nghiên cứu di truyền và chọn tạo giống cây trồng. Các nghiên cứu ứng dụng GBS để phục vụ các mục tiêu khác nhau đang ngày càng mở rộng trên nhiều đối tƣợng cây trồng khác nhau. Theo thống kê của NCBI (National Center of Biotechnology Information, USA), số lƣợng các công bố liên quan đến GBS liên tục tăng trong 10 năm trở lại đây, số lƣợng tăng mạnh từ sau năm 2014, riêng năm 2017 đã có khoảng 200 cơng bố, và trong nửa đầu 2018 đã có khoảng trên 50 bài.
2.3.3. Các ứng dụng của GBS trong chọn giống cây trồng
Nhƣ đã trình bày ở trên, GBS (Genotyping-by-Sequencing) là phƣơng pháp phân tích kiểu gen trên cơ sở giải trình tự theo công nghệ NGS, cho phép giải trình tự nhiều mẫu trong cùng một lần, phục vụ cho các nghiên cứu tìm kiếm marker phân tử trong tồn hệ gen và phân tích, so sánh genome của nhiều cá thể nghiên cứu.
Sự linh hoạt và giá thành thấp đã khiến cho GBS trở thành một cơng cụ tuyệt vời có nhiều ứng dụng trong nghiên cứu di truyền và chọn giống cây trồng nhƣ: xác định SNPs; lập bản đồ gen, bản đồ QTLs; phân tích đa dạng ở mức độ phân tử; nghiên cứu di truyền liên kết toàn genome (GWAS); xây dựng bản đồ genome ở mức độ phân giải cao; lập bản đồ haplotype, dựng cây phân loại; xác định các gen ứng viên; phân tích di truyền liên kết; thăm dị các marker phân tử mới; giải trình tự tồn genome và chọn lọc dựa trên kiểu gen. Sự cải tiến trong kỹ thuật, sự hoàn thiện của các genome đối chứng, và những tiến bộ của các công cụ tin sinh học khiến cho hiệu quả của GBS ngày càng đƣợc khẳng định trong các nghiên cứu gần đây, trên nhiều đối tƣợng cây trồng khác nhau.
GBS đã đƣợc chứng minh là một công cụ hữu hiệu trong các nghiên cứu về đa dạng kiểu gen (Fu and Peterson, 2011; Fu et al., 2014). Fu and Peterson (2011) đã áp dụng hệ thống giải trình tự Roche 454 GS FLX titanium để tiến hành phân tích sự đa dạng di truyền của 16 giống lúa mạch khác nhau, kết quả xác định đƣợc 2578 đoạn contigs và gần 4000 SNPs trong genome của các giống này. Năm 2014, Fu và cộng sự đã sử dụng phƣơng pháp GBS để phân tích sự đa dạng di truyền của 24 loại mù tạt khác nhau, với khoảng 1,2 triệu lần đọc, xác định đƣợc 512 contigs và 828 SNPs. Phân tích đa dạng của các SNPs thu đƣợc cho thấy, có khoảng 26,1% tổng số các biến thể nằm trong các nguồn gen địa phƣơng, các giống cải tiến, các dòng chọn giống; 24,7% nằm giữa nhóm giống hạt đen và hạt vàng.
Một trong những ứng dụng quan trọng nhất của GBS trong chọn giống cây trồng là xác định các điểm đánh dấu SNPs với mật độ cao trong genome để lập bản đồ di truyền. Năm 2009, Scheneeberger et al. (2009) đã sử dụng phƣơng
pháp GBS để tiến hành giải trình tự gen 500 cây F2 trong quần thể con lai giữa một giống Arabidopsis đột biến có đặc điểm sinh trƣởng chậm, màu lá nhạt với
một loài hoang dại, một bản đồ di truyền liên kết đã đƣợc thiết lập để xác định đƣợc nguyên nhân gây ra dạng đột biến này. Ở lúa, Spindel et al. (2013) đã sử dụng phƣơng pháp phân tích kiểu gen GBS loại 384 kênh để phân tích một quần thể lập bản đồ gồm 176 dòng thuần tái tổ hợp từ 1 giống lúa indica và một giống
japonica để lập bản đồ tái tổ hợp tính chịu nóng, chịu lạnh, lập bản đồ QTLs cho
tính trạng chiều rộng lá và khả năng chống chịu với nhơm. Ở ngơ, một phân tích kiểu gen toàn diện đã đƣợc tiến hành trên 2815 dòng thuần, kết quả nhận biết đƣợc 681257 SNPs marker trong toàn bộ genome, trong đó có một số SNPs marker liên kết với các gen đƣợc cho là có liên quan đến màu sắc nội nhũ, độ ngọt và thời gian sinh trƣởng (Romay et al., 2013). GBS cũng đƣợc áp dụng trên cây lúa mỳ, kết quả đã xác định đƣợc thêm hơn 1000 điểm đánh dấu trong bản đồ di truyền của lúa mỳ (Poland et al., 2012). Nghiên cứu của Poland et al. (2012)
đƣợc thực hiện tại thời điểm chƣa có cơng bố nào về trình tự tồn genome của lúa mì đƣợc công bố, mặc dù vậy vẫn đạt hiệu quả rất cao. Điều này cho thấy một trình tự genome đối chứng có thể giúp đơn giản hóa trong việc phân tích kết quả GBS nhƣng nó khơng thực sự cần thiết trong một nghiên cứu GBS. Ƣu điểm này khiến GBS có thể đẩy nhanh tiến độ của các nghiên cứu chọn tạo và cải tiến giống cây trồng. Tƣơng tự, những nghiên cứu sử dụng GBS trên cây yến mạch của Huang et al. (2014) khi chƣa có gemone đối chứng đã một lần nữa khẳng
định điều này.
Sự phát triển khơng ngừng và ngày càng hồn thiện của các thiết bị hỗ trợ bao gồm hệ thống máy móc giải trình tự, các siêu máy tính, các phần mềm xử lý thống kê… đã làm giảm giá thành của GBS. Phƣơng pháp GBS trở nên phù hợp hơn, hiệu quả hơn đối với các đề tài dự án có mục tiêu khai thác sự đa dạng di truyền, tìm kiếm nguồn gen sẵn có trong tự nhiên để ứng dụng vào các chƣơng trình chọn tạo giống trên thế giới nói chung và cho các nghiên cứu GWAS nói riêng. Đặc biệt ở Việt Nam, đất nƣớc nhiệt đới với nguồn tài nguyên di truyền phong phú đa dạng thì GBS chính là chìa khóa giúp chúng ta mở ra kho tàng sẵn có của tự nhiên, tìm ra các gen, alen mới mang thƣơng hiệu Việt Nam để đƣa vào các chƣơng trình chọn tạo giống, cải tiến giống hiện tại và trong tƣơng lai.
2.4. NGUYÊN LÝ VÀ ỨNG DỤNG CỦA GWAS 2.4.1. Nguyên lý 2.4.1. Nguyên lý
GWAS là một phƣơng pháp đƣợc sử dụng để phân tích cơ sở di truyền của biến thể trong các tính trạng định lƣợng phức tạp bằng cách thiết lập các liên kết thống kê giữa kiểu hình và kiểu gen (Nordborg and Weigel, 2008). Cũng giống nhƣ phƣơng pháp lập bản đồ QTLs truyền thống, phƣơng pháp GWAS dựa vào thống kê sự mất cân bằng liên kết (Linkage disequilibrium – LD) để xác định mối tƣơng quan giữa từng biến thể ADN ở gần nhau với sự đa hình của tính trạng quan tâm. Khác nhau là, các nghiên cứu QTLs truyền thống sử dụng LD tồn tại trong một quần thể con cái có cùng chung một cặp bố mẹ ban đầu, có sơ đồ phả hệ rõ ràng, trong khi GWAS sử dụng LD tồn tại trong một quần thể hoặc loài (Flint-Garcia et al., 2003). Trong GWAS, các cá thể trong quần thể nghiên cứu có thể có tổ tiên chung, có thể có các sự kiện tái tổ hợp xảy ra, nhƣng đã trải qua q trình tiến hóa và chọn lọc trong lịch sử hàng trăm, hàng nghìn năm.
Trong các nghiên cứu GWAS, sự mất cân bằng liên kết (LD) ghi nhận đƣợc giữa một locus chức năng và một chỉ thị phân tử là rất thấp, trừ khi chúng ở rất gần nhau. Nếu LD chỉ xảy ra trên một khoảng ngắn, đồng nghĩa với độ phân giải của bản đồ QTLs cao, nhƣng số lƣợng marker đánh dấu phải đủ lớn. Ngƣợc lại, nếu LD xảy ra trên một khoảng dài hơn thì độ phân giải của bản đồ QTLs sẽ thấp, nhƣng số lƣợng marker cần sử dụng để đánh dấu sẽ không quá lớn. Mối tƣơng quan tỷ lệ nghịch giữa tỷ lệ phân rã của LD theo khoảng cách vật lý giữa các locus trên nhiễm sắc thể tùy thuộc vào mỗi tập đoàn nghiên cứu, và các phân đoạn nhiễm sắc thể đƣợc nghiên cứu.
Phân tích LD phải đƣợc đặc biệt chú trọng trong các nghiên cứu GWAS để xác định xem số lƣợng marker sử dụng đã thỏa mãn yêu cầu để đạt đƣợc các mục tiêu của GWAS hay không. Hai chỉ số thống kê hay đƣợc sử dụng nhất hiện nay để tính tốn LD là r2 và D. Trong đó giá trị r2
đƣợc sử dụng nhiều hơn trong các nghiên cứu di truyền liên kết vì nó ít chịu tác động trực tiếp của tần số alen hơn. Giá trị r2 = 0,1 và r2 = 0,2 đƣợc dùng để mơ tả sự phân rã của LD trong tập đồn nghiên cứu, từ đó xác định đƣợc vùng liên kết chặt đáng tin cậy của QTLs liên quan đến sự biến đổi của tính trạng quan tâm. Độ dài khoảng cách mà tại đó r2 ≥ 0,5 có thể đƣợc coi là khoảng tin cậy của QTLs. Giá trị r2 càng gần tới 1 thì
mức độ liên kết của QTLs càng chặt. Đây cũng là cơ sở để xác định vùng an tồn khi tìm kiếm các gen ứng viên có liên quan đến tính trạng nghiên cứu sau khi xác định đƣợc QTLs. Các nghiên cứu ở lúa trƣớc đây cho thấy, độ phân rã LD ở lúa (Oryza sativa) dao động trong khoảng từ 75 đến trên 500 kb tùy thuộc vào từng