Phần 5 Kết luận và kiến nghị
2.7. So sánh phƣơng pháp xác định QTLs truyền thống và GWAS
Sự tiến bộ không ngừng của cơng nghệ giải trình tự và phân tích hệ gen cùng với sự phát triển của phƣơng pháp luận, thuật toán, phần mềm tin sinh hỗ trợ là nền tảng thúc đẩy các nghiên cứu GWAS phát triển và trở nên phổ biến hơn trên các đối tƣợng cây trồng. Đƣợc nghiên cứu nhiều nhất, sớm nhất phải kể đến Arabidopsis với các tính trạng liên quan đến thời gian ra hoa, thời gian ra
hoa ở các điều kiện thời tiết khác nhau, khả năng chống chịu với các tác nhân gây bệnh… (Aranzana et al., 2005; Atwell et al., 2010; Brachi et al., 2010; Li et al., 2014). Việc công bố các gen ứng viên từ kết quả của các nghiên cứu GWAS ở
Arabidopsis nhƣ: THIOREDOXIN1, THIOREDOXIN1 M-TYPE4, yếu tố phiên
mã β-ZIP điều khiển q trình tích lũy proline trong điều kiện hạn (Verslues et
al., 2014); gen PHOSPHATE1, ROOT SYSTEM ARCHITECTURE 1 liên quan
đến kiến trúc bộ rễ (Rosas et al., 2013); gen điều hịa q trình hình thành rễ bên thơng qua cảm ứng với nồng độ jasmonate – JASMONATE RESPONSIVE 1
(Gifford et al., 2013)… đã khẳng định hiệu quả của việc ứng dụng GWAS trong các nghiên cứu khai thác di truyền. Đến nay, các nghiên cứu GWAS đã mở rộng trên nhiều đối tƣợng cây trồng khác nhƣ: lúa, ngô, lúa mạch, lúa mỳ, đậu tƣơng.
2.4.3. Các bƣớc xây dựng một nghiên cứu GWAS
2.4.3.1. Thu thập và tuyển chọn nguồn vật liệu nghiên cứu
Khi tiến hành một nghiên cứu GWAS, đầu tiên cần thu thập và tuyển chọn các nguồn vật liệu phù hợp với yêu cầu nghiên cứu về mức độ đa dạng cả về kiểu gen lẫn kiểu hình. Vì cấu trúc di truyền của quần thể nghiên cứu sẽ ảnh hƣởng trực tiếp đến LD và quyết định mức độ phân giải của bản đồ, cịn kiểu hình đa dạng hứa hẹn sự xuất hiện của nhiều alen mới, lạ và có ý nghĩa. Cần đặc biệt thận trọng đối với các đối tƣợng nghiên cứu có nhiều mức độ bội thể khác nhau (ví dụ: lúa mỳ có loại 2n, 4n, 6n), tốt nhất là nên đánh giá trƣớc và lựa chọn các mẫu có cùng mức độ bội thể để tránh sự gây nhiễu của các biến thiên kiểu hình liên quan đến liều lƣợng alen (Zhu et al., 2008). Hầu hết các nghiên cứu GWAS đã công bố đều sử dụng các bộ sƣu tập mẫu giống đã trải qua phân tích di truyền hoặc đã đƣợc xác định về nguồn gốc di truyền (Begum et al., 2015; Biscarini et al., 2016). Trong bộ giống nghiên cứu cũng nên có các giống đối chứng làm cơ
sở để so sánh và đánh giá các giống khác nhau (Courtois et al., 2013).
2.4.3.2. Xây dựng bộ dữ liệu kiểu gen
Sau khi tuyển chọn và xây dựng đƣợc bộ sƣu tập nguồn gen phù hợp với mục tiêu của nghiên cứu GWAS, cần có những nghiên cứu phân tích kiểu gen với số lƣợng marker rất lớn bao phủ toàn bộ hệ gen để làm cơ sở dữ liệu cho việc thiết lập bản đồ liên kết giữa kiểu gen và kiểu hình. Hầu hết các nghiên cứu GWAS hiện nay sử dụng phƣơng pháp GBS và SNPs marker để xây dựng bộ dữ liệu haplotype phục vụ cho phân tích liên kết. Nhiều bộ dữ liệu haplotype khổng lồ đã đƣợc công bố (Huang et al., 2012d; Yang et al., 2014).
2.4.3.3. Xác định cấu trúc quần thể và mối quan hệ họ hàng giữa các cá thể
Hiểu biết về đặc điểm cấu trúc của quần thể nghiên cứu là một trong những cách để làm giảm tỷ lệ dƣơng tính giả trong các nghiên cứu GWAS. Phần mềm phân tích cấu trúc quần thể mạnh và hay đƣợc sử dụng phổ biến hiện nay trong các nghiên cứu là STRUCTURE. Thuật toán của nó lần đầu tiên đƣợc mơ tả bởi Pritchard et al. (2000). Đây là một phần mềm đƣợc cung cấp miễn phí, có độ
chính xác rất cao trong phân tích cấu trúc quần thể, là một phần mềm hỗ trợ rất lớn trong các nghiên cứu GWAS. Một cái nhìn bao quát về quá trình hình thành, cải tiến, và những ƣu nhƣợc điểm của STRUCTURE so với các phần mềm tƣơng tự đã đƣợc tổng hợp bởi Porras-Hurtado et al. (2013). Rất nhiều nghiên cứu
GWAS đã sử dụng phần mềm STRUCTURE để tiến hành các phân tích cấu trúc quần thể (Yang et al., 2011; Ravi et al., 2017).
Bên cạnh đó, thêm một yếu tố để kiểm soát và làm giảm số lƣợng dƣơng tính giả trong các nghiên cứu GWAS là mối qua hệ họ hàng giữa các cá thể (K – Kinship) đƣợc tính tốn dựa trên chỉ số BIC-test (Bayesian Information Criterion test) (Gogarten et al., 2012). Các phần mềm hay đƣợc các nhà nghiên cứu sử dụng để tính tốn K có thể kể đến: SPAGeDi (Cui et al., 2013; Galesloot et al., 2014), GAPIT (Boyles et al., 2016), phần mềm R (Begum et al., 2015) hoặc đƣợc tính tốn trực tiếp trên TASSEL (Courtois et al., 2013).
2.4.3.4. Ước lượng giá trị Linkage Disequilibrium (LD)
Ƣớc lƣợng LD là một phần không thể thiếu trong các nghiên cứu GWAS. Giá trị LD giúp chúng ta xác đinh đƣợc khoảng tin cậy của liên kết đƣợc thiết lập giữa một marker và tính trạng quan tâm. Hai chỉ số thống kê hay đƣợc sử dụng nhất hiện nay để tính tốn LD là r2 và D’. Cơng thức tính D’ và r2 đƣợc mô tả rất kỹ trong nghiên cứu của Flint-Garcia et al. (2003). Trong các nghiên cứu GWAS, r2 là chỉ số thích hợp nhất để đo lƣờng LD. Với số lƣợng marker vô cùng lớn phân bố trên toàn hệ gen, giá trị r2 trong các nghiên cứu GWAS sẽ đƣợc tính tốn nhờ các phần mềm hỗ trợ. Có nhiều phần mềm có thể đƣợc sử dụng để tính tốn LD. Phần mềm hay đƣợc sử dụng hiện nay là TASSEL và R.
2.4.3.5. Xây dựng bộ dữ liệu kiểu hình
Đánh giá sự đa dạng kiểu hình để xây dựng bộ dữ liệu ghi nhận sự biến thiên về mức độ biểu hiện của các tính trạng quan tâm, là cơ sở dữ liệu quan trọng trong các nghiên cứu GWAS. Độ chính xác và thơng lƣợng thấp của các nghiên cứu đánh giá biểu hiện kiểu hình vẫn ln là trở ngại cho các nghiên cứu di truyền liên kết quy mơ lớn nói chung, đặc biệt với các nghiên cứu GWAS nói riêng. Bởi vì, trong các nghiên cứu GWAS chúng ta thƣờng phải tiến hành thu thập đồng thời giá trị kiểu hình của một lƣợng lớn các nguồn gen đa dạng khác nhau. Giảm thiểu tác động của mơi trƣờng (E) đến giá trị kiểu hình (Y), để giá trị kiểu hình là phản ánh chân thực nhất biểu hiện của kiểu gen (G), là nền tảng để nâng cao độ mạnh và tính chuẩn xác của các QTLs tìm đƣợc. Lựa chọn phƣơng pháp thiết kế thí nghiệm hợp lý, quy trình thu thập số liệu nhanh nhạy, chính xác và hiệu quả, kết hợp với phƣơng pháp phân tích dữ liệu thống kê phù hợp sẽ giúp các nhà khoa học đạt đƣợc điều này. Phƣơng pháp bố trí thí nghiệm kiểu khối
ngẫu nhiên đầy đủ (RCBD), hoàn toàn ngẫu nhiên (CRD), phƣơng pháp α- lattice là những kiểu bố trí thí nghiệm hay đƣợc sử dụng hiện nay (Dhanapal et al., 2015; Cai et al., 2013; Courtois et al., 2013). Đặc biệt phƣơng pháp α- lattice có ƣu điểm là có thể giảm bớt số mức của yếu tố thí nghiệm trong một khối, rất phù hợp với các thí nghiệm có số mẫu giống cần quan sát lớn trong các nghiên cứu chọn giống hoặc các thí nghiệm đánh giá kiểu hình phục vụ cho GWAS.
Thu thập số liệu kiểu hình là một cơng việc tốn rất nhiều thời gian và sức lực, đây cũng là một trở ngại lớn, thậm chí là một yếu tố khống chế số lƣợng mẫu giống trong các nghiên cứu GWAS nói riêng và các nghiên cứu đánh giá kiểu hình nói chung. Đây có lẽ là lý do mà hiện nay các cơng bố GWAS có số lƣợng mẫu giống rất lớn thƣờng chỉ tập trung vào đánh giá các đặc điểm hình thái, hoặc các đặc điểm liên quan đến chất lƣợng, hình dạng hạt (Huang et al., 2012c; Biscarini et al., 2016; Boyles et al., 2016).
Những năm gần đây các nhà nông học, di truyền học, tin sinh học đã kết hợp với nhiều ngành công nghệ khác để nỗ lực đem đến những cải tiến trong đánh giá kiểu hình ở cây trồng, mục tiêu của những cải tiến này là: nâng cao độ chính xác, giải phóng sức lao động, giảm chi phí, giảm thời gian thu thập và xử lý số liệu thô. Công nghệ quan sát ánh sáng ảnh (2D, 3D), công nghệ thu thập hình ảnh sử dụng ánh sáng hồng ngoại và hình ảnh quang phổ, cơng nghệ chụp cắt lớp 3D, X-quang, chụp CT… đƣợc coi nhƣ chìa khóa trong nhiều nghiên cứu cải tiến phƣơng pháp đánh giá kiểu hình (Yang et al., 2013). Vài năm trở lại đây, với sự phát triển của công nghệ cảm biến, công nghệ thông tin, tự động hóa…một số mơ hình đánh giá kiểu hình tự động hóa với thơng lƣợng cao đã đƣợc thử nghiệm và công bố (Fahlgren et al., 2015; Bai et al., 2016). Không chỉ cố gắng tăng khả năng thu thập và độ tin cậy của các giá trị kiểu hình có tính định lƣợng, một số cải tiến mới đây đang cố gắng lƣợng hóa các tính trạng định tính, ví dụ nhƣ độ cuộn của lá và tỷ lệ lá còn xanh trong nghiên cứu đánh giá mức độ chịu hạn ở lúa (Duan et al., 2018). Nhiều công nghệ mới, hiện đại đƣợc áp dụng trong các nghiên cứu về đặc điểm bộ rễ ở thực vật (Iyer-Pascuzzi et al., 2010; Courtois et al., 2013; Topp et al., 2013). Nhiều phần mềm đƣợc phát triển để hỗ trợ các phân tích kiểu hình phức tạp, ví dụ nhƣ: GiA Roots là phần mềm hỗ trợ phân tích các tính trạng liên quan đến kiến trúc bộ rễ (Galkovskyi et al., 2012), phần mềm tái hiện và phân tích sự phát triển của bộ rễ ở cây trồng - Dynamic Root (Symonova et al., 2015), hay phần mềm phân tích đặc điểm bơng lúa qua hình ảnh – P-TRAP (Al-Tam et al., 2013).
2.4.3.6. Phân tích liên kết tồn hệ gen (GWAS)
Các nghiên cứu phân tích liên kết tồn hệ gen khơng thể thiếu đƣợc công cụ hỗ trợ là các mơ hình phân tích và các phần mềm tin sinh học đƣợc thiết kế chuyên biệt với độ chính xác cao. Kết quả thử nghiệm của Yang et al. (2011) đã chứng minh mơ hình phân tích có sự điều khiển của cả cấu trúc quần thể (Q hoặc PC) và quan hệ họ hàng (K) hay cịn gọi là mơ hình hồi quy tuyến tính hỗ hợp (MLM) cho kết quả đáng tin cậy nhất trong 6 mơ hình. Trong đó mơ hình MLM đƣợc điều khiển đồng thời bởi cấu trúc quần thể thơng qua phân tích thành phần chính (PC) và mối quan hệ họ hàng (K) có thể sẽ là thích hợp nhất với các nghiên cứu GWAS có dữ liệu lớn (Yang et al., 2011). Điều này cũng đƣợc khẳng định trong một nghiên cứu của Courtois et al. (2013). Các phần mềm đƣợc sử dụng để phân tích GWAS hiện nay phổ biến là TASSEL và R.
Phần mềm TASSEL là một phần mềm phân tích miễn phí đƣợc giới thiệu năm 2007 bởi Bradbury et al. (2007). TASSEL là một phần mềm mạnh, nó cung cấp một số phƣơng pháp thống kê mới và mạnh mẽ để lập bản đồ liên kết, đƣợc cung cấp miễn phí, thƣờng xuyên cải tiến và nâng cao tính năng, dễ dàng sử dụng, có hiệu quả và độ chính xác cao. Đây là lý do khiến TASSEL đƣợc sử dụng nhiều trong các cơng trình nghiên cứu ở nhiều đối tƣợng khác nhau (Cai et
al., 2013; Cao et al., 2016).
Phần mềm R cũng là một phần mềm miễn phí, nhƣng khác với STRUCTURE hay TASSEL, nó vừa là mơi trƣờng vừa là ngơn ngữ lập trình để thiết lập các phân tích thống kê và biểu diễn đồ họa. R đƣợc giới thiệu lần đầu tiên vào năm 1996 (Ihaka and Gentleman, 1996) và khơng ngừng đƣợc hồn thiện trong suốt những năm qua, R trở thành một trong những phần mềm phân tích thống kê mạnh mẽ nhất, đƣợc sử dụng nhiều nhất hiện nay. R cung cấp một loạt các thông kê (mô hình tuyến tính và phi tuyến, các kiểm định thống kê cổ điển, phân tích chuỗi, phân lớp, phân cụm…), các kỹ thuật đồ họa và có khả năng mở rộng cao. Điểm mạnh của R là phân mềm này cung cấp cơng cụ để ngƣời dùng có thể lập trình và tùy chỉnh các lệnh phân tích sao cho kết quả đáp ứng tối đa mục tiêu nghiên cứu. Một ƣu điểm khác là các công cụ đồ họa của R rất mạnh, do đó hình ảnh có từ R thƣờng đẹp và sắc nét hơn so với các phần mềm phân tích thống kê khác. Các cải tiến và các gói cơng cụ hỗ trợ mới đã đƣợc thiết lập trong R khiến R trở thành một công cụ hữu hiệu trong phân tích GWAS (Gondro et al., 2013).
Hiện nay, với sự bùng nổ của các hệ thống phƣơng pháp luận và các gói phần mềm tin sinh học khác nhau, nhất là các gói phần mềm đƣợc thiết kế trên mã nguồn mở R, chúng ta có rất nhiều phƣơng pháp để lựa chọn cho việc phân tích liên kết trong một phân tích GWAS. Đối với các bộ dữ liệu rất lớn, nên dùng R để giải quyết từng mục tiêu phân tích. Quyết định lựa chọn phƣơng pháp và cơng cụ phân tích phù hợp cần phải căn cứ vào đặc điểm của quần thể nghiên cứu, yêu cầu và mục đích nghiên cứu.
2.4.4. Ý nghĩa và tiềm năng của GWAS trong chọn tạo giống lúa
GWAS là một phần của phƣơng pháp tiếp cận toàn hệ gen trong chiến lƣợc đẩy nhanh tốc độ cải tiến giống cây trồng, bao gồm: xác định các QTLs/gen/alen chức năng liên quan đến tính trạng trong tồn hệ gen, chọn lọc tồn hệ gen, các dự đốn bộ gen tối ƣu (trong xây dựng mơ hình giống cây trồng lý tƣởng), chỉnh sửa genome. Trong đó GWAS đóng vai trị nhƣ một công cụ để nhanh chóng khoanh vùng các gen chức năng liên quan, thu hẹp phạm vi tìm kiếm và danh sách các gen chức năng cần chứng minh. Những năm gần đây, đặc biệt là từ năm 2015, nhiều kết quả nghiên cứu GWAS đã đƣợc cơng bố ở nhiều lồi cây trồng quan trọng, đã đƣợc thống kê bởi Dwivedi et al. (2017), cho thấy tiềm năng và
triển vọng của phƣơng pháp này trong chọn tạo giống cây trồng nói chung cũng nhƣ trong chọn tạo giống lúa nói riêng.
Ở lúa tình hình nghiên cứu GWAS cũng rất phát triển, các kết quả nghiên cứu liên tục đƣợc công bố trong những năm gần đây mang đến nhiều ý nghĩa cho công tác chọn tạo, cải tiến giống. Năm 2012, Huang et al. (2012) tiến hành một
nghiên cứu GWAS trên 950 giống lúa trên toàn thế giới, thuộc 2 loài phụ indica và japonica; kết quả xác định đƣợc 32 QTLs liên quan đến thời gian ra hoa và
đặc điểm của hạt, xác định đƣợc gen ứng viên cho 18 QTLs liên quan thông qua các chú thích chi tiết (Huang et al., 2012c). Một nghiên cứu GWAS nhằm khám phá bí mật di truyền của các tính trạng hình thái cây, hình thái hạt và cấu trúc bộ rễ đã đƣợc thực hiện trên một tập đồn 391 giống lúa ơn đới, sử dụng 57000 SNPs marker; kết quả đã phát hiện tổng số 42 QTLs, trong đó 21 QTLs liên quan đến các chỉ tiêu hình thái cây, 11 QTLs liên quan đến các tính trạng chất lƣợng hạt, 10 QTLs liên quan đến các tính trạng cấu trúc bộ rễ; trong hầu hết các trƣờng hợp, các QTLs tìm thấy đều có vị trí tƣơng đồng với các QTLs và các gen ứng viên kiểm sốt sự biến đổi kiểu hình của một hoặc nhiều đặc điểm (Biscarini et
al., 2016). Nhiều nghiên cứu GWAS khác trên lúa tập trung vào các tính trạng
liên quan đến cấu trúc và chức năng hoạt động của bộ rễ (Courtois et al., 2013), và cấu trúc bơng lúa (Rebolledo et al., 2016).
Tìm kiếm các yếu tố di truyền liên quan đến khả năng chống chịu của cây lúa với các điều kiện ngoại cảnh bất lợi, và khả năng kháng lại sâu bệnh gây hại cũng là một trong những mục tiêu hàng đầu trong các nghiên cứu GWAS ở lúa. Các QTLs liên kết với khả năng chịu mặn của cây lúa ở các giai đoạn sinh trƣởng phát triển khác nhau đã đƣợc tìm thấy. Kumar et al. (2015) đã đánh giá khả năng chịu mặn của 220 mẫu giống lúa ở giai đoạn sau từ sau cấy 20 ngày đến khi thu hoạch dựa vào 12 chỉ tiêu quan sát; tiến hành phân tích GWAS sử dụng 6000 SNPs marker, kết quả xác định đƣợc 20 QTLs liên quan đến tỷ lệ Na+/K+, 44 QTLs liên quan đến năng suất hạt trong điều kiện gây mặn; đáng nói là vùng nhiễm sắc thể có chứa Saltol có mối liên hệ với QTLs liên quan đến tỷ lệ Na+/K+