Phần 2 Tổng quan tài liệu
2.4. Nguyên lý và ứng dụng của GWAS
2.4.3. Các bƣớc xây dựng một nghiên cứu GWAS
2.4.3.1. Thu thập và tuyển chọn nguồn vật liệu nghiên cứu
Khi tiến hành một nghiên cứu GWAS, đầu tiên cần thu thập và tuyển chọn các nguồn vật liệu phù hợp với yêu cầu nghiên cứu về mức độ đa dạng cả về kiểu gen lẫn kiểu hình. Vì cấu trúc di truyền của quần thể nghiên cứu sẽ ảnh hƣởng trực tiếp đến LD và quyết định mức độ phân giải của bản đồ, cịn kiểu hình đa dạng hứa hẹn sự xuất hiện của nhiều alen mới, lạ và có ý nghĩa. Cần đặc biệt thận trọng đối với các đối tƣợng nghiên cứu có nhiều mức độ bội thể khác nhau (ví dụ: lúa mỳ có loại 2n, 4n, 6n), tốt nhất là nên đánh giá trƣớc và lựa chọn các mẫu có cùng mức độ bội thể để tránh sự gây nhiễu của các biến thiên kiểu hình liên quan đến liều lƣợng alen (Zhu et al., 2008). Hầu hết các nghiên cứu GWAS đã công bố đều sử dụng các bộ sƣu tập mẫu giống đã trải qua phân tích di truyền hoặc đã đƣợc xác định về nguồn gốc di truyền (Begum et al., 2015; Biscarini et al., 2016). Trong bộ giống nghiên cứu cũng nên có các giống đối chứng làm cơ
sở để so sánh và đánh giá các giống khác nhau (Courtois et al., 2013).
2.4.3.2. Xây dựng bộ dữ liệu kiểu gen
Sau khi tuyển chọn và xây dựng đƣợc bộ sƣu tập nguồn gen phù hợp với mục tiêu của nghiên cứu GWAS, cần có những nghiên cứu phân tích kiểu gen với số lƣợng marker rất lớn bao phủ toàn bộ hệ gen để làm cơ sở dữ liệu cho việc thiết lập bản đồ liên kết giữa kiểu gen và kiểu hình. Hầu hết các nghiên cứu GWAS hiện nay sử dụng phƣơng pháp GBS và SNPs marker để xây dựng bộ dữ liệu haplotype phục vụ cho phân tích liên kết. Nhiều bộ dữ liệu haplotype khổng lồ đã đƣợc công bố (Huang et al., 2012d; Yang et al., 2014).
2.4.3.3. Xác định cấu trúc quần thể và mối quan hệ họ hàng giữa các cá thể
Hiểu biết về đặc điểm cấu trúc của quần thể nghiên cứu là một trong những cách để làm giảm tỷ lệ dƣơng tính giả trong các nghiên cứu GWAS. Phần mềm phân tích cấu trúc quần thể mạnh và hay đƣợc sử dụng phổ biến hiện nay trong các nghiên cứu là STRUCTURE. Thuật tốn của nó lần đầu tiên đƣợc mơ tả bởi Pritchard et al. (2000). Đây là một phần mềm đƣợc cung cấp miễn phí, có độ
chính xác rất cao trong phân tích cấu trúc quần thể, là một phần mềm hỗ trợ rất lớn trong các nghiên cứu GWAS. Một cái nhìn bao quát về quá trình hình thành, cải tiến, và những ƣu nhƣợc điểm của STRUCTURE so với các phần mềm tƣơng tự đã đƣợc tổng hợp bởi Porras-Hurtado et al. (2013). Rất nhiều nghiên cứu
GWAS đã sử dụng phần mềm STRUCTURE để tiến hành các phân tích cấu trúc quần thể (Yang et al., 2011; Ravi et al., 2017).
Bên cạnh đó, thêm một yếu tố để kiểm soát và làm giảm số lƣợng dƣơng tính giả trong các nghiên cứu GWAS là mối qua hệ họ hàng giữa các cá thể (K – Kinship) đƣợc tính tốn dựa trên chỉ số BIC-test (Bayesian Information Criterion test) (Gogarten et al., 2012). Các phần mềm hay đƣợc các nhà nghiên cứu sử dụng để tính tốn K có thể kể đến: SPAGeDi (Cui et al., 2013; Galesloot et al., 2014), GAPIT (Boyles et al., 2016), phần mềm R (Begum et al., 2015) hoặc đƣợc tính tốn trực tiếp trên TASSEL (Courtois et al., 2013).
2.4.3.4. Ước lượng giá trị Linkage Disequilibrium (LD)
Ƣớc lƣợng LD là một phần không thể thiếu trong các nghiên cứu GWAS. Giá trị LD giúp chúng ta xác đinh đƣợc khoảng tin cậy của liên kết đƣợc thiết lập giữa một marker và tính trạng quan tâm. Hai chỉ số thống kê hay đƣợc sử dụng nhất hiện nay để tính tốn LD là r2 và D’. Cơng thức tính D’ và r2 đƣợc mơ tả rất kỹ trong nghiên cứu của Flint-Garcia et al. (2003). Trong các nghiên cứu GWAS, r2 là chỉ số thích hợp nhất để đo lƣờng LD. Với số lƣợng marker vô cùng lớn phân bố trên toàn hệ gen, giá trị r2 trong các nghiên cứu GWAS sẽ đƣợc tính tốn nhờ các phần mềm hỗ trợ. Có nhiều phần mềm có thể đƣợc sử dụng để tính tốn LD. Phần mềm hay đƣợc sử dụng hiện nay là TASSEL và R.
2.4.3.5. Xây dựng bộ dữ liệu kiểu hình
Đánh giá sự đa dạng kiểu hình để xây dựng bộ dữ liệu ghi nhận sự biến thiên về mức độ biểu hiện của các tính trạng quan tâm, là cơ sở dữ liệu quan trọng trong các nghiên cứu GWAS. Độ chính xác và thông lƣợng thấp của các nghiên cứu đánh giá biểu hiện kiểu hình vẫn ln là trở ngại cho các nghiên cứu di truyền liên kết quy mơ lớn nói chung, đặc biệt với các nghiên cứu GWAS nói riêng. Bởi vì, trong các nghiên cứu GWAS chúng ta thƣờng phải tiến hành thu thập đồng thời giá trị kiểu hình của một lƣợng lớn các nguồn gen đa dạng khác nhau. Giảm thiểu tác động của mơi trƣờng (E) đến giá trị kiểu hình (Y), để giá trị kiểu hình là phản ánh chân thực nhất biểu hiện của kiểu gen (G), là nền tảng để nâng cao độ mạnh và tính chuẩn xác của các QTLs tìm đƣợc. Lựa chọn phƣơng pháp thiết kế thí nghiệm hợp lý, quy trình thu thập số liệu nhanh nhạy, chính xác và hiệu quả, kết hợp với phƣơng pháp phân tích dữ liệu thống kê phù hợp sẽ giúp các nhà khoa học đạt đƣợc điều này. Phƣơng pháp bố trí thí nghiệm kiểu khối
ngẫu nhiên đầy đủ (RCBD), hoàn toàn ngẫu nhiên (CRD), phƣơng pháp α- lattice là những kiểu bố trí thí nghiệm hay đƣợc sử dụng hiện nay (Dhanapal et al., 2015; Cai et al., 2013; Courtois et al., 2013). Đặc biệt phƣơng pháp α- lattice có ƣu điểm là có thể giảm bớt số mức của yếu tố thí nghiệm trong một khối, rất phù hợp với các thí nghiệm có số mẫu giống cần quan sát lớn trong các nghiên cứu chọn giống hoặc các thí nghiệm đánh giá kiểu hình phục vụ cho GWAS.
Thu thập số liệu kiểu hình là một cơng việc tốn rất nhiều thời gian và sức lực, đây cũng là một trở ngại lớn, thậm chí là một yếu tố khống chế số lƣợng mẫu giống trong các nghiên cứu GWAS nói riêng và các nghiên cứu đánh giá kiểu hình nói chung. Đây có lẽ là lý do mà hiện nay các cơng bố GWAS có số lƣợng mẫu giống rất lớn thƣờng chỉ tập trung vào đánh giá các đặc điểm hình thái, hoặc các đặc điểm liên quan đến chất lƣợng, hình dạng hạt (Huang et al., 2012c; Biscarini et al., 2016; Boyles et al., 2016).
Những năm gần đây các nhà nông học, di truyền học, tin sinh học đã kết hợp với nhiều ngành công nghệ khác để nỗ lực đem đến những cải tiến trong đánh giá kiểu hình ở cây trồng, mục tiêu của những cải tiến này là: nâng cao độ chính xác, giải phóng sức lao động, giảm chi phí, giảm thời gian thu thập và xử lý số liệu thô. Công nghệ quan sát ánh sáng ảnh (2D, 3D), công nghệ thu thập hình ảnh sử dụng ánh sáng hồng ngoại và hình ảnh quang phổ, cơng nghệ chụp cắt lớp 3D, X-quang, chụp CT… đƣợc coi nhƣ chìa khóa trong nhiều nghiên cứu cải tiến phƣơng pháp đánh giá kiểu hình (Yang et al., 2013). Vài năm trở lại đây, với sự phát triển của công nghệ cảm biến, công nghệ thơng tin, tự động hóa…một số mơ hình đánh giá kiểu hình tự động hóa với thông lƣợng cao đã đƣợc thử nghiệm và công bố (Fahlgren et al., 2015; Bai et al., 2016). Không chỉ cố gắng tăng khả năng thu thập và độ tin cậy của các giá trị kiểu hình có tính định lƣợng, một số cải tiến mới đây đang cố gắng lƣợng hóa các tính trạng định tính, ví dụ nhƣ độ cuộn của lá và tỷ lệ lá còn xanh trong nghiên cứu đánh giá mức độ chịu hạn ở lúa (Duan et al., 2018). Nhiều công nghệ mới, hiện đại đƣợc áp dụng trong các nghiên cứu về đặc điểm bộ rễ ở thực vật (Iyer-Pascuzzi et al., 2010; Courtois et al., 2013; Topp et al., 2013). Nhiều phần mềm đƣợc phát triển để hỗ trợ các phân tích kiểu hình phức tạp, ví dụ nhƣ: GiA Roots là phần mềm hỗ trợ phân tích các tính trạng liên quan đến kiến trúc bộ rễ (Galkovskyi et al., 2012), phần mềm tái hiện và phân tích sự phát triển của bộ rễ ở cây trồng - Dynamic Root (Symonova et al., 2015), hay phần mềm phân tích đặc điểm bơng lúa qua hình ảnh – P-TRAP (Al-Tam et al., 2013).
2.4.3.6. Phân tích liên kết tồn hệ gen (GWAS)
Các nghiên cứu phân tích liên kết tồn hệ gen không thể thiếu đƣợc công cụ hỗ trợ là các mơ hình phân tích và các phần mềm tin sinh học đƣợc thiết kế chuyên biệt với độ chính xác cao. Kết quả thử nghiệm của Yang et al. (2011) đã chứng minh mơ hình phân tích có sự điều khiển của cả cấu trúc quần thể (Q hoặc PC) và quan hệ họ hàng (K) hay cịn gọi là mơ hình hồi quy tuyến tính hỗ hợp (MLM) cho kết quả đáng tin cậy nhất trong 6 mơ hình. Trong đó mơ hình MLM đƣợc điều khiển đồng thời bởi cấu trúc quần thể thơng qua phân tích thành phần chính (PC) và mối quan hệ họ hàng (K) có thể sẽ là thích hợp nhất với các nghiên cứu GWAS có dữ liệu lớn (Yang et al., 2011). Điều này cũng đƣợc khẳng định trong một nghiên cứu của Courtois et al. (2013). Các phần mềm đƣợc sử dụng để phân tích GWAS hiện nay phổ biến là TASSEL và R.
Phần mềm TASSEL là một phần mềm phân tích miễn phí đƣợc giới thiệu năm 2007 bởi Bradbury et al. (2007). TASSEL là một phần mềm mạnh, nó cung cấp một số phƣơng pháp thống kê mới và mạnh mẽ để lập bản đồ liên kết, đƣợc cung cấp miễn phí, thƣờng xuyên cải tiến và nâng cao tính năng, dễ dàng sử dụng, có hiệu quả và độ chính xác cao. Đây là lý do khiến TASSEL đƣợc sử dụng nhiều trong các cơng trình nghiên cứu ở nhiều đối tƣợng khác nhau (Cai et
al., 2013; Cao et al., 2016).
Phần mềm R cũng là một phần mềm miễn phí, nhƣng khác với STRUCTURE hay TASSEL, nó vừa là mơi trƣờng vừa là ngơn ngữ lập trình để thiết lập các phân tích thống kê và biểu diễn đồ họa. R đƣợc giới thiệu lần đầu tiên vào năm 1996 (Ihaka and Gentleman, 1996) và khơng ngừng đƣợc hồn thiện trong suốt những năm qua, R trở thành một trong những phần mềm phân tích thống kê mạnh mẽ nhất, đƣợc sử dụng nhiều nhất hiện nay. R cung cấp một loạt các thơng kê (mơ hình tuyến tính và phi tuyến, các kiểm định thống kê cổ điển, phân tích chuỗi, phân lớp, phân cụm…), các kỹ thuật đồ họa và có khả năng mở rộng cao. Điểm mạnh của R là phân mềm này cung cấp công cụ để ngƣời dùng có thể lập trình và tùy chỉnh các lệnh phân tích sao cho kết quả đáp ứng tối đa mục tiêu nghiên cứu. Một ƣu điểm khác là các công cụ đồ họa của R rất mạnh, do đó hình ảnh có từ R thƣờng đẹp và sắc nét hơn so với các phần mềm phân tích thống kê khác. Các cải tiến và các gói cơng cụ hỗ trợ mới đã đƣợc thiết lập trong R khiến R trở thành một cơng cụ hữu hiệu trong phân tích GWAS (Gondro et al., 2013).
Hiện nay, với sự bùng nổ của các hệ thống phƣơng pháp luận và các gói phần mềm tin sinh học khác nhau, nhất là các gói phần mềm đƣợc thiết kế trên mã nguồn mở R, chúng ta có rất nhiều phƣơng pháp để lựa chọn cho việc phân tích liên kết trong một phân tích GWAS. Đối với các bộ dữ liệu rất lớn, nên dùng R để giải quyết từng mục tiêu phân tích. Quyết định lựa chọn phƣơng pháp và cơng cụ phân tích phù hợp cần phải căn cứ vào đặc điểm của quần thể nghiên cứu, yêu cầu và mục đích nghiên cứu.