Nguyên lý và ứng dụng của GWAS

Một phần của tài liệu (LUẬN văn THẠC sĩ) xác định các gen alen đặc thù liên quan đến sự phát triển bộ rễ của các giống lúa việt nam (Trang 48)

2.4.1. Nguyên lý

GWAS là một phƣơng pháp đƣợc sử dụng để phân tích cơ sở di truyền của biến thể trong các tính trạng định lƣợng phức tạp bằng cách thiết lập các liên kết thống kê giữa kiểu hình và kiểu gen (Nordborg and Weigel, 2008). Cũng giống nhƣ phƣơng pháp lập bản đồ QTLs truyền thống, phƣơng pháp GWAS dựa vào thống kê sự mất cân bằng liên kết (Linkage disequilibrium – LD) để xác định mối tƣơng quan giữa từng biến thể ADN ở gần nhau với sự đa hình của tính trạng quan tâm. Khác nhau là, các nghiên cứu QTLs truyền thống sử dụng LD tồn tại trong một quần thể con cái có cùng chung một cặp bố mẹ ban đầu, có sơ đồ phả hệ rõ ràng, trong khi GWAS sử dụng LD tồn tại trong một quần thể hoặc loài (Flint-Garcia et al., 2003). Trong GWAS, các cá thể trong quần thể nghiên cứu có thể có tổ tiên chung, có thể có các sự kiện tái tổ hợp xảy ra, nhƣng đã trải qua quá trình tiến hóa và chọn lọc trong lịch sử hàng trăm, hàng nghìn năm.

Trong các nghiên cứu GWAS, sự mất cân bằng liên kết (LD) ghi nhận đƣợc giữa một locus chức năng và một chỉ thị phân tử là rất thấp, trừ khi chúng ở rất gần nhau. Nếu LD chỉ xảy ra trên một khoảng ngắn, đồng nghĩa với độ phân giải của bản đồ QTLs cao, nhƣng số lƣợng marker đánh dấu phải đủ lớn. Ngƣợc lại, nếu LD xảy ra trên một khoảng dài hơn thì độ phân giải của bản đồ QTLs sẽ thấp, nhƣng số lƣợng marker cần sử dụng để đánh dấu sẽ không quá lớn. Mối tƣơng quan tỷ lệ nghịch giữa tỷ lệ phân rã của LD theo khoảng cách vật lý giữa các locus trên nhiễm sắc thể tùy thuộc vào mỗi tập đoàn nghiên cứu, và các phân đoạn nhiễm sắc thể đƣợc nghiên cứu.

Phân tích LD phải đƣợc đặc biệt chú trọng trong các nghiên cứu GWAS để xác định xem số lƣợng marker sử dụng đã thỏa mãn yêu cầu để đạt đƣợc các mục tiêu của GWAS hay không. Hai chỉ số thống kê hay đƣợc sử dụng nhất hiện nay để tính toán LD là r2 và D. Trong đó giá trị r2

đƣợc sử dụng nhiều hơn trong các nghiên cứu di truyền liên kết vì nó ít chịu tác động trực tiếp của tần số alen hơn. Giá trị r2 = 0,1 và r2 = 0,2 đƣợc dùng để mô tả sự phân rã của LD trong tập đoàn nghiên cứu, từ đó xác định đƣợc vùng liên kết chặt đáng tin cậy của QTLs liên quan đến sự biến đổi của tính trạng quan tâm. Độ dài khoảng cách mà tại đó r2 ≥ 0,5 có thể đƣợc coi là khoảng tin cậy của QTLs. Giá trị r2 càng gần tới 1 thì

mức độ liên kết của QTLs càng chặt. Đây cũng là cơ sở để xác định vùng an toàn khi tìm kiếm các gen ứng viên có liên quan đến tính trạng nghiên cứu sau khi xác định đƣợc QTLs. Các nghiên cứu ở lúa trƣớc đây cho thấy, độ phân rã LD ở lúa (Oryza sativa) dao động trong khoảng từ 75 đến trên 500 kb tùy thuộc vào từng quần thể nghiên cứu (Mather et al., 2007).

2.4.2. GWAS là một công cụ mới hữu hiệu

Những tiến bộ của công nghệ phân tích kiểu gen, và sự phát triển của các phƣơng pháp phân tích thống kê, các thuật toán cùng các phần mềm tin học hỗ trợ là nền tảng thúc đẩy sự phát triển và phổ biến của GWAS trong các nghiên cứu ở cây trồng (Zhu et al., 2008). Ban đầu GWAS đƣợc sử dụng để nghiên cứu

trong di truyền bệnh học ở ngƣời (Hirschhorn and Daly, 2005), sau đó phƣơng pháp này đƣợc đƣa vào thực vật nhƣ một công cụ để xác định sự liên kết giữa kiểu gen và biến thiên về kiểu hình, giúp mau chóng tìm kiếm, xác định các gen liên quan đến những tính trạng nông học phức tạp. Nghiên cứu của Atwell et al. (2010) trên cây Arabidopsis là một trong những công bố đầu tiên về ứng dụng

phƣơng pháp này ở thực vật.

So với phƣơng pháp lập bản đồ QTLs truyền thống, phƣơng pháp GWAS có nhiều ƣu điểm vƣợt trội hơn hẳn (Hình 2.7). Việc sử dụng một quần thể cùng loài, không tốn thời gian lai tạo quần thể lập bản đồ, số lƣợng marker lớn bao phủ toàn hệ gen, QTLs có độ phân giải cao (thậm chí tới mức độ nucleotide) khiến tốc độ nghiên cứu phân tích các tính trạng số lƣợng phức tạp của GWAS trở nên nhanh, chính xác và hiệu quả hơn. Thời gian xác định QTLs và từ QTLs xác định đƣợc các gen ứng cử viên đƣợc rút ngắn nhiều lần so với phƣơng pháp lập bản đồ QTLs truyền thống. Theo nhƣ Yu et al. (2006), trong thời gian từ 1

đến 5 năm, các nghiên cứu GWAS có thể tiến tới phân lập đƣợc yếu tố di truyền liên quan đến tính trạng số lƣợng quan tâm, mức độ phân giải có thể là từ 1 đến vài chục kilo-base; đối với các nghiên cứu lập bản đồ QTLs truyền thống, sau 5 năm chúng ta mới chỉ có thể xác định đƣợc QTLs ở mức độ quần thể lập bản đồ, với các dòng NILs, hơn nữa độ phân giải của QTLs đƣợc tính bằng mega-base (Yu and Buckler, 2006). Bên cạnh đó, sử dụng phƣơng pháp GWAS có thể đồng thời khảo sát đƣợc rất nhiều locus, với nhiều alen khác nhau. Trong khi ở phƣơng pháp lập bản đồ truyền thống số lƣợng alen đƣợc đánh giá trong một lần thƣờng rất ít.

Hình 2.7. So sánh phƣơng pháp xác định QTLs truyền thống và GWAS

Sự tiến bộ không ngừng của công nghệ giải trình tự và phân tích hệ gen cùng với sự phát triển của phƣơng pháp luận, thuật toán, phần mềm tin sinh hỗ trợ là nền tảng thúc đẩy các nghiên cứu GWAS phát triển và trở nên phổ biến hơn trên các đối tƣợng cây trồng. Đƣợc nghiên cứu nhiều nhất, sớm nhất phải kể đến Arabidopsis với các tính trạng liên quan đến thời gian ra hoa, thời gian ra

hoa ở các điều kiện thời tiết khác nhau, khả năng chống chịu với các tác nhân gây bệnh… (Aranzana et al., 2005; Atwell et al., 2010; Brachi et al., 2010; Li et al., 2014). Việc công bố các gen ứng viên từ kết quả của các nghiên cứu GWAS ở

Arabidopsis nhƣ: THIOREDOXIN1, THIOREDOXIN1 M-TYPE4, yếu tố phiên

mã β-ZIP điều khiển quá trình tích lũy proline trong điều kiện hạn (Verslues et

al., 2014); gen PHOSPHATE1, ROOT SYSTEM ARCHITECTURE 1 liên quan

đến kiến trúc bộ rễ (Rosas et al., 2013); gen điều hòa quá trình hình thành rễ bên thông qua cảm ứng với nồng độ jasmonate – JASMONATE RESPONSIVE 1

(Gifford et al., 2013)… đã khẳng định hiệu quả của việc ứng dụng GWAS trong các nghiên cứu khai thác di truyền. Đến nay, các nghiên cứu GWAS đã mở rộng trên nhiều đối tƣợng cây trồng khác nhƣ: lúa, ngô, lúa mạch, lúa mỳ, đậu tƣơng.

2.4.3. Các bƣớc xây dựng một nghiên cứu GWAS

2.4.3.1. Thu thập và tuyển chọn nguồn vật liệu nghiên cứu

Khi tiến hành một nghiên cứu GWAS, đầu tiên cần thu thập và tuyển chọn các nguồn vật liệu phù hợp với yêu cầu nghiên cứu về mức độ đa dạng cả về kiểu gen lẫn kiểu hình. Vì cấu trúc di truyền của quần thể nghiên cứu sẽ ảnh hƣởng trực tiếp đến LD và quyết định mức độ phân giải của bản đồ, còn kiểu hình đa dạng hứa hẹn sự xuất hiện của nhiều alen mới, lạ và có ý nghĩa. Cần đặc biệt thận trọng đối với các đối tƣợng nghiên cứu có nhiều mức độ bội thể khác nhau (ví dụ: lúa mỳ có loại 2n, 4n, 6n), tốt nhất là nên đánh giá trƣớc và lựa chọn các mẫu có cùng mức độ bội thể để tránh sự gây nhiễu của các biến thiên kiểu hình liên quan đến liều lƣợng alen (Zhu et al., 2008). Hầu hết các nghiên cứu GWAS đã công bố đều sử dụng các bộ sƣu tập mẫu giống đã trải qua phân tích di truyền hoặc đã đƣợc xác định về nguồn gốc di truyền (Begum et al., 2015; Biscarini et al., 2016). Trong bộ giống nghiên cứu cũng nên có các giống đối chứng làm cơ

sở để so sánh và đánh giá các giống khác nhau (Courtois et al., 2013).

2.4.3.2. Xây dựng bộ dữ liệu kiểu gen

Sau khi tuyển chọn và xây dựng đƣợc bộ sƣu tập nguồn gen phù hợp với mục tiêu của nghiên cứu GWAS, cần có những nghiên cứu phân tích kiểu gen với số lƣợng marker rất lớn bao phủ toàn bộ hệ gen để làm cơ sở dữ liệu cho việc thiết lập bản đồ liên kết giữa kiểu gen và kiểu hình. Hầu hết các nghiên cứu GWAS hiện nay sử dụng phƣơng pháp GBS và SNPs marker để xây dựng bộ dữ liệu haplotype phục vụ cho phân tích liên kết. Nhiều bộ dữ liệu haplotype khổng lồ đã đƣợc công bố (Huang et al., 2012d; Yang et al., 2014).

2.4.3.3. Xác định cấu trúc quần thể và mối quan hệ họ hàng giữa các cá thể

Hiểu biết về đặc điểm cấu trúc của quần thể nghiên cứu là một trong những cách để làm giảm tỷ lệ dƣơng tính giả trong các nghiên cứu GWAS. Phần mềm phân tích cấu trúc quần thể mạnh và hay đƣợc sử dụng phổ biến hiện nay trong các nghiên cứu là STRUCTURE. Thuật toán của nó lần đầu tiên đƣợc mô tả bởi Pritchard et al. (2000). Đây là một phần mềm đƣợc cung cấp miễn phí, có độ

chính xác rất cao trong phân tích cấu trúc quần thể, là một phần mềm hỗ trợ rất lớn trong các nghiên cứu GWAS. Một cái nhìn bao quát về quá trình hình thành, cải tiến, và những ƣu nhƣợc điểm của STRUCTURE so với các phần mềm tƣơng tự đã đƣợc tổng hợp bởi Porras-Hurtado et al. (2013). Rất nhiều nghiên cứu

GWAS đã sử dụng phần mềm STRUCTURE để tiến hành các phân tích cấu trúc quần thể (Yang et al., 2011; Ravi et al., 2017).

Bên cạnh đó, thêm một yếu tố để kiểm soát và làm giảm số lƣợng dƣơng tính giả trong các nghiên cứu GWAS là mối qua hệ họ hàng giữa các cá thể (K – Kinship) đƣợc tính toán dựa trên chỉ số BIC-test (Bayesian Information Criterion test) (Gogarten et al., 2012). Các phần mềm hay đƣợc các nhà nghiên cứu sử dụng để tính toán K có thể kể đến: SPAGeDi (Cui et al., 2013; Galesloot et al., 2014), GAPIT (Boyles et al., 2016), phần mềm R (Begum et al., 2015) hoặc đƣợc tính toán trực tiếp trên TASSEL (Courtois et al., 2013).

2.4.3.4. Ước lượng giá trị Linkage Disequilibrium (LD)

Ƣớc lƣợng LD là một phần không thể thiếu trong các nghiên cứu GWAS. Giá trị LD giúp chúng ta xác đinh đƣợc khoảng tin cậy của liên kết đƣợc thiết lập giữa một marker và tính trạng quan tâm. Hai chỉ số thống kê hay đƣợc sử dụng nhất hiện nay để tính toán LD là r2 và D’. Công thức tính D’ và r2 đƣợc mô tả rất kỹ trong nghiên cứu của Flint-Garcia et al. (2003). Trong các nghiên cứu GWAS, r2 là chỉ số thích hợp nhất để đo lƣờng LD. Với số lƣợng marker vô cùng lớn phân bố trên toàn hệ gen, giá trị r2 trong các nghiên cứu GWAS sẽ đƣợc tính toán nhờ các phần mềm hỗ trợ. Có nhiều phần mềm có thể đƣợc sử dụng để tính toán LD. Phần mềm hay đƣợc sử dụng hiện nay là TASSEL và R.

2.4.3.5. Xây dựng bộ dữ liệu kiểu hình

Đánh giá sự đa dạng kiểu hình để xây dựng bộ dữ liệu ghi nhận sự biến thiên về mức độ biểu hiện của các tính trạng quan tâm, là cơ sở dữ liệu quan trọng trong các nghiên cứu GWAS. Độ chính xác và thông lƣợng thấp của các nghiên cứu đánh giá biểu hiện kiểu hình vẫn luôn là trở ngại cho các nghiên cứu di truyền liên kết quy mô lớn nói chung, đặc biệt với các nghiên cứu GWAS nói riêng. Bởi vì, trong các nghiên cứu GWAS chúng ta thƣờng phải tiến hành thu thập đồng thời giá trị kiểu hình của một lƣợng lớn các nguồn gen đa dạng khác nhau. Giảm thiểu tác động của môi trƣờng (E) đến giá trị kiểu hình (Y), để giá trị kiểu hình là phản ánh chân thực nhất biểu hiện của kiểu gen (G), là nền tảng để nâng cao độ mạnh và tính chuẩn xác của các QTLs tìm đƣợc. Lựa chọn phƣơng pháp thiết kế thí nghiệm hợp lý, quy trình thu thập số liệu nhanh nhạy, chính xác và hiệu quả, kết hợp với phƣơng pháp phân tích dữ liệu thống kê phù hợp sẽ giúp các nhà khoa học đạt đƣợc điều này. Phƣơng pháp bố trí thí nghiệm kiểu khối

ngẫu nhiên đầy đủ (RCBD), hoàn toàn ngẫu nhiên (CRD), phƣơng pháp α- lattice là những kiểu bố trí thí nghiệm hay đƣợc sử dụng hiện nay (Dhanapal et al., 2015; Cai et al., 2013; Courtois et al., 2013). Đặc biệt phƣơng pháp α- lattice có ƣu điểm là có thể giảm bớt số mức của yếu tố thí nghiệm trong một khối, rất phù hợp với các thí nghiệm có số mẫu giống cần quan sát lớn trong các nghiên cứu chọn giống hoặc các thí nghiệm đánh giá kiểu hình phục vụ cho GWAS.

Thu thập số liệu kiểu hình là một công việc tốn rất nhiều thời gian và sức lực, đây cũng là một trở ngại lớn, thậm chí là một yếu tố khống chế số lƣợng mẫu giống trong các nghiên cứu GWAS nói riêng và các nghiên cứu đánh giá kiểu hình nói chung. Đây có lẽ là lý do mà hiện nay các công bố GWAS có số lƣợng mẫu giống rất lớn thƣờng chỉ tập trung vào đánh giá các đặc điểm hình thái, hoặc các đặc điểm liên quan đến chất lƣợng, hình dạng hạt (Huang et al., 2012c; Biscarini et al., 2016; Boyles et al., 2016).

Những năm gần đây các nhà nông học, di truyền học, tin sinh học đã kết hợp với nhiều ngành công nghệ khác để nỗ lực đem đến những cải tiến trong đánh giá kiểu hình ở cây trồng, mục tiêu của những cải tiến này là: nâng cao độ chính xác, giải phóng sức lao động, giảm chi phí, giảm thời gian thu thập và xử lý số liệu thô. Công nghệ quan sát ánh sáng ảnh (2D, 3D), công nghệ thu thập hình ảnh sử dụng ánh sáng hồng ngoại và hình ảnh quang phổ, công nghệ chụp cắt lớp 3D, X-quang, chụp CT… đƣợc coi nhƣ chìa khóa trong nhiều nghiên cứu cải tiến phƣơng pháp đánh giá kiểu hình (Yang et al., 2013). Vài năm trở lại đây, với sự phát triển của công nghệ cảm biến, công nghệ thông tin, tự động hóa…một số mô hình đánh giá kiểu hình tự động hóa với thông lƣợng cao đã đƣợc thử nghiệm và công bố (Fahlgren et al., 2015; Bai et al., 2016). Không chỉ cố gắng tăng khả năng thu thập và độ tin cậy của các giá trị kiểu hình có tính định lƣợng, một số cải tiến mới đây đang cố gắng lƣợng hóa các tính trạng định tính, ví dụ nhƣ độ cuộn của lá và tỷ lệ lá còn xanh trong nghiên cứu đánh giá mức độ chịu hạn ở lúa (Duan et al., 2018). Nhiều công nghệ mới, hiện đại đƣợc áp dụng trong các nghiên cứu về đặc điểm bộ rễ ở thực vật (Iyer-Pascuzzi et al., 2010; Courtois et al., 2013; Topp et al., 2013). Nhiều phần mềm đƣợc phát triển để hỗ trợ các phân tích kiểu hình phức tạp, ví dụ nhƣ: GiA Roots là phần mềm hỗ trợ phân tích các tính trạng liên quan đến kiến trúc bộ rễ (Galkovskyi et al., 2012), phần mềm tái hiện và phân tích sự phát triển của bộ rễ ở cây trồng - Dynamic Root (Symonova et al., 2015), hay phần mềm phân tích đặc điểm bông lúa qua hình ảnh – P-TRAP (Al-Tam et al., 2013).

2.4.3.6. Phân tích liên kết toàn hệ gen (GWAS)

Các nghiên cứu phân tích liên kết toàn hệ gen không thể thiếu đƣợc công cụ hỗ trợ là các mô hình phân tích và các phần mềm tin sinh học đƣợc thiết kế chuyên biệt với độ chính xác cao. Kết quả thử nghiệm của Yang et al. (2011) đã chứng minh mô hình phân tích có sự điều khiển của cả cấu trúc quần thể (Q hoặc PC) và quan hệ họ hàng (K) hay còn gọi là mô hình hồi quy tuyến tính hỗ hợp (MLM) cho kết quả đáng tin cậy nhất trong 6 mô hình. Trong đó mô hình MLM đƣợc điều khiển đồng thời bởi cấu trúc quần thể thông qua phân tích thành phần chính (PC) và mối quan hệ họ hàng (K) có thể sẽ là thích hợp nhất với các nghiên cứu GWAS có dữ liệu lớn (Yang et al., 2011). Điều này cũng đƣợc khẳng định trong một nghiên cứu của Courtois et al. (2013). Các phần mềm đƣợc sử dụng để phân tích GWAS hiện nay phổ biến là TASSEL và R.

Phần mềm TASSEL là một phần mềm phân tích miễn phí đƣợc giới thiệu năm 2007 bởi Bradbury et al. (2007). TASSEL là một phần mềm mạnh, nó cung cấp một số phƣơng pháp thống kê mới và mạnh mẽ để lập bản đồ liên kết, đƣợc

Một phần của tài liệu (LUẬN văn THẠC sĩ) xác định các gen alen đặc thù liên quan đến sự phát triển bộ rễ của các giống lúa việt nam (Trang 48)

Tải bản đầy đủ (PDF)

(168 trang)