4.2.1. Kết quả phân tích đa hình và cấu trúc di truyền
Phân tích kết quả lai giữa ADN của các mẫu giống nghiên cứu với 6144 DArT marker, kết quả thu đƣợc có 619 marker cho đa hình trong tập đoàn mẫu giống lúa nghiên cứu, chiếm khoảng 9,6% tổng số marker sử dụng. Trong 619 marker có 451 marker có độ tái lập (khả năng kết quả đƣợc đọc lập lại chính xác) trên 99%, và chỉ số chất lƣợng (Q-value) trên 80%, trong đó có 300 marker có chỉ số phát tín hiệu đạt trên 90% (tỷ lệ khuyết dữ liệu dƣới 10%). Sau khi rà soát có 59 nhóm marker có nhiều hơn 1 marker cùng cho ra trình tự kết quả giống hệt nhau. Các marker giống nhau bị loại bỏ, chỉ 1 marker trong mỗi nhóm này đƣợc giữ lại. Kết quả cuối cùng còn 241 marker có chất lƣợng tốt và không bị trùng lặp đƣợc giữa lại cho các phân tích cấu trúc di truyền tiếp theo. Hàm lƣợng thông tin đa hình (PIC) của các marker này dao động từ 5% đến 50%, trung bình là 40%. Các DArT marker này phân bố đều trong toàn bộ genome, số lƣợng marker trên mỗi nhiễm sắc thể tỷ lệ thuận với kích thƣớc tƣơng đối của chúng tính bằng bp (hệ số tƣơng quan r = 0,78).
Một ma trận dữ liệu đƣợc tạo thành từ 241 DArT marker và 270 mẫu giống lúa đã đƣợc đƣa vào phân tích cấu trúc di truyền sử dụng phần mềm STRUCTURE v2.3.1 (Prichard et al., 2000). Kết quả cho thấy có 168 mẫu giống có nền di truyền
giống với giống đối chứng indica từ 80 đến 100%, nghĩa là giống đó thuộc loài phụ indica; 88 mẫu giống có nền di truyền giống với đối chứng japonica từ 80 đến 100%,
đƣợc xếp vào nhóm loài phụ japonica; còn lại là các mẫu giống có nền di truyền trung gian giữa hai loài phụ này. Một biểu đồ đã đƣợc thiết lập dựa vào tỷ lệ phần trăm nền di truyền giống với đối chứng của 2 loài phụ indica và japonica của mỗi mẫu giống nghiên cứu, kết quả đƣợc trình bày ở Hình 4.4. Trong Hình 4.4, màu xanh lá cây biểu diễn tỷ lệ nền di truyền của nhóm indica, màu đỏ biểu diễn tỷ lệ nền di truyền của
Chú thích: Trục tung biểu diễn tỷ lệ nền di truyền giữa hai loài phụ indica và japonica, trục hoành biểu diễn số thứ tự của các mẫu giống lúa. Màu xanh lá cây đại diện cho nền di truyền thuộc nhóm loài phụ indica; màu đỏ đại diện cho nền di truyền thuộc nhóm loài phụ japonica; các mẫu giống có chữ “m” là dạng trung gian giữa hai loài phụ này. Vị trí 1 và 159 là đối chứng của IR64 (135), vị trí 2 là đối chứng của APO (132), vị trí 3 là đối
chứng của Azucena (153), vị trí 148 là đối chứng của Nipponbare (168), vị trí 155 là đối chứng của DOM SOFID (150), đối chứng đƣợc sử dụng là ADN đƣợc chiết tách từ các mẫu giống lúa tƣơng ứng nhƣng đƣợc
trồng và bảo quản tại Ngân hàng gen của CIRAD. Vị trí số 170 là giống GC14 thuộc Oryza glaberrima.
Hình 4.4. Thành phần kiểu gen của các mẫu giống nghiên cứu 4.2.2. Xây dựng cây phân loại cho các mẫu giống lúa nghiên cứu 4.2.2. Xây dựng cây phân loại cho các mẫu giống lúa nghiên cứu
Sử dụng DarWin5 để phân tích kết quả đa hình thu đƣợc từ DArTsoft, (241 marker x 270 mẫu giống nghiên cứu, giống CG14 là đối chứng thuộc loài lúa trồng Châu Phi – Oryza glaberrima) chúng tôi đã xây dựng đƣợc cây phân loại
cho các mẫu giống trong tập đoàn nghiên cứu (Neighbor Joining Tree). Kết quả đƣợc thể hiện ở Hình 4.5.
Trong hình chấm màu đen biểu diễn các mẫu giống lúa Việt Nam đƣợc cung cấp bởi Trung tâm tài nguyên Thực vật và các mẫu giống lúa đƣợc cung cấp bởi Viện Di truyền Nông nghiệp. Chấm màu đỏ biểu diễn cho các giống đối chứng thuộc nhóm indica. Chấm màu xanh lục biểu diễn cho các giống đối
chứng thuộc nhóm japonica. Chấm màu xanh lá cây biểu diễn cho các giống đối chứng thuộc nhóm
Sadri/Basmati. Chấm màu cam biểu diễn cho các giống đối chứng thuộc nhóm Aus/Bro. Chấm màu hồng biểu diễn vị trí của giống CG14 thuộc loài Oryza glaberrima, một giống lúa trồng Châu Phi.
Hình 4.5 thể hiện một cây phân loại có cấu trúc lƣỡng cực với hai nhóm chính, nhóm chính thứ nhất có các mẫu giống chỉ thị màu đỏ là nhóm I – nhóm
indica; nhóm chính thứ hai có mẫu giống chỉ thị màu xanh lục, là nhóm VI –
nhóm japonica theo phân loại isozyme của Glasmanz et al. (1987). Giữa hai
nhóm này có hai nhóm nhỏ tƣơng ứng với nhóm II và nhóm V theo phân loại isozyme của Glasmanz et al. (1987), trong kết quả phân tích cấu trúc di truyền
với chỉ thị DArT bằng phần mềm STRUCTURE đây là các mẫu giống có thành phần genome dạng trung gian (m). Nhóm có các mẫu giống chỉ thị màu xanh lá cây là Sadri/Basmati (nhóm V) có nền di truyền gần với nhóm japonica hơn
trong khi các mẫu giống thuộc nhóm nhỏ màu da cam là Aus/Boro (nhóm II) lại có khoảng cách gần hơn với các mẫu giống thuộc nhóm indica.
Chúng tôi nhận thấy một số giống lúa đặc sản của Việt Nam với các đặc tính nhƣ: hạt cơm dẻo, có mùi thơm đặc trƣng đều thuộc nhóm Sadri/Basmati, ví dụ nhƣ các giống: Tám Thơm, Tám Ấp Bẹ (Ninh Bình), Tám Xoan Hải Hậu… (Phụ lục 2). Phần lớn các mẫu giống thuộc nhóm japonica là các giống đang
đƣợc gieo trồng ở các vùng núi cao trong điều kiện thiếu nƣớc hoặc canh tác nhờ nƣớc trời. Phần lớn các mẫu giống thuộc nhóm indica là các giống đang đƣợc
gieo trồng ở các vùng đồng bằng, đồng bằng ven biển, hay các tỉnh Nam bộ có khí hậu ấm áp và luôn có đủ nƣớc (Phụ lục 1 và 2).
Không chỉ có vậy, sự phân nhóm di truyền giữa các mẫu giống còn phần lớn trùng khớp với kết quả phân nhóm theo tính trạng thời gian sinh trƣởng tính từ khi gieo hạt tới khi cây trỗ bông (Phụ lục 5).
Phân tích Structure đã xác nhận cấu trúc lƣỡng cực, với K = 2 là số nhóm có khả năng nhất. Cây phân loại xây dựng bằng DARwin 5 có FST = 0,51 cho thấy sự gắn bó mật thiết giữa kết quả STRUCTURE và cây phân loại “Neighbor Joining Tree” đƣợc vẽ bởi DARwin. Trong số 270 giống tham gia vào sơ đồ cây phân loại di truyền này, có 168 mẫu giống đƣợc xác định là indica, 88 mẫu giống là japonica, và 14 mẫu giống dạng trung gian tƣơng ứng với nhóm trung gian
trong nghiên cứu phân tích cấu trúc di truyền bằng STRUCTURE trƣớc đó. Các mẫu giống ở gần nhau trên cây phân loại thƣờng có nhiều đặc điểm tƣơng đồng nhƣ trong tên gọi có các chữ giống nhau, hoặc đƣợc thu thập ở các địa phƣơng
gần nhau (ví dụ: các giống “Nếp” trong Nếp vằn ruộng Hòa Bình và Nếp vàng ong Lạc Sơn Hòa Bình, hoặc “Ble” trong trƣờng hợp của Ble-Blau-da và Ble- Blau-Blau). Một số mẫu giống có tên giống nhau, và ở cùng một vị trí trong cây phân loại nhƣ: “Tan Ngần” trong 02 mẫu giống ký hiệu là G86 và G298 hay “Ba- cho-kte” trong 02 mẫu giống G84 và G297. Vài trƣờng hợp hai mẫu giống có tên khác nhau nhƣ lại có cùng vị trí trên cây phân loại, nhƣ: Ble-Blau-Da và Ble- Blau-Blau trong 02 mẫu giống G197 và G198 (Phụ lục 2). Qua đây có thể hình dung rõ ràng hơn về lịch sử di thực và chọn lọc các giống lúa của ngƣời dân ở các vùng bản địa. Kết quả phân tích đa dạng di truyền với cây phân loại Neibourgh- Joining đã phản ánh rõ nét mối quan hệ họ hàng giữa các mẫu giống lúa nghiên cứu. Căn cứ vào kết quả này, chúng tôi đã loại bỏ các mẫu giống có quan hệ quá gần gũi, hoặc các mẫu giống có cùng nền di truyền nhƣng khác tên (điều này thƣờng gặp ở các giống lúa địa phƣơng Việt Nam, mặc dù giống có nền di truyền giống nhau nhƣng khi đƣa đến các địa phƣơng khác nhau lại đƣợc ngƣời dân địa phƣơng gọi với các tên khác nhau) và chọn đƣợc một tập đoàn gồm 200 giống lúa gồm 197 giống lúa Việt Nam và 3 giống lúa đối chứng (Niponbare đại diện cho lúa japonica ôn đới; Azucena đại diện cho lúa japonica nhiệt đới; và IR64 đại diện cho lúa indica). Thí nghiệm đánh giá kiểu hình bộ rễ
đƣợc thực hiện với 200 mẫu giống đƣợc chọn. Đồng thời, 200 mẫu giống này cũng đƣợc chúng tôi tiến hành phân tích kiểu gen, sử dụng phƣơng pháp GBS (Genotyping By Scequencing) để đánh giá đa hình nucleotide phục vụ cho xác định sự đa dạng alen trong các mẫu giống lúa nghiên cứu và làm cơ sở cho nghiên cứu GWAS.
4.3. KẾT QUẢ PHÂN TÍCH KIỂU GEN THÔNG QUA GIẢI TRÌNH TỰ (GBS – GENOTYPING BY SEQUENCING) (GBS – GENOTYPING BY SEQUENCING)
4.3.1. Kết quả phân tích đa hình và cấu trúc di truyền với SNPs marker
Với tổng số 50000 chỉ thị GBS đã đƣợc sử dụng với 200 mẫu giống lúa, sau khi phân tích kết quả thô, các mẫu giống xuất hiện quá nhiều điểm khuyết dữ liệu kiểu gen sẽ bị loại bỏ. Kết quả, một ma trận haplotype đã đƣợc thành lập bởi 185 mẫu giống lúa, trong đó có 182 giống lúa Việt Nam và 3 giống lúa đối chứng (IR64, Niponbare, Azucena) 25971 marker, có hàm lƣợng thông tin đa hình
(PIC) biến động từ 1% đến 50%, trung bình là 32,0%.
Để chuẩn bị dữ liệu cho GWAS, các marker có tần số alen thấp (< 5%) bị loại bỏ. Các dữ liệu bị khuyết sẽ đƣợc quy đổi căn cứ vào các dữ liệu đối chứng. Cuối cùng, một ma trận haplotype đƣợc xây dự bởi 185 giống lúa, trong đó có 3 giống đối chứng (IR64, Niponbare, Azucena) và 21623 marker. Các maker đƣợc phân bố đều trong genome với khoảng cách trung bình là 17,1 kb (Hình 4.6). Chúng tôi quan sát đƣợc hai khoảng trống lớn hơn 500 kb trên các nhiễm sắc thể 1, 6, 7, 8 và 11; và 12 khoảng trống có kích thƣớc từ 300 kb đến 500 kb trên các nhiễm sắc thể số 1, 2, 4, 5, 7, 8,và 9.
Chú thích: C là vị trí tâm động của mỗi nhiễm sắc thể; trục tung là chỉ số thông tin đa hình (PIC); trục hoành biểu diễn vị trí của marker trên nhiễm sắc thể, kích thƣớc đƣợc tính bằng Mb.
Hình 4.6. Phân bố của GBS marker trên 12 nhiễm sắc thể và hàm lƣợng thông tin đa hình (PIC) của chúng trong ma trận haplotype chuẩn bị cho
nghiên cứu GWAS
Để so sánh và tìm kiếm các vùng QTLs đặc trƣng cho từng nhóm giống, 2
C C C C C C C C C C C C
thuộc nhóm indica (114 giống Việt Nam và IR64) và 64 giống lúa thuộc nhóm japonica (62 giống Việt Nam và Niponbare, Azucena). Số lƣợng marker trong
hai ma trận này lần lƣợt là 13814 và 8821 tƣơng ứng cho từng nhóm giống indica và japonica.
Sự đa hình alen của quần thể đƣợc hình ảnh hóa thông qua cấu trúc di truyền. Một phân tích cấu trúc di truyền quần thể đƣợc thực hiện trên 1275 SNP marker, kết quả cho thấy tập đoàn 182 giống lúa Việt Nam chia thành hai nhóm rõ rệt gồm 114 giống thuộc loài phụ indica, 62 giống thuộc loài phụ japonica,
còn lại là 6 giống thuộc dạng trung gian giữa hai loài phụ trên. Phân nhóm của các giống trong tập đoàn nghiên cứu gần nhƣ trùng khớp với kết quả trong lần phân tích với các chỉ thị DArT ban đầu. Chỉ có một số trƣờng hợp ngoại lệ: G181 đƣợc phân vào nhóm japonica trong kết quả phân tích với DArT nhƣng ở đây lại đƣợc phân vào nhóm indica; G211 đƣợc phân vào nhóm trung gian khi phân tích với DArT thì theo kết quả GBS lại thuộc nhóm indica, ngƣợc lại G207 ban đầu
theo kết quả của DArT thuộc nhóm indica nhƣng theo GBS lại ở nhóm trung
gian. Các ngoại lệ này xảy ra không ngoại trừ khả năng có sự gắn nhãn sai tại một vài điểm trong quá trình đọc tín hiệu ADN, nhƣng cũng có khả năng do số lƣợng SNPs marker đƣợc sử dụng khá lớn (gấp gần 6 lần DArT marker) nên đã tìm ra một số vùng đặc hiệu hơn để nhận biết và phân tách nhóm giống chính xác hơn. Mặc dù vậy, chỉ với 241 marker, kết quả phân tích đa dạng, phân tách nhóm giống của DArT lại gần nhƣ không sai biệt lắm với GBS đã chứng tỏ sức mạnh và độ tin cậy của công nghệ DArT trong lĩnh vực phân tích đa dạng di truyền. Song đối với các nghiên cứu GWAS, để đảm bảo mật độ marker cao, bao phủ toàn bộ genome thì thí nghiệm phân tích kiểu gen sử dụng phƣơng pháp GBS với một lƣợng lớn chỉ thị SNPs là rất cần thiết.
Tiến hành phân tích mối quan hệ giữa 115 mẫu giống thuộc loài phụ indica, sử dụng 840 SNP marker đã xác định đƣợc có 6 phân nhóm, đƣợc ký hiệu lần lƣợt từ I1 đến I6, kết quả này một lần nữa đƣợc xác định bằng phƣơng pháp phân tích thành phần chính (DACP) (Jombary et al., 2010); 6 phân nhóm này đƣợc
biểu diễn ở Hình 4.7.
giống thuộc loài phụ japonica, sử dụng 780 SNPs marker. Kết quả xác định đƣợc 4 phân nhóm và một nhóm trung gian. Sơ đồ cây phân loại đƣợc vẽ bởi phần mềm DARwin và đƣợc trình bày ở Hình 4.8.
Sự khác biệt giữa các phân nhóm đƣợc đo bằng chỉ số FST giữa từng cặp phân nhóm ở cả hai nhóm loài phụ indica và japonica, đƣợc trình bày ở Bảng
4.4. Qua Bảng 4.4 cho thấy các giá trị FST đều có mức ý nghĩa cao, dao động từ 0,001 đến 0,003. Giá trị FST trong các nhóm japonica là từ 0,428 đến 0,692, cao hơn chỉ số này giữa các phân nhóm trong nhóm indica (0,264 đến 0,555). Số liệu này cũng đƣợc minh chứng qua hình ảnh cây phân loại của hai nhóm, nhóm
indica cây phân loại có cấu trúc gần giống cấu trúc tỏa tròn, cho thấy mối quan
hệ khá gần gũi và khoảng cách di truyền khác đồng đều giữa các phân nhóm, trong khi nhóm japonica chúng ta thấy rõ phân nhóm J3 và phân nhóm J2 gần
nhƣ tạo thành hai cực đối xứng và cách nhau khá xa.
Bảng 4.4. Chỉ số FST giữa các phân nhóm và mức ý nghĩa P-value
indica I1 I2 I3 I4 I5 I6 I1 0,001 0,003 0,001 0,001 0,001 I2 0,303 0,001 0,001 0,001 0,001 I3 0,406 0,453 0,001 0,001 0,001 I4 0,327 0,301 0,498 0,001 0,001 I5 0,374 0,405 0,555 0,381 0,001 I6 0,264 0.270 0,375 0,269 0,347 japonica J1 J2 J3 J4 J1 0,001 0,003 0,001 J2 0,528 0,001 0,001 J3 0,428 0,692 0,001 J4 0,461 0,542 0,676
Trong đó: Giá trị FST đƣợc ghi dƣới đƣờng chéo, giá trị P-value đƣợc ghi phía trên đƣờng chéo tƣơng ứng
4.3.2. Đặc điểm của các mẫu giống lúa trong các phân nhóm khác nhau
Các đặc điểm của giống nghiên cứu thuộc các nhóm khác nhau đƣợc tổng hợp và ghi nhận tại Bảng 4.5. Tập hợp kết quả ở Bảng 4.5 sử dụng phần mềm
DARwin để biểu diễn các thông tin về đặc điểm các giống nghiên cứu trên cây phân loại của từng nhóm giống, kết quả cho thấy các giống ở chung một phân nhóm thƣờng có một số đặc điểm đặc trƣng cho phân nhóm đó.
4.3.2.1. Đặc điểm của các phân nhóm giống thuộc nhóm indica
Trong 114 giống lúa indica Việt Nam đƣợc chia làm 6 phân nhóm, đƣợc ký hiệu lần lƣợt từ I1 đến I6. Phân nhóm I1 (có 11 mẫu giống), chủ yếu là các giống lúa tẻ, cải tiến, có thời gian sinh trƣởng ngắn, đƣợc canh tác trong điều kiện chủ động tƣới tiêu, nguồn gốc từ Đồng bằng Sông Cửu Long và Đồng bằng Sông Hồng, hạt dài mảnh. Phân nhóm I2 (26 mẫu giống), bao gồm hầu hết là các giống lúa có thời gian sinh trƣởng dài và rất dài, đƣợc canh tác trong điều kiện nƣớc trời nơi thấp trũng ở Đồng bằng Sông Cửu Long, cùng là gạo tẻ nhƣng có hình dạng hạt rất đa dạng. Phân nhóm I3 (5 mẫu giống), là các giống lúa nếp đƣợc trồng trên nƣơng rẫy tại vùng núi Đông Bắc Bộ và Tây Bắc Bộ, thời gian sinh trƣởng từ dài đến rất dài, dạng hạt dài và mảnh. Phân nhóm I4 (18 mẫu giống), gồm các giống lúa có thời gian sinh trƣởng thuộc nhóm trung ngày đƣợc thu thập từ vùng Đồng bằng Sông Hồng và Tây Bắc bộ, là lúa tẻ; chiều dài hạt trung bình, chiều ngang hẹp. Phân nhóm I5 (9 mẫu giống) là những mẫu giống có thời gian sinh trƣởng trung bình, đƣợc thu thập ở nhiều nơi từ các tỉnh phía Bắc đến Đồng bằng Duyên hải Nam Trung Bộ, là lúa nếp có dạng hạt dài và nhỏ. Phân nhóm I6