3.2.1. Phân tích vùng ITS 3.2.1.1. PCR vùng ITS 3.2.1.1. PCR vùng ITS
Kết quả PCR của toàn bộ 25 mẫu ngải khảo sát với hai mồi ITS2 - 5P và ITS2 - 8P đều cho 1 vạch khuếch đại ở vị trí khoảng 700 bp (Hình 3.2) .
Hình 3.2. Sản phẩm khuyếch đại vùng ITS. M: thang 100 bp.
3.2.1.2. Phân tích trình tự vùng ITS
Trình tự ITS của 25 mẫu ngải (xem thêm phụ lục C) được phân tích cùng với 25 trình tự ITS trên GenBank. Như vậy, tổng cộng có 53 trình tự ITS được phân tích, gồm 50 mẫu nhóm trong (trong đó có 25 mẫu thực nghiệm) và 3 mẫu thuộc nhóm ngoài (để dùng dựng cây phát sinh loài có gốc). Nhóm ngoài có ý nghĩa quan trọng
đáng kể, làm tăng độ chính xác của cây tiến hóa. Nhóm ngoài được chọn có quan hệ gần nhất với nhóm đang được phân tích (Bảng 2.1). Theo các nghiên cứu trước đây về họ Gừng thuộc các tông Globbeae, Hedychieaevà Zingibereae của Kress và cộng sự (2002, 2004, 2005) [22], [23], [44] chúng tôi chọn 3 trình tự thuộc tông
Siphonochilus làm nhóm ngoài. Ba loài này tuy nằm ngoài nhóm mẫu nghiên cứu
nhưng chúng vẫn thuộc họ Gừng, thích hợp cho việc so sánh trình tự ở các bước
tiếp sau và không ảnh hưởng đến kết quả phân tích [27].
Chiều dài trình tự vùng ITS trung bình dài khoảng 634 bp, đều rơi vào nhóm trong. Chiều dài trung bình nhóm ngoài là 618 bp (Bảng 3.4). Các trình tự này sau khi
gióng hàng theo chương trình clustal - W (Mega 4.0) được đồng nhất hóa mẫu
(chọn những điểm đồng nhất). Ma trận gióng hàng được tạo ra gồm 53 cột với 254 hàng tương ứng với 53 trình tự, mỗi trình tự dài 254 bp.
Theo mô hình ước lượng trung bình, tần số 4 loại nucleotide tính trên toàn bộ ma trận là khá cân bằng T = 25,54%; C = 26,4%; A = 20.82% và G = 27.25%. Có
194/254 vị trí biến đổi, chiếm 76,38%. Có 109/254 vị trí cho thông tin hà tiện
(parsimony), chiếm 42,91%. Có 60/254 vị trí bảo tồn, chiếm 23,62 %. Các tỉ số R(a) [AC] = 1,0000; R(b) [AG] = 1,5475; R(c) [AT] = 1,0000; R(d) [CG] = 1,0000; R(e) [CT] = 3,7428 và R(f) [GT] = 1,0000 cho thấy tỉ lệ biến đổi xảy ra giữa các nucleotide A và C; A và T; C và G; G và T là tương đương nhau. Tỉ lệ biến đổi xảy ra cao giữa các nucleotide A và G (purine); và cao nhất giữa các nucleotide C và T (pyrimydine). Mô hình tiến hóa được chọn là TrNef+G (tần số base cân bằng, tỉ lệ biến đổi AC=AT=CG=GT, AG, CT; hệ sốgamma = 1,5200).
3.2.2 Phân tích vùng trnK - matK
3.2.2.1 PCR vùng trnK
Kết quả PCR 25 mẫu ngải khảo sát với 2 cặp mồi cho 1 vạch khuếch đại ở vị trí
khoảng 2700 bp (Hình 3.3). Có 19 mẫu cho kết quả PCR và giải trình tự đoạn trnK
tốt; 3 mẫu cho kết quả PCR yếu, không giải được trình tự (N2, N7, và N27); 3 mẫu không thu được sản phẩm PCR (N21, N23 và N24). Nguyên nhân là do vùng trnK rất
dài (khoảng 2,7 kb), rất khó để khuếch đại và giải trình tự so với đoạn ITS ở các mẫu thực nghiệm. Điều này cũng đã được chứng thực trong các nghiên cứu của các tác giả khác trước đây[26], [27], [21], [22], [23].
Hình 3.3. Sản phẩm khuyếch đại vùng trnK. M: thang 1 Kb.
3.2.2.2 Phân tích trình tự vùng trnK - matK
Trình tự trnK - matK của 19 mẫu thực nghiệm được phân tích cùng với 20 mẫu
trình tự trnK - matK trên GenBank. Như vậy, tổng cộng có 39 trình tự trnK được phân tích, gồm 36 mẫu nhóm trong (trong đó có 19 mẫu thực nghiệm) và 3 mẫu thuộc nhóm ngoài.
Các trình tự trnK dài khoảng 2700 bp, chứa gene matK dài khoảng 1500 bp. Các
trình tự matK của mẫu thực nghiệm (xem thêm phụ lục D) có chiều dài là 1548 bp. Chiều dài trung bình trình tự matK là 1542 bp, nhóm trong là 1532 bp, nhóm ngoài là 1539 bp (Bảng 3.4). Các trình tự này sau khi gióng hàng theo chương trình clustal
- W (Mega 4.0) được đồng nhất hóa mẫu. Ma trận gióng hàng gene matK được tạo
ra gồm 39 hàng với 1530 cột tương ứng với 39 trình tự, mỗi trình tự dài 1530 bp
(510 codon).
Theo mô hình ước lượng trung bình, tần số 4 loại nucleotide tính trên toàn bộ ma trận là không cân bằng T = 38,54%; C = 14,7%; A = 32,48% và G = 14,28%. Có
216/1530 vị trí biến đổi, chiếm 14,11%, các vị trí biến đổi thường rơi vào vị trí thứ ba của codon. Có 92/1530 vị trí cho thông tin hà tiện, chiếm 6,01%. Có 1314/1530 vị trí bảo tồn, chiếm 85,88%. Các tỉ số R(a) [AC] = 1,0000; R(b) [AG] = 1,7125; R(c) [AT] = 0,5592; R(d) [CG] = 0,5592; R(e) [CT] = 1,7125 và R(f) [GT] = 1,0000 cho thấy tỉ lệ biến đổi giữa các nucleotide A và T; C và G là khá thấp, trung bình giữa A và C; G và T, cao giữa A và G; C và T. Mô hình tiến hóa được chọn là
TPM1uf+G (tần số base không cân bằng, tỉ lệ biến đổi AC=GT, AT=CG, AG=CT; hệ
sốgamma = 0,5750).
Bảng 3.4. Các thông số trình tự ITS và matK.
Các thông số Vùng ITS Vùng matK
Chiều dài trình tự tổng (bp) 474 - 793 1336 - 1548
Trung bình chiều dài trình tự tổng (bp) 634 1542
Chiều dài trình tự nhóm trong (bp) 474 - 793 1339 - 1548
Trung bình chiều dài trình tự nhóm trong (bp) 634 1532
Chiều dài trình tự nhóm ngoài (bp) 601 - 635 1536 - 1542
Trung bình chiều dài trình tự nhóm ngoài (bp) 618 1539
Chiều dài đoạn align (bp) 254 1530
Trung bình (G + C) (%) 53,65 28,98
Tỉ lệ biến đổi (%) 76,38 14,11
3.2.3. Xây dựng cây phát sinh loài
Có hai cơ sở chính để xây dựng cây phát sinh loài: Một là các phương pháp dựa trên đặc tính khoảng cách, ví dụ như phương pháp UPGMA, neighbour joining (NJ), Fitch – Margoliash; hai là các phương pháp dựa trên đặc tính trình tự, gồm phương pháp maximum parsimony (MP), maximum likelihood (ML) và Bayesian [35]. Các phương pháp phân tích dựa trên đặc tính khoảng cách dựng cây theo khoảng cách khác biệt tối thiểu của các cặp trình tự. Phương pháp này tuy đơn giản, dễ thực hiện, cho kết quả nhanh nhưng ngược lại cho độ chính xác không cao vì nhiều khi
thông tin thu được là không chính xác, không cho biết tốc độ tiến hóa cũng như xu hướng tiến hóa.
Các phương pháp thuộc nhóm thứ hai dựng cây phát sinh loài dựa trên phân tích trực tiếp trình tự (DNA hoặc protein) có độ chính xác cao hơn. Phương pháp MP khá đơn giản, chỉ dựa trên các điểm khác biệt, nhưng lại sử dụng nhiều giả thiết đơn phân (các điểm khác biệt là độc lập, không có sự hội tụ tiến hóa....). Do chỉ sử dụng một số vị trí có liên quan nên khi số lượng các vị trí cho thông tin hà tiện ít thì phương pháp này sẽ ít chính xác so với phương pháp dựa trên khoảng cách. Phương pháp ML tìm cây tiến hóa bằng cách đưa ra các mô hình có thể xảy ra và tìm ra mô hình tối ưu nhất (là khả năng lớn nhất có thể xảy ra từ các số liệu và mô hình đưa ra). Phương pháp Bayesian sử dụng hàm Monter - Carlo làm chuẩn và ước tính khả năng chiều dài nhánh và mô hình topo cây.
Như vậy, để dựng một cây phát sinh loài đáng tin cậy cần áp dụng nhiều phương
pháp phân tích (NJ, MP, ML, Bayesian…). Áp dụng giá trị bootstrap để xác định độ tin cậy của các phân nhóm trong cây tiến hóa. Giá trị bootstrap được tính lặp lại 1000 lần. Bootstrap có giá trị lớn hơn 85% cho kết quả phân nhóm có độ tin cậy cao; từ 70 – 85% cho kết quả phân nhóm có độ tin cậy trung bình; từ 50 – 70% là yếu và dưới 50% là không đáng tin cậy.
Chúng tôi tiến hành dựng cây phát sinh loài dựa trên trình tự ITS, maK và kết hợp trình tự ITS và matK. Phương pháp giải trình tự kết hợp vùng ITS và matK để xây
dụng cây phát sinh loài họ Gừng đã được John Kress tiến hành từ năm 2002. Các
chi Zingiber, Curcuma, Alpinia, Amomum...đã được giải trình tự dựa trên phương pháp này, tạo cơ sở và điều kiện cho đề tài này được tiến hành [26], [27], [21], [22], [23], [44].
Cây phát sinh loài dựa trên trình tự ITS gồm 25 trình tự ITS đọc mới, 25 trình tự ITS lấy từ GenBank làm nhóm trong và 3 trình tự ITS nhóm ngoài (Hình 3.4). Theo các kết quả nghiên cứu trước đây, trong những năm 2000 - 2007, ITS được xem là một vùng gene dùng để phân loại thực vật ở cấp độ từ họ cho đến phụ loài [33].
Trình tự ITS có độ biến đổi cao, phù hợp với nghiên cứu phát sinh loài, đặc biệt là trên họ Gừng [38].
Dựa vào cây phát sinh loài này, 50 mẫu nhóm trong được chia làm ba tông là Globbeae, Alpinieae và Zingibereae. Các mẫu thực nghiệm tập trung chủ yếu vào hai tông là Alpinieae và Zingibereae. Tuy nhiên, ở mức độ phân nhóm đến mức chi, cây phát sinh loài dựa trên trình tự ITS này chưa giải quyết tốt. Ví dụ như đối với
loài Zingiber fragile thuộc chi Zingiber nhưng lại được xếp chung vào chi
Kaempferia; loài Zingiber ellipticum lại tách riêng ra thành nhóm độc lập, không nằm trong nhóm nào thuộc hai chi vừa nêu trên; loài Hitchenia glauca (thuộc chi
Hitchenia) lại được xếp chung với nhóm thuộc chi Curcuma. Do đó, chúng tôi không sử dụng kết quả của cây này làm kết quả chính mà chỉ dùng để đối chiếu với hai cây còn lại.
Các nghiên cứu hiện nay cũng cho thấy vùng gene này mang một số hạn chế và ít được sử dụng là một vùng đơn nhất dùng trong phân loại thực vật. Đây là vùng không mã hóa nên có khả năng chúng có nhiều bản sao, dẫn đến sự phân kì giả. Sự hình thành cấu trúc thứ cấp cũng gây khó khăn, kết quả giải trình tự cho chất lượng
không cao. Trong vài trường hợp, sản phẩm khuếch đại bị nhiễm các trình tự của
Hình 3.4. Cây phát sinh loài có gốc trình tự ITS. Giá trị bootstrap từ trái qua phải: ML / MP / NJ. Mô hình tiến hóa theo Akaike Information Criterion: TrNef+G. Phần chữ in đậm là các trình tự mới. -lnL = 2733.7436.
Cây phát sinh loài dựa trên trình tự matK gồm 19 trình tự matK mới; 17 trình tự
matK từ GenBank là nhóm trong, 3 trình tự matK từ GenBank là nhóm ngoài (Hình
3.5). Kết quả cây phát sinh loài cho thấy một số kết quả9 khả quan. Các chi thuộc tông Zingibereae được phân nhóm khá tốt (chỉ trừ chi Hitchenia). Tuy nhiên, cây phát sinh loài dựa trên trình tự matK cũng chưa cho kết quả phân nhóm rõ ràng. Thứ
nhất, các mẫu N1, N8, N9, N10, N11 và N25 được xếp vào chi Curcuma, tuy nhiên
lại không cho biết sự phân nhóm nhỏ hơn trong chi này. Thứ hai, sự phân nhóm
giữa nhóm trong và nhóm ngoài dựa trên trình tự matK là không tốt; loài
Siphonochilus kirkii thuộc nhóm ngoài lại nằm trong nhóm chị em với tông
Alpinieae; ngược lại, loài Hedychium villosum thuộc chi Hedychium, tông
Zingibereae lại được xếp vào nhóm ngoài.
Qua phương pháp phân nhóm nói trên, việc sử dụng một trình tự matK đơn lẻ cũng
khó có thể cho kết quả chính xác. Mặc khác, việc dùng một trình tự duy nhất dùng trong dựng cây phát sinh loài sẽ gây ra rất nhiều sai số. Do đó, cây phát sinh loài sử
dụng trình tự matK cũng chỉ được dùng để tham khảo. Cần kết hợp nhiều gene từ
các nguồn bộ gene khác nhau (như gene nhân, gene ti thể, gene lục lạp,…) hoặc các gene được đặt dưới các điều kiện chọn lọc khác nhau.
Hình 3.5. Cây phát sinh loài có gốc trình tự matK. Giá trị bootstrap từ trái qua phải: ML /MP /NJ. Mô hình tiến hóa theo Akaike Information Criterion: TPM1uf+G. Phần chữ in đậm là các trình tự mới. -lnL = 3737.1652.
Dựa vào cây phát sinh loài kết hợp cả hai trình tự ITS và matK (Hình 3.6), 3 trình tự nhóm ngoài đã được tách biệt với 36 trình tự nhóm trong rõ ràng. Các mẫu nhóm trong thuộc ba tông là Globbeae, Alpinieae và Zingibereae. Tuy nhiên, các mẫu thực nghiệm chủ yếu nằm trong hai tông là Alpinieae và Zingibereae, không có mẫu nào thuộc tông Globbeae.
Trong tông Alpinieae, mẫu N12 thuộc chi Alpinia và nó được xếp chung nhóm với
Alpinia galanga. Giá trị bootstrap của nhóm này theo phương pháp ML, MP và NJ
lần lượt là 100/100/100. Như vậy mẫu N12 thuộc loài Alpinia galanga nhưng kết
quả phân tích cây phát sinh loài trên cây matK cho thấy mức độ tiến hóa của chúng là khác nhau. So sánh trình tự ITS và matK của mẫu N12 với loài Alpiniagalanga
(AY424739) cho thấy trình tự ITS và matK của chúng khác nhau tại một số vị trí
nucleotide. Mẫu N12 được thu từ vùng Bảy Núi, An Giang, Việt Nam, trong khi đó mẫu Alpinia galanga (AY424739) được thu nhận và giải trình tự từ John Kress (http://ajbsupp.botany.org/v89/) [23]. Với sự khác biệt về vùng địa lí, trình tự peak thu nhận từ kết quả mẫu N12 cho thấy có độ tin cậy, có thể loại trừ trường hợp đọc
sai trình tự. Mẫu N12 và Alpinia galanga (AY424739) là hai mẫu thuộc cùng một
Hình 3.6. Cây phát sinh loài có gốc kết hợp trình tự ITS và matK. Giá trị bootstrap từ trái qua phải: ML /MP /NJ. Mô hình tiến hóa theo Akaike Information Criterion: GTR+I+G. Phần chữ in đậm là các trình tự mới. -lnL = 6832.0743.
Trong tông Zingibereae, các mẫu thực nghiệm được phân bố trong năm chi là
Zingiber, Boesenbergia, Stahlianthus, Curcuma và Kaempferia.
Các mẫu N5, N6, N13, N18, N19 và N29 thuộc chi Zingiber. Mẫu N5 và N29, N6
và Zingiber officinale, N13 và N18 được xếp vào cùng một nhóm (theo thứ tự). Về
mặt hình thái, ngoài đặc điểm về hoa chưa quan sát được, N5 và N29 có chung
những đặc điểm như không có hình dạng nhất định và phân nhánh, đỉnh các nhánh có vết thân khí sinh, cắt ngang thấy rõ hai vùng vỏ và trung trụ. Phân tích thành phần tinh dầu, N5, N29 và N6 có một số thành phần giống nhau nhưng tỉ lệ khác nhau, và số lượng thành phần giống nhau rất ít (hai chất giống nhau hoàn toàn ở cả ba loài). Điều này chứng tỏ đây là ba loài khác nhau. Tinh dầu N5 giống tinh dầu N29 nhiều hơn (9 chất) so với tinh dầu N6 (có 6 chất giống N29, 2 chất giống N5). N6 có hàm lượng zerumbon rất cao, có khả năng kháng HIV và ung thư tốt. N5 và N29 chứa nhiều L-terpinen-4-ol, đây là chất có khả năng kháng nấm tốt [6]. Mẫu
N13 và N18 được định danh hình thái là Zingiber zerumbet, tuy nhiên khác địa
điểm thu mẫu. Như vây, có thể thấy sự phân nhóm dựa trên trình tự phân tử là khá tương đồng với các nhận định phân loại về hình thái.
Mẫu N22 thuộc chi Boesenbergia, giá trị bootstrap của nhóm này là 99,8/100/100; chúng rất có thể là hai mẫu cùng loài nhưng khác thứ. Tuy trong cây phát sinh loài
kết hợp hai trình tự N22 và Boesenbergia rotuda (AF478726) cho thấy chúng là
một loài nhưng mức khác biệt thể hiện rõ khi đối chiếu cây phát sinh loài trình tự ITS và matK riêng biệt.
Mẫu N20 xếp trong chi Stahlianthus và nó cùng loài với Stahlianthus involucratus
(AY424773), khác thứ, giá trị bootstrap hỗ trợ là 100/100/100.
Các mẫu N1, N8, N9, N10, N11 và N25 được xếp vào chi Curcuma. Mẫu N3 nằm
trong nhóm chị em với chi Curcuma, giá trị bootstrap hỗ trợ cho nhóm này là
69/69/86; rất có thể mẫu N3 thuộc chi Curcuma.
mẫu N26 cùng loài nhưng khác thứ với Kaempferia rotunda (AF478726); giá trị bootstrap hỗ trợ là 98,3/99/99. Mẫu N28 nằm trong nhóm chị em với chi
Kaempferia, giá trị bootstrap hỗ trợ là 72,4/-/72, nghĩa là chỉ có ý nghĩa phân nhóm trên cây ML và cây NJ, không có ý nghĩa trên cây MP. Tuy nhiên, so sánh các cây phát sinh loài của từng trình tự matK cho thấy N28 thuộc chi Kaempferia, và giá trị bootstrap của nhóm là khá cao 97,6/79/98.
Dựa theo cây phát sinh loài trình tự ITS (Hình 3.4), các mẫu N2, N7 và N27 được xếp vào chi Curcuma; N21 thuộc chi Curcumorpha; N23 thuộc chi Smithatris và N24 thuộc chi Kaempferia. Tuy nhiên vì thiếu trình tự matK, các mẫu này không được tiến hành phân nhóm.
Nhìn chung, cây phát sinh loài dựa trên kết hợp trình tự ITS và matK đã phân nhóm được phần lớn các mẫu nghiên cứu (19 mẫu). Tuy nhiên, trong cây phát sinh loài
này vẫn còn một số phân nhóm chưa hợp lí như sự phân nhóm của loài Hitchenia
glauca, Hedychium villosum. Điều này có thể khắc phục bằng cách tăng số lượng mẫu sử dụng trong phân tích.