Phân tích phát sinh chủng loại thằn lằn ngón cyrtodactylus Ở việt nam bằng dna ti thể Phân tích phát sinh chủng loại thằn lằn ngón cyrtodactylus Ở việt nam bằng dna ti thể
Tính cấp thiết của đề tài
Thằn lằn ngón giống Cyrtodactylus là một trong những giống có mức độ đa dạng thành phần loài cao nhất trong họ Tắc kè (Gekkonidae) với 354 loài đã được ghi nhận Các loài của giống này có vùng phân bố rộng kéo dài từ vùng nhiệt đới Nam Á, Đông Nam Á, Philippin, quần đảo Indo – Australia tới phía Đông đảo Solomon
Thằn lằn ngón thuộc giống Cyrtodactylus có thể thích nghi với các loại môi trường sống khác nhau, như rừng trên núi đá vôi, rừng thứ sinh hay trên núi đất Môi trường sống đa dạng kèm theo phân bố rộng ở các khu vực có điều kiện địa lý khác nhau, giống này được coi là giống có số lượng các loài ẩn sinh cao nhất trong họ Tắc kè
Ngoài ra, có rất nhiều loài thuộc giống này có cùng khu vực phân bố Trong mười năm trở lại đây, có tới 140 loài mới được phát hiện trên thế giới Số lượng loài được mô tả trong thời gian ngắn, đồng thời, các mô tả loài trước đây hầu như chỉ dựa trên dữ liệu hình thái mà hình thái của các loài thuộc giống thằn lằn ngón rất giống nhau, do đó có khả năng cao một số loài sẽ là các loài đồng danh (synonym species)
Về quan hệ di truyền, một số nghiên cứu đã được thực hiện về mối quan hệ phát sinh loài của các loài thuộc giống Cyrtodactylus, tuy nhiên hầu hết những nghiên cứu này mới chỉ sử dụng một số đoạn DNA ti thể không hoàn chỉnh (Cytochrome oxidase I - COI, NADH dehydrogenase subunit II – ND2) mà chưa nghiên cứu về toàn bộ hệ gen của ti thể Vì vậy, đề tài nghiên cứu này: “Phân tích phát sinh chủng loại thằn lằn ngón Cyrtodactylus ở Việt Nam bằng DNA ti thể” – đã được thực hiện nhằm phân tích phát sinh chủng loại sử dụng hệ gen ti thể của giống Cyrtodactylus
Kết quả nghiên cứu không chỉ làm sáng tỏ những vấn đề còn tồn tại về mặt phân loại học mà còn đóng góp các thông tin hữu ích về mối quan hệ di truyền phục vụ nghiên cứu về địa lý sinh vật và tiến hóa của các loài thằn lằn ngón tại Việt Nam
Mục tiêu nghiên cứu
Phân tích quan hệ phát sinh chủng loại một số loài thuộc giống Cyrtodactylus sử dụng DNA hệ gen ti thể.
Nội dung nghiên cứu
Nội dung 1: Giải trình tự toàn bộ hệ gen ti thể của 12 mẫu vật thằn lằn ngón thuộc giống Cyrtodactylus có trong nghiên cứu
Nội dung 2: Phân tích cấu trúc hệ gen ti thể của các mẫu thằn lằn ngón thuộc giống Cyrtodactylus có trong nghiên cứu
Nội dung 3: Phân tích quan hệ phát sinh chủng loại của các loài thuộc giống
Cyrtodactylus có trong nghiên cứu
Ý nghĩa khoa học và thực tiễn của đề tài
Cung cấp các dẫn liệu khoa học đầu tiên về hệ gen ti thể hoàn chỉnh của một số loài thuộc giống Cyrtodactylus ở Việt Nam
Cung cấp các trình tự DNA hệ gen ti thể mới từ các loài đã biết và chưa biết
Các trình tự này sẽ được đưa lên Ngân hàng Gen để làm cơ sở khoa học cho các nghiên cứu trong tương lai
TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU
Khái quát tình hình nghiên cứu bò sát trên thế giới và ở Việt Nam
Tính đến tháng 10/2023, có tổng số 12,060 loài bò sát trên Thế giới được ghi nhận [85] Chúng được chia thành bốn bộ: bộ Rùa (Testudines) (361 loài); bộ Cá sấu (Crocodylia) (27 loài); bộ Có vảy (Squamata): bộ phụ Thằn lằn (Sauria) (7396 loài), bộ phụ Rắn (Serpentes) (4073 loài), bộ phụ Amphisbaenia (Amphisbaenia) (202 loài); bộ Thằn lằn đầu mỏ (Rhynchocephalia) (1 loài) [85] So với năm 2013, trong vòng 10 năm đã có tới 2294 loài mới đã được phát hiện và mô tả [85] Khu vực Đông Dương nằm trong vùng Indo–Burma, là một trong 36 điểm nóng trên thế giới về đa dạng sinh học, là vùng được đặc trưng bởi sự đa dạng và tính đặc hữu của loài [43]
So với những khu vực có diện tích tương tự thì loài bò sát ở Đông Dương khá đa dạng với 1344 loài Bò sát, trong đó Việt Nam ghi nhận số lượng lớn nhất là 573 loài, Cam– pu–chia ghi nhận có 212 loài và Lào ghi nhận có 247 loài [85]
Theo Alder 2009, những công trình nghiên cứu bò sát liên quan đến Việt Nam được tiến hành khá sớm từ đầu thế kỉ 19 [1] Cuốn sách “Nam Dược Thần Hiệu” được viết bởi Tuệ Tĩnh, là cuốn sách đầu tiên nhắc tới các loài lưỡng cư – bò sát ở Việt Nam với 16 loài lưỡng cư và bò sát liên quan tới chức năng dùng làm dược liệu [53]
Năm 1875, cuốn sách đầu tiên tổng hợp các loài bò sát ở Việt Nam được công bố bởi nhà vật lý và khoa học tự nhiên người Pháp Albert Morice (1848 – 1877) [41]
Cuốn sách mang tên “Coup d’Oeil sur la Faune de la Cochinchine Francaise” là kết quả thống kê từ các khảo sát từ năm 1873 – 1877 với 114 loài bao gồm cả các loài sinh vật biển (2 loài cá sấu, 30 loài thằn lằn, 66 loài rắn, 16 loài rùa) [41] Mười năm sau (1885), bác sỹ y khoa và khoa học tự nhiên người Pháp Gilbert Tirant (1848 – 1899) xác nhận 149 loài bò sát ở Việt Nam bao gồm cả các loài sinh vật biển (2 loài cá sấu, 36 loài thằn lằn, 87 loài rắn, 24 loài rùa) qua các cuộc khảo sát từ năm 1874 – 1898 trong cuốn sách “Notes sur les Reptiles es les Batraciens de la Cochinchine et
Trong giai đoạn thế kỉ 20, rất nhiều nghiên cứu quan trọng về Bò sát đã được thực hiện tại Việt Nam Năm 1907, Francois Mocquard công bố cuốn sách có tên
“Les Reptile de l’Indo–Chine” tổng hợp tất cả các nghiên cứu về bò sát trước đó ở Việt Nam [41] Trong cùng năm này, 3 loài mới cũng được mô tả ở phía bắc [53]
Vào các năm từ 1920 – 1935, Fernand Angel (1881 – 1950) và một số thành viên của Bảo tàng lịch sử tự nhiên Pari công bố 9 bài báo trong đó mô tả một số loài bò sát mới ở Việt Nam [92] Năm 1920 – 1943, nhà vật lý và khoa học tự nhiên nghiệp dư người Anh Malcom A Smith (1875 – 1958) mô tả và ghi nhận hơn 50 loài bò sát ở Việt Nam [7, 53] Sau những năm 1930, nhà địa lý học người Pháp René Bourret đã viết và xuất bản với số lượng lớn bài báo và sách về bò sát ở Việt Nam mà cho đến ngày nay những bài báo và các cuốn sách này vẫn là những tài liệu quan trọng trong việc nghiên cứu bò sát ở Việt Nam cũng như các nước trong khu vực Đông Dương
Trong số loạt sách của ông, phải kể đến hai cuốn sách chuyên khảo về các loài bò sát ở khu vực Đông Dương là: “Les Serpents de l’Indochine”, gồm hai tập, xuất bản năm 1936 về các loài rắn và cuốn sách cùng tên xuất bản năm 1941 về các loài rùa [13]
Từ 1977 – 1982, Đào Văn Tiến tổng hợp danh sách các loài bò sát ở Việt Nam và cuốn sách này đưa ra khóa định loại đầu tiên cho các loài bò sát của cả nước với tổng số 276 loài bò sát bao gồm cả các loài sinh vật biển (trong đó có 2 loài cá sấu, 77 loài thằn lằn, 165 loài rắn và 32 loài rùa) [14] Vào năm 1996, các tác giả Nguyễn Văn Sáng và Hồ Thu Cúc đã xuất bản một danh sách sửa đổi cho các loài bò sát ở Việt Nam với 258 loài bò sát [58]
Năm 2005, Nguyễn Văn Sáng, Hồ Thu Cúc và Nguyễn Quảng Trường công bố cuốn sách đầu tiên bao gồm cả ảnh màu minh họa cho các loài bò sát ở Việt Nam với tiêu đề “Danh lục Ếch Nhái và Bò Sát Việt Nam” với 296 loài bò sát [57] Vào năm 2009, nhóm tác giả công bố cuốn sách “Herpetofauna of Vietnam” với rất nhiều ghi nhận mới và ghi chú về vùng phân bố cùng với ảnh màu cho hầu hết các loài bò sát ở Việt Nam [41] Cho đến nay, đây vẫn là tài liệu có giá trị cao và được trích dẫn
5 nhiều nhất trong tất cả các tài liệu liên quan đến nghiên cứu bò sát ở Việt Nam [53]
Theo Nguyễn Văn Sáng và cs (2009), giữa thế kỉ 19 cho đến năm 2009, hầu hết các nghiên cứu ở Việt Nam tập trung vào hai hướng nghiên cứu chính: (1) phát hiện và mô tả các các loài lưỡng cư, bò sát mới ở Việt Nam dựa trên các điều tra thực địa trên toàn đất nước, (2) nghiên cứu về sinh thái học của một số loài chính, phổ biến, bị đe dọa hoặc là những loài đặc hữu, có giá trị bảo tồn cao [41]
Những nghiên cứu tiếp theo về bò sát ở Việt Nam có sự hợp tác của nhiều nhà nghiên cứu trong và ngoài nước [7, 21, 25] Các công trình nghiên cứu này mở rộng các khu vực địa lý và mô tả rất nhiều loài mới cũng như tập trung nghiên cứu sâu về hình thái, sinh thái và địa sinh học Ví dụ như nghiên cứu của Bain và Hurley 2011 đã tổng hợp lại những nghiên cứu trước đó về lưỡng cư – bò sát ở Đông Dương và đưa ra những đánh giá ban đầu về địa lý động vật ở khu vực này [7].
Tổng quan về giống thằn lằn ngón Cyrtodactylus ở trên thế giới và ở Việt Nam
Thằn lằn ngón – giống Cyrtodactylus là nhóm có mức độ đa dạng cao nhất trong họ Tắc kè (Gekkonidae) với 354 loài đã được mô tả trên toàn thế giới (tính đến tháng 10 2023) [85] Nhóm này có phân bố rộng từ Đông Nam Á, Đông Dương, Philippin, quần đảo Indo – Australia cho tới đảo Solomon [9, 54, 55] Trong 5 năm trở lại đây, có tới 83 loài mới được phát hiện trên thế giới, và Việt Nam được coi là một trong những trung tâm có nhiều loài mới được phát hiện nhất [85]
Cho tới năm 1997, chỉ có bốn loài thuộc giống Thằn lằn ngón Cyrtodactylus được ghi nhận trên lãnh thổ Việt Nam bao gồm Thằn lằn chân ngón côn đảo C condorensis [73], Thằn lằn chân ngón trung gian C intermedius [72], Thằn lằn chân ngón vằn lưng C irregularis [73] và Thằn lằn chân ngón C paradoxus [15] Năm
2003, Ziegler và cs đã mô tả thêm loài mới Thằn lằn chân ngón phong nha kẻ bàng (C phongnhakebangensis) với mẫu chuẩn thu tại Vườn Quốc gia Phong Nha – Kẻ Bàng, Quảng Bình [90]
6 Trong ba năm 2006, 2007, 2008, có tới 12 loài mới được phát hiện và mô tả với bộ mẫu chuẩn thu tại Việt Nam, bao gồm: Thằn lằn chân ngón mắt đen (C nigriocularis) [50]; Thằn lằn chân ngón bà đen (C badenensis) [50]; Thằn lằn chân ngón cao văn sung (C caovansungi) [59]; Thằn lằn chân ngón châu quang (C chauquangensis) [28]; Thằn lằn chân ngón ẩn (C cryptus) [27]; Thằn lằn chân ngón ai–xen–man (C eisenmanae) [78]; Thằn lằn chân ngón (C grismeri) [78]; Thằn lằn chân ngón hòn tre (C hontreensis) [80]; Thằn lằn chân ngón huỳnh (C huynhi) [79]; Thằn lằn chân ngón giả bốn vạch (C pseudoquadrivirgatus) [66]; Thằn lằn chân ngón tà kóu (C takouensis) [79]; Thằn lằn chân ngón ziegler (C ziegleri) [45]
Trong vòng 10 năm từ năm 2008 cho tới 2018, hàng loạt các cuộc khảo sát được thực hiện tại các khu vực có tiềm năng phân bố của các loài thuộc giống thằn lằn ngón ở Việt Nam Trong thời gian này có tới 24 loài mới được mô tả và ghi nhận, trong đó có: Thằn lằn chân ngón cát tiên (C cattienensis) [21]; Thằn lằn chân ngón bích ngân (C bichnganae) [75]; Thằn lằn chân ngón phú quốc (C phuquocensis) [81]; Thằn lằn chân ngón (C roesleri) [90]; Thằn lằn chân ngón yang bay (C yangbayensis) [84]; Thằn lằn chân ngón cúc phương (C cucphuongensis) [83]; Thằn lằn chân ngón hương sơn (C huongsonensis) [39]; Thằn lằn chân ngón martin (C martini) [77]; Thằn lằn chân ngón bi đúp (C bidoupimontis) [44]; Thằn lằn chân ngón bù gia mập (C bugiamapensis) [44]; Thằn lằn chân ngón thổ chu (C thochuensis) [48]; Thằn lằn chân ngón hoàng đức đạt (C dati) [76]; Thằn lằn chân ngón king sa da (C kingsadai) [91]; Thằn lằn chân ngón phước bình (C phuocbinhensis) [51]; Thằn lằn chân ngón tây nguyên (C taynguyenensis) [51]; Thằn lằn chân ngón cực đông (C cucdongensis) [69]; Thằn lằn chân ngón pù hu (C puhuensis) [52]; Thằn lằn chân ngón thương (C thuongae) [65]; Thằn lằn chân ngón bô–b–rốp (C bobrovi) [55]; Thằn lằn chân ngón ô ta (C otai) [55]; Thằn lằn chân ngón sơn (C soni) [34]; Thằn lằn chân ngón gia lai (C gialaiensis) [38]; Thằn lằn chân ngón sơn la (C sonlaensis) [56]; Thằn lằn chân ngón sang (C sangi) [63]
Từ năm 2019 cho tới nay, có thêm tất cả là 11 loài mới thuộc giống thằn lằn
7 ngón ở Việt Nam đã được mô tả, trong đó có: Thằn lằn chân ngón bảy núi (C septimontium) [42], Thằn lằn chân ngón tây bắc (C taybacensis) [64], Thằn lằn chân ngón cù lao chàm (C culaochamensis) [82], Thằn lằn chân ngón phù mỹ (C phumyensis) [60], Thằn lằn chân ngón chứng (C chungi) được phát hiện tại Khu bảo tồn thiên nhiên Tà Kóu tỉnh Bình Thuận [61], Thằn lằn chân ngón ngật (C ngati) [35], Thằn lằn chân ngón orlov (C orlovi) [17], Thằn lằn chân ngón raglai (C raglai) [49], Thằn lằn chân ngón arnd (C arndti) [47], Thằn lằn chân ngón chư mư (C chumuensis) [47], và Thằn lằn chân ngón tây hoà (C tayhoaensis) [16]
Tính đến tháng 10 năm 2023, tổng cộng có tới 52 loài thuộc giống
Cyrtodactylus đã được mô tả ở Việt Nam
Về sinh cảnh sống: Các loài thuộc giống thằn lằn ngón ở Việt Nam có thể thích nghi với nhiều loại sinh cảnh khác nhau, như thảm thực vật cây bụi ven biển xen lẫn với đá cuội đá granit (C kingsadai), trên đá granit, môi trường sống xung quanh là rừng thứ sinh hỗn giao của cây bụi gai nhỏ (C cucdongnensis), núi đá vôi
(C bichnganae, C bobrovi, C cryptus, C chauquangensis, C huongsonensis, C martini, C otai, C phongnhakebangensis, C soni, C sonlaensis, C roesleri), rừng thường xanh (C bidoupimontis, C caovansungi, C dati, C yangbayensis), rừng nhiệt đới gió mùa (C bugiamapensis), trên cây cà phê (C gialaiensis) và môi trường trong hang đá (C badenensis, C eisenmanae, C grismeri, C nigriocularis, C thuongae)
Các loài thằn lằn ngón ở Việt Nam được tìm thấy ở nhiều độ cao khác nhau kéo dài từ 5m (C cucdongensis) cho tới 1700m (C bidoupimontis) so với mực nước biển [85]
Vào năm 2021, nghiên cứu của Grismer và các cộng sự đã xây dựng cây phân loài cho 310 loài thằn lằn ngón Cyrtodactylus và phân chia các loài thằn lằn ngón thành 31 nhóm loài dựa trên kết quả phân tích cây phân loài và các đặc điểm hình thái, nhằm mục đích hạn chế số lượng loài cần phải so sánh khi phát hiện một đơn vị loài mới [24] Ngoài ra, việc sử dụng các nhóm loài này cũng loại bỏ các bước so
8 sánh hình thái không cần thiết với các loài có họ hàng xa mà không liên quan đến loài mới đang thực hiện định loài [24] Các loài thằn lằn ngón được phát hiện ở Việt Nam chủ yếu thuộc 2 nhóm chính là nhóm Cyrtodactylus angularis (với các đại diện là C nigriocularis, C phongnhakebangensis) và nhóm Cyrtodactylus irregularis (với các đại diện là C cucdongensis, C phuocbinhensis, C gialaiensis, C culaochamensis,
Tổng quan tình hình nghiên cứu hệ gen ti thể của giống thằn lằn ngón
Hệ gen ti thể của động vật có xương sống có cấu trúc là DNA sợi đôi, dạng vòng, thường có kích thước từ 16-17 kb, mã hóa 2 gen rRNA, 22 gen tRNA, 13 gen mã hóa cho protein và một vùng gen điều khiển (Control region) (Hình 1) Hệ gen ti thể được truyền từ các thể mẹ sang con với nhiều bản sao trong cùng một tế bào So sánh với DNA nhân (nuclear DNA), hệ gen ti thể có tính bảo thủ cao với tỉ lệ tái tổ hợp thấp, mặc dù trình tự các gen thuộc hệ gen ti thể có tốc độ tiến hóa nhanh [19, 22] Đặc điểm này giúp các gen thuộc hệ gen ti thể hữu ích trong các nghiên cứu về di truyền quần thể và phát sinh giống loài [18]
Hình 1 Cấu trúc hệ gen ti thể của động vật có xương sống
9 Trong những năm gần đây, hệ gen ti thể của các loài bò sát có vảy đã được nghiên cứu nhiều hơn, và những tiến bộ vượt bậc trong lĩnh vực giải trình tự gen đã giúp số lượng loài được giải trình tự hệ gen ti thể tăng lên một cách đáng kể [33] Tuy nhiên, dù có đến 2292 loài thuộc phân thứ bộ tắc kè Gekkota [85], mới chỉ có 30 loài thuộc phân thứ bộ này được giải trình tự hệ gen ti thể, trong số đó chỉ có 6 loài thuộc giống Cyrtodactylus: 5 loài được bảo tồn tại vườn thú Nakhon Ratchasima, Thái Lan
[6] và loài Cyrtodactylus louisiadensis (Nhật) tuy nhiên trình tự hệ gen ti thể của loài này chưa được công bố khoa học Cyrtodactylus là giống có mức độ đa dạng cao trong họ Tắc kè (Gekkonidae), với tổng số loài đã được mô tả là 354 loài [85] Các nghiên cứu phát sinh chủng loại sử dụng các chỉ thị sinh học phân tử đã chỉ ra rằng mức độ đa dạng và dị biệt hóa của giống Cyrtodactylus có mối liên hệ tương quan với sự va chạm của 2 mảng kiến tạo lớn là Á - Ấn Độ, qua đó giống Cyrtodactylus là một trong những ứng cử viên cho những nghiên cứu khám phá mức độ ảnh hưởng của va chạm này tới thế giới động vật [23, 71, 86]
Trước đây, các nghiên cứu về đa dạng di truyền và mối quan hệ phát sinh loài của các loài thuộc giống Cyrtodactylus thường được dựa trên trình tự gen COI thuộc hệ gen ti thể Nghiên cứu của Nazarov và cs, 2014 về quan hệ di truyền giữa 21 loài đã mô tả và chưa mô tả thuộc giống Cyrtodactylus ở Lào và Việt Nam dựa trên 673 bp của đoạn gen COI Theo đó, các loài thuộc giống Cyrtodactylus được chia thành ba nhóm chính: nhóm A (gọi là nhóm C phongnhakebangensis) bao gồm các loài phân bố ở núi đá vôi ở miền Trung Việt Nam, miền Trung và Đông Lào từ tỉnh Khăm Muộn tới Viêng Chăn; nhóm B (gọi là nhóm C wayakonei) bao gồm các loài phân bố ở phía Tây, Bắc Lào và phía liền kề với Trung Quốc; nhóm C (gọi là nhóm C irregularis) chỉ bao gồm các loài ở miền Trung Việt Nam
Nghiên cứu của Lưu Quang Vinh và cs, 2016 về quan hệ di truyền giữa 29 loài thuộc giống Cyrtodactylus ở Lào và Việt Nam dựa trên 668 bp của đoạn gen COI
Trong nghiên cứu này, các loài thuộc giống Cyrtodactylus ở Lào và một số loài Cyrtodactylus ở Việt Nam chia làm ba nhóm chính: nhóm 1 (gọi là nhóm C
10 wayakonei) bao gồm các loài phân bố ở Bắc Lào và Tây Bắc Việt Nam; nhóm 2 (gọi là nhóm C phongnhakebangensis) bao gồm các loài phân bố ở Nam Lào, miền Nam và miền Trung Việt Nam; nhóm 3 (gọi là nhóm C irregularis) bao gồm các loài phân bố ở Trung Lào và Bắc Trung Bộ Việt Nam
Trong nghiên cứu của Nguyễn Ngọc Sang và cs, 2017 dựa trên trình tự đoạn gen COI của 26 loài thuộc giống Cyrtodactylus ở Việt Nam chia làm năm nhóm chính: nhóm 1 bao gồm các loài phân bố ở một phần phía Bắc Việt Nam; nhóm 2 cũng bao gồm các loài phân bố ở một phần phía Bắc Việt Nam; nhóm 3 bao gồm các loài phân bố ở miền Trung Việt Nam; nhóm 4 bao gồm các loài phân bố ở phía Nam Tây Nguyên và một số tỉnh ở miền Nam Việt Nam; nhóm 5 bao gồm các loài phân bố ở phía Nam Việt Nam
Nghiên cứu của Brennan và cs, 2017 về sự đa dạng của các loài thuộc giống thằn lằn ngón Cyrtodactylus dựa trên một số mẫu thu được từ khu vực Đông Dương, Ấn Độ, Myanmar, Malaysia, Thái Lan, cây phát sinh loài được xây dựng dựa trên trình tự hai đoạn gen ti thể COI Các loài thuộc giống thằn lằn ngón ở khu vực Đông Dương tách thành ba nhóm riêng biệt: nhóm 1 bao gồm hai loài loài C phongnhakebangensis phân bố ở miền Trung Việt Nam (Quảng Bình), C lomyenensis phân bố ở Lào; nhóm 2 bao gồm ba loài C hontreensis, C intermedius,
C phuquocensis phân bố ở miền Nam Việt Nam (Đồng bằng sông Cửu Long – Kiên
Giang); nhóm 3 bao gồm các loài C bichnganae phân bố ở Trung du và miền núi phía Bắc và C chauquangensis phân bố ở Bắc trung bộ và Duyên hải miền Trung
Như vậy, các nghiên cứu trước đây chỉ mới sử dụng chủ yếu là gen COI, mà chưa đánh giá được ý nghĩa của tất cả các gen có trong hệ gen ti thể Trong nghiên cứu này, tất cả các gen mã hóa cho protein được sử dụng để phân tích phát sinh chủng loại các loài thuộc giống Cyrtodactylus, đồng thời các trình tự các gen mã hóa cho protein được nối lại với nhau theo thứ tự sắp xếp trên hệ gen ti thể và sử dụng để phát sinh chủng loại nhằm có cái nhìn tổng quát về hệ gen ti thể, và để so sánh kết quả với
11 nghiên cứu trước đó thực hiện trên hệ gen ti thể của một số loài thuộc giống
Cyrtodactylus [6] Các trình tự tRNA không được sử dụng trong phân tích phát sinh loài do các trình tự này có kích thước nhỏ, không có nhiều ý nghĩa trong phân tích tiến hóa đối với động vật có xương sống [87].
Tổng quan về kỹ thuật giải trình tự gen thế hệ mới
Các công nghệ giải trình tự đầu tiên được phát triển vào năm 1977 bởi Sanger cùng đồng sự [68] từ Đại học Cambridge được trao giải Nobel hóa học năm 1980 và
Maxam AM cùng Gilbert WA [40] từ Đại học Harvard Khám phá của họ đã mở ra cánh cửa để nghiên cứu mã di truyền của các sinh vật và mang lại nguồn cảm hứng cho các nhà nghiên cứu trong việc phát triển công nghệ giải trình tự nhanh hơn và hiệu quả hơn [30] Trong đó công nghệ giải trình tự Sanger (Sanger Sequencing - SGS) đã trở thành kỹ thuật được áp dụng nhiều nhất vì hiệu quả cao và độ phóng xạ thấp [62], được tự động hóa để có hiệu suất cao hơn
Trình tự bộ gen người đầu tiên đã được giải mã bằng phương pháp Sanger vào năm 2004 đã tiêu tốn rất nhiều thời gian và nguồn lực Do vậy, cần tìm ra các phương pháp có thể rút ngắn thời gian và giảm chi phí giải trình tự toàn bộ hệ gen Đây chính là động lực giúp thúc đẩy sự phát triển và thương mại hóa các công nghệ giải trình tự thế hệ mới (Next generation sequencing - NGS) Công nghệ NGS cho phép phân tích song song hàng loạt với dữ liệu lớn từ nhiều mẫu với chi phí ít hơn [70] Các công nghệ NGS có thể giải trình tự song song hàng triệu đến hàng tỷ đoạn đọc trong một lần chạy và thời gian cần thiết để tạo ra các đoạn đọc có kích thước GigaBase chỉ là vài ngày hoặc vài giờ, tốt hơn so với giải trình tự thế hệ đầu tiên như giải trình tự Sanger Tuy nhiên, NGS không có khả năng đọc chuỗi DNA hoàn chỉnh của bộ gen, chúng bị giới hạn trong việc giải trình tự các đoạn DNA nhỏ và phải qua hàng triệu đoạn đọc Giới hạn này vẫn là một điểm yếu đặc biệt đối với các dự án lắp ráp bộ gen vì nó đòi hỏi tài nguyên máy tính cao [30]
12 Kết quả từ máy giải trình tự gen sẽ là các đoạn đọc DNA, được cung cấp dưới định dạng tệp tin Fastq Mỗi tệp tin Fastq sẽ chứa số lượng đoạn đọc khác nhau tùy thuộc vào mẫu được giải trình tự, mỗi đoạn đọc đều gồm 4 dòng tương ứng với 4 thành phần (Hình 2):
• Định danh đoạn đọc DNA: Mỗi đoạn đọc DNA sẽ có một mã duy nhất để phân biệt
• Đoạn đọc DNA: Đoạn đọc định dạng chuỗi, bao gồm các cơ sở A, T, G, C
• Ký tự +: đánh dấu ngắt dòng đoạn đọc
• Chất lượng của các cơ sở trên đoạn đọc: Gồm 1 chuỗi các kỹ tự mang ý nghĩa chất lượng của các cơ sở trên đoạn đọc, được mã hóa bởi kỹ tự ASCII Xác suất cơ sở đó đọc bị lỗi được tính theo công thức:
Trong đó, Q là giá trị theo mã ASCII của ký tự mã hóa chất lượng của cơ sở;
P là xác suất cơ sở đọc được từ máy giải trình tự bị lỗi Hiện tại, tiêu chuẩn điểm chất lượng cho các dữ liệu giải trình tự thế hệ mới là trung bình Q30 cho từng base, tương ứng với tỉ lệ sai số 1/1000 đối với mỗi base
Hình 2 Định dạng Fastq cho file kết quả giải trình tự thế hệ mới 1.4.2 Đánh giá chất lượng giải trình tự sử dụng phần mềm FastQC
Kết quả giải trình tự thông lượng cao sử dụng công nghệ giải trình tự gen thế hệ mới có thể tạo ra hàng trăm triệu trình tự trong một lần chạy Trước khi phân tích các trình tự này để đưa ra kết luận có ý nghĩa khoa học, các chuyên viên dữ liệu phải luôn thực hiện một số các bước kiểm tra kiểm soát chất lượng đơn giản để đảm bảo rằng dữ liệu thô tốt và không có vấn đề hoặc sai lệch nào trong dữ liệu trước khi thực hiện các bước phân tích tiếp theo [67]
Hầu hết các các hãng giải trình tự thế hệ mới sẽ cung cấp một báo cáo kiểm soát chất lượng cho từng mẻ chạy như một phần của quy trình thực hiện giải trình tự, nhưng các báo cáo này thường chỉ tập trung vào việc xác định các vấn đề do chính trình sắp xếp chuỗi tạo ra Vào năm 2010, phần mềm FastQC được viết ra với mục đích cung cấp báo cáo kiểm soát chất lượng nhằm phát hiện các vấn đề từ máy giải trình tự hoặc từ chất lượng của mẫu đầu vào [67]
Phần mềm FastQC đánh giá các tiêu chí bao gồm: điểm chất lượng của đoạn đọc, thành phần GC, phân bố độ dài của các đoạn đọc, mức độ lặp lại của các đoạn đọc [67]
1.4.3 Làm sạch dữ liệu giải trình tự gen sử dụng phần mềm Trimmomatic
Trong các quy trình giải trình tự thế hệ mới, các trình tự đầu dò đặc biệt sẽ được thêm vào trình tự DNA có trong thư viện để có thể thực hiện quá trình giải trình tự [5] Các trình tự đầu dò này có thể tồn tại trong dữ liệu kết quả giải trình tự thế hệ mới, làm sai lệch kết quả phân tích dữ liệu trong các bước tiếp theo [12]
Trimmomatic là một công cụ tin sinh được viết ra để lọc các dữ liệu dưới định dạng tệp tin Fastq và loại bỏ các trình tự đầu dò khỏi dữ liệu giải trình tự [12], quá trình này được gọi là làm sạch dữ liệu Ngoài ra, chất lượng của các trình tự DNA không đồng đều mà luôn thay đổi theo từng chu kỳ đọc của quá trình giải trình tự, và các trình tự chất lượng kém có thể được loại bỏ sử dụng Trimmomatic [12]
1.4.4 Lắp ráp hệ gen sử dụng phần mềm SPADES
Công nghệ giải trình tự gen thế hệ mới hiện tại cho kết quả tốt trong việc tạo ra nhanh chóng và chính xác các đoạn trình tự DNA ngắn, tuy nhiên chúng cần được lắp ráp lại với nhau thành các đoạn dài hơn bằng máy tính và các phần mềm phân tích tin sinh [70] Lắp ráp bộ gen, tương tự như xếp hình với hàng triệu mảnh lộn xộn, tách rời nhau mà không hề biết được hình ảnh đó thật sự là gì, vẫn là công việc đầy khó khăn do số lượng rất lớn các đoạn trình tự ngắn tương ứng với các mảnh ghép rất nhỏ, phải được lắp ráp lại với nhau sử dụng các phương pháp hiện đại Phần mềm SPADES là một trong những phần mềm lắp ráp hệ gen được sử dụng rộng rãi với độ chính xác cao với các tính năng hiện đại, phù hợp với nhiều loại dữ liệu giải trình tự khác nhau, có khả năng xử lý cả kết quả giải trình tự đoạn ngắn và kết quả giải trình tự đoạn dài [8]
Phần mềm SPADES phân chia các đoạn đọc giải trình tự thành các đoạn k- mer với kích thước khác nhau để xây dựng biểu đồ de Brujin và sau đó nối các đoạn lại với nhau dựa trên cấu trúc của biểu đồ, bộ bao phủ và độ dài của các trình tự [8]
Ngoài ra, trong quá trình lắp ráp hệ gen, phần mềm còn duyệt lần lượt các đoạn đọc để tự động sửa lỗi sai trong quá trình giải trình tự Quá trình lắp ráp trình tự của SPADES bao gồm các giai đoạn:
15 1: xây dựng biểu đồ de Brujin nhằm xác định các trình tự các đoạn đọc có liên kết với nhau
2: điều chỉnh kích thước k-mer, nhằm ước tính khoảng cách di truyền giữa các k-mẻ có trong hệ gen
3: xây dựng biểu đồ lắp ráp hệ gen sử dụng các cặp trình tự được giải 2 chiều
4: xây dựng contig - kết quả cuối cùng Các contig có thể là hệ gen hoàn chỉnh hoặc có thể là những đoạn kích thước khác nhau cấu thành nên hệ gen hoàn chỉnh, phụ thuộc vào chất lượng giải trình tự [8]
1.4.5 Chú giải hệ gen sử dụng phần mềm MITOS2
VẬT LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU
Vật liệu
Nghiên cứu sử dụng 12 mẫu vật trong đó có 8 mẫu vật được kế thừa từ nhóm nghiên cứu của PGS.TS Lê Đức Minh và 4 mẫu vật được thu ở các địa điểm khác nhau ở Việt Nam, bao gồm các địa điểm đã ghi nhận phân bố hoặc có tiềm năng phân bố của các loài thuộc giống thằn lằn ngón Cyrtodactylus, trong đó có 3 mẫu thuộc 2 loài chưa được mô tả (Cyrtodactylus sp.1 và Cyrtodactylus sp.2) [16, 46] Thông tin chi tiết về các mẫu được thể hiện trong Bảng 1 Các loài được lựa chọn trong nghiên cứu là các loài phân bố ở khu vực miền Nam Việt Nam, ít được nghiên cứu trong các nghiên cứu trước đây
Bảng 1 Thông tin mẫu vật sử dụng trong nghiên cứu
Tên mẫu Tên loài Địa điểm thu mẫu Năm thu mẫu Nguồn gốc
Bù Gia Mập, Bình Phước 2010 Kế thừa từ nhóm nghiên cứu
Mũi Cực Đông, Khánh Hoà 2011 Kế thừa từ nhóm nghiên cứu
Hoà 2011 Kế thừa từ nhóm nghiên cứu
Vân Canh, Bình Định 2016 Kế thừa từ nhóm nghiên cứu
Ct215.28 Cyrtodactylus phumyensis Phù Mỹ, Bình Định 2016 Kế thừa từ nhóm nghiên cứu
Hoà 2016 Kế thừa từ nhóm nghiên cứu
Khu bảo tồn thiên nhiên Tà Đùng, Đăk
2017 Kế thừa từ nhóm nghiên cứu
Khu bảo tồn thiên nhiên Tà Đùng, Đăk
2017 Kế thừa từ nhóm nghiên cứu
KBT thiên nhiên Tà Kóu, Bình Thuận 2022 Thu mẫu
Ct570 Cyrtodactylus nigriocularis Bà Đen, Tây Ninh 2022 Thu mẫu
Ct572 Cyrtodactylus badenensis Bà Đen, Tây Ninh 2022 Thu mẫu
KBT thiên nhiên Tà Kóu, Bình Thuận 2022 Thu mẫu
Các hóa chất được sử dụng để tách chiết DNA tổng số bao gồm: bộ kit Dneasy Blood and Tissue (Qiagen, Cộng Hòa Liên Bang Đức); GenJet Genomic DNA Purification (ThermoFisher Scientific, Lithuania); ethanol (Merck, Cộng Hòa Liên Bang Đức)
Sản phẩm tách chiết DNA được hiển thị bằng phương pháp điện di, sử dụng các hóa chất sau: agarose, ethidium bromide, tris base, EDTA, marker 1 kb, marker 100 bp (1 st Base, Malaysia) và dye 6x (ThermoFisher Scientific, Lithuania)
Các phần mềm tin sinh được sử dụng trong nghiên cứu này bao gồm: FastQc v0.12.1 [67] , Trimmomatic v0.36 [12], SPADES 3.15.4 [8] có trên web server Galaxy Australia (https://usegalaxy.org.au) [2], MITOS2 web server [29], ClustalX v2.1 [74], MEGA7 [32], Itol - Interactive Tree of Life [37]
Các thiết bị, máy móc phục vụ cho nghiên cứu thuộc Phòng thí nghiệm Bộ môn Di truyền học, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội.
Phương pháp nghiên cứu
2.2.1 Mẫu vật nghiên cứu và phương pháp thu mẫu vật nghiên cứu
Kết hợp với nhóm nghiên cứu do PGS TS Nguyễn Quảng Trường (Viện Sinh thái và Tài nguyên Sinh vật, Viện Khoa học và Công nghệ Việt Nam), các mẫu vật trong nghiên cứu đã được thu thập thành công ở 6 tỉnh Việt Nam bao gồm: Bình Định, Bình Phước, Bình Thuận, Đăk Nông, Khánh Hòa, Tây Ninh
Phương pháp thu mẫu: Mẫu vật được thu bằng tay và các dụng cụ chuyên dụng như kẹp có bọc cao su để tránh gây tổn thương đến con vật Mẫu vật sau khi được đo đếm, chụp ảnh, và thu mẫu DNA - được thả lại đúng điểm đã thu thập Các mẫu đại diện sẽ được giữ lại làm tiêu bản nghiên cứu
Làm tiêu bản: Gây mê bằng miếng bông thấm ethylacetate trong lọ kín, gắn nhãn, cố định trong cồn 90% trong vòng 5 – 8 giờ tùy thuộc vào kích cỡ của mẫu vật, sau đó chuyển sang bảo quản trong cồn 70% Mẫu vật hiện được lưu giữ ở nhiệt độ phòng
Thu mẫu để tách DNA: Các mẫu mô cơ, gan hoặc mô đuôi được thu thập, lưu trữ riêng trong cồn 70% (Merck, CHLB Đức), bảo quản và lưu trữ tại Viện Sinh thái và Tài nguyên sinh vật – Viện Hàn lâm Khoa học và Công nghệ Việt Nam (IEBR),
19 và được vận chuyển đến phòng thí nghiệm bộ môn Di truyền học, khoa Sinh học, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội để thực hiện tách chiết DNA tổng số và các bước tiếp theo
2.2.2 Tách chiết DNA tổng số
Các mẫu mô được lưu trữ ở 4 o C trước khi tiến hành tách chiết Bộ Kit Dneasy Blood and Tissue (Qiagen, CHLB Đức) được sử dụng cho các mẫu có dung lượng ít hoặc thu từ lâu và bảo quản trong điều kiện nhiệt độ và dung dịch không đảm bảo và
GeneJet Genomic DNA Purification (ThermoFisher Scientific, Lithuania) cho các mẫu mô mới thu, lượng mẫu nhiều và bảo quản trong điều kiện đảm bảo (cồn Merck 70%, CHLB Đức) Quá trình tách chiết được tiến hành dựa trên hướng dẫn của nhà sản xuất, có chỉnh lý dựa trên quy trình của Lê và cs, năm 2006 [36] Quy trình tách chiết được thực hiện theo các bước cụ thể như sau: tiền xử lý mẫu (cắt mẫu thành các mảnh nhỏ, để khô rồi cho vào ống eppendoft 1.5 ml); phá màng tế bào và loại bỏ protein (sử dụng dung dịch đệm ATL, AL – Qiagen, CHLB Đức; Digestion Solution, Lysis solution – ThermoFisher Scientific, Lithuania và protein K – Qiagen, CHLB Đức); kết tủa DNA (sử dụng cồn 100% hoặc 50% – Merk, CHLB Đức); tách DNA khỏi các thành phần khác của tế bào (cột lọc có chứa màng silica); làm sạch DNA (sử dụng các dung dịch đệm AW1, AW2 – Qiagen, CHLB Đức; Wash 1, Wash 2 – ThermoFisher, Lithuania), hòa tan DNA (dung dịch đệm AE – Qiagen, CHLB Đức;
Elution Buffer – ThermoFisher Scientific, Lithuania) Sau khi tách chiết DNA tổng số, nồng độ DNA tổng số thu được được kiểm tra ban đầu bằng phương pháp điện di trên gel agarose 1%, đệm TBE 1X (Tris base, Boric acid, EDTA pH 8) ở 70V trong vòng 30 phút DNA tổng số được so sánh với marker 1 kb và sau đó được hiển thị bằng tia cực tím trên máy Alphamager MINI (Protein Simple, Mỹ) Tiếp đó, các mẫu DNA sẽ được kiểm tra nồng độ trên máy Qubit 4.0 (Thermo Fischer Scientific)
2.2.3 Giải trình tự DNA hệ gen ti thể sử dụng công nghệ giải trình tự thế hệ mới
Các mẫu có nồng độ DNA tổng số đạt chất lượng (nồng độ đo Qubit 4.0
20 (Thermo Fischer Scientific) > 5 ng/uL - tiêu chuẩn nồng độ đầu vào của hãng) sau đó được gửi đi giải trình tự hệ gen ti thể tại công ty GENTECH (Việt Nam) sử dụng hệ máy BGISEQ-500 của BGI (Trung Quốc), giải trình tự hai chiều với chiều dài mỗi đoạn đọc là 150 bp Hệ gen ti thể được làm giàu trước khi giải trình tự nhằm đảm bảo kết quả giải trình tự gen chỉ bao gồm DNA từ hệ gen ti thể và được thực hiện bởi kỹ thuật viên của hãng Quy trình giải trình tự được thực hiện theo quy trình của hãng
Kết quả giải trình tự thu được bao gồm 2 tệp dữ liệu định dạng FastQ với mỗi mẫu (chiều xuôi và chiều ngược)
2.2.4 Phân tích kết quả giải trình tự DNA hệ gen ti thể
Quy trình phân tích kết quả giải trình tự DNA hệ gen ti thể trong nghiên cứu được dựa theo quy trình đã được mô tả trong nghiên cứu của Areesirisuk và cộng sự vào năm 2018 [6]
Kết quả giải trình tự được kiểm tra đánh giá chất lượng bằng phần mềm
FastQC [67] Các mẫu giải trình tự đạt các chỉ tiêu chất lượng của phần mềm FastQC sẽ tiếp tục được sử dụng trong các bước phân tích tiếp theo
Các trình tự sau đó được làm sạch sử dụng phần mềm Trimmomatic với các thông số: ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36, trong đó: thông số ILLUMINACLIP quy định loại adapter cần được làm sạch khỏi dữ liệu, tùy thuộc theo kit sử dụng; thông số LEADING:3 là số lượng base (3) được cắt tại đầu đoạn đọc nếu có điểm chất lượng thấp; thông số TRAILING là số lượng base (3) được cắt tại đoạn cuối nếu có điểm chất lượng thấp; thông số SLIDINGWINDOW:4:15 thể hiện trong 4 base đầu 5’ của đoạn đọc nếu có điểm trình tự trung bình dưới 15 thì sẽ bị loại bỏ; thông số MINLEN:36 là số lượng base tối thiểu (36) để một đoạn đọc không bị loại [12]
Các trình tự sau khi đã làm sạch được lắp ráp thành trình tự hoàn chỉnh sử dụng phần mềm SPADES [8] Trong nghiên cứu này, các kích thước k-mer được sử dụng là 21, 33, 55, 77bp, phù hợp với kích thước trình tự đoạn đọc là 150bp theo
21 hướng dẫn của phần mềm
2.2.5 Phân tích cấu trúc hệ gen ti thể
Sau khi được lắp ráp hoàn chỉnh, các trình tự hệ gen ti thể được chú giải các gen sử dụng phần mềm MITOS2 với ngân hàng gen tham chiếu là “RefSeq 63 Metazoa”, mã di truyền là “2 Vertebrate”
Các chỉ số A+T% và G+C% được tính toán cho tất cả các hệ gen ti thể, đồng thời chỉ số độ lệch AT và độ lệch GC cũng được MITOS2 tính toán nhằm đánh giá tỉ lệ thành phần nucleotide cho mạch sớm (leading strand) theo công thức: Độ lệch GC = (G - C) / (G + C) Độ lệch AT = (A - T) / (A + T)
Trong đó A, T, G, C lần lượt là tỉ lệ các nucleotide có trong trình tự của hệ gen ti thể
2.2.6 Xây dựng cây phát sinh chủng loại
Các trình tự hệ gen ti thể sau khi được chú giải cùng với các trình tự từ Ngân hàng Gen (Genbank) được gióng cột bằng phần mềm ClustalX v2.1 với các cấu hình mặc định cho chức năng sắp xếp hoàn chỉnh [74] Các phân tích phát sinh chủng loại được thực hiện lần lượt với trình tự nối các gen mã hóa cho protein và với từng trình tự gen mã hóa cho protein