Phương pháp phân tích dữ liệu trình tự

Một phần của tài liệu Luận án tiến sĩ xây dựng chỉ thị phân tử nhận dạng và nghiên cứu nhân giống bảo tồn loài xáo tam phân (paramignya trimera) (Trang 79 - 85)

CHƯƠNG II. VẬT LIỆU, NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU

2.3. Phương pháp nghiên cứu

2.3.7. Phương pháp phân tích dữ liệu trình tự

Phân tích các chỉ thị SSR được thực hiện bằn phần mềm Power Marker 3.25 để xuất dữ liệu ở định dạng nhị phân (có mặt của allen = “1” và sự vắng mặt của allen

= “0”). Dữ liệu dạng nhị phân được sử dụng để phân tích tiếp theo với chương trình NTSYS-pc phiên bản 2.1. Ma trận tương tự (similarity) giữa các mẫu phân tích được tính toán với chương trình con “Simqual” bằng cách sử dụng hệ số DICE, tiếp theo là phân tích cụm với chương trình con SAHN sử dụng phương pháp phân nhóm UPGMA bằng NTSYS-pc. Xử lý thống kê bao gồm số lượng allen trên mỗi locus, tần số allen, các allen đa hình, giá trị PIC. Khoảng cách di truyền được tính bằng công thức của "Nei 1983" (Nei, 1983) [94].

2.3.7.2. Phương pháp phân tích Maximum-Likelihood (ML)

Các cây tiến hóa được xây dựng dựa vào căn nhiều trình tự sử dụng chương trình MEGA-X (Phiên bản 10.1.7) áp dụng mô hình Kimura-2 (K2P). Tốc độ biến đổi các nucleotide trong chuỗi trình tự được tính toán đồng đều ở tất cả các vị trí.

Các cây tiến hóa xây dựng dựa vào phân tích ký tự (character based) sử dụng thuật toán khả năng tối đa (maximum likelihood/ML) với giá trị bootstrap 1000. Cây tiến hóa với khả năng cao nhất gồm các đơn vị taxon được nhóm cụm với nhau được lựa chọn và thể hiện giá trị % ở các nhánh. Các khoảng trống (gap) và dữ liệu khuyết (missing data) được lựa chọn với ngưỡng giá trị 95%.

2.3.7.3. Phương pháp phân tích Bayesia interference

Chương trình BEAST v2.6.3 (chạy trên nền Mac) sử dụng thuật toán Bayesian inference (BI) để xây dựng cây tiến hóa tương ứng với cùng bộ dữ liệu.

File căn trình tự định dạng Nexus được sử dụng làm số liệu đầu vào cho chương trình BEAUTi 2 với các tham số Site model (Gamma site model), Clock model (Strick clock) và Prior (Coalescant Bayesian Skyline). File được tạo ra dưới định dạng *.xmL được sử dụng làm file đầu vào cho BEAST v2.6.3 với thư viện BEAGLE. Chương trình FigTree.v1.4.4 được dùng để hiển thị cây .

2.3.7.4. Phương pháp xây dựng chỉ thị phân tử DNA barcode

Chỉ thị DNA barcode về bản chất là một vùng trình tự DNA đặc thù của một loài nhằm nhận dạng và phân biệt loài đó với các loài khác. Theo quy trình chung của BOLDSYSTEMS/Barcode Of Life Data Systems (https://naturalis.github.io/

mebioda/doc/week1/w1d3/lecture2.html), quá trình xây dựng DNA mã vạch được thực hiện theo sơ đồ gồm các bước như hình dưới đây. Trong đó bước đầu tiên là thu thập mẫu vật, tách DNA, xác định trình tự, xây dựng cơ sở dữ liệu, gắn trình tự đặc thù với tên loài dựa vào hệ thống phân loại và các bộ sưu tập mẫu chuẩn (bảo tàng), phân tích dữ liệu, kiểm tra độ tin cậy và cuối cùng đưa ra dữ liệu DNA mã vạch.

Hình 2.1a. Sơ đồ xây dựng chỉ thị DNA đặc thù

Trích nguồn: Theo quy trình chung của BOLDSYSTEMS/Barcode Of Life Data Systems (https://naturalis.github.io/mebioda/doc/week1/w1d3/lecture2.html)

Các trình tự nucleotide ITS, matKrbcL của 5 loài P. trimera, P. armata, P. monophylla Wight, P. scandens P. rectispionisa Craib được dùng làm trình tự truy vấn (query) sử dụng công cụ Megablast của NCBI (với mức giống nhau >

95%) để nhận dạng loài dựa vào các trình tự tham chiếu có sẵn trong GenBank. Các trình tự của các loài có mức giống nhau cao nhất với trình tự truy vấn được xác định dựa vào 2 tiêu chí: điểm số (max score) và mức độ che phủ (query coverage). Danh sách các trình tự có mức độ giống nhau cao nhất của mỗi kết quả căn trình tự tương ứng với mỗi trình tự truy vấn được giữ lại để xây dựng cơ sở dữ liệu căn nhiều trình tự bằng công cụ Clustal Omega (EMBL-EBI) nhằm phát hiện các vùng trình tự chung và trình tự đặc thù riêng.

Sơ đồ khối giải thích toàn bộ quy trình thu thập mẫu cho đến kiểm tra chất lượng dữ liệu trong hệ thống BioBarcode được trình bày trong Hình 2.1.

Hình 2.1b. Sơ đồ xây dựng CSDL DNA barcode (Trích nguồn: Mô phỏng theo Jeongheui Lim và cs., 2009)

Để xây dựng chỉ thị phân tử hay DNA barcodes, quy trình xác định chỉ thị phân tử DNA barcodes được thực hiện theo phương pháp mô tả bởi Cheng-Hong Yang và cs. (2018) [95].

Hình 2.2. Quy trình xác định chỉ thị phân tử DNA barcode (Trích nguồn: Mô phỏng theo Cheng-Hong Yang và cs., 2018) [95].

Quá trình xác định chỉ thị phân tử DNA barcode gồm 3 bước:

- Bước 1: Các trình tự được lấy từ ngân hàng gen (GenBank) hoặc các trình tự thu được từ việc đọc trình tự các mẫu nghiên cứu. Sau đó, các trình tự được căn (căn nhiều trình MSA/Multiple sequence alignment) để xác định các vùng trình tự đặc trưng (concensus) và những vị trí biến đổi hoặc đa hình đặc trưng cho loài.

Trình tự của các loài khác nhau (S1 - S7) thu được từ ngân hàng gen (GenBank).

Sau khi căn trình tự, các trình tự không chứa thông tin sẽ được loại bỏ để tạo ra các vùng trình tự có cùng chiều dài đại diện cho các mẫu.

- Bước 2: Xây dựng cây phân loại với vùng trình tự lựa chọn nhằm tách riêng các nhánh riêng biệt. Từ đó đánh giá độ tin cậy của vùng trình tự lựa chọn trong việc phân biệt loài. Ở đây, các trình tự được sử dụng để xây dựng cây phân loại tách riêng các nhánh riêng biệt

- Bước 3: Tạo DNA barcode. Căn cứ vào kết quả căn trình tự và xây dựng cây phân loại, xác định vùng trình tự đặc trưng cho mỗi nhánh hoặc đặc trưng cho nhóm cá thể hoặc cho loài. Cuối cùng, xác định các vùng trình tự đặc thù hiển thị bằng bộ mã vạch DNA barcode để nhận dạng và phân biệt các loài nghiên cứu.

Trên cơ sở các nghiên cứu của Tanzeem Fatima và Cheng Hong Yang (2018) quá trình xây dựng DNA barcode nhằm nhận dạng loài Xáo tam phân được thực hiện theo các bước cơ bản sau:

1. Thu thập mẫu Xáo tam phân và một số loài xáo thuộc chi Paramignya và xác định chính xác loài dựa vào khóa phân loại hình thái

2. Tách chiết DNA từ các mẫu nghiên cứu và lựa chọn chỉ thị để nhân vùng DNA bằng PCR và xác định trình tự nucleotide. Trong nghiên cứu này, các trình tự ITS, MatK và rbcL được lựa chọn bằng cách sử dụng mồi phổ biến cho các loài thuộc họ cam (Rutaceae).

3. Sử dụng công cụ Megablast để nhận dạng loài dựa vào các trình tự tham chiếu có trong GenBank.

4. Kiểm định khả năng phân biệt loài của các vùng trình tự đã lựa chọn bằng cách phân tích cây tiến hóa. Cây tiến hóa được xây dựng dựa vào phương pháp phân tích ký tự (character based method) trong đó 2 chương trình MegaX (sử dụng thuật toán Maximum likelihood (ML) với mô hình tiến hóa K2P) và chương trình BEAST (sử dụng thuật toán Bayesian inference và mô hình Prior Coalescant

Bayesian Skyline). Các vùng trình tự tạo ra các nhánh tách biệt trong cây tiến hóa sẽ được lựa chọn làm trình tự mã vạch để nhận dạng loài.

5. Sử dụng công cụ căn nhiều trình tự cùng để xác định các vùng trình tự đặc thù loài và có khả năng phân biệt loài để xây dựng chỉ thị phân tử nhận dạng loài.

Phân tích xác định vùng trình tự chung (consensus) giữa các trình tự lựa chọn để xác định các vị trí khác biệt và đặc trưng của Xáo tam phân P. trimera với các loài gần thuộc chi Paramignya.

2.3.7.5. Xác định trình tự chung (consensus) và trình tự đặc thù của loài Xáo tam phân

Trình tự chung (consensus) là trình tự mang tính phổ biến của tất cả các trình tự được phân tích. Trình tự chung được suy diễn dựa vào kết quả căn nhiều trình tự.

Công cụ Mega Align Pro của chương trình DNAStar Version: 17.1.1 (120) được sử dụng thuật toán MUSCLE và Clustal Omega. Các tham số căn trình tự được đặt mặc định như trong hình dưới đây.

Trình tự đặc thù được xác định dựa vào các vùng trình tự khác biệt đặc trưng của các mẫu Xáo tam phân so với trình tự chung. Các trình tự đặc thù (hoặc vị trí nucleotide) đặc thù phải đảm bảo được tiêu chí duy nhất đối với loài phân tích.

2.3.7.6. Xác định khoảng cách mã vạch

Xác định khoảng cách DNA mã vạch (barcoding gap) giữa các loài được phân tích là phương pháp để thẩm định khả năng phát triển DNA mã vạch để phân biệt các loài. Khoảng cách DNA mã vạch được xác định bằng chương trình ExcaliBAR dựa vào ma trận khoảng cách được tính toán trước đó sử dụng phần mềm Mega-X. Khoảng cách của các DNA barcode được tính toán dựa vào mức độ

chênh lệch giữa sự khác biệt giữa khoảng cách lớn nhất bên trong cùng một loài (maximum intraspecific distance) và khoảng cách nhỏ nhất giữa các loài khác nhau.

Chương trình ABGD được có thể truy cập theo điạ chỉ http://wwwabi.snv.jussieu.fr/public/abgd/abgdweb.htmL) được sử dụng để tạo ra biểu đồ khoảng cách (distance histograms) và xếp hạng khoảng cách (distance ranks) với 2 giá trị X về độ rộng tương đối giữa khoảng cách của các DNA barcode (1,0 và 1,5) và khoảng cách được tính theo mô hình K2P. Các giá trị mặc định được sử dụng cho tất cả các thông số khác, xác suất biến độ giữa các loài P (prior intraspecific divergence) được đặt biến động trong khoảng từ 0,001 đến 0,1 trong khi giá trị Steps được đặt mặc định 10, và Nb bins (để tính toán phân bố khoảng cách) được đặt là 20.

Một phần của tài liệu Luận án tiến sĩ xây dựng chỉ thị phân tử nhận dạng và nghiên cứu nhân giống bảo tồn loài xáo tam phân (paramignya trimera) (Trang 79 - 85)

Tải bản đầy đủ (DOCX)

(187 trang)
w