1.3. Các phương pháp trong nghiên cứu phân loại ở thực vật
1.3.1. Các chỉ thị đặc điểm ở thực vật
Cơ sở nền tảng của việc phân loại, xây dựng quan hệ phát sinh các taxon và đánh giá đa dạng di truyền ở sinh vật chính là nghiên cứu sự giống hay khác nhau giữa chúng, sự khác nhau đó có thể nhận biết bằng hình thái hay thông qua các phương pháp sinh học phân tử. Tùy vào các mục đích và hoàn cảnh nghiên cứu cụ thể mà sự tương đồng hay khác nhau của sinh vật được xem xét ở những mức độ khác nhau về số lượng cá thể khảo sát, đặc điểm hình thái ghi nhận hay phương pháp DNA fingerprint bao gồm cả các DNA barcodes [32].
1.3.1.1. Các chỉ thị hình thái
Các đặc điểm hình thái trong phân loại sinh vật được sử dụng từ rất sớm.
Nguyên tắc cơ bản của phương pháp này là hai đơn vị phân loại (taxon) càng có nhiều đặc điểm chung, càng giống nhau thì quan hệ giữa hai taxon càng gần nhau.
Bất cứ sự khác nhau nào giữa hai cá thể đều được nghiên cứu, nhưng không phải bất cứ đặc điểm nào cũng có thể dùng làm đặc điểm phân loại. Những đặc điểm phân loại ổn định, biến đổi chậm, liên quan đến những cấu trúc ít biến đổi của cơ thể sinh vật thường được sử dụng để phân biệt và xác định các taxon bậc cao, những biến đổi nhanh hoặc liên quan đến cơ chế cách ly sinh sản được dùng để xác định các taxon bậc thấp. Các nhà nghiên cứu thường kết hợp nhiều đặc điểm để làm tăng giá trị tin cậy của kết quả so sánh [33].
Mặc dù phương pháp sử dụng các chỉ tiêu hình thái có ưu điểm là tiện lợi, nhanh chóng, kinh tế, có thể so sánh các đặc điểm giữa các loài hóa thạch với các loài đang sống để tìm kiếm mối quan hệ họ hàng giữa chúng, nhưng việc lựa chọn và cân nhắc giá trị sử dụng của các đặc điểm phân loại là một trong những khâu khó nhất, không chỉ đòi hỏi kiến thức mà còn đòi hỏi kinh nghiệm và sự khéo léo
của các nhà phân loại học. Bên cạnh đó, phương pháp này nhiều khi không chính xác vì có hiện tượng đồng quy tính trạng và không phân biệt được các loài đồng hình [34]. Mặt khác, bởi hình thái chính là kết quả của biểu hiện gen trong một điều kiện ngoại cảnh nhất định nên việc hoàn toàn dựa vào hình thái đôi khi dẫn đến các kết quả không xác thực, nhất là đối với các taxon thực vật có mức độ thường biến cao. Hơn nữa, các đặc điểm hình thái có nhiều điểm hạn chế như: các biến đổi hình thái không phát hiện được ở một số loài; các nghiên cứu sử dụng đặc điểm hình thái nói chung thường giới hạn trong một hay một vài locus trong toàn bộ bộ gen; nhiều đặc điểm hình thái chỉ có thể quan sát được vào cuối chu kỳ sống; nhiều đặc tính hình thái không riêng biệt mà mang tính liên tục và chồng lấp giữa các sinh vật được khảo sát gây trở ngại cho việc phân tích chính xác sự đa dạng di truyền của quần thể [35].
1.3.1.2. Các chỉ thị phân tử
Chỉ thị (Marker) phân tử đã có những đóng góp lớn vào lĩnh vực nghiên cứu sự đa dạng quần thể thông qua các kỹ thuật làm nảy sinh các DNA fingerprint và phát hiện những biến động di truyền giữa các cá thể, quần thể và loài. Trước đây, khi sinh học phân tử và kỹ thuật di truyền chưa phát triển, thì chỉ thị hình thái thường được sử dụng để nghiên cứu sự đa dạng này.
Trong những thập kỷ qua, việc sử dụng các marker phân tử để phản ánh các đa hình ở mức độ DNA đã đóng vai trò ngày càng quan trọng trong công nghệ sinh học thực vật và đặc biệt là lĩnh vực nghiên cứu di truyền. Có thể chia marker phân tử thành hai loại chính: marker sinh hóa và marker phân tử dựa trên cơ sở DNA.
Những marker phân tử dựa trên cơ sở DNA có thể phân biệt thành 2 kiểu, thứ nhất là các marker không dựa trên cơ sở PCR như kỹ thuật Restriction fragment length polymorphism-RFLP và thứ hai là kiểu marker dựa trên cơ sở PCR (Random Amplification of Polymorphic DNA-RAPD, Amplified fragment length polymorphism-AFLP, Simple sequence repeats-SSR, Inter simple sequence repeat- ISSR, Single nucleotide polymorphisms-SNP). Việc phát triển các kiểu marker mới và đặc trưng ngày càng đóng vai trò quan trọng trong tìm hiểu về biến động bộ gen cũng như tính đa dạng di truyền ở các thực vật cùng hay khác loài [36].
Các kiểu khác nhau của marker phân tử được sử dụng để đánh giá đa hình DNA được phân thành hai loại: marker dựa trên cơ sở lai phân tử và marker dựa
trên cơ sở phản ứng chuỗi polymer hóa (PCR). Những marker phân tử thường được sử dụng bao gồm: RFLP, RAPD, AFLP, VNTR, SSR, ISSR, CAPS, SCAR, SNP, Kỹ thuật giải trình tự DNA [37].
Kỹ thuật SSR
SSR (Simple Sequence Repeats - trình tự lặp lại đơn giản), SSR trở thành kỹ thuật chỉ thị phân tử quan trọng trong nghiên cứu đa dạng di truyền cả động vật và thực vật. SSR rất đa hình do đột biến tác động lên số đơn vị lặp lại. Sự thay đổi hay sự đa hình của SSR là kết quả của sự khác nhau về độ dài các đoạn lặp lại trong genome do quá trình trao đổi chéo không cân hoặc do sự giảm nucleotide trong quá trình sao chép. SSR không những phổ biến mà còn biến động mạnh về số lượng kiểu lặp lại trong genome sinh vật nhân thực. Sự khác nhau allen của SSR là kết quả của sự thay đổi số lượng đơn vị lặp lại trong cấu trúc tiểu vệ tinh. Các chuỗi lặp lại thường đơn giản và cấu tạo bởi 2, 3 hoặc 4 nucleotide. Kỹ thuật SSR được thực hiện bằng PCR với mồi SSR xuôi và ngược. Sản phẩm PCR được phân tách trên gel polyacrylamide kết hợp nhuộm Ethidium bromide. Việc phát triển chỉ thị SSR được tiến hành theo một số bước như: xây dựng thư viện SSR, xác định locus SSR, xác định vùng phù hợp để thiết kế mồi, PCR với các mồi được thiết kế, đánh giá và phân tích mẫu băng, đánh giá đa hình của sản phẩm PCR. Kỹ thuật SSR có một số ưu việt hơn các chỉ thị khác như: i. Cho nhiều allen trong một locus; ii. Phân bố đều trong genome; iii. SSR cho thông tin cụ thể hơn so với di truyền ty thể theo đường mẹ (vì có mức đột biến cao) và di truyền theo cả bố và mẹ; iv. Là chỉ thị đồng trội;
v. Có tính đa hình và đặc thù cao; vi. Có thể lặp lại ở các thí nghiệm, sử dụng ít DNA, rẻ và dễ tiến hành, có thể phân tích bán tự động, không sử dụng phóng xạ, có thể sử dụng các DNA cổ (ancient DNA-aDNA). SSR có thể phân biệt các cá thể có mối quan hệ gần. Điểm hạn chế quan trọng của kỹ thuật chỉ thị SSR là cần phải đọc trình tự genome để dựa vào đó có thể thiết kế các cặp mồi đặc thù và tối ưu hóa điều kiện các mồi cho từng loài trước khi sử dụng. Hiện nay, SSR là chỉ thị được chọn cho các nghiên cứu hồ sơ pháp lý, di truyền quần thể và nghiên cứu động vật hoang dã. Ở thực vật, SSR được sử dụng trong nghiên cứu đa dạng di truyền, trong chọn cặp lai, trong xác định con lai và trong lập bản đồ liên kết phân tử [38].
Kỹ thuật giải trình tự DNA (DNA sequencing) [38]
Quá trình xác định các base nucleotide dọc theo mạch DNA được gọi là việc xác định trình tự (sequencing). Giải trình tự được ứng dụng rộng rãi trong dự đoán chức năng gen, nhân dòng phân tử hay các mối liên hệ tiến hóa, đa dạng sinh học và công nghệ sinh học nói chung. Trong lĩnh vực phân loại dựa trên phân tử, nghiên cứu phát sinh các taxon... thì chỉ cần phân tích, xác định và so sánh trình tự một vài gen chỉ thị (marker) hoặc DNA barcode giữa các loài cần khảo sát mà không cần thiết phải xác định trình tự toàn bộ bộ gen.
Sự phát triển các công nghệ giải trình tự số lượng lớn (high throughput sequencing) đã làm cho việc giải trình tự DNA trở nên đặc biệt quan trọng cho các nghiên cứu về đa dạng di truyền, tiến hóa, bảo tồn sinh học và chọn giống. Các công nghệ này có tiềm năng loại bỏ một trong các trở ngại đối với thực hiện tiếp cận hệ gen trong các cơ thể không phải là mô hình bao gồm các cơ thể thiếu thông tin về trình tự genome. Các công nghệ này tránh được sự tốn kém, phức tạp và sai lệch ở phương pháp giải trình tự dựa vào nhân dòng bằng nhân bản trực tiếp từ DNA khuôn [39, 40]. Công nghệ giải trình tự thế hệ thứ hai (hay còn được coi là công nghệ giải trình tự số lượng lớn) gồm ba nhóm chính là giải trình tự bằng phương pháp tổng hợp, giải trình tự bằng phương pháp gắn và giải trình tự phân tử đơn [40].
Giải trình tự bằng phương pháp tổng hợp: Giống như kỹ thuật giải trình tự của Sanger tức là xác định thành phần nucleotide bằng phát hiện tín hiệu quang hóa trong quá trình gắn các nucleotide vào sợi DNA bổ trợ bằng enzyme DNA polymerase. Trong kỹ thuật Sanger, sự kết thúc chuỗi dideoxynucleotide được dùng để xác định trình tự, còn trong giải trình tự bằng phương pháp tổng hợp thì DNA được cắt thành nhiều phân đoạn rồi gắn với chuỗi tiếp hợp sau đó nhân dòng để tăng tín hiệu huỳnh quang hoặc tín hiệu hóa học. Có ba hệ thống giải trình tự bằng phương pháp tổng hợp. Ba hệ thống này khác nhau về độ dài đọc, về phương pháp nhân dòng và cố định, bao gồm: hệ thống 454 của Roche, Solexa của Illumia và Solid của Applied Biosystem. Hệ thống Roche 454 giải trình tự bằng phương pháp dựa trên nguyên tắc tổng hợp cao nhiệt (pyrosequencing), sợi đơn DNA khuôn được gắn vào hạt siêu nhỏ (microbead) và nhân bản bằng PCR nhũ tương (emulsion PCR) [41]. PCR nhũ tương là phản ứng PCR sử dụng hỗn hợp phản ứng PCR thông
thường và hỗn hợp phản ứng PCR dạng nhũ tương nước trong dầu. Hệ thống Roche 454 đầu tiên chỉ đọc được đoạn 100 bp, hiện nay do cải tiến có thể đọc đoạn đến 800 bp. Hệ thống Illumina của Solexa giải trình tự dựa vào việc đơn giản hóa phương pháp xây dựng thư viện và đảo đầu bằng phương pháp huỳnh quang dẫn đến việc tạo ra các đoạn đọc có độ dài 35 bp [39]. Hệ thống này sử dụng việc nhân bản cầu pha cứng (solid-phase bridge amplification), trong đó các đoạn tiếp hợp đầu 5’ và 3’ được gắn với mỗi đầu của khuôn DNA. Một đầu của khuôn sau đó được đính với cơ chất. Các đoạn tiếp hợp được lai với các mồi xuôi hoặc ngược cố định tạo thành cầu nối, tạo thuận lợi cho việc nhân bản để tạo ra các sản phẩm nhân bản được đính với cơ chất và tạo thành các nhóm khuôn giống nhau do đó làm tăng cường sự phát hiện bằng quang hóa. Với hệ thống HiSeq 2000 có thể tạo khoảng 6 tỷ đoạn đọc cho 540 đến 600 Gb trong 11 ngày (http://www.illumina.com). Hệ thống Ion Torrent (http://www.iontorrent.com) là hệ thống giải trình tự thế hệ thứ hai duy nhất xác định trình tự không dựa vào các chất huỳnh quang mà dựa vào việc đo sự thay đổi pH do việc giải phóng H + khi gắn nucleotide bằng công nghệ bán dẫn (semiconductor) [42]. Bằng việc bổ sung liên tục các nucleotide, máy có thể nhận biết nucleotide nào được gắn vào sợi đang kéo dài [41].
Giải trình tự bằng phương pháp gắn: là giải trình tự bằng tổng hợp có sử dụng DNA polymerase làm phương tiện kéo dài trong quá trình xác định trình tự DNA. Giải tự bằng phương pháp gắn khai thác sự mẫn cảm của DNA ligase với sự bắt cặp sai (mismatch) để xác định trình tự DNA. Phương pháp này sử dụng các oligonucleotide dò có kích thước khác nhau và được đánh dấu bằng chất huỳnh quang ở nucleotide cần xác định, các phân đoạn DNA khuôn được mồi với các chuỗi neo ngắn đã biết để tạo điều kiện cho sự lai với các đoạn dò. DNA ligase được bổ sung vào phản ứng để nối các đoạn dò được đánh dấu huỳnh quang với mồi và khuôn. Hình ảnh huỳnh quang được thiết lập để xác định đoạn dò nào được gắn. Quá trình này được lặp lại với việc sử dụng các bộ dò khác nhau cho các DNA khuôn nghiên cứu để xác định trình tự nucleotide. Hệ thống giải trình tự hỗ trợ gắn và phát hiện oligonucleotide (Supported Oligonucleotide Ligation and Detection-Solid) của Life Technologies/Applied Biosystems (http:// www.appliedbiosystems.com) giải trình tự bằng phương pháp gắn có thể tạo ra chuỗi DNA 0,1 đến 4 Gb trong một đến bảy ngày với giá thành trong khoảng 3400 đến 8500 Đô-la Mỹ [42].
Giải trình tự phân tử đơn còn gọi là giải trình tự thế hệ thứ ba (third- generation sequencing). Phương pháp này tạo ra các tín hiệu nhận biết sự gắn nucleotide bằng quang hóa trong quá trình giải trình tự từ phân tử nucleic acid đơn.
Vì thế có thể loại bỏ việc nhân bản khuôn. Điều này làm cho giải trình tự phân tử đơn có nhiều lợi thế so với giải trình tự thế hệ thứ hai. Đặc biệt là việc đơn giản hóa sự chuẩn bị mẫu và có thể sử dụng DNA kém chất lượng hoặc có nồng độ thấp, đồng thời tránh được các lỗi trong quá trình nhân bản khuôn bằng PCR. Phương pháp này cũng sử dụng việc giải trình tự trực tiếp RNA nên loại bỏ được các sai lệch trong nhân bản cDNA. Hiện nay, đã có hai thiết bị giải trình tự theo phương pháp giải trình tự phân tử đơn đó là Helicos - Helicos Genetic Analysis System (http://www.helicosbio.com) và PacBio RS SMS của Pacific BioSciences (http://www.pacificbiosciences.com). Do sự khác nhau về độ dài đoạn đọc, mục đích của từng công nghệ giải trình tự là khác nhau. Với đoạn đọc ngắn và giá thành thấp của Solexa và Solid thì hai công nghệ này phù hợp cho giải trình tự toàn bộ hệ gen, trong đó trình tự genome mới có thể lắp ráp và so sánh với trình tự tham chiếu (trình tự genome của loài đang tồn tại). Công nghệ giải trình tự Roche 454 với chuỗi đọc dài (có thể tới 800 bp) cũng có thể sử dụng để nhìn được tổng thể bước đầu về hệ gen và hệ sao chép của loài. Công nghệ giải trình tự thế hệ mới được sử dụng trong nghiên cứu mã vạch DNA thế hệ mới-next-geneation DNA barcoding [43, 44], trong xác định đột biến [45], trong nghiên cứu phân loại và phát sinh loài [46, 47], trong nghiên cứu biến đổi hệ gen và phiên mã ở cơ thể đa bội [48] và trong phát triển chỉ thị DNA như SNP và SSR [49, 50].
1.3.2. DNA barcode và ứng dụng của DNA barcode để nhận dạng và phân biệt loài
1.3.2.1. Khái niệm DNA barcode và các loại DNA barcode phổ biến ở thực vật a. Giới thiệu DNA barcode
Khái niệm mã vạch DNA được Paul Heber, nhà nghiên cứu tại Đại học Guelph, Ontario đưa ra lần đầu tiên vào năm 2003, nhằm giúp nhận dạng các mẫu vật [51]. Mã vạch DNA là một phương pháp xác định loài bằng cách sử dụng một đoạn ngắn DNA từ một gen cụ thể hoặc nhiều gen phối hợp với nhau. Tiền đề để xây dựng DNA barcode là so sánh trình tự được lựa chọn với thư viện chứa các trình tự tham chiếu tương ứng của các loài khác hoặc mẫu khác qua đó xác định
được vùng trình tự DNA mang tính đặc thù riêng cho loài đó. DNA barcode được sử dụng trong nỗ lực xác định các loài, các bộ phận của sinh vật, hoặc để lập danh mục càng nhiều đơn vị phân loại càng tốt, hoặc để so sánh với phân loại học truyền thống nhằm xác định ranh giới loài [48].
Các vùng gen khác nhau được sử dụng để xác định các nhóm sinh vật khác nhau, phổ biến nhất đối với động vật và một số nguyên sinh vật là một phần của gen cytochrome c oxidase I (COI hoặc COX1), được tìm thấy trong DNA ty thể. Các gen khác thích hợp cho mã vạch DNA là rRNA của khoảng trống phiên mã bên trong (ITS) thường được sử dụng cho nấm và RuBisCO được sử dụng cho thực vật.
Các vi sinh vật được phát hiện bằng cách sử dụng các vùng gen khác nhau. Ví dụ, gen 16S rRNA được sử dụng rộng rãi để xác định sinh vật nhân sơ, trong khi gen 18S rRNA chủ yếu được sử dụng để phát hiện sinh vật nhân chuẩn vi sinh vật. Các vùng gen này thường được chọn vì chúng ít biến đổi bên trong loài hơn so với biến thể giữa các loài [49].
Như vậy, về cơ bản, DNA barcode sẽ lựa chọn và sử dụng một vùng DNA (400 - 800 bp) làm tiêu chuẩn để nhận dạng các loài một cách nhanh chóng và chính xác. Kỹ thuật DNA mã vạch giúp các nhà phân loại học trong công tác phân loại và xác định loài và đánh giá đa dạng sinh học. Ngoài ra, kỹ thuật này có triển vọng nghiên cứu và ứng dụng trong khoa học cuộc sống, trong khoa học pháp y, y tế, nghiên cứu y dược, sản xuất và kiểm soát chất lượng thực phẩm. Phương pháp này vô cùng có ý nghĩa trong các trường hợp các mẫu vật sinh học cần giám định loài đã được qua xử lý, chế biến như các dạng chế phẩm thuốc hay thực phẩm đã qua chế biến [50].
Trên thực tế, DNA barcode bắt đầu có tầm ảnh hưởng từ nghiên cứu của Hebert và cs. (2003), kết quả của nhóm nghiên cứu chỉ ra rằng các cá thể từ bộ sưu tập của 200 loài có quan hệ gần gũi với nhau thuộc bộ cánh vảy có thể xác định với độ chính xác 100% bằng cách sử dụng gen ty thể cytochrome oxidase tiểu đơn vị I (COI). Sau đó nhiều nghiên cứu về định danh loài bằng chỉ thị DNA đã thành công trên động vật như chim, cá, ốc tiền, nhện và một số loài côn trùng thuộc bộ Cánh cứng. Gần đây, hệ thống chỉ thị DNA đang được thiết lập cho các nhóm sinh vật khác như thực vật, tảo, nấm, sinh vật nguyên sinh và vi khuẩn đã thu được hiệu quả đáng kể [51].