4.2.1. Về thu nhận dữ liệu gen/vùng giao gen của đơn vị mã hóa ribosome của sán lá phổi châu A
Trong nghiên cứu này, lần đầu tiên phần mã hóa toàn phần (coding region, từ gen đến 28S rRNA, ký hiệu rTU*) của rTU của 6 chủng/5 loài SLP, gọi bao hàm là 18S SLP châu Á, gồm P. heterotremus (Phet-LC-VN), P. ohirai (Pohi-Kino-JP),
P. iloktsuenensis (Pilo-Amami-JP), P. miyazakii (Pmiy-OkuST1-JP) và P. westermani (chủng Ấn Độ: Pwes-Megha(2n)-IN và chủng Hàn Quốc: Pwes- Bogil(3n)-KR) đã được thu nhận và mô tả đầy đủ sắp xếp gen và vùng giao gen. Tuy nhiên, vùng bản lề IGS nối 3’ 28S rDNA với 5’ 18S rDNA còn thiếu, chưa thu nhận được. Vùng mã hóa hoàn chỉnh bao phủ từ 5’ 18S đến 3’ 28S của 6 chủng/5 loài Paragonimus trong nghiên cứu này đầu chứa khung gen: 5’-18S-ITS1-5.8S- ITS2-28S-3’ đã được phân tích (Bảng 3.6–3.11; Hình PL3.4–3.9).
Phần mã hóa rTU* của SLP châu Á có kích thước trong khoảng từ 6.932 bp đến 7.661 bp, ngoại trừ 8.616 bp ở loài P. westermani (chủng Ấn Độ: Pwes- Megha(2n)-IN (Bảng 3.6–3.11). Ở loài P. heterotremus (Phet-LC-VN) mẫu Việt
Nam, rTU* có kích thước là 7.661 bp; và của P. ohirai (Pohi-Kino-JP) mẫu Nhật Bản, rTU* có kích thước là 7.442 bp, bao phủ từ đầu 5’ của 18S đến cuối 3’ của gen 28S rRNA và 2 vùng giao gen ITS-1 và ITS-2 xen kẽ giữa các gen trên (Hình 3.7). Ngắn nhất là rTU* của loài P. miyazakii (Pmiy-OkuST1-JP), có độ dài là 6.932 bp; dài nhất là rTU* của loài P. westermani (chủng Pwes-Megha(2n)-IN) có kích thước lên đến 8.616 bp. Như vậy, dựa trên một số công bố trước đây về rTU của một số loài sán dẹt [121, 123–125, 132, 180] và dữ liệu rTU của Paragonimus đã được phân tích và công bố trong Ngân hàng gen, kích thước và vị trí của từng gen/vùng giao gen trong phần mã hóa của rTU của từng loài SLP đã được xác định.
Ngoài dữ liệu rTU của Paragonimidae cung cấp ở nghiên cứu này, cơ sở dữ liệu rTU của phân bộ Troglotremata, cho đến gần đây trong Ngân hàng gen chỉ mới có thêm rTU* hoàn chỉnh của các loài không gây bệnh trên người, đó là của hai chủng thuộc loài Nanophyetus salmincola (họ Nanophyetidae), đều có độ dài 7.615 bp, đó là chủng Karp51 và chủng Karp55 của Nga (Nsal-Karp51-RU và Nsal- Karp55-RU); và của loài Collyriclum faba (họ Colliryclidae) có độ dài 7.309 bp [140], được sử dụng để so sánh (Bảng PL2.6). Nếu so sánh kích thước, thì rTU* hiện có của 9 chủng/7 loài trong họ Paragonimidae, Nanophyetidae và Colliryclidae của phân bộ Troglotremata được sắp đặt theo cấp độ là: Pwes(Megha(2n)/(8.616bp) > Phet/(7.661bp) > Pilo/(7.543bp) > Pohi/(7.422bp) > Cfab/(7.309bp) > Pwes(Bogil(3n)/(7.292bp) > Nsal/Karp51(7.067bp) = Nsal/Karp55(7.067bp) > Pmiy/(6.932 bp).
Như vậy, cùng với dữ liệu rTU* của các loài SLP này, việc hoàn thành giải trình tự, chú giải và phân tích đầy đủ đặc điểm gen/vùng giao gen rTU* của 6 chủng/5 loài SLP châu Á của họ Paragonimidae trong nghiên cứu này, đã cung cấp thêm dữ liệu gen/vùng giao gen của rTU có giá trị cho bộ sưu tập dữ liệu rTU trên thế giới. Hơn nữa, 6 chủng/5 loài SLP châu Á của họ Paragonimidae là ký sinh trùng ĐVLSN, có khả năng gây nhiễm trên người, trong khi đó loài Nanophyetus salmincola ký sinh trên cá và Collyriclum faba ký sinh trên chim, của riêng động vật [140].
Đặc điểm chung nhất của rTU là có sự bảo tồn cao về độ dài của các gen mã hóa ribosome ở rTU của các loài Paragonimus, cụ thể: 1.977 bp/18S rRNA; 160 bp/5.8S rRNA và 3.881 bp/28S rRNA; và của vùng giao gen ITS-2 (283–285 bp).
Điều khá đặc biệt là việc tìm thấy các cấu trúc lặp liền kề (TRU) trong vùng giao gen ITS-1 ở rTU của tất cả 4 loài P. heterotremus, P. ohirai, P. iloktsuenensis và P. westermani với số lượng khác nhau ở mỗi loài, nhưng không tìm thấy TRU ở rTU của P. miyazakii. Độ dài vùng giao gen ITS-1 giữa các chủng/loài Paragonimus vì vậy mà có dao động rất lớn, do biến động số lượng và độ dài của mỗi một TRU khác nhau ở mỗi loài/chủng. Số lượng và độ dài TRU biến thiên từ 4,7 TRU/(121 bp) ở P. westermani (chủng Pwes-Bogil(3n)-KR) của Hàn Quốc; 5,7 TRU/(121 bp) ở P. ohirai (Pohi-Kino-JP) của Nhật Bản; 6,7 TRU/(121 bp) ở P. iloktsuenensis
(Pilo-Amami-JP) của Nhật Bản; 7,7 TRU/(121 bp) ở P. heterotremus (Phet-LC- VN) của Việt Nam; cho đến cao nhất là 15,7 TRU/(120 bp) ở chủng Megha(2n) của Ấn Độ (Pwes-Megha(2n)-IN). Ở Paragonimus spp. hiện đang nghiên cứu, TRU hoàn chỉnh có độ dài xấp xỉ nhau (120 bp hoặc 121 bp) và ở một số chủng/loài đều có một TRU không hoàn chỉnh (TRU một phần) có độ dài chỉ khoảng 70% (0,7 TRU) so với TRU hoàn chỉnh.
Sự chênh lệch độ dài của toàn bộ rTU chủ yếu là do vùng bản lề IGS và vùng giao gen ITS có kích thước khác nhau ở mỗi chủng trong loài. Những vùng giao gen này có chứa hoặc không chứa các cấu trúc lặp TRU với số lượng và độ dài của từng TRU có khác nhau ảnh hưởng đến kích thước toàn bộ rTU [118, 121, 122]. Ở
Paragonimus spp., chỉ có ITS-1 có cấu trúc lặp, còn ITS-2 hoàn toàn không (Bảng 3.6–3.11). Một lần nữa, đa hình vùng giao gen ITS-1 bởi các cấu trúc lặp ở các loài trong họ Paragonimidae là một đặc điểm cấu trúc rTU của SLP, lần đầu tiên được phát hiện ở trong nghiên cứu này. Kết quả phát hiện sự hiển diện TRU trong vùng giao gen ITS-1 gợi ý là chuỗi nucleotide ITS-1 của Paragonimus spp. không thích hợp để sử dụng trong phân tích chuỗi nucleotide cho xác định phả hệ và phân loại, trong khi đó ITS-2 hoàn toàn có thể sử dụng với độ tin tưởng cao hơn rất nhiều.
4.2.2. Về đặc điểm cấu trúc của gen rRNA và vùng giao gen ở đơn vị mã hóa ribosome của sán lá phổi châu A
Hai gen 18S rRNA và 28S rRNA tạo nên cấu trúc bậc hai phức tạp trong đó có những phần đồng nhất và có một số phần không đồng nhất, ở số lượng và hình dạng nhánh “kẹp tóc” và các “vòm”, ngay cả ở các loài cùng giống, cùng họ [111]. Những phần giống nhau là được tạo nên bởi các chuỗi đồng nhất và bảo tồn, còn phần sai khác là do các miền biến đổi có trong gen. Mức độ bảo tồn của chuỗi gen
18S rRNA ở các chủng cùng loài là rất cao, cao hơn rất nhiều so với chuỗi gen 28S rRNA [81, 115]. Đối với gen 28S rRNA, cấu trúc bậc 2 đều có các nhánh “kẹp tóc” hướng tâm, trong đó, số lượng nhánh hướng tâm của P. ohirai nhiều hơn và đối xứng hơn so với P. heterotremus; và P. heterotremus có nhiều “vòm” tự do hơn so với P. ohirai (Hình 3.8; Hình 3.9). Ở 28S rRNA, các nhánh “kẹp tóc” có số lượng nhiều hơn và độ dài nhánh cũng dài hơn; và các “vòm” tự do cũng nhiều hơn so với gen 18S rRNA. Chuỗi gen 28S rRNA có mức độ sai khác cao hơn rất nhiều so với gen 18S rRNA nên cấu trúc bậc hai cũng đa dạng và phức tạp hơn.
Cấu trúc bậc hai của vùng giao gen ITS-1 ở cả 2 loài P. heterotremus và P. ohirai có xu hướng chia làm hai phần rõ rệt, phần cân đối và phần không cân đối
(Hình 3.10). Phần cân đối của cấu trúc bậc hai ở ITS-1 được tạo nên bởi các chuỗi nucleotide của các cấu trúc lặp, gồm 7,7 chuỗi (TRU1–7,7) ở P. heterotremus và 5,7 chuỗi (TRU1–5,7) ở P. ohirai. Phần không cân đối ở đầu cuối của vùng giao gen ITS-1 có các nhánh dài ngắn khác nhau liên kết tự do và số lượng khác nhau.
Mô hình cấu trúc bậc hai của vùng giao gen ITS-2 cả hai loài P. heterotremus và P. ohirai và các loài Paragonimus đều tuân thủ theo mô hình chung của ITS-2 của nhiều loài sinh vật, đó là sự tạo nên dạng nền “bốn nhánh” (“four finger”). Dạng nền cấu trúc bậc hai “four finger” ở ITS-2 thấy ở Paragonimus
(Hình 3.11) cũng là một mô hình bảo tồn của ITS-2 ở tất cả loài sinh vật kể cả ở sán lá [126, 128, 176, 177]. Mặc dù vậy, loài P. ohirai, P. iloktsuenensis và P. westermani (3n) có đến 6 nhánh ngắn ở cấu trúc bậc 2 của ITS-2 là dạng ít thấy và đây cũng là biểu hiện khác lạ của các loài này được phát hiện đầu tiên trong nghiên cứu này.
Chuỗi gen rRNA và vùng giao gen ITS của rTU ở mọi loài bao giờ cũng có chứa các vùng/(miền) bảo tồn và biến đổi. Do 5.8S, 18S và 28S rRNA tham gia làm thành phần cấu trúc của ribosome, nên bảo tồn cấu trúc bậc hai là hết sức quan trọng và đó là sự tạo hình từ các vùng (miền) bảo tồn của rRNA [111, 126, 176]. Mặt khác, cấu trúc bậc hai có từ vùng/(miền) biến đổi là cần thiết cho sự đa dạng của loài. Mặt khác, các nghiên cứu chức năng rRNA và vùng giao gen ITS (1 và 2) cũng như phân tích phả hệ yêu cầu sự liên kết có độ tin cậy cao về tương đồng vị trí của nucleotide của rRNA/ITS để hỗ trợ căn chỉnh. Các vùng/miền bảo tồn và sai khác trong rRNA và ITS (theo loài, theo họ và bậc phân loại cao hơn) đã hỗ trợ cho
các phân tích bảo tồn và tiến hóa trong nghiên cứu quan hệ loài và phả hệ [111, 128, 177, 191, 192].
4.2.3. Về đặc điểm thành phần gen của đơn vị mã hóa ribosome của sán lá phổi châu A
+ Về phương thức sử dụng nucleotide: Phương thức sử dụng nucleotide ở từng gen (18S rRNA hoặc 28S rRNA) và cộng hợp hai gen 18S+28S rRNA ở
Paragonimus/Paragonimidae là một trong những đặc điểm gen cần xem xét để có những nhận định đặc tính di truyền của loài/họ/phân bộ. Đối với rTU, hai gen 18S rRNA và 28S rRNA có vai trò quan trọng trong nghiên cứu ứng dụng, nên so sánh đặc điểm sử dụng nucleotide và giá trị độ lệch (skew) của từng gen và của hai gen cộng hợp đã được thực hiện. Tỷ lệ sử dụng mỗi một thành phần A, T, G, C và tổng thể A+T và G+C của đơn gen và cộng hợp 18S+28S rRNA ở tất cả 6 chủng/5 loài
Paragonimus có sự đồng đều, không sai khác lớn (Bảng 3.12). Giá trị độ lệch (skew/skewness) AT-skew của 18S rRNA (–0,045 đến –0,059), của 28S rRNA (– 0,016 đến –0,027) và của 18S+28S rRNA (–0,028 đến –0,033) là những giá trị lệch âm rất thấp, do T và A được sử dụng gần bằng nhau. Tỷ lệ sử dụng G và C và giá trị độ lệch GC-skew cũng là lệch dương thấp (0,124 đến 0,175) ở tất cả 6 chủng/5 loài nghiên cứu. Sự tiếp cận sử dụng hai cặp nucleotide (A và T; G và C) gần bằng nhau có thể lý giải ở sự kiến tạo hài hòa cấu trúc bậc hai (secondary structure) bao gồm “vòm” (loop) và “kẹp tóc” (hairpin) từ những trình tự đối ngược (palindromic sequence) của AT và GC. Đặc điểm này rất thường gặp ở tất cả các gen RNA ribosome của cả ở mtDNA và ở rTU trong tế bào [127, 193].
+ Về mức độ tương đồng: Mức độ tương đồng nucleotide (%) được tính toán giữa 9 chủng/7 loài SLP họ Paragonimidae dựa trên phân tích cộng hợp 18S+28S rRNA và phần mã hóa rTU* (từ 5'’18S đến 3' 28S) (Bảng 3.13). Rõ ràng, ở cả 2 đơn vị so sánh (2 gen rRNA và rTU*), tương đồng “ngoại loài” giữa các loài
Paragonimus spp. với Nanophyetus và Collyriclum faba đạt tỷ lệ (%) rất thấp, trong khi đó tương đồng “nội giống” giữa các loài trong giống Paragonimus với nhau đạt tỷ lệ cao hơn; và tương đồng “nội loài” giữa 2 chủng của loài P. westermani (Ấn Độ và Hàn Quốc) và giữa 2 chủng của loài Nanophyetus salmincola của Nga đạt tỷ lệ cao gần như tuyệt đối (lần lượt là 99,34% và 100%) (Bảng 3.13). Loài P. heterotremus có mức độ tương đồng “ngoại loài/nội giống” của giống Paragonimus
thiên về gần hơn với loài P. miyazakii hơn là với loài P. ohirai hay loài P. westermani ở cả hai đơn vị so sánh.
Tương quan tỷ lệ tương đồng giữa các chủng (nội loài) trong một loài và giữa các loài (ngoại loài) trong một giống, giữa các giống và họ dựa trên phân tích rTU bao giờ cũng đạt mức độ cao hơn nhiều lần so với tỷ lệ dựa trên phân tích tương đồng ở mtDNA. Sở dĩ như vậy là do chuỗi nucleotide của rTU (chủ yếu là các gen cấu trúc rRNA) có mức độ bảo tồn cao hơn rất nhiều so với mtDNA (các gen chức năng PCG kém bảo tồn hơn giữa các loài).
4.2.4. Về ứng dụng đơn vị mã hóa ribosome trong nghiên cứu phân tích phả hệ
Cho đến nay, trong khi chưa có đầy đủ chuỗi gen 28S rRNA toàn phần của các loài sán lá đang được quan tâm, thì việc sử dụng một phần (khoảng 1/3) phần đầu gen 28S rRNA (đó là phân đoạn D1–D2–D3, khoảng 1.100–1.400 bp) vẫn là tiêu chí làm chỉ thị phân tử thông dụng cho nghiên cứu phả hệ, nguồn gốc và tiến hóa ở các loài sán lá [2, 81, 116, 130, 131, 137]. Tuy nhiên, sự biến đổi trong phân đoạn D1–D3 chưa đủ để phủ hết đa dạng loài/chủng sử dụng cho việc so sánh liên họ hay phân bộ trong lớp Sán lá. Điều này bắt buộc cần phải có thêm những dữ liệu đầy đủ của toàn bộ gen 28S rRNA (khoảng 3,7 đến 4,4 kb ở các loài sán lá), cụ thể là chuỗi gen 28S rRNA toàn phần để so sánh phân tích. Lúc đó, một phần của 28S (D1–D3) có thể sẽ chỉ để sử dụng như một chỉ thị mã vạch (barcode) để tầm soát loài cho một họ trong nghiên cứu, còn 28S rRNA (toàn phần) và cộng hợp rRNA có ưu thế để phân tích phả hệ, tiến hóa và di truyền quần thể hỗ trợ cùng với sử dụng các chỉ thị mtDNA [81, 111, 131, 135, 194].
Trong nghiên cứu này, chỉ thị 28S rRNA toàn phần (~3,7 kb–3,8 kb) và cộng hợp 18S+28S rRNA (~5,6 kb–5,7 kb) (Bảng PL2.6) được ứng dụng và là lần đầu tiên được thực hiện cho nghiên cứu phân tích phả hệ với các loài trong họ Paragonimdae với các loài sán lá hiện đã có đầy đủ các dữ liệu gen rRNA ribosome (Hình 3.12; Hình 3.13). Chuỗi đơn gen 28S rRNA hay cộng hợp 18S+28S rRNA là ứng viên chỉ thị phân tử hoàn chỉnh cho nghiên cứu quan hệ phả hệ giữa các loài sán lá và sán dẹt [116, 130, 134, 194].
Kết quả phân tích phả hệ 28S rRNA toàn phần (Hình 3.12) cho thấy bốn phức hệ của 4 loài Paragonimus liên quan đến nghiên cứu này (phức hệ P. ohirai; phức hệ P. westermani; phức hệ P. heterotremus và phức hệ P. miyazakii) đã được
xác định một cách rõ ràng nằm trong tập hợp của họ Paragonimidae trong phân bộ Troglotremata với hệ số tin tưởng (bootstrap) tuyệt đối (100%). Loài P. heterotremus (phức hệ P. heterotremus) cũng đã được chỉ định rõ ràng ở vị trí sắp xếp “đồng vị”/ “chị em” (monophyly) chung với phức hệ P. miyazakii; và loài P. ohirai/P. iloktsuenensis (phức hệ P. ohirai) ở vị trí “lệch vị” (paraphyly) so với phức hệ P. heterotremus và phức hệ P. westermani. Về mức độ cấp họ, họ Paragonimidae bao gồm nhóm các loài Paragonimus đã được sắp xếp một cách rõ ràng ở vị trí “đồng vị” hay thường gọi là vị trí “chị em” (hay “sister” group) so với họ Nanophyetidae và ở vị trí “lệch vị” so với họ Collyriclidae.
Cũng hoàn toàn tương tự, kết quả phân tích phả hệ 18S+28S rRNA toàn phần (Hình 3.13) cũng đã khẳng định phân định nhóm loài và phân định nhóm chủng của
Paragonimus trong họ Paragonimidae cũng như phân định vị trí nhóm họ của Paragonimidae với 2 họ Nanophyetidae và với họ Collyriclidae. Với hệ số tin tưởng bootstrap tuyệt đối (100%) cây phả hệ chỉ ra là, bên trong nhóm họ Paragonimidae, có các phân nhóm của từng cặp đôi hai loài hoặc 2 chủng, bao gồm cặp loài P. heterotremus và P. miyazakii, cặp loài P. ohirai và P. iloktsuenensis và cặp đôi 2 chủng của loài P. westermani (Pwes-Megha(2n)-IN và Pwes-Bogil(3n)-IN) được sắp xếp với nhau. Họ Paragonimidae bao gồm nhóm các loài Paragonimus đã được sắp xếp một cách rõ ràng ở vị trí “đồng vị”/ “chị em” (monophyly hay “sister” group) với nhóm của các loài của họ Nanophyetidae. Các họ khác, gồm họ Nanophyetidae và Collyriclidae cũng cho thấy vị trí tách biệt rõ ràng ở vị trí “lệch vị”/monophyly với họ Paragonimidae trong phân bộ Troglotremata (Hình 3.13).
4.2.5. Về xây dựng cơ sở dữ liệu đơn vị mã hóa ribosome của ho Paragonimidae
Cho đến khi nghiên cứu này bắt đầu và mới gần đây, trong phân bộ Troglotremata, chỉ mới có một số trình tự rTU gần/hoàn chỉnh được công bố:
+ Họ Paragonimidae: Loài sán lá phổi châu Mỹ là Paragonimus kellicotti của Mỹ (5.338 bp; GenBank: HQ900670) chưa hoàn chỉnh, thiếu vùng IGS;
+ Họ Collyriclidae: Loài Collyriclum faba của Séc (7.265 bp; GenBank: JQ231122; [140]) chưa hoàn chỉnh, thiếu vùng IGS;
+ Họ Nanophyetidae: Loài Nanophyetus salmincola của Nga (2 chủng, 6.981 bp/chủng; GenBank: LN871822–LN871823), chưa hoàn chỉnh, thiếu vùng IGS.
Theo các công trình công bố và số liệu đăng ký trong Ngân hàng gen, cho đến nay mới có khoảng 35–40 dữ liệu rTU hoàn chỉnh/(gần hoàn chỉnh) của khoảng 25 loài sán lá, chưa tính thêm rTU của 6 chủng/5 loài Paragonimus SLP châu Á mà chúng tôi vừa thu nhận. Chính vì vậy, có thêm dữ liệu rTU của Paragonimus nói riêng và sán lá nói chung để khai thác chỉ thị phân tử để sử dụng là rất cần thiết. Kết quả nghiên cứu rTU của Paragonimus ở 6 chủng/5 loài trong nghiên cứu này góp phần đáp ứng nhu cầu đó.