1.3.1. Cấu trúc ribosome của tê bào
B
Hình 1.14. Phân cắt các gen rRNA, sắp đặt trong ribosome và cấu trúc đơn vị ribosome của tế bào nhân sơ (prokaryote) và tế bào nhân thật (eukaryote).
Ghi chú: A. Quá trình phân cắt tạo nên 18S, 5.8S (và 5S) và 28S rRNA; B. Thành phần 5S, 23S và 16S rRNA trong ribosome của tế bào nhân sơ (vi khuẩn) và 18S, 5S/5.8S và 28S trong tế bào nhân thật (động vật); C. Cấu trúc ribosome ở hai loại tế bào. Chú thích: Ribosome ở tế bào nhân sơ có hệ số lắng 70S: gồm một tiểu đơn vị nhỏ 30S (gồm 16S RNA dính với 21 proteins) và một tiểu đơn vị lớn 50S (5S rRNA, 23S rRNA và 31 protein); ribosome ở tế bào nhân thật có hệ số lắng 80S: gồm một tiểu đơn vị nhỏ 40S (gồm 18S rRNA dính với 33 proteins) và một tiểu đơn vị lớn 60S (gồm 5S rRNA, 5.8S rRNA, 28S rRNA và 49 proteins).
(Nguồn: https://www.biochemcalcs.com/cell-structure-and-functions/ ;
Các đơn vị ribosome có mặt trong tất cả các tế bào sống, đây là nơi xảy ra quá trình sinh tổng hợp protein. Ribosome trong tế bào nhân sơ (prokaryote) có đường kính khoảng 18 nm, hệ số lắng 70S. Trong một ribosome, rRNA chiếm 60– 65% và protein chiếm 30–35%. Ribosome trong tế bào nhân thực (eukaryote) có kích thước khá lớn, đường kính 20–22 nm, hệ số lắng 70–80S, rRNA chiếm 55% và protein 45%. Trong tế bào nhân sơ, các hạt ribosome tồn tại tự do hoặc kết hợp với RNA thông tin (mRNA). Trong tế bào nhân thực, ribosome kết hợp với lưới nội chất hoặc tồn tại tự do. Trung bình số lượng ribosome ở mỗi tế bào nhân thực là 15.000 hạt hoặc nhiều hơn [110] (Hình 1.14).
RNA ribosome là thành phần xúc tác cho bộ máy tổng hợp polypeptide của ribosome. Ribosome ở sinh vật nhân thật chứa 4 loại rRNA khác nhau: 18S, 5.8S, 28S và 5S rRNA. Ba phân tử rRNA được tổng hợp trong nhân và phân tử còn lại được tổng hợp ở nơi khác. Trong bào tương, rRNA và protein kết hợp lại thành phức hệ nucleoprotein gọi là tiểu đơn vị ribosome. Ribosome gắn với mRNA và luôn luôn hoạt động dịch mã, thực hiện quá trình sinh tổng hợp protein [110]. Một số ribosome lúc nào cũng gắn với một sợi mRNA do thông thường đang hoạt động dịch mã [107]. Gần như mọi RNA tìm thấy trong mọi tế bào sinh vật nhân thật đều là rRNA. Ribosome ở tế bào nhân thật có hằng số lắng 80S: gồm một tiểu đơn vị nhỏ 40S (gồm 18S rRNA dính với 33 proteins) và một tiểu đơn vị lớn 60S (gồm 5S rRNA, 5.8S rRNA, 28S rRNA và 49 proteins). Ribosome ở tế bào nhân sơ có hằng số lắng 70S, gồm một tiểu đơn vị nhỏ 30S (16S RNA dính với 21 protein) và một tiểu đơn vị lớn 50S (5S rRNA, 23S rRNA và 31 protein) (Hình 1.14).
1.3.2. Đơn vị mã hóa ribosome của hệ gen nhân tê bào
1.3.2.1. Sắp xếp và cấu trúc của các đơn vị mã hóa ribosome
Mỗi một đơn vị mã hóa ribosome (ribosomal transcription unit, rTU hay rDNA) là một vùng DNA của nhiễm sắc thể của hệ gen nhân tế bào mã hóa cho 3 gen mã hóa ribosome (gen 18S rRNA, gen 5.8S rRNA và gen 28S rRNA) và hai vùng giao gen, lần lượt là ITS-1 và ITS-2 (internal transcribed spacer 1 and 2) và vùng bản lề không mã hóa (IGS). Các rTU sắp xếp tiếp nối nhau thành dãy trong một tổ hợp (operon), có đến hàng trăm đơn vị, gọi là tổ hợp rDNA nhân tế bào (nuclear ribosomal operon) [111].
NTS ETS ITS-1 ITS-2 T NTS
IGS (D1,2…..D10….D12)
RIBOSOMES
Trong hệ gen nhân của người, các rTU định vị ở vùng thắt thứ cấp
(secondary constriction) hay còn gọi là NOR (nucleolar organizing region), ở các nhiễm sắc thể số 13, 14, 15, 21 và 22 [112, 113]. Các rTU nối với nhau bằng chuỗi nucleotide không mã hóa có chứa nhiều cấu trúc lặp, gọi là vùng bản lề IGS (non- transcribed intergenic spacer) [113]). Sát nhập với IGS ở một số loài còn có vùng ngoại gen ETS (external transcribed sequence), do vậy, một đơn vị rTU toàn phần hoàn chỉnh có cấu trúc khung đặc trưng là: [5‘-IGS-ETS-18S-ITS1-5.8S-ITS2-28S- IGS(ETS)-3‘] và sắp xếp thành dãy nối tiếp nhau đến vài trăm đơn vị [114]. Cấu trúc gen và sắp xếp gen của rTU có sự bảo tồn trong tất cả mọi loài, nhưng đặc điểm của từng gen và vùng giao gen có sự biến đổi khác nhau [2, 81, 111, 115, 116]. Biến đổi với mức độ thấp thường thấy ở các loài họ hàng gần và cao hơn ở họ hàng xa, ngoại trừ chuỗi nucleotide vùng bản lề IGS có biến đổi đa hình rất cao ở mọi loài [117, 118].
Hình 1.15. Minh họa cấu tạo tế bào và chromosome chứa đơn vị mã hóa ribosome và cấu trúc của một đơn vị rTU.
(Nguồn: https://www2.le.ac.uk/projects/vgec/diagrams/36%20chromosome%20unravel.jpg/view).
Các gen ribosome bao gồm 18S, 28S hoặc vùng giao gen (ITS-1, ITS-2) của rTU đều được sử dụng trong phân tích phân loại, quan hệ về loài của các loài và nguồn gốc xuất xứ [6, 8, 111, 119]. Chỉ thị phân tử rTU cũng được tận dụng trong giám định phân biệt loài và xác định dòng bố (paternality) đối với các loài độc lập, hoặc dòng “lai ngoại loài” hoặc “lai chéo loài” (hybrid hoặc introgressive hybridization) [6, 8, 120] (Hình 1.15).
Quá trình mã hóa của từng đơn vị rTU để tạo nên phân tử rRNA nguồn (pre- rRNA) có hằng số lắng 45S xảy ra liên tục, phân tử này chứa 3 phần gen rRNA và hai phần giao gen ITS. Sau đó đoạn chứa 3 gen rRNA được giải phóng khỏi ITS-1 và ITS-2 và phân cắt thành các rRNA thành phần, gen 18S rRNA, gen 5.8 rRNA và gen 28S rRNA (Hình 1.15). Ba gen rRNA này là sản phẩm của quá trình tổng hợp rRNA được thực hiện từ vùng rDNA của đơn vị mã hóa ribosome ở nhiễm sắc thể và các gen rRNA được sắp đặt làm các thành phần để cấu tạo nên tiểu đơn vị lớn và tiểu đơn vị nhỏ của các hạt ribosome.
1.3.2.2. Đặc điểm gen, vùng giao gen và vùng bản lề của đơn vị mã hóa ribosome
Tổng độ dài của một chuỗi nucleotide hoàn chỉnh của rTU ở sán lá dao động trong khoảng 7 đến 10 kb, được biết cho đến nay [118, 121–124], dài nhất có lẽ là 10.221 bp ở rTU của một chủng của loài Paramphistomum cervi (họ Paramphistomatidae) [125]. Cho đến nay, chưa có rTU hoàn chỉnh của bất kỳ SLP
Paragonimus nào, ngoại trừ một phần rTU (5.338 bp) của SLP châu Mỹ,
Paragonimus kellicotti (GenBank: HQ900670).
Độ dài của gen 18S rRNA nằm trong khoảng 1,95 kb đến 2 kb, ví dụ ở sán lá gan lớn Fasciola spp. và họ Fasciolidae là 1.958 bp; ở sán lá phổi P. kellicotti là 1.977 bp. Gen 5.8S rRNA có mức độ bảo tồn cao cả về độ dài (157–160 bp) và về thành phần nucleotide ở các loài cùng họ và khác họ trong lớp Sán lá [111, 123– 125]. Gen 28S rRNA toàn phần của rTU có độ dài khoảng 3,6 kb–4,2 kb, phần lớn khoảng 3,8 kb–3,9 kb, tuy nhiên cho đến nay, vẫn còn rất ít rTU hoàn chỉnh được thu nhận để có dữ liệu xem xét độ dài và thành phần nucleotide của gen 28S rRNA toàn phần ở sán lá phổi.
Các vùng giao gen ITS-1 và ITS-2 và hai đầu biên IGS là các vùng DNA kém bảo tồn nhất của rTU, do trong đó có nhiều cấu trúc lặp (repetitive sequence). Vùng gen 5,8S rRNA có kích thước rất nhỏ và ít có sự biến đổi giữa tất cả các loài sinh vật cùng họ, thậm chí rất xa [1]. Vùng giao gen ITS-1 và ITS-2, nói chung có độ dài hết sức biến động ở các loài cùng họ hay khác họ, từ vài trăm nucleotide đến trên một nghìn nucleotide. Vùng ITS có thể chứa các cấu trúc lặp TRU, đó là các chuỗi nucleotide giống nhau sắp xếp liền kề nhau với số lượng thay đổi (xem [124]). Nhiều loài sán lá có ITS (ITS-1 và/hoặc ITS-2) không chứa TRU nên có độ dài không biến động, như ở sán lá gan lớn Fasciola spp. (454 bp/ITS-1 và 359-360
bp/ITS-2); hay ở loài Eurytrema pancreaticum (1.103 bp/ITS-1 và 231 bp/ITS-2) [123, 124]. Một vùng giao gen khác là vùng bản lề IGS, nối 28S rDNA của rTU trước với 18S rDNA của rTU liền kề cũng có kích thước thay đổi giữa các chủng trong cùng loài, do chứa nhiều phức hợp cấu trúc lặp khác nhau và có tính đa hình cao [111, 118, 125].
1.3.2.3. Đặc điểm cấu trúc bậc hai của các gen và vùng giao gen
Tất cả 6 phần gen của rTU là 18S, ITS-1, 5.8S, ITS2, 28S và IGS đều có chuỗi nucleotide có khả năng tạo nên cấu trúc bậc hai gấp khúc theo mô hình không gian 3 chiều và đó cũng là một đặc tính về cấu trúc của các chuỗi gen rRNA ribosome và vùng giao gen ITS/IGS [95, 111, 126] (Hình 1.16). Cấu trúc bậc hai là kết quả tạo hình của sự bắt cặp các trình tự giữa các nucleotide đối xứng bổ sung, đó là giữa A và T và giữa G và C chạy theo chiều đối ngược, tạo nên các cấu hình “kẹp tóc” (hairpin/stem) và các “vòm” (loop) có tính đối xứng cao để tạo nên sự ổn định của gen rRNA trong ribosome [126–128].
A B
Nuclear 18S rRNA gene
(Gen 18S ribosome nhân) Mitochondrial 12S rRNA gene (Gen 12S ribosome ty thê )
Hình 1.16. Cấu trúc bậc hai mô phỏng của gen 18S rRNA của ribosome tế bào và của gen 12S rRNA của ribosome ty thể. (Nguồn: [111].
Tương tự, chuỗi nucleotide của gen 12S và 16S rRNA ribosome ty thể cũng tạo nên cấu trúc bậc hai nhưng mô hình và sự phức tạp của cấu trúc đơn giản hơn so với gen 18S rRNA và 28S rRNA của ribosome tế bào (Hình 1.16B). Cấu trúc bậc hai lập thể như thế này không chỉ bắt gặp ở 28S rRNA hay 18S rRNA mà còn ở các
vùng giao gen ITS-1 hay ITS-2 trong đơn vị mã hóa ribosome, như đã thấy ở ITS- 1/ITS-2 của các loài Nanophyetus spp. (họ Paragonimidae) vừa công bố [128]. Lõi của cấu trúc bậc hai của ITS-2 có sự bảo tồn cao trong mọi loài sinh vật nhân thật [126].
1.3.3. Nghiên cứu ứng dụng chỉ thị phân tử của đơn vị mã hóa ribosome
Xu hướng giải trình tự toàn bộ rTU của các loài sán lá để nghiên cứu phân tích đặc điểm gen học của chúng đang được đẩy mạnh trong những năm gần đây. Một phần hoặc toàn phần chuỗi nucleotide của từng gen 18S hay/và 28S rRNA và cộng hợp hay vùng giao gen (ITS1 hoặc ITS2) được ứng dụng rộng rãi về góc độ thẩm định loài, phân loại, phả hệ, quan hệ về loài và di truyền quần thể [129, 130]. Hơn nữa, so sánh phân tích toàn bộ chuỗi gen, toàn bộ rTU có giá trị chính xác hơn so với so sánh chỉ một đoạn DNA của rTU [131]. Xuất phát từ nhu cầu đó, nhiều nghiên cứu trên thế giới và tại Việt Nam đã thu được gần như toàn phần hoặc toàn phần chuỗi nucleotide của rTU hoặc phần mã hóa của rTU chứa đầy đủ gen 18S, 5.8S và 28S rRNA của nhiều loài sán lá ký sinh và gây bệnh ở người và động vật [118, 121, 123–125, 132].
Tuy vẫn còn nhiều loài chưa có đầy đủ trình tự rTU, nhưng ít nhất là phần mã hóa gồm 18S, ITS-1, 5.8S, ITS-2, 28S của các loài sán lá ngày càng tăng, từ đó cho phép có thể trích xuất chỉ thị toàn phần gen 18S, hoặc 28S hoặc cộng hợp cả hai chỉ thị rRNA quan trọng này để nghiên cứu so sánh loài và xây dựng phả hệ [2, 51, 115, 133]. Bất kỳ đơn gen nào (18S hay 28S rRNA) hay vùng giao gen (ITS-1 hay ITS-2) đều được sử dụng trong phân tích phân loại, quan hệ tiến hóa của các loài và truy xuất nguồn gốc phả hệ, tuy mức độ phân giải khoảng cách di truyền và độ chính xác phân cấp có khác nhau [111, 133–135].
Đã có một số nghiên cứu rTU và kiến tạo dữ liệu ứng dụng cho phân loại, chẩn đoán và di truyền quần thể [132, 136, 137], hoặc sử dụng chuỗi gen 18S hoặc 28S rRNA, hoặc vùng giao gen (ITS-1, ITS-2) trong phân tích phân loại, quan hệ về loài của các loài và nguồn gốc xuất xứ thu nhận từ các loài thuộc phân bộ Troglotremata [25, 111, 126, 130]. Chỉ thị phân tử rTU cũng được tận dụng trong giám định phân biệt loài và xác định dòng bố (paternality) đối với các loài độc lập, hoặc dòng “lai ngoại loài” hoặc “lai chéo loài” (hybrid hoặc introgressive hybridization) [1, 111, 124, 131].
Vùng mã hóa cho gen 5.8S rRNA có kích thước rất nhỏ (chỉ 157–160 bp) và rất bảo tồn, ít có sự biến đổi giữa các loài sinh vật cùng họ, thậm chí khác họ có họ hàng rất xa [111]. Vùng giao gen ITS-1 và ITS-2 và vùng bản lề IGS là các vùng DNA kém bảo tồn nhất của rTU, trong đó có nhiều cấu trúc lặp (repetitive sequence) ảnh hưởng lớn khi so sánh căn chỉnh đa chuỗi cho nghiên cứu quan hệ loài và phả hệ khác họ. Vùng giao gen ITS là vùng có rất nhiều biến đổi, mặc dù chúng thường được sử dụng trong nghiên cứu tiến hóa của sinh vật. Nhiều loài sán lá có cấu trúc lặp tồn tại ở ITS-1 hoặc ITS-2 ảnh hưởng đến so sánh chuỗi [124, 132]. Tuy nhiên, phần lớn các so sánh trên vùng ITS thường để xác định các biệt hóa trong cùng loài hơn là để phân tích xác lập cây phả hệ giữa các họ, mặc dù cũng đã có nhiều nghiên cứu sử dụng ITS với mục đích đó. Chuỗi ITS sẽ là chỉ thị phân tử thông dụng tin tưởng trong sử dụng, nếu như ITS không chứa cấu trúc lặp [129, 138].
Vùng DNA của 28S phần lớn có chuỗi nucleotide bảo tồn cao giữa các loài, tuy nhiên cũng có một số miền (domain) có mức độ sai khác lớn được ký hiệu là D1, D2, D3 …. D10, D11, D12 và đó chính là đối tượng khai thác đa dạng sinh học khi so sánh phân tích phả hệ và quan hệ về loài [111]. Việc bổ sung cộng hợp chuỗi nucleotide của vùng 28S rDNA (hay còn gọi là lsrDNA, large subunit rDNA) cùng với chuỗi nucleotide của vùng 18S rDNA (ssrDNA, small subunit rDNA) khi phân tích phả hệ đã chứng minh tăng thêm khả năng phân giải các phân nhánh của phả hệ ở các cấp độ phân loại khác nhau, tạo ra sự chính xác của vị trí phân loại loài/chủng trong các ngành sinh học, trong đó có ngành Sán dẹt [115, 134].
Chuỗi 28S càng hoàn chỉnh để bổ sung vào cùng với 18S càng làm tăng độ chính xác mối quan hệ loài cũng như vị trí phân loại [131, 134]. Trong một nghiên cứu của [115], khi bổ sung cộng hợp chuỗi 28S gần hoàn chỉnh vào 18S khi phân tích so sánh 32 loài sán dẹt sử dụng cả 3 phương pháp thông dụng, phương pháp “tiếp cận cực đại” (maximum likelihood), phương pháp “tiết kiệm tối đa” (maximum parsimony) và phương pháp “suy luận Bayes” (Bayesian inference method), đã cho thấy quan hệ các loài đã được giải quyết thỏa đáng so với chỉ sử dụng đơn thuần chỉ thị 18S.
Một số nghiên cứu khác trên Sán dây (Cestoda) cũng đã khẳng định chắc chắn khả năng phân giải các phân nhánh phả hệ ở các cấp độ phân loại tăng thêm
dần độ chính xác khi cộng hợp toàn phần 18S (khoảng 2.000 bp) với một phần 28S (vùng D1–D3, khoảng 1.100 bp–1.500 bp) hay toàn phần 28S (toàn phần D1–12, ~3.800–4.600 bp ở sán dẹt). Trong một nỗ lực nhằm đánh giá phân loại sử dụng đơn và đa gen (cộng hợp lsrDNA hoặc/và ssrDNA), nghiên cứu [135] cho thấy, khi thêm trình tự 28S rRNA/lsrDNA (4.057 bp–4.593 bp) gần hoàn chỉnh vào cùng với 18S rRNA/ssrDNA (1.940 bp–2.228 bp) cho 29 đơn vị phân loại, theo đó, thứ tự cấp bậc đã được cải thiện rất lớn cho vị trí phân loại ở lớp Sán dây (Cestoda).
Kiểm tra cấu trúc liên kết cũng cho thấy cây phả hệ dựa trên một phần lsrDNA (D1–D3)+ssrDNA và toàn phần lsrDNA (D1–D12)+ssrDNA hoàn chỉnh có sự khác biệt đáng kể. Các chuỗi vùng D4–D12 của lsrDNA có ảnh hưởng lớn hơn đến cấu trúc liên kết trên cây phả hệ, so với chỉ dùng chuỗi D1–D3 và so với những loài phân cấp chỉ dựa trên hình thái học [134, 135, 139]. Nghiên cứu phả hệ mới nhất cho thấy kết hợp phân tích lsr+ssrDNA hoàn chỉnh cùng với mtDNA đã gia tăng chính xác quan hệ về loài và giống và họ [81, 131]. Trong một số trường hợp, phân tích phả hệ phân tử đã làm thay đổi nhận thức phân loại, đã tạo sự chuyển đổi vị trí phân loại một số loài ở cấp độ một họ, như một đánh giá gần đây ở phân bộ Diphyllobothriidea của lớp Sán Dây [131].
Một số công bố giải trình tự đa phần rTU hoặc toàn phần rTU của các loài sán lá trong đó có SLP phân bộ Troglotremata đã có trong Ngân hàng gen, như loài
Paragonimus kellicotti (5.338 bp, HQ900670); loài Collyriclum faba (7.265 bp; GenBank: JQ231122; [140]; loài Nanophyetus salmincola (2 chủng, 6.981 bp/chủng; GenBank: LN871822–LN871823); Euryhelmis costaricensis (GenBank: AB521797; [141]; Isthmiophora hortensis (AB189982); Paramphistomum cervi
(KJ459934; [125]; Brachycladium goliath (KR703279; [121]; Eurytrema pancreaticum (5 chủng, KY490000−KY490004; [123]; Clonorchis sinensis (5
chủng, MK450523−MK450527) và Metorchis orientalis (5 chủng,
MK482051−MK482055; [118])), cho phép tận dụng đơn gen, đơn chuỗi hoặc cộng hợp lsr+ssrDNA (18S rRNA+28S rRNA) trong sử dụng phân tích loài và phả hệ.
1.4. Sư cần thiết nghiên cứu đặc điểm gen hệ gen ty thể và đơn vị mã hóa
ribosome của sán lá phổi Paragonimus