Các số liệu, kết quả nêu trong luận văn là trung thực, khách quan, đã được trích dẫn đầy đủ và được hoàn thành trong khuôn khổ nhiệm vụ cấp Bộ Nông nghiệp và PTNT “Nghiên cứu xác định họ
TỔNG QUAN
Giới thiệu về gen kháng bệnh ở thực vật
1.1.1 Hệ miễn dịch thực vật và vai trò của gen kháng R
Từ khoảng thế kỷ thứ 3-4 trước Công nguyên đã có những ghi chép đầu tiên của người Hy Lạp cổ đại về triệu chứng bệnh hại cây trồng Sự phát triển của vi sinh vật học cùng với phát minh kính hiển vi trong Thời kỳ Khai sáng thế kỷ 18 đã khởi đầu các nghiên cứu mô tả và phân loại các sinh vật gây bệnh một cách hệ thống Đến thế kỷ 19 các nhà khoa học đã chứng minh hiệu quả diệt nấm của hỗn hợp đồng sulphate và oxit canxi cũng như một số loại vi sinh vật là tác nhân gây bệnh trên cây trồng (Andersen et al 2018) Với những thành tựu trong di truyền học đầu thế kỷ 20, các nhà khoa học đã khám phá ra nhân tố di truyền tính kháng ở thực vật (gọi là gen kháng R) và được mô tả rõ ràng hơn bởi mô hình đồng tiến hóa của Harold Henry
Flor (Flor 1942), trong đó nêu ra khả năng gen độc tính của nguồn bệnh gây ra đáp ứng không tương hợp và gây bệnh hại trên cây trồng Cơ chế kháng bệnh hại bởi gen kháng R được làm sáng tỏ hơn nhờ những thành tựu trong lĩnh vực sinh hóa và sinh học phân tử vào cuối thế kỷ 20 Đến đầu thế kỷ 21, sự phát triển của công nghệ trong hệ gen học và sinh học phân tử đã tạo tiền đề khám phá các nhóm gen mã hóa yếu tố điều hòa tính kháng và mẫn cảm bệnh hại của thực vật Theo đó, gen kháng R chỉ là một nhóm trong mạng lưới các yếu tố tương tác của hệ thống miễn dịch thực vật tham gia các giai đoạn từ phát hiện nguồn bệnh, truyền tín hiệu và đáp ứng phòng vệ Áp lực chọn lọc trong mối tương quan độc tính của nguồn bệnh và khả năng kháng bệnh của thực vật đã tạo ra sự tiến hóa của cả hai yếu tố theo mô hình mang tính tuần tự kế thừa (Hình 1) (Jones and Dangl 2006)
Hình 1: Mô hình đồng tiến hóa giữa gen kháng và gen độc
Nguồn bệnh mang gen độc/ảnh hưởng (E1) bị nhận dạng bởi alen kháng R1 hiếm (bên trên), điều này dẫn đến chọn lọc nâng cao tần suất của R1 trong quần thể
Nguồn bệnh mang gen độc bị đột biến và được chọn lọc nhờ có thể tồn tại và gây bệnh trên quần thể mang alen kháng R1 (bên phải) Hiệu lực kháng của alen R1 mất đi, tuy nhiên nhờ có gen kháng R khác liên kết với tính kháng nên một số cây mang alen R1 đã bất hiệu vẫn có khả năng tồn tại, dẫn đến giảm tần số alen kháng R1 trong quần thể (bên dưới) Quần thể nguồn bệnh với gen độc E1 tiếp tục phát triển do gen kháng R1 đã không còn hiệu lực (bên trái) Quá trình chọn lọc sẽ phục hồi lại gen kháng R1 ở dạng alen khác (bên trên) Trong tương tác quần thể nguồn bệnh và thực vật, chu trình này liên tục tiếp diễn và tạo ra nhiều alen khác nhau của các gen độc và gen kháng tham gia quá trình đồng tiến hóa (Andersen et al 2018)
1.1.2 Nhóm gen kháng R (resistance gene) ở thực vật
Thực vật có thể kích hoạt hệ thống miễn dịch đáp ứng rất hiệu quả với nhiều loại mầm bệnh từ nấm, vi khuẩn và virus, trong đó các gen kháng R đóng vai trò đặc biệt quan trọng Trong các quần thể thực vật tự nhiên, các gen kháng R hiệu quả thường ở dạng trội (một số trường hợp dạng lặn) và có tính kháng đầy đủ hoặc một phần đối với một hay nhiều mầm bệnh Quá trình chọn lọc gen kháng R trong nông nghiệp thường nhắm đến các gen trội mang tính kháng đầy đủ, tuy nhiên các gen kháng R lặn và có hiệu lực một phần lại thường góp phần duy trì tính kháng lâu bền hơn Hầu hết gen kháng R có tính đa hình cao trong quần thể, do đó là nguồn biến dị quan trọng cho các chương trình chọn giống kháng bệnh (Kourelis and van der Hoorn 2018) Kể từ gen kháng R đầu tiên (gen Hm1 ở ngô, mã hóa emzyme phân hủy độc
Ch ọn lọc alen gen kháng R1
Ch ọn lọc kháng lại gen độc E1
Ch ọn lọc kháng lại gen kháng R1 Ch ọn lọc gen độc
Nguồn bệnh bị kháng Quần thể cây kháng bệnh với tần số alen kháng R1 cao
Gen độc E1 bị đột biến hoặc loại bỏ Alen kháng R1 mất hiệu lưc Quần thể bị nhiểm bệnh Nguồn bệnh có hiệu lực gây bệnh
Alen kháng R1 có tần số thấp Quần thể bị nhiễm bệnh Nguồn bệnh có hiệu lực gây bệnh
Quần thể cây nhiễm bệnh với tần số alen kháng R1 thấp tố Helminthosporium carbonum (HC) của nấm Cochliobolus carbonum) được phân lập vào năm 1992, đến nay đã có hơn 300 gen kháng R đã được phân lập và nghiên cứu đặc tính (Hình 2A)
Hình 2: Các cơ chế phân tử với sự tham gia của gen kháng R
(A) Số lượng các gen kháng R được phân lập theo thời gian Cơ chế phân tử kháng bệnh được biểu diễn bằng các màu khác nhau Một số gen kháng R tiêu biểu cũng được thể hiện (B) Số lượng các gen kháng R được phân nhóm vào các cơ chế kháng dựa trên chức năng được xác định/đề xuất (Kourelis and van der Hoorn 2018)
Căn cứ vào cấu trúc và chức năng, gen kháng R được phân nhóm thành 5 nhóm chính Phần lớn gen kháng R mã hóa thụ thể nội bào hoặc bề mặt tế bào, được phân loại dựa trên 9 nhóm cơ chế phân tử kháng mầm bệnh thực vật, bao gồm: nhận biết trực tiếp/gián tiếp các phân tử mầm bệnh trên bề mặt tế bào; nhận biết trực tiếp/gián tiếp các phân tử mầm bệnh trong nội bào; nhận dạng các phân tử mầm bệnh thông qua các vùng liên hợp; nhận biết tín hiệu kích hoạt phiên mã thông qua hoạt hóa các gen; loại bỏ tính mẫn cảm chủ động/bị động hoặc gián tiếp qua chương trình của tế bào chủ.
1.1.3 Họ gen NBS - LRR ở thực vật
Trong số các gen kháng R đã được xác định, các gen mã hóa các vùng vị trí gắn nucleotide (nucleotide-binding site (NBS), có khả năng gắn và thủy phân ATP hoặc GTP) và vùng lặp giàu leucine (leucine-rich repeat (LRR), tham gia tương tác protein- protein) đại diện cho nhóm gen kháng R lớn nhất và được gọi là họ gen NBS-LRR
(Zhang et al 2020) Các protein NBS-LRR là những thụ thể nội bào có khả năng nhận biết sự có mặt của mầm bệnh trong tế bào Theo Shao và cộng sự, nguồn gốc họ gen
NBS-LRR phát sinh cùng với quá trình tiến hóa của thực vật và sau đó phân hóa thành ba phân họ (Shao et al 2019b) Đặc điểm chung của các vùng đầu N, bao gồm thụ thể tương tự Toll/interleukin-1 (Toll/interleukin-1 receptor-like - TIR), vùng xoắn kép (coiled coil - CC), và vùng kháng bệnh phấn trắng số 8 (resistance to powdery mildew8 - RPW8) được xác định ở cả ba phân họ này Theo đó, các phân họ được định danh là TIR-NBS-LRR (TNL), CC-NBS-LRR (CNL), và RPW8-NBS-LRR (RNL) Các protein TNL và CNL có chức năng như là cảm biến phát hiện tác nhân gây bệnh Khi vùng LRR gắn vào effector của tác nhân gây bệnh sẽ tạo ra thay đổi cấu trúc của protein TNL hoặc CNL, từ đó gây ra sự phức hợp hóa của vùng TIR hoặc CC và dẫn đến kích hoạt hệ thống miễn dịch (Andersen et al 2018) Theo một phương thức khác, một số protein TNL và CNL có thể được kích hoạt thông qua sự kiểm soát trạng thái của một số protein của tế bào chủ Khi các protein này bị biến đổi (phosphoryl hóa hoặc biến tính) bởi các effector của tác nhân gây bệnh, các protein CNL và TNL sẽ nhận biết và bị kích hoạt tương tự như đường hướng kích hoạt trực tiếp Phân họ RNL bao gồm hai nhóm được đặt tên theo gen chức năng là ADR1 và NRG1 Cả hai protein ADR1 và NRG1 vận hành quá trình truyền tín hiệu thay vì phát hiện tác nhân gây bệnh Ngoài ra, NRG1 còn được xác định tham gia chức năng truyền tín hiệu của phân nhóm TNL (Wu et al 2019) Trong cấu trúc protein mã hóa bởi họ gen NBS-LRR, vùng NBS bao gồm khoảng 300 aa là vùng cấu trúc chính và được cấu trúc bởi 8 nhóm motif có tính bảo thủ là P-loop, Resistance Nucleotide-Binding Site (RNBS-A), Kinase2, RNBS-B, RNBS-C, GLPL, RNBS-D và Molecular Holographic Distance Vector (MHDV) (Pandolfi et al 2017) Tuy nhiên các motif này không hoàn toàn bảo thủ ở các phân nhóm gen NBS-LRR Các nghiên cứu đã chứng minh các motif P-loop, GLPL, Kinase2, và MHDV có sự tương đồng cao, trong khi mức độ tương đồng của các motif RNBS-A, RNBS-D, và RNBS- C lại thấp hơn giữa phân họ TNL và CNL Do có mức độ bảo thủ cao hơn các vùng cấu trúc còn lại, vùng NBS thường được sử dụng để thiết kế các mồi nhân bản gen kháng R Vùng LRR, với chiều dài khoảng 24 aa, có mức độ khác biệt cao hơn và được cho là có liên quan đến cấp độ biểu hiện tính kháng của các gen NBS-LRR (Sagi et al 2017)
Hình 3: Mô hình 3 phân họ thuộc họ gen NBS-LRR ở thực vật
Protein NBS-LRR phân làm ba phân họ tùy thuộc vào vùng điển hình đầu N: phân họ TNL có vùng tương đồng với vùng Toll và thụ thể Interleukin 1 ở người (TIR), phân họ
CNL sở hữu vùng xoắn điển hình của cấu trúc trong tế bào, trong khi phân họ RNL có vùng xoắn tương tự như RPW8 (vùng kháng nấm phấn trắng số 8) Cấu trúc này bao gồm các vùng phụ xuyên màng đặc trưng cho RPW8 (CCR) và vùng lặp RPW8 (theo nghiên cứu của Piau và Schmitt-Keichinger năm 2023).
Hệ gen thực vật mang hàng chục đến hơn một nghìn gen NBS-LRR (Shao et al
2019b) Các nghiên cứu cho thấy, họ gen NBS-LRR chiếm 0,5-1,8% số lượng gen mã hóa protein trong hệ gen Việc duy trì số lượng lớn gen kháng R như vậy phản ánh quá trình đấu tranh sinh học lâu dài ở mức độ phân tử thông qua sự tiến hóa giữa thực vật và các tác nhân gây bệnh Các nghiên cứu hệ gen học và tiến hóa, ngoài việc thực vật, đã cho thấy hầu hết các gen NBS-LRR tụ gộp lại trên các nhiễm sắc thể do các sự kiện nhân đôi liên tục thường xảy ra trong quá trình tiến hóa Chính tổ chức tụ gộp (cluster) đã tạo nên sự đa dạng trình tự cũng như chức năng của họ gen NBS- LRR (Marone et al 2013) Việc hiểu rõ phân bố trong hệ gen và đường hướng tiến hóa của gen kháng R ở lúa, đậu tương và một số loại cây trồng khác đã góp phần không nhỏ trong các nghiên cứu cải thiện tính kháng phục vụ nông nghiệp (Pandolfi et al 2017) Chính vì vậy, các nghiên cứu hoàn thiện dữ liệu gen kháng NBS-LRR trong hệ gen thực vật nói chung và các loài cây trồng nói riêng sẽ đóng vai trò tiên quyết trong việc khám phá và sử dụng các gen kháng R.
Các phương pháp tiếp cận trong nghiên cứu xác định gen kháng R
1.2.1 Các phương pháp chính trong nghiên cứu xác định gen kháng R
Hầu hết các gen kháng R được phân lập đến nay thông qua các phương pháp như: phân lập gen dựa trên bản đồ di truyền (map-based/positional cloning), sàng lọc đột biến (insertional/deletional mutagenesis), giải trình tự hệ gen kháng R (R gene enrichment sequencing - RenSeq) và phân tích in silico xác định gen kháng R
• Phân lập gen dựa trên bản đồ di truyền (Map-based/ positional cloning)
Lập bản đồ di truyền là quá trình xác định cơ sở di truyền của một kiểu hình với sự trợ giúp của các chỉ thị phân tử có vị trí vật lý trong bộ gen (Singh et al 2016)
Lập bản đồ di truyền là một cách tiếp cận độc đáo giúp xác định nguyên nhân di truyền cơ bản của một biến thể Cách tiếp cận này có khả năng khai thác nguồn biến thể di truyền tự nhiên và nhân tạo mà không cần thông tin trước về các gen cụ thể
Tuy nhiên, xác định chỉ thị phân tử liên kết gen kháng để phân lập gen kháng
(thông qua sàng lọc thư viện tách dòng hoặc nhân gen đặc hiệu) có những hạn chế như sau:
- Mất nhiều thời gian và công sức
- Cần số lượng lớn chỉ thị phân tử để đảm bảo bản đồ liên kết có độ phân giải cao (fine map)
- Yêu cầu cao về điều kiện hạ tầng thí nghiệm và nhân lực
• Sàng lọc đột biến (Insertional/deletional mutagenesis)
Gây đột biến là biện pháp chủ động sử dụng các tác nhân gây đột biến làm biến đổi trật tự, cấu trúc vật chất di truyền của một giống cây trồng hay vật nuôi, nhằm tạo ra các tổ hợp gen mới Những tổ hợp gen này sẽ phù hợp và đáp ứng nhu cầu thị hiếu của con người.
Các tác nhân đột biến thường sử dụng là:
- Tác nhân vật lý: các tia UV, tia phóng xạ…
- Tác nhân hóa học: 5BU (5 brom uraxin), EMS (ethyl metal sulfonat), NMS (Nitrozo methyl ure), colchicine…
Tạo giống bằng phương pháp gây đột biến gồm 3 giai đoạn chính: Xử lý mẫu vật bằng tác nhân gây đột biến, sàng lọc các trường hợp đột biến, tạo giống sinh vật thuần chủng Tạo đột biến trên cây mang tính kháng bệnh và sàng lọc cá thể đột biến mất tính kháng (susceptible) để xác định và phân lập gen kháng là một cách tiếp cận thường được áp dụng trước đây Đặc điểm của phương pháp này là:
- Tùy thuộc hiệu quả/tỷ lệ gây đột biến - Mất nhiều thời gian và công sức (tùy theo kỹ thuật sàng lọc) - Chi phí cao
- Yêu cầu cao về điều kiện hạ tầng thí nghiệm và nhân lực (Li et al 2016a)
• Giải trình tự hệ gen kháng R (R gene enrichment sequencing - RenSeq)
RenSeq là một phương pháp làm giàu gen kháng và giải trình tự gen nhắm mục tiêu NBS-LRR, cho phép phát hiện và chú thích các thành viên họ gen kháng NBS- LRR trong trình tự bộ gen của thực vật
Sử dụng probe RNA bắt cặp đặc hiệu với vùng gen mã hóa NBS-LRR để “làm giàu” một cách chọn lọc thư viện Next Generation Sequencing (NGS)cho cây kháng và nhiễm bệnh và giải trình tự Phân tích in-silico so sánh profile gen kháng R giữa cây kháng và nhiễm sẽ xác định gen kháng R hiệu lực đối với bệnh hại mục tiêu (Jupe et al 2013) Đặc điểm của phương pháp này là:
- Yêu cầu biết trước cấu trúc gen mục tiêu để thiết kế probe RNA
- Yêu cầu cây kháng bệnh và xác định được là tính kháng đơn gen
- Yêu cầu cao về điều kiện hạ tầng thí nghiệm và nhân lực - Nhanh, độ chính xác cao
- Không yêu cầu trình tự hệ gen tham khảo
• Phân tích in-silico xác định gen kháng R
Dựa trên so sánh tương đồng trình tự DNA và protein giữa cơ sở dữ liệu hệ gen của đối tượng nghiên cứu với thư viện gen kháng R đã biết, người ta có thể xác định khả năng kháng thuốc của đối tượng nghiên cứu Điều này giúp dự đoán hiệu quả của thuốc điều trị, giảm nguy cơ điều trị không hiệu quả do kháng thuốc và góp phần xây dựng phác đồ điều trị tối ưu.
- Yêu cầu trình tự hệ gen (và hệ phiên mã) của cây mục tiêu
- Chỉ dự đoán được cấu trúc và chức năng của gen kháng R - Cần có bước kiểm chứng thực nghiệm (mapping, targeted mutagenesis…) - Nhanh, có thể xác định profile gen kháng quy mô toàn hệ gen (genome-wide) - Không yêu cầu trình tự hệ gen tham chiếu
Trong kỷ nguyên của hệ gen học, ngày càng nhiều đối tượng cây trồng và cả tác nhân gây bệnh được giải mã hệ gen và tạo ra nguồn tài nguyên dữ liệu trình tự rất giá trị Dữ liệu trình tự đó có thể được sử dụng để xây dựng các phương pháp hóa sinh và phân tử như Yeast-two-Hybrid (Y2H) hoặc đồng kết tủa miễn dịch (co- immunoprecipitation) để xác định mục tiêu trong tế bào vật chủ của effector tác nhân gây bệnh Một số phức hệ gen kháng và gen độc đã được phân lập ở lúa, cà chua theo cách tiếp cận này (Sanseverino and Ercolano 2012)
1.2.2 Nghiên cứu tin sinh học xác định gen kháng R thông qua khai thác dữ liệu trình tự hệ gen
Tin sinh học (bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ của các ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính, trí tuệ nhân tạo, hóa học và hóa sinh (biochemistry) để giải quyết các vấn đề sinh học (Lesk 2008) Một số phân tích cơ bản mang tính nền tảng của tin sinh học dựa trên hoạt động tính toán (in- silico) bao gồm so sánh gióng hàng trình tự (sequence alignment), so sánh cấu trúc protein (protein structural alignment), dự đoán cấu trúc protein (protein structure prediction), phân tích biểu hiện gene (gene expression) và tương tác protein - protein (protein-protein interactions) và mô hình hóa quá trình tiến hoá
Tin sinh học là một nhánh con của sinh học tính toán, sử dụng các công cụ toán học để phân tích dữ liệu sinh học phức tạp Các ứng dụng phổ biến của tin sinh học trong nghiên cứu thực vật bao gồm lắp ráp trình tự DNA, dự đoán điều hòa gen và tìm kiếm gen kháng bệnh Nhờ sự tiến bộ của công nghệ giải trình tự gen, trình tự hệ gen và hệ phiên mã của nhiều loài thực vật đã được giải mã và công bố trong các cơ sở dữ liệu như NCBI, Phytozome, EnsemblPlants và 1KP Các công cụ tin sinh học cho phép các nhà nghiên cứu sắp xếp, tìm kiếm trình tự tương đồng, xây dựng phát sinh gen và phân tích motif protein để xác định và đánh giá các gen kháng bệnh trên toàn hệ gen thực vật.
Bảng 1: Công cụ tin sinh học phổ biến trong phân tích in-silico xác định gen kháng R (Sekhwal et al 2015)
Công cụ Dữ liệu đầu vào
Cơ sở dữ liệu tham chiếu Mô tả
Cụ thể, bộ công cụ tìm kiếm tương đồng trình tự protein hoặc DNA sử dụng các mô hình Markov ẩn với đặc tính nhận dạng tương đồng với khoảng cách xa để tìm kiếm các chuỗi có trình tự gần giống nhau trong một cơ sở dữ liệu.
Khám phá các mô típ mới và chưa được khai thác từ các trình tự nucleotide hoặc protein mà không cần mẫu dữ liệu được chuẩn bị trước mCUDA-
Chương trình khám phá motif có thể mở rộng với tốc độ tính toán cực nhanh chạy trên nền đơn vị xử lý đồ họa (GPU)
Thuật toán được dựa trên MEME và sử dụng kết hợp các mô hình lập trình song song CUDA, MPI và OpenMPI
BLAST+ D/P Cơ sở dữ liệu
Bộ công cụ tìm kiếm tương đồng trình tự để khai thác dữ liệu tin sinh học Để chạy, BLAST cần đầu vào là 2 chuỗi: một là chuỗi truy vấn (hay còn gọi là chuỗi đích) và một cơ sở dữ liệu chuỗi BLAST sẽ tìm kiếm các chuỗi con trong câu truy vấn mà giống với các chuỗi con trong cơ sở dữ liệu chuỗi
BLAST tìm kiếm những bắt cặp trình tự có điểm số cao giữa chuỗi truy vấn và các chuỗi trong cơ sở dữ liệu bằng cách sử dụng phương pháp dựa trên kinh nghiệm (heuristic) để có thể có tìm được kết quả gần tốt bằng với giải thuật Smith-Waterman
Công cụ Dữ liệu đầu vào
Cơ sở dữ liệu tham chiếu Mô tả pfam_scan.pl P Mô hình
Một tập lệnh Perl tìm kiếm cơ sở dữ liệu PFAM, sử dụng
“hmmscan” trong gói bộ công cụ HMMER để tìm kiếm các mô hình HMM đã biết
Tình hình nghiên cứu xác định họ gen kháng NBS-LRR bằng tin sinh học 15 1 Trong nước
Tại Việt Nam, các nghiên cứu gen kháng R còn hạn chế Gần đây nhất là phân tích in-silico xác định và mô tả họ gen kháng NBS-LRR ở chuối Musa acuminate
(Trung 2021) Trong nghiên cứu này, các công cụ tin sinh học đã được sử dụng để xác định, mô tả cấu trúc và quá trình tiến hóa của 97 gen NBS-LRR Hiện tại, chưa có nghiên cứu nào về xác định và mô tả họ gen kháng R ở chanh leo
CSDL gen nhận diện yếu tố gây bệnh (Pathogen Recognition Genes database, PRGdb, http://prgdb.org) ghi nhận 363 loài có gen kháng R đã được phân lập, mô tả cấu trúc chức năng và hơn 177.000 gen kháng R giả định (putative R gene), trong đó phần lớn thuộc họ gen NBS-LRR và được xác định thông qua phân tích trình tự DNA (Osuna-Cruz et al 2018) Nghiên cứu xác định gen NBS-LRR đầu tiên được tiến hành trên cây mô hình Arabidopsis thaliana vào năm 2003 (Meyers et al 2003) Theo đó đã có 149 gen mã hóa NBS-LRR được xác định từ trình tự hệ gen của cây A thaliana (ecotype Columbia), bao gồm 12 gen giả (pseudogene) Cùng với sự bùng nổ của công nghệ giải trình tự và dữ liệu trình tự hệ gen thực vật, các gen thuộc họ NBS-LRR tiếp tục được xác định thông qua công cụ tin sinh học ở nhiều loài khác
Amborella trichopoda, Trúc sào Phyllostachys heterocycla, Ớt đỏ Capsicum annuum, Đậu gà Cicer arietinum, Đậu tương Glycine max, Oryza sativa, Lúa Medicago truncatula, Nho Vitis vinifera, Liễu Populus trichocarpa, Khoai tây Solanum tuberosum, Cải Brassica rapa và bắp cải B oleracea, Đại mạch Hordeum vulgare,
Kê vàng Setaria italic, Ca cao Theobroma cacao, Dưa chuột Cucumis sativus, Đậu que Phaseolus vulgaris, Sen japonica Lotus japonicas, Đậu triều Cajanus cajan, Đậu tương leo Glycine soja…(Shao et al 2016) (Wan et al 2013) (Wei et al 2020) (Zheng et al 2016)
Nghiên cứu của Li và cộng sự (2016b) đã phân tích trình tự hệ gen của 50 loài thực vật và xác định các gen NBS-LRR mã hóa các kinase tương tự thụ thể (RLK) và các protein tương tự thụ thể (RLP) thuộc nhóm gen tương đồng kháng (Resistance Gene Analog, RGA).
Theo các nghiên cứu trên, số lượng gen NBS-LRR được xác định từ khoảng 50 gen ở đu đủ Carica papaya (Porter et al 2009) tới 1.015 gen ở táo Malus x domestica (Arya et al 2014) Các gen NBS-LRR phân bổ không đồng đều và thường được tìm thấy trong các cụm cluster trên các nhiễm sắc thể (Mizuno et al 2020).
Giới thiệu cây chanh leo
Cây chanh leo thuộc chi Passiflora, họ Lạc tiên Với khoảng 50-60 loài có quả ăn được, chi Passiflora là chi có số lượng loài và giá trị kinh tế cao nhất trong họ Nguồn gốc của chanh leo được cho là từ Nam Mỹ (Argentina, Paraguay và Brazil), sau đó phổ biến rộng rãi ở nhiều vùng trên thế giới như Ấn Độ, Sri Lanka, New Zealand, vùng Caribe, Colombia, Ecuador, Indonesia, Peru, California, Florida, Haiti, Hawaii, Úc, Đông Phi, Mexico, Israel và Nam Phi Tuy nhiên, khu vực nhiệt đới của châu Mỹ vẫn là nơi có sự đa dạng và phong phú về loài chanh leo nhất, đặc biệt là Brazil và Colombia.
Hình 4: Phân bố của loài chanh leo P edulis Sims trên thế giới
(theo https://powo.science.kew.org/)
Chanh leo là dây leo thân cỏ, mọc dài đến 6 mét Ở Bắc bán cầu cây ra hoa tháng 6 đến tháng 7 và kết quả vào tháng 10, 11 Có hai dạng chanh leo được phân biệt bởi màu sắc hình thái quả và hương vị:
(i) Chanh leo tím (P edulis f edulis) có dịch quả hơi sệt (0,74% tinh bột), vị chua nhẹ (pH 4.2), hương thơm dịu
(ii) Chanh leo vàng (P edulis f flavicarpa Deg.) có dịch quả trong (0,06% tinh bột), vị chua (pH 2,8) và rất thơm
Về hình thái, quả chanh leo có dạng hình cầu đến hình trứng, đường kính 4-5 cm và trọng lượng trung bình là 35g Lớp vỏ ngoài nhẵn, trở nên nhăn nheo khi chín hoàn toàn Lớp vỏ này gồm ba mô: vỏ ngoài (epicarp) cứng, màu tím đậm hoặc vàng; vỏ giữa (mesocarp) xốp, màu trắng; và vỏ trong (endocarp) với nhiều cán phôi hướng về khoang định vị Khi tiêu thụ tươi hoặc sản xuất nước trái cây, phần vỏ này thường bị bỏ đi hoặc dùng làm nguyên liệu sản xuất sản phụ giá trị thấp.
Phần dịch quả tử trong của vỏ quả, tương ứng với phần thường ăn, có lớp cùi dày màu cam vàng, trong mờ, mùi thơm đặc trưng và chứa hạt, chiếm khoảng 35% trọng lượng quả.
Hình 5 Đặc điểm hình thái quả chanh leo tím ( Passiflora edulis f edulis )
(Fonseca et al 2022) Chanh leo là loài cây chịu lạnh tốt, phát triển mạnh ở độ cao 600-2.000 m Cây chanh leo ưa khí hậu mát mẻ, không có sương giá và sinh trưởng kém trong nhiệt độ mùa hè gay gắt Chanh leo phát triển ở những khu vực có lượng mưa hàng năm 900 mm được phân bổ đều trong suốt cả năm Cũng có thể sản xuất chanh leo ở các vùng không có sương giá của vùng ôn đới, mặc dù việc đậu quả thường hạn chế hơn ở các vùng nhiệt đới Các cây con thường được trồng cách nhau 3-4 m và thu hoạch lứa đầu vào năm sau Cây tiếp tục phát triển trong 5-6 năm tiếp theo, sau đó năng suất cây trồng bắt đầu giảm dần Mặc dù cây có thể sống lâu hơn nhiều, nhưng sau giai đoạn này, cây trồng thường được thay mới vì lý do kinh tế Trung bình, một đồn điền hiện đại có tuổi thọ 7 năm
Chanh leo thường được tiêu thụ tươi để lấy cùi (bao gồm cả hạt) hoặc nước trái cây, trực tiếp hoặc thêm vào các món ăn thực phẩm Chanh leo cũng được sử dụng trong công nghiệp để sản xuất nhiều loại sản phẩm, trong đó vỏ và hạt là những sản phẩm phụ dồi dào, hầu hết thường bị loại bỏ hoặc được sử dụng trong các ứng dụng có giá trị thấp mặc dù phần vỏ, cùi và hạt được cho là nguồn cung cấp các chất dinh dưỡng và vi lượng tốt Ngoài ra, chanh leo được biết đến là sản phẩm chống oxy hóa, chống viêm, kháng khuẩn và kháng nấm và có tác dụng in vivo trong việc kiểm soát một số bệnh (hen suyễn, tăng huyết áp, viêm xương khớp, tiểu đường và xơ phổi) (Fonseca et al 2022)
Du nhập vào Việt Nam khoảng 30 năm trước, chanh leo hiện là ngành hàng nông sản có thế mạnh và tiềm năng thị trường lớn, được các doanh nghiệp chế biến xuất khẩu lớn quan tâm đầu tư Theo Cục Trồng trọt thống kê, hết năm 2022, diện tích cây ăn quả cả nước khoảng 1,22 triệu hecta, sản lượng 13 triệu tấn, trong đó cây chanh leo có diện tích 9,5 nghìn hecta, năng suất bình quân đạt 191-226 tạ/ha.Chanh leo là loại quả mang lại hiệu quả kinh tế cao so với nhiều cây trồng khác, tạo công ăn việc làm và mang lại nguồn thu đáng kể cho nhiều nông dân, doanh nghiệp Theo Cục Trồng trọt, giai đoạn năm 2025 - 2030, cả nước ổn định diện tích chanh leo từ 12.000 đến 15.000 ha, sản lượng quả tươi đạt 300 đến 400 nghìn tấn/năm Hiện chanh leo Việt cũng đã xuất khẩu tới các thị trường có yêu cầu nghiêm ngặt về chất lượng, kiểm dịch, an toàn thực phẩm như: Australia, Pháp, Đức, Hà Lan, Hàn Quốc, Đài Loan (Trung Quốc), Thụy Sĩ, Trung Quốc
Chanh leo là cây trồng dễ bị các loại dịch hại tấn công Hiện nay sâu bệnh hại chanh leo là một trong những trở ngại lớn của sản xuất chanh leo (Nguyễn Văn Hòa và cs., 2018; Nguyễn Thị Bích Ngọc và cs., 2020) Trên thế giới, thiệt hại do sâu bệnh hại đến sản xuất chanh leo đã được báo cáo ở Kenya Theo đó, chanh leo là loại quả chính của ngành trồng trọt nước này với giá trị 14,5 triệu USD từ 41.879 tấn sản xuất trên diện tích 3.322 ha trong năm 2020 Tuy nhiên, sản lượng đã giảm xuống từ 24 tấn/ ha xuống còn 12 tấn/ha do sâu bệnh, với tỷ lệ mắc bệnh do virus dao động từ 33,75% đến 59,16% (Asande et al, 2023) Tại Việt Nam, theo Viện Bảo vệ thực vật, tất cả các vùng trồng chanh leo tập trung trên cả nước đều bị nhiễm virus từ 30-100%, các bệnh như thối quả, lở cổ rễ… và một số bệnh hại khác cũng gây hại ở mức độ nghiêm trọng, khó kiểm soát Nguyễn Thị Bích Ngọc và cs., (2020) đã xác định các sâu bệnh chính hại chanh leo gồm 6 loại bệnh virus, 9 loại nấm, 1 loại vi khuẩn, 14 loại côn trùng và nhện gây hại Theo Nguyễn Văn Hòa và cs., (2018) trên chanh leo có các sâu bệnh hại chính gồm bệnh cứng trái (hóa bần vỏ trái) do virus Passion fruit woodiness (PWV) gây ra, bệnh quăn lá do virus Papaya leaf curl (PLCV) gây hại, bệnh đốm nâu do nấm Alternaria passiflorae, bệnh đốm xám do nấm Septoria passiflorae, bệnh thối hạch do nấm Sclerotinia sp, bệnh héo rũ do nấm Fusarium oxysporum, Fusarium solani, bệnh nấm Phytophthora do Phytophthora cinnamomi do vi khuẩn Pseudomnas syringae và Pseudomonas passiflorae gây ra Nhóm côn trùng gồm nhện đỏ, nhện trắng, bọ xít, bọ trĩ, ruồi đục trái (Ceratitis sp và Bactrocera cucurbitae), sâu đục thân, dế gây hại Để sản xuất chanh leo, yếu tố quan trọng nhất là phải có cây giống chanh leo sạch bệnh virus do hiện nay trên thế giới và Việt Nam chưa có giống chanh leo kháng bệnh virus và có gốc ghép chống chịu được với bệnh hại nguy hiểm trong đất và thích ứng với môi trường sinh thái Do đó, sản xuất và trồng mới bằng giống sạch bệnh là yêu cầu bắt buộc để giảm thiểu thiệt hại Hiện tại chưa có công bố về xác định gen kháng bệnh hại R trên toàn hệ gen ở chanh leo để tạo nền tảng và ứng dụng công nghệ sinh học (chỉ thị phân tử, công nghệ gen…) trong chọn tạo giống chanh leo (cải thiện tính kháng bệnh)
Là loại cây ăn quả giá trị trong sản xuất, chanh leo có nhu cầu cải tạo giống rất lớn, đặc biệt nhằm cải thiện/bổ sung tính kháng đối với một số loại bệnh do virus (bần hóa, xoăn lá, phấn trắng do nấm) Do thiếu thông tin về nền tảng di truyền liên quan đến tính kháng nên nghiên cứu chọn tạo giống nhờ chỉ thị phân tử hay cải thiện giống nhờ kỹ thuật di truyền ở chanh leo chưa được triển khai rộng rãi và còn nhiều hạn chế
Việc khai thác cơ sở dữ liệu trình tự hệ gen của của chanh leo để xác định các gen kháng R, phân tích trình tự và dự đoán chức năng dựa trên so sánh với các gen kháng
R đã biết để tìm các gen kháng R tiềm năng sẽ tạo tiền đề thay đổi phương thức và nâng cao hiệu quả lai tạo giống kháng bệnh (áp dụng chỉ thị phân tử) hoặc cải tạo tính kháng bệnh (thông qua áp dụng kỹ thuật di truyền) cho chanh leo Kết quả dự kiến của nghiên cứu, bao gồm trình tự các gen kháng R và các thông số liên quan và một số chỉ thị phân tử đặc hiệu gen kháng R sẽ là cơ sở dữ liệu và công cụ di truyền phục vụ trực tiếp cho các nghiên cứu chọn tạo phát triển giống chanh leo kháng bệnh sau này.
VẬT LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU
Vật liệu nghiên cứu
Mẫu lá tươi của các mẫu giống chanh leo tím (P edulis Sims f edulis) được thu thập từ vườn lưu giữ giống chanh leo gốc tạo Viện Nghiên cứu Chanh leo Nafoods (Nghệ An) Ký hiệu tên và thông tin nguồn gốc các mẫu giống chanh leo do Nafoods cung cấp (Bảng 2)
Bảng 2: Danh sách các mẫu chanh leo
STT Kí hiệu mẫu giống Nguồn gốc STT Kí hiệu mẫu giống Nguồn gốc
1 CKL Mẫu giống thu thập 6 CĐĐ Mẫu giống thu thập
2 H4.115 Mẫu giống thu thập 7 ĐN1 Mẫu giống thu thập
3 TC(14-5)-51 Mẫu giống thu thập 8 TC(14-5)-45 Mẫu giống thu thập
4 TC(14-5)-7 Mẫu giống thu thập 9 H5-27 Mẫu giống thu thập
Bộ dữ liệu hệ gen chanh leo sử dụng làm tham chiếu cho phân tích được thu thập từ CNGBdb (https://db.cngb.org/) với mã code CNA0017758 Bộ gen của chanh leo tím có kích thước khoảng 1.280,237 Mb, trong đó 99,463% các đoạn trình tự (sequencing reads) được lắp ráp vào 09 nhiễm sắc thể
Trình tự axit amin tham chiếu của vùng bảo tồn NB-ARC (PF00931) thu thập từ ngân hàng protein Pfam (https://pfam.xfam.org/) tích hợp với InterPro tại https://www.ebi.ac.uk/interpro/
Các trình tự protein NBS-LRR của Arabidopsis thaliana chia làm các phân lớp TNL, CNL, CN, TN được thu thập từ (https://niblrrs.ucdavis.edu) (Meyers et al
2003) được tải xuống từ cơ sở dữ liệu TAIR (https://www.arabidopsis.org)
2.1.2 Hóa chất và trang thiết bị nghiên cứu
Các thiết bị được thống kê trong Bảng 3
Bảng 3: Các thiết bị sử dụng trong nghiên cứu
STT Tên thiết bị Nguồn gốc xuất sứ
2 Bộ cối chày sứ Việt Nam
3 Bộ điện di đứng CBS Sci – US
4 Cân điện tử Thụy Sĩ
5 Máy chụp gel Jenna analytic - Đức
6 Máy ly tâm Eppendorf - CHLB Đức
7 Máy nước cất Canada Bio Water system - Pall Co.UK
9 Máy spindown plate Bioscience - Trung Quốc
11 Nồi hấp khử trùng HV - 110 - Hirayama – Japan
13 Tủ an toàn sinh học cấp 1 Esco 14 Tủ lạnh âm sâu -80°C PHBCI - Nhật Bản
Các hóa chất chuyên dụng sử dụng cho phân tích sinh học phân tử đều ở dạng tinh khiết Danh mục các hóa chất được trình bày trong Bảng 4
Bảng 4: Danh mục các loại hóa chất sử dụng trong đề tài
STT Tên hóa chất Hãng sản xuất
11 TEBMED (Tetra methylethylenediamine) Sigma - Aldrich
Ngoài ra có ống eppendorf, đầu côn các loại, giấy thấm vô trùng… của các hãng Canada, Mỹ, Trung Quốc và Việt Nam Các máy móc thiết bị trên được trang bị tại Phòng thí nghiệm sinh học phân tử thuộc Trung tâm Tài nguyên Dược liệu - Viện Dược liệu.
Phương pháp nghiên cứu
Các phương pháp nghiên cứu chính cho từng nội dung được hệ thống hóa theo sơ đồ sau:
Hình 7: Sơ đồ nghiên cứu xác định gen kháng NBS-LRR ở chanh leo
2.2.1 Phương pháp nghiên cứu tin sinh học Xác định gen kháng NBS-LRR:
- Tập hợp trình tự protein vùng NB-ARC thu thập từ ngân hàng protein Pfam
(https://pfam.xfam.org/) với mã truy cập PF00931 được sử dụng để làm trình tự tham vấn tìm kiếm các vùng gen mã hóa vùng NBS từ cơ sở dữ liệu trình tự hệ gen chanh leo thông qua phân tích tBLASTn Ngưỡng tin cậy của phép so sánh tBLASTn là 1e-5
Các đoạn trích tBLASTn được lọc bỏ các đoạn trùng lặp, sau đó những đoạn chứa vùng NBS được trích xuất (kéo dài 15.000 bp ở mỗi đầu 5' và 3') và phân tích bằng công cụ FGENESH để dự đoán gen và protein được mã hóa dựa trên gen mẫu của thực vật hai lá mầm Arabidopsis Từ kết quả FGENESH, các gen có đủ cấu trúc TSS, CDS, Poly-A của gen hoàn chỉnh được giữ lại, còn các gen không hoàn chỉnh bị loại bỏ Cuối cùng, các protein mã hóa bởi các gen hoàn chỉnh được sàng lọc lại để giữ lại các protein có vùng NBS bằng công cụ Interproscan trong GENEIOUS v11.
Xác định cấu trúc gene và protein NBS-LRR ở chanh leo:
- Thông tin về cấu trúc trúc exon - intron của từng gen NBS-LRR được xác định từ kết quả dự đoán gen bằng phần mềm FGENESH (Solovyev et al 2006) (http://www.softberry.com) và chú giải thủ công trên phần mềm GENEIOUS v11
- Các vùng đặc trưng của protein NBS-LRR được chú giải bao gồm: vùng lõi
NBS và các vùng đặc trưng đầu N như TIR và RPW8 đã được xác minh bằng công cụ Conserved Domain Search trên cơ sở dữ liệu NCBI (ngưỡng tin cậy 0,05) (Lu et al 2020) Vùng mã hóa CC được dự đoán bằng các công cụ MARCOIL (Chen 2021;
Delorenzi and Speed 2002), vùng lặp LRR đặc trưng đầu C được chú giải bằng công cụ LRRSearch (https://lrrsearch.com) với các thông số mặc định (Chen 2021) Dựa trên sự hiện diện của các vùng chức năng cụ thể trên các đầu N và C, danh pháp của các gen NBS-LRR ở chanh leo (Pe.NBS) được chỉ định như sau: Pe + phân loại gen (CNL, CN, TNL, TN, NL, N hoặc RPW) + số thứ tự
- Các thông số về đặc tính của các protein mã hóa bởi các gen Pe.NBS như điểm đẳng điện (pI), khối lượng phân tử (MW)… được tính toán bằng công cụ ExPASy proteomic (http://www.expasy.org/tools/protparam.html) Điểm đẳng điện pH >7 protein tích điện âm thể hiện tính bazơ, pH < 7 protein tích điện dương thể hiện tính axit Chỉ số bất ổn định > 40 thể hiện tính bất ổn định của protein Chỉ số bất ổn định
< 40 thể hiện tính ổn định của protein Độ ưa nước GRAVY (grand average of hydropathy) GRAVY >0 là hydrophobic (ưa nước), GRAVY < 0 là hydrophilic (kị nước)
Xác định motif bảo thủ ở protein NBS-LRR chanh leo:
Conserved motifs on protein Pe.NBS were identified and characterized using the Multiple Expectation Maximization for Motif Elicitation (MEME) tool (Bailey et al., 2009), with specified parameters for motif count (10), motif length (20-80 amino acids), and default settings The functions of these motifs were annotated based on homology analysis using the Conserved Domain Search tool from the NCBI database, with a significance threshold of 0.05.
Xây dựng cây phát sinh chủng loại của họ gen NBS-LRR ở chanh leo:
Trình tự các protein NBS-LRR của chanh leo và loài Arabidopsis thaliana được kết hợp nhằm phân tích mối quan hệ phát sinh chủng loại dự trên tương đồng trình tự protein và phân nhóm các phân họ NBS-LRR trên nền tảng Galaxy Trình tự protein được so sánh gióng cột bằng thuật toán MUSCLE (Madeira et al 2022), mô hình thay thế aa phù hợp nhất VT+F+R10 được xác định bằng công cụ ModelFinder (Kalyaanamoorthy et al 2017), cây phát sinh chủng loại được xây dựng bằng phương pháp Maximun Likelihood với giá trị bootstrap 10.000 bằng phần mềm IQ -TREE (Minh et al 2020)
Xác định mô hình phân bố trên nhiễm sắc thể và phân tích mô hình tiến hóa của họ gen NBS-LRR ở chanh leo:
Sử dụng công cụ BLASTn, vị trí của các gen Pe.NBS trên 9 nhiễm sắc thể chanh leo được xác định, kết quả được mô hình hóa bằng công cụ TBTools Các cặp gen có độ tương đồng trên 80% được xác định là gen lặp Gen lặp liên tục có khoảng cách nhỏ hơn 100 kbp trên nhiễm sắc thể, gen lặp gần nằm trên cùng nhiễm sắc thể, còn gen lặp phân tán nằm trên các nhiễm sắc thể khác nhau Tỷ lệ Ka/Ks được tính bằng phần mềm TBTools cho biết mức độ và chiều hướng của áp lực chọn lọc mà gen đang trải qua.
1 là chỉ dấu của quá trình chọn lọc thích nghi với đột biến (Yang and Bielawski 2000) Ngoài ra, thời điểm phát sinh các cặp gen lặp được ước tính bằng công thức T = Ks/2r, trong đó r = 1.5×10 -8 là xác suất xảy ra đột biến đồng nghĩa tại mỗi vị trí trong mỗi năm ở thực vật hai lá mầm (Koch et al 2000)
Phân tích hệ phiên mã và xác định gen NBS-LRR tiềm năng biểu hiện đáp ứng các yếu tố sinh học và phi sinh học ở chanh leo:
Các bộ dữ liệu hệ phiên mã được thu thập từ cơ sở dữ liệu NCBI-SRA để phân tích xác định tiềm năng biểu hiện của các gen Pe.NBS dưới tác động của yếu tố hữu sinh (phản ứng với bệnh hại) giữa các kiểu gen (chanh leo quả vàng và chanh leo quả tím) và yếu tố vô sinh (nhiệt độ thấp) giữa các giống chanh leo (chịu lạnh và không chịu lạnh) (Bảng 5)
Bảng 5: Dữ liệu hệ phiên mã chanh leo thu thập từ Genbank
Mô tả mẫu đối chứng và mẫu thí nghiệm
PRJNA905637 Phản ứng bệnh (lá)
Chanh leo tím (mẫn cảm bệnh)
2023) Chanh leo vàng (kháng bệnh)
Trên nền tảng Galaxy, chất lượng của các bộ dữ liệu RNAseq được kiểm tra bằng phần mềm FastQC, xử lý loại bỏ các đoạn đọc chất lượng thấp (giá trị Q 1 và giá trị FDR ≤ 0,05) được vẽ bằng phần mềm TBtools và SRplot
(https://www.bioinformatics.com.cn/srplot) Gen biểu hiện tăng khi log2FC > 2.5, gen biểu hiện giảm khi log2FC < 2.5
Xác định microsatellite và thiết kế chỉ thị SSR đặc hiệu họ gen NBS-LRR ở chanh leo:
Trình tự DNA của 161 gen Pe.NBS - bao gồm đoạn 2 kbp mở rộng ở hai đầu
(trình tự liên gen) được sử dụng làm khuôn để phân tích tìm kiếm các microsatellite bằng công cụ MISA-web (https://webblast.ipk-gatersleben.de/misa) (Beier et al
2017) Tiêu chuẩn để xác định các microsatellite là chiều dài motif 1, 2, 3, 4, 5 và 6 nucleotide với số motif lặp liên tục tương ứng là 10, 6, 5, 5, 4 và 4 Đối với các microsatellite phức hợp, các đoạn microsatellite thành phần không cách xa nhau quá 100 bp Vị trí các microsatellite được chú giải trên trình tự 161 gen Pe.NBS và các motif có 2 nucleotide trở lên được lựa chọn để thiết kế các cặp mồi đặc hiệu bằng công cụ Primer 3 tích hợp trên phần mềm Geneious v11 Các thông số thiết kế mồi bao gồm: chiều dài trình tự 18-23 nucleotide (tối ưu là 20), tỷ lệ GC 40-60%, nhiệt độ gắn mồi tối ưu 55°C, sản phẩm nhân gen PCR dự kiến 150-300 bp Các cặp mồi mới thiết kế được truy vấn với hệ gen chanh leo và cơ sở dữ liệu nucleotide trên Genbank bằng công cụ BLASTn để kiểm tra sơ bộ tính đặc hiệu
2.2.2 Phương pháp nghiên cứu phòng thí nghiệm Phân tích PCR xác định kiểu gen SSR cho họ gen NBS ở chanh leo:
Số lượng và phân loại các gen mã hóa NBS - LRR
Sử dụng trình tự protein NB-ARC làm truy vấn, nghiên cứu đã xác định được 161 gen mã hóa NBS trong 9 nhiễm sắc thể của chanh leo Phân tích chú giải trình tự và các vùng đặc trưng (xoắn CC, lặp LRR, chức năng khác) cho thấy 161 gen NBS-LRR ở chanh leo được chia thành 7 phân nhóm chính: N (NBS), NL (NBS-LRR), CNL (CC-NBS-LRR), CN (CC-NBS), TNL (TIR-NBS-LRR), TN (TIR-NBS), và RNL (RPW8-NBS-LRR) Sự đa dạng của các phân nhóm gen NBS-LRR ở chanh leo được phản ánh thông qua 117 gen (72,67%) mã hóa protein điển hình (CNL, RNL và TNL) và 44 gen (27,33%) mã hóa protein không điển hình (thiếu vùng đặc trưng của đầu N hoặc đầu C như CN, TN, NL và N) Cụ thể theo các phân nhóm cấu trúc, chanh leo có 55 gen TNL, 60 gen CNL; 20 gen NL, 12 gen CN, 7 gen N, 5 gen TN, và 2 gen RNL.
Hình 8: Số lượng và phân loại gen NBS-LRR được xác định trong hệ gen chanh leo dạng quả tím ( Pe.NBS ) Để phân loại các gen Pe.NBS, đặc biệt là những gen mã hóa thiếu vùng protein đặc trưng ở đầu N, cây phát sinh chủng loại ML (maximum likelihood) đã được xây dựng từ trình tự protein mã hóa bởi 161 gen Pe.NBS và 125 gen NBS của A thaliana (Hình 9) Từ cây phát sinh chủng loại ML ta thấy, các protein NBS-LRR được chia thành ba nhánh có thể phân biệt đại diện cho phân họ RNL (Nhóm 1), phân họ CNL (Nhóm 2) và phân họ TNL (Nhóm 3) Trong số các gen Pe.NBS, 3 gen bao gồm 2
RNL và 1 CNL được xếp vào nhóm RNL, 82 gen có hoặc không có vùng CC ở đầu N được phân loại là phân họ CNL và 76 gen còn lại trong phân họ TNL Kết quả phân nhóm cho thấy sự hài hòa với việc phân loại các gen NBS đã được mô tả đặc điểm rõ ràng của A thaliana Nhìn chung, các gen NBS-LRR của chanh leo được nhóm riêng biệt với các gen của A thaliana trong mỗi phân họ, qua đó thể hiện mối quan hệ tiến hóa xa của các gen NBS-LRR giữa hai loài này
Kết quả phân tích hệ gen chanh leo đã xác định được 161 gen NBS-LRR Trong khi đó 149 gen mã hóa NBS-LRR đã được xác định ở A thaliana (Meyers et al
2003), 225 gen ở củ cải Raphanus sativus L (Ma et al 2021b) Ở cà chua Solanum pimpinellifolium đã xác định được 245 gen mã hóa cho NBS-LRR Trong số đó CNL và TNL đều là những phân họ tiêu biểu nhất, với lần lượt 78 và 15 gen, số lượng gen NBS-LRR trong phân họ N và CN lần lượt là 62 và 54 Ngoài ra, 29 gen được xác định là thuộc phân họ NL và chỉ có 7 gen được dự đoán mã hóa miền TIR thuộc phân họ TN (Wei et al 2020) Dựa vào kết quả trên, chúng ta có thể kết luận rằng sự đa dạng về cấu trúc cũng như phân loại của 161 gen NBS-LRR ở chanh leo hoàn toàn phù hợp tỷ lệ ngẫu nhiên giữa các phân họ gen NBS-LRR đã được xác định ở các loài thực vật khác, đồng thời phản ánh xu hướng tiến hóa riêng biệt cho từng nhánh trong cây phân loài thực vật của họ gen NBS-LRR như kết quả ở cà chua (Shao et al
Hình 9: Cây phát sinh loài khác loài dựa trên 287 trình tự axit amin được mã hóa bởi gen NBS ở chanh leo tím và A thaliana
Ba cụm riêng biệt đại diện cho nhánh RNL (màu vàng đậm), nhánh CNL (màu xanh lá cây) và nhánh TNL (màu đỏ) Giá trị bootstrap của các nút nhánh lớn hơn 95%
Tên protein NBS có màu tím là những protein được xác định từ chanh leo tím.
Cấu trúc gen và motif protein bảo thủ của họ gen NBS-LRR ở chanh leo
Thông tin về 161 gen Pe.NBS và protein mã hóa được tổng hợp trong Phụ lục
1 Chiều dài trình tự của gen Pe.NBS dao động từ 1.023 bp (Pe.CN05) đến 9.838 bp (Pe.TNL55) với chiều dài trung bình của phân họ RNL, CNL và TNL lần lượt là 3.605,66 bp, 4.260,73 bp và 5.161,75 bp Số exon trung bình là 4,29 exon/gen, trong đó phân họ TNL có nhiều exon hơn (5,82) so với các phân họ RNL (5,66) và CNL (3,08) Tổng số có 26 gen Pe.NBS thuộc phân họ CNL là gen chỉ có 1 exon (16,15%) và phần còn lại (135 gen, 83,85%) là các gen bao gồm nhiều hơn một exon (Hình
10C) Trong khi đó, độ dài trình tự của các protein Pe.NBS dao động từ 202 aa
(Pe.N01) đến 2.390 aa (Pe.TNL55) với độ dài trung bình của các phân họ RNL, CNL và TNL tương ứng là 790 aa, 935,33 aa và 1.093,01 aa (Hình 10) Ở củ cải Raphanus sativus L chiều dài các gen NBS-LRR dao động từ 336 bp (RsN02) đến 11.267 bp (RsTNL06) và chiều dài các protein NBS-LRR được mã hóa từ 111 aa (RsN02) đến 1.632 aa (RsTNL15) Các gen CNL và TNL có chiều dài đầy đủ trong bộ gen củ cải có trung bình lần lượt là 2,42 và 5,26 exon Hơn nữa, 47,37% gen CNL được mã hóa bởi một exon duy nhất (Ma et al 2021b)
Như vậy cấu trúc của các gen NBS-LRR ở chanh leo khá tương đồng với các loài thực vật khác, đặc biệt là thuộc tính chỉ có 1 exon đặc trưng cho các gen thuộc phân họ CNL Kết quả này chỉ ra rằng số lượng intron trong cấu trúc gen có thể biến đổi trong quá trình tiến hóa của họ gen NBS-LRR nhưng có đường hướng tiến hóa khác biệt khá rõ ràng trong việc duy trì số lượng exon tối thiểu ở phân họ CNL và biến đổi số lượng exon - đồng thời là biến đổi cấu trúc gen ở phân họ TNL Điều này có liên quan đến chức năng riêng biệt, bao gồm cảm thụ nguồn bệnh và truyền tín hiệu miễn dịch của các protein CNL so với chức năng tham gia mạng lưới tương tác miễn dịch của các protein TNL (Ivanov et al 2023)
Hình 10: Quan hệ phân loại, cấu trúc và các motif bảo thủ của các gen NBS-
LRR ở chanh leo Passiflora edulis Sims
(A) Mối quan hệ phát sinh gen dựa trên trình tự protein của họ gen Pe.NBS cho thấy ba phân nhóm họ RNL, TNL và CNL (B) Cấu trúc gen của gen Pe.NBS Màu vàng đại diện cho các exon trong khi các hộp màu xanh lá cây, màu đỏ lần lượt biểu thị các 5'- và 3'-UTR (C) Sự sắp xếp các motif được bảo tồn được xác định trong 161 protein Pe.NBS Mười motif được thể hiện bằng các màu sắc khác nhau Độ dài gen và protein Pe.NBS có thể được ước tính bằng cách sử dụng thang đo ở phía dưới
Tổng cộng 1.497 vùng thuộc 10 motif bảo thủ khác nhau đã được phát hiện trên trình tự của 161 protein Pe.NBS bằng phân tích MEME Trong số 10 loại motif bảo thủ, có 5 loại được chú giải là đại diện của vùng NBS cốt lõi (motif 2 và motif 7), vùng CC (motif 5) và miền TIR (motif 8) đặc trưng đầu N và các LRR đặc trưng đầu
C (motif 1) Motif 3 được chú giải là vùng bảo thủ của enzyme phenol hydroxylase (PF04663) được nhận diện trong 65 protein Pe.NBS của cả ba phân họ Trong số 4 motif không được chú giải còn lại, có hai motif là được xác định là đặc trưng cho phân họ CNL là motif 4 (liên quan đến vùng NBS) và motif 10 (liên quan đến vùng CC) và một (motif 9) được chú giải là đặc trưng của phân họ TNL (Bảng 6) Đặc biệt là phân tích MEME không thể phát hiện được các motif bảo thủ đặc trưng cho miền RPW8, có thể là do số lượng các gen thuộc phân họ RNL chiếm tỷ lệ quá ít trong số các Pe.NBS (Bảng 6 và Hình 10B)
Bảng 6: Thông tin của 10 motif bảo thủ xác định từ trình tự 161 protein Pe.NBS bằng công cụ MEME
Motif Logo Trình tự bảo thủ
Chú giải motif bảo thủ (e-value)
PF04663, Phenol hydroxylase conserved region
NBS-associated, CNL sub-family specific motif
Motif Logo Trình tự bảo thủ
Chú giải motif bảo thủ (e-value)
NBS-associated, TNL sub-family specific motif
CC-associated, CNL sub-family specific motif
Phân tích phát sinh chủng loại cho họ gen NBS-LRR ở củ cải R sativus chỉ ra sự tồn tại của hai nhóm chính là CNL và TNL Nhóm RsTNL tiếp tục được chia thành bốn nhóm nhỏ Trong số 80 protein RsTIR được xác định, có 49 protein thuộc nhóm RsTNL-1, 10 protein thuộc nhóm RsTNL-2, 5 protein thuộc nhóm RsTNL-3 và 16 protein thuộc nhóm RsTNL-4.
RsTNL-3 và RsTNL-4 Những kết quả này giống hệt với kết quả phân tích phát sinh chủng loại họ gen NBS-LRR của R sativus và A thaliana Phân tích các chức năng tiềm năng và sự đa dạng hóa của gen TNL và CNL ở R sativus, 20 motif được bảo tồn được mã hóa đã được xác định và đánh số 1-20 dựa trên phân tích MEME Miền TIR được phát hiện trong tất cả các RsTNL Ngoài ra, các nhóm con RsTNL-1 có hầu hết các motif Các protein RsTNL-2 và RsTNL-3 lần lượt thiếu ở các motif 20 và
11 Các protein trong phân nhóm RsTNL-4 thiếu motif 11, 12 và 16 Các nhóm RsCNL hầu hết chỉ có sáu motif, bao gồm cả miền CC Các motif đã được bộc lộ trong các nhóm nhỏ Tuy nhiên, về loại motif và số lượng, có sự đa dạng đáng kể giữa các nhóm nhỏ Điều này cho thấy các protein trong các nhóm nhỏ có chức năng tương tự nhau Ở S pimpinellifolium, MEME đã được áp dụng để phân tích cấu trúc và sự phân bố của các motif được bảo tồn giữa các phân họ TNL và CNL Hai mươi motif riêng biệt đã được xác định trong mỗi phân họ Tất cả các motif có trình tự bảo thủ và có sự phân bố đa dạng trong các phân họ tương ứng Trong phân họ TNL, lần lượt có 4, 7 và 9 motif được xác định đặc trưng cho các vùng TIR, NBS và LRR Các motif đặc trưng cho vùng TIR được đặt tên là T-1 đến T-4 và các motif trong vùng LRR được đặt tên là L-1 đến L-9 Tất cả 14 gen TNL đều chứa 4 motif của vùng TIR, ngoại trừ Sopim09g092410.0.1 thiếu motif T-1 Motif RNBS-A không được tìm thấy trong vùng NBS Hai motif mới (TNBS-1 và TNBS-2) đã được xác định trong hầu hết phân họ TNL Trình tự Kinase-2 và RNBS-B đều xuất hiện trong motif 5, vì 2 protein này rất giống nhau Các motif của vùng NBS có mức độ bảo thủ cao hơn ở 14 gen TNL, ngoại trừ TNBS-2, không có ở một số gen Trong phân họ CNL, lần lượt có 4, 11 và 5 motif trong các miền CC, NBS và LRR Các vùng CC và LRR có mức độ bảo thủ motif thấp hơn Trong số đó, 3 trong số 4 motif (C-1, C-2 và C-3) có mức bảo thủ thấp hơn so với vùng NBS và LRR Nói cách khác, hầu hết các gen trong phân họ
CNL đều mất motif C-1, C-2 và C-3 Ngoài ra, hầu hết các NBS-LRR đều thiếu motif L-4 Đối với vùng NBS, hầu hết các gen từ CNL đều không có motif RNBS-D và CNBS-3 Các motif bảo thủ còn lại được phát hiện trong hầu hết các gen NBS-
Nhìn chung, các motif của miền NBS tương đối bảo thủ so với motif trong miền N Tuy nhiên, khi so sánh giữa các phân họ TNL và CNL, có sự khác biệt đáng kể về kiểu motif Cụ thể, motif MHDV chỉ có ở phân họ CNL, trong khi 2 motif TNBS-1 và TNBS-2 là motif mới ở phân họ TNL Ngược lại, 3 motif CNBS-1, CNBS-2 và CNBS-3 chỉ xuất hiện ở phân họ CNL (Wei et al 2020).
Kết quả phân tích motif bảo thủ ở chanh leo hoàn toàn phù hợp với kết quả ở R sativus và S pimpinellifoliu Trong nghiên cứu ở chanh leo, số lượng các motif bảo thủ được giới hạn ở 10, ít hơn so với số lượng 20 motif được tìm kiếm ở củ cải và cà chua bằng công cụ MEME Mặc dù không phản ánh được sự đa dạng motif bảo thủ trong từng vùng chức năng của các gen NBS-LRR, nhưng 10 motif xác định ở chanh leo đã giúp xây dựng mô hình cấu trúc vùng bảo thủ đặc trưng cho từng phân họ CNL, TNL và RNL ở chanh leo và phù hợp với đặc trưng cho cấu trúc protein của họ gen NBS-LRR ở thực vật hai lá mầm.
Sự phân bố trên nhiễm sắc thể và mô hình tiến hóa của họ gen NBS-LRR ở
161 gen Pe.NBS phân bố không đều trên 9 nhiễm sắc thể của chanh leo tím (Hình
11) Trong số đó, mức độ phong phú cao nhất của gen Pe.NBS được ghi nhận lần lượt ở nhiễm sắc thể 4 (57 gen), nhiễm sắc thể 3 (40 gen), nhiễm sắc thể 1 (28 gen), nhiễm sắc thể 2 (18 gen) và nhiễm sắc thể 8 (14 gen) Số lượng gen Pe.NBS thấp hơn nhiều ở nhiễm sắc thể 9 (3 gen) và nhiễm sắc thể 5 (01 gen) Đặc biệt, nhiễm sắc thể 6 và 7 hoàn toàn không mang gen NBS-LRR Khoảng 76,39% gen Pe.NBS phân bố ở nhiễm sắc thể 1, 2, 3, 4, 8 và được tổ chức thành các cụm gen có nhiều hơn 2 gen Hầu hết các cụm gen chỉ bao gồm các gen thuộc phân họ CNL hoặc TNL (Hình 11)
Hình 11: Phân bố nhiễm sắc thể của 161 gen NBS được xác định ở chanh leo tím Độ dài nhiễm sắc thể (tính bằng Mbp) có thể được ước tính dựa trên thanh tỷ lệ ở bên trái NBS các gen thuộc phân họ RNL, CNL hoặc TNL được biểu thị bằng màu vàng đậm, xanh lục và đỏ Ở củ cải R sativus, trong số 225 gen mã hóa NBS, 202 gen được ánh xạ lên 9 nhiễm sắc thể, trong khi 23 gen còn lại không được ánh xạ trên nhiễm sắc thể Sự phân bố của các gen mã hóa CNL, TNL và NBS một phần trên các nhiễm sắc thể khác nhau Các gen TNL gần như phân bố đồng đều trên nhiễm sắc thể R01 đến R09, các gen CNL không được phát hiện trên nhiễm sắc thể R03 và R06 Nhiễm sắc thể R09 có nhiều gen mã hóa NBS nhất (41), trong khi nhiễm sắc thể R03 có ít nhất
(7) Tỷ lệ gen TNL:CNL của củ cải gần như là 4:1 (80:19), phù hợp với tỷ lệ tương ứng ở A thaliana (78:18), B rapa (74:20) và B oleracea (Ma et al 2021b) Không có hình mẫu chung cho sự phân bố nhiễm sắc thể của các gen mã hóa NBS ở thực vật ngoài các nhóm tụ gộp Sự phân bố này có thể tạo điều kiện thuận lợi cho việc trao đổi trình tự thông qua việc tái tổ hợp Trên nhiễm sắc thể củ cải, 146 (72%) gen NBS được ánh xạ thành 48 nhóm tụ gộp, trong khi 55 gen còn lại được phát hiện dưới dạng đơn lẻ Phân tích cho thấy nhiễm sắc thể R09 có nhiều gen NBS nhất (41; 20,30% số gen được ánh xạ) phân bố thành 8 cụm, ngoài 9 gen đơn lẻ Kích thước cụm khác nhau trên bộ gen (2 gen) Cụm 44 là lớn nhất, với 11 gen thuộc phân họ TNL (Ma et al 2021b)
Trong các nghiên cứu về kháng bệnh ở cà chua (Solanum pimpinellifolium) và các loài thực vật khác, người ta nhận thấy rằng tỷ lệ các gen thuộc phân họ CNL (coiled-coil NLR) so với phân họ TNL (toll/interleukin-1 receptor-like NLR) thường là lớn hơn 1 Ở cà chua, tỷ lệ này là khoảng 5:1, trong khi ở khoai tây là 4,7:1, ở nho là 3,8:1 và ở cây dương là 2,0:1 Điều này cho thấy phân họ CNL chiếm ưu thế hơn trong các họ gen NBS-LRR ở thực vật, đóng vai trò quan trọng trong cơ chế miễn dịch thực vật.
Tỉ lệ gen TNL:CNL (5:1) ở thực vật tương tự các loài khác Gen TNL chiếm ưu thế ở cây họ Bầu bí, Arabidopsis và họ Cải so với cây bậc cao khác do lịch sử tiến hóa chống lại bệnh tật Đặc biệt, cây một lá mầm (như lúa) có 402 gen CNL nhưng thiếu gen TNL, trong khi cây hai lá mầm có cả TNL và CNL khác biệt Gen kháng bệnh NBS-LRR ở cây một lá mầm và hai lá mầm cũng khác nhau.
Trong bộ gen của chanh leo, tổng số 296 cặp gen NBS-LRR được xác định có tương đồng trình tự Trong đó, 140 cặp gen đáp ứng tiêu chí là gen lặp và được phân thành ba loại: 37 cặp gen lặp phân tán (trên hai nhiễm sắc thể khác nhau), 49 cặp gen lặp gần (trên cùng nhiễm sắc thể, khoảng cánh vị trí trên 100 kbp) và 54 cặp gen lặp liên tục (trên cùng nhiễm sắc thể, khoảng cách vị trí dưới 100 kbp) Các cặp gen lặp chủ yếu định vị trên các nhiễm sắc thể 3 và 4, tương ứng với số lượng gen NBS-LRR tập trung ở nhiễm sắc thể này (Hình 12)
Hình 12: Kết quả phân tích xác định cặp gen lặp trong họ gen NBS-LRR ở chanh leo
(A) Phân bố của các cặp gen NBS-LRR lặp trên các nhiễm sắc thể Đường màu đỏ thể hiện quan hệ các cặp gen nhân lặp phân tán giữa các nhiễm sắc thể khác nhau, các đường màu xanh lam và xanh lục lần lượt tượng trưng cho các cặp gen lặp gần và liên tục trên cùng một nhiễm sắc thể Đường màu xám đại diện các cặp gen NBS-LRR tương đồng