So với các kỹ thuật thông thường dựa trên phương pháp nuôi cấy, giải trình tự toàn bộ hệ gen cho phép xácđịnh đáng tin cậy quần thể vi sinh vật sống trong mô thực vật ở cấp độ loài.. Sự
VẬT LIỆU VÀ PHƯƠNG PHÁP
Vật liệu thực vật
Lá bắp cải (B oleracea var capitata) được thu thập từ các cây bị nhiễm bệnh tự nhiên tại một cánh đồng thương mại ở bờ biển Địa Trung Hải, phía đông Tây Ban Nha Vị trí cụ thể là tọa độ GPS 41°38′55,0′′ N; 2°45′38,3′′ E, và việc thu thập diễn ra vào tháng
11 năm 2022 Cây Brassica đã được trồng mỗi vụ trong ruộng của nông dân.
Các phương pháp quản lý cây trồng, chủ yếu là sử dụng thuốc trừ sâu, được nông dân áp dụng trong các cánh đồng bắp cải thương mại ở đông bắc Tây Ban Nha Để nghiên cứu sự đa dạng của vi sinh vật, lá cây khỏe mạnh (Nhóm I) và lá cây bị bệnh (Nhóm II, III, IV và V) đã được thu thập từ khắp các đồng ruộng Mỗi nhóm lá được kiểm tra với 3 mẫu, trong đó mỗi mẫu bao gồm ít nhất 4 lá.
Lá không được khử trùng để bảo tồn cả thực vật biểu sinh và nội sinh.
Các mẫu được bảo quản ở −80 o C cho đến khi phân tích tiếp theo.
Phương pháp tiến hành
3.2.1 Chiết xuất DNA, chuẩn bị thư viện và giải trình tự Metagenomics
Vật liệu lá được nghiền thành bột trong nitơ lỏng, với mỗi lần chiết xuất DNA sử dụng 0,3g vật liệu DNA bộ gen được thu nhận bằng cách sử dụng dung dịch đệm MATAB, bao gồm 100 mM TRIS-HCl pH 8.0, 1.4 M NaCl, 20 mM EDTA, 2% MATAB, 1% PEG 6000 và 0.5% natri sunfit.
Ba chế phẩm DNA được tạo ra từ mỗi nhóm lá với 6 mL MATAB/g trọng lượng tươi và được xử lý tiếp Giải trình tự metagenomics shotgun được thực hiện tại Novogene, Cambridge, Vương quốc Anh, bao gồm việc cắt DNA thành các đoạn ngắn, sửa chữa đầu cuối, gắn đuôi A và nối với bộ điều hợp Illumina Các đoạn có bộ điều hợp được khuếch đại bằng PCR, chọn kích thước và tinh chế Chất lượng và phân bố kích thước của thư viện được đánh giá bằng Qubit và bộ phân tích sinh học Cuối cùng, các thư viện đã được định lượng và giải trình tự trên nền tảng Illumina bởi Novogene, dựa trên nồng độ thư viện cần thiết và dữ liệu đầu ra.
3.2.2 Xử xý dữ liệu giải trình tự và lắp ráp Metagenome
Các đoạn đọc thô được lọc để loại bỏ các base chất lượng thấp với giá trị Q ≤ 38 và ngưỡng 40 bp Ngoài ra, các base mơ hồ ở đầu cuối trình tự được giới hạn tối đa là 10 bp và các trình tự bộ điều hợp phải có độ chồng chéo tối thiểu là 15 bp Điểm số chất lượng phred Q là thước đo tiêu chuẩn cho chất lượng xác định các base do máy giải trình tự tạo ra.
Độ chính xác của việc gọi base đạt 99,9% với giá trị Q là 40, tương ứng với độ chính xác 99,99% (tức xác suất gọi base không chính xác là 1 trong 10.000 nt) Giá trị Q 38 chỉ ra xác suất sai sót là 1 trên 6310 nt Vì vậy, các trình tự đã được cắt tỉa và lọc của chúng tôi chứa nt được máy giải trình tự gọi chính xác với độ chính xác ở mức 99,99% hoặc cao hơn.
Các đoạn đọc đã được cắt tỉa và lọc sau đó được ánh xạ tới bộ gen tham chiếu
Brassica oleracea var Capitata was analyzed using Bowtie2 (version 2.2.4) to ensure accurate data processing The results were filtered to remove any positive results, resulting in a final clean dataset For more information, visit the NCBI assembly page.
Metagenomes được lắp ráp riêng cho từng mẫu bằng cách sử dụng dữ liệu sạch Các dữ liệu này được xử lý để tạo ra các đoạn giàn giáo thông qua phần mềm MEGAHIT (v1.0.4; https://github.com/voutcn/megahit) (truy cập ngày).
Vào ngày 1 tháng 1 năm 2024, các khung được chia thành các đoạn con mà không có N trong khung Các đoạn đọc chưa được lắp ráp từ tất cả các mẫu được gộp chung để tạo ra một trình tự tổng hợp, sử dụng các tham số tương tự như với các lắp ráp riêng lẻ, nhằm thu thập thông tin về các loài có độ phong phú thấp Các đoạn con có chiều dài ngắn hơn 500 bp đã bị loại bỏ, và tập hợp các trình tự cuối cùng được chọn để dự đoán và chú thích gen tiếp theo.
Thang đo chiều không tuyến tính (NMDS) được thực hiện thông qua các hàm ordinate và plot_ordination trong gói phyloseq R (v1.30.0), sử dụng khoảng cách Bray – Curtis Dữ liệu hỗ trợ cho nghiên cứu này có thể được truy cập tại cơ sở dữ liệu Kho lưu trữ Nucleotide Châu Âu (ENA) với mã truy cập PRJEB71999.
3.2.3 Dự đoán gen và chú thích phân loại
Các đoạn con có độ dài từ 500 bp trở lên từ tất cả các lắp ráp được sử dụng để dự đoán khung đọc mở (ORF) thông qua MetaGeneMark (v2.10) Chúng tôi không xem xét các dự đoán có độ dài ngắn hơn 100 bp Kết quả ORF được khử trùng bằng CD-HIT (v4.5.8) với các tham số -c 0.95, -G 0, -aS 0.9 và -g.
1, -d 0 Đối với mỗi cụm ORF chồng chéo, ORF dài nhất được chọn làm gen đại diện (unigene) để tạo ra một tập hợp unigene cuối cùng (danh mục gen).
Dữ liệu sạch được ánh xạ vào danh mục gen thông qua Bowtie2 với các tham số end-to-end sensitive -I 200 -X 400, nhằm tính toán độ phong phú của gen.
Trong nghiên cứu này, DIAMOND v0.9.9.110 được sử dụng để căn chỉnh các trình tự unigene với tất cả các trình tự vi khuẩn, nấm, vi khuẩn cổ và virus từ cơ sở dữ liệu NR của NCBI (tính đến ngày 01-02-2018), với tham số blastp e 1 × 10 −5 Các trình tự có giá trị e ≤ min giá trị e ×10 được chọn từ kết quả căn chỉnh Thuật toán LCA được áp dụng để phân loại hệ thống bằng phần mềm MEGAN v6.13.1, xác định thông tin chú thích loài Độ phong phú tương đối ở các cấp phân loại khác nhau được nhập vào R bằng phyloseq v1.30 và kiểm tra bằng biểu đồ cột và bản đồ nhiệt Dữ liệu được chuẩn hóa thành 100% và hiển thị bằng biểu đồ Krona sử dụng gói R psadd v0.1.3 Để liên kết chức năng enzyme với các nhóm lá cụ thể, các trình tự mã hóa protein đã được ánh xạ dựa trên cơ sở dữ liệu enzym hoạt động carbohydrate (CAZymes) với sáu lớp chức năng: glycoside hydrolase, glycosyl transferase, polysaccharide lyase, carbohydrate esterase, hoạt động phụ trợ và mô-đun liên kết carbohydrate.