Kết quả xây dựng công cụ

Một phần của tài liệu Phát triển công cụ tin sinh học để phân tích tập hợp hệ gen của vi khuẩn (Trang 30 - 31)

CHƯƠNG 3 : THỰC NGHIỆM VÀ KẾT QUẢ

3.1. Xây dựng công cụ phân tích tập hợp hệ gen vi khuẩn

3.1.1. Kết quả xây dựng công cụ

Nghiên cứu của chúng tôi đã tạo ra Panta - một cơng cụ mới để phân tích tập hợp hệ gen vi khuẩn. Panta có 2 đặc điểm nổi bật. Thứ nhất, Panta có khả năng cập nhật kết quả của phân tích trước đó khi có thêm mẫu mới. Q trình thêm mẫu rút ngắn thời gian so với việc chạy lại cả bộ dữ liệu và khơng làm thay đổi các cụm gen trước đó. Thứ hai, Panta có khả năng phân tích các bộ dữ liệu lớn hàng chục ngàn mẫu sử dụng các máy tính có cấu hình thơng thường. Panta được viết bằng Python và được phân phối mã nguồn mở tại địa chỉ https://github.com/amromics/amromics.

Sơ đồ hoạt động của cơng cụ Panta được thể hiện ở Hình 3.1.

Hình 3.1. Sơ đồ hoạt động cơng cụ Panta

Panta chấp nhận 2 loại dữ liệu đầu vào là chú thích hệ gen (dưới định dạng GFF) và sản phẩm lắp ráp hệ gen (dưới định dạng FASTA). Trong dữ liệu chú thích hệ gen đã có thơng tin về các gen, nên bước đầu tiên trong quy trình phân tích là trích xuất trình tự các gen trên hệ gen. Sản phẩm lắp ráp hệ gen không chứa thông tin về các gen, nên

23

trước hết, các gen cần được xác định nhờ q trình dự đốn gen. Các trình tự gen sau đó sẽ được sàng lọc để loại bỏ những trình tự ngắn hoặc có chất lượng thấp. Các trình tự sau khi được sàng lọc sẽ được đưa vào quy trình phân tích tập hợp hệ gen (quy trình thơng thường). Quy trình này được xây dựng dựa theo quy trình phân tích của Roary nhưng đã được tối ưu bổ sung. Kết quả thu được là cụm các trình tự tương đồng (cụm gen).

Các cụm gen này sau đó sẽ được chú thích tên và sản phẩm tương ứng. Nếu dữ liệu đầu vào là chú thích hệ gen, mỗi trình tự gen đã đi kèm thông tin về tên và sản phẩm, vì vậy các cụm gen sẽ được chú thích dựa trên thơng tin từ các gen trong cụm. Với dữ liệu đầu vào là sản phẩm lắp ráp hệ gen, q trình dự đốn gen khơng cung cấp thơng tin về tên và sản phẩm của các gen, nên các cụm gen sẽ được chú thích bằng cách tìm kiếm trong các cơ sở dữ liệu. Bước cuối trong quy trình phân tích là gióng hàng nhiều trình tự (multiple sequence alignment) cho từng cụm gen sử dụng công cụ abPOA. Nghiên cứu của chúng tôi đã xây dựng được một quy trình phân tích tập hợp hệ gen mới – quy trình thêm mẫu. Về nguyên tắc, các gen mới sẽ được thêm vào các cụm gen từ phân tích trước đó. Từ gióng hàng nhiều trình tự của cụm gen cũ, một trình tự thống nhất (consensus sequence) sẽ được tạo ra. Trình tự này sẽ trở thành trình tự đại diện cho cả cụm gen. Trình tự mới sẽ được so sánh với các trình tự đại diện để tìm kiếm trình tự tương đồng nhất. Trình tự mới sau đó sẽ được thêm vào cụm gen tương ứng. Nếu khơng có trình tự tương đồng nào được tìm thấy, các trình tự cịn lại sẽ được so sánh với nhau và phân cụm như quy trình phân tích thơng thường.

Chi tiết các bước phân tích được trình bày ở Phụ lục 1.

Một phần của tài liệu Phát triển công cụ tin sinh học để phân tích tập hợp hệ gen của vi khuẩn (Trang 30 - 31)

Tải bản đầy đủ (PDF)

(60 trang)