sử dụng dữ liệu geneomic trong tìm kiếm các đích tácđộng của chất kháng nấmởvi nấm candida spp

38 0 0
Tài liệu đã được kiểm tra trùng lặp
sử dụng dữ liệu geneomic trong tìm kiếm các đích tácđộng của chất kháng nấmởvi nấm candida spp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Geneomic đã phát triển nhanh chóng trong hơn một thập kỷ gần đây nhờ việc ứng dụng công nghệ giải trình tự gene kết hợp với tin sinh học bioinformatics, tập trung nghiên cứu các đích tác

Trang 1

Khoa Dược Bộ môn Vi sinh - Ký sinh

CHUYÊN ĐỀ HỌC PHẦN SINH H C PHÂN T Ọ Ử

Trang 2

2.1 Phương pháp thu nhận dữ liệu geneomic 5

2.2 Nguyên tắc hoạt động của các phần mềm được sử dụng để phân tích dữ liệu và dự đoán kết quả 9

2.2.1 BLAST (Basic Local Alignment Search Tool) 9

2.2.2 BioEdit 17

2.3 Các nghiên cứu liên quan về ứng dụng dữ liệu geneomic trong tìm kiếm đích tác động ch t kháng n m ở Candida spp ấ ấ 182.3.1 So sánh geneomic cho phép xác định các đích tác động của thuốc kháng nấm (Comparative geneomics allowed the identification of drug targets against human fungal pathogenes) [15] 18

2.3.2 Ứng dụng thư viện gene đột biến để nghiên c u chứ ức năng bộ gene Candida albicans (Application of the Mutant Libraries for Candida albicans Functional Geneomics) [10] 23

2.3.3 Tính thiết yếu của vi c sệ ử dụng “machine learning” trong dự đoán và sàng lọ- c tương tác có hệ thống các thư viện hóa học để xác định các m c tiêu kháng nụ ấm (Leveraging machine learning essentiality predictions and chemogeneomic interactions to identify antifungal targets) 26

KẾT LUẬN 34

TÀI LI U THAM KHẢO 35

Trang 3

DANH M C CH Ữ VIẾT T T

BLAST Basic Local Alignment Search Tool CPR Conditional Promoter Replacement

GRACE Genee Replacement And Conditional Expression PCR Polymerase Chain Reaction

PDB Protein Database Bank

C.albicans Candida albicans

Trang 4

DANH M C HÌNH ẢNH

Hình 2.1 Phương pháp so sánh geneomic 5 Hình 2.2 Hai bướ ủa phương pháp GRACE nghiên cức c u trên C.albicans 7

Hình 2.3 Giao di n truy c p BLAST (NCBI) 13ệ ậ

Hình 2.4 Nhập chuỗi truy c p ho c t i lên t p có ch a chu i [10] 14 ậ ặ ả ệ ứ ỗ

Hình 2.5 Chọn cơ sỡ ữ liệu để d tìm ki m [10] 14 ế

Hình 2.6 Chọn thu t toán và các tham s c a thuậ ố ủ ật toán để tìm ki m [10] 15 ế

Hình 2.7 Chạy chương trình BLAST [10] 15

Hình 2.8 Phương pháp thiế ật l p danh sách t truy v n k-ừ ấ chữ cái [13] 16

Hình 2.9 Phân tích phát sinh gen gi a các lo i n m gây b nh ữ ạ ấ ệ ở người được th c hi n b ng ự ệ ằphân tích Bayesian [15] 19

Hình 2.10 C u trúc ba chi u d ấ ề ự đoán của protein TRR1 và KRE2 thu được b ng mô hình ằtương đồng [15] 21

Hình 2.11 Xây dựng mô hình machine learning để ự đoán tính cầ d n thi t và th nghi m trên ế ử ệbộ sưu tập GRACE ban đầu [25] 22

Hình 2.12 Kiểm tra độ chính xác c a mô hình dủ ự đoán bộ ữ liệ d u GRACE v2 [25] 22

Hình 2.13 NP-BTA nh m vào glutaminyl-tRNA synthetase c a C Albicans [25] 25 ắ ủ

DANH M C BẢNG

Bảng 2.1 Các gen m c tiêu tiụ ềm năng được chọn để phát tri n thu c kháng n m m i 10 ể ố ấ ớ

Trang 5

TÓM T T

So sánh trình t nh m tìm ki m, phân lo i trình t chu i, gen v n là m t bài toán l n cự ằ ế ạ ự ỗ ẫ ộ ớ ủa sinh tin h c Ph bi n hiọ ổ ế ện nay là so sánh đa trình tự, nhiều phương pháp được s d ng và ử ụnhiều phần mềm đã được đưa ra nhằm giải quy t bài toán khi tế ập dữ liệu đầu vào lớn Kiến thức v gen và chề ức năng gen cho phép nghiên cứu các bi n pháp phòng b nh hi u qu , thay ệ ệ ệ ảđổi chiến lược nghiên cứu thu c và quy trình khám phá thu c m i Dựa trên các phương pháp ố ố ớtìm ki m, t ng h p và hế ổ ợ ệ thống các tài li u khoa h c, các k t qu nghiên c u liên quan gệ ọ ế ả ứ ần đây, chuyên đề đã làm rõ ba mục tiêu chính của đề tài “Sử dụng dữ liệu geneomic trong tìm

kiếm các đích tác động của chất kháng nấm ở vi nấm Candida spp ’’ Phương pháp so sánh geneomics (Comparative geneomics), phương pháp tiếp c n thay th gen và bi u hiậ ế ể ện có điều kiện (Genee Replacement And Conditional Expression - GRACE) là hai phương pháp thu nhận dữ liệu geneomics được các nhà khoa h c sọ ử dụng trong nhiều năm trở ại đây Cùng với lđó, các phần mềm hỗ trợ phân tích dữ liệu gene và dự đoán kết quả cũng được nâng cấp thường xuyên như Basic Local Alignment Search Tool (BLAST) và BioEdit Tính thiết yếu của việc sử dụng “machine learning” trong dự đoán và sàng lọc tương tác có hệ ống các thư - thviện hóa học để xác định các mục tiêu kháng nấm, ứng dụng thư viện gen đột biến để nghiên cứu chức năng bộ gen Candida albicans và so sánh geneomic cho phép xác định các đích tác động c a thu c kháng nủ ố ấm … là một số nghiên c u n i b t v lĩnh vực trên ch ng minh t m ứ ổ ậ ề ứ ầquan tr ng cọ ủa geneomics trong nghiên c u phát tri n thu c m i ứ ể ố ớ

1 GIỚI THI U

Candida albicans ( và non-albicans) là nguyên nhân phổ bi n gây nhi m n m xâm l n ế ễ ấ ấ

bệnh viện Các loài nấm Candida là một phần của hệ sinh vật đường tiêu hóa bình thường ở người Tuy nhiên; vi c dùng li u pháp kháng sinh ph r ng, ph u thuệ ệ ổ ộ ẫ ật đường tiêu hóa hay giảm bạch cầu trung tính là những yếu tố nguy cơ gây nhiễm nấm nghiêm trọng Có hơn 200 loài Candida trong tự nhiên nhưng có khoảng trên 30 loài trong s chúng th c s gây nhiố ự ự ễm ởngười, ph bi n nh t là ổ ế ấ C albicans C glabrata, C krusei C parapsilosis, , và C tropicalis

Các loài Candida khác nhau v tính nh y c m v i các ch t kháng n m khác nhau [1] ề ạ ả ớ ấ ấNhiễm nấm xâm lấn thường gặp trên các bệnh nhân nặng, tỷ lệ tử vong cao, đặc biệt ở những bệnh nhân suy giảm miễn d ch và các b nh nhân khoa hị ệ ở ồi sức tích cực Tần suất

Trang 6

nhiễm nấm xâm lấn đang tăng lên nhanh chóng trong vòng hơn 30 năm qua (1976 – 1996) do tình tr ng s d ng kháng sinh ph r ng kéo dài, li u pháp c chạ ử ụ ổ ộ ệ ứ ế miễn d ch ho c suy giị ặ ảm miễn dịch m c phắ ải, ung thư, sử dụng các thiết bị xâm l n, dinh dưỡng qua đường tĩnh ấmạch… [2, 3] Một trong những vấn đề cấp bách hiện nay là một số loài Candida ngày càng đề kháng với các thu c kháng n m hiố ấ ện có Điều đó đặt ra thách thức tìm kiếm các đích tác động mới t đó khám phá và tổng hợp ra các thu c kháng n m mới với hi u qu ừ ố ấ ệ ả điều trị cao và h n ch t i thi u các tác d ng không mong mu n ạ ế ố ể ụ ố

Ngày nay, khoa h c k thu t hiọ ỹ ậ ện đại ngày càng phát tri n và có nhể ững bước tiến vượt bậc, đặc biệt trong lĩnh vực y dược học với việc giải mã trình tự ADN hay toàn bộ gene các vi sinh v t hoậ ặc con người Sự ra đờ ủi c a khái ni m h gene h c (geneomic) là khoa h c nghiên ệ ệ ọ ọcứu toàn bộ các gene của geneome trong cơ thể Geneomic đã phát triển nhanh chóng trong hơn một thập kỷ gần đây nhờ việc ứng dụng công nghệ giải trình tự gene kết hợp với tin sinh học (bioinformatics), tập trung nghiên cứu các đích tác động và trị liệu m i, góp phớ ần làm sáng t các nhóm gene quyỏ ết định đến hi u quệ ả, độc tính hoặc đề kháng thuốc.

Trên cơ sở đó, nhóm thực hiện chuyên đề “Sử d ng dữ liệu geneomic trong tìm kiếm

các đích tác động của chất kháng nấm ở vi nấm Candida spp’’ v i ba m c tiêu sau: ớ ụMục tiêu 1: Trình bày các phương pháp thu nhận dữ liệu geneomic

Mục tiêu 2: Trình bày nguyên t c hoắ ạt động c a các ph n mủ ầ ềm được s dử ụng để phân tích d ữ liệu và d ự đoán kết qu ả

Mục tiêu 3: Trình bày các nghiên c u liên quan vứ ề ứng d ng dụ ữ liệu geneomic trong tìm

kiếm đích tác động chất kháng nấm ở vi nấm Candida spp

2 NỘI DUNG

2.1 Phương pháp thu nhận dữ liệu geneomic

2.1.1 Phương pháp so sánh geneomics (Comparative geneomics) 2.1.1.1 Định nghĩa

So sánh geneomics là một lĩnh vực nghiên c u sinh hứ ọc, trong đó các nhà nghiên cứu s ửdụng nhiều công cụ khác nhau để so sánh trình tự bộ gen hoàn chỉnh của các loài khác

Trang 7

nhau B ng cách so sánh c n thằ ẩ ận các đặc điểm xác định các sinh v t khác nhau, các nhà ậnghiên c u có th ứ ể xác định chính xác các vùng tương đồng và khác bi t [4] ệ

Phương pháp bao gồm so sánh số lượng gen, hàm lượng và vị trí gen, độ dài và số lượng vùng mã hóa (được gọi là exon) trong gen, lượng DNA không mã hóa trong mỗi bộ gen và các vùng được bảo tồn được duy trì ở cả nhóm sinh vật nhân sơ và sinh vật nhân thực

Hình 2.1 Phương pháp so sánh geneomic [5]

2.1.1.2 L i ích

Việc xác định các trình tự DNA đã bảo tồn ở nhiều sinh vật khác nhau qua hàng triệu năm - là một bước quan trọng để hiểu chính bộ gen Nó xác định chính xác các gen cần thiết cho s s ng và làm n i b t các tín hi u gene ự ố ổ ậ ệ kiểm soát chức năng gen nhi u loài Giúp ở ềchúng ta hi u thêm v nh ng gen ể ề ữ liên quan đến các hệ thống sinh h c khác nhau, tọ ừ đó có thểchuyển thành các phương pháp sáng tạo để điều trị bệnh và cải thiện sức khỏe con người So sánh geneomics cũng cung cấp m t công c m nh mộ ụ ạ ẽ để nghiên c u sứ ự tiến hóa B ng ằcách t n d ng và phân tích m i quan hậ ụ ố ệ tiến hóa gi a các loài và s khác biữ ự ệt tương ứng trong DNA c a chúng, các nhà khoa h c có th hiủ ọ ể ểu rõ hơn về cách th c hình dáng, hành vi và sinh ứhọc của các sinh vật sống đã thay đổi theo th i gian ờ

Trang 8

Khi công ngh gi i trình t DNA tr nên m nh mệ ả ự ở ạ ẽ hơn và ít tốn kém chi phí hơn, so sánh geneomics mang lại ứng d ng rụ ộng rãi hơn trong nông nghiệp, công ngh sinh h c và ệ ọđộng v t h c ậ ọ

2.1.1.3 Ứng dụng

So sánh geneomics có ng d ng rứ ụ ộng rãi trong lĩnh vực y h c phân t và ti n hóa phân ọ ử ếtử ng d ng quan tr ng nh t c a b gen so sánh trong y h c phân tỨ ụ ọ ấ ủ ộ ọ ử là xác định các mục tiêu thuốc của nhiều bệnh truyền nhiễm

Chi nấm Candida là m t lo i nộ ạ ấm lưỡng b i, có b gen ộ ộ được gi i trình tả ự vào năm 2004 Bộ gen được cung cấp để sàng l c trên di n r ng các m c tiêu tiọ ệ ộ ụ ềm năng bao gồm t t c các ấ ảloại gen chức năng và được phân loại thành các nhóm khác nhau như enzym, chấ ật v n chuy n, ểth thụ ể ế ố, y u t phiên mã, v.v B gen là công c hộ ụ ữu ích để xác định các mục tiêu thu c mới ốtiềm năng, chẳng hạn như các gen thiết yếu và / hoặc những gen ảnh hưởng đến khả năng tồn tại c a tủ ế bào được b o t n trong các sinh v t gây b nh ả ồ ậ ệ Các phân tích so sánh v b gen cề ộ ủa nấm đã dẫn đến việc xác định nhiều mục tiêu giả định cho thuốc kháng nấm mới [6] Khám phá này có th hể ỗ trợ thi t k thu c d a trên mế ế ố ự ục tiêu để chữa b nh nệ ấm ở người Nghiên c u ứ“Comparative geneomics allowed the identification of drug targets against human fungal pathogenes” của Abadio và cộng sự (2011) đã xác định các mục tiêu thuốc tiềm năng được áp dụng cho bệnh nấm ở người sử dụng phương pháp hệ gen so sánh

2.1.2 Phương pháp tiếp cận thay thế gene và biểu hiện có điều kiện (Genee Replacement And Conditional Expression - GRACE)

Phương pháp tiếp cận thay thế gene và biểu hiện có điều kiện được s dụng để đánh giá ửtính thi t y u cế ế ủa gen thông qua s k t h p gi a thay th gen và bi u hi n gen ự ế ợ ữ ế ể ệ có điều ki n ệ

Phương pháp GRACE bao gồm hai thao tác liên tiếp: (i) thay thế gen chính xác của một alen và (ii) bi u hi n có th kiể ệ ể ểm soát được c a alen còn l i b ng cách thay th gen khủ ạ ằ ế ởi đầu tự nhiên b ng gen khằ ởi động tetracycline (Tet) có th ể điều ch nh ch t ch ỉ ặ ẽ

Trong một ứng d ng cụ ủa phương pháp này, Terry Roemer và c ng s ộ ự (2003) đã đánh giá

1152 gene c a ủ C albicans ằng phương pháp GRACE, trong đó 567 b gene được ch ng minh ứ

bằng thực nghiệm là cần thiết cho sự tăng trưởng – gen thiết yếu của C albicans Việc xây

dựng bộ sưu tập chủng đột biến có điều kiện này tạo điều kiện cho việc kiểm tra quy mô lớn

Trang 9

các ki u hình cu i cùng c a các gen thi t y u Thông tin này cho phép các m c tiêu thuể ố ủ ế ế ụ ốc ưu

tiên được chọn từ gen thiết yếu của C albicans được thiết lập bởi thông tin kiểu hình có nguồn gốc từ cả in vitro, chẳng hạn như kiểu hình diệt khuẩn so v i kiớ ểu hình đầu cuối tĩnh, cũng nhưin vivo thông qua nghiên cứu độc lực b ng cách s d ng các chằ ử ụ ủng có điều kiện trong mô hình lây nhiễm ở động vật Ngoài ra, s k t h p gi a phân tích ki u hình và tin sinh h c giúp ự ế ợ ữ ể ọcải thiện hơn nữa việc lựa chọn mục tiêu thuốc từ bộ gen thiết yếu c a ủ C albicans và các chủng đột biến có điều kiện tương ứng của chúng có thể được sử dụng trực tiếp làm xét nghiệm toàn tế bào nhạy cảm để sàng lọc thuốc

Hình 2.2 Hai bước của phương pháp GRACE nghiên cứu trên C albicans [7] Chú thích

Bước 1: Các ch ng dủ ị hợp tử được t o ra b ng cách chuyạ ằ ển đổi chủng ban đầu của Candida albicans (ch ng thu n) - CaSS1 b ng cách s dủ ầ ằ ử ụng “PCR-geneerated disruption cassette” có chứa điểm đánh dấu chọn lọc HIS3 được gắn với trình tự tương đồng thích hợp đểthay th chính xác m t alen cế ộ ủa gene đích Hai mã vạch riêng bi t (BC1, "up tag" và BC2, "up ệdown") đã được đưa vào cassette gián đoạn trong quá trình khuếch đại PCR Hai cặp mồi kết hợp với các nhánh chung (tương ứng là màu vàng và đỏ) bên cạnh mỗi " up tag" và " up down", cho phép khuếch đại PCR đơn giảm c a mã v ch nh n d ng bi n dủ ạ ậ ạ ế ạng Do đó, tấ ảt c các ch ng d h p t ủ ị ợ ử đều được g n duy nh t v i mã v ch nh n d ng ch ng riêng bi t ắ ấ ớ ạ ậ ạ ủ ệ

Trang 10

Bước 2: Các ch ng d h p t có mã vủ ị ợ ử ạch được bi n n p b ng cách s d ng m t cassette ế ạ ằ ử ụ ộthay th promoter tetracycline do PCR t o ra có chế ạ ứa đánh dấu ch n lọ ọc ưu thế SAT-1 được thiết kế để biểu hiện trong C albicans Trình tự khung tương đồng được thêm vào trong quá trình khuếch đại PCR để thay th chính xác trình t khế ự ởi đầu n i sinh c a alen ch ng thu n ộ ủ ủ ầcòn l i b ng trình t thay th trình t promoter Tet sau khi bi n n p ạ ằ ự ế ự ế ạ

2.2 Nguyên tắc hoạt động c a các phần mềm đượ ử dc s ụng để phân tích dữ liệu và dự đoán kết quả

2.2.1 BLAST (Basic Local Alignment Search Tool)

BLAST (Basic Local Alignment Search Tool) là công cụ được s d ng rử ụ ộng rãi để tính toán sự tương đồng gi a trình t nucleotide ho c protein t các sinh v t Ph n m m hoữ ự ặ ừ ậ ầ ề ạt động dựa trên nguyên tắc so sánh AND v i các trình tớ ự cơ sở dữ liệu protein có sẵn và tính toán mức độ trùng khớp có ý nghĩa thống kê BLAST có thể được s dử ụng để xác định các gene mới trong b gene, tìm ki m chộ ế ức năng của các gene được gi i trình t , tả ự ừ đó dự đoán mối quan hệ chức năng và tiến hóa [8] Có nhi u bi n th khác nhau cề ế ể ủa BLAST để ử ụ s d ng cho việc so sánh các trình tự khác nhau [9,10]:

• MegaBLAST dùng để tìm kiếm nucleotide nucleotide, được tối ưu hóa cho các trình tự rất giống nhau (trong cùng một hoặc trong các loài có quan hệ họ hàng gần) Đầu tiên, phần mềm sẽ tìm kiếm sự trùng khớp chính xác của 28 cơ sở, sau đó cố gắng mở rộng cơ sở ban đầu đó khớp thành một căn chỉnh đầy đủ)

-• BLASTN dùng để tìm kiếm các trình tự nucleotide nucleotide xa hơn.

-• BLASTP thực hiện so sánh trình tự protein protein và thuật toán của nó là cơ sở của nhiều thuật toán khác các loại tìm kiếm BLAST như BLASTX và TBLASTN

-• BLASTX tìm kiếm truy vấn nucleotide dựa trên cơ sở dữ liệu protein, dịch truy vấn một cách nhanh chóng

• TBLASTN tìm kiếm một truy vấn protein dựa trên cơ sở dữ liệu nucleotide, dịch cơ sở dữ liệu một cách nhanh chóng

• PSI-BLAST trước tiên thực hiện tìm kiếm BLASTP để thu thập thông tin mà sau đó PSI-BLAST sử dụng để tạo ra Ma trận chấm điểm cụ thể theo vị trí (PSSM) PSSM cho truy

Trang 11

vấn có độ dài N là ma trận N x 20 Mỗi cột trong dãy N tương ứng với một chữ cái trong truy vấn và mỗi cột chứa 20 hàng Mỗi hàng tương ứng với một dư lượng cụ thể và mô tả xác suất của các chuỗi liên quan có dư lượng đó ở vị trí đó Tiếp theo, PSI BLAST có thể tìm kiếm cơ -sở dữ liệu về trình tự protein với PSSM này

• RPSBLAST (BLAST theo vị trí cụ thể đảo ngược) có thể tìm kiếm rất nhanh một truy vấn protein dựa trên cơ sở dữ liệu của PSSM thường được sản xuất bởi PSI-BLAST

• DELTA-BLAST tạo PSSM với tìm kiếm nhanh RPSBLAST của truy vấn, sau khi tìm kiếm PSSM này dựa trên cơ sở dữ liệu về trình tự protein

Phiên bản BLAST đầu tiên đã được NCBI s n xu t vào khoả ấ ảng năm 1990, với tính năngchỉ thực hi n các b t c p không có kho ng ệ ắ ặ ả trống nhưng cung cấp giá trị p cho phép người dùng đánh kết quả có ý nghĩa thống kê hay không Sau đó, PSI-BLAST ra đời dựa trên sự sửa đổ ủi c a BLAST vào năm 1997, có thể ạ t o ra m t PSSM và tìm kiộ ếm cơ sở dữ ệ li u với nó C ảhai phiên bản BLAST này đều s d ng b ngôn ng l p trình C c a NCBI Vào cuử ụ ộ ữ ậ ủ ối năm 2009, NCBI bắt đầu hỗ trợ phiên b n BLAST mả ới hơn (được g i là BLAST ọ +) ự d a trên b ộcông c C++ làm n n t ng phát triụ ề ả ển Trang web NCBI BLAST được xây d ng b ng b ngôn ự ằ ộngữ C++ và BLAST+ [8, 10] Để ải thi c ện hơn nữa hiệu suất của PSI-BLAST đối v i viớ ệc phát hiện tương đồng protein t xa, m t nghiên cừ ộ ứu được giám sát khung tìm ki m hai l p dế ớ ựa trên PSI-BLAST (S2L-PSIBLAST) được đề xu t S2L-PSIBLAST bao g m tìm ki m hai c p: ấ ồ ế ấtìm ki m c p m t cung c p k t qu tìm ki m chế ấ ộ ấ ế ả ế ất lượng cao b ng cách s d ng khung SMI-ằ ử ụBLAST và chiến lược liên kết kép để ọ l c các chuỗi protein không tương đồng, tìm ki m cế ấp hai phát hi n nhiệ ều protein tương đồng hơn bở ự tương đồi s ng c a liên k t hủ ế ồ sơ và danh sách xếp hạng chính xác hơn cho các chuỗi protein được phát hiện đó có được bằng việc học cách xếp hạng chiến lược Kết quả thử nghiệm trên phiên bản cập nhật phân loại cấu trúc của protein-bộ dữ liệu điểm chuẩn mở rộng cho thấy rằng S2L-PSIBLAST không chỉ cải thiện rõ ràng hi u su t c a PSI-ệ ấ ủ BLAST mà còn đạt được hi u su t tệ ấ ốt hơn trên hai phiên bản c i ti n ả ếcủa PSI-BLAST là DELTA-BLAST và PSI-BLASTexB [9].

2.2.1.1 Cách s d ng BLASTử ụ

Truy cập đường link https://blast.ncbi.nlm.nih.gov v i giao di n sau: ớ ệ

Trang 12

Hình 1.3 Giao di n truy c p BLAST (NCBI)ệ ậ

Các bước thực hiện

• Bước 1: Lựa chọn chương trình

Người dùng lựa chọn một trong những chương trình từ database: BLASTp, BLASTn, BLASTx, tBLASTn, tBLASTx

• Bước 2: Nhập chuỗi truy vấn hoặc tải lên tệp có chứa chuỗi

Nhập chuỗi truy vấn bằng cách dán chuỗi vào hoặc tải lên tệp FASTA có chuỗi để tìm ô kiếm Bước này tương tự đối với tất cả các chương trình BLAST Người dùng có thể dùng mã truy cập accession number hoặc GI hoặc truy cập vào FASTA để lấy trình tự.

Hình 2.4 Nhập chu i truy v n ho c t i lên t p có ch a chu [11] ỗ ấ ặ ả ệ ứ ỗi

Trang 13

• Bước 3: Chọn cơ sở dữ liệu để tìm kiếm

Người dùng trước tiên phải biết tất cả các cơ sở dữ liệu có sẵn là gì và loại trình tự nào hiện diện trong các cơ sở dữ liệu đó Ở bước này, tìm kiếm sự giống nhau về trình tự liên quan đến việc tìm kiếm các trình tự tương tự của trình tự truy vấn từ các cơ sở dữ liệu đã chọn

Chọn một trong các cơ sở dữ liệu sau:

- Standard databases: dữ liệu chuẩn, ví dụ: dữ liệu nucleotid (The nucleotide collection …)

- rRNA/ITS databases: dự liệu ARN ribosome

- Geneomic + transcript databases (Human geneomic plus transcript, Mouse geneomic plus transcript): dữ liệu trình tự bộ gene người + trình tự gene người được phiên mã và dữ liệu trình tự bộ gene chuột + trình tự gene chuột được phiên mã.

- Betacoronavirus: dữ liệu về vi rút corona

Hình 2.5 Chọn cơ sở dữ liệu để tìm kiếm [11]

• Bước 4: Chọn thuật toán và các tham số của thuật toán để tìm kiếm

Có các thuật toán khác nhau cho một số chương trình BLAST Người dùng phải chỉ định thuật toán cho chương trình BLAST Nucleotide BLAST sử dụng các thuật toán như MegaBLAST tìm kiếm các trình tự tương tự cao, MegaBLAST không liên tục tìm kiếm các trình tự khác nhau nhiều hơn và BLASTn tìm kiếm các trình tự tương tự Trong khi đó, đối với các thuật toán BLAST protein như BLASTp, tìm kiếm sự tương đồng giữa protein truy Pvấn và cơ sở dữ liệu protein, PSI BLAST thực hiện lặp đi lặp lại tìm kiếm vị trí cụ thể, PHI- -BLAST tìm kiếm một mẫu cụ thể (người dùng phải nhập mẫu để tìm kiếm trong hộp mẫu HI được cung cấp) có trong trình tự so với các trình tự trong cơ sở dữ liệu, DELTA-BLAST là giúp tăng thời gian truy vấn BLAST

Trang 14

Hình 2.6 Chọn thu t toán và các tham s c a thuậ ố ủ ật toán để tìm kiếm [11]

Các tham s trong thuố ật toán xác định độ nh y tìm kiạ ếm.

Max target sequences” (các trình tự m c tiêu tụ ối đa): đặt các trình tựcơ sở dữ ệ li u ban đầu tối đa phù hợp với BLAST ti t ki m cho m t truy v n nhế ệ ộ ấ ất định

“Short queries” (các truy v n ngấ ắn): đã được ki m tra cho phép BLAST t ể ự động tối ưu hóa cài đặt cho các truy vấn 30 cơ sở/dư lượng hoặc ngắn hơn

“Expect threshold” (ngưỡng k v ng): l c ra các k t qu phù h p ít quan trỳ ọ ọ ế ả ợ ọng hơn, với giá tr kị ỳ vọng trên cài đặt.

“Word size” (kích thước từ): cho phép xác định độ dài của chuỗi (Mục 2.1.3) với độ dài càng nh ỏ thì càng tăng tính nhạy c m c a k t qu ả ủ ế ả

“Max matches in a query range” (kết qu kh p tả ớ ối đa trong một ph m vi truy v n): ạ ấgiới hạn các kết quả khớp được lưu vào một vùng nhất định của truy vấn (ch ng h n nhẳ ạ ư từlặp lại) để có th báo cáo k t qu kh p v i vùng khác c a truy vể ế ả ớ ớ ủ ấn Cài đặt mặc định là “0” có nghĩa là không có giới hạn

Trang 15

• Bước 5: Chạy chương trình BLAST

Nhấn vào nút Blast ở cuối trang để chạy chương trình [11]

Hình 2.7 Chạy chương trình BLAST [11] 2.2.1.2 Nguyên t c ắ hoạt động c a BLAST

BLAST thường có các Cặp phân đoạn điểm cao (High-scoring Segment Pairs – HSP) nằm trong một liên kết có ý nghĩa thống kê (Mục 2.2.1.3 và 2.2.1.4) Nguyên tắc hoạt động chính của phần m m là tìm ki m các HSP gi a chu i truy v n và các chu i hiề ế ữ ỗ ấ ỗ ện có trong cơ sở

dữ liệu, sử dụng phương pháp heuristic gần đúng với thuật toán Smith-Waterman Tuy nhiên, cách ti p c n toàn di n c a Smith-Waterman quá chế ậ ệ ủ ậm để tìm kiếm cơ sở ữ liệ d u b gene l n ộ ớnhư GeneBank Do đó, thuật toán BLAST sử dụng phương pháp heuristic kém chính xác hơn thuật toán Smith-Waterman nhưng nhanh hơn 50 lần [12] ốc độ và độ chính xác tương đốT i tốt c a BLAST là m t trong nh ng c i ti n k thu t quan tr ng củ ộ ữ ả ế ỹ ậ ọ ủa các chương trình BLAST.

Để ch y ph n m m, BLAST yêu c u m t chu i truy v n (chu i mạ ầ ề ầ ộ ỗ ấ ỗ ẫu) để tìm kiếm và một chuỗi để tìm ki m (còn g i là chuế ọ ỗi đích) hoặc một cơ sở ữ liệu trình tự chứa nhiều dchuỗi1

Trình tự “truy vấn” BLAST được cung cấp dưới dạng các chuỗi ký tự của mã nucleotide hoặc axit amin đơn dòng bắt đầu b ng ký hiằ ệu “>” và chứa các s nh n d ng và ố ậ ạthông tin mô tả Định dạng này được gọi là FASTA Cơ sở ữ liệu BLAST đượ d c xây d ng t ự ừcác trình tự được định dạng FASTA được n i v i nhau b ng cách s d ng mố ớ ằ ử ụ ột chương trình có tên “formatdb” tạo ra hỗn hợp các tệp được mã hóa nhị phân và ASCII (American Standard Code for Information Interchange - Chuẩn mã trao đổi thông tin Hoa Kỳ) chứa các trình t và ựthông tin ch mỉ ục đượ ử ục s d ng trong quá trình tìm ki m BLAST [11, 13] ế

BLAST tìm ki m bế ằng cách đánh dấ ấ ảu t t c các ký tự có độ dài nhất định trong theo v ịtrí bắt đầu c a chúng trong trình t truy vủ ự ấn Người dùng có thể xác định độ dài c a chu i, ủ ỗ

1Thông thường, chu i truy v n nh ỗ ấ ỏ hơn nhiều so với cơ sở dữ liệu, ví d : truy v n có th là m t nghìn ụ ấ ể ộnucleotide trong khi cơ sở dữ liệu là vài t nucleotideỷ

Trang 16

được gọi là “word size” Phạm vi cho phép đố ới "word size" thay đổi tùy theo chương trình i vBLAST được sử dụng; các giá trị điển hình là 3 cho các tìm kiếm trình tự protein-protein và 11 cho các tìm kiếm nucleotide thành nucleotide Sau đó, BLAST sẽ quét cơ sở ữ liệu để d tìm kiếm các kết qu phù h p giả ợ ữa các “từ” trong trình tự truy vấn và các chuỗi được tìm thấy trong chuỗi cơ sở ữ liệu Đố d i v i tìm kiớ ếm protein, điểm được xác định b ng cách s d ng ằ ử ụma tr n thay thậ ế, điểm này phải vượt quá một ngưỡng quy định Khi tìm th y m t t phù h p, ấ ộ ừ ợBLAST s m r ng c vẽ ở ộ ả ề phía trước và phía sau từ đối chiếu để ạ t o ra m t s liên k t trong ộ ự ếđối chi u protein BLAST s ti p t c ph n mở r ng này miế ẽ ế ụ ầ ộ ễn là điểm bắ ặt c p ti p tục tăng ếhoặc cho đến khi nó giảm xuống điểm số âm gây ra do điểm không khớp [11]

Tổng quan v thu t toán BLAST ề ậ như sau [14]:

• Loại b ỏvùng có độ phứ ạc t p th p ho c các vùng l p l i trình t trong chuỗi truy v n ấ ặ ặ ạ ự ấ"Vùng có độ phức tạp thấp" có nghĩa là vùng của một chuỗi được cấu thành từ số lượng phần tử kém đa dạng Những vùng này có thể (được) cho điểm cao khiến chương trình nhầm lẫn trong vi c tìm các chu i th t s quan trệ ỗ ậ ự ọng trong cơ sở ữ liệu, vì v d ậy chúng nên đượ ọc c lbỏ ra Các vùng sẽ được đánh dấu bằng X (trình tự protein) hoặc N (trình tự axit nucleic) và sau đó bị chương trình BLAST bỏ qua Để ọc ra các vùng có độ l phức tạp thấp, chương trình SEG được sử dụng cho trình tự protein và chương trình DUST được sử dụng cho trình tự ADN Mặt khác, chương trình XNU đượ ử ụng đểc s d che gi u s l p l i song song trong chuấ ự ặ ạ ỗi protein [7]

• Lập danh sách từ gồm k chữ cái của chuỗi truy v n ấ

Lấy k = 3 làm ví dụ, nghiên cứu liệt kê các từ có độ dài 3 trong chuỗi protein truy vấn (k thường là 11 cho m t chu i ADN) "tu n tộ ỗ ầ ự" cho đến khi chữ cái cu i cùng c a chu i truy v n ố ủ ỗ ấPhương pháp được minh họa trong hình 2.8

Hình 2.8 Phương pháp thiết lập danh sách từ truy vấn k-chữ cái [14]

Trang 17

• Liệt kê các c p chuặ ỗi con tương đồng

Bước này là m t trong nhộ ững điểm khác bi t chính gi a BLAST và FASTA FASTA ệ ữquan tâm đến tất cả các chuỗi con thông thường trong cơ sở dữ liệu và chuỗi truy vấn được liệt kê trong bước 2.1.1.1; tuy nhiên, BLAST chỉ quan tâm đến những chuỗi con “đạt điểm cao” Điểm s ố đượ ạc t o ra b ng cách so sánh chu i con trong danh sách ở ằ ỗ bước 2.1.1.1 với t t cả các ấchuỗi con có 3 ch cái Bữ ằng cách sử dụng ma trận cho điểm (ma trận thay thế - substitution matrix) để cho điểm so sánh của từng cặp, có thể có 203 điểm phù hợp cho một chuỗi con có 3 chữ cái Ví dụ, điểm sốthu được khi so sánh PQG với PEG và PQA lần lượt là 15 và 12 với sơ đồ ọ tr ng s BLOSUM62ố Đối với các chuỗi ADN, một điểm trùng khớp được tính là +5 và điểm không khớp là -4 ho c là +2 và -ặ 3 Sau đó, ngưỡng điểm (threshold) T được sử dụng đểgiảm số lượng các cặp phù h p có th có Các cợ ể ặp có điểm lớn hơn ngưỡng T sẽ vẫn nằm trong danh sách, trong khi nh ng cữ ặp có điểm thấp hơn T sẽ ị loạ ỏ b i b Ví dụ, PEG được gi ữlại, nhưng PQA bị loại b khi T = 13 [14] ỏ

• Sắp x p các t ế ừ đạt điểm cao còn l i thành m t cây tìm ki m hi u qu ạ ộ ế ệ ả

Điều này cho phép chương trình nhanh chóng so sánh các chuỗi con đạt điểm cao với các chuỗi con trong cơ sở ữ liệ d u

• Lặp lại bước 3 đến bước 4 cho chuỗi con k-chữ cái trong chuỗi truy vấn

• Quét các chuỗi cơ sở ữ liệu để d tìm các k t quế ả khớp chính xác v i các tớ ừ có điểm cao còn l i ạ

Chương trình BLAST quét các chuỗi trong cơ sở dữ liệu để tìm các chuỗi con có điểm cao còn sót l i, ch ng hạ ẳ ạn như PEG, ở m i v trí N u tìm th y m t c p chính xác, c p này ỗ ị ế ấ ộ ặ ặđượ ửc s dụng để làm cơ sở cho một liên k t khác gi a các chu i truy v n và chuế ữ ỗ ấ ỗi trong cơ sởdữ liệu

Mở r ng các cộ ặp tương đồng thành cặp phân đoạn có điểm s cao (High-scoring ốSegment Pairs - HSP)

• Liệt kê t t c các HSP trong cơ sởấ ả dữ liệu có điểm đủ cao để được xem xét • Đánh giá ý nghĩa của điểm HSP

• Ghép hai ho c nhi u vùng HSP thành m t liên kặ ề ộ ết dài hơn

Trang 18

• Hiển thị các s p x p Smith-Waterman c c b của chu i truy v n và các chuỗi tương ắ ế ụ ộ ỗ ấđồng trong cơ sở dữ liệu

• Báo cáo v các ghép cề ặp có điểm nh ỏ hơn một tham s ố ngưỡng

2.2.1.3 Tính điểm c a các b t c p trình t và các matrix thay th ủ ắ ặ ự ế

Bắt c p trình t BLAST bao g m m t c p trình tặ ự ồ ộ ặ ự, trong đó mỗi ch cái trong m t trình ữ ộtự được ghép n i v i chính xác m t ch cái ho c m t kho ng tr ng trong chố ớ ộ ữ ặ ộ ả ố ữ cái kia Điểm bắt cặp được tính bằng cách gán một giá tr cho tị ừng cặp chữ cái được b t cắ ặp và sau đó tổng các giá tr này theo chi u dài c a b t cị ề ủ ắ ặp Đối v i s s p x p trình tớ ự ắ ế ự protein, điểm cho mọi cặp chữ cái axit amin có thể được tính ra trong “ma trận thay thế” trong đó các thay thế có khả năng có giá trị dương và các thay thế không chắc có giá trị âm Theo mặc định, BLAST sử dụng ma trận “blosum62”, một thành viên c a chuủ ỗi ma trận thay thế được sử dụng ph biổ ến nhất, tuy nhiên, một số thành viên của chuỗi PAM cũng có sẵn Đố ới sự liên kết nucleotide, i vBLAST tính điểm với +2 cho các cặp chữ cái giống nhau được bắt cặp và −3 cho mỗi cặp chữ cái được bắt cặp không khác nhau Việc tạo ra một khoảng trống trong sự liên kết dẫn đến một điểm tr "t o ra kho ng cách", với m i ph n mở r ng c a m t khoừ ạ ả ỗ ầ ộ ủ ộ ảng cách đã tồ ại trước đó n tsẽ ph i b ả ị trừ ít hơn [13]

2.2.1.4 Ý nghĩa thống kê

Các b t cắ ặp được BLAST tìm thấy được tính điểm, được gán m t giá trộ ị thống kê, được gọi là “Giá trị kỳ vọng” “Giá trị kỳ vọng” là số lần liên kết tốt hoặc tốt hơn so với giá trị mà BLAST tìm th y ng u nhiên, dấ ẫ ựa trên kích thước của cơ sở ữ liệu đượ d c tìm kiếm Ngưỡng "Giá tr k vị ỳ ọng" do người dùng đặt, xác định nh ng b t c p nào sữ ắ ặ ẽ được báo cáo Ngưỡng “Giá trị kỳ vọng” càng lớn thì ít nghiêm ngặt hơn và mặc định BLAST là “10” được thiết kế để đảm b o r ng không có liên k t quan tr ng về m t sinh học nào bị bỏ lỡ Tuy nhiên, “Giá ả ằ ế ọ ặtrị k vỳ ọng” trong phạm vi từ 0,001 đến 0,0000001 thường được s dử ụng để cho giá tr tị ốt nhất” [11, 13]

2.2.2 BioEdit

BioEdit- một chương trình phân tích trình tự sinh h c thân thi n vọ ệ ới người dùng được cung c p mi n phí cho hấ ễ ệ điều hành Windows, cho phép phân tích và ch nh s a trình tỉ ử ự

Trang 19

BioEdit ch nh s a trình t acid nucleotic/protein vỉ ử ự ới đầy đủ các tính năng BioEdit hỗ trợ đọc và x lý nhiử ều định d ng m r ng s d ng trong các ng d ng tin sinh hạ ở ộ ử ụ ứ ụ ọc khác Điều này cho phép hoán đổi các tệp dữ liệu giữa BioEdit và các chương trình khác Những định dạng đó bao gồm (định dạng văn bản đa dạng thức * rtf, fastafiles * fas * fasta * fst * fsa, tệp ngân hàng gene * gbk * gene * gb* gnk, * csv, phân cách bằng tab, * txt, excel, abi định d ng t p sạ ệ ắc ký đồ, * ab1 * abi, tệp trình tự, * seq, plasmidfiles * pmd, tệp dự án bioedit * bio, tệp clustal * aln, gcgfiles * gcg, t p XML * xml, t p acqus, phylib t p * phy, t p NBRF / PIR * ệ ệ ệ ệ.pir, * nbf Có th d dàng bể ễ ắt đầu m t tài li u m i và sao chép (Ctrl + C) dán (Ctrl + V) d ộ ệ ớ ữliệu [15]

Phần mềm BioEdit được công bố lần đầu tiên vào năm 1999 bởi Tom Hall (Hall, 1999) Chương trình đã được sử dụng rộng rãi và được trích dẫn trong nhiều bài báo trong tạp chí xếp hạng Nhiều nhà khoa học về sinh h c phân tọ ử đã sử dụng BioEdit trong các nghiên cứu ban đầu c a h Với nhi u trích d n trong các tủ ọ ề ẫ ạp chí, BioEdit đã trở thành công cụ tin sinh h c ọquan tr ng c a các nhà sinh h c phân t ọ ủ ọ ử

Ưu điểm:

- Giao di n thân thi n vệ ệ ới người dùng và có th t i xu ng tr c tuy n mi n phí ể ả ố ự ế ễ- BioEdit là một chương trình độ ậc l p và có th áp d ng v i nhi u chể ụ ớ ề ức năng khác nhau.- Sử dụng được trên h u h t các phiên b n Windows ầ ế ả

Nhược điểm:

- BioEdit không còn được cập nhật và tài liệu đã lỗi thời

- Thời gian BioEdit cần để phân tích các trình t sự ẽ tăng lên rất nhiều theo độ dài của chúng

Một s ố chức năng cần kinh nghiệm xử lý và nhiều bước để thực hi n [15].ệ

2.3 Các nghiên cứu liên quan về ứng dụng dữ liệu geneomic trong tìm kiếm đích tác

động ch t kháng n m Candida spp.ấ ấ ở

2.3.1 So sánh geneomic cho phép xác định các đích tác động c a thu c kháng n m ủ ố ấ

(Comparative geneomics allowed the identification of drug targets against human fungal pathogenes) [16]

Ngày đăng: 23/05/2024, 14:21

Tài liệu cùng người dùng

Tài liệu liên quan