Trong nghiên cứu khoa học sự sống, việc tìm kiếm và so sánh trình tự gen hoặc protein giữa các sinh vật là vô cùng quan trọng, để tìm kiếm các gen protein tương tự như trình tự đã biết. Việc tìm kiếm này cho phép nhà khoa học suy đoán chức năng của gen mới, dự đoán các thành viên mới của một họ gen, tìm ra mối quan hệ tiến hóa, hay tìm ra sự phân bố và chức năng của các vùng phiên mã hoặc mã hóa cho protein trong hệ gen thông qua việc tìm kiếm sự tương đồng của các trình tự của các hệ gen đã được giải trình tự.BLAST (Basic Local Alignment Search Tool) là một công cụ tìm kiếm trình tự tương đồng phổ biến trong đó cung cấp các biến khác nhau cho các trình tự được đưa và đối với từng cơ sở dữ liệu khác nhau. Bài này sẽ tập trung vào tìm hiểu cách BLAST hoạt động và đưa ra kết quả.PCR là một trong những phát minh quan trọng nhất của thế kỉ 20. Phản ứng này nhằm sao chép tạo ra một lượng lớn phân tử ADN đích, giúp xác định, và phát hiện các mầm bệnh lây nhiễm như HIV, viêm gan hoặc phát hiện các thay đổi về mặt di truyền như đột biến. PCR được thực hiện thông qua 3 bước: biến tính (denaturing), gắn mồi (annealing), và kéo dài chuỗi (extending). ADN được sử dụng làm khuôn có cấu trúc xoắn kép, khi bị biến tính bởi nhiệt nó tách ra thành 2 mạch đơn, một mạch mang nghĩa (sense) và một mạch đối nghĩa (antisense). Khi nhiệt độ hạ xuống đến nhiệt độ gắn mồi, một mồi sẽ gắn đặc hiệu vào mạch mang nghĩa trong khi một mồi khác sẽ gắn vào mạch đối nghĩa. Trong đó, mồi là các trình tự oligonucleotide ngắn có thể bám đặc hiệu vào một vùng trình tự nhất định. Mồi sẽ là điểm khởi đầu để các polymerase có thể thực hiển tổng hợp mạch bổ sung mới cũng như xác định đoạn ADN được khuếch đại. Do đó, việc thiết kế mồi sẽ quyết định mức độ đặc hiệu và năng suất của phản ứng.
Trang 1TIN SINH HỌC Công cụ tìm kiếm các trình tự tương đồng (BLAST)
Trong nghiên cứu khoa học sự sống, việc tìm kiếm và so sánh trình tự gen hoặc protein giữa các sinh vật là vô cùng quan trọng, để tìm kiếm các gen/ protein tương tự như trình tự đã biết Việc tìm kiếm này cho phép nhà khoa học suy đoán chức năng của gen mới, dự đoán các thành viên mới của một họ gen, tìm ra mối quan hệ tiến hóa, hay tìm ra sự phân bố và chức năng của các vùng phiên mã hoặc mã hóa cho protein trong hệ gen thông qua việc tìm kiếm sự tương đồng của các trình tự của các hệ gen đã được giải trình tự.
BLAST (Basic Local Alignment Search Tool) là một công cụ tìm kiếm trình tự tương đồng phổ biến trong đó cung cấp các biến khác nhau cho các trình tự được đưa và đối với từng cơ sở dữ liệu khác nhau Bài này sẽ tập trung vào tìm hiểu cách BLAST hoạt động và đưa ra kết quả.
Phần lớn người dùng sẽ đưa vào BLAST một trình tự nucleotide hoặc protein thông qua textbox để phân tích dựa trên tất cả (hoặc một phần) của
các trình tự đã công bố Nếu người dùng sử dụng công cụ BLAST trên NCBI (National Center for Biotechnology Information), dữ liệu này được
chuyển đến xử lí tại máy chủ và cơ sở dữ liệu của NCBI sau đó thông tin sẽ được trả về trình duyệt của người sử dụng theo định dạng hiển thị đã lựa chọn Tuy nhiên, người dùng cũng có thể cài đặt một phiên bản BLAST độc lập riêng để phân tích cơ sở dữ liệu cục bộ hoặc tùy chỉnh BLAST
để phù hợp hơn với nhu cầu của họ BLAST có sẵn nhiều dạng khác nhau để so sánh các trình tự khác nhau ví dụ như phân tích DNA với cơ sở dữ liệu DNA, phân tích protein với cơ sở dữ liệu protein Kết quả đưa ra được mặc định hiển thị tại trang web BLAST hoặc các file kết quả dạng XML hoặc ASN được lựa chọn để tối ưu cho ứng dụng.
Trang 2Giao diện công cụ BLAST trên NCBI (http://www.ncbi.nlm.nih.gov/Blast.cgi)
Thuật toán BLAST là phương pháp kinh nghiệm, dựa trên một số lối tắt thông minh để thực hiện tìm kiếm nhanh hơn BLAST giúp sắp xếp cục bộ,
ví dụ như các protein thường có dạng module với các domain chức năng được lặp lại ở các protein tương tự cũng như khác nhau ở các loài khác nhau hoặc một mRNA có thể được so sánh trình tự với một phần của DNA hệ gene Do đó, BLAST cố gắng tìm kiếm các trình tự có sự tương đồng của các domain và motif Khi một trình tự truy vấn được đưa vào, BLAST sẽ tạo ra một bảng gồm các “từ” (trình tự ngắn) và “từ lân cận” (từ tương đồng với trình tự truy vấn) để tìm kiếm Khi quét được một kết quả tương tự, nó sẽ được sử dụng để bắt đầu tìm các phần mở rộng chứa gap hoặc
Trang 3không chứa gap của “từ” đó Các flatfile của cơ sở dữ liệu cũng được chia thành hai file trong đó một chứa thông tin tiêu đề và một chỉ chứa trình tự Khi chạy ở chế độ độc lập, dữ liệu có thể được gộp lại Khi thuật toán đã quét tất cả các “từ” và phần mở rộng tối đa, nó tập hợp tất cả các sắp xếp cặp tối ưu nhất vào cấu trúc dữ liệu SeqAlign chứa đường dẫn tới các trình tự trong cơ sở dữ liệu BLAST Các kết quả được hiển thị theo nhiều cách khác nhau.
Kết quả đưa ra sẽ được đưa ra dưới nhiều dạng cấu trúc tùy theo mục đích của người sử dụng trong đó phổ biến nhất là dạng truyền thống và dạng bảng kết quả Ngoài ra, dạng thứ 3 đưa ra các cấu trúc đầu ra như XML hay ASN.1 có tích hợp chức năng kiểm tra và hoàn thiện các sai sót cú pháp trong quá trình phân tích khi người dung thay đổi hoặc thêm các chức năng, và dạng cuối cùng là dạng mã BLAST được sử dụng cho các công cụ kiểm kê sẽ được sử dụng cho các mục đích đặc biệt của người sử dụng.
Dạng truyền thống: đưa ra một cách tổng quát các kết quả tìm kiếm
Trang 4Đồ thị tổng quát Đưa ra một cách khái quát mức độ bắt cặp tại từng vùng trong trình tự của bạn Màu đỏ, xanh lục, cam: vùng mức độ bắt cặp tốt; màu xám: vùng mức độ bắt cặp trung bình; màu xanh dương: vùng mức độ bắt cặp kém
Trang 5Các kết quả tìm kiếm Bao gồm thông tin rút gọn và các giá trị bắt cặp nằm trên cùng 1 dòng.
Bit score: là điểm bắt cặp sau khi đã được normalize để có thể so sánh kết quả giữa các lần phân tích và phép phân tích khác nhau, do điểm bắt cặp được chỉ định của các ma trận khác nhau là khác nhau.
E-value: giá trị mong đợi, E-value càng nhỏ kết quả càng có ý nghĩa thống kê
Trang 6Kết quả sắp xếp bắt cặp trình tự: kết quả chi tiết của từng trình tự tương đồng
Dạng bảng
Trang 7Đối với các nghiên cứu cần chạy BLAST cho mục đích đặc biệt và chỉ cần một tập hợp con các thông tin của báo cáo dạng truyền thống Các báo cáo định dạng bảng kết quả không chứa trình tự mà chỉ đưa ra các thông tin cần thiết theo một cấu trúc rõ ràng hơn như điểm bắt đầu, kết thúc, phần trăm xác định, bit score và E-value.
Thiết kế mồi cho phản ứng PCR (Phần 1)
PCR là một trong những phát minh quan trọng nhất của thế kỉ 20 Phản ứng này nhằm sao chép tạo ra một lượng lớn phân tử ADN đích, giúp xác định, và phát hiện các mầm bệnh lây nhiễm như HIV, viêm gan hoặc phát hiện các thay đổi về mặt di truyền như đột biến PCR
được thực hiện thông qua 3 bước: biến tính (denaturing), gắn mồi (annealing), và kéo dài chuỗi (extending) ADN được sử dụng
làm khuôn có cấu trúc xoắn kép, khi bị biến tính bởi nhiệt nó tách ra thành 2 mạch đơn, một mạch mang nghĩa (sense) và một mạch đối nghĩa (antisense) Khi nhiệt độ hạ xuống đến nhiệt độ gắn mồi, một mồi sẽ gắn đặc hiệu vào mạch mang nghĩa trong khi một mồi khác
Trang 8sẽ gắn vào mạch đối nghĩa Trong đó, mồi là các trình tự oligonucleotide ngắn có thể bám đặc hiệu vào một vùng trình tự nhất định Mồi
sẽ là điểm khởi đầu để các polymerase có thể thực hiển tổng hợp mạch bổ sung mới cũng như xác định đoạn ADN được khuếch đại
Do đó, việc thiết kế mồi sẽ quyết định mức độ đặc hiệu và năng suất của phản ứng
Nguyên tắc thiết kế mồi
1 Độ dài của mồi: Nên nằm trong khoảng từ 15-30 base, độ dài tối ưu là khoảng từ 18-22 base Điều này phụ thuộc vào việc mồi cần
đủ dài để gắn đặc hiệu và đủ ngắn để có thể gắn dễ dàng vào khuôn tại nhiệt độ gắn mồi
2 Đầu 3’ và 5’ của mồi: Cần thiết kế sao cho đầu 3’ của mồi xuôi sẽ mở rộng về phía mồi ngược và đầu 3’ của mồi ngược sẽ mở rộng
về phía mồi xuôi khi được gắn vào 2 mạch bổ sung Nếu ngược lại thì sản phẩm PCR sẽ không thể được tạo ra
Trang 9Nguồn Ảnh: Antisense Science
3 Nhiệt độ nóng chảy của mồi Tm: Điểm nhiệt độ này được định nghĩa là điểm nhiệt mà tại đó 50% sợi đôi ADN phân tách nhau và
không thể tạo ra được sản phẩm Công thức tính Tm như sau:
Trong đó: [Na+] là nồng độ phân tử muối, n là số base của mồi
4 Nhiệt độ gắn mồi (Ta): Được tính dựa vào nhiệt động nóng chảy của mồi Nhiệt độ gắn mồi thấp có thể dẫn đến lượng sản phẩm
PCR được tạo ra thấp, do không đủ số lượng phức hợp lai giữa mồi và khuôn Ngược lại, sản phẩm không đặc hiệu sẽ được tạo ra nhiều nếu nhiệt độ gắn mồi quá thấp Người ta thường tính nhiệt độ gắn mồi theo công thức sau:
Ta = 0.3 x Tm(Mồi) + 0.7 Tm (sản phẩm) – 14.9
5 Mật độ GC: Ảnh hưởng đến Tm, do đó mật độ GC nên nằm trong khoảng 50 – 60%
6 Kẹp GC: Nên có ít nhất một G hoặc C ở đầu 3’ của mồi để giúp cho đầu 3’ của mồi liên kết mạnh hơn Tuy nhiên nên tránh việc trong
5 base đầu 3’ có nhiều hơn 3 G hoặc C do có thể gây liên kết đầu 3’ quá mạnh khiến mồi bắt cặp không đặc hiệu
7 Lưu ý cấu trúc bậc 2 trong thiết kế mồi
Trang 10a) Hình thành hiện tượng kết cặp (dimer): Là hiên tương mồi thay vì gắn vào khuôn sẽ gắn vào mồi ngược với nó hoặc với chính nó,
tạo ra các sản phẩm PCR có kích thước nhỏ và làm giảm lượng mồi bắt cặp với khuôn Do đó cần tránh tạo ra hiện tượng kết cặp
Hình thành dimer giữa hai mồi
Nguồn ảnh: PREMIER Biosoft
b) Cấu trúc kẹp tóc: có thể được hình thành bởi sự tương tác bên trong chính đoạn mồi Cần tránh điều này vì làm giảm hiệu quả của
phản ứng PCR
8 Lặp: là hiện tượng lặp lại nhiều lần trong trình tự mồi của trình tự đôi (VD: ATATATATAT) hoặc đơn (VD: GGGGG) Điều này có thể
gây bắt cặp nhầm do đó số lần lặp tối đa của một mồi là 4 lần lặp cho cả hai trường hợp
9 Tương đồng chéo: Là hiện tượng mà cặp mồi sẽ khuếch đại một gene khác có trong hỗn hợp ban đầu Để tránh hiện tượng này,
mồi sau khi thiết kế cần được đưa lên BLAST để so sánh và kiểm tra độ đặc hiệu
Trang 11Thiết kế mồi cho phản ứng PCR (Phần 2)
1 Hướng dẫn sử dụng phần mềm thiết kế mồi Primer – Blast
BLAST là một công cụ được phát triển bởi NCBI giúp người dùng thiết kế mồi đặc hiệu cho một phản ứng PCR cụ thể Primer-BLAST sử dụng mã nguồn mở Primer3 để thiết kế mồi, sau đó dùng công cụ Primer-BLAST và thuật toán định tuyến tổng quát (global alignment)
để kiểm tra trong cơ sở dữ liệu của NCBI nhằm tránh các sai sót kết cặp, tương đồng chéo là nguyên nhân dẫn đến phản ứng PCR không hiệu quả
Quá trình thiết kế đoạn mồi sử dụng Primer-BLAST thường diễn ra theo 2 bước:
Một ưu điểm khá lớn khi sử dụng Primer-BLAST là người dùng có thể tận dụng tối đa nguồn cơ sở dữ liệu từ NCBI
Ví dụ sau đây chúng tôi sẽ hướng dẫn thiết kế mồi cho đoạn gen YP_009173871.1 quy định cấu trúc vỏ nhỏ protein của virus viêm gan siêu vi B
Bước 1: Truy cập cơ sở dữ liệu của NCBI (http://www.ncbi.nlm.nih.gov/) chọn “Nucleotide database” và tìm kiếm sử dụng từ khóa
“Hepatitis B virus genome”
Trang 12Bước 2: Kết quả trả về là hàng loạt các dữ liệu bộ gen khác nhau của virus viêm gan siêu vi B Chúng ta sẽ chọn kết quả đầu tiên Ở
phần kết quả số 1 này, sẽ có 3 định dạng là: GenBank, FASTA và Graphics Để thu chuỗi khuôn mẫu chúng ta có thể chọn FASTA hoặc Graphics nhưng chúng tôi có lời khuyên nên sử dụng Graphics của NCBI thì sẽ hiệu quả hơn rất nhiều Vì vậy ở mục này chúng ta sẽ chọn Graphics để đánh giá trực quan toàn bộ bộ gen của virus (xem hình 1)
Trang 13Bước 3: Bộ gen của virus được biểu diễn dưới dạng hình ảnh trực quan (Hình 2) Toàn bộ các gen đều được chú thích và khi click vào
từng gen sẽ hiện ra thông tin chi tiết về gen đó
Trong ví dụ này, chúng ta sẽ chọn gen YP_009173871.1 quy định cấu trúc vỏ nhỏ protein
Trang 14Bước 4: Bảng nhỏ hiện lên sau khi chúng ta chọn gen có chứa dòng “FASTA View” Click vào vào mục 1 bắt đầu bằng ký hiệu NC_ sẽ
hiện ra chuỗi của gene này dưới dạng file FASTA (hình) Vậy bước đầu thu thập khuôn mẫu đã hoàn thành trên cơ sở dữ liệu NCBI Lưu ý: Như ở phần Graphics trên còn cung cấp cho chúng ta những đoạn gen theo chiều ngược lại (Gen mang màu đen) Vì vậy trước khi thực hiện thiết kế mồi, chúng ta cần phải đảo ngược đoạn khuôn mẫu này lại cho đúng chiều 5’-3’
1.2 Thiết kế đoạn mồi
Bước 1: Truy cập trang chủ của phần mềm Primer-BLAST tại địa chỉ: http://www.ncbi.nlm.nih.gov/tools/primer-blast/ Giao diện
chính của Primer-BLAST như hình
(1) Khung nhập dữ liệu chuỗi khuôn mẫu: Nhập chuỗi dưới dạng file FASTA
viết về thiết kế mồi cho phản ứng PCR
Ngoài ra còn rất nhiều các thông số nâng cao khác nhưng ở bài này chúng ta sẽ chỉ đi về mặt cơ bản Vì thế hầu hết các thông số sẽ ở dạng mặc định
Trang 15Bước 2: Đánh giấu bỏ dòng “Enable search for primer pairs specific to the intended PCR template” để bỏ qua việc tìm kiếm cặp mồi có
sẵn trong cơ sở dữ liệu của NCBI Sau đó chúng ta thu về thiết kế primer bằng cách ấn vào ô “Get Primers”
Trang 16Cuối cùng, kết quả đoạn mồi thu được sẽ ở 2 dạng: hình ảnh trực quan và thông tin chi tiết về kết quả.
Trang 172 Đánh giá các phần mềm phổ biến hiện nay
Mặc dù vậy, điểm yếu của phần mềm này là sự quá phức tạp khi sử dụng
được tạo nên nhờ sự kết hợp giữa Primer3 và BLAST Nổi trội nhờ khả năng sử dụng cơ sở dữ liệu lớn của NCBI bằng BLAST nhưng
là một công cụ online, Primer-BLAST không tránh khỏi những hạn chế
là việc chạy trên nền web online và khả năng chạy thông lượng lớn đầu vào giúp BatchPrimer3 là một trong những công cụ phổ biến trong thiết kế mồi cho PCR nhằm thay thế cho người anh Primer3
Tool &FastPCR
NCBI/Primer-BLAST (Primer3)
BatchPrimer3 (Primer3)
IDT SciTools:
PrimerQuest, OligoAnalyzer 3.1
PerlPrimer
Giới hạn độ dài khuôn mẫu
(nt)
Không giới hạn 50,000 Chưa rõ Không giới hạn Không giới
hạn
Trang 18Đặc điểm jPCR
Tool &FastPCR
NCBI/Primer-BLAST (Primer3)
BatchPrimer3 (Primer3)
IDT SciTools:
PrimerQuest, OligoAnalyzer 3.1
PerlPrimer
Cho phép chạy thông
lượng lớn với hàng loạt
khuôn mẫu và hàng loạt
mục tiêu trên khuôn cùng
lúc
Tùy chọn PCR cho khuôn
mẫu
Degenerated nucleotides at
all operation (Tm
calculation, searches and
probe, primer design etc.)
Trang 19Đặc điểm jPCR
Tool &FastPCR
NCBI/Primer-BLAST (Primer3)
BatchPrimer3 (Primer3)
IDT SciTools:
PrimerQuest, OligoAnalyzer 3.1
PerlPrimer
Cho phép sửa đổi LNA
(Nucleotide đã khóa) hoặc
các nucleotide khác
Tính toán nhằm tối ưu hóa
Kiểm tra đầu 3’ kết thúc của
Kiểm tra mồi nội giao và tự
Tìm kiếm khuôn mẫu sử
Trang 20Đặc điểm jPCR
Tool &FastPCR
NCBI/Primer-BLAST (Primer3)
BatchPrimer3 (Primer3)
IDT SciTools:
PrimerQuest, OligoAnalyzer 3.1
PerlPrimer
Kiểm tra khuôn mẫu dựa
Bảng 1: So sánh các công cụ thiết kế Primer và phân tích oligonucleotide phổ biến hiện nay
(http://primerdigital.com/tools/soft.html)
các đặc điểm mang tính chất có lợi hơn so với các công cụ khác Mặc dù vậy, đây là tài liệu đáng để tham khảo