Tìm hiểu về đăng ký trình tự sinh học vào ngân hàng CSDL và Ý nghĩa của việc đăng ký trình tự vào ngân hàng dữ liệu... Vì sao cần tìm khung đọc mở ORF? Trong nghiên cứu chức năng của m
Trang 2Nội dung chuyên đề
I Tìm hiểu cách sử dụng một công cụ trên các ngân hàng CSDL (EBI, NCBI, ExpaSy
và DDBJ)
II Tìm hiểu về đăng ký trình tự sinh học vào ngân hàng CSDL và Ý nghĩa của việc
đăng ký trình tự vào ngân hàng dữ liệu.
Trang 3I Tìm hiểu cách sử dụng một công cụ trên mỗi ngân hàng CSDL (EBI,
NCBI, ExpaSy ,DDBJ)
1. Xác định khung đọc mở (ORF)
2. Xác định các vị trí nhận biết của enzym giới hạn đối với một trình tự DNA
3. Dự đoán cấu trúc phân tử
4. Xây dựng cây phát sinh chủng loại
Trang 5ATG Chuỗi ORF
TGA TAA TAG
TGA TAA TAG
Trường hợp trình tự này mã hóa cho một protein gồm chuỗi codon:
• Open Reading Frame (ORF) là một khung dịch mã cho phép sản phẩm mRNA từ trình tự DNA tương ứng được dịch mã thành một protein hoàn chỉnh
Trang 6Vì sao cần tìm khung đọc mở ORF?
Trong nghiên cứu chức năng của một trình tự DNA, giúp chúng ta biết chính xác được trình tự mã hóa cho protein biết được chức năng của protein này được xác định bằng cách so sánh với các ORF của các gen đã biết được chức năng trong GenBank
Trong kỹ thuật di truyền hay sinh học phân tử, cần thiết cho việc thiết kế mồi để dòng hóa và biểu hiện gen hay tạo những đột biến có định hướng liên quan tới chức năng của protein…
Trang 7Đặc điểm của ORF
Trong di truyền phân tử, một ORF là một bộ phận của gene của sinh vật mà bao gồm một chuỗi trình
tự các bazơ có khả năng mã hóa cho một protein
Trong một gene, mỗi trình tự ADN có thể đọc theo ba khung đọc khác nhau, phụ thuộc vào bazơ nào được chọn làm bazơ khởi đầu
Trên mỗi phân đoạn ADN mạch kép về lý thuyết có thể có tối đa sáu khung đọc mở (RF) khác nhau
Trang 8Cách sử dụng công cụ ORF Finder của ngân hàng NCBI
Trang 10Nhập trình tự DNA
Nhập mã số trình tự
Lưu vị trí dịch mã
Chọn kiểu mã di truyền Nhấn nút để thực hiện chương trình
Trang 11Ví dụ
Trang 13 Kết quả : Có 6 khung dịch mã xuất hiện Các khung đọc mở nếu có là các thanh có màu xanh Lựa chọn cách thể hiện bằng trị số trong mục Redraw (50,100,300).
Nhấn lên trình tự khung đọc mở sẽ thấy hiện lên trình tự DNA và trình tự amino acid tương ứng
Bộ ba in màu xanh là bộ ba kết thúc
Trang 152 Xác định các vị trí nhận biết của enzym giới hạn đối với một trình tự
DNA
Enzyme giới hạn là enzyme của vi khuẩn, có chức năng nhận biết và cắt DNA ở những vị trí cắt
chuyên biệt Những vị trí cắt chuyên biệt này được gọi là vị trí giới hạn
Trong tế bào vi khuẩn, enzyme giới hạn có chức năng bảo vệ tế bào vi khuẩn khỏi sự xâm nhập của
những DNA lạ, ví dụ như DNA của thực khuẩn thể Trong kỹ thuật di truyền, enzyme giới hạn là một công cụ hữu hiệu dùng để dòng hóa gen
Trang 16Cách xác định
Truy nhập vào trang chủ của ngân hàng CSDL NCBI: http://www.ncbi.nlm.nih.gov
Sử dụng công cụ NEBcutter để nhập trực tiếp hoặc gián tiếp dữ liệu Chọn tập tin từ máy hoặc từ NCBI như là một tập GenBank thông qua số lượng nhập của nó, theo đường link:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC168933
Trang 18Truy nhập vào địa chỉ: http://tools.neb.com/NEBcutter2
Trang 19Sau đó nhập vào một chuỗi Fasta
Trang 223 Dự đoán cấu trúc phân tử
Ý nghĩa:
Các chương trình đơn giản thì có thể đưa ra hình ảnh ba chiều của các phân tử
Các chương trình phức tạp có thể phân tích cấu trúc mô hình cuộn xoắn và các tương tác hóa học cho phép các nhà khoa học hiểu được protein hoạt động như thế nào
Cách sử dụng các công cụ:
Hầu hết các công cụ ở tất cả các ngân hàng CSDL đều sử dụng rộng rãi ứng dụng này
Công cụ Cn3D của ngân hàng NCBI cho phép hiển thị các trình tự và cấu trúc 3D cho các CSDL NCBI
Trang 23 Công cụ dali của ngân hàng EMBL/EBI cho phép xác định cấu trúc protein cần nghiên cứu và
so sánh nó với các cấu trúc trong PDB (protein data bank)
Công cụ protparam của ngân hàng CSDL Expasy phân tích các thông số lý hóa của một trình tự protein (thành phần amino axit và thành phần nguyên tử, pI và hệ số tắt) Đây là công cụ phổ biến nhất hiện nay
Để sử dụng công cụ này ta truy nhập vào trang web của Expasy: http://www.expasy.ch
Trang 284 Xây dựng cây phát sinh chủng loại
Cây phát sinh chủng loại ( phylogenic tree) miêu tả lịch sử tiến hóa của một nhóm các loài (species)
với những đặc tính khác nhau nhưng cùng có mối quan hệ họ hàng với nhau và cùng hình thành từ một tổ tiên chung trong quá khứ
Cây phát sinh loài là công cụ thể hiện mức độ tương đồng giữa các trình tự tiến hóa
Chúng ta có thể tạo cây phát sinh loài từ các kết quả so sánh các trình tự tương đồng thông qua các công cụ như là phylogenetics tree của ngân hàng expasy và một số phần mềm ClutalX và
Treeview_được sử dụng nhiều nhất
Ý nghĩa: Mục đích của cây phát sinh là phản ánh mối qua hệ tiến hóa
Trang 29Một cây phát sinh chủng loại mô tả quá trình tiến hóa của tất cả các loài sinh vật thông qua dữ liệu về gene rRNA
Trang 32Click Submit
Trang 34II Tìm hiểu về đăng ký trình tự sinh học vào ngân hàng CSDL
Ý nghĩa của việc đăng ký trình tự vào ngân hàng dữ liệu.
1 Các công cụ hỗ trợ cho việc đăng ký trình tự
2 Cách sử dụng công cụ WebIn và Sequin để đăng ký trình tự vào ngân hàng CSDL
Trang 351 Các công cụ hỗ trợ cho việc đăng ký trình tự
DDBJ: http://sakura.ddbj.nig.ac.jp/
Trang 36 EMBL: h ttp://www.ebi.ac.uk/Submissons/
http://www.ebi.ac.uk/embl/submisson/webin.html
Trang 38Ý nghĩa của việc đăng kí vào các ngân hàng CSDL
Công bố kết quả nghiên cứu và các thông tin liên quan của mỗi cá nhân, nhóm nghiên cứu, phòng thí nghiệm
Là cơ sở cho việc công bố các bài báo, công trình nghiên cứu vào các tạp trí khoa học.
Trang 39 Đóng góp vào việc xây dựng CSDL, tạo nguồn thông tin dùng chung cho mọi người quan tâm.
Đóng góp vào các dự án xác định trình tự Genome của các sinh vật.
Góp phần quan trọng vào việc giải mã Genome sinh vật trong những giai đoạn tiếp sau
là dự án giải mã Genome
Trang 402 Cách sử dụng công cụ Sequin
Giới thiệu:
Sequin là một phần mềm độc lập được NCBI phát triển để đăng ký và update trình tự vào các CSDL Genbank, EMBL
Sequin có khả năng thực hiện với nhiều trình tự dài hoặc một bộ các trình tự Cho phép sửa chữa, update
và cung cấp những mô tả cần thiết trong quá trình đăng ký trình tự
Sequin chạy trên các máy tính Macintosh, PC/Windows, and UNIX
Trang 41 Cấu trúc cơ bản của Sequin
Sequin gồm 1 loạt các form với giao diện đơn giản, dễ sử dụng:
Start New Submission
Read Existing Record
Network Configure
Show Help
Quit Program
Trang 42 Trước khi bắt đầu
Chuẩn bị dữ liệu trình nucleotide và trình tự axit amin
Sequin thường nhận trình tự dưới dạng FASTA, ngoài ra có thể là PHYLIP, NEXUS, MACAW hoặc FASTA+GAP, ký tự được đánh số sử dụng bảng mã ASCII dưới dạng text
Trang 43 Đăng ký trình tự
Download phần mềm Sequin và cài đặt theo địa chỉ:
http://www.ncbi.nlm.nih.gov/Sequin/download/seq_ftp_download.html
Trang 45 Bật chương trình Sequin
Trang 46 Tác giả đăng ký cung cấp các thông tin: Vị trí làm việc, tên và các thông tin liên hệ
Trang 47 Form format trình tự: Trình tự phải ở dạng Fasta đối với đăng ký một hay nhiều trình tự đơn giản (PHYLIP, NEXUS, MACW, or FASTA+GAP) Trong trường hợp các trình tự đăng ký không liên quan gì đến nhau tốt nhất nên đăng ký từng trình tự một.
Trang 48 Form về trình tự và tên sinh vật:
• Nhập file trình tự nucleotide ở dạng FASTA
• Đối với trình tự DNA:
>ID [organism=scientific name][strain=strain name] title
• Đối với trình tự Protein:
>ID[gene=gene name][protein=protein name] title
Ở bước này, các trình tự về nucleotide và protein phải được ghi vào các file notepad, để khi nhập trình tự (Import nucluotide FASTA) hoặc (Import protein FASTA) ta chỉ cần đưa đường dẫn đến file đó và nhấp vào nút Next Page
Kết quả
Trang 492 Cách sử dụng công cụ WebIn
Đăng ký trình tự bằng Webin
Bước 1: Vào ngân hàng EMBL theo địa chỉ http://www.ebi.ac.uk/
Trang 50 Bước 2: Chọn phần đăng ký trình tự hoặc truy cập trực tiếp theo địa chỉ
http://www.ebi.ac.uk/subs/allsubs.html
http://www3.ebi.ac.uk/Servies/webin/alignments/subalign.cgi
Trang 51 Bước 3: Chọn Webin http://www.ebi.ac.uk/submisson/webin.html
Trang 53 Bước 4: Xác nhận số ID của Webin và copy vào phần trống bên dưới Sau đó điền các thông tin:
First name, Middle initials, Family name
Trang 57 Sau khi chọn số lượng trình tự đăng ký và nhập password để bảo mật, nhấn next để tiếp tục sang một trang mới Sang trang này chúng ta cần khai báo tiếp những thông tin liên quan đến trình tự bao gồm:
Chiều dài trình tự
Dạng phân tử
Copy trình tự hoặc đưa đường dẫn đến file chứa trình tự
Trang 62 Copy trình tự hoặc đưa đường dẫn đến file chứa trình tự
Các bước đăng ký tiếp theo được thự hiện tuần tự theo hướng dẫn của Webin, trình tự đăng ký nếu được chấp nhân bởi EMBL người đăng ký sẽ nhận được những thông tin cần thiết và mã số truy cập dưới dạng thư điện tử theo địa chỉ hộp thư đăng ký
Lưu ý: do việc đăng ký trực tiếp bằng Webin phụ thuộc vào khả năng kết nối và tốc độ truy cập
Internet Thông tin cung cấp để đăng ký bằng Webin đòi hỏi phức tạp và chính xác do đó để đảm bảo quá trình đăng ký thành công cần phải chuẩn bị các thông tin liên quan đến trình tự đăng ký thật đầy đủ
Trang 63Tài liệu tham khảo
Giáo trình Tin sinh học, PGS.TS Nguyễn Văn Cách
Thực tập Bioinformatics, 10/2003,Trần Linh Thước, Đại học Quốc gia TP Hồ Chí Minh
http://www.ncbi.nlm.nih.gov
https://www.ebi.ac.uk/
http://www.expasy.ch
http://www.ddbj.nig.ac.jp
Trang 64The end