Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 64 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
64
Dung lượng
3,07 MB
Nội dung
Đ
Đ
A
A
Ï
Ï
I
I
H
H
O
O
Ï
Ï
C
C
Q
Q
U
U
O
O
Á
Á
C
C
G
G
I
I
A
A
T
T
H
H
A
A
Ø
Ø
N
N
H
H
P
P
H
H
O
O
Á
Á
H
H
O
O
À
À
C
C
H
H
Í
Í
M
M
I
I
N
N
H
H
T
T
R
R
Ư
Ư
Ơ
Ơ
Ø
Ø
N
N
G
G
Đ
Đ
A
A
Ï
Ï
I
I
H
H
O
O
Ï
Ï
C
C
K
K
H
H
O
O
A
A
H
H
O
O
Ï
Ï
C
C
T
T
Ư
Ư
Ï
Ï
N
N
H
H
I
I
E
E
Â
Â
N
N
K
K
H
H
O
O
A
A
S
S
I
I
N
N
H
H
H
H
O
O
Ï
Ï
C
C
(DÙNG CHO SINH VIÊN NGÀNH CÔNG NGHỆ SINH HỌC)
Chủ biên: TRẦN LINH THƯỚC
Thực hiện: ĐẶNG THỊ PHƯƠNG THẢO
ĐỖ ANH TUẤN
10/2003
(Lưu hành nội bộ)
1
MỤC LỤC
PHẦN MỞ ĐẦU 2
PHẦN I: KHAI THÁC DỮ LIỆU SINH HỌC QUA MẠNG INTERNET 10
Bài 1
. Cơ sở dữ liệu sinh học trên mạng internet 11
Bài 2
. Tìm kiếm thông tin trên mạng internet 13
Bài 3
. Tìm kiếm các trình tự sinh học 19
Bài 4
. Tìm kiếm các trình tự tương đồng 24
Bài 5
. Phân tích trình tự DNA 28
Bài 6
. Tạo cây phát sinh loài từ trình tự DNA 32
PHẦN II: MỘT SỐ CÔNG CỤ PHẦN MỀM PHÂN TÍCH GEN 35
Bài 7
. Nhập xuất dữ liệu 37
Bài 8
. Tìm trình tự DNA và khung đọc mở 40
Bài 9
. Chuyển đổi trình tự DNA và amino acid 43
Bài 10
. Thiết lập bản đồ enzyme cắt giới hạn 46
Bài 11
. Thiết kế mồi (primer) 49
Bài 12
. Vẽ bản đồ plasmid 52
Bài 13
. Bài tập tổng hợp 61
PHỤ LỤC 63
2
P
P
H
H
A
A
À
À
N
N
M
M
Ô
Ô
Û
Û
Ñ
Ñ
A
A
À
À
U
U
3
1. Bioinformatics là gì ?
Bioinformatics là một ngành học còn khá mới trong lónh vực Sinh học. Vì vậy,
hiện nay có khá nhiều đònh nghóa khác nhau về thuật ngữ bioinformatics. Chúng ta
thử tìm hiểu một số thuật ngữ:
• Bioinformatics là môn học về cách sử dụng máy tính để giải quyết những
vấn đề của khoa học sự sống, chủ yếu là vấn đề cơ sở dữ liệu phong phú của bộ gen,
trình tự protein Ngoài ra, nó còn giải quyết những vấn đề về kỹ thuật như mô hình
cấu trúc ba chiều của phân tử và các hệ thống Sinh học (3/2001, Cancer WEB).
• Bioinformatics là sự sáng lập và phát triển của tiến bộ những thông tin và kỹ
thuật máy tính nhằm giải quyết những vấn đề sinh học, thường là sinh học phân tử
(các lónh vực sinh học khác cũng đang ngày càng gia tăng). Như vậy, bioinformatics
liên quan đến những phương pháp như lưu trữ, tìm kiếm và phân tích dữ liệu sinh học
như acid nucleic (DNA/RNA) và trình tự protein; nghiên cứu cấu trúc, chức năng, con
đường và những ảnh hưởng di truyền (Đại học Stanford).
• Bioinformatics là một sự phối hợp giữa toán học, thống kê và kỹ thuật máy
tính nhằm phân tích thông tin về sinh học, sinh hóa, sinh lý.
• Bioinformatics là môn học về cấu trúc đặc trưng của thông tin sinh học và
hệ thống sinh học. Nó cung cấp một loạt những hệ thống dữ liệu Sinh học (ví dụ bộ
gen) kết hợp với những lý thuyết phân tích và công cụ thực hành của toán học và
khoa học máy tính.
Tóm lại, thuật ngữ bioinformatics có thể đònh nghóa một cách ngắn gọn là sự
kết hợp giữa Công nghệ Sinh học và Công nghệ Thông tin với mục tiêu giúp hiểu biết
và khám phá những nguyên lý trong Sinh học (NCBI).
Bioinformatics:
Môn học về cấu
trúc đặc trưng
của thông tin
Sinh học
Cấu trúc
Sinh học
Sinh hóa
Sinh học
phân tử
Genomics
Khoa học
máy tính
Thống kê
Toán học
4
2. Nội dung thực tập Bioinformatics
Nội dung thực tập Bioinformatics dành cho sinh viên năm thứ III, ngành Công
nghệ Sinh học, bao gồm:
- Giới thiệu về các cơ sở dữ liệu sinh học trên mạng Internet và cách thức
khai thác các cơ sở dữ liệu này phục vụ cho nghiên cứu.
- Làm quen một số công cụ phần mềm phân tích gen.
Sau khi hoàn thành khóa học, sinh viên phải nắm vững một số kiến thức cơ
bản về cách thức tìm kiếm và xử lý dữ liệu sinh học .
Trong quá trình thực tập, hầu hết nội dung yêu cầu thực hiện truy cập thông
tin trên mạng Internet (với ngôn ngữ sử dụng chủ yếu là tiếng Anh) nên có khá nhiều
thuật ngữ tin học, sinh học cũng như cách thức giao tiếp vẫn giữ nguyên thuật ngữ
tiếng Anh.
3. Sử dụng mạng Internet trong đợt thực tập
Vì không phải tất cả mọi người đều đã có kinh nghiệm sử dụng Internet, do đó
chúng ta bắt đầu với phần giới thiệu ngắn về mạng Internet. Mạng Internet là một hệ
thống mạng toàn cầu có khả năng liên kết các máy tính khác nhau trên thế giới. Khi
tham gia vào hệ thống mạng Internet chúng ta có thể tham khảo các tài nguyên chia
sẻ trên các máy tính (nơi lưu trữ thông tin) thuộc mọi lónh vực: khoa học, văn hóa,
giáo dục, thể thao, giải trí… Trong đợt thực tập này, để làm việc trên mạng Internet,
chúng ta sẽ sử dụng phần mềm Microsoft Internet Explorer của hãng Microsoft (hoặc
có thể dùng phần mềm Netscape với những chức năng tương tự).
Yêu cầu đối với sinh viên là phải có những kiến thức cơ bản về máy tính (làm
việc với máy tính trong môi trường Windows). Để vào chương trình Microsoft
Internet Explorer, chúng ta thực hiện tuần tự các bước sau:
• Tìm biểu tượng của Internet Explorer trên Desktop và nhấn đúp
(double clicking) bằng nút chuột trái để mở cửa sổ trình duyệt Web. Hoặc nhấn phím
Start chọn Programs, rồi chọn Internet Explorer.
• Đòa chỉ tìm kiếm được nhập vào tại khung Address và nhấn Enter↵
. Internet
Explorer sẽ kết nối máy tính chúng ta với mạng vào đòa chỉ đã nhập.
Biểu tượng trên góc phải màn hình thể hiện hoạt động kết nối Internet:
Đang kết nối
Kết nối xong hoặc bò gián đoạn
5
Mạng Internet là một mạng máy tính toàn cầu với hơn 150 triệu máy tính
(tháng 1/2002) liên lạc với nhau thông thường qua giao thức TCP/IP (Transfer
Control Protocol/Internet protocol). Các máy tính được nhận diện và kết nối với mạng
Internet thông qua đòa chỉ internet (Internet protocol - IP) của nó có dạng dãy số gồm
4 số phân cách bởi dấu chấm (ví dụ 172.69.145.21). Bốn dòch vụ chính có thể sử dụng
trên mạng là: thư điện tử (e-mail), đăng nhập từ xa (telnet), chuyển tập tin (file
transfer protocol, FTP) và World Wide Web (hay còn gọi là giao thức truyền siêu văn
bản - hypertext transfer protocol, HTTP). World Wide Web cho phép người sử dụng
các trình duyệt đònh vò và xem thông tin từ hơn 40 triệu dòch vụ web trên toàn thế giới
(tháng 3/2002). Các tài liệu siêu văn bản có thể thể chứa hình ảnh, âm thanh, văn bản
text… và có thể dễ dàng liên kết với các trang siêu văn bản khác. Đòa chỉ đònh vò các
tài liệu siêu văn bản là một đòa chỉ duy nhất (URL – Uniform Resource Locator) có
dạng service://hostname:port/file (dòch vụ://tên máy chủ: cổng/file).
Service : Tên dòch vụ đang truy cập (ftp, http, gopher, telnet, mailto)
hostname : Đòa chỉ IP hoặc tên miền nơi đònh vò của thông tin
port : Cổng trên máy phục vụ, mặc đònh là 80, nhưng cũng có khi là 8000
hay 8080
/file : Tên thật của tập tin trên máy tính được tham chiếu bởi máy phục vụ
Ví dụ về đòa chỉ WWW:
http://www.tulane.edu/~dmsander/Big_Virology/BVHomePage.html
Các trang web là nơi chứa đựng thông tin thường xây dựng bằng ngôn ngữ
siêu văn bản và có sử dụng các liên kết đến các trang khác. Các liên kết thường được
thể hiện bằng những dòng chữ bò đổi màu chữ khi ta di chuyển đến và con trỏ biến
thành dấu hiệu . Khi nhập đòa chỉ liên kết đến các vò trí trang web (web site) phải
đánh dòng văn bản với đầy đủ các ký tự, có sự phân biệt giữa chữ thường và chữ hoa.
Nơi nhập đòa chỉ
Nội
dung
trang
web
6
Khi sử dụng phần mềm Internet Explorer để xem (duyệt) trang web, chúng ta
có thể lưu lại các đòa chỉ khi đã “ghé thăm” bằng cách sử dụng chức năng Add to
favourites… trên thanh Explorer bar khi đang ở trang web “ưa thích”. Những lần truy
cập sau, chúng ta chỉ cần nhấn vào tên trang web trong menu Favourites để vào trang
web ưa thích mà không phải nhập lại đòa chỉ Internet.
Sử dụng những nút Back hoặc Forward để trở lại hoặc tiếp tục mở lại trang web
phía trước; các nút Stop và Refesh để tạm dừng truy cập hay thực hiện “làm tươi” nội
dung trang web bằng cách truy cập lại đòa chỉ Internet này.
4. Một số thuật ngữ sinh – tin học thường gặp trên mạng internet
Thuật ngữ Sinh học
Accession Mã số truy cập trong các cơ sở dữ liệu sinh học (Genbank…)
Alignment Sắp gióng cột hai hay nhiều trình tự nhằm xác đònh độ tương đồng
giữa chúng.
bp (base pair) cặp base.
cDNA (complementary DNA) mạch đơn bổ sung cho RNA và được tồng
hợp từ khuôn nhờ enzyme phiên mã ngược.
Cloning Kỹ thuật tạo ra tập hợp các tế bào hoặc phân tử giống hệt nhau cùng
bắt nguồn từ một tế bào hay một phân tử ban đầu.
Codon Bộ ba nucleotide mã hóa cho một acid amin hay một “dấu hiệu” bắt
đầu hay kết thúc dòch mã.
DNA sequencing
Trình tự A, T, G, C của acid deoxyribonucleic (DNA).
Downstream Đầu 3’ của trình tự nucleotide.
Exon Một phần của một gen gián đoạn (gen tồn tại ở eukaryote), có mặt
trong phân tử RNA trưởng thành.
Gene Đoạn DNA (gen) tham gia vào việc hình thành một sợi polypeptide;
gen bao gồm các vùng nằm trước và sau vùng mã hóa và cả trình tự
(intron) nằm giữa các phần mã hóa.
gi Dãy số hiệu của mỗi trình tự quy đònh theo sắp xếp của NCBI.
Hairpin Vùng xoắn kép hình thành từ sự bắt cặp bổ sung giữa hai trình tự bổ
sung nằm kề nhau trên một phân tử DNA hay RNA mạch đơn (cấu
trúc kẹp tóc).
Intron Đoạn DNA được phiên mã nhưng bò loại bỏ trong quá trình trưởng
thành của RNA, không có mặt ở phân tử RNA trưởng thành.
Molecular hybridization
Quá trình trong đó hai mạch acid nucleic bổ sung (A-T, G-C) bắt cặp
hình thành nên mạch kép; kỹ thuật hữu hiệu để phát hiện một trình tự
nucleotide chuyên biệt (lai phân tử).
7
Operon Đơn vò biểu hiện và điều hòa gen ở vi khuẩn, bao gồm các gen cấu
trúc nằm cạnh nhau và các nhân tố điều hòa, các gen cấu trúc này
cùng chòu những tác động điều hòa như nhau.
PCR (Polymerase Chain Reaction) kỹ thuật dùng để khuếch đại nhiều bản
sao của một trình tự DNA đích nhờ DNA polymerase.
ORF (Open Reading Frame) khung đọc mở khi dòch mã cho ra một trình tự
amino acid hoàn chỉnh.
Plasmid DNA dạng vòng, nằm ngoài nhiễm sắc thể và có khả năng tự sao
chép độc lập.
Primer Trình tự DNA hay RNA ngắn, bắt cặp với một mạch khuôn DNA và
có mang đầu 3’OH tự do giúp DNA polymerase bắt đầu tổng hợp
mạch mới.
Promoter Trình tự trên phân tử DNA, nơi RNA polymerase gắn vào để khởi
động phiên mã.
Redundancy Sự có mặt của nhiều mẩu tin dư thừa (thường là trình tự). Trong
Bioinformatics, đó là sự liên quan của những trình tự giống nhau
trong cùng một cơ sở dữ liệu.
Restriction enzyme (RE)
Enzyme nhận biết một trình tự DNA ngắn chuyên biệt và cắt mạch
kép DNA.
Restriction map
Bản đồ vò trí nhận biết của tất cả các enzyme cắt giới hạn trên một
trình tự DNA.
RNA sequencing
Trình tự A, U, G, C của acid ribonucleic (RNA).
Splicing Sự loại bỏ các intron và nối liền các exon ở RNA trong quá trình
trưởng thành sau phiên mã.
Tm (Melting temperature) nhiệt độ mà ở đó một nửa số phân tử của trình
tự đó bò biến tính (nhiệt độ nóng chảy của một trình tự).
Transcription Sự tổng hợp RNA từ khuôn DNA.
Translation Sự tổng hợp protein từ khuôn mRNA (sự dòch mã).
Upstream Đầu 5’ của trình tự nucleotide.
Vector Trong kỹ thuật tạo dòng (cloning), là plasmid hay phage dùng để
chuyên chở một đoạn DNA lạ gắn vào đó với mục đích tạo ra một
lượng bản sao lớn hay một sản phẩm protein từ đoạn DNA này.
Thuật ngữ Tin học
Acrobat Họ các công cụ của công ty Adobe cho phép nhà xuất bản dòch các
tập tin Postscript thành Portable Document Format (PDF) và người
dùng có thể xem trên trên các nền thông thường của máy.
BLAST (Basic Local Alignment Search Tool) một công cụ tìm kiếm nhanh
những trình tự tương đồng trong một cơ sở dữ liệu.
8
Browser Công cụ cho phép người dùng quét một danh sách tập tin hoặc tìm
một mục riêng nào đó. Trong WWW (World-Wide-Web), browser
được hiểu là phần mềm cho phép duyệt qua những tư liệu trên Web.
Browser Một trình duyệt web (Web Browser) hỗ trợ các đồ họa, âm thanh và
video.
Download Tải tập tin xuống máy tính, truyền các tập tin từ một máy tính sang
một máy tính khác.
FAQs Những câu hỏi được yêu cầu thường xuyên (Frequently Asked
Questions).
FASTA Chương trình tìm kiếm trình tự tương đồng được dùng rộng rãi đầu
tiên.
Freeware Phần mềm sử dụng miễn phí và có thể tải về máy tính cá nhân.
FTP Giao thức chuẩn dùng để gởi tập tin (File Transfer Protocol) từ một
máy này đến một máy khác trên mạng TCP/IP như Internet.
Gap Khoảng trống được đưa vào khi so sánh các trình tự với nhau nhằm
làm tăng độ tương đồng giữa chúng.
Gateway Dòch vụ dòch thông điệp giữa những giao thức khác nhau.
Gopher Hệ menu phân cấp dùng để gởi tài liệu trên Internet.
Homepage Trang đầu của một server World-Wide-Web hay tài liệu gốc mô tả
một tổ chức (cá nhân) được cung cấp thông qua user.
HTML Ngôn ngữ đánh dấu siêu văn bản (The HyperText Markup
Language) dùng để mô tả các tài liệu truyền thông qua WWW.
HTML cho phép một tài liệu có thể chứa các liên kết đến một tài liệu
khác, cung cấp cho WWW khả năng Hypertext (và hypermedia).
Internet Bất kỳ mạng nào của hệ thống mạng liên kết trên thế giới.
IP address Số duy nhất gán cho một máy mạng TCP/IP.
LAN (Local Area Network) mạng phủ trên một vùng đòa lý tương đối nhỏ
(một văn phòng, một tầng hay một tòa nhà…).
Login Thủ tục khởi nhập một liên kết với máy chủ của người sử dụng mạng
(thường gồm yêu cầu về tên và mật khẩu).
Netquette Những nguyên tắc xã giao chủ đạo trong truyền thông trên mạng
Internet.
Offline Khi không sử dụng kết nối đó nữa.
Online Khi sử dụng kết nối với một máy tính khác.
Query Khung nhập trình tự (hoặc những loại thuật ngữ tìm kiếm khác)
Shareware Phần mềm cho phép tải và sử dụng miễn phí nhưng nếu muốn dùng
tiếp thì phải trả cho tác giả một khoản tiền danh dự nhỏ.
URL (Uniform Resource Locator – đònh danh tài nguyên đồng nhất) hệ
thống ghi đòa chỉ được web sử dụng.
WWW (World Wide Web) Phương tiện đònh vò trên Internet bằng cách sử
dụng siêu liên kết.
Ví dụ
http://www.mcb.harvard.edu/BioLinks.html
9
5. Tài liệu tham khảo
1. Cynthia Gibas &Per Jabeck. 2001. Developing Bioinformatics Computer
Skills. O’Reilly & Associates, Inc., USA.
2. Gunter Kahl. 1995. Dictionary of Gene Technology. VCH Verlagsgesell-
schaft mbH, Germany.
3. Hồ Huỳnh Thùy Dương. 1998. Sinh học phân tử, NXB Giáo dục.
4. Institute of Technical Biochemistry, 2002. Bioinformatics tools for
Biologists, University of Stutgartt, Germany.
5. National Center for Biotechnology Information, NCBI. 10/2001.
http://www.ncbi.nlm.nih.gov/, USA.
6. Neil F., Peadar Ó G. 2001. Bioinformatics programme, 4
th
Molecular Biology
Workshop, HCMC, Vietnam.
[...]... từ hay một nhóm từ khóa (keyword) mang nội dung chủ yếu hay quan trọng nhất của vấn đề quan tâm Sau đó sử dụng các công cụ tìm kiếm trên mạng để tìm đến các đòa chỉ lưu trữ những thông tin cần thiết hoặc những thông tin liên quan Sử dụng các chức năng chọn lọc thông tin của các công cụ để hạn chế việc tiếp nhận những thông tin không liên quan Ví dụ thông tin: “PCR for detection of Listeria monocytogenes... Internet bao gồm các nội dung: Tìm kiếm các dạng dữ liệu trình tự sinh học và các thông tin sinh học khác có liên quan (chủ yếu về sinh học phân tử) Đòa chỉ Internet để tìm kiếm các thông tin này Giải quyết các câu hỏi làm thế nào để: - Truy cập thông tin có liên quan (ấn phẩm, cấu trúc, trình tự liên quan) ? - Truy cập trình tự DNA và protein trong các cơ sở dữ liệu trình tự sinh học?- Phân tích trình tự sinh... nhiều trang tìm kiếm trên mạng (ví dụ phần mềm WebFerret, Copernic) Cách tìm kiếm này thường cho hiệu quả rất cao, có thể tìm rất nhiều đòa chỉ liên quan đến thông tin ta quan tâm, nhưng thông tin thường không tập trung 14 Tuy nhiên, nếu chúng ta chỉ quan tâm đến những thông tin khoa học sinh học đáng tin cậy, thường là những bài báo khoa học, thì việc tìm kiếm sẽ có hiệu quả cao nhất khi ta tìm kiếm... (entries, hits) có liên quan đến trình tự gen LT 20 Câu hỏi: Có bao nhiêu mục bài có liên quan đến trình tự gen LT được tìm thấy? Trả lời: Để thay đổi kiểu thể hiện kết quả ta có thể thay đổi dạng trình bày bằng cách chọn kiểu thể hiện ở menu Display (Summary, Brief, ASN.1, FASTA, GenBank, GI list…) Nhấn lên phần số của bất kỳ mục bài nào, ta sẽ nhận được mô tả chi tiết của mục này liên quan đến trình tự... tìm hiểu chi tiết các mục bài vừa tìm kiếm được bằng cách nhấn lên các mã số mục bài (tương tự cách dùng với trình tự DNA) Câu hỏi: Có bao nhiêu mục bài liên quan đến trình tự protein yêu cầu được tìm thấy? Trình tự protein ST toxin chủ yếu liên quan đến loài nào? Đặc điểm của protein này? Trả lời: Cách mã hóa dùng trong trình tự amino acid: A B C D E F G H I K L M N alanine aspartate or asparagine cystine... INTERNET 10 Bài 1 CƠ SỞ DỮ LIỆU SINH HỌC TRÊN MẠNG INTERNET 1 Mục đích, nguyên tắc Công việc đầu tiên khi chúng ta bắt tay vào công việc nghiên cứu là tập hợp và xử lý thông tin về lónh vực nghiên cứu mình quan tâm Để làm được chuyện này, ngoài cách tiếp cận truyền thống là vào thư viện, chúng ta còn có thể khai thác kho dữ liệu thông tin phong phú trên mạng Internet (World Wide Web) Ở đây luôn có một lượng... nucleic acid (Nucleotide), trình tự protein (Protein), cấu trúc 3 chiều (Structure), bộ gen (Genome)… Ở đây, chúng ta sử dụng trang PubMed để tìm kiếm các bài báo về thông tin Y - Sinh học Ví dụ chúng ta quan tâm bài báo có tựa đề “Isolation and characterization of Escherichia coli O157:H7 from retail meats in Argentina” Tác giả: Chinen I, Tanaro JD, Miliwebsky E, Lound LH, Chillemi G, Ledri S, Baschkier... ta sẽ làm quen với nhiều cách tìm kiếm những thông tin sinh học trên mạng Internet thông qua các trang web tìm kiếm thông tin hoặc các cơ sở dữ liệu sinh học lớn trên thế giới Thông tin tìm kiếm được quan tâm là các bài báo khoa học và các trình tự nucleic acid hay protein Tùy từng trường hợp cụ thể mà chúng ta có thể xác đònh đối tượng và mở rộng phạm vi tìm kiếm đến những lónh vực khác với nguyên... trường hợp này có thể xác đònh các từ khóa là: PCR, monocytogenes Sau khi xác đònh được từ khóa, ta thường phải xác đònh phạm vi tìm kiếm để lựa chọn những công cụ thích hợp Nếu chúng ta cần tìm thông tin tổng hợp về lónh vực này thì có thể bắt đầu tìm kiếm thông tin ở những trang web Các công cụ tìm kiếm có thể là những trang tìm kiếm trên mạng (AltaVista, EuroSeek, Lycos, GOTO, Yahoo…) hoặc những phần .
M
M
Ô
Ô
Û
Û
Ñ
Ñ
A
A
À
À
U
U
3
1. Bioinformatics là gì ?
Bioinformatics là một ngành học còn khá mới trong lónh vực Sinh. có khá nhiều đònh nghóa khác nhau về thuật ngữ bioinformatics. Chúng ta
thử tìm hiểu một số thuật ngữ:
• Bioinformatics là môn học về cách sử dụng máy