đây là tài liệu chuyên ngành dành riêng cho lĩnh vực tin sinh học nó được tổng hợp từ các tài liệu nước ngoài.giúp các bạn sinh viên hiểu rõ hơn về những kiến thức cơ bản về môn tin sinh học cũng như các phần mềm về tin sinh học
Trang 2iiThis page intentionally left blank
Trang 3NHẬP MÔN TIN SINH HỌC
Nhập môn tin sinh học là một cuốn sách giáo khoa ngắn nhưng đầy đủ về Tin Sinh học, giới thiệu cho
độc giả về toàn bộ lĩnh vực nghiên cứu một cách đại khái Cuốn sách được viết chủ yếu cho các nhà
khoa học, trong đó lý thuyết cơ bản về tin sinh học được giải thích trước, rồi đến thảo luận về các
công cụ tin học mới nhất đang có để tìm giải pháp cho các vấn đề nghiên cứu trong sinh học Mọi
lĩnh vực quan trọng của tin sinh học đều được đề cập, bao gồm cơ sở dữ liệu sinh học, gióng cột trình
tự, dự đoán gene và promoter, hệ thống phát sinh loại học phân tử, tin sinh học cấu trúc, hệ gene học
và hệ protein học Cuốn sách tập trung vào cơ sở & nguyên lý của các thuật toán và so sánh ưu và
nhược điểm của các phương pháp khác nhau Bằng cách tiếp cận cân bằng nhưng dễ hiểu, cuốn sách
sẽ rất có giá trị cho những ai ít có kiến thức về máy tính Các chi tiết kỹ thuật về thuật toán được giải
thích với ít công thức toán học nhất có thể; các minh họa bằng hình ảnh được dùng thay cho công
thức để hỗ trợ việc hiểu cho người đọc Sự kết hợp hiệu quả của các tài liệu hiện có với việc đề cập sâu
và cập nhật tất cả các chủ đề chính trong Tin sinh học làm cho cuốn sách cực kỳ phù hợp cho mọi
sinh viên ngành Y Sinh học theo học các khóa Tin sinh học và cho các nhà nghiên cứu muốn nâng
cao kiến thức để hỗ trợ cho nghiên cứu của mình
Jin Xiong là giáo sư Sinh học ở Đại học Texas A&M, nơi ông đã dạy Tin sinh học cho sinh viên đại học và
học viên cao học trong nhiều năm Lĩnh vực nghiên cứu chính của ông là phân tích bằng tin sinh học và
thực nghiệm các hệ thống quang hợp
i
Trang 4ii
Trang 6First published in print format
Information on this title: www.cambridge.org/9780521840989
This publication is in copyright Subject to statutory exception and to the provision ofrelevant collective licensing agreements, no reproduction of any part may take placewithout the written permission of Cambridge University Press
www.cambridge.org
hardback
eBook (EBL)eBook (EBL)hardback
Trang 7Mục lục
Lời nói đầu ■ ix
PHẦN 1 GIỚI THIỆU VỀ TIN SINH HỌC & CƠ SỞ DỮ LIỆU SINH HỌC
1 Giới thiệu ■ 3
Tin sinh học là gì ? ■ 4Mục tiêu ■ 5Phạm vi ■ 5Ứng dụng ■ 6 Hạn chế ■ 7Các vấn đề mới ■ 8Đọc thêm ■ 8
2 Giới thiệu về cơ sở dữ liệu sinh học ■ 10
Cơ sở dữ liệu là gì? ■ 10Các loại cơ sở dữ liệu? ■ 10
Cơ sở dữ liệu sinh học ■ 13Các vấn đề cần tránh trong cơ sở dữ liệu sinh học ■ 17Thu nhận thông tin từ cơ sở dữ liệu sinh học ■ 18Tóm tắt ■ 27
Ma trận cho điểm gióng cột ■ 41
Ý nghĩa thống kê của gióng cột ■ 47 Tóm tắt ■ 48
Đọc thêm ■ 49
4 Tìm kiếm trình tự tương tự trên cơ sở dữ liệu ■ 51
Các yêu cầu riêng biệt của tìm kiếm trên cơ sở dữ liệu ■ 51Tìm kiếm cơ sở dữ liệu bằng phương pháp heuristic ■ 52Basic local alignment search tools (BLAST) ■ 52FASTA ■ 57
So sánh FASTA với BLAST ■ 60Tìm kiếm cơ sở dữ liệu bằng phương pháp Smith-Waterman ■ 61
v
Trang 8vi MỤC LỤC
Tóm tắt ■ 61 Đọc thêm ■ 62
5 Sắp gióng cột nhiều trình tự ■ 63Hàm cho điểm ■ 63
Thuật giải vét cạn ■ 64Thuật giải heuristic ■ 65Các vấn đề thực tiễn ■ 71Tóm tắt ■ 73
Đọc thêm ■ 74
6 Profile và mô hình Markov ẩn ■ 75
Ma trận cho điểm tùy thuộc vị trí ■ 75Profile ■ 77
Mô hình Markov và mô hình Markov ẩn ■ 79 Tóm tắt ■ 84
Đọc thêm ■ 84
7 Dự đoán motif và miền của protein ■ 85Xác định motif và miền của protein trong MSA ■ 86
Cơ sở dữ liệu motif và miền dùng biểu diễn thông thường ■ 86
Cơ sở dữ liệu motif và miền dùng mô hình xác suất ■ 87
Cơ sở dữ liệu họ protein ■ 90Tìm kiếm motif ở các trình tự không gióng cột ■ 91Logo trình tự ■ 92
Tóm tắt ■ 93Đọc thêm ■ 94
PHẦN III DỰ ĐOÁN GENE VÀ PROMOTER
8 Dự đoán gene ■ 97Phân loại các chương trình dự đoán gene ■ 97
Dự đoán gene ở prokaryote ■ 98
Dự đoán gene ở Eukaryote ■ 103Tóm tắt ■ 111
Đọc thêm ■ 111
9 Dự đoán các trình tự promoter và điều hòa ■ 113Promoter và các yếu tố điều hòa ở Prokaryote ■ 113 Promoter và các yếu tố điều hòa ở Eukaryote ■ 114 Thuật toán dự đoán ■ 115
Tóm tắt ■ 123Đọc thêm ■ 124
PHẦN IV PHÁT SINH LOẠI HỌC PHÂN TỬ
10 Phát sinh loại học cơ sở ■ 127
Tiến hóa phân tử và phát sinh loại học phân tử ■ 127 Thuật ngữ ■ 128
Phát sinh loại học gene vs phát sinh loại học loài ■ 130
Trang 9MỤC LỤC vii
Các dạng cây phát sinh loại ■ 131 Tại sao rất khó tìm ra cây phát sinh loại ■ 132 Quy trình ■ 133
Tóm tắt ■ 140Đọc thêm ■ 141
11 Chương trình và phương pháp xây dựng cây phát sinh loại ■ 142
Các phương pháp dựa trên khoảng cách ■ 142Các phươn pháp dựa trên đặc điểm gióng cột ■ 150 Đánh giá cây phát sinh loại ■ 163
Chương trình xây dựng cây ■ 167Tóm tắt ■ 168
Đọc thêm ■ 169
PHẦN V TIN SINH HỌC CẤU TRÚC
12 Cơ sở về cấu trúc protein ■ 173
Amino acid ■ 173Hình thành peptide ■ 174Dihedral Angles ■ 175Bậc cấu trúc ■ 176Cấu trúc bậc hai ■ 178Cấu trúc bậc ba ■ 180Xác định cấu trúc bậc ba của protein ■ 181
Cơ sở dữ liệu cấu trúc protein ■ 182Tóm tắt ■ 185
Đọc thêm ■ 186
13 Hiển thị cấu trúc protein, so sánh và Phân loại ■ 187
Hiển thị cấu trúc protein ■ 187
So sánh cấu trúc protein ■ 190 Phân loại cấu trúc protein ■ 195 Tóm tắt ■ 199
Đọc thêm ■ 199
14 Dự đoán cấu trúc bậc hai của protein ■ 200
Dự đoán cấu trúc bậc hai cho protein cầu ■ 201
Dự doán cấu trúc bậc hai cho các protein xuyên màng ■ 208
Dự đoán xoắn xoắn ■ 211Tóm tắt ■ 212
Tóm tắt ■ 229Đọc thêm ■ 230
Trang 10viii MỤC LỤC
16 Dự đoán cấu trúc RNA ■ 231
Giới thiệu ■ 231Các dạng cấu trúc của RNA ■ 233
Các phương pháp dự đoán cấu trúc RNA ■ 234Phương pháp ab initio ■ 234
Phương pháp so sánh ■ 237Đánh giá dự đoán ■ 239Tóm tắt ■ 239
Đọc thêm ■ 240
PHẦN 6 GENOME HỌC VÀ PROTEOME HỌC
17 Lập bản đồ, nối ráp hoàn chỉnh và so sánh genome ■ 243
Lập bản đồ genome ■ 243Giải trình tự genome ■ 245Nối ráp hoàn chỉnh genome ■ 246Chú thích genome ■ 250
So sánh genome ■ 255 Tóm tắt ■ 259Đọc thêm ■ 259
Đọc thêm ■ 296
PHỤC LỤC Phục lục 1 Bài tập thực hành ■ 301
Phụ lục 2 Danh mục thuật ngữ ■ 318Bảng chú dẫn ■ 331
Trang 11Lời mở đầu
Với số lượng genome của các loài prokaryote và eukaryote đã hoàn thành và thêm
những genome sắp hoàn thành, việc tiếp cận các thông tin genome và tổng hợp nó để
giúp phát hiện ra tri thức mới đã trở thành vấn đề trung tâm của nghiên cứu sinh học
hiện đại Khai thác thông tin genome đòi hỏi các công cụ máy tính tinh vi Vì thế các
thế hệ nhà nghiên cứu sinh học mới nhất định phải thành thạo các chương trình Tin
sinh học và cơ sở dữ liệu để giải quyết những thách thức mới trong kỷ nguyên
genome Để đáp ứng được yêu cầu này, các trường đại học ở Mỹ cũng như khắp thế
giới đã và đang dạy cho sinh viên các khóa học Tin sinh học ở cấp đại học lẫn cao học
để giới thiệu cho họ các công cụ phần mềm cần thiết trong nghiên cứu genome Để
hỗ trợ cho nhiệm vụ quan trọng này, cuốn giáo trình này được biên soạn nhằm cung
cấp đầy đủ mọi khía cạnh cũng như cập nhật nhất về Tin sinh học một cách rõ ràng
và súc tích
Ý tưởng viết một cuốn giáo trình về Tin sinh học bắt nguồn từ việc giảng dạy Tin
sinh học của tôi ở Đại học Texas A&M Tôi cần một cuốn sách đủ toàn diện để đề
cập đến mọi khía cạnh của ngành học, đủ sâu về kỹ thuật để giảng dạy ở trình độ đại
học, và đủ cập nhật để đề cập đến các thuật giải đang được sử dụng nhưng đồng thời
cũng đủ logic và dễ hiểu Việc thiếu một cuốn giáo trình như vậy đã thôi thúc tôi
soạn rất nhiều các bài giảng để nhằm khắc phục vấn đề Các bài giảng do tôi soạn hóa
ra sau này lại được sinh viên rất ưa chuộng và các sinh viên không theo học cũng rất
quan tâm Để có thể mang lợi ích này đến nhiều độc giả hơn, tôi quyết định tập hợp
các bài giảng đã soạn của mình, cũng như kinh nghiệm và hiểu biết của tôi về Tin
sinh học thành sách
Cuốn sách này dành cho sinh viên và học viên cao học ngành Sinh học, hay bất cứ
nhà Sinh học phân tử nào không có kiến thức về thuật toán máy tính nhưng muốn
hiểu các nguyên lý cơ bản của Tin sinh học và dùng kiến thức này để giải quyết vấn
đề nghiên cứu của mình Cuốn sách đề cập đến các cơ sở dữ liệu và phần mềm chính
dùng trong phân tích dữ liệu genome, và nhấn mạnh đến các khía cạnh lý thuyết và
thực hành của các công cụ máy tính này Qua việc đọc cuốn sách này, độc giả sẽ làm
quen với các công cụ máy tính có thể có dành cho nhà sinh học phân tử và đồng thời
ý thức được điểm mạnh và điểm yếu của các phần mềm này
protein structure, for which a chapter about fundamental concepts is included so
that
ix
Trang 12x LỜI NÓI ĐẦU
Tác giả cuốn sách giả định rằng độc giả đã có kiến thức và hiểu biết cơ bản về sinh
học phân tử và hóa sinh Vì thế các thuật ngữ như nucleic acid, amino acid, gene, phiên mã và dịch mã đều được dùng mà không giải thích thêm Một ngoại lệ là cấu trúc protein, được dành một chương riêng về các kiến thức cơ bản để người đọc có
thể hiểu rõ hơn thuật giải và các nguyên tắc trong tin sinh học cấu trúc protein
Người đọc cũng được giả định là đã có kiến thức về xác suất, thống kê và vi tích phân, mặc dù điều kiện này không hoàn toàn bắt buộc
Cuốn sách được chia thành sáu phần: cơ sở dữ liệu sinh học, sắp gióng cột trình
tự, dự đoán gene và promoter, cây phát sinh loại học phân tử, tin sinh học cấu trúc và genome học và proteme học Cả thảy có mười chín chương, mỗi chương khá độc lậps
so với các chương khác Khi thông tin về một chương này cần cho chương kia, tác giả
sẽ ghi chú điều đó Mỗi chương bao gồm định nghĩa, khái niệm quan trọng và các lời giải cho các bài tập máy tính Thỉnh thoảng sẽ có các hộp mô tả ví dụ minh họa một
số tính toán Vì cuốn sách chủ yếu dành cho các nhà Sinh học, sẽ có rất ít công thức toán học Một số rất nhỏ công thức toán học được dùng ở những nơi chúng tuyệt đối đòi hỏi để hiểu một khái niệm nhất định Thảo luận về kiến thức máy tính cần thiết
sẽ đi kèm với giới thiệu về chương trình máy tính miễn phí trên mạng Cuối mỗi chương cũng sẽ có tóm tắt
Hầu hết các chương trình mô tả trong sách đều có sẵn trên mạng, miễn phí và không quá khó để sử dụng Hầu hết đều khá chân phương để sử dụng và người dùng chỉ cần cung cấp trình tự hoặc cấu trúc và phần mềm sẽ trả lại kết quả một cách tự động Trong nhiều trường hợp, độc giả chỉ cần biết chương trình nào dùng cho mục đích nào là đủ, mặc dù đôi khi độc giả cần có kỹ năng giải thích kết quả Tuy nhiên trong một số trường hợp, biết tên chương trình và ứng dụng của chúng chỉ mới là một nửa chặng đường.Độc giả cũng cần phải có sự nỗ lực cá nhân để học những đặc tính phức tạp để dùng chương trình Những chương trình như vậy được xem là thiểu
số nằm ở phía cực đoan của tính thân thiện với người dùng Tuy nhiên sẽ là không thực tế để đưa tất cả hướng dẫn sử dụng phần mềm cho tất cả phần mềm đang có vào cuốn sách này Đó không phải làm mục đích tôi viết cuốn sách này Tuy nhiên, ý thức được khó khăn của những người mới bắt đầu, thường không để ý hoặc bị làm chùn bước trước số lượng phần mềm cần chọn, tôi đã thiết kế một số bài tập mạng với các bước làm chi tiết để nhằm làm ví dụ minh họa cho việc sử dụng đúng tập hợp các công cụ Tin sinh học để giải quyết một vấn đề đặt ra Các bài tập này được viết với ý định ban đầu là để dùng trên hệ điều hành UNIX Tuy nhiên có thể sửa đổi một chút để dùng chúng trong bất kỳ hệ điều hành nào có truy cập Internet
Trong quá trình chuẩn bị cuốn sách này, tôi đã tham khảo nhiều bài báo và sách liên quan đến các chủ đề Tin sinh học khác nhau Tôi rất tiếc không thể liệt kê ra tất cả các nguồn tài liệu nàyvì số lượng trang sách hạn chế trong một cuốn giáo trình nhập môn
Trang 13LỜI NÓI ĐẦU
tuy nhiên một số bài báo (chủ yếu là các bài báo tổng quan) và sách liên quan đến chủ
đề của mỗi chương được liệt kê ở phần "Đọc thêm", dành cho những ai muốn tìm hiểu
sâu hơn về chủ đề Về khía cạnh các chương trình được liệt kê trong sách, có rất nhiều
chương trình có thể dùng cho một mục đích Tôi xin lỗi đã không liệt kê một số
chương trình vào sách, nhưng không phải do tôi thiên vị chương trình này so với
chương trình kia
Một trong những thách thức của việc viết giáo trình là đề cập đủ kiến thức nền của
các phương pháp máy tính mà không trình bày quá nhiều công thức toán Tôi cố gắng
duy trì sự cân đối giữa giải thích thuật toán và khi đi sâu quá vào các chi tiết toán học,
một điều dễ khiến những người mới học và người ngoài ngành sinh học tính toán bị
choáng ngợp Điều này đôi khi rất khó đạt được do tôi có nguy cơ buộc phải hy sinh
một số thông tin gốc hoặc tôi sẽ khiến người đọc mất cảm hứng Để giảm thiểu điều
này tôi chọn sử dụng các biểu đồ thay vì công thức toán để minh họa một khái niệm
và giúp người đọc hiểu rõ khái niệm hơn
Tôi muốn cám ơn Khoa Sinh học Trường đại học Texas A&M đã cho tôi cơ hội dạy môn Tin sinh học, điều khiến tôi có thể soạn cuốn sách này Tôi xin cám ơn tất
cả bạn bè và đồng nghiệp trong Khoa Sinh học và Khoa Hóa Sinh học vì tình bạn của
các bạn Một số đồng nghiệp đã cho phép tôi tham gia vào dự án nghiên cứu của họ,
tạo điều kiện để tôi tiếp xúc với nhiều vấn đề nghiên cứu và giúp tôi rèn luyện kỹ
năng phân tích Tin sinh học Tôi đặc biệt biết ơn Lisa Peres ở Phòng thí nghiệm Mô
phỏng Phân tử ở Texas A&M, người có vai trò rất quan trọng trong việc giúp tôi thiết
lập và vận hành phần thực hành của môn Tin sinh học Tôi cũng rất biết ơn người
hướng dẫn luận văn Tiến sĩ của tôi, GS Carl Bauer ở Đại học Indiana, người đã cho
tôi cơ hội tuyệt vời để học sâu về tiến hóa và cây phát sinh loại, điều rất quan trọng để
giúp tôi đi theo ngành Tin sinh học Tôi cũng muốn cám ơn Katrina Halliday, biên
tập viên cho cuốn sách này ở Cambridge University Press, vì đã chấp nhận bản thảo
và đề xuất nhiều gợi ý giúp hoàn thiện bản thảo đầu tiên Làm việc với cô ấy là một
niềm vinh hạnh của tôi Tôi cũng muốn gửi lời cámoơn tới Cindy Fullerton và
Marielle Poss vì đã miệt mài lo liệu cho việc sửa bản bon của cuốn sách để đảm bảo
có được sản phẩm sau cùng có chất lượng
Jin Xiong
Trang 14xii
Trang 15PHẦN MỘT
Giới thiệu về Tin sinh học và Cơ sở dữ liệu
sinh học
1
Trang 162
Trang 17CHƯƠNG MỘT
Giới thiệu
Các công cụ định lượng và định tính là những công cụ không thể thiếu trong sinh học
hiện đại Hầu hết các nghiên cứu sinh học đều có liên quan đến ứng dụng một số công
cụ toán, thống kê hay máy tính để giúp tổng hợp dữ liệu thu được và tích hợp nhiều
dạng thông tin trong quá trình đi tìm câu trả lời một câu hỏi sinh học nào đó Ví dụ
liệt kê và thống kê cần cho việc đánh giá thí nghiệm hàng ngày, như pha loãng một
dung dịch hoặc đếm khuẩn lạc, vết tan hay cây và con trong môi trường tự nhiên Một
ví dụ kinh điển trong lịch sử di truyền là thí nghiệm của Mendel và Morgan, bằng cách
đếm biến dị di truyền ở thực vật và ruồi dấm, đã tìm ra quy luật di truyền Các ứng
dụng chuyên sâu hơn có thể gồm dùng tích phân để dự đoán tốc độ tăng trưởng dân số
hay thiết lập mô hình động học của xúc tác enzyme Đối với những ứng dụng định
lượng phức tạp hơn nữa, ta có thể thấy ứng dụng "lý thuyết trò chơi" vào mô hình
nghiên cứu hành vi và tiến hóa của động vật, hay dùng hàng triệu các phương trình vi
phân phi tuyến tính để mô hình hóa sự chảy của máu ở động mạch Dù ứng dụng là
phức tạp hay đơn giản, dễ nhận thấy hay khó nhận thấy, rõ ràng các công cụ toán học
và máy tính đã trở thành một phần của nghiên cứu sinh học hiện đại Tuy nhiên không
một ví dụ nào trong các ứng dụng định tính nói trên có thể được xem là thuộc lĩnh vực
tin sinh học, một lĩnh vực cũng có tính định lượng Để giúp người đọc hiểu sự khác
nhau giữa tin sinh học và các yếu tố khác của định lượng trong sinh học, chúng ta sẽ
tìm hiểu giải thích chi tiết về tin sinh học là gì ở các phần sau đây
Tin sinh học, sẽ được định nghĩa rõ hơn dưới đây, là một ngành học phân tích định
lượng thông tin về các đại phân tử sinh học với sự trợ giúp của máy tính Sự phát triển
tin sinh học thành một ngành học là kết quả của những tiến bộ trong cả sinh học phân
tử lẫn khoa học máy tính trong hơn 40-50 năm qua Mặc dù các tiến bộ này sẽ không
được mô tả ở đây, việc hiểu lịch sử ngành này sẽ có ích trong việc hiểu sâu sắc hơn các
nghiên cứu tin sinh học hiện tại Ở đây sẽ có một tóm tắt súc tích về lịch sử thời gian
các sự kiện nổi bật có tác động lớn đến sự phát triển của tin sinh học để giúp người đọc
hiểu hoàn cảnh
Những nỗ lực đầu tiên của tin sinh học có thể truy đến những năm 1960, mặc dù lúc
đó chưa tồn tại từ tin sinh học Có lẽ dự án tin sinh học lớn đầu tiên là do Margaret
Dayhoff tiến hành vào 1965, người đã xây dựng cơ sở dữ liệu trình tự protein đầu tiên
gọi là Atlas of Protein Sequence and Structure Sau đó vào đầu 1970, Brookhaven
National Laboratory thiết lập Protein Data Bank (PDB) để lưu trữ cấu trúc ba chiều của
protein Ở giai đoạn khởi đầu, cơ sở dữ liệu này chỉ chứa khoảng vài chục cấu trúc
3
Trang 184 GIỚI THIỆU
protein, so với số lượng hơn 123.000 cấu trúc ngày nay Thuật giải gióng cột trình tự được Needleman và Wunsch phát triển vào 1970 Đây là một bước cơ bản trong phát triển ngành tin sinh học, tạo điều kiện cho các nhà sinh học hiện đại so sánh trình tự
và tìm kiếm cơ sở dữ liệu (CSDL) một cách thường quy Thuật toán dự đoán cấu trúc protein được phát triển bởi Chou và Fasman vào 1974 Mặc dù nó khá thô sơ so với tiêu chuẩn ngày nay, nó mở ra một loạt các hướng phát triển trong dự đoán cấu trúc protein Trong những năm 1980 xuất hiện GenBank và sự phát triển thuật giải tìm kiếm nhanh CSDL FASTA của W Pearson và BLAST của S Altschul và cộng sự Dự
án giải trình tự genome người cuối 1980 tạo ra một cú hích mạnh để phát triển tin sinh học Sự phát triển và việc sử dụng rộng rãi internet vào những năm 1990 khiến cho việc truy cập tức thời, trao đổi và phân phát dữ liệu sinh học trở nên khả thi
Những điều nêu trên là những cột mốc quan trọng trong việc thiết lập ngành học này Lý do cơ bản tin sinh học trở nên quan trong như một ngành học là do tiến bộ trong nghiên cứu genome tạo ra một lượng dữ liệu sinh học khổng lồ chưa từng có Sự bùng bổ thông tin trình tự genome tạo ra một nhu cầu ngay tức thì phải có công cụ máy tính hiệu quả để quản lý và phân tích dữ liệu Sự phát triển các công cụ máy tính này phụ thuộc vào tri thức tạo ra từ nhiều lĩnh vực gồm Toán học, Thống kê học, Khoa học máy tính, Công nghệ thông tin và Sinh học phân tử Các lĩnh vực này kết hợp với nhau tạo ra một lĩnh vực định hướng thông tin trong sinh học và ngày nay
được biết đến là Tin sinh học
TIN SINH HỌC LÀ GÌ?
Tin sinh học là một lĩnh vực nghiên cứu đa ngành nằm ở vùng giao nhau của khoa học
máy tính và sinh học Rất nhiều định nghĩa có thể tìm thấy trên sách báo và mạng; một
số định nghĩa đầy đủ hơn các định nghĩa khác Ở đây chúng ta chấp nhận định nghĩa của Luscombe và cộng sự, định nghĩa tin sinh học là sự hợp nhất sinh học và tin học:
tin sinh học bao gồm công nghệ sử dụng máy tính để lưu trữ, tìm kiếm, làm việc và phân phối thông tin liên quan đến các đại phân tử sinh học như DNA, RNA và protein
Trọng tâm đặt vào việc dùng máy tính vì hầu hết các phân tích dữ liệu genome có tính lặp lại cao hoặc phức tạp về tính toán Việc sử dụng máy tính là không thể thiếu trong khai thác genome để thu thập thông tin và xây dựng tri thức
Tin sinh học khác với một lĩnh vực liên quan là Sinh học tính toán Tin sinh học chỉ
giới hạn ở phân tích trình tự, cấu trúc và chức năng của gene, genome và các sản phẩm
tương ứng của chúng, và thường được hiểu là sinh học phân tử tính toán Ngược lại Sinh
học tính toán bao gồm tất cả các lĩnh vực sinh học liên quan đến tính toán Ví dụ mô hình hóa bằng toán hệ sinh thái, động học quần thể, ứng dụng lý thuyết trò chơi vào nghiên cứu hành vi động vật, và phục hồi cây phát sinh loại họcsử dụng mẫu hóa thạch cũng sử dụng công cụ máy tính, nhưng không liên quan đến đại phân tử sinh học
construction using fossil records all employ computational tools, but do not necessarily involve biological macromolecules
Trang 19PHẠM VI
Ngoài sự khác biệt này, cũng cần chú ý là có những quan điểm khác về mối quan
hệ giữa hai thuật ngữ này Ví dụ một phiên bản định nghĩa tin sinh học là sự phát
triển và ứng dụng công cụ máy tính để quản lý tất cả các dữ liệu sinh học, trái lại sinh
học tính toán giới hạn ở phát triển các thuật toán lý thuyết để dùng cho tin sinh học
Sự lẫn lộn này về định nghĩa chỉ phản ánh rằng đây là một lĩnh vực nghiên cứu năng
động và phát triển rất nhanh
MỤC ĐÍCH
Mục đích của tin sinh học là để hiểu rõ hơn tế bào sống và cách thức hoạt động của
nó ở mức phân tử Bằng cách phân tích các trình tự và cấu trúc phân tử thô, tin sinh
học có thể tạo ra những tri thức mới và cung cấp một cái nhìn "tổng thể" về tế bào Lý
do có thể hiểu rõ hơn chức năng của tế bào bằng cách phân tích dữ liệu trình tự là vì
thông tin di truyền truyền theo "học thuyết trung tâm" của sinh học, trong đó DNA
được phiên mã thành RNA và rồi RNA được dịch mã thành protein Chức năng tế
bào chủ yếu do các protein thực hiện, và các chức năng này rốt cục thì do trình tự của
protein quyếtđịnh Vì thế tìm lời giải cho bài toán chức năng bằng phân tích trình tự
và cấu trúc đã chứng tỏ rất hiệu quả
PHẠM VI
Tin sinh học bao gồm hai lĩnh vực phụ: phát triển các công cụ máy tính và CSDL và
ứng dụng các công cụ và CSDL này để tạo ra tri thức sinh học để hiểu rõ hơn về các
sinh vật Hai lĩnh vực phụ này bổ trợ cho nhau Việc phát triển công cụ bao gồm viết
phần mềm phân tích trình tự, cấu trúc và chức năng, cũng như xây dựng và trông coi
các CSDL sinh học Các công cụ này được dùng trong ba lĩnh vực nghiên cứu sinh
học phân tử và genome học: phân tích trình tự phân tử, phân tích cấu trúc phân tử và
phân tích chức năng phân tử Việc phân tích dữ liệu sinh học thường làm nảy sinh
những vấn đề và thách thức mới, và đến lượt nó kích thích sự phát triển các công cụ
máy tính mới hơn và tốt hơn
Lĩnh vực phân tích trình tự gồm sắp gióng cột trình tự, tìm kiếm CSDL trình tự, tìm
kiếm motif, khám phá kiểu dạng, tìm kiếm gene và promoter, phục hồi mối quan hệ
tiến hóa, nối ráp và so sánh genome Phân tích cấu trúc bao gồm phân tích cấu trúc
protein và nucleic acid, so sánh, phân loại và dự đoán cấu trúc Phân tích chức năng
gồm phân tích biểu hiện gene, dự đoán tương tác giữa protein với protein, dự doán vị
trí nội bào của protein, phục chế con đường chuyển hóa và mô phỏng (Hình 1.1)
Ba khía cạnh này của phân tích tin sinh học không biệt lập nhau mà thường tương
tác để cho ra kết quả tổng hợp (xem Hình 1.1) Ví dụ, dự đoán cấu trúc protein phụ
thuộc vào dữ liệu gióng cột trình tự; phân tích nhóm gene biểu hiện dòi hỏi dùng
phương pháp lập cây phát sinh loại dùng trong phân tích trình tự Dự đoán promoter
Trang 206 GIỚI THIỆU
Hình 1.1: Tổng quan về các lĩnh vực phụ của tin sinh học Phát triển công cụ máy tính cho sinh học là
nền tảng của tất cả các phân tích tin sinh học Ứng dụng các công cụ rơi vào ba lĩnh vực chính: phân tích trình tự, phân tích cấu trúc và phân tích chức năng Có những môi quan hệ hữu cơ giữa các lĩnh vực phân tích, đại diện bởi các thanh ngang nối các ô chữ nhật với nhau
từ trình tự liên quan đến phân tích chức năng gene biểu hiện cùng nhau Chú thích gene liên quan đến nhiều hoạt động, gồm phân biệt vùng mang mã với vùng không mang mã, xác định trình tự protein dịch mã, xác định mối quan hệ tiến hóa giữa gene nghiên cứu với các gene đã biết; dự đoán chức năng tế bào đòi hỏi sử dụng công cụ từ
cả ba nhóm phân tích
ỨNG DỤNG
Tin sinh học không chỉ trở nên quan trọng cho nghiên cứu genome và sinh học phân
tử mà còn có tác động lớn đến nhiều lĩnh vực công nghệ sinh học và nghiên cứu Y Sinh Ví dụ nó có ứng dụng trong lĩnh vực thiết kế thuốc dựa trên tri thức, phân tích pháp y DNA, và ứng dụng công nghệ sinh học vào nông nghiệp Nghiên cứu máy tính tương tác protein-phối tử cung cấp nền tảng mới cho việc xác định nhanh các hợp chất gốc để sản xuất thuốc tổng hợp Tri thức về cấu trúc ba chiều của protein cho phép thiết kế phân tích có khả năng gắn với vị trí thụ thể của protein đích với ái lực và tính đặc hiệu cao Cách thiết kế dựa trên tin học này làm giảm đáng kể thời
Trang 21HẠN CHẾ
gian và giá cả để phát triển các thuốc mới mạnh hơn, ít hiệu ứng phụ hơn và ít độc
hơn so với cách làm mò mẫm truyền thống Trong pháp y, kết quả phân tích cây phát
sinh loại học đã được chấp nhận là một bằng chứng trước tòa hình sự Một số thống
kê Bayes và phương pháp dựa trên khả năng xảy ra đối với phân tích DNA đã được
vận dụng vào phân tích nhận dạng pháp y Cũng cần đề cập rằng genome học và tin
sinh học hiện rất có khả năng sẽ cách mạng hóa hệ thống y tế bằng cách phát triển
thuốc cho từng cá nhân Tốc độ giải trình tự genome cao kết hợp với các công nghệ
thông tin phức tạp sẽ cho phép bác sĩ nhanh chóng giải trình tự bộ gene của bệnh
nhân và dễ dàng phát hiện các đột biến sẽ gây hại và tiến hành chẩn đoán sớm và
điều trị hiệu quả bệnh Công cụ tin sinh học cũng được dùng trong nông nghiệp
CSDL genome thực vật và phân tích hồ sơ biểu hiện gene đóng vai trò quan trọng
trong phát triển các giống cây trồng mới có năng suất cao hơn và chống chịu bệnh tốt
hơn
HẠN CHẾ
Sau khi đã nhận thấy sức mạnh của tin sinh học, cũng cần nhận ra những hạn chế
của nó và tránh phụ thuộc quá nhiều hay kỳ vọng quá nhiều vào kết quả tin sinh học
Thực tế tin sinh hoc có nhiều hạn chế nội tại Có thể hình dung vai trò của tin sinh
học như vai trò tình báo trong chiến tranh Tình báo rõ ràng rất quan trọng, dẫn tới
chiến thắng trên chiến trường Đánh nhau mà không có tình báo sẽ rất kém hiệu quả
và nguy hiểm Có thông tin tình báo chính xác và ưu thế sẽ giúp xác định điểm yếu
của kẻ thù và cho thấy ý đồ và chiến lược của kẻ thù Thông tin thu được sẽ được
dùng để định hướng các lực lượng chiến đấu với kẻ thù và chiến thắng Tuy nhiên
dựa hoàn toàn vào tình báo có thể rất nguy hiểm nếu thông tin tình báo kém chính
xác Dựa dẫm nhiều quá vào thông tin tình báo kém chính xác có thể để lại hậu quả
khôn lường nếu không nói là thất bại thảm hại
Không phải nói quá khi so sánh chiến đấu với bệnh tật và các vấn đề sinh học
dùng tin sinh học giống như đánh nhau dùng tình báo Tin sinh học và sinh học thực
nghiệm là những hoạt động riêng biệt, nhưng bổ trợ cho nhau Tin sinh học dựa trên
thực nghiệm để lấy dữ liệu thô để phân tích Ngược lại nó cung cấp cách hiểu sâu sắc
hơn về dữ liệu thực nghiệm và gợi ý cho những nghiên cứu về sau Dự đoán bằng tin
sinh học không phải là một chứng minh chặt chẽ các khái niệm Chúng không thay
thế các phương pháp nghiên cứu thực nghiệm để thực sự kiểm tra giả thuyết Ngoài
ra chất lượng dự đoán tin sinh học phụ thuộc vào chất lượng dữ liệu và sự tinh xảo
của thuật toán.Dữ liệu trình tự từ các thí nghiệm thông lượng cao thường chứa lỗi
Nếu trình tự bị lỗi và chú thích không đúng, kết quả phân tích về sau cũng sẽ sai Đó
là lý do tại sao cần có một cái nhìn thực tế về vai trò của tin sinh học
Trang 228 GIỚI THIỆU
Tin sinh học không phải là một lĩnh vực nghiên cứu chín muồi Hầu hết thuật giải đều thiếu khả năng và độ tinh xảo để phản ánh thực tế Chúng thường đưa ra những
dự đoán vô nghĩa khi đặt vào các tình huống sinh học Ví dụ lỗi trong gióng cột trình
tự sẽ ảnh hưởng kết quả phân tích cấu trúc hay cây phát sinh loại Kết quả tính toán cũng phụ thuộc vào sức mạnh của máy tính Nhiều trường hợp không thể dùng các thuật giải vét cạn và chính xác vì tốc độ máy tính không đáp ứng Thực tế thì nhiều khi phải dùng đến các thuật toán ít chính xác nhưng nhanh hơn Đây là một sự trả giá cần thiết giữa độ chính xác và tính khả thi trong tính toán Vì thế cần nhớ rằng các chương trình máy tính dễ cho kết quả lỗi Luôn thận trọng khi gắng hiểu và giải thích kết quả dự đoán Tốt nhất là nên tập thói quen dùng nhiều chương trình nếu có
và tiến hành nhiều đánh giá Ta sẽ có dự đoán chính xác hơn nếu có sự đồng thuận khi so sánh kết quả của các thuật toán và chương trình khác nhau
vì nó đòi hỏi tích hợp nhiều lĩnh vực tri thức trong sinh học cũng như các công cụ toán học và thống kê học phức tạp Để hiểu sâu hơn về chức năng tế bào, cần có mô hình toán mô phỏng nhiều phản ứng nội bào Sự mô phỏng tất cả các quá trình tế
bào được gọi là sinh học hệ thống Đạt được mục tiêu này sẽ là một bước nhảy vọt về
việc hiểu cơ thể sống Đó là lý do tại sao mô phỏng hệ thống và tích hợp được xem là tương lai của tin sinh học Mục tiêu cuối cùng là biến sinh học từ một ngành khoa học định tính sang một ngành khoa học định lượng và có khả năng dự đoán Đây thực sự là một thời điểm thú vị cho tin sinh học
ĐỌC THÊM
Attwood, T K., and Miller, C J 2002 Progress in bioinformatics and the importance of being
earnest Biotechnol Annu Rev 8:1–54.
Golding, G B 2003 DNA and the revolution of molecular evolution, computational biology,
and bioinformatics Genome 46:930–5.
Goodman, N 2002 Biological data becomes computer literature: New advances in
bioinfor-matics Curr Opin Biotechnol 13:68–71.
Trang 23ĐỌC THÊM
Hagen. J B 2000 The origin of bioinformatics Nat Rev Genetics 1:231–6.
Kanehisa, M., and Bork, P 2003 Bioinformatics in the post-sequence era Nat Genet 33
Suppl:305–10.
Kim, J H 2002 Bioinformatics and genomic medicine Genet Med 4 Suppl:62S–5S
Luscombe, N M., Greenbaum, D., and Gerstein, M 2001 What is bioinformatics? A proposed
definition and overview of the field Methods Inf Med 40:346–58.
Ouzounis, C A., and Valencia, A 2003 Early bioinformatics: The birth of a discipline – A personal
view Bioinformatics 19:2176–90.
Trang 24CHƯƠNG HAI
Giới thiệu về cơ sở dữ liệu sinh học
Một trong những đặc điểm đặc trưng của nghiên cứu genome thời hiện đại là việc tạo
ra một lượng dữ liệu thô khổng lồ Do lượng dữ liệu genome tăng lên, cần có phương pháp tính toán để quản lý số lượng dữ liệu khổng lồ này Do đó khó khăn đầu tiên của thời kỳ nghiên cứu genome là lưu trữ và xử lý một lượng thông tin đồ sộ thông qua thiết lập và sử dụng cơ sở dữ liệu máy tính Việc phát triển cơ sở dữ liệu để xử lý lượng dữ liệu sinh học rất lớn là nhiệm vụ cơ bản của Tin sinh học Chương này giới thiệu một số khái niệm cơ bản liên quan đến cơ sở dữ liệu, dạng, thiết kế và kiến trúc của cơ sở dữ liệu sinh học Chương sẽ nhấn mạnh đến tìm kiếm dữ liệu từ các cơ sở
dữ liệu sinh học chính như GenBank
CƠ SỞ DỮ LIỆU LÀ GÌ?
Cơ sở dữ liệu (CSDL) là một kho lưu trữ máy tính hóa dùng để lưu trữ và sắp xếp dữ
liệu theo cách để dễ dàng tìm kiếm thông tin thông qua nhiều tiêu chí tìm kiếm CSDL bao gồm phần cứng máy tính và phần mềm để quản lý dữ liệu Mục đích chính của việc xây dựng CSDL là sắp xếp dữ liệu theo tập hợp các mẫu tin có cấu trúc để giúp dễ dàng tìm kiếm dữ liệu Mỗi mẫu tin, cũng được gọi là bản ghi (record), chứa các trường để ghi các hạng mục dữ liệu, ví dụ trường dành cho tên họ, số điện thoại, địa chỉ, ngày tháng năm Để tìm kiếm một mẫu tin từ CSDL người dùng có thể xác định một mẩu
thông tin gọi là giá trị, sẽ tìm thấy ở một trường nào đó và máy tính sẽ trả lại toàn bộ
dữ liệu, gồm nhiều mẫu tin của nhiều trường Quá trình này gọi là truy vấn
Mặc dù tìm kiếm dữ liệu là mục đích chính của tất cả CSDL, CSDL sinh học có một
yêu cầu cao hơn gọi là khám phá tri thức mới, nói đến việc xác định mối liên hệ giữa
các mẫu thông tin mà khi mới nhập vào không dễ dàng nhận biết Ví dụ CSDL chứa trình tự thô có thêm tính năng tìm kiếm trình tự tương đồng hoặc motif bảo tồn Các đặc tính này hỗ trợ việc tìm thấy tri thức sinh học mới từ dữ liệu thô
LOẠI CƠ SỞ DỮ LIỆU
Ban đầu tất cả CSDL đều dùng định dạng flat file, tức là một file văn bản chứa nhiều mẫu tin ngăn cách bởi các dấu giới hạn, một ký tự đặc biệt ví dụ như thanh đứng (| )
Trong mỗi mẫu tin lại có nhiều trường được chia cách bởi các dấu chấm phẩy hoặc 10
Trang 25LOẠI CƠ SỞ DỮ LIỆU
dấu cách Ngoại trừ các giá trị thô ở mỗi trường, toàn bộ file văn bản không chứa bất kỳ
hướng dẫn ẩn nào để máy tính tìm kiếm một thông tin cụ thể hoặc lập một báo cáo dựa
trên các trường nhất định của mỗi mẫu tin File văn bản có thể xem là một bảng Vì
thế để tìm kiếm thông tin trong một flat file, may tính phải đọc qua toàn bộ file, một
quá trình rõ ràng là không hiệu quả Đối với một CSDL nhỏ thì có thể làm như vậy,
nhưng dạng CSDL này trở nên rất khó để tìm thông tin khi kích thước CSDL tăng lên
hoặc dạng dữ liệu phức tạp hơn Thực tế việc tìm kiếm trong các file như vậy thường
gây lỗi đơ máy do tính chất đòi hỏi quá nhiều bộ nhớ của thủ thuật
Để hỗ trợ việc truy cập và tìm kiếm dữ liệu, các phần mềm tinh xảo để tổ chức, tìm
kiếm và truy cập dữ liệu đã được xây dựng Chúng được gọi là hệ thống quản lý cơ sở
dữ liệu Các hệ thống này không chỉ chứa dữ liệu thô mà còn có các lệnh hướng dẫn
giúp xác định các mối quan hệ ẩn giữa các mẫu tin Mục đích của việc lập cấu trúc dữ
liệu là để dễ dàng thực hiện tìm kiếm và kết hợp nhiều mẫu tin khác nhau để cho ra
một báo cáo tìm kiếm sau cùng.Tùy thuộc vào loại cấu trúc dữ liệu, hệ thống quản lý
cơ sở dữ liệu có thể được phân thành hai loại: hệ thống quản lý cơ sở dữ liệu quan hệ và
hệ thống quản lý cơ sở dữ liệu hướng đối tượng Và vì thế các CSDL dùng các hệ thống
quản lý này được biết đến dưới tên gọi CSDL quan hệ và CSDL hướng đối tượng
Cơ sở dữ liệu quan hệ
Thay vì dùng một bảng duy nhất như trong CSDL flat file, CSDL quan hệ dùng tập hợp
các bảng để sắp xếp dữ liệu Mỗi bảng, cũng được gọi là một quan hệ, bao gồm các cột
và hàng Cột đại diện cho trường và hàng đại diện cho giá trị tập tin ở các trường Cột
trong bảng được chỉ dẫn (index) theo một đặc điểm chung gọi là đặc tính, để có thể đối
chiếu ở các bảng khác Để thực hiện một truy vấn ở CSDL quan hệ, hệ thống sẽ chọn
các dữ liệu liên kết với nhau ở các bảng khác nhau và kết hợp thông tin thành một báo
cáo Vì thế thông tin cụ thể có thể tìm thấy nhanh hơn so với CSDL dạng flat file
Có thể xây dựng CSDL quan hệ bằng một ngôn ngữ lập trình đặc biệt gọi là SQL
(structured query language) Việc tạo loại CSDL này có thể mất rất nhiều thời gian
trong giai đoạn thiết kế Nhưng sau khi đã tạo xong CSDL ban đầu, có thể nhập các
loại dữ liệu mới vào mà không cần thay đổi các bảng có sẵn Việc tìm kiếm dữ liệu và
thu thập dữ liệu để làm báo cáo trả lời truy vấn sẽ rất chân phương
Đây là một ví dụ đơn giản về thông tin môn học của sinh viên ở dạng flat file, chứa
mẩu tin về năm sinh viên ở bốn bang khác nhau, đăng ký học các môn khác nhau
(Hình 2.1) Mỗi mẩu tin được chia cách bởi thanh đứng và chứa bốn trường về tên,
bang, mã môn học và tên môn học Một CSDL quan hệ cũng được lập để lưu các
thông tin giống như vậy, trong đó dữ liệu được cấu trúc thành các bảng Hình 2.1 cho
thấy cách thức hoạt động của một CSDL quan hệ Ở mỗi bảng, dữ liệu có cùng tiêu
chí được nhóm lại với nhau Các bảng khác nhau có thể được kết nối nhờ có cùng
loại dữ liệu, giúp tìm nhanh thông tin cụ thể
Trang 2612 GIỚI THIỆU VỀ CƠ SỞ DỮ LIỆU
Hình 2.2 Ví dụ về xây dựng một CSDL quan hệ cho thông tin môn học của năm sinh viên ban đầu được
trình bày dạng flat file Bằng cách lập ba bảng khác nhau liên kết bởi các trường chung, ta có thể dễ dàng truy cập và thu thập dữ liệu.
Ví dụ nếu ta đặt câu hỏi các sinh viên bang Texas học môn gì? CSDL trước tiên sẽ tìm kiếm trong trường bang (State) ở bảng A và tìm Texas Kết quả trả lại sẽ là sinh viên
số 1 và 5 Các sinh viên này cũng được liệt kê ở bảng B, tương ứng với môn Biol 689
và Math 172 Bằng cách đi tới bảng C, có thể tra tên chính xác của các môn học có mã
số vừa tìm thấy Báo cáo sau cùng sẽ cho thấy các sinh viên quê ở bang Texas học môn Bioinformatics và Calculus (Vi tích phân) Tuy nhiên nếu cũng truy vấn thông tin này ở flat file sẽ đòi hỏi máy tính đọc hết toàn bộ văn bản trong file, từng chữ một, rồi lưu thông tin vào bộ nhớ tạm thời, và sau đó đánh dấu các mẩu tin có chứa từ
Texas Nếu CSDL nhỏ thì điều này dễ làm Để truy vấn một CSDL lớn mà dùng flat
file thì rõ ràng máy tính khó đảm đương nổi
Cơ sở dữ liệu hướng đối tượng
Một trong những vấn đề với CSDL quan hệ là các bản không phản ánh mối quan hệ cấp bậc phức tạp giữa các hạng mục dữ liệu Để khắc phục vấn đề này CSDL hướng đối tượng được xây dựng để lưu dữ liệu dưới dạng đối tượng Ở ngôn ngữ lập trình hướng đối tượng, một đối tượng được xem là một đơn vị kết hợp dữ liệu và các phép toán để tác động lên dữ liệu đó CSDL được cấu trúc sao cho các đối tượng được liên kết với nhau bằng tập hợp các con trỏ xác định mối quan hệ định trước giữa các đối tượng Tìm kiếm CSDL sẽ gồm định vị qua các đối tượng nhờ sự giúp đỡ của các con trỏ nối các đối tượng khác nhau Các ngôn ngữ lập trình như C++ được dùng để tạo ra CSDL hướng đối tượng
Hệ thống CSDL hướng đối tượng linh động hơn; dữ liệu được cấu trúc theo cấp bậc
Bằng cách đó nhiệm vụ lập trình sẽ đơn giản hơn cho các đối tượng đã biết quan hệ, ví
The object-oriented database system is more flexible; data can be structured based on hierarchical relationships By doing so, programming tasks can be simplified for data that are known to have complex relationships, such as multimedia data However,
Trang 27CƠ SỞ DỮ LIỆU SINH HỌC 13
Hình 2.2 : Ví dụ về xây dựng và truy ván một CSDL hướng đối tượng dùng thông tin như Hình 2.1 Ba
đối tượng được xây dựng và kết nối với nhau bằng các con trỏ dưới dạng mũi tên Việc tìm một thông tin
cụ thể phụ thuộc vào định hướng qua các đối tượng nhờ con trỏ Để đơn giản hóa một số con trỏ không
được thể hiện trong hình
dụ dữ liệu đa truyền thông Tuy nhiên loại CSDL này thiếu tính chặt chẽ về cơ sở
Toán có ở CSDL quan hệ Ngoài ra còn có nguy cơ một số mối quan hệ giữa các đối
tượng bị thể hiện sai Một số CSDL hiện tại vì thế đưa cả hai loại ngôn ngữ CSDL vào
để lập trình, tạo nên hệ thống quản lý CSDL quan hệ - hướng đối tượng
Thông tin về môn học ở trên (Hình 2.1) có thể được dùng để tạo nên một CSDL
hướng đối tượng Có thể thiết kế ba đối tượng: đối tượng sinh viên, đối tượng môn
học và đối tượng bang Mối quan hệ giữa chúng được chỉ định bằng đường thẳng và
mũi tên (Hình 2.2) Để trả lời câu hỏi như trên - sinh viên quê Texas học môn gì - ta
chỉ cần bắt đầu từ Texas trong đối tượng bang, và nó có con trỏ chỉ đến sinh viên 1 và
5 trong đối tượng sinh viên Các con trỏ ở đối tượng sinh viên trỏ tới môn học mà
mỗi sinh viên đang học Vì thế chỉ cần đi một cách đơn giản qua các đối tượng kết
nối với nhau sẽ cho ta báo cáo cuối cùng
CƠ SỞ DỮ LIỆU SINH HỌC
CSDL sinh học hiện tại sử dụng cả ba loại CSDL: flat file, quan hệ và hướng đối
tượng Mặc dù có những bất tiện của flat file trong quản lý CSDL, nhiều CSDL sinh
học vẫn dùng định dạng này Lý do là hệ thống nàyít đòi hỏi thiết kế và kết quả tìm
kiếm dễ hiểu đối với các nhà sinh học
Trang 2814 GIỚI THIỆU VỀ CƠ SỞ DỮ LIỆU SINH HỌC
Dựa vào dữ liệu mà nó chứa, CSDL sinh học có thể được chia làm ba nhóm: CSDL
sơ cấp, CSDL thứ cấp và CSDL chuyên biệt CSDL sơ cấp chứa dữ liệu sinh học từ thí
nghiệm Chúng là kho lưu trữ các trình tự thô hoặc cấu trúc thô do các nhà khoa học
gửi lên Genbank và Protein Data Bank (PDB) là các ví dụ của CSDL sơ cấp CSDL thứ cấp chứa các thông tin đã được xử lý và chỉnh sửa bằng tay và bằng máy, dựa trên
thông tin gốc từ CSDL sơ cấp CSDL trình tự protein dịch mã chứa các chú thích chức năng thuộc nhóm này Một số ví dụ là SWISS-Prot và Protein Information Resources (PIR) (nối tiếp Altas trình tự và cấu trúc protein của Margaret Dayhoff)[Chương 1]) CSDL chuyên biệt là CSDL phục vụ cho các mục đích nghiên cứu đặc thù Ví dụ Flybase, HIV sequence database, và Ribosomal Database Project là các CSDL chuyên biệt về một sinh vật hoặc một loại dữ liệu Danh sách một số CSDL thường dùng được cung cấp ở Bảng 2.1
Cơ sở dữ liệu sơ cấp
Có ba CSDL trình tự miễn phí chính lưu trữ các trình tự nucleic acid thô và do các nhà nghiên cứu trên khắp thế giới gửi lên: GenBank, European Molecular Biology Laboratory (EMBL) database và DNA Data Bank of Japan (DDBJ) Hầu hết dữ liệu trong các CSDL này đều được tác giả đóng góp trực tiếp với chú thích tối thiểu Một
số trình tự, đặc biệt là những trình tự công bố từ những năm 1980 được đội ngũ nhân viên quản lý CSDL nhập vào bằng tay
Hiện tại việc đăng trình tự lên GenBank, EMBL hay DDBJ là một điều kiện bắt buộc
để công bố ở hầu hết các tạp chí khoa học để đảm bảo dữ liệu phân tử được truy cập miễn phí Ba CSDL miễn phí này phối hợp chặt chẽ với nhau và trao đổi dữ liệu mới hàng ngày Cùng nhau chúng tạo nên International Nucleotide Sequence Database Collaboration Điều này có nghĩa là chỉ cần kết nối với bất kỳ CSDL nào ta đều truy cập vào cùng một tập hợp dữ liệu trình tự nucleotide Mặc dù ba CSDL đều chứa dữ liệu thô giống hệt, mỗi CSDL có một kiểu định dạng riêng để trình bày dữ liệu
May thay đối với cấu trúc ba chiều của các đại phân tử sinh học, chỉ có một CSDL tập trung là PDB CSDL này lưu tọa độ nguyên tử của các đại phân tử (cả protein lẫn nucleic acid) được xác định bằng chụp ảnh tinh thể tia X và NMR (cộng hưởng từ hạt nhân) Nó sử dụng định dạng flat file để trình bày tên protein, tác giả, chi tiết thí nghiệm, cấu trúc bậc hai, nhân tố phụ và tọa độ nguyên tử Giao diện web của PDB cũng cung cấp công cụ cho phép xem và thao tác đơn giản Chi tiết thêm về CSDL này và định dạng của nó được cung cấp ở Chương 12
Cơ sở dữ liệu thứ cấp
Thường ở CSDL sơ cấp chú thích về dữ liệu rất ít Để biến thông tin trình tự thô thành tri thức sinh học phức tạp, cần phải xử lý thông tin hậu kỳ nhiều Điều này đòi
Trang 29CƠ SỞ DỮ LIỆU SINH HỌC 15
BẢNG2.1 Các cơ sở dữ liệu sinh học chính có thể truy cập trên web
Châu Âu Cổng NCBI cho nhiều CSDL khác
nhau CSDL Proteomics
CSDL của Drosophila
genome CSDL cấu trúc bậc hai của protein CSDL trình tự Nucleotide sơ cấp
Y và Sinh học Trình tự RNA ribosome và cây phát sinh loại xây dựng từ các trình tự này
Hệ thống tìm kiếm trình tự chung CSDL trình tự protein có coi sóc
CSDL thông tin về Arabidopsis
www.ebi.ac.uk/embl/index.html www.ncbi.nlm.nih.gov/gquery/gquery.fcgi http://us.expasy.org/
http://flybase.bio.indiana.edu/
www.bioinfo.biocenter.helsinki.fi:8080/dali/index.html www.ncbi.nlm.nih.gov/Genbank
www.hiv.lanl.gov/content/index www.ebi.ac.uk/microarray
www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM http://pir.georgetown.edu/pirwww/pirhome3.shtml www.ncbi.nlm.nih.gov/PubMed
http://rdp.cme.msu.edu/html http://srs6.ebi.ac.uk www.ebi.ac.uk/swissprot/access.html www.arabidopsis.org
hỏi cần có CSDL thứ cấp, trong đó có thông tin trình tự do máy tạo ra từ CSDL sơ
cấp Mức độ xử lý thông tin sơ cấp là rất khác nhau ở các CSDL thứ cấp khác nhau;
một số đơn giản chỉ là lưu trình tự dịch mã từ khung đọc của DNA, trong khi một số
các cung cấp thêm chú thích và thông tin mức độ cao hơn về cấu trúc và chức năng
Một ví dụ quan trọng của CSDL thứ cấp là SWISS-PROT, cung cấp chú thích trình
tự chi tiết bao gồm cấu trúc, chức năng và họ protein của trình tự Dữ liệu trình tự
chủ yếu lấy từ TrEMBL, một CSDL trình tự nucleic acid dịch mã lưu giữ trong CSDL
Trang 3016 GIỚI THIỆU VỀ CƠ SỞ DỮ LIỆU SINH HỌC
EMBLE Việc gi chú cho mỗi bản ghi được trông coi bởi chuyên gia vì vì thế chất lượng rất tốt Chú thích protein bao gồm chức năng, cấu trúc miền, vị trí xúc tác, gắn nhân tố phụ, biến đổi hậu dịch mã, thông tin con đường chuyển hóa, bệnh liên quan
và độ tương tự với các trình tự khác Hầu hết các thông tin này lấy từ các bài báo khoa học và nhập vào bởi người trông coi CSDL Các chú thích cung cấp giá trị thặng dư đáng kể cho mẩu tin trình tự thô ban đầu Mẫu tin cũng cung cấp liên kết đến các nguồn trực tuyến khác mà ta có thể quan tâm Các đặc điểm khác như độ trùng lặp thấp và độ tích hợp cao với các CSDL sơ cấp và thứ cấp khác khiến cho SWISS-PROT rất được ưa chuộng bởi các nhà sinh học
Một nỗ lực gần đây để kết hợp SWISS-PROT, TrEMBL và PIR dẫn tới sự ra đời của CSDL UniProt, có mức độ chứa cao hơn cả ba CSDL kia đồng thời duy trì được đặc điểm của SWISS-PROT như độ trùng lặp thấp, có liên kết đến các CSDL khác và chất lượng chú thích cao
Cũng có CSDL thứ cấp về phân loại protein theo chức năng và cấu trúc CSDL Pfam và Blocks (mô tả ở Chương 7) chứa các thông tin gióng cột protein cũng như motif và kiểu dạng cấu trúc, có thể dùng để phân loại họ protein và suy luận về chức năng protein CSDL DALI (chương 13) là một CSDL cấu trúc thứ cấp của protein có vai trò quan trọng trong phân loại cấu trúc protein và dự đoán cấu trúc theo phương pháp nhận diện dạng gập cuộn (Chương 15) và xác định mối quan hệ tiến hóa xa ở các protein
Cơ sở dữ liệu chuyên hóa
CSDL chuyên hóa thường phục vụ một nhóm nghiên cứu cụ thể hoặc tập trung vào một sinh vật cụ thể Dữ liệu của các CSDL này có thể là trình tự hoặc các thông tin khác Trình tự trong các CSDL này có thể giống với các CSDL sơ cấp nhưng cũng có thể có trường hợp dữ liệu được tác giả trực tiếp gửi vào Vì chúng được trông nom bởi chuyên gia trong ngành, chúng có cấu trúc riêng và các chú thích bổ sung cho các trình tự Nhiều CSDL genome theo phân loại học rơi và nhóm này Ví dụ như Flybase, Wormbase, AceDB và TAIR (Bảng 2.1) Ngoài ra cũng có các CSDL chuyên biệt chứa thông tin từ phân tích thực nghiệm Ví dụ CSDL EST ở GenBank và CSDL biểu hiện gene Microarray ở European Bioinformatics Institute (EBI) là một số CSDL biểu hiện gene đang có hiện nay
Liên kết lẫn nhau giữa các cơ sở dữ liệu sinh học
Như đã đề cập CSDL là nơi lưu trữ và phân phối các thông tin thô về trình tự và cấu trúc Chúng cung cấp dữ liệu cho gần như tất cả các CSDL sinh học giống như Hãng thông tấn cung cấp tin cho đài địa phương, để rồi nhà đài biên tập tin trước khi phát
để phù hợp cho mục đích riêng Vì thế đối với cộng đồng các nhà khoa học, thường các CSDL thứ cấp và chuyên biệt cần phải được kết nối với các CSDL sơ cấp và để
Trang 31CÁC VẤN ĐỀ CỦA CƠ SỞ DỮ LIỆU SINH HỌC
tiếp tục đăng thông tin trình tự Ngoài ra người dùng thường cần thông tin ở các
CSDL sơ cấp lẫn thứ cấp để làm việc vì thông tin từ một CSDL thường không đủ
Thay vì để người dùng phải đến từng CSDL, sẽ tiện hơn nếu các bản ghi liên quan
trong một CSDL được chia xẻ và liên kết với các bản ghi trong các CSDL khác chứa
thêm thông tin Những nhu cầu này đòi hỏi phải liên kết các CSDL lại với nhau
Rào cản chính để liên kết các CSDL sinh học lại là tính bất tương thích về định dạng
của các CSDL sinh học hiện tại sử dụng cả ba loại cấu trúc CSDL - flat file, quan hệ và
hướng đối tượng Sự không tương đồng về cấu trúc CSDL hạn chế trao đổi thông tin
giữa các CSDL Một giải pháp cho việc kết nối mạng lưới các CSDL là dùng một ngôn
ngữ xác định gọi là Common Object Request Broker Architecture (COBRA), cho
phép các chương trình CSDL ở các nơi khác nhau giao tiếp với nhau thông qua "giao
diện mối lái" mà không cần phải hiểu cấu trúc của mỗi CSDL Nó hoạt động như
HyperText Markup Language (HTML) dùng để lập trình web, đánh dấu các bản ghi
bằng một tập hợp chung các nhãn
Một cách thức tương tự gọi là eXtensible Markup Langue (XML) cũng giúp liên
kết các CSDL Ở định dạng này, mỗi mẫu tin được chia nhỏ ra thành từng phần nhỏ
được đánh dấu bằng các nhãn phân cấp Cấu trúc CSDL kiểu này cải thiện đáng kể
việc phân phát và trao đổi các chú thích trình tự phức tạp giữa các CSDL Gần đây
một cách thức trao đổi thông tin Tin sinh học chuyên biệt đã được xây dựng, cho
phép một máy tính tiếp xúc với nhiều server và tìm thông tin chú thích trình tự nằm
rải rác liên quan đến một trình tự nhất định và tích hợp kết quả vào một báo cáo kết
hợp duy nhất
CÁC VẤN ĐỀ CỦA CSDL SINH HỌC
Một trong những vấn đề liên quan đến các CSDL sinh học là việc dựa dẫm quá nhiều
vào thông tin trình tự và các chú thích mà không cần biết độ tin cậy của thông tin
Một sự thực thường bị bỏ qua là có rất nhiều lỗi trong CSDL trình tự Chú thích gene
cũng đôi khi có thể sai hoặc không đầy đủ Tất cả các loại lỗi này có thể được chuyển
tới các CSDL khác, khiến cho lỗi bị nhân lên nhiều lần
Hầu hết lỗi trong trình tự nucleotide là do lỗi giải trình tự Một số lỗi này gây ra
dịch khung khiến cho việc xác định gene khó khăn hơn hoặc không thể dịch mã ra
protein Đôi khi trình tự gene bị nhiễm bởi trình tự vector tạo dòng Nhìn chung lỗi
thường hay gặp ở các trình tự tạo ra trước những năm 1990; chất lượng trình tự từ đó
trở đi đã cải thiện mạnh Vì thế cần để ý khi làm việc với các trình tự đã công bố lâu
Trùng lặp là một vấn đề quan trọng khác ảnh hưởng đến CSDL sơ cấp Rất nhiều
thông tin trong CSDL sơ cấp bị trùng lặp, vì nhiều lý do khác nhau Các lý do trùng
Trang 3218 GIỚI THIỆU VỀ CƠ SỞ DỮ LIỆU SINH HỌC
lặp bao gồm gửi đăng các trình tự giống hoặc có trùng nhau bởi cùng một tác giả hay của nhiều tác giả, sửa đổi lại chú thích, đăng hàng loạt các dữ liệu EST (Chương 18)
và quản lý CSDL kém không phát hiện lỗi trùng lặp Điều này khiến cho một số CSDL sơ cấp cực kỳ lớn và khó khăn cho việc tìm kiếm
Đã có những bước để giảm sự trùng lặp National Center for Biotechnology
Information (NCBI) đã tạo ra CSDL không trùng lặp, gọi là RefSeq, trong đó các
trình tự giống nhau từ cùng một loài và các đoạn trình tự liên quan được nhập vào một bản ghi duy nhất Trình tự protein suy ra từ cùng trình tự DNA được liên kết rõ ràng để cho biết chúng là những bản ghi liên quan Các biến thể trình tự từ cùng một loài với sự khác nhau nhỏ, có khả năng do lỗi giải trình tự, sẽ được xem là các bản ghi riêng rẽ Loại CSDL được trông coi kỹ như vậy có thể được xem là một CSDL thứ cấp
Như đã đề cập CSDL SWISS-PROT cũng có tính trùng lặp tối thiểu đối với các trình tự protein so với các CSDL khác Một cách để giải quyết vấn đề trùng lặp là tạo
ra CSDL nhóm-trình tự như UniGene (xem Chương 18) trong đó các trình tự EST của cùng một gene được nhập lại với nhau làm một
Một vấn đề hay gặp khác là chú thích sai Thường cùng một trình tự gene nhưng
có tiêu đề khác nhau sẽ nằm ở các bản ghi khác nhau gây nhầm lần dữ liệu Hoặc ngược lại các gene không họ hàng lại có cùng tên trong CSDL Để giảm nhẹ vấn đề đặt tên gene, cần chú thích lại gene và protein dùng một tập hợp các từ vựng chung
và có kiểm soát để mô tả gene và protein Mục đích là cung cấp một hệ thống nhất quán, không bất nhất cho tất cả các gene và protein Một ví dụ nổi bật của nỗ lực này
là Gene Ontology ( xem Chương 17).
Một số sự bất nhất trong chú thích có thể thực sự do sự bất đồng ý kiến giữa các nhà nghiên cứu trong cùng một lĩnh vực; một số khác có thể do việc gán tên một cách bất cẩn bởi tác giả gửi trình tự Lại có những lỗi đơn giản là do bỏ sót hoặc lỗi đánh máy Lỗi trong chú thích sẽ có tác hại to lớn vì phần lớn các trình tự mới được gán chức năng dựa trên độ tương tự với các trình tự có sẵn trong CSDL đã được chú thích Vì thế một chú thích sai có thể được truyền qua tất cả các gene tương đồng trong toàn bộ CSDL Có thể các lỗi này sẽ sửa được bằng máy tính bằng cách nghiên cứu họ protein và miền Tuy nhiên đối với các lỗi khác đôi khi phải sửa chú thích bằng cách làm thí nghiệm
TÌM KIẾM THÔNG TIN Ở CƠ SỞ DỮ LIỆU SINH HỌC
Như đã đề cập, mục tiêu chính của xây dựng CSDL là để giúp người dùng dễ truy cập
và dữ liệu được lưu Có một số hệ thống tìm kiếm thông tin dành cho dữ liệu sinh học Hệ thống tìm kiếm phổ biến nhất là Entrez và Sequence Retrieval System (SRS) cho phép người dùng truy cập vào nhiều CSDL để lấy các thông tin ở dạng kết quả tích hợp
Trang 33TÌM KIẾM THÔNG TIN Ở CƠ SỞ DỮ LIỆU SINH HỌC
Để truy vấn các câu lệnh phức tạp trong một CSDL thường đòi hỏi phải sử dụng
các toán tử logic, tức là ta sẽ nối các từ khóa với nhau bằng các toán tử như AND, OR
hay NOT để chỉ cho máy biết mối quan hệ giữa các từ khóa dùng trong tìm kiếm
AND có nghĩa là kết quả tìm kiếm phải chứa cả hai từ; OR nghĩa là tìm kiếm kết quả
chứa một trong hai từ; NOT loại trừ ra khỏi kết quả tìm kiếm chứa một trong hai từ
Ngoài ra ta có thể dùng dấu ngoặc () để định nghĩa một khái niệm nếu trong tìm
kiếm có nhiều từ và mối quan hệ để máy tính biết phải thực hiện tìm kiếm nào trước
Dấu ngoặc kép cũng có thể dùng để xác định cụm từ chính xác cần tìm Hầu hết các
phầm mềm tìm kiếm ở các CSDL miễn phí đều dùng các dạng toán tử này
Entrez
NCBI phát triển và duy trì hệ thống Entrez (đọc là on-tray), một hệ thống tìm kiếm
thông tin ở CSDL sinh học Nó là một cổng cho phép tìm kiếm nhiều loại dữ liệu
khác nhau, bao gồm thông tin trình tự gene có chú thích, thông tin cấu trúc, cũng
như tài liệu trích dẫn và tóm tắt bài báo, bài báo khoa học đầy đủ và dữ liệu phân loại
Đặc điểm chính của Entrez là khả năng tích hợp thông tin do có sự kết nối dữ liệu
giữa các CSDL trên NCBI dựa trên mối quan hệ có sẵn và logic giữa các bản ghi Điều
này rất tiện: người dùng không cần đến nhiều CSDL nằm ở các nơi khác nhau Ví dụ
ở trang thông tin trình tự nucleotide ta có thể tìm thấy đường link đến trình tự
protein dịch mã, dữ liệu bản đồ genome hay link đến bài báo liên quan trên Pubmed,
và link đến cấu trúc protein nếu có
Để dùng Entrez hiệu quả đòi hỏi phải nắm được các đặc điểm chính của phần
mềm tìm kiếm Có một số lựa chọn chung cho tất cả CSDL trên NCBI để giúp thu
hẹp tìm kiếm Một lựa chọn là "Limits" giúp giới hạn tìm kiếm trong một tập nhỏ dữ
liệu của một CSDL (ví dụ tìm kiếm trong trường tác giả hay ngày xuất bản) hay một
loại dữ liệu (ví dụ DNA/RNA lục lạp thể) Một lựa chọn nữa là "Preview/Index", nối
các tìm kiếm bằng toán tử logic và dùng một chuỗi các từ khóa tìm kiếm được nối với
nhau bằng các toán tử để tìm kiếm Có thể tìm kiếm giới hạn trong một trường tìm
kiếm nào đó (ví dụ gene name hay accession number) Lựa chọn "History" cung cấp
hồ sơ tìm kiếm trước đó của người dùng, cho phép người dùng xem lại, sửa đổi hoặc
kết hợp các kết quả tìm kiếm trước đó Lại có "Clipboard" lưu lại kết quả tìm kiếm
trong một thời gian hạn chế để người dùng có thể xem lại sau Để lưu thông tin trong
Clipboard cần dùng chức năng "Send to clipboad"
Một CSDL có thể truy cập từ Entrez là CSDL bài báo khoa học Y-Sinh gọi là
Pubmed, chứa tóm tắt và đôi khi toàn bộ bài báo từ gần 6000 tạp chí Một đặc điểm
quan trọng của Pubmed là tìm kiếm thông tin dựa trên các thuật ngữu tiêu đề y học
(MeSH) MeSH bao gồm tập hợp hơn 20000 thuật ngữ chuẩn hóa và có kiểm soát
dùng để chỉ dẫn bài báo Nói chung nó là một cuốn từ điển đồng nghĩa giúp chuyển
một từ khóa tìm kiếm thành một thuật ngữ chuẩn hóa để mô tả một khái niệm
Trang 3420 GIỚI THIỆU CƠ SỞ DỮ LIỆU SINH HỌC
BẢNG2.2 Một số nhãn trên Pubmed và mô tả vắn tắt
AD Affiliation AID
AU DP JID LA PL PT RN
SO TA
Article identifier Author Date Journal ID Language Publication place Publication type EC/
RN Number
Source Journal title Abbreviation
Tóm tắt bài báo
Cơ quan công tác và địa chỉ của tác giả và mã số đề tài
Mã số bài báo bao gồm PII (Controlled Publisher Identifier) hay doi (digital object identifier)
Tên tác giả bài báo Ngày bài báo được xuất bản
Mã số duy nhất của tạp chí trong catalog sách, báo và băng dĩa của National Library of Medicine
Ngôn ngữ của bài báo Nước nơi tạp chí xuất bản đóng Loại nội dung mà bài báo công bố
Số do Enzyme Commission dùng để gán cho một enzyme hay do Chemical Abstracts Service gán cho một số đăng ký
Trường phức chứa thông tin về trích dẫn Tên tắt chuẩn của tạp chí
Tiêu đề bài báo Tập của tạp chí có bài báo
Nguồn: www.ncbi.nlm.nih.gov/entrez/query/static/help/pmhelp.html.
Bằng cách đó nó cho phép tìm kiếm "thông minh" trong đó một nhóm các từ đồng nghĩa được CSDL chấp nhận để người dùng không chỉ tìm thấy kết quả giống hệt mình muốn mà còn các kết quả liên quan của cùng một chủ đề mà đôi khi có thể không biết Một cách để mở rộng tìm kiếm là sử dụng lựa chọn "Related Articles"
PubMed dùng thuật giải cho trọng số với một từ khóa để xác định các bài báo liên quan trong tiêu đề, tóm tắt và MeSH Bằng cách dùng tính năng này, các bài báo cùng chủ đề có thể bị bỏ qua trong tìm kiếm ban đầu sẽ được tìm thấy
Để tìm kiếm phức tạp, người dùng có thể dùng toán tử logic hoặc kết hợp các tính năng Limits, Preview/Index để tiến hành tìm kiếm phức tạp Hoặc có thể dùng nhãn trường để tăng hiệu quả tìm kiếm Các nhãn này là các phù hiệu chỉ định cho mỗi trường và được đặt trong dấu ngoặc vuông Ví dụ [AU] giới hạn tìm kiếm trong tên tác giả, và [JID] trong tên tạp chí Pubmed dùng một danh sách các nhãn để tìm kiếm bài báo Các từ tìm kiếm ở trường có thể được nối với nhau bằng các toán tử Một số trường Pubmed thường dùng được liệt kê ở Bảng 2.2
Một CDSL đặc biệt truy cập được từ Entrez là OMIM (Online Mendelian Inheritance
in Man), là một CSDL phi trình tự về các gene bệnh và rối loạn ở người Mỗi mẫu tin ở OMIM chứa tóm tắt về một bệnh và các gene liên quan Tập tin chứa rất nhiều liên kết đến các bài báo, trình tự sơ cấp và vị trí trên NST của gene bệnh CSDL này là một nơi khởi đầu tuyệt vời để nghiên cứu về các gene liên quan đến bệnh ở người
NCBI cũng duy trì một CSDL phân loại học chứa vị trí phân loại của trên 100.000
Trang 35TÌM KIẾM THÔNG TIN Ở CƠ SỞ DỮ LIỆU SINH HỌC
loài có ít nhất một trình tự protein hoặc nucleotide được trình bày trong CSDL
Genank CSDL phân loại có kiểu phân loại theo cấp bậc Ở cấp sau cùng là Archaea,
Eubacteria và Eukaryota CSDL cho phép hiển thị cây phân loại của một loài Cây dựa
trên dữ liệu phát sinh loại học phân tử, tức dữ liệu RNA ribosome
GenBank
GenBank là tập hợp đầy đủ nhất của các dữ liệu trình tự của hầu như mọi sinh vật
Dữ liệu bao gồm trình tự genome, mRNA, cDNA, EST, các trình tự thô được giải
theo phương pháp thông lượng cao và trình tự đa hình Cũng có CSDL GenPept cho
trình tự protein, phần lớn là được dịch mã lý thuyết từ trình tự DNA, mặc dù một số
nhỏ được gửi lên từ giải trình tự peptide
Có hai cách để tìm kiếm trình tự trên GenBank Một là dùng từ khóa giống như
tìm kiếm trên Pubmed Cách kia là dùng trình tự để tìm kiếm trình tự tương tự bằng
BLAST (Chương 5)
Định dạng trình tự GenBank
Để tìm kiếm hiệu quả trên GenBank bằng từ khóa đòi hỏi phải hiểu về định dạng trình
tự Genbank GenBank là một CSDL quan hệ Tuy nhiên kết quả tìm kiếm trình tự được
tạo ra ở dạng flat file để dễ đọc Flat file trình tự gồm ba phần - Tiêu đề (Header), Đặc
điểm (Features) và Trình tự (Hình 2.3) Ở phần Tiêu đề và Đặc điểm có rất nhiều
trường, mỗi trường có một mã duy nhất để phần mềm máy tính dễ chỉ dẫn Hiểu rõ
cấu trúc của file GenBank giúp tính toán phương pháp tìm kiếm hiệu quả
Phần Tiêu đề mô tả nguồn gốc trình tự, tên tuổi loài, và một mã duy nhất chỉ định
bản ghi Hàng đầu tiên là Locus, chứa mã duy nhất để xác định vị trí trình tự trong
CSDL (không phải locus trên NST) Tiếp theo mã duy nhất là thông tin về chiều dài
trình tự và loại trình tự (DNA/RNA) Tiếp theo là một mã ba chữ cái đại diện cho các
phân nhóm khác nhau của GenBank Có cả thảy 17 phân nhóm, được thiết lập dựa
chủ yếu vào việc tiện dụng cho lưu trữ dữ liệu thay vì có cơ sở khoa học chặt chẽ; ví
dụ PLN là phân nhóm trình tự của thực vật, nấm và tảo; PRI là phân nhóm trình tự
của linh trưởng; BCT là trình tự vi khuẩn và EST là trình tự EST Tiếp sau phân
nhóm là ngày dữ liệu được công bố (khác với ngày dữ liệu được đưa lên)
Hàng tiếp theo , "DEFINITION" cung cấp thông tin về bản ghi trình tự bao gồm
tên trình tự, tên và vị trí phân loại của sinh vật nguồn nếu biết, và thông tin cho biết
liệu trình tự là đầy đủ (complete) hay còn thiếu (partial) Tiếp theo là mã truy cập của
trình tự (accession number) là một số duy nhất được gán cho một trình tự DNA khi
nó được đưa lên GenBank lần đầu tiên và sẽ gắn mãi với trình tự đó Khi dùng trình
tự này trong các bài báo khoa học thì phải trích dẫn mã số này Nó có hai định dạng
khác nhau: hai chữ cái và năm chữ số hoặc một chữ cái và sáu chữ số Đối với một
perma-nently associated with that sequence This is the number that should be
cited in publications It has two different formats: two letters with five digits or one
letter with six digits For a nucleotide sequence that has been translated into a
protein sequence,
Trang 3622 GIỚI THIỆU VỀ CƠ SỞ DỮ LIỆU SINH HỌC
Hình 2.3 : Định dạng NCBI GenBank/GenPept thể hiện ba phần chính của một file trình tự
trình tự nucleotide dịch mã thành trình tự protein nó sẽ được gán cho một mã truy cấp mới ở dạng dãy chữ số và chữ cái Ngoài mã truy cập còn có số phiên bản và số gi (gene identifier) Mục đích của các số này là để xác định phiên bản hiện tại của trình
tự Nếu trình tự được chú thích thêm sau này thì mã truy cập sẽ giữ nguyên nhưng số phiên bản sẽ tăng, cũng như gi sẽ đổi Trình tự protein dịch mã từ một trình tự DNA cũng sẽ có mã truy cập khác
Hàng tiếp theo ở phần Tiêu đề là trường "ORGANISM" chứa tên khoa học của sinh vật nguồn và đôi khi loại mô nữa C ùng với tên khoa học là thông tin về phân loại
Trang 37TÌM KIẾM THÔNG TIN Ở CƠ SỞ DỮ LIỆU SINH HỌC
học của sinh vật Các mức độ phân loại khác nhau được kết nối đến CSDL phân loại
học của NCBI nơi có nhiều thông tin mô tả hơn Tiếp theo là trường "REFERENCE"
cung cấp thông tin về trích dẫn bài báo cho trình tự Phần REFERENCE bao gồm tên
tác giả và tiêu đề của công trình công bố (hoặc tên tạm cho công trình chưa công
bố) Trường "JOURNAL" bao gồm bài báo trích dẫn cũng như ngày trình tự được gửi
lên Bài báo trích dẫn thường có đường link đến dữ liệu Pubmed để truy cập bài báo
gốc Phần cuối cùng của Tiêu đề là thông tin liên lạc của người gửi trình tự
Phần "Đặc điểm" gồm thông tin chú thích về gene và sản phẩm của gene, cũng
như các vùng có ý nghĩa sinh học được ghi trong bản ghi, cùng với mã và từ đại diện
của các trường đặc điểm Trường "Source" cho biết chiều dài trình tự, tên khoa học
của loài và mã nhận dạng phân loại Một số thông tin có thể có hoặc không bao gồm
nguồn tạo dòng, loại mô và dòng tế bào Trường "gene" cung cấp thông tin về trình
tự nucleotide mã hóa và tên của nó Đối với DNA còn có trường "CDS" là thông tin
về vùng trình tự có thể dịch mã thành amino acid Đối với DNA eukaryote trường
này còn chứa thông tin về vị trí exon và trình tự protein dịch mã sẽ được nhập vào
Phần thứ ba của flat file chính là trình tự cần tìm, bắt đầu bằng nhãn "ORIGIN"
Có thể thay đổi định dạng của trình tự bằng cách chọn ở menu kéo hiển thị (Format)
ở góc trên bên trái màn hình Đối với trình tự là DNA, có báo cáo BASE COUNT
bao gồm số các Nu A, G, C và T trong trình tự Kết thúc phần trình tự là dấu slash
kép (//)
Để tìm kiếm trình tự DNA hay protein từ GenBank có thể giới hạn tìm kiếm ở các
trường chú thích như "organism", "accession number", "author" và "publication date"
Ta cũng có thể kết hợp lựa chọn "Limits" và "Preview/Index" như đã mô tả Hoặc ta
có thể dùng các từ đại diện của một số trường tìm kiếm, mỗi từ định nghĩa một
trường trong một file GenBank Các từ đại diện của trường cũng tương tự nhưng
không giống hoàn toàn các nhãn trường ở Pubmed Ví dụ ở GenBank [GENE] đại
diện cho tên gene, [AUTH] là tên tác giả và [ORGN] là tên loài Các tên đại diện
trường thường dùng trong tìm kiếm GenBank, phải đánh ở dạng viết hoa, và phải
nằm trong ngoặc vuông, được liệt kê ở Bảng 2.3
Các định dạng khác
FASTA Ngoài định dạng GenBank còn có nhiều định dạng trình tự khác FASTA là
một trong những định dạng đơn giản nhất và phổ biến nhất vì nó chứa thông tin
trình tự ở dạng văn bản mà nhiều chương trình phân tích Tin sinh học có thể đọc
Nó chỉ có một dòng định nghĩa duy nhất bắt đầu bằng dấu (>) và tiếp theo là tên
trình tự (Hình 2.4) Đôi khi thông tin bổ sung như mã gi hay nhận xét cũng được ghi
ở dòng này, và được ngăn khỏi phần trình tự bằng dấu “|” Các thông tin phụ có thể
có hoặc không và sẽ bị các chương trình phân tích Tin sinh học bỏ qua Trình tự ở
Trang 3824 GIỚI THIỆU VỀ CƠ SỞ DỮ LIỆU SINH HỌC
BẢNG2.3 Các tên đại diện trường dùng trong tìm kiếm GenBank
[ALL] All fields
[FKEY] Feature key
Chứa mã truy cập duy nhất của trình tự hay dữ liệu, gán cho trình tự nucleotide, protein hay các dữ liệu genome Chứa tất cả các thuật ngữ từ tất cả các trường có thể tìm kiếm trong CSDL
Chứa tất cả tên tác giả trong trường trích dẫn của CSDL
Số do Enzyme Commission hay Chemical Abstract Service đặt cho một enzyme hoặc một hợp chất, theo thứ tự đó
Chứa đặc điểm sinh học hoặc chú thích được chép cho trình tự Nucleotide Không có ở dữ liệu trình tự protei hay CSDL cấu trúc
[JOUR] Journal name
[MDAT] Modification date
Chứa tên chuẩn hoặc tên thường gặp của gene tìm thấy trong bản ghi của CSDL
Chứa tên tạp chí mà dữ liệu được công bố Chứa các thuật ngữ chỉ dẫn đặc biệt từ một tập thuật ngữ
có kiểm soát của GenBank, EMBL, DDBJ, SWISS-Prot, PIR, PRF hay PDB
Chứa ngày tháng năm của lần sửa đổi gần nhất bản ghi được chỉ dẫn trên Entrez ở định dạng Năm/Tháng/Ngày [MOLWT] Molecular weight Trọng lượng phân tử của một protein, được tính theo (Da),
được tính bằng phương pháp mô tả ở phần Searching by Molecular Weight ở tài liệu giúp đỡ của Entrez
tử và phân nhóm của GenBank [PROT] Protein name
[PDAT] Publication date
[SLEN] Sequence length
[TITL] Title word
Chứa tên chuẩn của protein tìm thấy trong bản ghi của CSDL
Chứa tên ngày dữ liệu được công bố trên Entrez, ở định dạng Năm/Tháng/Ngày
Chứa mã nhận dạng trình tự cho một trình tự Chứa tổng chiều dài của trình tự
Chứa tất cả các "từ tự do" trong một bản ghi Chỉ chứa các từ nằm ở dòng DEFINITION của file trình tự
Ghi chú: Một số tên đại diện trường có thể dùng chung ở CSDL Pubmed.
Nguồn: www.ncbi.nlm.nih.gov/entrez/query/static/help/helpdoc.html.