Giao trinh tin sinh hoc

đây là tài liệu chuyên ngành dành riêng cho lĩnh vực tin sinh học nó được tổng hợp từ các tài liệu nước ngoài.giúp các bạn sinh viên hiểu rõ hơn về những kiến thức cơ bản về môn tin sinh học cũng như các phần mềm về tin sinh học

Trang 2

iiThis page intentionally left blank

Trang 3

NHẬP MÔN TIN SINH HỌC

Nhập môn tin sinh học là một cuốn sách giáo khoa ngắn nhưng đầy đủ về Tin Sinh học, giới thiệu cho

độc giả về toàn bộ lĩnh vực nghiên cứu một cách đại khái Cuốn sách được viết chủ yếu cho các nhà

khoa học, trong đó lý thuyết cơ bản về tin sinh học được giải thích trước, rồi đến thảo luận về các

công cụ tin học mới nhất đang có để tìm giải pháp cho các vấn đề nghiên cứu trong sinh học Mọi

lĩnh vực quan trọng của tin sinh học đều được đề cập, bao gồm cơ sở dữ liệu sinh học, gióng cột trình

tự, dự đoán gene và promoter, hệ thống phát sinh loại học phân tử, tin sinh học cấu trúc, hệ gene học

và hệ protein học Cuốn sách tập trung vào cơ sở & nguyên lý của các thuật toán và so sánh ưu và

nhược điểm của các phương pháp khác nhau Bằng cách tiếp cận cân bằng nhưng dễ hiểu, cuốn sách

sẽ rất có giá trị cho những ai ít có kiến thức về máy tính Các chi tiết kỹ thuật về thuật toán được giải

thích với ít công thức toán học nhất có thể; các minh họa bằng hình ảnh được dùng thay cho công

thức để hỗ trợ việc hiểu cho người đọc Sự kết hợp hiệu quả của các tài liệu hiện có với việc đề cập sâu

và cập nhật tất cả các chủ đề chính trong Tin sinh học làm cho cuốn sách cực kỳ phù hợp cho mọi

sinh viên ngành Y Sinh học theo học các khóa Tin sinh học và cho các nhà nghiên cứu muốn nâng

cao kiến thức để hỗ trợ cho nghiên cứu của mình

Jin Xiong là giáo sư Sinh học ở Đại học Texas A&M, nơi ông đã dạy Tin sinh học cho sinh viên đại học và

học viên cao học trong nhiều năm Lĩnh vực nghiên cứu chính của ông là phân tích bằng tin sinh học và

thực nghiệm các hệ thống quang hợp

i

Trang 4

ii

Trang 6

First published in print format

Information on this title: www.cambridge.org/9780521840989

This publication is in copyright Subject to statutory exception and to the provision ofrelevant collective licensing agreements, no reproduction of any part may take placewithout the written permission of Cambridge University Press

www.cambridge.org

hardback

eBook (EBL)eBook (EBL)hardback

Trang 7

Mục lục

Lời nói đầu ■ ix

PHẦN 1 GIỚI THIỆU VỀ TIN SINH HỌC & CƠ SỞ DỮ LIỆU SINH HỌC

1 Giới thiệu ■ 3

Tin sinh học là gì ? ■ 4Mục tiêu ■ 5Phạm vi ■ 5Ứng dụng ■ 6 Hạn chế ■ 7Các vấn đề mới ■ 8Đọc thêm ■ 8

2 Giới thiệu về cơ sở dữ liệu sinh học ■ 10

Cơ sở dữ liệu là gì? ■ 10Các loại cơ sở dữ liệu? ■ 10

Cơ sở dữ liệu sinh học ■ 13Các vấn đề cần tránh trong cơ sở dữ liệu sinh học ■ 17Thu nhận thông tin từ cơ sở dữ liệu sinh học ■ 18Tóm tắt ■ 27

Ma trận cho điểm gióng cột ■ 41

Ý nghĩa thống kê của gióng cột ■ 47 Tóm tắt ■ 48

Đọc thêm ■ 49

4 Tìm kiếm trình tự tương tự trên cơ sở dữ liệu ■ 51

Các yêu cầu riêng biệt của tìm kiếm trên cơ sở dữ liệu ■ 51Tìm kiếm cơ sở dữ liệu bằng phương pháp heuristic ■ 52Basic local alignment search tools (BLAST) ■ 52FASTA ■ 57

So sánh FASTA với BLAST ■ 60Tìm kiếm cơ sở dữ liệu bằng phương pháp Smith-Waterman ■ 61

v

Trang 8

vi MỤC LỤC

Tóm tắt ■ 61 Đọc thêm ■ 62

5 Sắp gióng cột nhiều trình tự ■ 63Hàm cho điểm ■ 63

Thuật giải vét cạn ■ 64Thuật giải heuristic ■ 65Các vấn đề thực tiễn ■ 71Tóm tắt ■ 73

Đọc thêm ■ 74

6 Profile và mô hình Markov ẩn ■ 75

Ma trận cho điểm tùy thuộc vị trí ■ 75Profile ■ 77

Mô hình Markov và mô hình Markov ẩn ■ 79 Tóm tắt ■ 84

Đọc thêm ■ 84

7 Dự đoán motif và miền của protein ■ 85Xác định motif và miền của protein trong MSA ■ 86

Cơ sở dữ liệu motif và miền dùng biểu diễn thông thường ■ 86

Cơ sở dữ liệu motif và miền dùng mô hình xác suất ■ 87

Cơ sở dữ liệu họ protein ■ 90Tìm kiếm motif ở các trình tự không gióng cột ■ 91Logo trình tự ■ 92

Tóm tắt ■ 93Đọc thêm ■ 94

PHẦN III DỰ ĐOÁN GENE VÀ PROMOTER

8 Dự đoán gene ■ 97Phân loại các chương trình dự đoán gene ■ 97

Dự đoán gene ở prokaryote ■ 98

Dự đoán gene ở Eukaryote ■ 103Tóm tắt ■ 111

Đọc thêm ■ 111

9 Dự đoán các trình tự promoter và điều hòa ■ 113Promoter và các yếu tố điều hòa ở Prokaryote ■ 113 Promoter và các yếu tố điều hòa ở Eukaryote ■ 114 Thuật toán dự đoán ■ 115

PHẦN IV PHÁT SINH LOẠI HỌC PHÂN TỬ

10 Phát sinh loại học cơ sở ■ 127

Tiến hóa phân tử và phát sinh loại học phân tử ■ 127 Thuật ngữ ■ 128

Phát sinh loại học gene vs phát sinh loại học loài ■ 130

Trang 9

MỤC LỤC vii

Các dạng cây phát sinh loại ■ 131 Tại sao rất khó tìm ra cây phát sinh loại ■ 132 Quy trình ■ 133

11 Chương trình và phương pháp xây dựng cây phát sinh loại ■ 142

Các phương pháp dựa trên khoảng cách ■ 142Các phươn pháp dựa trên đặc điểm gióng cột ■ 150 Đánh giá cây phát sinh loại ■ 163

Chương trình xây dựng cây ■ 167Tóm tắt ■ 168

PHẦN V TIN SINH HỌC CẤU TRÚC

12 Cơ sở về cấu trúc protein ■ 173

Amino acid ■ 173Hình thành peptide ■ 174Dihedral Angles ■ 175Bậc cấu trúc ■ 176Cấu trúc bậc hai ■ 178Cấu trúc bậc ba ■ 180Xác định cấu trúc bậc ba của protein ■ 181

Cơ sở dữ liệu cấu trúc protein ■ 182Tóm tắt ■ 185

13 Hiển thị cấu trúc protein, so sánh và Phân loại ■ 187

Hiển thị cấu trúc protein ■ 187

So sánh cấu trúc protein ■ 190 Phân loại cấu trúc protein ■ 195 Tóm tắt ■ 199

14 Dự đoán cấu trúc bậc hai của protein ■ 200

Dự đoán cấu trúc bậc hai cho protein cầu ■ 201

Dự doán cấu trúc bậc hai cho các protein xuyên màng ■ 208

Dự đoán xoắn xoắn ■ 211Tóm tắt ■ 212

Trang 10

viii MỤC LỤC

16 Dự đoán cấu trúc RNA ■ 231

Giới thiệu ■ 231Các dạng cấu trúc của RNA ■ 233

Các phương pháp dự đoán cấu trúc RNA ■ 234Phương pháp ab initio ■ 234

Phương pháp so sánh ■ 237Đánh giá dự đoán ■ 239Tóm tắt ■ 239

PHẦN 6 GENOME HỌC VÀ PROTEOME HỌC

17 Lập bản đồ, nối ráp hoàn chỉnh và so sánh genome ■ 243

Lập bản đồ genome ■ 243Giải trình tự genome ■ 245Nối ráp hoàn chỉnh genome ■ 246Chú thích genome ■ 250

So sánh genome ■ 255 Tóm tắt ■ 259Đọc thêm ■ 259

PHỤC LỤC Phục lục 1 Bài tập thực hành ■ 301

Phụ lục 2 Danh mục thuật ngữ ■ 318Bảng chú dẫn ■ 331

Trang 11

Lời mở đầu

Với số lượng genome của các loài prokaryote và eukaryote đã hoàn thành và thêm

những genome sắp hoàn thành, việc tiếp cận các thông tin genome và tổng hợp nó để

giúp phát hiện ra tri thức mới đã trở thành vấn đề trung tâm của nghiên cứu sinh học

hiện đại Khai thác thông tin genome đòi hỏi các công cụ máy tính tinh vi Vì thế các

thế hệ nhà nghiên cứu sinh học mới nhất định phải thành thạo các chương trình Tin

sinh học và cơ sở dữ liệu để giải quyết những thách thức mới trong kỷ nguyên

genome Để đáp ứng được yêu cầu này, các trường đại học ở Mỹ cũng như khắp thế

giới đã và đang dạy cho sinh viên các khóa học Tin sinh học ở cấp đại học lẫn cao học

để giới thiệu cho họ các công cụ phần mềm cần thiết trong nghiên cứu genome Để

hỗ trợ cho nhiệm vụ quan trọng này, cuốn giáo trình này được biên soạn nhằm cung

cấp đầy đủ mọi khía cạnh cũng như cập nhật nhất về Tin sinh học một cách rõ ràng

và súc tích

Ý tưởng viết một cuốn giáo trình về Tin sinh học bắt nguồn từ việc giảng dạy Tin

sinh học của tôi ở Đại học Texas A&M Tôi cần một cuốn sách đủ toàn diện để đề

cập đến mọi khía cạnh của ngành học, đủ sâu về kỹ thuật để giảng dạy ở trình độ đại

học, và đủ cập nhật để đề cập đến các thuật giải đang được sử dụng nhưng đồng thời

cũng đủ logic và dễ hiểu Việc thiếu một cuốn giáo trình như vậy đã thôi thúc tôi

soạn rất nhiều các bài giảng để nhằm khắc phục vấn đề Các bài giảng do tôi soạn hóa

ra sau này lại được sinh viên rất ưa chuộng và các sinh viên không theo học cũng rất

quan tâm Để có thể mang lợi ích này đến nhiều độc giả hơn, tôi quyết định tập hợp

các bài giảng đã soạn của mình, cũng như kinh nghiệm và hiểu biết của tôi về Tin

sinh học thành sách

Cuốn sách này dành cho sinh viên và học viên cao học ngành Sinh học, hay bất cứ

nhà Sinh học phân tử nào không có kiến thức về thuật toán máy tính nhưng muốn

hiểu các nguyên lý cơ bản của Tin sinh học và dùng kiến thức này để giải quyết vấn

đề nghiên cứu của mình Cuốn sách đề cập đến các cơ sở dữ liệu và phần mềm chính

dùng trong phân tích dữ liệu genome, và nhấn mạnh đến các khía cạnh lý thuyết và

thực hành của các công cụ máy tính này Qua việc đọc cuốn sách này, độc giả sẽ làm

quen với các công cụ máy tính có thể có dành cho nhà sinh học phân tử và đồng thời

ý thức được điểm mạnh và điểm yếu của các phần mềm này

protein structure, for which a chapter about fundamental concepts is included so

that

ix

Trang 12

x LỜI NÓI ĐẦU

Tác giả cuốn sách giả định rằng độc giả đã có kiến thức và hiểu biết cơ bản về sinh

học phân tử và hóa sinh Vì thế các thuật ngữ như nucleic acid, amino acid, gene, phiên mã và dịch mã đều được dùng mà không giải thích thêm Một ngoại lệ là cấu trúc protein, được dành một chương riêng về các kiến thức cơ bản để người đọc có

thể hiểu rõ hơn thuật giải và các nguyên tắc trong tin sinh học cấu trúc protein

Người đọc cũng được giả định là đã có kiến thức về xác suất, thống kê và vi tích phân, mặc dù điều kiện này không hoàn toàn bắt buộc

Cuốn sách được chia thành sáu phần: cơ sở dữ liệu sinh học, sắp gióng cột trình

tự, dự đoán gene và promoter, cây phát sinh loại học phân tử, tin sinh học cấu trúc và genome học và proteme học Cả thảy có mười chín chương, mỗi chương khá độc lậps

so với các chương khác Khi thông tin về một chương này cần cho chương kia, tác giả

sẽ ghi chú điều đó Mỗi chương bao gồm định nghĩa, khái niệm quan trọng và các lời giải cho các bài tập máy tính Thỉnh thoảng sẽ có các hộp mô tả ví dụ minh họa một

số tính toán Vì cuốn sách chủ yếu dành cho các nhà Sinh học, sẽ có rất ít công thức toán học Một số rất nhỏ công thức toán học được dùng ở những nơi chúng tuyệt đối đòi hỏi để hiểu một khái niệm nhất định Thảo luận về kiến thức máy tính cần thiết

sẽ đi kèm với giới thiệu về chương trình máy tính miễn phí trên mạng Cuối mỗi chương cũng sẽ có tóm tắt

Hầu hết các chương trình mô tả trong sách đều có sẵn trên mạng, miễn phí và không quá khó để sử dụng Hầu hết đều khá chân phương để sử dụng và người dùng chỉ cần cung cấp trình tự hoặc cấu trúc và phần mềm sẽ trả lại kết quả một cách tự động Trong nhiều trường hợp, độc giả chỉ cần biết chương trình nào dùng cho mục đích nào là đủ, mặc dù đôi khi độc giả cần có kỹ năng giải thích kết quả Tuy nhiên trong một số trường hợp, biết tên chương trình và ứng dụng của chúng chỉ mới là một nửa chặng đường.Độc giả cũng cần phải có sự nỗ lực cá nhân để học những đặc tính phức tạp để dùng chương trình Những chương trình như vậy được xem là thiểu

số nằm ở phía cực đoan của tính thân thiện với người dùng Tuy nhiên sẽ là không thực tế để đưa tất cả hướng dẫn sử dụng phần mềm cho tất cả phần mềm đang có vào cuốn sách này Đó không phải làm mục đích tôi viết cuốn sách này Tuy nhiên, ý thức được khó khăn của những người mới bắt đầu, thường không để ý hoặc bị làm chùn bước trước số lượng phần mềm cần chọn, tôi đã thiết kế một số bài tập mạng với các bước làm chi tiết để nhằm làm ví dụ minh họa cho việc sử dụng đúng tập hợp các công cụ Tin sinh học để giải quyết một vấn đề đặt ra Các bài tập này được viết với ý định ban đầu là để dùng trên hệ điều hành UNIX Tuy nhiên có thể sửa đổi một chút để dùng chúng trong bất kỳ hệ điều hành nào có truy cập Internet

Trong quá trình chuẩn bị cuốn sách này, tôi đã tham khảo nhiều bài báo và sách liên quan đến các chủ đề Tin sinh học khác nhau Tôi rất tiếc không thể liệt kê ra tất cả các nguồn tài liệu nàyvì số lượng trang sách hạn chế trong một cuốn giáo trình nhập môn

Trang 13

LỜI NÓI ĐẦU

tuy nhiên một số bài báo (chủ yếu là các bài báo tổng quan) và sách liên quan đến chủ

đề của mỗi chương được liệt kê ở phần "Đọc thêm", dành cho những ai muốn tìm hiểu

sâu hơn về chủ đề Về khía cạnh các chương trình được liệt kê trong sách, có rất nhiều

chương trình có thể dùng cho một mục đích Tôi xin lỗi đã không liệt kê một số

chương trình vào sách, nhưng không phải do tôi thiên vị chương trình này so với

chương trình kia

Một trong những thách thức của việc viết giáo trình là đề cập đủ kiến thức nền của

các phương pháp máy tính mà không trình bày quá nhiều công thức toán Tôi cố gắng

duy trì sự cân đối giữa giải thích thuật toán và khi đi sâu quá vào các chi tiết toán học,

một điều dễ khiến những người mới học và người ngoài ngành sinh học tính toán bị

choáng ngợp Điều này đôi khi rất khó đạt được do tôi có nguy cơ buộc phải hy sinh

một số thông tin gốc hoặc tôi sẽ khiến người đọc mất cảm hứng Để giảm thiểu điều

này tôi chọn sử dụng các biểu đồ thay vì công thức toán để minh họa một khái niệm

và giúp người đọc hiểu rõ khái niệm hơn

Tôi muốn cám ơn Khoa Sinh học Trường đại học Texas A&M đã cho tôi cơ hội dạy môn Tin sinh học, điều khiến tôi có thể soạn cuốn sách này Tôi xin cám ơn tất

cả bạn bè và đồng nghiệp trong Khoa Sinh học và Khoa Hóa Sinh học vì tình bạn của

các bạn Một số đồng nghiệp đã cho phép tôi tham gia vào dự án nghiên cứu của họ,

tạo điều kiện để tôi tiếp xúc với nhiều vấn đề nghiên cứu và giúp tôi rèn luyện kỹ

năng phân tích Tin sinh học Tôi đặc biệt biết ơn Lisa Peres ở Phòng thí nghiệm Mô

phỏng Phân tử ở Texas A&M, người có vai trò rất quan trọng trong việc giúp tôi thiết

lập và vận hành phần thực hành của môn Tin sinh học Tôi cũng rất biết ơn người

hướng dẫn luận văn Tiến sĩ của tôi, GS Carl Bauer ở Đại học Indiana, người đã cho

tôi cơ hội tuyệt vời để học sâu về tiến hóa và cây phát sinh loại, điều rất quan trọng để

giúp tôi đi theo ngành Tin sinh học Tôi cũng muốn cám ơn Katrina Halliday, biên

tập viên cho cuốn sách này ở Cambridge University Press, vì đã chấp nhận bản thảo

và đề xuất nhiều gợi ý giúp hoàn thiện bản thảo đầu tiên Làm việc với cô ấy là một

niềm vinh hạnh của tôi Tôi cũng muốn gửi lời cámoơn tới Cindy Fullerton và

Marielle Poss vì đã miệt mài lo liệu cho việc sửa bản bon của cuốn sách để đảm bảo

có được sản phẩm sau cùng có chất lượng

Jin Xiong

Trang 14

xii

Trang 15

PHẦN MỘT

Giới thiệu về Tin sinh học và Cơ sở dữ liệu

sinh học

1

Trang 16

2

Trang 17

CHƯƠNG MỘT

Giới thiệu

Các công cụ định lượng và định tính là những công cụ không thể thiếu trong sinh học

hiện đại Hầu hết các nghiên cứu sinh học đều có liên quan đến ứng dụng một số công

cụ toán, thống kê hay máy tính để giúp tổng hợp dữ liệu thu được và tích hợp nhiều

dạng thông tin trong quá trình đi tìm câu trả lời một câu hỏi sinh học nào đó Ví dụ

liệt kê và thống kê cần cho việc đánh giá thí nghiệm hàng ngày, như pha loãng một

dung dịch hoặc đếm khuẩn lạc, vết tan hay cây và con trong môi trường tự nhiên Một

ví dụ kinh điển trong lịch sử di truyền là thí nghiệm của Mendel và Morgan, bằng cách

đếm biến dị di truyền ở thực vật và ruồi dấm, đã tìm ra quy luật di truyền Các ứng

dụng chuyên sâu hơn có thể gồm dùng tích phân để dự đoán tốc độ tăng trưởng dân số

hay thiết lập mô hình động học của xúc tác enzyme Đối với những ứng dụng định

lượng phức tạp hơn nữa, ta có thể thấy ứng dụng "lý thuyết trò chơi" vào mô hình

nghiên cứu hành vi và tiến hóa của động vật, hay dùng hàng triệu các phương trình vi

phân phi tuyến tính để mô hình hóa sự chảy của máu ở động mạch Dù ứng dụng là

phức tạp hay đơn giản, dễ nhận thấy hay khó nhận thấy, rõ ràng các công cụ toán học

và máy tính đã trở thành một phần của nghiên cứu sinh học hiện đại Tuy nhiên không

một ví dụ nào trong các ứng dụng định tính nói trên có thể được xem là thuộc lĩnh vực

tin sinh học, một lĩnh vực cũng có tính định lượng Để giúp người đọc hiểu sự khác

nhau giữa tin sinh học và các yếu tố khác của định lượng trong sinh học, chúng ta sẽ

tìm hiểu giải thích chi tiết về tin sinh học là gì ở các phần sau đây

Tin sinh học, sẽ được định nghĩa rõ hơn dưới đây, là một ngành học phân tích định

lượng thông tin về các đại phân tử sinh học với sự trợ giúp của máy tính Sự phát triển

tin sinh học thành một ngành học là kết quả của những tiến bộ trong cả sinh học phân

tử lẫn khoa học máy tính trong hơn 40-50 năm qua Mặc dù các tiến bộ này sẽ không

được mô tả ở đây, việc hiểu lịch sử ngành này sẽ có ích trong việc hiểu sâu sắc hơn các

nghiên cứu tin sinh học hiện tại Ở đây sẽ có một tóm tắt súc tích về lịch sử thời gian

các sự kiện nổi bật có tác động lớn đến sự phát triển của tin sinh học để giúp người đọc

hiểu hoàn cảnh

Những nỗ lực đầu tiên của tin sinh học có thể truy đến những năm 1960, mặc dù lúc

đó chưa tồn tại từ tin sinh học Có lẽ dự án tin sinh học lớn đầu tiên là do Margaret

Dayhoff tiến hành vào 1965, người đã xây dựng cơ sở dữ liệu trình tự protein đầu tiên

gọi là Atlas of Protein Sequence and Structure Sau đó vào đầu 1970, Brookhaven

National Laboratory thiết lập Protein Data Bank (PDB) để lưu trữ cấu trúc ba chiều của

protein Ở giai đoạn khởi đầu, cơ sở dữ liệu này chỉ chứa khoảng vài chục cấu trúc

3

Trang 18

4 GIỚI THIỆU

protein, so với số lượng hơn 123.000 cấu trúc ngày nay Thuật giải gióng cột trình tự được Needleman và Wunsch phát triển vào 1970 Đây là một bước cơ bản trong phát triển ngành tin sinh học, tạo điều kiện cho các nhà sinh học hiện đại so sánh trình tự

và tìm kiếm cơ sở dữ liệu (CSDL) một cách thường quy Thuật toán dự đoán cấu trúc protein được phát triển bởi Chou và Fasman vào 1974 Mặc dù nó khá thô sơ so với tiêu chuẩn ngày nay, nó mở ra một loạt các hướng phát triển trong dự đoán cấu trúc protein Trong những năm 1980 xuất hiện GenBank và sự phát triển thuật giải tìm kiếm nhanh CSDL FASTA của W Pearson và BLAST của S Altschul và cộng sự Dự

án giải trình tự genome người cuối 1980 tạo ra một cú hích mạnh để phát triển tin sinh học Sự phát triển và việc sử dụng rộng rãi internet vào những năm 1990 khiến cho việc truy cập tức thời, trao đổi và phân phát dữ liệu sinh học trở nên khả thi

Những điều nêu trên là những cột mốc quan trọng trong việc thiết lập ngành học này Lý do cơ bản tin sinh học trở nên quan trong như một ngành học là do tiến bộ trong nghiên cứu genome tạo ra một lượng dữ liệu sinh học khổng lồ chưa từng có Sự bùng bổ thông tin trình tự genome tạo ra một nhu cầu ngay tức thì phải có công cụ máy tính hiệu quả để quản lý và phân tích dữ liệu Sự phát triển các công cụ máy tính này phụ thuộc vào tri thức tạo ra từ nhiều lĩnh vực gồm Toán học, Thống kê học, Khoa học máy tính, Công nghệ thông tin và Sinh học phân tử Các lĩnh vực này kết hợp với nhau tạo ra một lĩnh vực định hướng thông tin trong sinh học và ngày nay

được biết đến là Tin sinh học

TIN SINH HỌC LÀ GÌ?

Tin sinh học là một lĩnh vực nghiên cứu đa ngành nằm ở vùng giao nhau của khoa học

máy tính và sinh học Rất nhiều định nghĩa có thể tìm thấy trên sách báo và mạng; một

số định nghĩa đầy đủ hơn các định nghĩa khác Ở đây chúng ta chấp nhận định nghĩa của Luscombe và cộng sự, định nghĩa tin sinh học là sự hợp nhất sinh học và tin học:

tin sinh học bao gồm công nghệ sử dụng máy tính để lưu trữ, tìm kiếm, làm việc và phân phối thông tin liên quan đến các đại phân tử sinh học như DNA, RNA và protein

Trọng tâm đặt vào việc dùng máy tính vì hầu hết các phân tích dữ liệu genome có tính lặp lại cao hoặc phức tạp về tính toán Việc sử dụng máy tính là không thể thiếu trong khai thác genome để thu thập thông tin và xây dựng tri thức

Tin sinh học khác với một lĩnh vực liên quan là Sinh học tính toán Tin sinh học chỉ

giới hạn ở phân tích trình tự, cấu trúc và chức năng của gene, genome và các sản phẩm

tương ứng của chúng, và thường được hiểu là sinh học phân tử tính toán Ngược lại Sinh

học tính toán bao gồm tất cả các lĩnh vực sinh học liên quan đến tính toán Ví dụ mô hình hóa bằng toán hệ sinh thái, động học quần thể, ứng dụng lý thuyết trò chơi vào nghiên cứu hành vi động vật, và phục hồi cây phát sinh loại họcsử dụng mẫu hóa thạch cũng sử dụng công cụ máy tính, nhưng không liên quan đến đại phân tử sinh học

construction using fossil records all employ computational tools, but do not necessarily involve biological macromolecules

Trang 19

PHẠM VI

Ngoài sự khác biệt này, cũng cần chú ý là có những quan điểm khác về mối quan

hệ giữa hai thuật ngữ này Ví dụ một phiên bản định nghĩa tin sinh học là sự phát

triển và ứng dụng công cụ máy tính để quản lý tất cả các dữ liệu sinh học, trái lại sinh

học tính toán giới hạn ở phát triển các thuật toán lý thuyết để dùng cho tin sinh học

Sự lẫn lộn này về định nghĩa chỉ phản ánh rằng đây là một lĩnh vực nghiên cứu năng

động và phát triển rất nhanh

MỤC ĐÍCH

Mục đích của tin sinh học là để hiểu rõ hơn tế bào sống và cách thức hoạt động của

nó ở mức phân tử Bằng cách phân tích các trình tự và cấu trúc phân tử thô, tin sinh

học có thể tạo ra những tri thức mới và cung cấp một cái nhìn "tổng thể" về tế bào Lý

do có thể hiểu rõ hơn chức năng của tế bào bằng cách phân tích dữ liệu trình tự là vì

thông tin di truyền truyền theo "học thuyết trung tâm" của sinh học, trong đó DNA

được phiên mã thành RNA và rồi RNA được dịch mã thành protein Chức năng tế

bào chủ yếu do các protein thực hiện, và các chức năng này rốt cục thì do trình tự của

protein quyếtđịnh Vì thế tìm lời giải cho bài toán chức năng bằng phân tích trình tự

và cấu trúc đã chứng tỏ rất hiệu quả

PHẠM VI

Tin sinh học bao gồm hai lĩnh vực phụ: phát triển các công cụ máy tính và CSDL và

ứng dụng các công cụ và CSDL này để tạo ra tri thức sinh học để hiểu rõ hơn về các

sinh vật Hai lĩnh vực phụ này bổ trợ cho nhau Việc phát triển công cụ bao gồm viết

phần mềm phân tích trình tự, cấu trúc và chức năng, cũng như xây dựng và trông coi

các CSDL sinh học Các công cụ này được dùng trong ba lĩnh vực nghiên cứu sinh

học phân tử và genome học: phân tích trình tự phân tử, phân tích cấu trúc phân tử và

phân tích chức năng phân tử Việc phân tích dữ liệu sinh học thường làm nảy sinh

những vấn đề và thách thức mới, và đến lượt nó kích thích sự phát triển các công cụ

máy tính mới hơn và tốt hơn

Lĩnh vực phân tích trình tự gồm sắp gióng cột trình tự, tìm kiếm CSDL trình tự, tìm

kiếm motif, khám phá kiểu dạng, tìm kiếm gene và promoter, phục hồi mối quan hệ

tiến hóa, nối ráp và so sánh genome Phân tích cấu trúc bao gồm phân tích cấu trúc

protein và nucleic acid, so sánh, phân loại và dự đoán cấu trúc Phân tích chức năng

gồm phân tích biểu hiện gene, dự đoán tương tác giữa protein với protein, dự doán vị

trí nội bào của protein, phục chế con đường chuyển hóa và mô phỏng (Hình 1.1)

Ba khía cạnh này của phân tích tin sinh học không biệt lập nhau mà thường tương

tác để cho ra kết quả tổng hợp (xem Hình 1.1) Ví dụ, dự đoán cấu trúc protein phụ

thuộc vào dữ liệu gióng cột trình tự; phân tích nhóm gene biểu hiện dòi hỏi dùng

phương pháp lập cây phát sinh loại dùng trong phân tích trình tự Dự đoán promoter

Trang 20

Hình 1.1: Tổng quan về các lĩnh vực phụ của tin sinh học Phát triển công cụ máy tính cho sinh học là

nền tảng của tất cả các phân tích tin sinh học Ứng dụng các công cụ rơi vào ba lĩnh vực chính: phân tích trình tự, phân tích cấu trúc và phân tích chức năng Có những môi quan hệ hữu cơ giữa các lĩnh vực phân tích, đại diện bởi các thanh ngang nối các ô chữ nhật với nhau

từ trình tự liên quan đến phân tích chức năng gene biểu hiện cùng nhau Chú thích gene liên quan đến nhiều hoạt động, gồm phân biệt vùng mang mã với vùng không mang mã, xác định trình tự protein dịch mã, xác định mối quan hệ tiến hóa giữa gene nghiên cứu với các gene đã biết; dự đoán chức năng tế bào đòi hỏi sử dụng công cụ từ

cả ba nhóm phân tích

ỨNG DỤNG

Tin sinh học không chỉ trở nên quan trọng cho nghiên cứu genome và sinh học phân

tử mà còn có tác động lớn đến nhiều lĩnh vực công nghệ sinh học và nghiên cứu Y Sinh Ví dụ nó có ứng dụng trong lĩnh vực thiết kế thuốc dựa trên tri thức, phân tích pháp y DNA, và ứng dụng công nghệ sinh học vào nông nghiệp Nghiên cứu máy tính tương tác protein-phối tử cung cấp nền tảng mới cho việc xác định nhanh các hợp chất gốc để sản xuất thuốc tổng hợp Tri thức về cấu trúc ba chiều của protein cho phép thiết kế phân tích có khả năng gắn với vị trí thụ thể của protein đích với ái lực và tính đặc hiệu cao Cách thiết kế dựa trên tin học này làm giảm đáng kể thời

Trang 21

HẠN CHẾ

gian và giá cả để phát triển các thuốc mới mạnh hơn, ít hiệu ứng phụ hơn và ít độc

hơn so với cách làm mò mẫm truyền thống Trong pháp y, kết quả phân tích cây phát

sinh loại học đã được chấp nhận là một bằng chứng trước tòa hình sự Một số thống

kê Bayes và phương pháp dựa trên khả năng xảy ra đối với phân tích DNA đã được

vận dụng vào phân tích nhận dạng pháp y Cũng cần đề cập rằng genome học và tin

sinh học hiện rất có khả năng sẽ cách mạng hóa hệ thống y tế bằng cách phát triển

thuốc cho từng cá nhân Tốc độ giải trình tự genome cao kết hợp với các công nghệ

thông tin phức tạp sẽ cho phép bác sĩ nhanh chóng giải trình tự bộ gene của bệnh

nhân và dễ dàng phát hiện các đột biến sẽ gây hại và tiến hành chẩn đoán sớm và

điều trị hiệu quả bệnh Công cụ tin sinh học cũng được dùng trong nông nghiệp

CSDL genome thực vật và phân tích hồ sơ biểu hiện gene đóng vai trò quan trọng

trong phát triển các giống cây trồng mới có năng suất cao hơn và chống chịu bệnh tốt

hơn

HẠN CHẾ

Sau khi đã nhận thấy sức mạnh của tin sinh học, cũng cần nhận ra những hạn chế

của nó và tránh phụ thuộc quá nhiều hay kỳ vọng quá nhiều vào kết quả tin sinh học

Thực tế tin sinh hoc có nhiều hạn chế nội tại Có thể hình dung vai trò của tin sinh

học như vai trò tình báo trong chiến tranh Tình báo rõ ràng rất quan trọng, dẫn tới

chiến thắng trên chiến trường Đánh nhau mà không có tình báo sẽ rất kém hiệu quả

và nguy hiểm Có thông tin tình báo chính xác và ưu thế sẽ giúp xác định điểm yếu

của kẻ thù và cho thấy ý đồ và chiến lược của kẻ thù Thông tin thu được sẽ được

dùng để định hướng các lực lượng chiến đấu với kẻ thù và chiến thắng Tuy nhiên

dựa hoàn toàn vào tình báo có thể rất nguy hiểm nếu thông tin tình báo kém chính

xác Dựa dẫm nhiều quá vào thông tin tình báo kém chính xác có thể để lại hậu quả

khôn lường nếu không nói là thất bại thảm hại

Không phải nói quá khi so sánh chiến đấu với bệnh tật và các vấn đề sinh học

dùng tin sinh học giống như đánh nhau dùng tình báo Tin sinh học và sinh học thực

nghiệm là những hoạt động riêng biệt, nhưng bổ trợ cho nhau Tin sinh học dựa trên

thực nghiệm để lấy dữ liệu thô để phân tích Ngược lại nó cung cấp cách hiểu sâu sắc

hơn về dữ liệu thực nghiệm và gợi ý cho những nghiên cứu về sau Dự đoán bằng tin

sinh học không phải là một chứng minh chặt chẽ các khái niệm Chúng không thay

thế các phương pháp nghiên cứu thực nghiệm để thực sự kiểm tra giả thuyết Ngoài

ra chất lượng dự đoán tin sinh học phụ thuộc vào chất lượng dữ liệu và sự tinh xảo

của thuật toán.Dữ liệu trình tự từ các thí nghiệm thông lượng cao thường chứa lỗi

Nếu trình tự bị lỗi và chú thích không đúng, kết quả phân tích về sau cũng sẽ sai Đó

là lý do tại sao cần có một cái nhìn thực tế về vai trò của tin sinh học

Trang 22

Tin sinh học không phải là một lĩnh vực nghiên cứu chín muồi Hầu hết thuật giải đều thiếu khả năng và độ tinh xảo để phản ánh thực tế Chúng thường đưa ra những

dự đoán vô nghĩa khi đặt vào các tình huống sinh học Ví dụ lỗi trong gióng cột trình

tự sẽ ảnh hưởng kết quả phân tích cấu trúc hay cây phát sinh loại Kết quả tính toán cũng phụ thuộc vào sức mạnh của máy tính Nhiều trường hợp không thể dùng các thuật giải vét cạn và chính xác vì tốc độ máy tính không đáp ứng Thực tế thì nhiều khi phải dùng đến các thuật toán ít chính xác nhưng nhanh hơn Đây là một sự trả giá cần thiết giữa độ chính xác và tính khả thi trong tính toán Vì thế cần nhớ rằng các chương trình máy tính dễ cho kết quả lỗi Luôn thận trọng khi gắng hiểu và giải thích kết quả dự đoán Tốt nhất là nên tập thói quen dùng nhiều chương trình nếu có

và tiến hành nhiều đánh giá Ta sẽ có dự đoán chính xác hơn nếu có sự đồng thuận khi so sánh kết quả của các thuật toán và chương trình khác nhau

vì nó đòi hỏi tích hợp nhiều lĩnh vực tri thức trong sinh học cũng như các công cụ toán học và thống kê học phức tạp Để hiểu sâu hơn về chức năng tế bào, cần có mô hình toán mô phỏng nhiều phản ứng nội bào Sự mô phỏng tất cả các quá trình tế

bào được gọi là sinh học hệ thống Đạt được mục tiêu này sẽ là một bước nhảy vọt về

việc hiểu cơ thể sống Đó là lý do tại sao mô phỏng hệ thống và tích hợp được xem là tương lai của tin sinh học Mục tiêu cuối cùng là biến sinh học từ một ngành khoa học định tính sang một ngành khoa học định lượng và có khả năng dự đoán Đây thực sự là một thời điểm thú vị cho tin sinh học

ĐỌC THÊM

Attwood, T K., and Miller, C J 2002 Progress in bioinformatics and the importance of being

earnest Biotechnol Annu Rev 8:1–54.

Golding, G B 2003 DNA and the revolution of molecular evolution, computational biology,

and bioinformatics Genome 46:930–5.

Goodman, N 2002 Biological data becomes computer literature: New advances in

bioinfor-matics Curr Opin Biotechnol 13:68–71.

Trang 23

ĐỌC THÊM

Hagen. J B 2000 The origin of bioinformatics Nat Rev Genetics 1:231–6.

Kanehisa, M., and Bork, P 2003 Bioinformatics in the post-sequence era Nat Genet 33

Suppl:305–10.

Kim, J H 2002 Bioinformatics and genomic medicine Genet Med 4 Suppl:62S–5S

Luscombe, N M., Greenbaum, D., and Gerstein, M 2001 What is bioinformatics? A proposed

definition and overview of the field Methods Inf Med 40:346–58.

Ouzounis, C A., and Valencia, A 2003 Early bioinformatics: The birth of a discipline – A personal

view Bioinformatics 19:2176–90.

Trang 24

CHƯƠNG HAI

Giới thiệu về cơ sở dữ liệu sinh học

Một trong những đặc điểm đặc trưng của nghiên cứu genome thời hiện đại là việc tạo

ra một lượng dữ liệu thô khổng lồ Do lượng dữ liệu genome tăng lên, cần có phương pháp tính toán để quản lý số lượng dữ liệu khổng lồ này Do đó khó khăn đầu tiên của thời kỳ nghiên cứu genome là lưu trữ và xử lý một lượng thông tin đồ sộ thông qua thiết lập và sử dụng cơ sở dữ liệu máy tính Việc phát triển cơ sở dữ liệu để xử lý lượng dữ liệu sinh học rất lớn là nhiệm vụ cơ bản của Tin sinh học Chương này giới thiệu một số khái niệm cơ bản liên quan đến cơ sở dữ liệu, dạng, thiết kế và kiến trúc của cơ sở dữ liệu sinh học Chương sẽ nhấn mạnh đến tìm kiếm dữ liệu từ các cơ sở

dữ liệu sinh học chính như GenBank

CƠ SỞ DỮ LIỆU LÀ GÌ?

Cơ sở dữ liệu (CSDL) là một kho lưu trữ máy tính hóa dùng để lưu trữ và sắp xếp dữ

liệu theo cách để dễ dàng tìm kiếm thông tin thông qua nhiều tiêu chí tìm kiếm CSDL bao gồm phần cứng máy tính và phần mềm để quản lý dữ liệu Mục đích chính của việc xây dựng CSDL là sắp xếp dữ liệu theo tập hợp các mẫu tin có cấu trúc để giúp dễ dàng tìm kiếm dữ liệu Mỗi mẫu tin, cũng được gọi là bản ghi (record), chứa các trường để ghi các hạng mục dữ liệu, ví dụ trường dành cho tên họ, số điện thoại, địa chỉ, ngày tháng năm Để tìm kiếm một mẫu tin từ CSDL người dùng có thể xác định một mẩu

thông tin gọi là giá trị, sẽ tìm thấy ở một trường nào đó và máy tính sẽ trả lại toàn bộ

dữ liệu, gồm nhiều mẫu tin của nhiều trường Quá trình này gọi là truy vấn

Mặc dù tìm kiếm dữ liệu là mục đích chính của tất cả CSDL, CSDL sinh học có một

yêu cầu cao hơn gọi là khám phá tri thức mới, nói đến việc xác định mối liên hệ giữa

các mẫu thông tin mà khi mới nhập vào không dễ dàng nhận biết Ví dụ CSDL chứa trình tự thô có thêm tính năng tìm kiếm trình tự tương đồng hoặc motif bảo tồn Các đặc tính này hỗ trợ việc tìm thấy tri thức sinh học mới từ dữ liệu thô

LOẠI CƠ SỞ DỮ LIỆU

Ban đầu tất cả CSDL đều dùng định dạng flat file, tức là một file văn bản chứa nhiều mẫu tin ngăn cách bởi các dấu giới hạn, một ký tự đặc biệt ví dụ như thanh đứng (| )

Trong mỗi mẫu tin lại có nhiều trường được chia cách bởi các dấu chấm phẩy hoặc 10

Trang 25

LOẠI CƠ SỞ DỮ LIỆU

dấu cách Ngoại trừ các giá trị thô ở mỗi trường, toàn bộ file văn bản không chứa bất kỳ

hướng dẫn ẩn nào để máy tính tìm kiếm một thông tin cụ thể hoặc lập một báo cáo dựa

trên các trường nhất định của mỗi mẫu tin File văn bản có thể xem là một bảng Vì

thế để tìm kiếm thông tin trong một flat file, may tính phải đọc qua toàn bộ file, một

quá trình rõ ràng là không hiệu quả Đối với một CSDL nhỏ thì có thể làm như vậy,

nhưng dạng CSDL này trở nên rất khó để tìm thông tin khi kích thước CSDL tăng lên

hoặc dạng dữ liệu phức tạp hơn Thực tế việc tìm kiếm trong các file như vậy thường

gây lỗi đơ máy do tính chất đòi hỏi quá nhiều bộ nhớ của thủ thuật

Để hỗ trợ việc truy cập và tìm kiếm dữ liệu, các phần mềm tinh xảo để tổ chức, tìm

kiếm và truy cập dữ liệu đã được xây dựng Chúng được gọi là hệ thống quản lý cơ sở

dữ liệu Các hệ thống này không chỉ chứa dữ liệu thô mà còn có các lệnh hướng dẫn

giúp xác định các mối quan hệ ẩn giữa các mẫu tin Mục đích của việc lập cấu trúc dữ

liệu là để dễ dàng thực hiện tìm kiếm và kết hợp nhiều mẫu tin khác nhau để cho ra

một báo cáo tìm kiếm sau cùng.Tùy thuộc vào loại cấu trúc dữ liệu, hệ thống quản lý

cơ sở dữ liệu có thể được phân thành hai loại: hệ thống quản lý cơ sở dữ liệu quan hệ và

hệ thống quản lý cơ sở dữ liệu hướng đối tượng Và vì thế các CSDL dùng các hệ thống

quản lý này được biết đến dưới tên gọi CSDL quan hệ và CSDL hướng đối tượng

Cơ sở dữ liệu quan hệ

Thay vì dùng một bảng duy nhất như trong CSDL flat file, CSDL quan hệ dùng tập hợp

các bảng để sắp xếp dữ liệu Mỗi bảng, cũng được gọi là một quan hệ, bao gồm các cột

và hàng Cột đại diện cho trường và hàng đại diện cho giá trị tập tin ở các trường Cột

trong bảng được chỉ dẫn (index) theo một đặc điểm chung gọi là đặc tính, để có thể đối

chiếu ở các bảng khác Để thực hiện một truy vấn ở CSDL quan hệ, hệ thống sẽ chọn

các dữ liệu liên kết với nhau ở các bảng khác nhau và kết hợp thông tin thành một báo

cáo Vì thế thông tin cụ thể có thể tìm thấy nhanh hơn so với CSDL dạng flat file

Có thể xây dựng CSDL quan hệ bằng một ngôn ngữ lập trình đặc biệt gọi là SQL

(structured query language) Việc tạo loại CSDL này có thể mất rất nhiều thời gian

trong giai đoạn thiết kế Nhưng sau khi đã tạo xong CSDL ban đầu, có thể nhập các

loại dữ liệu mới vào mà không cần thay đổi các bảng có sẵn Việc tìm kiếm dữ liệu và

thu thập dữ liệu để làm báo cáo trả lời truy vấn sẽ rất chân phương

Đây là một ví dụ đơn giản về thông tin môn học của sinh viên ở dạng flat file, chứa

mẩu tin về năm sinh viên ở bốn bang khác nhau, đăng ký học các môn khác nhau

(Hình 2.1) Mỗi mẩu tin được chia cách bởi thanh đứng và chứa bốn trường về tên,

bang, mã môn học và tên môn học Một CSDL quan hệ cũng được lập để lưu các

thông tin giống như vậy, trong đó dữ liệu được cấu trúc thành các bảng Hình 2.1 cho

thấy cách thức hoạt động của một CSDL quan hệ Ở mỗi bảng, dữ liệu có cùng tiêu

chí được nhóm lại với nhau Các bảng khác nhau có thể được kết nối nhờ có cùng

loại dữ liệu, giúp tìm nhanh thông tin cụ thể

Trang 26

12 GIỚI THIỆU VỀ CƠ SỞ DỮ LIỆU

Hình 2.2 Ví dụ về xây dựng một CSDL quan hệ cho thông tin môn học của năm sinh viên ban đầu được

trình bày dạng flat file Bằng cách lập ba bảng khác nhau liên kết bởi các trường chung, ta có thể dễ dàng truy cập và thu thập dữ liệu.

Ví dụ nếu ta đặt câu hỏi các sinh viên bang Texas học môn gì? CSDL trước tiên sẽ tìm kiếm trong trường bang (State) ở bảng A và tìm Texas Kết quả trả lại sẽ là sinh viên

số 1 và 5 Các sinh viên này cũng được liệt kê ở bảng B, tương ứng với môn Biol 689

và Math 172 Bằng cách đi tới bảng C, có thể tra tên chính xác của các môn học có mã

số vừa tìm thấy Báo cáo sau cùng sẽ cho thấy các sinh viên quê ở bang Texas học môn Bioinformatics và Calculus (Vi tích phân) Tuy nhiên nếu cũng truy vấn thông tin này ở flat file sẽ đòi hỏi máy tính đọc hết toàn bộ văn bản trong file, từng chữ một, rồi lưu thông tin vào bộ nhớ tạm thời, và sau đó đánh dấu các mẩu tin có chứa từ

Texas Nếu CSDL nhỏ thì điều này dễ làm Để truy vấn một CSDL lớn mà dùng flat

file thì rõ ràng máy tính khó đảm đương nổi

Cơ sở dữ liệu hướng đối tượng

Một trong những vấn đề với CSDL quan hệ là các bản không phản ánh mối quan hệ cấp bậc phức tạp giữa các hạng mục dữ liệu Để khắc phục vấn đề này CSDL hướng đối tượng được xây dựng để lưu dữ liệu dưới dạng đối tượng Ở ngôn ngữ lập trình hướng đối tượng, một đối tượng được xem là một đơn vị kết hợp dữ liệu và các phép toán để tác động lên dữ liệu đó CSDL được cấu trúc sao cho các đối tượng được liên kết với nhau bằng tập hợp các con trỏ xác định mối quan hệ định trước giữa các đối tượng Tìm kiếm CSDL sẽ gồm định vị qua các đối tượng nhờ sự giúp đỡ của các con trỏ nối các đối tượng khác nhau Các ngôn ngữ lập trình như C++ được dùng để tạo ra CSDL hướng đối tượng

Hệ thống CSDL hướng đối tượng linh động hơn; dữ liệu được cấu trúc theo cấp bậc

Bằng cách đó nhiệm vụ lập trình sẽ đơn giản hơn cho các đối tượng đã biết quan hệ, ví

The object-oriented database system is more flexible; data can be structured based on hierarchical relationships By doing so, programming tasks can be simplified for data that are known to have complex relationships, such as multimedia data However,

Trang 27

CƠ SỞ DỮ LIỆU SINH HỌC 13

Hình 2.2 : Ví dụ về xây dựng và truy ván một CSDL hướng đối tượng dùng thông tin như Hình 2.1 Ba

đối tượng được xây dựng và kết nối với nhau bằng các con trỏ dưới dạng mũi tên Việc tìm một thông tin

cụ thể phụ thuộc vào định hướng qua các đối tượng nhờ con trỏ Để đơn giản hóa một số con trỏ không

được thể hiện trong hình

dụ dữ liệu đa truyền thông Tuy nhiên loại CSDL này thiếu tính chặt chẽ về cơ sở

Toán có ở CSDL quan hệ Ngoài ra còn có nguy cơ một số mối quan hệ giữa các đối

tượng bị thể hiện sai Một số CSDL hiện tại vì thế đưa cả hai loại ngôn ngữ CSDL vào

để lập trình, tạo nên hệ thống quản lý CSDL quan hệ - hướng đối tượng

Thông tin về môn học ở trên (Hình 2.1) có thể được dùng để tạo nên một CSDL

hướng đối tượng Có thể thiết kế ba đối tượng: đối tượng sinh viên, đối tượng môn

học và đối tượng bang Mối quan hệ giữa chúng được chỉ định bằng đường thẳng và

mũi tên (Hình 2.2) Để trả lời câu hỏi như trên - sinh viên quê Texas học môn gì - ta

chỉ cần bắt đầu từ Texas trong đối tượng bang, và nó có con trỏ chỉ đến sinh viên 1 và

5 trong đối tượng sinh viên Các con trỏ ở đối tượng sinh viên trỏ tới môn học mà

mỗi sinh viên đang học Vì thế chỉ cần đi một cách đơn giản qua các đối tượng kết

nối với nhau sẽ cho ta báo cáo cuối cùng

CƠ SỞ DỮ LIỆU SINH HỌC

CSDL sinh học hiện tại sử dụng cả ba loại CSDL: flat file, quan hệ và hướng đối

tượng Mặc dù có những bất tiện của flat file trong quản lý CSDL, nhiều CSDL sinh

học vẫn dùng định dạng này Lý do là hệ thống nàyít đòi hỏi thiết kế và kết quả tìm

kiếm dễ hiểu đối với các nhà sinh học

Trang 28

14 GIỚI THIỆU VỀ CƠ SỞ DỮ LIỆU SINH HỌC

Dựa vào dữ liệu mà nó chứa, CSDL sinh học có thể được chia làm ba nhóm: CSDL

sơ cấp, CSDL thứ cấp và CSDL chuyên biệt CSDL sơ cấp chứa dữ liệu sinh học từ thí

nghiệm Chúng là kho lưu trữ các trình tự thô hoặc cấu trúc thô do các nhà khoa học

gửi lên Genbank và Protein Data Bank (PDB) là các ví dụ của CSDL sơ cấp CSDL thứ cấp chứa các thông tin đã được xử lý và chỉnh sửa bằng tay và bằng máy, dựa trên

thông tin gốc từ CSDL sơ cấp CSDL trình tự protein dịch mã chứa các chú thích chức năng thuộc nhóm này Một số ví dụ là SWISS-Prot và Protein Information Resources (PIR) (nối tiếp Altas trình tự và cấu trúc protein của Margaret Dayhoff)[Chương 1]) CSDL chuyên biệt là CSDL phục vụ cho các mục đích nghiên cứu đặc thù Ví dụ Flybase, HIV sequence database, và Ribosomal Database Project là các CSDL chuyên biệt về một sinh vật hoặc một loại dữ liệu Danh sách một số CSDL thường dùng được cung cấp ở Bảng 2.1

Cơ sở dữ liệu sơ cấp

Có ba CSDL trình tự miễn phí chính lưu trữ các trình tự nucleic acid thô và do các nhà nghiên cứu trên khắp thế giới gửi lên: GenBank, European Molecular Biology Laboratory (EMBL) database và DNA Data Bank of Japan (DDBJ) Hầu hết dữ liệu trong các CSDL này đều được tác giả đóng góp trực tiếp với chú thích tối thiểu Một

số trình tự, đặc biệt là những trình tự công bố từ những năm 1980 được đội ngũ nhân viên quản lý CSDL nhập vào bằng tay

Hiện tại việc đăng trình tự lên GenBank, EMBL hay DDBJ là một điều kiện bắt buộc

để công bố ở hầu hết các tạp chí khoa học để đảm bảo dữ liệu phân tử được truy cập miễn phí Ba CSDL miễn phí này phối hợp chặt chẽ với nhau và trao đổi dữ liệu mới hàng ngày Cùng nhau chúng tạo nên International Nucleotide Sequence Database Collaboration Điều này có nghĩa là chỉ cần kết nối với bất kỳ CSDL nào ta đều truy cập vào cùng một tập hợp dữ liệu trình tự nucleotide Mặc dù ba CSDL đều chứa dữ liệu thô giống hệt, mỗi CSDL có một kiểu định dạng riêng để trình bày dữ liệu

May thay đối với cấu trúc ba chiều của các đại phân tử sinh học, chỉ có một CSDL tập trung là PDB CSDL này lưu tọa độ nguyên tử của các đại phân tử (cả protein lẫn nucleic acid) được xác định bằng chụp ảnh tinh thể tia X và NMR (cộng hưởng từ hạt nhân) Nó sử dụng định dạng flat file để trình bày tên protein, tác giả, chi tiết thí nghiệm, cấu trúc bậc hai, nhân tố phụ và tọa độ nguyên tử Giao diện web của PDB cũng cung cấp công cụ cho phép xem và thao tác đơn giản Chi tiết thêm về CSDL này và định dạng của nó được cung cấp ở Chương 12

Cơ sở dữ liệu thứ cấp

Thường ở CSDL sơ cấp chú thích về dữ liệu rất ít Để biến thông tin trình tự thô thành tri thức sinh học phức tạp, cần phải xử lý thông tin hậu kỳ nhiều Điều này đòi

Trang 29

CƠ SỞ DỮ LIỆU SINH HỌC 15

BẢNG2.1 Các cơ sở dữ liệu sinh học chính có thể truy cập trên web

Châu Âu Cổng NCBI cho nhiều CSDL khác

nhau CSDL Proteomics

CSDL của Drosophila

genome CSDL cấu trúc bậc hai của protein CSDL trình tự Nucleotide sơ cấp

Y và Sinh học Trình tự RNA ribosome và cây phát sinh loại xây dựng từ các trình tự này

Hệ thống tìm kiếm trình tự chung CSDL trình tự protein có coi sóc

CSDL thông tin về Arabidopsis

www.ebi.ac.uk/embl/index.html www.ncbi.nlm.nih.gov/gquery/gquery.fcgi http://us.expasy.org/

http://ﬂybase.bio.indiana.edu/

www.bioinfo.biocenter.helsinki.ﬁ:8080/dali/index.html www.ncbi.nlm.nih.gov/Genbank

www.hiv.lanl.gov/content/index www.ebi.ac.uk/microarray

www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM http://pir.georgetown.edu/pirwww/pirhome3.shtml www.ncbi.nlm.nih.gov/PubMed

http://rdp.cme.msu.edu/html http://srs6.ebi.ac.uk www.ebi.ac.uk/swissprot/access.html www.arabidopsis.org

hỏi cần có CSDL thứ cấp, trong đó có thông tin trình tự do máy tạo ra từ CSDL sơ

cấp Mức độ xử lý thông tin sơ cấp là rất khác nhau ở các CSDL thứ cấp khác nhau;

một số đơn giản chỉ là lưu trình tự dịch mã từ khung đọc của DNA, trong khi một số

các cung cấp thêm chú thích và thông tin mức độ cao hơn về cấu trúc và chức năng

Một ví dụ quan trọng của CSDL thứ cấp là SWISS-PROT, cung cấp chú thích trình

tự chi tiết bao gồm cấu trúc, chức năng và họ protein của trình tự Dữ liệu trình tự

chủ yếu lấy từ TrEMBL, một CSDL trình tự nucleic acid dịch mã lưu giữ trong CSDL

Trang 30

EMBLE Việc gi chú cho mỗi bản ghi được trông coi bởi chuyên gia vì vì thế chất lượng rất tốt Chú thích protein bao gồm chức năng, cấu trúc miền, vị trí xúc tác, gắn nhân tố phụ, biến đổi hậu dịch mã, thông tin con đường chuyển hóa, bệnh liên quan

và độ tương tự với các trình tự khác Hầu hết các thông tin này lấy từ các bài báo khoa học và nhập vào bởi người trông coi CSDL Các chú thích cung cấp giá trị thặng dư đáng kể cho mẩu tin trình tự thô ban đầu Mẫu tin cũng cung cấp liên kết đến các nguồn trực tuyến khác mà ta có thể quan tâm Các đặc điểm khác như độ trùng lặp thấp và độ tích hợp cao với các CSDL sơ cấp và thứ cấp khác khiến cho SWISS-PROT rất được ưa chuộng bởi các nhà sinh học

Một nỗ lực gần đây để kết hợp SWISS-PROT, TrEMBL và PIR dẫn tới sự ra đời của CSDL UniProt, có mức độ chứa cao hơn cả ba CSDL kia đồng thời duy trì được đặc điểm của SWISS-PROT như độ trùng lặp thấp, có liên kết đến các CSDL khác và chất lượng chú thích cao

Cũng có CSDL thứ cấp về phân loại protein theo chức năng và cấu trúc CSDL Pfam và Blocks (mô tả ở Chương 7) chứa các thông tin gióng cột protein cũng như motif và kiểu dạng cấu trúc, có thể dùng để phân loại họ protein và suy luận về chức năng protein CSDL DALI (chương 13) là một CSDL cấu trúc thứ cấp của protein có vai trò quan trọng trong phân loại cấu trúc protein và dự đoán cấu trúc theo phương pháp nhận diện dạng gập cuộn (Chương 15) và xác định mối quan hệ tiến hóa xa ở các protein

Cơ sở dữ liệu chuyên hóa

CSDL chuyên hóa thường phục vụ một nhóm nghiên cứu cụ thể hoặc tập trung vào một sinh vật cụ thể Dữ liệu của các CSDL này có thể là trình tự hoặc các thông tin khác Trình tự trong các CSDL này có thể giống với các CSDL sơ cấp nhưng cũng có thể có trường hợp dữ liệu được tác giả trực tiếp gửi vào Vì chúng được trông nom bởi chuyên gia trong ngành, chúng có cấu trúc riêng và các chú thích bổ sung cho các trình tự Nhiều CSDL genome theo phân loại học rơi và nhóm này Ví dụ như Flybase, Wormbase, AceDB và TAIR (Bảng 2.1) Ngoài ra cũng có các CSDL chuyên biệt chứa thông tin từ phân tích thực nghiệm Ví dụ CSDL EST ở GenBank và CSDL biểu hiện gene Microarray ở European Bioinformatics Institute (EBI) là một số CSDL biểu hiện gene đang có hiện nay

Liên kết lẫn nhau giữa các cơ sở dữ liệu sinh học

Như đã đề cập CSDL là nơi lưu trữ và phân phối các thông tin thô về trình tự và cấu trúc Chúng cung cấp dữ liệu cho gần như tất cả các CSDL sinh học giống như Hãng thông tấn cung cấp tin cho đài địa phương, để rồi nhà đài biên tập tin trước khi phát

để phù hợp cho mục đích riêng Vì thế đối với cộng đồng các nhà khoa học, thường các CSDL thứ cấp và chuyên biệt cần phải được kết nối với các CSDL sơ cấp và để

Trang 31

CÁC VẤN ĐỀ CỦA CƠ SỞ DỮ LIỆU SINH HỌC

tiếp tục đăng thông tin trình tự Ngoài ra người dùng thường cần thông tin ở các

CSDL sơ cấp lẫn thứ cấp để làm việc vì thông tin từ một CSDL thường không đủ

Thay vì để người dùng phải đến từng CSDL, sẽ tiện hơn nếu các bản ghi liên quan

trong một CSDL được chia xẻ và liên kết với các bản ghi trong các CSDL khác chứa

thêm thông tin Những nhu cầu này đòi hỏi phải liên kết các CSDL lại với nhau

Rào cản chính để liên kết các CSDL sinh học lại là tính bất tương thích về định dạng

của các CSDL sinh học hiện tại sử dụng cả ba loại cấu trúc CSDL - flat file, quan hệ và

hướng đối tượng Sự không tương đồng về cấu trúc CSDL hạn chế trao đổi thông tin

giữa các CSDL Một giải pháp cho việc kết nối mạng lưới các CSDL là dùng một ngôn

ngữ xác định gọi là Common Object Request Broker Architecture (COBRA), cho

phép các chương trình CSDL ở các nơi khác nhau giao tiếp với nhau thông qua "giao

diện mối lái" mà không cần phải hiểu cấu trúc của mỗi CSDL Nó hoạt động như

HyperText Markup Language (HTML) dùng để lập trình web, đánh dấu các bản ghi

bằng một tập hợp chung các nhãn

Một cách thức tương tự gọi là eXtensible Markup Langue (XML) cũng giúp liên

kết các CSDL Ở định dạng này, mỗi mẫu tin được chia nhỏ ra thành từng phần nhỏ

được đánh dấu bằng các nhãn phân cấp Cấu trúc CSDL kiểu này cải thiện đáng kể

việc phân phát và trao đổi các chú thích trình tự phức tạp giữa các CSDL Gần đây

một cách thức trao đổi thông tin Tin sinh học chuyên biệt đã được xây dựng, cho

phép một máy tính tiếp xúc với nhiều server và tìm thông tin chú thích trình tự nằm

rải rác liên quan đến một trình tự nhất định và tích hợp kết quả vào một báo cáo kết

hợp duy nhất

CÁC VẤN ĐỀ CỦA CSDL SINH HỌC

Một trong những vấn đề liên quan đến các CSDL sinh học là việc dựa dẫm quá nhiều

vào thông tin trình tự và các chú thích mà không cần biết độ tin cậy của thông tin

Một sự thực thường bị bỏ qua là có rất nhiều lỗi trong CSDL trình tự Chú thích gene

cũng đôi khi có thể sai hoặc không đầy đủ Tất cả các loại lỗi này có thể được chuyển

tới các CSDL khác, khiến cho lỗi bị nhân lên nhiều lần

Hầu hết lỗi trong trình tự nucleotide là do lỗi giải trình tự Một số lỗi này gây ra

dịch khung khiến cho việc xác định gene khó khăn hơn hoặc không thể dịch mã ra

protein Đôi khi trình tự gene bị nhiễm bởi trình tự vector tạo dòng Nhìn chung lỗi

thường hay gặp ở các trình tự tạo ra trước những năm 1990; chất lượng trình tự từ đó

trở đi đã cải thiện mạnh Vì thế cần để ý khi làm việc với các trình tự đã công bố lâu

Trùng lặp là một vấn đề quan trọng khác ảnh hưởng đến CSDL sơ cấp Rất nhiều

thông tin trong CSDL sơ cấp bị trùng lặp, vì nhiều lý do khác nhau Các lý do trùng

Trang 32

lặp bao gồm gửi đăng các trình tự giống hoặc có trùng nhau bởi cùng một tác giả hay của nhiều tác giả, sửa đổi lại chú thích, đăng hàng loạt các dữ liệu EST (Chương 18)

và quản lý CSDL kém không phát hiện lỗi trùng lặp Điều này khiến cho một số CSDL sơ cấp cực kỳ lớn và khó khăn cho việc tìm kiếm

Đã có những bước để giảm sự trùng lặp National Center for Biotechnology

Information (NCBI) đã tạo ra CSDL không trùng lặp, gọi là RefSeq, trong đó các

trình tự giống nhau từ cùng một loài và các đoạn trình tự liên quan được nhập vào một bản ghi duy nhất Trình tự protein suy ra từ cùng trình tự DNA được liên kết rõ ràng để cho biết chúng là những bản ghi liên quan Các biến thể trình tự từ cùng một loài với sự khác nhau nhỏ, có khả năng do lỗi giải trình tự, sẽ được xem là các bản ghi riêng rẽ Loại CSDL được trông coi kỹ như vậy có thể được xem là một CSDL thứ cấp

Như đã đề cập CSDL SWISS-PROT cũng có tính trùng lặp tối thiểu đối với các trình tự protein so với các CSDL khác Một cách để giải quyết vấn đề trùng lặp là tạo

ra CSDL nhóm-trình tự như UniGene (xem Chương 18) trong đó các trình tự EST của cùng một gene được nhập lại với nhau làm một

Một vấn đề hay gặp khác là chú thích sai Thường cùng một trình tự gene nhưng

có tiêu đề khác nhau sẽ nằm ở các bản ghi khác nhau gây nhầm lần dữ liệu Hoặc ngược lại các gene không họ hàng lại có cùng tên trong CSDL Để giảm nhẹ vấn đề đặt tên gene, cần chú thích lại gene và protein dùng một tập hợp các từ vựng chung

và có kiểm soát để mô tả gene và protein Mục đích là cung cấp một hệ thống nhất quán, không bất nhất cho tất cả các gene và protein Một ví dụ nổi bật của nỗ lực này

là Gene Ontology ( xem Chương 17).

Một số sự bất nhất trong chú thích có thể thực sự do sự bất đồng ý kiến giữa các nhà nghiên cứu trong cùng một lĩnh vực; một số khác có thể do việc gán tên một cách bất cẩn bởi tác giả gửi trình tự Lại có những lỗi đơn giản là do bỏ sót hoặc lỗi đánh máy Lỗi trong chú thích sẽ có tác hại to lớn vì phần lớn các trình tự mới được gán chức năng dựa trên độ tương tự với các trình tự có sẵn trong CSDL đã được chú thích Vì thế một chú thích sai có thể được truyền qua tất cả các gene tương đồng trong toàn bộ CSDL Có thể các lỗi này sẽ sửa được bằng máy tính bằng cách nghiên cứu họ protein và miền Tuy nhiên đối với các lỗi khác đôi khi phải sửa chú thích bằng cách làm thí nghiệm

TÌM KIẾM THÔNG TIN Ở CƠ SỞ DỮ LIỆU SINH HỌC

Như đã đề cập, mục tiêu chính của xây dựng CSDL là để giúp người dùng dễ truy cập

và dữ liệu được lưu Có một số hệ thống tìm kiếm thông tin dành cho dữ liệu sinh học Hệ thống tìm kiếm phổ biến nhất là Entrez và Sequence Retrieval System (SRS) cho phép người dùng truy cập vào nhiều CSDL để lấy các thông tin ở dạng kết quả tích hợp

Trang 33

Để truy vấn các câu lệnh phức tạp trong một CSDL thường đòi hỏi phải sử dụng

các toán tử logic, tức là ta sẽ nối các từ khóa với nhau bằng các toán tử như AND, OR

hay NOT để chỉ cho máy biết mối quan hệ giữa các từ khóa dùng trong tìm kiếm

AND có nghĩa là kết quả tìm kiếm phải chứa cả hai từ; OR nghĩa là tìm kiếm kết quả

chứa một trong hai từ; NOT loại trừ ra khỏi kết quả tìm kiếm chứa một trong hai từ

Ngoài ra ta có thể dùng dấu ngoặc () để định nghĩa một khái niệm nếu trong tìm

kiếm có nhiều từ và mối quan hệ để máy tính biết phải thực hiện tìm kiếm nào trước

Dấu ngoặc kép cũng có thể dùng để xác định cụm từ chính xác cần tìm Hầu hết các

phầm mềm tìm kiếm ở các CSDL miễn phí đều dùng các dạng toán tử này

Entrez

NCBI phát triển và duy trì hệ thống Entrez (đọc là on-tray), một hệ thống tìm kiếm

thông tin ở CSDL sinh học Nó là một cổng cho phép tìm kiếm nhiều loại dữ liệu

khác nhau, bao gồm thông tin trình tự gene có chú thích, thông tin cấu trúc, cũng

như tài liệu trích dẫn và tóm tắt bài báo, bài báo khoa học đầy đủ và dữ liệu phân loại

Đặc điểm chính của Entrez là khả năng tích hợp thông tin do có sự kết nối dữ liệu

giữa các CSDL trên NCBI dựa trên mối quan hệ có sẵn và logic giữa các bản ghi Điều

này rất tiện: người dùng không cần đến nhiều CSDL nằm ở các nơi khác nhau Ví dụ

ở trang thông tin trình tự nucleotide ta có thể tìm thấy đường link đến trình tự

protein dịch mã, dữ liệu bản đồ genome hay link đến bài báo liên quan trên Pubmed,

và link đến cấu trúc protein nếu có

Để dùng Entrez hiệu quả đòi hỏi phải nắm được các đặc điểm chính của phần

mềm tìm kiếm Có một số lựa chọn chung cho tất cả CSDL trên NCBI để giúp thu

hẹp tìm kiếm Một lựa chọn là "Limits" giúp giới hạn tìm kiếm trong một tập nhỏ dữ

liệu của một CSDL (ví dụ tìm kiếm trong trường tác giả hay ngày xuất bản) hay một

loại dữ liệu (ví dụ DNA/RNA lục lạp thể) Một lựa chọn nữa là "Preview/Index", nối

các tìm kiếm bằng toán tử logic và dùng một chuỗi các từ khóa tìm kiếm được nối với

nhau bằng các toán tử để tìm kiếm Có thể tìm kiếm giới hạn trong một trường tìm

kiếm nào đó (ví dụ gene name hay accession number) Lựa chọn "History" cung cấp

hồ sơ tìm kiếm trước đó của người dùng, cho phép người dùng xem lại, sửa đổi hoặc

kết hợp các kết quả tìm kiếm trước đó Lại có "Clipboard" lưu lại kết quả tìm kiếm

trong một thời gian hạn chế để người dùng có thể xem lại sau Để lưu thông tin trong

Clipboard cần dùng chức năng "Send to clipboad"

Một CSDL có thể truy cập từ Entrez là CSDL bài báo khoa học Y-Sinh gọi là

Pubmed, chứa tóm tắt và đôi khi toàn bộ bài báo từ gần 6000 tạp chí Một đặc điểm

quan trọng của Pubmed là tìm kiếm thông tin dựa trên các thuật ngữu tiêu đề y học

(MeSH) MeSH bao gồm tập hợp hơn 20000 thuật ngữ chuẩn hóa và có kiểm soát

dùng để chỉ dẫn bài báo Nói chung nó là một cuốn từ điển đồng nghĩa giúp chuyển

một từ khóa tìm kiếm thành một thuật ngữ chuẩn hóa để mô tả một khái niệm

Trang 34

20 GIỚI THIỆU CƠ SỞ DỮ LIỆU SINH HỌC

BẢNG2.2 Một số nhãn trên Pubmed và mô tả vắn tắt

AD Affiliation AID

AU DP JID LA PL PT RN

SO TA

Article identifier Author Date Journal ID Language Publication place Publication type EC/

RN Number

Source Journal title Abbreviation

Tóm tắt bài báo

Cơ quan công tác và địa chỉ của tác giả và mã số đề tài

Mã số bài báo bao gồm PII (Controlled Publisher Identifier) hay doi (digital object identifier)

Tên tác giả bài báo Ngày bài báo được xuất bản

Mã số duy nhất của tạp chí trong catalog sách, báo và băng dĩa của National Library of Medicine

Ngôn ngữ của bài báo Nước nơi tạp chí xuất bản đóng Loại nội dung mà bài báo công bố

Số do Enzyme Commission dùng để gán cho một enzyme hay do Chemical Abstracts Service gán cho một số đăng ký

Trường phức chứa thông tin về trích dẫn Tên tắt chuẩn của tạp chí

Tiêu đề bài báo Tập của tạp chí có bài báo

Nguồn: www.ncbi.nlm.nih.gov/entrez/query/static/help/pmhelp.html.

Bằng cách đó nó cho phép tìm kiếm "thông minh" trong đó một nhóm các từ đồng nghĩa được CSDL chấp nhận để người dùng không chỉ tìm thấy kết quả giống hệt mình muốn mà còn các kết quả liên quan của cùng một chủ đề mà đôi khi có thể không biết Một cách để mở rộng tìm kiếm là sử dụng lựa chọn "Related Articles"

PubMed dùng thuật giải cho trọng số với một từ khóa để xác định các bài báo liên quan trong tiêu đề, tóm tắt và MeSH Bằng cách dùng tính năng này, các bài báo cùng chủ đề có thể bị bỏ qua trong tìm kiếm ban đầu sẽ được tìm thấy

Để tìm kiếm phức tạp, người dùng có thể dùng toán tử logic hoặc kết hợp các tính năng Limits, Preview/Index để tiến hành tìm kiếm phức tạp Hoặc có thể dùng nhãn trường để tăng hiệu quả tìm kiếm Các nhãn này là các phù hiệu chỉ định cho mỗi trường và được đặt trong dấu ngoặc vuông Ví dụ [AU] giới hạn tìm kiếm trong tên tác giả, và [JID] trong tên tạp chí Pubmed dùng một danh sách các nhãn để tìm kiếm bài báo Các từ tìm kiếm ở trường có thể được nối với nhau bằng các toán tử Một số trường Pubmed thường dùng được liệt kê ở Bảng 2.2

Một CDSL đặc biệt truy cập được từ Entrez là OMIM (Online Mendelian Inheritance

in Man), là một CSDL phi trình tự về các gene bệnh và rối loạn ở người Mỗi mẫu tin ở OMIM chứa tóm tắt về một bệnh và các gene liên quan Tập tin chứa rất nhiều liên kết đến các bài báo, trình tự sơ cấp và vị trí trên NST của gene bệnh CSDL này là một nơi khởi đầu tuyệt vời để nghiên cứu về các gene liên quan đến bệnh ở người

NCBI cũng duy trì một CSDL phân loại học chứa vị trí phân loại của trên 100.000

Trang 35

loài có ít nhất một trình tự protein hoặc nucleotide được trình bày trong CSDL

Genank CSDL phân loại có kiểu phân loại theo cấp bậc Ở cấp sau cùng là Archaea,

Eubacteria và Eukaryota CSDL cho phép hiển thị cây phân loại của một loài Cây dựa

trên dữ liệu phát sinh loại học phân tử, tức dữ liệu RNA ribosome

GenBank

GenBank là tập hợp đầy đủ nhất của các dữ liệu trình tự của hầu như mọi sinh vật

Dữ liệu bao gồm trình tự genome, mRNA, cDNA, EST, các trình tự thô được giải

theo phương pháp thông lượng cao và trình tự đa hình Cũng có CSDL GenPept cho

trình tự protein, phần lớn là được dịch mã lý thuyết từ trình tự DNA, mặc dù một số

nhỏ được gửi lên từ giải trình tự peptide

Có hai cách để tìm kiếm trình tự trên GenBank Một là dùng từ khóa giống như

tìm kiếm trên Pubmed Cách kia là dùng trình tự để tìm kiếm trình tự tương tự bằng

BLAST (Chương 5)

Định dạng trình tự GenBank

Để tìm kiếm hiệu quả trên GenBank bằng từ khóa đòi hỏi phải hiểu về định dạng trình

tự Genbank GenBank là một CSDL quan hệ Tuy nhiên kết quả tìm kiếm trình tự được

tạo ra ở dạng flat file để dễ đọc Flat file trình tự gồm ba phần - Tiêu đề (Header), Đặc

điểm (Features) và Trình tự (Hình 2.3) Ở phần Tiêu đề và Đặc điểm có rất nhiều

trường, mỗi trường có một mã duy nhất để phần mềm máy tính dễ chỉ dẫn Hiểu rõ

cấu trúc của file GenBank giúp tính toán phương pháp tìm kiếm hiệu quả

Phần Tiêu đề mô tả nguồn gốc trình tự, tên tuổi loài, và một mã duy nhất chỉ định

bản ghi Hàng đầu tiên là Locus, chứa mã duy nhất để xác định vị trí trình tự trong

CSDL (không phải locus trên NST) Tiếp theo mã duy nhất là thông tin về chiều dài

trình tự và loại trình tự (DNA/RNA) Tiếp theo là một mã ba chữ cái đại diện cho các

phân nhóm khác nhau của GenBank Có cả thảy 17 phân nhóm, được thiết lập dựa

chủ yếu vào việc tiện dụng cho lưu trữ dữ liệu thay vì có cơ sở khoa học chặt chẽ; ví

dụ PLN là phân nhóm trình tự của thực vật, nấm và tảo; PRI là phân nhóm trình tự

của linh trưởng; BCT là trình tự vi khuẩn và EST là trình tự EST Tiếp sau phân

nhóm là ngày dữ liệu được công bố (khác với ngày dữ liệu được đưa lên)

Hàng tiếp theo , "DEFINITION" cung cấp thông tin về bản ghi trình tự bao gồm

tên trình tự, tên và vị trí phân loại của sinh vật nguồn nếu biết, và thông tin cho biết

liệu trình tự là đầy đủ (complete) hay còn thiếu (partial) Tiếp theo là mã truy cập của

trình tự (accession number) là một số duy nhất được gán cho một trình tự DNA khi

nó được đưa lên GenBank lần đầu tiên và sẽ gắn mãi với trình tự đó Khi dùng trình

tự này trong các bài báo khoa học thì phải trích dẫn mã số này Nó có hai định dạng

khác nhau: hai chữ cái và năm chữ số hoặc một chữ cái và sáu chữ số Đối với một

perma-nently associated with that sequence This is the number that should be

cited in publications It has two different formats: two letters with five digits or one

letter with six digits For a nucleotide sequence that has been translated into a

protein sequence,

Trang 36

Hình 2.3 : Định dạng NCBI GenBank/GenPept thể hiện ba phần chính của một file trình tự

trình tự nucleotide dịch mã thành trình tự protein nó sẽ được gán cho một mã truy cấp mới ở dạng dãy chữ số và chữ cái Ngoài mã truy cập còn có số phiên bản và số gi (gene identifier) Mục đích của các số này là để xác định phiên bản hiện tại của trình

tự Nếu trình tự được chú thích thêm sau này thì mã truy cập sẽ giữ nguyên nhưng số phiên bản sẽ tăng, cũng như gi sẽ đổi Trình tự protein dịch mã từ một trình tự DNA cũng sẽ có mã truy cập khác

Hàng tiếp theo ở phần Tiêu đề là trường "ORGANISM" chứa tên khoa học của sinh vật nguồn và đôi khi loại mô nữa C ùng với tên khoa học là thông tin về phân loại

Trang 37

học của sinh vật Các mức độ phân loại khác nhau được kết nối đến CSDL phân loại

học của NCBI nơi có nhiều thông tin mô tả hơn Tiếp theo là trường "REFERENCE"

cung cấp thông tin về trích dẫn bài báo cho trình tự Phần REFERENCE bao gồm tên

tác giả và tiêu đề của công trình công bố (hoặc tên tạm cho công trình chưa công

bố) Trường "JOURNAL" bao gồm bài báo trích dẫn cũng như ngày trình tự được gửi

lên Bài báo trích dẫn thường có đường link đến dữ liệu Pubmed để truy cập bài báo

gốc Phần cuối cùng của Tiêu đề là thông tin liên lạc của người gửi trình tự

Phần "Đặc điểm" gồm thông tin chú thích về gene và sản phẩm của gene, cũng

như các vùng có ý nghĩa sinh học được ghi trong bản ghi, cùng với mã và từ đại diện

của các trường đặc điểm Trường "Source" cho biết chiều dài trình tự, tên khoa học

của loài và mã nhận dạng phân loại Một số thông tin có thể có hoặc không bao gồm

nguồn tạo dòng, loại mô và dòng tế bào Trường "gene" cung cấp thông tin về trình

tự nucleotide mã hóa và tên của nó Đối với DNA còn có trường "CDS" là thông tin

về vùng trình tự có thể dịch mã thành amino acid Đối với DNA eukaryote trường

này còn chứa thông tin về vị trí exon và trình tự protein dịch mã sẽ được nhập vào

Phần thứ ba của flat file chính là trình tự cần tìm, bắt đầu bằng nhãn "ORIGIN"

Có thể thay đổi định dạng của trình tự bằng cách chọn ở menu kéo hiển thị (Format)

ở góc trên bên trái màn hình Đối với trình tự là DNA, có báo cáo BASE COUNT

bao gồm số các Nu A, G, C và T trong trình tự Kết thúc phần trình tự là dấu slash

kép (//)

Để tìm kiếm trình tự DNA hay protein từ GenBank có thể giới hạn tìm kiếm ở các

trường chú thích như "organism", "accession number", "author" và "publication date"

Ta cũng có thể kết hợp lựa chọn "Limits" và "Preview/Index" như đã mô tả Hoặc ta

có thể dùng các từ đại diện của một số trường tìm kiếm, mỗi từ định nghĩa một

trường trong một file GenBank Các từ đại diện của trường cũng tương tự nhưng

không giống hoàn toàn các nhãn trường ở Pubmed Ví dụ ở GenBank [GENE] đại

diện cho tên gene, [AUTH] là tên tác giả và [ORGN] là tên loài Các tên đại diện

trường thường dùng trong tìm kiếm GenBank, phải đánh ở dạng viết hoa, và phải

nằm trong ngoặc vuông, được liệt kê ở Bảng 2.3

Các định dạng khác

FASTA Ngoài định dạng GenBank còn có nhiều định dạng trình tự khác FASTA là

một trong những định dạng đơn giản nhất và phổ biến nhất vì nó chứa thông tin

trình tự ở dạng văn bản mà nhiều chương trình phân tích Tin sinh học có thể đọc

Nó chỉ có một dòng định nghĩa duy nhất bắt đầu bằng dấu (>) và tiếp theo là tên

trình tự (Hình 2.4) Đôi khi thông tin bổ sung như mã gi hay nhận xét cũng được ghi

ở dòng này, và được ngăn khỏi phần trình tự bằng dấu “|” Các thông tin phụ có thể

có hoặc không và sẽ bị các chương trình phân tích Tin sinh học bỏ qua Trình tự ở

Trang 38

BẢNG2.3 Các tên đại diện trường dùng trong tìm kiếm GenBank

[ALL] All fields

[FKEY] Feature key

Chứa mã truy cập duy nhất của trình tự hay dữ liệu, gán cho trình tự nucleotide, protein hay các dữ liệu genome Chứa tất cả các thuật ngữ từ tất cả các trường có thể tìm kiếm trong CSDL

Chứa tất cả tên tác giả trong trường trích dẫn của CSDL

Số do Enzyme Commission hay Chemical Abstract Service đặt cho một enzyme hoặc một hợp chất, theo thứ tự đó

Chứa đặc điểm sinh học hoặc chú thích được chép cho trình tự Nucleotide Không có ở dữ liệu trình tự protei hay CSDL cấu trúc

[JOUR] Journal name

[MDAT] Modification date

Chứa tên chuẩn hoặc tên thường gặp của gene tìm thấy trong bản ghi của CSDL

Chứa tên tạp chí mà dữ liệu được công bố Chứa các thuật ngữ chỉ dẫn đặc biệt từ một tập thuật ngữ

có kiểm soát của GenBank, EMBL, DDBJ, SWISS-Prot, PIR, PRF hay PDB

Chứa ngày tháng năm của lần sửa đổi gần nhất bản ghi được chỉ dẫn trên Entrez ở định dạng Năm/Tháng/Ngày [MOLWT] Molecular weight Trọng lượng phân tử của một protein, được tính theo (Da),

được tính bằng phương pháp mô tả ở phần Searching by Molecular Weight ở tài liệu giúp đỡ của Entrez

tử và phân nhóm của GenBank [PROT] Protein name

[PDAT] Publication date

[SLEN] Sequence length

[TITL] Title word

Chứa tên chuẩn của protein tìm thấy trong bản ghi của CSDL

Chứa tên ngày dữ liệu được công bố trên Entrez, ở định dạng Năm/Tháng/Ngày

Chứa mã nhận dạng trình tự cho một trình tự Chứa tổng chiều dài của trình tự

Chứa tất cả các "từ tự do" trong một bản ghi Chỉ chứa các từ nằm ở dòng DEFINITION của file trình tự

Ghi chú: Một số tên đại diện trường có thể dùng chung ở CSDL Pubmed.

Nguồn: www.ncbi.nlm.nih.gov/entrez/query/static/help/helpdoc.html.

Định dạng
Số trang	76
Dung lượng	8,25 MB