Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 50 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
50
Dung lượng
2,39 MB
Nội dung
B á o c á o T i n s i n h h o c C h u y ê n đ 0 3 ề Nhóm 4 Đặng Thị Phượng Trần Thị Ngọc Nguyễn Thị Thương Phạm Thị Ngân Nguyễn Minh Phương 1.2 N i dung chuyên ộ đề I. Cơ sở dữ liệu sinh học II. Các ngân hàng CSDL sinh học III. Tìm hiểu công cụ trên các ngân hàng CSDL (EBI, NCBI, ExpaSy và DDBJ) 1.3 I. Cơ sở dữ liệu sinh học 1. Lịch sử ra đời 2. Độ chính xác của CSDL sinh học 3. Các loại CSDL sinh học 1.4 1. L ch s ra iị ử đờ Cơ sở dữ liệu sinh học (CSDL) chủ yếu đề cập đến các thông tin về trình tự axit nucleic (ADN, ARN), trình tự axit amin của các phân tử protein, thông tin về cấu trúc và giải phẫu của một số genom, mô hình cấu trúc không gian của các đại phân tử. Các thông tin này được sắp xếp và lưu trữ bởi một hệ thống các máy chủ rất mạnh của 3 ngân hàng gen lớn nhất thế giới là NCBI, EMBL và DDBJ. 1.5 1965 Ti n s Margaret Dayhoffetal xu t b n “Atlas of Protein ế ĩ ấ ả Sequences and Structures” (b n c a Trình t và c u ả đồ ủ ự ấ trúc Protein)=> t n n móng cho s ra i CSDL sinh h cđặ ề ự đờ ọ 1982 EMBL kh i t o CSDL v trình t DNA, trong vòng m t n m ở ạ ề ự ộ ă sau ó GenBank ra iđ đờ 1984 kh i t o c s d li u v ADN c a Nh t B nở ạ ơ ở ữ ệ ề ủ ậ ả 1988 EMBL / GenBank / DDBJ ng ý v nh d ng ph đồ ề đị ạ ổ bi n cho các y u t d li u ế ế ố ữ ệ N m 2004, ã có kho ng 500 c s d li u sinh h c công c ng ă đ ả ơ ở ữ ệ ọ ộ và th ng m i. ươ ạ 1.6 2. Độ chính xác của CSDL sinh học ✍ Trong lĩnh vực sinh học thì độ chính xác luôn được coi trọng và đặt lên hàng đầu. ✍ Nguồn cơ sở liên quan đến sinh học được truyền tải trên mạng vô cùng đa dạng và phong phú về chủng loại và đồ sộ về khối lượng. Chiếm khối lượng lớn nhất và đa dạng nhất là kết quả nghiên cứu trên đối tượng sinh học. Thường được biểu diễn dưới dạng số hay kí tự trong các tệp dữ liệu đơn lẻ hay dưới dạng các chương trình thuật toán hoàn chỉnh để cất giữ hay trao đổi. 1.7 3. Các loại CSDL sinh học Chia CSDL thành 2 loại: Sơ cấp và Thứ cấp a. CSDL Sơ cấp CSDL sơ cấp bao gồm các DLSH được lưu trữ trong các ngân hàng gen: Các trình tự Protein và DNA đi kèm với các thông tin, môt tả Các cấu trúc Protein và axit nucleic cùng với các thông tin bổ sung, mô tả Các CSDL của các gen (biểu hiện sản phẩm protein, enzym) 1.8 b. CSDL Thứ cấp Các CSDL thứ cấp được hình thành từ kết quả phân tích của CSDL sơ cấp Trình tự các motif(vùng đặc trưng của các phân tử protein và axit nucleic) Các đột biến và các biến thể trong các trình tự protein và DNA Các mối quan hệ hoặc phân loại: là kết quả của quá trình so sánh, đối chiếu giữa các CSDL. 1.9 M t s CSDL sinh h c l n trên th gi iộ ố ọ ớ ế ớ Dữ liệu về thông tin thông thường (sách báo, tạp chí… dạng số hóa), vd như CSDL tập trung về mảng y dược, CSDL về mảng nông nghiệp, CSDL tập trung về mảng thông tin về cổ sinh học và động vật hoang dã… 1.10 C s d li u v công trình khoa h c ã công b PUBMED c a ngân hàng NCBIơ ở ữ ệ ề ọ đ ố ủ (http://www.ncbi.nlm.nih.gov/pubmed/) [...]... 3 Sắp cặp trình tự (sequence pairwise alignment) và đa trình tự (multiple sequence alignment) 4 Dịch trình tự nucleotit sang trình tự axit amin 1 .32 1 Tìm kiếm các trình tự DNA, RNA và axit amin trong ngân hàng dữ liệu Trong NCBI để tìm kiếm trình tự DNA, RNA ta sử dụng CSDL Nucleotide, còn Axit amin ta sử dụng CSDL Protein Trong hệ thống EBI, DDBJ, ExpaSy cũng thực hiện việc tìm kiếm tương tự 1 .33 ... hàng dữ liệu Trong NCBI để tìm kiếm trình tự DNA, RNA ta sử dụng CSDL Nucleotide, còn Axit amin ta sử dụng CSDL Protein Trong hệ thống EBI, DDBJ, ExpaSy cũng thực hiện việc tìm kiếm tương tự 1 .33 1 .34 1 .35 1 .36 ... quan của hai khoảng trên hai triệu đoạn chuỗi DNA (với khoảng 2 .3 tỉ cặp nucleotide) Và về cấu trúc chuỗi protein và các đặc tính của chúng, cùng với các chương trình xử lý, mô phỏng cấu trúc và đặc tính phân tử protein ExPASy thì ta có thể khai thác dữ liệu về enzym và các hướng trao đổi chất DDBJ cung cấp dữ liệu về chuỗi nucleotide 1 .31 III Tìm hiểu công cụ trên các ngân hàng CSDL (EBI, NCBI, ExpaSy... EXPASY 1.18 (http://www.enzyme.expasy.org/) Mỗi CSDL có thể định hướng tập trung vào những mảng thông tin riêng Song tất cả mọi CSDL đều được xây dựng với tiêu chí đảm bảo dễ dàng truy cập, quản lí khai thác dữ liệu Để thỏa mãn yêu cầu trên, nhìn chung tất cả các CSDL đều cung cấp cho khách hàng chương trình tìm kiếm và kết nối liên thông dữ liệu rất hiệu quả, ví dụ entrez trong NCBI, SRS trong EBI... thông tin về các dữ liệu như là giàu nhất có thể, theo các quy tắc thống nhất của INSD, tốt hơn mà không cần bất kỳ sự căng thẳng bằng cách sử dụng 1.29 Địa chỉ trang web: http://www.DDBJ.nig.ac.jp/ 1 .30 3 Có thể khai thác sử dụng những gì trên các ngân hàng CSDL? Với mỗi ngân hàng CSDL ta có thể khai thác được nhưng dữ liệu khác nhau: NCBI ta có thể khai thác dữ liệu về cấu trúc chuỗi DNA, cấu trúc... DDBJ… 1.19 II Các ngân hàng CSDL sinh học 1 Ngân hàng CSDL là gì? Các ngân hàng CSDL thu thập dữ liệu từ đâu? 2 Tên, địa chỉ của một số ngân hàng CSDL sinh học lớn trên thế giới (EBI, NCBI, ExpaSy, DDBJ) 3 Có thể khai thác sử dụng những gì trên các ngân hàng CSDL? 1.20 1 Ngân hàng CSDL là gì? Ngân hàng CSDL sinh học là cả một kho tàng dữ liệu khổng lồ, được sắp xếp và lưu trữ bởi một hệ thống các máy tính... trong ba ngân hàng dữ liệu sinh học lớn nhất thế giới EBI được tổ chức và quản lý theo khoảng 80 mảng khác nhau, đồng thời còn cung cấp hầu hết các chương trình phân tích và xử lý thông tin sinh học 1. 23 Địa chỉ trang web : http://www.EBI.ac.uk 1.24 b NCBI (National Centre for Biotechnology Informatic ) Cơ sở dữ liệu Trung tâm Thông tin Quốc gia về Công nghệ sinh học Mỹ Được thành lập năm 1998, là... trúc chuỗi nucleotide phải kể đến CSDL hợp tác liên kết chung giữa EBI,NCBI và DDBJ Về dữ liệu genom có thể ví dụ một vài CSDL lớn như: CSDL về gen người, CSDL về vi khuẩn E.coli , CSDL về nấm men… 1. 13 Cơ sở dữ liệu về gen trên ngân hàng dữ liệu NCBI 1.14 (http://www.ncbi.nlm.nih.gov/genbank/) CSDL về gen người (OMIM) 1.15 (http://www.ncbi.nlm.gov/omim) Ngoài ra, còn loại dữ liệu về cấu trúc và đặc . T i n s i n h h o c C h u y ê n đ 0 3 ề Nhóm 4 Đặng Thị Phượng Trần Thị Ngọc Nguyễn Thị Thương Phạm Thị Ngân Nguyễn Minh Phương 1.2 N i dung chuyên ộ đề I. Cơ sở dữ liệu sinh học II. Các ngân. và DDBJ) 1 .3 I. Cơ sở dữ liệu sinh học 1. Lịch sử ra đời 2. Độ chính xác của CSDL sinh học 3. Các loại CSDL sinh học 1.4 1. L ch s ra iị ử đờ Cơ sở dữ liệu sinh học (CSDL) chủ yếu đề cập đến. riêng. Song tất cả mọi CSDL đều được xây dựng với tiêu chí đảm bảo dễ dàng truy cập, quản lí khai thác dữ liệu. Để thỏa mãn yêu cầu trên, nhìn chung tất cả các CSDL đều cung cấp cho khách hàng