Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

71 356 0
Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

i BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH BỘ MÔN CÔNG NGHỆ SINH HỌC ************ KHÓA LUẬN TỐT NGHIỆP KHAI THÁC DỮ LIỆU ESTs (EXPRESSED SEQUENCE TAGs) CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT TRIỂN MARKER PHÂN TỬ SSR (SIMPLE SEQUENCE REPEATS) Ngành học: CÔNG NGHỆ SINH HỌC Niên khóa: 2003-2007 Sinh viên thực hiện: LƢU TRẦN CÔNG HUY Thnh ph H Ch Minh Thng 9/2007 ii LỜI CẢM ƠN           m 2007   iii TÓM TẮT KHOÁ LUẬN LƢU TRẦN CÔNG HUY, Đại Học Nông Lâm TP. Hồ Chí Minh, tháng 07/2007. “KHAI THÁC DỮ LIỆU ESTs (EXPRESSED SEQUENCE TAGs) CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT TRIỂN MARKER PHÂN TỬ SSR (SIMPLE SEQUENCE REPEATS)”                      xpressed Sequence Tags), trong citrus)Simple Sequence Repeats sau:   3 iv 4(Citrus),  5 Kết quả Citrus C                 BUILDING SSRs DATABASE of Citrus.        -. -  -  Tristeza -value = 10-10 v ABSTRACT LUU TRAN CONG HUY, NONG LAM UNIVERSITY, DATA MINING FOR DEVELOPING SIMPLE SEQUENCE REPEATS (SSR) MARKER IN EXPRESSED SEQUENCE TAGS (ESTs) FROM CITRUS Supervisor:   The research was carried out at the department of biotechnology at Nong Lam University. Recent advances in genomic technologies have generated a vast amount of publicly available expressed sequence tags (ESTs) in Citrus. These data can be mined to identify Simple sequence repeats (SSRs) or microsatellites. These SSRs are useful because of a broad range of application, such as genome mapping and characterization, phenotype mapping, marker assisted selection of plant breeding, additional map-based cloning of important genes. Moreover, this method of developing SSR marker from ESTs is inexpensive comparing to the traditional methods. Methodology 1) We used perl script to receive EST sequences from database NCBI 2) Finded and separated SSRs include in ESTs database 3) We were learning about relationship database model to used to saved nucleotide, SSRs citrus sequences data and created database contain them. 4) Finding SSR which are homologous with tristeza virus resistance gene. 5) Designed web that contain database control software to share information with users Results: 28,241 SSR-containing ESTs (EST-SSRs) were identified by analyzing 191,110 ESTs sequences belonging to Citrus in dbEST division of GenBank. 19,755 primers, which were filtered with repetition checking and BLAST checking, vi were designed in flanking regions of SSRs. These data were put into relational database and integrated SSR finder tool into the BUILDING SSRs DATABASE of Citrus Website. After cleaning, masking repeat, vector and organelle sequences, the EST-SSR sequences and the related EST sequences without SSRs were assembled into contigs and singletons, to reduce redundancy, to enlarge EST-SSRs for primer designed and to develop consensus sequences. As a result, more 1071 primers were design for these enlarged EST-SSRs. Using a stringent BLAST search with a threshold e-value = 10-10 against typical pathogen resistance gene database in Citrus, we identified 33 EST-SSRs which are homologous with tristeza virus resistance gene. vii Mục Lục  iii  . iv ABSTRACT vi  xi Chƣơng 1 1  . 1 1.1 Đặt vấn đề 1.2.Mục tiêu của khóa luận Chƣơng 2 3  . 3  . 3  . 3 m 4 2.1.3  6 2.2 EST . 7  7  . 7  . 8  . 8  . 9  9  . 10  11  . 12  . 12 viii 2.3.5  . 13  . 15  . 16  . 18  . 18 2.7.1 NCBI 19  19  19 Chƣơng 3 . 20  20  . 20  20  . 20 3.1.2.1 Chương trình Perl ssrfinder_1 20  BLAST 22  . 23 3.1.2.4 Egassembler 23 3.1.3 Apache web Server 24  . 25 Chƣơng 4 37  37 4.1  . 37 EGassembler  . 38  . 38 4.2.2  . 39  39 ix 4.3 Assembling 41   42 4.4.1 BLASTn: . 43 4.5. . 45 4.6 tBLASTx . 48 4 49          49  49 SRs (SSRs PAGE) . 50 Chƣơng5 . 52  . 52  52  . 53  . 54  . 57 x DANH SÁCH CÁC TỪ VIẾT TẮT BLAST Basic Local Alignment Search Tool CGI Common Gateway Interface CSDL  DBD Database Driver DBI Database Interface DNA deoxyribonucleic acid EST Expressed Sequence Tag HTML Hypertext Markup Language HTTP Hypertext Transfer Protocol NCBI the National Center for Biotechnology Information NIG the National Institute of Genetics NIH the National Institutes of Health NLM the Nation Library of Medicine Perl Practical Extraction and Report Language PHP Hypertext Preprocessior RDBMS Relational Database Management System SNP Single Nucleotide Polymorphism SSCP Single- Strand Conformation Polymorphism SSR Simple Sequence Repeats STS Sequence Tagged Site [...]... phẩm… 1.2.Mục tiêu của khóa luận Xây dựng cơ sở dữ liệu Microsatellite để phục vụ cho việc tìm hiểu đa dạng và quan hệ di truyền, phân biệt loài và cá thể, lập bản đồ di truyền, xác định gen, chọn giống nhờ chỉ thị phân tử 2 Vì vậy, khóa luận KHAI THÁC DỮ LIỆU ESTs (EXPRESSED SEQUENCE TAGs) CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT TRIỂN MARKER PHÂN TỬ SSR (SIMPLE SEQUENCE REPEATS)” đƣợc thực hiện với... 1991, NCBI đảm nhiệm việc quản lý cơ sở dữ liệu trình tự DNA và từ đó NCBI còn đƣợc gọi là GenBank NCBI là nơi cung cấp, trao đổi thông tin về sinh học phân tử của Mỹ, thông qua những cơ sở dữ liệu trực tuyến Ngoài ra, NCBI còn tham gia những nghiên cứu về “sinh học tính toán” (computation biology), phát triển những công cụ phân tích dữ liệu bộ gene, protein,… 3.1.1.2 Một số cơ sở dữ liệu trong NCBI Nucleotide... sinh học lớn khác Có thể tiến hành phân lập SSR từ bất Nếu không có cơ sở dữ liệu EST thì cứ đọan gen mong muốn nào không thể tiến hành phân lập SSR 2.6 Ứng dụng Thiết kế bản đồ gen trong di truyền Đa dạng hóa vật liệu di truyền Nghiên cứu quần thể Chẩn đoán và xác định các bệnh ngƣời Sử dụng cho việc bảo tồn hệ sinh vật trong thiên nhiên 2.7 Cơ sở dữ liệu sinh học Dữ liệu sinh học đang đƣợc thu nhận... cơ sở dữ liệu này có hợp tác, trao đổi qua lại dữ liệu lẫn nhau Từ đó, càng làm cho cơ sở dữ liệu về các trình tự nucleotide ngày càng trở nên phong phú 20 Chƣơng 3 VẬT LIỆU VÀ PHƢƠNG PHÁP 3.1 Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng 3.1.1 Hệ điều hành Microsoft Windows XP Server Pack 2 Xây dựng CSDL trình tự SSRs của chi cam chanh (Citrus) trên hệ điều hành này 3.1.2 Các chƣơng trình phân. .. dài các EST -SSR và xác định các trình tự bảo tồn bằng cách thực hiện BLAST trên các Contigs (thu nhận đƣợc bằng assembly Website Egassembler) 5 Tìm kiếm những SSR có độ tƣơng đồng cao so với các SSR có trong các gene kháng bệnh thực vật 6 Xây dựng CSDL và công cụ để giúp ngƣời dùng có thể khai thác tốt dữ liệu 7 Dùng giao diện web để truy xuất thông tin về cơ sở dữ liệu và thực hiện việc chia sẻ thông... gian tiến hành phân lập và thiết phân lập , thiết kế mồi cho1 SSR khá kế mồi nhanh (1 phút) lâu (khoảng 3 tuần) Không xác định đƣợc chính xác các Xác định chính xác các SSRs có thể SSRs có thể có trong gene có trong 1 gen Độ chính xác không cao do có thể bị Độ chính xác cao do cơ sở dữ liệu đã nhiễm trong quá trình làm đƣợc phân tích và công bố rộng rãi 18 trên NCBI và các cơ sở dữ liệu sinh học lớn... Phƣơng pháp phân lập microsatellite sử dụng SSR đƣợc phân lập theo phƣơng pháp truyền thống từ thƣ viện cDNA hay thƣ viện Genomic rất tốn kém, do phải sàng lọc từ các mẫu dò một cách mò mẫm 17 Trong khi đó, phƣơng pháp mới dùng để phân lập SSR từ nguồn dữ liệu ESTschi phí thấp và tƣơng đối dễ thực hiện, do trình tự ESTs luôn sẵn có Hiện nay, có rất nhiều phần mềm để phân lập SSR từ ESTs, ví dụ... Office, đƣợc sử dụng để quản lý dữ liệu (quản lý nhân sự, khách hàng, vật tƣ, kế toán…).Phần mềm này đƣợc bảo vệ và phân phân phối bởi hãng Microsoft Phiên bản Access tùy thuộc vào phiên bản của bộ phần mềm Microsoft Office Để sử dụng phần mềm này chúng ta phải mua bản quyền của Microsoft Mỗi tập tin ACCESS gọi là một cơ sở dữ liệu Một cơ sở dữ liệu chứa đựng nhiều dữ liệu nằm trong một thành phần chính... cơ sở dữ liệu và thực hiện việc chia sẻ thông tin đó, giúp cho việc tìm kiếm, quản lý thông tin đƣợc tốt hơn 3 Chƣơng 2 TỔNG QUAN TÀI LIỆU 2.1 Giới thiệu về chi cam chanh Chi Cam chanh (Citrus) là một chi thực vật có hoa trong họ Cửu lý hƣơng (Rutaceae), có nguồn gốc từ khu vực nhiệt đới và cận nhiệt đới đông nam châu Á Các loại cây trong chi này là các cây bụi lớn hay cây thân gỗ nhỏ, cao tới 5-15... Nucleotide (GenBank): là cơ sở dữ liệu về trình tự nucleotide Protein: là cơ sở dữ liệu về trình tự amino acid Genome: trình tự toàn bộ genome của một số sinh vật Structure: hay còn có tên gọi là MMDB (Molecular Modeling Database) chứa cấu trúc ba chi u của những đại phân tử bao gồm cả protein lẫn những chuỗi nucleotide DDBJ của Nhật Bản, EMBL của Châu Âu, NCBI của Hoa Kỳ là ba cơ sở dữ liệu về trình tự nucleotide . KHÓA LUẬN TỐT NGHIỆP KHAI THÁC DỮ LIỆU ESTs (EXPRESSED SEQUENCE TAGs) Ở CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT TRIỂN MARKER PHÂN TỬ SSR (SIMPLE SEQUENCE. Minh, tháng 07/2007. KHAI THÁC DỮ LIỆU ESTs (EXPRESSED SEQUENCE TAGs) Ở CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT TRIỂN MARKER PHÂN TỬ SSR (SIMPLE SEQUENCE

Ngày đăng: 19/11/2012, 15:15

Hình ảnh liên quan

Hình 2.1. CTV dƣới KHV điện tử - Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

Hình 2.1..

CTV dƣới KHV điện tử Xem tại trang 18 của tài liệu.
Hình 2.2: Nguồn gốc của EST 2.3.Sơ lƣợc về phƣơng pháp Microsatellite (SSR)  2.3.1Những khái niệm về kỹ thuật microsatellite  - Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

Hình 2.2.

Nguồn gốc của EST 2.3.Sơ lƣợc về phƣơng pháp Microsatellite (SSR) 2.3.1Những khái niệm về kỹ thuật microsatellite Xem tại trang 20 của tài liệu.
2.3.4 Cơ chế hình thành microsatellite - Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

2.3.4.

Cơ chế hình thành microsatellite Xem tại trang 24 của tài liệu.
Hình 2.4 Cơ chế trƣợt lỗi trong quá trình sao mã 2.3.5 Vai trò của microsatellite  - Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

Hình 2.4.

Cơ chế trƣợt lỗi trong quá trình sao mã 2.3.5 Vai trò của microsatellite Xem tại trang 25 của tài liệu.
Hình 2.5: Phƣơng pháp phân lập microsatellite truyền thống 2.5 Phƣơng pháp phân lập microsatellite sử dụng  - Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

Hình 2.5.

Phƣơng pháp phân lập microsatellite truyền thống 2.5 Phƣơng pháp phân lập microsatellite sử dụng Xem tại trang 28 của tài liệu.
Bảng 3. 2: Từ khóa sử dụng để thu nhận trình tự trên NCBI - Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

Bảng 3..

2: Từ khóa sử dụng để thu nhận trình tự trên NCBI Xem tại trang 38 của tài liệu.
Bảng 3.1 Sơ đồ tóm tắt quá trình thu nhận trình tự chính từ NCBI - Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

Bảng 3.1.

Sơ đồ tóm tắt quá trình thu nhận trình tự chính từ NCBI Xem tại trang 38 của tài liệu.
Hình 3. 1: Danh sách các trình tự EST Citrus trên NCBI (www.NCBI.nlm.nih.gov/genomes/plant/plantlist.html#est)  - Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

Hình 3..

1: Danh sách các trình tự EST Citrus trên NCBI (www.NCBI.nlm.nih.gov/genomes/plant/plantlist.html#est) Xem tại trang 39 của tài liệu.
Hình 3. 2: Các bƣớc thực hiện của EGassembler - Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

Hình 3..

2: Các bƣớc thực hiện của EGassembler Xem tại trang 41 của tài liệu.
Mỗi đối tƣợng trong mô hình đối tƣợng là một quan hệ trong mô hình quan hệ.  - Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

i.

đối tƣợng trong mô hình đối tƣợng là một quan hệ trong mô hình quan hệ. Xem tại trang 46 của tài liệu.
Nhập dữ liệu vào bảng - Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

h.

ập dữ liệu vào bảng Xem tại trang 47 của tài liệu.
Bảng 4.1 số lƣợng ESTs của từng loài thu nhận đƣợc từ NCBI - Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

Bảng 4.1.

số lƣợng ESTs của từng loài thu nhận đƣợc từ NCBI Xem tại trang 49 của tài liệu.
Hình 4.1: Sơ đồ so sánh lƣợng ESTs của từng loài - Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

Hình 4.1.

Sơ đồ so sánh lƣợng ESTs của từng loài Xem tại trang 49 của tài liệu.
Bảng 4.4 số trình tự bị lọai bỏ ở bƣớc 2.4 - Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

Bảng 4.4.

số trình tự bị lọai bỏ ở bƣớc 2.4 Xem tại trang 51 của tài liệu.
Hình 4.2: Bảng so sánh dữ liệu ESTs trƣớc và sau khi lọai nhiễu - Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

Hình 4.2.

Bảng so sánh dữ liệu ESTs trƣớc và sau khi lọai nhiễu Xem tại trang 52 của tài liệu.
Hình 4.3: Bảng so sánh lƣợng Contigs và ESTs - Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

Hình 4.3.

Bảng so sánh lƣợng Contigs và ESTs Xem tại trang 53 của tài liệu.
Bảng 4.5 số lƣợng Contigs thu đƣợc ở mỗi lòai sau khi assembling - Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

Bảng 4.5.

số lƣợng Contigs thu đƣợc ở mỗi lòai sau khi assembling Xem tại trang 53 của tài liệu.
Hình 4.4: Biểu đồ so sánh lƣợng SSRs phân lập và lƣợng ESTs ban đầu - Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

Hình 4.4.

Biểu đồ so sánh lƣợng SSRs phân lập và lƣợng ESTs ban đầu Xem tại trang 55 của tài liệu.
Bảng 4.7 Lƣợng trình tự ESTs và số primer mới đƣợc tạo thành - Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

Bảng 4.7.

Lƣợng trình tự ESTs và số primer mới đƣợc tạo thành Xem tại trang 55 của tài liệu.
Hình 4.5: Biểu đồ so sánh lƣợng noneprimers và ESTs, Primers mới - Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

Hình 4.5.

Biểu đồ so sánh lƣợng noneprimers và ESTs, Primers mới Xem tại trang 56 của tài liệu.
Bảng 4.8 Tổng số primer thiết kế đƣợc - Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

Bảng 4.8.

Tổng số primer thiết kế đƣợc Xem tại trang 57 của tài liệu.
Bảng 4.9 Tổng số Primer còn lại sau khi kiểm tra - Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

Bảng 4.9.

Tổng số Primer còn lại sau khi kiểm tra Xem tại trang 57 của tài liệu.
Hình 4.6: Bảng so sánh lƣợng Primers trƣớc và sau khi kiểm tra - Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

Hình 4.6.

Bảng so sánh lƣợng Primers trƣớc và sau khi kiểm tra Xem tại trang 58 của tài liệu.
Hình 4.7: Bảng so sánh tổng trình tự SSRs và Primers thiết kế đƣợc - Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

Hình 4.7.

Bảng so sánh tổng trình tự SSRs và Primers thiết kế đƣợc Xem tại trang 59 của tài liệu.
Bảng 4.10 Các trình tự tƣơng đồng với gene kháng virus tristeza - Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

Bảng 4.10.

Các trình tự tƣơng đồng với gene kháng virus tristeza Xem tại trang 60 của tài liệu.
Hình 4.9: Tổng quan về Website - Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

Hình 4.9.

Tổng quan về Website Xem tại trang 61 của tài liệu.
Hình 4. 8: Mối quan hệ giữa các bảng 4.8 Tích hợp CSDL vừa xây dựng vào web   - Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

Hình 4..

8: Mối quan hệ giữa các bảng 4.8 Tích hợp CSDL vừa xây dựng vào web Xem tại trang 61 của tài liệu.
Bảng 4.11: Các nhóm Strain id có trong cơ sở dữ liệu - Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển marker phân tử SSR

Bảng 4.11.

Các nhóm Strain id có trong cơ sở dữ liệu Xem tại trang 62 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan