Dữ liệu trình tự sinh tin học về virus cúm trên ngân hàng NCBI được sử dụng trong luận văn có định dạng FASTA hoặc định dạng GENBANK
7.2.1. FASTA
Trình tự lưu trữ định dạng FASTA có thể chứa nhiều chuỗi khác nhau trong cùng một file cấu trúc.
Cấu trúc file FASTA như sau:
o Mỗi chuỗi bắt đầu bằng dòng tiêu đề, theo sau là các dòng dữ liệu của chuỗi (các ký tự đại diện cho các phân tử). Dòng tiêu đề bắt đầu bằng một dấu lớn hơn (“>”), sau đó đến tên của chuỗi và các thông tin về chuỗi
o Các dòng trống và các khoảng trống hay các ký tự gap trong file định dang theo chuẩn FASTA được bỏ qua
Ví dụ:
>alpha-D
ATGCTGACCGACTCTGACAAGAAGCTGGTCCTGCAGGTGTGGGAGAAGGTGATCCGCCAC CCAGACTGTGGAGCCGAGGCCCTGGAGAGGTGCGGGCTGAGCTTGGGGAAACCATGGGCA AGGGGGGCGACTGGGTGGGAGCCCTACAGGGCTGCTGGGGGTTGTTCGGCTGGGGGTCAG
CACTGACCATCCCGCTCCCGCAGCTGTTCACCACCTACCCCCAGACCAAGACCTACTTCC CCCACTTCGACTTGCACCATGGCTCCGACCAGGTCCGCAACCACGGCAAGAAGGTGTTGG CCGCCTTGGGCAACGCTGTCAAGAGCCTGGGCAACCTCAGCCAAGCCCTGTCTGACCTCA GCGACCTGCATGCCTACAACCTGCGTGTCGACCCTGTCAACTTCAAGGCAGGCGGGGGAC GGGGGTCAGGGGCCGGGGAGTTGGGGGCCAGGGACCTGGTTGGGGATCCGGGGCCATGCC GGCGGTACTGAGCCCTGTTTTGCCTTGCAGCTGCTGGCGCAGTGCTTCCACGTGGTGCTG GCCACACACCTGGGCAACGACTACACCCCGGAGGCACATGCTGCCTTCGACAAGTTCCTG TCGGCTGTGTGCACCGTGCTGGCCGAGAAGTACAGATAA
Trong đó, alpha-D là tên của trình tự
ATGCTGACC…………..là các ký tự đại diện cho các phân tử
7.2.2. Dạng Genbank
Một file dữ liệu chuỗi Genbank có thể chứa một hay nhiều chuỗi.
Mỗi chuỗi trong file dữ liệu dạng này gồm có nhiều dòng có kiểu khác nhau. Chuỗi trình tự nằm giữa dòng chứa từ “ORIGIN” và dòng chứa hai dấu gạch chéo (//).
Ví dụ mẫu về trình tự lưu trữ theo cấu trúc GenBank
LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p
(AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION U49845
VERSION U49845.1 GI:1293613 KEYWORDS .
SOURCE Saccharomyces cerevisiae (baker's yeast) ORGANISM Saccharomyces cerevisiae
Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomy- cetes;
Saccharomycetales; Saccharomycetaceae; Saccharomyces. REFERENCE 1 (bases 1 to 5028)
AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W.
TITLE Cloning and sequence of REV7, a gene whose function is re- quired for
DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994)
PUBMED 7871890
REFERENCE 2 (bases 1 to 5028)
AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M.
TITLE Selection of axial growth sites in yeast requires Axl2p, a novel
plasma membrane glycoprotein JOURNAL Genes Dev. 10 (7), 777-793 (1996) PUBMED 8846915
REFERENCE 3 (bases 1 to 5028) AUTHORS Roemer,T.
JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale Universi- ty, New Haven, CT, USA FEATURES Location/Qualifiers source 1..5028 /organism="Saccharomyces cerevisiae" /db_xref="taxon:4932" /chromosome="IX" /map="9" CDS <1..206 /codon_start=3 /product="TCP1-beta" /protein_id="AAA98665.1" /db_xref="GI:1293614" /translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM" gene 687..3158 /gene="AXL2" CDS 687..3158 /gene="AXL2"
/note="plasma membrane glycoprotein" /codon_start=1
/function="required for axial budding pattern of S. cerevisiae" /product="Axl2p" /protein_id="AAA98666.1" /db_xref="GI:1293615" /translation="MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRT- FSGEPSSDLLSDANTTLYFN VILEGTDSADSTSLNNTYQFVVTNRPSISLSSDFNLLALLKNY- GYTNGKNALKLDPNE VFNVTFDRSMFTNEESIVSYYGRSQLYNAPLPNWLFFDSGELKFT- GTAPVINSAIA" gene complement(3300..4037) /gene="REV7" CDS complement(3300..4037) /gene="REV7" /codon_start=1 /product="Rev7p" /protein_id="AAA98667.1" /db_xref="GI:1293616" /translation="MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLD- FSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIE- LELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVG- PLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLF" ORIGIN
1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaac- cattg
61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtag- tcagct
121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagac- caa
181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa //
7.3. Kết quả chươ trì h
Hình 7.2:Giao diện chức năng tìm kiếm BLASTN
Hình 7.4:Kết quả tìm kiếm trình tự có độ tương đồng.
7.4. Kết luận
Ngành sinh tin học là một ngành mới và hấp dẫn rất nhiều nhà nghiên cứu trong và ngoài nước tham gia. Với các khám phá mới trong cấu trúc gen đã mở ra nhiều hướng nghiên cứu mới trong đó có y sinh học.
Mục tiêu chính của luận văn là sử dụng thuật toán kết hợp giữa DBSCAN với thuật toán BLAST trong bài toán tìm kiếm sự tương đồng các trình tự virus cúm. Với tập dữ liệu các trình tự lớn, thực thi chương trình với thuật toán đệ quy tuần tự, thời gian thực thi thu được rất lâu. Để cải tiến về tốc độ thực thi, trước tiên sẽ thanh lọc dữ liệu bằng cách tính mức độ tương đồng giữa các trình tự trong thuật toán gom nhóm, và loại bỏ những nhóm không có khả năng tương đồng. Với tập kết quả thu được từ thuật toán gom nhóm, tiếp tục sử dụng thuật toán BLAST để tìm kiếm trình tự tương đồng.
7.5. Hướng phát triển
Mở rộng chương trình cho phép so sánh nhiều dạng cấu trúc trong sinh tin học khác nhau
Nâng cao tốc độ xử lý bằng cách áp dụng các thuật toán tối ưu song song.
Quá trình xử lý song song có thể chia nhỏ thực thi trong một số giai đoạn của chương trình như:
- Phân cụm dữ liệu
TÀ L Ệ TH M HẢO
Tiế việt
[1]. Trần Văn Lăng, Ứng dụng tin học trong việc giải một số bài toán của sinh học Phân Tử, Nxb Giáo dục, 2008.
[2]. Lê Phước Lộc và cộng sự, Một số phương pháp chuẩn đoán cấu trúc protein, Hội thảo Tính toán Sinh học, Đại học KHTN, Tp.HCM, 2004
[3]. Phạm Mạnh Hùng, Các kỹ thuật toán học cho bài toán so sánh đa trình tự, Luận văn thạc sĩ Công nghệ thông tin, Trường Đại học Bách khoa TPHCM, 11/2007.
[4]. Hồ Huỳnh Thuỳ Dương (2002), Sinh Học Phân Tử, Nhà xuất bản Giáo Dục.
[5]. Huỳnh Thị Mỹ Trang, Khai phá dữ liệu sinh học trong môi trường tính toán lưới, Luận văn thạc sĩ Công nghệ thông tin, Trường Đại học Khoa học tự nhiên TPHCM, 2005
[6]. Văn Đình Vỹ Phương, Cải tiến thuật toán so sánh cấu trúc protein, Luận văn thạc sĩ Công nghệ thông tin, Trường Đại học Lạc Hồng, 2011. [7]. Văn Đình Vỹ Phương, Trần Văn Lăng, Trần Hành, Chuẩn đoán cấu trúc bậc 3 cảu protein. Hội thảo quốc gia Một số vấn đề chọn lọc của công nghệ thông tin và truyền thông, 2010
[8]. Võ Hồng Bảo Châu, Cải tiến CLUSTALW cho bài toán sắp hàng đa trình tự, Luận văn thạc sĩ Công nghệ thông tin, Trường Đại học Khoa học tự nhiên TPHCM, 2009
Tiế h
[9]. Martin Ester, Hans-Peter Kriegel, Jörg Sander, Xiaowei Xu (1996), A Density-Based Algorithm for Discovering Clusters in Large Spatial Data- bases with Noise, Proc KDD’96, 226-231
[10]. Ian Korf, Mark Yandell, Joseph Bedell, BLAST, O'Reilly Media, 2003 [11]. Jason T.L.Wang, Mohammed J.Zaki, Hannu T.T.Toivonen, Dennis Shasha (Eds) (2005), Data Mining on Bioinformatics, Springer, page 105- 126.
[12]. Kaufman L., Rousseeuw P.J (1990), Finding Groups in Data: an In- troduce to Cluster Analysis.
Trang Web [13]. http://knol.google.com/k/mining-the-ncbi-influenza-sequence- database-adaptive-grouping-of-blast-results#. [14]. http://www.maths.tcd.ie/~lily/pres2/sld009.htm [15]. http://www.uit.edu.vn/forum/index.php?act=Attach&type=post&id=2 1163 [16]. http://d.violet.vn/uploads/resources/211/366403/preview.swf