Phương pháp đánh chỉ số cho csdl gen để tăng tốc độ tìm kiếm

73 5 0
Phương pháp đánh chỉ số cho csdl gen để tăng tốc độ tìm kiếm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG HÀ THỊ THANH HỒNG PHƢƠNG PHÁP ĐÁNH CHỈ SỐ CHO CSDL GEN ĐỂ TĂNG TỐC ĐỘ TÌM KIẾM LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái ngun, 2015 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Hà Thị Thanh Hồng PHƢƠNG PHÁP ĐÁNH CHỈ SỐ CHO CSDL GEN ĐỂ TĂNG TỐC ĐỘ TÌM KIẾM Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC: TS Hoàng Đỗ Thanh Tùng Thái nguyên, 2015 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn i LỜI CAM ĐOAN Tôi xin cam đoan: Luận văn cơng trình nghiên cứu thực cá nhân, đƣợc thực dƣới hƣớng dẫn khoa học Tiến sĩ Hoàng Đỗ Thanh Tùng Các số liệu, kết luận nghiên cứu đƣợc trình bày luận văn trung thực chƣa đƣợc công bố dƣới hình thức Tơi xin chịu trách nhiệm nghiên cứu Học viên Hà Thị Thanh Hồng Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ii LỜI CẢM ƠN Đầu tiên xin gửi lời cảm ơn sâu sắc tới TS.Hoàng Đỗ Thanh Tùng Thầy hƣớng dẫn khoa học, tận tình bảo, giúp đỡ thực luận văn Tôi xin cảm ơn thầy cô Trƣờng Đại học Công nghệ Thông tin Truyền thông - Đại học Thái Nguyên giảng dạy truyền kiến thức cho Tôi xin chân thành cảm ơn Ban giám hiệu trƣờng Cao đẳng Công nghiệp Thực Phẩm đồng nghiệp khoa công nghệ thông tin tạo điều kiện giúp đỡ tơi hồn thành nhiệm vụ học tập Cuối cùng, xin cảm ơn ngƣời thân bạn bè chia sẻ, gúp đỡ tơi hồn thành luận văn Mặc dù cố gắng hoàn thành luận văn với tất nỗ lực thân, nhƣng luận văn thiếu sót Kính mong nhận đƣợc ý kiến đóng góp quý Thầy, Cô bạn bè đồng nghiệp Tôi xin chân thành cảm ơn! Việt Trì, ngày 10 tháng năm 2015 Hà Thị Thanh Hồng iii MỤC LỤC LỜI CẢM ƠN…………………………………………………………….….i LỜI CAM ĐOAN …………………………………………………….…… ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT v DANH MỤC BẢNG BIỂU vi DANH MỤC HÌNH VẼ vii MỞ ĐẦU CHƢƠNG 1: GIỚI THIỆU TIN SINH HỌC VÀ CƠ SỞ DỮ LIỆU GEN 1.1 Giới thiệu tin sinh học 1.1.1 Định nghĩa 1.1.2 Sự phát triển tin sinh học Việt Nam 1.2 Sinh học phân tử 1.2.1 Axit nucleic nucleotide 1.2.2 Protein axit amin 10 1.2.3 GEN gì? 11 1.2.4 Nhiễm sắc thể hệ GEN 14 1.3 Cơ sở liệu GEN 15 1.3.1 Cơ sở liệu NCBI 16 1.3.2 Cơ sở liệu EMBL/EBI 19 1.3.3 Cơ sở liệu DDBJ 19 1.4 Định dạng liệu sinh học 20 1.4.1 Định dạng liệu sinh học theo chuẩn FASTA 20 1.4.2 Định dạng liệu sinh học theo dạng ALN/ClustalW 22 1.4.3 GENBank 22 iv 1.5 Kết luận chƣơng 23 CHƢƠNG 2: PHƢƠNG PHÁP ĐÁNH CHỈ SỐ GEN ĐỂ TĂNG TỐC ĐỘ TÌM KIẾM 25 2.1 Giới thiệu 25 2.2 Cấu trúc liệu hệ GEN cần thiết số 27 2.2.1 Cấu trúc liệu hệ GEN 27 2.2.2 Sự cần thiết lợi đánh số cho tìm kiếm tƣơng đồng GEN 29 2.3 Phƣơng pháp đánh số cho CSDL GEN 30 2.4 Phƣơng pháp đánh số dựa biến đổi cấu trúc số 31 2.5 Phƣơng pháp đánh số dựa vào kích thƣớc (Length based index algorithms) 31 2.5.1 Thuật toán đánh số dựa kích thƣớc cố định 32 2.5.2 Thuật tốn đánh số dựa kích thƣớc biến đổi 35 2.6 Thuật toán Blast 40 2.6.1 Giới thiệu 40 2.6.2 Thuật toán 41 2.7 Kết luận chƣơng 45 CHƢƠNG 3: CÀI ĐẶT THỬ NGHIỆM PHƢƠNG PHÁP ĐÁNH CHỈ SỐ CHO CƠ SỞ DỮ LIỆU GEN ĐỂ TĂNG TỐC ĐỘ TÌM KIẾM 46 3.1 Bài tốn 46 3.2 Xây dựng chƣơng trình thử nghiệm 47 3.2.1 Chuẩn bị liệu 47 3.2.2 Lựa chọn giải pháp 49 Thuật toán 49 3.2.3 Thiết kế hệ thống 50 3.3 Kết luận chƣơng 57 v KẾT LUẬN VÀ KIẾN NGHỊ 59 DANH MỤC TÀI LIỆU THAM KHẢO .61 vi DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Viết đầy đủ Từ viết tắt CSDL Cơ sở liệu GEN Genome DNA Axit Deoxyribo Nucleic ARN Axit Ribo Nuclêic NCBI National Center for BioInformatic Information dbEST data base of Expressed Sequence Tags MGC Mamalian GEN Collection EBI European Biotechnology Information BLAST Basic Local Alignment Search Tool EMBL European Molecular Biology Laboratory OMIM Online Mendelian Inheritance in Man EPO European Patent Office ISDC ASD International Sequence Database Collaboration Minimum Information About a Microarray Experiment Alternative Splicing Database ATD Alternate Transcript Diversity IPD Immuno Polymorphism Database IPD Center for Information Biology MIAME CIB – DDBJ and DNA Data Bank of Japan vii DANH MỤC BẢNG BIỂU Bảng 1.1 Nhiệm vụ số Bộ, ngành bảo tồn quỹ GEN quốc gia Bảng 1.2 Kết bảo tồn, lƣu giữ nguồn GEN sinh vật .8 Bảng 1.3 Tên đầy đủ, tên viết tắt năm loại nucleotide Bảng 2.1 Minh họa tƣ tƣởng thuật toán BLAST 41 viii DANH MỤC HÌNH VẼ Hình 1.1 Cấu trúc xoắn kép trình tự DNA 10 Hình 1.2 Minh họa cấu trúc axít amin 11 Hình 1.3 Minh họa đoạn GEN cấu trúc DNA 12 Hình 1.4 Quá trình tổng hợp Protein từ đoạn DNA 13 Hình 1.5 Định dạng chuẩn FASTA dùng để lƣu giữ thơng tin trình tự DNA .21 Hình 1.6 Định dạng FASTA lƣu giữ nhiều trình tự DNA (Protein) 23 Hình 2.1 Cơ chế ánh xạ trình tự 28 Hình 2.2 Sơ đồ thuật toán BLAST .44 Hình 3.1 Kết tìm kiếm hệ GEN ngƣời NCBI 47 Hình 3.2 Cơ sở liệu NCBI 48 Hình 3.3 Cơ sở liệu mơ .49 Hình 3.4 Giao diện 52 Hình 3.5 Thơng báo lỗi từ hệ thống BLAST khơng tìm thầy liệu trình tự truy vấn 53 Hình 3.6 Giao diện nhập liệu .54 Hình 3.7 Kết chạy thuật toán BLAST 55 49 Hình 3.3 Cơ sở liệu thử nghiệm 3.2.2 Lựa chọn giải pháp Thuật toán Chƣơng trình sử dụng thuật tốn BLAST cho phép so sánh nhanh trình tự X với trình tự sở liệu để tìm cặp đoạn có độ giống cao chúng 50 Chƣơng trình mặc định ngƣỡng kì vọng 10 độ dài chuỗi hạt giống 11 Thuật toán BLAST làm nhiệm vụ: - Đánh số cho CSDL GEN - Tìm độ tƣơng đồng mẫu GEN liệu nhập vào mẫu CSDL GEN Phát biểu thuật tốn BLAST: Dữ liệu vào: Hai trình tự DNA X= (x1, x2, …, xp) Y=(y1, y2, …, yq); ma trận điểm giống C nucleotide; ngƣỡng giảm điểm θ; độ dài k đoạn hạt giống Yêu cầu: Liệt kê tất cặp đoạn có độ giống cao hai trình tự X Y Dữ liệu ra: Các cặp đoạn có độ giống cao hai trình tự X Y 3.2.3 Thiết kế hệ thống 3.2.3.1 Công cụ môi trƣờng phát triển Hệ quản trị sở liệu Hệ quản trị sở liệu đƣợc lựa chọn Microsoft Access 2003 Ƣu điểm hệ quản trị sở liệu đơn giản, giao diện thân thiện, nhập/xuất (import/export) dễ dàng liệu hệ thống với file văn Tính cần thiết trao đổi liệu với thành phần bên lƣu trữ liệu dạng file văn Microsoft Access với NET Framework 2005 giảm đƣợc phức tạp việc phát triển ứng dụng Các mở rộng ngơn ngữ truy vấn tích hợp (LINQ) NET Framework cách mạng hóa cách 51 chuyên gia phát triển truy vấn liệu việc mở rộng C#.NET Basic.NET để hỗ trợ cú pháp truy vấn giống SQL vốn có Ngơn ngữ lập trình C# ngơn ngữ lập trình hƣớng đối tƣợng đƣợc phát triển Microsoft, phần khởi đầu cho kế hoạch NET họ Tên ngôn ngữ bao gồm ký tự thăng theo Microsoft nhƣng theo ECMA C#, bao gồm dấu số thƣờng Microsoft phát triển C# dựa C++ Java 3.2.3.2 Một số giao diện chƣơng trình Hình 3.4: Giao diện 52 - Bƣớc 1: + Nhập trình tự DNA truy vấn, ngƣời dùng phải nhập liệu với trình tự DNA truy vấn cách nhập trực tiếp trình tự DNA truy vấn theo định dạng FASTA Ví dụ: CAGTTGACGGCGAACCGTGCGAGCAGACGGTCGT Trình tự FASTA nhập vào đƣợc so sánh với trình tự liệu truy vấn sở liệu sẵn có phần mềm (tập hợp trình tự nucleotide ngƣời, chó, chuột) + Xác định tham số cho thuật toán BLAST: Tại bƣớc ngƣời dùng thay đổi tham số đầu vào cho thuật toán BLAST Phần yêu cầu ngƣời dùng phải có hiểu biết thuật tốn BLAST, khơng thay đổi tham số làm cho thuật tốn BLAST chạy khơng hiệu kết trả không đƣợc tốt nhƣ mong muốn Hai tham số là: Ngƣỡng kì vọng: Dùng để xác định liệu cặp đoạn tìm đƣợc trình tìm kiếm có trả lại kết cho ngƣời dùng khơng Ví dụ, ngƣỡng kì vọng 10, cặp đoạn có tổng điểm giống S thỏa mãn điều kiện E- value(S) ≤ 10 đƣợc giữ lại để hiển thị cho ngƣời dùng Độ dài chuỗi hạt giống: thƣờng 11 Nếu k lớn số lƣợng cặp đoạn hạt giống có độ dài k nhỏ (số lƣợng cặp đoạn có tổng điểm giống cao tìm đƣợc trình tìm kiếm ít) ngƣợc lại u cầu ngƣỡng kì vọng độ dài chuỗi hạt giống phải số nguyên dƣơng Độ dài chuỗi hạt giống phải nhỏ độ dài chuỗi nhập liệu nhập 53 - Bƣớc 2: Chạy chƣơng trình BLAST: Để chạy chƣơng trình BLAST, ngƣời dùng bấm chuột vào nút “OK” Hệ thống Nucleotide blast tiến hành tìm kiếm đoạn có độ giống cao trình tự DNA truy vấn với trình tự DNA sở liệu truy vấn đƣợc chọn Nếu liệu nhập vào khơng hợp lệ, chƣơng trình thơng báo lỗi cho ngƣời dùng Lỗi liệu khơng chuẩn FASTA (chuẩn FASTA bao gồm kí tự A, T, G, X khơng chứa khoảng trống) Hình 3.5: Thơng báo lỗi từ hệ thống BLAST khơng tìm thầy liệu trình tự truy vấn 54 Hình 3.6: Giao diện nhập liệu Nhấn nút OK để bắt đầu trình tìm kiếm Nếu liệu nhập vào hợp lệ, chƣơng trình thực tìm kiếm đƣa kết 55 Hình 3.7: Kết chạy thuật tốn BLAST Kết chƣơng trình trả lại cho ngƣời dùng bao gồm: - Phần tổng hợp kết tìm kiếm dƣới dạng hình ảnh - Phần mơ tả kết tìm kiếm: độ dài chuỗi; độ tƣơng đồng chuỗi với mẫu CSDL; - Thời gian chạy kết tìm kiếm * Phần tổng hợp kết tìm kiếm dƣới dạng hình ảnh (Hình 3.7) 56 Phần cho ngƣời dùng nhìn tổng quát hình ảnh kết thu đƣợc so sánh trình tự liệu truy vấn với sở liệu tìm kiếm Phần chứa thơng tin sau đây: - Số lƣợng cặp đoạn điểm giống cao tìm đƣợc - Phân bố điểm giống cặp đoạn theo màu sắc (trong ví dụ trên, cặp đoạn có mầu: đen, xanh da trời, xanh cây) đoạn có khoảng 50 – 80 điểm giống nên có màu xanh Trong đó, cơng thức tính tổng số điểm giống đa trình tự DNA là: n n f(A)= f(Xi, Xj) i j i với f(Xi, Xj) điểm giống hai trình tự Xi Xj đƣợc tính cơng thức: k f(Xi, Xj) = C(Xi(s), Xj(s)) s Cách tính điểm giống đa trình tự viết lại dƣới dạng tổng điểm giống tất cột A, cụ thể là: k f(A) = f(As) s đó, f(As) điểm giống cột As đa trình tự A tính nhƣ sau: n n f(As) = C(Xi(s), Xj(s)) i j i 57 với ma trận điểm giống C đƣợc đặt là: C(x, x) = 2, với nucleotide x C(x, y) = -1, với nucleotide x#y C(-, x) = C(x, -) = -2 nucleotide x - Độ dài vị trí cặp đoạn trình tự truy vấn Trong ví dụ trên, ta thấy cặp đoạn độ dài vị trí 13 kết thúc vị trí 34 * Phần mơ tả kết tìm kiếm: độ dài chuỗi đầu vào 34; độ tƣơng đồng chuỗi với mẫu CSDL * Thời gian chạy kết tìm kiếm: với CSDL khoảng 5000 GEN thời gian chạy thuật toán BLAST khoảng 5s 3.3 Kết luận chƣơng Trong chƣơng này, luận văn trình bày phần mềm cài đặt thử nghiệm sử dụng phƣơng pháp đánh số cho GEN để tăng tốc độ tìm kiếm Đó thuật tốn BLAST để tìm kiếm tƣơng đồng trình tự GEN với sở liệu GEN cho sẵn hệ thống Minh họa đoạn liệu GEN (hình 3.7) Từ cho thấy thuật tốn đƣa kết tốt việc so sánh hai trình tự GEN với tốc độ tƣơng đối nhanh Thuật toán BLAST tìm thấy nhanh giống hai chuỗi sở liệu chuỗi GEN Với CSDL mô 5000 mẫu GEN, thời gian thực thuật toán khoảng 5s Trong thực tế, lƣợng liệu GEN khổng lồ (NCBI) ngày lớn khiến cho việc tìm kiếm GEN tƣơng đồng ngày phức tạp tốn Thuật toán BLAST dựa việc đánh số cho CSDL GEN phần giải đƣợc vấn đề Với hàng triệu liệu nhƣ vậy, thuật tốn BLAST thực đánh số tìm kiếm tƣơng đồng khoảng vài chục giây Có thể nói việc xử lý liệu 58 BLAST đƣa kết tƣơng đối nhanh thời gian chạy thuật tốn khơng phụ thuộc nhiều vào độ dài chuỗi Chƣơng trình thử nghiệm giải đƣợc vấn đề: - Cung cấp cho ngƣời dùng thông tin GEN CSDL có độ tƣơng đồng cao với GEN mẫu - Chỉ số lƣợng cặp đoạn phân bố điểm giống cao tìm đƣợc cặp đoạn theo màu sắc - Thời gian xử lý theo thuật toán BLAST Chƣơng trình chƣa giải đƣợc vấn đề với sở liệu khổng lồ BigData Trên thực tế, liệu 5000 GEN toán thử nghiệm phần nhỏ ngân hàng GENBank NCBI 59 KẾT LUẬN VÀ KIẾN NGHỊ Những vấn đề giải đƣợc: Ngành sinh tin học ngành hấp dẫn nhiều nhà nghiên cứu nƣớc tham gia Với khám phá cấu trúc GEN mở nhiều hƣớng nghiên cứu có y sinh học Các kết đạt đƣợc luận văn:”Phương pháp đánh số sở liệu cho GEN để tăng tốc độ tìm kiếm” là: - Tìm hiểu tin sinh học CSDL GEN; - Tìm hiểu định dạng liệu theo chuẩn sinh học; - Nghiên cứu thuật toán xây dựng số dựa vào kích thƣớc đặc biệt thuật tốn xây dựng số BLAST để tìm kiếm tƣơng đồng trình tự GEN từ nhằm làm tăng tốc độ tìm kiếm; - Xây dựng chƣơng trình thử nghiệm sử dụng thuật tốn BLAST để tìm kiếm tƣơng đồng trình tự GEN với sở liệu GEN có sẵn hệ thống Những hạn chế luận văn: Hạn chế phƣơng pháp xây dựng số dựa vào kích thƣớc CSDL GEN trở lên lớn làm giảm tốc độ tìm kiếm phƣơng pháp xây dựng số dựa kích thƣớc Cũng hạn chế thời gian nên luận văn nghiên cứu đƣợc loại phƣơng pháp xây dựng số dựa vào kích thƣớc mà chƣa nghiên cứu đƣợc phƣơng pháp xây dựng số khác Tôi hy vọng hạn chế thiếu sót luận văn đƣợc khắc phục nghiên cứu sâu Rất mong nhận đƣợc ý kiến đóng ghóp từ quý thầy cô đồng nghiệp 60 Hƣớng phát triển: Luận văn tiếp tục mở rộng nghiên cứu đƣa thêm phƣơng pháp xây dựng số khác nhƣ: phƣơng pháp xây dựng dựa vào biến đổi, phƣơng pháp xây dựng số dựa kỹ thuật hỗn hợp Để từ nghiên cứu tìm kiếm phƣơng pháp xây dựng số tốt 61 DANH MỤC TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Lê Sỹ Vinh (2013), Nhập môn tin sinh học, Đại học Công nghệ - Đại học Quốc gia Hà Nội Tiếng Anh: [2] Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990), Basic local alignment search tool, National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Bethesda, MD [3] Altschul SF, Madden T, Alejandro A, Schaffer A, Zhang J, Zhang Z, Miller W, Lipman DJ (1997), Gapped BLAST and PSI-BLAST: a new GENeration of protein database search programs, National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Bethesda, MD, 1997 [4] Califano A, Rigoutsos I, FLASH (1993), A fast look-up algorithm for string homology, International conference on intelliGENt systems for molecular biology, Bethesda, MD 56-64 [5] Cao X, Li SC, Ooi BC, Tung AKH (2004), Pier: an efficient model for similarity search in DNA sequence databases, Sigmod record, Special Issue [6] Chattaraj A, Williams HE, Variable – length intervals in homology search, In: Asia-pacific bioinformatic conference, Dunedin, Newzealand, 2004 [7] Fondrat C, Dessen P (1995), A Rapid access motif database (RAMdb) with a search algorithm for the retrieval patterns in nucleic acids or protein databanks, Comput Appl Biosci, 11(3): 273-279 62 [8] In-Seon Jeong, Kyoung-Wook Park, Seung-Ho Kang, Hyeong-Seok Lim (2010), An efficient similarity search based on indexing in large DNA databases, Computational Biology and Chemistry 34, 131-136 [9] Kailing K, Kriegel H-P, Schonauer S, Seidl T (2004), Efficient similarity search for hierarchical data in large databases, In: Proc 9th int conf on extending database technology (EDBT 2004), Heraklion, Greece, 676-693 Website: [10] Http://Blast.ncbi.nlm.nih.gov 63 ... phƣơng pháp đánh số cho CSDL lớn vấn giải pháp có hiệu 31 Đánh số dựa thuật tốn tìm kiếm phần quan trọng phƣơng pháp tìm kiếm GEN, làm để xây dựng số chìa khóa để đánh số dựa thuật tốn tìm kiếm Để. .. phƣơng pháp đánh số đƣợc nghiên cứu cho sở liệu GEN đặc biệt phƣơng pháp Blast để tìm cặp đoạn có độ giống đoạn GEN đầu vào với đoạn GEN có sở liệu để từ tăng tốc độ tìm kiếm [5] Ngồi cịn có số ứng... số 27 2.2.1 Cấu trúc liệu hệ GEN 27 2.2.2 Sự cần thiết lợi đánh số cho tìm kiếm tƣơng đồng GEN 29 2.3 Phƣơng pháp đánh số cho CSDL GEN 30 2.4 Phƣơng pháp đánh số

Ngày đăng: 26/03/2021, 07:02

Tài liệu cùng người dùng

Tài liệu liên quan