Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 36 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
36
Dung lượng
893,01 KB
Nội dung
Báo cáo luận văn cao học Khai thác kiến trúc phân tán và chia sẻ tìm sự tương đồng của các trình tự sinh học GVHD: PGS.TS Trần Văn Lăng HVTH: Phạm Đông Phong 1 Lac Hong University 1. Đặt vấn đè 2. Mục tiêu cần giải quyết 3. Phương pháp thục hiện 4. Kết quả trình thực nghiệm 5. Kết luận và hướng phát triển Nội dung trình bày 2 Sắp hàng trình tự nhằm tìm kiếm, phân loại trình tự chuỗi DNA, Protein, ứng dụng trong xây dựng cây phân loài vẫn là một bài toán lớn và đòi hỏi nhiều thời gian xử lý của sinh tin học (Bioinfomation) 1. Đặt vấn đề 3 Hiện nay số lượng các trình tự trong các cơ sở dữ liệu sinh tin học lớn trên thế giới như: - NCBI, Tính đến tháng 2/2013 đã có 150.141.354.858 base và 162.886.727 trình tự - EMBL, 247.335.689 trình tự bao gồm 429.512.389.024 nucleotide tính đến tháng 09/2012 - GenBank, Tính đến 03/2013 có 163,017,305 entries với 150,760,062,903 nucleotits - … đang gia tăng nhanh chóng dẫn đến việc các thuật toán xử lý trên khối lượng lớn dữ liệu trở nên kém hiệu quả phải giải quyết vấn đề này ??? 1. Đặt vấn đề 4 Những năm gần đây 2 thuật toán thường được sử dụng để bắt cặp trình tự nhất là thuật toán: - Smith – Waterman - Needleman - Wunsch 1. Đặt vấn đề 5 - Smith – Waterman Thuật toán sử dụng để bắt cặp trình tự cục bộ, nghĩa là bắt cặp 1 đoạn trình tự nhỏ trong 1 trình tự lớn - Needleman-Wunsch Thuật toán sử dụng để bắt cặp trình tự toàn cục, bắt cặp hai đoạn trình tự với nhau. 1. Đặt vấn đề 6 Luận văn dựa vào thuật toán Smith – Waterman để bắt cặp trình tự cục bộ. cụ thể sẽ tìm kiếm sự tương đồng của 1 đoạn trình tự đầu vào với 1 trình tự nào đó tồn tại trong ngân hàng gen. 1. Đặt vấn đề 7 1. Đặt vấn đề STT Trình tự 1 ACTAGTCGATGCTAGTC 2 CCTATGCTAGTCGTAGCTGAT 3 CTTGCTAGTAGTGCTAGTCGTC 4 CTTTAGCGTAGCTGATGTC 5 CTTAGCGTAGTCGATGCTGACGT 6 CTTAGCGTGATCGTAGCTAGT …. ……………. Ngân hàng DNA Trình tự A cần tìm: ATTCGGATGCTTCGTCCGG Bắt cặp Mất nhiều thời gian 8 Giải quyết bài toán sắp hàng trình tự cục bộ Cung cấp thực nghiệm cho các nghiên cứu khác sâu hơn 2. Mục tiêu cầm giải quyết 9 3. Phương pháp thực hiện Đề giải quyết bài toán, nhóm tác giả thực hiện 2 công việc: Công việc 1: Song song xử lý dữ liệu. Mỗi tiến trình xử lý trên một nhóm các trình tự được phân đoạn một cách đồng thời Công việc 2: Song song hóa thuật toán bắt cặp trình tự 10 [...]... thực hiện: Bước 1: Nhập và gửi trình tự muốn tìm Công việc của Server: - Nhập 1 trình tự muốn tìm kèm theo các tham số: vd độ tương đồng mong muốn, phân nhóm trình tự, dựa theo cây phân loài, hoặc tìm trên các đoạn trình tự đặc trưng… - Gửi trình tự muốn tìm này về cho các Client Công việc của Client: - Nhận trình tự muốn tìm từ Server Nhập trình tự muốn tìm ACTGTAGTCGTAGCTGATGCTA Client 1 gửi DNA Server... là các trình tự protein được lấy từ cơ sở dữ liệu NCBI theo chuẩn fasta, được chia làm 3 nhóm nhằm đánh giá khả năng thực hiện song song trên môi trường CUDA - Nhóm 1 gồm 10000 trình tự có độ dài ngắn Độ dài trung bình mỗi trình tự khoảng 200 – 300 ký tự - Nhóm 2 gồm 10000 trình tự có độ dài hỗn hợp Bao gồm cả các trình tự có độ dài ngắn cách biệt lớn, từ 300 - 3000 ký tự - Nhóm 3 gồm 10000 trình tự. .. trường tính toán song song * Các bước thực hiện: Bước 2: Xác định tập dữ liệu nhỏ sẽ được thực hiện trên Client Công việc của Server: - Từ một dãy các trình tự trong ngân hàng dữ liệu và các tham số đầu vào - Phân chia thành các tập dữ liệu nhỏ, xác định số lượng trình tự sẽ được xử lý trên các Client - Xác định vị trí (tập chỉ mục) trình tự sẽ được xử lý trên Client 13 - Gửi các vị trí này về cho máy... công trình này nhóm tác giả sử dụng không làm nhiệm vụ bắt cặp trình tự, mà: - Thực hiện nhiệm vụ phân chia ngân hàng dữ liệu thành các tập dữ liệu nhỏ theo điều kiện truy vấn - Gửi tập chỉ mục dữ liệu nhỏ về cho các máy tính con khác nhau để tiến hành bắt cặp trình tự đồng thời trên các 11 máy Giải quyết bài toán trên môi trường tính toán song song * Các bước thực hiện: Bước 1: Nhập và gửi trình tự. .. bình 28 mỗi trình tự khoảng 2500 – 3000 ký tự 4 Kết quả thực nghiệm Ngoài ra, để đánh giá khả năng thực hiện song song hoá dữ liệu trên môi trường MPI, mỗi nhóm dữ liệu trên lại chia thành 3 nhóm nhỏ: • • • Nhóm A có số lượng trình tự ít (< 1000 trình tự / 1 nhóm) Nhóm này được đặt tên là xA (x là 1 trong 3 nhóm chính bên trên) Nhóm B có số lượng trình tự trung bình (từ 2000 - 3000 trình tự / 1 nhóm)... ACGTGTACT vị trí 7 ………………… Server Phân chia ngân hàng DNA Client 1 gửi vị trí DNA Client 2 …… Giải quyết bài toán trên môi trường tính toán song song * Các bước thực hiện: Bước 3: Công việc của Client: - Client sử dụng thuật toán Smith-Waterman cải tiến chạy trên GPU để bắt cặp trình tự trên những trình tự được chỉ định trong ngân hàng dữ liệu từ Server với trình tự muốn tìm 14 Giải quyết bài toán trên... Client gửi chuỗi kết quả về tiến trình Server tổng hợp Công việc của Client: - Client gửi chuỗi kết quả về Server Công việc của Server: - Server nhận chuỗi kết quả từ các Client gửi về - Server tổng hợp so sánh tìm trình tự có vị trí và điểm số đánh giá cao nhất 16 Giải quyết bài toán trên môi trường tính toán song song Công việc 2: Song song hóa thuật toán bắt cặp trình tự (Smith – Waterman) Sơ lược... song Thuật toán Smith-Waterman trên môi trường CPU-GPU Vần đề chủ đạo của thuật toán Smith-Waterman là phải xây dựng ma trận F, với mỗi phần tử của ma trận F được tính và điền 1 cách tuần tự Do đó tư tưởng chủ đạo của việc song song thuật toán là sẽ điền các phần tử ma trận F một cách đồng thời Ví dụ khi cần tính phần tử Fi,j, phải dựa vào 3 phần tử khác là: * Fi-1,j * Fi-1,j-1 * Fi,j-1 25 Giải quyết bài... tên là xB Nhóm C có số lượng trình tự lớn (> 5000 trình tự / 1 nhóm) 29 Nhóm này được đặt tên là xC 4 Kết quả thực nghiệm Kết quả sắp hàng đa trình tự với nhóm 1 Mỗi nhóm tiến hành chạy thử nghiệm 10 lần và lấy thời gian trung bình Nhóm 1A Thời gian chạy (giây) Nhóm 1B Nhóm 1C 0.45 4.61 20.94 Kết quả sắp hàng đa trình tự với nhóm 2 Mỗi nhóm tiến hành chạy thử nghiệm 10 lần và lấy thời gian trung bình... theo chiều ngang hay từ ô (i,j-1) sang ô (i,j) thì thêm “ – “ vào S2’ và thêm ký tự S1(j) vào S1’ + Nếu đường đi theo chiều thẳng đứng hay từ ô (i-1,j) xuống ô (i,j) thì thêm “ – “ vào S1’ và thêm ký tự S2(i) vào S2’ + Nếu đường đi theo đường chéo hay từ ô (i-1,j-1) đến ô (i,j) thì thêm ký tự S1(j) vào S1’ và S2(i) vào S2’ 23 Đảo ngược S1’, S2’ Giải quyết bài toán trên môi trường tính toán song song THUẬT . Báo cáo luận văn cao học Khai thác kiến trúc phân tán và chia sẻ tìm sự tương đồng của các trình tự sinh học GVHD: PGS.TS Trần Văn Lăng HVTH: Phạm Đông Phong. trình tự muốn tìm Công việc của Server: - Nhập 1 trình tự muốn tìm kèm theo các tham số: vd độ tương đồng mong muốn, phân nhóm trình tự, dựa theo cây phân loài, hoặc tìm trên các đoạn trình tự. cặp trình tự cục bộ. cụ thể sẽ tìm kiếm sự tương đồng của 1 đoạn trình tự đầu vào với 1 trình tự nào đó tồn tại trong ngân hàng gen. 1. Đặt vấn đề 7 1. Đặt vấn đề STT Trình tự 1