BLAST là một công cụ tìm kiếm tương tự cục bộ được sử dụng rộng rãi để xác định trình tự tương đồng

12 232 0
BLAST là một công cụ tìm kiếm tương tự cục bộ được sử dụng rộng rãi để xác định trình tự tương đồng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BLAST là một công cụ tìm kiếm tương tự cục bộ được sử dụng rộng rãi để xác định trình tự tương đồng. Khi trình tự gen (trình tự protein hoặc trình tự nucleotide) được sử dụng làm truy vấn để tìm kiếm trình tự tương đồng trong bộ gen, kết quả tìm kiếm, được biểu thị dưới dạng danh sách các cặp điểm cao (HSP), là các đoạn của gen ứng cử viên thay vì gen ứng cử viên đầy đủ chiều dài. Các HSP có liên quan (Tín hiệu có liên quan), đại diện cho các gen ứng cử viên trong trình tự bộ gen đích, được chôn trong một báo cáo có chứa hàng trăm đến hàng ngàn HSP ngẫu nhiên (tiếng ồn ầm ầm). Do đó, kết quả BLAST thường áp đảo và khó hiểu ngay cả với người dùng có kinh nghiệm. Để sử dụng hiệu quả BLAST, cần có một chương trình để trích xuất các HSP có liên quan đại diện cho các gen tương đồng ứng cử viên từ toàn bộ báo cáo HSP. Để đạt được mục tiêu này, chúng tôi đã thiết kế một thuật toán dựa trên đồ thị, genBlastA, tự động lọc HSP thành các nhóm được xác định rõ, mỗi nhóm đại diện cho một gen ứng cử viên trong bộ gen mục tiêu. Tính mới của genBlastA là một số liệu độ dài cạnh phản ánh một tập hợp các yêu cầu có động cơ sinh học để mỗi con đường ngắn nhất tương ứng với một nhóm HSP đại diện cho một gen tương đồng. Chúng tôi đã chứng minh rằng thuật toán mới này vừa hiệu quả vừa chính xác để xác định các chuỗi tương đồng và nó vượt trội hơn so với các phương pháp tiếp cận hiện có với các chức năng tương tự. Tính mới của genBlastA là một số liệu độ dài cạnh phản ánh một tập hợp các yêu cầu có động cơ sinh học để mỗi con đường ngắn nhất tương ứng với một nhóm HSP đại diện cho một gen tương đồng. Chúng tôi đã chứng minh rằng thuật toán mới này vừa hiệu quả vừa chính xác để xác định các chuỗi tương đồng và nó vượt trội hơn so với các phương pháp tiếp cận hiện có với các chức năng tương tự. Tính mới của genBlastA là một số liệu độ dài cạnh phản ánh một tập hợp các yêu cầu có động cơ sinh học để mỗi con đường ngắn nhất tương ứng với một nhóm HSP đại diện cho một gen tương đồng. Chúng tôi đã chứng minh rằng thuật toán mới này vừa hiệu quả vừa chính xác để xác định các chuỗi tương đồng và nó vượt trội hơn so với các phương pháp tiếp cận hiện có với các chức năng tương tự. Ví dụ: BLAST phát hiện các vùng tương tự giữa chuỗi truy vấn và chuỗi mục tiêu trong cơ sở dữ liệu. Như minh họa trong Hình 1, mỗi trận đấu giữa đoạn chuỗi truy vấn và đoạn chuỗi đích được báo cáo là một cặp điểm cao (HSP), bao gồm một cặp chuỗi: Q, T, trong đó Q là một đoạn từ chuỗi truy vấn (nghĩa là , phân đoạn truy vấn) và T là phân đoạn khớp từ chuỗi mục tiêu trong cơ sở dữ liệu đích (nghĩa là phân đoạn đích). Khi tìm kiếm BLAST trả về nhiều HSP cho một gen truy vấn (chuỗi protein hoặc chuỗi cDNA) trong bộ gen đích, nó cho thấy sự tồn tại của một hoặc nhiều gen tương đồng trong bộ gen (hoặc cơ sở dữ liệu nucleotide), với mỗi HSP thường tương ứng với một exon BLAST chỉ định cho mỗi HSP một điểm bit, giá trị kỳ vọng ( E value), cũng như tỷ lệ phần trăm nhận dạng (PID) và các giá trị tương tự. Ví dụ, khi protein được mã hóa bởi Caenorhabd viêm Elegansgen C11G6.3 được sử dụng làm truy vấn TBLASTN cho bộ gen C. Elegans , nhiều HSP được báo cáo. Mỗi HSP là duy nhất, với E value và PID tương ứng . Trong số các HSP này, một số có thể đại diện cho các gen ứng cử viên và có thể cung cấp cho các nhà sinh vật học một điểm khởi đầu có ý nghĩa để nghiên cứu thêm, trong khi những người khác là các cú đánh ngẫu nhiên. Do đó, mặc dù BLAST và các công cụ tìm kiếm tương tự khác tạo ra danh sách các HSP, chúng không tiết lộ HSP nào đại diện cho các gen ứng cử viên, chứ đừng nói đến việc có bao nhiêu gen tương đồng tồn tại trong bộ gen đích.

BLAST cơng cụ tìm kiếm tương tự cục sử dụng rộng rãi để xác định trình tự tương đồng Khi trình tự gen (trình tự protein trình tự nucleotide) sử dụng làm truy vấn để tìm kiếm trình tự tương đồng gen, kết tìm kiếm, biểu thị dạng danh sách cặp điểm cao (HSP), đoạn gen ứng cử viên thay gen ứng cử viên đầy đủ chiều dài Các HSP có liên quan (Tín hiệu có liên quan), đại diện cho gen ứng cử viên trình tự gen đích, chơn báo cáo có chứa hàng trăm đến hàng ngàn HSP ngẫu nhiên (tiếng ồn ầm ầm) Do đó, kết BLAST thường áp đảo khó hiểu với người dùng có kinh nghiệm Để sử dụng hiệu BLAST, cần có chương trình để trích xuất HSP có liên quan đại diện cho gen tương đồng ứng cử viên từ toàn báo cáo HSP Để đạt mục tiêu này, thiết kế thuật toán dựa đồ thị, genBlastA, tự động lọc HSP thành nhóm xác định rõ, nhóm đại diện cho gen ứng cử viên gen mục tiêu Tính genBlastA số liệu độ dài cạnh phản ánh tập hợp yêu cầu có động sinh học để đường ngắn tương ứng với nhóm HSP đại diện cho gen tương đồng Chúng tơi chứng minh thuật tốn vừa hiệu vừa xác để xác định chuỗi tương đồng vượt trội so với phương pháp tiếp cận có với chức tương tự Tính genBlastA số liệu độ dài cạnh phản ánh tập hợp yêu cầu có động sinh học để đường ngắn tương ứng với nhóm HSP đại diện cho gen tương đồng Chúng chứng minh thuật toán vừa hiệu vừa xác để xác định chuỗi tương đồng vượt trội so với phương pháp tiếp cận có với chức tương tự Tính genBlastA số liệu độ dài cạnh phản ánh tập hợp yêu cầu có động sinh học để đường ngắn tương ứng với nhóm HSP đại diện cho gen tương đồng Chúng tơi chứng minh thuật tốn vừa hiệu vừa xác để xác định chuỗi tương đồng vượt trội so với phương pháp tiếp cận có với chức tương tự Ví dụ: BLAST phát vùng tương tự chuỗi truy vấn chuỗi mục tiêu sở liệu Như minh họa Hình 1, trận đấu đoạn chuỗi truy vấn đoạn chuỗi đích báo cáo cặp điểm cao (HSP), bao gồm cặp chuỗi: [Q, T], Q đoạn từ chuỗi truy vấn (nghĩa , phân đoạn truy vấn) T phân đoạn khớp từ chuỗi mục tiêu sở liệu đích (nghĩa phân đoạn đích) Khi tìm kiếm BLAST trả nhiều HSP cho gen truy vấn (chuỗi protein chuỗi cDNA) gen đích, cho thấy tồn nhiều gen tương đồng gen (hoặc sở liệu nucleotide), với HSP thường tương ứng với exon BLAST định cho HSP điểm bit, giá trị kỳ vọng ( E -value), tỷ lệ phần trăm nhận dạng (PID) giá trị tương tự Ví dụ, protein mã hóa Caenorhabd viêm Elegansgen C11G6.3 sử dụng làm truy vấn TBLASTN cho gen C Elegans , nhiều HSP báo cáo Mỗi HSP nhất, với E -value PID tương ứng Trong số HSP này, số đại diện cho gen ứng cử viên cung cấp cho nhà sinh vật học điểm khởi đầu có ý nghĩa để nghiên cứu thêm, người khác đánh ngẫu nhiên Do đó, BLAST cơng cụ tìm kiếm tương tự khác tạo danh sách HSP, chúng không tiết lộ HSP đại diện cho gen ứng cử viên, đừng nói đến việc có gen tương đồng tồn gen đích Hình Nhóm HSP thành nhóm đại diện cho parolog (Gene1 Gene2) song song gen đích Để đơn giản, số hiển thị phần nhỏ HSP BLAST trả Mỗi HSP tương ứng với đoạn mã hóa (có thể exon) gen, nhóm HSP đại diện chung cho gen có chiều dài đầy đủ Mỗi tơ bóng hình đại diện cho HSP vị trí gen tương ứng Các gen ứng cử viên hiển thị gen, với exon (hộp đen) kết nối intron (dòng) Các nhóm HSP đại diện tốt cho gen hiển thị gen tương ứng, với HSP có liên quan nhóm khoanh tròn Hai gen paroteous song song (Gene1 Gene2) hiển thị Ranh giới hai gen phải giải xác Trong năm qua, giải pháp đặc biệt phát triển để lọc nhóm HSP, sản xuất BLAST cơng cụ tìm kiếm dựa tương tự khác, thành nhóm đại diện cho gen Vấn đề giải pháp ad hoc giải số gen thất bại nhiều trường hợp Chương trình tiếng cung cấp chức phân nhóm HSP WUBLAST ( Lopez cộng 2003), dẫn xuất chương trình BLAST Nó phân loại HSP thành nhóm người dùng kích hoạt tùy chọn topcomboE trực tiếp Trong nhóm sản xuất WU-BLAST, HSP thường liền kề cộng tuyến Mặc dù WU-BLAST nhóm thành cơng số HSP thành cấu trúc giống gen, HSP đại diện cho gen ứng cử viên cụm song song gen mục tiêu, WU-BLAST chắn thất bại Đối với trường hợp này, WU-BLAST có xu hướng nhóm HSP tương ứng với gen khác vào nhóm, thảo luận sau Một chương trình dựa thuật tốn tăng dần dài (LIS) phát triển để lọc nhóm BLAST HSP (Zhang 2003) Tương tự chương trình WU-BLAST, khơng giải thích cách đáng tin cậy HSP đại diện cho nhiều gen di truyền Một chương trình khác, BLAST2GENE, phát triển để giải cụ thể vấn đề đa gen di truyền (Suyama et al 2004); Gần đây, Cui et al (2007)đã phát triển thuật tốn lọc nhóm xử lý kết BLAST, sử dụng để xác định gen tương đồng Các nhà điều tra áp dụng quy trình ba bước để lọc nhóm HSP đại diện cho gen ứng cử viên: (1) lọc tất HSP cách loại bỏ HSP có điểm thấp giá trị heuristic; (2) nhóm HSP dựa khoảng cách vật lý chúng dọc theo nhiễm sắc thể; (3) tiếp tục lọc HSP cách ước tính khoảng cách gen vùng mục tiêu Tất HSP nằm vùng mục tiêu loại trừ khỏi phân tích sâu So sánh với WU-BLAST, thất bại việc lọc nhóm HSP đại diện cho tất gen tương đồng song song, chương trình lọc xác nhóm HSP đại diện cho số gen tương đồng song song Tuy nhiên, chương trình có điểm yếu quan trọng, phụ thuộc vào khoảng cách vật lý (bước 2) cấu trúc gen (các nhóm HSP) với nhóm riêng biệt Nó giả định khoảng cách gen khác lớn đáng kể so với khoảng cách HSP nhóm, điều khơng đúng, đặc biệt gen paroteous cụm song song Do việc sử dụng ngưỡng khoảng cách ad hoc để tách gen liền kề, chương trình bằngCui et al (2007) khơng giải gen di truyền riêng lẻ cụm song song Một mặt, giá trị ngưỡng khoảng cách để tách gen lớn, HSP tương ứng với nhiều gen gộp lại thành nhóm lớn Mặt khác, giá trị ngưỡng nhỏ, HSP tương ứng với gen chia thành nhóm HSP khác Ngồi điểm yếu quan trọng này, chương trình Cui et al (2007) khơng thể áp dụng để lọc HSP đại diện cho gen chương trình khơng loại bỏ HSP ngẫu nhiên rơi vào vùng gen có chứa gen ứng cử viên Nhiệm vụ lọc nhóm đặc biệt khó khăn gen truy vấn có số lượng lớn gen di truyền song song gen đích, minh họa Hình Hình cho thấy gen truy vấn có hai (hoặc nhiều) gen tương đồng (Gene1 Gene2) nằm vùng gen liền kề Người ta biết số lượng lớn gen hầu hết gen giải trình tự phần cụm gen tương đồng song song Ví dụ, gen giun tròn C Elegans , 1400 gen hóa trị tạo thành nhiều cụm gen song song, gen chứa hai nhiều gen tương đồng ( Robertson Thomas 2006) Do đó, chương trình có khả lọc lắp ráp HSP đại diện cho gen cụm song song quan trọng Trong dự án này, chúng tơi phát triển thuật tốn dựa đồ thị mới, genBlastA, để giải trực tiếp thách thức mô tả trên, số vấn đề khác, việc lọc lắp ráp HSP vào vùng gen gen Một tính đặc biệt genBlastA khơng phụ thuộc vào việc sử dụng ngưỡng ad hoc để lọc HSP nhiễu khoảng cách vật lý gen mục tiêu Thay vào đó, genBlastA mơ hình hóa mối quan hệ ràng buộc HSP dạng biểu đồ có hướng, định biểu đồ HSP mơ hình hóa vấn đề lọc lắp ráp HSP tìm kiếm đường ngắn biểu đồ Tính thuật tốn dựa biểu đồ số liệu độ dài cạnh sáng tạo phản ánh tập hợp yêu cầu có động lực sinh học để đường ngắn tương ứng với nhóm HSP đại diện cho gen tương đồng Không giống phương pháp phân nhóm ad hoc có,tối ưu hóa độ dài đường dẫn để nắm bắt tốt chất lượng nhóm HSP làm gen ứng cử viên Do đó, phương pháp chúng tơi mạnh mẽ tìm giải pháp tối ưu (liên quan đến số liệu độ dài định) mà không áp đặt ràng buộc trước (tức ngưỡng ad hoc) cấu trúc gen Chúng thử nghiệm hiệu suất genBlastA việc lọc lắp ráp HSP tìm thấy gen hai lồi tuyến trùng có liên quan chặt chẽ với nhau: C Elegans ( Consortium 1998 ) Caenorhabd viêm briggsae ( Stein cộng 2003 ) Những gen chọn để thử nghiệm hai thích rộng rãi Nghiên cứu chúng tơi cho thấy hiệu suất genBlastA tốt đáng kể so với WU-BLAST chương trình Cui et al (2007) Đi đến: Các kết Trong dự án này, chúng tơi phát triển chương trình genBlastA (được mơ tả Phương thức) sử dụng thuật tốn dựa biểu đồ mới, cung cấp cho chương trình khả tuyệt vời để xác định nhóm HSP đại diện cho orthologs (gen loài khác có nguồn gốc q trình tiến hóa), parolog ( gen nhân đơi lồi), gen (các gen chưa xác định) Giải gen di truyền cụm song song Để kiểm tra khả ba chương trình để giải gen trùng lặp song song, chúng tơi kiểm tra nhóm HSP tạo cho 30 gen truy vấn gen kiểm tra thành viên họ gen lớn Để so sánh, sau chúng tơi xác định nhóm HSP sử dụng genBlastA, WU-BLAST ML, giữ lại tất khu vực ứng cử viên với độ bao phủ truy vấn ≥50% Các nhóm HSP sau kiểm tra chia thành hai loại: Các nhóm đặc biệt nhóm khơng chun biệt Một nhóm HSP gọi cụ thể vùng gen tương ứng chứa gen thích gọi khơng đặc hiệu vùng có nhiều gen thích Các nhóm HSP có độ tương tự cao với truy vấn chứa gen đơn lẻ có khả parolog thực sự.Hình minh họa ví dụ, có năm gen paroteous cụm gen song song Đúng dự đốn, WU-BLAST xác định xác gen mục tiêu khơng thể tạo nhóm HSP tương ứng với bốn gen lại ML tạo ba nhóm, hai số chứa nhầm HSP tương ứng với gen lân cận khác ML bỏ lỡ nhóm cho hai gen mục tiêu (T27B7.4 [ nhr-115 ] T27B7.6a [ nhr-228 ]) nhóm HSP bị nhầm lẫn tương ứng với T27B7.6a với nhóm HSP tương ứng với T27B7.5 ( nhr-227 ) (Hình ) Ngược lại, genBlastA giải thành công tất năm gen, tạo năm nhóm HSP Hình Nhóm HSP thành nhóm đại diện cho gen riêng lẻ genBlastA giải tất năm thành viên, ML giải hai WU có Các mơ hình gen hiển thị theo dõi Mơ hình gen HSP hiển thị dạng hộp màu xanh nhạc Tất HSP Màu sắc biểu thị PID khác cho HSP Màu tối cho thấy PID cao Các nhạc genBlastA Group, ML Group WU Group hiển thị nhóm HSP trả genBlastA, ML WU-BLAST, tương ứng Tóm lại, BLAST thực thi với cài đặt chưa khai thác EvsE, tỷ lệ trung bình nhóm HSP cụ thể theo genBlastA ∼80%, cao đáng kể so với WU-BLAST (∼20%) ML (20%) 40%) ( Hình 3) Các kết tương tự quan sát BLAST thực với cài đặt bị rách Do đó, trường hợp, genBlastA giải nhóm HSP cụ thể theo song song so với WU-BLAST ML WU-BLAST thường tạo nhiều nhóm HSP, chúng thường kéo dài vùng có nhiều gen (do khơng đặc hiệu) Do đó, nhóm WU-BLAST kết hợp gen di truyền song song, dẫn đến hiệu suất việc giải gen di truyền song song ML có hiệu suất sử dụng ngưỡng khoảng cách Đặc biệt, ngưỡng khoảng cách tăng lên, khả ML giải nhóm parologous khoảng cách gần giảm Hình Nhóm HSP để biểu diễn gen tương đồng riêng lẻ cụm song song Hình cho thấy tỷ lệ phân giải trung bình cho tổng số 30 cụm gen nhân đôi liệu EvsE cho genBlastA (GB), Cui et al (2007) (ML) WU-Blast (WU) Tỷ lệ nhóm cụ thể tính số lượng gen phân giải tổng số gen cụm gen song song Một gen coi giải nhóm HSP trùng lặp với gen WormBase độ tương tự nhịp ≥50% Gaps unsaps đại diện cho hai kết BLAST độc lập cách sử dụng cài đặt bị rách cài đặt không bị chặn Giá trị alpha GB 0,5 Ngưỡng khoảng cách ML 1000 Thanh lỗi, SE (***) Ý nghĩa thống kê ( P 300 axit amin) (Bảng bổ sung 1; Hình ) Những gen tiểu thuyết giả định thử nghiệm phòng thí nghiệm để kiểm tra xem chúng có phải gen thật hay không Do gen thử nghiệm chiếm ∼2% gen C Elegans , chúng tơi ước tính genBlastA xác định hàng trăm gen tương đồng (bao gồm hàng trăm gen dài) toàn bộ gen Do đó, phát chúng tơi chứng minh genBlastA có khả xác định gen di truyền Hình ( A ) HSP trả BLAST Q , Q , Q Q đại diện cho phân đoạn truy vấn, T , T , T , T , T T đại diện cho phân đoạn mục tiêu ( B ) Ví dụ nhóm HSP ( C ) Biểu đồ HSP, với đường liền nét thể cạnh chấm chấm biểu thị cạnh bỏ qua ( D ) Biểu đồ HSP, với dọc biểu thị cạnh tách biệt Đi đến: Thảo luận BLAST chương trình tìm kiếm có liên quan sử dụng rộng rãi để xác định trình tự tương đồng chúng nhạy cảm hiệu việc tìm kiếm đoạn tương đồng cho gen truy vấn Tuy nhiên, kết BLAST thường chứa số lượng lớn HSP thách thức không áp đảo cho người dùng cuối GenBlastA chương trình chúng tơi cung cấp cách hiệu để diễn giải danh sách HSP lớn báo cáo BLAST phép người dùng tập trung vào mục tiêu mà họ thấy thú vị genBlastA cho phép người dùng xác định cách hiệu vùng gen tương đồng đại diện cho gen ứng cử viên có chiều dài đầy đủ, thay đoạn gen (HSP) Do đó, genBlastA trao quyền cho người dùng cách cho phép họ xác định hiệu gen ứng cử viên gen mục tiêu Điều làm cho BLAST chương trình liên quan chí hữu ích Phân tích rõ ràng genBlastA vượt trội chương trình có phát triển trước với mục tiêu tương tự Đặc biệt, genBlastA hiệu việc nhóm HSP tương ứng với gen riêng lẻ cụm gen tương đồng Cả WU-BLAST chương trình phát triển Cui et al (2007) thất bại nhiệm vụ Ngoài ra, ML hoạt động tốt WU-BLAST việc giải nhiều gen di truyền cụm song song, chương trình ML chưa sẵn sàng cho cơng việc chương trình ML khơng có khả loại bỏ HSP ngẫu nhiên vùng gen Khả giải hiệu nhóm HSP genBlastA cho phép người dùng tận dụng nhóm HSP, hữu ích theo nhiều cách Đầu tiên, genBlastA nhà nghiên cứu sử dụng để nhanh chóng xác định vị trí cấu trúc gen ứng cử viên vùng gen tương đồng xác định gen mục tiêu So với sưu tập HSP lớn báo cáo BLAST chương trình tương tự, nhóm HSP xếp hạng cung cấp thơng tin hữu ích nhiều liên quan đến cấu trúc gen mục tiêu đầy đủ, thay đoạn gen mục tiêu Vì người dùng cuối nhà sinh học thực nghiệm thường quan tâm đến gen hơn, genBlastA làm cho kết tìm kiếm dễ tiếp cận có ý nghĩa họ Thứ hai, genBlastA sử dụng để tiền xử lý chuỗi DNA gen cho chương trình tìm kiếm gen, bao gồm genewise ( Birney et al 2004 ) exon Cả ( Slater Birney 2005) Cả genewise exon Cả sử dụng rộng rãi để dự đoán gen dựa tương đồng Tuy nhiên, hai chương trình, đặc biệt genewise, có giá trị tính tốn sử dụng để tìm kiếm gen ứng cử viên tồn bộ gen Hiệu suất chúng tăng cường đáng kể khơng gian tìm kiếm gen chúng bị giảm genBlastA, có khả xác định vùng gen ứng cử viên, sử dụng cách hiệu để xử lý trước trình tự gen để giảm khơng gian tìm kiếm Nó tích hợp vào chương trình Cui et al (2007) để xác định gen tương đồng Thứ ba, HSP sử dụng để giải cấu trúc gen, tay tính tốn Các mơ hình gen ứng cử viên xác định xác HSP nhóm HSP, thơng tin ghép nối exron intron cạnh HSP, tương đồng gen truy vấn ứng cử viên Một chương trình dự đốn gen dựa điều phát triển báo cáo riêng Đi đến: Phương pháp Định nghĩa vấn đề Trong nghiên cứu này, nghiên cứu vấn đề sau: đưa chuỗi truy vấn (gen), protein (sản phẩm gen) sở liệu trình tự gen mục tiêu, muốn xác định tất vùng gen tương đồng có chứa gen mục tiêu (gen trình tự đích tương đồng với gen truy vấn) Đầu tiên, bước tiền xử lý, chúng tơi áp dụng BLAST để tìm xếp cục chuỗi truy vấn chuỗi mục tiêu Bước tạo danh sách HSP, với HSP chứa thơng tin sau: (1) phân đoạn đích T vị trí chuỗi mục tiêu phân đoạn truy vấn tương ứng Q vị trí chuỗi truy vấn, (2) E-giá trị (3) giá trị PID Trong bước thứ hai, chúng tơi lọc nhóm HSP cho nhóm HSP tạo thành vùng ứng cử viên chứa gen mục tiêu, gọi vùng gen ứng cử viên genBlastA tập trung vào bước thứ hai Một ví dụ danh sách HSP hiển thị Hình 5A , tương ứng phân đoạn đích (T) phân đoạn truy vấn (Q) HSP minh họa đường chấm chấm Ví dụ: [Q , T ] [Q , T ] đại diện cho hai HSP khác HSP trùng lặp vị trí gen / tương ứng truy vấn chúng Lưu ý HSP hiển thị hình nhằm mục đích minh họa, thuật tốn chúng tơi xử lý HSP với nhiều loại mối quan hệ khác Mỗi trình tự gen có hai chuỗi Tích cực tiêu cực Mỗi chuỗi coi chuỗi mục tiêu riêng biệt genBlastA Sự khác biệt chúng hướng liên kết gen mục tiêu gen truy vấn Do chuỗi mục tiêu độc lập có danh sách HSP riêng, chúng tơi xử lý riêng chuỗi mục tiêu để có vùng gen ứng cử viên cho chuỗi Cuối cùng, tất ứng cử viên cho tất chuỗi mục tiêu xếp vào danh sách xếp hạng theo điểm số họ tính tốn thuật tốn chúng tơi (sẽ thảo luận sau) Từ trở đi, để đơn giản, tất thảo luận dựa chuỗi truy vấn chuỗi mục tiêu chuỗi tích cực Trong báo cáo này, giới hạn khơng gian, chúng tơi trình bày ngắn gọn phương pháp dựa biểu đồ genBlastA để mô hình hóa nhóm HSP tốt vấn đề tìm kiếm đường dẫn ngắn biểu đồ Chi tiết thuật tốn genBlastA mơ tả Dữ liệu Bổ sung Các nhóm HSP Với phân đoạn mục tiêu HSP phù hợp với phân đoạn truy vấn, nhóm phân đoạn mục tiêu HSP khớp chung với phần lớn chuỗi truy vấn Chúng quan tâm đến nhóm HSP đó, tương ứng với gen tương đồng với gen truy vấn Những nhóm gọi nhóm HSP Nói chung, có số nhóm HSP khác chuỗi mục tiêu cho gen truy vấn Nếu gen truy vấn không bảo tồn gen đích, khơng thể tìm thấy nhóm HSP Nếu gen truy vấn thuộc nhóm đa gen (hoặc gen truy vấn có nhiều gen paroteous), có nhiều nhóm HSP chuỗi mục tiêu, nhóm đại diện cho vùng ứng cử viên mã hóa gen paroteous Xem xét ví dụ Hình 5A.T T theo thứ tự với phân đoạn truy vấn chúng Vì vậy, [Q , T ] nằm nhóm với [Q , T ] Trong thực tế, cách hợp T T thành vùng mục tiêu liên tục hợp phân đoạn truy vấn chúng thành vùng truy vấn liên tục, có liên kết lớn hơn, tốt Hình 5Bcho thấy nhóm HSP đáp ứng yêu cầu đồng tuyến tính Lưu ý Nhóm Nhóm có phạm vi bao phủ gen truy vấn khơng đầy đủ phần lớn chuỗi truy vấn không nằm phân đoạn truy vấn chúng Ngược lại, Nhóm bao gồm tồn chuỗi truy vấn Một nhóm HSP tốt nên có phạm vi truy vấn lớn Đối với nhóm HSP, vùng kết hợp phân đoạn truy vấn họ bao gồm chuỗi truy vấn nhiều tốt Trong Hình 5B , Nhóm tốt Nhóm Nhóm bao phủ vùng lớn chuỗi truy vấn Mơ hình đồ thị Biểu đồ HSP biểu diễn biểu đồ nắm bắt yêu cầu nhóm HSP Mỗi HSP đại diện nút, với cạnh mơ hình hóa thứ tự phân đoạn mục tiêu HSP cạnh bỏ qua HSP Một nhóm HSP mơ hình hóa cách nhóm nút đường dẫn, cho nhóm bao gồm nhiều phân đoạn truy vấn tốt trì trạng thái thơng thường Bằng cách sử dụng số liệu độ dài (Dữ liệu bổ sung), chúng tơi nhóm HSP tối ưu đường ngắn biểu đồ HSP Hình 5C cho thấy biểu đồ HSP cho HSP trongHình 5A.Các cạnh chấm bỏ qua cạnh Mỗi đường dẫn biểu đồ biểu thị cách chọn HSP dọc theo đường dẫn Với cạnh bỏ qua, biểu đồ HSP cung cấp khơng gian tìm kiếm hồn chỉnh cho tất nhóm HSP Số lượng cạnh bỏ qua lớn Tuy nhiên, sau giới thiệu số liệu độ dài cạnh (Dữ liệu bổ sung), nhiều cạnh bỏ qua loại bỏ mà không ảnh hưởng đến kết GenBlastA chương trình chúng tơi khơng xây dựng cạnh bỏ qua vậy, làm tăng đáng kể hiệu genBlastA Trong hình 5D , để phân biệt hai loại cạnh này, thêm dọc cho cạnh tách biệt Ví dụ, H → H cạnh tách biệt, có nghĩa nút nguồn nút đích phải thuộc nhóm HSP khác Cạnh bỏ qua H → H cạnh mở rộng cạnh bỏ qua H → H cạnh tách biệt Với cạnh mở rộng cạnh tách biệt, đường dẫn biểu đồ HSP biểu thị cách lọc nhóm HSP: Khi qua đường dẫn, theo cạnh mở rộng mở rộng nhóm HSP để bao gồm nút đích theo cạnh tách biệt kết thúc nhóm HSP tại nút nguồn bắt đầu nhóm HSP nút đích Nếu cạnh mở rộng cạnh bỏ qua, theo cạnh bỏ qua nút đường dẫn tắt theo cạnh Theo nghĩa này, biểu đồ HSP cung cấp khơng gian tìm kiếm hồn chỉnh để lọc nhóm HSP Thuật tốn đường dẫn ngắn nguồn đơn cho đồ thị chu kỳ có hướng thực hiệu thời gian O ( E ), E số cạnh ( Manber 1989 ) Thực thuật toán lần cho thể nút khởi H , tổng thời gian chạy O ( E ⋅ V ), nơi Vlà số nút cuối mép tách bao bọc số lượng HSPs ... Thảo luận BLAST chương trình tìm kiếm có liên quan sử dụng rộng rãi để xác định trình tự tương đồng chúng nhạy cảm hiệu việc tìm kiếm đoạn tương đồng cho gen truy vấn Tuy nhiên, kết BLAST thường... WU -BLAST ML, WU -BLAST vượt trội ML Được kết hợp với nhau, genBlastA vượt trội WU -BLAST ML việc xác định nhóm HSP chỉnh hình Xác định gen Vì genBlastA áp dụng để xác định hiệu vùng gen tương đồng. .. mục tiêu, cho sử dụng để xác định gen di truyền bị bỏ qua phương pháp khác Để chứng minh điều này, chúng tơi kiểm tra xem genBlastA sử dụng để xác định nhóm HSP gen C Elegans tương đồng với gen

Ngày đăng: 14/04/2019, 20:14

Từ khóa liên quan

Mục lục

  • Các kết quả

    • Giải quyết các gen di truyền trong các cụm song song

    • Tìm kiếm các nhóm chỉnh hình

      • Kiểm tra phạm vi truy vấn

      • Kiểm tra nhịp gen

      • Xác định gen mới

      • Thảo luận

      • Phương pháp

        • Định nghĩa vấn đề

        • Các nhóm HSP

        • Mô hình đồ thị

Tài liệu cùng người dùng

Tài liệu liên quan