Một số vấn đề về việc so sánh và tìm kiếm các đa phân tử sinh học như DNA, protein

88 5 0
Một số vấn đề về việc so sánh và tìm kiếm các đa phân tử sinh học như DNA, protein

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đại học Quốc gia TP Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA –––––––––––––––– NGUYỄN NGỌC TÚ MỘT SỐ VẤN ĐỀ VỀ VIỆC SO SÁNH VÀ TÌM KIẾM CÁC ĐA PHÂN TỬ SINH HỌC NHƯ DNA, PROTEIN Chuyên ngành: Công Nghệ Thông Tin Mã số ngành: 01.02.10 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, THÁNG 01 NĂM 2005 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA –––––––––––– CỘNG HÒA XÃ HỌI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc ––––––––––––––––––––––– Tp HCM, ngày 31 tháng 01 năm 2005 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: NGUYỄN NGỌC TÚ Phái: Nam Ngày tháng năm sinh: 03- 12 - 1979 Nơi sinh: Hà Tây Chuyên ngành: Công Nghệ Thông Tin Mã số: 01.02.10 I TÊN ĐỀ TÀI: Một số vấn đề việc so sánh tìm kiếm đa phân tử sinh học DNA Protein II NHIỆM VỤ VÀ NỘI DUNG: Nhiệm vụ đề tài nghiên cứu phối hợp kỹ thuật luyện kim (Simulated Annealing) với giải thuật di truyền (Genetic Algorithm), từ song song hố giải thuật để giải tốn so sánh trình tự sinh học III NGÀY GIAO NHIỆM VỤ (Ngày bảo vệ đề cương) : 09-02-2004 IV NGÀY HOÀN THÀNH NHIỆM VỤ(Ngày bảo vệ luận án tốt nghiệp):20-01-2005 V HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: Tiến sĩ Trần Văn Lăng CÁN BỘ HƯỚNG DẪN CN BỘ MÔN QL CHUYÊN NGÀNH TS Trần Văn Lăng Nội dung đề cương luận văn thạc sĩ Hội Đồng Chuyên Ngành thông qua Ngày tháng năm TRƯỞNG PHỊNG ĐÀO TẠO SĐH TRƯỞNG KHOA QL NGÀNH TĨM TẮT Luận án có nhiệm vụ giải tốn so sánh tương đồng đa trình tự sinh học chuỗi trình tự DNA protein Bài tốn so sánh tương đồng toán tảng cho hoạt động phân tích liệu sinh học tốn có độ phức tạp lớn tương tự toán người bán hàng - TSP Luận án đề xuất hướng tiếp cận giải toán cách kết hợp kỹ thuật luyện kim giải thuật di truyền Giải pháp thực qua hai giai đoạn: (i) so sánh cặp trình tự để xác định mối quan hệ tìm số trường hợp tốt để làm giải pháp ban đầu ghi nhận số thông tin nhằm làm sở cho trình tìm kiếm giải pháp tốt giai đoạn sau; (ii) sử dụng giải thuật lai kỹ thuật luyện kim giải thuật di truyền nhằm tận dụng đặc tính tốt hai giải thuật để tìm kiếm giải pháp gần tối ưu từ giải pháp ban đầu Một số vấn đề so sánh tìm kiếm đa phân tử sinh học Trang i ABSTRACT This thesis mainly focuses on multi-alignment for solving the problems of DNA and protein Multi-alignment is a base of many complex dada analyzing activities in biology that has the same complex level as TSP problem Thesis present a new hybrid algorithm that combines the strengths of a genetic algorithm and simulated annealing That method is divided into two phases: (i) using heuristics and pairwise alignment to gain some initial solutions; (ii) using genetic and simulated annealing algorithm to improve the quality of solution that find out better results We perform experiments on real data sets and obtains high quality solution within a short time Một số vấn đề so sánh tìm kiếm đa phân tử sinh học Trang ii LỜI CẢM ƠN Trước tiên em xin gởi lời cảm ơn chân thành đến Thầy TS Trần Văn Lăng, không người Thầy tận tuỵ mà "đồng nghiệp" cố gắng vun đắp nâng đỡ hệ sau Em xin cảm ơn Thầy khoa góp cơng vun đắp nên móng tri thức cho hệ học viên chúng em Em xin cảm ơn Thầy TS Dương Tuấn Anh, Thầy TS Cao Hoàng Trụ để lại em dấu ấn khó phai lịng nhiệt huyết phong cách làm việc Con xin ghi lên lời biết ơn với bố mẹ, với khó nhọc mong mỏi kỳ vọng để nên người Xin cảm ơn anh chị lớp CHCNTTK13 với tinh thần thi đua gương cố gắng học tập cổ vũ khích lệ cho em nhiều bước đường khám phá tri thức tự khẳng định để thấy lối tới trở thành nhà khoa học chân Khơng thể thiếu lời cảm ơn tới đồng nghiệp Phân Viện CNTT, thành viên dự án Sinh tin học trao đổi, động viên giành thời gian cho tơi hồn tất luận án Một số vấn đề so sánh tìm kiếm đa phân tử sinh học Trang iii MỤC LỤC TÓM TẮT i ABSTRACT ii LỜI CẢM ƠN iii MỤC LỤC iv DANH MỤC CÁC HÌNH VÀ GIẢI THUẬT vii Chương GIỚI THIỆU 1.1 Đặt vấn đề: 1.2 Bài tốn so sánh trình tự 1.1.1 Ý nghĩa sinh học hiên quan toán : 1.1.2 Cơ sở sinh học mơ hình tốn học: Chương TỔNG QUAN VỀ SO SÁNH TRÌNH TỰ 11 2.1 Phương pháp so sánh trình tự 11 2.1.1 So sánh cặp trình tự: 11 2.1.2 So sánh đa trình tự: 13 2.2 Các nghiên cứu liên quan chính: 14 2.2.1 Giải thuật gióng cột tồn cục Needleman-Wunsch 14 2.2.2 Giải thuật gióng cột cục Smith-Waterman: 15 2.2.3 Giải thuật ClustalW: 15 2.2.4 Giải thuật SAGA: 16 2.2.5 Giải thuật T-Coffee: 18 Chương KỸ THUẬT MÔ PHỎNG LUYỆN KIM 20 3.1 Tổng quan kỹ thuật luyện kim: 20 3.2 Vấn đề liên quan tới kỹ thuật luyện kim: 22 3.2.1 Nhiệt độ ban đầu 22 3.2.2 Nhiệt độ cuối 22 3.2.3 Thời biểu nhiệt độ 23 3.2.4 Số bước lặp 23 3.2.5 Mối quan hệ tương quan: 23 Chương GIẢI THUẬT DI TRUYỀN 25 4.1 Tổng quan giải thuật di truyền: 25 4.2 Các phép toán thuật giải di truyền: 26 4.2.1 Chọn lọc 26 4.2.2 Lai ghép 27 4.2.3 Đột biến 27 4.3 4.3.1 Giải thuật di truyền song song: 28 Các mô hình song song: 28 Một số vấn đề so sánh tìm kiếm đa phân tử sinh học Trang iv 4.3.2 Song song dạng chủ/tớ: 29 4.3.2.1 Quần thể có di trú: 30 4.3.2.2 Các quần thể có chồng lấp, khơng có di trú: 31 4.3.2.3 Giải thuật di truyền song song khối lớn: .32 4.3.2.4 Các quần thể động: 32 4.3.3 Các phương pháp lai: 32 Chương GIẢI THUẬT KẾT HỢP 34 5.1 Tổng quát 34 5.2 Ý tưởng giải thuật 34 5.3 Phương pháp 34 5.3.1 Tìm m ký tự (m-tuple) 36 5.3.2 Gióng cặp trình tự 36 5.3.3 Thông tin phân mảnh 38 5.3.4 Tạo phân loài 39 5.3.5 Tạo quần thể ban đầu 40 5.3.5.1 Cá thể kỳ vọng 40 5.3.5.2 Các cá thể tiềm 41 5.3.6 Các phép toán thực cho giải thuật lai 42 5.3.6.1 Hàm thích nghi chọn lọc 44 5.3.6.2 Lai ghép 44 5.3.6.2.1 Lai ghép điểm: 45 5.3.6.2.2 Lai ghép đồng nhất: 45 5.3.6.2.3 Gom cột so trùng: .45 5.3.6.2.4 Lai ghép đoạn tốt nhất: .46 5.3.6.3 5.4 Chương 6.1 Đột biến 46 5.3.6.3.1 Dịch khối ký tự: 46 5.3.6.3.2 Gom cột ký tự trùng: 47 5.3.6.3.3 Gom khoảng trắng: 47 5.3.6.3.4 Dịch khối: 47 5.3.6.3.5 Chia khối: 47 5.3.6.3.6 Chèn khối: 48 5.3.6.3.7 Loại bỏ khối: .48 Giải thuật song song cho toán 48 HIỆN THỰC CHƯƠNG TRÌNH 54 Các vấn đề thực 54 6.1.1 Cấu trúc thông tin nhiễm sắc thể: 54 6.1.2 Cấu trúc liệu phân mảnh: 54 6.1.3 Hàm Delta đánh giá thay đổi điểm tương đồng: 55 6.2 Đánh giá kết 55 6.2.1 Phương pháp đánh giá: 55 6.2.2 Đánh giá kết thực hiện: 56 Một số vấn đề so sánh tìm kiếm đa phân tử sinh học Trang v 6.2.3 Nhận xét: 58 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 59 7.1 Các kết luận từ luận án 59 7.2 Hướng phát triển 59 Phụ lục A: SINH TIN HỌC 61 A.1 Quá trình phát triển 61 A.2 Các hệ sở liệu sinh học lớn giới 63 GenBank 63 EMBL 64 DDBJ 65 PDB 66 A.3 Phát triển sinh tin học Việt Nam 67 Phụ lục B: MINH HỌA CHƯƠNG TRÌNH 70 B.1 Cấu trúc chương trình 70 B.2 Cấu trúc dạng tập tin liệu 70 B.2.1 Dạng FastA: 70 B.2.2 Dạng MSF ALN: 71 B.3 Môi trường thực song song LAM-MPI 72 B.3.1 Các hàm, phương thức Lam-MPI: 72 B.3.2 Thiết lập môi trường song song cho Lam-MPI thực thi: 73 B.3.3 Dịch thực thi chương trình: 74 B.4 Chương trình ClustalW 75 TÀI LIỆU THAM KHẢO 76 BẢNG CÁC THUẬT NGỮ VÀ KÝ HIỆU VIẾT TẮT 78 Một số vấn đề so sánh tìm kiếm đa phân tử sinh học Trang vi DANH MỤC CÁC HÌNH VÀ GIẢI THUẬT Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình 10 Hình 11 Hình 12 Hình 13 Hình 14 Hình 15 Hình 16 Hình 17 Hình 18 Hình 19 Hình 20 Hình 21 Hình 22 Hình 23 Hình 24 Hình 25 Hình 26 Hình 27 Hình 28 Hình 29 Hình 30 Hình 31 Hình 32 Hình 33 Hình 34 Hình 35 Hình 36 Hình 37 Hình 38 Hình 39 Hình 40 Hình 41 Hình 42 Hình 43 Hình 44 Hình 45 Hình 46 Hình 47 Hình 48 Hình 49 Hình 50 Hình 51 Hình 52 Hình 53 Hình 54 Hình 55 Hình 56 Hình 57 Hình dạng phân tử DNA Dạng chuỗi trình tự DNA Bảng mã hoá protein từ ba ký tự DNA Tên đầy đủ tên viết tắt tương ứng 20 Amino Acid Các chuỗi trình tự protein So sánh tương đồng cặp trình tự So sánh tương đồng đa trình tự Các trường hợp biến đổi chuỗi trình tự sinh học Ma trận khoảng cách PAM 250 Ma trận BLOSUM 50 Cách hình theo kiểu điểm dạng Dotplot 11 Sơ đồ giải thuật ClustalW 16 Sơ đồ phép lai ghép SAGA 17 Chèn khỏang trắng “-“ vào nhóm trình tư SAGA 17 Chuyển xoá khoảng trắng SAGA 18 Mơ hình giải thuật T-Coffee 19 Giải thuật kỹ thuật luyện kim 21 Sơ đồ thực giải thuật di truyền 26 Vòng quay rolette cho việc chọn lọc 26 Sơ đồ lai ghép giải thuật di truyền 27 Sơ đồ minh họa phép đột biến 28 Phân loại giải thuật di truyền song song 29 Song song dạng chủ tớ 30 Mơ hình giải thuật di truyền song song kết thô 31 Hình thức kết hợp cho giải thuật di truyền song song 33 Sơ đồ tổng quan giải thuật kết hợp GASA 35 Giải thuật lập bảng băm m ký tự 36 Sơ đồ mô tả bảng băm cho m ký tự 36 Đường chéo gióng cột 37 Giải thuật xác định biên giới hạn gióng cột 37 Gióng cột giới hạn biên 38 Sơ đồ phân mảnh trình tự 39 Sơ đồ gom nhóm giải thuật UPGMA 40 Giải thuật gióng cột gom nhóm 41 Sơ đồ gióng cột hai nhóm 41 Gióng cột dựa trình tự sở 42 Giải thuật lai di truyền luyện kim 44 Lai ghép điểm 45 Lai ghép đồng 45 Gom cột so trùng 46 Lai ghép đoạn tốt 46 Đột biến nhờ dịch khối ký tự 46 Gom cột trùng ký tự 47 Gom khoảng trắng 47 Dịch khối khoảng trắng 47 Chia khối khoảng trắng 47 Chèn khối trắng 48 Loại bỏ khối khoảng trắng 48 Song song giải thuật kết hợp 49 Sơ đồ tổng quát cho giải thuật kết hợp song song 50 Cấu trúc lưu nhiễm sắc thể 54 Cấu trúc phân mảnh 55 Hàm Delta tính mức độ thay đổi giá trị tương đồng 55 Tương quan tiến hóa tự nhiên mơ hình protein 62 Trang chủ Genbank 64 Trang chủ EMBL 65 Trang chủ DDBJ 66 Một số vấn đề so sánh tìm kiếm đa phân tử sinh học Trang vii Hình 58 Hình 59 Hình 60 Trang chủ PDB 67 Chương trình HiBio-HCMC 68 Trang web sinh tin học Phân viện CNTT 69 Một số vấn đề so sánh tìm kiếm đa phân tử sinh học Trang viii Phụ lục A: SINH TIN HỌC Hình 55.Trang chủ Genbank Dữ liệu Genbank truy nhập thông qua hệ thống Entrez NCBI Entrez lưu trữ liệu trình tự DNA, trình tự protein, thơng tin sinh học liên quan đến phân loại, gen, đồ gen, cấu trúc domain Dữ liệu chứa GenBank tăng lên nhanh, gấp đôi sau 10 tháng Theo số liệu thống kê vào tháng 06 năm 2004, GenBank chứa khoảng 40.325.321.348 cặp base nucleotide với 35.532.003 trình tự EMBL EMBL (The European Molecular Biology Laboratory) thành lập năm 1974 với tài trợ giúp đỡ 17 thành viên thuộc nước Tây Âu Israel Cơ sở vật chất EMBL bao gồm: Phòng thí nghiệm Heidelberg (Đức), trạm tiền tiêu Hamburg (Đức), Grenoble (Pháp) Hinxton (Anh), với chương trình nghiên cứu đặt Monterotondo (Ý) EMBL viện nghiên cứu hàng đầu thuộc Châu Âu toàn giới Sinh học phân tử Hơn 1200 nhà khoa học từ 60 quốc gia làm việc EMBL; có 3000 đơn vị trực thuộc thành lập tạo thành mạng lưới kết nối toàn Châu Âu giới EMBL trung tâm quốc tế tiếng giới đào tạo nâng cao quyền cấp Tiến sĩ từ năm 1997 Một số vấn đề so sánh tìm kiếm đa phân tử sinh học Trang 64 Phụ lục A: SINH TIN HỌC Cương lĩnh hành động EMBL gồm phần: - Tiến hành nghiên cứu Sinh học phân tử - Cung cấp dịch vụ cần thiết cho nhà khoa học thuộc nước thành viên - Đào tạo nâng cao cho đội ngũ nhân viên, sinh viên thực tập viên - Phát triển thiết bị tối tân cho nghiên cứu sinh học Bên cạnh đó, EMBL cịn tiến hành việc chuyển giao khoa học, giáo dục, xã hội cơng nghệ tồn giới Theo số liệu thống kê tháng 02 năm 2004, tổng số nucleotide lưu trữ EMBL lên đến 37.984.728.579 base có 32.631.252 trình tự Hình 56.Trang chủ EMBL DDBJ DDBJ (DNA Data Bank of Japan) bắt đầu hoạt động lưu trữ ngân hàng liệu DNA từ năm 1986 Viện di truyền quốc gia NIG (the National Institute of Genetics) với đồng ý Bộ Giáo dục, Khoa học, Văn hoá Thể thao Nhật Bản Từ thành lập, DDBJ đóng chức sở liệu DNA quốc tế Cùng với EMBL, GenBank, DDBJ tiến hành trao đổi lưu trữ thông tin liệu qua Internet; đồng thời, đứng tổ chức định kỳ hàng năm hội nghị tư vấn ngân Một số vấn đề so sánh tìm kiếm đa phân tử sinh học Trang 65 Phụ lục A: SINH TIN HỌC hàng liệu DNA quốc tế (the International DNA Data Banks Advisory Meeting) hội nghị hợp tác ngân hàng liệu DNA quốc tế (the International DNA Data Banks Collaborative Meeting) Năm 2001, DDBJ tái tổ chức đổi thành Trung tâm Sinh học thông tin Ngân hàng liệu DNA Nhật Bản CIB – DDBJ (the Center for Information Biology and DNA Data Bank of Japan) Trung tâm giữ vai trò quan trọng việc tiến hành nghiên cứu lĩnh vực Sinh học thông tin điều hành hoạt động DDBJ toàn giới Hình 57.Trang chủ DDBJ PDB PDB sở liệu sinh học phân tử giới thành lập trước sở liệu DNA Kể từ cấu trúc protein cơng bố năm 1950 đến năm 1970 giới khơng có biến động đáng kể số lượng cấu trúc protein Năm 1971, PDB thành lập Brookhaven National Laboratory Nhiệm vụ PDB lưu trữ liệu cấu trúc protein máy điện toán Một định dạng liệu chuẩn PDB phát triển dạng tập tin pdb Những năm 1971 đến 1980, PDB phát triển Từ 15 cấu trúc protein năm 1973, tăng lên 69 cấu trúc năm 1976 Vào tháng giêng năm 1994, tổng số cấu trúc PDB 2143 Tại thời điểm này, số lên đến 27321 cấu trúc (21/09/2004) Một số vấn đề so sánh tìm kiếm đa phân tử sinh học Trang 66 Phụ lục A: SINH TIN HỌC Hình 58.Trang chủ PDB A.3 Phát triển sinh tin học Việt Nam Hiện nước có số nhóm nghiên cứu liên quan tới sinh tin học chẳng hạn nhóm nghiên cứu thuộc Viện sinh học Việt Nam Hà Nội, nhóm nghiên cứu thuộc khoa sinh trường Đại học Khoa học tự nhiên nhóm nghiên cứu Phân viện công nghệ thông tin thành phố Hồ Chí Minh (PVCNTT) Dự án nghiên cứu PVCNTT có phối hợp gữa thành viên nghành sinh học, toán học tin học qua hai năm nghiên cứu có kết đáng kể đóng góp cho nghành sinh tin học hình thành Việt Nam Hiện sản phẩm phần mềm Sinh Tin học nhiều nước tiên tiến giới đầu tư phát triển mạnh, chúng đóng vai trị lớn cơng tác nghiên cứu Sinh học phân tử Phần mềm HiBio nổ lực ban đầu Phân viện nhằm đóng góp vào phát triển ngành Sinh Tin học nước Phiên HiBio số hạn chế kỹ thuật, cung cấp nhiều công cụ trợ giúp đắc lực cho cho nhà nghiên cứu Sinh học HiBio gồm chức chủ yếu sau đây: - Chức chuyển đổi DNA sang RNA Protein - Thiết kế đoạn gen mồi dùng phản ứng khuech đại trình tự (PCR) - So sánh đối xứng trình tự DNA, protein phục vụ cho việc nghiên cứu phả hệ, chẩn đoán bệnh, … Một số vấn đề so sánh tìm kiếm đa phân tử sinh học Trang 67 Phụ lục A: SINH TIN HỌC - Tìm kiếm tương đồng trình tự DNA protein sở liệu mục tiêu - Tra cứu ngân hàng liệu gen (trích từ sở liệu NCBI PDB) để tìm đoạn gen phù hợp với đoạn gen mẫu thông tin liên quan khác, phục vụ cho việc chẩn đốn gen, xác định lồi sinh vật, … - Thiết kế vector dùng cac kỹ thuật di truyền tạo dòng, nhân gen, lưu trữ gen, … - Chương trình ClusterX (đă Việt hóa) cung cấp chức so sánh đa trình tự Chức dùng để tạo sở liệu đầu vào cho chức tìm quan hệ sinh loài - Xây dựng sinh loài từ tập trình tự nhiều lồi sinh vật Hình sau giao diện chương trình HiBio: Hình 59.Chương trình HiBio-HCMC Không vậy, hệ thống sở liệu protein DNA thiết lập với nhiều tính hỗ trợ sử dụng cho người sinh học tìm kiếm dạng thơng tin, tìm trình tự tương đồng, so trùng cặp trình tự, dự đóan cấu trúc, thiết kế plasmid: Một số vấn đề so sánh tìm kiếm đa phân tử sinh học Trang 68 Phụ lục A: SINH TIN HỌC Hình 60.Trang web sinh tin học Phân viện CNTT Một số vấn đề so sánh tìm kiếm đa phân tử sinh học Trang 69 Phụ lục B: MINH HỌA CHƯƠNG TRÌNH Phụ lục B: MINH HỌA CHƯƠNG TRÌNH B.1 Cấu trúc chương trình Chương trình thực có lớp tương tập tin tương ứng sau: Tên lớp, tập tin Chức GaSaMSA Phần thực chương trình HashSeq Thực tạo lập bảng băm tìm giới hạn biên PSAlignment Thực gióng cột cặp, khối trình tự PhyloTree Thực tạo dựng phân lồi GASA Phần khung để thực giải thuật kết hợp TaskMap Thực phân bố công việc ScoreEvalution Phần thực đánh giá điểm tương đồng ReadWriteFile thực đọc lưu trình tự kết gióng cột dich.sh Tập tin thực biên dịch chương trình B.2 Cấu trúc dạng tập tin liệu B.2.1 Dạng FastA: Dạng Fasta đạng đơn giản để chứa trình tự số thơng tin liên quan đến trình tự Trong tập tin Fasta có nhiều trình tự, trình tự có định dạng sau: >gi|33469499|gb|AAQ19679.1| chitosanase [Bacillus cereus] MNGKRNIFTCISIVGIGLASFSNSSFAASVTDNSIQNSIPVVNQQVAAAKEMKPFPQQVNYAGVIKPNHV TQESLNASVRNYYDNWKKKYLKNDLSSLPGGYYVKGEITGDADGFKPLGTSEGQGYGMIITVLMAGYDSN AQKIYDGLFKTARTFKSSQNPNLMGWVVADSKKAQGHFDSATDGDLDIAYSLLLAHKQWGSNGAVNYLKE AQAMIPKGIKASNVTNNSRLNLGDWDSKSSLDTRPSDWMMSHLRAFYEFTGDKTWLTVINNLYDVYTQFS NKYSPNTGLISDFVVKNPPQPAPKDFLNESEYTNAYYYNASRVPLRIVMDYAMYGEKRSKVISDKVSSWI QNKTNGNPSKIVDGYQLNGSNIGSYPTAVFVSPFIAASLTNSNNQKWVNSGWDWMKNKRESYFSDSYNLL Hình 1.Dạng tập tin FastA Một số vấn đề so sánh tìm kiếm đa phân tử sinh học Trang 70 Phụ lục B: MINH HỌA CHƯƠNG TRÌNH Với dịng thơng tin trình tự bắt đầu dấu “>” với nội dung thường có mã định danh đoạn trình tự tên đọan, tên lồi sinh vật có đọan trình tự Các dịng chuỗi ký tự trình tự B.2.2 Dạng MSF ALN: Đây hai dạng tập tin chứa kết gióng cột trình tự Dạng MSF thường có chứa thông tin thống kê phần đầu, phần ngăn cách dịng có hai dấu “/” để xác định vùng thông tin với vùng chứa kết gióng cột Cịn dạng ALN dạng chương trình ClustalW chạy xuất kết quả, chứa kết gióng cột Trong phần chứa kết gióng cột liệu phân thành cụm chuỗi dài, cụm thường chứa 50,60 cột gióng tương ứng dịng tên trình tự tương ứng: PileUp MSF: Name: Name: Name: Name: 82 Type: P hmgl_trybr hmgt_mouse hmgb_chite hmgl_wheat oo oo oo oo Check: Len: Len: Len: Len: 82 82 82 82 4661 Check: Check: Check: Check: 9232 3026 4534 7869 Weight: Weight: Weight: Weight: 10.0 10.0 10.0 10.0 // hmgl_trybr hmgt_mouse hmgb_chite hmgl_wheat KKDSNAPKR KPKR ADKPKR DPNKPKR AMTSFMFFSS PRSAYNIYVS PLSAYMLWLN APSAFFVFMG DFRSKH ESFQEAKDDS SARESIKREN EFREEFKQKN SDLSI.VEMS AQGKL PDFKV.TEVA PKNKSVAAVG hmgl_trybr hmgt_mouse hmgb_chite hmgl_wheat GPEERKVYEE SPEEKQAYIQ KDKSEWEA SESEKAPYVA MAEKDKERYK LAKDDRIRYD KAATAKQNYI KANKLKGEYN REM NEMKSWEEQM RALQEYERNG KAIAAYNKGE AE G SA KAAGAAWKEL KLVNEAWKNL KKGGELWRGL KAAGERWKSL Hình 2.Dạng tập tin MSF CLUSTAL W (1.83) multiple sequence alignment hmgb_chite hmgl_wheat hmgl_trybr hmgt_mouse -ADKPKRPLSAYMLWLNSARESIKRENPDFK-VTEVAKKGGELWRGLKD KSEWEAK DPNKPKRAPSAFFVFMGEFREEFKQKNPKNKSVAAVGKAAGERWKSLSESEKAPYVAK KKDSNAPKRAMTSF-MFFSSD -FRSKHSDLS-IVEMSKAAGAAWKELGPEERKVYEEM -KPKRPRSAYNIYVSES -FQEAKDDSA-QGKL-KLVNEAWKNLSPEEKQAYIQL hmgb_chite AATAKQNYIRALQEYERNGG- Một số vấn đề so sánh tìm kiếm đa phân tử sinh học Trang 71 Phụ lục B: MINH HỌA CHƯƠNG TRÌNH hmgl_wheat hmgl_trybr hmgt_mouse ANKLKGEYNKAIAAYNKGESA AEKDKERYKREM AKDDRIRYDNEMKSWEEQMAE Hình 3.Dạng tập tin ALN B.3 Môi trường thực song song LAM-MPI B.3.1 Các hàm, phương thức Lam-MPI: Khởi tạo MPI: MPI_Init(int argc, char *** argv) hay MPI::Init(int *argc, char *** argv) Chức khởi tạo gửi xuống hế thống MPI thông số ban đầu với danh sách thơng số Chức phân tích thông số dành cho MPI trả thơng số dành cho chương trình Xác định số tiến trình: MPI_Comm_size(MPI_Comm comm, int *size) hay MPI::COMM_WORLD.Get_size() Xác định số rank tiến trình thực thi: MPI_Comm_rank(MPI_Comm comm, int *rank) hay MPI::COMM_WORLD.Get_rank() số cho tiến trình MPI có trị từ tới N-1 việc thực thi có N tiến trình song song Truyền Broadcast liệu: MPI_Bcast(void *buf, int count, MPI_Datatype dtype, int root, MPI_Comm comm) hay MPI::COMM_WORLD.Bcast(void *buf, int count, MPI_Datatype dtype, int root) Một số vấn đề so sánh tìm kiếm đa phân tử sinh học Trang 72 Phụ lục B: MINH HỌA CHƯƠNG TRÌNH Chức truyền liệu từ tiến trình tới tồn tiến trình cịn lại với liệu trỏ tới buf có kiểu dtype có count phần tử Truyền, nhận liệu thông thường: MPI_Send(void *buf, int count, MPI_Datatype dtype, int dest, int tag, MPI_Comm comm) MPI_Recv(void *buf, int count, MPI_Datatype dtype, int source, int tag, MPI_Comm comm, MPI_Status *status) hay MPI ::COMM_WORLD.Send(void *buf, int count, MPI_Datatype dtype, int dest, int tag) MPI ::COMM_WORLD.Recv(void *buf, int count, MPI_Datatype dtype, int source, int tag) Chức hàm, phương thức nhằm truyền nhận liệu đến hay từ tiến trình (dest/source) theo “kênh thơng tin” tag người dùng quy ước Xác định thời gian: MPI_Wtime() hay MPI::Wtime() Xác định thời gian thời điểm gọi hàm chức Kết thúc tiến trình MPI: MPI_Finalize() hay MPI::Finalize() B.3.2 Thiết lập môi trường song song cho Lam-MPI thực thi: Để thực thi song song nhiều máy cần thiết lập máy cho phép điều khiển từ xa (qua remote shell) Tập tin chứa thông tin cho việc tập tin “.rhosts” cần chứa thông tin sau: Một số vấn đề so sánh tìm kiếm đa phân tử sinh học Trang 73 Phụ lục B: MINH HỌA CHƯƠNG TRÌNH Khi cần thực thi máy máy ta cần thiết lập tập tin (tên bất kỳ) gọi lamhosts, có thông tin sau: Khi khởi động MPI cho việc thực thi song song cần có thơng số trỏ tới tập tin để hệ thống khởi động máy này: lamboot –v lamhosts B.3.3 Dịch thực thi chương trình: Đối với việc lập trình dùng thư viện MPI dạng C++ cần cài đặt thư viện C++ Biên dịch chương trình dùng MPI thực qua lệnh sau: hcc -lmpi –o Hay hcp -lmpi –o Thực thi Lam-MPI chương trình qua cách thơng thường: Ban đầu cần khởi tạo MPI qua lệnh lamboot –v Sau thực lệnh để thực thi chương trình sau: mpirun –c Với chương trình GaSamsa ta thực bước sau: sh dich.sh Một số vấn đề so sánh tìm kiếm đa phân tử sinh học Trang 74 Phụ lục B: MINH HỌA CHƯƠNG TRÌNH lamboot –v lamhosts mpirun –c gasamsa B.4 Chương trình ClustalW Chương trình ClustalW phiên 1.83 có tập tin sau: clustalw1.83.zip Trên Window cần giải nén tập tin chạy chương trình clustalw.exe Còn linux, sau giải nén tập tin, ta vào thư mục chứa tập tin đánh lệnh “make” để biên dịch, cuối ta tập tin thực thi clustalw Với thông số tốt mặc định clustalw, ta cần cung cấp trình tự đầu vào qua tập tin fasta cho chương trình cách gọi lệnh sau: clustalw Kết xuất có tập tin với tên có phần mở rộng “aln” chứa kết gióng cộ trình tự Một số vấn đề so sánh tìm kiếm đa phân tử sinh học Trang 75 TÀI LIỆU THAM KHẢO TÀI LIỆU THAM KHẢO [1] Altschul, S.F., Gish, W., Miller, W., Myers, E.W., and Lipman, D.J (1990) Basic local alignment search tool J Mol Bio.,215:403-410 [2] Altschul, S.F., Madden, T.L., Schaffer, A.A., Zhang, J., Zhang, Z., Miller, W., and Lipman, D.J (1997) Gapped BLAST and PSI BLAST: A new generation of protein database search Nucleic Acids Res 25: 3389–3402 [3] Baeza-Yates, R.A and Perleberg, C (1992) Fast and practical string matching Proc 3rd Symp on Cominatorial Pattern Matching Springer, LNCS 644:185-192 [4] Carrillo, H and Lipman, D (1988) The multiple sequence alignment problems in biology SIAM Journal on Applied Mathematics, 48:1073-1082 [5] Cédric Notredame (2002) Recent progresses in multiple sequence alignment: a survey Ashley Publications Ltd [6] Chang, W.I and Lawler, E.L (1994) Sublinear expected time approximate string matching and biological applications Algorithmica, 12:327-344 [7] Chao, K.M., Hardison, R.C., and Miller, W (1993) Locating well-conserved regions within a pairwise alignment CABIOS, 4:387-396 [8] Chao, K.M (1994).Computing all suboptimal alignments in linear space In M Crochemore and D Gusfield, editors, Proc.Combinatorial Pattern Matching 94 (lecture Notes in Computer Science, Vol 807), 1-14, Berlin, Springer-Verlag [9] Feng, D and Doolittle, R (1987) Progressive sequence alignment as a prerequisite to correct polyogenetic trees J of Mol Evol 25:351-360 [10] Hồ Huỳnh Thuỳ Dương (2001), Sinh học phân tử: khái niệm-phương pháp-ứng dụng NXB Giáo Dục [11] Hoàng Kiếm, Lê hoàng Thái (2000).Thuật giải di truyền: cách giải tốn tự nhiên máy tính NXB Giáo Dục [12] Hogeweg P, Hesper B (1984) The alignment of sets of sequences and the construction of phylogenetic trees An integrated method J Mol Evol 20:175-186 [13] Hirschberg, D S (1997) Algorithm for the longest common subsequence problem J ACM 24:664-675 [14] Kirkpatrick, S., Gelatt, C.D., and M.P Vecchi (1983) Optimization by Simulated Annealing Science, 220(4598): 671-678 [15] Lâm Kim Hoà, Xếp lịch thi học kỳ cách kết hợp lập trình giàng buộc giải thuật mơ luyện kim (2003) Luận Văn Thạc Sĩ Đại Học Bách Khoa Tp.Hồ Chí Minh [16] Naor, D., and Brutlag, D (1993) On suboptimal alignments of biological sequences In Fourth Annual Symposium, CPM93, Padova, Italy Proceedings Lecture Notes in Computer Science, Vol 68:4179-4196 [17] Needleman, S.B., and Wunsch, C.D (1970) A general method applicable to the search for similarities in the amino acid sequence of two proteins J Mol Biol 48, 43–453 Một số vấn đề so sánh tìm kiếm đa phân tử sinh học Trang 76 TÀI LIỆU THAM KHẢO [18] Nguyễn Ngọc Tú, Trần Văn Lăng (2004) GASA: Giải thuật lai cho tốn gióng cột đa trình tự Hội Thảo Quốc Gia CNTT lần thứ Đà Nẵng [19] Nguyễn Ngọc Tú, Ngô Phước Hậu, Đào Văn Tuyết (2004) Mạng Neural nhân tạo áp dụng vào việc dự đoán cấu trúc protein bậc hai Hội Thảo Quốc Gia CNTT lần Đà Nẵng [20] Notredame C, Higgins DG (1996) SAGA: Sequence Alignment by Genetic Algorithm Nucleic Acids Res 24:1515-1524 [21] Notredame C, Higgins DG, Heringa J (2000) T-Coffee: Anovel algorithm for multiple sequence alignment J.Mol Biol 302,205-217 [22] Pearson, W.R., and Lipman, D.L (1988) Improved tools for biological sequence comparison Proc Natl Acad Sci.USA 85, 2444–2448 [23] R Durbin, S R Eddy, A Krogh, G Mitchison (2001) Biological Sequence Analysis: probabilistic models of proteins and nucleic acids Cambridge University press [24] Shen, S Yang, J Yao, A, and Hwang, P (2002) Super Pairwise Alignment J Comp Biol 9:477-486 [25] Smith, T.F., Waterman, M.S., and Fitch, W.M (1981) Comparative biosequence metrics J Mol Evol 18, 38–46 [26] Stefan Leopold (2004) An Alignment Graph based Evolutionary Algorithm for the Multiple Sequence Alignment Problem Master Thesis Vienna University of Technology [27] Stoye, J (1998) Multiple Sequence Alignment with the Divide-and-Conquer Method, Gene 211(2): GC45-GC56 [28] Thompson, J D., Higgins, D G and Gibson, T J (1994) CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice Nucleic Acids Res., 22: 4673-4680 [29] Yong Yang (2001) Comparative Analysis of Methods for Multiple Sequence Alignment Stanford University [30] Yongqing Zhang (2002) Sequence Alignment Methods University of Minnesota, Twin Cities, October 2002 [31] Wang L, Jiang T (1994) On the complexity of multiple sequence alignment J Comput Biol 1(4): 337-348 [32] Wu, S and Manber, U (1992) Fast text searching allowing errors Comm ACM 35:83-91 [33] Zbigniew Michalewicz (1992) Genetic Algorithm + Data Structure = Evolution Programs Springer [34] Trần Văn Lăng, et al (2004) Báo cáo nghiệm thu đề tài nghiên cứu để xây dựng công cụ tin học xử lý thông tin gene protein Phân Viện CNTT Tp.HCM Một số vấn đề so sánh tìm kiếm đa phân tử sinh học Trang 77 BẢNG CÁC THUẬT NGỮ VÀ KÝ HIỆU VIẾT TẮT Thuật ngữ tiếng anh NP-hard problem Sequence alignment Pairwise Sequence Alignment Aligned sequence Multiple Sequence Alignment Point accepted mutation matrix Block Substitution Matrix Symbol Score Weighted Symbol Score Linear Gap Penalty Score Affine Gap Penalty Score Phylogenetic tree Homology Orthologues Ký hiệu viết tắt PSA MSA PAM BloSum SS WSS LGPS AGPS Paralogues Analogues Insertion/deletion Motif INDEL Thuật ngữ tiếng Việt Bài tốn khó So sánh tương đồng trình tự So sánh cặp trình tự, Gióng cột cặp trình tự Trình tự gióng cột Gióng cột đa trình tự, So sánh tương đồng đa trình tự Ma trận điểm đột biến chấp nhận Ma trận khối thay Tính điểm ký hiệu Tính điểm ký hiệu có trọng số Điểm phạt qng cách tuyến tính Điểm phạt quãng cách phi tuyến Cây phân loài Sự tương đồng Tương đồng chức phần khác Tương đồng vùng chức biể u khác Các protein khơng tương đồng có mơ hình cấu trúc tương tự điểm chức tương tự Chèn xố ký tự trình tự Chuỗi ký tự lặp lại hay bảo tồn hệ gene Một số vấn đề so sánh tìm kiếm đa phân tử sinh học Trang 78 ... (thường vài trăm đến vài ngàn ký tự) Một số vấn đề so sánh tìm kiếm đa phân tử sinh học Trang 10 Chương 2: TỔNG QUAN VỀ SO SÁNH TRÌNH TỰ Chương TỔNG QUAN VỀ SO SÁNH TRÌNH TỰ 2.1 Phương pháp so sánh. .. sánh tìm kiếm đa phân tử sinh học Trang 32 Chương 4: GIẢI THUẬT DI TRUYỀN Hình 25.Hình thức kết hợp cho giải thuật di truyền song song Một số vấn đề so sánh tìm kiếm đa phân tử sinh học Trang... 4.3.1 Giải thuật di truyền song song: 28 Các mơ hình song song: 28 Một số vấn đề so sánh tìm kiếm đa phân tử sinh học Trang iv 4.3.2 Song song dạng chủ/tớ:

Ngày đăng: 16/04/2021, 04:19

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan