Thuật toán ACO và ứng dụng vào tối ưu hóa

64 748 3
Thuật toán ACO và ứng dụng vào tối ưu hóa

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tin sinh học là một lĩnh vực khoa học liên ngành, trong đó sinh học phân tử vàtin học đóng vai trò chủ đạo. Sinh học làm môi trường dữ liệu cơ sở, trên đó xây dựngvà hoàn thiện các chương trình xử lý dữ liệu ứng dụng làm công cụ hỗ trợ hiệu quảcho việc nghiên cứu, thu nhận và sản xuất ra các sản phẩm sinh học mong muốn khácnhau phục vụ đời sống con người…Về cơ bản, tin sinh học tập trung vào nghiên cứuvà áp dụng các phương pháp cũng như các kĩ thuật trong tin học để giải quyết các bàitoán trong sinh học phân tử. Tin sinh học có tính ứng dụng cao trong cuộc sống, đặcbiệt trong lĩnh vực nông nghiệp và lĩnh vực ydược.

1 LỜI CẢM ƠN Trước hết, xin gửi lời biết ơn sâu sắc đến hai người thầy TS Đỗ Đức Đông thầy PGS TS Hoàng Xuân Huấn, hai thầy dành nhiều thời gian tâm huyết hướng dẫn nghiên cứu giúp hoàn thành tốt luận văn tốt nghiệp Thầy mở cho vấn đề khoa học lý thú, định hướng nghiên cứu lĩnh vực thiết thực vô bổ ích, đồng thời tạo điều kiện thuận lợi tốt cho học tập nghiên cứu Tôi xin bày tỏ lòng biết ơn tới thầy cô trường Đại học Công nghệ tham gia giảng dạy chia sẻ kinh nghiệm quý báu cho tập thể cá nhân nói riêng Tôi xin cảm ơn tới thầy anh chị thường xuyên giúp đỡ, trao đổi, góp ý vấn đề khoa học liên quan tới luận văn Trên tất cả, xin gửi lời biết ơn tới bố mẹ, gia đình người thân Bố mẹ phải làm việc vất vả tạo hội cho chọn đường Một lần nữa, xin chân thành cảm ơn! Hà Nội, tháng 10 năm 2013 Học viên Nguyễn Thị Chi LỜI CAM ĐOAN Những kiến thức trình bày luận văn tìm hiểu, nghiên cứu trình bày lại theo cách hiểu Trong trình làm luận văn có tham khảo tài liệu có liên quan ghi rõ nguồn tài liệu tham khảo Tôi xin cam đoan công trình nghiên cứu không chép Hà Nội, tháng 10 năm 2013 Học viên Nguyễn Thị Chi MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC KÍ HIỆU, TỪ VIẾT TẮT DANH MỤC CÁC BẢNG BIỂU DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU CHƯƠNG I 11 GIỚI THIỆU VỀ THUẬT TOÁN ANT COLONY OPTIMIZATION (ACO) 11 1.1 Lịch sử đời thuật toán ACO 11 1.2 Thuật toán ACO 13 1.2.1 Đồ thị cấu trúc 14 1.2.2 Trình bày thuật toán ACO 15 1.2.3 Quy tắc cập nhật vết mùi 16 1.2.3.1 Thuật toán AS 16 1.2.3.2 Thuật toán ACS 17 1.2.3.3 Thuật toán Max-Min 17 1.2.3.4 Thuật toán Max- Min trơn 18 1.3 Ứng dụng thuật toán ACO việc giải toán Người chào hàng Sale Man 18 1.3.1 Bài toán người chào hàng thực tế 18 1.3.2 Phát biểu toán người đưa hàng mô hình hóa đồ thị 18 1.3.3 Áp dụng thuật toán ACO giải toán người chào hàng 19 CHƯƠNG II 22 TƯƠNG TÁC TRỘI QUY VỀ BÀI TOÁN TƯƠNG TÁC GEN 22 2.1 Tương tác gen hiệu ứng gây 22 2.1.1 Khái niệm tương tác gen 22 2.1.2 Hệ tương tác tác gen hướng nghiên cứu 24 2.1.2.1 Hệ tương tác gen 24 2.1.2.2 Hướng nghiên cứu 25 2.2 Bài toán phát tương tác gen 26 2.2.1 Mục đích cần phát tương tác gen 26 2.2.2 Khái quát trình nghiên cứu tìm tương tác gen 26 2.2.3 Phát biểu toán tương tác gen 27 2.2.3.1 Phát biểu toán 27 2.2.3.2 Mô hình hóa toán 28 CHƯƠNG III 29 GIẢI BÀI TOÁN TƯƠNG TÁC GEN BẰNG PHƯƠNG PHÁP ACO 29 3.1 Các phương pháp tiếp cận, ưu nhược điểm 29 3.1.1 Thuật toán BEAM 29 3.1.2 Thuật toán SNPHarvester 29 3.1.3 Ưu, nhược điểm 30 3.1.3.1 Ưu điểm 30 3.1.3.2 Nhược điểm 30 3.2 Tương quan toán tương tác gen với toán người chào hàng 31 3.3 Thuật toán ACO để giải toán tương tác gen 31 3.3.1 Trình bày thuật toán 31 3.3.1.1 Thuật toán Generic ACO 31 3.3.1.2 Thuật toán AntEpiSeeker 34 3.3.2 Ý nghĩa tham số 37 3.3.3 Xác suất Chi-square trị số 38 3.3.3.1 Xác suất Chi-square 38 3.3.3.2 Trị số 40 3.3.3.3 Vận dụng Chi-square toán 41 CHƯƠNG IV 44 KẾT QUẢ THỰC NGHIỆM 44 4.1 Kết thực nghiệm 44 4.1.1 Các thông số cài đặt 44 4.1.2 Các kết thực nghiệm báo 45 4.1.3 Xử lý song song quy tắc cập nhật mùi Max-Min trơn (SMMAS) 50 4.1.4 Phần mềm sử dụng 60 4.2 Ý nghĩa kết thực nghiệm 60 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 62 TÀI LIỆU THAM KHẢO 63 DANH MỤC CÁC KÍ HIỆU, TỪ VIẾT TẮT ACO Ant colony optimization ACS Ant colony system ADN Acid deoxyribo nucleic AMD Age related macular ANTS Approximate nondeterministic tree search AS Ant system ARN Axit ribonucleic BEAM Bayesian epistasis association mapping GWA Genome wide apporoach HGP Human genome project MCMC Markov chain monte carlob MMAS Max ant system SMMAS Smoothed max ant system 3-LAS Three level ant system DANH MỤC CÁC BẢNG BIỂU Bảng 1.1 Một số thuật toán ACO 19 Bảng 2.1 Minh họa đầu vào toán 28 Bảng 2.2 Minh họa đầu toán 28 Bảng 3.1 Minh họa tương quan đồ thị 31 Bảng 3.2 Tuổi kết học tập sinh viên 39 Bảng 3.3 Kết trị số ví dụ 40 Bảng 3.4 Ví dụ đầu vào toán với vị trí 41 Bảng 3.5 Các giá trị T với mẫu cá thể 41 Bảng 3.6 Kết trị số ví dụ 43 Bảng 4.1 So sánh tỉ lệ giảm thiểu dương tính giả 48 Bảng 4.2 Kết trước chưa giảm thiểu dương tính giả 49 Bảng 4.3 Kết sau giảm thiểu dương tính giả 49 Bảng 4.4 So sánh tỉ lệ phần trăm phát liệu lớn 50 Bảng 4.5 Thời gian chạy thuật toán 50 Bảng 4.6 Kết thực nghiệm chung iItCountLarge = 150; iItCountSmall =300 53 Bảng 4.7 Liệt kê SNPs giống iItCountLarge = 150; iItCountSmall =300 54 Bảng 4.8 Liệt kê vị trí giống iItCountLarge = 150; iItCountSmall =300 55 Bảng 4.9 Kết thực nghiệm chung iItCountLarge = 2500; iItCountSmall =5000 57 Bảng 4.10 Liệt kê SNPs giống iItCountLarge = 2500; iItCountSmall =5000 58 Bảng 4.11 Liệt kê vị trí giống iItCountLarge = 2500; iItCountSmall =5000 58 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Thực nghiệm hành vi kiến 12 Hình 1.2 Thực nghiệm bổ sung 13 Hình 1.3 Đặc tả thuật toán ACO 16 Hình 1.4 Minh họa hình ảnh toán người đưa hàng 18 Hình 1.5 Đặc tả thuật toán ACO cho toán TSP 21 Hình 2.1 Cấu trúc nhiễm sắc thể 22 Hình 2.2 Minh họa gen nhiễm sắc thể 22 Hình 2.3 Một đột biến điểm xảy phân tử DNA thay 23 cặp nucleotide A-T cặp nucleotide G-C 23 Hình 2.4 Đột biến gen KIT u mô đệm đường tiêu hóa 25 Hình 3.1 Đặc tả thuật toán SNPHarvester 30 Hình 3.2 Đặc tả thuật toán Generic ACO 30 Hình 3.3 Mô tả hoạt động kiến 33 Hình 3.4 Mô tả thuật toán AntEpiSeeker tổng quát 36 Hình 3.5 Đặc tả thuật toán AntEpiSeeker 37 Hình 4.1 Mô tả INPFILE 44 Hình 4.2 Mô tả OUTFILE 45 Hình 4.3 Minh họa ý nghĩa ba mô hình 1,2,3 46 Hình 4.4 Đánh giá hiệu thuật toán AntEpiSeeker SNPHarvester, BEAM Generic ACO 47 Hình 4.5 Minh họa OpenMP 52 MỞ ĐẦU Tin sinh học lĩnh vực khoa học liên ngành, sinh học phân tử tin học đóng vai trò chủ đạo Sinh học làm môi trường liệu sở, xây dựng hoàn thiện chương trình xử lý liệu ứng dụng làm công cụ hỗ trợ hiệu cho việc nghiên cứu, thu nhận sản xuất sản phẩm sinh học mong muốn khác phục vụ đời sống người…Về bản, tin sinh học tập trung vào nghiên cứu áp dụng phương pháp kĩ thuật tin học để giải toán sinh học phân tử Tin sinh học có tính ứng dụng cao sống, đặc biệt lĩnh vực nông nghiệp lĩnh vực y-dược Vấn đề sức khỏe bệnh tật người vấn đề quan tâm ý Hiện có nhiều bệnh như: Bệnh ung thư, bệnh thoái hóa điểm vàng, bệnh tim mạch… Tất bệnh di truyền Có nhiều tác nhân liên quan đến bệnh như: Tác nhân vật lý, chế độ ăn uống, tác nhân hóa học,…, yếu tố di truyền tác nhân Gen di truyền công nhận rộng khắp nhiều bệnh nguyên nhân tác động nhiều loại gen biến đổi, gen cá thể, gen chiếm số lại có tác động mạnh Vấn đề quan tâm tiến hành nghiên cứu gen di truyền: Xác định vị trí gen bệnh chứng, gen xác định nguyên nhân để dẫn đến bệnh Phần lớn số biến thể di truyền hàng triệu điểm vị trí nucleotide định làm thay đổi mã di truyền biến đổi đơn nucleotide gen Khi xảy đột biến điểm làm cho đơn nucleotide bị biến đổi ngược lại tạo “single nucleotide polymorphism (SNP)” gọi đa hình đơn nucleotide Khi SNPs xảy gen khu vực gần gen quy định, có vai trò trực tiếp đến xuất bệnh cách ảnh hưởng đến chức gen SNPs Dự án quốc tế HapMap tiến hành cách hệ thống Các nhà khoa học tin SNP đồ giúp họ có nhiều gen liên quan tới bệnh phức tạp Đã có nhiều thuật toán nghiên cứu công bố giải toán tương tác gen để đưa tập vị trí nucleotide biến đổi (hay gọi SNP) tương tác với trội dự đoán có khả cao liên quan đến bệnh Dựa đó, nhà nghiên cứu tìm kiếm vị trí gen liên quan đến bệnh cụ thể mà họ quan tâm Trong luận văn này, trình bày khảo cứu lại tác giả báo[22] cách giải toán tương tác gen sử dụng thuật toán Ant Colony Optimization (ACO) để giải Mục đích để thuật toán AntEpiSeeker giải toán với liệu lớn đưa kết tối ưu so với thuật toán trước 10 Ngoài ra, luận văn thực xử lý song song hóa tác vụ tính toán Chi-square giúp đẩy nhanh trình việc cập nhật mùi kiến mà đảm bảo tính đắn thuật toán, cài đặt thực nghiệm với quy tắc cập nhật mùi Max-Min trơn (Smoothed Max Min Ant System – SMMAS) Đỗ Đức Đông đề xuất năm 2012[1] Ngoài phần kết luận, cấu trúc nội dung luận văn bao gồm chương: Chương 1: Trình bày tổng quan ACO vài thuật toán cập nhật mùi khác ACO Ví dụ toán người chào hàng giải thuật toán ACO Chương 2: Trình bày sơ lược khái niệm sinh học, phát biểu toán tương tác gen, hệ tương tác gen mục đích việc phát tương tác gen Chương 3: Giới thiệu vài thuật toán giải toán tương tác gen với ưu, nhược điểm Trình bày lại thuật toán AntEpiSeeker trình bày hàm kiểm định thống kê Chi-square Chương 4: Đưa kết mà báo công bố, giải thích ý nghĩa tham số ý nghĩa đánh giá thuật toán với tốt xấu Chạy thực nghiệm lại với liệu mô để so sánh tốc độ thuật toán ban đầu với tốc độ sau xử lý song song hóa tác vụ kiến kiểm tra khả tìm tập vị trí nucleotide biến đổi phương pháp cập nhật mùi 50 Đánh giá phần trăm phát phát sai liệu lớn mở rộng Thực nghiên cứu nhiễm sắc thể số với 912 cá thể (456 cá thể bị bệnh 456 cá thể không bị bệnh) 73 355 SNPs, với MAF< 0.1 mức ý nghĩa thống kê với giá trị 0.0001[22] Trong bảng 4.3 thể bên tỉ lệ phát với phần trăm cao tốt tỉ lệ phần trăm phát sai thấp tốt Qua bảng 4.3 cho thấy thuật toán AntEpiSeeker tốt cả, trước chưa giảm thiểu tỉ lệ phần trăm phát so với thuật toán SNPHarvester cao 40.2% tỉ lệ phát sai nhỏ khoảng 1.5% Thuật toán AntEpiSeeker sau giảm thiểu dương tính giả tỉ lệ phần trăm phát sai giảm xuống 18.8%, có bước đánh dấu đáng kể Bảng 4.4 So sánh tỉ lệ phần trăm phát liệu lớn So sánh thuật toán khác liệu lớn Thuật toán Tỉ lệ phát Tỉ lệ phát sai SNPHarvester 26.5% 98.6% Generic ACO 100% AntEpiSeeker 66.7% 97.1% AntEpiSeeker 53.3% 18.8% (sau giảm thiểu dương tính giả) 4.1.3 Xử lý song song quy tắc cập nhật mùi Max-Min trơn (SMMAS) Xử lý song song Tính toán song song nhằm mục đích cải thiện thời gian tính toán, cần thiết liệu lớn Theo tư tưởng thuật toán Generic ACO (xem hình 3.2) lần lặp kiến thực độc lập, chọn cho SNP tính cho mà kiến chọn Sau tiến hành cập nhật lại mùi cho vị trí Cập nhật mùi dựa vào (xem công thức 3.3) Quá trình tính toán ảnh hưởng nhiều đến thời gian thực thuật toán, phụ thuộc vào số lượng cá thể Nếu mẫu cá thể lớn nhiều thời gian tính toán cho Trong mục 3.3.3.3 nêu cách tính toán, xét giá trị (k số vị trí tương tác) với hai nhóm: Cá thể bị bệnh không bị bệnh, thực tính giá trị với số mẫu cá thể 51 Để giảm thời gian tính toán, phân chia số lượng cá thể làm nhiều đoạn thực song song hóa Sử dụng thư viện hỗ trợ OpenMP, gồm thị: #pragma omp parallel for #pragma omp atomic Chỉ thị #pragma omp parallel for: Là thị để OpenMp song song hóa vòng lặp for cách chia đoạn cho luồng thực Ví dụ, với số mẫu cá thể 2000, vòng lặp for lặp 2000 lần, lúc CPU hỗ trợ luồng, luồng thực 2000/4= 500 lần lặp cho phần Chỉ thị #pragma omp atomic: Chỉ thị nhằm mục đích giúp không xảy tranh chấp luồng ghi kết Hình 4.5 Minh họa OpenMp Quy tắc cập nhật mùi SMMAS Được Đỗ Đức Đông đề xuất năm 2012[1] trình bày công thức 1.11 Trong báo quy tắc cập nhật mùi xác định (công thức 3.3) Quy tắc cập nhật mùi SMMAS: (4.1) Trong đó: ; với k= = = N.k (N số đỉnh) 52 Kết thực nghiệm Gọi kết báo ban đầu kết thuật toán AntEpiSeeker(1) kết với quy tắc cập nhật mùi SMMAS thuật toán AntEpiSeeker(2) Đo thời gian chạy Chạy với liệu báo đưa gồm 2000 cá thể (1000 cá thể bị bệnh 1000 cá thể không bệnh) với 2000 SNPs Thực chạy lại với số lần lặp cho kích thước lớn nhỏ tương ứng là: iItCountLarge =150; iItCountSmall =300 Ngoài chạy với liệu giả lập tạo gồm 4000 cá thể (2000 cá thể bị bệnh 2000 cá thể không bệnh) với 2000SNPs (xem bảng 4.5) Mỗi hàng tương ứng với thuật toán theo thứ tự lần lượt: AntEpiSeeker(1)thuật toán với quy tắc cập nhật mùi mà báo đưa ra; AntEpiSeeker(2)- thuật toán báo với quy tắc cập nhật mùi SMAAS; xử lý song song Đơn vị đo thời gian chạy thuật toán giây Bảng 4.5 Thời gian chạy thuật toán 2000 cá thể Thuật toán Thời gian chạy (giây) AntEpiSeeker(1) 141.616269 AntEpiSeeker(2) 142.826185 Xử lý song song 94.603610 4000 cá thể AntEpiSeeker(1) 320.861683 AntEpiSeeker(2) 321.931098 Xử lý song song 211.208410 Nhận xét: Thời gian chạy AntEpiSeeker(1) AntEpiSeeker(2) xấp xỉ nhau, thời gian chạy xử lý song song nhanh khoảng gần 1.5 lần so với hai thuật toán Qua kết bảng 4.5, xử lý song song giúp cải tiến thời gian thuật toán đáng kể, đặc biệt cần thiết thực tính toán với liệu lớn 53 Đo độ xác thuật toán thông qua trị số Pvalue So sánh thuật toán báo thuật toán sau cập nhật vết mùi dựa vào trị số Pvalue, kết thuật toán có nhiều giá trị nhỏ thuật toán đánh giá cao có nhiều kết có ý nghĩa thống kê Ý nghĩa trị số Pvalue trình bày mục 3.3.3.2 Chạy liệu toán gồm 2000 cá thể (1000 cá thể bị bệnh 1000 cá thể không bệnh) với 2000 SNPs Thực chạy lại với số lần lặp cho kích thước lớn nhỏ tương ứng là: iItCountLarge =150; iItCountSmall =300 Kết tổng hợp bảng 4.6 Bảng 4.6 Kết thực nghiệm chung iItCountLarge = 150; iItCountSmall =300 AntEpiSeeker(1) AntEpiSeeker(2) 10-5 1(3.2x10-6) 5(3.1x10-6) 10-4 4(3.4x10-5) 14(3.5x10-5) 10-3 21(4.1x10-4) 35(3.8x10-4) 10-2 40(5x10-3) 60(5x10-3) ngưỡng) Nhận xét: Trong bảng 4.6 gồm ba cột Cột chứa giá trị mang ý nghĩa thống kê hay hiểu ngưỡng để so sánh Cột thứ hai cột thứ ba tương ứng với số lượng có giá trị Pvalue thỏa mãn mức ý nghĩa thống kê, nghĩa lấy có giá trị Pvalue nhỏ ngưỡng đặt Xét hai hai thuật toán AntEpiSeeker(1) AntEpiSeeker(2) thuật toán có nhiều giá trị Pvalue nhỏ thuật toán đánh giá tốt Theo trình bày ý nghĩa trị số Pvalue mục 3.3.3.2 giá trị Pvalue nhỏ chứng tỏ kết tìm có ý nghĩa thống kê Nhìn vào bảng 4.7 với = 10-5 10-4 thấy số lượng giá trị Pvalue thuật toán AntEpiSeeker(2) nhỏ ngưỡng gồm có 19 giá trị, trung bình cho giá trị 3.1x10-6 tương ứng với 19 SNP nhận giá trị 3.1x10-6 gấp lần so với thuật toán AntEpiSeeker(1) Tương tự với mức ý nghĩa thống kê khác Từ ta thấy thuật toán AntEpiSeeker(2) với quy tắc cập nhật mùi SMMAS tốt quy tắc cập nhật mùi báo đưa 54 Bảng 4.7 Liệt kê SNPs giống iItCountLarge = 150; iItCountSmall =300 Pvalue Bộ SNP AntEpiSeeker(1) AntEpiSeeker(2) 1561(rs1561) 1993(rs1993) 8.3x10-5 8.3x10-5 44(rs44) 1609(rs1609) 1.9x10-3 1.9x10-3 131(rs131) 1655(rs1655) 7.2x10-5 7.2x10-5 1154(rs1154) 1893(rs1893) 3.9x10-5 3.9x10-5 Nhận xét: Bảng 4.7 gồm hai cột, cột thứ chứa SNP giống nhau, cột thứ hai ghi giá trị Pvalue tương ứng cho hai thuật toán AntEpiSeeker(1) thuật toán AntEpiSeeker(2) Trong bảng 4.8 đưa vị trí xuất hai thuật toán AntEpiSeeker(1) thuật toán AntEpiSeeker(2), vị trí SNPs giá trị Pvalue khác Bảng 4.8 bao gồm ba cột, cột tương ứng là: Vị trí, SNP giá trị Pvalue Trong cột vị trí, đưa vị trí xuất thuật toán AntEpiSeeker(1) thuật toán AntEpiSeeker(2), vị trí kết hợp với vị trí khác tương ứng cho vào cột chứa SNP, cột cuối đưa kết giá trị Pvalue hai thuật toán tương ứng 55 Bảng 4.8 Liệt kê vị trí giống iItCountLarge = 150; iItCountSmall =300 Bộ SNP Vị trí rs24 rs1312 AntEpiSeeker AntEpiSeeker (1) (2) (1) (2) 1577(rs1577)24(rs24) 2.9x10-4 1.1x10-3 1312(rs1312) 239(rs239) 7.9x10-4 4x10-4 24(rs24) 15(rs15) 1312(rs1312) 553(rs553) rs553 rs1104 P value AntEpiSeeker AntEpiSeeker 1.2x10-4 553(rs553)595(rs595) 1104(rs1104) 1031(rs1031) rs1031 1104(rs1104) 1703(rs1703) 9.9x10-4 1031(rs1031) 447(rs447) 9.5x10-3 6.6x10-3 rs932 806(rs806) 1071(rs1071) 1071(rs1071) 932(rs932) 1.4x10-4 5.2x10-4 rs772 1471(rs1471) 772(rs772) 772(rs772) 1610(rs1610) 4.7x10-4 2.5x10-3 rs971 231(rs231)971(rs971) 971(rs971)428(rs428) 2.2x10-3 6.7x10-3 rs1283 1283(rs1283) 1081(rs1081) 886(rs886) 1283(rs1283) 5.7x10-4 7.6x10-4 rs112 130(rs130)112(rs112) 112(rs112)204(rs204) 2.2x10-3 7.7x10-4 rs1207 1207(rs1207) 523(rs523) 1207(rs1207) 701(rs701) 2x10-3 6.1x10-3 rs576 576(rs576) 1925(rs1925) 1062(rs1062) 576(rs576) 5.2x10-4 1.7x10-4 rs802 802(rs802)289(rs289) 2.9x10-4 2.9x10-5 rs700 700(rs700) 1431(rs1431) 1574(rs1574) 700(rs700) 3.7x10-4 1.6x10-6 rs204 204(rs204)817(rs817) 112(rs112)204(rs204) 2.6x10-4 7.7x10-4 rs810 89(rs89) 810(rs810) 810(rs810)805(rs805) 4.3x10-4 7.7x10-4 802(rs802) 57(rs57) rs1770 1770(rs1770) 1110(rs1110) 1859(rs1859) 1770(rs1770) 3.2x10-4 1.1x10-3 rs1764 1764(rs1764) 573(rs573) 1345(rs1345) 1764(rs1764) 1.1x10-3 3.2x10-4 rs424 424(rs424)235(rs235) 424(rs424)846(rs846) 7.1x10-4 2.3x10-4 56 rs1658 1671(rs1671) 1658(rs1658) 1658(rs1658) 283(rs283) 1.2x10-3 4.3x10-5 rs1437 1437(rs1437) 499(rs499) 684(rs684) 1437(rs1437) 2.8x10-3 6.6x10-4 rs403 403(rs403)785(rs785) 268(rs268)403(rs403) 6.7x10-3 1.6x10-3 rs922 922(rs922) 800(rs800) 922(rs922) 1873(rs1873) 6.7x10-4 8.2x10-4 rs805 805(rs805) 1845(rs1845) 810(rs810) 805(rs805) 4.2x10-3 7.7x10-4 rs1845 1845(rs1845) 110(rs110) 1.0x10-4 rs1335 1335(rs1335) 348(rs348) 1742(rs1742) 1335(rs1335) 1.4x10-3 4.3x10-3 rs1553 1586(rs1586) 1553(rs1553) 1553(rs1553) 1808(rs1808) 5.8x10-3 1.2x10-3 rs1642 26(rs26) 1462(rs1462) 1462(rs1462) 743(rs743) 2.3x10-3 2.8x10-3 Nhận xét: Số vị trí trùng có 28 vị trí, có vị trí SNP thuật toán AntEpiSeeker(1) lại thành SNP khác thuật toán AntEpiSeeker(2) Ví dụ: Trong thuật toán AntEpiSeeker(1) có SNP 1104(rs1104)- 1031(rs1031) thuật toán AntEpiSeeker(2) từ hai vị trí có hai SNP khác nhau, chứa vị trí SNP thuật toán AntEpiSeeker(1): 1104(rs1104) - 1703(rs1703) 1031(rs1031)- 447(rs447) Tổng thể, từ vị trí chung tạo từ 28 vị trí chung, thuật toán AntEpiSeeker(2) có giá trị Pvalue nhỏ Lần hai thực chạy với số lần lặp cho kích thước lớn nhỏ tương ứng là: iItCountLarge = 2500; iItCountSmall =5000 Kết tổng hợp bảng 4.9 57 Bảng 4.9 Kết thực nghiệm chung iItCountLarge = 2500; iItCountSmall =5000 – AntEpiSeeker(1) AntEpiSeeker(2) (ngưỡng) 10-5 5(3.1x10-6) 10-4 5(2.3x10-5) 10(7.5x10-5) 10-3 11(4.1x10-4) 43(3.8x10-4) 10-2 64(5x10-3) 47(5x10-3) Nhận xét: Nhìn vào kết bảng 4.9 cho thấy, với số lần lặp lớn, thuật toán AntEpiSeeker(1) độ phát tương tác liên quan đến bệnh với khả phát theo hướng giảm so với lần lặp nhỏ bảng 4.6 Ngược lại, thuật toán AntEpiSeeker(2) có theo hướng ổn định Với giá trị = 10-2 , thuật toán AntEpiSeeker(1) có 40 giá trị thuộc vào ngưỡng có giá trị 10-2, với số lần lặp lớn tăng lên thêm 24 SNP Đối với thuật toán AntEpiSeeker(2) giảm 13 SNP có giá trị thuộc vào ngưỡng có giá trị 10-2 tăng 18 SNP thuộc vào ngưỡng có giá trị 10-3 Dựa vào hai lần kết thực nghiệm với số lần lặp lớn số lần lặp nhỏ, thấy thuật toán AntEpiSeeker với quy tắc cập nhật mùi SMAAS tốt so với quy tắc cập nhật mùi theo báo đưa Với số lần lặp lớn, số SNP giống hai thuật toán SNPs (xem bảng 4.10) 58 Bảng 4.10 Liệt kê SNPs giống iItCountLarge = 2500; iItCountSmall =5000 Pvalue Bộ SNP AntEpiSeeker(1) AntEpiSeeker(2) 1008(rs1008) 576(rs576) 1.7x10-4 1.7x10-4 2737(rs737) 1217(rs1217) 5.8x10-4 5.8x10-4 420(rs420) 373(rs373) 2.5x10-3 2.5x10-3 1915(rs1915) 1016(rs1016) 6.4x10-4 6.4x10-4 Số vị trí giống với lần lặp hai hai thuật toán nhiều so với lần lặp 11 vị trí (xem bảng 4.11) Bảng 4.11 Liệt kê vị trí giống iItCountLarge = 2500; iItCountSmall =5000 Bộ SNP Vị trí P value AntEpiSeeker AntEpiSeeker AntEpiSeeker AntEpiSeeker (1) (2) (1) (2) rs1561 1561(rs1561) 402(rs402) 1993(rs1993) 1561(rs1561) 2.9x10-3 8.3x10-5 rs204 204(rs204)347(rs347) 204(rs204)129(rs129) 1.9x10-4 7.6x10-4 rs958 656(rs656) 958(rs958) 1462(rs1462) 958(rs958 9.5x10-4 4.7x10-4 rs265 1455(rs1455) 265(rs265) 1267(rs1267) 265(rs265) 1.8x10-3 4.4x10-3 rs631 631(rs631) 1481(rs1481) 904(rs904) 631(rs631) 1.2x10-3 3.6x10-4 rs1764 1345(rs1345) 1764(rs1764) 1764(rs1764) 1184(rs1184) 3.2x10-4 5.4x10-4 rs1763 1673(rs1673) 1763(rs1763) 1100(rs1100) 1763(rs1763 3.1x10-3 3.9x10-3 rs1610 1610(rs1610) 111(rs111)) 1610(rs1610) 202(rs202) 3.9x10-3 1.5x10-3 59 rs291 291(rs291) 1708(rs1708) rs1708 291(rs291) 1773(rs1773) 1.5x10-3 925(rs925) 1708(rs1708) 5.1x10-3 8.6x10-4 rs806 1678(rs1678) 806(rs806) 806(rs806) 1071(rs1071) 8x10-4 1.3x10-4 rs846 617(rs617)846(rs846) 846(rs846)424(rs424) 1.3x10-3 2.3x10-4 rs1276 933(rs933) 1276(rs1276) 1339(rs1339) 1276(rs1276) 1.5x10-3 2.3x10-4 rs1278 1278(rs1278) 44(rs44) 261(rs261) 1278(rs1278) 5.7x10-4 9.8x10-5 rs1593 1593(rs1593) 1120(rs1120) 587(rs587) 1593(rs1593) 3.8x10-3 7.7x10-4 rs525 1480(rs1480) 525(rs525) 525(rs525) 1320(rs1320) 1.1x10-5 4.2x10-6 rs1173 1173(rs1173) 1991(rs1991) 928(rs928) 1173(rs1173) 5.2x10-5 1.1x10-4 rs1802 1802(rs1802) 1475(rs1475) 242(rs242) 1802(rs1802) 6.7x10-3 1.9x10-3 1352(rs1352) 1475(rs1475) 3x10-3 3.7x10-3 rs1475 rs1606 1606(rs1606) 1373(rs1373) 555(rs555) 1606(rs1606) 1.2x10-3 4.7x10-4 rs1568 1827(rs1827) 1568(rs1568) 1568(rs1568) 455(rs455) 3.6x10-3 1.6x10-4 rs1364 1364(rs1364) 1482(rs1482) 369(rs369) 1364(rs1364) 2x10-3 6.9x10-4 rs1447 270(rs270) 1447(rs1447) 1808(rs1808) 1447(rs1447) 1.4x10-3 1x10-3 rs148 1254(rs1254) 148(rs148) 1742(rs1742) 148(rs148) 5.1x10-3 2.9x10-3 rs633 633(rs633) 1068(rs1068) 528(rs528) 633(rs633) 1.7x10-3 4.5x10-4 rs928 1966(rs1966) 928(rs928) 928(rs928) 1173(rs1173) 6x10-3 1.1x10-4 rs1417 1417(rs1417) 1689(rs1689) 1417(rs1417) 1937(rs1937) 3.6x10-3 8x10-3 rs1689 677(rs677) 1.5x10-3 60 1689(rs1689) rs351 351(rs351) 485(rs485) 351(rs351) 1797(rs1797) 1.9x10-3 5.9x10-4 rs1431 1431(rs1431) 1586(rs1586) 1431(rs1431) 224(rs224) 5.5x10-3 2.2x10-4 rs1586 158(rs158) 1586(rs1586) 1.1x10-3 rs1669 150(rs150) 1669(rs1669) 1669(rs1669) 146(rs146) 4x10-3 3x10-3 rs348 348(rs348) 1895(rs1895) 912(rs912) 348(rs348) 5.8x10-3 9.3x10-4 rs1300 1300(rs1300) 1713(rs1713) 3604(rs604) 1300(rs1300) 8.8x10-3 4.2x10-4 rs896 346(rs346) 896(rs896) 187(rs187) 896(rs896) 9.8x10-3 3.1x10-3 rs578 578(rs578) 1360(rs1360) 578(rs578) 1236(rs1236) 7.8x10-3 3.1x10-3 rs922 922(rs922) 1166(rs1166) 820(rs820) 922(rs922) 9x10-3 1.8x10-3 rs1784 1784(rs1784) 815(rs815) 1784(rs1784) 881(rs881) 7.8x10-3 3.8x10-3 rs815 1250(rs1250) 815(rs815) 3.7x10-3 Nhận xét: Cột chứa vị trí, cột hai số SNP có vị trí giống cột ba chứa giá trị hai thuật toán AntEpiSeeker(1) AntEpiSeeker(2) Trong bảng hai, giá trị thuật toán AntEpiSeeker(2) nhỏ so với thuật toán AntEpiSeeker(1) 4.1.4 Phần mềm sử dụng Thuật toán AntEpiSeeker sử dụng ngôn ngữ lập trình C++ để cài đặt Dựa Dual Core AMD Opteron (tm) Processor 275[22] Trước biên dịch, thư viện khoa học GNU Scientific Library (GSL) cần phải cài đặt máy tính người dùng Trong luận văn thực dựa Intel (R) Core (TM) i5-2450M CPU 2.50GHz 4.2 Ý nghĩa kết thực nghiệm Dựa kết công bố liệu báo cung cấp, mục đích thử nghiệm lại với chương trình chạy thuật toán so sánh với quy tắc cập nhật mùi 61 Max-Min trơn xử lý song song, có phát vị trí tương tác với hay không Bằng cách chạy với liệu mô báo đưa Hiểu ý nghĩa bảng báo Biết đánh giá thuật toán tốt xấu để từ so với thuật toán khác thuật toán AntEpiSeeker đưa có hiệu thuật toán khác như: Thuật toán BEAM, thuật toán SNPHarvester thuật toán Generic ACO Ngoài thử nghiệm với xử lý song song để cải tiến thời gian thuật toán, cài đặt thử nghiệm với quy tắc cập nhật mùi SMAAS so sánh với thuật toán báo đưa cho kết tốt dựa vào giá trị Pvalue 62 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN KẾT LUẬN Trong luận văn thực khảo cứu thuật toán AntEpiSeeker mà tác giả đưa cho việc phát tương tác át chế gen nghiên cứu bệnh chứng quy mô lớn AntEpiSeeker đánh giá thông qua so sánh với hai phương pháp tiếp cận gần hai liệu mô thực tế AntEpiSeeker thông qua thủ tục tối ưu hóa, thực hai giai đoạn: Giai đoạn đầu sử dụng thuật toán kiến, giai đoạn hai dùng thuật toán duyệt toàn Thuật toán AntEpiSeeker thuật toán cải tiến thuật toán Generic ACO chung Đưa kết để chứng minh ưu điểm việc tối ưu hóa hai giai đoạn, so sánh khả phát AntEpiSeeker với thuật toán khác AntEpiSeeker dự án nghiên cứu liên tục nâng cấp tương lai HƯỚNG PHÁT TRIỂN Từ thuật toán AntEpiSeer bổ sung thêm xử lý song song để giảm thời gian tính toán mà thuật toán chưa có đảm bảo tính đắn thuật toán, đồng thời cài đặt với quy tắc cập nhật mùi khác so với quy tắc cập nhật mùi báo đưa 63 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đỗ Đức Đông (2012), Phương pháp tối ưu đàn kiến ứng dụng, Đại học Công nghệ- Đại học Quốc gia Hà Nội, luận án Tiến sĩ [2] Hoàng Trọng Phán, Trương Thị Bích Phượng, Trần Quốc Dung (2005), Giáo trình di truyền học, Dự án Giáo dục Đại học- Đại học Huế Tiếng Anh [3] W.Bateson (1909), “Mendel’s Principles of Heredity”, Cambridge University Press, Cambridge [4] YM Cho, MD Ritchie, JH Moore, JY Park, KU Lee, HD Shin, HK Lee, KS Park (2004), “Multifactor-dimensionality reduction shows a two-locus interaction associated with type diabetes mellitus”, Diabetologia, 47:549-554 [5] HJ Cordell (2002), “ Epistasis: what it means, what it doesn't mean, and statistical methods to detect it in humans”, Hum Mol Genet, 11:2463-2468 [6] D Corne, M Dorigo, F Glover (1999), New Ideas in Optimization, McGraw-Hill [7] M Dorigo, G Di Caro, LM Gambardella (1999), “Ant Algorithms for Discrete Optimization”, Artificial Life, 5:137-172 [8] M Dorigo, T.Stützle (2004), Ant Colony Optimization, The MIT Press, Cambridge, Masachusetts, 2004 [9] M Dorigo, L.M Gambardella (1997), “Ant colony system: A cooperative learning approach to the traveling salesman problem”, IEEE Transon evolutionary computation, vol.1, no.1, 1997, pp 53-66 [10] M Dorigo, L.M Gambardella (1997), “Ant colonies for the travelling salesman problem”, Biosystems, 43:73-81 [11] M Dorigo, V Maniezzo, A Colorni (1991), “The Ant System: An autocatalytic optimizing process”, Technical Report 91-016 Revised, Dipartimento di Elettronica, Politecnico di Milano, Milano, Italy [12] RA Fisher (1922), On the interpretation of χ2 from contingency tables, and the calculation of P, Journal of the Royal Statistical Society 1922; 85(1):87-94 [13] S Goss, S Aron, J.L Deneubourg, J.M Pasteels (1989), “Self-organized shortcuts in the Argentine ant”, Naturwissenschaften, 76, 579–581 [14] RJ Klein, C Zeiss, EY Chew, JY Tsai, RS Sackler, C Haynes, AK Henning, JP SanGiovanni, SM Mane, ST Mayne ST (2005), “Complement factor H polymorphism in age-related macular degeneration”, Science, 308:385-389 [15] V Maniezzo, A Carbonaro (2000), “An ANTS heuristic for the frequency assignment problem”, Future Generation Computer Systems, 16:927-935 [16] J Marchini, P Donnelly, LR Cardon (2005), “Genome-wide strategies for detecting multiple loci that influence complex diseases”, Nat Genet, 37:413-417 64 [17] MD Ritchie, LW Hahn, N Roodi N, LR Bailey,WD Dupont, FF Parl, JH Moore (2001), “Multifactor-dimensionality reduction reveals high-order interactions among estrogen metabolism genes in sporadic breast cancer”, Am J Hum Genet, 69:138-147 [18] KR Robbins, W Zhang, JK Bertrand, R Rekaya (2007), “The ant colony algorithm for feature selection in high-dimension gene expression data for disease classification”, Math Med Bio, 24:413-26 [19] T Stützle, H H Hoos (2000), “Max-Min ant system”, Future Gene Comput Syst, vol 26, no.8, 2000, pp 889-914 [20] EG Talbi, O Roux, C Fonlupt, D Robillard (2001), “Parallel Ant Colonies for the quadratic assignment problem”, Future Generation Computer System, 17:441449 [21] CT Tsai, LP Lai, JL Lin, FT Chiang, JJ Hwang, MD Ritchie, JH Moore, KL Hsu, CD.Tseng,CS Liau, YZ.Tseng (2004), “Renin-angiotensin system gene polymorphisms and atrial fibrillation”, Circulation, 109:1640-1646 [22] Y Wang, X Liu, K Robbins, R Rekaya (2010), “AntEpiSeeker: detecting epistatic interactions for case-control studies using a two-stage ant cology optimization algorithm”, BMC Research Notes, 3:117 [23] C Yang, Z He, X Wan, Q Yang, H Xue, W Yu (2009), “SNPHarvester: a filtering-based approach for detecting epistatic interactions in genome-wide association studies”, Bioinformatics, 25:504-511 [24] Y Zhang, JS Liu (2007), “Bayesian inference of epistatic interactions in casecontrol studies”, Nat Genet, 39:1167-1173 Một số trang web [25] http://hoiyhoctphcm.org.vn/Data/pdf/1212Dunstan.pdf [26] http://vietsciences.free.fr/timhieu/khoahoc/ykhoa/ynghiacuatrisoP.htm [27] http://www.zsinhhoc.blogspot.com/2013/01/tuong-tac-at-che.html [28] http://math.hws.edu/javamath/ryan/ChiSquare.html [29] http://xacsuatthongkea.wikispaces.com/file/view/Chuong+6.pdf [30] http://timmachhoc.vn/y-hoc-thuc-chung/297-y-hc-thc-chng-sanofi.html [31] http://tudu.com.vn/vn/y-hoc-thuong-thuc/diem-bao/tac-dong-gen-de-tri-benhhuong-di-moi-trong-tuong-lai/ [...]... hơn và có độ chính xác cao cũng như khả năng phát hiện các tương tác nhanh Thuật toán AntEpiSeeker trình bày trong mục 3.3.1.2 3.2 Tương quan giữa bài toán tương tác gen với bài toán người chào hàng Bài toán người chào hàng là một bài toán điển hình được các nhà nghiên cứu áp dụng đưa các thuật toán ACO vào giải quyết như: Thuật toán AS, thuật toán ACS, thuật toán Max-Min (MMAS), gần đây có thêm thuật. .. THIỆU VỀ THUẬT TOÁN ANT COLONY OPTIMIZATION (ACO) 1.1 Lịch sử ra đời của thuật toán ACO 1.1.1 ACO ra đời từ việc quan sát hành vi của đàn kiến trong quá trình di chuyển tìm kiếm thức ăn Thuật toán tối ưu hóa đàn kiến (ACO) được xem là một trong những phương pháp hiệu quả trong vấn đề giải quyết các bài toán tối ưu tổ hợp NP-khó Trong thực tế và trong các hệ thống thông tin, ta thường có những bài toán. .. thị cấu trúc Bài toán tương tác gen Bài toán người chào hàng - V: Tập các đỉnh tương ứng với tập các vị trí, mỗi vị trí tương ứng một - V: Tập các đỉnh tương ứng với tập các thành phố - E: Tập các cạnh nối các vị trí - E: Tập các cạnh nối các thành phố tương ứng 3.3 Thuật toán ACO để giải quyết bài toán tương tác gen 3.3.1 Trình bày thuật toán 3.3.1.1 Thuật toán Generic ACO Mô tả thuật toán: Theo định... những SNPs có ý nghĩa vào trong S, và xóa những SNPs khác else 30 NumRandomRun←0 while NumRandomRun

Ngày đăng: 05/11/2015, 16:45

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan