1. Trang chủ
  2. » Thể loại khác

Khám phá tương tác trội nhờ phương pháp tối ưu đàn kiến

66 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ CHI KHÁM PHÁ TƢƠNG TÁC TRỘI NHỜ PHƢƠNG PHÁP TỐI ƢU ĐÀN KIẾN LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI, 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ CHI KHÁM PHÁ TƢƠNG TÁC TRỘI NHỜ PHƢƠNG PHÁP TỐI ƢU ĐÀN KIẾN Ngành : Công nghệ thông tin Chuyên ngành : Hệ thống thông tin Mã số : 60 48 05 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS Đỗ Đức Đông Hà Nội, 2014 LỜI CẢM ƠN Trước hết, xin gửi lời biết ơn sâu sắc đến hai người thầy TS Đỗ Đức Đơng thầy PGS TS Hồng Xn Huấn, hai thầy dành nhiều thời gian tâm huyết hướng dẫn nghiên cứu giúp tơi hồn thành tốt luận văn tốt nghiệp Thầy mở cho vấn đề khoa học lý thú, định hướng nghiên cứu lĩnh vực thiết thực vơ bổ ích, đồng thời tạo điều kiện thuận lợi tốt cho học tập nghiên cứu Tơi xin bày tỏ lịng biết ơn tới thầy cô trường Đại học Công nghệ tham gia giảng dạy chia sẻ kinh nghiệm quý báu cho tập thể cá nhân tơi nói riêng Tơi xin cảm ơn tới thầy anh chị thường xuyên giúp đỡ, trao đổi, góp ý vấn đề khoa học liên quan tới luận văn Trên tất cả, xin gửi lời biết ơn tới bố mẹ, gia đình người thân Bố mẹ phải làm việc vất vả tạo hội cho tơi chọn đường Một lần nữa, xin chân thành cảm ơn! Hà Nội, tháng 10 năm 2014 Học viên Nguyễn Thị Chi LỜI CAM ĐOAN Những kiến thức trình bày luận văn tơi tìm hiểu, nghiên cứu trình bày lại theo cách hiểu Trong trình làm luận văn tơi có tham khảo tài liệu có liên quan ghi rõ nguồn tài liệu tham khảo Tơi xin cam đoan cơng trình nghiên cứu không chép Hà Nội, tháng 10 năm 2014 Học viên Nguyễn Thị Chi MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC KÍ HIỆU, TỪ VIẾT TẮT DANH MỤC CÁC BẢNG BIỂU DANH MỤC CÁC HÌNH VẼ .8 MỞ ĐẦU CHƢƠNG I TƢƠNG TÁC TRỘI QUY VỀ BÀI TOÁN TƢƠNG TÁC GEN 11 1.1 Tương tác gen hiệu ứng gây 11 1.1.1 Khái niệm tương tác gen 11 1.1.2 Hệ tương tác tác gen hướng nghiên cứu 13 1.1.2.1 Hệ tương tác gen 13 1.1.2.2 Hướng nghiên cứu 14 1.2 Bài toán phát tương tác gen 15 1.2.1 Mục đích cần phát tương tác gen 15 1.2.2 Khái quát trình nghiên cứu tìm tương tác gen 15 1.2.3 Phát biểu toán tương tác gen 16 1.2.3.1 Phát biểu toán 16 1.2.3.2 Mơ hình hóa tốn 17 CHƢƠNG II GIỚI THIỆU VỀ THUẬT TOÁN ANT COLONY OPTIMIZATION (ACO) 18 2.1 Lịch sử đời thuật toán ACO 18 2.1.1 ACO đời từ việc quan sát hành vi đàn kiến trình di chuyển tìm kiếm thức ăn .18 2.1.2 Mùi ý nghĩa vết mùi đường trình di chuyển kiến 18 2.2 Thuật toán ACO 20 2.2.1 Đồ thị cấu trúc .20 2.2.2 Trình bày thuật tốn ACO 21 2.2.3 Quy tắc cập nhật vết mùi 23 2.2.3.1 Thuật toán AS .23 2.2.3.2 Thuật toán ACS 24 2.2.3.3 Thuật toán Max-Min 24 2.2.3.4 Thuật toán Max- Min trơn 25 2.3 Ứng dụng thuật toán ACO việc giải toán Người chào hàng Sale Man 25 2.3.1 Bài toán người chào hàng thực tế 25 2.3.2 Phát biểu tốn người đưa hàng mơ hình hóa đồ thị 25 2.3.3 Áp dụng thuật toán ACO giải toán người chào hàng 26 CHƢƠNG III GIẢI BÀI TOÁN TƢƠNG TÁC GEN BẰNG PHƢƠNG PHÁP ACO 29 3.1 Các phương pháp tiếp cận, ưu nhược điểm .29 3.1.1 Thuật toán BEAM 29 3.1.2 Thuật toán SNPHarvester 29 3.1.3 Ưu, nhược điểm .30 3.1.3.1 Ưu điểm 30 3.1.3.2 Nhược điểm 30 3.2 Tương quan toán tương tác gen với toán người chào hàng 31 3.3 Thuật toán ACO để giải toán tương tác gen 31 3.3.1 Trình bày thuật tốn .31 3.3.1.1 Thuật toán Generic ACO 31 3.3.1.2 Thuật toán AntEpiSeeker 34 3.3.2 Ý nghĩa tham số .37 3.3.3 Xác suất Chi-square trị số Pvalue 38 3.3.3.1 Xác suất Chi-square 38 3.3.3.2 Trị số Pvalue .40 3.3.3.3 Vận dụng Chi-square toán 41 CHƢƠNG IV KẾT QUẢ THỰC NGHIỆM 44 4.1 Kết thực nghiệm 44 4.1.1 Các thông số cài đặt .44 4.1.2 Các kết thực nghiệm báo 45 4.1.3 Xử lý song song quy tắc cập nhật mùi Max-Min trơn (SMMAS) 50 4.1.4 Phần mềm sử dụng .61 4.2 Ý nghĩa kết thực nghiệm .61 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 62 TÀI LIỆU THAM KHẢO 63 DANH MỤC CÁC KÍ HIỆU, TỪ VIẾT TẮT ACO Ant colony optimization ACS Ant colony system ADN Acid deoxyribo nucleic AMD Age related macular ANTS Approximate nondeterministic tree search AS Ant system ARN Axit ribonucleic BEAM Bayesian epistasis association mapping GWA Genome wide apporoach HGP Human genome project MCMC Markov chain monte carlob MMAS Max ant system SMMAS Smoothed max ant system 3-LAS Three level ant system DANH MỤC CÁC BẢNG BIỂU Bảng 1.1 Minh họa đầu vào toán 17 Bảng 1.2Minh họa đầu toá n 17 Bảng 2.1 Một số thuật toán ACO .176 Bảng 3.1 Minh họa tương quan đồ thị 31 Bảng 3.2 Tuổi kết học tập sinh viên 39 Bảng 3.3 Kết trị số 𝑶 𝑬 ví dụ .40 Bảng 3.4 Ví dụ đầu vào tốn với vị trí 41 Bảng 3.5 Các giá trị T với mẫu cá thể 41 Bảng 3.6 Kết trị số 𝑶 𝑬 ví dụ .43 Bảng 4.1 So sánh tỉ lệ giảm thiểu dương tính giả 48 Bảng 4.2 Kết trước chưa giảm thiểu dương tính giả 49 Bảng 4.3 Kết sau giảm thiểu dương tính giả 49 Bảng 4.4 So sánh tỉ lệ phần trăm phát liệu lớn 50 Bảng 4.5 Thời gian chạy thuật toán 50 Bảng 4.6 Kết thực nghiệm chung iItCountLarge = 150; iItCountSmall =300 .53 Bảng 4.7 Liệt kê SNPs giống iItCountLarge = 150; iItCountSmall =300 54 Bảng 4.8 Liệt kê vị trí giống iItCountLarge = 150; iItCountSmall =300 .55 Bảng 4.9 Kết thực nghiệm chung iItCountLarge = 2500; iItCountSmall =5000 57 Bảng 4.10 Liệt kê SNPs giống iItCountLarge = 2500; iItCountSmall =5000 .58 Bảng 4.11 Liệt kê vị trí giống iItCountLarge = 2500; iItCountSmall =5000 58 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Cấu trúc nhiễm sắc thể 11 Hình 1.2 Minh họa gen nhiễm sắc thể 11 Hình 1.3 Một đột biến điểm xảy phân tử DNA thay 12 cặp nucleotide A-T cặp nucleotide G-C 12 Hình 1.4 Đột biến gen KIT u mơ đệm đường tiêu hóa 14 Hình 2.1 Thực nghiệm hành vi kiến .19 Hình 2.2 Thực nghiệm bổ sung .20 Hình 2.3 Đặc tả thuật toán ACO 23 Hình 2.4 Minh họa hình ảnh tốn người đưa hàng 25 Hình 2.5 Đặc tả thuật tốn ACO cho toán TSP .28 Hình 3.1 Đặc tả thuật tốn SNPHarvester .30 Hình 3.2 Đặc tả thuật toán Generic ACO 30 Hình 3.3 Mơ tả hoạt động kiến .33 Hình 3.4 Mơ tả thuật tốn AntEpiSeeker tổng quát 36 Hình 3.5 Đặc tả thuật toán AntEpiSeeker .37 Hình 4.1 Mơ tả INPFILE .44 Hình 4.2 Mơ tả OUTFILE .45 Hình 4.3 Minh họa ý nghĩa ba mơ hình 1,2,3 46 Hình 4.4 Đánh giá hiệu thuật toán AntEpiSeeker SNPHarvester, BEAM Generic ACO 47 Hình 4.5 Minh họa OpenMP 51 50 Đánh giá phần trăm phát phát sai liệu lớn mở rộng Thực nghiên cứu nhiễm sắc thể số với 912 cá thể (456 cá thể bị bệnh 456 cá thể không bị bệnh) 73 355 SNPs, với MAF< 0.1 mức ý nghĩa thống kê với giá trị 0.0001[22] Trong bảng 4.3 thể bên tỉ lệ phát với phần trăm cao tốt tỉ lệ phần trăm phát sai thấp tốt Qua bảng 4.3 cho thấy thuật toán AntEpiSeeker tốt cả, trước chưa giảm thiểu tỉ lệ phần trăm phát so với thuật toán SNPHarvester cao 40.2% tỉ lệ phát sai nhỏ khoảng 1.5% Thuật tốn AntEpiSeeker sau giảm thiểu dương tính giả tỉ lệ phần trăm phát sai giảm xuống cịn 18.8%, có bước đánh dấu đáng kể Bảng 4.4 So sánh tỉ lệ phần trăm phát liệu lớn So sánh thuật toán khác liệu lớn Thuật toán Tỉ lệ phát Tỉ lệ phát sai SNPHarvester 26.5% 98.6% Generic ACO 100% AntEpiSeeker 66.7% 97.1% AntEpiSeeker 53.3% 18.8% (sau giảm thiểu dương tính giả) 4.1.3 Xử lý song song quy tắc cập nhật mùi Max-Min trơn (SMMAS) Xử lý song song Tính tốn song song nhằm mục đích cải thiện thời gian tính toán, cần thiết liệu lớn Theo tư tưởng thuật tốn Generic ACO (xem hình 3.2) lần lặp kiến thực độc lập, chọn cho SNP tính 𝑋 cho mà kiến chọn Sau tiến hành cập nhật lại mùi cho vị trí Cập nhật mùi dựa vào 𝑋 (xem công thức 3.3) Q trình tính tốn 𝑋 ảnh hưởng nhiều đến thời gian thực thuật toán, phụ thuộc vào số lượng cá thể Nếu mẫu cá thể lớn nhiều thời gian tính tốn cho 𝑋 Trong mục 3.3.3.3 nêu cách tính 𝑋 toán, xét 3𝑘 giá trị (k số vị trí tương tác) với hai nhóm: Cá thể bị bệnh khơng bị bệnh, thực tính giá trị với số mẫu cá thể 51 Để giảm thời gian tính tốn, phân chia số lượng cá thể làm nhiều đoạn thực song song hóa Sử dụng thư viện hỗ trợ OpenMP, gồm thị: #pragma omp parallel for #pragma omp atomic Chỉ thị #pragma omp parallel for: Là thị để OpenMp song song hóa vịng lặp for cách chia đoạn cho luồng thực Ví dụ, với số mẫu cá thể 2000, vòng lặp for lặp 2000 lần, lúc CPU hỗ trợ luồng, luồng thực 2000/4= 500 lần lặp cho phần Chỉ thị #pragma omp atomic: Chỉ thị nhằm mục đích giúp khơng xảy tranh chấp luồng ghi kết Hình 4.5 Minh họa OpenMp Quy tắc cập nhật mùi SMMAS Được Đỗ Đức Đông đề xuất năm 2012[1] trình bày cơng thức 2.11 Trong báo quy tắc cập nhật mùi xác định (công thức 3.3): 0,1 𝑋 𝑛ế𝑢 𝑘 ∈ 𝑆𝑚 ∆𝜏𝑘 𝑖 = 𝑛𝑔ượ𝑐 𝑙ạ𝑖 Quy tắc cập nhật mùi SMMAS: ∆𝜏𝑘 𝑖 = 𝜌𝜏𝑚𝑎𝑥 𝜌𝜏𝑚𝑖𝑛 Trong đó: 𝜌 = 0.5; 𝜏𝑚𝑎𝑥 = 0,1 𝑋 𝑁+50 với k= 100 𝜏 𝑚𝑎𝑥 𝜏 𝑚𝑖𝑛 𝑛ế𝑢 𝑘 ∈ 𝑆𝑚 𝑛𝑔ượ𝑐 𝑙ạ𝑖 = N.k 𝑛ế𝑢 𝑁 ≥ 50 𝑛ế𝑢 𝑁 < 50 (N số đỉnh) (4.1) 52 Kết thực nghiệm Gọi kết báo ban đầu kết thuật toán AntEpiSeeker(1) kết với quy tắc cập nhật mùi SMMAS thuật toán AntEpiSeeker(2) Đo thời gian chạy Chạy với liệu báo đưa gồm 2000 cá thể (1000 cá thể bị bệnh 1000 cá thể không bệnh) với 2000 SNPs Thực chạy lại với số lần lặp cho kích thước lớn nhỏ tương ứng là: iItCountLarge =150; iItCountSmall =300 Ngoài chạy với liệu giả lập tạo gồm 4000 cá thể (2000 cá thể bị bệnh 2000 cá thể không bệnh) với 2000SNPs (xem bảng 4.5) Mỗi hàng tương ứng với thuật toán theo thứ tự lần lượt: AntEpiSeeker(1)thuật toán với quy tắc cập nhật mùi mà báo đưa ra; AntEpiSeeker(2)- thuật toán báo với quy tắc cập nhật mùi SMAAS; xử lý song song Đơn vị đo thời gian chạy thuật toán giây Bảng 4.5 Thời gian chạy thuật toán 2000 cá thể Thuật toán Thời gian chạy (giây) AntEpiSeeker(1) 141.616269 AntEpiSeeker(2) 142.826185 Xử lý song song 94.603610 4000 cá thể AntEpiSeeker(1) 320.861683 AntEpiSeeker(2) 321.931098 Xử lý song song 211.208410 Nhận xét: Thời gian chạy AntEpiSeeker(1) AntEpiSeeker(2) xấp xỉ nhau, thời gian chạy xử lý song song nhanh khoảng gần 1.5 lần so với hai thuật toán Qua kết bảng 4.5, xử lý song song giúp cải tiến thời gian thuật toán đáng kể, đặc biệt cần thiết thực tính tốn với liệu lớn 53 Đo độ xác thuật tốn thơng qua trị số Pvalue So sánh thuật toán báo thuật toán sau cập nhật vết mùi dựa vào trị số Pvalue, kết thuật tốn có nhiều giá trị 𝑃𝑣𝑎𝑙𝑢𝑒 nhỏ thuật tốn đánh giá cao có nhiều kết có ý nghĩa thống kê Ý nghĩa trị số Pvalue trình bày mục 3.3.3.2 Chạy liệu toán gồm 2000 cá thể (1000 cá thể bị bệnh 1000 cá thể không bệnh) với 2000 SNPs Thực chạy lại với số lần lặp cho kích thước lớn nhỏ tương ứng là: iItCountLarge =150; iItCountSmall =300 Kết tổng hợp bảng 4.6 Bảng 4.6 Kết thực nghiệm chung iItCountLarge = 150; iItCountSmall =300 𝑃 − 𝑉𝑎𝑙𝑢𝑒 AntEpiSeeker(1) AntEpiSeeker(2) 10-5 1(3.2x10-6) 5(3.1x10-6) 10-4 4(3.4x10-5) 14(3.5x10-5) 10-3 21(4.1x10-4) 35(3.8x10-4) 10-2 40(5x10-3) 60(5x10-3) (ngưỡng) Nhận xét: Trong bảng 4.6 gồm ba cột Cột chứa giá trị 𝑃 − 𝑉𝑎𝑙𝑢𝑒 mang ý nghĩa thống kê hay hiểu ngưỡng để so sánh Cột thứ hai cột thứ ba tương ứng với số lượng có giá trị Pvalue thỏa mãn mức ý nghĩa thống kê, nghĩa lấy có giá trị Pvalue nhỏ ngưỡng đặt Xét hai hai thuật toán AntEpiSeeker(1) AntEpiSeeker(2) thuật tốn có nhiều giá trị Pvalue nhỏ thuật tốn đánh giá tốt Theo trình bày ý nghĩa trị số Pvalue mục 3.3.3.2 giá trị Pvalue nhỏ chứng tỏ kết tìm có ý nghĩa thống kê Nhìn vào bảng 4.7 với 𝑃 − 𝑉𝑎𝑙𝑢𝑒 = 10-5 10-4 thấy số lượng giá trị Pvalue thuật toán AntEpiSeeker(2) nhỏ ngưỡng gồm có 19 giá trị, trung bình cho giá trị 3.1x10-6 tương ứng với 19 SNP nhận giá trị 3.1x10-6 gấp lần so với thuật toán AntEpiSeeker(1) Tương tự với mức ý nghĩa thống kê khác Từ ta thấy thuật tốn AntEpiSeeker(2) với quy tắc cập nhật mùi SMMAS tốt quy tắc cập nhật mùi báo đưa 54 Bảng 4.7 Liệt kê SNPs giống iItCountLarge = 150; iItCountSmall =300 Pvalue Bộ SNP AntEpiSeeker(1) AntEpiSeeker(2) 1561(rs1561) 1993(rs1993) 8.3x10-5 8.3x10-5 44(rs44) 1609(rs1609) 1.9x10-3 1.9x10-3 131(rs131) 1655(rs1655) 7.2x10-5 7.2x10-5 1154(rs1154) 1893(rs1893) 3.9x10-5 3.9x10-5 Nhận xét: Bảng 4.7 gồm hai cột, cột thứ chứa SNP giống nhau, cột thứ hai ghi giá trị Pvalue tương ứng cho hai thuật toán AntEpiSeeker(1) thuật toán AntEpiSeeker(2) Trong bảng 4.8 đưa vị trí xuất hai thuật tốn AntEpiSeeker(1) thuật tốn AntEpiSeeker(2), vị trí SNPs giá trị Pvalue khác Bảng 4.8 bao gồm ba cột, cột tương ứng là: Vị trí, SNP giá trị Pvalue Trong cột vị trí, đưa vị trí xuất thuật tốn AntEpiSeeker(1) thuật tốn AntEpiSeeker(2), vị trí kết hợp với vị trí khác tương ứng cho vào cột chứa SNP, cột cuối đưa kết giá trị Pvalue hai thuật toán tương ứng 55 Bảng 4.8 Liệt kê vị trí giống iItCountLarge = 150; iItCountSmall =300 Bộ SNP Vị trí rs24 rs1312 AntEpiSeeker AntEpiSeeker (1) (2) 24(rs24) 15(rs15) 1312(rs1312) 553(rs553) rs553 rs1104 P value AntEpiSeeker AntEpiSeeker (1) (2) -4 1577(rs1577)24(rs24) 2.9x10 1312(rs1312) 239(rs239) 7.9x10-4 rs1031 1104(rs1104) 1703(rs1703) 4x10-4 1.2x10-4 553(rs553)595(rs595) 1104(rs1104) 1031(rs1031) 1.1x10-3 9.9x10-4 1031(rs1031) 447(rs447) 9.5x10-3 6.6x10-3 rs932 806(rs806) 1071(rs1071) 1071(rs1071) 932(rs932) 1.4x10-4 5.2x10-4 rs772 1471(rs1471) 772(rs772) 772(rs772) 1610(rs1610) 4.7x10-4 2.5x10-3 rs971 231(rs231)971(rs971) 971(rs971)428(rs428) 2.2x10-3 6.7x10-3 rs1283 1283(rs1283) 1081(rs1081) 886(rs886) 1283(rs1283) 5.7x10-4 7.6x10-4 rs112 130(rs130)112(rs112) 112(rs112)204(rs204) 2.2x10-3 7.7x10-4 rs1207 1207(rs1207) 523(rs523) 1207(rs1207) 701(rs701) 2x10-3 6.1x10-3 rs576 576(rs576) 1925(rs1925) 1062(rs1062) 576(rs576) 5.2x10-4 1.7x10-4 rs802 802(rs802)289(rs289) 2.9x10-4 2.9x10-5 rs700 700(rs700) 1431(rs1431) 1574(rs1574) 700(rs700) 3.7x10-4 1.6x10-6 rs204 204(rs204)817(rs817) 112(rs112)204(rs204) 2.6x10-4 7.7x10-4 rs810 89(rs89) 810(rs810) 810(rs810)805(rs805) 4.3x10-4 7.7x10-4 802(rs802) 57(rs57) rs1770 1770(rs1770) 1110(rs1110) 1859(rs1859) 1770(rs1770) 3.2x10-4 1.1x10-3 rs1764 1764(rs1764) 573(rs573) 1345(rs1345) 1764(rs1764) 1.1x10-3 3.2x10-4 rs424 424(rs424)235(rs235) 424(rs424)846(rs846) 7.1x10-4 2.3x10-4 rs1658 1671(rs1671) 1658(rs1658) 1.2x10-3 4.3x10-5 56 Bộ SNP Vị trí P value AntEpiSeeker AntEpiSeeker (1) (2) 1658(rs1658) 283(rs283) rs1437 1437(rs1437) 499(rs499) rs403 AntEpiSeeker AntEpiSeeker (1) (2) 684(rs684) 1437(rs1437) 2.8x10-3 6.6x10-4 403(rs403)785(rs785) 268(rs268)403(rs403) 6.7x10-3 1.6x10-3 rs922 922(rs922) 800(rs800) 922(rs922) 1873(rs1873) 6.7x10-4 8.2x10-4 rs805 805(rs805) 1845(rs1845) 810(rs810) 805(rs805) 4.2x10-3 7.7x10-4 rs1845 1845(rs1845) 110(rs110) 1.0x10-4 rs1335 1335(rs1335) 348(rs348) 1742(rs1742) 1335(rs1335) 1.4x10-3 4.3x10-3 rs1553 1586(rs1586) 1553(rs1553) 1553(rs1553) 1808(rs1808) 5.8x10-3 1.2x10-3 rs1642 26(rs26) 1462(rs1462) 1462(rs1462) 743(rs743) 2.3x10-3 2.8x10-3 Nhận xét: Số vị trí trùng có 28 vị trí, có vị trí SNP thuật toán AntEpiSeeker(1) lại thành SNP khác thuật tốn AntEpiSeeker(2) Ví dụ: Trong thuật tốn AntEpiSeeker(1) có SNP 1104(rs1104)- 1031(rs1031) thuật tốn AntEpiSeeker(2) từ hai vị trí có hai SNP khác nhau, chứa vị trí SNP thuật tốn AntEpiSeeker(1): 1104(rs1104) - 1703(rs1703) 1031(rs1031)- 447(rs447) Tổng thể, từ vị trí chung tạo từ 28 vị trí chung, thuật tốn AntEpiSeeker(2) có giá trị Pvalue nhỏ Lần hai thực chạy với số lần lặp cho kích thước lớn nhỏ tương ứng là: iItCountLarge = 2500; iItCountSmall =5000 Kết tổng hợp bảng 4.9 57 Bảng 4.9 Kết thực nghiệm chung iItCountLarge = 2500; iItCountSmall =5000 𝑃 – 𝑉𝑎𝑙𝑢𝑒 AntEpiSeeker(1) AntEpiSeeker(2) (ngưỡng) 10-5 5(3.1x10-6) 10-4 5(2.3x10-5) 10(7.5x10-5) 10-3 11(4.1x10-4) 43(3.8x10-4) 10-2 64(5x10-3) 47(5x10-3) Nhận xét: Nhìn vào kết bảng 4.9 cho thấy, với số lần lặp lớn, thuật toán AntEpiSeeker(1) độ phát 𝑘 𝑣ị 𝑡𝑟í tương tác liên quan đến bệnh với khả phát theo hướng giảm so với lần lặp nhỏ bảng 4.6 Ngược lại, thuật tốn AntEpiSeeker(2) có theo hướng ổn định Với giá trị 𝑃 − 𝑉𝑎𝑙𝑢𝑒 = 10-2 , thuật tốn AntEpiSeeker(1) có 40 giá trị 𝑃𝑣𝑎𝑙𝑢𝑒 thuộc vào ngưỡng có giá trị 10-2, với số lần lặp lớn tăng lên thêm 24 SNP Đối với thuật tốn AntEpiSeeker(2) giảm 13 SNP có giá trị 𝑃𝑣𝑎𝑙𝑢𝑒 thuộc vào ngưỡng có giá trị 10-2 tăng 18 SNP 𝑃𝑣𝑎𝑙𝑢𝑒 thuộc vào ngưỡng có giá trị 10-3 Dựa vào hai lần kết thực nghiệm với số lần lặp lớn số lần lặp nhỏ, thấy thuật toán AntEpiSeeker với quy tắc cập nhật mùi SMAAS tốt so với quy tắc cập nhật mùi theo báo đưa Với số lần lặp lớn, số SNP giống hai thuật toán SNPs (xem bảng 4.10) 58 Bảng 4.10 Liệt kê SNPs giống iItCountLarge = 2500; iItCountSmall =5000 Pvalue Bộ SNP AntEpiSeeker(1) AntEpiSeeker(2) 1008(rs1008) 576(rs576) 1.7x10-4 1.7x10-4 2737(rs737) 1217(rs1217) 5.8x10-4 5.8x10-4 420(rs420) 373(rs373) 2.5x10-3 2.5x10-3 1915(rs1915) 1016(rs1016) 6.4x10-4 6.4x10-4 Số vị trí giống với lần lặp hai hai thuật toán nhiều so với lần lặp 11 vị trí (xem bảng 4.11) Bảng 4.11 Liệt kê vị trí giống iItCountLarge = 2500; iItCountSmall =5000 Bộ SNP Vị trí P value AntEpiSeeker AntEpiSeeker AntEpiSeeker AntEpiSeeker (1) (2) (1) (2) rs1561 1561(rs1561) 402(rs402) 1993(rs1993) 1561(rs1561) 2.9x10-3 8.3x10-5 rs204 204(rs204)347(rs347) 204(rs204)129(rs129) 1.9x10-4 7.6x10-4 rs958 656(rs656) 958(rs958) 1462(rs1462) 958(rs958 9.5x10-4 4.7x10-4 rs265 1455(rs1455) 265(rs265) 1267(rs1267) 265(rs265) 1.8x10-3 4.4x10-3 rs631 631(rs631) 1481(rs1481) 904(rs904) 631(rs631) 1.2x10-3 3.6x10-4 rs1764 1345(rs1345) 1764(rs1764) 1764(rs1764) 1184(rs1184) 3.2x10-4 5.4x10-4 rs1763 1673(rs1673) 1763(rs1763) 1100(rs1100) 1763(rs1763 3.1x10-3 3.9x10-3 rs1610 1610(rs1610) 111(rs111)) 1610(rs1610) 202(rs202) 3.9x10-3 1.5x10-3 rs291 291(rs291) 291(rs291) 1.5x10-3 5.1x10-3 59 Bộ SNP Vị trí P value AntEpiSeeker AntEpiSeeker (1) (2) 1708(rs1708) 1773(rs1773) rs1708 AntEpiSeeker AntEpiSeeker (1) 925(rs925) 1708(rs1708) (2) 8.6x10-4 rs806 1678(rs1678) 806(rs806) 806(rs806) 1071(rs1071) 8x10-4 1.3x10-4 rs846 617(rs617)846(rs846) 846(rs846)424(rs424) 1.3x10-3 2.3x10-4 rs1276 933(rs933) 1276(rs1276) 1339(rs1339) 1276(rs1276) 1.5x10-3 2.3x10-4 rs1278 1278(rs1278) 44(rs44) 261(rs261) 1278(rs1278) 5.7x10-4 9.8x10-5 rs1593 1593(rs1593) 1120(rs1120) 587(rs587) 1593(rs1593) 3.8x10-3 7.7x10-4 rs525 1480(rs1480) 525(rs525) 525(rs525) 1320(rs1320) 1.1x10-5 4.2x10-6 rs1173 1173(rs1173) 1991(rs1991) 928(rs928) 1173(rs1173) 5.2x10-5 1.1x10-4 rs1802 1802(rs1802) 1475(rs1475) 242(rs242) 1802(rs1802) 6.7x10-3 1.9x10-3 1352(rs1352) 1475(rs1475) 3x10-3 3.7x10-3 rs1475 rs1606 1606(rs1606) 1373(rs1373) 555(rs555) 1606(rs1606) 1.2x10-3 4.7x10-4 rs1568 1827(rs1827) 1568(rs1568) 1568(rs1568) 455(rs455) 3.6x10-3 1.6x10-4 rs1364 1364(rs1364) 1482(rs1482) 369(rs369) 1364(rs1364) 2x10-3 6.9x10-4 rs1447 270(rs270) 1447(rs1447) 1808(rs1808) 1447(rs1447) 1.4x10-3 1x10-3 rs148 1254(rs1254) 148(rs148) 1742(rs1742) 148(rs148) 5.1x10-3 2.9x10-3 rs633 633(rs633) 1068(rs1068) 528(rs528) 633(rs633) 1.7x10-3 4.5x10-4 rs928 1966(rs1966) 928(rs928) 928(rs928) 1173(rs1173) 6x10-3 1.1x10-4 60 Bộ SNP Vị trí rs1417 P value AntEpiSeeker AntEpiSeeker (1) (2) (1) (2) 1417(rs1417) 1689(rs1689) 1417(rs1417) 1937(rs1937) 3.6x10-3 8x10-3 rs1689 AntEpiSeeker AntEpiSeeker 677(rs677) 1689(rs1689) 1.5x10-3 rs351 351(rs351) 485(rs485) 351(rs351) 1797(rs1797) 1.9x10-3 5.9x10-4 rs1431 1431(rs1431) 1586(rs1586) 1431(rs1431) 224(rs224) 5.5x10-3 2.2x10-4 rs1586 158(rs158) 1586(rs1586) 1.1x10-3 rs1669 150(rs150) 1669(rs1669) 1669(rs1669) 146(rs146) 4x10-3 3x10-3 rs348 348(rs348) 1895(rs1895) 912(rs912) 348(rs348) 5.8x10-3 9.3x10-4 rs1300 1300(rs1300) 1713(rs1713) 3604(rs604) 1300(rs1300) 8.8x10-3 4.2x10-4 rs896 346(rs346) 896(rs896) 187(rs187) 896(rs896) 9.8x10-3 3.1x10-3 rs578 578(rs578) 1360(rs1360) 578(rs578) 1236(rs1236) 7.8x10-3 3.1x10-3 rs922 922(rs922) 1166(rs1166) 820(rs820) 922(rs922) 9x10-3 1.8x10-3 rs1784 1784(rs1784) 815(rs815) 1784(rs1784) 881(rs881) 7.8x10-3 3.8x10-3 rs815 1250(rs1250) 815(rs815) 3.7x10-3 61 Nhận xét: Cột chứa vị trí, cột hai số SNP có vị trí giống cột ba chứa giá trị 𝑷𝒗𝒂𝒍𝒖𝒆 hai thuật toán AntEpiSeeker(1) AntEpiSeeker(2) Trong bảng hai, giá trị 𝑷𝒗𝒂𝒍𝒖𝒆 thuật toán AntEpiSeeker(2) nhỏ so với thuật toán AntEpiSeeker(1) 4.1.4 Phần mềm sử dụng Thuật tốn AntEpiSeeker sử dụng ngơn ngữ lập trình C++ để cài đặt Dựa Dual Core AMD Opteron (tm) Processor 275[22] Trước biên dịch, thư viện khoa học GNU Scientific Library (GSL) cần phải cài đặt máy tính người dùng Trong luận văn thực dựa Intel (R) Core (TM) i5-2450M CPU 2.50GHz 4.2 Ý nghĩa kết thực nghiệm Dựa kết công bố liệu báo cung cấp, mục đích thử nghiệm lại với chương trình chạy thuật tốn so sánh với quy tắc cập nhật mùi Max-Min trơn xử lý song song, có phát vị trí tương tác với hay không Bằng cách chạy với liệu mô báo đưa Hiểu ý nghĩa mỗ bảng báo Biết đánh giá thuật toán tốt xấu để từ so với thuật toán khác thuật toán AntEpiSeeker đưa có hiệu thuật tốn khác như: Thuật toán BEAM, thuật toán SNPHarvester thuật toán Generic ACO Ngoài thử nghiệm với xử lý song song để cải tiến thời gian thuật toán, cài đặt thử nghiệm với quy tắc cập nhật mùi SMAAS so sánh với thuật toán báo đưa cho kết tốt dựa vào giá trị Pvalue 62 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN KẾT LUẬN Trong luận văn thực khảo cứu thuật toán AntEpiSeeker mà tác giả báo[22] đưa cho việc phát tương tác gen nghiên cứu bệnh chứng, áp dụng với liệu lớn Đồng thời giới thiệu số khái niệm di truyền tổng quan thuật toán ACO, giới thiệu số thuật toán ACO nghiên cứu Thuật tốn AntEpiSeeker thơng qua thủ tục tối ưu hóa, thực hai giai đoạn: Giai đoạn đầu sử dụng thuật toán kiến, giai đoạn hai dùng thuật tốn duyệt tồn Thuật tốn AntEpiSeeker thuật toán cải tiến thuật toán Generic ACO chung Thuật toán đưa kết để chứng minh ưu điểm việc tối ưu hóa hai giai đoạn, so sánh khả phát AntEpiSeeker với thuật toán khác Thuật toán AntEpiSeeker đánh giá thông qua so sánh với ba phương pháp tiếp cận: Thuật toán BEAM, thuật toán SNPHarvester thuật toán Generic ACO hai liệu mô thực tế Thông qua kết đánh giá về: Hiệu thuật toán liệu mô phỏng, đánh giá tỉ lệ dương tính giả đánh giá phần trăm phát phát sai liệu lớn mở rộng Kết cho thấy nhìn chung thuật tốn AntEpiSeeker tốt so với thuật toán khác HƢỚNG PHÁT TRIỂN Từ thuật tốn AntEpiSeeker chúng tơi bổ sung thêm xử lý song song để giảm thời gian tính tốn mà thuật tốn chưa có đảm bảo tính đắn thuật tốn, đồng thời cài đặt với quy tắc cập nhật mùi Max-Min trơn tiến hành thực so sánh với quy tắc cập nhật mùi báo đưa Kết so sánh dựa hai tiêu chí: So sánh tốc độ so sánh độ xác dựa vào giá trị 𝑃 𝑣𝑎𝑙𝑢𝑒 Kết cho thấy, thời gian chạy xử lý song song nhanh gấp 1.5 lần so với thời gian chạy thuật toán ban đầu khả phát đánh giá theo giá trị 𝑃 𝑣𝑎𝑙𝑢𝑒 tốt so với kết báo Thuật toán AntEpiSeeker dự án nghiên cứu liên tục nâng cấp tương lai thời gian khả phát tương tác gen nghi ngờ cao có liên quan đến bệnh 63 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đỗ Đức Đông (2012), Phương pháp tối ưu đàn kiến ứng dụng, Đại học Công nghệ- Đại học Quốc gia Hà Nội, luận án Tiến sĩ [2] Hoàng Trọng Phán, Trương Thị Bích Phượng, Trần Quốc Dung (2005), Giáo trình di truyền học, Dự án Giáo dục Đại học- Đại học Huế Tiếng Anh [3] W.Bateson (1909), “Mendel’s Principles of Heredity”, Cambridge University Press, Cambridge [4] YM Cho, MD Ritchie, JH Moore, JY Park, KU Lee, HD Shin, HK Lee, KS Park (2004), “Multifactor-dimensionality reduction shows a two-locus interaction associated with type diabetes mellitus”, Diabetologia, 47:549-554 [5] HJ Cordell (2002), “ Epistasis: what it means, what it doesn't mean, and statistical methods to detect it in humans”, Hum Mol Genet, 11:2463-2468 [6] D Corne, M Dorigo, F Glover (1999), New Ideas in Optimization, McGraw-Hill [7] M Dorigo, G Di Caro, LM Gambardella (1999), “Ant Algorithms for Discrete Optimization”, Artificial Life, 5:137-172 [8] M Dorigo, T.Stützle (2004), Ant Colony Optimization, The MIT Press, Cambridge, Masachusetts, 2004 [9] M Dorigo, L.M Gambardella (1997), “Ant colony system: A cooperative learning approach to the traveling salesman problem”, IEEE Transon evolutionary computation, vol.1, no.1, 1997, pp 53-66 [10] M Dorigo, L.M Gambardella (1997), “Ant colonies for the travelling salesman problem”, Biosystems, 43:73-81 [11] M Dorigo, V Maniezzo, A Colorni (1991), “The Ant System: An autocatalytic optimizing process”, Technical Report 91-016 Revised, Dipartimento di Elettronica, Politecnico di Milano, Milano, Italy [12] RA Fisher (1922), On the interpretation of χ2 from contingency tables, and the calculation of P, Journal of the Royal Statistical Society 1922; 85(1):87-94 [13] S Goss, S Aron, J.L Deneubourg, J.M Pasteels (1989), “Self-organized shortcuts in the Argentine ant”, Naturwissenschaften, 76, 579–581 [14] RJ Klein, C Zeiss, EY Chew, JY Tsai, RS Sackler, C Haynes, AK Henning, JP SanGiovanni, SM Mane, ST Mayne ST (2005), “Complement factor H polymorphism in age-related macular degeneration”, Science, 308:385-389 [15] V Maniezzo, A Carbonaro (2000), “An ANTS heuristic for the frequency assignment problem”, Future Generation Computer Systems, 16:927-935 [16] J Marchini, P Donnelly, LR Cardon (2005), “Genome-wide strategies for detecting multiple loci that influence complex diseases”, Nat Genet, 37:413-417 64 [17] MD Ritchie, LW Hahn, N Roodi N, LR Bailey,WD Dupont, FF Parl, JH Moore (2001), “Multifactor-dimensionality reduction reveals high-order interactions among estrogen metabolism genes in sporadic breast cancer”, Am J Hum Genet, 69:138-147 [18] KR Robbins, W Zhang, JK Bertrand, R Rekaya (2007), “The ant colony algorithm for feature selection in high-dimension gene expression data for disease classification”, Math Med Bio, 24:413-26 [19] T Stützle, H H Hoos (2000), “Max-Min ant system”, Future Gene Comput Syst, vol 26, no.8, 2000, pp 889-914 [20] EG Talbi, O Roux, C Fonlupt, D Robillard (2001), “Parallel Ant Colonies for the quadratic assignment problem”, Future Generation Computer System, 17:441449 [21] CT Tsai, LP Lai, JL Lin, FT Chiang, JJ Hwang, MD Ritchie, JH Moore, KL Hsu, CD.Tseng,CS Liau, YZ.Tseng (2004), “Renin-angiotensin system gene polymorphisms and atrial fibrillation”, Circulation, 109:1640-1646 [22] Y Wang, X Liu, K Robbins, R Rekaya (2010), “AntEpiSeeker: detecting epistatic interactions for case-control studies using a two-stage ant cology optimization algorithm”, BMC Research Notes, 3:117 [23] C Yang, Z He, X Wan, Q Yang, H Xue, W Yu (2009), “SNPHarvester: a filtering-based approach for detecting epistatic interactions in genome-wide association studies”, Bioinformatics, 25:504-511 [24] Y Zhang, JS Liu (2007), “Bayesian inference of epistatic interactions in casecontrol studies”, Nat Genet, 39:1167-1173 Một số trang web [25] http://hoiyhoctphcm.org.vn/Data/pdf/1212Dunstan.pdf [26] http://vietsciences.free.fr/timhieu/khoahoc/ykhoa/ynghiacuatrisoP.htm [27] http://www.zsinhhoc.blogspot.com/2013/01/tuong-tac-at-che.html [28] http://math.hws.edu/javamath/ryan/ChiSquare.html [29] http://xacsuatthongkea.wikispaces.com/file/view/Chuong+6.pdf [30] http://timmachhoc.vn/y-hoc-thuc-chung/297-y-hc-thc-chng-sanofi.html [31] http://tudu.com.vn/vn/y-hoc-thuong-thuc/diem-bao/tac-dong-gen-de-tri-benhhuong-di-moi-trong-tuong-lai/

Ngày đăng: 23/09/2020, 21:29

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN