1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ bài toán cấu trúc chuỗi nguồn

55 32 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • Bài toán tối ưu tổ hợp tổng quát

  • Mỗi bài toán tối ưu tổ hợp tổng quát ứng với một bộ ba trong đó S là tập hữu hạn các trạng thái (lời giải tiềm năng hay phương án), f là hàm mục tiêu xác định trên S, còn Ω là tập các ràng buộc. Mỗi phương án thỏa mãn các ràng buộc gọi là phương án chấp nhận được. Mục tiêu của chúng là tìm ra phương án tối ưu hóa toàn cục đối với hàm mục tiêu , nói cách khác chính là tìm phương án sao cho với mọi . Đối với bài toán này ta có 3 cách giải quyết đó là: vét cạn, kỹ thuật ăn tham hoặc phương pháp tối ưu trong lĩnh vực NP-khó.

  • Các tập C, S, Ω có đặc tính như sau[1,tr.31-32]:

  • 1) Ký hiệu X là tập các vectơ trong C độ dài không quá h: X = . Khi đó, mỗi phương án s trong S được xác định bởi ít nhất một vectơ trong X (như ở điểm 2).

  • 2) Tồn tại tập con X* của X và ánh xạ từ X* lên S sao cho không rỗng với S, trong đó tập X* có thể được xây dựng từ tập con C0 của C nhờ mở rộng tuần tự (điểm 3 dưới đây).

  • 3) Từ C0 ta mở rộng tuần tự thành X* như sau:

  • i) Ta xem x0 = là mở rộng được với .

  • ii) Giả sử là mở rộng được và chưa thuộc vào X*. Từ tập ràng buộc Ω, xác định tập con của C, sao cho thì là mở rộng được.

  • iii) Áp dụng thủ tục từ các phần tử cho phép ta xây dựng được mọi phần tử của X*.

  • Ta gọi đồ thị là đồ thị cấu trúc của bài toán tối ưu tổ hợp, trong đó V là tập đỉnh, E là tập cạnh, H là vectơ các trọng số heuristic của cạnh và là vectơ biểu thị các thông tin học tăng cường . Từ các cạnh ta xây dựng tập X* nhờ mở rộng tập theo thủ tục tuần tự. Nếu không có thông tin heuristics thì ta xem H có các thành phần như nhau và bằng 1.

  • Theo như trình bày ở trên điểm 3 phần iii mục 1.2.1 . Từ đỉnh ta tiến hành mở rộng các đỉnh cho đến khi thuộc vào X*, nghĩa là tìm được lời giải chấp nhận được. Giả sử con kiến đang ở đỉnh và có một đỉnh (để mở rộng (hay có thể hiểu con kiến từ đỉnh i sẽ lựa chọn đỉnh j) được chọn với xác suất như sau:

  • (2.1)

  • Trong đó :

  • , : Giá trị thông tin mùi và thông tin heuristic.

  • : Hai tham số quyết định sự ảnh hưởng tương quan giữa thông tin mùi và thông tin heuristic. Nếu không có học tăng cường. Nếu chỉ có thông tin học tăng cường biểu thị qua vết mùi được sử dụng, không có thông tin heurisric.

  • : Đỉnh lân cận của đỉnh i mà kiến có thể đi đến.

  • Cập nhật mùi

  • Dựa trên lời giải tìm được, đàn kiến sẽ thực hiện cập nhật mùi theo cách học tăng cường.

  • (2.2)

  • Trong đó: : hệ số bay hơi (tỷ lệ lượng mùi bị bay hơi), là hằng số thuộc khoảng (0,1).

  • : lượng mùi do kiến để lại

  • Hình 4.7. Mô tả số điểm ngắt của bộ dữ liệu rn_50_150

Nội dung

Tin sinh học là một lĩnh vực khoa học liên ngành, trong đó sinh học phân tử và tin học đóng vai trò chủ đạo. Sinh học làm môi trường dữ liệu cơ sở, trên đó xây dựng và hoàn thiện các chương trình xử lý dữ liệu ứng dụng làm công cụ hỗ trợ hiệu quả cho việc nghiên cứu, thu nhận và sản xuất ra các sản phẩm sinh học mong muốn khác nhau phục vụ đời sống con người…Về cơ bản, tin sinh học tập trung vào nghiên cứu và áp dụng các phương pháp cũng như các kĩ thuật trong tin học để giải quyết các bài toán trong sinh học phân tử. Tin sinh học có tính ứng dụng cao trong cuộc sống, đặc biệt trong lĩnh vực ydược và trong lĩnh lực di truyền. Di truyền là hiện tượng chuyển những tính trạng của cha mẹ cho con cái thông qua gen của bố mẹ. Trong sinh học, di truyền chuyển những đặc trưng sinh học từ một sinh vật cha mẹ đến con cái và nó đồng nghĩa với di chuyển, gen thừa nhận mang thông tin sinh học. Chính vì vậy mà ngày nay khi xã hội càng ngày càng phát triển, con người càng có nhu cầu tìm hiểu về nguồn gốc của mình và tổ tiên xa xưa của chúng ta. Bài toán cấu trúc chuỗi nguồn là một bài toán cho các thông tin ở dạng một chuỗi của các nhiễm sắc thể hiện tại, và tìm ra được các thông tin về nhiễm sắc thể của tổ tiên. Đó là một bài toán lớn trong sinh học, hiện nay đang được rất nhiều người quan tâm và nghiên cứu. Đã có nhiều thuật toán nghiên cứu và công bố giải quyết bài toán cấu trúc chuỗi nguồn để tìm ra được các thông tin di truyền. Trong luận văn này, tôi sẽ trình bày khảo cứu lại các phương pháp giải quyết bài toán cấu trúc chuỗi nguồn. Tôi khảo cứu và cài đặt lại thuật toán RecBlock được Andrea Roli and Christian Blum đề xuất năm 2009 là một thuật toán hoàn chỉnh nhất để giải bài toán cấu trúc chuỗi nguồn. Sử dụng ý tưởng xây dựng lời giải của RecBlock, trong luận văn chúng tôi đã đề xuất một thuật toán mới đó là thuật toán tối ưu đàn kiến Ant colony optimization (ACO) để giải quyết bài toán cấu trúc chuỗi nguồn mục đích để tìm ra được chuỗi nhiễm sắc thể của tổ tiên dựa trên số lần lai ghép là ít nhất. Đây là thuật toán mới và lần đầu tiên được đưa vào để giải bài toán cấu trúc chuỗi nguồn. Luận văn còn cài đặt với các thuật toán cập nhật mùi khác nhau trong thuật toán ACO. Tuy nhiên vì không gian tìm kiếm rộng nên kết quả chưa tối ưu bằng thuật toán RecBlock, nhưng trong thực nghiệm đã chỉ ra được với ACO giải quyết được với những bài toán có bộ dữ liệu lớn, còn RecBlock chỉ giải được với những bài toán có bộ dữ liệu nhỏ.

1 LỜI CẢM ƠN Trước hết, xin gửi lời biết ơn sâu sắc đến hai người thầy TS Đỗ Đức Đơng thầy PGS.TS Hồng Xn Huấn, hai thầy dành nhiều thời gian tâm huyết hướng dẫn nghiên cứu giúp tơi hồn thành tốt luận văn tốt nghiệp Thầy mở cho vấn đề khoa học lý thú, định hướng nghiên cứu lĩnh vực thiết thực vơ bổ ích, đồng thời tạo điều kiện thuận lợi tốt cho học tập nghiên cứu Tơi xin bày tỏ lịng biết ơn tới thầy cô trường Đại học Công nghệ tham gia giảng dạy chia sẻ kinh nghiệm quý báu cho tập thể cá nhân tơi nói riêng Tôi xin cảm ơn tới thầy anh chị thường xuyên giúp đỡ, trao đổi, góp ý vấn đề khoa học liên quan tới luận văn Cuối tơi bày tỏ lịng biết ơn giúp đỡ anh, chị em đồng nghiệp Bộ môn Tin học trường Đại học Công Đồn, quan nơi tơi cơng tác tạo điệu kiện tốt cho thời gian động viên tơi sớm hồn thành luận văn Một lần nữa, xin chân thành cảm ơn! Hà Nội, tháng năm 2019 Học viên Lê Thị Hào LỜI CAM ĐOAN Những kiến thức trình bày luận văn tơi tìm hiểu, nghiên cứu trình bày lại theo cách hiểu Trong trình làm luận văn tơi có tham khảo tài liệu có liên quan ghi rõ nguồn tài liệu tham khảo Tơi xin cam đoan cơng trình nghiên cứu không chép Hà Nội, tháng năm 2019 Học viên Lê Thị Hào MỤC LỤC STT Từ viết tắt ACO AS ACS NST MMAS SMMAS 3-LAS TSP TƯTH Từ cụm từ Ant Colony Optimization (Tối ưu hóa đàn kiến) Ant System (Hệ kiến AS) Ant Colony System (Hệ kiến ACS) Nhiễm sắc thể Max-Min Ant System (Hệ kiến MMAS) Smooth-Max Min Ant System (Hệ kiến MMAS trơn) Three level ant system (Hệ kiến đa mức 3-LAS) Travelling Salesman Problem (Bài toán người chào hàng) Tối ưu tổ hợp DANH MỤC CÁC BẢNG BIỂU MỞ ĐẦU Tin sinh học lĩnh vực khoa học liên ngành, sinh học phân tử tin học đóng vai trị chủ đạo Sinh học làm mơi trường liệu sở, xây dựng hồn thiện chương trình xử lý liệu ứng dụng làm cơng cụ hỗ trợ hiệu cho việc nghiên cứu, thu nhận sản xuất sản phẩm sinh học mong muốn khác phục vụ đời sống người…Về bản, tin sinh học tập trung vào nghiên cứu áp dụng phương pháp kĩ thuật tin học để giải toán sinh học phân tử Tin sinh học có tính ứng dụng cao sống, đặc biệt lĩnh vực y-dược lĩnh lực di truyền Di truyền tượng chuyển tính trạng cha mẹ cho thông qua gen bố mẹ Trong sinh học, di truyền chuyển đặc trưng sinh học từ sinh vật cha mẹ đến đồng nghĩa với di chuyển, gen thừa nhận mang thơng tin sinh học Chính mà ngày xã hội ngày phát triển, người có nhu cầu tìm hiểu nguồn gốc tổ tiên xa xưa Bài toán cấu trúc chuỗi nguồn toán cho thông tin dạng chuỗi nhiễm sắc thể tại, tìm thơng tin nhiễm sắc thể tổ tiên Đó toán lớn sinh học, nhiều người quan tâm nghiên cứu Đã có nhiều thuật tốn nghiên cứu cơng bố giải tốn cấu trúc chuỗi nguồn để tìm thông tin di truyền Trong luận văn này, tơi trình bày khảo cứu lại phương pháp giải tốn cấu trúc chuỗi nguồn Tơi khảo cứu cài đặt lại thuật toán RecBlock Andrea Roli and Christian Blum đề xuất năm 2009 thuật tốn hồn chỉnh để giải tốn cấu trúc chuỗi nguồn Sử dụng ý tưởng xây dựng lời giải RecBlock, luận văn đề xuất thuật tốn thuật tốn tối ưu đàn kiến Ant colony optimization (ACO) để giải tốn cấu trúc chuỗi nguồn mục đích để tìm chuỗi nhiễm sắc thể tổ tiên dựa số lần lai ghép Đây thuật toán lần đưa vào để giải toán cấu trúc chuỗi nguồn Luận văn cịn cài đặt với thuật tốn cập nhật mùi khác thuật tốn ACO Tuy nhiên khơng gian tìm kiếm rộng nên kết chưa tối ưu thuật toán RecBlock, thực nghiệm với ACO giải với tốn có liệu lớn, cịn RecBlock giải với tốn có liệu nhỏ Ngoài phần kết luận, cấu trúc nội dung luận văn bao gồm: Chương 1: Trình bày sơ lược khái niệm sinh học, phát biểu toán cấu trúc chuỗi nguồn Giới thiệu vài thuật toán giải tốn, trình bày lại thuật tốn RecBlock thuật toán Back-and-Forth Iterated Greedy Chương 2: Giới thiệu thuật toán Ant colony optimization (ACO) vài thuật tốn cập nhật mùi khác ACO Ví dụ toán người chào hàng giải thuật tốn ACO Chương 3: Đề xuất thuật tốn mới, thuật toán ACO để giải toán cấu trúc chuỗi nguồn Đưa ba quy tắc cập nhật mùi khác ACS, MMAS, SMMAS để giải toán Chương 4: Đưa kết thực nghiệm luận văn, so sánh kết thuật toán ACO với quy tắc cập nhật mùi khác nhau, so sánh kết thực nghiệm với số vòng lặp khác so sánh kết thuật toán ACO với thuật toán RecBlock, đưa kết thực nghiệm với liệu lớn CHƯƠNG I BÀI TOÁN CẤU TRÚC CHUỖI NGUỒN (FOUNDER SEQUENCES RECONSTRUCTION PROBLEM) 1.1 Một số khái niệm di truyền học 1.1.1 Một số khái niệm di truyền Di truyền: tượng chuyển tính trạng cha mẹ cho thông qua gen bố mẹ Trong sinh học, di truyền chuyển đặc trưng sinh học từ sinh vật cha mẹ đến đồng nghĩa với di chuyển gen, gen thừa nhận mang thông tin sinh học (hay thông tin di truyền) Thông tin di truyền: thông tin mã hóa nucleotide, di truyền từ hệ sang hệ khác cấp độ phân tử thông qua hoạt động nhân đôi DNA Phép lai tạo: trình hình thành NST sở NST cha mẹ cách ghép hay nhiều đoạn gen hai hay nhiều NST cha mẹ với Alen: dạng khác gen (khơng xảy ra) nằm vị trí xác định nhiễm sắc thể cụ thể Tương tác gen alen tương tác trạng thái khác gen tồn vị trí định cặp nhiễm sắc thể tương đồng Ví dụ 1: Lai hai giống hoa (màu sắc hoa) Quy ước: A- màu đỏ, a- màu trắng (A trội hoàn toàn so với a) Ptc: Hoa đỏ (AA) x Hoa trắng (aa) F1: Hoa hồng (Aa) Tương tác gen không alen tương tác trạng thái khác cặp gen, gen nằm vị trí khác nhau, nằm nhiễm sắc thể cặp nhiễm sắc thể tương đồng khác Ví dụ 2: Ví dụ: Lai hai giống hoa (màu sắc hoa) Quy ước: A-B-: Màu đỏ; A- bb-, aaB-, aabb: Màu trắng Ptc: F1: Hoa đỏ (AABB) x Hoa trắng (aabb) Hoa hồng (AaBb) Nhìn vào ví dụ ví dụ hai thấy có khác Trong ví dụ một, có Ahay a- quy ước màu hoa đỏ màu hoa trắng Trong ví dụ hai, quy ước màu hoa đỏ lại hai alen: A-B-, alen A alen B hai vị trí khác gọi khơng alen DNA tái tổ hợp: phân tử DNA tạo thành từ hai hay nhiều trình tự DNA loài sinh vật khác Trong kỹ thuật di truyền, DNA tái tổ hợp thường tạo thành từ việc gắn đoạn DNA có nguồn gốc khác vào vectơ tách dòng Những vectơ tách dòng mang DNA tái tổ hợp biểu thành protein tái tổ hợp sinh vật Hình 1.1 Hình ảnh tái tổ hợp 1.1.2 Nhiễm sắc thể gien Nhiễm sắc thể cấu trúc có tổ chức tế bào chứa hai loại thơng tin trình tự DNA protein histone có nhiệm vụ kết hợp/đóng gói điều khiển chức trình tự DNA Tập hợp tất nhiễm sắc thể sinh vật gọi hệ gien sinh vật Hệ gien mang toàn thông tin di truyền định đến chức đặc điểm sinh vật Một hệ gien chứa nhiều gien khác Ví dụ hệ gien người chứa khoảng 25 nghìn gien khác Hai hệ gien hai cá thể loài thường giống Sự khác hệ gien hai cá thể tạo khác hai cá thể 10 Hình 1.2 Hệ gien người gồm 23 cặp nhiễm sắc thể 1.1.3 Quá trình đột biến DNA Theo thuyết tiến hóa Darwin lồi sinh vật tiến hóa từ tổ tiên chung (Hình 1.5) Hệ gien sinh vật bị biến đổi theo thời gian trình tiến hóa tác động nhiều yếu tố khác dẫn đến việc tạo lồi sinh vật Hình 1.3 Minh họa trình tiến hóa lồi từ tổ tiên chung Hai trình tự tương đồng: 41 3.6 Số lượng kiến Như trình bày chương 1, khơng sử dụng tìm kiếm địa phương thơng tin heuristic khơng có, giai đoạn đầu vết mùi giúp kiến tìm đường dẫn tới lời giải tốt Nếu sử dụng số lượng kiến ít, giai đoạn đầu khơng tìm lời giải tốt việc cập nhật mùi cập nhật dựa lời giải khơng tốt Khi đó, hướng việc tìm kiếm xung quanh lời giải khơng tốt thuật tốn khơng hiệu Có thể khắc phục phần nhược điểm cách tăng số kiến, để tăng khả tìm lời giải tốt vòng lặp Trong luận văn, cài đặt sử dụng đàn kiến 300 kiến 3.7 Tham số bay Ở vòng lặp, xây dựng lời giải tốt (sử dụng tìm kiếm địa phương thông tin heuristic mạnh), tham số bay xác lập có giá trị lớn, điều giúp kiến quên lời giải xây dựng, tập trung cơng việc tìm kiếm xung quanh lời giải tốt xây dựng Trong trường hợp ngược lại, vịng lặp, khả kiến tìm lời giải tốt khơng cao tham số bay phải thiết lập với giá trị nhỏ Trong luận văn cài đặt thực nghiệm chọn thông số bay 42 CHƯƠNG IV KẾT QUẢ THỰC NGHIỆM 4.1 Mô tả thực nghiệm Dựa giải thuật mơ tả chương III, chương trình ACO, chương trình RecBlock xây dựng ngơn ngữ C#, chạy thực nghiệm Intel (R) Core (TM) i3 CPU 2.50GHz Các kết chạy thử liệu tạo ngẫu nhiên dãy bít Mỗi liệu gồm n tái tổ hợp có chiều dài m với n∈{30,50}, m ∈{2n, 3n, 5n}, với tập nguồn k={5,6,7,8,9,10} Và liệu genotypes_chr9_YRI.phased Hua Wang Jingli Wu dùng để thực nghiệm công bố năm 2013 Bộ test lấy từ địa http://hapmap.ncbi.nlm.nih.gov/downloads/phasing/ 4.1.1 Các thông số cài đặt Các thông số cần thiểt để chạy thuật toán ACO bao gồm: NumberSeeker, NumberLoop, Tmax, Tmin, α, ρ, τ0, Break, SumPheromone, Number, Column Trong đó: + NumberSeeker: Tổng số kiến + NumberLoop: Tổng số vòng lặp + Breack: Điểm ngắt + MinBreack: Điểm ngắt nhỏ + SumPheromone: Tổng mật độ mùi + Number: Số hàng đồ thị tương ứng với 2k + Column: Số cột đồ thị 4.1.2 Kết thực nghiệm Thực nghiệm trường hợp với n={30}, m = {2n} với thông số NumberLoop =1000; NumberSeeker = 300, α = 1, ρ = 0.05 Với liệu thử nghiệm với k={5} với quy tắc cập nhật mùi SMMAS 43 Hình 4.1 Mô tả INPFILE với liệu rn_30_60 Mỗi hàng tái tổ hợp, tái tổ hợp biểu diễn dạng hoán vị hai ký tự File OUTFILE: Là file đầu thị dạng bảng ma trận gồm k cột m hàng Mỗi hàng tập nguồn, ký hiệu tập nguồn theo thứ tự a, b, c, d, e “result.txt” file chứa kết OUTFILE liệu rn_30_60 với k = Hình 4.2 Mơ tả OUTFILE tìm k =5 liệu rn_30_60 Việc phân tích ma trận gen tái tổ hợp thành phân mảnh từ tập nguồn hiển thị file kết “result1.txt” Điểm ngắt đánh dấu gạch thẳng đứng Đây phân tích với 577 điểm ngắt liệu Hình 4.3 Mơ tả OUTFILE tìm điểm ngắt liệu rn_30_60 4.2 So sánh kết thực nghiệm 4.2.1 So sánh kết với ba thuật toán cập nhật mùi khác Dưới giới thiệu kết thực nghiệm so sánh ba phương pháp ACS, MMAS SMMAS với test rn_30_60, rn_50_250 44 Với test rn_30_60 chạy thực nghiệm với giá trị tập nguồn k = {5, 6, 7, 8, 9, 10}, giá trị tập nguồn luận văn thực chạy lần, chọn kết trung bình kết tốt lần chạy Kết phương pháp với test nằm giao cột dịng tương ứng, số biểu thị kết trung bình, hai số kết tốt kết tồi lần chạy Kết trung bình phản ánh chất lượng thuật tốn, cịn kết tốt tồi để tham khảo tính khám phá Các kết tô đậm kết tốt phương pháp Bảng 4.1 Kết thực nghiệm so sánh ba phương pháp ACS, MMAS SMMAS với liệu rn_30_60 Test K 10 ACS MMAS SMMAS 584 579.6 575.6 574 589 528.6 524 536 501 473 483 464 447 442 498 422 520 531 483 498 466 467 464 468 445.2 448 424.8 425 580 492 445.6 423.6 423 532 465.8 443.2 439 524 572 525.8 492 467 462 585 530.2 496.2 485 574 442 449 421.8 429 415 429 Với test rn_50_250 chạy thực nghiệm với giá trị tập nguồn k = {5, 10}, giá trị tập nguồn luận văn thực chạy lần, chọn kết trung bình kết tốt lần chạy 45 Bảng 4.2 Kết thực nghiệm so sánh ba phương pháp ACS, MMAS SMMAS với liệu rn_50_250 Test K 10 ACS MMAS SMMAS 4575.6 4574.2 4568.2 4550 4598 3302.2 3295 4559 4594 3300.8 3317 3289 4532 4581 3299.6 3215 3287 3315 Nhận xét: So sánh kết trung bình Thực nghiệm liệu nhỏ liệu lớn với rn_30_60 rn_50_250, với tập nguồn k={5,6,7,8,9,10} nhận thấy SMMAS cho kết trung bình tốt nhất, ACS cho kết so với MMAS Kết tốt Trong liệu với số tập nguồn khác nhau, ba thuật toán cho kết tối ưu, thuật toán SMMAS cho kết tốt MMAS ACS 4.2.2 So sánh thuật tốn tốt với số vịng lặp khác Khi thay đổi số vịng lặp kết tối ưu So sánh kết trung bình liệu rn_30_60 với tập nguồn k ={5, 6, 7, 8} Với số vòng lặp 1000, 3000, 5000 46 Hình 4.4 So sánh kết liệu rn_30_60 với lần lặp khác 4.2.3 So sánh kết tốt với RecBlock Trong bảng cột thể giá trị tập nguồn với k = {5, , 10}, cột thứ thể kết điểm ngắt thuật toán ACO với quy tắc cập nhật mùi SMMAS, cột thứ thể kết điểm ngắt thuật toán RecBlock Thực nghiệm với liệu rn_30_60, rn_50_150, rn_50_250 Bảng 4.3 So sánh thực nghiệm với rn _30_ 60 Tổng số điểm ngắt K ACO (SMMAS) RecBlock - incomp 572 420 520 386 483 347 464 328 442 296 10 415 291 Bảng 4.4 So sánh thực nghiệm với rn_50_150 Tổng số điểm ngắt K ACO (SMMAS) RecBlock - incomp 2636 1947 2440 1739 2275 1639 2144 1531 2033 1449 10 1958 - 47 Bảng 4.5 So sánh thực nghiệm với rn_50_250 Tổng số điểm ngắt K ACO (SMMAS) RecBlock - incomp 4581 3269 4196 2988 3892 2762 3641 2555 3464 2396 10 3321 - Nhận xét: Qua kết thực nghiệm cho thấy thuật toán ACO cho cho kết không tốt RecBlock, với tập nguồn k = 10 thuật tốn RecBlock khơng cho kết liệu rn_50_150 rn_50_250 Do thấy ACO giải với tốn có liệu lớn Đối với RecBlock thực tìm kiếm đồng thời với tập nguồn, cột thực tìm điểm ngắt ln đến Cịn với thuật tốn ACO khơng gian tìm kiếm rộng hơn, bước kiến có k lựa chọn, kiến chọn đường cho thơng qua xác suất ngẫu nhiên trình bày cơng thức (3.1) Chính đến đâu tìm điểm ngắt ln đến nên với RecBlock không thực với tốn có kích thước nhỏ Cịn với ACO giúp giải với toán lớn 4.3 Kết thực nghiệm liệu lớn tập nguồn K>10 4.3.1 Thực nghiệm với liệu đầu vào n = 50, m = 150 k =11 Hình 4.5 Mơ tả OUTFILE tìm 11 tập nguồn liệu rn_50_150 48 Sử dụng để phân rã tái tổ Hình 4.6 Mô tả OUTFILE phân rã liệu rn_50_150 từ 11 tập nguồn Số điểm ngắt liệu 49 Hình 4.7 Mơ tả số điểm ngắt liệu rn_50_150 4.3.2 Thực nghiệm với liệu đầu vào n = 50, m = 250 k =11 Hình 4.8 Mơ tả OUTFILE tìm 11 tập nguồn liệu rn_50_250 Khi phân tích trả số điểm ngắt: 50 Hình 4.9 Mơ tả số điểm ngắt liệu rn_50_250 Nhận xét: Luận văn sử dụng quy tắc cập nhật mùi SMMAS để thử nghiệm với hai liệu ngẫu nhiên rn_50_150 rn_50_250, tập nguồn k =11 Qua kết thực nghiệm (hình 4.7 hình 4.9) cho thấy thuật tốn ACO cho kết quả, cịn với thuật toán RecBlock với tập nguồn k = 10 hai liệu không cho kết 51 4.3.3 Thực nghiệm với liệu genotypes_chr9_YRI.phased Thực nghiệm với liệu genotypes_chr9_YRI.phased Hua Wang Jingli Wu dùng để thực nghiệm công bố năm 2013 Bộ liệu gồm 120 tái tổ hợp có độ dài m = 1000 Hình 4.10 Mơ tả liệu genotypes_chr9_YRI.phased Hình 4.11 Mơ tả OUTFILE tìm 11 tập nguồn liệu genotypes_chr9_YRI.phased 52 Phân tích số điểm ngắt: Hình 4.12 Mô tả số điểm ngắt liệu genotypes_chr9_YRI.phased Nhận xét: Với liệu genotypes_chr9_YRI.phased gồm 120 tái tố hợp có chiều dài 1000 với k=11 Với liệu đàn kiến phải xây dựng lời giải đồ thị gồm 1000 cột 211 = 2048 hàng Thuật toán ACO cho kết tối ưu Hầu hết phương pháp giải tốn cấu trúc chuỗi nguồn cơng bố kết tới liệu lớn 50 tái tổ hợp có chiều dài 250 với k = 10 Cho đến có nhiều phương pháp khác đưa để giải toán cấu trúc chuỗi nguồn, chưa có báo công bố phương pháp giải với số tập nguồn lớn độ dài tái tổ hợp lớn [6,7,11] Thuật toán ACO dùng để giải toán với liệu lớn 53 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN KẾT LUẬN Bài toán cấu trúc chuỗi nguồn toán lớn sinh học, giúp giải thích thơng tin di truyền tìm thơng tin di truyền tổ tiên, tìm gần gũi lồi với Trong luận văn, chúng tơi cài đặt lại thuật toán recBlock, đề xuất thuật tốn ACO để giải toán Sử dụng với ba quy tắc cập nhật mùi khác So sánh thực nghiệm quy tắc cập nhật mùi chọn quy tắc cập nhật mùi Max – Min trơn (SMMAS) tốt với toán cấu trúc chuỗi nguồn So sánh thực nghiệm với thuật toán RecBlock, để chứng minh ACO dùng để giải với tốn lớn, khơng gian tìm kiếm rộng HƯỚNG PHÁT TRIỂN Đối với thuật tốn ACO giải tốn câu trúc chuỗi nguồn có khơng gian tìm kiếm rộng nên kết chưa thực tốt Các bước thuật toán ACO thiết kế áp dụng vào kỹ thuật trình độ cao hơn, chẳng hạn cho thêm thơng tin Heuristic tìm kiếm cục Hơn tương lai sử dụng tốn cấu trúc chuỗi nguồn để tìm bệnh di truyền để có hướng giải 54 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đỗ Đức Đông Hoàng Xuân Huấn (2011), “Về biến thiên vết mùi phương pháp ACO thuật toán mới”, Tạp chí Tin học điều khiển học, T.27, tr 263-275 [2] Đỗ Đức Đông (2012), Phương pháp tối ưu đàn kiến ứng dụng, Đại học Công nghệ- Đại học Quốc gia Hà Nội, luận án Tiến sĩ [3] Hồng Trọng Phán, Trương Thị Bích Phượng, Trần Quốc Dung (2005), Giáo trình di truyền học, Dự án Giáo dục Đại học- Đại học Huế [4] Lê Sỹ Vinh (2013), Giáo trinh Nhập môn Tin sinh – trường Đại học Công nghệ Đại học Quốc gia Hà Nội Tiếng Anh [5] V Bafna and V Bansal The number of recombination events in a sample history: Conict graph and lower bounds IEEE/ACM Transactions on Computational Biology and Bioinformatics, 1:78- 90, 2004 [6] Andrea Roli and Christian Blum.Tabu Search for the Founder Sequence Reconstruction Problem: A Preliminary Study (2009) [7] Andrea Roli, Christian Blum Large Neighbourhood Search Algorithms for the Founder Sequences Reconstruction Problem (2012) [8] C Blum and A Roli Metaheuristics in combinatorial optimization: Overview and conceptual comparison ACM Computing Surveys, 35(3):268 - 308, 2003 [9] E Ukkonen Finding founder sequences from a set of recombinants In R Guig o and D Gus-eld, editors, Proceedings of the 2nd Workshop on Algorithms in Bioinformatics { WABI2002, volume 2452 of Lecture Notes in Computer Science, pages 277- 286 Springer, Heidelberg, Germany, 2002 [10] G W Thyson, J Chapman, P Hugenholtz E Allen, R Ram, P Richardson, V Solovyev, E Rubin, D Rokhsar, and J Baneld Community structure and metabolism through reconstruction of microbial genomes from the environment Nature, 428:37- 43, 2004 [11] Jingliwu, Huawang A Parthenogenetic Algorithm for the Founder Sequence Reconstruction Problem (2013) [12] M Dorigo, L.M Gambardella (1997) “Ant colony system: A cooperative learning approach to the traveling salesman problem”, IEEE Transon evolutionary computation, vol.1, no.1, 1997, pp 53-66 [13] M Dorigo, T.Stützle (2004) Ant Colony Optimization, The MIT Press, Cambridge [14] M Dorigo, V Maniezzo, A Colorni (1991) “The Ant System: An autocatalytic optimizing process”, Technical Report 91-016 Revised, Dipartimento di Elettronica, Politecnico di Milano, Milano, Italy [15] N El-Mabrouk and D Labuda Haplotypes histories as pathways of recombinations Bioinformatics, 20(12):1836-1841, 2004 55 [16] Nadia El-Mabrouk, and Damian Labuda Haplotypes histories as pathways of recombinations [17] P Rastas and E Ukkonen Haplotype inference via hierarchical genotype parsing In R Giancarlo and S Hannenhalli, editors, Proceedings of the 7th Workshop on Algorithms in Bioinformatics { WABI2007, volume 4645 of Lecture Notes in Computer Science, pages 85- 97 Springer, Heidelberg, Germany, 2007 [18] R.R Hudson and N.L Kaplan Statistical properties of the number of recombination events in the history of a sample of dna sequences Genetics, 111:147- 164, 1985 [19] R.R Hudson and N.L Kaplan Statistical properties of the number of recombination events in the history of a sample of dna sequences Genetics, 111:147- 164, 1985 [20] S Benedettini, C Blum, and A Roli A randomized iterated greedy algorithm for the founder sequence reconstruction problem In C Blum and R Battiti, editors, Proceedings of the Fourth Learning and Intelligent OptimizatioN Conference { LION 4, volume 6073 of Lecture Notes in Computer Science, pages 37{51 Springer, Heidelberg, Germany, 2010 [21] S.R Myers and R.C Griths Bounds on the minimum number of recombination events in a sample history Genetics, 163(1):375 - 394, 2003 [22] T Stützle, H H Hoos (2000) An analytical upper bound on the minimum number of recombinations in the historyof SNP sequences in populations Information Processing Letters, 109(9):427- 431, 2009 [23] Y Wu An analytical upper bound on the minimum number of recombinations in the historyof SNP sequences in populations Information Processing Letters, 109(9):427- 431, 2009 ... giải toán cấu trúc chuỗi nguồn Như phân tích tốn cấu trúc chuỗi nguồn chia làm hai toán nhỏ Bài toán thứ tìm số điểm ngắt nhỏ nhất, tốn thứ hai tìm số tập nguồn cho số tái tổ hợp tạo từ tập nguồn. .. bố giải tốn cấu trúc chuỗi nguồn để tìm thông tin di truyền Trong luận văn này, tơi trình bày khảo cứu lại phương pháp giải tốn cấu trúc chuỗi nguồn Tơi khảo cứu cài đặt lại thuật toán RecBlock... trúc chuỗi nguồn, phải tìm chuỗi gen mà cá thể đạt từ việc tái tạo chuỗi gen giảm thiểu số lượng lai ghép Bài toán mang tên tốn cấu trúc chuỗi nguồn Tìm lời giải tốn giúp phần hiểu rõ thêm nguồn

Ngày đăng: 15/10/2020, 13:45

TỪ KHÓA LIÊN QUAN

w