Các bài toán tối ưu tổ hợp và tính toán mềm (tt)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	27
Dung lượng	1,11 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN NGỌC HÀ CÁC BÀI TOÁN TỐI ƯU TỔ HỢP VÀ TÍNH TỐN MỀM Chun ngành:Khoa học máy tính Mã số:62.48.01.01 TĨM TẮT LUẬN ÁN TIẾN SĨ CƠNG NGHỆ THƠNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS.Hồng Xn Huấn GS TS.Thái Trà My HÀ NỘI – 2017 Công trình hồn thành tại: Trường Đại học Cơng nghệ, Đại học Quốc gia Hà Nội Người hướng dẫn khoa học: PGS TS Hoàng Xuân Huấn GS.TS Thái Trà My Phản biện: Phản biện: Phản biện: Luận án bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp vào hồigiờ ngàythángnăm Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà Nội MỞ ĐẦU Tính cấp thiết luận án Các phương pháp tối ưu tổ hợp (TƯTH) nghiên cứu sớm, từ thời Euler (thế kỷ 18), ngày nay, với phát triển nhanh chóng cơng nghệ thơng tin, chúngđang nhiều người quan tâm nghiên cứuvà ứng dụng rộng rãi toán thực tế đặc biệt tin-sinh học Trong đó, ngày gặp nhiều tốn ưu tổ hợp TƯTH) thuộc loạiNP-khócỡ (size) lớn Trong tiếp cận truyền thống, toán thuật toán giải phải tuân thủ nhiều điều kiện toán học khắt khe:  Bài toán phải thiết lập đắn (tồn nghiệm ổn định với điều kiện ban đầu) quy hóa để trở nên đắn, có yếu tố khơng chắn cần xử lý dựa lý thuyết xác suất thống kê  Các thuật tốn giải phải chứng minh tính hội tụ ước lượng sai số/ tỷ lệ tối ưu, với tốn cỡ (size) lớn thuật tốn phải có thời gian đa thức Vì có đòi hỏi nên thuật tốn đề xuất khơng đủ để đáp ứng nhu cầu ngày tăng ứng dụng Các phương pháp tính tốn mềm giải quyếtcác toán phức tạptheo tiếp cận mềm dẻo Kết thực nghiệm cho thấy hiệu tốt tiếp cận nên chúng thu hút nhiều người nghiên cứu, ứng dụng Trong tiếp cận tính tốn mềm, thuật toán heuristics metaheuristicsthường đề xuất áp dụng cho cácbài tốn TƯTHkhó cỡ lớn Trong hiệu thuật toán đánh giá thực nghiệm ý tưởng đề xuất Các thuật toán heuristics cho phép tìm kiếm nhanh (thường theo kiểu tham lam) lời giải đủ tốt thường hướng tới cực trị địa phương Các thuật tốn metaheuristics thường có thời gian chạy lâu thuật toán heuristics hướng tới cực trị tồn cục, thời gian chạy lâu lời giải tìm tốt Đa số phương pháp metaheuristics dựa ý tưởng mô tự nhiênvới ngầm định trình phát triển tự nhiên thường mang tính tối ưu Trong đó, cácthuật tốn di truyền (GA), tối ưu đàn kiến (ACO), memetic sử dụng rộng rãi cho toán TƯTH khó Đặc biệt, phương pháp ACO Dorigo đề xuấtrất thích hợp cho tốn tối ưu tổ hợp đồ thị GA phương pháp metaheuristics đề xuất sớm thông dụng Tuy nhiên, bước lặp thuật toán GA phải dùng lại nhiều lời giải bước lặp trước nên thường hiệu thuật toán ACO Trong phương pháp ACO, toán nguyên thủy đươc đưa thành tốn tìm đường tối ưu đồ thị cấu trúc thủ tục bước ngẫu nghiên dựa thông tin heuristics thông tin học tăng cường Bốn yếu tố ảnh hưởng nhiều đến chất lượng thuật toán ACO là: 1) Quy tắc cập nhật mùi 2) Đồ thị cấu trúc 3) Thông tin heuristics 4) kỹ thuật tìm kiếm địa phương Ba yếu tố sau xây dựng xác định tùy theo toán cụ thể, chất lượng chúng xác định nhờ thực nghiệm Các quy tắc cập nhật mùi có tính phổ dụng tham số thích hợp phải xác định thực nghiệm Khi áp dụng kỹ thuật tìm kiếm cục cho thuật toán ACO theo lược đồ memeticta có thuật tốn ant-based Những phát chế di truyền thể sống thúc đẩy sinh học phân tử nói riêng cơng nghệ sinh học nói chung phát triển mạnh mẽ nửa kỷ qua vàtrở nên lĩnh vực nghiên cứu ứng dụng hấp dẫn Tuy nhiên nghiên cứu phòng thí nghiệm đòi hỏi nhiều thời gian tốn Cùng với phát triển công nghệ thông tin, tin-sinh họcra đời công cụ trợ giúp hiệu cho nghiên cứu sinh-y-dược Việc nghiên cứu tính tương đồng/khác biệt cấu trúc khơng đủ để phát tính tương đồng/khác biệt chức thể sống Nghiên cứu mạng sinh học mạng tương tác protein-protein (PPI), mạng điều hòa gen (gene regulatory), mạng vị trí liên kết protein,mạng trao đổi chất…mang lại tiếp cận nghiên cứu hiệu phân tích chức sinh học phân tử Đặc biệt, việc dóng hàng mạng tương tác protein-protein mạng vị trí liến kết protein cho phép dự đoán đặc điểm chức ởcác loài chưa nghiên cứu kỹ từcác tri thức lồi biết, nhờ hiểu rõ quan hệ tiến hóa sinh học, hỗ trợ thơng tin để nghiên cứu thuốc điều trị bệnh di truyền Các tốn thuộc loại NP-khó thu hút nhiều người nghiên cứu/ứng dụng tính quan trọng chúng Trong bối cảnh đó, chúng tơi chọn chủ đề nghiên cứu "Các toán tối ưu tổ hợp tính tốn mềm” với nội dung nghiên cứu áp dụng kỹ thuật TƯTH mềm để đề xuất số thuật tốn thơng minh giải haibài tốn dóng hàng tồn cục mạng tương tác protein-protein dóng hàng nhiềumạngvị trí liên kết protein (sẽ gọi gọn tốn dóng hàng nhiều đồ thị ) với chất lượng lời giải thời gian tính tốn tốt so với thuật toán Mục tiêu luận án Tìm hiểu dạng tốn dóng hàng mạng protein nêu thuật toán giải chúng đề xuất thời gian gần Tìm hiểu kỹ thuật tính tốn mềm để từ thấy rõ ưu nhược điểm phương pháp Trên sở đó, đề xuất thuật toán với chất lượng lời giải tốt thuật toán thời gian ngắn cho tốn Các đóng góp luận án Trong thời gian qua, với cán hướng dẫn vàcác cộng sự, tác giả luận án có đóng góp sau  Đề xuất ba thuật tốn cho tốn dóng hàng tồn cục mạng tương tác protein-Protein, bao gồm thuật toán heuristics FASTAN hai thuật toán tối ưu đàn kiến: ACOGNA ACOGNA++  Đề xuất ba thuật toán dựa tối ưu đàn kiến cho tốn dóng hàng nhiều đồ thị, bao gồm ACO-MGA, ACO-MGA2 ACOTS-MGA Kết thực nghiệm cho thấy hiệu trội củacác thuật toán đề xuất so với thuật tốn tiên tiến có Các kết luận án công bố báo cáo hội nghị/hội thảo quốc gia/quốc tế bao gồm báo cáo hội nghị quốc tế (Cơng trình 1,2,3,5) vàmột hội thảo toàn quốc “Nghiên cứu ứng dụng cơng nghệ thơng tin” (Cơng trình 4), ngồi có báo gửi đăng tạp chí Bố cục luận án Ngoài phần mở đầu kết luận, luận án tổ chức sau: Chương giới thiệu toán tối ưu tổ hợp dạng tổng quát phương pháp metaheuristic bao gồm giải thuật di truyền tính tốn tiến hóa, thuật toán memetic phương pháp tối ưu đàn kiến Chương giới thiệu hai tốn dóng hàng mạng tương tác protein-protein dóng hàng nhiều đồ thị số vấn đề liên quan Chương trình bày ba thuật toán đề xuất để giải toán dóng hàng tồn cục mạng tương tác protein-protein Hiệu thuật toán kiểm nghiệm liệu chuẩn (IsoBase) sử dụng thuật toán Các thực nghiệm cho thấy hiệu trội thuật toán đề xuất Chương trình bày ba thuật tốn dựa phương pháp tối ưu đàn kiến để giải tốn dóng hàng nhiều mạng vị trí liên kết protein Các kết thực nghiệm liệu mô liệu thực cho thấy thuật toán đề xuất tốt hẳn so với thuật tốn để giải tốn dóng hàng nhiều đồ thị Chương TỐI ƯU TỔ HỢP VÀ TÍNH TỐN MỀM Chương phát biểu tốn TƯTH tổng quát vấn đề liên quan, sau giới thiệu ngắn gọn phương pháp tối ưu theo tiếp cận tính tốn mềm, bao gồm GA, tính tốn tiến hóa, thuật tốn memetic phương pháp ACO 1.1 Bài toán tối ưu tổ hợp 1.1.1 Phát biểu toán tổng quát Một cách tổng quát, tốn TƯTH phát biểu sau: Cho ba (𝑆, 𝑓, Ω), S tập hữu hạn trạng thái (lời giải tiềm hay phương án), f hàm mục tiêu xác định S, Ω tập ràng buộc Mỗi phương án s ∈ S thỏa mãn ràng buộc Ω gọi phương án (hay lời giải) chấp nhận Mục đích ta tìm phương án chấp nhận s∗ tối ưu hóa tồn cục hàm mục tiêu f Chẳng hạn với tốn cực tiểu f(s∗ ) ≤ f(s) với phương án chấp nhận s 1.1.2 Các ví dụ Trong đời sống hệ thơng tin, ta thường gặp nhiều tốn tối ưu tổ hợp quan trọng Chẳng hạn như: tìm đường ngắn nối hai điểm đồ thị cho, lập kế hoạch phân phối nguồn hàng tới nơi tiêu thụ với chi phí cực tiểu, lập thời khóa biểu cho giáo viên học sinh thuận lợi nhất, định tuyến cho gói liệu Internet hay toán lĩnh vực tin sinh học… 1.1.3 Các cách tiếp cận giải toán tối ưu tổ hợp Với tốn TƯTHNP-khó có cỡ nhỏ, người ta tìm lời giải tối ưu nhờ tìm kiếm vét cạn Tuy nhiên, với tốn cỡ lớn đến chưa thể có thuật tốn tìm lời giải với thời gian đa thức nên tìm lời giải gần hay đủ tốt Theo cách tiếp cận truyền thống tiếp cận cứng, thuật toán gần phải chứng minh tính hội tụ ước lượng tỷ lệ tối ưu Với việc đòi hỏi khắt khe toán học vậylàm hạn chế số lượng thuật tốn cơng bố, khơngđáp ứng nhu cầu ngày phong phú đa dạng nghiên cứu ứng dụng Để khắc phục tình trạng này, người ta dùng tiếp cận đủ tốtđể xây dựng thuật toán tối ưu mềm 1.2 Tính tốn mềm Tính tốn mềmcho cách tiếp cận để giải tốn khó, thông tin không đầy đủ, thiếu chắn cho kết lời giải đủ tốt gần mà tiếp cận truyền thơng hay tính tốn cứng (hard computing) không giải Tiếp cận gồm phương pháp sử dụng tập mờ/ tập thô, phương pháp học máy mạng nơ ron nhân tạo, máy tựa vector (SVM), giải thuật tiến hóa giải thuật di truyền tối ưu bầy đàn, tối ưu đàn kiến, tối ưu bầy ong, giải thuật memetic, hệ miễn dịch nhân tạo… Đối với tốn TƯTH khó, phương pháp tính tốn mềm đánh giá chất lượng dựa thực nghiệm mà không thiết phải chứng minh tính hội tụ ước lượng tỷ lệ tối ưu Các thuật toán thường xây dựng dựa ý tưởng “có lý” hiệu chúng đánh giá dựa vào kết thử nghiệm tập liệu đủ tin cậy 1.2.1 Các thuật toán dựa thực nghiệm Các phương pháp phát triển theo hai hướng heuristic metaheuristics Các thuật toán heuristic đề xuất riêng biệt cho tốn cụ thể, cho phép tìm nhanh lời giải đủ tốt xấp xỉ tối ưu địa phương Theo cách hiểu chung nhất, thuật toán metaheuristics tổng qt lược đồ tính tốn đề xuất cho lớp toán rộng, dùng cho toán cụ thể cần thêm vận dụng chi tiết cho phù hợp Nhờ lược đồ này, người dùng xây dựng thuật toán cho toán thực tế mà khơng đòi hỏi có kiến thức tốt tốn học tính tốn, vậy, chúngđang dùng phổ biến ứng dụng Các thuật toán thường có thời gian chạy lâu thuật tốn truyền thống tìm kiếm địa phương lời giải hướng tới tối ưu toàn cục 1.2.2 Giải thuật di truyền GA J H Holland trường đại học Michigan giới thiệuđầu tiên vào năm 1975, kỹ thuật mơ q trình tiến hố tự thích nghi quần thể sinh học dựa học thuyết Darwin để tìm gần lời giải tối ưu tồn cục Sau J.H Holland,có nhiều người nghiên cứu lý thuyết ứng dụng GA cáclĩnh vực khác sinh học, khoa học máy tính, kỹ thuật lai ghép, xử lý ảnh… thuật tốn metaheuristics thơng dụng 1.2.2 Tính tốn tiến hóa thuật tốn Memetic Thuật ngữ tính tốn tiến hóa ban đầu để phương pháp tìm lời giải nhờ đưa sử dụng GA Ngày dùng để chung cho phương pháp tối ưu dựa quần thể, quần thể hệ sau xây dựng dựa thông tintừ quần thể trước để tìm lời giải Các thuật toán thường xây dựng dựa lược đồ metaheuristics, chẳng hạn thuật toán tối ưu bầy đàn(Particle swarm optimization: PSO),đom đóm (Firefly algorithm), dơi (Bat algoritm)… Memetic cáckỹ thuật tìm kiếm dựa quần thể, ban đầu áp dụng cho giải thuật di truyền ứng dụng hiệu cho thuật toán khác Trong thuật toán memetic,chẳng hạn GA ACO, cuối vòng lặp t, người ta tìm tập lời giải Ω(t) tập thuật tốn tìm kiếm địa phương 𝒜(𝑡)để áp dụng thuật tốn tìm kiếm tăng cường cách linh hoạt phù hợp với đặc điểm toán Kết thực nghiệm cho thấy việc áp dụng tìm kiếm địa phương đa dạng linh hoạt bước lặp tùy theo ràng buộc đặc điểm hàm mục tiêu cải thiện đáng kể chất lượng thuật toán so với thuật toán sử dụng đơn điệu thuật tốn tìm kiếm cho bước lặp 1.3 Phương pháp tối ưu đàn kiến Phương pháp tối ưu đàn kiến (ACO) thuật tốn mơ cách tìm đường tới tổ kiến tự nhiên để giải tốn TƯTH khó Phương pháp Dorigo giới thiệu vào năm 1991[6] dạng hệ kiến(Ant System) ngày phát triển nhiều biến thể ứng dụng rộng rãi 1.3.1 Kiến tự nhiên kiến nhân tạo Kiến tự nhiên Trên đường đến nguồn thức ăn trở tổ, kiến thực để lại vết hoá chất gọi vết mùi (pheromone trail) theo vết mùi kiến khác để tìm đường Đường có nồng độ vết mùi cao có nhiều khả kiến chọn Nhờ cách giao tiếp gián tiếp đàn kiến tìm đường ngắn từ tổ tới nguồn thức ăn Việc tìm đường kiến tự nhiên dựa nồng độ vết mùi làm taliên tưởng tới cách học tăng cường cho toán chọn tác động tối ưu, gợi mở mơ hình mơ cho kiến thực để tìm đường đingắn hai nút (tương ứng tổ nguồn thức ăn) đồ thị Trên sở đó, mở rộng thành phương pháp ACO để giải toán tối ưu tổ hợp khó Kiến nhân tạo Khi mơ hành vi đàn kiến để giải toán thực, người ta dùng đa tác tử (multiagent) làmđàn kiến nhân tạo, kiến nhân tạo tác tử, có nhiều khả kiến tự nhiên Kiến nhân tạo (về sau gọi kiến) có nhớ riêng, có khả mở rộng, chẳng hạn,ghi nhớ đỉnh thăm hành trình tính độ dài đường chọn Ngồi kiến trao đổi thơng tin có với nhau, thực tính tốn cần thiết, cập nhật mùi… Nhờ khả mở rộng mà đàn kiến thực lặp q trình tìm lời giải nhờ thủ tục bước đồ thị cấu trúc tương ứng toán cập nhật mùi theo phương thức học tăng cường để tìm lời giải chấp nhận xác định lời giải đủ tốt toàn cục 1.3.2 Lược đồ chung phương pháp ACO Procedure Thuật toán ACO Begin Initialize: Khởi tạo vết mùi, n_ants while Khi điều kiện dừng chưa thỏa mãn for i=1 to n_ants Xây dựng lời giải; Cập nhật lời giải tốt; end for Cập nhật mùi end while End Hình 1 Đặc tả thuật toán ACO tổng quát 1.3.3 Thủ tục bước ngẫu nhiên xây dựng lời giải Giả sử kiến phát triển xâu 〈𝑢 , … , 𝑢 〉 𝑢 = 𝑖nhưngchưa cho lời giải chấp nhận nhờ Ω ta xác định tập đỉnh 𝐽 (𝑖)có thể phát triển thành phần … 𝑢 = 𝑗 chọn với xác suất [ 𝑝 = ∑∈ ( )] [ ( )[ ( )] ( )] [ ( )] 𝑛ế𝑢 𝑗𝐽 (𝑖) (2.1) 𝑛ế𝑢 𝑗 ∉ 𝐽 (𝑖) 𝛼, 𝛽 số dương chọn trước Thủ tục tiếp tục xâu 〈𝑢 , … , 𝑢 〉 tương ứng với lời giải s S Bằng cách kiến xây dựng lời giải vòng lặp thực đánh giá lời giải để câp nhật mùi theo quy tắc chọn 1.3.4 Các quy tắc cập nhật mùi Việc cập nhật mùi, phản ánh chếhọc tăng cường ảnh hưởng định chất lượng thuật toán nên thường dùng để làm tên gọi cho lớp thuật toán dùng Để đảm bảo vết mùi hội tụ, người ta sử dụng số bay vết mùi 0 (|V1|×(E1|+|E2|)) (4.8) Như độ phức tạp FastAn so với độ phức tạp SPINAL thấp nhiều 3.3.3 Kết thực nghiệm Luận án so sánh thuật toán FASTAn Spinal chất lượng lời giải thời gian chạy Kết thực nghiệm FASTAn tìm lời giải (dóng hàng tồn cục) có điểm GNAS |E12| tốt nhiều so với Spinal (p-value 𝑘ℎơ𝑛𝑔 𝑐ó đỉ𝑛ℎ 𝑘ề ∆𝜏 = (4.18) 𝜌𝜏 𝑛ế𝑢 < 𝑖, 𝑓(𝑖) > 𝑐ó í𝑡 𝑛ℎấ𝑡 𝑚ộ𝑡 đỉ𝑛ℎ 𝑘ề Vết mùi đặt cạnh đồ thị cấu trúc cập nhật theo công thức (3.19) (3.20)  ij  (1   ) ij   ij (4.19)   *  max  ij     *  (4.20) j=f(i) j  f (i ) 3.5.5 Thủ tục tìm kiếm cục Thủ tục tìm kiếm cục ACOGNA++ sử dụng tương tự ACOGNA 3.5.6 Kết thực nghiệm Luận án tiến hành so sánh chất lượng lời giải thuật toán theo tiêu chuẩn S3, GNAS, EC Thuật toán ACOGNA++ so sánh với thuật toán ACOGNA, MAGNA++, ModuleAlign Điểm thuật toán ACOGNA++ so với ACOGNA tối ưu theo hàm mục tiêu khác (tương tự MAGNA++) Khi so sánh theo hàm mục tiêu GNAS EC, thuật tốn ACOGNA ACOGNA++ có chất lượng tương đồng so sánh thuật tốn ACOGNA++ chạy với tiêu chuẩn tối ưu S3 Kết thực nghiệm cho thấy thuật toán ACOGNA++ cho chất lượng lời giải theo tiêu chuẩn S3 vượt trội so với thuật toán lại 15 Chương BÀI TỐN DĨNG HÀNG CÁC MẠNG CÁC VỊ TRÍ LIÊN KẾT PROTEIN Chương giới thiệu khái niệm liên quan đến tốn dóng hàng nhiều đồ thị, cơng cụ để phân tích cấu trúc protein Bên cạnh giới thiệu thuật tốn phát triển dựa phương pháp tối ưu hóa đàn kiến: ACO-MGA, ACO-MGA2, ACOTS-MGA Thuật toán ACOMGA xây dựng dựa phương pháp tối ưu đàn kiến túy Thuật toán ACO-MGA2 xây dựng dựa lược đồ memetic theo giai đoạn, giai đoạn đầu sử dụng ACO, khơng có tìm kiếm cục bộ, giai đoạn sau có áp dụng tìm kiếm cục Thuật tốn thứ ACOTS-MGA có kết hợp thuật tốn ACO tìm kiếm Tabu theo lược đồ memetic để tìm lời giải cho tốn dóng hàng nhiều đồ thị 4.1 Bài tốn dóng hàng nhiều đồ thị 4.1.1 Tập nhiều đồ thị (multigraph) Một multigraph tập hợp đồ thị G ={G1(V1,E1),…,Gn(Vn,En)}, đócác đồ thị Gi(Vi,Ei) liên thơng, đỉnh (node) gán nhãn thuộc tập L cho trước, cạnh có trọng số biểu thị khoảng cách đỉnh Trong mơ hình vị trí liên kết protein (protein binding sites), nhãn nodes là: hydrogen-bond donor, acceptor, mixed donor/acceptor, hydrophobic aliphatic, aromatic Trong đồ thị có tốn tử soạn thảo (edit operations) định nghĩa sau Định nghĩa 4.1 (Các toán tử soạn thảo) Trên đồ thị G(V,E) tập đồ thị G có tốn tử soạn thảo: i) Chèn xóa bớt nút: Một nút 𝑣 ∈ 𝑉 cạnh liên kết với bị xóa chèn vào ii) Thay đổi nhãn nút: Nhãn 𝑙(𝑣) nút 𝑣 ∈ 𝑉 thay nhãn khác thuộc tập L iii) Thay đổi trọng số cạnh: Trọng số w(e) cạnh e thay đổi tùy theo hình thể khác 4.1.2 Dóng hàng nhiều đồ thị Cho tập đồ thị G ={G1(V1,E1),…,Gn(Vn,En)}, với tập đỉnh Vita thêm vào nút dummy (ký hiệu là ) khơng có cạnh kết nối với đỉnh khác, dóng hàng G định nghĩa sau Định nghĩa 4.2 (Multiple Graph Alignment) Tập 𝐴 {V1{}}  …  {Vm{}} dóng hàng đa đồ thị G nếu: Với i=1,…,n với 𝑣 ∈ 𝑉 , tồn a = (a1,…,an) ∈ 𝐴sao cho 𝑣 = 𝑎 Với a = (a1,…,an) ∈ 𝐴, tồn ≤ i ≤ n cho𝑎 ≠  Hình 4.1 minh họa dóng hàng 4-đồ thị với đỉnh dummy dạng hình vng đỉnh có nhãn tròn có nhãn ký tự Lưu ý đồ thị dùng đỉnh dummy để dễ hình dung, đồ thị thứ thứ tư ta để hai đỉnh có nhãn dummy với nghĩa nút hàng tương ứng dóng với nút dummy đồ thị 16 Hình Một dóng hàng nhiều đồ thị tập đồ thị , đỉnh hình vng dummy đỉnh tròn có nhãn ký tự tương ứng 4.1.3 Hàm đánh giá chất lượng dóng hàng Định nghĩa4.3(Hàm đánh giá chất lượng dóng hàng) Với dóng hàng A đa đồ thị G, hàm đánh giá chất lượng s(A) xác định theo biểu thức (4.1): n s ( A)   ns (a i )  i 1  (5.1) es( , a j ) 1i  j  n ns điểm đánh giá tính phù hợp cột tương ứng tính theo biểu thức (4.2): nsm l(a ij )=l(aki ) i   a1  i i nsmm l(a j )  l(ak )   ns       (5.2) i i 1 j  k  m  nsdummy a j =  , ak  i a   m  i i nsdummy a j  , ak  es đánh giá tính tương thích độ dài cạnh tính biểu thức (4.3): esmm (aki ,akj )  Ek , (ali ,al j )  El  a   a   (aki ,akj )  Ek , (ali ,al j )  El     esmm es    ,       d klij  ε   a i   a j   1 k l  m esm  m   m  es ij  mm d kl  ε i j (5.3) Trong công thức (4.3) 𝑑 = 𝑤 𝑎 − 𝑤 𝑎 Các tham số (nsm, nsmm , nsdummy , esm , esmm ) lấy [10]: nsm = 1.0; nsmm = -5.0; nsdummy = -2.5; esm = 0.2; esmm =-0.1 Lời giải cần tìm tốn MGA dóng hàng làm cực đại hàm đánh giá 𝑠(𝐴) Đây tốn NP-khó, dùng phương pháp vét cạn độ phức tạp O((Vmax)! ) với Vmax số đỉnh đồ thị có nhiều đỉnh n số đồ thị 4.2 Thuật toán ACO cho tốn dóng hàng nhiều đồ thị 4.2.1 Đồ thị cấu trúc 17 Hình Đồ thị cấu trúc dóng hàng n đồ thị, đồ thị có node thực Đồ thị cấu trúc gồm n tầng , tầng thứ i đồ thi Gi G, đỉnh tầng có cạnh kết nối với đỉnh tầng Hình 4.2 minh họa đồ thị cấu trúc, khơng hiển thị cạnh đồ thị tầng, nút hình tròn nút thực nút biểu diển hình vng nút dummy Một dóng hàng đồ thị theo định nghĩa tập đường từ G1qua mọitầng đến Gn cho đường qua đỉnh tầng đỉnh thực đồ thị cấu trúc có đường qua, riêng đỉnh ảo cho phép có nhiều đường qua nó.Tập đường xem đường quan niệm thuật toán ACO thông dụng với ngầm định đường khởi đầu từ đỉnh G1 qua đồ thị kế tiếp, đến tầng đầu tầng cuối “bước” sang đỉnh khác tầng quay lại qua hết đỉnh thực đỉnh lần 4.2.2 Thủ tục bước ngẫu nhiên để xây dựng dóng hàng Trong bước lặp, kiến thực lặp trình xây dựng vectơ a = (a1,…,an)chomột dóng hàng 𝐴 sau Kiến chọn ngẫu nhiên đỉnh thực đồ thị cấu trúc dựa thông tin heuristics pheromone trail để bước ngấu nhiên xây dựng lời giải Để dễ hình dung, ta giả thiết đỉnh thực G1 (được ký hiệu a1, kiến bước ngẫu nhiên qua tầng để đến Gn sau Nếu kiến xây dựng vec tơ (a1,…,ai) aq đỉnh j Gi chọn đỉnh k Gi+1 với xác suất cho công thức (4.4):  k P ij = , ∑ _ ∗ ,  ,  ( ) ∗ , ( )  , (5.4) R_Vi số đỉnh lại chưa dóng hàng Vi kể nút dummy, 𝜏 , cường độ vết mùi cạnh nối đỉnh j Gi tới đỉnh k Gi+1 , 𝜂 , (𝑎) thơng tin heuristics tính công thức (4.5) ( , ) 𝑘 𝑙à đỉ𝑛ℎ 𝑡ℎự𝑐 (5.5) 𝜂 𝑘 𝑙à đỉ𝑛ℎ ả𝑜 NL(k,a) số đỉnh {a1,…ai} có nhãn trùng với nhãn l(k) đỉnh k, 𝜂 >0 giá trị đủ bé cho trước Sau vectơ a phát triển hết thành a=(a1,…an) đỉnh thực a bị loại khỏi đồ thị cấu trúc để tiếp tục lặp thủ tục dóng hàng kiến đến đỉnh thực dóng hàng 𝜂 , (𝑎) = 18 Lưu ý đỉnh thực chọn ban đầu khơng thuộc G1 mà Gm thủ tục gồm hai q trình dóng dần từ Gmtới Gn dóng ngược từ Gm tới G1 4.2.3 Qui tắc cập nhật mùi Sau kiến tìm lời giải, lời giải bước lặp đánh giá chọn lời giải tốt để thực tìm kiếm địa phương cải tiến chất lượng thực hiên cập nhật mùi Vết mùi cập nhật theo quy tắc cập nhật mùi SMMAS công thức 4.6 4.7:  ij , k  (1   ) ij ,k   ij ,k (5.6)   * max   * i Trong đó:  j , k   (i,j,k)  best solution (i,j,k)  best solution (5.7) Với max min tham số cho trước 4.2.4 Thủ tục tìm kiếm cục Thủ tục tìm kiếm địa phương áp dụng cho lời giải tốt theo nguyên tắc tốt dừng Trong thủ tục này, cặp đỉnh nhãn đồ thị Gi chọn ngẫu nhiên đổi chỗ cho vectơ dóng hàng để cải thiện độ phù hợp trọng số cạnh liên quan Nếu sau đổi chỗ, hàm đánh giá chất lượng tăng lên lời giải nhận thay cho lời giải tốt dừng thủ tục tìm kiếm lần lặp để cập nhật mùi Một phép hoán vị hai đỉnh nhãn A minh họa hình 4.4, vetơ dóng hàng vectơ cột, chữ nhãn thành phần tương ứng Hình Một hốn vị cặp đỉnh có thủ tục Local Search 4.2.5 Kết thực nghiệm Luận án tiến hành thực nghiệm so sánh ACO-MGA với hai thuật tốn Greedy thuật tốn tiến hóa GAVEO chất lượng lời giải thời gian chạy Dữ liệu thực nghiệm sinh ngẫu nhiên tập đồ thị với đồ thị có 20 50 đỉnh, số đồ thị 4,8,16 32 Các thực nghiệm cho thấy chất lượng lời giải vượt trội ACO-MGA so với GAVEO thuật tốn Greedy Ngồi ra, thời gian chạy ACO-MGA nhanh GAVEO, cho chạy thuật toán ACO-MGA GAVEO liệu khoảng thời gian chất lượng lời giải ACO-MGA ln cao GAVEO 4.3 Thuật tốn Memetic giải tốn dóng hàng nhiều đồ thị 4.3.1 Lược đồ chung Đầu tiên thuật toán khởi tạo tham số kiến nhân tạo Sau bước khởi tạo, thuật toán ACO-MGA2 thực vòng lặp theo giai đoạn mơ tả thuật toán 4.1 Giai đoạn đầu (áp dụng cho 70% vòng lặp đầu tiên), vòng lặp, kiến xây dựng lời giải đồ thị cấu trúc dựa thông tin heuristic vết mùi Sau lời giải tốt kiến lựa chọn để cập nhật vết mùi theo quy tắc cập nhật mùi SMMAS, đồng thời cập nhật lại lời giải tốt toàn cục 19 Giai đoạn thuật tốn (áp dụng cho 30% số vòng lặp cuối cùng) Trong vòng lặp, sau kiến xây dựng xong lời giải, kỹ thuật tìm kiếm cục áp dụng để tìm lời giải tốt vòng lặp Thuật tốn 1: Thuật tốn ACO-MGA2 Input:Tập đồ thị G ={G1(V1,E1),…,Gn(Vn,En) Output: Dóng hàng tốt cho tập đồ thị G: A  (V1  )   (Vn  ) Begin Khởi tạo; while (Chưa thỏa mãn điều kiện dừng) for each a  A Kiến a xây dựng dóng hàng cho tập đồ thị; Tìm kiếm cục lời giải tốt //Chỉ áp dụng giai đoạn //Tìm kiếm cách đổi vị trí đỉnh khác nhãn //Tìm kiếm cách đổi vị trí đỉnh nhãn Cập nhật vết mùi theo quy tắcSMMAS; Cập nhật lại lời giải tốt nhất; End while; Lưu lại lời giải tốt nhất; End; 4.3.2 Đồ thị cấu trúc Đồ thị cấu trúc thuật toán ACO-GMA2 sử dụng giống thuật toán ACO-MGA 4.3.3 Vết mùi thông tin heuristic Thông tin Heuristic𝜂 , (𝑎)được tính cơng thức4.8  count (k , a )  k is a real node  i n ( a)    k is a dummy node  n *Vmax (5.8) i j ,k Trong count(k,a)là số lượng đỉnh véc tơ {a1,…ai} có nhãn trùng với nhãn đỉnh k trường hợp k đỉnh thực, Vmax số lượng đỉnh đồ thị có nhiều đỉnh 4.3.4 Thủ tục bước ngẫu nhiên xây dựng dóng hàng Tại vòng lặp, kiến lặp lại q trình xây dựng véc tơa = (a1,…, an)cho dóng hàng A sau Kiến chọn ngẫu nhiên đỉnh thực chưa dóng hàng từ đồ thị cấu trúc làm đỉnh xuất phát Kiến tiếp tục dựa thông tin heuristic vết mùi để xác định đỉnh dóng với đỉnh xuất phát đồ thị tầng Các đỉnh lựa chọn cách ngẫu nhiên với xác suất cho cơng thức 4.5 tương tự thuật tốn ACO-MGA 4.3.5 Qui tắc cập nhật vết mùi Việc cập nhật mùi thuật toán ACO-MGA2 cải tiến so với thuật toán ACO-MGA điểm thuật toán ACO-MGA2 sử dụng tham số  giai đoạn khác Giai đoạn đầu khơng sử dụng tìm kiếm địa phương nên tham số  thiết lập nhỏ để khai thác thơng tin học tăng cường, giai đoạn áp dụng tìm kiếm cục tham số thiết lập lớn để tăng tính khám phá 20 4.3.6 Thủ tục tìm kiếm cục Thủ tục tìm kiếm cục thực đồ thị G1 đến đồ thị Gn theo nguyên tắc tìm kết tốt dừng Thủ tục gồm hai kỹ thuật: đổi đỉnh nhãn đổi đỉnh khác nhãn 1) Đổi đỉnh khác nhãn Đổi vị trítrên cặp vectơ dóng hàng tương ứng với cặp đỉnh khác nhãn đồ thị Gi xét việc đổi chỗ làm tăng số lượng đỉnh nhãn vector dóng hàng 2) Đổi đỉnh nhãn Đổi vị trítrên cặp vectơ dóng hàng tương ứng với cặp đỉnh tcùng nhãn đồ thị Gi xét việc đổi vị trí cải thiện độ phù hợp trọng số cạnh liên quan Nếu sau đổi chỗ, hàm đánh giá chất lượng tăng lên lời giải nhận thay cho lời giải tốt lúc Q trình lặp lại tìm lời giải tốt Vì thủ tục tìm kiếm cục tốn thời gian nên áp dụng cho giai đoạn hai, lời giải tốt tìm đủ tốt 4.3.7 Các kết thực nghiệm Luận án tiến hành thực nghiệm so sánh ACO-MGA2 với hai thuật toán Greedy thuật toán tiến hóa GAVEO chất lượng lời giải thời gian chạy liệu thực bao gồm 74 cấu trúc sinh từ sở liệu Cavbase Các thực nghiệm cho thấy chất lượng lời giải vượt trội ACO-MGA so với GAVEO2 Greedy Thời gian chạy ACO-MGA2 nhanh GAVEO với liệu gồm 4,8 16 đồ thị, chậm GAVEO liệu gồm 32 đồ thị Tuy nhiên cho chạy thuật toán ACO-MGA2 GAVEO liệu khoảng thời gian chất lượng lời giải ACO-MGA2 ln cao GAVEO 4.4 Thuật tốn memetic 4.4.1 Đồ thị cấu trúc Đồ thị cấu trúc thuật toán ACOTS-MGA sử dụng giống thuật toán ACO-MGA2 4.4.2 Thông tin heuristic Heuristic information 𝜂 , (𝑎)là số điểm cạnh tính theo cơng thức (4.3) đỉnh k đồ thị Gi+1 dóng với đỉnh j đồ thị Gi 4.4.3 Thủ tục bước ngẫu nhiên xây dựng dóng hàng Tại vòng lặp, kiến lặp lại q trình xây dựng vector dóng hàng a = (a1,…, an)cho dóng hàng A sau Kiến lựa chọn ngẫu nhiên đỉnh thực tầng đỉnh khởi tạo Tại tầng tiếp theo, ký hiệu label (a) tập nhãn đỉnh thuộc vector dóng hàng a, gọi Bi  {v  Gi | label (v)  label (a)} tập đỉnh thuộc đồ thị Gi có nhãn trùng với nhãn đỉnh thuộc vector dóng hàng Trong trường hợp khơng có đỉnh có nhãn trùng với nhãn đỉnh dóng hàng Bi tập đỉnh lại chưa dóng hàng Kiến lựa chọn ngẫu nhiên đỉnh Bi với xác suất cho công thức 4.9 Để dễ hình dung, giả sử vector dóng hàng xây dựng từ đỉnh a1của đồ thị G1và thực thủ tục bước ngẫu nhiên để phát triển đến đỉnh aicủađồ thị Gikhi lựa chọn đỉnh thứ k thuộc đồ thị Gi +1 với xác suất là: 21 p i j ,k   ( ij ,k ) *[ ij ,k (a)] sBi1 (5.9) ( ij , s ) *[ ij , s (a)] Sau xây dựng đầy đủ vector a=(a1,…,an),các đỉnh thực thuộc vector bị loại bỏ khỏi đồ thị cấu trúc để tiếp tục q trình xây dựng vector dóng hàng tất đỉnh dóng hàng 4.4.4 Qui tắc cập nhật vết mùi Khác với thuật toán ACO-MGA2, việc cập nhật mùi ACOTS-MGA thực theo công thức 4.10 4.11  ij ,k  (1   ) ij ,k  ij ,k (5.10) (i,j,k)  gbest solution   * max   ij , k    * mid (i,j,k)  ibest solution (5.11)   * otherwise  Các tham số max,min ∈ (0,1) khởi tạo tương tự thuật toán ACO-MGA2 Trong thuật toán ACOTS-MGA sử dụng thêm tham số midđể cập nhật mùi trường hợp lời giải mà kiến tìm lời giải tốt vòng lặp chưa phải lời giải tốt toàn cục Tham số thiết lập nhỏ max với ý nghĩa lời giải tốt toàn cục để lại lượng vết mùi lớn so với lời giải tốt vòng lặp 4.4.5 Thủ tục tìm kiếm Tabu Trong vòng lặp cuối thuật tốn ACOTS-MGA, thuật toán Tabu Search áp dụng để tăng cường chất lượng lời giải Thủ tục tìm kiếm Tabu duyệt đỉnh đồ thị, với đồ thị thực việc hoán vị cặp đỉnh vector dóng hàng Nếu việc hốn vị làm tăng điểm đánh giá lời giải tốt cập nhật lời giải Khác với thủ tục tìm kiếm thơng thường, thủ tục Tabu Search có sử dụng danh sách Tabu để lưu lại bước chuyển Các bước chuyển nằm danh sách Tabu không xét lại để tránh lặp lại bước chuyển Một khác biệt so với thuật toán ACO-MGA2 thủ tục local search ACO-MGA2 gọi lần vòng lặp, thuật tốn ACOTS-MGA, thủ tục tìm kiếm gọi lặp lại nhiều lần không cải thiện chất lượng lời giải 4.4.6 Các kết thực nghiệm Luận án tiến hành thực nghiệm so sánh ACOTS-MGA với thuật toán Greedy, GAVEO ACO-MGA2trên liệu thực bao gồm 74 cấu trúc sinh từ sở liệu Cavbase Các thực nghiệm cho thấy chất lượng lời giải vượt trội ACOTS-MGA so với thuật toán lại Thời gian chạy ACOTS-MGA nhanh GAVEO ACO-MGA2 với liệu gồm 4,8 đồ thị, chậm GAVEO ACO-MGA2 liệu gồm 16 32 đồ thị Tuy nhiên cho chạy thuật toán liệu khoảng thời gian chất lượng lời giải ACOTS-MGA ln cao thuật tốn lại 22 KẾT LUẬN Trong thực tế, ta thường gặp nhiều toán tối ưu tổ hợp Hiện để giải toán người ta thường nghiên cứu đề xuất thuật toán để giải tốn dựa kỹ thuật tính tốn mềm Luận án trình bày khái niệm liên quan đến toán tối ưu tổ hợp kỹ thuật tính tốn mềm Trong tập trung trình bày chi tiết phương pháp tối ưu hóa đàn kiến, phương pháp sử dụng chủ yếu để đề xuất thuật toán Luận án trình bày tốn có ý nghĩa lớn lĩnh vực tin sinh học tốn dóng hàng mạng tương tác protein tốn dóng hàng đồng thời nhiều mạng vị trí liên kết protein Với việc phân tích đặc điểm thuật toán giải toán này, chúng tơi đề xuất thuật tốn giải hiệu toán Đối với tốn dóng hàng mạng tương tác protein, chúng tơi đề xuất thuật tốn theo hướng tiếp cận dóng hàng tồn cục Thuật tốn thứ thuật tốn FASTAN cho phép dóng hàng nhanh cho chất lượng lời giải tốt so với thuật toán Thuật toán phù hợp với mạng tương tác protein có kích thước lớn u cầu thời gian giải toán nhanh Tuy nhiên tăng thời gian chạy thuật tốn chất lượng FASTAN cải thiện không nhiều Để khắc phục nhược điểm FASTAN, tiếp tục đề xuất thuật tốn giải tốn dóng hàng tồn cục mạng tương tác protein dựa phương pháp tối ưu hóa đàn kiến có tên ACOGNA Các kết thực nghiệm liệu sinh học thực chứng minh hiệu trội phương pháp ACOGNA so với thuật tốn trước theo tiêu chuẩn GNAS, EC, nhiên với tiêu chuẩn S3 thuật tốn ACOGNA cho chất lượng lời giải so với thuật toán MAGNA++ Thuật toán ACOGNA++ đề xuất sau cho phép thay đổi hàm mục tiêu theo tiêu chuẩn dóng hàng khác sử dụng thuật toán kiến giai đoạn xác định thứ tự đỉnh đồ thị nguồn xác định ảnh đồ thị đích Vì cho chất lượng lời giải tốt ACOGNA, ModuleAlign, MAGNA++ tất liệu Với tốn dóng hàng nhiều mạng vị trí hoạt tính protein, luận án đề xuất thuật tốn để giải toán thuật toán ACO-MGA, ACO-MGA2 ACOTS-MGA Thuật toán ACO-MGA dựa phương pháp tối ưu hóa đàn kiến để giải tốn dóng hàng nhiều mạng Các kết thực nghiệm dựa liệu mô chứng minh hiệu trội thuật toán so với thuật toán GAVEO thuật toán heuristic để giải toán Nghiên cứu đặc tính biến thiên vết mùi thuật tốn ACO, thuật tốn ACO-MGA2, chúng tơi áp dụng lược đồ memetic cho thuật tốn Trong vết mùi thuật toán ACO cập nhật theo giai đoạn khác Giai đoạn đầu tham số bay thiết lập nhỏ để khai thác thông tin học tăng cường Giai đoạn khơng áp dụng tìm kiếm cục Giai đoạn có sử dụng tìm kiếm cục nên tham số bay thiết lập lớn để tăng tính khám phá thuật toán Các kết thực nghiệm liệu thực cho thấy ưu điểm trội thuật toán đề xuất so với thuật tốn trước Thuật tốn ACO-MGA2 có nhược điểm áp dụng tìm kiếm cục bộ, việc hốn đổi vị trí đỉnh bị lặp lại lần gọi khác nhau, luận án đề xuất thuật toán ACOTS-MGA sử dụng kết hợp phương pháp ACO tìm kiếm Tabu theo lược đồ memetic Thuật toán Tabu search sử dụng để thay cho thuật tốn tìm kiếm cục ACO-MGA2 sử dụng danh sách cấm để tránh xét lại bước chuyển xét trước Ngồi ACOTS-MGA, có cải tiến cách xác định thông tin heuristic thủ tục bước ngẫu nhiên xây dựng dóng hàng Các thực nghiệm liệu thực chứng minh ưu điểm trội phương 23 pháp so với phương pháp đề xuất trước Các kết nghiên cứu công bố báo công bố hội nghị quốc tế nước có phản biện, có đưa vào danh mục Scopus Trong tương lai tiếp tục nghiên cứu sâu phương pháp tính tốn mềm để đề xuất thuật toán hiệu cho tốn mang tính thời khác lĩnh vực tin sinh học lĩnh vực mạng xã hội 24 DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ Trần Ngọc Hà, Đỗ Đức Đơng, Hồng Xn Huấn, An Efficient Ant Colony Optimization Algorithm for Multiple Graph Alignment, Proceedings of International Conference on Computing, Management and Telecommunications (ComManTel), 2013, Ho Chi Minh City, Vietnam, pp.386-391, 2013 (Scopus) Trần Ngọc Hà, Đỗ Đức Đơng, Hồng Xn Huấn (2014), “A Novel Ant Based Algorithm for Multiple Graph Alignment”,Proceedings of the 2014 International Conference on Advanced Technologies for Communications, pp 181-186 (Scopus) Đỗ Đức Đông, Trần Ngọc Hà, Đặng Thanh Hải, Đặng Cao Cường, Hoàng Xuân Huấn (2015), “An efficient algorithm for global alignment of protein-protein interaction networks”, Proceedings of the 2015 International Conference on Advanced Technologies for Communications, pp 332-336 (Scopus) Trần Ngọc Hà, Hoàng Xuân Huấn (2015), “Một thuật tốn tối ưu đàn kiến dóng hàng tồn cục mạng tương tác protein”,Proceedings of Fundamental and Applied IT Research Conference 2015(FAIR 2015), Ha Noi, Viet Nam, pp 471-477 Ha Tran Ngoc, Huan Hoang Xuan (2016), “ACOGNA: An Efficient Method for Protein-Protein Interaction Network Alignment”, Proceedings of the The Eighth International Conference on Knowledge and Systems Engineering (KSE 2016), pp 7-12, 2016 Ha Tran Ngoc, Hien Le Nhu, Huan Hoang Xuan, “A new memetic algorithm for multiple graph alignment” (Submitted) 25 ... tính tối ưu Trong đó, cácthuật toán di truyền (GA), tối ưu đàn kiến (ACO), memetic sử dụng rộng rãi cho toán TƯTH khó Đặc biệt, phương pháp ACO Dorigo đề xuấtrất thích hợp cho tốn tối ưu tổ hợp. .. thuật toán để giải toán dựa kỹ thuật tính tốn mềm Luận án trình bày khái niệm liên quan đến toán tối ưu tổ hợp kỹ thuật tính tốn mềm Trong tập trung trình bày chi tiết phương pháp tối ưu hóa... TƯTH tổng quát vấn đề liên quan, sau giới thiệu ngắn gọn phương pháp tối ưu theo tiếp cận tính tốn mềm, bao gồm GA, tính tốn tiến hóa, thuật tốn memetic phương pháp ACO 1.1 Bài toán tối ưu tổ hợp

Ngày đăng: 14/03/2019, 14:55