1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm tắt Luận văn Tiến sĩ Hệ thống thông tin: Một số thuật toán dóng hàng các mạng protein

26 51 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Mục tiêu của luận án: Tìm hiểu các dạng bài toán dóng hàng các mạng protein nêu trên và đánh giá ưu nhược điểm của các thuật toán giải cho các bài toán này đã được đề xuất trong thời gian gần đây. Bên cạnh đó là tìm hiểu các kỹ thuật tính toán mềm để thấy rõ ưu và nhược điểm của từng phương pháp. Trên cơ sở đó, đề xuất các thuật toán mới với chất lượng lời giải tốt hơn các thuật toán hiện tại trong thời gian ngắn hơn cho các bài toán này.

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN NGỌC HÀ MỘT SỐ THUẬT TỐN DĨNG HÀNG CÁC MẠNG PROTEIN Chuyên ngành: Khoa học máy tính Mã số: 9480101.01 TĨM TẮT LUẬN ÁN TIẾN SĨ CƠNG NGHỆ THƠNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Hồng Xuân Huấn GS TS Thái Trà My HÀ NỘI – 2019 Cơng trình hồn thành tại: Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Người hướng dẫn khoa học: PGS TS Hoàng Xuân Huấn GS.TS Thái Trà My Phản biện: Phản biện: Phản biện: Luận án bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp vào hồi giờ ngày tháng năm Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Trung tâm Thông tin - Thư viện, Đại học Q́c gia Hà Nợi MỞ ĐẦU Tính cấp thiết luận án Những phát hiện chế di truyền thể sống thúc đẩy sinh học phân tử nói riêng cơng nghệ sinh học nói chung phát triển mạnh mẽ nửa kỷ qua trở nên lĩnh vực nghiên cứu ứng dụng hấp dẫn Tuy nhiên nghiên cứu phòng thí nghiệm đòi hỏi nhiều thời gian tớn Cùng với phát triển công nghệ thông tin, tin-sinh học đời công cụ trợ giúp hiệu cho nghiên cứu sinh-ydược Việc nghiên cứu tính tương đồng/khác biệt cấu trúc không đủ để phát hiện tính tương đồng/khác biệt chức thể sống Nghiên cứu mạng sinh học mạng tương tác protein-protein (PPI), mạng điều hòa gen (gene regulatory), mạng vị trí liên kết/hoạt tính protein, mạng trao đổi chất …mang lại tiếp cận nghiên cứu hiệu phân tích chức sinh học phân tử Đặc biệt, việc dóng hàng mạng tương tác protein-protein mạng vị trí liến kết protein cho phép dự đoán đặc điểm chức loài chưa nghiên cứu kỹ từ tri thức lồi biết, nhờ hiểu rõ quan hệ tiến hóa sinh học, hỗ trợ thông tin để nghiên cứu thuốc điều trị bệnh di truyền Các tốn tḥc loại NPkhó thu hút nhiều người nghiên cứu/ứng dụng tính quan trọng chúng Trong bới cảnh đó, chúng tơi chọn chủ đề nghiên cứu "Một số thuật tốn dóng hàng mạng protein” với nội dung nghiên cứu áp dụng kỹ thuật TƯTH mềm để đề xuất mợt sớ thuật tốn thơng minh giải hai tốn dóng hàng nhiều mạng vị trí liên kết protein dóng hàng tồn cục mạng tương tác proteinprotein với chất lượng lời giải thời gian tính tốn tớt so với thuật tốn hiện Mục tiêu luận án Tìm hiểu dạng tốn dóng hàng mạng protein nêu đánh giá ưu nhược điểm thuật toán giải cho toán đề xuất thời gian gần Bên cạnh tìm hiểu kỹ thuật tính tốn mềm để thấy rõ ưu nhược điểm phương pháp Trên sở đó, đề xuất thuật tốn với chất lượng lời giải tớt thuật tốn hiện thời gian ngắn cho toán Cài đặt chạy thực nghiệm thuật toán đề xuất bộ liệu thực để đánh giá hiệu thuật toán đề xuất so với thuật tốn trước Các đóng góp luận án Trong thời gian qua, với cán bộ hướng dẫn cộng sự, tác giả luận án có đóng góp sau - Đề xuất ba thuật tốn dựa tới ưu đàn kiến cho tốn dóng hàng nhiều đồ thị, bao gồm ACO-MGA, ACO-MGA2 ACOTS-MGA - Đề xuất ba thuật toán cho tốn dóng hàng tồn cục mạng tương tác protein-protein, bao gồm thuật tốn heuristic FASTAN hai thuật tốn tới ưu đàn kiến: ACOGNA ACOGNA++ Các kết thực nghiệm cho thấy hiệu thuật toán đề xuất tớt so với thuật tốn đề xuất trước cơng bớ báo cáo hội nghị/hội thảo quốc gia/quốc tế bao gồm báo cáo hợi nghị q́c tế (Cơng trình 1,2,3,5) mợt hợi thảo tồn q́c “Nghiên cứu ứng dụng cơng nghệ thơng tin” (Cơng trình 4), mợt báo đăng tạp chí VNU Journal of Science: Computer Science and Communication Engineering (cơng trình 6) Bố cục luận án Ngoài phần mở đầu kết luận, luận án tổ chức sau: Chương giới thiệu hai tốn dóng hàng mạng tương tác protein-protein dóng hàng nhiều đồ thị một số vấn đề liên quan Giới thiệu phương pháp metaheuristic bao gồm phương pháp tối ưu đàn kiến, tính tốn tiến hóa, thuật tốn memetic tìm kiếm Tabu Chương trình bày ba thuật tốn dựa phương pháp tối ưu đàn kiến để giải tốn dóng hàng nhiều mạng vị trí liên kết protein kết thực nghiệm bộ liệu mô liệu thực cho thấy thuật tốn đề xuất tớt hẳn so với thuật tốn Chương trình bày ba thuật tốn đề xuất để giải tốn dóng hàng toàn cục mạng tương tác proteinprotein kết thực nghiệm cho thấy hiệu trội thuật tốn đề xuất Chương DĨNG HÀNG CÁC MẠNG PROTEIN VÀ TỐI ƯU MỀM Trong chương này, luận án giới thiệu ngắn gọn tranh chung tin sinh học giới thiệu tốn tới ưu tổ hợp quan trọng lĩnh vực Tin sinh học là: Bài tốn dóng hàng mạng nhiều mạng vị trí liên kết protein tốn dóng hàng tương tác protein-protein Tiếp theo đó, luận án giới thiệu phương pháp tối ưu mềm sở để đề xuất thuật toán để giải tốn dóng hàng mạng protein 1.1 Tin sinh học dóng hàng mạng protein 1.1.1 Giới thiệu tin sinh học Tin sinh học lĩnh vực khoa học liên ngành, sinh học tin học giữ vai trò chủ đạo Về bản, tin sinh học tập trung vào nghiên cứu, phát triển áp dụng phương pháp công cụ tin học để giải toán sinh học Sinh học phân tử nói riêng cơng nghệ sinh học nói chung phát triển mạnh mẽ, trở nên lĩnh vực nghiên cứu ứng dụng hấp dẫn, tạo cuộc cách mạng đối với hiểu biết chức tế bào, mở đường để phát hiện chế sinh học phức tạp liên quan chúng đến bệnh tật phát triển thể sống Trong đó, hiểu biết q trình tổng hợp protein đặt tảng cho sinh học phân tử DNA mang thông tin di truyền điều khiển tổng hợp protein sinh vật, protein định đặc tính, chức q trình phát triển thể sớng Dựa phân tích tương đồng/dị biệt cấu trúc trình tự DNA protein, người ta có nhận biết quan hệ loài sinh vật cá thể, dự đoán đặc tính sinh học từ lồi dựa đặc tính lồi nghiên cứu kỹ gần với Dóng hàng chuỗi tḥc hệ gen tăng cường kiến thức y sinh học nhờ phát hiện vùng trình tự có tương đồng gen lồi khác nhau, vùng có khả phản ánh mối quan hệ chức tiến hóa trình tự Tuy nhiên, gen sản phẩm protein chúng không hoạt động một cách độc lập mà chúng thực hiện trình tế bào cách tương tác với Các tương tác mơ hình hóa mạng sinh học, chẳng hạn như: mạng điều hòa gen (gene regulatory), mạng trao đổi chất, mạng tương tác protein-protein (protein-protein interactive network: PPI), mạng vị trí liên kết/hoạt tính protein Không giống nghiên cứu chuỗi gen, nghiên cứu mạng sinh học cho phép hiểu trình tế bào phức tạp phát sinh từ hoạt động chung phân tử sinh học Những tiến bộ công nghệ sinh học hiện thời cung cấp nhiều liệu cho phép ta nghiên cứu sâu mạng sinh học cho ta nhiều tri thức quý giá Chẳng hạn, việc dóng hàng mạng sinh học nhằm tìm tương ứng đủ tớt nút mạng loài khác cho phép xác định vùng mạng có kiểu cấu trúc topology cấu trúc trình tự, nhờ chuyển một cách hiệu kiến thức chức tế bào từ loài nghiên cứu tớt sang lồi chưa nghiên cứu nhiều khó làm thực nghiệm Bởi việc nghiên cứu thực nghiệm người gặp nhiều khó khăn rào cản đạo đức pháp luật, nhờ dóng hàng mạng mà người ta chuyển tri thức biết từ nấm men, ruồi giấm, sâu sang tri thức người dựa phát hiện vùng mạng bảo tồn Luận án tập trung nghiên cứu hai tốn thời sự: dóng hàng tồn cục hai mạng tương tác protein-protein dóng hàng nhiều mạng vị trí liên kết/hoạt tính protein 1.1.2 Bài tốn dóng hàng nhiều mạng vị trí liên kết protein Suy diễn chức protein chưa biết thông qua protein biết giữ vai trò quan trọng lĩnh vực khoa học sớng nói chung lĩnh vực hóa dược nói riêng Trong đó, so sánh protein giữ vai trò trung tâm Dự đốn chức protein thực hiện mức chuỗi mức độ cấu trúc Nhận thấy protein với giống chuỗi amino axit 40% thường có chức tương tự [Todd, Orengo, & Thornton, 2001] nên so sánh theo trình tự thường phương pháp sử dụng Nhiều phương pháp tiếp cận khác giới thiệu sử dụng rộng rãi [Altschul et al., 1997; Edgar, 2004; M.A et al., 2007; Notredame, Higgins, & Heringa, 2000; Sjolander, 2004; Thompson, Higgins, & Gibson, 1994] Tuy nhiên, phương pháp không phù hợp để xác định tương đồng chức phân tử tương đồng chức có liên quan mật thiết với đặc tính cấu trúc đặc tính Để phân tích cấu trúc protein, một số tác giả [CONTE et al., 2004; Kinoshita & Nakamura, 2005; Oleksii Kuchaiev & Pržulj, 2011; Mernberger, Klebe, & Hullermeier, 2011; Xifeng Yan, Feida Zhu, Jiawei Han, & Yu, 2006; Yan et al., 2005; Zhang, Hu, & Yang, 2007] đề xuất sử dụng mơ hình đồ thị để biểu diễn cấu trúc chiều protein 1.1.2.1 Mô hình hóa vị trí liên kết protein thành đồ thị Để nghiên cứu cấu trúc protein, bước cần biểu diễn cấu trúc protein theo mơ hình đồ thị Các nghiên cứu [Fober, Mernberger, Klebe, & Hüllermeier, 2009; Weskamp, Hüllermeier, Kuhn, & Klebe, 2007] thực hiện sở liệu Cavbase [Schmitt, Kuhn, & Klebe, 2002] – một hệ thống sở liệu sử dụng thuật toán LIGSITE[Hendlich, Rippmann, & Barnickel, 1997] để tự đợng phát hiện, trích xuất lưu trữ khoang (cavities) protein (các túi liên kết – binding pockets) từ cấu trúc protein xác định qua thực nghiệm (có sẵn từ ngân hàng liệu protein [Berman et al., 2002]) Trong sở liệu này, túi liên kết biểu diễn xấp xỉ đồ thị [19, 20] Để mơ hình hóa mợt túi liên kết thành đồ thị, xếp khơng gian tḥc tính lý hóa mợt túi liên kết gọi tâm giả (pseudocenter)- điểm không gian biểu thị cho tâm (center) một đặc trưng riêng [Weskamp et al., 2007] Kiểu vị trí khơng gian tâm phụ thuộc vào amino axit bao quanh túi liên kết biểu hiện nhóm chức chúng Chúng thu từ cấu trúc protein sử dụng một tập luật định trước [Schmitt et al., 2002] Các loại tâm giả bao gồm: pseudocenters, hydrogenbond donor, acceptor, mixed donor/acceptor, hydrophobic aliphatic, metal ion, pi Mợt túi liên kết mơ hình hóa đồ thị G(V,E), V tập đỉnh, E tập cạnh Nhãn đỉnh thuộc một tập L = {A, B, C, D, E, F, G}, A đại diện cho donor, B đại diện cho acceptor, Hai đỉnh xem có kết nối với biểu diễn cạnh đồ thị G khoảng cách Ơclit chúng nhỏ 12Å (1Å =10-10 mét) Trọng số w(e) coi nhãn cạnh Để mơ hình hóa biến đổi cấu trúc protein tự nhiên, đồ thị, người ta định nghĩa phép toán chỉnh sửa (edit operations): i) Chèn xóa mợt nút: Mợt nút v  V cạnh tương ứng với xóa thêm vào ii) Thay đổi nhãn một đỉnh: Nhãn 𝑙(𝑣) mợt nút 𝑣 ∈ 𝑉 thay một nhãn khác tập L iii) Thay đổi trọng số một cạnh: Trọng số 𝑤(𝑒) mợt cạnh 𝑒 thay đổi tùy theo hình thể Khoảng cách chỉnh sửa đồ thị G1 G2 định nghĩa dãy phép biến đổi nhỏ để biến đổi đồ thị G1 thành đồ thị G2 Cũng dóng hàng chuỗi, ta định nghĩa khái niệm dóng hàng nhiều đồ thị Tương ứng với khái niệm khoảng trớng (gap) dóng hàng chuỗi, khái niệm nút giả định nghĩa để thay cho vị trí nút bị xóa 1.1.2.2 Bài tốn dóng hàng nhiều đồ thị Thơng qua việc mơ hình hóa cấu trúc protein thành đồ thị, kỹ thuật dóng hàng đồ thị sử dụng để xác định tương đồng chức dựa phân tích cấu trúc Các phương pháp chủ yếu dựa kỹ thuật so khớp xác cặp đồ thị Các nghiên cứu thu mợt sớ kết có ý nghĩa nghiên cứu tiến hóa chức phân tử khơng (non-homologous) Tuy nhiên khó áp dụng kỹ thuật để khám phá mẫu sinh học có ý nghĩa lưu lại mợt cách gần Để khắc phục hạn chế phương pháp so khớp đồ thị, tốn dóng hàng nhiều đồ thị (MultiGraph Alignment: MGA) Weskamp cộng [Weskamp et al., 2007] đề xuất năm 2007 sử dụng để phân tích cấu trúc vị trí hoạt tính protein Các tác giả đề xuất thuật toán heuristic để giải toán Trong cách tiếp cận này, túi liên kết protein (protein binding pocket) mơ hình mợt đồ thị liên thơng G(V,E) tốn MGA phát biểu sau: Cho tập hợp G ={G1(V1,E1),…,Gn(Vn,En)} đồ thị liên thơng, đỉnh có nhãn thuộc tập cho trước cạnh có trọng số; đồ thị có phép tốn: xóa đỉnh, thay nhãn đỉnh, đổi trọng số cạnh; nhiệm vụ tốn MGA tìm dóng hàng cho đỉnh đồ thị tập G để tối ưu hàm mục tiêu định trước MGA tốn NP-khó, thuật tốn heuristic thích hợp cho tốn cỡ nhỏ, nên khơng phù hợp với ứng dụng thực tế Fober cộng mở rợng sử dụng tốn cho phân tích cấu trúc phân tử sinh học đề xuất mợt thuật tốn tiến hóa với tên gọi GAVEO [Fober et al., 2009] Thực nghiệm cho thấy thuật toán hiệu thuật toán mà Weskamp đề xuất Đới với tốn NP-khó, có nhiều cách tiếp cận mơ tự nhiên để tìm lời giải gần Đặc biệt, thực nghiệm cho thấy phương pháp tới ưu đàn kiến tớt thuật tốn tiến hóa nhiều tốn điển hình Trong chương 2, chúng tơi giới thiệu thuật tốn dựa thuật tốn tới ưu đàn kiến có kết hợp tìm kiếm địa phương để dóng hàng nhiều mạng vị trí hoạt tính protein 1.1.3 Bài tốn dóng hàng mạng tương tác protein Các protein thể sống không tồn một cách độc lập mà chúng tương tác với Dựa nghiên cứu thực nghiệm, người ta xây dựng CSDL mạng tương tác protein (PPI) Việc dóng hàng hai mạng PPI cho phép phát hiện tương đồng chức hai loài nhờ phát hiện vùng tương tự chúng Một mạng PPI biểu thị mợt đồ thị G(V,E) V tập đỉnh mà nút ứng với một protein, E tập cạnh, cạnh nối nút biểu hiện tương tác hai protein tương ứng Ngồi tính topology thể hiện mạng, nhiều người ta quan tâm tới đặc tính cấu trúc protein mà chúng khơng biểu diễn đồ thị Việc dóng hàng mạng chia thành hai hướng tiếp cận: dóng hàng cục bợ dóng hàng tồn cục Các nghiên cứu dóng hàng mạng PPI dóng hàng cục Dóng hàng cục bợ có mục tiêu xác định mạng/đồ thị gần topology trình tự nhờ mợt ánh xạ từ mạng nọ vào mạng minh họa hình 1.2 (a) Hình 1.2 Dóng hàng cục dóng hàng tồn cục Dóng hàng cục bợ có nhược điểm khó tìm đồ thị với kích thước lớn có cấu trúc chức tương tự, kết dóng hàng cục bợ nhiều nhiều nên thường chứa nhiều mạng chồng lấn nên thường dẫn tới nhập nhằng khó ứng dụng Mợt dóng hàng tồn cục mạng PPI mợt đơn ánh từ mạng có sớ đỉnh nhỏ vào mạng lớn (xem hình 1.2b), nhờ mà xác định vùng bảo tồn Việc xác định đơn ánh tránh nhập nhằng thường gặp phương pháp dóng hàng cục bợ Bài tốn tới ưu dóng hàng tồn cục mạng PPI chứng minh tḥc loại NP-khó nên toán quan trọng sinh học phân tử có nhiều thuật tốn heuristic metaheurristics đề xuất để giải chúng Thuật tốn dóng hàng tồn cục đáng ý IsoRank Sing cộng đề xuất năm 2008, phát triển dựa dóng hàng cục bợ IsoRank có ý tưởng xuất phát từ thuật toán PageRank Google để định nghĩa hàm đánh giá tương đồng Ý tưởng IsoRank hai nút dóng hàng với nhau, nút kề với chúng tương ứng dóng hàng Họ thuật toán GRAAL bao gồm GRAAL, H-GRAAL, MI-GRALL sau C-GRAAL phát triển song song với họ thuật toán ISORAnk dựa kết hợp kỹ thuật tham lam với thông tin heuristic như: graphlet, hệ sớ phân nhóm, đợ lập dị (eccentricities) đợ tương tự (giá trị E-values từ chương trình BLAST) Các thuật toán đưa kết nhanh tớt so với thuật tốn trước Gần thuật tốn GHOST, chiến lược dóng hàng GHOST tương tự MI-GRAAL, ngoại trừ việc thuật toán MI-GRAAL giải toán quy hoạch tuyến tính để tính tốn đợ tương tự nút mạng khác nhau, GHOST giải toán quy hoạch bậc theo phương pháp heuristic để tính tốn đợ tương tự nút mợt mạng Những thuật tốn nêu tới ưu cho đợ xác (hàm mục tiêu) tính khả mở Vì mạng PPI thường có sớ đỉnh lớn nên tính xác tính khả mở (thời gian chạy) cần quan tâm Sử dụng tiêu chuẩn GNAS, Aladag cộng [Aladag & Erten, 2013] đề xuất thuật tốn SPINAL cho lời giải tớt thuật tốn trước thời gian chất lượng lời giải Gần đây, Saraph cợng đề xuất thuật tốn MAGNA (2014) dựa giải thuật di truyền với quần thể ban đầu khởi tạo ngẫu nhiên kết hợp với lời giải tìm thuật tốn như: IsoRank, MIGRAAL GHOST MAGNA phiên cải tiến MAGNA ++ [Vijayan, Saraph, & Milenković, 2015]sử dụng đợ đo chất lượng dóng hàng S3, thực nghiệm cho thấy chúng cải thiện đáng kể chất lượng lời giải thuật toán dùng để khởi tạo Somaye Hashemifar cộng (2016) giới thiệu thuật tốn tới ưu tồn cục tên ModuleAlign, thuật tốn sử dụng thơng tin tối ưu cấu trúc cục bộ để định nghĩa một hàm đánh giá tính tương đồng dựa module (module-based homology score) Dựa mợt thuật tốn phân cụm chức protein có gắn kết mặt chức vào module, ModuleAlign sử dụng một chế lặp để tìm dóng hàng mạng Các thực nghiệm cho thấy ModuleAlign cho kết chất lượng dóng hàng tớt mợt sớ thuật tốn đề xuất trước mợt sớ trường hợp 1.2 Tối ưu mềm 1.2.1 Giới toán tối ưu tổ hợp tiếp cận mềm 1.2.1.1 Phát biểu toán tối ưu tổ hợp tổng quát Một cách tổng quát, tốn TƯTH phát biểu sau: Cho mợt bợ ba (𝑆, 𝑓, Ω), S tập hữu hạn trạng thái (lời giải tiềm hay phương án), f hàm mục tiêu xác định S, Ω tập ràng ḅc Mỗi phương án s ∈ S thỏa mãn ràng buộc Ω gọi phương án (hay lời giải) chấp nhận Mục đích ta tìm phương án chấp nhận s ∗ tới ưu hóa tồn cục hàm mục tiêu f Chẳng hạn với toán cực tiểu f(s ∗ ) ≤ f(s) với mọi phương án chấp nhận s 1.2.1.2 Tính tốn mềm Tính tốn mềm (Soft Computing) cho một cách tiếp cận để giải tốn khó, thơng tin khơng đầy đủ, thiếu chắn cho kết lời giải đủ tốt gần mà tiếp cận truyền thơng hay tính tốn cứng (hard computing) khơng giải Tiếp cận gồm phương pháp sử dụng tập mờ/ tập thô, phương pháp học máy mạng nơ ron nhân tạo, máy tựa véctơ (SVM), giải thuật tiến hóa giải thuật di truyền, tối ưu bầy đàn, tối ưu đàn kiến, tối ưu bầy ong, giải thuật memetic, hệ miễn dịch nhân tạo… Đới với tốn TƯTH khó, phương pháp tính tốn mềm đánh giá chất lượng dựa thực nghiệm mà khơng thiết phải chứng minh tính hội tụ ước lượng tỷ lệ tối ưu Các thuật tốn thường xây dựng dựa mợt ý tưởng “có lý” hiệu chúng đánh giá dựa vào kết thử nghiệm tập liệu đủ tin cậy Các phương pháp phát triển theo hai hướng heuristic metaheuristic Các thuật toán heuristic đề xuất riêng biệt cho toán cụ thể, cho phép tìm nhanh mợt lời giải đủ tớt xấp xỉ tới ưu địa phương Mợt thuật tốn metaheuristic tổng qt mợt lược đồ tính tốn đề xuất cho lớp tốn rợng, dùng cho toán cụ thể cần thêm vận dụng chi tiết cho phù hợp Nhờ lược đồ này, người dùng xây dựng thuật tốn cho tốn thực tế mà khơng đòi hỏi có kiến thức tớt tốn học tính tốn 1.2.2 Phương pháp tối ưu đàn kiến Phương pháp tối ưu đàn kiến (ACO) thuật tốn mơ cách tìm đường tới tổ kiến tự nhiên để giải toán TƯTH khó Phương pháp Dorigo giới thiệu vào năm 1991 [M Dorigo, 1991] dạng hệ kiến (Ant System) ngày phát triển nhiều biến thể ứng dụng rộng rãi 1.2.2.1.Kiến tự nhiên kiến nhân tạo Trên đường đến nguồn thức ăn trở tổ, kiến thực để lại mợt vết hố chất gọi vết mùi (pheromone trail) theo vết mùi kiến khác để tìm đường Đường có nồng đợ vết mùi cao có nhiều khả kiến chọn Nhờ cách giao tiếp gián tiếp đàn kiến tìm đường ngắn từ tổ tới nguồn thức ăn Việc tìm đường kiến tự nhiên dựa nồng độ vết mùi làm ta liên tưởng tới cách học tăng cường cho tốn chọn tác đợng tới ưu, gợi mở mợt mơ hình mơ cho kiến thực để tìm đường ngắn hai nút (tương ứng tổ nguồn thức ăn) đồ thị Trên sở đó, mở rợng thành phương pháp ACO để giải tốn tới ưu tổ hợp khó Khi mô hành vi đàn kiến để giải toán thực, người ta dùng đa tác tử (multiagent) làm đàn kiến nhân tạo, kiến nhân tạo mợt tác tử, có nhiều khả kiến tự nhiên Kiến nhân tạo (về sau gọi kiến) có bợ nhớ riêng, có khả mở rộng, chẳng hạn, ghi nhớ đỉnh thăm hành trình tính đợ dài đường chọn Ngồi kiến trao đổi thơng tin có với nhau, thực hiện tính tốn cần thiết, cập nhật mùi… Nhờ khả mở rợng mà đàn kiến thực hiện lặp trình tìm lời giải nhờ thủ tục bước đồ thị cấu trúc tương ứng toán cập nhật mùi theo phương thức học tăng cường để tìm lời giải chấp nhận xác định lời giải đủ tớt tồn cục 1.2.2.2.Lược đồ chung phương pháp ACO Thuật toán 2.2 Thuật toán ACO Procedure Thuật toán ACO Begin Initialize: Khởi tạo vết mùi, n_ants while Khi điều kiện dừng chưa thỏa mãn for i=1 to n_ants Xây dựng lời giải; Cập nhật lời giải tốt; end for Cập nhật mùi end while End 1.2.2.3.Thủ tục bước ngẫu nhiên xây dựng lời giải Giả sử kiến phát triển xâu 〈𝑢0 , … , 𝑢𝑚 〉 𝑢𝑚 = 𝑖 chưa cho lời giải chấp nhận nhờ Ω ta xác định tập đỉnh 𝐽𝑘 (𝑖) phát triển thành phần … 𝑢𝑖+1 = 𝑗 chọn với xác suất [𝜏𝑖𝑗 (𝑡)]𝛼 [𝜂𝑖𝑗 (𝑡)]𝛽 𝑛ế𝑢 𝑗𝐽𝑘 (𝑖) = {∑𝑙∈𝐽𝑘(𝑖)[𝜏𝑖𝑙 (𝑡)]𝛼 [𝜂𝑖𝑙 (𝑡)]𝛽 (2.2) 𝑛ế𝑢 𝑗 ∉ 𝐽𝑘 (𝑖) 𝛼, 𝛽 sớ dương chọn trước Thủ tục tiếp tục xâu 〈𝑢0 , … , 𝑢𝑡 〉 tương ứng một với lời giải s S Bằng cách kiến xây dựng lời giải vòng lặp thực hiện đánh giá lời giải để câp nhật mùi theo một quy tắc chọn 1.2.2.4 Các quy tắc cập nhật mùi Việc cập nhật mùi, phản ánh chế học tăng cường ảnh hưởng định chất lượng thuật toán nên thường dùng để làm tên gọi cho lớp thuật tốn dùng Để đảm bảo vết mùi hội tụ, người ta sử dụng số bay vết mùi 0 giá trị đủ bé cho trước Theo công thức 2.5, đỉnh có nhãn trùng với nhãn đỉnh dóng hàng vectơ dóng hàng a ưu tiên dóng hàng trước, đỉnh giả có xác suất lựa chọn nhỏ Sau vectơ a phát triển hết thành a=(a1,…an) đỉnh thực a bị loại khỏi đồ thị cấu trúc để tiếp tục lặp thủ tục dóng hàng kiến đến mọi đỉnh thực dóng hàng Quá trình dóng hàng kiến minh họa hình 2.2, đỉnh giả đánh sớ -1, đỉnh khác đánh số 0,1, 2….theo thứ tự đỉnh đồ thị thực Lưu ý đỉnh thực chọn ban đầu không thuộc G1 mà Gm thủ tục gồm hai q trình dóng dần từ Gm tới Gn dóng ngược từ Gm tới G1 2.2.3 Qui tắc cập nhật mùi Vết mùi cập nhật theo quy tắc cập nhật mùi SMMAS công thức 2.6:  ij ,k  (1   ) ij ,k  ij ,k (2.6) Trong đó: i     max j ,k    (i,j,k)  lêi gi¶i tèt nhÊt (2.7) (i,j,k)  lêi gi¶i tèt nhÊt Với max min tham sớ cho trước 2.2.4 Thủ tục tìm kiếm cục Thủ tục tìm kiếm địa phương áp dụng cho lời giải tốt theo nguyên tắc tốt dừng Trong thủ tục này, cặp đỉnh nhãn đồ thị Gi chọn ngẫu nhiên đổi chỗ cho vectơ dóng hàng để cải thiện đợ phù hợp trọng số cạnh liên quan Nếu sau đổi chỗ, hàm đánh giá chất lượng tăng lên lời giải nhận thay cho lời giải tốt dừng thủ tục tìm kiếm lần lặp để cập nhật mùi Mợt phép hốn vị hai đỉnh nhãn A minh họa hình 2.3 Hình 2.3 Một hốn vị cặp đỉnh có 2.3 Thuật tốn theo lược đồ memetic thủ tục Local Search 2.3.1 Lược đồ chung Sau khởi tạo tham số kiến nhân tạo, thuật toán ACO-MGA2 thực hiện vòng lặp theo giai đoạn mơ tả thuật tốn 2.1 Giai đoạn đầu vòng lặp, kiến xây dựng lời giải đồ thị cấu trúc dựa thông tin heuristic vết mùi Sau lời giải tớt kiến lựa chọn để cập nhật vết mùi theo quy tắc cập nhật mùi SMMAS, đồng thời cập nhật lại lời giải tớt tồn cục Giai đoạn thuật tốn, vòng lặp, sau kiến xây dựng xong lời giải, kỹ thuật tìm kiếm cục bợ áp dụng để tìm lời giải tớt vòng lặp Thuật tốn 2.1: Thuật tốn ACO-MGA2 Input: Tập đồ thị G ={G1(V1,E1),…,Gn(Vn,En) Output: Dóng hàng tốt cho tập đồ thị G: A  (V1  )   (Vn  ) Begin Khởi tạo; 10 while (Chưa thỏa mãn điều kiện dừng) for each a  A Kiến a xây dựng mợt dóng hàng cho tập đồ thị; Tìm kiếm cục bộ lời giải tốt //Chỉ áp dụng giai đoạn //Tìm kiếm cách đổi vị trí đỉnh khác nhãn //Tìm kiếm cách đổi vị trí đỉnh nhãn Cập nhật vết mùi theo quy tắc SMMAS; Cập nhật lại lời giải tốt nhất; End for; End while; Lưu lại lời giải tốt nhất; End; 2.3.2 Đồ thị cấu trúc Đồ thị cấu trúc thuật toán ACO-GMA2 sử dụng giớng thuật tốn ACO-MGA 2.3.3 Vết mùi thông tin heuristic 𝑖 Vết mùi 𝜏𝑗,𝑘 kết nối đỉnh j đồ thị Gi với đỉnh k đồ thị Gi+1 khởi tạo 𝜏𝑚𝑎𝑥 cập nhật lại sau vòng lặp 𝑖 Thơng tin Heuristic 𝜂𝑗,𝑘 (𝑎)được tính cơng thức 2.8  count (k , a) k đỉnh thực i nij ,k (a )    k lµ ®Ønh gi¶ nV max  (2.8) Trong count(k,a) sớ lượng đỉnh véc tơ {a1,…ai} có nhãn trùng với nhãn đỉnh k trường hợp k đỉnh thực, Vmax số lượng đỉnh đồ thị có nhiều đỉnh 2.3.4 Thủ tục bước ngẫu nhiên xây dựng dóng hàng Tại vòng lặp, kiến lặp lại trình xây dựng véc tơ a = (a1,…, an) cho dóng hàng A tương tự thuật toán ACO-MGA 2.3.5 Qui tắc cập nhật vết mùi Thuật toán ACO-MGA2 sử dụng quy tắc cập nhật vết mùi SMMAS cải tiến so với thuật toán ACO-MGA điểm thuật toán ACO-MGA2 sử dụng giá trị tham số  giai đoạn khác Giai đoạn đầu khơng sử dụng tìm kiếm địa phương nên tham số  thiết lập nhỏ để khai thác thơng tin học tăng cường, giai đoạn áp dụng tìm kiếm cục bợ tham sớ thiết lập lớn để tăng tính khám phá 2.3.6 Thủ tục tìm kiếm cục Thủ tục tìm kiếm cục bợ thực hiện đồ thị G1 đến đồ thị Gn theo ngun tắc tìm kết tớt dừng Thủ tục gồm hai kỹ thuật: đổi đỉnh nhãn đổi đỉnh khác nhãn 1) Đổi đỉnh khác nhãn Đổi vị trí cặp vectơ dóng hàng tương ứng với cặp đỉnh khác nhãn đồ thị Gi xét việc đổi chỗ làm tăng sớ lượng đỉnh nhãn vector dóng hàng 2) Đổi đỉnh nhãn Đổi vị trí cặp vectơ dóng hàng tương ứng với cặp đỉnh tcùng nhãn đồ thị Gi xét việc đổi vị trí cải thiện độ phù hợp trọng số cạnh liên quan Nếu sau đổi chỗ, hàm đánh giá chất lượng tăng lên lời giải nhận thay cho lời giải tớt lúc Q trình lặp lại tìm lời giải tớt Vì thủ tục tìm kiếm cục bợ tốn thời gian nên áp dụng cho giai đoạn hai, lời giải tớt tìm đủ tớt 2.4 Thuật toán memetic kết hợp ACO Tabu Search 2.4.1 Đồ thị cấu trúc Đồ thị cấu trúc thuật tốn ACOTS-MGA sử dụng giớng thuật tốn ACO-MGA2 11 2.4.2 Thơng tin heuristic 𝑖 Heuristic information 𝜂𝑗,𝑘 (𝑎) sớ điểm cạnh tính theo cơng thức (2.3) đỉnh k đồ thị Gi+1 dóng với đỉnh j đồ thị Gi 2.4.3 Thủ tục bước ngẫu nhiên xây dựng dóng hàng Tại vòng lặp, kiến lặp lại q trình xây dựng véctơ dóng hàng a = (a1,…, an) cho dóng hàng A sau: Kiến lựa chọn ngẫu nhiên một đỉnh thực tầng đỉnh khởi tạo Tại tầng tiếp theo, ký hiệu label (a) tập nhãn đỉnh tḥc véctơ dóng hàng a, gọi Bi  {v  Gi | label (v)  label (a)} tập đỉnh thuộc đồ thị Gi có nhãn trùng với nhãn đỉnh tḥc véctơ dóng hàng Trong trường hợp khơng có đỉnh có nhãn trùng với nhãn đỉnh dóng hàng, Bi tập đỉnh lại chưa dóng hàng Kiến lựa chọn ngẫu nhiên đỉnh Bi với xác suất cho cơng thức 2.9 Để dễ hình dung, giả sử véctơ dóng hàng xây dựng từ đỉnh a1 đồ thị G1 thực hiện thủ tục bước ngẫu nhiên để phát triển đến đỉnh đồ thị Gi lựa chọn đỉnh thứ k tḥc đồ thị Gi +1 với xác ( ij ,k )  ij ,k (a)] suất là: p ij ,k  (2.9)  sB ( ij ,s ) [ ij ,s (a)] i 1 Sau xây dựng đầy đủ véctơ a=(a1,…,an), đỉnh thực thuộc véctơ bị loại bỏ khỏi đồ thị cấu trúc để tiếp tục trình xây dựng véctơ dóng hàng tất đỉnh dóng hàng 2.4.4 Qui tắc cập nhật vết mùi Khác với thuật toán ACO-MGA2, việc cập nhật mùi ACOTS-MGA thực hiện theo công thức 2.10 2.11  ij ,k  (1   ) ij ,k  ij ,k (2.10)  i j ,k    max      mid     (i,j,k)  lêi gi¶i tèt nhÊt (i,j,k)  lêi gi¶i tèt vòng lặp (2.11) trường hợp khác Cỏc tham sụ max,min ∈ (0,1) khởi tạo tương tự thuật toán ACO-MGA2 Trong thuật toán ACOTS-MGA luận án sử dụng thêm tham số mid để cập nhật mùi trường hợp lời giải mà kiến tìm lời giải tớt vòng lặp chưa phải lời giải tớt tồn cục Tham sớ thiết lập nhỏ max với ý nghĩa lời giải tớt tồn cục để lại lượng vết mùi lớn so với lời giải tốt vòng lặp 2.4.5 Thủ tục tìm kiếm Tabu Trong vòng lặp ći thuật tốn ACOTS-MGA, thuật toán Tabu Search áp dụng để tăng cường chất lượng lời giải Thủ tục tìm kiếm Tabu duyệt đỉnh đồ thị, với đồ thị thực hiện việc hoán vị cặp đỉnh vector dóng hàng Nếu việc hốn vị làm tăng điểm đánh giá lời giải tớt cập nhật lời giải hiện Khác với thủ tục tìm kiếm thơng thường, thủ tục Tabu Search có sử dụng mợt danh sách Tabu để lưu lại bước chuyển Các bước chuyển nằm danh sách Tabu không xét lại để tránh lặp lại bước chuyển Một khác biệt so với thuật tốn ACO-MGA2 thủ tục tìm kiếm cục bộ ACO-MGA2 gọi một lần vòng lặp, thuật tốn ACOTS-MGA, thủ tục tìm kiếm gọi lặp lại nhiều lần không cải thiện chất lượng lời giải 2.5 Các kết thực nghiệm 2.5.1 Dữ liệu thực nghiệm Khi đánh giá hiệu thuật toán, việc lựa chọn liệu quan trọng, để đảm bảo khách quan, luận án sử dụng lại bộ liệu thực sử dụng để đánh giá hiệu thuật toán tham lam Weskamp thuật toán GAVEO Thomas Fober đề xuất Các cơng trình tác giả đề xuất đăng 12 tải tạp chí uy tín nên bợ liệu thực nghiệm lựa chọn đảm bảo đợ tin cậy khách quan Dữ liệu thực nghiệm bao gồm 74 cấu trúc sinh từ sở liệu Cavbase Mỗi cấu trúc biểu diễn cho một protein cavity thuộc họ protein thermolysin, vi khuẩn protease thường sử dụng phân tích cấu trúc protein thích với số hiệu EC 3.4.24.27 sở liệu enzyme Trong bộ liệu này, đồ thị sinh có từ 42 đến 95 đỉnh Từ 74 cấu trúc đó, đồ thị lựa chọn ngẫu nhiên để sinh tập liệu gồm 4, 8, 16, 32 đồ thị để tiến hành chạy thực nghiệm thuật toán 2.5.2 Thực nghiệm so sánh thuật toán ACO-MGA với thuật toán Greedy GAVEO Thực nghiệm nhằm so sánh ACO-MGA với hai thuật toán Greedy thuật toán tiến hóa GAVEO chất lượng lời giải thời gian chạy Các thực nghiệm bao gồm: 1) Chạy thuật tốn mợt bợ liệu với sớ vòng lặp định trước để so sánh chất lượng dóng hàng thời gian chạy 2) Chạy thuật tốn mợt bợ liệu với mợt thời gian định trước để so sánh chất lượng dóng hàng Các thí nghiệm chúng tơi thực hiện máy tính có cấu hình: CPU Dual Core 2.2Ghz, RAM DDR3 3GB hệ điều hành Windows XP SP3 Đới với thuật tốn ACO-MGA, sau tiến hành thực nghiệm với giá trị khác tham số, thấy với giá trị tham số cho kết lời giải tớt nhất, thực nghiệm tham sớ thuật tốn thiết lập sau: Số kiến lần lặp 20, =0.06, 𝛼 = 𝛽 = 1, max = 1.0 min = max/(n2*Vmax2), n sớ đồ thị, Vmax sớ đỉnh đồ thị có nhiều đỉnh Trong thời gian đầu tiến hành nghiên cứu tốn MGA, chưa có liệu thực, chúng tơi sinh ngẫu nhiên tập liệu thực nghiệm tập đồ thị với đồ thị có 20 50 đỉnh, số đồ thị 4,8,16 32 Bảng 2.1 bảng 2.2 kết so sánh thuật toán ACO-MGA, GAVEO Greedy điểm chất lượng dóng hàng (score) thời gian chạy thuật toán Bảng 2.1 kết dóng hàng ứng với đồ thị có trung bình 20 đỉnh bảng 2.2 kết ứng với đồ thị có trung bình 50 đỉnh Các kết tốt thể hiện chữ in đậm, thời gian chạy ngắn thể hiện chữ in nghiêng, đậm Bảng 2.1 So sánh chất lượng dóng hàng thời gian chạy với liệu gồm 4, 8, 16 32 đồ thị, trung bình đồ thị có 20 đỉnh Thuật tốn/Sớ đồ thị Greedy GAVEO ACOMGA 16 32 Điểm -40 -35 -570 -1055 Thời gian (s) 0.6 2.3 17 Điểm -20 65 45 1132 Thời gian (s) Điểm 249 124 501 696 1087.7 1480 2484.1 7289 Thời gian (s) 33.6 231.5 481.2 1266 Bảng 2.2 So sánh kết chất lượng dóng hàng thời gian chạy với liệu gồm 4, 8, 16 32 đồ thị, trung bình đồ thị có 50 đỉnh Thuật tốn/Sớ đồ thị Greedy GAVEO ACOMGA 16 -1144 -4704 -31004 -155508 4.8 11.3 49 210.8 Điểm -101 -75 -10872 -33698 Thời gian (s) 1164 2739.1 6921.3 16340.8 Điểm Thời gian (s) 685 763.4 3338 6523.5 1273 12670.5 -18643 28859.8 Điểm Thời gian (s) 13 32 Kết thực nghiệm cho thấy rằng: Trong trường hợp đồ thị gồm 20 đỉnh đồ thị 50 đỉnh thuật tốn Greedy cho thời gian chạy nhanh so với thuật tốn lại Tuy nhiên kết điểm dóng hàng thuật toán lại thấp so với GAVEO ACO-MGA Thuật tốn ACO-MGA cho kết điểm tớt thuật toán GAVEO Với đồ thị 20 đỉnh, thời gian chạy ACO-MGA nhanh so với GAVEO sớ đỉnh đồ thị tăng lên thời gian chạy GAVEO nhanh số đồ thị vượt Tuy nhiên, thực nghiệm mục sau cho thấy thời gian chạy ACO-MGA cho kết tớt nhiều Vì thuật tốn Greedy có thời gian chạy ngắn lại có điểm thấp nên luận án tiến hành thí nghiệm để so sánh hiệu thuật toán GAVEO thuật toán ACO-MGA với thời gian chạy Bảng 2.3 So sánh chất lượng dóng hàng S(A) với liệu 8,16 32 đồ thị, với số đỉnh trung bình đồ thị 20 đỉnh thời gian chạy 200s Thuật tốn/Sớ đồ thị GAVEO ACO-MGA 16 32 74 -38 1254 690 2262 10060 Bảng 2.4 So sánh chất lượng dóng hàng S(A) với liệu 4, 8,16 32 đồ thị, với số đỉnh trung bình đồ thị 50 đỉnh thời gian chạy 600s Thuật tốn/Sớ đồ thị GAVEO ACO-MGA 16 32 -107 -77 -5282 -96123 673 2898 744 -16945 Các kết thực nghiệm trình bày bảng cho thấy so sánh thuật toán ACOMGA GAVEO với một bộ liệu mô phỏng, một cấu hình máy thời gian chạy thuật tốn ACO-MGA cho kết tớt nhiều so với thuật toán GAVEO 2.5.3 Thực nghiệm so sánh thuật tốn ACOTS-MGA, ACO-MGA2, GAVEO Greedy Vì ACO-MGA2 cải tiến từ ACO-MGA, với nhiều cải tiến phân tích phần đầu mục 2.5.1 đảm bảo thuật tốn cho chất lượng lời giải tớt so với ACO-MGA, nên thực nghiệm so sánh thuật toán ACOTS-MGA, ACO-MGA2 với hai thuật toán Greedy thuật tốn tiến hóa GAVEO chất lượng lời giải thời gian chạy Các thuật toán chạy lại máy tính có cấu hình: CPU Dual Core Ghz, RAM DDR2 4GB hệ điều hành Windows Thuật toán GAVEO sử dụng tham số lựa chọn báo [Fober et al., 2009] Đới với thuật tốn ACO-MGA2 ACOTS-MGA, sau tiến hành thực nghiệm với giá trị khác tham số Các bộ tham số mà thuật tốn cho chất lượng lời giải tớt lựa chọn Các tham số cụ thể sau: Thuật tốn ACO-MGA2: Sớ kiến lần lặp 30 ;1=0.3, 2=0.7, 𝛼 = 𝛽 = 1;max = 1.0 min = max/(n2*Vmax2), n sớ đồ thị, Vmax sớ nút đồ thị có nhiều nút Thủ tục local search gọi 30% sớ vòng lặp ći Thuật tốn ACOTS-MGA: Sớ kiến lần lặp 30 ; 1=0.3, 2=0.7, 𝛼 = 𝛽 = 1;max = 1.0, min = max/(n2*Vmax2) mid=0.8 Thủ tục local search gọi 20% sớ vòng lặp ći Bảng 2.5 So sánh chất lượng dóng hàng thuật tốn với tập liệu gồm 4, 8, 16 32 đồ thị Thuật toán/Số đồ thị 16 32 Greedy -4098 -11827 -56861 -267004 GAVEO -1224 -2729 -10604 -63205 ACO-MGA2 -972 -2277 -7857 -53960 ACOTS-MGA -963 -1089 -5671 -42216 Các kết thực nghiệm bảng 2.5 cho thấy thuật toán ACOTS-MGA cho chất lượng lời giải tốt Greedy, GAVEO ACO-MGA2 đối với tập liệu Khi sớ lượng đồ thị tăng chất lượng lời giải ACOTS-MGA cao so với thuật toán Greedy, GAVEO ACO-MGA2 thể hiện rõ rệt 14 Luận án tiến hành chạy thuật toán một thời gian với tập liệu thuật tốn ACOTS-MGA cho kết tớt so với GAVEO ACO-MGA2 2.6 Kết luận chương Trong chương này, chúng tơi trình bày khái niệm liên quan đến tốn dóng hàng tập gồm nhiều đồ thị đề xuất thuật toán ACO-MGA, ACO-MGA2 ACOTS-MGA để giải tốn dóng hàng nhiều đồ thị Kết thực nghiệm bộ liệu mô liệu thực cho thấy thuật tốn đề xuất cho kết tớt nhiều so với thuật tốn GAVEO chạy với bợ liệu thời gian chạy Khi số đỉnh đồ thị tăng lên thời gian tìm kiếm địa phương ACO-MGA, ACO-MGA2 ACOTSMGA làm tăng thời gian chạy nên thuật toán đề xuất chạy lâu GAVEO mợt sớ trường hợp Các thuật tốn đề xuất dóng hàng nhiều mạng vị trí liên kết protein cho chất lượng dóng hàng tớt thuật toán GAVEO Greedy giúp xác định tương đồng cấu trúc protein xác Thơng qua tính tương đồng mặt cấu trúc suy diễn chức protein chưa biết thông qua protein biết [Yuan et al., 2018] Đó ý nghĩa sinh học mà thuật toán đề xuất mang lại Chương DĨNG HÀNG TỒN CỤC HAI MẠNG TƯƠNG TÁC PROTEIN- PROTEIN Chương giới thiệu thuật toán mà luận án đề xuất để giải tốn dóng hàng tồn cục mạng tương tác protein FASTAN, ACOGNA ACOGNA++ Các thực nghiệm chứng minh thuật toán cho chất lượng lời giải tốt đáng kể so với phương pháp hiện 3.1 Bài toán dóng hàng tồn cục mạng tương tác Protein 3.1.1 Phát biểu toán Giả sử G1 = (V1 , E1 ) G2 = (V2 , E2 ) đồ thị mô tả mạng tương tác protein, V 1, V2 tương ứng tập đỉnh đồ thị G1 G2; E1, E2 tập cạnh tương ứng G1, G2 Không tính tổng qt ta giả sử | V1 || V2 | |V| ký hiệu cho sớ phần tử tập V Định nghĩa 3.1 Dóng hàng toàn cục mạng tương tác protein xác định một đơn ánh f : V1  V2 đỉnh V1 khớp với đỉnh v2  f (v1 ) V2 Trong trường hợp | V1 || V2 | f mợt song ánh 3.1.2 Đánh giá chất lượng dóng hàng tồn cục Cho mợt dóng hàng mạng f ký hiệu f ( E1 )  {( f (u ), f (v))  E2 : (u, v)  E1} f (V1 )  {f (v) V2 : v V1} Các tiêu chuẩn dóng hàng sử dụng phổ biến nghiên cứu tốn dóng hàng tồn cục mạng tương tác protein trình bày đây: Tiêu chuẩn GNAS Aladag giới thiệu tính theo cơng thức sau: 𝐺𝑁𝐴𝑆 = 𝛼|𝑓(𝐸1 )| + (1 − 𝛼) ∑𝑢∈𝑉1 𝑠𝑖𝑚𝑖𝑙𝑎𝑟(𝑢, 𝑓(𝑢)), (3.1) 𝛼 ∈ [0.1] tham số thể hiện tương quan mức độ quan trọng độ tương đồng mặt cấu trúc tương đồng mặt trình tự, 𝑠𝑖𝑚𝑖𝑙𝑎𝑟(𝑢, 𝑓(𝑢)) đợ đo tương tự trình tự đó, chẳng hạn, BLAST bit-scores hay E-values (Các giá trị tính tốn trước liệu đầu vào mợt sớ thuật tốn dóng hàng tồn cục).Ưu điểm đợ đo GNAS thể hiện mối tương quan topology độ tương đồng trình tự đồ thị dóng hàng Kuchaiev cộng đề xuất dùng độ đo EC (Edge Correctness) công thức 3.2 f ( E1 ) (3.2) EC  E1 EC độ đo tỷ lệ cạnh đồ thị nguồn dóng hàng xác đến cạnh đồ thị thứ hai với số lượng cạnh đồ thị nguồn Giá trị EC lớn có nghĩa hai mạng có cấu trúc tương tự Tiêu chuẩn định lượng giống hai mạng EC 100% đồ thị thứ hai G2 chứa mợt đẳng cấu G1 15 Khi dóng hàng mợt mạng có mật đợ cạnh thưa với mạng đích có mật đợ cạnh dày, có nhiều cách để dóng hàng G1 với mạng G2 Tuy nhiên trực giác thấy việc dóng hàng G1 với mạng thưa G2 tốt so với việc dóng hàng G1 với mợt mạng dày Để “phạt” dóng hàng dóng hàng mà ánh xạ đồ thị G1 với một mạng dày đồ thị G2, Patro cộng [Patro & Kingsford, 2012] đề xuất dùng độ đo ICS (Induced Conserved Structure), độ đo ICS thể hiện tỷ lệ cạnh đồ thị nguồn bảo tồn đồ thị đích sau dóng hàng (f(E1)) với sớ cạnh đồ thị đồ thị đích sinh đỉnh dóng hàng với đỉnh đồ thị nguồn (E(G2[f(V1)])) Cụ thể ICS tính theo công thức 3.3 f ( E1 ) , (3.3) ICS  E (G2 [ f (V1 )]) 𝐸(𝐺2 [𝑓(𝐸1 )]) tập cạnh 𝐺2 đồ thị có tập đỉnh 𝑓(𝑉1 ) Qua cơng thức 3.2 3.3 thấy, đợ đo EC trọng đến đồ thị nguồn, độ đo ICS trọng đến đồ thị đích Vì độ đo EC không tốt đánh giá chất lượng dóng hàng ta dóng hàng mợt mạng có mật đợ cạnh thưa với mợt mạng có mật đợ cạnh dày Ngược lại độ đo ICS không tốt ta dóng hàng mợt mạng dày với mạng thưa Nhận thấy nhược điểm độ đo EC ICS, Saraph cộng [Saraph & Milenković, 2014] đề xuất độ đo S3 công thức 3.4 S  f ( E1 ) (3.4) E1  E (G2 [ f (V1 )])  f ( E1 ) S3 xét đến số cạnh đồ thị nguồn số cạnh đồ thị sinh cách đỉnh đồ thị đích dóng hàng, khắc phục nhược điểm EC ICS phân tích 3.2 3.2.1 Thuật toán FASTAN Đặc tả thuật toán Thuật toán FASTAN gồm hai giai đoạn: giai đoạn thứ xây dựng dóng hàng ban đầu giai đoạn sau cải tiến nhờ thủ tục tới ưu cục bợ Rebuild 3.2.1.1 Xây dựng dóng hàng ban đầu Cho đồ thị G1 , G2 ; tham số α độ tương tự cặp đỉnh tương ứng V1 , V2 similar(i, j) Ký hiệu Vi tập đỉnh dóng hàng đồ thị Gi RVi = Vi –Vi tập đỉnh chưa dóng hàng đồ thị Gi Gọi A12= (V12, E12) kết phép dóng hàng đồ thị G1 với đồ thị G2, V12   i, f (i) : i V1 , f (i) V2  ; E12  ( u, f (u) ,  v, f (v) ) : (u, v)  E1,( f (u), f (v))  E2  Thủ tục FASTAN thực hiện sau: Bước Xác định cặp đỉnh i ∈ V1 j ∈ V2 có độ tương tự similar(i, j) lớn Gán f(i):=j; Khởi tạo V1= {i};V2= {j}; Bước Thực hiện lặp với k= tới |𝑉1 | 2.1 Tìm nút i  RV1 có sớ cạnh nới với đỉnh 𝑉 lớn (Thủ tục gọi find_next_node) 2.2 Tìm f(i) = j  RV2 mà dóng hàng j với i cơng thức 𝛼|𝑓(𝐸1∗ )| + (1 − 𝛼)(∑𝑢∈𝑉 𝑠𝑖𝑚𝑖𝑙𝑎𝑟(𝑢, 𝑓(𝑢)) + 𝑠𝑖𝑚𝑖𝑙𝑎𝑟(𝑖, 𝑗)) đạt giá trị lớn Trong 𝐸1∗ cạnh đồ thị G1 có đỉnh tḥc tập 𝑉 ∪ 𝑖 (Thủ tục gọi choose_best_matched_node) 2.3 Lần lượt thêm i,j vào tập đỉnh dóng hàng V1, V2 Bước Thực hiện lặp cải tiến 𝐴12 nhờ thủ tục Rebuild Chú ý bước 2.1 2.2 tìm nhiều đỉnh tốt nhất, chọn ngẫu nhiên mợt đỉnh sớ để tạo đa dạng lời giải lần chạy khác 3.2.1.2 Thủ tục Rebuild Sau giai đoạn 1, xác định dóng hàng thơ A12, để tăng chất lượng lời giải, thuật tốn sử dụng thủ tục tới ưu cục bộ rebuild Ý tưởng thủ tục sử dụng một tập giống gồm nkeep cặp đỉnh dóng hàng tớt A12, sau dóng hàng lại cặp đỉnh khác, lời giải tốt thay cho lời giải trước Chi tiết thủ tục rebuil 16 Bước Xây dựng SeedV12 gồm 𝑛𝑘𝑒𝑒𝑝 đỉnh V1 có điểm tớt theo tiêu chí cho cơng thức 3.5: 𝑠𝑐𝑜𝑟𝑒(𝑢) = 𝛼 𝑤(𝑢) + (1 − 𝛼) 𝑠𝑖𝑚𝑖𝑙𝑎𝑟(𝑢, 𝑓(𝑢)) (3.5) u𝑉1 𝑓(𝑢)𝑉2 dóng hàng với u 𝐴12 , w(u) số lượng nút v thuộc V1 mà (u,v) thuộc E1 (f(u),f(v)) thuộc E2 Bước Thực hiện lặp bước giai đoạn với k = 𝑛𝑘𝑒𝑒𝑝 + tới |𝑉1 | để xây dựng lại A12 Sau lần thực hiện thủ tục Rebuild ta có mợt dóng hàng làm input 𝐺12 cho lần lặp tiếp theo, trình lặp lại không cải tiến GNAS(A12) 3.2.2 Độ phức tạp thuật toán FASTAN so với SPINAL Trong nghiên cứu Aladag Erten [Aladag & Erten, 2013], tốn dóng hàng tồn cục mạng tương tác protein chứng minh NP-khó Các tác giả đề xuất thuật toán SPINAL có đợ phức tạp với thời gian đa thức là: SPINALComplexity  O  k  V1  V2  1  2  log  1     (3.6) Trong k sớ lần lặp chạy thuật tốn, theo [Aladag & Erten, 2013] thuật tốn hợi tụ sau 10 đến 15 lần lặp; ∆1, ∆2 bậc đỉnh thuộc đồ thị G1 G2 có bậc lớn Dễ dàng kiểm tra độ phức tạp giai đoạn bước lặp giai đoạn thuật tốn FASTAN là: O(|V1|×(E1|+|E2|)) (3.7) Các thực nghiệm tiến hành với bộ liệu thực nghiệm IsoBase cho thấy số lần lặp giai đoạn thuật tốn khơng vượt q 20 lần Bởi |V1|×∆1 ≥ E1 nên ý tới đợ phức tạp SPINAL cơng thức (3.6) ta có: |V1|×|V2|×∆1×∆2 ≥ E1× E2 > (|V1|×(E1|+|E2|)) (3.8) Như đợ phức tạp FASTAN so với độ phức tạp SPINAL thấp nhiều 3.3 Thuật toán ACOGNA 3.3.1 Lược đồ chung Thuật toán ACOGNA xây dựng đây: Bước Khởi tạo ma trận vết mùi, tập A gồm m kiến Bước Thực hiện lặp chưa thoả mãn điều kiện dừng Với kiến ta tiến hành bước sau: 2.1 Gán f(i)=j i, j cặp đỉnh có đợ tương đồng similar (i,j) lớn Khởi tạo V1 = {i}; V2 = {j}; 2.2 Thực hiện lặp với k= tới V1 2.2.1 Tìm đỉnh i  RV1 có sớ cạnh tới đỉnh V lớn nhất; 2.2.2 Sử dụng thuật tốn ACO tìm đỉnh f(i)= j  RV2 theo thủ tục bước ngẫu nhiên (thủ tục antMove) 2.2.3 Lần lượt thêm đỉnh i j vào tập đỉnh V1 V2 2.3 Thực hiện tìm kiếm cục bợ lời giải tớt kiến tìm để cải thiện chất lượng lời giải 2.4 Cập nhật lại lời giải tốt 2.5 Cập nhật vết mùi theo quy tắc SMMAS dựa lời giải tốt Bước Lưu lại lời giải tốt Chú ý bước 2.2.1, việc tìm i  RV1 có sớ cạnh tới đỉnh V lớn nhằm tăng sớ lượng cạnh bảo tồn sau dóng hàng, tìm nhiều đỉnh tớt lựa chọn ngẫu nhiên mợt đỉnh tìm để dóng hàng 3.3.2 Đồ thị cấu trúc Đồ thị cấu trúc thuật toán gồm tầng, tầng thứ i thể hiện đồ thị Gi Các đỉnh tầng kết nối với tất đỉnh tầng Hình 3.1 thể hiện đồ thị cấu trúc thuật toán ACOGNA Khi xây dựng lời Hình 3.1 Đồ thị cấu trúc thuật tốn ACOGNA 17 giải, kiến xuất phát từ mợt đỉnh tḥc tầng lựa chọn dóng hàng với đỉnh thuộc tầng theo công thức (3.10) Một dóng hàng tồn cục đồ thị theo định nghĩa một đường xuất phát từ đỉnh G1 dóng với đỉnh G2 sau quay lại G1 tiếp tục dóng với đỉnh G2 , lặp lại tất đỉnh G1 dóng hàng 3.3.3 Vết mùi thông tin heuristic Vết mùi 𝜏𝑗𝑖 cạnh  i, j  dóng đỉnh i  V1 với đỉnh j  V2 khởi tạo 𝜏𝑚𝑎𝑥 sau cập nhật lại sau vòng lặp theo công thức 3.11 Thông tin heuristic 𝜂𝑗𝑖 tính theo cơng thức 3.9  ij   f E1*  (1   ).similar (i, j ) (3.9)     Trong f E1* sớ cạnh bảo tồn tiếp tục dóng hàng đỉnh j với đỉnh i, α số thể hiện mối tương quan độ tương đồng cấu trúc tính tương đồng trình tự, similar (i, j ) độ tương đồng đỉnh i j 3.3.4 Thủ tục bước ngẫu nhiên để xây dựng dóng hàng Tại vòng lặp, sau chọn một đỉnh i  RV1 thủ tục find_next_node tương tự thuật toán FASTAN, kiến chọn đỉnh j  RV2 theo xác suất cho công thức 3.10 pij   ( ij )a [ ij ]b kRV2 (3.10) ( ki )a [ki ]b Sau lựa chọn đỉnh j  RV2 để dóng với i  RV1 , kiến quay lại lựa chọn đỉnh đồ thị G1 để tiếp tục dóng hàng Q trình lặp lại tất đỉnh G1 dóng hàng với đỉnh G2 3.3.5 Quy tắc cập nhật vết mùi Sau tất kiến xây dựng lời giải, lời giải kiến tớt áp dụng thủ tục tìm kiếm cục bộ để tăng chất lượng lời giải Lời giải tốt sử dụng để cập nhật vết mùi cạnh theo quy tắc cập nhật mùi SMMAS, đây:  ij  (1   ) ij  ij    max ij      (3.11) j=f(i) j  f(i) (3.12) Trong max min tham sớ cho trước, ∈ (0,1) tham số bay cho trước quy định tḥc tính,  nhỏ thể hiện việc tìm kiếm quanh thơng tin học tăng cường,  lớn thể hiện tính khám phá 3.3.6 Thủ tục tìm kiếm cục Trong vòng lặp, sau tất kiến xây dựng xong lời giải, lời giải tốt 𝐴12 kiến xây dựng áp dụng tìm kiếm cục bợ Thủ tục tìm kiếm cục bộ cải tiến từ thủ tục rebuilt FASTAN Điểm khác biệt ACOGNA so với FASTAN chất lượng dóng hàng tăng lên gọi thủ tục dóng hàng cục bợ giá trị nkeep điều chỉnh tăng lên để giữ nhiều cặp đỉnh tốt giảm thời gian xây dựng lại dóng hàng 3.4 Thuật tốn ACOGNA++ 3.4.1 Mơ tả thuật toán Với đồ thị cấu trúc xây dựng giớng thuật tốn ACOGNA, để xây dựng mợt dóng hàng, kiến thực hiện trình lặp để xác định đỉnh thuộc tầng đồ thị cấu trúc một đỉnh thuộc tầng dóng hàng với Q trình kết thúc tất đỉnh thuộc đồ thị G1 dóng hàng Sau tất 18 kiến xây dựng xong dóng hàng, thủ tục tìm kiếm cục bộ áp dụng lời giải tốt vòng lặp để nâng cao chất lượng Tùy theo tiêu chuẩn tối ưu lựa chọn GNAS, EC hay S3, tiêu chuẩn sử dụng để lựa chọn lời giải tốt thay đổi tương ứng theo hàm mục tiêu 3.4.2 Vết mùi Vết mùi lưu thông tin học tăng cường để đánh giá mợt cặp đỉnh dóng hàng tớt hay khơng Thuật toán ACOGNA++ sử dụng ma trận vết mùi Vết mùi 𝜏1𝑖 đặt đỉnh đồ thị G1 để xác định đỉnh ưu tiên lựa chọn để dóng hàng trước Vết mùi 𝜏𝑗𝑖 đặt cạnh (i,j) đồ thị cấu trúc, dùng để xác định đỉnh j  G2 dóng hàng với đỉnh i  G1 Các vết mùi khởi tạo giá trị 𝜏𝑚𝑎𝑥 cập nhật lại sau vòng lặp 3.4.3 Thủ tục xác định cặp đỉnh dóng hàng Thủ tục gồm bước, xác định đỉnh dóng hàng đồ thị G1 sau xác định ảnh đồ thị G2 Xác định đỉnh dóng hàng thuộc đồ thị nguồn Khác với thủ tục find_next_node FASTAN ACOGNA sử dụng để xác định đỉnh i  RV1 dóng hàng Thuật tốn ACOGNA++ sử dụng thuật toán ACO để xác định đỉnh i dóng hàng Gọi tập T chứa đỉnh 𝑖 cho i  RV1 có nhiều cạnh nối với đỉnh V Khi đó, đỉnh 𝑖 ∈ 𝑇 chọn ngẫu nhiên theo xác suất: pi  (1i )a [i ]b  jT (1j )a [ j ]b (3.13) Trong 𝜂𝑖 số lượng đỉnh kề i đồ thị 𝐺1 , 𝜏1𝑖 vết mùi 𝜏1𝑖 đặt đỉnh đồ thị G1 mô tả mục 3.5.2 Việc sử dụng ACO để tìm đỉnh tḥc đồ thị nguồn dóng hàng giúp khai thác tớt thông tin học tăng cường thông qua vết mùi mà kiến để lại Điều giúp cải thiện chất lượng lời giải tốt so với cách lựa chọn ngẫu nhiên FASTAN ACOGNA Xác định ảnh điểm dóng hàng đồ thị đích G2 Sau xác định đỉnh i  V1 đỉnh j  V2 kiến lựa chọn theo xác suất pij   ( ij )c [ ij ]d kRV2 (3.14) ( ki )c [ki ]d Khi chạy thuật toán ACOGNA++ để tới ưu theo hàm mục tiêu GNAS thơng tin heuristic sử dụng giớng thuật tốn ACOGNA Trong trường hợp chạy thuật tốn ACOGNA++ tới ưu theo hàm mục tiêu EC, S3, thông tin heuristic 𝜂𝑗𝑖 tính theo cơng thức 3.15 3.16  ij   f E (G1[V1  i])  E1 (3.15)  ij   f E (G1[V1  i])   E1  E (G2  f (V )  j )  f E (G1[V1  i])    (3.16) 3.4.4 Quy tắc cập nhật vết mùi Sau vòng lặp, lời giải tớt xác định sử dụng để cập nhật lại vết mùi theo quy tắc cập nhật mùi SMMAS Vết mùi đặt đỉnh đồ thị G1 cập nhật theo công thức 3.17 3.18: 𝜏1𝑖 ← (1 − 𝜌) 𝜏1𝑖 + Δ𝜏𝑖 (3.17) Trong 20 𝜌 𝜏𝑚𝑖𝑛 𝑛ế𝑢 < 𝑖, 𝑓(𝑖) > 𝑘ℎơ𝑛𝑔 𝑐ó đỉ𝑛ℎ 𝑘ề Δ𝜏𝑖 = { (3.18) 𝜌 𝜏𝑚𝑎𝑥 𝑛ế𝑢 < 𝑖, 𝑓(𝑖) > 𝑐ó í𝑡 𝑛ℎấ𝑡 𝑚ộ𝑡 đỉ𝑛ℎ 𝑘ề Vết mùi đặt cạnh đồ thị cấu trúc cập nhật theo công thức (3.19) (3.20) j=f(i)    max  ij  (1   ) ij  ij (3.19) ij   (3.20) j  f (i )    3.4.5 Thủ tục tìm kiếm cục Thủ tục tìm kiếm cục bộ ACOGNA++ sử dụng tương tự ACOGNA 3.5 Kết thực nghiệm 3.5.1 Dữ liệu thực nghiệm Dữ liệu thực nghiệm bộ liệu thực gồm mạng tương tác protein sử dụng phổ biến đánh giá chất lượng thuật tốn dóng hàng mạng PPI Đó mạng tương tác protein loài như: giun, ruồi giấm, khỉ người [Park, Singh, Baym, Liao, & Berger, 2010] Mô tả tập liệu bảng 3.1 Từ bợ liệu chúng tơi tạo sáu cặp mạng tương tác để dóng hàng (ce-dm, ce-hs,ce-sc,dmhs, dm-sc,hs-sc) Bảng 3.1 Mô tả bộ liệu Tập liệu Ký hiệu Số đỉnh C.elegans (Worm) ce 2805 D melanogaster (fly) dm 7518 S.cerevisiae (yeast) sc 5499 H.sapiens (human) hs 9633 Số cạnh 4495 25635 31261 34327 3.5.2 Thực nghiệm so sánh thuật toán FASTAN với thuật toán SPINAL Có nhiều thuật tốn dóng hàng tồn cục hai mạng tương tác protein – protein đề xuất trước đó, nhiên báo [Aladag & Erten, 2013], Aladag tiến hành thực nghiệm bộ liệu IsoBase cho thấy thuật toán SPINAL cho kết tớt thuật tốn khác đánh giá theo tiêu chuẩn GNAS |E12| (số tương tác protein bảo tồn dóng hàng mạng PPI nguồn với mạng PPI đích) Vì thực nghiệm mục tiến hành so sánh thuật toán heuristic thuật tốn FASTAN SPINAL bợ liệu mô tả mục 3.5.1 với tiêu chuẩn GNAS |E12| Để đảm bảo tính cơng mặt thời gian, thuật toán chạy lại máy tính có cấu hình hệ điều hành Bảng 3.2 So sánh thuật toán FASTAN thuật toán Spinal theo hàm mục tiêu GNAS giá trị |E12| với giá trị tham số α khác Trong ơ, dòng điểm GNAS dòng giá trị |E12| α = 0.3 FASTAN SPINAL 717.99 778.46 2343.0 2560.7 728.26 863.46 2370.0 2842.8 709.12 834.79 2326.0 2761.1 1883.22 2260.31 6189.0 7478.3 1579.06 1977.82 5203.0 6569.7 1731.81 2268.21 5703.0 7531.8 α = 0.4 FASTAN SPINAL 941.19 1034.20 2320.0 2564.6 993.07 1144.17 2446.0 2838.1 963.28 1109.93 2384.0 2761.2 2517.23 3007.11 6235.0 7481.9 2075.14 2631.85 5150.0 6565.5 2253.66 3017.96 5593.0 7528.5 α = 0.5 FASTAN SPINAL 1159.93 1290.11 2300.0 2567.2 1229.95 1429.89 2437.0 2844.9 1168.95 1389.21 2323.0 2769.7 3160.48 3755.36 6282.0 7429.0 2668.65 3290.03 5311.0 6570.7 2839.00 3772.96 5651.0 7535.2 α = 0.6 FASTAN SPINAL 1350.59 1545.86 2237.0 2567.7 1501.61 1708.81 2487.0 2838.0 1422.74 1663.39 2361.0 2766.5 3790.79 4496.45 6291.0 7478.2 3180.27 3950.16 5283.0 6577.4 3434.54 4520.51 5706.0 7527.0 α = 0.7 FASTAN 1801.24 2567.6 1994.87 2843.4 1936.83 2763.1 5242.32 7478.8 4603.41 6572.3 5279.88 7538.1 SPINAL 1586.87 2258.0 1764.93 2512.0 1683.13 2398.0 4451.6 6344.0 3759.07 5360.0 4066.22 5798.0 Kết thực nghiệm từ bảng 3.2 FASTAN tìm lời giải (dóng hàng tồn cục) có điểm GNAS |E12| tốt nhiều so với Spinal (p-value

Ngày đăng: 16/01/2020, 02:01

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN