Tóm tắt Luận văn Tiến sĩ Hệ thống thông tin: Một số thuật toán dóng hàng các mạng protein

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	26
Dung lượng	1,37 MB

Nội dung

Mục tiêu của luận án: Tìm hiểu các dạng bài toán dóng hàng các mạng protein nêu trên và đánh giá ưu nhược điểm của các thuật toán giải cho các bài toán này đã được đề xuất trong thời gian gần đây. Bên cạnh đó là tìm hiểu các kỹ thuật tính toán mềm để thấy rõ ưu và nhược điểm của từng phương pháp. Trên cơ sở đó, đề xuất các thuật toán mới với chất lượng lời giải tốt hơn các thuật toán hiện tại trong thời gian ngắn hơn cho các bài toán này.

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN NGỌC HÀ MỘT SỐ THUẬT TỐN DĨNG HÀNG CÁC MẠNG PROTEIN Chuyên ngành: Khoa học máy tính Mã số: 9480101.01 TĨM TẮT LUẬN ÁN TIẾN SĨ CƠNG NGHỆ THƠNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Hồng Xuân Huấn GS TS Thái Trà My HÀ NỘI – 2019 Cơng trình hồn thành tại: Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Người hướng dẫn khoa học: PGS TS Hoàng Xuân Huấn GS.TS Thái Trà My Phản biện: Phản biện: Phản biện: Luận án bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp vào hồi giờ ngày tháng năm Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Trung tâm Thông tin - Thư viện, Đại học Q́c gia Hà Nợi MỞ ĐẦU Tính cấp thiết luận án Những phát hiện chế di truyền thể sống thúc đẩy sinh học phân tử nói riêng cơng nghệ sinh học nói chung phát triển mạnh mẽ nửa kỷ qua trở nên lĩnh vực nghiên cứu ứng dụng hấp dẫn Tuy nhiên nghiên cứu phòng thí nghiệm đòi hỏi nhiều thời gian tớn Cùng với phát triển công nghệ thông tin, tin-sinh học đời công cụ trợ giúp hiệu cho nghiên cứu sinh-ydược Việc nghiên cứu tính tương đồng/khác biệt cấu trúc không đủ để phát hiện tính tương đồng/khác biệt chức thể sống Nghiên cứu mạng sinh học mạng tương tác protein-protein (PPI), mạng điều hòa gen (gene regulatory), mạng vị trí liên kết/hoạt tính protein, mạng trao đổi chất …mang lại tiếp cận nghiên cứu hiệu phân tích chức sinh học phân tử Đặc biệt, việc dóng hàng mạng tương tác protein-protein mạng vị trí liến kết protein cho phép dự đoán đặc điểm chức loài chưa nghiên cứu kỹ từ tri thức lồi biết, nhờ hiểu rõ quan hệ tiến hóa sinh học, hỗ trợ thông tin để nghiên cứu thuốc điều trị bệnh di truyền Các tốn tḥc loại NPkhó thu hút nhiều người nghiên cứu/ứng dụng tính quan trọng chúng Trong bới cảnh đó, chúng tơi chọn chủ đề nghiên cứu "Một số thuật tốn dóng hàng mạng protein” với nội dung nghiên cứu áp dụng kỹ thuật TƯTH mềm để đề xuất mợt sớ thuật tốn thơng minh giải hai tốn dóng hàng nhiều mạng vị trí liên kết protein dóng hàng tồn cục mạng tương tác proteinprotein với chất lượng lời giải thời gian tính tốn tớt so với thuật tốn hiện Mục tiêu luận án Tìm hiểu dạng tốn dóng hàng mạng protein nêu đánh giá ưu nhược điểm thuật toán giải cho toán đề xuất thời gian gần Bên cạnh tìm hiểu kỹ thuật tính tốn mềm để thấy rõ ưu nhược điểm phương pháp Trên sở đó, đề xuất thuật tốn với chất lượng lời giải tớt thuật tốn hiện thời gian ngắn cho toán Cài đặt chạy thực nghiệm thuật toán đề xuất bộ liệu thực để đánh giá hiệu thuật toán đề xuất so với thuật tốn trước Các đóng góp luận án Trong thời gian qua, với cán bộ hướng dẫn cộng sự, tác giả luận án có đóng góp sau - Đề xuất ba thuật tốn dựa tới ưu đàn kiến cho tốn dóng hàng nhiều đồ thị, bao gồm ACO-MGA, ACO-MGA2 ACOTS-MGA - Đề xuất ba thuật toán cho tốn dóng hàng tồn cục mạng tương tác protein-protein, bao gồm thuật tốn heuristic FASTAN hai thuật tốn tới ưu đàn kiến: ACOGNA ACOGNA++ Các kết thực nghiệm cho thấy hiệu thuật toán đề xuất tớt so với thuật tốn đề xuất trước cơng bớ báo cáo hội nghị/hội thảo quốc gia/quốc tế bao gồm báo cáo hợi nghị q́c tế (Cơng trình 1,2,3,5) mợt hợi thảo tồn q́c “Nghiên cứu ứng dụng cơng nghệ thơng tin” (Cơng trình 4), mợt báo đăng tạp chí VNU Journal of Science: Computer Science and Communication Engineering (cơng trình 6) Bố cục luận án Ngoài phần mở đầu kết luận, luận án tổ chức sau: Chương giới thiệu hai tốn dóng hàng mạng tương tác protein-protein dóng hàng nhiều đồ thị một số vấn đề liên quan Giới thiệu phương pháp metaheuristic bao gồm phương pháp tối ưu đàn kiến, tính tốn tiến hóa, thuật tốn memetic tìm kiếm Tabu Chương trình bày ba thuật tốn dựa phương pháp tối ưu đàn kiến để giải tốn dóng hàng nhiều mạng vị trí liên kết protein kết thực nghiệm bộ liệu mô liệu thực cho thấy thuật tốn đề xuất tớt hẳn so với thuật tốn Chương trình bày ba thuật tốn đề xuất để giải tốn dóng hàng toàn cục mạng tương tác proteinprotein kết thực nghiệm cho thấy hiệu trội thuật tốn đề xuất Chương DĨNG HÀNG CÁC MẠNG PROTEIN VÀ TỐI ƯU MỀM Trong chương này, luận án giới thiệu ngắn gọn tranh chung tin sinh học giới thiệu tốn tới ưu tổ hợp quan trọng lĩnh vực Tin sinh học là: Bài tốn dóng hàng mạng nhiều mạng vị trí liên kết protein tốn dóng hàng tương tác protein-protein Tiếp theo đó, luận án giới thiệu phương pháp tối ưu mềm sở để đề xuất thuật toán để giải tốn dóng hàng mạng protein 1.1 Tin sinh học dóng hàng mạng protein 1.1.1 Giới thiệu tin sinh học Tin sinh học lĩnh vực khoa học liên ngành, sinh học tin học giữ vai trò chủ đạo Về bản, tin sinh học tập trung vào nghiên cứu, phát triển áp dụng phương pháp công cụ tin học để giải toán sinh học Sinh học phân tử nói riêng cơng nghệ sinh học nói chung phát triển mạnh mẽ, trở nên lĩnh vực nghiên cứu ứng dụng hấp dẫn, tạo cuộc cách mạng đối với hiểu biết chức tế bào, mở đường để phát hiện chế sinh học phức tạp liên quan chúng đến bệnh tật phát triển thể sống Trong đó, hiểu biết q trình tổng hợp protein đặt tảng cho sinh học phân tử DNA mang thông tin di truyền điều khiển tổng hợp protein sinh vật, protein định đặc tính, chức q trình phát triển thể sớng Dựa phân tích tương đồng/dị biệt cấu trúc trình tự DNA protein, người ta có nhận biết quan hệ loài sinh vật cá thể, dự đoán đặc tính sinh học từ lồi dựa đặc tính lồi nghiên cứu kỹ gần với Dóng hàng chuỗi tḥc hệ gen tăng cường kiến thức y sinh học nhờ phát hiện vùng trình tự có tương đồng gen lồi khác nhau, vùng có khả phản ánh mối quan hệ chức tiến hóa trình tự Tuy nhiên, gen sản phẩm protein chúng không hoạt động một cách độc lập mà chúng thực hiện trình tế bào cách tương tác với Các tương tác mơ hình hóa mạng sinh học, chẳng hạn như: mạng điều hòa gen (gene regulatory), mạng trao đổi chất, mạng tương tác protein-protein (protein-protein interactive network: PPI), mạng vị trí liên kết/hoạt tính protein Không giống nghiên cứu chuỗi gen, nghiên cứu mạng sinh học cho phép hiểu trình tế bào phức tạp phát sinh từ hoạt động chung phân tử sinh học Những tiến bộ công nghệ sinh học hiện thời cung cấp nhiều liệu cho phép ta nghiên cứu sâu mạng sinh học cho ta nhiều tri thức quý giá Chẳng hạn, việc dóng hàng mạng sinh học nhằm tìm tương ứng đủ tớt nút mạng loài khác cho phép xác định vùng mạng có kiểu cấu trúc topology cấu trúc trình tự, nhờ chuyển một cách hiệu kiến thức chức tế bào từ loài nghiên cứu tớt sang lồi chưa nghiên cứu nhiều khó làm thực nghiệm Bởi việc nghiên cứu thực nghiệm người gặp nhiều khó khăn rào cản đạo đức pháp luật, nhờ dóng hàng mạng mà người ta chuyển tri thức biết từ nấm men, ruồi giấm, sâu sang tri thức người dựa phát hiện vùng mạng bảo tồn Luận án tập trung nghiên cứu hai tốn thời sự: dóng hàng tồn cục hai mạng tương tác protein-protein dóng hàng nhiều mạng vị trí liên kết/hoạt tính protein 1.1.2 Bài tốn dóng hàng nhiều mạng vị trí liên kết protein Suy diễn chức protein chưa biết thông qua protein biết giữ vai trò quan trọng lĩnh vực khoa học sớng nói chung lĩnh vực hóa dược nói riêng Trong đó, so sánh protein giữ vai trò trung tâm Dự đốn chức protein thực hiện mức chuỗi mức độ cấu trúc Nhận thấy protein với giống chuỗi amino axit 40% thường có chức tương tự [Todd, Orengo, & Thornton, 2001] nên so sánh theo trình tự thường phương pháp sử dụng Nhiều phương pháp tiếp cận khác giới thiệu sử dụng rộng rãi [Altschul et al., 1997; Edgar, 2004; M.A et al., 2007; Notredame, Higgins, & Heringa, 2000; Sjolander, 2004; Thompson, Higgins, & Gibson, 1994] Tuy nhiên, phương pháp không phù hợp để xác định tương đồng chức phân tử tương đồng chức có liên quan mật thiết với đặc tính cấu trúc đặc tính Để phân tích cấu trúc protein, một số tác giả [CONTE et al., 2004; Kinoshita & Nakamura, 2005; Oleksii Kuchaiev & Pržulj, 2011; Mernberger, Klebe, & Hullermeier, 2011; Xifeng Yan, Feida Zhu, Jiawei Han, & Yu, 2006; Yan et al., 2005; Zhang, Hu, & Yang, 2007] đề xuất sử dụng mơ hình đồ thị để biểu diễn cấu trúc chiều protein 1.1.2.1 Mô hình hóa vị trí liên kết protein thành đồ thị Để nghiên cứu cấu trúc protein, bước cần biểu diễn cấu trúc protein theo mơ hình đồ thị Các nghiên cứu [Fober, Mernberger, Klebe, & Hüllermeier, 2009; Weskamp, Hüllermeier, Kuhn, & Klebe, 2007] thực hiện sở liệu Cavbase [Schmitt, Kuhn, & Klebe, 2002] – một hệ thống sở liệu sử dụng thuật toán LIGSITE[Hendlich, Rippmann, & Barnickel, 1997] để tự đợng phát hiện, trích xuất lưu trữ khoang (cavities) protein (các túi liên kết – binding pockets) từ cấu trúc protein xác định qua thực nghiệm (có sẵn từ ngân hàng liệu protein [Berman et al., 2002]) Trong sở liệu này, túi liên kết biểu diễn xấp xỉ đồ thị [19, 20] Để mơ hình hóa mợt túi liên kết thành đồ thị, xếp khơng gian tḥc tính lý hóa mợt túi liên kết gọi tâm giả (pseudocenter)- điểm không gian biểu thị cho tâm (center) một đặc trưng riêng [Weskamp et al., 2007] Kiểu vị trí khơng gian tâm phụ thuộc vào amino axit bao quanh túi liên kết biểu hiện nhóm chức chúng Chúng thu từ cấu trúc protein sử dụng một tập luật định trước [Schmitt et al., 2002] Các loại tâm giả bao gồm: pseudocenters, hydrogenbond donor, acceptor, mixed donor/acceptor, hydrophobic aliphatic, metal ion, pi Mợt túi liên kết mơ hình hóa đồ thị G(V,E), V tập đỉnh, E tập cạnh Nhãn đỉnh thuộc một tập L = {A, B, C, D, E, F, G}, A đại diện cho donor, B đại diện cho acceptor, Hai đỉnh xem có kết nối với biểu diễn cạnh đồ thị G khoảng cách Ơclit chúng nhỏ 12Å (1Å =10-10 mét) Trọng số w(e) coi nhãn cạnh Để mơ hình hóa biến đổi cấu trúc protein tự nhiên, đồ thị, người ta định nghĩa phép toán chỉnh sửa (edit operations): i) Chèn xóa mợt nút: Mợt nút v  V cạnh tương ứng với xóa thêm vào ii) Thay đổi nhãn một đỉnh: Nhãn 𝑙(𝑣) mợt nút 𝑣 ∈ 𝑉 thay một nhãn khác tập L iii) Thay đổi trọng số một cạnh: Trọng số 𝑤(𝑒) mợt cạnh 𝑒 thay đổi tùy theo hình thể Khoảng cách chỉnh sửa đồ thị G1 G2 định nghĩa dãy phép biến đổi nhỏ để biến đổi đồ thị G1 thành đồ thị G2 Cũng dóng hàng chuỗi, ta định nghĩa khái niệm dóng hàng nhiều đồ thị Tương ứng với khái niệm khoảng trớng (gap) dóng hàng chuỗi, khái niệm nút giả định nghĩa để thay cho vị trí nút bị xóa 1.1.2.2 Bài tốn dóng hàng nhiều đồ thị Thơng qua việc mơ hình hóa cấu trúc protein thành đồ thị, kỹ thuật dóng hàng đồ thị sử dụng để xác định tương đồng chức dựa phân tích cấu trúc Các phương pháp chủ yếu dựa kỹ thuật so khớp xác cặp đồ thị Các nghiên cứu thu mợt sớ kết có ý nghĩa nghiên cứu tiến hóa chức phân tử khơng (non-homologous) Tuy nhiên khó áp dụng kỹ thuật để khám phá mẫu sinh học có ý nghĩa lưu lại mợt cách gần Để khắc phục hạn chế phương pháp so khớp đồ thị, tốn dóng hàng nhiều đồ thị (MultiGraph Alignment: MGA) Weskamp cộng [Weskamp et al., 2007] đề xuất năm 2007 sử dụng để phân tích cấu trúc vị trí hoạt tính protein Các tác giả đề xuất thuật toán heuristic để giải toán Trong cách tiếp cận này, túi liên kết protein (protein binding pocket) mơ hình mợt đồ thị liên thơng G(V,E) tốn MGA phát biểu sau: Cho tập hợp G ={G1(V1,E1),…,Gn(Vn,En)} đồ thị liên thơng, đỉnh có nhãn thuộc tập cho trước cạnh có trọng số; đồ thị có phép tốn: xóa đỉnh, thay nhãn đỉnh, đổi trọng số cạnh; nhiệm vụ tốn MGA tìm dóng hàng cho đỉnh đồ thị tập G để tối ưu hàm mục tiêu định trước MGA tốn NP-khó, thuật tốn heuristic thích hợp cho tốn cỡ nhỏ, nên khơng phù hợp với ứng dụng thực tế Fober cộng mở rợng sử dụng tốn cho phân tích cấu trúc phân tử sinh học đề xuất mợt thuật tốn tiến hóa với tên gọi GAVEO [Fober et al., 2009] Thực nghiệm cho thấy thuật toán hiệu thuật toán mà Weskamp đề xuất Đới với tốn NP-khó, có nhiều cách tiếp cận mơ tự nhiên để tìm lời giải gần Đặc biệt, thực nghiệm cho thấy phương pháp tới ưu đàn kiến tớt thuật tốn tiến hóa nhiều tốn điển hình Trong chương 2, chúng tơi giới thiệu thuật tốn dựa thuật tốn tới ưu đàn kiến có kết hợp tìm kiếm địa phương để dóng hàng nhiều mạng vị trí hoạt tính protein 1.1.3 Bài tốn dóng hàng mạng tương tác protein Các protein thể sống không tồn một cách độc lập mà chúng tương tác với Dựa nghiên cứu thực nghiệm, người ta xây dựng CSDL mạng tương tác protein (PPI) Việc dóng hàng hai mạng PPI cho phép phát hiện tương đồng chức hai loài nhờ phát hiện vùng tương tự chúng Một mạng PPI biểu thị mợt đồ thị G(V,E) V tập đỉnh mà nút ứng với một protein, E tập cạnh, cạnh nối nút biểu hiện tương tác hai protein tương ứng Ngồi tính topology thể hiện mạng, nhiều người ta quan tâm tới đặc tính cấu trúc protein mà chúng khơng biểu diễn đồ thị Việc dóng hàng mạng chia thành hai hướng tiếp cận: dóng hàng cục bợ dóng hàng tồn cục Các nghiên cứu dóng hàng mạng PPI dóng hàng cục Dóng hàng cục bợ có mục tiêu xác định mạng/đồ thị gần topology trình tự nhờ mợt ánh xạ từ mạng nọ vào mạng minh họa hình 1.2 (a) Hình 1.2 Dóng hàng cục dóng hàng tồn cục Dóng hàng cục bợ có nhược điểm khó tìm đồ thị với kích thước lớn có cấu trúc chức tương tự, kết dóng hàng cục bợ nhiều nhiều nên thường chứa nhiều mạng chồng lấn nên thường dẫn tới nhập nhằng khó ứng dụng Mợt dóng hàng tồn cục mạng PPI mợt đơn ánh từ mạng có sớ đỉnh nhỏ vào mạng lớn (xem hình 1.2b), nhờ mà xác định vùng bảo tồn Việc xác định đơn ánh tránh nhập nhằng thường gặp phương pháp dóng hàng cục bợ Bài tốn tới ưu dóng hàng tồn cục mạng PPI chứng minh tḥc loại NP-khó nên toán quan trọng sinh học phân tử có nhiều thuật tốn heuristic metaheurristics đề xuất để giải chúng Thuật tốn dóng hàng tồn cục đáng ý IsoRank Sing cộng đề xuất năm 2008, phát triển dựa dóng hàng cục bợ IsoRank có ý tưởng xuất phát từ thuật toán PageRank Google để định nghĩa hàm đánh giá tương đồng Ý tưởng IsoRank hai nút dóng hàng với nhau, nút kề với chúng tương ứng dóng hàng Họ thuật toán GRAAL bao gồm GRAAL, H-GRAAL, MI-GRALL sau C-GRAAL phát triển song song với họ thuật toán ISORAnk dựa kết hợp kỹ thuật tham lam với thông tin heuristic như: graphlet, hệ sớ phân nhóm, đợ lập dị (eccentricities) đợ tương tự (giá trị E-values từ chương trình BLAST) Các thuật toán đưa kết nhanh tớt so với thuật tốn trước Gần thuật tốn GHOST, chiến lược dóng hàng GHOST tương tự MI-GRAAL, ngoại trừ việc thuật toán MI-GRAAL giải toán quy hoạch tuyến tính để tính tốn đợ tương tự nút mạng khác nhau, GHOST giải toán quy hoạch bậc theo phương pháp heuristic để tính tốn đợ tương tự nút mợt mạng Những thuật tốn nêu tới ưu cho đợ xác (hàm mục tiêu) tính khả mở Vì mạng PPI thường có sớ đỉnh lớn nên tính xác tính khả mở (thời gian chạy) cần quan tâm Sử dụng tiêu chuẩn GNAS, Aladag cộng [Aladag & Erten, 2013] đề xuất thuật tốn SPINAL cho lời giải tớt thuật tốn trước thời gian chất lượng lời giải Gần đây, Saraph cợng đề xuất thuật tốn MAGNA (2014) dựa giải thuật di truyền với quần thể ban đầu khởi tạo ngẫu nhiên kết hợp với lời giải tìm thuật tốn như: IsoRank, MIGRAAL GHOST MAGNA phiên cải tiến MAGNA ++ [Vijayan, Saraph, & Milenković, 2015]sử dụng đợ đo chất lượng dóng hàng S3, thực nghiệm cho thấy chúng cải thiện đáng kể chất lượng lời giải thuật toán dùng để khởi tạo Somaye Hashemifar cộng (2016) giới thiệu thuật tốn tới ưu tồn cục tên ModuleAlign, thuật tốn sử dụng thơng tin tối ưu cấu trúc cục bộ để định nghĩa một hàm đánh giá tính tương đồng dựa module (module-based homology score) Dựa mợt thuật tốn phân cụm chức protein có gắn kết mặt chức vào module, ModuleAlign sử dụng một chế lặp để tìm dóng hàng mạng Các thực nghiệm cho thấy ModuleAlign cho kết chất lượng dóng hàng tớt mợt sớ thuật tốn đề xuất trước mợt sớ trường hợp 1.2 Tối ưu mềm 1.2.1 Giới toán tối ưu tổ hợp tiếp cận mềm 1.2.1.1 Phát biểu toán tối ưu tổ hợp tổng quát Một cách tổng quát, tốn TƯTH phát biểu sau: Cho mợt bợ ba (𝑆, 𝑓, Ω), S tập hữu hạn trạng thái (lời giải tiềm hay phương án), f hàm mục tiêu xác định S, Ω tập ràng ḅc Mỗi phương án s ∈ S thỏa mãn ràng buộc Ω gọi phương án (hay lời giải) chấp nhận Mục đích ta tìm phương án chấp nhận s ∗ tới ưu hóa tồn cục hàm mục tiêu f Chẳng hạn với toán cực tiểu f(s ∗ ) ≤ f(s) với mọi phương án chấp nhận s 1.2.1.2 Tính tốn mềm Tính tốn mềm (Soft Computing) cho một cách tiếp cận để giải tốn khó, thơng tin khơng đầy đủ, thiếu chắn cho kết lời giải đủ tốt gần mà tiếp cận truyền thơng hay tính tốn cứng (hard computing) khơng giải Tiếp cận gồm phương pháp sử dụng tập mờ/ tập thô, phương pháp học máy mạng nơ ron nhân tạo, máy tựa véctơ (SVM), giải thuật tiến hóa giải thuật di truyền, tối ưu bầy đàn, tối ưu đàn kiến, tối ưu bầy ong, giải thuật memetic, hệ miễn dịch nhân tạo… Đới với tốn TƯTH khó, phương pháp tính tốn mềm đánh giá chất lượng dựa thực nghiệm mà khơng thiết phải chứng minh tính hội tụ ước lượng tỷ lệ tối ưu Các thuật tốn thường xây dựng dựa mợt ý tưởng “có lý” hiệu chúng đánh giá dựa vào kết thử nghiệm tập liệu đủ tin cậy Các phương pháp phát triển theo hai hướng heuristic metaheuristic Các thuật toán heuristic đề xuất riêng biệt cho toán cụ thể, cho phép tìm nhanh mợt lời giải đủ tớt xấp xỉ tới ưu địa phương Mợt thuật tốn metaheuristic tổng qt mợt lược đồ tính tốn đề xuất cho lớp tốn rợng, dùng cho toán cụ thể cần thêm vận dụng chi tiết cho phù hợp Nhờ lược đồ này, người dùng xây dựng thuật tốn cho tốn thực tế mà khơng đòi hỏi có kiến thức tớt tốn học tính tốn 1.2.2 Phương pháp tối ưu đàn kiến Phương pháp tối ưu đàn kiến (ACO) thuật tốn mơ cách tìm đường tới tổ kiến tự nhiên để giải toán TƯTH khó Phương pháp Dorigo giới thiệu vào năm 1991 [M Dorigo, 1991] dạng hệ kiến (Ant System) ngày phát triển nhiều biến thể ứng dụng rộng rãi 1.2.2.1.Kiến tự nhiên kiến nhân tạo Trên đường đến nguồn thức ăn trở tổ, kiến thực để lại mợt vết hố chất gọi vết mùi (pheromone trail) theo vết mùi kiến khác để tìm đường Đường có nồng đợ vết mùi cao có nhiều khả kiến chọn Nhờ cách giao tiếp gián tiếp đàn kiến tìm đường ngắn từ tổ tới nguồn thức ăn Việc tìm đường kiến tự nhiên dựa nồng độ vết mùi làm ta liên tưởng tới cách học tăng cường cho tốn chọn tác đợng tới ưu, gợi mở mợt mơ hình mơ cho kiến thực để tìm đường ngắn hai nút (tương ứng tổ nguồn thức ăn) đồ thị Trên sở đó, mở rợng thành phương pháp ACO để giải tốn tới ưu tổ hợp khó Khi mô hành vi đàn kiến để giải toán thực, người ta dùng đa tác tử (multiagent) làm đàn kiến nhân tạo, kiến nhân tạo mợt tác tử, có nhiều khả kiến tự nhiên Kiến nhân tạo (về sau gọi kiến) có bợ nhớ riêng, có khả mở rộng, chẳng hạn, ghi nhớ đỉnh thăm hành trình tính đợ dài đường chọn Ngồi kiến trao đổi thơng tin có với nhau, thực hiện tính tốn cần thiết, cập nhật mùi… Nhờ khả mở rợng mà đàn kiến thực hiện lặp trình tìm lời giải nhờ thủ tục bước đồ thị cấu trúc tương ứng toán cập nhật mùi theo phương thức học tăng cường để tìm lời giải chấp nhận xác định lời giải đủ tớt tồn cục 1.2.2.2.Lược đồ chung phương pháp ACO Thuật toán 2.2 Thuật toán ACO Procedure Thuật toán ACO Begin Initialize: Khởi tạo vết mùi, n_ants while Khi điều kiện dừng chưa thỏa mãn for i=1 to n_ants Xây dựng lời giải; Cập nhật lời giải tốt; end for Cập nhật mùi end while End 1.2.2.3.Thủ tục bước ngẫu nhiên xây dựng lời giải Giả sử kiến phát triển xâu 〈𝑢0 , … , 𝑢𝑚 〉 𝑢𝑚 = 𝑖 chưa cho lời giải chấp nhận nhờ Ω ta xác định tập đỉnh 𝐽𝑘 (𝑖) phát triển thành phần … 𝑢𝑖+1 = 𝑗 chọn với xác suất [𝜏𝑖𝑗 (𝑡)]𝛼 [𝜂𝑖𝑗 (𝑡)]𝛽 𝑛ế𝑢 𝑗𝐽𝑘 (𝑖) = {∑𝑙∈𝐽𝑘(𝑖)[𝜏𝑖𝑙 (𝑡)]𝛼 [𝜂𝑖𝑙 (𝑡)]𝛽 (2.2) 𝑛ế𝑢 𝑗 ∉ 𝐽𝑘 (𝑖) 𝛼, 𝛽 sớ dương chọn trước Thủ tục tiếp tục xâu 〈𝑢0 , … , 𝑢𝑡 〉 tương ứng một với lời giải s S Bằng cách kiến xây dựng lời giải vòng lặp thực hiện đánh giá lời giải để câp nhật mùi theo một quy tắc chọn 1.2.2.4 Các quy tắc cập nhật mùi Việc cập nhật mùi, phản ánh chế học tăng cường ảnh hưởng định chất lượng thuật toán nên thường dùng để làm tên gọi cho lớp thuật tốn dùng Để đảm bảo vết mùi hội tụ, người ta sử dụng số bay vết mùi 0 giá trị đủ bé cho trước Theo công thức 2.5, đỉnh có nhãn trùng với nhãn đỉnh dóng hàng vectơ dóng hàng a ưu tiên dóng hàng trước, đỉnh giả có xác suất lựa chọn nhỏ Sau vectơ a phát triển hết thành a=(a1,…an) đỉnh thực a bị loại khỏi đồ thị cấu trúc để tiếp tục lặp thủ tục dóng hàng kiến đến mọi đỉnh thực dóng hàng Quá trình dóng hàng kiến minh họa hình 2.2, đỉnh giả đánh sớ -1, đỉnh khác đánh số 0,1, 2….theo thứ tự đỉnh đồ thị thực Lưu ý đỉnh thực chọn ban đầu không thuộc G1 mà Gm thủ tục gồm hai q trình dóng dần từ Gm tới Gn dóng ngược từ Gm tới G1 2.2.3 Qui tắc cập nhật mùi Vết mùi cập nhật theo quy tắc cập nhật mùi SMMAS công thức 2.6:  ij ,k  (1   ) ij ,k  ij ,k (2.6) Trong đó: i     max j ,k    (i,j,k)  lêi gi¶i tèt nhÊt (2.7) (i,j,k)  lêi gi¶i tèt nhÊt Với max min tham sớ cho trước 2.2.4 Thủ tục tìm kiếm cục Thủ tục tìm kiếm địa phương áp dụng cho lời giải tốt theo nguyên tắc tốt dừng Trong thủ tục này, cặp đỉnh nhãn đồ thị Gi chọn ngẫu nhiên đổi chỗ cho vectơ dóng hàng để cải thiện đợ phù hợp trọng số cạnh liên quan Nếu sau đổi chỗ, hàm đánh giá chất lượng tăng lên lời giải nhận thay cho lời giải tốt dừng thủ tục tìm kiếm lần lặp để cập nhật mùi Mợt phép hốn vị hai đỉnh nhãn A minh họa hình 2.3 Hình 2.3 Một hốn vị cặp đỉnh có 2.3 Thuật tốn theo lược đồ memetic thủ tục Local Search 2.3.1 Lược đồ chung Sau khởi tạo tham số kiến nhân tạo, thuật toán ACO-MGA2 thực hiện vòng lặp theo giai đoạn mơ tả thuật tốn 2.1 Giai đoạn đầu vòng lặp, kiến xây dựng lời giải đồ thị cấu trúc dựa thông tin heuristic vết mùi Sau lời giải tớt kiến lựa chọn để cập nhật vết mùi theo quy tắc cập nhật mùi SMMAS, đồng thời cập nhật lại lời giải tớt tồn cục Giai đoạn thuật tốn, vòng lặp, sau kiến xây dựng xong lời giải, kỹ thuật tìm kiếm cục bợ áp dụng để tìm lời giải tớt vòng lặp Thuật tốn 2.1: Thuật tốn ACO-MGA2 Input: Tập đồ thị G ={G1(V1,E1),…,Gn(Vn,En) Output: Dóng hàng tốt cho tập đồ thị G: A  (V1  )   (Vn  ) Begin Khởi tạo; 10 while (Chưa thỏa mãn điều kiện dừng) for each a  A Kiến a xây dựng mợt dóng hàng cho tập đồ thị; Tìm kiếm cục bộ lời giải tốt //Chỉ áp dụng giai đoạn //Tìm kiếm cách đổi vị trí đỉnh khác nhãn //Tìm kiếm cách đổi vị trí đỉnh nhãn Cập nhật vết mùi theo quy tắc SMMAS; Cập nhật lại lời giải tốt nhất; End for; End while; Lưu lại lời giải tốt nhất; End; 2.3.2 Đồ thị cấu trúc Đồ thị cấu trúc thuật toán ACO-GMA2 sử dụng giớng thuật tốn ACO-MGA 2.3.3 Vết mùi thông tin heuristic 𝑖 Vết mùi 𝜏𝑗,𝑘 kết nối đỉnh j đồ thị Gi với đỉnh k đồ thị Gi+1 khởi tạo 𝜏𝑚𝑎𝑥 cập nhật lại sau vòng lặp 𝑖 Thơng tin Heuristic 𝜂𝑗,𝑘 (𝑎)được tính cơng thức 2.8  count (k , a) k đỉnh thực i nij ,k (a )    k lµ ®Ønh gi¶ nV max  (2.8) Trong count(k,a) sớ lượng đỉnh véc tơ {a1,…ai} có nhãn trùng với nhãn đỉnh k trường hợp k đỉnh thực, Vmax số lượng đỉnh đồ thị có nhiều đỉnh 2.3.4 Thủ tục bước ngẫu nhiên xây dựng dóng hàng Tại vòng lặp, kiến lặp lại trình xây dựng véc tơ a = (a1,…, an) cho dóng hàng A tương tự thuật toán ACO-MGA 2.3.5 Qui tắc cập nhật vết mùi Thuật toán ACO-MGA2 sử dụng quy tắc cập nhật vết mùi SMMAS cải tiến so với thuật toán ACO-MGA điểm thuật toán ACO-MGA2 sử dụng giá trị tham số  giai đoạn khác Giai đoạn đầu khơng sử dụng tìm kiếm địa phương nên tham số  thiết lập nhỏ để khai thác thơng tin học tăng cường, giai đoạn áp dụng tìm kiếm cục bợ tham sớ thiết lập lớn để tăng tính khám phá 2.3.6 Thủ tục tìm kiếm cục Thủ tục tìm kiếm cục bợ thực hiện đồ thị G1 đến đồ thị Gn theo ngun tắc tìm kết tớt dừng Thủ tục gồm hai kỹ thuật: đổi đỉnh nhãn đổi đỉnh khác nhãn 1) Đổi đỉnh khác nhãn Đổi vị trí cặp vectơ dóng hàng tương ứng với cặp đỉnh khác nhãn đồ thị Gi xét việc đổi chỗ làm tăng sớ lượng đỉnh nhãn vector dóng hàng 2) Đổi đỉnh nhãn Đổi vị trí cặp vectơ dóng hàng tương ứng với cặp đỉnh tcùng nhãn đồ thị Gi xét việc đổi vị trí cải thiện độ phù hợp trọng số cạnh liên quan Nếu sau đổi chỗ, hàm đánh giá chất lượng tăng lên lời giải nhận thay cho lời giải tớt lúc Q trình lặp lại tìm lời giải tớt Vì thủ tục tìm kiếm cục bợ tốn thời gian nên áp dụng cho giai đoạn hai, lời giải tớt tìm đủ tớt 2.4 Thuật toán memetic kết hợp ACO Tabu Search 2.4.1 Đồ thị cấu trúc Đồ thị cấu trúc thuật tốn ACOTS-MGA sử dụng giớng thuật tốn ACO-MGA2 11 2.4.2 Thơng tin heuristic 𝑖 Heuristic information 𝜂𝑗,𝑘 (𝑎) sớ điểm cạnh tính theo cơng thức (2.3) đỉnh k đồ thị Gi+1 dóng với đỉnh j đồ thị Gi 2.4.3 Thủ tục bước ngẫu nhiên xây dựng dóng hàng Tại vòng lặp, kiến lặp lại q trình xây dựng véctơ dóng hàng a = (a1,…, an) cho dóng hàng A sau: Kiến lựa chọn ngẫu nhiên một đỉnh thực tầng đỉnh khởi tạo Tại tầng tiếp theo, ký hiệu label (a) tập nhãn đỉnh tḥc véctơ dóng hàng a, gọi Bi  {v  Gi | label (v)  label (a)} tập đỉnh thuộc đồ thị Gi có nhãn trùng với nhãn đỉnh tḥc véctơ dóng hàng Trong trường hợp khơng có đỉnh có nhãn trùng với nhãn đỉnh dóng hàng, Bi tập đỉnh lại chưa dóng hàng Kiến lựa chọn ngẫu nhiên đỉnh Bi với xác suất cho cơng thức 2.9 Để dễ hình dung, giả sử véctơ dóng hàng xây dựng từ đỉnh a1 đồ thị G1 thực hiện thủ tục bước ngẫu nhiên để phát triển đến đỉnh đồ thị Gi lựa chọn đỉnh thứ k tḥc đồ thị Gi +1 với xác ( ij ,k )  ij ,k (a)] suất là: p ij ,k  (2.9)  sB ( ij ,s ) [ ij ,s (a)] i 1 Sau xây dựng đầy đủ véctơ a=(a1,…,an), đỉnh thực thuộc véctơ bị loại bỏ khỏi đồ thị cấu trúc để tiếp tục trình xây dựng véctơ dóng hàng tất đỉnh dóng hàng 2.4.4 Qui tắc cập nhật vết mùi Khác với thuật toán ACO-MGA2, việc cập nhật mùi ACOTS-MGA thực hiện theo công thức 2.10 2.11  ij ,k  (1   ) ij ,k  ij ,k (2.10)  i j ,k    max      mid     (i,j,k)  lêi gi¶i tèt nhÊt (i,j,k)  lêi gi¶i tèt vòng lặp (2.11) trường hợp khác Cỏc tham sụ max,min ∈ (0,1) khởi tạo tương tự thuật toán ACO-MGA2 Trong thuật toán ACOTS-MGA luận án sử dụng thêm tham số mid để cập nhật mùi trường hợp lời giải mà kiến tìm lời giải tớt vòng lặp chưa phải lời giải tớt tồn cục Tham sớ thiết lập nhỏ max với ý nghĩa lời giải tớt tồn cục để lại lượng vết mùi lớn so với lời giải tốt vòng lặp 2.4.5 Thủ tục tìm kiếm Tabu Trong vòng lặp ći thuật tốn ACOTS-MGA, thuật toán Tabu Search áp dụng để tăng cường chất lượng lời giải Thủ tục tìm kiếm Tabu duyệt đỉnh đồ thị, với đồ thị thực hiện việc hoán vị cặp đỉnh vector dóng hàng Nếu việc hốn vị làm tăng điểm đánh giá lời giải tớt cập nhật lời giải hiện Khác với thủ tục tìm kiếm thơng thường, thủ tục Tabu Search có sử dụng mợt danh sách Tabu để lưu lại bước chuyển Các bước chuyển nằm danh sách Tabu không xét lại để tránh lặp lại bước chuyển Một khác biệt so với thuật tốn ACO-MGA2 thủ tục tìm kiếm cục bộ ACO-MGA2 gọi một lần vòng lặp, thuật tốn ACOTS-MGA, thủ tục tìm kiếm gọi lặp lại nhiều lần không cải thiện chất lượng lời giải 2.5 Các kết thực nghiệm 2.5.1 Dữ liệu thực nghiệm Khi đánh giá hiệu thuật toán, việc lựa chọn liệu quan trọng, để đảm bảo khách quan, luận án sử dụng lại bộ liệu thực sử dụng để đánh giá hiệu thuật toán tham lam Weskamp thuật toán GAVEO Thomas Fober đề xuất Các cơng trình tác giả đề xuất đăng 12 tải tạp chí uy tín nên bợ liệu thực nghiệm lựa chọn đảm bảo đợ tin cậy khách quan Dữ liệu thực nghiệm bao gồm 74 cấu trúc sinh từ sở liệu Cavbase Mỗi cấu trúc biểu diễn cho một protein cavity thuộc họ protein thermolysin, vi khuẩn protease thường sử dụng phân tích cấu trúc protein thích với số hiệu EC 3.4.24.27 sở liệu enzyme Trong bộ liệu này, đồ thị sinh có từ 42 đến 95 đỉnh Từ 74 cấu trúc đó, đồ thị lựa chọn ngẫu nhiên để sinh tập liệu gồm 4, 8, 16, 32 đồ thị để tiến hành chạy thực nghiệm thuật toán 2.5.2 Thực nghiệm so sánh thuật toán ACO-MGA với thuật toán Greedy GAVEO Thực nghiệm nhằm so sánh ACO-MGA với hai thuật toán Greedy thuật toán tiến hóa GAVEO chất lượng lời giải thời gian chạy Các thực nghiệm bao gồm: 1) Chạy thuật tốn mợt bợ liệu với sớ vòng lặp định trước để so sánh chất lượng dóng hàng thời gian chạy 2) Chạy thuật tốn mợt bợ liệu với mợt thời gian định trước để so sánh chất lượng dóng hàng Các thí nghiệm chúng tơi thực hiện máy tính có cấu hình: CPU Dual Core 2.2Ghz, RAM DDR3 3GB hệ điều hành Windows XP SP3 Đới với thuật tốn ACO-MGA, sau tiến hành thực nghiệm với giá trị khác tham số, thấy với giá trị tham số cho kết lời giải tớt nhất, thực nghiệm tham sớ thuật tốn thiết lập sau: Số kiến lần lặp 20, =0.06, 𝛼 = 𝛽 = 1, max = 1.0 min = max/(n2*Vmax2), n sớ đồ thị, Vmax sớ đỉnh đồ thị có nhiều đỉnh Trong thời gian đầu tiến hành nghiên cứu tốn MGA, chưa có liệu thực, chúng tơi sinh ngẫu nhiên tập liệu thực nghiệm tập đồ thị với đồ thị có 20 50 đỉnh, số đồ thị 4,8,16 32 Bảng 2.1 bảng 2.2 kết so sánh thuật toán ACO-MGA, GAVEO Greedy điểm chất lượng dóng hàng (score) thời gian chạy thuật toán Bảng 2.1 kết dóng hàng ứng với đồ thị có trung bình 20 đỉnh bảng 2.2 kết ứng với đồ thị có trung bình 50 đỉnh Các kết tốt thể hiện chữ in đậm, thời gian chạy ngắn thể hiện chữ in nghiêng, đậm Bảng 2.1 So sánh chất lượng dóng hàng thời gian chạy với liệu gồm 4, 8, 16 32 đồ thị, trung bình đồ thị có 20 đỉnh Thuật tốn/Sớ đồ thị Greedy GAVEO ACOMGA 16 32 Điểm -40 -35 -570 -1055 Thời gian (s) 0.6 2.3 17 Điểm -20 65 45 1132 Thời gian (s) Điểm 249 124 501 696 1087.7 1480 2484.1 7289 Thời gian (s) 33.6 231.5 481.2 1266 Bảng 2.2 So sánh kết chất lượng dóng hàng thời gian chạy với liệu gồm 4, 8, 16 32 đồ thị, trung bình đồ thị có 50 đỉnh Thuật tốn/Sớ đồ thị Greedy GAVEO ACOMGA 16 -1144 -4704 -31004 -155508 4.8 11.3 49 210.8 Điểm -101 -75 -10872 -33698 Thời gian (s) 1164 2739.1 6921.3 16340.8 Điểm Thời gian (s) 685 763.4 3338 6523.5 1273 12670.5 -18643 28859.8 Điểm Thời gian (s) 13 32 Kết thực nghiệm cho thấy rằng: Trong trường hợp đồ thị gồm 20 đỉnh đồ thị 50 đỉnh thuật tốn Greedy cho thời gian chạy nhanh so với thuật tốn lại Tuy nhiên kết điểm dóng hàng thuật toán lại thấp so với GAVEO ACO-MGA Thuật tốn ACO-MGA cho kết điểm tớt thuật toán GAVEO Với đồ thị 20 đỉnh, thời gian chạy ACO-MGA nhanh so với GAVEO sớ đỉnh đồ thị tăng lên thời gian chạy GAVEO nhanh số đồ thị vượt Tuy nhiên, thực nghiệm mục sau cho thấy thời gian chạy ACO-MGA cho kết tớt nhiều Vì thuật tốn Greedy có thời gian chạy ngắn lại có điểm thấp nên luận án tiến hành thí nghiệm để so sánh hiệu thuật toán GAVEO thuật toán ACO-MGA với thời gian chạy Bảng 2.3 So sánh chất lượng dóng hàng S(A) với liệu 8,16 32 đồ thị, với số đỉnh trung bình đồ thị 20 đỉnh thời gian chạy 200s Thuật tốn/Sớ đồ thị GAVEO ACO-MGA 16 32 74 -38 1254 690 2262 10060 Bảng 2.4 So sánh chất lượng dóng hàng S(A) với liệu 4, 8,16 32 đồ thị, với số đỉnh trung bình đồ thị 50 đỉnh thời gian chạy 600s Thuật tốn/Sớ đồ thị GAVEO ACO-MGA 16 32 -107 -77 -5282 -96123 673 2898 744 -16945 Các kết thực nghiệm trình bày bảng cho thấy so sánh thuật toán ACOMGA GAVEO với một bộ liệu mô phỏng, một cấu hình máy thời gian chạy thuật tốn ACO-MGA cho kết tớt nhiều so với thuật toán GAVEO 2.5.3 Thực nghiệm so sánh thuật tốn ACOTS-MGA, ACO-MGA2, GAVEO Greedy Vì ACO-MGA2 cải tiến từ ACO-MGA, với nhiều cải tiến phân tích phần đầu mục 2.5.1 đảm bảo thuật tốn cho chất lượng lời giải tớt so với ACO-MGA, nên thực nghiệm so sánh thuật toán ACOTS-MGA, ACO-MGA2 với hai thuật toán Greedy thuật tốn tiến hóa GAVEO chất lượng lời giải thời gian chạy Các thuật toán chạy lại máy tính có cấu hình: CPU Dual Core Ghz, RAM DDR2 4GB hệ điều hành Windows Thuật toán GAVEO sử dụng tham số lựa chọn báo [Fober et al., 2009] Đới với thuật tốn ACO-MGA2 ACOTS-MGA, sau tiến hành thực nghiệm với giá trị khác tham số Các bộ tham số mà thuật tốn cho chất lượng lời giải tớt lựa chọn Các tham số cụ thể sau: Thuật tốn ACO-MGA2: Sớ kiến lần lặp 30 ;1=0.3, 2=0.7, 𝛼 = 𝛽 = 1;max = 1.0 min = max/(n2*Vmax2), n sớ đồ thị, Vmax sớ nút đồ thị có nhiều nút Thủ tục local search gọi 30% sớ vòng lặp ći Thuật tốn ACOTS-MGA: Sớ kiến lần lặp 30 ; 1=0.3, 2=0.7, 𝛼 = 𝛽 = 1;max = 1.0, min = max/(n2*Vmax2) mid=0.8 Thủ tục local search gọi 20% sớ vòng lặp ći Bảng 2.5 So sánh chất lượng dóng hàng thuật tốn với tập liệu gồm 4, 8, 16 32 đồ thị Thuật toán/Số đồ thị 16 32 Greedy -4098 -11827 -56861 -267004 GAVEO -1224 -2729 -10604 -63205 ACO-MGA2 -972 -2277 -7857 -53960 ACOTS-MGA -963 -1089 -5671 -42216 Các kết thực nghiệm bảng 2.5 cho thấy thuật toán ACOTS-MGA cho chất lượng lời giải tốt Greedy, GAVEO ACO-MGA2 đối với tập liệu Khi sớ lượng đồ thị tăng chất lượng lời giải ACOTS-MGA cao so với thuật toán Greedy, GAVEO ACO-MGA2 thể hiện rõ rệt 14 Luận án tiến hành chạy thuật toán một thời gian với tập liệu thuật tốn ACOTS-MGA cho kết tớt so với GAVEO ACO-MGA2 2.6 Kết luận chương Trong chương này, chúng tơi trình bày khái niệm liên quan đến tốn dóng hàng tập gồm nhiều đồ thị đề xuất thuật toán ACO-MGA, ACO-MGA2 ACOTS-MGA để giải tốn dóng hàng nhiều đồ thị Kết thực nghiệm bộ liệu mô liệu thực cho thấy thuật tốn đề xuất cho kết tớt nhiều so với thuật tốn GAVEO chạy với bợ liệu thời gian chạy Khi số đỉnh đồ thị tăng lên thời gian tìm kiếm địa phương ACO-MGA, ACO-MGA2 ACOTSMGA làm tăng thời gian chạy nên thuật toán đề xuất chạy lâu GAVEO mợt sớ trường hợp Các thuật tốn đề xuất dóng hàng nhiều mạng vị trí liên kết protein cho chất lượng dóng hàng tớt thuật toán GAVEO Greedy giúp xác định tương đồng cấu trúc protein xác Thơng qua tính tương đồng mặt cấu trúc suy diễn chức protein chưa biết thông qua protein biết [Yuan et al., 2018] Đó ý nghĩa sinh học mà thuật toán đề xuất mang lại Chương DĨNG HÀNG TỒN CỤC HAI MẠNG TƯƠNG TÁC PROTEIN- PROTEIN Chương giới thiệu thuật toán mà luận án đề xuất để giải tốn dóng hàng tồn cục mạng tương tác protein FASTAN, ACOGNA ACOGNA++ Các thực nghiệm chứng minh thuật toán cho chất lượng lời giải tốt đáng kể so với phương pháp hiện 3.1 Bài toán dóng hàng tồn cục mạng tương tác Protein 3.1.1 Phát biểu toán Giả sử G1 = (V1 , E1 ) G2 = (V2 , E2 ) đồ thị mô tả mạng tương tác protein, V 1, V2 tương ứng tập đỉnh đồ thị G1 G2; E1, E2 tập cạnh tương ứng G1, G2 Không tính tổng qt ta giả sử | V1 || V2 | |V| ký hiệu cho sớ phần tử tập V Định nghĩa 3.1 Dóng hàng toàn cục mạng tương tác protein xác định một đơn ánh f : V1  V2 đỉnh V1 khớp với đỉnh v2  f (v1 ) V2 Trong trường hợp | V1 || V2 | f mợt song ánh 3.1.2 Đánh giá chất lượng dóng hàng tồn cục Cho mợt dóng hàng mạng f ký hiệu f ( E1 )  {( f (u ), f (v))  E2 : (u, v)  E1} f (V1 )  {f (v) V2 : v V1} Các tiêu chuẩn dóng hàng sử dụng phổ biến nghiên cứu tốn dóng hàng tồn cục mạng tương tác protein trình bày đây: Tiêu chuẩn GNAS Aladag giới thiệu tính theo cơng thức sau: 𝐺𝑁𝐴𝑆 = 𝛼|𝑓(𝐸1 )| + (1 − 𝛼) ∑𝑢∈𝑉1 𝑠𝑖𝑚𝑖𝑙𝑎𝑟(𝑢, 𝑓(𝑢)), (3.1) 𝛼 ∈ [0.1] tham số thể hiện tương quan mức độ quan trọng độ tương đồng mặt cấu trúc tương đồng mặt trình tự, 𝑠𝑖𝑚𝑖𝑙𝑎𝑟(𝑢, 𝑓(𝑢)) đợ đo tương tự trình tự đó, chẳng hạn, BLAST bit-scores hay E-values (Các giá trị tính tốn trước liệu đầu vào mợt sớ thuật tốn dóng hàng tồn cục).Ưu điểm đợ đo GNAS thể hiện mối tương quan topology độ tương đồng trình tự đồ thị dóng hàng Kuchaiev cộng đề xuất dùng độ đo EC (Edge Correctness) công thức 3.2 f ( E1 ) (3.2) EC  E1 EC độ đo tỷ lệ cạnh đồ thị nguồn dóng hàng xác đến cạnh đồ thị thứ hai với số lượng cạnh đồ thị nguồn Giá trị EC lớn có nghĩa hai mạng có cấu trúc tương tự Tiêu chuẩn định lượng giống hai mạng EC 100% đồ thị thứ hai G2 chứa mợt đẳng cấu G1 15 Khi dóng hàng mợt mạng có mật đợ cạnh thưa với mạng đích có mật đợ cạnh dày, có nhiều cách để dóng hàng G1 với mạng G2 Tuy nhiên trực giác thấy việc dóng hàng G1 với mạng thưa G2 tốt so với việc dóng hàng G1 với mợt mạng dày Để “phạt” dóng hàng dóng hàng mà ánh xạ đồ thị G1 với một mạng dày đồ thị G2, Patro cộng [Patro & Kingsford, 2012] đề xuất dùng độ đo ICS (Induced Conserved Structure), độ đo ICS thể hiện tỷ lệ cạnh đồ thị nguồn bảo tồn đồ thị đích sau dóng hàng (f(E1)) với sớ cạnh đồ thị đồ thị đích sinh đỉnh dóng hàng với đỉnh đồ thị nguồn (E(G2[f(V1)])) Cụ thể ICS tính theo công thức 3.3 f ( E1 ) , (3.3) ICS  E (G2 [ f (V1 )]) 𝐸(𝐺2 [𝑓(𝐸1 )]) tập cạnh 𝐺2 đồ thị có tập đỉnh 𝑓(𝑉1 ) Qua cơng thức 3.2 3.3 thấy, đợ đo EC trọng đến đồ thị nguồn, độ đo ICS trọng đến đồ thị đích Vì độ đo EC không tốt đánh giá chất lượng dóng hàng ta dóng hàng mợt mạng có mật đợ cạnh thưa với mợt mạng có mật đợ cạnh dày Ngược lại độ đo ICS không tốt ta dóng hàng mợt mạng dày với mạng thưa Nhận thấy nhược điểm độ đo EC ICS, Saraph cộng [Saraph & Milenković, 2014] đề xuất độ đo S3 công thức 3.4 S  f ( E1 ) (3.4) E1  E (G2 [ f (V1 )])  f ( E1 ) S3 xét đến số cạnh đồ thị nguồn số cạnh đồ thị sinh cách đỉnh đồ thị đích dóng hàng, khắc phục nhược điểm EC ICS phân tích 3.2 3.2.1 Thuật toán FASTAN Đặc tả thuật toán Thuật toán FASTAN gồm hai giai đoạn: giai đoạn thứ xây dựng dóng hàng ban đầu giai đoạn sau cải tiến nhờ thủ tục tới ưu cục bợ Rebuild 3.2.1.1 Xây dựng dóng hàng ban đầu Cho đồ thị G1 , G2 ; tham số α độ tương tự cặp đỉnh tương ứng V1 , V2 similar(i, j) Ký hiệu Vi tập đỉnh dóng hàng đồ thị Gi RVi = Vi –Vi tập đỉnh chưa dóng hàng đồ thị Gi Gọi A12= (V12, E12) kết phép dóng hàng đồ thị G1 với đồ thị G2, V12   i, f (i) : i V1 , f (i) V2  ; E12  ( u, f (u) ,  v, f (v) ) : (u, v)  E1,( f (u), f (v))  E2  Thủ tục FASTAN thực hiện sau: Bước Xác định cặp đỉnh i ∈ V1 j ∈ V2 có độ tương tự similar(i, j) lớn Gán f(i):=j; Khởi tạo V1= {i};V2= {j}; Bước Thực hiện lặp với k= tới |𝑉1 | 2.1 Tìm nút i  RV1 có sớ cạnh nới với đỉnh 𝑉 lớn (Thủ tục gọi find_next_node) 2.2 Tìm f(i) = j  RV2 mà dóng hàng j với i cơng thức 𝛼|𝑓(𝐸1∗ )| + (1 − 𝛼)(∑𝑢∈𝑉 𝑠𝑖𝑚𝑖𝑙𝑎𝑟(𝑢, 𝑓(𝑢)) + 𝑠𝑖𝑚𝑖𝑙𝑎𝑟(𝑖, 𝑗)) đạt giá trị lớn Trong 𝐸1∗ cạnh đồ thị G1 có đỉnh tḥc tập 𝑉 ∪ 𝑖 (Thủ tục gọi choose_best_matched_node) 2.3 Lần lượt thêm i,j vào tập đỉnh dóng hàng V1, V2 Bước Thực hiện lặp cải tiến 𝐴12 nhờ thủ tục Rebuild Chú ý bước 2.1 2.2 tìm nhiều đỉnh tốt nhất, chọn ngẫu nhiên mợt đỉnh sớ để tạo đa dạng lời giải lần chạy khác 3.2.1.2 Thủ tục Rebuild Sau giai đoạn 1, xác định dóng hàng thơ A12, để tăng chất lượng lời giải, thuật tốn sử dụng thủ tục tới ưu cục bộ rebuild Ý tưởng thủ tục sử dụng một tập giống gồm nkeep cặp đỉnh dóng hàng tớt A12, sau dóng hàng lại cặp đỉnh khác, lời giải tốt thay cho lời giải trước Chi tiết thủ tục rebuil 16 Bước Xây dựng SeedV12 gồm 𝑛𝑘𝑒𝑒𝑝 đỉnh V1 có điểm tớt theo tiêu chí cho cơng thức 3.5: 𝑠𝑐𝑜𝑟𝑒(𝑢) = 𝛼 𝑤(𝑢) + (1 − 𝛼) 𝑠𝑖𝑚𝑖𝑙𝑎𝑟(𝑢, 𝑓(𝑢)) (3.5) u𝑉1 𝑓(𝑢)𝑉2 dóng hàng với u 𝐴12 , w(u) số lượng nút v thuộc V1 mà (u,v) thuộc E1 (f(u),f(v)) thuộc E2 Bước Thực hiện lặp bước giai đoạn với k = 𝑛𝑘𝑒𝑒𝑝 + tới |𝑉1 | để xây dựng lại A12 Sau lần thực hiện thủ tục Rebuild ta có mợt dóng hàng làm input 𝐺12 cho lần lặp tiếp theo, trình lặp lại không cải tiến GNAS(A12) 3.2.2 Độ phức tạp thuật toán FASTAN so với SPINAL Trong nghiên cứu Aladag Erten [Aladag & Erten, 2013], tốn dóng hàng tồn cục mạng tương tác protein chứng minh NP-khó Các tác giả đề xuất thuật toán SPINAL có đợ phức tạp với thời gian đa thức là: SPINALComplexity  O  k  V1  V2  1  2  log  1     (3.6) Trong k sớ lần lặp chạy thuật tốn, theo [Aladag & Erten, 2013] thuật tốn hợi tụ sau 10 đến 15 lần lặp; ∆1, ∆2 bậc đỉnh thuộc đồ thị G1 G2 có bậc lớn Dễ dàng kiểm tra độ phức tạp giai đoạn bước lặp giai đoạn thuật tốn FASTAN là: O(|V1|×(E1|+|E2|)) (3.7) Các thực nghiệm tiến hành với bộ liệu thực nghiệm IsoBase cho thấy số lần lặp giai đoạn thuật tốn khơng vượt q 20 lần Bởi |V1|×∆1 ≥ E1 nên ý tới đợ phức tạp SPINAL cơng thức (3.6) ta có: |V1|×|V2|×∆1×∆2 ≥ E1× E2 > (|V1|×(E1|+|E2|)) (3.8) Như đợ phức tạp FASTAN so với độ phức tạp SPINAL thấp nhiều 3.3 Thuật toán ACOGNA 3.3.1 Lược đồ chung Thuật toán ACOGNA xây dựng đây: Bước Khởi tạo ma trận vết mùi, tập A gồm m kiến Bước Thực hiện lặp chưa thoả mãn điều kiện dừng Với kiến ta tiến hành bước sau: 2.1 Gán f(i)=j i, j cặp đỉnh có đợ tương đồng similar (i,j) lớn Khởi tạo V1 = {i}; V2 = {j}; 2.2 Thực hiện lặp với k= tới V1 2.2.1 Tìm đỉnh i  RV1 có sớ cạnh tới đỉnh V lớn nhất; 2.2.2 Sử dụng thuật tốn ACO tìm đỉnh f(i)= j  RV2 theo thủ tục bước ngẫu nhiên (thủ tục antMove) 2.2.3 Lần lượt thêm đỉnh i j vào tập đỉnh V1 V2 2.3 Thực hiện tìm kiếm cục bợ lời giải tớt kiến tìm để cải thiện chất lượng lời giải 2.4 Cập nhật lại lời giải tốt 2.5 Cập nhật vết mùi theo quy tắc SMMAS dựa lời giải tốt Bước Lưu lại lời giải tốt Chú ý bước 2.2.1, việc tìm i  RV1 có sớ cạnh tới đỉnh V lớn nhằm tăng sớ lượng cạnh bảo tồn sau dóng hàng, tìm nhiều đỉnh tớt lựa chọn ngẫu nhiên mợt đỉnh tìm để dóng hàng 3.3.2 Đồ thị cấu trúc Đồ thị cấu trúc thuật toán gồm tầng, tầng thứ i thể hiện đồ thị Gi Các đỉnh tầng kết nối với tất đỉnh tầng Hình 3.1 thể hiện đồ thị cấu trúc thuật toán ACOGNA Khi xây dựng lời Hình 3.1 Đồ thị cấu trúc thuật tốn ACOGNA 17 giải, kiến xuất phát từ mợt đỉnh tḥc tầng lựa chọn dóng hàng với đỉnh thuộc tầng theo công thức (3.10) Một dóng hàng tồn cục đồ thị theo định nghĩa một đường xuất phát từ đỉnh G1 dóng với đỉnh G2 sau quay lại G1 tiếp tục dóng với đỉnh G2 , lặp lại tất đỉnh G1 dóng hàng 3.3.3 Vết mùi thông tin heuristic Vết mùi 𝜏𝑗𝑖 cạnh  i, j  dóng đỉnh i  V1 với đỉnh j  V2 khởi tạo 𝜏𝑚𝑎𝑥 sau cập nhật lại sau vòng lặp theo công thức 3.11 Thông tin heuristic 𝜂𝑗𝑖 tính theo cơng thức 3.9  ij   f E1*  (1   ).similar (i, j ) (3.9)     Trong f E1* sớ cạnh bảo tồn tiếp tục dóng hàng đỉnh j với đỉnh i, α số thể hiện mối tương quan độ tương đồng cấu trúc tính tương đồng trình tự, similar (i, j ) độ tương đồng đỉnh i j 3.3.4 Thủ tục bước ngẫu nhiên để xây dựng dóng hàng Tại vòng lặp, sau chọn một đỉnh i  RV1 thủ tục find_next_node tương tự thuật toán FASTAN, kiến chọn đỉnh j  RV2 theo xác suất cho công thức 3.10 pij   ( ij )a [ ij ]b kRV2 (3.10) ( ki )a [ki ]b Sau lựa chọn đỉnh j  RV2 để dóng với i  RV1 , kiến quay lại lựa chọn đỉnh đồ thị G1 để tiếp tục dóng hàng Q trình lặp lại tất đỉnh G1 dóng hàng với đỉnh G2 3.3.5 Quy tắc cập nhật vết mùi Sau tất kiến xây dựng lời giải, lời giải kiến tớt áp dụng thủ tục tìm kiếm cục bộ để tăng chất lượng lời giải Lời giải tốt sử dụng để cập nhật vết mùi cạnh theo quy tắc cập nhật mùi SMMAS, đây:  ij  (1   ) ij  ij    max ij      (3.11) j=f(i) j  f(i) (3.12) Trong max min tham sớ cho trước, ∈ (0,1) tham số bay cho trước quy định tḥc tính,  nhỏ thể hiện việc tìm kiếm quanh thơng tin học tăng cường,  lớn thể hiện tính khám phá 3.3.6 Thủ tục tìm kiếm cục Trong vòng lặp, sau tất kiến xây dựng xong lời giải, lời giải tốt 𝐴12 kiến xây dựng áp dụng tìm kiếm cục bợ Thủ tục tìm kiếm cục bộ cải tiến từ thủ tục rebuilt FASTAN Điểm khác biệt ACOGNA so với FASTAN chất lượng dóng hàng tăng lên gọi thủ tục dóng hàng cục bợ giá trị nkeep điều chỉnh tăng lên để giữ nhiều cặp đỉnh tốt giảm thời gian xây dựng lại dóng hàng 3.4 Thuật tốn ACOGNA++ 3.4.1 Mơ tả thuật toán Với đồ thị cấu trúc xây dựng giớng thuật tốn ACOGNA, để xây dựng mợt dóng hàng, kiến thực hiện trình lặp để xác định đỉnh thuộc tầng đồ thị cấu trúc một đỉnh thuộc tầng dóng hàng với Q trình kết thúc tất đỉnh thuộc đồ thị G1 dóng hàng Sau tất 18 kiến xây dựng xong dóng hàng, thủ tục tìm kiếm cục bộ áp dụng lời giải tốt vòng lặp để nâng cao chất lượng Tùy theo tiêu chuẩn tối ưu lựa chọn GNAS, EC hay S3, tiêu chuẩn sử dụng để lựa chọn lời giải tốt thay đổi tương ứng theo hàm mục tiêu 3.4.2 Vết mùi Vết mùi lưu thông tin học tăng cường để đánh giá mợt cặp đỉnh dóng hàng tớt hay khơng Thuật toán ACOGNA++ sử dụng ma trận vết mùi Vết mùi 𝜏1𝑖 đặt đỉnh đồ thị G1 để xác định đỉnh ưu tiên lựa chọn để dóng hàng trước Vết mùi 𝜏𝑗𝑖 đặt cạnh (i,j) đồ thị cấu trúc, dùng để xác định đỉnh j  G2 dóng hàng với đỉnh i  G1 Các vết mùi khởi tạo giá trị 𝜏𝑚𝑎𝑥 cập nhật lại sau vòng lặp 3.4.3 Thủ tục xác định cặp đỉnh dóng hàng Thủ tục gồm bước, xác định đỉnh dóng hàng đồ thị G1 sau xác định ảnh đồ thị G2 Xác định đỉnh dóng hàng thuộc đồ thị nguồn Khác với thủ tục find_next_node FASTAN ACOGNA sử dụng để xác định đỉnh i  RV1 dóng hàng Thuật tốn ACOGNA++ sử dụng thuật toán ACO để xác định đỉnh i dóng hàng Gọi tập T chứa đỉnh 𝑖 cho i  RV1 có nhiều cạnh nối với đỉnh V Khi đó, đỉnh 𝑖 ∈ 𝑇 chọn ngẫu nhiên theo xác suất: pi  (1i )a [i ]b  jT (1j )a [ j ]b (3.13) Trong 𝜂𝑖 số lượng đỉnh kề i đồ thị 𝐺1 , 𝜏1𝑖 vết mùi 𝜏1𝑖 đặt đỉnh đồ thị G1 mô tả mục 3.5.2 Việc sử dụng ACO để tìm đỉnh tḥc đồ thị nguồn dóng hàng giúp khai thác tớt thông tin học tăng cường thông qua vết mùi mà kiến để lại Điều giúp cải thiện chất lượng lời giải tốt so với cách lựa chọn ngẫu nhiên FASTAN ACOGNA Xác định ảnh điểm dóng hàng đồ thị đích G2 Sau xác định đỉnh i  V1 đỉnh j  V2 kiến lựa chọn theo xác suất pij   ( ij )c [ ij ]d kRV2 (3.14) ( ki )c [ki ]d Khi chạy thuật toán ACOGNA++ để tới ưu theo hàm mục tiêu GNAS thơng tin heuristic sử dụng giớng thuật tốn ACOGNA Trong trường hợp chạy thuật tốn ACOGNA++ tới ưu theo hàm mục tiêu EC, S3, thông tin heuristic 𝜂𝑗𝑖 tính theo cơng thức 3.15 3.16  ij   f E (G1[V1  i])  E1 (3.15)  ij   f E (G1[V1  i])   E1  E (G2  f (V )  j )  f E (G1[V1  i])    (3.16) 3.4.4 Quy tắc cập nhật vết mùi Sau vòng lặp, lời giải tớt xác định sử dụng để cập nhật lại vết mùi theo quy tắc cập nhật mùi SMMAS Vết mùi đặt đỉnh đồ thị G1 cập nhật theo công thức 3.17 3.18: 𝜏1𝑖 ← (1 − 𝜌) 𝜏1𝑖 + Δ𝜏𝑖 (3.17) Trong 20 𝜌 𝜏𝑚𝑖𝑛 𝑛ế𝑢 < 𝑖, 𝑓(𝑖) > 𝑘ℎơ𝑛𝑔 𝑐ó đỉ𝑛ℎ 𝑘ề Δ𝜏𝑖 = { (3.18) 𝜌 𝜏𝑚𝑎𝑥 𝑛ế𝑢 < 𝑖, 𝑓(𝑖) > 𝑐ó í𝑡 𝑛ℎấ𝑡 𝑚ộ𝑡 đỉ𝑛ℎ 𝑘ề Vết mùi đặt cạnh đồ thị cấu trúc cập nhật theo công thức (3.19) (3.20) j=f(i)    max  ij  (1   ) ij  ij (3.19) ij   (3.20) j  f (i )    3.4.5 Thủ tục tìm kiếm cục Thủ tục tìm kiếm cục bộ ACOGNA++ sử dụng tương tự ACOGNA 3.5 Kết thực nghiệm 3.5.1 Dữ liệu thực nghiệm Dữ liệu thực nghiệm bộ liệu thực gồm mạng tương tác protein sử dụng phổ biến đánh giá chất lượng thuật tốn dóng hàng mạng PPI Đó mạng tương tác protein loài như: giun, ruồi giấm, khỉ người [Park, Singh, Baym, Liao, & Berger, 2010] Mô tả tập liệu bảng 3.1 Từ bợ liệu chúng tơi tạo sáu cặp mạng tương tác để dóng hàng (ce-dm, ce-hs,ce-sc,dmhs, dm-sc,hs-sc) Bảng 3.1 Mô tả bộ liệu Tập liệu Ký hiệu Số đỉnh C.elegans (Worm) ce 2805 D melanogaster (fly) dm 7518 S.cerevisiae (yeast) sc 5499 H.sapiens (human) hs 9633 Số cạnh 4495 25635 31261 34327 3.5.2 Thực nghiệm so sánh thuật toán FASTAN với thuật toán SPINAL Có nhiều thuật tốn dóng hàng tồn cục hai mạng tương tác protein – protein đề xuất trước đó, nhiên báo [Aladag & Erten, 2013], Aladag tiến hành thực nghiệm bộ liệu IsoBase cho thấy thuật toán SPINAL cho kết tớt thuật tốn khác đánh giá theo tiêu chuẩn GNAS |E12| (số tương tác protein bảo tồn dóng hàng mạng PPI nguồn với mạng PPI đích) Vì thực nghiệm mục tiến hành so sánh thuật toán heuristic thuật tốn FASTAN SPINAL bợ liệu mô tả mục 3.5.1 với tiêu chuẩn GNAS |E12| Để đảm bảo tính cơng mặt thời gian, thuật toán chạy lại máy tính có cấu hình hệ điều hành Bảng 3.2 So sánh thuật toán FASTAN thuật toán Spinal theo hàm mục tiêu GNAS giá trị |E12| với giá trị tham số α khác Trong ơ, dòng điểm GNAS dòng giá trị |E12| α = 0.3 FASTAN SPINAL 717.99 778.46 2343.0 2560.7 728.26 863.46 2370.0 2842.8 709.12 834.79 2326.0 2761.1 1883.22 2260.31 6189.0 7478.3 1579.06 1977.82 5203.0 6569.7 1731.81 2268.21 5703.0 7531.8 α = 0.4 FASTAN SPINAL 941.19 1034.20 2320.0 2564.6 993.07 1144.17 2446.0 2838.1 963.28 1109.93 2384.0 2761.2 2517.23 3007.11 6235.0 7481.9 2075.14 2631.85 5150.0 6565.5 2253.66 3017.96 5593.0 7528.5 α = 0.5 FASTAN SPINAL 1159.93 1290.11 2300.0 2567.2 1229.95 1429.89 2437.0 2844.9 1168.95 1389.21 2323.0 2769.7 3160.48 3755.36 6282.0 7429.0 2668.65 3290.03 5311.0 6570.7 2839.00 3772.96 5651.0 7535.2 α = 0.6 FASTAN SPINAL 1350.59 1545.86 2237.0 2567.7 1501.61 1708.81 2487.0 2838.0 1422.74 1663.39 2361.0 2766.5 3790.79 4496.45 6291.0 7478.2 3180.27 3950.16 5283.0 6577.4 3434.54 4520.51 5706.0 7527.0 α = 0.7 FASTAN 1801.24 2567.6 1994.87 2843.4 1936.83 2763.1 5242.32 7478.8 4603.41 6572.3 5279.88 7538.1 SPINAL 1586.87 2258.0 1764.93 2512.0 1683.13 2398.0 4451.6 6344.0 3759.07 5360.0 4066.22 5798.0 Kết thực nghiệm từ bảng 3.2 FASTAN tìm lời giải (dóng hàng tồn cục) có điểm GNAS |E12| tốt nhiều so với Spinal (p-value

Ngày đăng: 16/01/2020, 02:01