Đề tài “Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học” nhằm mục đích nghiên cứu, xây dựng một phân hệ trong hệ thống thông tin, hỗ trợ phân hạng và dự đoán gen liên quan đến bệnh sử dụng các kỹ thuật tính toán và tin sinh học.
BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG Đặng Vũ Tùng PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC Chuyên ngành: Hệ thống thơng tin Mã số: 62.48.01.04 TĨM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Hà Nội - 2017 Cơng trình hồn thành tại: Học viện Cơng nghệ Bưu Viễn thông Người hướng dẫn khoa học: PGS TS Từ Minh Phương PGS TS Lê Đức Hậu Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng chấm luận án cấp Học viện họp tại: Học viện Cơng nghệ Bưu Viễn thơng Vào hồi ngày tháng năm Có thể tìm hiểu luận án tại: Thư viện Học viện Công nghệ Bưu Viễn thơng PHẦN MỞ ĐẦU Tính cấp thiết luận án Trong năm gần đây, nhiều phát mang tính đột phá mối liên quan gen người với bệnh sở phân tử chúng góp phần làm sáng tỏ nguyên nhân phát sinh bệnh Việc khám phá sở phân tử bệnh có giá trị phịng ngừa, chẩn đốn điều trị bệnh Xác định gen có liên quan đến bệnh toán quan trọng y sinh học sinh học phân tử Trước đây, việc xác định gen thực chủ yếu thực nghiệm sinh học, phương pháp cho kết tin cậy đòi hỏi nhiều thời gian chi phí cao Trong lĩnh vực tin sinh học, liệu sinh học ngày phong phú, công bố rộng rãi phần lớn miễn phí Các phương pháp tính tốn, xử lý liệu sinh học phát triển giúp nhà nghiên cứu y sinh học tìm gen liên quan đến bệnh tiết kiệm thời gian chi phí nhiều so với phương pháp truyền thống Mặc dù đạt nhiều thành tựu đáng kể lĩnh vực phát gen liên quan đến bệnh, nhiên số lượng lớn bệnh chưa biết sở phân tử Thậm chí, với bệnh biết phần thông tin sở phân tử tỷ lệ lớn gen có liên quan chưa phát Mặt khác, phương pháp đề xuất gặp khó khăn cần phải thu hẹp danh sách gen ứng viên Những nghiên cứu đặc điểm gen liên quan đến bệnh mạng sinh học cho thấy gen có mối liên quan với bệnh bệnh tương đồng thường liên kết với khu trú khu vực mạng Chúng tạo thành mô đun vật chất chức thể người Phát sở phương pháp dự đoán gen ứng viên liên quan đến bệnh dựa mạng sinh học Cho tới thời điểm nay, có nhiều phương pháp phân hạng dự đoán gen liên quan đến bệnh dựa mạng sinh học nghiên cứu, đề xuất với trợ giúp sở liệu hệ gen thơng tin kiểu hình bệnh Tuy nhiên, tồn số vấn đề như: (1) mức độ bao phủ mạng sinh học hạn chế, (2) hầu hết phương pháp sử dụng tương tác vật lý, chưa kết hợp tương tác chức năng, có trọng số, (3) phương pháp cục bộ, điểm số tính cho gen tương tác trực tiếp với gen liên quan đến bệnh mà bỏ qua gen có mối tương tác gián tiếp khác (4) phương pháp sử dụng mạng tích hợp chưa nhiều chưa khai thác nguồn liệu Từ lý trên, việc phát triển phương pháp phân hạng gen mới, đạt hiệu cao dựa mạng sinh học vấn đề cấp thiết Đề tài “Phân hạng dự đoán gen liên quan đến bệnh thuật toán dựa mạng sinh học” nhằm mục đích nghiên cứu, xây dựng phân hệ hệ thống thông tin, hỗ trợ phân hạng dự đoán gen liên quan đến bệnh sử dụng kỹ thuật tính tốn tin sinh học Mục tiêu luận án Nghiên cứu, phát triển số phương pháp tính tốn cho phép phân hạng gen dựa mạng sinh học đạt hiệu cao so với phương pháp công bố Nghiên cứu, ứng dụng mơ hình tính tốn lĩnh vực phân tích mạng xã hội/web cho tốn phân hạng dự đoán gen liên quan đến bệnh Nghiên cứu, thu thập mạng tương tác gen/protein liên kết chức năng, có trọng số từ y văn nguồn liệu công cộng sử dụng mạng phương pháp phân hạng gen để nâng cao độ xác kết dự đốn Nghiên cứu, tìm hiểu mơ hình mạng sinh học tích hợp đề xuất phương án xây dựng mạng tích hợp dựa nguồn liệu sinh học mới, phục vụ cho vấn đề dự đoán gen liên quan đến bệnh Các kết nghiên cứu luận án phát triển thành phần mềm hệ thống thông tin ứng dụng lĩnh vực phân hạng dự đoán gen liên quan đến bệnh Các đóng góp luận án Đề xuất phương pháp phân hạng gen ứng viên cách kết hợp kỹ thuật Học tăng cường với thuật toán phân hạng PageRank, đồng thời bổ sung xác suất tiên nghiệm hợp lý cho gen liên quan đến bệnh biết Phương pháp thử nghiệm mạng tương tác gen/protein người so sánh với phương pháp phân hạng gen lớp có Kết cho thấy phương pháp đề xuất có độ xác cao so với phương pháp so sánh thể thông qua giá trị AUC Đề xuất ứng dụng phương pháp phân tích mạng xã hội để phân hạng dự đốn gen ứng viên có độ liên quan cao gen liên quan đến bệnh biết Trong đó, gen ứng viên có xác suất liên kết với gen bệnh nhỏ không xem xét tiếp, nhờ giảm độ phức tạp tính tốn Kết cho thấy phương pháp đề xuất có độ phức tạp tính tốn thấp, đồng thời xác phương pháp phân hạng gen áp dụng phổ biến bước ngẫu nhiên có quay lui Phương pháp đề xuất áp dụng mạng tương tác gen/protein có kích thước lớn đảm bảo hiệu dự đoán cao Đề xuất phương pháp xây dựng mạng không đồng bao gồm mạng bệnh tương đồng dựa HPO cách sử dụng độ đo tương đồng ngữ nghĩa mạng gen/protein nhằm mục đích cải thiện, nâng cao hiệu dự đoán gen liên quan đến bệnh so với mạng không đồng giới thiệu nghiên cứu trước Các kết nghiên cứu luận án đóng góp mặt lý thuyết cho lĩnh vực Tin sinh học, đồng thời ứng dụng để giải toán phát gen liên quan đến bệnh cụ thể Đây bước tiền đề để tìm phương pháp điều trị thích hợp cho bệnh liên quan đến gen (ví dụ: bệnh cao huyết áp, tiểu đường, ung thư, …) tiến tới giai đoạn “y học cá nhân hóa” “cá nhân hóa điều trị” Các phương pháp phân hạng gen đề xuất phát triển thành phần mềm ứng dụng để triển khai sở nghiên cứu y sinh học phục vụ công tác nghiên cứu đào tạo Bố cục luận án Nội dung luận án chia thành ba chương, cụ thể sau: Chương - Tổng quan phân hạng, dự đoán gen liên quan đến bệnh vấn đề liên quan: Giới thiệu số khái niệm sinh học phân tử; toán phân hạng gen; hướng tiếp cận giải tốn tóm lược nghiên cứu liên quan công bố Chương - Phân hạng dự đoán gen liên quan đến bệnh dựa mạng tương tác gen/protein: Trình bày hai phương pháp phân hạng dự đoán gen liên quan đến bệnh dựa mạng tương tác gen/protein thực nghiệm tiến hành để đánh giá hiệu phương pháp Chương - Phân hạng dự đoán gen liên quan đến bệnh dựa mạng khơng đồng nhất: Trình bày phương pháp xây dựng mạng không đồng bao gồm mạng bệnh tương đồng ngữ nghĩa dựa HPO mạng gen/protein Phương pháp đề xuất cho thấy hiệu tốt so sánh với phương pháp dựa hồ sơ OMIM Phần cuối luận án số kết luận đề xuất hướng nghiên cứu Chương - TỔNG QUAN VỀ PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH 1.1 CƠ SỞ VỀ SINH HỌC PHÂN TỬ 1.1.1 Tế bào Tế bào đơn vị cấu tạo sống, chúng cung cấp cấu trúc cho thể, tạo nên chất dinh dưỡng từ thức ăn, chuyển hóa chất dinh dưỡng thành lượng thực chức chuyên biệt Tế bào chứa yếu tố di truyền tự nhân 1.1.2 DNA DNA yếu tố di truyền hầu hết sinh vật sống Thông tin DNA lưu trữ dạng mã hóa gồm bốn bazơ: A, G, C T Các bazơ DNA bắt cặp với tạo thành cặp bazơ Mỗi cặp bazơ liên kết với phân tử đường phân tử phosphate tạo thành nucleotide Các nucleotide xếp thành hai sợi dài xoắn quanh trục tạo thành đường xoắn kép 1.1.3 Gen Gen đơn vị sở tượng di truyền cấp độ phân tử Mỗi gen đoạn DNA chứa thông tin quy định cấu tạo phân tử chức RNA protein Các protein tương tác với để thực chức thể Như coi protein dạng chức gen 1.1.4 Quá trình điều khiển tổng hợp protein từ gen Quá trình điều khiển tổng hợp protein từ gen gồm hai bước chính: Phiên mã: thơng tin lưu trữ gen DNA chuyển tải sang cho phân tử tương tự mRNA nhân tế bào Dịch mã: mRNA ghép nối, tổng hợp thành protein 1.2 PHÂN HẠNG GEN VÀ CÁC HƯỚNG TIẾP CẬN GIẢI QUYẾT 1.2.1 Bài toán phân hạng gen Phân hạng gen sử dụng phương pháp tính tốn để xếp hạng gen theo khả liên quan chúng bệnh xem xét Các gen có thứ hạng cao sau xác nhận thực nghiệm sinh học để kiểm chứng khả liên quan tới bệnh Bài toán phân hạng gen phát biểu sau: Với bệnh D, gen C ứng viên cần xem xét liệu huấn luyện T Sau nhập liệu tính tốn, phương pháp tính điểm số cho gen ứng viên, gen có điểm số cao gen có nhiều khả liên quan đến bệnh Mục đích phân hạng gen cung cấp cho nhà nghiên cứu y sinh học gợi ý ban đầu gen có khả liên quan tới bệnh, giúp thu hẹp danh sách gen ứng viên chế liên quan chúng đến bệnh Những đóng góp cần thiết để xác định gen liên quan đến bệnh, đặc biệt bệnh phức tạp 1.2.2 Các hướng tiếp cận giải toán phân hạng gen 1.2.2.1 Các phương pháp dựa liệu giải chức Các phương pháp tính điểm số phân hạng gen ứng viên cách xác định mức độ tương đồng gen ứng viên so với tập gen liên quan đến bệnh biết đến dựa hồ sơ xây dựng từ nhiều nguồn liệu giải chức Hạn chế phương pháp dựa liệu giải chức nguồn liệu chưa bao phủ toàn hệ gen người 1.2.2.2 Các phương pháp dựa học máy Vấn đề dự đoán gen xem xét giống tốn phân lớp nhị phân, tập huấn luyện gồm gen liên quan đến bệnh biết gen không liên quan đến bệnh Các phương pháp học máy gặp hạn chế cần xây dựng tập liệu huấn luyện gen thực không liên quan tới bệnh Mặt khác, chúng khơng đạt mục đích thu hẹp danh sách gen ứng viên cần xem xét 1.2.2.3 Các phương pháp dựa mạng sinh học Các phương pháp sử dụng mạng sinh học để thực trình phân hạng Các mạng sinh học xây dựng dựa liệu y sinh học khác nhau, khơng bị giới hạn mức độ bao phủ nguồn liệu giải chức Ngồi ra, phương pháp coi kỹ thuật học bán giám sát sử dụng liệu không gán nhãn kết thu bảng xếp hạng gen ứng viên ước tính dựa liên quan chúng với gen bệnh biết 1.3 CÁC CƠ SỞ DỮ LIỆU VÀ MẠNG SINH HỌC 1.3.1 Các sở liệu sinh học Trong lĩnh vực phân hạng dự đoán gen liên quan đến bệnh, nguồn liệu sử dụng đóng vai trị quan trọng, có liên quan trực tiếp tới chất lượng khả dự đốn Đã có nhiều nguồn liệu khác khai thác thành công để dự đoán liên quan tới bệnh gen ứng viên Điển hình là: liệu khai thác từ y văn; giải chức gen; quan hệ kiểu hình; thuộc tính nội gen; trình tự gen; tương tác protein; biểu gen 1.3.2 Các mạng sinh học Các mạng sinh học bao gồm mạng tương tác mạng chức năng, xây dựng, thử nghiệm phát triển liên tục để mô tả tương tác vật chất chức phân tử sinh học Các mạng thường biểu diễn đồ thị vơ hướng có hướng với nút phân tử cạnh thể liên kết vật chất chức chúng Việc giải mã thuộc tính mạng sinh học cung cấp hiểu biết sâu mối quan hệ kiểu gen kiểu hình phức tạp 1.3.3 Mạng tương tác gen/protein Mạng tương tác gen/protein nguồn liệu thường sử dụng để dự đoán gen liên quan đến bệnh Mỗi tương tác vật chất gen/protein tạo chức Chính vậy, tương tác có thay đổi dẫn đến kiểu hình bệnh Các tương tác gen/protein thường thu thập phương pháp thực nghiệm như: sử dụng hệ thống thông lượng cao Y2H để chọn lọc tương tác nhị phân trực tiếp cặp protein ; phương pháp làm đồng dạng hiệu cao khối phổ phương pháp thu thập từ y văn 1.4 CÁC PHƯƠNG PHÁP PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH DỰA TRÊN MẠNG SINH HỌC 1.4.1 Phương pháp dựa mức độ gần gen/protein Các phương pháp sử dụng chiến lược ghi điểm khác chất đo khoảng cách gen liên quan đến bệnh biết gen ứng viên mạng tương tác gen/protein Các phép đo chia thành ba loại là: khoảng cách cục bộ, khoảng cách tổng thể phương pháp phân hoạch đồ thị để tính tốn mức độ gần cặp gen/protein mạng 1.4.2 Phương pháp dựa tích hợp liệu gen qui mô lớn Các phương pháp dựa giả thuyết cho gen liên quan đến bệnh chia sẻ đặc tính chung liệu giải gen, ngữ nghĩa gen, biểu gen, trình tự gen Các phương pháp tích hợp thường sử dụng là: tính tốn xếp hạng tổng thể cách kết hợp xếp hạng đặc tính; xây dựng mạng tích hợp từ nguồn liệu khác 1.4.3 Phương pháp dựa tích hợp thơng tin kiểu hình Thực tế chứng minh bệnh với kiểu hình tương đồng thường chia sẻ tập hợp gen có nguy tiềm ẩn có quan hệ chức Quan sát sử dụng để xây dựng mạng bệnh, hai bệnh kết nối với chúng chia sẻ gen chung Việc tích hợp mạng kiểu hình mạng gen để phân hạng gen kiểu hình cách đồng thời tăng cường đáng kể hiệu phân hạng gen ứng viên 1.4.4 Phương pháp xây dựng mô đun bệnh Khái niệm mô đun bệnh sử dụng nghiên cứu nhiều bệnh khác bệnh ung thư, tiểu đường, thần kinh Cách tiếp cận mô đun bệnh, đặc biệt bệnh chưa nghiên cứu nhiều thường yêu cầu nỗ lực thực nghiệm để xác định tương tác cho việc xây dựng mô đun bệnh Các thành phần mạng mô đun topo cho có liên quan theo chức cố mô đun dẫn đến bệnh cụ thể Thông tin gen liên quan đến bệnh biết thu thập để xây dựng mô đun bệnh mạng con, thành viên chia sẻ chức tương đồng, mơ hình biểu lộ trình chuyển hóa 1.5 PHƯƠNG PHÁP ĐÁNH GIÁ CÁC THUẬT TOÁN PHÂN HẠNG 1.5.1 Phương pháp kiểm tra chéo Kiểm tra chéo (Cross Validation - CV) phương pháp sử dụng để đánh giá mơ hình học máy tập liệu cho trước Có ba phương pháp kiểm tra chéo sử dụng phổ biến là: Hold-out, K-fold cross validation Leave-one-out cross validation (LOOCV) Kiểm tra chéo bỏ (LOOCV) phương pháp thường sử dụng để đánh giá thuật toán phân hạng gen 1.5.2 Xác định hiệu phương pháp phân hạng Phương pháp vẽ đường cong ROC: thường sử dụng kết hợp với phương pháp LOOCV để so sánh hiệu thuật toán phân hạng gen khác Hiệu thuật toán phân hạng xác định cách tính tốn giá trị AUC (diện tích đường cong ROC) Phương pháp tính hệ số làm giàu: vào thứ hạng gen liên quan đến bệnh biết bị loại bỏ tất trường hợp thử nghiệm để tính tốn hệ số làm giàu Phương pháp tính tỷ lệ trung vị hạng: số nghiên cứu sử dụng phương pháp đánh giá dựa vào tỷ số giá trị trung vị gen liên quan đến bệnh dự báo tổng số gen ứng viên 11 ( )=∑ ( ) (( ( )⁄ ( )) × ( + ( ))) (2.8) đó: Rt+1(v) thứ hạng trang v thời điểm t+1; Rt(u) thứ hạng trang u thời điểm t; din(v) bậc vào trang v; prob(u) xác suất diện thực thể trang u; dout(u) bậc trang u; ruv khoản thưởng dành cho việc chuyển từ trang u sang trang v; γ hệ số giảm trừ 2.1.4 Thuật toán bước ngẫu nhiên có quay lui Bước ngẫu nhiên có quay lui (Random Walk with Restart - RWR) biến thể thuật toán bước ngẫu nhiên đồ thị Thuật toán Kohler cộng phát triển cho toán phân hạng gen dựa đồ thị Điểm phân hạng theo RWR xác định theo công thức: = (1 − ) ′ + (2.9) đó: pt+1 vector xác suất tập nút |V| thời điểm t; Phần tử thứ i biểu diễn xác suất thực thể nút vi V; W’ ma trận chuẩn hóa từ ma trận kề W, W’i j (kí hiệu phần tử (i, j) W’) biểu diễn xác suất mà thực thể di chuyển từ vi tới vj nằm tập V\{vi}; p0 vector xác suất khởi đầu phần tử có giá trị (nếu chúng khơng thuộc tập S) 1/|S| (nếu chúng thuộc tập S) 2.2 PHÂN HẠNG GEN BẰNG PHƯƠNG PHÁP HỌC TĂNG CƯỜNG KẾT HỢP VỚI XÁC SUẤT TIỀN NGHIỆM 2.2.1 Thuật toán phân hạng học tăng cường kết hợp với xác suất tiên nghiệm Thuật toán RL_Rank cho phép xếp hạng nút mạng cách toàn cục, tức thuật tốn tính tốn độ quan trọng nói chung hay độ quan trọng tuyệt đối nút Trong tốn tìm kiếm Web, cách xếp hạng phù hợp Tuy nhiên, mục tiêu toán phân hạng gen khơng phải tính độ quan trọng tuyệt đối nút mà tính độ quan trọng tương đối nút so với nút gốc (tức nút tương ứng với gen liên quan đến bệnh biết) Để giải vấn đề này, phương pháp phân hạng học tăng cường kết hợp với xác suất tiên nghiệm (RL_Rank with priors) sử dụng ý tưởng “thứ hạng 12 ban đầu” hay xác suất tiên nghiệm phương pháp PageRank with priors Bên cạnh đó, đồ thị mạng tương tác gen/protein đồ thị vơ hướng nên áp dụng thuật tốn cho tốn phân hạng gen, coi bậc vào nút bậc xác định số liên kết với nút (tức din(v) = dout(v) = d(v)) Giả sử S tập gen gốc pS = {p1, … ,p|v|} vector thứ hạng ban đầu có tổng 1, pv biểu thị độ quan trọng tương đối nút v Ở pv = 1/ |S| v S pv = v S β (0 ≤ β ≤ 1) biểu thị cho xác suất quay trở lại nút gốc trình duyệt, nhằm mục đích xem nút gốc quan trọng Khi cơng thức (2.8) RL_Rank viết lại sau: ( ) = (1 − ) ∑ ( ) (( ( )⁄ ( )) × ( + ( ))) + (2.11) Cùng với việc tính đến xác suất đầu prob(u) xác suất xuất agent nút u (theo PageRank with priors), thuật toán RL_Rank with priors áp dụng cho toán phân hạng gen dựa mạng tương tác gen/protein mơ tả sau: Bước 1: Sử dụng thuật tốn tìm kiếm theo chiều rộng (BFS) để lấy tồn gen liên kết với tập gen gốc Bước 2: Xây dựng tập ứng viên C bao gồm gen gốc gen liên kết với chúng Bước 3: Khởi tạo giá trị R, prob ps Bước 4: Tính tốn giá trị vector prob (đây thứ hạng gen theo thuật toán PageRank with priors) Bước 5: Sử dụng Học tăng cường để tăng cường điểm cho thứ hạng gốc gen để nhận thứ hạng cuối chúng 2.2.2 Dữ liệu thực nghiệm Dữ liệu sử dụng cho thực nghiệm bao gồm mạng tương tác gen/protein có 11.886 gen 111.943 liên kết; sở liệu bệnh gen liên quan đến bệnh biết trích xuất từ OMIM gồm 398 bệnh gây từ hai gen trở lên gen có mạng tương tác protein 13 2.2.3 Thực nghiệm kết 2.2.3.1 Ảnh hưởng tham số Phương pháp thực nghiệm phân hạng gen ứng viên bệnh cụ thể tính tốn giá trị AUC Giá trị AUC trung bình 398 bệnh sử dụng làm kết để đánh giá độ xác phương pháp Đối với tham số γ , kết thử nghiệm cho thấy: Khi β >= 0.8, tăng hay giảm giá trị γ, kết thực thuật toán không thay đổi Khi β = 0.5 Đối với tham số β, thiết lập γ = 0.5 thay đổi giá trị β từ 0.1 đến 0.9 Kết thực nghiệm cho thấy độ xác thuật tốn khơng thay đổi nhiều thay đổi β Cụ thể, giá trị cao đạt β = 0.7 chênh lệch khoảng 1% so với giá trị thấp β = 0.1 2.2.3.2 So sánh với thuật toán lớp Thực nghiệm tiến hành để so sánh kết phân hạng phương pháp đề xuất với phương pháp lớp liệu Kết thực nghiệm Bảng 2.1 cho thấy độ xác thuật toán RL_Rank with priors tốt phương pháp so sánh Lý có kết hợp yếu tố tăng cường kết phân hạng Bảng Kết RL_Rank with priors thuật toán lớp Phương pháp Tham số β Tham số Giá trị AUC trung bình RL_Rank with priors 0.7 0.5 0.961 PageRank with priors 0.7 - 0.936 Random Walk with Restart 0.7 - 0.919 K=6 - 0.908 K-Step Markov 2.2.3.3 Dự đoán gen liên quan tới bệnh cao huyết áp Thực nghiệm tiến hành để phân hạng gen liên quan đến bệnh cao huyết áp (hypertension) có mã OMIM 145500 thu thập chứng y văn gen có thứ hạng cao kết phân hạng Kết tra cứu cho thấy, số 20 gen ứng viên có thứ hạng cao nhất, gen báo cáo có liên quan trực tiếp tới bệnh cao huyết áp 14 Các gen cịn lại khơng có chứng trực tiếp liên quan đến bệnh chúng lại có liên quan đến bệnh nguyên nhân gây bệnh cao huyết áp rối loạn chuyển hóa kẽm tiểu đường 2.3 PHÂN HẠNG GEN BẰNG PHƯƠNG PHÁP TÍNH TỔNG XÁC SUẤT LIÊN KẾT TRONG MẠNG TƯƠNG TÁC GEN/PROTEIN 2.3.1 Thuật toán dựa xác suất liên kết Thuật toán dựa xác xuất liên kết (SigPathSum) phương pháp phân tích mạng xã hội đề xuất HeyongWang cộng Ý tưởng thuật toán xác định tất đường khơng chu trình từ nút tới nút truy vấn đồ thị Tại đường, từ nút khởi đầu, xác suất lựa chọn nút tính tốn nút kết thúc Tích xác suất lựa chọn nút dọc theo đường biểu diễn đại lượng gọi "xác suất đường đi" (path probability) Đường coi "có ý nghĩa" "xác suất đường đi" lớn giá trị ngưỡng cho trước Độ liên quan nút với nút truy vấn xác định tổng xác suất đường "có ý nghĩa" hai nút Kết đầu thuật toán k nút có độ liên quan cao nút truy vấn Khi áp dụng phương pháp cho toán phân hạng gen dựa mạng, giả sử s gen liên quan đến bệnh biết t gen ứng viên đồ thị mạng tương tác gen/protein Thuật tốn tính xác suất đường có ý nghĩa từ s tới t theo thủ tục SigPathSum Tầm quan trọng gen t gen s xác định tổng xác suất đường có ý nghĩa từ s tới t Độ liên quan trung bình gen t tập gen gốc S điểm phân hạng gen t Cuối cùng, k gen có độ liên quan trung bình cao tập gen gốc S lựa chọn Thuật toán thực theo bước sau: Bước 1: Khởi tạo giá trị , PathProb Bước 2: Sử dụng DFS để xác định đường khơng chu trình từ gen s S tới gen cịn lại Tại bước i, tính PathProb(s, vi) theo thủ tục SigPathSum; trình dừng t PathProb(s, t) < Bước 3: Tính độ liên quan gen t s 15 ( | )= ℎ ( , ) Bước 4: Lặp bước 1-3 cho gen lại thuộc S Bước 5: Tính độ liên quan trung bình gen t tập S ( | )= ( | ) | | ∈ 2.3.2 Dữ liệu thực nghiệm Bộ liệu thực nghiệm mô tả phần 2.2.2 2.3.3 Thực nghiệm kết 2.3.3.1 Ảnh hưởng tham số Đối với tham số f, với ngưỡng cố định ( = 10-6), kết cho thấy: f ≤ 0.1, giá trị AUC không thay đổi nhiều f > 0.1, số lượng gen bị loại bỏ nhiều, dẫn đến giá trị AUC giảm nhanh Mặt khác, thời gian thực trung bình f = 0.1 gần gấp đơi thời gian thực trung bình f = 0.3 Để thỏa mãn tiêu chí thời gian thực nhanh hiệu theo AUC cao, tham số f lựa chọn 0.1 Đốivới tham số , thiết lập giá trị = (10-3, 10-4, 10-5, 106 ) Kết cho thấy: giá trị ngưỡng giảm, số lượng gen duyệt tăng dẫn đến kết phân hạng tăng Tuy nhiên, thời gian thực thuật toán tăng cách đáng kể (từ 614.27s với = 10-3 đến 6013.35s với = 10-6) Do đó, việc chọn ngưỡng đóng vai trị quan trọng phương pháp tiếp cận 2.3.3.2 So sánh với phương pháp bước ngẫu nhiên có quay lui RWR phương pháp sử dụng phổ biến cho toán phân hạng gen dựa mạng Phương pháp chứng minh đạt hiệu tốt với xác suất quay lại = 0.7 Trong phương pháp đề xuất, giá trị tham số thiết lập tương ứng là: f = 0.1 = 10-6 Kết thực nghiệm hai phương pháp thể Bảng 2.2 cho thấy với = 10-6, phương pháp đề suất đạt giá trị AUC lớn thời gian thực 1/6 thời gian thực phương pháp RWR 16 Bảng 2 Kết thực SigPathSum (f = 0.1, = 10-6) RWR ( = 0.7) Thuật toán Thời gian thực Số gen duyệt Giá trị AUC SigPathSum 6013.35s 3614 0.925 RWR 37133.98s 11592 0.919 Từ kết thực nghiệm thu kết luận việc kết hợp xác suất giảm trừ f xác suất đường nhanh chóng rút ngắn đường, giảm số lượng gen ứng viên cần xem xét Với đồ thị có kích thước lớn mạng tương tác gen/protein người, phương pháp RWR có chi phí tính tốn cao thời gian không gian lưu trữ cần thiết Khi đó, phương pháp đề xuất ứng dụng lựa chọn tối ưu 2.3.3.3 Dự đoán gen liên quan đến bệnh tiểu đường tuýp Theo OMIM, có 31 gen xác định liên quan đến bệnh tiểu đường tuýp 2, có 27 gen nằm mạng tương tác gen/protein thu thập sử dụng nút gốc Sau phân hạng tất gen ứng viên, chọn 20 gen có thứ hạng cao thu thập chứng y văn công bố sở liệu PubMed liên quan gen với bệnh Kết tra cứu thu thập cho thấy 11 gen báo cáo có liên quan trực tiếp đến bệnh tiểu đường tuýp 2.4 SO SÁNH CÁC PHƯƠNG PHÁP PHÂN HẠNG GEN ĐỀ XUẤT 2.4.1 Về nguyên tắc thực hiện, ưu nhược điểm phạm vi áp dụng Phương pháp phân hạng Học tăng cường kết hợp xác suất tiên nghiệm (RL_Rank with Prior): xây dựng dựa tảng thuật toán PageRank, đồng thời bổ sung thêm yếu tố xác suất tiên nghiệm điểm thưởng theo phương pháp Học tăng cường sau bước tính tốn Khi thực hiện, phương pháp duyệt toán gen mạng tương tác gen/protein tính tốn mức độ liên quan/ tầm quan trọng gen ứng viên tập gen hạt giống S Chính vậy, độ xác kết phân hạng đạt cao, nhiên phải duyệt tất gen thực phép tính tốn dựa ma trận đồ thị chuẩn hóa mạng tương tác gen/protein phí thực cao thời gian thực hiện, không gian lưu trữ cần thiết 17 Phương pháp đề xuất áp dụng cho mạng tương tác nhỏ vừa, đạt hiệu cao Phương pháp phân hạng dựa tổng xác suất liên kết mạng tương tác gen/protein (SigPathSum): dựa khái niệm đường có ý nghĩa, kết hợp hệ số giảm trừ f giá trị ngưỡng xác suất đường Khi thực hiện, phương pháp cho phép rút ngắn đường, giảm số lượng gen cần xem xét (không cần duyệt tất gen đồ thị mạng tương tác gen/protein), nhanh chóng xác định k gen có độ liên quan/tầm quan trọng cao tập gen hạt giống S Mặt khác, phương pháp dựa tổng xác suất liên kết phản ánh mức độ liên quan toàn cục gen ứng viên gen hạt giống (gen xa gen hạt giống có tổng xác suất liên kết lớn có khả liên quan đến bệnh nhiều hơn) Phương pháp có độ phức tạp tính tốn thấp thời gian thực nhanh so với RL_Rank with Priors Do đề xuất áp dụng dụng mạng tương tác có kích thước lớn đảm bảo hiệu dự đoán cao 2.4.2 Về thực nghiệm Với liệu bước thực nghiệm trình bày phần 2.2.3, 2.3.3 Kết thực nghiệm cho thấy: Về hiệu phân hạng: Thuật toán RL_Rank with priors đạt hiệu phân hạng cao Giá trị AUC trung bình 398 bệnh 0.961, cao thuật toán SigPathSum (AUC = 0.925) thuật toán RWR (AUC = 0.919) Về thời gian thực hiện: Thuật tốn SigPathSum có thời gian thực ngắn (6013.35s), thời gian thực RL_Rank gấp gần lần so với SigPathSum (41329.74s), xấp xỉ thời gian thực RWR (37133.98s) Ý nghĩa kiểm chứng mặt sinh học: Các phương pháp đề xuất có khả dự đốn gen liên quan đến bệnh cụ thể 2.5 KẾT LUẬN CHƯƠNG Chương trình bày hai phương pháp phân hạng gen dựa mạng tương tác gen/protein Với phương pháp, thực nghiệm tiến hành mạng tương tác gen/protein mối quan hệ bệnh – gen biết người, đồng thời kiểm chứng mặt sinh học bệnh cụ thể 18 Chương - PHÂN HẠNG VÀ DỰ ĐỐN GEN GÂY BỆNH DỰA TRÊN MẠNG KHƠNG ĐỒNG NHẤT 3.1 ĐẶT VẤN ĐỀ Đa số phương pháp phân hạng dự đoán gen liên quan đến bệnh dựa mạng sinh học Do đó, gặp phải số hạn chế như: mạng sinh học chưa bao phủ hết gen người vấn đề nhiễu liệu mạng sinh học Để khắc phục hạn chế này, số giải pháp sử dụng chiến lược tích hợp liệu mạng đề xuất nhằm tăng cường hiệu phân hạng dự đoán Chương đề xuất phương pháp xây dựng mạng không đồng bao gồm: mạng tương đồng ngữ nghĩa kiểu hình bệnh mạng tương tác gen/protein Mạng bệnh tương đồng khai thác từ kiểu hình bệnh giải sở liệu thể kiểu hình người (Human Phenotype Ontology - HPO), đồng thời sử dụng số biện pháp tương đồng ngữ nghĩa đề xuất để tính toán mức độ tương đồng giải đối tượng y sinh Phần thực nghiệm tiến hành để so sánh hiệu phương pháp đề xuất với phương pháp lớp Bên cạnh đó, phương pháp đề xuất sử dụng để tìm kiếm gen liên quan đến bệnh Alzheimer 3.2 MẠNG KHÔNG ĐỒNG NHẤT BỆNH - GEN 3.2.1 Tổng quan xây dựng mạng không đồng Mạng không đồng xây dựng cách kết hợp hai nhiều mạng đơn lẻ đối tượng y sinh mà chúng có chia sẻ số thuộc tính chung Trong nghiên cứu này, mạng không đồng bệnh-gen xây dựng từ hai loại mạng: (1) mạng gen/protein, gen/protein kết nối với tương tác chức năng, (2) mạng bệnh tương đồng, liên kết hai bệnh xác định mức độ tương đồng ngữ nghĩa chúng Hai mạng kết nối mạng lưỡng phân gồm liên kết bệnh-gen biết 19 3.2.2 Các mạng gen/protein 3.2.2.1 Mạng tương tác gen/protein Mạng tương tác gen/protein người (ký hiệu PPINet) chứa 10486 gen 50791 tương tác thu thập từ sở liệu NCBI FTP Mạng PPINet đồ thị vơ hướng khơng có trọng số 3.2.2.2 Mạng tương đồng dựa liệu biểu gen Mạng tương đồng dựa liệu biểu gen (ký hiệu GENet) đồ thị vơ hướng có trọng số, xây dựng cách gán trọng số cho liên kết mạng PPINet Dựa sở liệu đồng biểu gen COXPRESSdb, trọng số liên kết (biểu thị mức độ tương đồng cặp gen) xác định theo phương pháp "thứ hạng chung" 3.2.2.3 Mạng tương đồng dựa thể gen Mạng tương đồng dựa liệu thể gen (kí hiệu GONet) xây dựng dựa kho ngữ liệu UniProtKB sở liệu giải GO Cơ sở liệu giải GO cung cấp thông tin giải 18.245 protein chủng người Trong số có 15.576 protein giải chức phân tử, 14.911 protein giải trình sinh học 16.983 protein giải thành phần tế bào Từ liệu giải này, xây dựng mạng tương ứng BPNet, CCNet MFNet cách xác định trọng số cặp gen dựa mức độ tương đồng ngữ nghĩa cặp thuật ngữ (term) tương ứng GO Tích hợp ba mạng BPNet, CCNet MFNet theo phương pháp tính "trung bình cạnh" để thu mạng GONet 3.2.3 Các mạng bệnh tương đồng 3.2.3.1 Mạng bệnh tương đồng dựa OMIM Được xây dựng theo bước: Bước 1: Xây dựng ma trận kiểu hình bệnh tương đồng phần tử ma trận đại diện cho mức độ tương đồng hai kiểu hình bệnh Bước 2: Mức độ tương đồng ma trận tính tốn dựa thuật toán khai phá văn khác hồ sơ OMIM 20 Bước 3: Mỗi nút lựa chọn năm hàng xóm có độ tương tự lớn để xây dựng mạng bệnh tương đồng OMIMNet gồm 19791 tương tác 5080 kiểu hình 3.2.3.2 Mạng bệnh tương đồng dựa HPO Được xây dựng theo bước: Bước 1: Thu thập thuật ngữ (term) HPO liệu giải tương ứng từ sở liệu Human Phenotype Ontology Bước 2: Thực thủ tục giống mạng tương đồng dựa thể gen để tính tốn mức độ tương đồng cặp kiểu hình bệnh Bước 3: Mỗi nút lựa chọn năm hàng xóm có độ tương đồng lớn để xây dựng mạng bệnh tương đồng HPONet gồm 34476 tương tác 6521 kiểu hình 3.2.4 Mạng lưỡng phân Mạng lưỡng phân thu thập từ sở liệu NCBI FTP, mạng biểu diễn liên kết 3284 bệnh 2761 gen biết có liên quan đến bệnh Các bệnh gen mạng lưỡng phân xuất mạng bệnh tương đồng mạng gen/protein tương ứng thu thập 3.3 THUẬT TỐN BƯỚC NGẪU NHIÊN CĨ QUAY LUI TRÊN MẠNG KHƠNG ĐỒNG NHẤT Thuật tốn bước ngẫu nhiên có quay lui mạng khơng đồng (RWRH) Li Patra ứng dụng cho toán phân hạng gen mạng khơng đồng Thuật tốn biến thể thuật toán RWR Về nguyên tắc, thuật toán RWRH xây dựng dựa cơng thức thuật tốn RWR, khác biệt thể việc xây dựng ma trận chuyển đổi W' Khi áp dụng cho toán phân hạng gen, giả sử G = (V, E) đồ thị vơ hướng có trọng số biểu diễn mạng khơng đồng bệnh - gen, V = {v1, v2, , vN} tập nút E = {(vi, vj) | vi, vj ∈ V} tập cạnh; S ⊆ V tập nút nguồn/nút hạt giống; WG, WD, WGD, ma trận kề mạng gen/protein, mạng bệnh tương đồng liên mạng con; xác suất quay lại nút gốc; xác suất chuyển đổi mạng con; hệ số quy định tầm quan trọng ban đầu 21 mạng con; số thực dương nhỏ Thuật toán thực theo bước sau: Bước 1: Khởi tạo giá trị , , , Bước 2: Xây dựng ma trận chuyển đổi W'G, W'D, W'GD, W'DG mạng gen/protein, mạng bệnh tương đồng liên mạng bệnh-gen Bước 3: Xây dựng ma trận chuyển đổi W' mạng không đồng Bước 4: Xây dựng vector khởi đầu p0 Bước 5: Áp dụng RWR cho mạng không đồng bệnh - gen 3.4 CÁC THỰC NGHIỆM VÀ KẾT QUẢ 3.4.1 So sánh hiệu với phương pháp lớp Để đánh giá hiệu mạng không đồng xây dựng theo phương pháp đề xuất, thực nghiệm tiến hành mạng không đồng Trong có mạng dựa HPO (HPONet-PPINet, HPONet-GENet HPONet-GONet) mạng dựa OMIM (OMIMNet-GONet, OMIMNet-PPINet OMIMNet-GENet) Các tham số thuật toán RWRH thiết lập giống cho tất trương hợp thử nghiệm Bảng 3.1 Giá trị AUC mạng dựa HPO OMIM STT Mạng Giá trị AUC HPONet - PPINet 0.927 HPONet - GenNet 0.926 HPONet - GONet 0.926 OMIMNet - PPINet 0.736 OMIMNet - GENet 0.730 OMIMNet - GONet 0.710 Kết thực nghiệm thể Bảng 3.1 cho thấy mạng không đồng HPO có hiệu phân hạng tốt mạng khơng đồng dựa OMIM Lý mạng bệnh tương tự dựa HPO phản ánh mối quan hệ chức bệnh tốt mạng bệnh tương tự dựa OMIM 22 3.4.2 Dự đoán gen liên quan đến bệnh Alzheimer Thực nghiệm tiến hành để dự đoán gen liên quan đến bệnh Alzheimer cách sử dụng mạng HPONet-GENet Có 16 gen biết có liên quan tới bệnh Alzheimer, nhiên có 11 gen số thu thập mạng gen/protein Sau phân hạng, lựa chọn 20 gen có thứ hạng cao nhất, tìm kiếm chứng mối liên hệ gen với bệnh Alzheimer từ y văn PubMed Kết cho thấy có gen chứng minh liên quan tới bệnh 3.5 KẾT LUẬN CHƯƠNG Xây dựng mạng không đồng nghiên cứu trước gặp phải hạn chế nghiên cứu chủ yếu dựa ma trận bệnh tương đồng lỗi thời, xây dựng cách sử dụng thuật toán khai phá văn hồ sơ OMIM Chương trình bày phương pháp xây dựng mạng không đồng bao gồm mạng bệnh tương đồng ngữ nghĩa dựa HPO mạng gen/protein, liên kết kiểu hình bệnh - gen biết Phương pháp đề xuất cho thấy hiệu tốt so sánh với phương pháp sử dụng mạng bệnh tương đồng dựa hồ sơ OMIM, không phân biệt mạng gen/protein kết hợp KẾT LUẬN Phân hạng dự đoán gen liên quan đến bệnh toán quan trọng lĩnh vực tin sinh học y sinh học phân tử Cho đến nay, có nhiều phương pháp tính tốn phát triển nhằm mục đích phân hạng gen ứng viên liên quan đến bệnh Các phương pháp thường có ba hướng tiếp cận dựa giải chức gen, dựa học máy dựa mạng tương tác sinh học Trong số phương pháp này, phương pháp dựa mạng tương tác sinh học đạt kết vượt trội Các phương pháp dựa mạng tương tác sinh học vào nguyên lý mô đun bệnh khai thác thuộc tính kết nối mạng sinh học để tính điểm số liên kết gen ứng viên gen gây bệnh biết Mặc dù tới thời điểm tại, phương pháp đề 23 xuất giải tốt toán phân hạng dự đoán gen liên quan đến bệnh thực tế vấn đề tồn như: mạng tương tác chưa có khả bao phủ hết hệ gen, cịn có sai sót q trình thu thập liệu tương tác, hầu hết phương pháp sử dụng tương tác vật lý, chưa kết hợp tương tác chức năng, có trọng số; phương pháp cục xét đến tương tác trực tiếp mà bỏ qua tương tác gián tiếp; phương pháp sử dụng mạng tích hợp chưa nhiều chưa khai thác nguồn liệu Nhằm khắc phục số tồn nêu trên, luận án tập trung nghiên cứu, đề xuất phương pháp phân hạng dự đoán gen bệnh dựa mạng tương tác gen/protein mạng không đồng kết hợp mạng bệnh tương đồng mạng tương tác gen/protein Cụ thể là: Đề xuất phương pháp RL_Rank with Priors, kết hợp khái niệm học tăng cường với thuật toán PageRank with priors để ứng dụng cho toán phân hạng dự đoán gen liên quan đến bệnh dựa mạng tương tác gen/protein mối quan hệ bệnh-gen biết Ứng dụng thuật tốn SigPathSum phân tích mạng xã hội/ mạng web để phân hạng dự đoán gen ứng viên có độ liên quan cao gen bệnh biết dựa tổng xác suất đường hai gen/protein mạng Các mạng sinh học có điểm tương đồng với mạng xã hội/mạng web cho phép ứng dụng mở rộng thuật toán phân hạng trang Web cho toán phân hạng dự đoán gen liên quan đến bệnh Phương pháp đề xuất để áp dụng mạng tương tác gen/protein có kích thước lớn đảm bảo hiệu dự đoán cao Đề xuất phương pháp xây dựng mạng không đồng bao gồm mạng bệnh tương đồng dựa HPO cách sử dụng độ đo tương đồng ngữ nghĩa mạng gen/protein nhằm mục đích cải thiện, nâng cao hiệu việc dự đoán gen liên quan đến bệnh so với mạng không đồng giới thiệu nghiên cứu trước Với nghiên cứu, thực nghiệm tiến hành sở liệu mạng tương tác mối quan hệ bệnh-gen 24 người Kết cho thấy mặt lý thuyết, phương pháp phân hạng gen đề xuất hoàn toàn khả thi Đồng thời, ứng dụng để dự đoán gen liên quan đến bệnh cho bệnh cụ thể, phương pháp thể rõ hiệu thực tế Sau tiến hành phân hạng, số gen ứng viên số gen có thứ hạng cao gen liên quan đến bệnh chứng minh y văn Các gen có thứ hạng cao lại, chưa chứng minh có liên quan trực tiếp tới bệnh chúng có liên quan đến nguyên nhân phát sinh bệnh Các gen sử dụng làm gợi ý ban đầu cho nhà sinh học kiểm tra thí nghiệm sinh học chuyên sâu Dựa kết nghiên cứu thực nghiệm thu được, hướng phát triển đề tài là: Phát triển phương pháp đề xuất luận án thành cơng cụ dự đốn gen liên quan đến bệnh tương lai; Ứng dụng phương pháp đề xuất cho mạng sinh học khác như: mạng trao đổi chất, mạng điều hòa gen, mạng tương tác di truyền Ứng dụng phương pháp đề xuất cho toán dự đoán mRNA liên quan đến bệnh Sử dụng biện pháp tính tốn mức độ tương đồng ngữ nghĩa khác giải thực thể y sinh học để xây dựng mạng bệnh tương đồng Xây dựng mạng bệnh tương đồng dựa lộ trình sinh học, miRNA, phức hợp protein, thể bệnh biến chứng bệnh Đây hướng nghiên cứu triển vọng tương lai cho vấn đề dự đoán gen liên quan đến bệnh 25 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ [T1] Đặng Vũ Tùng, Dương Anh Trà, Lê Đức Hậu, Từ Minh Phương, "Phân hạng gen gây bệnh sử dụng học tăng cường kết hợp với xác xuất tiên nghiệm.", Chuyên san Các cơng trình nghiên cứu, ứng dụng phát triển CNTT&TT, Tập V1, số 13 (33), tháng 6/2015 [T2] Duc-Hau Le, Vu-Tung Dang, "Ontology-based disease similarity network for disease gene prediction" - Vietnam Journal Computer Science, Springer, DOI 10.1007/s40595016-0063-3 [T3] Nguyễn Đại Phong, Đặng Vũ Tùng, Lê Đức Hậu, Từ Minh Phương, "Một phương pháp cải tiến cho toán xác định gen liên quan đến bệnh", Kỷ yếu Hội thảo FAIR 2016 [T4] Đặng Vũ Tùng, Nguyễn Đại Phong, Lê Đức Hậu, Từ Minh Phương, "Một phương pháp phân hạng gen gây bệnh dựa tổng xác suất liên kết mạng tương tác protein", Chuyên san Các cơng trình nghiên cứu, ứng dụng phát triển CNTT&TT, Tập V-2, số 16 (36), tháng 12/2016 ... Phát sở phương pháp dự đoán gen ứng viên liên quan đến bệnh dựa mạng sinh học Cho tới thời điểm nay, có nhiều phương pháp phân hạng dự đoán gen liên quan đến bệnh dựa mạng sinh học nghiên cứu, đề... pháp phân hạng gen mới, đạt hiệu cao dựa mạng sinh học vấn đề cấp thiết Đề tài ? ?Phân hạng dự đoán gen liên quan đến bệnh thuật toán dựa mạng sinh học? ?? nhằm mục đích nghiên cứu, xây dựng phân. .. khái niệm sinh học phân tử; toán phân hạng gen; hướng tiếp cận giải toán tóm lược nghiên cứu liên quan cơng bố Chương - Phân hạng dự đoán gen liên quan đến bệnh dựa mạng tương tác gen/ protein: