Tom tat luan an nguyen quynh diep

Chương MỞ ĐẦU 1.1 Giới thiệu Trong khoảng thập kỷ gần đây, với phát triển nhanh chóng ngành Công nghệ sinh học, liệu sinh học sinh ngày nhiều Chẳng hạn, liệu biểu gien (gene expression data), liệu biểu sinh gien (epigenetic data), liệu tương tác protein (protein interaction data), liệu phổ khối lượng mẫu sinh học (metabolomic data) Các loại liệu gọi chung liệu sinh học hệ thống (high-throughput data) thường coi "ảnh chụp" tổ chức sinh học Việc phân tích liệu sinh học hệ thống để từ xây dựng lại mạng sinh học gọi tái tạo mạng (network reconstruction) Bài toán tái tạo mạng sinh học loại toán ngược Đây toán quan trọng thách thức ngành sinh học hệ thống Việc tái tạo mạng sinh học giúp làm sáng tỏ chất trình sinh học phức tạp chế gây bệnh xảy bên tổ chức sinh học Đặc biệt, giúp tiên lượng, chẩn đốn tác nhân, dấu sinh học gây bệnh Từ đó, giúp người can thiệp kịp thời xác vào q trình như: lựa chọn chế độ dinh dưỡng, đưa phác đồ điều trị bệnh, điều chế thuốc, Trong tổ chức sinh học, tiến trình sinh học điều khiển phần tử như: gen, protein, metabolite Quan hệ phần tử tế bào định đến chức tế bào Do đó, từ liệu sinh học, trình tái tạo mạng sinh học thơng qua mối quan hệ phần tử cho tranh tổng thể sống Cho đến nay, có hai cách tiếp cận tái tạo mạng sinh học: cách tiếp cận thực nghiệm lĩnh vực Sinh học cách tiếp cận tính tốn lĩnh vực Tin-Sinh Với cách tiếp cận thực nghiệm, nhà thực nghiệm Sinh học sử dụng phương tiện công nghệ sinh học để đo đạc liên kết phần tử, sau kết hợp với tri thức chuyên gia để tái tạo lại mơ hình mạng sinh học Cách tiếp cận thường cho kết xác, chi phí thực nghiệm thời gian tái tạo mạng sinh học hoàn chỉnh lớn Cách tiếp cận tính tốn lĩnh vực Tin-Sinh lại sử dụng sức mạnh tính tốn máy tính, thuật tốn, mơ hình để xây dựng cấu trúc mạng phù hợp với liệu quan sát Kết thu mơ hình mạng, nút biểu diễn phần tử sinh học, cạnh biểu diễn quan hệ chúng Mặc dù, mạng tái tạo cách cịn khác so với mạng tái tạo thực nghiệm, q trình có ý nghĩa quan trọng đường tiến tới tái tạo mạng sinh học đầy đủ Q trình giúp nhà Sinh học có định hướng tốt thực nghiệm, giảm thời gian chi phí thực nghiệm Ngoài ra, tái tạo mạng sinh học cách tiếp cận tính tốn dự đốn mối quan hệ phần tử sinh học, mà có thể, với cách tiếp cận thực nghiệm chưa tìm Chính vậy, khn khổ luận án này, chúng tơi sử dụng cách tiếp cận tính toán để tái tạo mạng sinh học từ liệu 1.2 Bối cảnh thực luận án Ý tưởng mơ hình hóa q trình sinh học mạng gồm nút cạnh đề hấp dẫn Việc tìm cạnh nối nút mạng quan trọng, từ xác định nhóm phần tử thực chức tham gia vào đường sinh học, vấn đề quan trọng sinh học hệ thống Cho đến nay, có nhiều hướng nghiên cứu giải toán tái tạo mạng, hướng có ưu điểm nhược điểm [He et al., 2009], [Villaverde et al., 2013], [Wang et al., 2014] Một cách tiếp cận sử dụng mơ hình tốn học tái tạo mạng dựa phương trình vi phân, tích phân (differential and integral equations) [Gardner et al., 2003], [Mazur et al.,2009], [Steuer et al., 2003] Trong phương pháp này, tác động phần tử lên phần tử biểu diễn phương trình vi phân tuyến tính Như vậy, tất phần tử, ta có hệ phương trình Mơ hình có ưu điểm đơn giản có cách giải phương trình vi phân tuyến tính Tuy nhiên, thực tế, liệu biểu phần tử tế bào lại thường không tuân theo qui luật đơn giản Hơn nữa, mơ hình địi hỏi nhiều tham số phí ước lượng lớn Một cách tiếp cận khác để tái tạo mạng sinh học sử dụng mơ hình đồ thị (graphical models) Đây cách tiếp cận nhiều người sử dụng có nhiều kết nghiên cứu Mạng logic (boolean network ) mơ hình mạng sớm đề xuất năm 1969 Kauffman, biểu diễn đơn giản đồ thị có hướng Mạng logic có ưu điểm mơ hình đơn giản để biểu diễn mạng thực Tuy nhiên, nhược điểm lớn mơ hình địi hỏi thời gian tính tốn cao để xây dựng cấu trúc mạng đáng tin cậy Do đó, phương pháp thường áp dụng mạng nhỏ, không áp dụng để xây dựng mạng có qui mơ lớn [Trairatphisan et al., 2013] Một kết hợp mơ hình đồ thị mơ hình xác suất mơ hình đồ thị xác suất (probabilistic graphical models) [Jordan, 1998], [Kauffman et al., 2003], [Wang et al., 2014] Đây mơ hình xác suất sử dụng đồ thị để biểu diễn phụ thuộc có điều kiện biến ngẫu nhiên cách trực quan Mục đích cách tiếp cận mơ hình đồ thị tìm cấu trúc mạng phù hợp với liệu Có nhiều mơ hình đồ thị khác sử dụng cho tốn tái tạo mạng Trong đó, phải kể đến mơ hình đồ thị xác suất thường sử dụng mơ hình mạng logic xác suất (probabilistic boolean network ) [Trairatphisan et al., 2013], mơ hình mạng Bayesian (Bayesian network ) biến thể chúng như: mạng Bayesian động (dynamic Bayesian network ), mơ hình Markov ẩn (hidden Markov model ), mạng logic Markov (Markov logic network ), trường ngẫu nhiên Markov (Markov random field ), Tuy nhiên, thời gian tính tốn để tìm mơ hình phù hợp với liệu cao Ngồi ra, cách tiếp cận mơ hình đồ thị hướng đến xây dựng cấu trúc mạng toàn cục, mạng xây dựng theo kiểu top-down Chính vậy, phương pháp thường bỏ sót quan hệ mang tính địa phương Một hướng tiếp cận khác để tái tạo mạng sử dụng mơ hình Lý thuyết thơng tin (information theory models) Ý tưởng phương pháp dựa độ đo để tìm phụ thuộc thống kê phần tử sinh học Một số độ đo Lý thuyết thông tin, chẳng hạn độ đo Thông tin tương hỗ (mutual information), Hệ số thơng tin cực đại (maximal information coefficient-MIC ) phát quan hệ cặp đôi, tức phát phụ thuộc hai phần tử Nhiều nghiên cứu sử dụng độ đo Thông tin tương hỗ để tái tạo mạng điều hòa gen mạng tương tác protein [Butte et al 2000], [Cakir et al., 2006], [Margolin et al., 2006] Cách tiếp cận Lý thuyết thông tin thường hướng đến quan hệ cục bộ, sau mở rộng để xây dựng mạng tồn cục Nói cách khác, theo cách tiếp cận Lý thuyết thông tin, cấu trúc mạng xây dựng theo kiểu bottom-up Do đó, phương pháp thường khơng bỏ sót quan hệ mang tính địa phương Tóm lại, có nhiều cách tiếp cận để giải toán tái tạo mạng sinh học, cách tiếp cận có ưu điểm nhược điểm Phần lớn nghiên cứu trước tập trung vào việc tìm quan hệ cặp đơi hai phần tử cho quan hệ cặp đơi sở để xây dựng mạng quan hệ đa biến Gần đây, số nghiên cứu xem xét đến mối quan hệ phần tử với nhiều phần tử khác mạng sinh học Chẳng hạn, cách tiếp cận mơ hình đồ thị độ đo Thơng tin tương hỗ tái tạo mạng điều hòa gen [Kinney et al., 2014], [Reshef et al., 2011], [Trairatphisan et al., 2013] Tuy nhiên, mối quan hệ đa biến lại quan hệ xảy đồng thời Trong khi, phản ứng sinh hóa mạng trao đổi chất lại thường chứa đựng mối quan hệ nhiều chất, đồng thời xảy Do đó, mối quan hệ khơng phát phương pháp nêu 1.3 Mục tiêu nghiên cứu luận án Để tái tạo mạng trao đổi chất, luận án này, lựa chọn hướng tiếp cận Lý thuyết thông tin, cụ thể sử dụng độ đo Thông tin tương hỗ Độ đo Thông tin tương hỗ trước áp dụng để phát quan hệ hai biến mạng điều hòa gen mạng tương tác protein quan hệ mạng phần lớn quan hệ hai biến quan hệ nhiều biến suy diễn từ quan hệ hai biến Trong mạng trao đổi chất, phản ứng có nhiều chất tham gia Do đó, quan hệ chất thường quan hệ ba biến, bốn biến, , hay nói cách khác quan hệ đa biến chúng xảy đồng thời Cho đến nay, số mở rộng độ đo Thông tin tương hỗ xem xét đến mối quan hệ đa biến Tuy nhiên, có kiểu quan hệ xuất có nhiều biến đồng thời tham gia Chính vậy, để tái tạo mạng trao đổi chất, cần phải mở rộng độ đo Thơng tin tương hỗ để phát quan hệ đa biến xảy đồng thời Như vậy, mục tiêu nghiên cứu luận án mở rộng độ đo Thông tin tương hỗ để tái tạo mạng trao đổi chất Để tái tạo mạng trao đổi chất từ liệu sinh học, thực hai bước, tương ứng với hai tốn (Hình 1.1) Bài tốn Dữ liệu → Tái tạo quan hệ đa biến Bài toán → Loại bỏ quan hệ dư thừa ⇑ ⇑ Mở rộng độ đo MI Mở rộng độ đo CMI → Mạng trao đổi chất Hình 1.1: Sơ đồ tóm tắt Mục tiêu nghiên cứu luận án • Bài tốn 1: Mở rộng độ đo Thông tin tương hỗ (MI) để tái tạo quan hệ đa biến • Bài tốn 2: Mở rộng độ đo Thơng tin tương hỗ có điều kiện (CMI) để phát quan hệ đa biến gián tiếp loại bỏ quan hệ dư thừa 1.4 Các đóng góp luận án Luận án có ba đóng góp chính: Thứ nhất: Đề xuất cách diễn giải trực quan công thức cho Thông tin tương hỗ trong trường hợp hai biến ba biến Cách diễn giải khắc phục nhược điểm số cách diễn giải trước Thứ hai: Trên sở đóng góp thứ nhất, đề xuất công thức tổng quát cho độ đo Thông tin tương hỗ đa biến Từ cơng thức tổng qt, có nhiều công thức suy ra, công thức phản ánh loại quan hệ tồn biến Thứ ba: Đề xuất công thức tổng quát cho độ đo Thơng tin tương hỗ đa biến có điều kiện nhằm phát quan hệ đa biến gián tiếp loại bỏ quan hệ dư thừa 1.5 Tổ chức luận án Luận án gồm 130 trang chia thành chương Chương 1: Giới thiệu tổng quan toán tái tạo mạng sinh học, bối cảnh thực luận án, mục tiêu nghiên cứu đóng góp luận án Chương 2: Những kiến thức tảng, bao gồm khái niệm Tin-Sinh học kiến thức liên quan đến số độ đo Lý thuyết thông tin Chương 3: Giới thiệu số mở rộng độ đo Thông tin tương hỗ tác giả khác Đề xuất diễn giải trực quan công thức cho Thông tin tương hỗ trường hợp hai biến ba biến Từ đó, đề xuất cơng thức tổng quát cho Thông tin tương hỗ trường hợp đa biến Cuối ứng dụng độ đo Thông tin tương hỗ đa biến vào toán tái tạo mạng trao đổi chất đánh giá độ đo Chương 4: Đề xuất công thức tổng quát độ đo Thông tin tương hỗ đa biến có điều kiện Ứng dụng độ đo Thơng tin tương hỗ đa biến có điều kiện việc phát quan hệ đa biến gián tiếp để loại bỏ quan hệ dư thừa mạng trao đổi chất Cuối phần Kết luận luận án Chương KIẾN THỨC NỀN TẢNG 2.1 Một số khái niệm Sinh học Mọi sinh vật tạo thành từ vô số tế bào Tất trình sinh học tế bào điều khiển bới phần tử tế bào như: gien, protein, metabolite Các phần tử không hoạt động riêng rẽ mà chúng thường kết hợp với để tạo thành phức hợp thực chức Tập phần tử sinh học quan hệ chúng tạo thành mạng sinh học (biological network ) Về mặt hình thức, mạng sinh học thường biểu diễn đồ thị gồm nút cạnh Trong đó, nút đại diện cho phần tử tế bào, cạnh đại diện cho quan hệ phần tử Mạng tương tác protein (protein-protein interaction network-PIN ) mạng sinh học Trong đó, nút mạng protein, cạnh tương tác vật lý protein Tương tác protein-protein xảy protein kết hợp với nhau, thường để thực chức sinh học chúng Trong mạng điều hòa gien (gene regulatory network-GRN ), nút gien, cạnh quan hệ điều khiển gien gien Một nguồn liệu quan trọng liệu biểu gien (gene expression data) Dữ liệu biểu gien thường cho dạng ma trận, cột tương ứng với gien dòng tương ứng với thời điểm lấy mẫu hay điều kiện thí nghiệm Mỗi ma trận chứa mức độ biểu gien điều kiện tương ứng Trong mạng trao đổi chất (metabolic network-MN ), nút chất trao đổi (metabolite), phân tử nhỏ có mẫu sinh học Các chất trao đổi thường chất tham gia phản ứng, chất xúc tác, sản phẩm phản ứng hóa sinh thể sinh học Mỗi cạnh mạng biểu diễn cho quan hệ chuyển hóa từ chất sang chất Dữ liệu chuỗi thời gian (time-series) tập hợp liệu thu mốc thời gian, cách khoảng thời gian định Dữ liệu time-series sử dụng thống kê, xử lý tín hiệu, nhận dạng mẫu, tài chính, dự báo, Dựa vào liệu time-series, ta tìm thấy qui luật kiện Vì vậy, mơ hình time-series cịn sử dụng để sinh liệu dựa quan sát có Trong q trình thu thập liệu thường xuất liệu nhiễu (perturbation) Dữ liệu nhiễu thường sinh lỗi chương trình, lỗi thiết bị dùng để thu thập liệu ảnh hưởng điều kiện thí nghiệm, Chúng thường làm ảnh hưởng xấu đến kết phân tích khai phá liệu Dữ liệu In silico liệu sinh học sinh từ máy tính thơng qua mơ hình mơ phỏng, khơng phải thu từ thí nghiệm sinh học Nghiên cứu In silico có khả làm tăng tốc độ thực đồng thời làm giảm chi phí tiến hành phịng thí nghiệm thử nghiệm lâm sàng 2.2 Một số khái niệm Lý thuyết thông tin Định nghĩa 2.1 Entropy biến ngẫu nhiên rời rạc X, ký hiệu H(X), đo lượng thông tin không chắn biến X, định nghĩa sau [Shannon, 1948]: X X =− p(x) log p(x) (2.1) H(X) = p(x) log p(x) x x đó, p(x) hàm phân phối xác suất (probability mass function) X Khi biến liên tục, phép tính tổng cơng thức thay phép tính tích phân Tính chất: H(X) ≥ Định nghĩa 2.2 Entropy đồng thời (joint entropy) cặp hai biến ngẫu nhiên rời rạc (X, Y ), ký hiệu H(X, Y ), định nghĩa sau: X H(X, Y ) = − p(x, y) log p(x, y) (2.2) x,y Tính chất: H(X, Y ) ≤ H(X) + H(Y ) Định nghĩa 2.3 Cho hai biến ngẫu nhiên rời rạc X Y Entropy có điều kiện (conditional entropy) biến X điều kiện Y , ký hiệu H(X|Y ), đo lượng thông tin không chắn biến X biết biến Y , xác định sau: X p(x, y) (2.3) H(X|Y ) = − p(x, y) log p(y) x,y Tính chất (i) H(X|Y ) ≥ (ii) H(X, Y ) = H(X) + H(Y |X); H(X, Y ) = H(Y ) + H(X|Y ) (iii) H(X|Y ) ≤ H(X) Định nghĩa 2.4 Entropy n biến ngẫu nhiên rời rạc X1 , , Xn với phân bố xác suất đồng thời p(x1 , , xn ) xác định bởi: X H(X1 , , Xn ) = − p(x1 , , xn ) log p(x1 , , xn ) (2.4) x1 , ,xn Tính chất: H(X1 , , Xn ) ≤ n P H(Xi ) i=1 Định nghĩa 2.5 Thông tin tương hỗ (mutual information) hai biến ngẫu nhiên X Y , ký hiệu M I(X, Y ), đo mức độ tương hỗ hai biến X Y , định nghĩa sau: M I(X, Y ) = X p(x, y) log x,y = p(x, y) p(x).p(y) H(X) + H(Y ) − H(X, Y ) (2.5) (2.6) Khi giá trị độ đo lớn, có nghĩa mức độ tương hỗ hai biến lớn ngược lại, giá trị độ đo bé nghĩa mức độ tương hỗ hai biến nhỏ Tính chất (i) M I(X, Y ) ≥ (ii) M I(X, Y ) = M I(Y, X) (iii) M I(X, Y ) = H(X) − H(X|Y ) = H(Y ) − H(Y |X) (iv) M I(X, Y ) ≤ H(X); M I(X, Y ) ≤ H(Y ) Định nghĩa 2.6 Thơng tin tương hỗ có điều kiện (conditional mutual information) hai biến ngẫu nhiên X Y điều kiện Z đo mức độ tương hỗ hai biến X Y có điều kiện Z, định nghĩa sau: M I(X, Y |Z) = X p(x, y, z) log x,y,z = X p(x, y|z) p(x|z).p(y|z) p(z)M I(X, Y |Z = z) (2.7) (2.8) z Một số biểu diễn khác CMI: M I(X, Y |Z) = H(X, Z) + H(Y, Z) − H(Z) − H(X, Y, Z) (2.9) M I(X, Y |Z) = H(X|Z) + H(Y |Z) − H(X, Y |Z) (2.10) Tính chất: M I(X, Y |Z) ≥ Định nghĩa 2.7 Ba biến ngẫu nhiên X, Y, Z gọi tạo thành chuỗi Markov (Markov chain), ký hiệu X → Y → Z, nếu: p(x, y, z) = p(x).p(y|x).p(z|y) (2.11) Bổ đề 2.1 X → Y → Z X Z độc lập với điều kiện Y , tức M I(X, Z|Y ) = Bổ đề 2.2 Nếu X → Y → Z Z → Y → X Định lý 2.1 Bất đẳng thức xử lý liệu (data processing inequality-DPI) Nếu X → Y → Z thì: M I(X, Y ) ≥ M I(X, Z) (2.12) Dấu đẳng thức xảy M I(X, Y |Z) = Bổ đề 2.3 Nếu X → Y → Z M I(X, Z) ≤ M I(X, Y ); M I(Y, Z) (2.13) Bổ đề 2.4 Nếu X → Y → Z thì: M I(X, Y |Z) ≤ M I(X, Y ) 2.3 (2.14) Đánh giá tính xác dự đốn Trong phân lớp nhị phân hay dự đoán, kết gán nhãn dương (positive-P ) âm (negative-N ) Có bốn khả xảy ra: Nếu kết dự đoán P giá trị thực tế P gọi true positive-TP Nếu kết dự đoán P mà giá trị thực N , gọi false positive-FP Ngược lại, kết dự đoán giá trị thực N gọi true negative-TN, false negative-FN kết dự đoán N , giá trị thực tế P Dự đoán dương (P) Dự đoán âm (N) Quan sát dương (P) TP FN Quan sát âm (N) FP TN Có nhiều thước đo độ xác dự đốn như: Precision, Recall, độ xác (Accuracy-ACC ), độ đo F (F-measure), đường cong ROC diện tích đường cong ROC (area under the curve-AUC ) Trong đó, P recision = TP TP + FP TP TP + FN TP + TN ACC = TP + FP + TN + FN P recision.Recall 2T P F − measure = = P recision + Recall 2T P + F P + F N Recall = (2.15) (2.16) (2.17) (2.18) Một thước đo sử dụng phổ biến khoa học đường cong ROC (Receiver Operating Characteristic) Đường cong ROC tạo thành từ tập hợp điểm ứng với ngưỡng khác Với ngưỡng cho ta điểm Mỗi điểm xác định tọa độ: 1-Specificity (hay gọi False Positive Rate) Sensitivity (hay gọi True Positive Rate) Trong đó, TP Sensitivity = (2.19) TP + FN FP − Specif icity = (2.20) FP + TN Đường cong ROC có tính chất quan trọng là: đường cong dọc theo biên trái dọc theo biên phía khơng gian ROC, chứng tỏ kết dự đốn xác Đường cong tiến tới thành đường chéo 45o khơng gian ROC, độ xác dự đoán Tuy nhiên, vào đường cong ROC khó để kết luận dự đốn tốt Vì vậy, người ta thường sử dụng phần diện tích đường cong ROC, ký hiệu AUC, để đánh giá tính xác dự đốn Đường cong có AUC lớn độ xác dự đốn cao ngược lại, đường cong có AUC bé độ xác dự đốn thấp Chương MỞ RỘNG ĐỘ ĐO THÔNG TIN TƯƠNG HỖ ĐỂ TÁI TẠO QUAN HỆ ĐA BIẾN 3.1 Một số mở rộng độ đo Thông tin tương hỗ 3.1.1 Mở rộng Watanabe Mở rộng độ đo Thông tin tương hỗ độ đo Tương quan tổng hợp (total correlation) Watanabe đưa năm 1960 [Watanabe, 1960] Định nghĩa 3.1 Cho n biến ngẫu nhiên X1 , , Xn , tương quan tổng hợp n biến, ký hiệu T C(X1 , , Xn ), định nghĩa: T C(X1 , , Xn ) = X p(x1 , , xn ) log x1 , ,xn = n X p(x1 , , xn ) p(x1 ) p(xn ) H(Xi ) − H(X1 , , Xn ) (3.1) (3.2) i=1 Trong trường hợp ba biến, công thức (3.2) có dạng: T C(X, Y, Z) = H(X) + H(Y ) + H(Z) − H(X, Y, Z) (3.3) Một mở rộng Watanabe Tương quan tổng hợp có điều kiện định nghĩa sau: Định nghĩa 3.2 Tương quan tổng hợp có điều kiện n biến ngẫu nhiên X1 , , Xn điều kiện Y , ký hiệu T C(X1 , , Xn |Y ), định nghĩa: T C(X1 , , Xn |Y ) = n X H(Xi |Y ) − H(X1 , , Xn |Y ) (3.4) i=1 Trong trường hợp ba biến, cơng thức (3.4) có dạng: T C(X, Y, Z|T ) = H(X|T ) + H(Y |T ) + H(Z|T ) − H(X, Y, Z|T ) (3.5) Độ đo Thông tin tương tác phản ánh kiểu quan hệ đồng thời n biến, không phản ánh kiểu quan hệ khác biến 3.1.2 Mở rộng Fano Mở rộng thứ hai độ đo Thông tin tương hỗ độ đo Thông tin tương tác (interaction information) Fano đưa năm 1961 [Fano, 1961] Định nghĩa 3.3 Thông tin tương tác n biến ngẫu nhiên X1 , , Xn−1 , Xn (với n > 2), định nghĩa sau: M I(X1 , , Xn ) = n X i=1 H(Xi ) − X n+1 H(Xi , Xj ) + + (−1) H(X1 , , Xn ) (3.6) 1≤i

Định dạng
Số trang	24
Dung lượng	578,04 KB