Mở rộng độ đo thông tin tương hỗ có điều kiện cho trường hợp nhiều biến

10 16 0
Mở rộng độ đo thông tin tương hỗ có điều kiện cho trường hợp nhiều biến

Đang tải... (xem toàn văn)

Thông tin tài liệu

Trong bài báo này, theo hướng tiếp cận của Lí thuyết thông tin, chúng tôi đề xuất một mở rộng của độ đo thông tin tương hỗ có điều kiện trong trường hợp nhiều biến. Sau đó, chúng tôi giới thiệu một phương pháp mới sử dụng cả hai độ đo là độ đo thông tin tương hỗ (MI) và độ đo thông tin tương hỗ có điều kiện (CMI) để phát hiện các mối quan hệ giữa các gen, từ đó tái tạo mạng điều khiển gen.

JOURNAL OF SCIENCE OF HNUE FIT., 2013, Vol 58, pp 3-12 This paper is available online at http://stdb.hnue.edu.vn MỞ RỘNG ĐỘ ĐO THƠNG TIN TƯƠNG HỖ CĨ ĐIỀU KIỆN CHO TRƯỜNG HỢP NHIỀU BIẾN Nguyễn Quỳnh Diệp∗ , Nguyễn Thị Bích Ngọc, Phạm Thọ Hồn Trần Đăng Hưng Khoa Công nghệ Thông tin, Trường Đại học Sư Phạm Hà Nội ∗ E-mail: diepnq@hnue.edu.vn Tóm tắt Phân tích liệu biểu gen thao tác quan trọng để tìm chức phần tử sinh học Để hiểu chế phức tạp hệ thống sinh học, việc tái tạo mạng điều khiển gen (Gene Regulatory Networks-GRNs) nhiệm vụ quan trọng trở thành vấn đề thách thức Trong báo này, đề xuất mở rộng độ đo thông tin tương hỗ có điều kiện (Conditional Mutual Information-CMI) cho trường hợp nhiều biến Sau đó, chúng tơi trình bày thuật tốn Path Consistency Algorithm-PCA Đây phương pháp để tái tạo GRNs từ liệu biểu gen cách sử dụng thông tin tương hỗ (MI) thông tin tương hỗ có điều kiện (CMI) Trong thuật tốn này, phụ thuộc có điều kiện cặp gen biểu diễn CMI chúng Kết thử nghiệm xác nhận hiệu phương pháp PCA-CMI tốt so với phương pháp trước Từ khóa: Phần tử sinh học, mở rộng độ đo, thơng tin tương hỗ có điều kiện, phương pháp PCA-CMI Mở đầu Trong lĩnh vực sinh học phân tử, việc tìm hiểu tương tác phân tử hệ thống sinh học quan trọng, xem mục tiêu cuối di truyền học Mặc dù, toàn hệ gen người nghiên cứu xếp theo trình tự, hiểu biết mạng điều khiển gen người cịn hạn chế Hiện nay, có nhiều phương pháp tiếp cận để tái tạo mạng điều khiển gen GRNs từ liệu biểu gen như: Mơ hình đồ thị, chẳng hạn đồ thị Gauss [9]; mạng Bayes [10]; Phương trình vi phân, tích phân [1, 6]; Phương pháp hồi quy, quy hoạch tuyến tính [2, 8]; Lí thuyết thơng tin [3, 4] Mặc dù, nhiều giải thuật xây dựng mạng công bố số hạn chế Trong báo này, theo hướng tiếp cận Lí thuyết thơng tin, đề xuất mở rộng độ đo thơng tin tương hỗ có điều kiện trường hợp nhiều biến Sau đó, chúng tơi giới thiệu phương pháp sử dụng hai độ đo độ đo thơng tin Nguyễn Quỳnh Diệp, Nguyễn Thị Bích Ngọc, Phạm Thọ Hoàn, Trần Đăng Hưng tương hỗ (MI) độ đo thơng tin tương hỗ có điều kiện (CMI) để phát mối quan hệ gen, từ tái tạo mạng điều khiển gen Chúng tiến hành thực nghiệm liệu lồi men nấm với kích thước 10 Kết cho thấy mạng xây dựng nhờ phương pháp tương đối khớp với mạng thực 2.1 Nội dung nghiên cứu Một số khái niệm 2.1.1 Entropy biến Một khái niệm Lí thuyết thông tin Entropy Entropy biến ngẫu nhiên X, kí hiệu H(X), độ bất định hay lượng thông tin biến X Nếu X biến ứng với tập biến cố rời rạc entropy X tính theo cơng thức sau [15]: H(X) = p(x)log x =− p(x) p(x)logp(x) (2.1) x Trong đó, p(x) hàm phân phối xác suất biến ngẫu nhiên X 2.1.2 Entropy đồng thời Giả sử, cho cặp biến ngẫu nhiên X Y Khi đó, entropy X Y định nghĩa sau: H(X, Y ) = p(x, y)log x,y =− p(x, y) p(x, y)logp(x, y) (2.2) x,y Trong đó, p(x, y) phân phối đồng thời hai biến X Y 2.1.3 Entropy có điều kiện Cho biến ngẫu nhiên Y Entropy có điều kiện H(X|Y ) đo lượng thông tin không chắn biến ngẫu nhiên X biết Y tính theo công thức: H(X | Y ) = − p(y) y = − p(x | y)logp(x | y) x p(x, y)log x,y p(x, y) p(y) (2.3) Trong đó, p(x | y) xác suất có điều kiện biến X với điều kiện Y Từ định nghĩa, entropy có điều kiện biểu diễn sau: H(X | Y ) = H(X, Y ) − H(Y ) (2.4) Mở rộng độ đo thơng tin tương hỗ có điều kiện cho trường hợp nhiều biến Do tính chất đối xứng H(X,Y), nên ta có: H(Y | X) = H(X, Y ) − H(X) (2.5) 2.1.4 Entropy nhiều biến Trong trường hợp có nhiều biến ngẫu nhiên, ta có công thức tổng quát: p(x1 , , xn )logp(x1 , , xn ) H(X1 , , Xn ) = − (2.6) x1 , ,xn Sử dụng quy tắc xích, ta phân rã entropy nhiều biến theo công thức (2.7): n H(X1 , , Xn ) = H(Xi | Xi−1 , , X1 ) (2.7) i=1 Trong trường hợp ba biến X, Y, Z, công thức (2.7) viết sau: H(X, Y, Z) = H(X) + H(Y | X) + H(Z | X, Y ) (2.8) 2.1.5 Thông tin tương hỗ hai biến Độ đo thông tin tương hỗ (Mutual Information-MI) độ đo Lí thuyết thơng tin dùng để đo mức độ tương hỗ hai biến Thông tin tương hỗ hai biến ngẫu nhiên X Y , kí hiệu MI(X, Y ) định nghĩa sau [5]: MI(X, Y ) = p(x, y)log x,y p(x, y) p(x)p(y) = H(X) + H(Y ) − H(X, Y ) (2.9) (2.10) Từ công thức (2.10) công thức (2.4), ta biểu diễn mối quan hệ entropy, entropy có điều kiện MI sau: MI(X, Y ) = H(X) + H(Y ) − H(X, Y ) = H(X) − H(X | Y ) = H(Y ) − H(Y | X) (2.11) (2.12) 2.1.6 Thông tin tương hỗ có điều kiện Thơng tin tương hỗ có điều kiện (Conditional Mutual Information-CMI) độ đo dùng để đo lường tương hỗ hai biến có xuất hay nhiều biến khác Thông tin tương hỗ hai biến rời rạc X Y biết biến Z định nghĩa: MI(X, Y | Z) = p(x, y | z)log p(z) z = x,y p(x, y, z)log x,y,z p(x, y | z) p(x | z)p(y | z) p(x, y | z) p(x | z)p(y | z) (2.13) Nguyễn Quỳnh Diệp, Nguyễn Thị Bích Ngọc, Phạm Thọ Hồn, Trần Đăng Hưng Trong đó, p(x, y | z) xác suất đồng thời biến X Y với điều kiện Z p(x, y, z) xác suất đồng thời biến X, Y, Z Ngồi cơng thức trên, CMI cịn biểu diễn dựa entropy : MI(X, Y | Z) = H(X, Z) + H(Y, Z) − H(Z) − H(X, Y, Z) (2.14) Cũng giống MI, giá trị CMI lớn mối quan hệ hai biến X Y với điều kiện Z chặt chẽ Theo cơng thức (2.5), H(X | Z) = H(X, Z) − H(Z) nên công thức (2.14) viết thành: MI(X, Y | Z) = H(X | Z) + H(Y | Z) − H(X, Y | Z) 2.2 (2.15) Mở rộng thông tin tương hỗ có điều kiện Khi xuất thêm biến thứ ba, mối quan hệ biến trở nên phức tạp Do đó, biến khơng cịn tồn tương hỗ cặp hai biến mà có thêm mối quan hệ khác Trong [13], đề xuất mở rộng độ đo thông tin tương hỗ MI cho trường hợp ba biến, bao gồm kiểu tương hỗ sau: Tương hỗ tổng hợp ba biến: MI(X, Y, Z) = T C(X, Y, Z) = H(X) + H(Y ) + H(Z) − H(X, Y, Z) (2.16) Tương hỗ phận biến với cặp hai biến: MI(X, < Y, Z >) = H(X) + H(Y, Z) − H(X, Y, Z) (2.17) MI(Y, < Z, X >) = H(Y ) + H(Z, X) − H(X, Y, Z) (2.18) MI(Z, < X, Y >) = H(Z) + H(X, Y ) − H(X, Y, Z) (2.19) Nhìn vào cơng thức (2.10): M(X, Y ) = H(X) + H(Y ) − H(X, Y ) công thức (2.15): M(X, Y | Z) = H(X | Z) + H(Y | Z) − H(X, Y | Z) ta thấy có tương ứng MI CMI Từ đó, chúng tơi đề xuất mở rộng độ đo thơng tin tương hỗ có điều kiện ba biến với công thức tương tự đề xuất MI sau: Tương hỗ tổng hợp ba biến X, Y, Z có biến T xảy ra: MI(X, Y, Z | T ) = H(X | T ) + H(Y | T ) + H(Z | T ) − H(X, Y, Z | T ) (2.20) Tương hỗ phận biến với cặp hai biến có biến T xảy ra: MI(X, < Y, Z >| T ) = H(X | T ) + H(Y, Z | T ) − H(X, Y, Z | T ) (2.21) MI(Y, < Z, X >| T ) = H(Y | T ) + H(Z, X | T ) − H(X, Y, Z | T ) (2.22) MI(Z, < X, Y >| T ) = H(Z | T ) + H(X, Y | T ) − H(X, Y, Z | T ) (2.23) Trong phần tiếp theo, chúng tơi trình bày ứng dụng độ đo MI CMI để tái tạo mạng điều khiển gen từ liệu biểu gen Mở rộng độ đo thông tin tương hỗ có điều kiện cho trường hợp nhiều biến 2.3 Tái tạo mạng điều khiển gen 2.3.1 Thuật toán PCA Như trình bày phần Mở đầu, có nhiều giải thuật xây dựng mạng nghiên cứu mơ hình cịn số hạn chế, cần hồn thiện Gần đây, lí thuyết thông tin đề cập tới việc tái tạo GRNs, sử dụng độ đo thơng tin tương hỗ thuật tốn ARACNE [11], CLR [7] Từ ma trận MI này, ta xác định mối quan hệ gen Ưu điểm lớn phương pháp có khả tính tốn với hàng ngàn gen Mặc dù, phương pháp dựa vào độ đo MI có ưu điểm bật, độ đo thông tin tương hỗ làm việc cặp gen mà không xét đến tác động điều kiện hay ảnh hưởng gen khác Phương pháp dựa vào độ đo CMI có khả phát mối quan hệ gen có điều kiện xảy Trong báo này, giới thiệu phương pháp dựa hai độ đo MI CMI để phát tương tác gen Phương pháp chúng tơi trình bày có tên Path Consistency Algorithm-PCA, tái tạo mạng điều khiển gen từ liệu biểu gen thuật toán P C Thuật toán P C sử dụng để loại bỏ cạnh tương quan độc lập từ đồ thị P CA mô tả chi tiết sau: Path Consistency Algorithm -PCA - Input: A: liệu biểu gen θ: ngưỡng định phụ thuộc order0: tham số kết thúc chương trình (khi order = order0) - Output: G: mạng liên kết gen order: bậc mạng tái tạo • Bước 0: Khởi tạo Xây dựng mạng đầy đủ G từ tất gen cho Chọn ngưỡng θ Đặt L = -1 • Bước 1: L = L+1 Đối với cạnh G(i, j) = Tìm gen kề với gen i, j Gọi T tập gen kề với i, j (khơng tính i, j) • Bước 2: Nếu T

Ngày đăng: 14/11/2020, 08:04

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan