Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 12 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
12
Dung lượng
1,75 MB
Nội dung
Vietnam J Agri Sci 2017, Vol 15, No 1: 73-84 Tp Khoa hc Nụng nghip Vit Nam 2017, 15, s 1: 73-84 www.vnua.edu.vn NGHIấN CU PHNG PHP DA TRấN MNG SINH HC D ON CC GENE GY BNH V Th Lu1*, Trn Th Thu Huyn1, Nguyn Vn Hong1, Nguyn Th Huyn1, Lờ c Hu2 Khoa Cụng ngh thụng tin, Hc vin Nụng nghip Vit Nam Khoa Cụng ngh thụng tin, i hc Thy li Email*: luuvt207@gmail.com Ngy gi bi: 21.12.2016 Ngy chp nhn: 23.02.2017 TểM TT D oỏn gene gõy bnh l mt nhng mc tiờu quan trng nghiờn cu y sinh Hin cú khỏ nhiu phng phỏp c xõy dng d oỏn cỏc gene liờn quan n mt s bnh c th Tuy nhiờn, mi quan h phc gia cỏc gene v bnh nờn rt nhiu cỏc gene l nguyờn nhõn gõy mt s bnh di truyn hin cha c phỏt hin Bi toỏn phõn hng gene tỡm cỏc gene bnh l mt bi toỏn c nhiu nh khoa hc quan tõm nghiờn cu tỡm mt phng phỏp tt vi mc tiờu l d oỏn c cỏc gene gõy bnh vi hiu sut cao, chỳng tụi ó tin hnh kho sỏt mt s phng phỏp phõn hng gene ó cú da trờn mng sinh hc, sau ú xut mt phng phỏp d oỏn s dng mụ hỡnh mng Boolean Network Trong mng sinh hc cỏc khuyt tt t bin v gene/protein cú th gõy mt bnh no ú ngi Cng chớnh vỡ th, nhng t bin ca gene/protein ny cú th nh hng n gene/protein khỏc thụng qua cu trỳc ca cỏc mng sinh hc Phng phỏp mi s dng mụ hỡnh Boolean ny ỏnh giỏ s phự hp ca nhng gene ng viờn i vi mt bnh no ú quan tõm bng cỏch o mc nh hng t bin t gene gõy bnh ó bit ti cỏc gene ng viờn Da trờn giỏ tr ny sp xp cỏc gene ng viờn cho cỏc gene cú kh nng liờn quan ti bnh c nhn th hng cao hn Sau phõn hng, mt nhúm nh cỏc gene vi th hng cao s c la chn kim nghim bng thc nghim xỏc nh cú liờn quan n bnh Cỏc kt qu gi lp trờn mt b d lieu gene - bnh ó cho thy rng phng phỏp xut ca chỳng tụi tt hn phng phỏp da trờn gii thut ngu nhiờn - Random Walk Restart S dng phng phỏp xut, kt qu th nghim ó xỏc nh c 27 gene cú liờn quan n bnh ung th vỳ T khúa: Gene bnh, mng tớn hiu sinh hc, Boolean ng, phng phỏp da trờn mng, thut toỏn ngu nhiờn Study Method Base on Biological Networks for Disease Candidate Gene Prediction ABSTRACT Predicting genes which may associate with disease is one of the important goals of biomedical research There have been many computational methods developed to rank genes involved in a particular disease However, due to the complex relationship between genes and the diseases, many genes that cause genetic diseases have not yet been discovered The problem of ranking genes to identify the disease-associated gene has drawn attention of many researchers To find a good method to predict target genes that cause diseases with high performance, we have conducted a survey of prediction methods based on biological network We then proposed a new method using a Boolean network model In biological network, defects by mutations on genes/proteins may cause a disease to occurin a person Also, these mutations may affect other genes/proteins through structures of the biological networks In this study, we proposed to use Boolean network model to assess the relevance of candidate genes to a disease of interest by measuring the degree of mutational effect from known disease-associated genes to candidate genes Particularly, we mutated known disease-associated genes and measured the effect of this mutation on candidate genes based on Boolean dynamics of biological networks Based on this measured value, candidate genes can be prioritized and finally top-ranked candidate genes can be selected as novel promising disease genes Simulation results on a set of diseases showed that the proposed method is superior to a state-of-the-art one, which is based on a random walk with a restart algorithm Using the proposed method, we have identified 27 genes associated with breast cancer with evidences from literature 73 Nghiờn cu phng phỏp da trờn mng sinh hc d oỏn cỏc gene gõy bnh Keywords: Disease candidate gene prioritization, human signaling network, Boolean dynamics, network-based method, random walk with restart algorithm T VN Xỏc nh gene gõy bnh l bi toỏn quan trng y sinh hc v sinh hc phõn t d oỏn gene bnh ó cú mt s phng phỏp c xut (Kann, 2010) Trc õy, vic xỏc nh gene gõy bnh c thc hin ch yu bng cỏc thc nghim sinh hc Phng phỏp ny c thc hin cho hng trm gene ng viờn nm trờn mt vựng nhim sc th kh nghi nờn ũi hi nhiu thi gian v chi phớ rt cao Phõn hng gene l s dng cỏc phng phỏp tớnh toỏn sp xp cỏc gene ng viờn cho cỏc gene cú kh nng liờn quan ti bnh c nhn th hng cao hn Sau phõn hng, mt nhúm nh cỏc gene vi th hng cao sau ú s c la chn kim nghim bng thc nghim Cỏc phng phỏp phõn hng gene ng viờn ó c xut cú th chia lm hng chớnh: i) Da trờn ỏnh du nhón chc nng; ii) da trờn mng v iii) da trờn hc mỏy Trong ú, cỏc phng phỏp da trờn ỏnh du nhón chc nng phõn hng cỏc gene ng viờn bng cỏch o mc tng t ca mi gene ng viờn ti mt hp cỏc gene gõy bnh ó bit da trờn cỏc h s c xõy dng t nhiu ngun d liu (Aerts, 2006) Do ú, nhng phng phỏp ny ch yu trung vo vic tớch hp nhiu b d liu sinh hc khỏc cú c s tng t chớnh xỏc hn bao ph ton b h gene ngi Bờn cnh cỏc phng phỏp da trờn ỏnh du nhón chc nng, cỏc phng phỏp da trờn hc mỏy vi phõn lp nh phõn xỏc nh cỏc gene bnh tng ng cng ó c nghiờn cu thi k u, nhng nghiờn cu da trờn hc mỏy thng tip cn d oỏn gene bnh nh bi toỏn phõn lp nh phõn Mt s k thut phõn lp nh phõn ó c xut cho ny nh: cõy quyt nh (Adie, 2005), k-lỏng ging gn nht (Li, 2006), phõn loi Naùve Baysian (Calvo, 2006), mng nron nhõn to (Sun, 2009) v mỏy vector h tr (Keerthikumar, 2009) Trong nhng nghiờn cu ny, cỏc mu hc bao gm mu hun luyn tớch cc v tiờu cc Trong ú, mu hun luyn tớch cc c xõy dng t cỏc 74 gene gõy bnh ó bit, mu hun luyn tiờu cc l gene cha xỏc nh l liờn quan vi bnh õy l hn ch ca cỏc gii phỏp phõn lp nh phõn cho bi toỏn d oỏn gene bnh vỡ hun luyn tiờu cc khụng thc s l nhng gene khụng liờn quan ti bnh Tuy nhiờn, vic xõy dng d liu ny l gn nh khụng th cỏc nghiờn cu y sinh bi vỡ y sinh nhng trng hp khụng quan sỏt c liờn kt khụng cú ngha l liờn kt ú khụng tn ti Do vy, gim s khụng chc chn ny ca cỏc phng phỏp trc ú, phng phỏp bỏn giỏm sỏt ó c xut cho , ú b phõn loi c hc t c hai: d liu cú nhón (vớ d, gene bnh ó bit) v khụng cú nhón (vớ d, cỏc gene cha bit) Tuy nhiờn, cỏc mu tiờu cc phi c xỏc nh cỏc nghiờn cu ny khc phc nhng hn ch ca c hai phng phỏp nờu trờn, cỏc phng phỏp da trờn mng xỏc nh gene bnh ó c xut (Wang, 2011) Nhng phng phỏp ny ch yu da trờn cỏc mng sinh hc nh mng tng tỏc protein c s dng khỏ ph bin d liu tng tỏc protein/gene ngy cng y v a dng Ngoi ra, phng phỏp ny vt tri so vi hai tip cn trc l bi vỡ nú da trờn nguyờn lý module bnh (chng hn cỏc gene/protein gn kt vi cựng mt bnh hoc cỏc bnh tng t thng cú xu hng nm gn mng tng tỏc gene/protein) Hn na, phng phỏp da trờn mng ny nhm ti bn cht ca d oỏn gene bnh, phõn hng thay vỡ phõn loi cỏc gene ng viờn (vớ d, gỏn nhón cho mt gene ng viờn l gene bnh hoc khụng) nh cỏc phng phỏp da trờn hc mỏy thc hin Theo lý thuyt, cỏc khim khuyt t bin trờn gene/protein cú th l nguyờn nhõn gõy mt bnh mt ngi Nhng t bin ny cú th nh hng n gene/protein khỏc thụng qua cỏc cu trỳc ca cỏc mng sinh hc Cỏc t bin trờn gene/protein nh hng n mng sinh hc c iu khin bi thuc tớnh cu trỳc ca mng sinh hc Di õy l hỡnh nh quỏ trỡnh iu tit gene mng iu hũa V Th Lu, Trn Th Thu Huyn, Nguyn Vn Hong, Nguyn Th Huyn, Lờ c Hu Hỡnh Mụ hỡnh mng iu hũa iu tit hot ng gene Ghi chỳ: Cỏc thnh phn mng cú th nh hng (tỏc ng tớch cc hoc tiờu cc) ti quỏ trỡnh phiờn mó v phiờn dch thnh cỏc cht tng ng Hỡnh 2: Mt vớ d v mng li cỏc tng tỏc gia cỏc gene phõn on ca rui gim Ngun: Albert, Boolean Modeling of Genetic Regulatory Networks, 2004 Trờn hỡnh th hin hỡnh nh ca cỏc nỳt vi cỏc cht tng ng: mRNAs (elip), proteins (ch nht), protein complexes (bỏt giỏc) ng tớn hiu ca mng th hin phn ng sinh húa (phiờn dch) hoc tng tỏc iu tit (phiờn mó) ng mi tờn v ng cú nột ngang u dũng i din tng tỏc tớch cc v tiờu cc tng ng Da vo s nh hng ca cỏc quỏ trỡnh chuyn húa mng, t bin trờn mt nỳt cú th lm nh hng n cỏc giỏ tr ca cỏc nỳt khỏc Chớnh vỡ th nghiờn cu ny nhúm nghiờn cu i kho sỏt mt s phng phỏp d trờn mng sinh hc phõn hng v tỡm gene bnh Sau ú chỳng tụi i nghiờn cu v s 75 Nghiờn cu phng phỏp da trờn mng sinh hc d oỏn cỏc gene gõy bnh dng mụ hỡnh Boolean Network mng iu hũa gene o nhng tỏc ng t gene bnh ó bit (c gi l gene ớch) ti gene ng viờn l gene cú nguy c liờn quan n bnh Da trờn giỏ tr ny, cỏc gene ng viờn cú th c sp xp theo th t u tiờn v gene c xp hng u tiờn cú th c la chn nh gene bnh mi th nghim Kt qu so sỏnh hiu sut ca phng phỏp ny vi thut toỏn RWR (Random Walk with Restart) trờn mt gm 25 bnh cho thy phng phỏp cú s dng mụ hỡnh mng Boolean Network thc hin tt hn phng phỏp RWR p dng phng phỏp xut xỏc nh gene liờn quan n bnh ung th v kt qu la chn 27 s 50 gene ng viờn c xp hng cao v c chng minh l liờn quan n bnh ung th vỳ Kt qu nghiờn cu trờn t c da trờn cỏc b d liu v mng sinh hc v cỏc liờn kt gene bnh ó bit c thu thp v nghiờn cu theo phng phỏp c trỡnh by phn tip theo ca bi bỏo CC NGHIấN CU LIấN QUAN V GII PHP PHN HNG GENE XUT Trong phn ny chỳng tụi kho sỏt mt s phng phỏp da trờn mng ó c cỏc nh nghiờn cu cụng b v ngoi nc Sau ú chỳng tụi i nghiờn cu c th v mụ hỡnh Boolean network thuc mng iu hũa gene c xut vo nm 1969 bi Kauffmann v th nghim trờn b d liu thu thp c Sau ú so sỏnh hiu sut vi mụ hỡnh RWR ó c cỏc nhúm nghiờn cu kim nghim (Le, 2012) 2.1 Cỏc nghiờn cu liờn quan n bi toỏn d oỏn gene bnh da trờn phng phỏp mng sinh hc a Phng phỏp tớnh toỏn da vo tớch hp mng tng tỏc protein, mng tng tỏc microRNA-gene v cỏc gene gõy bnh ung th ó bit ca tỏc gi Trn Th Bớch Phng v cng s ó nghiờn cu nm 2013 (Trn Th Bớch Phng, 2013) Phng phỏp ny nhm tớch hp thụng tin t nhiu ngun d liu khỏc thnh mt 76 mng tng th, sau ú a mt cỏch phõn tớch mng tng tỏc ny biu din cỏc gene thụng qua cỏc gene khỏc cú tng tỏc trc tip v giỏn tip vi nú í tng chớnh l tỡm cỏch biu din c s tng tỏc ca mt gene vi cỏc gene khỏc t ú oỏn nhn kh nng gõy bnh ca nú im mi phng phỏp ny l tớch hp thụng tin mng tng tỏc microRNA-gene vo mng tng tỏc protein v a mt cỏch phõn tớch mng tng tỏc da trờn thut toỏn tỡm kim theo chiu rng biu din cỏc nỳt trờn mng Phng phỏp c th nghim trờn d liu thc t c download t cỏc trung tõm d liu sinh hc trờn th gii v s dng cỏc phng phỏp phõn lp ph bin (SVM, C4.5, K-NN) ỏnh giỏ hiu qu Kt qu kim nghim trờn d liu thc cho thy chớnh xỏc ca cỏc phng phỏp d oỏn c nõng lờn iu ny chng t thụng tin v microRNA l hu ớch vic tiờn lng cỏc gene gõy bnh C th ca kt qu c cụng b trờn bi bỏo trờn khoa hc ca trng i hc S phm H Ni (Trn Th Bớch Phng, 2013) b Cỏch tip cn khỏc s dng xỏc sut tin nghim l PRINCE PRINCE (PRIoritizatioN and Complex Elucidation) c phỏt trin bi Vanunu et al (2010) PRINCE s dng thut toỏn lan truyn d oỏn gene bnh da vo thụng tin tớch hp gia kiu hỡnh bnh v mng tng tỏc protein Phng phỏp ny tớnh toỏn mi liờn quan gia mt bnh v gene bnh ó bit vi mt bnh khỏc s dng hm logistic da trờn s tng t kiu hỡnh gia hai bnh Gene liờn quan ti bnh sau ú c s dng nh xỏc sut tin nghim xõy dng chc nng phõn hng gene c Phng phỏp phõn hng RL_Rank v RL_Rank with priors Phng phỏp phõn hng mi RL_Rank c xut bi Derhami et al (2013) da trờn s liờn kt ca cỏc nỳt th v khỏi nim v hc tng cng phõn hng cỏc trang Web Xut phỏt t s thnh cụng ca cỏc thut toỏn trờn vic s dng th hng u hay xỏc sut V Th Lu, Trn Th Thu Huyn, Nguyn Vn Hong, Nguyn Th Huyn, Lờ c Hu tin nghim, bin quan trng tuyt i ca cỏc nỳt mng thnh quan trng tng i/ tng t ca cỏc nỳt i vi mt cỏc nỳt gc Sau ú ng V Tựng v cs (2015)s ó ci tin thut toỏn RL_Rank thnh thut toỏn RL_Rank with priors bng cỏch b sung thờm cỏc xỏc sut tin nghim nhm mc ớch nõng cao hiu quca thut toỏn Thut toỏn ny c ci t v th nghim cho bi toỏn phõn hng v tỡm kim gene gõy bnh da trờn b d liu mng tng tỏc protein Kt qu thc nghim cho thy chớnh xỏc ca phng phỏp xut tt hn so vi phng phỏp PageRank with priors trờn cựng b d liu th nghim d Thut toỏn RWR (Random Walk Restart) Thut toỏn RWR khai thỏc cu trỳc tng th ca mng da trờn hnh vi ca mt chuyn ng ngu nhiờn trờn mt mng hay th (Lovasz, 1996) Theo hnh vi ny, mt thc th xut phỏt t mt nỳt u sau ú di chuyn trờn th bng cỏch chuyn n cỏc nỳt lõn cn mt cỏch ngu nhiờn vi xỏc sut t l vi trng s ca cỏc cnh kt ni Tp hp cỏc nỳt quỏ trỡnh di chuyn l mt chui Markov v c gi l mt bc ngu nhiờn trờn th (random walk on graph) (Duc-Hau Le, 2012) Ti thi im bt k quỏ trỡnh di chuyn, thc th cng cú th quay li nỳt u vi mt xỏc sut nht nh c gi l xỏc sut quay li (back-probability) (0, 1) Cỏc nỳt c thm nhiu hn c coi l cú quan trng ln hn i lng ny ỏnh giỏ tm quan trng tng i/ tng t ca cỏc nỳt cũn li so vi cỏc nỳt gc u im chớnh ca phng phỏp bc ngu nhiờn l tc thc hin nhanh ú cú th ỏp dng cho cỏc mng cú kớch thc ln Khi ỏp dng thut toỏn ny cho bi toỏn phõn hng gene gõy bnh, cỏc gene gõy bnh ó bit úng vai trũ nh cỏc nỳt u, cỏc gene cũn li trờn mng c xem l cỏc ng viờn Kt qu th nghim trờn mt gm 25 kiu hỡnh bnh cho thy phng phỏp ny t c hiu nng d oỏn tt RWR cú th c mụ t bng cụng thc nh sau: +1 = (1 - ) ' + Trong ú, Pt l mt vector xỏc sut N1 ca |V| nỳt ti bc thi gian t, ú, phn t th i i din cho xỏc sut ngi i ang nỳt vi V v P0 l vector xỏc sut to N1 m giỏ tr ca mt phn t tng ng l hoc 1/|S| tng ng vi nỳt ú khụng l nỳt ngun hoc l nỳt ngun S l nỳt ngun Ma trn W l ma trn xỏc sut chuyn v, vỡ th (W')ij biu th xỏc sut ngi i di chuyn t vi ti vj V\{ vi } nỳt cú th V hỡnh thc, i vi mt mng khụng trng s, nú l c xỏc nh nh sau: vi (Vout) nỳt i vi 2.2 Phõn hng gene ng viờn da trờn mụ hỡnh mng boolean ng 2.2.1 Cỏc b d liu v mng sinh hc v cỏc liờn kt gene bnh ó bit ỏnh giỏ tỏc ng t bin trờn cỏc gene liờn quan ti bnh ó bit ti cỏc gene ng viờn, bi bỏo s dng mng tớn hiu ca ngi vi quy mụ ln thu c t mt nghiờn cu ó c Ct (Mó gene) Ct (Tng tỏc) Ct (Mó gene) Mụ t tng tỏc 10971 -1 572 inhibition 10971 572 activation 10971 572 neutral 10971 -1 581 inhibition 7472 23509 activation 8882 29843 activation 8409 11143 activation 77 Nghiờn cu phng phỏp da trờn mng sinh hc d oỏn cỏc gene gõy bnh cụng b (Cui, 2009) Mng tớn hiu ny gm 1.539 nỳt v 4.754 tng tỏc Ngoi ra, mt bnh v cỏc gene liờn quan n bnh ó bit c thu thp t nghiờn cu v OMIM (Amberger, 2009) Do s dng phng phỏp kim tra chộo b mt (LOOCV: leave-one-out cross validation) ỏnh giỏ hiu nng ca cỏc phng phỏp phõn hng, nờn mi bnh phi cú ớt nht hai gene liờn quan Do ú t c c d liu mng tng tỏc protein v quan h bnh-gene, chỳng tụi lc c 25 bnh gõy bi t hai gene tr lờn v cỏc gene ny cú mng tng tỏc protein D liu v mng tớn hiu c th hin di bng nh sau: Chỳng tụi s dng phn mm Cytoscape phiờn bn 2.7 mụ phng mng tớn hiu trờn 2.2.2 Phõn hng gene ng viờn da trờn mụ hỡnh mng boolean ng nh ngha o ỏnh giỏ nhng tỏc ng t bin trờn cỏc gene liờn quan n bnh ó bit ti cỏc gene ng viờn, nghiờn cu ny chỳng tụi s dng mụ hỡnh mng Boolean Network, õy l mụ hỡnh ó c s dng rng rói biu din cỏc mng sinh hc v ó din t thnh cụng mt vi thuc tớnh sinh hc (Kauffman, 2003; Kwon, 2011) c bit, nú cng c s dng thng xuyờn gi lp hnh vi ng ca nhiu mng tớn hiu khỏc (Kwone et al., 2011; Trinh, 2014) Di õy l mụ hỡnh mng iu hũa gene th hin quỏ trỡnh chuyn húa v cỏc tỏc ng gia cỏc thnh phn mng Nhỡn vo s mng iu hũa gene trờn ta cú th xõy dng c mt th cú hng vi cỏc ng tớn hiu nh hỡnh Trong ú protein A tỏc ng tớch cc n quỏ trỡnh gene a phiờn mó to thnh mRNA a Protein B tỏc ng tớch cc n quỏ trỡnh gene c phiờn mó to thnh mRNA c Protein C tỏc ng tiờu cc (c ch) quỏ trỡnh gene b phiờn mó to thnh mRNA b v gene d phiờn mó to thnh mRNA d Protein D tỏc ng tiờu cc (c ch) n quỏ trỡnh mRNA b to thnh protein B Bng D liu mng tớn hiu gm 1539 nỳt v 4754 tng tỏc Ct (Mó gien) Ct (Tng tỏc) Ct (Mó gien) Mụ t tng tỏc 10971 -1 572 inhibition 10971 572 activation 10971 572 neutral 10971 -1 581 inhibition 7472 23509 activation 8882 29843 activation 8409 11143 activation Hỡnh Mụ phng liờn kt mng tớn hiu gm 1.539 nỳt v 4.754 tng tỏc 78 V Th Lu, Trn Th Thu Huyn, Nguyn Vn Hong, Nguy n Th Huyn, Lờ c Hu Hỡnh Mt t vớ d v mụ hỡnh mng iu hũa gene biu din bng mng Boolean network vi cỏc lut cp nht tng ng Mng Boolean c biu din bi mt th cú hng G(V, E), mi viV cú giỏ tr l ("bt") hoc ("tt"), biu din cho cỏc trng thỏi cú th ca a cỏc phn t tng ng Giỏ tr ca mi bin vi ti thi im t+1 c xỏc nh bi giỏ tr ca ki cỏc bin khỏc , ,., liờn kt n vi ti thi gian t bng hm Boolean fi: {0,1} Do ú, cú th vit li: õy chỳng tụi chn ngu nhiờn hoc logic hi hoc logic tuyn cho tt c cỏc liờn h tớn hiu fi vi phõn b u Vớ d, nu bin Boolean v cú quan h tớch cc t v1, cú quan h tiờu cc t v2, v cú quan h tớch cc vi v3 thỡ lut cp nht theo logic hi v logic tuyn tng ng l v Trong trng hp logic hi, giỏ tr ca v ti thi im (t+1) l ch cỏc giỏ tr ca , , ti thi im t tng ng l 1, 0, 1, trng hp logic tuyn, giỏ tr ca v ti thi im t+1 l nu cú ớt nht mt cỏc trng thỏi ca mnh , , v l Mc dự cú nhiu hm logic khỏc cú th s dng ngoi logic hi v logic tuyn, n, nhiu nghiờn cu trc, cỏc mng sinh hc ó c miờu t thnh cụng bng mụ hỡnh Boolean s dng ch hai hm logic hi v logic tuyn (Albert, 2004; Faure, 2006) Ngoi ra, tớn hiu ca mi liờn kt c xỏc nh l tớch cc hay tiờu cc mt cỏch h hon ton ngu nhiờn Tuy nhiờn mng tớn hiu thu thp th nghim cho mụ hỡnh ny thỡ kiu tng tỏc l thc gia cỏc gene (activation, inhibition v neutral) Cho mt mng Boolean vi N bin Boolean, v1, v2, , vn, chỳng ta nh ngha trng thỏi t mng l mt vector gm giỏ tr ca cỏc bin Boolean: tt c cú 2N trng thỏi cú th Trng thỏi ny chuyn sang trng thỏi khỏc thụng qua mt N hm Boolean cp nht: nht f1, f2, , fn Chỳng ta cú th xõy dng s chuyn trng thỏi biu din s dch chuyn ca mi trng thỏi Mt l trỡnh trng thỏi bt u t trng thỏi to v cui cựng hi t n mt im c nh hoc mt attractor vũng hu hn Ngoi ra, chỳng ta xỏc nh mt chui chuyn giỏ tr ca node v nh sau: Khi mng Boolean G(V, E) to vi v1(0), v2(0), , , v vn(0) ti thi im u 0, vi(t0, t1) biu din cho chui cỏc giỏ tr tm thi ca nỳt vi khong thi gian t t0 n t1 Trong mụ hỡnh trờn hỡnh mụ phng mng m Boolean vi nỳt v 14 liờn kt, ng mi tờn v ng cú nột ngang u dũng i din tng tỏc tớch cc v tiờu cc tng ng 'AND' v 'OR' biu th cỏc hm cp nht hi v tuyn tng ng Qu o bt u t trng thỏi ban u (11010010) ti trng thỏi khỏc (11011010) v4 chu s thay i ca trng thỏi ban u Trng thỏi ca mng (chui tỏm-bit tỏm hỡnh ch nht) i din cho cỏc giỏ tr ca v0 qua v7 chui v hỡnh ch nht mu xỏm vi cỏc ng nột t Cỏc trng thỏi v qu o c tớnh 79 Nghiờn cu phng phỏp da a trờn m mng sinh hc d oỏn cỏc gene gõy bnh Hỡnh Vớ d minh v tớnh o nh hng cỏc nỳt mng Boolean toỏn t mng Sau ú, tớnh toỏn o nh hng t v4 v7 Lut cp nht v cỏc hm chuyn trng thỏi tng ng cỏc trng hp to ngu nhiờn: nh hng t nỳt ti nỳt mng boolean ngu nhiờn Trong cỏc mng Boolean,, chỳng tụi xut mt o mi, gi l effectiveness, nh lng s nh hng t mt node ti mt node khỏc c x ng ca mng nh ngha o ny, trc tiờn chỳng ta nh ngha hai loi dao ng, dao ng trng thỏi to v dao ng theo lut cp nht Cho mt mng Boolean to vi v0(0), v1(0), (0), , v vn(0), dao ng to ti nỳt viV V l vic chuyn t vi(0) sang (0) Mt khỏc, dao ng theo lut cp nht ti vi V l vic thay i lut cp nht vi t logic hii sang logic tuyn hoc ngc li, tựy thuc vo kiu hm ang c s dng Gi nh dao ng vi, chỳng ta nh ngha o effectiveness t vi ti vj l e(vi, vj), nh sau: Gi ụi l thi gian hi t hp l ca vi, = max {Ti, T'i} ú Ti hoc T'i l cỏc bc thi gian mng hi t ti mt attractor vi b dao ng v khụng dao ng tng ng Chỳng ta nhn c hai chui dch chuyn khỏc ca vj, vj(0, ụi) v v'j (0, ) tng ng vi vj chu dao ng v khụng Sau ú, chỳng ta tớnh e(vi, vj) = d(vj(0, ), v'j(0, ))/ụi ú d() l khong cỏch Hamming (tc l s bit cú giỏ tr khỏc nhau) gia hai chui Do ú, e(vi, vj) th hin ln ca hnh trỡnh i vi vj b nh hng bi dao ng vi iu ny cng o lng nh hng t bin ca vi ti vj 80 Vỡ vy, effectiveness l o nh hng mi nỳt b nh hng bi dao ng nỳt khỏc khớa cnh ng Trong mng Boolean, mt nỳt c gi l mt nỳt chc nng quan an trng nu mt dao ng ti nỳt ú hoc khụng cú dao ng ti nỳt ú u lm mng hi t ti mt attractor khỏc vi attractor ban u u Trong lnh vc ny, cỏc gene bnh cú th c coi l nỳt quan trng mng tớn hiu v effectivness cỏc mng Boolean cú th c s dng biu t s nh hng trờn cỏc gene ng viờn cỏc gene gn kt vi bnh ó bit b t bit cỏc mng hiu Hỡnh cho thy vớ d v vic tớnh toỏn s nh hng ca v4 ti v7 tớnh e(v4, v7), chỳng ta nhn c hai chui dch chuyn ca v7 l v7 (0, ụ4) v v7'(0, ụ4) tng ng vi v4 b dao ng v khụng b ng nh hng t mt nỳt ti mt nỳt mng boolean ngu nhiờn Theo cỏch tng t, cho mt trng thỏi to, nh hng t nỳt S ti mt nỳt cú th c tớnh toỏn bng cỏch ỏp dng cỏc dao ng lờn tt c cỏc nỳt mt cỏch ng thi, sau ú tớnh toỏn nh hng t cỏc nỳt n mt nỳt vj l e(S, vj) i vi cỏc trng thỏi ban u Is, nh hng t cỏc nỳt n mt nỳt c xỏc nh nh sau: i vi vic xỏc nh cỏc gene liờn quan bnh, S l mt gene ó bit ca mt bnh no ú, vi l gene cỏc gene ng viờn, o nh hng t cỏc gene bnh ó V Th Lu, Trn Th Thu Huyn, Nguyn Vn Hong, Nguyn Th Huyn, Lờ c Hu bit ti gene ng viờn Do ú, cỏc gene ng viờn cú th c xp hng da trờn mc liờn quan ti bnh thụng qua o ny phn trm ca cỏc gene cha bit l cú liờn vi bnh hay khụng c xp hng di ngng ny Giỏ tr sensitivity v 1-specificity c tớnh toỏn theo cỏc cụng thc: 2.2.3 Phng phỏp ỏnh giỏ hiu sut Hiu sut xp hng c ỏnh giỏ thụng qua quỏ trỡnh kim tra chộo b mt gi tt l LOOCV (leave-one-out cross-validation) i vi mi kiu hỡnh bnh (d), mi vũng LOOCV ly mt gene s liờn quan ti bnh d ó bit Phn cũn li ca gene liờn quan ti bnh d c c t nh cỏc nỳt ngun (tc l, S\{s}) Cỏc gene ng viờn mng tớn hiu ký hiu W Cỏc gene b ly v cỏc gene cũn li mng tớn hiu khụng bit l cú liờn quan vi bnh d hay khụng thỡ c xp hng theo hai phng phỏp nờu trờn Sau ú, chỳng tụi v th ng cong ROC v tớnh toỏn din tớch di ng cong AUC (Hanley, 1982) so sỏnh hiu sut ca hai phng phỏp ny ng cong ny i din cho cỏc mi quan h gia nhy (sensitivity) v c hiu (specificity) Mi cp giỏ tr sensitivity v (1-specificity) tng ng vi mt im trờn ng cong ROC, ú nhy l t l phn trm ca cỏc gene liờn quan n bnh ó bit c xp hng trờn mt ngng c th v c hiu l t l Trong ú: TP (true positive) l s trng hp th nghim m th hng ca s ụ, FN (false negative) l s trng hp th nghim m th hng ca s > ụ, FP (false positive) l strng hp th nghim m th hng ca w ụ (vi mi w W) v TN (true negative) l s trng hp th nghim m th hng ca w > ụ (vi mi w W) Mt cp giỏ tr sensitivity v 1specificity tng ng vi mt im trờn ng cong ROC KT QU V THO LUN 3.1 ỏnh giỏ hiu sut ỏnh giỏ hiu sut ca phng phỏp s dng mụ hỡnh Boolean Network ny i vi bi toỏn xp hng cỏc gene ng viờn liờn quan ti bnh, nghiờn cu th nghim ta chn ngu Hỡnh So sỏnh hiu sut gia Boolean Network v RWR Ghi chỳ: Hiu sut ca hai phng phỏp c ỏnh giỏ bng phng phỏp LOOCV trờn 25 loi bnh t OMIM i vi Boolean Network, phng phỏp dao ng trng thỏi ban u v 100 trng thỏi ban u c s dng i vi RWR, xỏc sut ó c thit lp 0,5 81 Nghiờn cu phng phỏp da a trờn m mng sinh hc d oỏn cỏc gene gõy bnh nhiờn Is = 100 trng thỏi to v s d dng LOOCV v ng cong ROC v tớnh toỏn giỏ tr AUC cho ca 25 kiu hỡnh bnh thu thp t OMIM so sỏnh hiu nng ca phng phỏp xut vi phng phỏp da trờn RWR, nhúm nghiờn cu tin hnh mt th tc tng t nh ó lm cho Boolean Network v thit lp xỏc sut quay lui l 0,5 vỡ hiu nng ca phng phỏp da trờn RWR n nh vi s thay i ca tham s xỏc sut quay lui Hỡnh cho thy hiu nng ca hai phng phỏp, rừ rng rng Boolean Network (AUC = 0,77) vt tri so vi da trờn phng g phỏp RWR (AUC = 0,73) Kt qu ny cho thy phõn hng gene bnh cú th c tip cn hiu qu vi gi thuyt rng t bin trờn cỏc gene gõy bnh ó bit ca mt bnh nh hng n cỏc gene khỏc v s nh hng ny cú th c s dng nh mc gn kt gia cỏc gene ng viờn v bnh Trong nghiờn cu ny, tt c cỏc nỳt mng cui cựng c xp hng da theo vector xỏc sut trng thỏi n nh thu c bng cỏch lp cỏc vũng ng lp cho n ||Pt + 1-Pt|| < 10-6 i vi vic xỏc nh cỏc gene liờn quan n bnh, S l mt cỏc gene liờn quan ti mt loi bnh c th ó bit, mt phn t ca o lng mc liờn quan ca S ti mt gene mng Vỡ vy, nú cú th gi ú chớnh l mc liờn quan gia mt gene ng viờn v bnh quan tõm Phng phỏp RWR c tin hnh trờn gúi Plugin GPEC.jar chy trờn phõn mm Cytoscape 2.7 c nhúm tỏc gi Lờ c Hu v cng s nghiờn cu v phỏt trin vo nm 2012 (Le, 2012) Cỏc bc tin hnh phng phỏp ny c thc hin theo s sau: sau Hỡnh S thc hin phng phỏp RWR trờn gúi plugin GPEC.jar 82 V Th Lu, Trn Th Thu Huyn, Nguyn Vn Hong, Nguyn Th Huyn, Lờ c Hu 3.2 Nghiờn cu th nghim trờn bnh ung th vỳ Kt qu bi bỏo c th nghim trờn phng phỏp ó xut vi bnh ung th vỳ (OMIM ID: 114.480), õy l mt bnh phc vi 22 gene cú liờn quan n bnh ó bit Tuy vy, ch cú 10 gene s ú l cú sn trờn mng tớn hiu S dng nhng gene ny nh l cỏc nỳt ngun v xem xột cỏc gene khỏc mng nh cỏc gene ng viờn, chỳng tụi tớnh nh hng t nhng gene ó bit liờn quan n bnh ny ti tt c cỏc gene ng viờn, cỏc gene ng viờn sau ú c xp hng da trờn o nh hng ó c tớnh toỏn Kt qu la chn c 50 gene ng viờn c xp hng cao tỡm bng chng v s liờn quan vi ung th vỳ theo lý thuyt y sinh hc Sau tỡm kim bng chng thỡ kt qu thu c l 27 gene s cỏc gene ú cú ớt nht mt bng chng cú liờn quan ti bnh ung th vỳ (Bng 2) Cỏc gene ng viờn khỏc top 50 cú th s dng nhiu cho cỏc nghiờn cu tng lai Bng Tng 27 gene s 50 gene c xp th hng cao nht cú bng chng y liờn quan n bnh ung th vỳ ngi Entrez Gene ID Gene Symbol PubMed ID 1111 CHEK1 20567916, 21401699, 21752283, 23844225 1647 GADD45A 15735726, 18350249, 19728081, 23158659, 23706118 1649 DDIT3 21741997, 23065795, 24625971 1839 HBEGF 17962208, 24013225 1843 DUSP1 15448190, 15590693, 19724859, 25377473 2150 F2RL1 16650817, 16925462, 19074826, 19543320, 19795460, 24177339, 24568471, 12813467, 15580312, 17631500, 17911267, 18612547, 18652687, 18787170, 18831768, 20030877, 20459645, 20479250, 2475 MTOR 21046231, 21963359, 22349822, 23991038, 24323026, 24630930, 24637915, 25659153 2908 NR3C1 15590693, 17512111, 18668364, 19875955, 21868756 3339 HSPG2 23436656 375 ARF1 18990689, 21478909, 24407288 15492785, 16807677, 16821086, 17259657, 17262178, 17592771, 17726138, 19671875, 20204503, 20428939, 20720556, 21409393, 21671140, 21872972, 24265520 4846 NOS3 21409393, 21671140, 21872972, 24265520 51085 MLXIPL 19252981 5111 PCNA 12088102, 22238610, 22622474, 23542172 51341 ZBTB7A 20394500, 21392388 5294 PIK3CG 17515959, 18625725, 18652687, 18725974, 19269083, 19471547, 20030877, 20226014, 20458733, 23500535 5313 PKLR 19655166 5333 PLCD1 11960991, 20657189 5524 PPP2R4 19890961, 24958351 5581 PRKCE 18317451, 20198332, 23562764, 24825907 6097 RORC 22404826, 24911119 6647 SOD1 16423367 7015 TERT 19501078, 19596972, 19787269, 20056641, 20225759, 21411498, 21526393, 21627565, 21911295, 21949822, 22037553, 22134622, 23065203, 23158658, 23629941, 23677713, 23741361, 24216762 7161 TP73 15450420, 15849742, 16814250, 17446929, 21127199, 21933556, 22535334, 23443851 79444 BIRC7 16026775, 17035597, 23524337 8915 BCL10 16280327 8976 WASL 17985201, 20880986, 22559840 9181 ARHGEF2 22002306 83 Nghiờn cu phng phỏp da trờn mng sinh hc d oỏn cỏc gene gõy bnh KT LUN Trong bi vit ny, chỳng tụi ó trỡnh by cỏc nghiờn cu v cỏc phng phỏp phõn hng gene ng viờn cú kh nng liờn quan n bnh, sau ú xut mt phng phỏp da trờn mng d oỏn cỏc gene liờn quan n bnh Nghiờn cu ny c da trờn mng sinh hc boolean ng di gi thuyt rng s t bin v gene gõy bnh ó bit nh hng n gene khỏc thụng qua mng v mc nh hng ny cú th c s dng nh l mc liờn kt gia cỏc gene ng viờn vi bnh quan tõm Cỏc kt qu gi lp cho thy rng phng phỏp ca chỳng tụi vt tri hn so vi phng phỏp da trờn da trờn mng hin ti S dng phng phỏp xut, chỳng tụi cng d oỏn 27 gene mi liờn quan n bờnh ung th vỳ Trong nghiờn cu tng lai, bờn cnh Boolean ng, chỳng tụi s tớch hp tớnh cht cu trỳc ca mng sinh hc o liờn kt gia cỏc gene ng viờn v bnh vỡ mt vi nghiờn cu ó cho thy nhng tớnh cht cu trỳc c bit ca cỏc gene bnh cỏc mng sinh hc TI LIU THAM KHO Adie E., R A (2005) Speeding disease gene discovery by sequence based candidate BMC Bioinformatics, 6: 55 Aerts S., D L (2006) Gene prioritization through genomic data fusion Nature Biotechnology, 24: 537-544 Albert, R (2004) Boolean Modeling of Genetic Regulatory Networks Lecture Notes in Physics., 650: 459-481 Albert, R (2004) Boolean Modeling of Genetic Regulatory Networks Lect Notes Phys., 650: 459-481 Amberger J., C A (2009) McKusick's Online Mendelian Inheritance in Man (OMIMđ) Nucleic Acids Research, 37: D793-D796 Calvo S., M J (2006) Systematic identification of human Nat Genet, 38: 576-582 Cui Q., E P (2009) Protein evolution on a human BMC Systems Biology, 3: 21 ng V Tựng, D A (2015) Phõn hng gen gõy bnh s dng hc tng kt hp vi xỏc sut tin nghim Cỏc cụng trỡnh nghiờn cu, phỏt trin v ng dng CNTT-TT, Tp V-1, S13 (33) Duc-Hau Le, Y.-K K (2012) A Cytoscape plug-in for random walk-based gene prioritization and biomedical evidence collection Computational Biology and Chemistry, pp 17-23 84 Faure A., A N (2006) Dynamical analysis of a generic Boolean model for the control of the mammalian cell cycle Bioinformatics, 22: e124131 Hanley JA, M B (1982) The meaning and use of the area under the Receiver Operating Characteristic (ROC) curve Radiology, 143: 29-36 Kann, M G (2010) Advances in translational bioinformatics: computational approaches for the hunting of disease genes Briefings in Bioinformatics, 11: 96-110 Kauffman S., C P (2003) Random Boolean network models and the yeast transcriptional Proceedings of the National Academy of Sciences, 100: 1479614799 Keerthikumar S., S B (2009) Prediction of candidate primary immunodeficiency disease genes using a support vector machine learning approach DNA Research, 16: 345-351 Kwon, D.-H L.-K (2011) The effects of feedback loops on disease comorbidity in human signaling networks Bioinformatics, 27: 1113-1120 Kwon, D.-H L.-K (2013) A coherent feedforward loop design principle to sustain robustness of biological networks Bioinformatics, 29: 630-637 Kwon, D.-H Le and Y.-K (2011) NetDS: a Cytoscape plugin to analyze the robustness of dynamics and feedforward/feedback loop structures of biological networks Bioinformatics, 27: 2767-2768 Li, J X (2006) Discovering disease-genes by topological features in human protein-protein interaction network Bioinformatics, 22: 28002805 LOVASZ, L (1996) Random walks on graphs: A survey Combinatorics, Paul Erdos is Eighty, 2: 353-398 Sun J., J C (2009) Functional link artificial neural In Neural Networks Trn Th Bớch Phng, N V (2013) Mt phng phỏp phõn tớch mng tng tỏc protein d oỏn gen gõy bnh ung th journal of science of hnue, 58: 38-46 Trinh H.-C., D.-H L.-K (2014) PANET: A GPUBased Tool for Fast Parallel Analysis of Robustness Dynamics and Feed-Forward/Feedback Loop Structures in Large-Scale Biologica lNetworks PLoS ONE, 9: e103010 Vali derhami, E K (2013) Applying reinforcement learning for web pages ranking algorithms Applied Soft Computing, 13: 1686-1692 Vanunu O, M O (2010) Associating genes and protein complexes with disease via network propagation PLoSComput Biol, 6: e1000641 Wang X., N G (2011) Network-based methods for human disease gene prediction Briefings in Functional, 10: 280-293 ... Sau nghiên cứu sử 75 Nghiên cứu phương pháp dựa mạng sinh học để dự đoán gene gây bệnh dụng mô hình Boolean Network mạng điều hòa gene để đo tác động từ gene bệnh biết (được gọi gene đích) tới gene. .. nhóm nghiên cứu kiểm nghiệm (Le, 2012) 2.1 Các nghiên cứu liên quan đến toán dự đoán gene bệnh dựa phương pháp mạng sinh học a Phương pháp tính toán dựa vào tích hợp mạng tương tác protein, mạng. .. 83 Nghiên cứu phương pháp dựa mạng sinh học để dự đoán gene gây bệnh KẾT LUẬN Trong viết này, trình bày nghiên cứu phương pháp phân hạng gene ứng viên có khả liên quan đến bệnh, sau đề xuất phương