Tài liệu Kiểm định giả thiết thống kê và ý nghĩa của trị số P(P-value) pdf

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	9
Dung lượng	274,7 KB

Nội dung

1 7 Kim đnh gi thit thng kê và ý ngha ca tr s P (P-value) 7.1 Tr s P Trong nghiên cu khoa hc, ngoài nhng d kin bng s, biu đ và hình nh, con s mà chúng ta thng hay gp nht là tr s P (mà ting Anh gi là P-value). Trong các chng sau đây, bn đc s gp tr s P rt nhiu ln, và đi đa s các suy lun phân tích thng kê, suy lun khoa hc đu da vào tr s P. Do đó, trc khi bàn đn các phng pháp phân tích thng kê bng R, tôi thy cn phi có đôi li v ý ngha ca tr s này. Tr s P là mt con s xác sut, tc là vit tt ch “probability value”. Chúng ta thng gp nhng phát biu đc kèm theo con s, chng hn nh “Kt qu phân tích cho thy t l gãy xng trong nhóm bnh nhân đc điu tr bng thuc Alendronate là 2%, thp hn t l trong nhóm bnh nhân không đc cha tr (5%), và mc đ khác bit này có ý ngha thng kê (p = 0.01)”, hay mt phát biu nh “Sau 3 tháng điu tr, mc đ gim áp sut máu trong nhóm bnh nhân là 10% (p < 0.05)”. Trong vn cnh trên đây, đi đa s nhà khoa hc hiu rng tr s P phn ánh xác sut s hiu nghim ca thuc Alendronate hay mt thut điu tr, h hiu rng câu vn trên có ngha là “xác sut mà thuc Alendronate tt hn gi dc là 0.99” (ly 1 tr cho 0.01). Nhng cách hiu đó hoàn toàn sai! Trong “T đin toán kinh t thng kê, kinh t lng Anh – Vit” (Nhà xut bn Khoa hc và K thut, 2004), tác gi đnh ngha tr s P nh sau: “P – giá tr (hoc giá tr xác sut). P giá tr là mc ý ngha thng kê thp nht mà  đó giá tr quan sát đc ca thng kê kim đnh có ý ngha” (trang 690). nh ngha này tht là khó hiu! Tht ra đó cng là đnh ngha chung mà các sách khoa Tây phng thng hay vit. Lt bt c sách giáo khoa nào bng ting Anh, chúng ta s thy mt đnh ngha v tr s P na ná ging nhau nh “Tr s P là xác sut mà mc đ khác bit quan sát do các yu t ngu nhiên gây ra (P value is the probability that the observed difference arose by chance)”. Tht ra đnh ngha này cha đy đ, nu không mun nói là … sai. Chính vì s mù m ca đnh ngha cho nên rt nhiu nhà khoa hc hiu sai ý ngha ca tr s P. Tht vy, rt nhiu ngi, không ch ngi đc mà ngay c chính các tác gi ca nhng bài báo khoa hc, không hiu ý ngha ca tr s P. Theo mt nghiên cu đc công b trên tp san danh ting Statistics in Medicine [1], tác gi cho bit 85% các tác gi khoa hc và bác s nghiên cu không hiu hay hiu sai ý ngha ca tr s P. c đn đây có l bn đc rt ngc nhiên, bi vì điu này có ngha là nhiu nhà nghiên cu khoa hc có khi không hiu hay hiu sai nhng gì chính h vit ra có ngha gì! Th thì, câu hi cn đt ra mt cách nghiêm chnh: Ý ngha ca tr s P là gì?  tr li cho câu hi này, 2 chúng ta cn phi xem xét qua khái nim phn nghim và tin trình ca mt nghiên cu khoa hc. 7.2 Gi thit khoa hc và phn nghim Mt gi thit đc xem là mang tính “khoa hc” nu gi thit đó có kh nng “phn nghim”. TheoKarl Popper, nhà trit hc khoa hc, đc đim duy nht đ có th phân bit gia mt lí thuyt khoa hc thc th vi ngy khoa hc (pseudoscience) là thuyt khoa hc luôn có đc tính có th “ b bác b” (hay b phn bác – falsified) bng nhng thc nghim đn gin. Ông gi đó là “kh nng phn nghim” (falsifiability, có tài liu ghi là falsibility). Phép phn nghim là phng cách tin hành nhng thc nghim không phi đ xác minh mà đ phê phán các lí thuyt khoa hc, và có th coi đây nh là mt nn tng cho khoa hc thc th. Chng hn nh gi thit “Tt c các qu đu màu đen” có th b bác b nu ta tìm ra có mt con qu màu đ. Có th xem qui trình phn nghim là mt cách hc hi t sai lm! Tht vy, trong khoa hc chúng ta hc hi t sai lm. Khoa hc phát trin cng mt phn ln là do hc hi t sai lm mà gii khoa hc không ai chi cãi. Sai lm là đim mnh ca khoa hc. Có th xác đnh nghiên cu khoa hc nh là mt qui trình th nghim gi thuyt, theo các bc sau đây: Bc 1, nhà nghiên cu cn phi đnh ngha mt gi thuyt đo (null hypothesis), tc là mt gi thuyt ngc li vi nhng gì mà nhà nghiên cu tin là s tht. Thí d trong mt nghiên cu lâm sàng, gm hai nhóm bnh nhân: mt nhóm đc điu tr bng thuc A, và mt nhóm đc điu tr bng placebo, nhà nghiên cu có th phát biu mt gi thuyt đo rng s hiu nghim thuc A tng đng vi s hiu nghim ca placebo (có ngha là thuc A không có tác dng nh mong mun). Bc 2, nhà nghiên cu cn phi đnh ngha mt gi thuyt ph (alternative hypothesis), tc là mt gi thuyt mà nhà nghiên cu ngh là s tht, và điu cn đc “chng minh” bng d kin. Chng hn nh trong ví d trên đây, nhà nghiên cu có th phát biu gi thuyt ph rng thuc A có hiu nghim cao hn placebo. Bc 3, sau khi đã thu thp đy đ nhng d kin liên quan, nhà nghiên cu dùng mt hay nhiu phng pháp thng kê đ kim tra xem trong hai gi thuyt trên, gi thuyt nào đc xem là kh d. Cách kim tra này đc tin hành đ tr li câu hi: nu gi thuyt đo đúng, thì xác sut mà nhng d kin thu thp đc phù hp vi gi thuyt đo là bao nhiêu. Giá tr ca xác sut này thng đc đ cp đn trong các báo cáo khoa hc bng kí hiu “P value”. iu cn chú ý  đây là nhà nghiên cu không th nghim gi thuyt khác, mà ch th nghim gi thuyt đo mà thôi. Bc 4, quyt đnh chp nhn hay loi b gi thuyt đo, bng cách da vào giá tr xác sut trong bc th ba. Chng hn nh theo truyn thng la chn trong mt nghiên cu y hc, nu giá tr xác sut nh hn 5% thì nhà nghiên cu sn sàng bác b gi thuyt đo: s hiu nghim ca thuc A khác vi s hiu nghim ca placebo. Tuy nhiên, nu giá tr xác sut cao hn 5%, thì nhà nghiên cu ch có th phát biu rng cha 3 có bng chng đy đ đ bác b gi thuyt đo, và điu này không có ngha rng gi thuyt đo là đúng, là s tht. Nói mt cách khác, thiu bng chng không có ngha là không có bng chng. Bc 5, nu gi thuyt đo b bác b, thì nhà nghiên cu mc nhiên tha nhn gi thuyt ph. Nhng vn đ khi đi t đây, bi vì có nhiu gi thuyt ph khác nhau. Chng hn nh so sánh vi gi thuyt ph ban đu (A khác vi Placebo), nhà nghiên cu có th đt ra nhiu gi thuyt ph khác nhau nh thuc s hiu nghim ca thuc A cao hn Placebo 5%, 10% hay nói chung X%. Nói tóm li, mt khi nhà nghiên cu bác b gi thuyt đo, thì gi thuyt ph đc mc nhiên công nhn, nhng nhà nghiên cu không th xác đnh gi thuyt ph nào là đúng vi s tht. 7.3 Ý ngha ca tr s P qua mô phng  hiu ý ngha thc t ca tr s P, tôi s nêu mt ví d đn gin nh sau: Ví d 1. Mt thí nghim đc tin hành đ tìm hiu s thích ca ngi tiêu th đi vi hai loi cà phê (hãy tm gi là cà phê A và B). Các nhà nghiên cu cho 50 khách hàng ung th hai loi cà phê trong cùng mt điu kin, và hi h thích loi cà phê nào. Kt qu cho thy 35 ngi thích cà phê A, và 15 ngi thích cà phê B. Vn đ đt ra là qua kt qu này, các nhà nghiên cu có th kt lun rng cà phê loi A đc a chung hn cà phê B, hay kt qu trên ch là do ngu nhiên mà ra? “Do ngu nhiên mà ra” có ngha là theo lut nh phân, kh nng mà kt qu trên xy ra là bao nhiêu? Do đó, lí thuyt xác sut nh phân có phn ng dng trong trng hp này, bi vì kt qu ca nghiên cu ch có hai “giá tr” (hoc là thích A, hoc thích B). Nói theo ngôn ng ca phn nghim, gi thit đo là nu không có s khác bit v s thích, xác sut mà mt khách hàng a chung mt loi cà phê là 0.5. Nu gi thit này là đúng (tc p = 0.5, p  đây là xác sut thích cà phê A), và nu nghiên cu trên đc lp đi lp li (chng hn nh) 1000 ln, và mi ln vn 50 khách hàng, thì có bao nhiêu ln vi 35 khách hàng a chung cà phê A? Gi s ln nghiên cu mà 35 (hay nhiu hn) trong s 50 thích cà phê A là “bin c” X, nói theo ngôn ng xác sut, chúng ta mun tìm P(X | p=0.50) =?  tr li câu hi này, chúng ta có th ng dng hàm rbinom đ mô phng vì nh nói trên thc cht ca vn đ là mt phân phi nh phân: > bin <- rbinom(1000, 50, 0.5) Trong lnh trên, chúng ta yêu cu R mô phng 1000 ln nghiên cu, mi ln có 50 khách hàng, và theo gi thit đo, xác sut thích A là 0.50.  bit kt qu ca mô phng đó, chúng ta s dng hàm table nh sau: > table(bin) 4 bin 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 1 1 2 11 16 24 47 60 83 94 107 132 114 98 65 44 44 26 14 12 34 35 2 3 Qua kt qu trên, chúng ta thy trong s 1000 “nghiên cu” đó, ch có 3 nghiên cu mà s khách hàng thích cà phê A là 35 ngi (vi điu kin không có khác bit gia hai loi cà phê, hay nói đúng hn là nu p =0.5). Nói cách khác: P(X ≥ 35 | p=0.50) = 3/1000 = 0.003 Chúng ta cng có th th hin tn s trên bng mt biu đ tn s nh sau: Histogram of bin bin Frequency 15 20 25 30 35 0 50 100 150 200 250 Tt nhiên chúng ta có th làm mt mô phng khác vi s ln tái thí nghim là 100.000 ln (thay vì 1000 ln) và tính xác sut P(X ≥ 35 | p=0.50). bin <- rbinom(100000, 50, 0.5) > bin <- rbinom(100000, 50, 0.5) > table(bin) bin 11 12 13 14 15 16 17 18 19 20 21 22 23 4 17 40 83 197 462 946 1592 2719 4098 5892 7937 9733 24 25 26 27 28 29 30 31 32 33 34 35 36 10822 11191 10799 9497 7925 5904 4185 2682 1562 893 455 223 98 37 38 39 40 31 5 7 1 Ln này, chúng ta có nhiu kh nng hn (vì s ln mô phng tng lên). Chng hn nh có th có nghiên cu cho ra 11 khách hàng (ti thiu) hay 40 khách hàng (ti đa) thích cà 5 phê A. Nhng chúng ta mun bit s ln nghiên cu mà 35 khách hàng tr lên thích cà phê A, và kt qu trên cho chúng ta bit, xác sut đó là: > (223+98+21+5+7+1)/100000 [1] 0.00355 Nói cách khác, xác sut P(X ≥ 35 | p=0.50) quá thp (ch 0.3%), chúng ta có bng chng đ cho rng kt qu trên có th không do các yu t ngu nhiên gây nên; tc có mt s khác bit v s thích ca khách hàng đi vi hai loi cà phê. Con s P = 0.0035 chính là tr s P. Theo mt qui c khoa hc, tt c các tr s P thp hn 0.05 (tc thp hn 5%) đc xem là “significant”, tc là “có ý ngha thng kê”. Cn phi nhn mnh mt ln na đ hiu ý ngha ca tr s P nh sau: Mc đích ca phân tích trên là nhm tr li câu hi: nu hai loi cà phê có xác sut a chung bng nhau (p = 0.5, gi thuyt đo), thì xác sut mà kt qu trên (35 trong s 50 khách hàng thích A) xy ra là bao nhiêu? Nói cách khác, đó chính là phng pháp đi tìm tr s P. Do đó, din dch tr s P phi có điu kin, và điu kin  đây là p = 0.50. bn đc có th làm thí nghim thêm vi p = 0.6 hay p = 0.7 đ thy kt qu khác nhau ra sao. Trong thc t, tr s P có mt nh hng rt ln đn s phn ca mt bài báo khoa hc. Nhiu tp san và nhà khoa hc xem mt nghiên cu khoa hc vi tr s P cao hn 0.05 là mt “kt qu tiêu cc” (“negative result”) và bài báo có th b t chi cho công b. Chính vì th mà đi vi đi đa s nhà khoa hc, con s “P < 0.05” đã tr thành mt cái “giy thông hành” đ công b kt qu nghiên cu. Nu kt qu vi P < 0.05, bài báo có c may xut hin trên mt tp san nào đó và tác gi có th s ni ting; nu kt qu P > 0.05, s phn bài báo và công trình nghiên cu có c may đi vào lãng quên! 7.4 Vn đ logic ca tr s P Nhng đng trên phng din lí trí và khoa hc nghiêm chnh, chúng ta có nên đt tm quan trng vào tr s P nh th hay không? Theo tôi, câu tr li là không. Tr s P có nhiu vn đ, và vic ph thuc vào nó trong quá kh (cng nh hin nay) đã b rt nhiu ngi phê phán gay gt. Cái khim khuyt s 1 ca tr s P là nó thiu tính logic. Tht vy, nu chúng ta chu khó xem xét li ví d trên, chúng ta có th khái quát tin trình ca mt nghiên cu y hc (da vào tr s P) nh sau: •  ra mt gi thuyt chính (H+) • T gi thuyt chính, đ ra mt gi thuyt đo (H-) • Tin hành thu thp d kin (D) • Phân tích d kin: tính toán xác sut D xy ra nu H- là s tht. Nói theo ngôn ng toán xác sut, bc này xác đnh P(D | H-). 6 Vì th, con s P có ngha là xác sut ca d kin D xy ra nu (nhn mnh: “nu”) gi thuyt đo H- là s tht. Nh vy, con s P không trc tip cho chúng ta mt ý nim gì v s tht ca gi thuyt chính H; nó ch gián tip cung cp bng chng đ chúng ta chp nhn gi thuyt chính và bác b gi thuyt đo. Cái logic đng sau ca tr s P có th đc hiu nh là mt tin trình chng minh đo ngc (proof by contradiction): • Mnh đ 1: Nu gi thuyt đo là s tht, thì d kin này không th xy ra; • Mnh đ 2: D kin xy ra; • Mnh đ 3 (kt lun): Gi thuyt đo không th là s tht. Nu bn đc cm thy khó hiu cách lp lun trên, tôi xin ly thêm mt ví d trong y khoa đ minh ha cho tin trình này: • Nu ông Tun b cao huyt áp, thì ông không th có triu chng rng tóc (hai hin tng sinh hc này không liên quan vi nhau, ít ra là theo kin thc y khoa hin nay); • Ông Tun b rng tóc; • Do đó, ông Tun không th b cao huyt áp. Tr s P, do đó, gián tip phn ánh xác sut ca mnh đ 3. Và đó cng chính là mt khim khuyt quan trng ca tr s P, bi vì con s P nó c tính mc đ kh d ca d kin, ch không nói cho chúng ta bit mc đ kh d ca mt gi thuyt. iu này làm cho vic suy lun da vào tr s P rt xa ri vi thc t, xa ri vi khoa hc thc nghim. Trong khoa hc thc nghim, điu mà nhà nghiên cu mun bit là vi d kin mà h có đc, xác sut ca gi thuyt chính là bao nhiêu, ch h không mun bit nu gi thuyt đo là s tht thì xác sut ca d kin là bao nhiêu. Nói cách khác và dùng kí hiu mô t trên, nhà nghiên cu mun bit P(H+ | D), ch không mun bit P(D | H+) hay P(D | H-). 7.5. Vn đ kim đnh nhiu gi thuyt (multiple tests of hypothesis) Nh đã nói trên, nghiên cu y hc là mt qui trình th nghim gi thuyt. Trong mt nghiên cu, ít khi nào chúng ta th nghim ch mt gi thuyt duy nht, mà rt nhiu gi thuyt mt lc. Chng hn nh trong mt nghiên cu v mi liên h gia vitamin D và nguy c gãy xng đùi, các nhà nghiên cu có th phân tích mi liên h tng quan gia vitamin D và mt đ xng (bone mineral density), gia vitamin D và nguy c gãy xng theo tng gii tính, tng nhóm tui, hay phân tích theo các đc tính lâm sàng ca bnh nhân, v.v… (Xem ví d di đây). Mi mt phân tích nh th có th xem là mt th nghim gi thuyt.  đây, chúng ta phi đi din vi vn đ nhiu gi thuyt (multiple tests of hypothesis hay còn gi là multiple comparisons). Bng 2. Phân tích hiu qu ca vitamin D và calcium theo đc tính ca bnh nhân 7 c tính bnh nhân Nhóm đc điu tr bng calcium và vitamin D 1 Nhóm gi dc (placebo) 1 T s nguy c (relative risk) và khong tin cy 95% 2  tui 50-59 60-69 70-79 29 (0.06) 53 (0.09) 93 (0.44) 13 (0.03) 71 (0.13) 115 (0.54) 2,17 (1.13-4.18) 0.74 (0.52-1.06) 0.82 (0.62-1.08) Body mass index <25 25-30 > 30 69 (0.20) 63 (0.14) 43 (0.09) 66 (0.19) 74 (0.16) 59 (0.13) 1.05 (0.75-1.47) 0.87 (0.62-1.22) 0.73 (0.49-1.09) Hút thuc lá Không hút thuc Hin hút thuc 159 (0.14) 14 (0.14) 178 (0.15) 16 (0.17) 0.90 (0.71-1.11) 0.85 (0.41-1.74) Chú thích: 1 s ngoài ngoc là s bnh nhân b gãy xng đùi trong thi gian theo dõi (7 nm) và s trong ngoc là t l gãy xng tính bng phn trm mi nm. 2 T s nguy c tng đi (hay relative risk – RR – s gii thích trong mt chng sau) đc c tính bng cách ly t l gãy xng trong nhóm can thip chia cho t l trong nhóm gi dc; nu khong tin cy 95% bao gm 1 thì mc đ khác bit gia 2 nhóm không có ý ngha thng kê; nu khong tin cy 95% không bao gm 1 thì mc đ khác bit gia 2 nhóm đc xem là có ý ngha thng kê (hay p<0.05). Xin nhc li rng trong mi ln th nghim mt gi thuyt, chúng ta chp nhn mt sai sót 5% (gi d chúng ta chp nhn tiêu chun p = 0.05 đ tuyên b có ý ngha hay không có ý ngha thng kê). Vn đ đt ra là trong bi cnh th nghim nhiu gi thuyt là nh sau: nu trong s n th nghim, chúng ta tuyên b k th nghim “có ý ngha thng kê” (tc là p<0.05), thì xác sut có ít nht mt gi thuyt sai là bao nhiêu?  tr li câu hi này tôi s bt đu bng mt ví d đn gin. Mi th nghim chúng ta chp nhn mt xác sut sai lm là 0.05. Nói cách khác, chúng ta có xác sut đúng là 0.95. Nu chúng ta th nghim 3 gi thuyt, xác sut mà chúng ta đúng c ba là [d nhiên]: 0.95 x 0.95 x 0.95 = 0.8574. Nh vy, xác xut có ít nht mt sai lm trong ba tuyên b “có ý ngha thng kê” là: 1 – 0.8574 = 0.1426 (tc khong 14%). Nói chung, nu chúng ta th nghim n gi thuyt, và mi ln th nghim chúng ta chp nhn mt xác sut sai lm là p, thì xác sut có ít nht 1 sai lm trong n ln th nghim đó là () n p−− 11. Khi n = 10 và p = 0.05 thì xác sut có ít nht mt sai lm lên đn: 40%. “Bài hc” rút ra t cách lí gii trên là nh sau: nu chúng ta đc mt bài báo khoa hc mà trong đó nhà nghiên cu tin hành nhiu th nghim khác nhau vi các kt qu tr s p < 0.05, chúng ta có lí do đ cho rng xác sut mà mt trong nhng cái-gi-là 8 “significant” (hay “có ý ngha thng kê”) đó rt cao. Chúng ta cn phi dè dt vi nhng kt qu phân tích nh th. i vi mt ngi làm nghiên cu, ý ngha ca vn đ th nghim nhiu gi thuyt là: không nên “câu cá”. Tôi xin nói thêm v khái nim “câu cá” trong khoa hc. Hãy tng tng, mt nhà nghiên cu mun tìm hiu hiu qu ca mt thut điu tr mi cho các bnh nhân đau khp. Sau khi xem xét các nghiên cu đã công b trong y vn, nhà nghiên cu quyt đnh tin hành mt nghiên cu trên 300 bnh nhân: phân na đc điu tr bng thut mi, phân na ch s dng gi dc. Sau thi gian theo dõi, thu thp d liu, nhà nghiên cu phân tích và phát hin s khác bit gia hai nhóm không có ý ngha thng kê. Nói cách khác, thut điu tr không có hiu qu. Nhà nghiên cu không chu “đu hàng”, nên tìm cách tìm cho đc mt kt qu có ý ngha thng kê. Ông chia bnh nhân thành nhiu nhóm theo đ tui (trên 50 hay di 50), theo gii tính (nam hay na), thành phn kinh t (có thu nhp cao hay thp), và thói quen (chi th thao hay không). Tính chung, ông có 16 nhóm khác nhau, và có th th nghim 16 ln. Ông “khám phá” thut điu tr có ý ngha thng kê trong nhóm ph n tui trên 50 và có thu nhp cao. Và, ông công b kt qu. ó là mt qui trình làm vic mà gii nghiên cu khoa hc gi là “fishing expedition” (mt chuyn đi câu cá). Tt nhiên, mt kt qu nh th không có giá tr khoa hc và không th tin đc. (Vi 16 th nghim khác nhau và vi p = 0.05, xác sut mà mt th nghim có kt qu “significant” lên đn 55%, do đó chúng ta chng ngc nhiên khi thy có mt “con cá” đc bt!)  cho kt qu tr s P có ý ngha nguyên thy ca nó trong bi cnh th nghim nhiu gi thuyt, các nhà nghiên cu đ ngh s dng thut điu chnh Bonferroni (tên ca mt nhà thng kê hc ngi Ý tng đ ngh cách làm này). Theo đ ngh này, trc khi tin hành nghiên cu, nhà nghiên cu phi xác đnh rõ gi thuyt nào là chính, và gi thuyt nào là ph. Ngoài ra, nhà nghiên cu còn phi đ ra k hoch s th nghim bao nhiêu gi thuyt trc khi bt tay vào phân tích d liu. Chng hn nh nu nhà nghiên cu có k hoch th nghim 20 so sánh và mun gi cho tr s p  0.05, thì thay vì da vào 0.05 là tiêu chun đ tuyên b“significant”, nhà nghiên cu phi da vào tiêu chun 0.0025 (tc ly 0.05 chia cho 20) đ tuyên b “significant”. Nói cách khác, ch khi nào mt kt qu có tr s p thp hn 0.0025 (hay nói chung là p/n) thì nhà nghiên cu mi có “quyn” tuyên b kt qu đó có ý ngha thng kê. Tr s P, dù cc kì thông dng trong nghiên cu khoa hc, không phi là mt phán xét cui cùng ca mt công trình nghiên cu hay mt gi thuyt. Th nhng trong thc t, các nhà khoa hc đã quá l thuc vào tr s P đ suy lun trong nghiên cu và tuyên b nhng khám phá mà sau này đc chng minh là sai lm. Có th nói không ngoa rng chính vì s lm dng và ph thuc mt cách mù quáng vào tr s P mà khoa hc, nht là y sinh hc, đã tr nên nghèo nàn. Hàng ngày chúng ta đc hay nghe nhng phát hin khoa hc trái ngc nhau (nh lúc thì có nghiên cu cho thy cà phê có tác dng tt cho sc khe, lúc khác có nghiên cu cho bit cà phê có hi cho sc khe; hay lúc thì thuc gim đau aspirin có hiu nng làm gim nguy c ung th, nhng mi đây có nghiên cu cho thy aspirin có th làm tng nguy c b ung th vú, v.v…). Có khi công chúng không bit phát hin nào là thc và phát hin nào là “dng tính gi”. Theo phân 9 tích ca Berger và Sellke, khong 25% các phát hin vi “p < 0.05” là các phát hin dng tính gi [2]. Do đó, chúng ta không nên quá ph thuc vào tr s P. Không phi c nghiên cu nào vi p<0.05 là thành công và p>0.05 là tht bi. Có khi mt phát hin vi p>0.05 nhng li là mt phát hin có ý ngha. Vn đ quan trng là làm sao đ c tính mc đ kh d ca mt gi thuyt mt khi có d kin tht trong tay, tc là c tính P(H+ | D).  c tính P(H+ | D), chúng ta phi áp dng nh lí Bayes, và cách tip cn đnh lí này không nm trong phm trù ca cun sách này. Bn đc mun tham kho thêm có th đc mt vài bài báo ca tôi hay các các bài báo ca James Berger mà tài liu tham kho di đây có th cung cp thêm. Tài liu tham kho: [1] Wulff et al., Statistics in Medicine 1987; 6:3-10. [2] Berger JO, Sellke T. Testing a point null hypothesis: the irreconcilability of P-values and evidence. Journal of the American Statistical Association 1987; 82:112-20. . đnh gi thit thng kê và ý ngha ca tr s P (P-value) 7.1 Tr s P Trong nghiên cu khoa hc, ngoài nhng d kin bng s, biu đ và hình nh, con s. ln, và đi đa s các suy lun phân tích thng kê, suy lun khoa hc đu da vào tr s P. Do đó, trc khi bàn đn các phng pháp phân tích thng kê bng

Ngày đăng: 09/12/2013, 20:15

Xem thêm