BỘGIÁODỤCVÀĐÀOTẠO BỘY TẾ TRƯỜNGĐẠI HỌCYHÀNỘI HOÀNGTHỊ HẢIVÂN THỰC TRẠNG ỨNG DỤNGTHỐNG KÊ TRONG LUẬN VĂNCAO HỌC, BÁC SĨ NỘI TRÚ VÀKẾTQUẢ MỘTSỐBIỆNPHÁP CAN THIỆP LUẬNÁNTIẾNSĨY TẾ CÔNGCỘNG HÀNỘI 2016 BỘG[.]
Cơsởkhoahọc của mônhọc Thốngkê yhọc
Lịch sửhình thành và pháttriển củathống kêyhọc
Lịch sử phát triển của một ngành khoa học nói chung và lịch sử phát triểnthống kê nói riêng đóng một vai trò quan trọng bởi theo Fienberg nó giúp chonhững người làm thống kê hiểu tường tận gốc rễ của những gì họ làm cũngnhư ý nghĩa của thống kê[12] Đặc biệt cũng theo tác giả này các tư duy thốngkêđượcứngdụngtrongrấtnhiềulĩnhvựckhoahọcngàynay.Sựpháttri ểnvề lý thuyết xác suất, cơ sở của xác xuất thống kê thực sự bắt đầu được đẩymạnhtừthếkỷXVI,XVIIvàđầuthếkỷXVIII[12],
[13].Độngcơthúcđẩysựpháttriểnnàybắtnguồntừcáctròchơimayrủinhưx úcxắc,chơibàivàxổ số Các nhà khoa học đầu tiên quan tâm đến lĩnh vực này phải kể đến đầutiên là Cardano, vào giữa thế kỷ XVI, tiếp đến là đóng góp của các nhà khoahọc Pascal, Fermat và Huygens, Mornmot, James và Nicolas Bernuli và DeMoivre[13] Sang thế kỷ XVII sự quan tâm đến thống kê chủ yếu là ứng dụngvà sang thế kỷ XVIII, đã xuất hiện những nhận thức về các quan sát địnhlượng một cách khoa học, đặc biệt trong lĩnh vực thiên văn học và nhân khẩuhọc Từ đó lý thuyết về phân bố nhị thức của một bộ số liệu lớn do JamesBernouli và phép ước lượng tương đối của De Moivre ra đời[12],[13]. Năm1733sựpháttriểncủathốngkêđượcđánhdấubởicôngtrìnhnổitiếng―Nghệthuậ t phỏng đoán‖ của Bernouli.Sau đó là sự quan tâm đến phiên giải xác suấtcó chủ đích mà sau này được chính thức hóa bằng lý thuyết của Bayes vàLaplace.
Giai đoạn 1750-1820 là giai đoạn ra đời và phát triển của suy luận và toánthống kê[12] Đầu tiên phải kể đến việc phát triển suy luận thống kê dựa vàoxácsuấtnghịchđảođượcpháttriểnmộtcáchđộclậpbởiBayesvàLaplac e.
Tiếp đến là lý thuyết phân bố chuẩn của Gauss và ứng dụng phân bố chuẩntrong việc tính toán độ lệch chuẩn là cơ sở của phương pháp suy luận.Sự tổnghợp lý thuyết của Gauss và Laplace chính là cơ sở của thống kê suy luận vàcác kỹ thuật xử lý mô hình hồi quy tuyến tính chuẩn đồng thời là cơ sở cho sựpháttriểnlýthuyếtthốngkêởthếkỷXIX.
Sự phát triển quan trọng nhất về lý thuyết những năm cuối của thế kỷ XVIII,đầu thế kỷ XIX là lý thuyết về mối tương quan và hồi quy của Galton,Pearson, Edgeworth và Yule Thế kỷ XIX kết thúc bằng một loạt đóng gópquantrọngcủaPearsonvớisựrađờicủatestkhibìnhphươngvàsựrađ ờicủa tạp chí độc lập đầu tiên về phương pháp thống kê y học là tạp chíBiometrika[12].
Từnăm1900đến1950đượccoilàkỷnguyêncủathốngkêhiệnđại[12]vớisự đóng góp to lớn của nhà bác học Ronald A Fisher Một loạt các khái niệmvà phương pháp quan trọng trong thống kê đã được phát triển bởi Fisher(1890-1962) Ông là người đặt nền móng cho các khái niệm của mô hìnhthống kê, khái niệm về độ khả dĩ, ngẫu nhiên, lý thuyết của thử nghiệm lâmsàng, và phương pháp phân tích phương sai [12] Ông không chỉ là một nhà lýthuyết về thống kê của thế kỷ XX, mà ông còn đi đầu trong lĩnh vực ứng dụngthống kê.Bên cạnh Fisher, còn rất nhiều nhà nghiên cứu khác có đóng góp lớncho sựpháttriểncủa thốngkê hiệnđại.
Song song với sự phát triển của thống kê, sự phát triển của thống kê y họccũngđượcđánhdấubởinhữngmốcquantrọngtừnhữnggiaiđoạnrấts ớmcủa lịch sử phát triển thống kê Đầu tiên phải kể đến việc tiến hành ghi chép,tổng hợp thường xuyên các báo cáo các trường hợp rửa tội, các đám cưới vàcác đám ma tại nhà thờ củaThomas Cromwell tại Anh vào năm 1538 và việcnày được kéo dài cho đến năm 1837 khi hệ thống đăng ký dân số ra đời[14].ThứhailàcácgiấybáotửvongđượcbáocáohàngtuầntạithủđôLuânĐô n nước Anh từ những năm đầu thế kỷ XVI (1603-1836)[14] Các số liệu nàyđược thu thập bởi các giáo sĩ xứ đạo và được công bố hàng tuần Ban đầu sốliệunàyđượctổnghợpđộclậpriêngrẽvớicáccatửvongdobệnhdịchvàc ác nguyên nhân khác nhưng từ năm 1570 thì số liệu này được mở rộng baogồm cả các trường hợp rửa tội trước khi chết, và từ năm 1629 có sự thống kêcả các nguyên nhân tử vong, từ đầu thế kỷ XVIII có thêm sự thống kê tuổi tửvong Đây chính là hai nguồn dữ liệu là cơ sở cho thống kê nhân khẩu học củaJonh Graunt(1620-1674)saunày.Điểm mốc quan trọng thứ ba của thống kê y học là tổng điều tra dân số đượctiến hành tại Anh, Scotland và Xứ Wales vào năm 1801 do JonhRickman(1771-1840) chủ trì Cho đến năm 1850, số liệu dân số tích lũy của từng thànhphố, từng cộng đồng, từng khu vực và các quốc gia trên thế giới đã được tổnghợp và cung cấp số liệu, thông tin hữu ích cho các nghiên cứu phân tích baogồm cả các nghiên cứu so sánh giữa các địa điểm khác nhau cũng như sự thayđổi theothờigian[14].Vớibacộtmốcquantrọngtrên,cóthểthấysựpháttriểncủathốngkêyhọcđã cùng song hành với sự phát triển của lý thuyết và ứng dụng thống kê nóichung vớisựkhởiđầulàthốngkê sinhtử.
Các khái niệm và kỹ thuật thống kê ứng dụng trong nghiên cứu y họchiệnnay 5 1.2 Cácsaisótthốngkêthườnggặp trongnghiên cứuyhọc
Bảng dưới đây giới thiệu một số ký hiệu cơ bản thường được sử dụng trongcáctínhtoánthốngkê[15].
Kýhiệu Ý nghĩa Σ(Capitalsigma) Tổng x Giátrịđolườngmẫu
N Kíchthướcquầnthể n Cỡmẫu μ Giátrịtrungbìnhquầnthể x Giátrịtrungbìnhmẫu σ Độlệch chuẩnquầnthể
Trong thống kê y học, khái niệm biến số được sử dụng để thể hiện cho sự đolường hoặc các thuộc tính được quan sát mà chúng có sự khác nhau giữa cáccá thể hoặc thay đổi theo thời gian (ví dụ: số lượng hồng cầu, chỉ số khối cơthể,t ô n g i á o … ) K h á i n i ệ m s ố l i ệ u d ù n g đ ể c h ỉ c á c đ o l ư ờ n g c ó l i ê n q u a n hoặc các giá trị quan sát được của các biến số trong những điều kiện nhất định(ví dụ: 65,5 kg, nam giới, đạo Thiên chúa…) Tuy nhiên, do sự phong phú vềbản chất của các biến số nên khó có thể chỉ áp dụng một phương pháp phântích đơn giản cho tất cả các loại số liệu khác nhau Do đó, hiểu được bản chất,đặc tính của các biến số trong từng nghiên cứu để đảm bảo người nghiên cứucó sựlựachọncácphép phân tíchthống kêchophùhợp[5],[15],[16],[17].
Về cơ bản, tất cả các biến số trong thống kê y học được chia làm hai loại làbiến được thể hiện bằng con số, đo lường được, trả lời cho câu hỏi bao nhiêu,bằng nào gọi là biến định lượng và loại biến được thể hiện bằng các chữ haykýhiệu,phânloạihaymôtảđặcđiểmtrảlờichocâuhỏinhưthếnàođược gọil à b i ế n địnht í n h T ù y theob ả n c h ấ t c ác h sắpx ế p c á c giátrịtrong m ộ t biến định tính mà người ta chia ra thành biến danh mục (các biến mà các loại,các nhóm của biến không cần sắp xếp theo một trật tự nhất định); biến thứhạng(cácbiếnmàcácloại,cácnhómcủabiếnphảiđượcsắpxếptheom ộttrật tự nhất định) và biến nhị phân (là một loại biến định tính đặc biệt rất haygặp trong y học, các giá trị trong biến này bao giờ cũng chỉ được phân thànhhainhóm)
―Thốngkêmôtảlàphươngtiệnđểtổchứcvàtómtắtcácquansátthuđược‖[16].Vềcơb ản,thốngkêmôtảđơngiảnlàphươngpháptổnghợpvàtrình bày số liệu hiệu quả Điều này đặc biệt quan trọng với các bộ số liệu lớn,số liệu thô rất cồng kềnh và khó sử dụng Đối với các biến định tính, thống kêmô tả được thể hiện bằng một bảng tần số trong đó các tần số (số quan sátđược) hoặc các tỷ lệ cho từng nhóm được trình bày Đối với số liệu địnhlượng, thống kê mô tả được thể hiện bằng các giá trị đo lường như giá trịtrung bình, độ lệch chuẩn, giá trị trung vị, khoảng giá trị, mốt, khoảng tứ phânvị. Trình bày số liệu định tính cũng như định lượng có thể được thể hiện dướibahìnhthức:lờivăn(môtảhoặcdiễngiảisốliệu),sửdụngbảnghoặcbiểuđồ/ đồthịchophépbiểudiễn,sosánhgiữacácgiátrịhaygiữacácđốitượngkhácnhau.
Khoảng tin cậylà một khoảng giá trị mà trong đó các tham số của quần thểnhư giá trị trung bình, tỉ lệ và phương sai được ước lượng nằm trong khoảngnày.Ước lượng khoảng tin cậy là một hình thức dự báo trong thống kê y học,giá trị của quần thể có thể được ước lượng bằng đúng giá trị của mẫu (ướclượng điểm) hay nằm trong một khoảng nào đó được suy ra từ giá trị của mẫu(ước lượng khoảng) với độ tin cậy cho trước thường được chọn là95%.Khoảngtincậyđượctính toán dựavào saisốchuẩn.Trongmột sốtrường hợp khoảng tin cậy còn được sử dụng để đánh giá ý nghĩa thống kê: Nếu khoảngtin cậy của 2 biến không giao nhau thì sự khác biệt có ý nghĩa thống kê vớip