Mục đích của bài viết này là tập trung vào việc làm nổi bật một số quan niệm sai lầm về trị số P trong phương pháp thống kê cổ điển, giới thiệu cách tiếp cận thống kê Bayes bằng ví dụ cụ thể và những ưu điểm của phương pháp này. Qua đó, bài viết sẽ đề xuất những lựa chọn thay thế hoặc bổ sung nhằm hoàn thiện phương pháp thống kê tần số trong ứng dụng cũng như trong công tác giảng dạy thống kê tại các trường đại học hiện nay.
KỶ YẾU HỘI THẢO KHOA HỌC ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN ỨNG DỤNG THỐNG KÊ BAYES TRONG PHÂN TÍCH TƯƠNG QUAN VÀ MỘT SỐ KIẾN NGHỊ VỀ GIẢNG DẠY THỐNG KÊ BẬC ĐẠI HỌC TS Nguyễn Quyết* Tóm tắt Hiện nay, hầu hết trường đại học giảng dạy thống kê theo lối cổ điển (hay gọi thống kê tần số), phương pháp thống kê gắn liền với trị số P (hay thường gọi P-value) Gần đây, nhiều nhà nghiên cứu có ý kiến phê bình mạnh mẽ trị số tính phi logic Mục đích viết tập trung vào việc làm bật số quan niệm sai lầm trị số P phương pháp thống kê cổ điển, giới thiệu cách tiếp cận thống kê Bayes ví dụ cụ thể ưu điểm phương pháp Qua đó, viết đề xuất lựa chọn thay bổ sung nhằm hoàn thiện phương pháp thống kê tần số ứng dụng công tác giảng dạy thống kê trường đại học Từ khóa: Trị số P, thống kê Bayes, thống kê tần số Đặt vấn đề Thống kê ngành khoa học sử dụng phân tích liệu để chuyển hóa liệu thơ thành thơng tin có ích, hay nói cách khác, biến thơng tin thành tri thức Vì vậy, thống kê đóng vai trị đặc biệt quan trọng, khơng thể thiếu cơng bố khoa học Có thể nói rằng, số liệu cơng bố mà khơng có bóng dáng thống kê trở nên vơ hồn, vô nghĩa Ngày nay, thống kê giảng dạy hầu hết trường đại học cho khối ngành Kinh tế tài chính, Quản lý, Khoa học tự nhiên, Kỹ thuật, Y khoa, Tâm lý học Tuy vậy, trường đại học giảng dạy thống kê theo lối cổ điển (hay gọi thống kê tần số), phương pháp thống kê liên quan đến trị số P (hay thường gọi P-value) Theo Wulff et al (1987), trị số P xem trị số phổ biến phân tích liệu nghiên cứu khoa học Cũng phổ biến mà chúng thường dễ bị hiểu lầm lạm dụng (Ionides et al., 2017) Goodman (2008) cho rằng, giải thích trị số P vơ khó khăn khơng phải phần thức suy diễn thống kê Gần đây, Hiệp hội Thống kê Mỹ (ASA) đưa cảnh báo giá trị P, tập trung vào vấn đề thường bị hiểu nhầm sử dụng sai mục đích trị số * Khoa Kinh tế - Luật, Trường Đại học Tài - Marketing 38 KỶ YẾU HỘI THẢO KHOA HỌC ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN (Wasserstein Lazar, 2016) Theo Nguyễn, V T (2014), giới nghiên cứu khoa học thực nghiệm hiểu sai mà nhà thống kê chuyên nghiệp hiểu khơng trị số tính thiếu logic giáo trình giải thích sai không rõ ràng Theo nghiên cứu Williams, Bååth Philipp (2017), Assaf Tsionas (2018) số hiểu lầm phổ biến trị số P sau: Thứ nhất, trị số P bé mức độ ảnh hưởng cao Ví dụ, trước nghiên cứu tác động lạm phát đến lãi suất tính tốn P 0,04, cịn nghiên cứu P 0,01 Tác giả kết luận rằng, tại, lạm phát tác động lên lãi suất mạnh so với trước Thứ hai, trị số P xác suất phát sai Ví dụ, nghiên cứu tương quan lạm phát lãi suất tính hệ số tương quan 0,7 trị số P 0,03 Nghiên cứu hiểu rằng, xác suất mà nghiên cứu sai 3%, suy xác suất kết nghiên cứu 97% Thứ ba, trị số P xác suất sai lầm (tức α ) Thứ tư, trị số P xác suất giả thuyết khoa học Ví dụ, nghiên cứu phát mối liên quan cung tiền (M2) tỷ lệ vốn hóa thị trường với trị số P 0,02, tác giả diễn giải rằng, xác suất khơng có mối liên quan 2% Suy ra, xác suất có mối liên quan cung tiền (M2) tỷ lệ vốn hóa thị trường 98% Những cách hiểu, diễn giải sai, dẫn đến sai lầm phổ biến kết công bố Trị số P không cho ta biết xác suất xảy giả thuyết mà xác suất có điều kiện Nghĩa trị số P xác suất liệu giả thuyết Vậy P không trực tiếp cho biết xác suất xảy giả thuyết H1 (cái mà nhà nghiên cứu cần phải kết luận) mà gián tiếp cung cấp chứng chấp nhận H1 bác bỏ H0 Mục đích viết tập trung vào việc làm bật số quan niệm sai lầm trị số P phương pháp thống kê cổ điển, giới thiệu cách tiếp cận thống kê Bayes ví dụ cụ thể ưu điểm phương pháp Qua đó, viết đề xuất lựa chọn thay bổ sung nhằm hoàn thiện phương pháp thống kê tần số ứng dụng công tác giảng dạy thống kê trường đại học Tổng quan lý thuyết 2.1 Sơ lược Lý thuyết Bayes Lý thuyết Bayes Thomas Bayes đề xuất vào năm 1763 (Bayes, 1763) Ngày nay, Lý thuyết ứng dụng phổ biến hầu hết ngành như: Kinh tế, Tài chính, Quản lý, Y học, Công nghệ thông tin… Suy luận Bayes phát triển dựa tảng định lý mang tên ông với công thức sau: P(H | D) = P(D | H)P(H) P(D) (1) Tất nhiên, cách tổng quát, thay H tham số θ , khác biệt phương pháp thống kê tần số θ cố định cịn thống kê Bayes xem θ khơng cố định mà có phân bố riêng Cơng thức (1) viết lại sau: 39 KỶ YẾU HỘI THẢO KHOA HỌC ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN P(θ | D) = P(D | θ)P(θ) P(D) (2) Trong đó: P(θ | D) gọi xác suất hậu nghiệm, P(θ) gọi xác suất tiền nghiệm, P(D | θ) gọi phân bố liệu P(D) gọi xác suất liệu quan sát (không liên quan đến tham số θ ) Do phương trình (2) cho thấy: P(θ | D) ∝ P(D | θ)P(θ) (3) Hàm ý phương trình (3) biết θ kết hợp biết trước xem xét liệu (tức thông tin phân phối trước) học từ liệu Đặc biệt lưu ý rằng, thông tin cung cấp liệu làm giảm không chắn giá trị θ, thể qua phân phối sau hẹp so với phân phối trước (Lee Wagenmakers, 2014). 2.2 Định nghĩa số Theo Cleophas Zwinderman (2018), số (Odds) (hay gọi tỷ lệ cược) kiện định nghĩa tỷ số xác suất kiện xảy chia cho xác suất kiện khơng xảy Có khác biệt số xác suất, trường hợp xác suất bé số gần với xác suất Ví dụ: xét nghiệm 100 người thấy có người dương tính với virus SARS-CoV-2 xác suất người nhiễm bệnh 0,05 (tức 5/100), số 0,05262 (tức 5/95), trường hợp xác suất số gần Tuy nhiên, thí nghiệm số người dương tính với virus SARS-CoV-2 80 xác suất nhiễm bệnh người 0,8 (tức 80/100) số (tức 80/20) Vậy xác suất có giá trị thuộc [0; 1] cịn số có giá trị từ [0; ∞) Trong nghiên cứu, người ta quan tâm nhiều đến tỷ số (Odds Ratio - OR) Tỷ số cho biết khả xảy kiện nhóm cao (hoặc thấp hơn) lần so với nhóm cịn lại (Kjaerulff Madsen, 2008) OR = Odds1 Odds (4) Nếu OR cho biết xác suất xảy kiện hai nhóm OR lớn cho biết xác suất xảy kiện nhóm lớn nhóm 2; OR nhỏ cho biết xác suất xảy kiện nhóm nhỏ nhóm 2.3 Kiểm định giả thuyết theo hệ số Bayes Trước hết, cần phải hiểu thiếu logic trị số P kiểm định theo lối cổ điển minh họa quy trình nghiên cứu sau: Thứ nhất, phát biểu giả thuyết H0, từ giả thuyết H0 đề giả thuyết H1 (gọi giả thuyết chính, tức giả thuyết mà nhà nghiên cứu muốn kết luận) Thứ hai, tiến hành thu thập liệu (D) Thứ ba, tính tốn xác suất D xảy H0 đúng, nghĩa tính tốn P(D|H0), trị số P Ta thấy trị số P không cho biết xác suất H1 xảy phần trăm mà gián tiếp cho ta chứng chấp nhận H1 bác bỏ H0 Vậy thực quy trình ngược khơng đáp ứng u cầu nhà nghiên cứu nhà nghiên cứu cần P(H1|D) P(D|H0) Để khắc phục thiếu logic trị số P, trường phái suy luận Bayes tiếp cận quy trình kiểm định giả thuyết sau: 40 KỶ YẾU HỘI THẢO KHOA HỌC ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN Bước 1: Từ vấn đề nghiên cứu đề giả thuyết H0, từ H0 đề xuất giả thuyết đối (H1), giả thuyết nhà nghiên cứu cần quan tâm đưa kết luận Bước 2: Tính tỷ số xác suất hậu nghiệm: BF10 = P(H1 | D) P(H1 ) P(D | H1 ) = × P(H | D) P(H ) P(D | H ) (5) BF10 gọi hệ số đo lường mức độ ủng hộ giả thuyết (Lavine Schervish, 1999) Bước 3: Kết luận ủng hộ giả thuyết H0 H1 vào bảng phân loại mức độ sau: Bảng Phân loại mức độ ủng hộ giả thuyết Thứ tự BF10 Kết luận > 100 30 - 100 Ủng hộ H1 mức mạnh mẽ 10 - 30 Ủng hộ H1 mức mạnh mẽ - 10 Ủng hộ H1 mức vừa phải 1-3 Có chứng ủng hộ H1 1/3 - Có chứng ủng hộ H0 1/10 - 1/3 Ủng hộ H0 mức vừa phải 1/30 - 1/10 Ủng hộ H0 mức mạnh mẽ 10 1/100 - 1/30 Ủng hộ H0 mức mạnh mẽ 11 < 1/100 Ủng hộ H1 mức mạnh mẽ Khơng có chứng ủng hộ giả thuyết Ủng hộ H0 mức mạnh mẽ Nguồn: Jeffreys (1961), Lee Wagenmakers (2014) Với phương pháp kiểm định thống kê cổ điển, trị số P-value = P(D|H0) xác suất liệu D xảy giả thuyết H0 Điều có nghĩa trị số P xem xét chứng điều kiện giả thuyết H0 mà khơng đề cập đến giả thuyết đối Trong đó, hệ số Bayes (Bayes factor) xem xét chứng giả thuyết H0 H1 Ví dụ, hai tập liệu có trị số P 0,03 giá trị BF khác Kết ứng dụng 3.1 Mô tả liệu Để minh họa phương pháp kiểm định giả thuyết theo hệ số Bayes, nghiên cứu thực kiểm định tương quan hai biến gồm: số nhận thức tham nhũng (CPI) bình quân đầu người (GDP, USD) liệu chéo thu thập 83 quốc gia vào năm 2011 (Gujarati, 2011). 41 KỶ YẾU HỘI THẢO KHOA HỌC ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN Bảng Thống kê mô tả Biến Obs Mean Std Deviation Skewness Kurtosis P-value of Shapiro-Wilk Minimum Maximum CPI GDP 83 4.905 2.422 0.648 -0.805 30, *** BF₁₀ > 100 Nguồn: Kết xử lý liệu từ phần mềm JASP Bảng trình bày kết kiểm định theo hệ số Bayes, hệ số tương quan 0,847, hệ số BF10 = 6.842e + 20, lớn 100, nghĩa có chứng ủng hộ giả thuyết H1 mạnh mẽ Mặt khác, khoảng tin cậy 95% hệ số tương quan thuộc khoảng (0,765; 0,896), khơng có khác biệt lớn so với phương pháp cổ điển 43 KỶ YẾU HỘI THẢO KHOA HỌC ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN Hình Xác suất tiền nghiệm hậu nghiệm Nguồn: Kết xử lý liệu từ phần mềm JASP Hình mơ tả mật độ xác suất tiền nghiệm (Prior) hậu nghiệm (Posterior) hệ số tương quan tổng thể Trong đó, mật độ xác suất tiền nghiệm mô tả đường thẳng khơng liền nét, qua cho biết thông tin trước mối tương quan hai biến CPI GDP Mật độ xác suất hậu nghiệm mô tả đồ thị đường liền nét, đường thẳng, điều ngụ ý rằng, hiểu biết tương quan CPI GDP tin cậy, hợp lý trước nhiều Mặt khác, khoảng tin cậy (0,765; 0,896) có nghĩa dựa vào thơng tin tiền nghiệm mẫu nghiên cứu tại, kết luận rằng, khả mà hệ số tương quan tổng thể thuộc khoảng 95% Bên cạnh đó, hệ số BF10 = 6.842e + 20 (hay BF01 = 1/BF10) cho biết, với mẫu mức độ ủng hộ giả thuyết H1 gấp 6.842e + 20 (lần) so với giả thuyết H0 Hình Kiểm định Robust Nguồn: Kết xử lý liệu từ phần mềm JASP 44 KỶ YẾU HỘI THẢO KHOA HỌC ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN Hình minh họa kết kiểm định Robust Kiểm định cho nhà nghiên cứu biết giá trị BF10 thay đổi phân phối xác suất tiền nghiệm thay đổi hình dạng Đối với ví dụ này, k gần 1,808 BF10 đạt cực đại có giá trị khoảng 8.094e+20 Hình Phân tích liên tục Nguồn: Kết xử lý liệu từ phần mềm JASP Hình minh họa quỹ đạo mức ủng hộ giả thuyết H1 H0 tăng số lượng liệu (hiển thị trục hồnh) chứng (được hiển thị trục tung) ủng hộ giả thuyết H1 tăng Ban đầu, giá trị n nhỏ hệ số BF10 nhỏ, cho biết chứng ủng hộ H0 khiêm tốn Tuy nhiên, thấy rằng, số lần quan sát lần sau tăng lên khoảng 50 hệ số BF10 1010 lần sau tăng khoảng 70 quan sát hệ số BF10 1015 Nói cách khác, có thơng tin mức độ ủng hộ giả thuyết H1 thấp Kết luận kiến nghị Bài viết trình bày phương pháp kiểm định hệ số Bayes minh họa ví dụ cụ thể, qua rút vài kết luận sau: Thứ nhất, ý tưởng phương pháp Bayes hiểu cách đơn giản thông tin suy dựa vào thơng tin có trước hiểu biết tại, suy luận phù hợp với thực tiễn ứng dụng phổ biến nhiều ngành khoa học như: Y học, Kinh tế học, Tài chính… Cũng qua nghiên cứu này, người đọc thấy thiếu logic suy luận phương pháp thống kê theo lối cổ điển Thứ hai, phương pháp phân tích Bayes giải pháp thay bổ sung tốt cho phương pháp kiểm định cổ điển mà nhà làm thống kê ứng dụng nên quan tâm Thứ ba, công tác giảng dạy Lý thuyết xác suất thống kê ứng dụng cho sinh viên khối ngành Kinh tế, Quản trị kinh doanh, tác giả mạnh dạn đề nghị Bộ môn, Khoa 45 KỶ YẾU HỘI THẢO KHOA HỌC ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN chuyên mơn có lộ trình cải tiến chương trình đào tạo, đưa kiến thức thống kê Bayes vào giảng dạy cho sinh viên chuyên ngành trên, đặc biệt sinh viên chuyên ngành Tài định lượng Thứ tư, để đạt mục đích yêu cầu đề ra, công tác giảng dạy, nhà trường cần biên soạn tài liệu phù hợp với trình độ người học, sử dụng số phần mềm chuyên dụng phân tích Bayes giúp người học tiếp cận môn học cách dễ dàng, hiệu thuận tiện TÀI LIỆU THAM KHẢO Assaf, A G., & Tsionas, M (2018), Bayes factors vs P-values. Tourism Management, 67, pp 17 - 31 Bayes, T (1763), LII An essay towards solving a problem in the doctrine of chances By the late Rev Mr Bayes, FRS communicated by Mr Price, in a letter to John Canton, AMFR S. Philosophical transactions of the Royal Society of London, (53), pp 370 - 418 Cleophas, T J., & Zwinderman, A H (2018), Modern bayesian statistics in clinical research New York, NY, USA: Springer International Publishing Goodman, S (2008), A dirty dozen: twelve p-value misconceptions In Seminars in hematology, 45 (3), pp 135 - 140 WB Saunders Gujarati, D N (2011), Econometrics by example (Vol 1) New York: Palgrave Macmillan Ionides, E L., Giessing, A., Ritov, Y., & Page, S E (2017), Response to the ASA’s Statement on p-Values: Context, Process, and Purpose The American Statistician, 71(1), pp 88 - 89 Jeffreys, H (1961), The theory of probability Oxford, England: Oxford University Press Kjærulff, U B., & Madsen, A L (2012), Bayesian Networks and Influence Diagrams: A Guide to Construction and Analysis (Vol 22) Springer Science & Business Media Lavine, M., & Schervish, M J (1999), Bayes factors: What they are and what they are not. The American Statistician, 53(2), pp 119 - 122 10 Lee, M D., & Wagenmakers, E J (2014), Bayesian cognitive modeling: A practical course Cambridge university press 11 Nguyễn, V T (2014), Phân tích liệu với R, NXB Tổng hợp Thành phố Hồ Chí Minh 12 Wasserstein, R L., & Lazar, N A (2016), The ASA’s Statement on P-values: Context, Process, and Purpose. American Statistician, 70(2), pp 129 - 133 13 Williams, M N., Bååth, R A., & Philipp, M C (2017), Using Bayes factors to test hypotheses in developmental research. Research in Human Development, 14(4), pp 321-337 14 Wulff, H R., Andersen, B., Brandenhoff, P., & Guttler, F (1987), What doctors know about statistics? Statistics in medicine, 6(1), pp - 10 46 ... phương pháp thống kê tần số ứng dụng công tác giảng dạy thống kê trường đại học Tổng quan lý thuyết 2.1 Sơ lược Lý thuyết Bayes Lý thuyết Bayes Thomas Bayes đề xuất vào năm 1763 (Bayes, 1763)... lặp lại tương tự nhiều lần 95% số lần thực chứa tham số tổng thể 3.2.2 Kiểm định tương quan theo hệ số Bayes Tương tự kiểm định tương quan theo lối cổ điển, kiểm định tương quan theo hệ số Bayes. .. phương pháp phân tích Bayes giải pháp thay bổ sung tốt cho phương pháp kiểm định cổ điển mà nhà làm thống kê ứng dụng nên quan tâm Thứ ba, công tác giảng dạy Lý thuyết xác suất thống kê ứng dụng cho