1. Trang chủ
  2. » Luận Văn - Báo Cáo

Dạy học xác suất thống kê Ở trường phổ thông

83 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Dạy học xác suất thống kê ở trường phổ thông
Tác giả Tăng Minh Định, Trần Tây An, Quách Huỳnh Hạnh
Người hướng dẫn PGS-TS. Lê Thị Hoài Châu
Trường học Trường Đại Học Sư Phạm TP HCM
Chuyên ngành Toán
Thể loại Báo cáo tổng kết đề tài nghiên cứu khoa học cấp bộ
Năm xuất bản 2010
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 83
Dung lượng 26,89 MB

Nội dung

Mục đích nghiên cứu Theo Chevallard 1992 : “Đối tượng đầu tiên cần nghiên cứu, và do đó cần chất vấn, cần mô hình hóa, cần đặt vấn đề theo các quy tắc hoạt động khoa học không phải là n

Trang 1

BO GIAO DUC VA DAO TAO TRUONG DAI HOC SU PHAM TP HCM

te [LH] œ

BAO CAO TONG KET

DE TAI NGHIEN CUU KHOA HOC CAP BO

DẠY HỌC XÁC SUÁT — THONG KE

Trang 2

NHUNG NGUOI THAM GIA THUC HIEN DE TAI

1- Tang Minh Ding, Khoa Toan — Tin, DHSP TP H6 Chi Minh 2- Tran Tay An, Truong THPT Lê Hong Phong, TP Hồ Chí Minh

3- Quach Huynh Hanh, Truong THPT Sao Viét, TP Hồ Chi Minh

Trang 3

MO’ DAU

1 Tính cấp thiết của đề tài

Liên quan đến dạy học (DH) môn toán, một quan điểm hiện đang được thừa nhận rộng rãi trên thế giới là cần phải thỏa mãn hơn phương diện khoa học luận và tôn trọng hơn quy trình nhận thức của học sinh (HS) Theo xu hướng đó, nghiên cứu khoa học luận và những ràng buộc, những điều kiện, những yếu tổ tác động đến quá

trình DH một tri thức là cần thiết, không chỉ cho giáo viên (GV), mà còn cho cả việc

soạn thảo chương trình, sách giáo khoa

Ở Việt nam, kể từ năm 2005 lần đầu tiên một số nội dung về Thống kê — Xác suất được chính thức đưa vào chương trình đại trà bậc Trung học phổ thông (THPT), áp dụng trên toàn quốc Tuy nhiên, ngoại trừ một vài công trình xuất hiện gần đây và nằm trong dự án nghiên cứu của chúng tôi thì chưa có tài liệu tiếng Việt nào xem xét một cách đầy đủ cả phương diện khoa học luận lẫn phương diện sư phạm về những nội dung này Nói cho đúng ra thì đã có hai luận án phó tiến sĩ của Đỗ Mạnh Hùng và Trần Kiều nghiên cứu vẫn đề xây dựng chương trình, nội dung về Thống kê - Xác suất để đưa vào bậc Trung học Hai luận án này bảo vệ từ những năm 90 của thế

kỷ trước, tập trung chủ yếu trên việc bô sung một số nội dung của Thống kê - Xác suất vào chương trình phổ thông và bàn về phương pháp DH một vài vấn đề cụ thể

thuộc nội dung được đề nghị Có luận án chỉ xét việc DH trong phạm vị các lớp

chuyên toán Chưa có một nghiên cứu khoa học luận nào về những nội dung đưa vào chương trình Điều đó làm cho việc đặt ra mục tiêu DH, xây dựng chương trình, và việc trình bày các nội dung ấy trong sách giáo khoa thiếu một cơ sở vững chắc Lại càng thiếu những nghiên cứu về DH Thống kê — Xác suất trong điều kiện công nghệ thông tin phát triển như ngày nay

Thực tế DH theo chương trình và sách giáo khoa thí điểm những năm qua cho thay

GV còn có nhiều lúng túng trong thực hành, thậm chí có những quan niệm sai lầm về mục đích DH Thống kê — Xác suất Chất lượng DH vì thế mà chưa cao Học sinh

(HS) gặp khó khăn khi vận dụng kiến thức của Thống kê — Xác suất vào giải quyết

những vấn đề của cuộc sống, trong khi khoa học này lại cần thiết cho mọi lĩnh vực

hoạt động của con người

Trong bối cảnh phải đổi mới mục tiêu, chương trình, nội dung và phương pháp DH nhằm đào tạo ra những người lao động có khả năng sáng tạo, có năng lực tự học để

Trang 4

các trường đại học sư phạm, cho GV phô thông, cho cả những tác giả tham gia xây dựng chương trình và viết sách giáo khoa

2 Mục đích nghiên cứu

Theo Chevallard (1992) : “Đối tượng đầu tiên cần nghiên cứu, và do đó cần chất vấn, cần mô hình hóa, cần đặt vấn đề theo các quy tắc hoạt động khoa học không phải là người học hay người dạy, mà là tri thức toán học được họ xem như đang cùng nhau nghiên cứu, cũng như những hoạt động toán học mà dự án nghiên cứu chung của họ

sẽ dẫn đến chỗ phải thực hiện”

Thừa nhận quan điểm của Chevalard, mục đích đầu tiên mà chúng tôi đặt ra cho dự án nghiên cứu của mình là xem xét tri thức được ở góc độ tri thức toán học và ở góc độ

tri thức cần dạy Như thế, nghiên cứu của chúng tôi nhắm đến việc làm rõ một mặt là

đặc trưng khoa học luận và mặt khác là những ràng buộc, những điều kiện do thể chế quy định cho việc DH một số tri thức về Thống kê - Xác suất theo chương trình hiện đang áp dụng trong các trường THPT

Cụ thẻ, về phương diện khoa học luận, chúng tôi sẽ làm rõ :

- _ Mối liên hệ mật thiết giữa hai lý thuyết toán học Thống kê và Xác suất

- Cac cach tiép cận khái niệm xác suất của một biến có

- Nghĩa của một số tri thức thống kê được giảng dạy ở bậc phô thông

Và phía thể chế DH Việt nam, chúng tôi sẽ phân tích xem những đặc trưng khoa học

luận này đã được tính đến như thế nào bởi chương trình và sách giáo khoa hiện hành

Phân tích ấy sẽ cho phép chúng tôi hình thành nên những dự báo về ảnh hưởng của sự

lựa chọn thể chế lên thực tế DH Thống kê - Xác suất ở bac THPT

Cuối cùng, trên cơ sở những đặc trưng khoa học luận đã được làm sáng tỏ, chúng tôi

sẽ thiết kế một vài tình huống mang tính chất minh họa cho việc đổi mới phương pháp

DH (theo định hướng tích cực hóa hoạt động học tập), sự đổi mới nhắm đến việc làm thỏa mãn hơn nhu cầu khoa học luận, giúp HS hiểu nghĩa của trì thức và sử dụng

được nó vào giải quyết các vẫn đề của thực tiên

Cần phải nói rõ răng trong chương trình môn toán hiện đang áp dụng ở trường phổ thông, một sỐ yếu tố của Thống kê đã được đưa vào khá sớm, ngay từ bậc Tiểu học Nhưng, cho đến tận lớp 7 thì chương trình mới bắt đầu đề cập tương đối có hệ thống một vài khái niệm mở đầu của khoa học Thống kê mô tả Tuy nhiên đây mới chỉ là bước đầu tiên của việc DH này, và những gì có mặt trong chương trình lớp 7 đều xuất hiện lại trong chương trình toán THPT Hơn nữa, chỉ có ở THPT các nội dung về Xác

Trang 5

suất mới được giảng dạy Đó là những lý do khiến chúng tôi giới hạn nghiên cứu việc

DH Thống kê — Xác suất ở bậc THPT

3 Công cụ lý thuyết và phương pháp nghiên cứu

Đề đạt mục đích nêu trên, việc phân tích các đặc trưng của những tri thức mà chúng

tôi quan tâm sẽ được thực hiện trên hai phương diện : phương diện khoa học luận và

phương diện thể chế

Khái niệm phân tích khoa học luận và lợi ích sự phạm của nó đã được chúng tôi làm

rõ trong một đề tài cấp Bộ nghiệm thu năm 2003 [Lê Thị Hoài Châu, 2003] Khái

niệm này sẽ được sử dụng ở đây đề xem xét những tri thức mà chúng tôi quan tâm từ góc độ khoa học luận Điều đó được thực hiện qua việc phân tích lịch sử hình thành, phát triển của các lý thuyết Thống kê - Xác suất và qua việc tham khảo những giáo trình dùng ở bậc đại học, những công trình liên quan đã công bồ

và phương diện thực tế DH theo chương trình hiện hành, đề phân tích sự lựa chọn của

thể chế trong việc đưa vào những tri thức Thống kê- Xác suất mà đề tài xem xét, chúng tôi sẽ sử dụng các khái niệm của Thuyết nhân học, cụ thé là khái niệm fổ chức

toản học, quan hệ thể chế, quan hệ cá nhân với một đối tượng tri thức

Khái niệm quan hệ thê chế R(I, O) của thể chế I đối với một đối tượng tri thức O được Chevallard sử dụng để mô hình hóa các tác động qua lại mà I có với O Nó cho biết O

xuất hiện ở đâu, như thế nảo, tỒn tại ra sao, có vai trò gi, trong I Con quan hé cá

nhân R(X, O) với đối tượng trì thức O được ông dùng để chỉ những gì mà cá nhân đó biết về O, cách cá nhân đó nói về O, nghĩ về O, sử dụng O Việc học tập của cá nhân

X về đối tượng tri thức O chính là quá trình thiết lập hay điều chỉnh mối quan hệ

R(X, O) Hiển nhiên, nếu X là một thành viên của I thì quan hé R(I, O) luôn đề lại dấu

ấn đậm nét lên quan hé R(X, O)

Làm thế nào đề làm rõ các yếu tố của R(I, O) ?

Cũng theo Chevallard, mọi hoạt động xã hội đều có thể phân tích thành các praxéologie được hình thành từ những kiểu nhiệm vụ xác định Mỗi praxéologie là

một bộ gồm 4 thành phần [T, +, 0, ©], trong đó T là một kiểu nhiệm vụ, r là kỹ thuật

cho phép giải quyết T, 9 là công nghệ giải thích cho kỹ thuật r, © là lý thuyết giải thích cho công nghệ 9 Một praxéologie mà các thành phần đều mang bản chất toán học được gọi là một praxéologle toán học hay một tổ chức toán học

Liên quan đến O, trong I có những praxéologie nào ? Chúng được hình thành từ kiểu

Trang 6

cho phép ta vạch rõ cuộc sông của O trong I : nó xuât hiện ở đâu, như thê nào, đê giải quyết vấn đề gì, có vai trò, có quan hệ ra sao với mạng lưới tri thức tồn tại trong I Phân tích các tô chức toán học của chúng tôi được đặt dưới ánh sáng của nghiên cứu khoa học luận về tri thức O Qua phân tích ấy, chúng tôi sẽ tìm câu trả lời cho câu hỏi : các đặc trưng khoa học luận của O đã được tính đến như thế nào trong thể chế I ? Câu hỏi này cần được đặt ra vì việc không tính đến chúng một cách không đầy đủ sẽ

làm thu hẹp nghĩa (thậm chí có thể làm mất nghĩa) của O đối với các cá nhân X hoạt

động trong I

Cuối cùngchúng tôi sẽ thiết kế một số tình huống DH có tính đến phương pháp mô hình hóa trong DH toán, một phương pháp không thể thiếu nếu muốn sử dụng toán học vào cuộc sống hay các khoa học khác Mà sự sử dụng này thì không thê không nói đến khi bàn về DH Thống kê - Xác suất, bởi - như chúng tôi sẽ chỉ ra trong phần nghiên cứu khoa học luận, đã nói đến khoa học này là phải nói đến mô hình hóa Tất nhiên, các tình huống đó phải nhắm đến việc làm cho HS hiểu được nghĩa của tri thức

mà ta muốn dạy cho họ

Kết quả nghiên cứu của chúng tôi sẽ được trình bày trong 4 chương

Chương I dành cho việc nghiên cứu mục đích DH Thống kê và Xác suất nhìn từ đặc trưng của toán học nói chung, của các khoa học này nói riêng Câu hỏi về mục đích

DH tưởng chừng như không có gì phải bàn cãi, nhưng thực tế lại cho thấy dường như cân phải xác định rõ ràng hơn

Chương 2 trình bay kết quả đạt được của một nghiên cứu khoa học luận nhằm vạch rõ quan hệ giữa Thống kê và Xác suất, các cách tiếp cận khái niệm Xác suất và nghĩa

của một số khái niệm của Thống kê

Chương 3 trình bày tóm tắt kết quả ñghiên cứu quan hệ thể chế với những đôi tượng tri thức Thống kê - Xác suất mà đề tài đề cập đến, từ đó hình thành nên giả thuyết về

ảnh hưởng của sự lựa chọn thê chế lên quan hệ các nhân GV và HS đối với những đối

tượng này

Chương cuối cùng giới thiệu hơi đồ án sư phạm được xây đựng nhằm làm cho HS

hiểu nghĩa của những tri thức được bàn đến, qua đó nâng cao năng lực hiểu biết toán

của các em

Trang 7

Chuong 1

NGHIÊN CỨU MỤC ĐÍCH CỦA DẠY HỌC

XÁC SUAT — THONG KE

I MUC DICH CUA DẠY HỌC TOÁN

Về mục đích của DH toán, mọi nền giáo dục đều thừa nhận là phải mang lại cho HS

những kiến thức phổ thông, những kỹ năng cơ bản của người lao động, qua đó rèn luyện tư duy logic, phát triển năng lực sáng tạo, góp phần hình thành thế giới quan và nhân sinh quan đúng đắn cho các em

Van dé là cụ thể hóa mục đích ay như thế nao

Cuộc cải cách toán học hiện đại vào những năm 70 của thế kỷ trước chủ trương quán

triệt phương pháp tiên đề, lý thuyết tập hợp và ánh xạ trong DH toán ngay từ bậc phổ thông Nhưng người ta đã nhanh chóng nhận ra thất bại của cuộc cải cách này, mà

một trong những nguyên nhân là toán học được trình bày như vậy là thứ toán học hình thức, xa lạ với thực tiễn và HS không thể sử dụng được vào việc giải quyết các vẫn đề

nảy sinh từ hoạt động thường ngày của họ

Những cuộc cải cách thực hiện sau đó chuyền sang xu hướng làm cho toán học gần với cuộc sống hơn Xu hướng này vẫn tiếp tục được theo đuổi cho đến ngày nay, đặc biệt là vài thập niên gần đây, trong bối cảnh phát triển mạnh mẽ của hai cuộc cách

mạng khoa học công nghệ và xã hội

Ngày nay, bàn về mục tiêu giáo dục, quan điểm được thừa nhận rộng rãi là phải chuẩn

bị cho người học khả năng áp dụng kiến thức một cách linh hoạt vào các bỗi cảnh

và các vẫn đề mới, hình thành thói quen tự học và học tập suốt đời Quan điểm này

đã dẫn người ta đến chỗ thay đồi hình thức và tiêu chuẩn đánh giá HS Khái niệm hiểu

biết toán được hình thành từ đó

I.1 Hiểu biết toán

Trang 8

ngừng cải thiện chất lượng đào tạo PISA (Programme for International Student Assessment) do tổ chức Hợp tác và Phát triển Kinh tế - gọi tắt là OECD (Organization for Economic Cooperation and Development) tiễn hành là một trong những chương trình đó

OEDC được thành lập năm 1997 nhằm đánh giá việc chuẩn bị cho HS tuổi mười lăm đáp ứng với những thách thức của xã hội ngày nay Các chuyên gia từ những nước thành viên làm việc trong các nhóm công tác có chuyên môn giỏi và kỹ thuật tốt trong lĩnh vực đánh giá, so sánh Những công cụ đánh giá mà họ xây dựng đảm bảo có giá trị quốc tế đồng thời có cân nhắc đến chương trình và đặc trưng văn hóa của các nước thành viên OECD

Người ta đánh giá cái gì ?

Theo truyền thống, việc đánh giá HS chủ yếu dựa trên các bài kiểm tra, các kỳ thi Chăng hạn, tại Việt Nam, vấn đề đánh giá ở tầm quốc gia được thực hiện qua những

kỳ thi phân thành hai cấp độ Ở “cấp độ cao” (như kỳ thi HS giỏi), người ta coi trọng

đánh giá năng lực tư duy logic, sáng tạo của HS, thông qua việc yêu cầu họ giải một

số bài toán khó Ở “cấp độ đại trà”, nội dung đánh giá đa phần tập trung vào những yêu cầu về ghi nhớ hay áp dụng kiến thức, kĩ năng đã được rèn luyện và vận dụng các quy trình quen thuộc đề giải quyết một số bài toán tiêu biểu thường gặp trong sách giáo khoa và lớp học Những bài toán tiêu biểu ấy, dù ở “cấp độ đại trà”, ít khi được hình thành từ một vấn đề của thực tế Chăng hạn, theo quan điểm này thì gắn VỚI nỘI dung “khảo sát hàm số” dạy ở cuối bậc THPT, người ta chỉ tập trung đánh giá kỹ năng khảo sát hàm số (cho sẵn dưới dạng một biểu thức giải tích) bằng công cụ đạo hàm Dường như HS không hề được yêu cầu giải quyết một vấn đề của thực tiễn hay của khoa học khác (như Vật lý chăng hạn) trong đó nhu cầu vận dụng các kiến thức

đã học về khảo sát hàm số nảy sinh Cách dạy, cách đánh giá ấy khiến không ít HS

băn khoăn, không hiểu mình học ““khảo sát hàm số” dé lam gi

Thực tế đó hoàn toàn trái ngược với xu thế chung mà giáo dục toán tiên tiến trên thế giới đã và đang hướng tới

Chăng hạn, đối với chương trình PISA, người ta tập trung vào những việc mà HS tuổi mười lăm cần phải làm trong tương lai và tìm hiểu những gì các em có thể làm được

trên cơ sở kiến thức đã học được Người ta không chỉ đánh giá kiến thức HS thu được

mà còn xem xét khả năng áp dụng kiến thức và kinh nghiệm vào những vấn để thực

tế (chứ không phải là vấn đề tiêu biểu thường gặp trong sách giáo khoa và lớp học)

Cụ thể hơn, đánh giá PISA không nặng về mức độ năm các nội dung có mặt trong

chương trình giảng dạy, mà chú trọng vào khả năng sử dụng kiến thức đã học vào

Trang 9

thực tiễn và năng lực xử lý các tình huống mà họ có thể sẽ đối mặt trong cuộc sống sau khi rời ghế nhà trường

Liên hệ với mục tiêu DH toán, ta thấy quan điểm này hoàn toàn phù hợp với một thực

tế là đại đa số HS mà chúng ta đào tạo sau này sẽ là người sử đựng oán chứ không phải là người /àm toán (hiểu theo nghĩa nghiên cứu toán, đóng góp vào sự phát triển của các lý thuyết toán học)

Đánh giá PISA được tổ chức thường xuyên ba năm một lần Ba lĩnh vực được tập

trung đánh giá là đọc hiểu, hiểu biết toán và hiểu biết khoa học Việc xác định các

lĩnh vực đánh giá như vậy chứng tỏ người ta gán cho DH toán trong nhà trường một

ví trí quan trọng

Hiểu biết toán là gì ?

PISA tổ chức lần thứ hai vào năm 2003 với trọng tâm là hiểu biết toán có sự tham gia của 41 quốc gia, trong đó có nhiều quốc gia có nền giáo dục tiên tiến trên thế giới như

Nhật Bản, Phần Lan, Hoa Kì, Canada, Đan Mạch, Thụy Điền, Úc Đánh giá PISA

2003 tập trung vào các bài toán thực tế, tiễn xa hơn những loại tình huống và vấn đề thường gặp trong lớp học

Định nghĩa về hiéu biết toán của OECD/PISA là:

“Hiểu biết toán là năng lực của một cá nhân, cho phép xác định và hiểu vai trò của toán học trong cuộc sống, đưa ra những phán xét có cơ sở, sử dụng và gắn

kết với toán học theo những cách khác nhau nhằm đáp ứng nhu cầu cuộc sống

của cá nhân đó với tư cách là một công dân có tinh thần xây dựng, biết quan tâm

và biết phản ánh.”

Như vậy, thuật ngữ “hiểu biết toán” được dùng để nói về năng lực kết hợp một cách sáng tạo những kiến thức và kỹ năng toán học khác nhau vào các sự kiện, các vấn đề được đặt ra bởi tình huống thực tế đa dạng bên ngoài Những tình huống ấy có thể là quen thuộc hoặc không, có thể đơn giản hay phức tạp Dĩ nhiên, để kết hợp được như vậy thì tiền dé là phải có những kiến thức và kỹ năng toán học nền tảng Nhưng hiểu biết toán không chỉ là có các kiến thức và kỹ năng ấy

Định nghĩa về Jiểu biết foán nêu trên nhẫn mạnh khả năng thiết lập, giải quyết các vân đề, hay đơn giản chỉ là giải thích các hiện tượng, sự kiện xuất hiện trong những

bối cảnh khác nhau mà ở đó cần có sự can thiệp của toán học Từ bối cảnh ở đây bao

gồm không chỉ những tình huống toán học thuần túy mà cả những tình huống ngoài toán học Trong những tình huống ấy, thoạt đầu ta không thấy có cấu trúc toán học nào hiện diện tường minh, và nhiệm vụ của người giải quyết vấn đề là phải đưa ra một

Trang 10

nhận được vì thực tế không phải bao giờ cũng chỉ có một câu tra lời mà thường là tồn tại nhiều câu trả lời phù hợp với các hoàn cảnh khác nhau

Định nghĩa về điểu biết toán của PISA phù hợp với quan điểm DH tích hợp mà người

ta thường nói đến từ vài thập niên qua, theo đó, việc DH các môn khoa học phải xích lại gần nhau và gắn với thực tiễn Những chương trình cũng như những kiêu DH thiên

về kiến thức hàn lâm, xa rời thực tiễn đang dần dần bị loại bỏ

Dưới đây là vài ví dụ đã được PISA sử dụng khi đánh giá năng lực hiểu biết toán của

HS tuổi mười lăm

Xác suất dé thắng ở trò chơi này là bao nhiêu?”

(The PISA 2003, tr 28)

Ví dụ 3: Tài khoản tiết kiệm

“1000 zed được ký gửi vào một tài khoản tiết kiệm ở ngân hàng Có hai lựa chọn: có thể nhận lãi suất 4% hằng năm hay nhận ngay một phần thưởng 10 zed của ngân hàng và lãi suất 3% hằng năm

Lua chon nao là tốt hơn sau một năm? Sau hai năm ? ” (The PISA 2003, tr 32)

Những ví dụ trên cho thấy mục tiêu cần phải nhắm đến của DH toán là hình thành khả năng vận dụng những kiến thức đã học vào các tình huống của thực tiễn, những tình huống mà như chúng tôi đã nói trên, trong đó không hiện diện tường minh một mô hình toán học nào

Trang 11

I.2 Toán học hóa các tình huống thực tế (mô hình hóa)

Đề vận dụng kiến thức toán học vào việc giải quyết những tình huống của thực tế như trên, người ta phải toán học hóa tình huống đó, tức là xây dựng một mô hình toán học thích hợp cho phép tìm câu trả lời cho tình huống Quá trình này gọi là quá trình mô hình hóa toán học (mà dưới đây, để ngắn gọn, chúng tôi sẽ gọi là mô hình hóa) Theo 7 điển bách khoa toàn thư, mô hình hóa toán học là sự giải thích toán học cho một hệ thống toán học hay ngoài toán học nhằm trả lời cho những câu hỏi mà người ta đặt ra trên hệ thống này

Quá trình mô hình hóa toán học được mô tả qua 4 bước

Bước 1: Xây dựng mồ hình định tính của vẫn đề, tức là xác định các yếu tố có ý nghĩa

quan trọng nhất trong hệ thống và xác lập các qui luật mà chúng ta phải tuân theo

Bước 2: Xây dựng mô hình toán học cho vẫn đề đang xét, tức là diễn tả lại đưới dạng

ngôn ngữ toán học cho mô hình định tính Lưu ý là ứng với vấn đề đang xem xét có thể có nhiều mô hình toán học khác nhau, tùy theo chỗ các yếu tố nào của hệ thống và mối liên hệ nào giữa chúng được xem là quan trọng

Bước 3: Sử dụng các công cụ toán học đề khảo sát và giải quyết bài toán hình thành ở

bước hai Căn cứ vào mô hình đã xây dựng cần phải chọn hoặc xây dựng phương pháp giải cho phù hợp

Bước 4: Phân tích và kiểm định lại các kết quả thu được trong bước ba Trong phần

này phải xác định mức độ phù hợp của mô hình và kết quả tính toán với vẫn đề thực

tế hoặc áp dụng phương pháp phân tích chuyên gia

Ở bước này có thê xảy ra một trong hai khả năng :

e Khả năng 1 : Mô hình và các kết quả tính toán phù hợp với thực tế

Khi đó chỉ cần tổng kết lại cách đặt vấn đề, mô hình toán học đã xây dựng, các thuật toán đã sử dụng, kết quả thu được

e Khả năng 2 : Mô hình và kết quả không phù hợp với thực tế

Lúc này phải tìm nguyên nhân Có thể đặt ra những câu hỏi sau :

Các kết quả tính ở bước thứ ba có đủ độ chính xác không ?

Để trả lời, người ta phải kiểm tra lại các thuật toán, các quy trình, các tính toán đã sử

dụng Ở đây, người ta tạm chấp nhận rằng mô hình toán học (và cũng có nghĩa là mô hình định tính) xây dựng như vậy là thỏa đáng

Trang 12

Nếu chưa thì phải xây dựng lại

Với loại câu hỏi này, ta tạm chấp nhận mô hình định tính đã xây dựng, nhưng phải

xem xét lại mô hình toán học đã lựa chọn

Mô hình định tính xây dựng có phản ánh được đầy đủ hiện tượng thực tế không ?

Nêu không thì cân phải rà soát lại bước một xem có yêu tô, qui luật nào bị bỏ sót không

Các số liệu ban đầu (các thông số, hệ số) có phản ánh đúng thực tế không ?

Nếu không thì phải điều chỉnh lại một cách nghiêm túc và chính xác

(Tham khảo Bùi Thế Tâm, Trần Vũ Thiệu, 1998, tr.7, 8, 9)

Hai câu hỏi cuối đặt ra cho mô hình định tính đã được xây dựng

Mô hình định tính được một số tác giả, ví dụ như L Coulange, gọi là mô hình phỏng

thực tiễn Kết hợp giữa sơ đồ do L Coulange (1997) đề nghị và những giải thích ở

trên, ta có thể mô tả quá trình mô hình hóa qua sơ đồ sau :

Phạm vi ngoài toán học Câu hỏi trên hệ thống hay

Câu trả lời cho

Câu trả lời cho bài toán toán học

Bài toán toản học

Như thế, mô hình hóa toán học là quá trình cấu trúc lại vấn đề thực tế nhờ những khái

niệm toán học được lựa chọn một cách phù hợp, thông qua việc xây dựng mô hình

ox

phỏng thực tế băng cách “cắt tỉa” — hay ngược lại, bổ sung thực tế - để có thé gan van

Trang 13

đề ban đầu với các quy trình toán học Trong bước tìm kiếm mô hình phỏng thực tế này người ta thường phải thực hiện những việc như đặt giả thuyết, tổng quát hóa, hình

thức hóa, Bài toán toán học cuối cùng được xây dựng phải đại diện trung thực cho

bối cảnh thực tế

e Trở lại với bài toán nêu trong ví dụ l ở trên

Bat dau bang mot van dé thuc té: Đặt cây đèn ở chỗ nào trong công viên?

Xây dựng mô hình phỏng thực tiễn : Công viên có thê được thê hiện như là một tam

giác Vùng chiếu sáng của đèn là một hình tròn mà điểm đặt cột đèn là tâm Vấn đề là

phải đặt cây đèn sao cho toàn bộ tam giác nằm trong hình tròn

Chuyển về bài toán toán học : xác định tâm của đường tròn ngoại tiếp tam giác Dùng kiến thức tâm về tâm đường tròn ngoại tiếp tam giác các đường trung trực dé giải bài toán : dựng hai đường trung trực của hai cạnh tam giác Giao điểm của hai đường trung trực là tâm của đường tròn

Liên hệ kết quả này với công viên thực tế Chăng hạn, nêu một trong ba góc của công viên là tù, thì lời giải này không hợp lý vì cây đèn sẽ nằm ra ngoài công viên Nếu ba góc của tam giác đều nhọn thì vẫn còn phải biết bán kính đường tròn ngoại tiếp tam giác có vượt quá bán kính chiếu sáng của đèn không

Như vậy là cần phải biết hình dạng, các kích thước của tam giác và bán kính chiếu

sáng của đèn Tìm hiểu những thông tin bổ sung này rồi lại chuyển về bài toán toán

hoc

e Đối với tình huống Trò chơi hội chợ, làm thế nào dé giải quyết ?

Trước hết, cần phải nhận ra rằng xác suất để thắng phụ thuộc vào nhiều yếu tố : khoảng cách từ chỗ đứng ném đến bảng ô vuông, số ô vuông của bảng, kích cỡ tương ứng của các ô vuông và đồng xu, (xác định các biến số quan trọng) Kế đến, để chuyên dịch vấn đề thực tế thành bài toán, phải hiểu yếu tố đầu tiên cần xét đến là mối quan hệ giữa một hình vuông và một hình tròn nhỏ hơn (cắt gọt bớt thực tế) Lúc đó, kích thước các hình này là quan trọng và ta giả định là đã biết (bồ sung thông tin) Gia

sử bán kính của đồng xu là 3cm và cạnh của hình vuông là 10cm Để thắng, tâm của đồng xu phải cách mỗi cạnh ít nhất 3cm - nếu không thì cạnh của hình vuông sẽ cắt đồng xu Muốn thế thì tâm của đồng xu

tâm với hình vuông lớn và có cạnh bằng ⁄2 oy)

» , " : \ : } 3 3

4 (khoảng cách giữa hai cạnh song son Ạ ang 8 q g song ANE —À, Thủy /

Trang 14

hình vuông nhỏ và lớn (trong ví dụ là 16/100)

Trở lại với thực tê : xác suât trên chưa tính đên các yêu tô như sô ô vuông của bảng, khoảng cách từ chỗ đứng ném đến bảng, Muốn trả lời câu hỏi thì phải thực hiện một số lớn lần thực nghiệm và quan sát tần suất thắng cuộc

I.3 DH mô hình hóa và DH bằng mô hình hóa

Đề nâng cao năng lực hiểu biết toán cho HS, không thê coi nhẹ việc DH cách thức

xây dựng mô hình toán hoc dé giải quyết một vấn đề nào đó do thực tiễn đặt ra Đối

với các nhà toán học, mô hình ấy thường là chưa tồn tại, hoặc đã tồn tại nhưng không

cho phép giải quyết mọi trường hợp, hay ngược lại, không mang đến lời giải tối ưu cho một lớp các trường hợp đặc biệt nào đó Việc tìm ra mô hình mới của họ thường

dẫn đến một phát minh mới (một khái niệm, một định lý mới) Đối với GV, mô hình

ấy đã tồn tại Điều đó dẫn đến chỗ việc DH có thê được tổ chức theo hai tiến trình:

- Trình bày tri thức toán học lý thuyết (giới thiệu định nghĩa khái niệm hay định lý, công thức) -> Vận dụng tri thức vào việc giải quyết các bài toán thực tiễn, ở đó phải xây dựng mô hình toán học

- Xuất phát từ một vấn đề thực tiễn > Xây dựng mô hình toán học —> Câu trả lời cho

bài toán thực tiễn —> Thê chế hóa tri thức cần giảng dạy bằng cách nêu định nghĩa hay định lý, công thức —> Vận dụng vào giải các bài toán thực tiễn khác mà tri thức đó cho phép xây dựng một mô hình toán học phù hợp

Tiến trình DH thứ nhất, gọi là DH mô hình hóa, tiết kiệm được thời gian nhưng lại

làm mat đi nguồn gốc thực tiễn của các tri thức toán học, và do đó làm mất nghĩa của tri thức Hơn nữa, trong trường hợp này, một cách rất tự nhiên HS sẽ không lưỡng lự

gì và hướng ngay đến việc xây dựng một mô hình toán học phù hợp với tri thức vừa

đưa vào Liệu vượt ra khỏi bối cảnh này, họ có thé xây dựng được mô hình toán hoc

phù hợp hay không ?

Tiến trình thứ hai, bản chất là DH roán thông qua DH mô hình hóa, cho phép khắc

phục khiếm khuyết này Ở đây tri thức cần giảng dạy sẽ hình thành từ quá trình nghiên cứu các vấn đề thực tiễn, nảy sinh với tư cách là kết quả hay phương tiện giải

quyết vấn đề Người ta gọi đây là DH bằng mô hình hóa (Tham khảo [3], tr.171-

172)

Trang 15

Il MUC DICH CUA DAY HỌC XAC SUAT — THONG KE

Xã hội cung cấp một lượng thông tin phong phú, đa dạng, thường là chính xác hoặc

tương đối chính xác và được trình bày một cách khoa học hoặc không Người ta có

thể rút ra những kết luận nào từ thông tin được cung cấp ? Câu trả lời liên quan đến phương pháp phân tích thông tin

Ngoài ra, trong cuộc sống hằng ngày chúng ta thường gặp những hiện tượng không

chắc chắn : kết quả bầu cử không đúng với dự kiến, dự báo thời tiết không đáng tin

cậy, chỉ số suy thoái của thị trường chứng khoán, khả năng phát triển một lĩnh vực

nào đó, những mô hình kinh tế không hiệu quả, và nhiều biểu hiện khác của tính

không chắc chắn trong thế giới của chúng ta

Nghiên cứu phương pháp phân tích thông tin và tính không chắc chắn liên quan hai chủ đề : dữ liệu và cơ hội Đó chính là nội dung nghiên cứu của Thống kê và Xác suất Chính vì thế mà ở nhiều nước các kiến nghị gần đây liên quan đến vấn đề giảng dạy toán trong nhà trường đều có nhất trí cao đối với việc nên gán cho Thống kê và Xác suất một vị trí nổi bật hơn so với những chương trình của quá khứ

Có lẽ vì thế mà PISA xem /ính không chắc chắn là một trong bốn ý tưởng bao quát nội dung toán giảng dạy ở các trường phô thông trên thế giới

II.1 Mục đích của DH Thống kê

Việc giảng dạy Thống kê không thể chỉ nhắm vào các công thức, vì Thống kê không đơn thuần là một tập hợp kĩ thuật Đằng sau những kỹ thuật này là tư duy, là cách nắm bắt các đữ liệu, đặc biệt là nhận thức được sự tồn tại của những cái không chắc chắn,

hệ quả của sự thay đổi thông tin và việc thu thập dữ liệu DH Thống kê phải mang lại cho người học khả năng đưa ra quyết định trong những tính huống không chắc chắn

Cụ thê hơn, qua nghiên cứu chương trính toán ở bậc trung học của Cộng đồng pháp ngữ Bi, Bair và Hasbroeck (2002) cho rằng:

“DH Thống kê ở bậc trung học cần đặc biệt nhắm đến việc đào tạo toán học cho

công dân: bởi vì mỗi người nhận được vô số thông tin đa phương tiện dưới dạng

Trang 16

số liệu hoặc biểu đồ, nên họ cần phải có khả năng hiểu, làm sáng tỏ và nhận định

các thông tin.”

Quan điểm giảng dạy Thống kê với mục đích rèn luyện tư duy không chỉ được thừa nhận ở Bỉ mà nó còn được chia sẻ ở các nước khác, ví dụ ở Pháp:

“Đảo tạo công dân: mọi người đều phải đối diện với vô vàn thông tin khác nhau;

DH Thống kê phải phát triển ở họ những khả năng phân tích và tổng hợp thông tin, cho phép họ có một cái nhìn phán xét về những thông tin này.” [Duperret, 2002]

Theo Duperret (2002), việc DH Thống kê cần nhắm đến 3 cấp độ

Cấp độ đầu tiên: Hiểu sự biến đổi của thông tin, phân tích một cách chính xác, thận trọng

Cấp độ thứ hai: Biết so sánh các dãy đữ liệu Đây là một trong những vấn đề cơ bản

của Thống kê mô tả, có thể thực hiện theo các cách thức sau:

- So sánh (định tinh) dựa trên các biểu đồ Thống kê

- So sánh dựa vào các chỉ số “tóm tắt” mẫu dữ liệu, ví dụ như các chỉ số định tâm (trung bình, trung vi, mốt), các chỉ số định độ phân tán (phương sai mẫu, độ lệch

chuẩn mẫu),

- So sánh (định lượng) dựa trên chỉ số tương quan giữa hai mẫu số liệu

Cấp độ thứ ba: Chuyển vào Thống kê suy diễn Đây là nơi của sự mô hình hoá, mở

rộng thông tin nhận được cho một trong một phạm vi rộng lớn hon Cấp độ này đặt ra

hai vấn đề: sự hợp thức của mô hình đã chọn lựa và kiểm soát các nguy cơ có thể gặp phải Quá trình mô hình hoá đòi hỏi một sự quay đi-trở lại giữa một bên là “thực tiễn”

và một bên là “mô hình toán học”

Với ba cấp độ trên, người học có thể hình thành được tư duy Thống kê: biết quản lí

một số lượng lớn các thông tin và phân tích chúng, biết so sánh các tập hợp thông tin, biết mô hình hoá toán học những thông tin này đề từ đó rút ra kết luận “phù hợp”

II.2 Mục đích của DH Xác suất

e Hiện tượng ngẫu nhiên và tính không chắc chắn tồn tại khắp quanh ta và nghiên cứu

chúng hiển nhiên là một nhu cầu của cá nhân, của xã hội Trong lịch sử, lý thuyết Xác

suất ra đời cũng chính từ nhu cầu này Đáp ứng nhu cầu ấy là mục đích đầu tiên cần phải nói đến khi bàn về việc đưa vào chương trình phổ thông một số nội dung của lý thuyết Xác suất - ngành toán học nghiên cứu quy luật của các hiện tượng ngẫu nhiên

và không chắc chắn

Trang 17

Định nghĩa này có vẻ như mâu thuẫn, vì người ta thường hiểu từ ngấu nhiên, không chắc chắn nghĩa là không có quy luật Một biến có ngẫu nhiên sẽ có thê xây ra hoặc không xây ra và như thế thì tại sao lại có thể có một lý thuyết cho phép dự đoán kết qua ?

Thực ra thì khi xem xét một lượng lớn các biến cố ngẫu nhiên độc lập cùng loại (mỗi một trong đó có thể xây ra hoặc không xấy ra) người ta nhận thấy tính ồn định thống

kê của tần suất Chứng tỏ các biến có xẩy ra tuân theo những quy luật xác định Việc nghiên cứu chúng chính là nội dung của lý thuyết Xác suất

e Hơn thế, như chúng tôi sẽ chỉ ra trong chương 2, Thống kê và Xác suất là hai lý thuyết có mối quan hệ mật thiết, không thê tách rời Đây chính là lý do thứ hai biện minh cho sự cần thiết - và cũng nói lên một mục đích quan trọng - của việc giảng dạy Xác suất ở trường phố thông Nếu như mục dich cua DH Thống kê là cung cấp công

cụ cho việc nghiên cứu các khoa học khác (sinh học, y học, kinh tế) và đào tạo công

dân, thì các tính toán Xác suât lại là kiên thức cân có đê làm chủ những công cụ này

II.3 DH Thống kê - Xác suất với mục đích nâng cao năng lực

hiểu biết toán

Cần nhắc lại rằng Thống kê - Xác suất là lĩnh vực toán học có mối liện hệ chặt chẽ

với thực tiễn Nói đến Thống kê - Xác suất là nói đến thực tiễn DH Thống kê - Xác

suất trước hết nhằm mang lại những kiến thức, kỹ năng cần thiết cho hoạt động thực

tiễn của một « công dân có tỉnh thần xây dựng, biết quan tâm và biết phản ánh » Day

là mảnh đất màu mỡ có thể khai thác trong mục đích hình thành năng lực hiéu biét toán và rèn luyện phương pháp mô hình hóa (toán học hóa các tình huống thực tiễn) cho HS Không phải không có lý do mà có ý kiến cho rằng nói đến DH Thống kê -

Xác suất là nói đến DH mô hình hóa và DH bằng mô hình hóa.

Trang 18

Chương 2

MỘT NGHIÊN CỨU TRI THỨC LUẬN

Nghiên cứu tri thức luận về những đối tượng tri thức mà chúng tôi quan tâm được tiến hành qua ba nghiên cứu thành phần mà kết quả sẽ được trình bày tóm lược ở ba phần đầu tiên của chương

Trước hết, thông qua việc phân tích lịch sử hình thành các lý thuyết toán học Thống

kê và Xác suất, chúng tôi sẽ làm rõ mối liên hệ mật thiết giữa hai lý thuyết này

Thực tế cho thấy hiểu biết của GV về mối liên hệ ay không nhiều, khiến cho việc DH Thống kê - Xác suất thiếu sự gắn kết cần có Đó là một trong những lý do dẫn chúng

tôi đến chỗ tiền hành nghiên cứu thứ nhất này

Ở hướng nghiên cứu thứ hai chúng tôi sẽ làm rõ những đặc ứrưng khoa học luận của khái niệm xác suất Như thế, mục đích không phải là phân tích lịch sử của toàn bộ lý thuyết Xác suất — một nghiên cứu vượt quá phạm vi đề tài của chúng tôi với mối quan tâm được giới hạn trong những nội dung về Xác suất được giảng dạy ở trường phổ thông Chăng những thế, ngay cả đối với khái niệm Xác suất của một biến cố, chúng tôi cũng không tiến hành phân tích lịch sử, vì - may mắn thay, các công trình của một

số tác giả như Michel HENRY, Jean-Francois PICHARD, da c6 thé cho gitp chúng tôi xác định được đặc trưng khoa học luận của khái niệm này Một vài giáo trình đại học về phần Xác suất cũng được chúng tôi sử dụng cho phần thứ hai

Đặc trưng khoa học luận của một số tri thức thống kê được đưa vào giảng dạy ở phổ thông là mục đích của hướng nghiên cứu thứ ba Ở đây, ngoài việc nghiên cứu lich sử, chúng tôi cũng tìm cách tiếp cận vấn đề từ các giáo trình đại học, các tác phẩm toán học

Sau khi đã trình bày kết quả của ba nghiên cứu thành phần, chúng tôi dành phần thứ

tư của chương để đề cập đến những kết luận sư phạm rút ra từ đó và từ những công trình đã công bố ở Pháp : những khó khăn, chướng ngại và vấn đề mô hình hóa trong

DH Thống kê và Xác suất.

Trang 19

I PHAN TICH LICH SU’ HINH THANH

CAC LY THUYET THONG KE VA XAC SUAT:

MOI LIEN HE GIU’A CHUNG

I.1 Nguồn gốc của Thống kê

Nói chung, mọi lý thuyết toán học không được hình thành thuần túy từ suy lý mà

ngược lại, đều nảy sinh trong một bối cảnh đặc biệt, gắn liền với nhu cầu thực hành và trình độ phát triển của toán học Thống kê không vượt khỏi logic này : nguồn gốc của

nó là những vấn đề của thực tiễn, vả sự phát triển của nó về sau được đặt trong môi

trường toán học của những năm cuối thế kỷ XIX, một môi trường đã cung cấp cho nó những khái niệm, những công cụ cần thiết, trong đó không thể không nói đến lý thuyết Xác suất

Nói một cách chính xác thì Thống kê trước hết là Thống kê mô tả và thuở ban đầu nó

đã được hình thành từ việc quan sát các sự kiện

Từ Thống kê có gốc latin 1a s/aisficwmn, đã có từ thời cổ đại Tuy nhiên, nhu cầu

thống kê bằng những con số chỉ thực sự xuất hiện sau này, khi người đứng đầu nhà nước muốn biết những yếu tố chứng tỏ sức mạnh của mình (dân số, quân đội, của

cải, ) Ý tưởng lập danh sách những yếu tố đó hình thành khá tự nhiên, khoảng

3000 năm trước Công nguyên

I.2 Những ý đồ ngoại suy đầu tiên

Vào thế kỷ XIII các dữ liệu trở nên rất nhiều nhờ sự sinh sôi của quốc khó Đến thế kỷ XIV người ta bắt đầu có những ghi chép đề lưu giữ các yếu tố về hộ tịch : số người sinh ra, số đám cưới, số người chết, .Thế nhưng, trong suốt thời kỳ này thì Thống kê chỉ mang tính chất hành chính, hoạt động điều tra còn rất hiếm hoi

Những tiến bộ cơ bản của Thống kê xuất hiện ở nửa sau của thế kỷ XVII, từ nhu cầu

biết và giải thích các hiện tượng của kinh tẾ, xã hội GIai đoạn này trùng với giai đoạn

phát triển của ứrường phái chính trị số ở Anh, báo trước sự ra đời của Thống kê suy

diễn Trường phái nảy, do John Graunt (1620 — 1674) và William Petty (1623 — 1687) sáng lập, bận tâm đến việc định lượng và nghiên cứu những bất biến trong tập tính xã hội, những ứng xử cho phép đánh giá và dự báo trước : số con của một phụ nữ,

Trang 20

Chắng hạn, phương pháp ước lượng dân số của W Petty duge Jaqueline Hecht mé ta trong bài báo Pour une histoire đe la sfafisfique (1987) như sau :

“Ông đánh giá trước hết số nhà ở London vào năm 1686 là 88000 Thiết lập một

số trung bình về tý lệ giữa số gia đình với số nhà ở Dublin và Bristol, ông đánh giá số gia đình ở London là 105000, gần như tương đương với con số chính thức của văn phòng quản lý hộ tịch (105315) Bằng cách giả sử là mỗi gia đình trung

bình có 6 thành viên và 10% số nhà là nơi trú của hai gia đình, số còn lại chỉ có I

gia đình, ông suy ra rằng 105000 ngôi nhà ở London là nơi trú ngụ của 695700 người dân.”

Kỹ thuật ngoại suy này - còn gọi là kỹ thuật nhân — nhanh chóng mang lại những thành công lớn, tạo điều kiện cho những cuộc điều tra trên một bộ phận, góp phần đây lùi các cuộc điêu tra “không 16”

Song song với hoạt động của #rường phái chính trị số tại Anh, ở Pháp thời kỳ này

cũng có hai tên tuổi đáng nhớ, Colbert và Vauban Năm 1664, phối hợp với những

người đứng đầu tỉnh thực hiện một cuộc điều tra quốc gia, Jean Baptiste Collebert (tac

giả cuốn sách Phương pháp tổng quát và dễ dàng đề đếm dân số công bỗ năm 1686)

đã khuyên sử đựng mẫu về những vùng đất có thê cày cây của mỗi tinh dé đánh giá tốt nhất khả năng nông nghiệp của tỉnh

Phương pháp thay thế những điều tra trên tông thể bởi điều tra trên bộ phận là căn nguyên dẫn đến chỗ người ta phải tìm ra các yếu tố để biện minh cho phương pháp

Sự xuất hiện của các tính toán Xác suất cung cấp cho Thống kê các yếu tố đó Chúng

ta sẽ nói đến điều này khi phân tích lịch sử hình thành lý thuyết xác suất

Một trong những người đặt nền móng cho khoa học Thống kê toán là Adolphe Quétlet (người Bỉ) Ông đã hình dung một cách rõ ràng rằng Thống kê có thê dựa trên những tính toán Xác suất Là một “tín đồ” của sự chính xác, nhưng - dù chưa đi đến chỗ ưu tiên cho những nhận định rút ra từ một mẫu, ông cũng đã chấp nhận sự khái quát hóa các kết quả thu được trên một bộ phận cho tổng thể, ví dụ như tỉ lệ người chết quan sát được ở tầng lớp những người có thu nhập cao (nhưng ông lại từ chối sự khái quát hóa tỉ lệ bé trai do những người phụ nữ đứng đắn sinh ra)

Dù việc nghiên cứu tổng thể có những ưu thế của nó, sự xem xét trên bộ phận không biến mắt trong quan điểm của các nhà thống kê học Jean-Baptis Fourier đã đóng vai trò tích cực trong sự phát triển của Thống kê Ông đã tiến hành nhiều nghiên cứu về

thủ đô Paris Cuối thế kỷ XIX ông đã nghiên cứu về lương của những người làm việc

ở Pháp thời kỳ 1891-1893 thông qua điều tra trên một mẫu chiếm 1/5 dân só

Vào cuối thế kỷ XIX, đường như mọi thứ đã sẵn sàng cho sự phát triển của quan điểm nghiên cứu trên mẫu : kinh nghiệm thực hành đã có — chủ yếu về nhân khẩu học ; lý

Trang 21

thuyết Thống kê đạt được nhiều thành tựu ; nhu cầu ngày càng cao về việc có những

con số phản ánh tình hình xã hội, kinh tế, ý kiến đân chúng, của các nhà nước

Cùng với châu Âu, Mỹ là cực chủ yếu tiến hành các cuộc điều tra nảy sinh từ mong muốn có thông tin, nếu được thì định lượng, về ý kiến, về suy nghĩ của dân chúng Các cuộc điều tra này đã xuất hiện ở Anh, Pháp, nhưng nhiều nhất vẫn là ở Mỹ, vào dịp bầu cử tổng thống Một sự kiện mấu chốt liên quan đến quan điểm thừa nhận điều tra trên mẫu : ngày 31/11/1936, ngày công bố kết quả bầu cử Trong khi Literary Digeste, bằng phương pháp điều tra “bỏ phiếu cọng rơm” - thực chất là một lần bỏ phiếu không chính thức, dự báo rằng chiến thắng sẽ thuộc về Landon, thì F.D

Roosevelt lại là người trúng cử Nhân vật này đã nhận được phiếu thuận ở ba cuộc

điều tra thực hiện độc lập với nhau bởi ba người Ba nghiên cứu của họ được tiến hành theo một phương pháp lựa chọn rất chính xác : người ta phỏng vấn những cá nhân đã được lay ra theo tỷ lệ phần trăm, gọi là phương pháp “nước Mỹ thu nhỏ” Sau sự kiện này, phương pháp điều tra trên tổng thể (kích thước lớn) biến mất Nhiều nước điều tra ý kiến dân chúng theo phương pháp mẫu và thậm chí Hội thảo quốc tế đầu tiên về Thống kê đã được tô chức ở Paris năm 1947

I.3 Cuộc tranh luận về tính đại diện (1895 — 1925)

Khái niệm fính đại điện của một kết quả hay của một mẫu là một khái niệm mới Mặc

dầu Condorcet thỉnh thoảng đã chú ý đến điều này, nhưng dường như người đầu tiên

sử dụng nó là Jean-Bapstiste Say, người đã khăng định tính không đại diện của tỷ lệ người chết quan sát từ tầng lớp giàu có đối với toàn thể dân chúng — trường hợp ngoại suy mà Quételet đã bảo vệ trước đây

Cuộc tranh luận về tính đại diện hình thành ở Viện Thống kê quốc tế (thành lập ở

London ngày 24 tháng 6 năm 1885) Nó bắt đầu bằng những báo cáo của Anders Nicolai Kiaer, giám đốc Văn phòng trung tâm Thống kê của Vương quốc Na Uy, tại Hội thảo năm 1895 ở Berne do Viện Thống kê quốc tế tổ chức Kiaer không xác định

tiên nghiệm tính đại diện, nhưng đã kiểm tra hậu nghiệm điều đó thông qua việc so sánh cấu trúc của mẫu với cấu trúc có được từ một cuộc điều tra tổng thể Ông đặt ra

câu hỏi:

“ Một Thống kê với tư cách là đại diện phải được thực hiện như thế nào để nó

là hình ảnh thu nhỏ chính xác đến mức có thể được của toàn thể xã hội ?

Mặc dầu Kiaer đã phòng ngừa trước, ông vẫn bị những người tham dự Hội thảo phản đối kịch liệt Francais Emile Levasseur nói:

Trang 22

“Chang lẽ giữa Thống kê toàn bộ với các nghiên cứu chuyên khảo lại có vị trí cho một phương pháp thứ ba ? [ ] những nghiên cứu Thống kê dựa vào Thống

kê bộ phận được áp dụng không phải cho tổng thể mà chỉ là cho một số xác định

Kiaer đã nhận được sự ủng hộ của Bortklewlez, giáo sư của đại học Berlin, người đưa

ra gợi ý sử dụng các tính toán Xác suất để kiêm chứng bằng Thống kê sự chênh lệch tồn tại giữa phân bố của mẫu với phân bố của tông thê trên các biến cơ bản (ông gọi là biến chìa khóa) ŸÝ kiến của Bortkiewiez, đánh dấu bước quan trọng đầu tiên của việc đưa Xác suất vào các nghiên cứu Thống kê liên quan đến mẫu đại diện

Kiaer còn nhận được sự ủng hộ của Carroll Wright, của Bộ trưởng Bộ lao động Mỹ Ông Bộ trưởng, trong một bức thư gửi cho Hội đồng phụ trách các nghiên cứu về phương pháp đại điện đã khắng định sự đúng đắn của kỹ thuật Kiaer, thường xuyên được sử dụng thành công ở Mỹ

Sau năm 1925, các cuộc tranh luận không còn là câu hỏi “có mẫu hay không” mà là

“làm thế nào để lấy ra được một mẫu ?” Cuộc tranh luận đã nhanh chóng đi đến chỗ

phân biệt mẫu ngẫu nhiên (chọn ngẫu nhiên) với mẫu có suy tính (chọn hợp lý, có tính

toán, cân nhắc)

Cùng thời kỳ này ở Nga người ta cũng đã nghiên cứu việc chọn mẫu ngẫu nhiên Năm

1425 A.G Kovalevsky công bố một cuốn sách mà sau này được lấy làm cơ sở về lý thuyết cũng như về thực hành cho các cuộc điều tra

I.4 Lịch sử lý thuyêt xác suât

“Bàn về suy diễn Thống kê mà không nói đến sự tiến triển của khái niệm Xác suất là vô nghĩa Người ta không thê nào hiểu được cái này mà không nhìn thấy tầm quan trọng của cái kia.” (Jaque Droesbeke và Philippe Tassi, tr 22)

Khai niém “xac suat”

Về nguồn gốc, khái niệm xác suất hình thành từ trò chơi ngẫu nhiên đã lưu truyền trong dân gian thời cô đại Nhưng lý thuyết xác suất chỉ thực sự được hình thành kê từ đầu thế kỷ XVII Gắn với sự ra đời của lý thuyết này là là tên tuổi của hai nhà toán

21

Trang 23

hoc Blaise Pascal (1623 — 1662) va Piere De Fermat (1601 — 1665), những người đã

giải bài toán chia tiền cá cược trong một trò chơi chưa kết thúc

Bài toán được tóm tắt như sau : Hai người chơi một trò chơi ngẫu nhiên, trong đó sự khéo léo và trí thông minh không tác động đến kết quả Họ thỏa thuận với nhau là người đầu tiên thắng một số ván nào đó theo quy định sẽ là người thắng cuộc và được lây toàn bộ số tiền đặt cược của cả hai người Giả sử họ phải ngừng trò chơi khi chưa

phân thắng bại Làm thế nào đề phân chia một cách công minh tiền đặt cược ?

Bài toán chia tiền cá cược giống với vẫn đề chia tài sản thừa kế hay quyền lợi có từ

các vụ làm ăn kinh tế Để vấn đề trở thành một bài toán toán học có lời giải hợp lý

người ta đã trải qua một thế kỷ rưỡi mò mẫm

Cùng với Pascal và Fermat, thời kỳ đó còn có những công trình khác đề cập đến vấn

dé nay, chang han Christiaan Huyghen (1629 — 1695) vào những năm 1650-1660 cũng đã biên soạn tác phâm De racioeimiis in aleoe ludo trong đó có nói về kỳ vọng

toán và đưa vào khái niệm mẫu có hoặc không hoàn lại Tuy nhiên, định nghĩa chúng

ta dùng ngày nay về xác suất không phải do Pascal, Fermat hay Huyghens đưa ra mà phải đến 1814 mới được Pierre-Simon Laplace trình bày trong Essưi Philosophique sur les Probabilités Chúng tôi sẽ không trình bày ở đây phần phân tích quá trình giải

quyết bài toán và sự hình thành nên khái niệm Xác suất

Định nghĩa do Laplace nêu ra là :

“Xác suất của một biến cố bằng tỉ số giữa số trường hợp thuận lợi với số trường hợp có thé.”

Đây là một định nghĩa tường minh của xác suất dựa trên giả thiết về sự đồng xác suất

Nó được gọi là định nghĩa cô điển vì việc xem xác suất là tỉ số này đã được Pascal, Fermat hay Huyghens nói đến trước đây (bấy giờ nó chưa có tên gọi chính thức là xác suất như Laplace nêu lên) Trong định nghĩa của Laplace, không gian mẫu phải hữu hạn và các biến cố phải đồng khả năng xây ra Để sử dụng định nghĩa này, người ta cần đến các kiến thức của Đại số tổ hợp

Nhưng nếu một trong hai điều kiện của định nghĩa không được đáp ứng thì làm thế nào ?

Chính Jaque Bernoulli đã chỉ ra điểm hạn chế của cách tiếp cận theo định nghĩa trên : người ta không thể sử dụng nó đề nói về các hiện tượng tự nhiên phức tạp như “sự

xuất hiện một bệnh hay các hiện tượng về khí tượng, hoặc dự đoán các chiến lược của

người chơi mà cách hoạt động là không thể đoán trước.”

Đề ước lượng xác suất trong bối cảnh này, Bernoulli đề nghị xác định hậu nghiệm xác suât của biên cô mong đợi sau khi quan sát thây sự ôn định của tân suât xuât hiện một

Trang 24

kết quả khi tiến hành thực nghiệm một số lớn phép thử giống nhau Trích đoạn dưới

đây của Bernoulli gợi ra phương pháp tiến hành thống kê:

“Nhưng thực ra ở đây, chúng ta còn một con đường khác để có được cái mà chúng ta tìm Điều gì không có được ở tiên nghiệm thì tối thiểu cũng phải nhận được ở hậu nghiệm, nghĩa là có thể khai thác nó bằng cách quan sát các kết cục của nhiều ví dụ tương tw; .”

(Bernoulli, 1713, tr.42-44, trích theo Coutinho, 2001, tr.39)

Điều này đã dẫn Bernoulli đến việc ước lượng tần suất cho khái niệm xác suất Phương pháp của ông có một ý nghĩa quan trọng, bởi từ chỗ chỉ có thé tính xác suất tiên nghiệm cho trường hợp các biến có đồng khả năng xuất hiện người ta đã ước lượng được xác suât của những biên cô phức tạp hơn như tác giả nói

Vấn đề còn lại mà Bernoulli chưa làm sáng tỏ được là xác định số thí nghiệm cần thiết

để phỏng đoán một xác suất Moivre và sau này là Laplace đã tìm cách giải quyết van

đề đó Henry ghi nhận lại kết quả của hai ông như sau:

“Định lý Moivre-Laplace sau này cho phép đưa ra một giá trị tương đương với xác suất P (F -e< p<E +) nên cũng cho phép tính được con số lý tưởng các thí nghiệm cần thực hiện để có độ chính xác e vả độ tin cậy I-œ cho trước

Chang hạn, với độ chính xác 3% và độ tin cậy 95% (œ = 5%) thì các điều tra

thông thường hiện nay có thể phỏng đoán được xác suất với kích thước mẫu thử vào khoảng 1000.”

(Henry, 2004, tr.8)

Liên quan đến trường hợp không gian các biến cố sơ cấp là vô hạn, còn có định nghĩa hình học của xác suất được hình thành từ các công trình của Buffon với 7rỏ chơi

2 VÀ z A oA +3 ^ Row

Franc-Carreau’ va bai toan vé cay kim”, công bô năm 1733

Chúng tôi sẽ trở lại với định nghĩa khái niệm Xác suất của một biến cố ở phần Il

Lý thuyết sai số

Gắn với lịch sử hình thành lý thuyết Xác suất còn phải nói đến J) thuyét sai số

Vào thế kỷ XVIII, khoa học thiên văn nhắm tới mục đích sử dụng các số đo thực

nghiệm để xác định vị trí của một đối tượng trên bầu trời Năm 1632 Galilé dựa vào

78 số đo do 13 nhà quan sát cung cấp Những người này quan sát ở nhiều nơi khác

? Tung đồng franc lên một nền lưới các ô vuông bằng nhau thì đồng tiền có thể nằm lọt trong một ô

vuông hoặc nằm trên các đường lưới

? Tung cái kim xuống nền gồm những đường thắng song song cách đều thì kim có thể nằm trọn giữa

hai đường song song hoặc cắt ít nhất một đường thẳng

23

Trang 25

nhau Galilé đã nói rõ là dù họ quan sát rất giỏi thì vẫn luôn tạo ra sai số, và vấn đề là các sai số này phải được “sửa” sao cho có thê thu được những thông tin tốt nhất từ

những quan sát đã thực hiện Luật Xác suất về các sai số hình thành với mục đích chỉ

ra lợi ích của rung bình số học của những giá trị quan sát được trong việc ước lượng một tham số Về bài toán này, Simpson có những đóng góp quan trọng Chính ông đã đưa ra luật đơn điệu rời rạc : nêu p„ là xác suất gắn với giá trị x thì luật này được định nghĩa bởi :

¬

2a+1

Ong còn đưa ra thêm luat /udt tam gidc roi rac các sai số Sau đó, bằng cách chuyền

qua giới hạn, ông có luật tam giác liên tục các sai số

Giai doan sau do, nhiéu nha toan hoc (Lagrange, Lambert, Laplace, .) gop phan quan trọng cho sự phát triển của các lý thuyét Thong ké va Xac suat Lagrange ciing trình bày một số luật liên tục khác như phân phối chuẩn, phân phối cosinus, phân phối parabol

Như đã nói trên, trong phần thứ tư của cuốn sách Ars Conjectandi Bernoulli đã đặt ra

câu hỏi về việc tính Xác suất để nhận được mặt ngửa khi tung một đồng xu không cân

đối Ông tìm thấy câu trả lời cho câu hỏi bằng cách chỉ ra rằng nếu thực hiện một số lớn lần phép thử thì tần suất xuất hiện mặt sắp tiến dần tới một đại lượng p có thể xem

như xác suất nhận được kết quả này Đó chính là dạng ban đầu của luật số lớn

Song song với các nghiên cứu của Nicolas Bernoulli, còn có công trình #ọc thuyét vé

co hdi (The Doctrine of Chances) cua Abraham de Moivre (1667 — 1754) được công

bố vào năm 1718 Tac phẩm này là một xử lý thuần toán học, đã thực sự vận dụng

giải tích vào lý thuyết xác suất Chính là từ việc nghiên cứu vấn đề do Bernoulli đặt ra

mà Abraham de Moivre khám phá ra một công thức gần đúng của phân phối nhị thức Ông cũng là người đã khám phá ra định lý giới hạn trung tâm

Như đã nói từ đầu, đi sâu phân tích các thành tựu này không phải là mục đích nghiên cứu của chúng tôi Điều cần nói ở đây là các luật, các định lý này đã tạo nên mối liên

hệ mật thiết giữa Xác suất với Thống kê, cho phép Thống kê chuyền từ phạm vi mồ fđ vào phạm vi sy điễn Trước hết, ching tao nén nhimg co sé quan trong cho Ly thuyét mau, ly thuyết giải quyết bài toán chọn mẫu sao cho nó có thể đại điện cho quan thé rộng hơn mà người ta muốn nghiên cứu Tiếp sau đó, chúng là cơ sở cho việc giải quyết hai vấn đề quan trọng của Thống kê suy diễn — vấn đề ước lượng các tham số của tông thê (từ giá trị của tham số của mẫu) và vấn đề kiểm định những giả thuyết rút

Trang 26

ra từ phân tích thông tin thu được trên mẫu Chúng tôi sẽ dành một phần riêng đề đề cập đến ba bài toán này

Lý thuyết xác suất hiện đại

Định nghĩa cổ điển của Laplace và định nghĩa theo tần suất của Bernoulli thiên về kỹ thuật tìm xác suất của một biến cố Thế nhưng đó là cái gì ? Cho đến thế kỷ XIX, người ta cũng chỉ có những giải thích khái niệm này theo kiểu “Xác suất trong thực tế

là mức độ chắc chắn ”, “Dự đoán một điều gi đó chính là đo lường xác suất của

4.1

no

Một trong những khó khăn trong việc phát triển lý thuyết xác xuất là đi đến một định nghĩa tổng quát, chính xác trong toán học Cuối thế kỷ XIX, nhiều thành tựu của công

cụ giải tích, trong đó có phép biến đổi Fourier, cho phép thay thế các hàm sinh bởi

một hàm số đặc trưng Tiếp đó là sự phát triển lý thuyết tập hợp số, lý thuyết độ đo, lý

thuyết tích phân của Borel và Lebesgue ở đầu thế kỷ XX đã dẫn đến xu hướng xây dựng một lý thuyết xác suất hình thức hơn theo phương pháp tiên đề của Hilbert

Năm 1928, Von Mises đề nghị một hệ tiên đề bằng tiếp cận thống kê, theo đó xác suất

được định nghĩa như là giới hạn chung của một dãy các tần suất Nhưng định nghĩa này được đánh giá là nặng về mặt kỹ thuật và không đủ cho sự hiểu biết tổng quát về mặt khái niệm (tham khảo Henry, 2004)

Borel đã giải thích là phải đi theo chiều hướng nào:

“ Lý thuyết xác suất liên tục có thể đặt cơ sở trên các hệ tiên đề và các định nghĩa hoàn toàn giống với cái mà ta đã làm trong lý thuyết độ do .”

Nếu như giai đoạn 1885 — 1925 đánh dấu sự ra đời của Thống kê với tư cách là một lý

thuyết toán học thì đó là vì môi trường toán học những năm cuối thế kỷ XIX đã cung cấp cho Thống kê các khái niệm, các công cụ cần thiết Những lý thuyết nền tảng cho Thống kê đã phát triển khá mạnh : lý thuyết sai số, lý thuyết tích phân theo nghĩa của

Riemamn, các công trình của Cantor, Péano và Borel Đặc biệt, những lĩnh vực có nhu

cầu tính đến yếu tố ngẫu nhiên ngày càng nhiều, không chỉ giới hạn ở Thiên văn học hay Trắc địa học mà còn mở rộng sang Nông học, Thống kê sinh học, và Xác suất,

25

Trang 27

lý thuyết nghiên cứu các hiện tượng ngẫu nhiên đã phát triển khá mạnh, mang lại nhiêu công cụ hiệu quả

Từ những nội dung trình bày ở phần L3., ta đã hình dung được nguyên tắc của suy diễn thống kê là nghiên cứu một quần thê qua mẫu Vấn đề đầu tiên cần bàn đến là bài toán chọn mẫu : chọn thế nào để nó có thể đại diện được cho quần thể Vấn đề tiếp theo là từ những kết quả thu được trên mẫu cần phải đưa ra một nhận định cho quần

thể Liên quan đến vấn đề thứ hai là bài toán ước lượng và bài toán kiểm định giả

một số cá thê được lấy ngẫu nhiên từ quần thể, gọi là mẫu Nguyên tắc của suy diễn

Thống kê là thu các thông tin về quần thể P (còn gọi là quần thể « mẹ » hay « tổng

thể ») từ những hiểu biết trên một mẫu Z

Trong Thống kê, một n - mẫu, hay một mẫu kích thước n, là một tập hợp n phần tử được lấy ra từ tổng thể Khi việc lay phan tử được thực hiện một cách hú họa thì mẫu

đó được gọi là mầu ngẫu nhiên

Nếu quần thể P được phân chia thành các lớp mà tỷ lệ về số lượng giữa các lớp đã được biết (nhờ một điều tra nào đó), người ta có thể quyết định trước là sẽ cấu tạo

mẫu từ các lớp theo tỷ lệ đã biết trong P Ta nói rằng ta có một mẫu đại diện cho P Lưu ý rằng không phải bao giờ đó cũng là mẫu tốt nhất khi ta nói về những kết quả rút

ra từ mẫu

Để áp dụng một số định ly của Xác suất, người ta giả định rằng các phần tử của mẫu

E duoc lay ra một cách độc lập với nhau Có hai cach lay mau :

Lay mẫu có hoàn lại : phần tử vừa lẫy ra đề quan sát được trả lại cho tổng thể trước

khi thực hiện lần lấy tiếp theo

Lấy mẫu không hoàn lại : phần tử vừa lấy ra để quan sát không trả lại cho tông thể trước khi thực hiện lần lấy tiếp theo

Trang 28

Cách lấy mẫu thứ nhất đảm bảo cho những lần lấy liên tiếp các phần tử không làm

thay đổi kết cấu của tổng thể Nhưng cách này không phải lúc nào cũng thực hiện

được Trong thực tế, người ta thường dùng cách lấy mẫu thứ hai Khi tổng thê khá lớn

so với kích thước của mẫu (ít nhất là gấp 100 lần) thì điều bất lợi của cách này là nhỏ,

người ta xem như xác suất có sai số là không đáng kẻ

Giả sử người ta cần nghiên cứu một đặc tính nào đó của tổng thê P Muốn thế, trước hết phải xác định những dấu hiệu cho phép quy một tính chất hay giá trị nào đó cho các phần tử thuộc P, mà những tính chất hay giá trị này là biểu hiện của đặc tính cần nghiên cứu Xét x là một trong những dấu hiệu đó Tập hợp các giá trị thu được của

dấu hiệu x tạo nên một dãy Thống kê Dãy Thống kê này sẽ xác định cho ta một biến ngẫu nhiên Nếu X là một biến ngẫu nhiên thì hàm số F(x) xác định bởi công thức

F(x) = P@X<x) được gọi là hàm phân phối của X Nếu đã biết hàm phân phối của X thi

ta có thể tính được xác suất để X rơi vào một khoảng hay đoạn bất kỳ chọn trước trên

trục số Như chúng ta sẽ thấy ở phần dưới, điều này rất quan trọng đối với bài toán ước lượng Nhưng trong thực tế hàm F(x) chưa biết, nên người ta phải căn cứ vào mẫu để tìm một hàm nào Fạ(x) nào đấy gần với F(x) Hàm Fạ(x) được gọi là hàm phân phối thực nghiệm hay hàm phân phối mẫu Hàm này được xác định thông qua các tính toán Xác suất Như thế, Xác suất là một công cụ cần thiết cho lý thuyết mẫu

e Ước lượng

Một trong những mục đích của nghiên cứu Thống kê trên mẫu là đưa ra những phỏng đoán, những giá trị xấp xỉ đủ tin cậy để quyết định về điều gì đó liên quan đến một đặc tính đang được xem xét cho quần thể P

Giả sử + là một trong những dấu hiệu biểu hiện đặc tính cần nghiên cứu của các đối tượng thuộc quân thể P Khi x là dấu hiệu định lượng (ví dụ như chiều cao), dãy

Thống kê có thể được tóm tắt bằng một số tham SỐ, đặc biệt là số trung bình m và độ

lệch chuẩn ơ của x Khi x là dấu hiệu định tính (màu sắc hay ý kiến chẳng hạn), người ta thường quan tâm đến tỷ lệ các dạng thức khác nhau của y trong P

Vấn đề là từ chuỗi giá trị của các tham số thu được qua dãy thống kê, cần phải ước lượng giá trị của các tham số thể hiện sự phân bồ của x trong P nếu x là dấu hiệu định lượng Còn nếu + là dấu hiệu định tinh thì người ta cần ước lượng tỉ lệ các phần tử

thuộc một dạng nào đó của x :

“Ước lượng là phỏng đoán một giá trị chưa biết bằng cách dựa vào quan sát trên mẫu Thông thường ta cần ước lượng giá trị trung bình, tỷ lệ, phương sai, hệ số tương quan, ” (Chu Văn Thọ và các tác giả, tr 116)

Một cách cụ thể hơn, bài toán ước lượng được phát biểu như sau :

27

Trang 29

“Cho Z là một mẫu ngẫu nhiên kích thước n được lấy ra từ quần thé P

Trong P:

- Dấu hiệu %4 có trung bình m và độ lệch chuẩn ơ

- _ Các phần tử thuộc dạng thức A của dấu hiệu + chiếm tỷ lệ p

Có hai loại ước lượng :

- - Ước lượng điểm : gia tri cần ước lượng được cho bởi một trị SỐ

- _ Ước lượng khoảng : giá trị cần ước lượng được cho bởi một khoảng

Ước lượng điểm mang lại một giá trị cụ thể, có thể dùng để tính các kết quả khác,

nhưng không cho biết được sai số ước lượng nhiều hay ít Ước lượng khoảng không đưa ra một giá trị cu thé của đại lượng cần ước lượng, nhưng lại cho phép hình dung

được độ lớn của sai sô

Giả sử ta muốn ước lượng khoảng giá trị của một tham số t liên quan đến dấu hiệu x được xác định trên quần thê P Vấn đề là tìm một khoảng không quá lớn sao cho xác

suất để giá trị thực của t thuộc khoảng đó là chấp nhận được Xác suất này, ký hiệu là

(I—ø), được gọi là khoảng tin cậy của ước lượng Số œ được gọi là độ rứi ro (sai

lầm khi ta khăng định rằng t thuộc vào khoảng đã chọn)

Lúc này lại nảy sinh một bài toán khác liên quan đến vấn đề chọn mẫu (mà ta có thể

xem như là bài toán ngược của bài toán ước lượng vừa được phát biểu ở trên) Đó là : mẫu phải có kích thước bao nhiêu dé dat duoc khoảng tin cậy chọn trước Một ví dụ :

Để ước lượng tỉ lệ phế phẩm trong một lô hàng với độ tin cậy I - œ =0, 95 và sai số

d=0,01, với các tính toán xác suất, người ta đã tìm được kích thước mẫu phải là

n > 9604 (Tham khảo [Trần Mạnh Tuan, 2004, tr 111])

Tóm lại, các tính toán xác suât là công cụ cân thiệt đề giải quyết bài toán ước lượng

e Kiểm định giả thuyết thống kê

Người ta còn có thê phát biểu những giđ £huyế: liên quan đến P và kiểm chứng tính hợp thức của chúng từ các thông tin thu được trên mẫu

Hiền nhiên, các suy diễn trong Thống kê chịu ảnh hưởng một phần nào đó vào mẫu

được chọn ngẫu nhiên Nói cách khác, mọi kết luận về tổng thể P được Suy ra tỪ việc

Trang 30

quan sát một mẫu đều có thể có một xác suất sai lầm nào đó (gọi là xác suất rủi ro)

Vấn đề đặt ra cho suy diễn Thống kê là có thể đưa ra những kết luận đủ rõ với độ rủi

ro nhỏ - hai rảng buộc biến thiên theo hai chiều đối nhau Để đạt được cả hai điều

kiện người ta chỉ có thể lấy mẫu với kích thước lớn Nhưng điều đó lại làm cho

nghiên cứu trở nên tốn kém thời gian, tiền bạc nhiều hơn

Bài toán kiểm định giả thuyết thống kê được phát biểu như sau : Cho biến ngẫu nhiên

X và giả thuyết Họ về phân phối xác suất của X Một mệnh đề khác với Họ được gọi

là đối thuyết H¡ Cần kiểm nghiệm xem Hạ đúng hay sai trên cơ sở mẫu lấy được là (XI, X¿, , Xn)

Muốn vậy, người ta lập không gian mẫu (X¡, X¿ , Xạ) và trên không gian mẫu ta

xác định một miền W gọi là miền bác bỏ giả thuyết Phần bù của W, ký hiệu W,

được gọi là miền chấp nhận giả thuyết Ho Nếu điểm (XI, Xa, , Xa) thuộc W thì ta

coi như giả thuyết Họ là sai và bác bỏ giả thuyết đó Néu diém (x), x2, ., Xn) thuộc

W thì ta coi giả thuyết là đúng và chấp nhận nó

Như vậy, một miền W xác định một quy tắc (hay một tiêu chuẩn) kiêm định giả thuyết và được gọi là quy tắc W Trong việc chọn một quy tắc như vậy ta có thê mắc các sai lầm sau :

- Sai lầm loại 1 là sai lầm mắc phải khi giả thuyết Họ đúng nhưng ta lại bác bỏ nó Sai

lầm này được ký hiệu bởi P(W| Hạ) Đó chính là xác suất để mẫu (xi, X2, ., Xn) roi

vào miền W khi Họ đúng (hay xác suất bác bỏ Họ khi nó đúng)

- Sai lầm loại 2 là sai lầm mắc phải khi giả thuyết Họ sai nhưng ta lại chấp nhận nó

Sai lầm này được ký hiệu bởi P(W | H;) Đó chính là xác suất để mau (x1, x2, Xn)

rơi vào miền W khi H¡ đúng hay Họ sai Đó là xác suất chấp nhận Họ khi nó sai

Dé hạn chê hai sai lâm này người ta đã sử dụng các tính toán xác suât

I.6 Kết luận rút ra từ phân tích lịch sử

Ở đây chúng tôi sẽ chỉ nhấn mạnh mối liên hệ giữa hai lý thuyết Thống kê và Xác

suất mà viêc nghiên cứu lịch sử đã chỉ ra Những đặc trưng khoa học luận của một số

khái niệm có mặt trong chương trình phổ thông sẽ đươc trình bày ở phần II va IIL, vi

để làm rõ điều đó chúng tôi không chỉ xem xét lịch sử mà còn nghiên cứu thêm các

giáo trình toán học dùng ở bậc đại học và tham khảo kết quả nghiên cứu khoa học

luận của vài công trình đã công bó

Phân tích lịch sử ở trên đã chỉ ra mối liên hệ gắn bó, thậm chí không thể tách rời giữa Thống kê toán và Lý thuyết xác suất

29

Trang 31

e Nhiệm vụ của 7hóng kê toán là xây dựng các phương pháp thu thập và xử lí số liệu thống kê đề có thể rút ra những kết luận khoa học về một hiện tượng T' hong ké mo ta

và Thống kê suy đoán là các bộ phận của Thống kê toán

Thống kê mô tả có nhiệm vụ nghiên cứu các phương pháp thu thập, sắp xếp, trình bày

số liệu thu được qua quan sát hay qua các phép thử, bước đầu xác định một số đặc

trưng thống kê Nhờ Thống kê mô fả người ta nắm được tình hình phân phối của các

số liệu, nhận ra một số quy luật phân phối thực nghiệm của hiện tượng Nhưng thông

thường các phần tử điều tra chỉ là một bộ phận của quần thể cần nghiên cứu, tức chúng chỉ là một tập hợp mẫu rút ra từ một tập hợp rộng lớn hơn Vì thế tính quy luật

của hiện tượng chưa được thể hiện một cách đầy đủ Những gia tri cua các tham số

đặc trưng (tần suất, trung bình, độ lệch chuẩn, .) thu được trong phần Thống kê mô

ta chi có tính chất thực nghiệm vì chúng được tính toán dựa trên các số liệu đã có chứ không phải dựa trên toàn bộ số liệu đáng lẽ phải có

Vì vậy, hoàn toàn tự nhiên, hai yêu cầu được đặt ra là :

- Chọn mẫu như thế nào đề nó có thê đại điện được cho tông thê ?

- Căn cứ vào những đặc điểm thu được từ thực nghiệm, làm thế nào để phân tích tính chất của hiện tượng một cách triệt để hơn, năm được bản chất của nó một cách sâu sắc hơn Nói cách khác, fừ quy luật thực nghiệm phải phát hiện ra quy luật lý thuyết Từ

kinh nghiệm thực tiễn phải rút ra được những quy luật có cơ sở khoa học, từ cụ thể

phải di đến khái quát, trừu tượng, hay thông qua sự làm việc với mẫu thông kê phải suy ra được những kết quả hợp lí về tổng thể Thực hiện những yêu cầu trên đây là nhiệm vụ của Thống kê suy đoán

Hai yêu cầu trên gắn liễn với ba bài toán chọn mẫu, ước lượng và kiểm định gia

thuyết thống kê Phân tích trên đã cho ta thấy các tính toán xác suất là công cụ cần thiết để giải quyết ba bài toán này như thế nào

“Chính Lý thuyết xác suất sẽ cung cấp cho ta những quy luật lý thuyết dùng dé

“soi sáng” các quy luật thống kê, giúp ta nghiên cứu các quy luật thực nghiệm

một cách hoàn thiện hơn, làm cho Thống kê toán từ chỗ có tính chất mô tả đến

chỗ có khả năng phân tích, dự đoán có cơ sở khoa học và sâu sắc” [Lê Văn Phong (1982); tr 60]

Như vậy có thể nói Lý thuyết xác suất tạo nên cơ sở lí luận cho Thống kê toán Nếu tách rời Lý thuyết xác suất khỏi Thông kê toán thì Thống kê toán sẽ mất đi nhiều kết quả quan trọng do phần thống kê suy đoán mang lại, và do đó nó sẽ bị thu hẹp vào

Thống kê mô tả Nói cách khác, lúc đó Thống kê toán sẽ bị đồng nhất với Thống kê

mô tả - một bộ phận của nó như nó đang tồn tại ngày nay, và những kết quả thu được chỉ dừng lại ở mức độ là kết quả thực nghiệm, không được khái quát hóa cho toàn thé

Trang 32

Mà như thế thì Thống kê toán sẽ không còn giữ được giá trị to lớn của mình, đặc biệt

là đối với các vấn đề thực tiễn Người ta sẽ không thể dùng Thống kê toán như một

công cụ đắc lực, sắc bén để phân tích, dự đoán, nhằm đưa ra được những nhận định

đúng đắn hết sức cần thiết

e Quan hệ giữa Thống kê toán và Lý thuyết xác suất không phải chỉ ở chỗ Lý thuyết

xác suất cần cho Thống kê toán Thực ra còn có một mối liên hệ theo chiều ngược lại :

Thống kê toán, cụ thể là Thống kê mô tả, cũng cần thiết cho việc nghiên cứu Lý thuyết xác suất Chăng hạn, một trong những cách tiếp cận khái niệm xác suất của một biến cố là cách tiếp cận từ tần suất - khái niệm của Thông kê mô tả Cách tiếp

cận này là cần thiết, khi mà định nghĩa cổ điển của Laplace chỉ có thể vận hảnh được

trong trường hợp không gian mẫu là hữu hạn và các biến cố là đồng khả năng xây ra Khi một trong hai điều kiện đó không thỏa mãn (mà trường hợp này lại là phổ biến trong các hiện tượng tự nhiên, xã hội cũng như trong y học, vật lý học, nông học, .) thì không thê sử dụng được định nghĩa của Laplace

II ĐẶC TRƯNG KHOA HỌC LUẬN CỦA KHÁI NIỆM XÁC SUÁT

Sự nảy sinh và phát triển lý thuyết xác suất gắn liền với các hiện tượng ngẫu nhiên

Đó là một hiện tượng có thể có nhiều kết cục và việc xuất hiện một kết cục nào đó là

ngẫu nhiên Lý thuyết xác suất gọi các hiện tượng này là các phép thử ngẫu nhiên và những kết cục có thể có là các biến có Tập hợp tất cả các kết cục có thể xây ra gọi là không gian mẫu Chính vì không biết trước kết cục của các hiện tượng này mà người

ta phải tìm cách đánh giá, ước lượng và tính toán khả năng mà một biến có có thê xây

Ta

Lịch sử hình thành và phát triển lý thuyết xác suất cho thấy cần phải phân biệt các

phép thử ngẫu nhiên theo những loại khác nhau như sau:

phép thử ngẫu nhiên có một số hữu hạn kết quả đồng khả năng xuất hiện

phép thử ngẫu nhiên có hữu hạn các kết quả không đồng khả năng xuất hiện

phép thử ngẫu nhiên có thể có vô hạn kết quả (đồng hoặc không đồng khả năng) xuất hiện

Sự phân loại này đã được hình thành trong quá trình các nhà toán học tìm cách tiếp

cận khái niệm xác suât của một biên cô

31

Trang 33

e Tiép can co điên

Theo Laplace, xác suât của một biên cô là “tỉ sô của sô trường hợp thuận lợi với sô tât

cả các trường hợp có thê xảy ra”

Theo cách tiếp cận này, để nghiên cứu xác suất, người ta cần các kiến thức về phép

đếm và đại số tổ hợp Chính vì thế mà Coutinho đặt tên cho tiếp cận nảy là “tiếp cận

đại số tổ hợp” Còn Bernard Parzysz thì gọi xác suất theo định nghĩa của Laplace là

xác suất chủ quan hay xác suất tiên nghiệm, vì người ta có thể tính được xác suất mà

không cần thực hiện phép thử

Nhưng cách tiếp cận này chỉ có thể áp dụng được cho trường hợp không gian các biến

cố sơ cấp liên quan đến phép thử là hữu hạn và các biến cố sơ cấp đồng khả năng xuất hiện Trong trường hợp một trong hai điều kiện đó không thỏa mãn thì phải nghiên cứu xác suất theo cách tiếp cận khác

Giả sử phép thử có một số vô hạn kết cục đồng khả năng xây ra được biểu thị như các

điểm của một tập O Các kết cục thuận lợi cho biến cố A được biểu thị bởi các điểm

của một tập con của (, cũng ký hiệu là A A và O là các miền hình học (có thê là đoạn thắng, miền phăng, hay một khối trong không gian, .) Khi đó, xác suất của

biến cố A được định nghĩa là

P(A) = độ đo của A / độ đo của Q

Trong đó độ đo sẽ là độ dài, diện tích hay thể tích tùy theo O là đoạn thăng, miền

phăng hay khối không gian

Vi du : Hai điểm có tọa độ x, y được lấy ngẫu nhiên trên

đoạn thăng [0; 2] Tính xác suất để khoảng cách d giữa

chúng nhỏ hơn 1

thể Khoảng cách giữa hai điểm là L = |x - y| Đặt A = {(x, y), |x - y| < 1} Trong hình

Trang 34

1 thi A 1a mién gạch chéo Theo định nghĩa trên, P(A) bằng tỉ số diện tích miền gạch

chéo và diện tích hình vuông, tức là P(A) = 3/4

Bài toán tung cây kim của Buffon cũng giải quyết được nhờ tiếp cận hình học Trong trường hợp ấy, đề tính diện tích miền A người ta phải sử dụng tích phân xác định Và chính là từ lời giải bài toán nay mà giá trị của sô 7 được tim ra

Cách tiếp cận này có thể áp dụng cho mọi loại phép thử (không gian mẫu có thể vô hạn hay hữu hạn, các biến cố sơ cấp có thể đồng hay không đồng khả năng xây ra)

Dé nghiên cứu các hiện tượng của y học, của tự nhiên hay xã hội, người ta thường phải tiêp cận xác suât theo quan diém nay

e Tiếp cận tiên đề

Trong cách tiếp cận này, xác suất được định nghĩa như “một độ đo không âm, bị chặn,

xác định trên một tập hợp trừu tượng mô hình hoá các kết cục có thể của một phép thử ngẫu nhiên” và thỏa mãn một hệ tiên đề

Định nghĩa xác suất theo hệ tiên đề này do Kolmogorov đưa ra với mục đích chính

xác hóa khái niệm và xây dựng một lý thuyết xác suất hiện đại

Ill ĐẶC TRƯNG KHOA HỌC LUẬN

CỦA MỘT SÓ KHÁI NIỆM THÓNG KÊ

Ở đây chúng tôi chỉ xem xét một số khái niệm thống kê có mặt trong chương trình môn toán dạy ở trường phổ thông Theo chương trình hiện hành, HS chỉ được làm quen với Thống kê mô tả

Chúng ta biết rằng Thống kê mô tả nghiên cứu 3 vấn đề :

- _ Phương pháp thu thập thông tin ;

33

Trang 35

- Phuong phap biéu dién théng tin ;

- Phuong phap phan tich sé liéu thu được

Vấn đề thứ nhất liên quan đến việc chọn mẫu và thu thập số liệu thì chúng tôi không trở lại vì đã phân tích khá sâu ở phan I Sy trở lại này lại càng không cần thiết khi mà vấn đề chọn mẫu hầu như không được xem xét trong chương trình

Dưới đây chúng tôi sẽ phân tích vấn đề biểu diễn và phân tích số liệu thống kê III.1 Biểu diễn số liệu thống kê

Đề biểu diễn số liệu thống kê ta có thể dùng bảng hoặc dùng biểu đồ

a) Bảng phân bố tân số, tần suất

e Khái niệm 7â» số cho phép :

- Biểu diễn mẫu số liệu theo một cách thức gọn gàng, không cồng kềnh như bảng số liệu rời rạc

- Từ đó có một cái nhìn rõ ràng hơn trên bảng số liệu và thuận lợi hơn khi phân tích

no

e Khái niệm Tẩn suá: cần thiết khi người ta phải so sánh các mẫu dữ liệu khác nhau

Điểm cần nhấn mạnh ở đây là so sánh các mẫu số liệu có kích thước khác nhau (ví dụ: so sánh tỉ lệ người khỏi bệnh trong hai nhóm bệnh nhân điều trị theo hai phương pháp khác nhau, mẫu đại diện cho nhóm thứ nhất gồm 123 người, mẫu đại diện cho

nhóm kia gồm 231 người), bởi nếu so sánh các số liệu trong cùng một mẫu thống kê hoặc trong các mẫu thống kê có cùng kích thước thì chỉ cần khái niệm tần số là đủ Cũng chính vì các mẫu số liệu có kích thước khác nhau nên để tiện so sánh thì người

ta viết tần suất ở dạng phần trăm chứ không ở dạng phân số

b) Bảng phân bố tân số, tần suất ghép lóp

Trong thực tế, con người thường phải đối diện với một số lượng không lồ các dữ liệu

và người ta khó có thể rút ra những kết luận thuyết phục từ chúng nếu không tổ chức

lại chúng một cách hiệu quả

Với những biến định lượng (nhất là biến định lượng liên tục), khi không cần phân biệt các giá trị gần nhau, thì để thu gọn bảng biểu diễn mẫu số liệu, người ta phân các số

liệu theo từng lớp Việc làm này rất cần thiết khi mẫu số liệu có quá nhiều giá trị khác

nhau

Trang 36

Với việc ghép lớp, người ta phải “hy sinh” thông tin của từng giá trị quan sát được, nhưng bù lại, số đối tượng nghiên cứu lúc này đã được giảm rất nhiều: từ một số

lượng lớn các giá trị quan sát khác nhau đã được chuyên thành một số lượng vừa đủ

các lớp ghép Khi này, thay vì quan tâm đến tần số, tần suất của từng giá trị riêng lẻ, người ta quan tâm đến tần sé (nj), tần suất (fj) của các lớp ghép C¡ - bằng tổng các tần

số (tần suất) của các giá trị thuộc vào lớp ghép

Các lớp ghép không bắt buộc phải có độ dài bằng nhau, tùy theo mục đích nghiên

cứu

Nếu biến định lượng liên tục thì người ta lấy các lớp ghép là các nửa khoảng Với

cách ghép lớp này, biểu đồ hình chữ nhật sẽ gồm các cột kề nhau (có chung một cạnh) Đối với biến định lượng rời rạc thì có thê lấy lớp ghép là đoạn (khi đó các lớp ghép sẽ rời nhau và biểu đồ hình chữ nhật tương ứng sẽ là các cột rời nhau), cũng có

thể lấy là nửa khoảng

Lưu ý là việc ghép lớp dữ liệu phải đảm bảo làm rõ những thông tin cơ bản chứa trong các đữ liệu, đồng thời không được bỏ qua những khía cạnh đặc thù trong cấu trúc của nó

c) Các loại biểu đồ (đồ thị TK)!

Nguồn gốc của biểu diễn đồ thị là việc lập các bản đồ địa lý Vấn đề này gắn với việc

sử dụng các hệ tọa độ trong mặt phẳng, được Descartes đề cập trong phần phụ lục

Luận về phương pháp của cuốn sách Hình học xuất bản năm 1637

"Vào thời kỳ này, lợi ích của việc biểu diễn trong một hệ tọa độ chưa phải là đã được thừa nhận ngay lập tức, cho dù Edmund Halley đã sử dụng thành công năm

1686 để biểu diễn các số đo phong vũ biểu theo độ cao» (Jaque Droesbeke và

Philippe Tassi, tr 6)

Nhưng đến đầu thế kỷ XIX thì đã xuất hiện và phát triển nhiều công cụ đồ thị được sử dụng trong Thống kê, vì chúng cho phép làm nồi bật một cách trực quan phân bố dữ

liệu, tạo thuận lợi cho việc quan sát cấu trúc của dãy đữ liệu Tuy nhiên, đồ thị thống

kê không phát huy hiệu quả trong một số tính huống mà đữ liệu có những đặc điểm được chỉ ra trong các trường hợp sau:

- Dữ liệu có độ phân tán quá lớn

- _ Dữ liệu ít biến động

- _ Dữ liệu có quá ít giá trị khác nhau

Những kết quả liên quan đến phần c) các loại biểu đô chủ yếu lẫy từ luận văn thạc sỹ của học viên Tăng Minh Dũng, 2009, một nghiên cứu nằm trong khuôn khổ của đề tài DH Xác suất - Thống kê của chúng tôi

35

Trang 37

- _ Dữ liệu có quá nhiều thông tin

Có nhiêu dạng đô thị TK có thê được sử dụng tuỳ thuộc vào đặc điêm của dữ liệu

nghiên cứu và mục đích nghiên cứu : biểu đồ đoạn thắng, hình cột (bar chart), biểu đồ

hình quạt (pie chart), biểu đồ tổ chức (histogram) và đa giác tần số, tần suất (histograph)

e Biểu đồ đoạn thăng

30

20

10

Chất lượng tốt Chất lượng TB_ Chất lượng kém

Chat lượng nghiệp vụ của nhóm nhân viên

Biểu đồ đoạn thăng được sử dụng để biểu diễn trực quan thông tin của các biến định

tính hoặc định lượng rời rạc

Điểm chính yếu trong biểu đồ đoạn thăng là việc dựng đoạn thắng ứng với các giá trị khác nhau của biên quan sát

Các đoạn thắng có thê được vẽ theo chiều đứng hoặc chiều ngang, tương ứng với mỗi giá trị khác nhau của biến đang xem xét Chiều cao (hoặc chiều đài) của đoạn thắng thé hiện số lượng phần tử của mỗi “lớp”

Thông thường, người ta vẽ các đoạn thăng theo chiều đứng để dễ quan sát Tuy nhiên, trong trường hợp các cụm từ mô tả giá trị của biến quan sát cần nhiều chỗ trống (chăng hạn: tên quốc gia, tên người, ), người ta sẽ vẽ các đoạn thắng theo chiều ngang

Trang 38

trường hợp sử dụng và cách vẽ cũng giống như biểu đồ đoạn thắng Các cột sẽ được

vẽ rời nhau nếu là biến định tính và liền nhau nếu là biến định lượng rời rạc Chiều

rộng của các hình chữ nhật là như nhau (và lấy tùy ý), chiều cao (chiều dài) thể hiện

giá trị tương ứng của biến quan sát

ta không thể sử dụng biểu đồ hình quạt mà buộc phải sử dụng một dạng biểu đồ khác

(biểu đồ hình cột chắng hạn)

Nguyên tắc vẽ : Diện tìch hình quạt biểu diễn tần số (tần suất) các thành phần trong

dãy đữ liệu (như vậy là tần số (tần suất) phải tỷ lệ với góc ở tâm)

e Biểu đô tổ chức (histograme)

Trong trường hợp biến thống kê cần nghiên cứu có quá nhiều giá trị quan sát được (đặc biệt khi đó là biến định lượng liên tục), người ta buộc phải tìm cách “nhóm” nhiều giá trị khác nhau thành một lớp Với việc ghép lớp, có thể phải “hy sinh” thông tin về từng giá trị quan sát được, nhưng bù lại, từ một 36 lượng lớn các giá trị quan sát khác nhau sẽ đễ có cái nhìn tổng thể trên một số lượng vừa đủ các lớp ghép Khi này, thay cho tần số, tần suất của từng giá trị riêng lẻ, cái được quan tâm là tần sé (nj), tan suất (f,) của các lớp ghép Ci

Để xem xét một cách trực quan sự phân bố của các đữ liệu trong từng lớp ghép, người

ta tìm cách biểu diễn thông tin các lớp ghép băng một đồ thị thống kê Thoạt đầu

37

Trang 39

người ta có khuynh hướng biêu diễn cặp đôi (C¡, n¡) (hoặc (C;, f¡)) bằng một loạt đoạn

thắng với chiều đài n; (hoặc f¡) nằm trên các khoảng C¡ Như vậy thì hai lớp ghép có cùng tần số nhưng có độ rộng khác nhau lại cùng được biểu diễn bởi các đoạn thắng cao bằng nhau Điều này vi phạm một nguyên tắc mà mọi biểu diễn trực quan đều phải lưu ý : trong cùng một hình, các hình biểu diễn phải bảo toàn tỷ lệ vốn tồn tại giữa các đôi tượng được biêu diễn

Đề giải quyết vấn đề này, người ta biểu diễn (C¡, n¡) (hoặc (C;, f,)) bằng một hình chữ

nhật có đáy là C¡ và có diện tích là n¡ (hoặc f;) Tất nhiên, như Chauvat (2002) đã nói, cách làm này phải dựa trên hai giả định:

- _ Có một sự phân bố đồng đều giữa các giá trị quan sát nằm trong cùng một lớp ghép

- _ Các lớp ghép không có biên (độ rộng không xác định) thì có tần số bằng 0

Xét về mặt hình thức, thông tin trong “biểu đồ tổ chức” và “biểu đồ hình cột” đều

được biểu diễn thông qua các hình chữ nhật, nhưng có một sự khác biệt về mặt bản

chất giữa hai dang đồ thị thống kê này : biêu đồ tổ chức biêu diễn tần số (tần suất) qua

diện tích chứ không phải qua chiều cao

Cũng vì lẽ đó mà, về nguyên tắc, đối với biểu đồ tổ chức người ta không cần thang đo

đứng Tuy nhiên, để thuận lợi cho việc vẽ biểu đồ cũng như xác định diện tích của

hình chữ nhật, người ta bổ sung thêm một trục đứng vào hình vẽ

“Khi so sánh diện tích của các hình chữ nhật trong một biểu đồ tô chức, sẽ rất có ích nếu dựa trên một thang đo theo chiều đứng mà người ta sẽ gọi là thang đo mật độ Nó làm rõ tỉ lệ quan sát trên một đơn vị của trục nằm ngang.” [Dodge Y.,

2006, tr 34]

Nhưng trục đứng (chiều cao) của hình chữ nhật trong biểu đồ tổ chức sẽ mang một ý nghĩa hoàn toàn khác so với trục đứng trong biểu đồ hình cột : nó không biểu diễn tần

số (tần suất) mà nó biêu diễn tỉ số giữa tần số (tần suất) và độ rộng của lớp ghép (tính

theo một đơn vị chọn trước trên trục năm ngang

Trong thực tế, đo chưa có một qui định thống nhất cho việc ghép lớp nên đề dễ dàng thao tác, người ta thường có khuynh hướng thực hiện một sự ghép lớp đều nhau Trong trường hợp này, vì độ rộng của các lớp ghép đều bằng nhau nên chiều cao của

hình chữ nhật sẽ tỉ lệ với tần số (tần suất) lớp ghép Điều này dễ làm người ta lầm lẫn với đặc trưng của biểu đồ hình cột

Thế nhưng, trong một số trường hợp, sự ghép lớp không đều nhau là cần thiết (tham

khảo [Navidi W., 2006]), vì nó hạn chế những “nhiễu loạn thị giác” và đem lại một

cái nhìn bao quát hơn về cơ cấu phân bố đữ liệu

Trang 40

Vi du về sự cần thiết của việc ghép lớp không đều

Hình 1 [Navidi W., 2006, tr 30] Hinh 2 [Navidi W., 2006, tr 28]

Hình I và hình 2 biểu diễn cùng một dãy dữ liệu Trong hình 1, việc ghép lớp đều

nhau làm xuất hiện hai lớp ghép có tần số bằng 0 (lớp ghép 15-17 và 21-23) Đồng

thời ta cũng có thê nhận thấy phần lớn số liệu nhỏ hơn 11 nhưng lại có đến hơn phân nửa số lượng hình chữ nhật (7/12) được sử dụng để biểu diễn một số ít đữ liệu lớn hơn 11 Dãy 7 hình chữ nhật nhỏ này có thê làm sao nhãng sự tập trung của người đọc

đối với phần lớn đữ liệu còn lại (5 hình chữ nhật bên trái) Để giúp người đọc tập

trung vào cấu trúc tổng thể của dãy dữ liệu, người ta tiến hành một sự ghép lớp không đều nhau (ghép lớp lại) như trong hình 2 Như vậy, việc ghép lớp không đều nhau trong trường hợp này cho phép chúng ta hạn chế những “nhiễu loạn thị giác” và đem

lại một cái nhìn bao quát hơn về cơ cấu phân bố dữ liệu

So với các loại biểu đồ trên, biểu đồ tổ chức có một đặc trưng đặc biệt : nó sẽ ngầm an thay đổi cơ chế khi chuyên từ phân môn này sang phân môn kia của thống kê, cụ thé

là từ sự biểu diễn về thị giác với ý muốn “biểu thị trung thành” trong thống kê mô tả,

nó trở thành một đường cong biểu diễn hàm số trong thống kê suy diễn

e Đa giác tấn số - tần suất

Đê thuận tiện hơn khi muôn xem xét sự tiên triên của các sô liệu, người ta bô sung

thêm một dạng đồ thị thống kê khác vào biêu đồ tổ chức, đó là đa giác tần số-tần suất

Y Dodge, 2006, tr 38

39

Ngày đăng: 30/10/2024, 09:01

w