Mục đích nghiên cứu Theo Chevallard 1992 : “Đối tượng đầu tiên cần nghiên cứu, và do đó cần chất vấn, cần mô hình hóa, cần đặt vấn đề theo các quy tắc hoạt động khoa học không phải là n
Trang 1
BO GIAO DUC VA DAO TAO TRUONG DAI HOC SU PHAM TP HCM
te [LH] œ
BAO CAO TONG KET
DE TAI NGHIEN CUU KHOA HOC CAP BO
DẠY HỌC XÁC SUÁT — THONG KE
Trang 2NHUNG NGUOI THAM GIA THUC HIEN DE TAI
1- Tang Minh Ding, Khoa Toan — Tin, DHSP TP H6 Chi Minh 2- Tran Tay An, Truong THPT Lê Hong Phong, TP Hồ Chí Minh
3- Quach Huynh Hanh, Truong THPT Sao Viét, TP Hồ Chi Minh
Trang 3MO’ DAU
1 Tính cấp thiết của đề tài
Liên quan đến dạy học (DH) môn toán, một quan điểm hiện đang được thừa nhận rộng rãi trên thế giới là cần phải thỏa mãn hơn phương diện khoa học luận và tôn trọng hơn quy trình nhận thức của học sinh (HS) Theo xu hướng đó, nghiên cứu khoa học luận và những ràng buộc, những điều kiện, những yếu tổ tác động đến quá
trình DH một tri thức là cần thiết, không chỉ cho giáo viên (GV), mà còn cho cả việc
soạn thảo chương trình, sách giáo khoa
Ở Việt nam, kể từ năm 2005 lần đầu tiên một số nội dung về Thống kê — Xác suất được chính thức đưa vào chương trình đại trà bậc Trung học phổ thông (THPT), áp dụng trên toàn quốc Tuy nhiên, ngoại trừ một vài công trình xuất hiện gần đây và nằm trong dự án nghiên cứu của chúng tôi thì chưa có tài liệu tiếng Việt nào xem xét một cách đầy đủ cả phương diện khoa học luận lẫn phương diện sư phạm về những nội dung này Nói cho đúng ra thì đã có hai luận án phó tiến sĩ của Đỗ Mạnh Hùng và Trần Kiều nghiên cứu vẫn đề xây dựng chương trình, nội dung về Thống kê - Xác suất để đưa vào bậc Trung học Hai luận án này bảo vệ từ những năm 90 của thế
kỷ trước, tập trung chủ yếu trên việc bô sung một số nội dung của Thống kê - Xác suất vào chương trình phổ thông và bàn về phương pháp DH một vài vấn đề cụ thể
thuộc nội dung được đề nghị Có luận án chỉ xét việc DH trong phạm vị các lớp
chuyên toán Chưa có một nghiên cứu khoa học luận nào về những nội dung đưa vào chương trình Điều đó làm cho việc đặt ra mục tiêu DH, xây dựng chương trình, và việc trình bày các nội dung ấy trong sách giáo khoa thiếu một cơ sở vững chắc Lại càng thiếu những nghiên cứu về DH Thống kê — Xác suất trong điều kiện công nghệ thông tin phát triển như ngày nay
Thực tế DH theo chương trình và sách giáo khoa thí điểm những năm qua cho thay
GV còn có nhiều lúng túng trong thực hành, thậm chí có những quan niệm sai lầm về mục đích DH Thống kê — Xác suất Chất lượng DH vì thế mà chưa cao Học sinh
(HS) gặp khó khăn khi vận dụng kiến thức của Thống kê — Xác suất vào giải quyết
những vấn đề của cuộc sống, trong khi khoa học này lại cần thiết cho mọi lĩnh vực
hoạt động của con người
Trong bối cảnh phải đổi mới mục tiêu, chương trình, nội dung và phương pháp DH nhằm đào tạo ra những người lao động có khả năng sáng tạo, có năng lực tự học để
Trang 4các trường đại học sư phạm, cho GV phô thông, cho cả những tác giả tham gia xây dựng chương trình và viết sách giáo khoa
2 Mục đích nghiên cứu
Theo Chevallard (1992) : “Đối tượng đầu tiên cần nghiên cứu, và do đó cần chất vấn, cần mô hình hóa, cần đặt vấn đề theo các quy tắc hoạt động khoa học không phải là người học hay người dạy, mà là tri thức toán học được họ xem như đang cùng nhau nghiên cứu, cũng như những hoạt động toán học mà dự án nghiên cứu chung của họ
sẽ dẫn đến chỗ phải thực hiện”
Thừa nhận quan điểm của Chevalard, mục đích đầu tiên mà chúng tôi đặt ra cho dự án nghiên cứu của mình là xem xét tri thức được ở góc độ tri thức toán học và ở góc độ
tri thức cần dạy Như thế, nghiên cứu của chúng tôi nhắm đến việc làm rõ một mặt là
đặc trưng khoa học luận và mặt khác là những ràng buộc, những điều kiện do thể chế quy định cho việc DH một số tri thức về Thống kê - Xác suất theo chương trình hiện đang áp dụng trong các trường THPT
Cụ thẻ, về phương diện khoa học luận, chúng tôi sẽ làm rõ :
- _ Mối liên hệ mật thiết giữa hai lý thuyết toán học Thống kê và Xác suất
- Cac cach tiép cận khái niệm xác suất của một biến có
- Nghĩa của một số tri thức thống kê được giảng dạy ở bậc phô thông
Và phía thể chế DH Việt nam, chúng tôi sẽ phân tích xem những đặc trưng khoa học
luận này đã được tính đến như thế nào bởi chương trình và sách giáo khoa hiện hành
Phân tích ấy sẽ cho phép chúng tôi hình thành nên những dự báo về ảnh hưởng của sự
lựa chọn thể chế lên thực tế DH Thống kê - Xác suất ở bac THPT
Cuối cùng, trên cơ sở những đặc trưng khoa học luận đã được làm sáng tỏ, chúng tôi
sẽ thiết kế một vài tình huống mang tính chất minh họa cho việc đổi mới phương pháp
DH (theo định hướng tích cực hóa hoạt động học tập), sự đổi mới nhắm đến việc làm thỏa mãn hơn nhu cầu khoa học luận, giúp HS hiểu nghĩa của trì thức và sử dụng
được nó vào giải quyết các vẫn đề của thực tiên
Cần phải nói rõ răng trong chương trình môn toán hiện đang áp dụng ở trường phổ thông, một sỐ yếu tố của Thống kê đã được đưa vào khá sớm, ngay từ bậc Tiểu học Nhưng, cho đến tận lớp 7 thì chương trình mới bắt đầu đề cập tương đối có hệ thống một vài khái niệm mở đầu của khoa học Thống kê mô tả Tuy nhiên đây mới chỉ là bước đầu tiên của việc DH này, và những gì có mặt trong chương trình lớp 7 đều xuất hiện lại trong chương trình toán THPT Hơn nữa, chỉ có ở THPT các nội dung về Xác
Trang 5suất mới được giảng dạy Đó là những lý do khiến chúng tôi giới hạn nghiên cứu việc
DH Thống kê — Xác suất ở bậc THPT
3 Công cụ lý thuyết và phương pháp nghiên cứu
Đề đạt mục đích nêu trên, việc phân tích các đặc trưng của những tri thức mà chúng
tôi quan tâm sẽ được thực hiện trên hai phương diện : phương diện khoa học luận và
phương diện thể chế
Khái niệm phân tích khoa học luận và lợi ích sự phạm của nó đã được chúng tôi làm
rõ trong một đề tài cấp Bộ nghiệm thu năm 2003 [Lê Thị Hoài Châu, 2003] Khái
niệm này sẽ được sử dụng ở đây đề xem xét những tri thức mà chúng tôi quan tâm từ góc độ khoa học luận Điều đó được thực hiện qua việc phân tích lịch sử hình thành, phát triển của các lý thuyết Thống kê - Xác suất và qua việc tham khảo những giáo trình dùng ở bậc đại học, những công trình liên quan đã công bồ
và phương diện thực tế DH theo chương trình hiện hành, đề phân tích sự lựa chọn của
thể chế trong việc đưa vào những tri thức Thống kê- Xác suất mà đề tài xem xét, chúng tôi sẽ sử dụng các khái niệm của Thuyết nhân học, cụ thé là khái niệm fổ chức
toản học, quan hệ thể chế, quan hệ cá nhân với một đối tượng tri thức
Khái niệm quan hệ thê chế R(I, O) của thể chế I đối với một đối tượng tri thức O được Chevallard sử dụng để mô hình hóa các tác động qua lại mà I có với O Nó cho biết O
xuất hiện ở đâu, như thế nảo, tỒn tại ra sao, có vai trò gi, trong I Con quan hé cá
nhân R(X, O) với đối tượng trì thức O được ông dùng để chỉ những gì mà cá nhân đó biết về O, cách cá nhân đó nói về O, nghĩ về O, sử dụng O Việc học tập của cá nhân
X về đối tượng tri thức O chính là quá trình thiết lập hay điều chỉnh mối quan hệ
R(X, O) Hiển nhiên, nếu X là một thành viên của I thì quan hé R(I, O) luôn đề lại dấu
ấn đậm nét lên quan hé R(X, O)
Làm thế nào đề làm rõ các yếu tố của R(I, O) ?
Cũng theo Chevallard, mọi hoạt động xã hội đều có thể phân tích thành các praxéologie được hình thành từ những kiểu nhiệm vụ xác định Mỗi praxéologie là
một bộ gồm 4 thành phần [T, +, 0, ©], trong đó T là một kiểu nhiệm vụ, r là kỹ thuật
cho phép giải quyết T, 9 là công nghệ giải thích cho kỹ thuật r, © là lý thuyết giải thích cho công nghệ 9 Một praxéologie mà các thành phần đều mang bản chất toán học được gọi là một praxéologle toán học hay một tổ chức toán học
Liên quan đến O, trong I có những praxéologie nào ? Chúng được hình thành từ kiểu
Trang 6cho phép ta vạch rõ cuộc sông của O trong I : nó xuât hiện ở đâu, như thê nào, đê giải quyết vấn đề gì, có vai trò, có quan hệ ra sao với mạng lưới tri thức tồn tại trong I Phân tích các tô chức toán học của chúng tôi được đặt dưới ánh sáng của nghiên cứu khoa học luận về tri thức O Qua phân tích ấy, chúng tôi sẽ tìm câu trả lời cho câu hỏi : các đặc trưng khoa học luận của O đã được tính đến như thế nào trong thể chế I ? Câu hỏi này cần được đặt ra vì việc không tính đến chúng một cách không đầy đủ sẽ
làm thu hẹp nghĩa (thậm chí có thể làm mất nghĩa) của O đối với các cá nhân X hoạt
động trong I
Cuối cùngchúng tôi sẽ thiết kế một số tình huống DH có tính đến phương pháp mô hình hóa trong DH toán, một phương pháp không thể thiếu nếu muốn sử dụng toán học vào cuộc sống hay các khoa học khác Mà sự sử dụng này thì không thê không nói đến khi bàn về DH Thống kê - Xác suất, bởi - như chúng tôi sẽ chỉ ra trong phần nghiên cứu khoa học luận, đã nói đến khoa học này là phải nói đến mô hình hóa Tất nhiên, các tình huống đó phải nhắm đến việc làm cho HS hiểu được nghĩa của tri thức
mà ta muốn dạy cho họ
Kết quả nghiên cứu của chúng tôi sẽ được trình bày trong 4 chương
Chương I dành cho việc nghiên cứu mục đích DH Thống kê và Xác suất nhìn từ đặc trưng của toán học nói chung, của các khoa học này nói riêng Câu hỏi về mục đích
DH tưởng chừng như không có gì phải bàn cãi, nhưng thực tế lại cho thấy dường như cân phải xác định rõ ràng hơn
Chương 2 trình bay kết quả đạt được của một nghiên cứu khoa học luận nhằm vạch rõ quan hệ giữa Thống kê và Xác suất, các cách tiếp cận khái niệm Xác suất và nghĩa
của một số khái niệm của Thống kê
Chương 3 trình bày tóm tắt kết quả ñghiên cứu quan hệ thể chế với những đôi tượng tri thức Thống kê - Xác suất mà đề tài đề cập đến, từ đó hình thành nên giả thuyết về
ảnh hưởng của sự lựa chọn thê chế lên quan hệ các nhân GV và HS đối với những đối
tượng này
Chương cuối cùng giới thiệu hơi đồ án sư phạm được xây đựng nhằm làm cho HS
hiểu nghĩa của những tri thức được bàn đến, qua đó nâng cao năng lực hiểu biết toán
của các em
Trang 7Chuong 1
NGHIÊN CỨU MỤC ĐÍCH CỦA DẠY HỌC
XÁC SUAT — THONG KE
I MUC DICH CUA DẠY HỌC TOÁN
Về mục đích của DH toán, mọi nền giáo dục đều thừa nhận là phải mang lại cho HS
những kiến thức phổ thông, những kỹ năng cơ bản của người lao động, qua đó rèn luyện tư duy logic, phát triển năng lực sáng tạo, góp phần hình thành thế giới quan và nhân sinh quan đúng đắn cho các em
Van dé là cụ thể hóa mục đích ay như thế nao
Cuộc cải cách toán học hiện đại vào những năm 70 của thế kỷ trước chủ trương quán
triệt phương pháp tiên đề, lý thuyết tập hợp và ánh xạ trong DH toán ngay từ bậc phổ thông Nhưng người ta đã nhanh chóng nhận ra thất bại của cuộc cải cách này, mà
một trong những nguyên nhân là toán học được trình bày như vậy là thứ toán học hình thức, xa lạ với thực tiễn và HS không thể sử dụng được vào việc giải quyết các vẫn đề
nảy sinh từ hoạt động thường ngày của họ
Những cuộc cải cách thực hiện sau đó chuyền sang xu hướng làm cho toán học gần với cuộc sống hơn Xu hướng này vẫn tiếp tục được theo đuổi cho đến ngày nay, đặc biệt là vài thập niên gần đây, trong bối cảnh phát triển mạnh mẽ của hai cuộc cách
mạng khoa học công nghệ và xã hội
Ngày nay, bàn về mục tiêu giáo dục, quan điểm được thừa nhận rộng rãi là phải chuẩn
bị cho người học khả năng áp dụng kiến thức một cách linh hoạt vào các bỗi cảnh
và các vẫn đề mới, hình thành thói quen tự học và học tập suốt đời Quan điểm này
đã dẫn người ta đến chỗ thay đồi hình thức và tiêu chuẩn đánh giá HS Khái niệm hiểu
biết toán được hình thành từ đó
I.1 Hiểu biết toán
Trang 8ngừng cải thiện chất lượng đào tạo PISA (Programme for International Student Assessment) do tổ chức Hợp tác và Phát triển Kinh tế - gọi tắt là OECD (Organization for Economic Cooperation and Development) tiễn hành là một trong những chương trình đó
OEDC được thành lập năm 1997 nhằm đánh giá việc chuẩn bị cho HS tuổi mười lăm đáp ứng với những thách thức của xã hội ngày nay Các chuyên gia từ những nước thành viên làm việc trong các nhóm công tác có chuyên môn giỏi và kỹ thuật tốt trong lĩnh vực đánh giá, so sánh Những công cụ đánh giá mà họ xây dựng đảm bảo có giá trị quốc tế đồng thời có cân nhắc đến chương trình và đặc trưng văn hóa của các nước thành viên OECD
Người ta đánh giá cái gì ?
Theo truyền thống, việc đánh giá HS chủ yếu dựa trên các bài kiểm tra, các kỳ thi Chăng hạn, tại Việt Nam, vấn đề đánh giá ở tầm quốc gia được thực hiện qua những
kỳ thi phân thành hai cấp độ Ở “cấp độ cao” (như kỳ thi HS giỏi), người ta coi trọng
đánh giá năng lực tư duy logic, sáng tạo của HS, thông qua việc yêu cầu họ giải một
số bài toán khó Ở “cấp độ đại trà”, nội dung đánh giá đa phần tập trung vào những yêu cầu về ghi nhớ hay áp dụng kiến thức, kĩ năng đã được rèn luyện và vận dụng các quy trình quen thuộc đề giải quyết một số bài toán tiêu biểu thường gặp trong sách giáo khoa và lớp học Những bài toán tiêu biểu ấy, dù ở “cấp độ đại trà”, ít khi được hình thành từ một vấn đề của thực tế Chăng hạn, theo quan điểm này thì gắn VỚI nỘI dung “khảo sát hàm số” dạy ở cuối bậc THPT, người ta chỉ tập trung đánh giá kỹ năng khảo sát hàm số (cho sẵn dưới dạng một biểu thức giải tích) bằng công cụ đạo hàm Dường như HS không hề được yêu cầu giải quyết một vấn đề của thực tiễn hay của khoa học khác (như Vật lý chăng hạn) trong đó nhu cầu vận dụng các kiến thức
đã học về khảo sát hàm số nảy sinh Cách dạy, cách đánh giá ấy khiến không ít HS
băn khoăn, không hiểu mình học ““khảo sát hàm số” dé lam gi
Thực tế đó hoàn toàn trái ngược với xu thế chung mà giáo dục toán tiên tiến trên thế giới đã và đang hướng tới
Chăng hạn, đối với chương trình PISA, người ta tập trung vào những việc mà HS tuổi mười lăm cần phải làm trong tương lai và tìm hiểu những gì các em có thể làm được
trên cơ sở kiến thức đã học được Người ta không chỉ đánh giá kiến thức HS thu được
mà còn xem xét khả năng áp dụng kiến thức và kinh nghiệm vào những vấn để thực
tế (chứ không phải là vấn đề tiêu biểu thường gặp trong sách giáo khoa và lớp học)
Cụ thể hơn, đánh giá PISA không nặng về mức độ năm các nội dung có mặt trong
chương trình giảng dạy, mà chú trọng vào khả năng sử dụng kiến thức đã học vào
Trang 9thực tiễn và năng lực xử lý các tình huống mà họ có thể sẽ đối mặt trong cuộc sống sau khi rời ghế nhà trường
Liên hệ với mục tiêu DH toán, ta thấy quan điểm này hoàn toàn phù hợp với một thực
tế là đại đa số HS mà chúng ta đào tạo sau này sẽ là người sử đựng oán chứ không phải là người /àm toán (hiểu theo nghĩa nghiên cứu toán, đóng góp vào sự phát triển của các lý thuyết toán học)
Đánh giá PISA được tổ chức thường xuyên ba năm một lần Ba lĩnh vực được tập
trung đánh giá là đọc hiểu, hiểu biết toán và hiểu biết khoa học Việc xác định các
lĩnh vực đánh giá như vậy chứng tỏ người ta gán cho DH toán trong nhà trường một
ví trí quan trọng
Hiểu biết toán là gì ?
PISA tổ chức lần thứ hai vào năm 2003 với trọng tâm là hiểu biết toán có sự tham gia của 41 quốc gia, trong đó có nhiều quốc gia có nền giáo dục tiên tiến trên thế giới như
Nhật Bản, Phần Lan, Hoa Kì, Canada, Đan Mạch, Thụy Điền, Úc Đánh giá PISA
2003 tập trung vào các bài toán thực tế, tiễn xa hơn những loại tình huống và vấn đề thường gặp trong lớp học
Định nghĩa về hiéu biết toán của OECD/PISA là:
“Hiểu biết toán là năng lực của một cá nhân, cho phép xác định và hiểu vai trò của toán học trong cuộc sống, đưa ra những phán xét có cơ sở, sử dụng và gắn
kết với toán học theo những cách khác nhau nhằm đáp ứng nhu cầu cuộc sống
của cá nhân đó với tư cách là một công dân có tinh thần xây dựng, biết quan tâm
và biết phản ánh.”
Như vậy, thuật ngữ “hiểu biết toán” được dùng để nói về năng lực kết hợp một cách sáng tạo những kiến thức và kỹ năng toán học khác nhau vào các sự kiện, các vấn đề được đặt ra bởi tình huống thực tế đa dạng bên ngoài Những tình huống ấy có thể là quen thuộc hoặc không, có thể đơn giản hay phức tạp Dĩ nhiên, để kết hợp được như vậy thì tiền dé là phải có những kiến thức và kỹ năng toán học nền tảng Nhưng hiểu biết toán không chỉ là có các kiến thức và kỹ năng ấy
Định nghĩa về Jiểu biết foán nêu trên nhẫn mạnh khả năng thiết lập, giải quyết các vân đề, hay đơn giản chỉ là giải thích các hiện tượng, sự kiện xuất hiện trong những
bối cảnh khác nhau mà ở đó cần có sự can thiệp của toán học Từ bối cảnh ở đây bao
gồm không chỉ những tình huống toán học thuần túy mà cả những tình huống ngoài toán học Trong những tình huống ấy, thoạt đầu ta không thấy có cấu trúc toán học nào hiện diện tường minh, và nhiệm vụ của người giải quyết vấn đề là phải đưa ra một
Trang 10nhận được vì thực tế không phải bao giờ cũng chỉ có một câu tra lời mà thường là tồn tại nhiều câu trả lời phù hợp với các hoàn cảnh khác nhau
Định nghĩa về điểu biết toán của PISA phù hợp với quan điểm DH tích hợp mà người
ta thường nói đến từ vài thập niên qua, theo đó, việc DH các môn khoa học phải xích lại gần nhau và gắn với thực tiễn Những chương trình cũng như những kiêu DH thiên
về kiến thức hàn lâm, xa rời thực tiễn đang dần dần bị loại bỏ
Dưới đây là vài ví dụ đã được PISA sử dụng khi đánh giá năng lực hiểu biết toán của
HS tuổi mười lăm
Xác suất dé thắng ở trò chơi này là bao nhiêu?”
(The PISA 2003, tr 28)
Ví dụ 3: Tài khoản tiết kiệm
“1000 zed được ký gửi vào một tài khoản tiết kiệm ở ngân hàng Có hai lựa chọn: có thể nhận lãi suất 4% hằng năm hay nhận ngay một phần thưởng 10 zed của ngân hàng và lãi suất 3% hằng năm
Lua chon nao là tốt hơn sau một năm? Sau hai năm ? ” (The PISA 2003, tr 32)
Những ví dụ trên cho thấy mục tiêu cần phải nhắm đến của DH toán là hình thành khả năng vận dụng những kiến thức đã học vào các tình huống của thực tiễn, những tình huống mà như chúng tôi đã nói trên, trong đó không hiện diện tường minh một mô hình toán học nào
Trang 11I.2 Toán học hóa các tình huống thực tế (mô hình hóa)
Đề vận dụng kiến thức toán học vào việc giải quyết những tình huống của thực tế như trên, người ta phải toán học hóa tình huống đó, tức là xây dựng một mô hình toán học thích hợp cho phép tìm câu trả lời cho tình huống Quá trình này gọi là quá trình mô hình hóa toán học (mà dưới đây, để ngắn gọn, chúng tôi sẽ gọi là mô hình hóa) Theo 7 điển bách khoa toàn thư, mô hình hóa toán học là sự giải thích toán học cho một hệ thống toán học hay ngoài toán học nhằm trả lời cho những câu hỏi mà người ta đặt ra trên hệ thống này
Quá trình mô hình hóa toán học được mô tả qua 4 bước
Bước 1: Xây dựng mồ hình định tính của vẫn đề, tức là xác định các yếu tố có ý nghĩa
quan trọng nhất trong hệ thống và xác lập các qui luật mà chúng ta phải tuân theo
Bước 2: Xây dựng mô hình toán học cho vẫn đề đang xét, tức là diễn tả lại đưới dạng
ngôn ngữ toán học cho mô hình định tính Lưu ý là ứng với vấn đề đang xem xét có thể có nhiều mô hình toán học khác nhau, tùy theo chỗ các yếu tố nào của hệ thống và mối liên hệ nào giữa chúng được xem là quan trọng
Bước 3: Sử dụng các công cụ toán học đề khảo sát và giải quyết bài toán hình thành ở
bước hai Căn cứ vào mô hình đã xây dựng cần phải chọn hoặc xây dựng phương pháp giải cho phù hợp
Bước 4: Phân tích và kiểm định lại các kết quả thu được trong bước ba Trong phần
này phải xác định mức độ phù hợp của mô hình và kết quả tính toán với vẫn đề thực
tế hoặc áp dụng phương pháp phân tích chuyên gia
Ở bước này có thê xảy ra một trong hai khả năng :
e Khả năng 1 : Mô hình và các kết quả tính toán phù hợp với thực tế
Khi đó chỉ cần tổng kết lại cách đặt vấn đề, mô hình toán học đã xây dựng, các thuật toán đã sử dụng, kết quả thu được
e Khả năng 2 : Mô hình và kết quả không phù hợp với thực tế
Lúc này phải tìm nguyên nhân Có thể đặt ra những câu hỏi sau :
Các kết quả tính ở bước thứ ba có đủ độ chính xác không ?
Để trả lời, người ta phải kiểm tra lại các thuật toán, các quy trình, các tính toán đã sử
dụng Ở đây, người ta tạm chấp nhận rằng mô hình toán học (và cũng có nghĩa là mô hình định tính) xây dựng như vậy là thỏa đáng
Trang 12Nếu chưa thì phải xây dựng lại
Với loại câu hỏi này, ta tạm chấp nhận mô hình định tính đã xây dựng, nhưng phải
xem xét lại mô hình toán học đã lựa chọn
Mô hình định tính xây dựng có phản ánh được đầy đủ hiện tượng thực tế không ?
Nêu không thì cân phải rà soát lại bước một xem có yêu tô, qui luật nào bị bỏ sót không
Các số liệu ban đầu (các thông số, hệ số) có phản ánh đúng thực tế không ?
Nếu không thì phải điều chỉnh lại một cách nghiêm túc và chính xác
(Tham khảo Bùi Thế Tâm, Trần Vũ Thiệu, 1998, tr.7, 8, 9)
Hai câu hỏi cuối đặt ra cho mô hình định tính đã được xây dựng
Mô hình định tính được một số tác giả, ví dụ như L Coulange, gọi là mô hình phỏng
thực tiễn Kết hợp giữa sơ đồ do L Coulange (1997) đề nghị và những giải thích ở
trên, ta có thể mô tả quá trình mô hình hóa qua sơ đồ sau :
Phạm vi ngoài toán học Câu hỏi trên hệ thống hay
Câu trả lời cho
Câu trả lời cho bài toán toán học
Bài toán toản học
Như thế, mô hình hóa toán học là quá trình cấu trúc lại vấn đề thực tế nhờ những khái
niệm toán học được lựa chọn một cách phù hợp, thông qua việc xây dựng mô hình
ox
phỏng thực tế băng cách “cắt tỉa” — hay ngược lại, bổ sung thực tế - để có thé gan van
Trang 13đề ban đầu với các quy trình toán học Trong bước tìm kiếm mô hình phỏng thực tế này người ta thường phải thực hiện những việc như đặt giả thuyết, tổng quát hóa, hình
thức hóa, Bài toán toán học cuối cùng được xây dựng phải đại diện trung thực cho
bối cảnh thực tế
e Trở lại với bài toán nêu trong ví dụ l ở trên
Bat dau bang mot van dé thuc té: Đặt cây đèn ở chỗ nào trong công viên?
Xây dựng mô hình phỏng thực tiễn : Công viên có thê được thê hiện như là một tam
giác Vùng chiếu sáng của đèn là một hình tròn mà điểm đặt cột đèn là tâm Vấn đề là
phải đặt cây đèn sao cho toàn bộ tam giác nằm trong hình tròn
Chuyển về bài toán toán học : xác định tâm của đường tròn ngoại tiếp tam giác Dùng kiến thức tâm về tâm đường tròn ngoại tiếp tam giác các đường trung trực dé giải bài toán : dựng hai đường trung trực của hai cạnh tam giác Giao điểm của hai đường trung trực là tâm của đường tròn
Liên hệ kết quả này với công viên thực tế Chăng hạn, nêu một trong ba góc của công viên là tù, thì lời giải này không hợp lý vì cây đèn sẽ nằm ra ngoài công viên Nếu ba góc của tam giác đều nhọn thì vẫn còn phải biết bán kính đường tròn ngoại tiếp tam giác có vượt quá bán kính chiếu sáng của đèn không
Như vậy là cần phải biết hình dạng, các kích thước của tam giác và bán kính chiếu
sáng của đèn Tìm hiểu những thông tin bổ sung này rồi lại chuyển về bài toán toán
hoc
e Đối với tình huống Trò chơi hội chợ, làm thế nào dé giải quyết ?
Trước hết, cần phải nhận ra rằng xác suất để thắng phụ thuộc vào nhiều yếu tố : khoảng cách từ chỗ đứng ném đến bảng ô vuông, số ô vuông của bảng, kích cỡ tương ứng của các ô vuông và đồng xu, (xác định các biến số quan trọng) Kế đến, để chuyên dịch vấn đề thực tế thành bài toán, phải hiểu yếu tố đầu tiên cần xét đến là mối quan hệ giữa một hình vuông và một hình tròn nhỏ hơn (cắt gọt bớt thực tế) Lúc đó, kích thước các hình này là quan trọng và ta giả định là đã biết (bồ sung thông tin) Gia
sử bán kính của đồng xu là 3cm và cạnh của hình vuông là 10cm Để thắng, tâm của đồng xu phải cách mỗi cạnh ít nhất 3cm - nếu không thì cạnh của hình vuông sẽ cắt đồng xu Muốn thế thì tâm của đồng xu
tâm với hình vuông lớn và có cạnh bằng ⁄2 oy)
» , " : \ : } 3 3
4 (khoảng cách giữa hai cạnh song son Ạ ang 8 q g song ANE —À, Thủy /
Trang 14hình vuông nhỏ và lớn (trong ví dụ là 16/100)
Trở lại với thực tê : xác suât trên chưa tính đên các yêu tô như sô ô vuông của bảng, khoảng cách từ chỗ đứng ném đến bảng, Muốn trả lời câu hỏi thì phải thực hiện một số lớn lần thực nghiệm và quan sát tần suất thắng cuộc
I.3 DH mô hình hóa và DH bằng mô hình hóa
Đề nâng cao năng lực hiểu biết toán cho HS, không thê coi nhẹ việc DH cách thức
xây dựng mô hình toán hoc dé giải quyết một vấn đề nào đó do thực tiễn đặt ra Đối
với các nhà toán học, mô hình ấy thường là chưa tồn tại, hoặc đã tồn tại nhưng không
cho phép giải quyết mọi trường hợp, hay ngược lại, không mang đến lời giải tối ưu cho một lớp các trường hợp đặc biệt nào đó Việc tìm ra mô hình mới của họ thường
dẫn đến một phát minh mới (một khái niệm, một định lý mới) Đối với GV, mô hình
ấy đã tồn tại Điều đó dẫn đến chỗ việc DH có thê được tổ chức theo hai tiến trình:
- Trình bày tri thức toán học lý thuyết (giới thiệu định nghĩa khái niệm hay định lý, công thức) -> Vận dụng tri thức vào việc giải quyết các bài toán thực tiễn, ở đó phải xây dựng mô hình toán học
- Xuất phát từ một vấn đề thực tiễn > Xây dựng mô hình toán học —> Câu trả lời cho
bài toán thực tiễn —> Thê chế hóa tri thức cần giảng dạy bằng cách nêu định nghĩa hay định lý, công thức —> Vận dụng vào giải các bài toán thực tiễn khác mà tri thức đó cho phép xây dựng một mô hình toán học phù hợp
Tiến trình DH thứ nhất, gọi là DH mô hình hóa, tiết kiệm được thời gian nhưng lại
làm mat đi nguồn gốc thực tiễn của các tri thức toán học, và do đó làm mất nghĩa của tri thức Hơn nữa, trong trường hợp này, một cách rất tự nhiên HS sẽ không lưỡng lự
gì và hướng ngay đến việc xây dựng một mô hình toán học phù hợp với tri thức vừa
đưa vào Liệu vượt ra khỏi bối cảnh này, họ có thé xây dựng được mô hình toán hoc
phù hợp hay không ?
Tiến trình thứ hai, bản chất là DH roán thông qua DH mô hình hóa, cho phép khắc
phục khiếm khuyết này Ở đây tri thức cần giảng dạy sẽ hình thành từ quá trình nghiên cứu các vấn đề thực tiễn, nảy sinh với tư cách là kết quả hay phương tiện giải
quyết vấn đề Người ta gọi đây là DH bằng mô hình hóa (Tham khảo [3], tr.171-
172)
Trang 15Il MUC DICH CUA DAY HỌC XAC SUAT — THONG KE
Xã hội cung cấp một lượng thông tin phong phú, đa dạng, thường là chính xác hoặc
tương đối chính xác và được trình bày một cách khoa học hoặc không Người ta có
thể rút ra những kết luận nào từ thông tin được cung cấp ? Câu trả lời liên quan đến phương pháp phân tích thông tin
Ngoài ra, trong cuộc sống hằng ngày chúng ta thường gặp những hiện tượng không
chắc chắn : kết quả bầu cử không đúng với dự kiến, dự báo thời tiết không đáng tin
cậy, chỉ số suy thoái của thị trường chứng khoán, khả năng phát triển một lĩnh vực
nào đó, những mô hình kinh tế không hiệu quả, và nhiều biểu hiện khác của tính
không chắc chắn trong thế giới của chúng ta
Nghiên cứu phương pháp phân tích thông tin và tính không chắc chắn liên quan hai chủ đề : dữ liệu và cơ hội Đó chính là nội dung nghiên cứu của Thống kê và Xác suất Chính vì thế mà ở nhiều nước các kiến nghị gần đây liên quan đến vấn đề giảng dạy toán trong nhà trường đều có nhất trí cao đối với việc nên gán cho Thống kê và Xác suất một vị trí nổi bật hơn so với những chương trình của quá khứ
Có lẽ vì thế mà PISA xem /ính không chắc chắn là một trong bốn ý tưởng bao quát nội dung toán giảng dạy ở các trường phô thông trên thế giới
II.1 Mục đích của DH Thống kê
Việc giảng dạy Thống kê không thể chỉ nhắm vào các công thức, vì Thống kê không đơn thuần là một tập hợp kĩ thuật Đằng sau những kỹ thuật này là tư duy, là cách nắm bắt các đữ liệu, đặc biệt là nhận thức được sự tồn tại của những cái không chắc chắn,
hệ quả của sự thay đổi thông tin và việc thu thập dữ liệu DH Thống kê phải mang lại cho người học khả năng đưa ra quyết định trong những tính huống không chắc chắn
Cụ thê hơn, qua nghiên cứu chương trính toán ở bậc trung học của Cộng đồng pháp ngữ Bi, Bair và Hasbroeck (2002) cho rằng:
“DH Thống kê ở bậc trung học cần đặc biệt nhắm đến việc đào tạo toán học cho
công dân: bởi vì mỗi người nhận được vô số thông tin đa phương tiện dưới dạng
Trang 16số liệu hoặc biểu đồ, nên họ cần phải có khả năng hiểu, làm sáng tỏ và nhận định
các thông tin.”
Quan điểm giảng dạy Thống kê với mục đích rèn luyện tư duy không chỉ được thừa nhận ở Bỉ mà nó còn được chia sẻ ở các nước khác, ví dụ ở Pháp:
“Đảo tạo công dân: mọi người đều phải đối diện với vô vàn thông tin khác nhau;
DH Thống kê phải phát triển ở họ những khả năng phân tích và tổng hợp thông tin, cho phép họ có một cái nhìn phán xét về những thông tin này.” [Duperret, 2002]
Theo Duperret (2002), việc DH Thống kê cần nhắm đến 3 cấp độ
Cấp độ đầu tiên: Hiểu sự biến đổi của thông tin, phân tích một cách chính xác, thận trọng
Cấp độ thứ hai: Biết so sánh các dãy đữ liệu Đây là một trong những vấn đề cơ bản
của Thống kê mô tả, có thể thực hiện theo các cách thức sau:
- So sánh (định tinh) dựa trên các biểu đồ Thống kê
- So sánh dựa vào các chỉ số “tóm tắt” mẫu dữ liệu, ví dụ như các chỉ số định tâm (trung bình, trung vi, mốt), các chỉ số định độ phân tán (phương sai mẫu, độ lệch
chuẩn mẫu),
- So sánh (định lượng) dựa trên chỉ số tương quan giữa hai mẫu số liệu
Cấp độ thứ ba: Chuyển vào Thống kê suy diễn Đây là nơi của sự mô hình hoá, mở
rộng thông tin nhận được cho một trong một phạm vi rộng lớn hon Cấp độ này đặt ra
hai vấn đề: sự hợp thức của mô hình đã chọn lựa và kiểm soát các nguy cơ có thể gặp phải Quá trình mô hình hoá đòi hỏi một sự quay đi-trở lại giữa một bên là “thực tiễn”
và một bên là “mô hình toán học”
Với ba cấp độ trên, người học có thể hình thành được tư duy Thống kê: biết quản lí
một số lượng lớn các thông tin và phân tích chúng, biết so sánh các tập hợp thông tin, biết mô hình hoá toán học những thông tin này đề từ đó rút ra kết luận “phù hợp”
II.2 Mục đích của DH Xác suất
e Hiện tượng ngẫu nhiên và tính không chắc chắn tồn tại khắp quanh ta và nghiên cứu
chúng hiển nhiên là một nhu cầu của cá nhân, của xã hội Trong lịch sử, lý thuyết Xác
suất ra đời cũng chính từ nhu cầu này Đáp ứng nhu cầu ấy là mục đích đầu tiên cần phải nói đến khi bàn về việc đưa vào chương trình phổ thông một số nội dung của lý thuyết Xác suất - ngành toán học nghiên cứu quy luật của các hiện tượng ngẫu nhiên
và không chắc chắn
Trang 17Định nghĩa này có vẻ như mâu thuẫn, vì người ta thường hiểu từ ngấu nhiên, không chắc chắn nghĩa là không có quy luật Một biến có ngẫu nhiên sẽ có thê xây ra hoặc không xây ra và như thế thì tại sao lại có thể có một lý thuyết cho phép dự đoán kết qua ?
Thực ra thì khi xem xét một lượng lớn các biến cố ngẫu nhiên độc lập cùng loại (mỗi một trong đó có thể xây ra hoặc không xấy ra) người ta nhận thấy tính ồn định thống
kê của tần suất Chứng tỏ các biến có xẩy ra tuân theo những quy luật xác định Việc nghiên cứu chúng chính là nội dung của lý thuyết Xác suất
e Hơn thế, như chúng tôi sẽ chỉ ra trong chương 2, Thống kê và Xác suất là hai lý thuyết có mối quan hệ mật thiết, không thê tách rời Đây chính là lý do thứ hai biện minh cho sự cần thiết - và cũng nói lên một mục đích quan trọng - của việc giảng dạy Xác suất ở trường phố thông Nếu như mục dich cua DH Thống kê là cung cấp công
cụ cho việc nghiên cứu các khoa học khác (sinh học, y học, kinh tế) và đào tạo công
dân, thì các tính toán Xác suât lại là kiên thức cân có đê làm chủ những công cụ này
II.3 DH Thống kê - Xác suất với mục đích nâng cao năng lực
hiểu biết toán
Cần nhắc lại rằng Thống kê - Xác suất là lĩnh vực toán học có mối liện hệ chặt chẽ
với thực tiễn Nói đến Thống kê - Xác suất là nói đến thực tiễn DH Thống kê - Xác
suất trước hết nhằm mang lại những kiến thức, kỹ năng cần thiết cho hoạt động thực
tiễn của một « công dân có tỉnh thần xây dựng, biết quan tâm và biết phản ánh » Day
là mảnh đất màu mỡ có thể khai thác trong mục đích hình thành năng lực hiéu biét toán và rèn luyện phương pháp mô hình hóa (toán học hóa các tình huống thực tiễn) cho HS Không phải không có lý do mà có ý kiến cho rằng nói đến DH Thống kê -
Xác suất là nói đến DH mô hình hóa và DH bằng mô hình hóa.
Trang 18Chương 2
MỘT NGHIÊN CỨU TRI THỨC LUẬN
Nghiên cứu tri thức luận về những đối tượng tri thức mà chúng tôi quan tâm được tiến hành qua ba nghiên cứu thành phần mà kết quả sẽ được trình bày tóm lược ở ba phần đầu tiên của chương
Trước hết, thông qua việc phân tích lịch sử hình thành các lý thuyết toán học Thống
kê và Xác suất, chúng tôi sẽ làm rõ mối liên hệ mật thiết giữa hai lý thuyết này
Thực tế cho thấy hiểu biết của GV về mối liên hệ ay không nhiều, khiến cho việc DH Thống kê - Xác suất thiếu sự gắn kết cần có Đó là một trong những lý do dẫn chúng
tôi đến chỗ tiền hành nghiên cứu thứ nhất này
Ở hướng nghiên cứu thứ hai chúng tôi sẽ làm rõ những đặc ứrưng khoa học luận của khái niệm xác suất Như thế, mục đích không phải là phân tích lịch sử của toàn bộ lý thuyết Xác suất — một nghiên cứu vượt quá phạm vi đề tài của chúng tôi với mối quan tâm được giới hạn trong những nội dung về Xác suất được giảng dạy ở trường phổ thông Chăng những thế, ngay cả đối với khái niệm Xác suất của một biến cố, chúng tôi cũng không tiến hành phân tích lịch sử, vì - may mắn thay, các công trình của một
số tác giả như Michel HENRY, Jean-Francois PICHARD, da c6 thé cho gitp chúng tôi xác định được đặc trưng khoa học luận của khái niệm này Một vài giáo trình đại học về phần Xác suất cũng được chúng tôi sử dụng cho phần thứ hai
Đặc trưng khoa học luận của một số tri thức thống kê được đưa vào giảng dạy ở phổ thông là mục đích của hướng nghiên cứu thứ ba Ở đây, ngoài việc nghiên cứu lich sử, chúng tôi cũng tìm cách tiếp cận vấn đề từ các giáo trình đại học, các tác phẩm toán học
Sau khi đã trình bày kết quả của ba nghiên cứu thành phần, chúng tôi dành phần thứ
tư của chương để đề cập đến những kết luận sư phạm rút ra từ đó và từ những công trình đã công bố ở Pháp : những khó khăn, chướng ngại và vấn đề mô hình hóa trong
DH Thống kê và Xác suất.
Trang 19I PHAN TICH LICH SU’ HINH THANH
CAC LY THUYET THONG KE VA XAC SUAT:
MOI LIEN HE GIU’A CHUNG
I.1 Nguồn gốc của Thống kê
Nói chung, mọi lý thuyết toán học không được hình thành thuần túy từ suy lý mà
ngược lại, đều nảy sinh trong một bối cảnh đặc biệt, gắn liền với nhu cầu thực hành và trình độ phát triển của toán học Thống kê không vượt khỏi logic này : nguồn gốc của
nó là những vấn đề của thực tiễn, vả sự phát triển của nó về sau được đặt trong môi
trường toán học của những năm cuối thế kỷ XIX, một môi trường đã cung cấp cho nó những khái niệm, những công cụ cần thiết, trong đó không thể không nói đến lý thuyết Xác suất
Nói một cách chính xác thì Thống kê trước hết là Thống kê mô tả và thuở ban đầu nó
đã được hình thành từ việc quan sát các sự kiện
Từ Thống kê có gốc latin 1a s/aisficwmn, đã có từ thời cổ đại Tuy nhiên, nhu cầu
thống kê bằng những con số chỉ thực sự xuất hiện sau này, khi người đứng đầu nhà nước muốn biết những yếu tố chứng tỏ sức mạnh của mình (dân số, quân đội, của
cải, ) Ý tưởng lập danh sách những yếu tố đó hình thành khá tự nhiên, khoảng
3000 năm trước Công nguyên
I.2 Những ý đồ ngoại suy đầu tiên
Vào thế kỷ XIII các dữ liệu trở nên rất nhiều nhờ sự sinh sôi của quốc khó Đến thế kỷ XIV người ta bắt đầu có những ghi chép đề lưu giữ các yếu tố về hộ tịch : số người sinh ra, số đám cưới, số người chết, .Thế nhưng, trong suốt thời kỳ này thì Thống kê chỉ mang tính chất hành chính, hoạt động điều tra còn rất hiếm hoi
Những tiến bộ cơ bản của Thống kê xuất hiện ở nửa sau của thế kỷ XVII, từ nhu cầu
biết và giải thích các hiện tượng của kinh tẾ, xã hội GIai đoạn này trùng với giai đoạn
phát triển của ứrường phái chính trị số ở Anh, báo trước sự ra đời của Thống kê suy
diễn Trường phái nảy, do John Graunt (1620 — 1674) và William Petty (1623 — 1687) sáng lập, bận tâm đến việc định lượng và nghiên cứu những bất biến trong tập tính xã hội, những ứng xử cho phép đánh giá và dự báo trước : số con của một phụ nữ,
Trang 20Chắng hạn, phương pháp ước lượng dân số của W Petty duge Jaqueline Hecht mé ta trong bài báo Pour une histoire đe la sfafisfique (1987) như sau :
“Ông đánh giá trước hết số nhà ở London vào năm 1686 là 88000 Thiết lập một
số trung bình về tý lệ giữa số gia đình với số nhà ở Dublin và Bristol, ông đánh giá số gia đình ở London là 105000, gần như tương đương với con số chính thức của văn phòng quản lý hộ tịch (105315) Bằng cách giả sử là mỗi gia đình trung
bình có 6 thành viên và 10% số nhà là nơi trú của hai gia đình, số còn lại chỉ có I
gia đình, ông suy ra rằng 105000 ngôi nhà ở London là nơi trú ngụ của 695700 người dân.”
Kỹ thuật ngoại suy này - còn gọi là kỹ thuật nhân — nhanh chóng mang lại những thành công lớn, tạo điều kiện cho những cuộc điều tra trên một bộ phận, góp phần đây lùi các cuộc điêu tra “không 16”
Song song với hoạt động của #rường phái chính trị số tại Anh, ở Pháp thời kỳ này
cũng có hai tên tuổi đáng nhớ, Colbert và Vauban Năm 1664, phối hợp với những
người đứng đầu tỉnh thực hiện một cuộc điều tra quốc gia, Jean Baptiste Collebert (tac
giả cuốn sách Phương pháp tổng quát và dễ dàng đề đếm dân số công bỗ năm 1686)
đã khuyên sử đựng mẫu về những vùng đất có thê cày cây của mỗi tinh dé đánh giá tốt nhất khả năng nông nghiệp của tỉnh
Phương pháp thay thế những điều tra trên tông thể bởi điều tra trên bộ phận là căn nguyên dẫn đến chỗ người ta phải tìm ra các yếu tố để biện minh cho phương pháp
Sự xuất hiện của các tính toán Xác suất cung cấp cho Thống kê các yếu tố đó Chúng
ta sẽ nói đến điều này khi phân tích lịch sử hình thành lý thuyết xác suất
Một trong những người đặt nền móng cho khoa học Thống kê toán là Adolphe Quétlet (người Bỉ) Ông đã hình dung một cách rõ ràng rằng Thống kê có thê dựa trên những tính toán Xác suất Là một “tín đồ” của sự chính xác, nhưng - dù chưa đi đến chỗ ưu tiên cho những nhận định rút ra từ một mẫu, ông cũng đã chấp nhận sự khái quát hóa các kết quả thu được trên một bộ phận cho tổng thể, ví dụ như tỉ lệ người chết quan sát được ở tầng lớp những người có thu nhập cao (nhưng ông lại từ chối sự khái quát hóa tỉ lệ bé trai do những người phụ nữ đứng đắn sinh ra)
Dù việc nghiên cứu tổng thể có những ưu thế của nó, sự xem xét trên bộ phận không biến mắt trong quan điểm của các nhà thống kê học Jean-Baptis Fourier đã đóng vai trò tích cực trong sự phát triển của Thống kê Ông đã tiến hành nhiều nghiên cứu về
thủ đô Paris Cuối thế kỷ XIX ông đã nghiên cứu về lương của những người làm việc
ở Pháp thời kỳ 1891-1893 thông qua điều tra trên một mẫu chiếm 1/5 dân só
Vào cuối thế kỷ XIX, đường như mọi thứ đã sẵn sàng cho sự phát triển của quan điểm nghiên cứu trên mẫu : kinh nghiệm thực hành đã có — chủ yếu về nhân khẩu học ; lý
Trang 21thuyết Thống kê đạt được nhiều thành tựu ; nhu cầu ngày càng cao về việc có những
con số phản ánh tình hình xã hội, kinh tế, ý kiến đân chúng, của các nhà nước
Cùng với châu Âu, Mỹ là cực chủ yếu tiến hành các cuộc điều tra nảy sinh từ mong muốn có thông tin, nếu được thì định lượng, về ý kiến, về suy nghĩ của dân chúng Các cuộc điều tra này đã xuất hiện ở Anh, Pháp, nhưng nhiều nhất vẫn là ở Mỹ, vào dịp bầu cử tổng thống Một sự kiện mấu chốt liên quan đến quan điểm thừa nhận điều tra trên mẫu : ngày 31/11/1936, ngày công bố kết quả bầu cử Trong khi Literary Digeste, bằng phương pháp điều tra “bỏ phiếu cọng rơm” - thực chất là một lần bỏ phiếu không chính thức, dự báo rằng chiến thắng sẽ thuộc về Landon, thì F.D
Roosevelt lại là người trúng cử Nhân vật này đã nhận được phiếu thuận ở ba cuộc
điều tra thực hiện độc lập với nhau bởi ba người Ba nghiên cứu của họ được tiến hành theo một phương pháp lựa chọn rất chính xác : người ta phỏng vấn những cá nhân đã được lay ra theo tỷ lệ phần trăm, gọi là phương pháp “nước Mỹ thu nhỏ” Sau sự kiện này, phương pháp điều tra trên tổng thể (kích thước lớn) biến mất Nhiều nước điều tra ý kiến dân chúng theo phương pháp mẫu và thậm chí Hội thảo quốc tế đầu tiên về Thống kê đã được tô chức ở Paris năm 1947
I.3 Cuộc tranh luận về tính đại diện (1895 — 1925)
Khái niệm fính đại điện của một kết quả hay của một mẫu là một khái niệm mới Mặc
dầu Condorcet thỉnh thoảng đã chú ý đến điều này, nhưng dường như người đầu tiên
sử dụng nó là Jean-Bapstiste Say, người đã khăng định tính không đại diện của tỷ lệ người chết quan sát từ tầng lớp giàu có đối với toàn thể dân chúng — trường hợp ngoại suy mà Quételet đã bảo vệ trước đây
Cuộc tranh luận về tính đại diện hình thành ở Viện Thống kê quốc tế (thành lập ở
London ngày 24 tháng 6 năm 1885) Nó bắt đầu bằng những báo cáo của Anders Nicolai Kiaer, giám đốc Văn phòng trung tâm Thống kê của Vương quốc Na Uy, tại Hội thảo năm 1895 ở Berne do Viện Thống kê quốc tế tổ chức Kiaer không xác định
tiên nghiệm tính đại diện, nhưng đã kiểm tra hậu nghiệm điều đó thông qua việc so sánh cấu trúc của mẫu với cấu trúc có được từ một cuộc điều tra tổng thể Ông đặt ra
câu hỏi:
“ Một Thống kê với tư cách là đại diện phải được thực hiện như thế nào để nó
”
là hình ảnh thu nhỏ chính xác đến mức có thể được của toàn thể xã hội ?
Mặc dầu Kiaer đã phòng ngừa trước, ông vẫn bị những người tham dự Hội thảo phản đối kịch liệt Francais Emile Levasseur nói:
Trang 22“Chang lẽ giữa Thống kê toàn bộ với các nghiên cứu chuyên khảo lại có vị trí cho một phương pháp thứ ba ? [ ] những nghiên cứu Thống kê dựa vào Thống
kê bộ phận được áp dụng không phải cho tổng thể mà chỉ là cho một số xác định
Kiaer đã nhận được sự ủng hộ của Bortklewlez, giáo sư của đại học Berlin, người đưa
ra gợi ý sử dụng các tính toán Xác suất để kiêm chứng bằng Thống kê sự chênh lệch tồn tại giữa phân bố của mẫu với phân bố của tông thê trên các biến cơ bản (ông gọi là biến chìa khóa) ŸÝ kiến của Bortkiewiez, đánh dấu bước quan trọng đầu tiên của việc đưa Xác suất vào các nghiên cứu Thống kê liên quan đến mẫu đại diện
Kiaer còn nhận được sự ủng hộ của Carroll Wright, của Bộ trưởng Bộ lao động Mỹ Ông Bộ trưởng, trong một bức thư gửi cho Hội đồng phụ trách các nghiên cứu về phương pháp đại điện đã khắng định sự đúng đắn của kỹ thuật Kiaer, thường xuyên được sử dụng thành công ở Mỹ
Sau năm 1925, các cuộc tranh luận không còn là câu hỏi “có mẫu hay không” mà là
“làm thế nào để lấy ra được một mẫu ?” Cuộc tranh luận đã nhanh chóng đi đến chỗ
phân biệt mẫu ngẫu nhiên (chọn ngẫu nhiên) với mẫu có suy tính (chọn hợp lý, có tính
toán, cân nhắc)
Cùng thời kỳ này ở Nga người ta cũng đã nghiên cứu việc chọn mẫu ngẫu nhiên Năm
1425 A.G Kovalevsky công bố một cuốn sách mà sau này được lấy làm cơ sở về lý thuyết cũng như về thực hành cho các cuộc điều tra
I.4 Lịch sử lý thuyêt xác suât
“Bàn về suy diễn Thống kê mà không nói đến sự tiến triển của khái niệm Xác suất là vô nghĩa Người ta không thê nào hiểu được cái này mà không nhìn thấy tầm quan trọng của cái kia.” (Jaque Droesbeke và Philippe Tassi, tr 22)
Khai niém “xac suat”
Về nguồn gốc, khái niệm xác suất hình thành từ trò chơi ngẫu nhiên đã lưu truyền trong dân gian thời cô đại Nhưng lý thuyết xác suất chỉ thực sự được hình thành kê từ đầu thế kỷ XVII Gắn với sự ra đời của lý thuyết này là là tên tuổi của hai nhà toán
21
Trang 23hoc Blaise Pascal (1623 — 1662) va Piere De Fermat (1601 — 1665), những người đã
giải bài toán chia tiền cá cược trong một trò chơi chưa kết thúc
Bài toán được tóm tắt như sau : Hai người chơi một trò chơi ngẫu nhiên, trong đó sự khéo léo và trí thông minh không tác động đến kết quả Họ thỏa thuận với nhau là người đầu tiên thắng một số ván nào đó theo quy định sẽ là người thắng cuộc và được lây toàn bộ số tiền đặt cược của cả hai người Giả sử họ phải ngừng trò chơi khi chưa
phân thắng bại Làm thế nào đề phân chia một cách công minh tiền đặt cược ?
Bài toán chia tiền cá cược giống với vẫn đề chia tài sản thừa kế hay quyền lợi có từ
các vụ làm ăn kinh tế Để vấn đề trở thành một bài toán toán học có lời giải hợp lý
người ta đã trải qua một thế kỷ rưỡi mò mẫm
Cùng với Pascal và Fermat, thời kỳ đó còn có những công trình khác đề cập đến vấn
dé nay, chang han Christiaan Huyghen (1629 — 1695) vào những năm 1650-1660 cũng đã biên soạn tác phâm De racioeimiis in aleoe ludo trong đó có nói về kỳ vọng
toán và đưa vào khái niệm mẫu có hoặc không hoàn lại Tuy nhiên, định nghĩa chúng
ta dùng ngày nay về xác suất không phải do Pascal, Fermat hay Huyghens đưa ra mà phải đến 1814 mới được Pierre-Simon Laplace trình bày trong Essưi Philosophique sur les Probabilités Chúng tôi sẽ không trình bày ở đây phần phân tích quá trình giải
quyết bài toán và sự hình thành nên khái niệm Xác suất
Định nghĩa do Laplace nêu ra là :
“Xác suất của một biến cố bằng tỉ số giữa số trường hợp thuận lợi với số trường hợp có thé.”
Đây là một định nghĩa tường minh của xác suất dựa trên giả thiết về sự đồng xác suất
Nó được gọi là định nghĩa cô điển vì việc xem xác suất là tỉ số này đã được Pascal, Fermat hay Huyghens nói đến trước đây (bấy giờ nó chưa có tên gọi chính thức là xác suất như Laplace nêu lên) Trong định nghĩa của Laplace, không gian mẫu phải hữu hạn và các biến cố phải đồng khả năng xây ra Để sử dụng định nghĩa này, người ta cần đến các kiến thức của Đại số tổ hợp
Nhưng nếu một trong hai điều kiện của định nghĩa không được đáp ứng thì làm thế nào ?
Chính Jaque Bernoulli đã chỉ ra điểm hạn chế của cách tiếp cận theo định nghĩa trên : người ta không thể sử dụng nó đề nói về các hiện tượng tự nhiên phức tạp như “sự
xuất hiện một bệnh hay các hiện tượng về khí tượng, hoặc dự đoán các chiến lược của
người chơi mà cách hoạt động là không thể đoán trước.”
Đề ước lượng xác suất trong bối cảnh này, Bernoulli đề nghị xác định hậu nghiệm xác suât của biên cô mong đợi sau khi quan sát thây sự ôn định của tân suât xuât hiện một
Trang 24kết quả khi tiến hành thực nghiệm một số lớn phép thử giống nhau Trích đoạn dưới
đây của Bernoulli gợi ra phương pháp tiến hành thống kê:
“Nhưng thực ra ở đây, chúng ta còn một con đường khác để có được cái mà chúng ta tìm Điều gì không có được ở tiên nghiệm thì tối thiểu cũng phải nhận được ở hậu nghiệm, nghĩa là có thể khai thác nó bằng cách quan sát các kết cục của nhiều ví dụ tương tw; .”
(Bernoulli, 1713, tr.42-44, trích theo Coutinho, 2001, tr.39)
Điều này đã dẫn Bernoulli đến việc ước lượng tần suất cho khái niệm xác suất Phương pháp của ông có một ý nghĩa quan trọng, bởi từ chỗ chỉ có thé tính xác suất tiên nghiệm cho trường hợp các biến có đồng khả năng xuất hiện người ta đã ước lượng được xác suât của những biên cô phức tạp hơn như tác giả nói
Vấn đề còn lại mà Bernoulli chưa làm sáng tỏ được là xác định số thí nghiệm cần thiết
để phỏng đoán một xác suất Moivre và sau này là Laplace đã tìm cách giải quyết van
đề đó Henry ghi nhận lại kết quả của hai ông như sau:
“Định lý Moivre-Laplace sau này cho phép đưa ra một giá trị tương đương với xác suất P (F -e< p<E +) nên cũng cho phép tính được con số lý tưởng các thí nghiệm cần thực hiện để có độ chính xác e vả độ tin cậy I-œ cho trước
Chang hạn, với độ chính xác 3% và độ tin cậy 95% (œ = 5%) thì các điều tra
thông thường hiện nay có thể phỏng đoán được xác suất với kích thước mẫu thử vào khoảng 1000.”
(Henry, 2004, tr.8)
Liên quan đến trường hợp không gian các biến cố sơ cấp là vô hạn, còn có định nghĩa hình học của xác suất được hình thành từ các công trình của Buffon với 7rỏ chơi
2 VÀ z A oA +3 ^ Row
Franc-Carreau’ va bai toan vé cay kim”, công bô năm 1733
Chúng tôi sẽ trở lại với định nghĩa khái niệm Xác suất của một biến cố ở phần Il
Lý thuyết sai số
Gắn với lịch sử hình thành lý thuyết Xác suất còn phải nói đến J) thuyét sai số
Vào thế kỷ XVIII, khoa học thiên văn nhắm tới mục đích sử dụng các số đo thực
nghiệm để xác định vị trí của một đối tượng trên bầu trời Năm 1632 Galilé dựa vào
78 số đo do 13 nhà quan sát cung cấp Những người này quan sát ở nhiều nơi khác
? Tung đồng franc lên một nền lưới các ô vuông bằng nhau thì đồng tiền có thể nằm lọt trong một ô
vuông hoặc nằm trên các đường lưới
? Tung cái kim xuống nền gồm những đường thắng song song cách đều thì kim có thể nằm trọn giữa
hai đường song song hoặc cắt ít nhất một đường thẳng
23
Trang 25nhau Galilé đã nói rõ là dù họ quan sát rất giỏi thì vẫn luôn tạo ra sai số, và vấn đề là các sai số này phải được “sửa” sao cho có thê thu được những thông tin tốt nhất từ
những quan sát đã thực hiện Luật Xác suất về các sai số hình thành với mục đích chỉ
ra lợi ích của rung bình số học của những giá trị quan sát được trong việc ước lượng một tham số Về bài toán này, Simpson có những đóng góp quan trọng Chính ông đã đưa ra luật đơn điệu rời rạc : nêu p„ là xác suất gắn với giá trị x thì luật này được định nghĩa bởi :
¬
2a+1
Ong còn đưa ra thêm luat /udt tam gidc roi rac các sai số Sau đó, bằng cách chuyền
qua giới hạn, ông có luật tam giác liên tục các sai số
Giai doan sau do, nhiéu nha toan hoc (Lagrange, Lambert, Laplace, .) gop phan quan trọng cho sự phát triển của các lý thuyét Thong ké va Xac suat Lagrange ciing trình bày một số luật liên tục khác như phân phối chuẩn, phân phối cosinus, phân phối parabol
Như đã nói trên, trong phần thứ tư của cuốn sách Ars Conjectandi Bernoulli đã đặt ra
câu hỏi về việc tính Xác suất để nhận được mặt ngửa khi tung một đồng xu không cân
đối Ông tìm thấy câu trả lời cho câu hỏi bằng cách chỉ ra rằng nếu thực hiện một số lớn lần phép thử thì tần suất xuất hiện mặt sắp tiến dần tới một đại lượng p có thể xem
như xác suất nhận được kết quả này Đó chính là dạng ban đầu của luật số lớn
Song song với các nghiên cứu của Nicolas Bernoulli, còn có công trình #ọc thuyét vé
co hdi (The Doctrine of Chances) cua Abraham de Moivre (1667 — 1754) được công
bố vào năm 1718 Tac phẩm này là một xử lý thuần toán học, đã thực sự vận dụng
giải tích vào lý thuyết xác suất Chính là từ việc nghiên cứu vấn đề do Bernoulli đặt ra
mà Abraham de Moivre khám phá ra một công thức gần đúng của phân phối nhị thức Ông cũng là người đã khám phá ra định lý giới hạn trung tâm
Như đã nói từ đầu, đi sâu phân tích các thành tựu này không phải là mục đích nghiên cứu của chúng tôi Điều cần nói ở đây là các luật, các định lý này đã tạo nên mối liên
hệ mật thiết giữa Xác suất với Thống kê, cho phép Thống kê chuyền từ phạm vi mồ fđ vào phạm vi sy điễn Trước hết, ching tao nén nhimg co sé quan trong cho Ly thuyét mau, ly thuyết giải quyết bài toán chọn mẫu sao cho nó có thể đại điện cho quan thé rộng hơn mà người ta muốn nghiên cứu Tiếp sau đó, chúng là cơ sở cho việc giải quyết hai vấn đề quan trọng của Thống kê suy diễn — vấn đề ước lượng các tham số của tông thê (từ giá trị của tham số của mẫu) và vấn đề kiểm định những giả thuyết rút
Trang 26ra từ phân tích thông tin thu được trên mẫu Chúng tôi sẽ dành một phần riêng đề đề cập đến ba bài toán này
Lý thuyết xác suất hiện đại
Định nghĩa cổ điển của Laplace và định nghĩa theo tần suất của Bernoulli thiên về kỹ thuật tìm xác suất của một biến cố Thế nhưng đó là cái gì ? Cho đến thế kỷ XIX, người ta cũng chỉ có những giải thích khái niệm này theo kiểu “Xác suất trong thực tế
là mức độ chắc chắn ”, “Dự đoán một điều gi đó chính là đo lường xác suất của
4.1
no
Một trong những khó khăn trong việc phát triển lý thuyết xác xuất là đi đến một định nghĩa tổng quát, chính xác trong toán học Cuối thế kỷ XIX, nhiều thành tựu của công
cụ giải tích, trong đó có phép biến đổi Fourier, cho phép thay thế các hàm sinh bởi
một hàm số đặc trưng Tiếp đó là sự phát triển lý thuyết tập hợp số, lý thuyết độ đo, lý
thuyết tích phân của Borel và Lebesgue ở đầu thế kỷ XX đã dẫn đến xu hướng xây dựng một lý thuyết xác suất hình thức hơn theo phương pháp tiên đề của Hilbert
Năm 1928, Von Mises đề nghị một hệ tiên đề bằng tiếp cận thống kê, theo đó xác suất
được định nghĩa như là giới hạn chung của một dãy các tần suất Nhưng định nghĩa này được đánh giá là nặng về mặt kỹ thuật và không đủ cho sự hiểu biết tổng quát về mặt khái niệm (tham khảo Henry, 2004)
Borel đã giải thích là phải đi theo chiều hướng nào:
“ Lý thuyết xác suất liên tục có thể đặt cơ sở trên các hệ tiên đề và các định nghĩa hoàn toàn giống với cái mà ta đã làm trong lý thuyết độ do .”
Nếu như giai đoạn 1885 — 1925 đánh dấu sự ra đời của Thống kê với tư cách là một lý
thuyết toán học thì đó là vì môi trường toán học những năm cuối thế kỷ XIX đã cung cấp cho Thống kê các khái niệm, các công cụ cần thiết Những lý thuyết nền tảng cho Thống kê đã phát triển khá mạnh : lý thuyết sai số, lý thuyết tích phân theo nghĩa của
Riemamn, các công trình của Cantor, Péano và Borel Đặc biệt, những lĩnh vực có nhu
cầu tính đến yếu tố ngẫu nhiên ngày càng nhiều, không chỉ giới hạn ở Thiên văn học hay Trắc địa học mà còn mở rộng sang Nông học, Thống kê sinh học, và Xác suất,
25
Trang 27lý thuyết nghiên cứu các hiện tượng ngẫu nhiên đã phát triển khá mạnh, mang lại nhiêu công cụ hiệu quả
Từ những nội dung trình bày ở phần L3., ta đã hình dung được nguyên tắc của suy diễn thống kê là nghiên cứu một quần thê qua mẫu Vấn đề đầu tiên cần bàn đến là bài toán chọn mẫu : chọn thế nào để nó có thể đại diện được cho quần thể Vấn đề tiếp theo là từ những kết quả thu được trên mẫu cần phải đưa ra một nhận định cho quần
thể Liên quan đến vấn đề thứ hai là bài toán ước lượng và bài toán kiểm định giả
một số cá thê được lấy ngẫu nhiên từ quần thể, gọi là mẫu Nguyên tắc của suy diễn
Thống kê là thu các thông tin về quần thể P (còn gọi là quần thể « mẹ » hay « tổng
thể ») từ những hiểu biết trên một mẫu Z
Trong Thống kê, một n - mẫu, hay một mẫu kích thước n, là một tập hợp n phần tử được lấy ra từ tổng thể Khi việc lay phan tử được thực hiện một cách hú họa thì mẫu
đó được gọi là mầu ngẫu nhiên
Nếu quần thể P được phân chia thành các lớp mà tỷ lệ về số lượng giữa các lớp đã được biết (nhờ một điều tra nào đó), người ta có thể quyết định trước là sẽ cấu tạo
mẫu từ các lớp theo tỷ lệ đã biết trong P Ta nói rằng ta có một mẫu đại diện cho P Lưu ý rằng không phải bao giờ đó cũng là mẫu tốt nhất khi ta nói về những kết quả rút
ra từ mẫu
Để áp dụng một số định ly của Xác suất, người ta giả định rằng các phần tử của mẫu
E duoc lay ra một cách độc lập với nhau Có hai cach lay mau :
Lay mẫu có hoàn lại : phần tử vừa lẫy ra đề quan sát được trả lại cho tổng thể trước
khi thực hiện lần lấy tiếp theo
Lấy mẫu không hoàn lại : phần tử vừa lấy ra để quan sát không trả lại cho tông thể trước khi thực hiện lần lấy tiếp theo
Trang 28Cách lấy mẫu thứ nhất đảm bảo cho những lần lấy liên tiếp các phần tử không làm
thay đổi kết cấu của tổng thể Nhưng cách này không phải lúc nào cũng thực hiện
được Trong thực tế, người ta thường dùng cách lấy mẫu thứ hai Khi tổng thê khá lớn
so với kích thước của mẫu (ít nhất là gấp 100 lần) thì điều bất lợi của cách này là nhỏ,
người ta xem như xác suất có sai số là không đáng kẻ
Giả sử người ta cần nghiên cứu một đặc tính nào đó của tổng thê P Muốn thế, trước hết phải xác định những dấu hiệu cho phép quy một tính chất hay giá trị nào đó cho các phần tử thuộc P, mà những tính chất hay giá trị này là biểu hiện của đặc tính cần nghiên cứu Xét x là một trong những dấu hiệu đó Tập hợp các giá trị thu được của
dấu hiệu x tạo nên một dãy Thống kê Dãy Thống kê này sẽ xác định cho ta một biến ngẫu nhiên Nếu X là một biến ngẫu nhiên thì hàm số F(x) xác định bởi công thức
F(x) = P@X<x) được gọi là hàm phân phối của X Nếu đã biết hàm phân phối của X thi
ta có thể tính được xác suất để X rơi vào một khoảng hay đoạn bất kỳ chọn trước trên
trục số Như chúng ta sẽ thấy ở phần dưới, điều này rất quan trọng đối với bài toán ước lượng Nhưng trong thực tế hàm F(x) chưa biết, nên người ta phải căn cứ vào mẫu để tìm một hàm nào Fạ(x) nào đấy gần với F(x) Hàm Fạ(x) được gọi là hàm phân phối thực nghiệm hay hàm phân phối mẫu Hàm này được xác định thông qua các tính toán Xác suất Như thế, Xác suất là một công cụ cần thiết cho lý thuyết mẫu
e Ước lượng
Một trong những mục đích của nghiên cứu Thống kê trên mẫu là đưa ra những phỏng đoán, những giá trị xấp xỉ đủ tin cậy để quyết định về điều gì đó liên quan đến một đặc tính đang được xem xét cho quần thể P
Giả sử + là một trong những dấu hiệu biểu hiện đặc tính cần nghiên cứu của các đối tượng thuộc quân thể P Khi x là dấu hiệu định lượng (ví dụ như chiều cao), dãy
Thống kê có thể được tóm tắt bằng một số tham SỐ, đặc biệt là số trung bình m và độ
lệch chuẩn ơ của x Khi x là dấu hiệu định tính (màu sắc hay ý kiến chẳng hạn), người ta thường quan tâm đến tỷ lệ các dạng thức khác nhau của y trong P
Vấn đề là từ chuỗi giá trị của các tham số thu được qua dãy thống kê, cần phải ước lượng giá trị của các tham số thể hiện sự phân bồ của x trong P nếu x là dấu hiệu định lượng Còn nếu + là dấu hiệu định tinh thì người ta cần ước lượng tỉ lệ các phần tử
thuộc một dạng nào đó của x :
“Ước lượng là phỏng đoán một giá trị chưa biết bằng cách dựa vào quan sát trên mẫu Thông thường ta cần ước lượng giá trị trung bình, tỷ lệ, phương sai, hệ số tương quan, ” (Chu Văn Thọ và các tác giả, tr 116)
Một cách cụ thể hơn, bài toán ước lượng được phát biểu như sau :
27
Trang 29“Cho Z là một mẫu ngẫu nhiên kích thước n được lấy ra từ quần thé P
Trong P:
- Dấu hiệu %4 có trung bình m và độ lệch chuẩn ơ
- _ Các phần tử thuộc dạng thức A của dấu hiệu + chiếm tỷ lệ p
Có hai loại ước lượng :
- - Ước lượng điểm : gia tri cần ước lượng được cho bởi một trị SỐ
- _ Ước lượng khoảng : giá trị cần ước lượng được cho bởi một khoảng
Ước lượng điểm mang lại một giá trị cụ thể, có thể dùng để tính các kết quả khác,
nhưng không cho biết được sai số ước lượng nhiều hay ít Ước lượng khoảng không đưa ra một giá trị cu thé của đại lượng cần ước lượng, nhưng lại cho phép hình dung
được độ lớn của sai sô
Giả sử ta muốn ước lượng khoảng giá trị của một tham số t liên quan đến dấu hiệu x được xác định trên quần thê P Vấn đề là tìm một khoảng không quá lớn sao cho xác
suất để giá trị thực của t thuộc khoảng đó là chấp nhận được Xác suất này, ký hiệu là
(I—ø), được gọi là khoảng tin cậy của ước lượng Số œ được gọi là độ rứi ro (sai
lầm khi ta khăng định rằng t thuộc vào khoảng đã chọn)
Lúc này lại nảy sinh một bài toán khác liên quan đến vấn đề chọn mẫu (mà ta có thể
xem như là bài toán ngược của bài toán ước lượng vừa được phát biểu ở trên) Đó là : mẫu phải có kích thước bao nhiêu dé dat duoc khoảng tin cậy chọn trước Một ví dụ :
Để ước lượng tỉ lệ phế phẩm trong một lô hàng với độ tin cậy I - œ =0, 95 và sai số
d=0,01, với các tính toán xác suất, người ta đã tìm được kích thước mẫu phải là
n > 9604 (Tham khảo [Trần Mạnh Tuan, 2004, tr 111])
Tóm lại, các tính toán xác suât là công cụ cân thiệt đề giải quyết bài toán ước lượng
e Kiểm định giả thuyết thống kê
Người ta còn có thê phát biểu những giđ £huyế: liên quan đến P và kiểm chứng tính hợp thức của chúng từ các thông tin thu được trên mẫu
Hiền nhiên, các suy diễn trong Thống kê chịu ảnh hưởng một phần nào đó vào mẫu
được chọn ngẫu nhiên Nói cách khác, mọi kết luận về tổng thể P được Suy ra tỪ việc
Trang 30quan sát một mẫu đều có thể có một xác suất sai lầm nào đó (gọi là xác suất rủi ro)
Vấn đề đặt ra cho suy diễn Thống kê là có thể đưa ra những kết luận đủ rõ với độ rủi
ro nhỏ - hai rảng buộc biến thiên theo hai chiều đối nhau Để đạt được cả hai điều
kiện người ta chỉ có thể lấy mẫu với kích thước lớn Nhưng điều đó lại làm cho
nghiên cứu trở nên tốn kém thời gian, tiền bạc nhiều hơn
Bài toán kiểm định giả thuyết thống kê được phát biểu như sau : Cho biến ngẫu nhiên
X và giả thuyết Họ về phân phối xác suất của X Một mệnh đề khác với Họ được gọi
là đối thuyết H¡ Cần kiểm nghiệm xem Hạ đúng hay sai trên cơ sở mẫu lấy được là (XI, X¿, , Xn)
Muốn vậy, người ta lập không gian mẫu (X¡, X¿ , Xạ) và trên không gian mẫu ta
xác định một miền W gọi là miền bác bỏ giả thuyết Phần bù của W, ký hiệu W,
được gọi là miền chấp nhận giả thuyết Ho Nếu điểm (XI, Xa, , Xa) thuộc W thì ta
coi như giả thuyết Họ là sai và bác bỏ giả thuyết đó Néu diém (x), x2, ., Xn) thuộc
W thì ta coi giả thuyết là đúng và chấp nhận nó
Như vậy, một miền W xác định một quy tắc (hay một tiêu chuẩn) kiêm định giả thuyết và được gọi là quy tắc W Trong việc chọn một quy tắc như vậy ta có thê mắc các sai lầm sau :
- Sai lầm loại 1 là sai lầm mắc phải khi giả thuyết Họ đúng nhưng ta lại bác bỏ nó Sai
lầm này được ký hiệu bởi P(W| Hạ) Đó chính là xác suất để mẫu (xi, X2, ., Xn) roi
vào miền W khi Họ đúng (hay xác suất bác bỏ Họ khi nó đúng)
- Sai lầm loại 2 là sai lầm mắc phải khi giả thuyết Họ sai nhưng ta lại chấp nhận nó
Sai lầm này được ký hiệu bởi P(W | H;) Đó chính là xác suất để mau (x1, x2, Xn)
rơi vào miền W khi H¡ đúng hay Họ sai Đó là xác suất chấp nhận Họ khi nó sai
Dé hạn chê hai sai lâm này người ta đã sử dụng các tính toán xác suât
I.6 Kết luận rút ra từ phân tích lịch sử
Ở đây chúng tôi sẽ chỉ nhấn mạnh mối liên hệ giữa hai lý thuyết Thống kê và Xác
suất mà viêc nghiên cứu lịch sử đã chỉ ra Những đặc trưng khoa học luận của một số
khái niệm có mặt trong chương trình phổ thông sẽ đươc trình bày ở phần II va IIL, vi
để làm rõ điều đó chúng tôi không chỉ xem xét lịch sử mà còn nghiên cứu thêm các
giáo trình toán học dùng ở bậc đại học và tham khảo kết quả nghiên cứu khoa học
luận của vài công trình đã công bó
Phân tích lịch sử ở trên đã chỉ ra mối liên hệ gắn bó, thậm chí không thể tách rời giữa Thống kê toán và Lý thuyết xác suất
29
Trang 31e Nhiệm vụ của 7hóng kê toán là xây dựng các phương pháp thu thập và xử lí số liệu thống kê đề có thể rút ra những kết luận khoa học về một hiện tượng T' hong ké mo ta
và Thống kê suy đoán là các bộ phận của Thống kê toán
Thống kê mô tả có nhiệm vụ nghiên cứu các phương pháp thu thập, sắp xếp, trình bày
số liệu thu được qua quan sát hay qua các phép thử, bước đầu xác định một số đặc
trưng thống kê Nhờ Thống kê mô fả người ta nắm được tình hình phân phối của các
số liệu, nhận ra một số quy luật phân phối thực nghiệm của hiện tượng Nhưng thông
thường các phần tử điều tra chỉ là một bộ phận của quần thể cần nghiên cứu, tức chúng chỉ là một tập hợp mẫu rút ra từ một tập hợp rộng lớn hơn Vì thế tính quy luật
của hiện tượng chưa được thể hiện một cách đầy đủ Những gia tri cua các tham số
đặc trưng (tần suất, trung bình, độ lệch chuẩn, .) thu được trong phần Thống kê mô
ta chi có tính chất thực nghiệm vì chúng được tính toán dựa trên các số liệu đã có chứ không phải dựa trên toàn bộ số liệu đáng lẽ phải có
Vì vậy, hoàn toàn tự nhiên, hai yêu cầu được đặt ra là :
- Chọn mẫu như thế nào đề nó có thê đại điện được cho tông thê ?
- Căn cứ vào những đặc điểm thu được từ thực nghiệm, làm thế nào để phân tích tính chất của hiện tượng một cách triệt để hơn, năm được bản chất của nó một cách sâu sắc hơn Nói cách khác, fừ quy luật thực nghiệm phải phát hiện ra quy luật lý thuyết Từ
kinh nghiệm thực tiễn phải rút ra được những quy luật có cơ sở khoa học, từ cụ thể
phải di đến khái quát, trừu tượng, hay thông qua sự làm việc với mẫu thông kê phải suy ra được những kết quả hợp lí về tổng thể Thực hiện những yêu cầu trên đây là nhiệm vụ của Thống kê suy đoán
Hai yêu cầu trên gắn liễn với ba bài toán chọn mẫu, ước lượng và kiểm định gia
thuyết thống kê Phân tích trên đã cho ta thấy các tính toán xác suất là công cụ cần thiết để giải quyết ba bài toán này như thế nào
“Chính Lý thuyết xác suất sẽ cung cấp cho ta những quy luật lý thuyết dùng dé
“soi sáng” các quy luật thống kê, giúp ta nghiên cứu các quy luật thực nghiệm
một cách hoàn thiện hơn, làm cho Thống kê toán từ chỗ có tính chất mô tả đến
chỗ có khả năng phân tích, dự đoán có cơ sở khoa học và sâu sắc” [Lê Văn Phong (1982); tr 60]
Như vậy có thể nói Lý thuyết xác suất tạo nên cơ sở lí luận cho Thống kê toán Nếu tách rời Lý thuyết xác suất khỏi Thông kê toán thì Thống kê toán sẽ mất đi nhiều kết quả quan trọng do phần thống kê suy đoán mang lại, và do đó nó sẽ bị thu hẹp vào
Thống kê mô tả Nói cách khác, lúc đó Thống kê toán sẽ bị đồng nhất với Thống kê
mô tả - một bộ phận của nó như nó đang tồn tại ngày nay, và những kết quả thu được chỉ dừng lại ở mức độ là kết quả thực nghiệm, không được khái quát hóa cho toàn thé
Trang 32Mà như thế thì Thống kê toán sẽ không còn giữ được giá trị to lớn của mình, đặc biệt
là đối với các vấn đề thực tiễn Người ta sẽ không thể dùng Thống kê toán như một
công cụ đắc lực, sắc bén để phân tích, dự đoán, nhằm đưa ra được những nhận định
đúng đắn hết sức cần thiết
e Quan hệ giữa Thống kê toán và Lý thuyết xác suất không phải chỉ ở chỗ Lý thuyết
xác suất cần cho Thống kê toán Thực ra còn có một mối liên hệ theo chiều ngược lại :
Thống kê toán, cụ thể là Thống kê mô tả, cũng cần thiết cho việc nghiên cứu Lý thuyết xác suất Chăng hạn, một trong những cách tiếp cận khái niệm xác suất của một biến cố là cách tiếp cận từ tần suất - khái niệm của Thông kê mô tả Cách tiếp
cận này là cần thiết, khi mà định nghĩa cổ điển của Laplace chỉ có thể vận hảnh được
trong trường hợp không gian mẫu là hữu hạn và các biến cố là đồng khả năng xây ra Khi một trong hai điều kiện đó không thỏa mãn (mà trường hợp này lại là phổ biến trong các hiện tượng tự nhiên, xã hội cũng như trong y học, vật lý học, nông học, .) thì không thê sử dụng được định nghĩa của Laplace
II ĐẶC TRƯNG KHOA HỌC LUẬN CỦA KHÁI NIỆM XÁC SUÁT
Sự nảy sinh và phát triển lý thuyết xác suất gắn liền với các hiện tượng ngẫu nhiên
Đó là một hiện tượng có thể có nhiều kết cục và việc xuất hiện một kết cục nào đó là
ngẫu nhiên Lý thuyết xác suất gọi các hiện tượng này là các phép thử ngẫu nhiên và những kết cục có thể có là các biến có Tập hợp tất cả các kết cục có thể xây ra gọi là không gian mẫu Chính vì không biết trước kết cục của các hiện tượng này mà người
ta phải tìm cách đánh giá, ước lượng và tính toán khả năng mà một biến có có thê xây
Ta
Lịch sử hình thành và phát triển lý thuyết xác suất cho thấy cần phải phân biệt các
phép thử ngẫu nhiên theo những loại khác nhau như sau:
phép thử ngẫu nhiên có một số hữu hạn kết quả đồng khả năng xuất hiện
phép thử ngẫu nhiên có hữu hạn các kết quả không đồng khả năng xuất hiện
phép thử ngẫu nhiên có thể có vô hạn kết quả (đồng hoặc không đồng khả năng) xuất hiện
Sự phân loại này đã được hình thành trong quá trình các nhà toán học tìm cách tiếp
cận khái niệm xác suât của một biên cô
31
Trang 33e Tiép can co điên
Theo Laplace, xác suât của một biên cô là “tỉ sô của sô trường hợp thuận lợi với sô tât
cả các trường hợp có thê xảy ra”
Theo cách tiếp cận này, để nghiên cứu xác suất, người ta cần các kiến thức về phép
đếm và đại số tổ hợp Chính vì thế mà Coutinho đặt tên cho tiếp cận nảy là “tiếp cận
đại số tổ hợp” Còn Bernard Parzysz thì gọi xác suất theo định nghĩa của Laplace là
xác suất chủ quan hay xác suất tiên nghiệm, vì người ta có thể tính được xác suất mà
không cần thực hiện phép thử
Nhưng cách tiếp cận này chỉ có thể áp dụng được cho trường hợp không gian các biến
cố sơ cấp liên quan đến phép thử là hữu hạn và các biến cố sơ cấp đồng khả năng xuất hiện Trong trường hợp một trong hai điều kiện đó không thỏa mãn thì phải nghiên cứu xác suất theo cách tiếp cận khác
Giả sử phép thử có một số vô hạn kết cục đồng khả năng xây ra được biểu thị như các
điểm của một tập O Các kết cục thuận lợi cho biến cố A được biểu thị bởi các điểm
của một tập con của (, cũng ký hiệu là A A và O là các miền hình học (có thê là đoạn thắng, miền phăng, hay một khối trong không gian, .) Khi đó, xác suất của
biến cố A được định nghĩa là
P(A) = độ đo của A / độ đo của Q
Trong đó độ đo sẽ là độ dài, diện tích hay thể tích tùy theo O là đoạn thăng, miền
phăng hay khối không gian
Vi du : Hai điểm có tọa độ x, y được lấy ngẫu nhiên trên
đoạn thăng [0; 2] Tính xác suất để khoảng cách d giữa
chúng nhỏ hơn 1
thể Khoảng cách giữa hai điểm là L = |x - y| Đặt A = {(x, y), |x - y| < 1} Trong hình
Trang 341 thi A 1a mién gạch chéo Theo định nghĩa trên, P(A) bằng tỉ số diện tích miền gạch
chéo và diện tích hình vuông, tức là P(A) = 3/4
Bài toán tung cây kim của Buffon cũng giải quyết được nhờ tiếp cận hình học Trong trường hợp ấy, đề tính diện tích miền A người ta phải sử dụng tích phân xác định Và chính là từ lời giải bài toán nay mà giá trị của sô 7 được tim ra
Cách tiếp cận này có thể áp dụng cho mọi loại phép thử (không gian mẫu có thể vô hạn hay hữu hạn, các biến cố sơ cấp có thể đồng hay không đồng khả năng xây ra)
Dé nghiên cứu các hiện tượng của y học, của tự nhiên hay xã hội, người ta thường phải tiêp cận xác suât theo quan diém nay
e Tiếp cận tiên đề
Trong cách tiếp cận này, xác suất được định nghĩa như “một độ đo không âm, bị chặn,
xác định trên một tập hợp trừu tượng mô hình hoá các kết cục có thể của một phép thử ngẫu nhiên” và thỏa mãn một hệ tiên đề
Định nghĩa xác suất theo hệ tiên đề này do Kolmogorov đưa ra với mục đích chính
xác hóa khái niệm và xây dựng một lý thuyết xác suất hiện đại
Ill ĐẶC TRƯNG KHOA HỌC LUẬN
CỦA MỘT SÓ KHÁI NIỆM THÓNG KÊ
Ở đây chúng tôi chỉ xem xét một số khái niệm thống kê có mặt trong chương trình môn toán dạy ở trường phổ thông Theo chương trình hiện hành, HS chỉ được làm quen với Thống kê mô tả
Chúng ta biết rằng Thống kê mô tả nghiên cứu 3 vấn đề :
- _ Phương pháp thu thập thông tin ;
33
Trang 35- Phuong phap biéu dién théng tin ;
- Phuong phap phan tich sé liéu thu được
Vấn đề thứ nhất liên quan đến việc chọn mẫu và thu thập số liệu thì chúng tôi không trở lại vì đã phân tích khá sâu ở phan I Sy trở lại này lại càng không cần thiết khi mà vấn đề chọn mẫu hầu như không được xem xét trong chương trình
Dưới đây chúng tôi sẽ phân tích vấn đề biểu diễn và phân tích số liệu thống kê III.1 Biểu diễn số liệu thống kê
Đề biểu diễn số liệu thống kê ta có thể dùng bảng hoặc dùng biểu đồ
a) Bảng phân bố tân số, tần suất
e Khái niệm 7â» số cho phép :
- Biểu diễn mẫu số liệu theo một cách thức gọn gàng, không cồng kềnh như bảng số liệu rời rạc
- Từ đó có một cái nhìn rõ ràng hơn trên bảng số liệu và thuận lợi hơn khi phân tích
⁄
no
e Khái niệm Tẩn suá: cần thiết khi người ta phải so sánh các mẫu dữ liệu khác nhau
Điểm cần nhấn mạnh ở đây là so sánh các mẫu số liệu có kích thước khác nhau (ví dụ: so sánh tỉ lệ người khỏi bệnh trong hai nhóm bệnh nhân điều trị theo hai phương pháp khác nhau, mẫu đại diện cho nhóm thứ nhất gồm 123 người, mẫu đại diện cho
nhóm kia gồm 231 người), bởi nếu so sánh các số liệu trong cùng một mẫu thống kê hoặc trong các mẫu thống kê có cùng kích thước thì chỉ cần khái niệm tần số là đủ Cũng chính vì các mẫu số liệu có kích thước khác nhau nên để tiện so sánh thì người
ta viết tần suất ở dạng phần trăm chứ không ở dạng phân số
b) Bảng phân bố tân số, tần suất ghép lóp
Trong thực tế, con người thường phải đối diện với một số lượng không lồ các dữ liệu
và người ta khó có thể rút ra những kết luận thuyết phục từ chúng nếu không tổ chức
lại chúng một cách hiệu quả
Với những biến định lượng (nhất là biến định lượng liên tục), khi không cần phân biệt các giá trị gần nhau, thì để thu gọn bảng biểu diễn mẫu số liệu, người ta phân các số
liệu theo từng lớp Việc làm này rất cần thiết khi mẫu số liệu có quá nhiều giá trị khác
nhau
Trang 36Với việc ghép lớp, người ta phải “hy sinh” thông tin của từng giá trị quan sát được, nhưng bù lại, số đối tượng nghiên cứu lúc này đã được giảm rất nhiều: từ một số
lượng lớn các giá trị quan sát khác nhau đã được chuyên thành một số lượng vừa đủ
các lớp ghép Khi này, thay vì quan tâm đến tần số, tần suất của từng giá trị riêng lẻ, người ta quan tâm đến tần sé (nj), tần suất (fj) của các lớp ghép C¡ - bằng tổng các tần
số (tần suất) của các giá trị thuộc vào lớp ghép
Các lớp ghép không bắt buộc phải có độ dài bằng nhau, tùy theo mục đích nghiên
cứu
Nếu biến định lượng liên tục thì người ta lấy các lớp ghép là các nửa khoảng Với
cách ghép lớp này, biểu đồ hình chữ nhật sẽ gồm các cột kề nhau (có chung một cạnh) Đối với biến định lượng rời rạc thì có thê lấy lớp ghép là đoạn (khi đó các lớp ghép sẽ rời nhau và biểu đồ hình chữ nhật tương ứng sẽ là các cột rời nhau), cũng có
thể lấy là nửa khoảng
Lưu ý là việc ghép lớp dữ liệu phải đảm bảo làm rõ những thông tin cơ bản chứa trong các đữ liệu, đồng thời không được bỏ qua những khía cạnh đặc thù trong cấu trúc của nó
c) Các loại biểu đồ (đồ thị TK)!
Nguồn gốc của biểu diễn đồ thị là việc lập các bản đồ địa lý Vấn đề này gắn với việc
sử dụng các hệ tọa độ trong mặt phẳng, được Descartes đề cập trong phần phụ lục
Luận về phương pháp của cuốn sách Hình học xuất bản năm 1637
"Vào thời kỳ này, lợi ích của việc biểu diễn trong một hệ tọa độ chưa phải là đã được thừa nhận ngay lập tức, cho dù Edmund Halley đã sử dụng thành công năm
1686 để biểu diễn các số đo phong vũ biểu theo độ cao» (Jaque Droesbeke và
Philippe Tassi, tr 6)
Nhưng đến đầu thế kỷ XIX thì đã xuất hiện và phát triển nhiều công cụ đồ thị được sử dụng trong Thống kê, vì chúng cho phép làm nồi bật một cách trực quan phân bố dữ
liệu, tạo thuận lợi cho việc quan sát cấu trúc của dãy đữ liệu Tuy nhiên, đồ thị thống
kê không phát huy hiệu quả trong một số tính huống mà đữ liệu có những đặc điểm được chỉ ra trong các trường hợp sau:
- Dữ liệu có độ phân tán quá lớn
- _ Dữ liệu ít biến động
- _ Dữ liệu có quá ít giá trị khác nhau
Những kết quả liên quan đến phần c) các loại biểu đô chủ yếu lẫy từ luận văn thạc sỹ của học viên Tăng Minh Dũng, 2009, một nghiên cứu nằm trong khuôn khổ của đề tài DH Xác suất - Thống kê của chúng tôi
35
Trang 37- _ Dữ liệu có quá nhiều thông tin
Có nhiêu dạng đô thị TK có thê được sử dụng tuỳ thuộc vào đặc điêm của dữ liệu
nghiên cứu và mục đích nghiên cứu : biểu đồ đoạn thắng, hình cột (bar chart), biểu đồ
hình quạt (pie chart), biểu đồ tổ chức (histogram) và đa giác tần số, tần suất (histograph)
e Biểu đồ đoạn thăng
30
20
10
Chất lượng tốt Chất lượng TB_ Chất lượng kém
Chat lượng nghiệp vụ của nhóm nhân viên
Biểu đồ đoạn thăng được sử dụng để biểu diễn trực quan thông tin của các biến định
tính hoặc định lượng rời rạc
Điểm chính yếu trong biểu đồ đoạn thăng là việc dựng đoạn thắng ứng với các giá trị khác nhau của biên quan sát
Các đoạn thắng có thê được vẽ theo chiều đứng hoặc chiều ngang, tương ứng với mỗi giá trị khác nhau của biến đang xem xét Chiều cao (hoặc chiều đài) của đoạn thắng thé hiện số lượng phần tử của mỗi “lớp”
Thông thường, người ta vẽ các đoạn thăng theo chiều đứng để dễ quan sát Tuy nhiên, trong trường hợp các cụm từ mô tả giá trị của biến quan sát cần nhiều chỗ trống (chăng hạn: tên quốc gia, tên người, ), người ta sẽ vẽ các đoạn thắng theo chiều ngang
Trang 38trường hợp sử dụng và cách vẽ cũng giống như biểu đồ đoạn thắng Các cột sẽ được
vẽ rời nhau nếu là biến định tính và liền nhau nếu là biến định lượng rời rạc Chiều
rộng của các hình chữ nhật là như nhau (và lấy tùy ý), chiều cao (chiều dài) thể hiện
giá trị tương ứng của biến quan sát
ta không thể sử dụng biểu đồ hình quạt mà buộc phải sử dụng một dạng biểu đồ khác
(biểu đồ hình cột chắng hạn)
Nguyên tắc vẽ : Diện tìch hình quạt biểu diễn tần số (tần suất) các thành phần trong
dãy đữ liệu (như vậy là tần số (tần suất) phải tỷ lệ với góc ở tâm)
e Biểu đô tổ chức (histograme)
Trong trường hợp biến thống kê cần nghiên cứu có quá nhiều giá trị quan sát được (đặc biệt khi đó là biến định lượng liên tục), người ta buộc phải tìm cách “nhóm” nhiều giá trị khác nhau thành một lớp Với việc ghép lớp, có thể phải “hy sinh” thông tin về từng giá trị quan sát được, nhưng bù lại, từ một 36 lượng lớn các giá trị quan sát khác nhau sẽ đễ có cái nhìn tổng thể trên một số lượng vừa đủ các lớp ghép Khi này, thay cho tần số, tần suất của từng giá trị riêng lẻ, cái được quan tâm là tần sé (nj), tan suất (f,) của các lớp ghép Ci
Để xem xét một cách trực quan sự phân bố của các đữ liệu trong từng lớp ghép, người
ta tìm cách biểu diễn thông tin các lớp ghép băng một đồ thị thống kê Thoạt đầu
37
Trang 39người ta có khuynh hướng biêu diễn cặp đôi (C¡, n¡) (hoặc (C;, f¡)) bằng một loạt đoạn
thắng với chiều đài n; (hoặc f¡) nằm trên các khoảng C¡ Như vậy thì hai lớp ghép có cùng tần số nhưng có độ rộng khác nhau lại cùng được biểu diễn bởi các đoạn thắng cao bằng nhau Điều này vi phạm một nguyên tắc mà mọi biểu diễn trực quan đều phải lưu ý : trong cùng một hình, các hình biểu diễn phải bảo toàn tỷ lệ vốn tồn tại giữa các đôi tượng được biêu diễn
Đề giải quyết vấn đề này, người ta biểu diễn (C¡, n¡) (hoặc (C;, f,)) bằng một hình chữ
nhật có đáy là C¡ và có diện tích là n¡ (hoặc f;) Tất nhiên, như Chauvat (2002) đã nói, cách làm này phải dựa trên hai giả định:
- _ Có một sự phân bố đồng đều giữa các giá trị quan sát nằm trong cùng một lớp ghép
- _ Các lớp ghép không có biên (độ rộng không xác định) thì có tần số bằng 0
Xét về mặt hình thức, thông tin trong “biểu đồ tổ chức” và “biểu đồ hình cột” đều
được biểu diễn thông qua các hình chữ nhật, nhưng có một sự khác biệt về mặt bản
chất giữa hai dang đồ thị thống kê này : biêu đồ tổ chức biêu diễn tần số (tần suất) qua
diện tích chứ không phải qua chiều cao
Cũng vì lẽ đó mà, về nguyên tắc, đối với biểu đồ tổ chức người ta không cần thang đo
đứng Tuy nhiên, để thuận lợi cho việc vẽ biểu đồ cũng như xác định diện tích của
hình chữ nhật, người ta bổ sung thêm một trục đứng vào hình vẽ
“Khi so sánh diện tích của các hình chữ nhật trong một biểu đồ tô chức, sẽ rất có ích nếu dựa trên một thang đo theo chiều đứng mà người ta sẽ gọi là thang đo mật độ Nó làm rõ tỉ lệ quan sát trên một đơn vị của trục nằm ngang.” [Dodge Y.,
2006, tr 34]
Nhưng trục đứng (chiều cao) của hình chữ nhật trong biểu đồ tổ chức sẽ mang một ý nghĩa hoàn toàn khác so với trục đứng trong biểu đồ hình cột : nó không biểu diễn tần
số (tần suất) mà nó biêu diễn tỉ số giữa tần số (tần suất) và độ rộng của lớp ghép (tính
theo một đơn vị chọn trước trên trục năm ngang
Trong thực tế, đo chưa có một qui định thống nhất cho việc ghép lớp nên đề dễ dàng thao tác, người ta thường có khuynh hướng thực hiện một sự ghép lớp đều nhau Trong trường hợp này, vì độ rộng của các lớp ghép đều bằng nhau nên chiều cao của
hình chữ nhật sẽ tỉ lệ với tần số (tần suất) lớp ghép Điều này dễ làm người ta lầm lẫn với đặc trưng của biểu đồ hình cột
Thế nhưng, trong một số trường hợp, sự ghép lớp không đều nhau là cần thiết (tham
khảo [Navidi W., 2006]), vì nó hạn chế những “nhiễu loạn thị giác” và đem lại một
cái nhìn bao quát hơn về cơ cấu phân bố đữ liệu
Trang 40Vi du về sự cần thiết của việc ghép lớp không đều
Hình 1 [Navidi W., 2006, tr 30] Hinh 2 [Navidi W., 2006, tr 28]
Hình I và hình 2 biểu diễn cùng một dãy dữ liệu Trong hình 1, việc ghép lớp đều
nhau làm xuất hiện hai lớp ghép có tần số bằng 0 (lớp ghép 15-17 và 21-23) Đồng
thời ta cũng có thê nhận thấy phần lớn số liệu nhỏ hơn 11 nhưng lại có đến hơn phân nửa số lượng hình chữ nhật (7/12) được sử dụng để biểu diễn một số ít đữ liệu lớn hơn 11 Dãy 7 hình chữ nhật nhỏ này có thê làm sao nhãng sự tập trung của người đọc
đối với phần lớn đữ liệu còn lại (5 hình chữ nhật bên trái) Để giúp người đọc tập
trung vào cấu trúc tổng thể của dãy dữ liệu, người ta tiến hành một sự ghép lớp không đều nhau (ghép lớp lại) như trong hình 2 Như vậy, việc ghép lớp không đều nhau trong trường hợp này cho phép chúng ta hạn chế những “nhiễu loạn thị giác” và đem
lại một cái nhìn bao quát hơn về cơ cấu phân bố dữ liệu
So với các loại biểu đồ trên, biểu đồ tổ chức có một đặc trưng đặc biệt : nó sẽ ngầm an thay đổi cơ chế khi chuyên từ phân môn này sang phân môn kia của thống kê, cụ thé
là từ sự biểu diễn về thị giác với ý muốn “biểu thị trung thành” trong thống kê mô tả,
nó trở thành một đường cong biểu diễn hàm số trong thống kê suy diễn
e Đa giác tấn số - tần suất
Đê thuận tiện hơn khi muôn xem xét sự tiên triên của các sô liệu, người ta bô sung
thêm một dạng đồ thị thống kê khác vào biêu đồ tổ chức, đó là đa giác tần số-tần suất
Y Dodge, 2006, tr 38
39