Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 69 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
69
Dung lượng
1,36 MB
Nội dung
BÀI GIẢNG NGUYÊN LÝ THỐNG KÊ (Năm học 2017 – 2018 Trường Đại học Hoa Sen) CHƯƠNG I GIỚI THIỆU MÔN HỌC I.1 KHÁI NIỆM VÀ CHỨC NĂNG CỦA THỐNG KÊ Khái niệm Có thể hiểu khái niệm thống kê hai góc độ: - Góc độ lí luận: Thống kê môn khoa học kinh tế, nghiên cứu mặt lượng mối liên hệ chặt chẽ với mặt chất tượng trình kinh tế xã hội, phát sinh điều kiện thời gian địa điểm cụ thể - Góc độ nghiệp vụ: Thống kê hiểu số liệu thể thông tin đối tượng nghiên cứu Một cách tổng quát, định nghĩa Thống kê nhánh toán học liên quan đến việc thu thập, phân tích trình bày liệu Đây khoa học bao gồm hệ thống phương pháp từ việc thu thập, trình bày, tóm tắt liệu đến phương pháp phân tích dự đốn, giúp nhà quản lí đưa định Chức thống kê Quá trình nghiên cứu thống kê trải qua ba giai đoạn có quan hệ chặt chẽ mật thiết với nhau, giai đoạn trước làm tiền đề để thực giai đoạn sau (1) Giai đoạn điều tra thống kê: bao gồm ghi chép, thu thập tài liệu thống kê (2) Giai đoạn tổng hợp trình bày kết điều tra thu thập (3) Giai đoạn phân tích dự báo thống kê Như vậy, thống kê có hai lĩnh vực: - Thống kê mô tả bao gồm phương pháp thu thập, trình bày liệu tính tốn đặc trưng nhằm mô tả đối tượng nghiên cứu - Thống kê suy diễn bao gồm phương pháp mơ hình hố liệu quan sát để đưa suy diễn tập hợp đơn vị nghiên cứu Thống kê mô tả thống kê suy diễn tạo thành thống kê ứng dụng, thống kê toán lĩnh vực nghiên cứu sở lí thuyết khoa học thống kê I.2 CÁC KHÁI NIỆM CƠ BẢN Tổng thể, đơn vị tổng thể, mẫu Tổng thể thống kê (hay tổng thể) tập hợp tất các đối tượng mà ta nghiên cứu Các đơn vị (hay phần tử) tạo thành tổng thể gọi đơn vị tổng thể Mẫu phận lấy từ tổng thể Ví dụ a) Để nghiên cứu điểm trung bình mơn Tốn sinh viên Trường Đại học Hoa sen, người ta xét bảng điểm 250 sinh viên b) Nghiên cứu tỉ lệ bị bệnh lao tỉnh Lào cai, người ta khám cho 1520 người thấy có người bị lao Hãy tổng thể, đơn vị tổng thể mẫu hai trường hợp Biến Biến đặc điểm đơn vị tổng thể, chia thành hai loại: - Biến định tính thể tính chất đơn vị khảo sát; - Biến định lượng thể số Trang Ví dụ Hãy biến định tính biến định lượng ví dụ Dữ liệu Dữ liệu kết quan sát biến, giá trị nhận thay đổi từ đơn vị sang đơn vị khác Dữ liệu phân biệt thành hai loại: liệu định tính liệu định lượng Ví dụ Điểm thi mơn Tốn sinh viên kết âm tính (hay dương tính) xét nghiệm lao người ví dụ liệu gì? Đặc điểm thống kê Đặc điểm thống kê khái niệm dùng để đặc điểm đơn vị tổng thể mà ta nghiên cứu Ví dụ Khi nghiên cứu nhân nhân có đặc điểm như: giới tính, độ tuổi, trình độ học vấn, nghề nghiệp, dân dộc, tôn giáo,… Khi nghiên cứu doanh nghiệp doanh nghiệp có đặc điểm như: số lượng công nhân, vốn cố định, vốn lưu động, giá trị sản xuất, suất làm việc công nhân,… Đặc điểm thống kê chia thành hai loại: a) Đặc điểm định tính đặc điểm phản ánh tính chất đơn vị tổng thể, khơng thể trực tiếp số b) Đặc điểm định lượng (còn gọi đặc điểm số lượng) đặc điểm có biểu trực tiếp số Ví dụ Hãy nêu đặc điểm định tính định lượng ví dụ Các trị số cụ thể khác đặc điểm định lượng gọi lượng biến Ví dụ Tuổi đặc điểm định lượng khơng phải lượng biến, cịn lượng biến 18 tuổi, 20 tuổi,… Lượng biến phân biệt thành hai loại: - Lượng biến rời rạc lượng biến mà giá trị có hữu hạn vơ hạn đếm - Lượng biến liên tục lượng biến mà giá trị có lấp kín khoảng trục số Thơng thường, giá trị lượng biến liên tục số có phần ngun phần thập phân, cịn giá trị lượng biến không liên tục số ngun Ví dụ Số cơng nhân xí nghiệp, chiều cao em bé lứa tuổi mẫu giáo lượng biến gì? Các đặc điểm định tính định lượng có hai biểu khơng trùng tổng thể gọi đặc điểm nhị phân Ví dụ Đặc điểm giới tính đặc điểm nhị phân có hai biểu nam nữ Đối với đặc điểm có nhiều biểu ta chuyển đặc điểm nhị phân cách rút gọn thành hai biểu Ví dụ Thành phần kinh tế chia thành nhà nước ngồi nhà nước Số cơng nhân doanh nghiệp chia thành 500 từ 500 trở lên Trang Chỉ tiêu thống kê Chỉ tiêu thống kê trị số phản ảnh đặc điểm, tính chất tổng thể thống kê điều kiện thời gian không gian xác định Chỉ tiêu thống kê phân biệt thành hai loại: tiêu khối lượng tiêu chất lượng a) Chỉ tiêu khối lượng tiêu biểu quy mô tổng thể b) Chỉ tiêu chất lượng tiêu biểu tính chất, trình độ phổ biến, quan hệ so sánh tổng thể Ví dụ 10 Số nhân khẩu, số doanh nghiệp, vốn cố định, vốn lưu động doanh nghiệp,… tiêu khối lượng Giá thành đơn vị sản phẩm tiêu chất lượng biểu quan hệ so sánh tổng giá thành số lượng sản phẩm sản xuất Tương tự, tiêu suất lao động, tiền lương,… tiêu chất lượng Các tiêu chất lượng mang ý nghĩa phân tích, trị số xác định chủ yếu từ việc so sánh tiêu khối lượng CHƯƠNG II THU THẬP VÀ TRÌNH BÀY DỮ LIỆU II.1 THU THẬP DỮ LIỆU Xác định liệu cần thu thập Quá trình nghiên cứu thống kê cần phải có nhiều liệu Việc thu thập liệu địi hỏi nhiều thời gian, cơng sức, chi phí Do cần phải tiến hành thu thập liệu cách hệ thống, đáp ứng mục tiêu nghiên cứu khả nguồn nhân lực, kinh phí thời gian cho phép Muốn phải xác định rõ liệu cần thu thập, thứ tự ưu tiên liệu Ví dụ Nghiên cứu ảnh hưởng điều kiện ăn ở, sinh hoạt đến kết học tập sinh viên Có hai nhóm liệu cần thu thập là: (1) điều kiện ăn sinh hoạt; (2) kết học tập Ở nhóm (1) cần thu thập liệu liên quan như: Ở với cha mẹ hay kí túc xá, trọ? Có phịng riêng hay sống chung nhiều người? Chỗ cách trường bao xa? Chỗ có ồn hay khơng? Ngồi cịn có liệu khác điều kiện ăn không liên quan đến kết học tập khơng cần thu thập, chẳng hạn: bàn học làm sắt hay gỗ? Nhà có phịng vệ sinh đại khơng, có bồn tắm khơng? Ở nhóm (2) cần thu thập liệu kết học tập sinh viên Nguồn liệu Khi nghiên cứu, ta sử dụng liệu từ nguồn có sẵn, cơng bố chưa cơng bố, hay tự thu thập liệu Dữ liệu từ nguồn có sẵn, thường qua tổng hợp, xử lí, gọi liệu thứ cấp Dữ liệu thu thập trực tiếp từ đối tượng nghiên cứu gọi liệu sơ cấp Ví dụ Hãy nêu liệu sơ cấp thứ cấp ví dụ a) Nguồn liệu thứ cấp đa dạng, là: Trang - Các báo cáo nội quan, doanh nghiệp: số liệu báo cáo tình hình sản xuất, tiêu thụ, tài chính,… Các số liệu Cơ quan Thống kê nhà nước, Cơ quan Chính phủ: dân số, việc làm, mức sống dân cư, tài nguyên, … Báo, tạp chí, mạng internet,… b) Nguồn liệu sơ cấp Dữ liệu sơ cấp thu thập qua điều tra khảo sát Căn vào tính liên tục hay khơng liên tục việc ghi chép liệu, người ta chia thành điều tra thường xuyên hay không thường xuyên Điều tra thường xuyên tiến hành thu thập, ghi chép số liệu tượng nghiên cứu cách có hệ thống, theo sát q trình biến động tượng Điều tra không thường xuyên tiến hành thu thập, ghi chép có nhu cầu cần nghiên cứu tượng Dữ liệu điều tra không thường xuyên phản ánh trạng thái tượng thời điểm định Ví dụ Một doanh nghiệp theo dõi hàng ngày số lượng công nhân làm, số sản phẩm sản xuất ra, số sản phẩm tiêu thụ Tổng điều tra dân số Việt Nam vào ngày – – 2009 Đây điều tra thường xuyên hay không thường xuyên? Căn vào phạm vi khảo sát, người ta chia thành điều tra tồn bộ, khơng tồn Điều tra toàn tiến hành thu thập, ghi chép liệu tất đơn vị tổng thể Điều tra khơng tồn tiến hành thu thập số đơn vị chọn từ tổng thể nghiên cứu Ví dụ Các điều tra sau điều tra toàn hay khơng tồn bộ? a) Điều tra dân số Việt Nam b) Để nghiên cứu tỉ lệ sinh viên tốt nghiệp tìm việc làm, người ta vấn 1650 sinh viên trường sau năm thấy có 1215 sinh viên có việc làm Các phương pháp thu thập liệu sơ cấp a) Thu thập trực tiếp - Quan sát - Phỏng vấn trực tiếp b) Thu thập gián tiếp - Phỏng vấn điện thoại - Phương pháp gửi thư, email Ưu điểm, nhược điểm phương pháp thu thập thông tin tóm tắt bảng sau: Trang Tính chất Linh hoạt Khối lượng thông tin Tốc độ thu thập thông tin Tỉ lệ câu hỏi trả lời Chi phí Phương pháp gửi thư, email Kém Đầy đủ Chậm Phỏng vấn qua tel TB Hạn chế Nhanh Phỏng vấn trực tiếp Tốt Đầy đủ Nhanh Thấp TB Cao Tiết kiệm Tốn Tốn Các kĩ thuật chọn mẫu Mục đích việc chọn mẫu bảo đảm cho mẫu chọn thực phản ánh trung thực, đại diện cho tồn tổng thể Có hai nhóm kĩ thuật chọn mẫu lấy mẫu xác suất (lấy mẫu ngẫu nhiên) phi xác suất (lấy mẫu không ngẫu nhiên) a) Phương pháp lấy mẫu xác suất bao gồm phương pháp chọn mẫu ngẫu nhiên đơn giản, chọn mẫu hệ thống, chọn mẫu khối hay lấy mẫu nhiều giai đoạn, chọn mẫu phân tầng - Phương pháp chọn mẫu ngẫu nhiên đơn giản phương pháp đơn vị tổng thể chọn với ngẫu nhiên - Trước tiên lập danh sách đơn vị tổng thể chung theo trật tự quy ước đó, sau đánh số thứ tự đơn vị danh sách Đầu tiên chọn ngẫu nhiên đơn vị danh sách; sau cách k đơn vị lại chọn đơn vị vào mẫu,… chọn đủ số đơn vị mẫu Ví dụ: Dựa vào danh sách bầu cử thành phố, ta có danh sách theo thứ tự vần tên chủ hộ, bao gồm 240.000 hộ Ta muốn chọn mẫu có 2000 hộ Vậy khoảng cách chọn là: k = 240000/2000 = 120, có nghĩa cách 120 hộ ta chọn hộ vào mẫu - Trong phương pháp chọn mẫu khối (hay lấy mẫu nhiều giai đoạn), tổng thể chia thành nhiều khối, lẫy ngẫu nhiên m khối sau khảo sát hết (hay số) đối tượng khối mẫu lấy Đối với phương pháp ta khơng cần phải có danh sách đơn vị chọn mẫu Chẳng hạn, cần khảo sát tất hộ dân thường trú TP HCM, ta chọn ngẫu nhiên số quận, khảo sát tất (hay số) hộ dân quận chọn - Ta sử dụng phương pháp chọn mẫu phân tầng đơn vị khác tính chất liên quan đến vấn đề cần nghiên cứu khảo sát Ví dụ, khảo sát mức độ hài lòng sinh viên trường đại học cảm nhận sinh viên chất lượng đào tạo, thường có khác biệt lớn số lượng sinh viên điều kiện học tập hệ khác hệ quy, hệ hồn chỉnh đại học, hệ đại học… Theo phương pháp tổng thể nghiên cứu chia thành tầng lớp, từ kích thước mẫu chọn ta phân bổ tỷ lệ cho tầng lớp tiến hành lấy mẫu ngẫu nhiên hay có thệ thống b) Nhóm kĩ thuật lấy mẫu phi xác suất bao gồm phương pháp lấy mẫu thuận tiện, lấy mẫu định mức, lấy mẫu phán đốn Mẫu phi xác suất khơng đại diện cho toàn Trang tổng thể chấp nhận nghiên cứu khám phá kiểm định giả thuyết - Ta lấy mẫu thuận tiện cách đến nơi có nhiều khả gặp đối tượng mà ta muốn khai thác thông tin cảm thấy tiện lợi - Lấy mẫu định mức tương tự phương pháp lấy mẫu phân tầng bước phân chia tổng thể thành tầng lớp phân bổ định mức lấy mẫu cho tầng lớp Điểm khác chổ tiến hành lấy mẫu thừng tầng lớp, với kĩ thuật này, ta chọn đơn vị trường theo cách thuận tiện theo phán đoán - Trong kĩ thuật lấy mẫu phán đốn ta người định thích hợp đối tượng để mời họ tham gia mẫu khảo sát II.2 TRÌNH BÀY DỮ LIỆU Bảng tần số, tần suất Bảng tần số bảng tổng hợp, trình bày liệu cách phân chia chúng thành nhóm (lớp) khác Bảng tần số thường bao gồm ba cột: - Cột thứ mô tả biểu giá trị (hay khoảng giá trị) liệu - Cột thứ hai mô tả tần số tương ứng với biểu giá trị - Cột thứ ba tần suất (tỉ lệ %) a) Cách lập bảng tần số, tần suất cho liệu định tính Đối với liệu định tính giới tính, ngành học, … ta lập bảng tần số gồm thông tin sau - Cột thứ liệt kê tất các biểu có tập liệu - Cột thứ hai ghi tần số (số lần biểu xuất tập liệu) Tổng cột tần số phải số phần tử tập liệu - Cột thứ ba ghi tần suất (bằng cách lấy tần số chia cho số phần tử tập liệu nhân với 100%) Tổng cột tần suất phải 100% Ví dụ Bảng tần số ngành học sinh viên trường đại học sau: Ngành học Quản trị kinh doanh Điện tử viễn thông Công nghệ thông tin Tổng Tần số (sinh viên) 500 300 200 1000 Tần suất (%) 50 30 20 100 b) Cách lập bảng tần số cho liệu định lượng Có hai trường hợp: liệu có giá trị liệu có nhiều giá trị (1) Trường hợp liệu có giá trị: Bảng tần số có ba cột tương tự trường hợp liệu định tính, cột thứ ghi giá trị (lượng biến) liệu Ví dụ Khảo sát điểm thi mơn Tốn số sinh viên, ta bảng liệu sau: Trang Điểm thi 10 Tổng Tần số (số sinh viên) 12 15 20 16 80 Tần suất (%) 3,75 15 18,75 25 20 10 2,5 100 (2) Trường hợp liệu có nhiều giá trị: Trước hết ta phân nhóm cho giá trị lập bảng tần số sở liệu phân nhóm Ví dụ Khảo sát 1200 người độ tuổi lao động (từ 18 đến 60 tuổi), lập bảng ví dụ dài, làm tác dụng tóm lược thơng tin Do ta phân thành nhóm, chẳng hạn: Từ 18 đến 20, từ 21 đến 30, từ 31 đến 40, từ 40 đến 50, từ 51 đến 60 Đây kiểu phân nhóm theo kinh nghiệm Trên thực tế người ta thường phân nhóm với khoảng cách Giả sử mẫu liệu có n phần tử, giá trị lớn nhất, nhỏ liệu X max , X Gọi k số nhóm cần chia h khoảng cách nhóm Khi đó, người ta thường xác định k h công thức X − X k = 2n , h = max k Tuy nhiên thực tế xác định cận cận khoảng người ta xử lý linh động để đảm bảo tính khoa học mỹ thuật Mỗi khoảng thể tồn giá trị quan sát xi cho: Cận ≤ xi < Cận Ví dụ Năng suất (tạ/ha) loại thu hoạch 40 vùng sau: 153 154 156 157 158 159 159 160 160 160 161 161 161 162 162 162 163 163 163 164 164 164 165 165 166 166 167 167 168 168 170 171 172 173 174 175 176 177 178 179 Với n = 40 , X max = 179 , X = 153 , ta có số nhóm k = 2.40 = 4,3 ≈ , khoảng cách h= 179 − 153 = 6,5 nhóm Nếu chọn h = nhóm lập sau: 152 – 159, 159 – 166, 166 – 173, 173 – 180 Ta có bảng tần số là: Năng suất 152 - 159 159 - 166 166 - 173 173 - 180 Tổng Tần số 19 40 Trang Tần suất (%) 12,5 47,5 22,5 17,5 100 Lưu ý: Một số điều kiện phải tuân thủ phân nhóm: - Các nhóm khơng trùng nhau, giá trị thuộc nhóm - Tất nhóm phải bảo đảm bao quát hết tất giá trị mẫu số liệu - Khơng có nhóm rỗng (tức nhóm khơng có phần tử nào) Ví dụ Một doanh nghiệp có 28 cửa hàng bán lẻ Số tiền (triệu đồng) bán ngày cửa hàng ghi lại sau: 57,8 57,5 52,4 50,9 50,2 53,3 50,1 43,3 42,5 41,7 41,1 45,8 47,2 46,9 56,9 4,5 38,8 50,3 37,6 38,9 52,3 49,2 47,5 47 49,6 46,2 49,8 36,8 Theo kinh nghiệm người ta thấy chia nhóm hợp lí nên ta chọn k = Ta có giá trị nhỏ 36,8; giá trị lớn 57,8 Do ta tìm h= 57,8 − 36,8 = 3,5 ≈ Nếu chọn nhóm thứ 36,8 số lẻ nên ta 36 Mặt khác, số liệu mẫu lẻ nên ta cho giới hạn giới hạn hai nhóm trùng với quy ước có giá trị giới hạn nhóm đơn vị xếp vào nhóm kế tiếp, nghĩa ta có khoảng: [36 – 40), [40 – 44), [44 – 48), [48 – 52), [52 – 56), [56 – 60) Khi ta có bảng tần số sau đây: Tiền bán hàng (triệu đồng) 36 – 40 40 – 44 44 – 48 48 – 52 52 – 56 56 – 60 Tổng Tần số 4 7 3 28 Tần suất (%) 14,3 14,3 25 25 10,7 10,7 100 Chú ý Trong bảng tần số người ta cịn thêm vào cột tần số tích luỹ (hoặc tần suất tích luỹ) thể số lần quan sát (hoặc % số lần quan sát) cộng dồn đến giới hạn nhóm Nói cách khác, tần số tích luỹ cho thấy có quan sát nhỏ trị số biến khảo sát Ví dụ (Tiếp ví dụ 5) Ta có bảng tần suất tích luỹ sau Từ bảng ta thấy có 15 cửa hàng, chiếm 53,6%, có số tiền bán hàng ngày 48 triệu đồng Tiền bán hàng (triệu đồng) Tần số Tần suất (%) 36 – 40 14,3 40 – 44 14,3 44 – 48 25 48 – 52 25 52 – 56 10,7 56 – 60 10,7 Tổng 28 100 (3) Phân nhóm mở Trang Tần suất tích luỹ(%) 14,3 28,6 53,6 78,6 89,3 100 Ngồi cách phân nhóm ta cịn phân nhóm mở, nhóm khơng có giới hạn nhóm cuối khơng có giới hạn trên, nhóm cịn lại có khoảng cách khơng Mục đích phân nhóm mở để nhóm nhóm cuối chứa đơn vị có giá trị đột biến tránh việc lập q nhiều tổ Khi tính tốn phân nhóm mở người ta quy ước lấy khoảng cách nhóm mở khoảng cách nhóm gần Ví dụ Bảng suất lúa số hộ gia đình sau: Năng suất lúa (tạ/ha) Fk−1,n− k,α Vì nên ta bác bỏ H Vậy, việc làm thêm có ảnh hưởng đến kết học tập sinh viên Cách Bước Tính trung bình nhóm trung bình chung ba nhóm 46,9 45,5 46,8 = 6,7 x2 = = 6,5 x3 = = 5,85 7 Nhóm 1: ; Nhóm 2: ; Nhóm 3: ; 46,9 + 45,5 + 46,8 x= = 6,3273 7+ 7+ Cả ba nhóm: x1 = Bước Tính tổng độ lệch bình phương - Trong nội nhóm: SS1 = (6,3 − 6,7)2 + (7,0 − 6,7)2 + + (6,4 − 6,7)2 = 0,68 SS2 = (7,2 − 6,5)2 + (6,6 − 6,5)2 + + (5,9 − 6,5)2 = 1,96 SS3 = (6,3 − 5,85)2 + (5,8 − 5,85)2 + + (6,2 − 5,85)2 = 1,62 SSW = SS1 + SS2 + SS3 = 0,68 + 1,96 + 1,62 = 4,26 - Giữa nhóm: SSG = (6,7 − 6,3273)2.7 + (6,5 − 6,3273)2.7 + (5,85 − 6,3273)2.8 = 3,004 Bước Tính phương sai SSW 4, 26 = = 0, 224 n − k 22 − SSG 3, 004 MSG = = = 1,502 k −1 3−1 MSW = Bước Tính tỉ số F = MSG 1,502 = = 6,7 MSW 0,224 F = F2 ; 19 ; 0,05 = 3,52 Tra bảng phân phối F với mức ý nghĩa α = 0,05 , ta có k−1,n− k,α F > Fk−1,n− k,α Vì nên ta bác bỏ H Vậy, việc làm thêm có ảnh hưởng đến kết học tập sinh viên Ví dụ Một phần bảng ANOVA sau: Nguồn Tổng độ Bậc tự Trung bình độ Trang 55 Giá trị kiểm biến thiên Giữa nhóm Trong nội nhóm Tổng cộng lệch bình phương 16,9 lệch bình phương (phương sai) 45,2 41 định F a) Hãy hoàn tất bảng ANOVA phát biểu giả thuyết b) Với mức ý nghĩa 0,01 số liệu có chứng tỏ khác biệt trung bình tổng thể hay khơng? Ví dụ Một nghiên cứu thu nhập hộ gia đình ngoại thành thành phố thực Khu vực ngoại thành chia thành địa bàn dân cư khác Chọn ngẫu nhiên hộ địa bàn ghi nhận thu nhập Địa bàn dân cư thứ ba có 13 hộ chọn, địa bàn cịn lại chọn 19 hộ Kết ANOVA sau: Nguồn biến thiên Giữa nhóm Trong nội nhóm Tổng cộng Tổng độ Bậc tự lệch bình phương 187,2649 Trung bình độ lệch bình phương (phương sai) Giá trị kiểm định F 1269,6891 Ở mức ý nghĩa 1% kết luận thu nhập trung bình hộ gia đình địa bàn dân cư khác khơng? Ví dụ (Đề thi Học kỳ 15.2A) Một nghiên cứu mẫu gồm sinh viên khoa X, Y, Z điểm thi học kì mơn Ngun lý thống kê (NLTK) cho kết sau: Tại khoa X, điểm thi sinh viên khảo sát là: 6,8; 7,5; 7,1; 7,5; 6,8; 7,8; 6,6 Tại khoa Y, điểm thi sinh viên khảo sát là: 7,0; 5,6; 6,2; 6,5; 5,8 Tại khoa Z, điểm thi sinh viên khảo sát là: 6,1; 6,5; 6,3; 6,4; 6,5; 6,3 Giả định điểm thi mơn NLTK có phân phối chuẩn phương sai Ở mức ý nghĩa 1%, nói điểm thi mơn NLTK trung bình sinh viên khoa không? BÀI TẬP CHƯƠNG VI 6.1 Một phần kết tính tốn cho bảng sau đây: Nguồn biến thiên Giữa nhóm Trong nội nhóm Tổng cộng Tổng độ Bậc tự lệch bình phương 57258 Trung bình độ lệch bình phương (phương sai) 19086 43836 37 Trang 56 Giá trị kiểm định F a) Hãy hoàn tất bảng ANOVA phát biểu giả thuyết b) Kết luận trung bình tổng thể với mức ý nghĩa 0,01 6.2 Một nghiên cứu thực để so sánh tuổi thọ (giờ) bốn nhãn hiệu pin A, B, C, D Kết ghi nhận sau: Hiệu A 15 16 18 20 19 20 Hiệu B 14 15 16 15 14 Hiệu C 19 20 16 13 17 Hiệu D 16 15 16 18 Giả định tuổi thọ trung bình pin có phân phối chuẩn phương sai Với phương pháp ANOVA, mức ý nghĩa 0,05, kết luận tuổi thọ trung bình bốn nhãn hiệu pin hay không? 6.3 (Đề thi HK 16.1A) Công ty chiếu sáng đô thị khảo sát tuổi thọ (đơn vị: năm) bóng đèn mua từ ba hãng sản xuất A, B, C Đối với sản phẩm hãng A, cơng ty chọn 10 bóng để khảo sát thấy tuổi thọ trung bình 4,5 năm độ lệch mẫu hiệu chỉnh 1,5 năm Số liệu tương tự khảo sát sản phẩm hãng B là: 10; 4,2; 1,2, hãng C là: 12; 4,6; 1,4 a) Lập bảng ANOVA cho số liệu b) Với mức ý nghĩa 5%, cho tuổi thọ trung bình bóng đèn công ty sản xuất hay không? 6.4 (Đề thi Học kỳ 14.1A) Để đánh giá suất trung bình cơng nhân cơng ty có phụ thuộc vào ca sản xuất (sáng, chiều, tối) hay không, người ta chọn ca công nhân ghi lại số sản phẩm người Dưới bảng số liệu thu được: Ca sáng 44 46 40 42 41 Ca chiều 43 45 42 41 44 Ca tối 36 38 42 38 38 a) Hãy lập bảng ANOVA từ liệu b) Với mức ý nghĩa 5%, cho suất trung bình công nhân ba ca sản xuất không? Giả định suất công nhân ca làm việc có phân phối chuẩn phương sai 6.5 (Đề thi Học kỳ 15.1A) Theo dõi thu nhập (đơn vị tính: triệu đồng) tổ công nhân công ty, người ta thu số liệu sau: Tổ I: 2,8 ; 3,0 ; 3,3 ; 3,1 ; 3,6 ; 3,8 ; 4,2 ; 4,3 Tổ II: 3,2 ; 3,4 ; 3,5 ; 3,7 ; 3,8 ; 4,0; 4,3 Tổ III: 2,6 ; 2,9 ; 3,1 ; 3,5 ; 3,9 ; 4,1 ; 4,5 Giả định thu nhập cơng nhân có phân phối chuẩn phương sai Ở mức ý nghĩa 5%, nói thu nhập trung bình cơng nhân tổ không? Trang 57 6.6 (Đề thi Học kỳ 16.1B) Nghiên cứu ảnh hưởng nhiệt độ đến suất trình sản xuất, người ta chọn ngẫu nhiên lô hàng sản xuất mức nhiệt độ khác Kết thu suất lô hàng mức nhiệt độ sau: 50° C 60° C 70° C 34 30 23 24 31 28 36 34 28 39 23 30 32 27 31 Giả định suất trình sản xuất có phân phối chuẩn phương sai Ở mức ý nghĩa 5%, cho suất trung bình ứng với mức nhiệt độ khơng? CHƯƠNG VII KIỂM ĐỊNH χ2 (CHI BÌNH PHƯƠNG) Ở chương V VI ta đề cập đến tốn kiểm định giả thuyết trung bình, tỉ lệ, phương sai tổng thể dựa giả định tổng thể có phân phối chuẩn Trong chương ta xét trường hợp kiểm định tổng thể có phân phối bất kì, khơng phải phân phối chuẩn nghiên cứu tốn kiểm định ”Chi bình phương” để xem xét phân phối tổng thể VII.1 KIỂM ĐỊNH GIẢ THUYẾT VỀ PHÂN PHỐI CỦA TỔNG THỂ Đây kiểm định nhằm kết luận xem tổng thể có tuân theo phân phối (giả định đó) cho trước hay không Giả sử mẫu ngẫu nhiên gồm n quan sát (n phần tử) chia thành k nhóm khác nhau, quan sát thuộc nhóm thứ i (i = 1, 2, , k) Gọi Oi số lượng quan sát nhóm thứ i Ta dùng mẫu để kiểm định giả thuyết H phân phối tổng thể (giả thuyết H k thể xác suất pi để quan sát thuộc nhóm thứ i, Khi kiểm định thực sau: ∑ pi = i =1 ) (1) Phát biểu giả thuyết: H0 : Tổng thể có phân phối tuân theo luật phân phối H1 : Tổng thể khơng có phân phối (1) Tính số lượng quan sát thuộc nhóm thứ i trường hợp giả thuyết H đúng, nghĩa tính giá trị kì vọng mong muốn Ei theo cơng thức Ei = npi Nhóm Giá trị thực tế O1 O2 Xác suất theo giả thuyết H p1 p2 Trang 58 … … … K Ok pk Tổng n E1 = np1 Giá trị kì vọng χ = k ∑ i =1 (3) Tính giá trị kiểm định: E2 = np2 (Oi − Ei )2 Ei … Ek = npk n (*) χ > χ k2−1,α (4) Quy tắc định: Bác bỏ giả thuyết H mức ý nghĩa α , , χ k2−1,α tra từ bảng phân phối χ với k – bậc tự Lưu ý Các xác suất pi khác nhau, giá trị kiểm định tính cơng thức (*) ước lượng phân phối χ với điều kiện Ei ≥ Ví dụ Ở nhà hàng sử dụng nhãn hiệu bia khác 160 khách hàng chọn ngẫu nhiên cho thấy chọn lựa loại bia sau Nhãn hiệu Số khách hàng A 34 B 46 C 29 D 51 Có thể kết luận ưa chuộng khách hàng nhãn hiệu bia không mức ý nghĩa 2,5% 5%? Giải Phát biểu giả thuyết: H0 : Sự ưa chuộng khách hàng nhãn hiệu bia nhau, nghĩa xác suất để loại bia chọn nhau: p A = pB = pC = pD = 0, 25 H1 : Sự ưa chuộng khách hàng nhãn hiệu bia khác nhau, nghĩa xác suất để loại bia chọn khác Tính kì vọng mong muốn: theo giả thuyết H , số khách hàng chọn loại bia nhãn A, B, C, D E A = EB = EC = ED = np A = 160.0, 25 = 40 Áp dụng công thức (*) ta có giá trị kiểm định: χ = ∑ i =1 (Oi − Ei )2 (34 − 40)2 (46 − 40) (29 − 40) (51 − 40) = + + + = 7,85 Ei 40 40 40 40 - Với mức ý nghĩa α = 0, 025 , tra bảng phân phối χ ứng với bậc tự (k = số nhãn hiệu bia), ta χ k2−1,α = 9,34840 Vì χ < χ k2−1,α nên ta chấp nhận giả thuyết H - Với mức ý nghĩa α = 0, 05 , tra bảng phân phối χ ứng với bậc tự do, ta χ k2−1,α = 7,81473 Vì χ > χ k2−1,α nên ta bác bỏ giả thuyết H Ví dụ Các nhà tạo mẫu thiết kế thời trang nhận định mùa Thu Đông năm 40% khách hàng chọn màu tím, 30% chọn màu đen, 20% chọn màu vàng, số lại chọn màu xám Kết lựa chọn màu sắc mẫu ngẫu nhiên khách hàng sau: Màu Tím Đen Vàng Xám Số khách hàng 85 90 50 25 Với mức ý nghĩa 5%, kết luận nhận định Trang 59 Ví dụ (Đề thi Học kỳ 15.1A) Mùa Trung Thu năm ngoái, tỉ lệ khách hàng sử dụng sản phẩm bánh Trung Thu có thương hiệu A, B, C, D tương ứng 35%, 30%, 18% 17% Năm nay, thăm dò 200 khách hàng, người ta ghi bảng số liệu sau: Thương hiệu Số khách mua A 64 B 53 C 45 D 38 Với mức ý nghĩa 1%, kiểm định ý kiến cho rằng: Tỉ lệ khách hàng thương hiệu khơng đổi so với năm ngối VII.2 KIỂM ĐỊNH PHÂN PHỐI PHỤ THUỘC VÀO THAM SỐ Ở mục VII.1 ta nghiên cứu phương pháp kiểm định với xác suất pi cho giả thuyết H Trong mục này, ta xét trường hợp chưa biết xác suất pi chưa biết tham số tổng thể Khi đó, để kiểm định giả thuyết cho tổng thể tuân theo phân phối đó, ta dùng tham số mẫu để ước lượng cho tham số tổng thể Muốn vậy, trước hết ta cần tính xác suất để quan sát thuộc nhóm thứ i, nghĩa tính pi theo cơng thức luật phân phối muốn kiểm định Sau tính kì vọng mong muốn Ei , giá trị kiểm định, áp dụng quy tắc định trường hợp Tuy nhiên, cần lưu ý rằng, trường hợp này, số bậc tự bị giảm cho tham số tổng thể ước lượng Ta nghiên cứu trường hợp tổng thể có phân phối Poisson phân phối chuẩn Kiểm định tổng thể có phân phối Poisson Khái niệm: Ta nói đại lượng ngẫu nhiên X có phân phối Poisson với kỳ vọng (giá trị trung bình) a e− a a m P ( X = m) = m! (m = 0, 1, 2, …) a) Trường hợp biết kỳ vọng Ví dụ Số sinh viên nghỉ học hàng ngày lớp học Nguyên lý Thống kê ghi nhận sau: Số sinh viên ≥ Số ngày 14 10 Với mức ý nghĩa 5%, kiểm định giả thuyết cho số sinh viên nghỉ học có phân phối Poisson với kì vọng a = 1,5 Giải Gọi X số sinh viên nghỉ học ngày Ta kiểm định giả thuyết: H0 : X có phân phối Poisson với a = 1,5 H1 : Không phải Theo phân phối Poisson, xác suất có m sinh viên nghỉ học ngày e − a a m e −1,51,5m P ( X = m) = = m! m! Trang 60 Ta tính xác suất pi : e−1,5 1,50 P( X = 0) = = 0, 2231 0! e−1,5 1,51 P( X = 1) = = 0,3347 1! e−1,5 1,52 P( X = 2) = = 0, 2510 2! e−1,5 1,53 P( X = 3) = = 0,1255 3! e−1,5 1,54 = 0, 0471 4! P ( X ≥ 5) = − [ P ( X = 0) + P( X = 1) + + P( X = 5)] = 0, 0186 P( X = 4) = Từ ta tính Ei giá trị kiểm định Kết tính tốn sau: X ≥ Tổng Oi 14 10 40 pi 0,2231 0,3347 0,2510 0,1255 0,0471 0,0186 Ei 8,924 13,388 10,04 5,02 1,884 0,744 40 Tính giá trị kiểm định: χ = ∑ (Oi − Ei ) (14 − 8,924) (2 − 0, 7442 = + + = 8,1518 Ei 8,924 0, 744 Ta có số nhóm k = 6, số bậc tự k – = χ2 = 11, 0705 Tra bảng phân phối χ ứng với α = 0, 05 bậc tự do, ta 5;0,05 Vì χ < χ5;0,05 nên ta chấp nhận giả thuyết H Vậy, số sinh viên nghỉ học có phân phối Poisson với kì vọng a = 1,5 Ví dụ Kiểm tra số lỗi tả trang sách, ta có kết sau: Số lỗi Số trang 20 17 12 ≥ 1 Với mức ý nghĩa 5%, kiểm định giả thuyết cho số lỗi tả trang có phân phối Poisson với kỳ vọng 1,2 a) Trường hợp chưa biết kỳ vọng Ví dụ Ở phân xưởng sản xuất, số máy hỏng ngày ghi nhận lại Số liệu 100 ngày sau: Số máy hư Số ngày 10 26 Trang 61 35 24 Ở mức ý nghĩa 1%, kiểm định giả thuyết cho số máy hỏng có phân phối Poisson Giải Gọi X số máy hỏng ngày Ta kiểm định giả thuyết: H0 : X có phân phối Poisson H1 : X khơng có phân phối Poisson Theo phân phối Poisson, xác suất có m máy hỏng ngày e− a a m P ( X = m) = m ! , a số máy hỏng trung bình ngày Ta có a tham số chưa biết tổng thể, ta ước lượng qua tham số mẫu, từ mẫu ta tính số máy hỏng trung bình ngày a = x = 1,88 Do ta tính xác suất pi sau P( X P( X P( X P( X P( X e − a a m e −1,88 1,880 = 0) = = ≈ 0,1526 m! 0! e−1,88 1,881 = 1) = ≈ 0, 2869 1! e−1,88 1,882 = 2) = ≈ 0, 2697 2! e −1,88 1,883 = 3) = ≈ 0,169 3! ; ≥ 4) = − [ P( X = 0) + P( X = 1) + P( X = 2) + P( X = 3)] ≈ 0,1218 Từ ta tính Ei giá trị kiểm định Kết tính tốn sau: X Oi pi Ei (Oi − Ei )2 Ei 10 0,1526 15,26 1,8131 26 0,2869 28,69 0,2522 35 0,2697 26.97 2,3908 24 0,169 16,9 2,9828 0,1218 12,18 4,2325 Tổng 100 100 11,6714 Ta có số nhóm k = 5, có tham số a ước lượng, nên bậc tự (k – 1) – = 2 χ3;0,01 = 11,3449 χ α = 0, 01 Tra bảng phân phối ứng với bậc tự do, ta χ > χ3;0,01 Vì nên ta bác bỏ giả thuyết H Vậy số máy hỏng tổng thể khơng có phân phối Poisson Ví dụ Số vụ hành lí hành khách máy bay ngày ghi nhận sau: Số vụ hành lí Số ngày 35 28 12 Ở mức ý nghĩa 5%, kiểm định nhận xét cho số vụ hành lí có phân phối Poisson Trang 62 Kiểm định tổng thể có phân phối chuẩn Khái niệm: Ta nói đại lượng ngẫu nhiên X có phân phối chuẩn với kỳ vọng µ , phương sai σ , b − µ a−µ P (a < X < b) = ϕ −ϕ ÷ ÷ σ σ Trong ϕ (x ) hàm số Laplace, có giá trị cho bảng Lưu ý: Từ cơng thức suy a − µ P (X > a ) = 0,5 − ϕ ữ; b P (X < b ) = 0,5 + ϕ ÷ σ a) Trường hợp biết kỳ vọng phương sai Ví dụ Khảo sát khối lượng loại trái nông trường, người ta ghi bảng số liệu sau đây: Khối lượng (kg) < 0,4 0,4 – 0,6 0,6 – 0,8 0,8 – 1,0 1,0 – 1,2 > 1,2 Số trái 18 36 55 68 47 26 Có ý kiến cho khối lượng trái có phân phối chuẩn với kì vọng µ = 0,8 , phương sai σ = 0,1 Hãy kiểm định ý kiến mức ý nghĩa 1% Giải Gọi X khối lượng trái Ta cần kiểm định giả thuyết: : X có phân phối chuẩn với kì vọng µ = 0,8 , phương sai σ = 0,1 H1 : Không phải Ta tính xác suất tương ứng: H0 0,4 − 0,8 P (X < 0,4) = 0,5 + ϕ ÷ = 0,5 + ϕ ( −1,26) = 0,5 − 0,3962 = 0,1038 0,1 ÷ 0, − 0,8 0, − 0,8 P (0, ≤ X < 0, 6) = ϕ ÷− ϕ ÷ = ϕ ( −0, 63 ) − ϕ ( −1, 26 ) 0,1 0,1 = −0, 2357 + 0, 3962 = 0,1605 0,8 − 0,8 0, − 0,8 P (0, ≤ X < 0,8) = ϕ ÷− ϕ ÷ = ϕ (0) − ϕ ( −0, 63 ) = 0, 2357 0,1 0,1 − 0,8 0,8 − 0,8 P (0,8 ≤ X < 1, 0) = ϕ ÷− ϕ ÷ = ϕ ( 0, 63 ) − ϕ ( ) = 0, 2357 0,1 0,1 Trang 63 1, − 0,8 1, − 0,8 P(1, ≤ X < 1, 2) = ϕ ÷− ϕ ÷ = ϕ ( 1, 26 ) − ϕ ( 0, 63) 0,1 0,1 = 0,3962 − 0, 2357 = 0,1605 P ( X ≥ 1, 2) = − [ 0,1038 + 2.0,1605 + 2.0, 2357 ] = 0,1038 Ta có bảng kết tính tốn sau: Nhóm < 0,4 0,4 – 0,6 0,6 – 0,8 0,8 – 1,0 1,0 – 1,2 1,2 Tổng Oi pi 18 36 55 68 47 26 250 0,1038 0,1605 0,2357 0,2357 0,1605 0,1038 Ei = npi 25,95 40,125 58,925 58,925 40,125 25,95 250 Giá trị kiểm định: χ2 = ∑ i =1 (Oi − Ei )2 (18 − 25, 95)2 (26 − 25, 95)2 = + + = 5, 6967 Ei 25, 95 25,95 Ta có số nhóm k = 6, số bậc tự k – = 2 χ5;0,01 = 15, 0863 χ α = 0, 01 Tra bảng phân phối ứng với bậc tự do, ta χ < χ5;0,01 Vì nên ta chấp nhận giả thuyết H Vậy khối lượng trái có phân phối chuẩn với kì vọng µ = 0,8 , phương sai σ = 0,1 Ví dụ Khảo sát chiều dài loại sản phẩm, người ta ghi bảng số liệu sau đây: Chiều dài (cm) 1,0) = 0,5 – 0,4744 = 0,0256 Sau tính Ei = npi = 2400 pi Kết tính tốn sau Nhóm < 0,2 0,2 – 0,4 0,4 – 0,6 0,6 – 0,8 0,8 – 1,0 > 1,0 Tổng Oi pi Ei 36 254 1040 600 420 50 2400 0,0228 0,1334 0,3318 0,3435 0,1436 0,0256 54,72 320,16 796,32 824,4 344,64 61,44 2400 Giá trị kiểm định: χ = ∑ i =1 (Oi − Ei )2 (36 − 54, 72) (50 − 61, 44) = + + = 174,33 Ei 54, 72 61, 44 Ta có số nhóm k = 6, tổng thể có hai tham số cần ước lượng (trung bình độ lệch chuẩn) nên số bậc tự (k – 1) – = 2 χ3;0,05 = 7,81473 χ α = 0, 05 Tra bảng phân phối ứng với bậc tự do, ta χ > χ3;0,05 Vì nên ta bác bỏ giả thuyết H Trang 65 Vậy, mức chi tiêu khách hàng siêu thị khơng có phân phối chuẩn Ví dụ 10 Chọn ngẫu nhiên số sản phẩm, người ta ghi nhận tỉ lệ tạp chất (%) sau: Tỉ lệ tạp chất (%) Số sản phẩm