Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 88 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
88
Dung lượng
1,68 MB
Nội dung
TRƯỜNG ĐẠI HỌC HOA SEN BỘ MÔN KHOA HỌC TỔNG QUÁT BÀI GIẢNG THỐNG KÊ KINH DOANH (Giáo trình lưu hành nội bộ) Thành phố Hồ Chí Minh – 2021 Trang BÀI GIẢNG THỐNG KÊ KINH DOANH (Năm học 2020 – 2021 Trường Đại học Hoa Sen) PHẦN I THỐNG KÊ MÔ TẢ - THU THẬP VÀ KHÁM PHÁ DỮ LIỆU I.1 THU THẬP DỮ LIỆU Thống kê gì? Thống kê hệ thống phương pháp bao gồm thu thập, tổng hợp, trình bày số liệu, tính tốn đặc trưng đối tượng nghiên cứu nhằm phục vụ cho q trình phân tích, dự đốn định Như vậy, thống kê có hai lĩnh vực: - Thống kê mô tả: Bao gồm phương pháp thu thập, trình bày liệu tính tốn đặc trưng nhằm mô tả đối tượng nghiên cứu - Thống kê suy diễn: Bao gồm phương pháp mô hình hố liệu quan sát để đưa suy diễn tập hợp đơn vị nghiên cứu Thống kê kinh doanh môn học thuộc thống kê học, nghiên cứu hệ thống phương pháp thu thập, xử lý phân tích số (mặt lượng) tượng số lớn lĩnh vực kinh doanh để tìm hiểu chất tính quy luật vốn có chúng (mặt chất) điều kiện thời gian địa điểm cụ thể Thống kê kinh doanh khoa học định đối mặt với không chắn sử dụng nhiều lĩnh vực như: phân tích tài chính, kinh tế lượng, kiểm tốn, sản xuất hoạt động, nghiên cứu tiếp thị, … Nó cung cấp kiến thức kỹ để giải thích sử dụng kỹ thuật thống kê ứng dụng kinh doanh Các khái niệm 2.1 Tổng thể, đơn vị tổng thể, mẫu Tổng thể thống kê (hay tổng thể - population) tập hợp tất các đối tượng mà ta nghiên cứu Các đơn vị (hay phần tử - elements) tạo thành tổng thể gọi đơn vị tổng thể Mẫu (sample) phận lấy từ tổng thể Ví dụ Khi nghiên cứu đặc điểm nhóm khách hàng sử dụng loại sản phẩm địa bàn Thành phố Hồ Chí Minh (Tp HCM) ta chọn 500 khách hàng sử dụng sản phẩm Tp HCM Cho biết tổng thể, đơn vị tổng thể mẫu 2.2 Biến Biến đặc điểm đơn vị tổng thể, chia thành hai loại: - Biến định tính (categorical/qualitative variable): Thể tính chất đơn vị khảo sát; - Biến định lượng (Quantitative variable): Thể số Ví dụ a) Khi nghiên cứu đặc điểm khách hàng, có biến: giới tính, tuổi, nghề nghiệp, thu nhập, … b) Khi nghiên cứu doanh nghiệp, doanh nghiệp nghiên cứu biến như: số lượng công nhân, vốn cố định, vốn lưu động, giá trị sản xuất, … Trang Một số biến đồng thời biến định tính biến định lượng Chẳng hạn, “tuổi” biến định lượng thể số Tuy nhiên, phân loại tuổi thành nhóm: trẻ em, thiếu niên, niên, người già lại biến định tính 2.3 Dữ liệu Dữ liệu kết quan sát biến, giá trị nhận thay đổi từ đơn vị sang đơn vị khác Dữ liệu phân biệt thành hai loại: - Dữ liệu định tính; - Dữ liệu định lượng Các doanh nghiệp dựa vào nguồn liệu để lập kế hoạch nâng cao hiệu kinh doanh Tất liệu thu thập nghiên cứu cụ thể gọi liệu (data warehouses) Dữ liệu thu thập để ghi lại giao dịch cơng ty cịn gọi liệu giao dịch (transactional data) Quá trình sử dụng liệu giao dịch nhằm để đưa định phân tích dự báo (data mining/predictive analytics) Dữ liệu thường trình bày dạng bảng Mỗi dịng đơn vị tổng thể mà cần phải quan sát, thu thập Mỗi biến đơn vị tổng thể thể cột Ví dụ Đây bảng liệu: Bộ liệu chia thành nhiều bảng có mối liên hệ với Ví dụ: Trang Ba bảng có mối liên hệ với Chúng ta nhìn vào khách hàng đề tìm sản phẩm mà họ mua, nhìn vào sản phẩm để tìm khách hàng mua 2.4 Nguồn liệu Khi nghiên cứu, ta sử dụng liệu từ nguồn có sẵn, cơng bố chưa cơng bố, hay tự thu thập liệu - Dữ liệu thứ cấp: Dữ liệu từ nguồn có sẵn, thường qua tổng hợp, xử lí - Dữ liệu sơ cấp: Dữ liệu thu thập trực tiếp từ đối tượng nghiên cứu Ví dụ Khi nghiên cứu ảnh hưởng việc làm thêm kết học tập, đâu nguồn liệu thứ cấp, đâu nguồn liệu sơ cấp? a) Nguồn liệu thứ cấp đa dạng, là: - Các báo cáo nội quan, doanh nghiệp: số liệu báo cáo tình hình sản xuất, tiêu thụ, tài chính,… - Các số liệu Cơ quan Thống kê nhà nước, Cơ quan Chính phủ: dân số, việc làm, mức sống dân cư, tài nguyên, … - Báo, tạp chí, mạng Internet,… b) Nguồn liệu sơ cấp thu thập qua điều tra khảo sát Có hai phương pháp thu thập nguồn liệu sơ cấp: Thu thập trực tiếp: - Quan sát - Phỏng vấn trực tiếp Thu thập gián tiếp: - Phỏng vấn điện thoại - Phương pháp gửi thư, email Ưu điểm, nhược điểm phương pháp thu thập thơng tin tóm tắt bảng sau: Tính chất Linh hoạt Khối lượng thơng tin Tốc độ thu thập thông tin Tỉ lệ câu hỏi trả lời Chi phí Phương pháp gửi thư, email Kém Đầy đủ Chậm Phỏng vấn qua tel TB Hạn chế Nhanh Phỏng vấn trực tiếp Tốt Đầy đủ Nhanh Thấp TB Cao Tiết kiệm Tốn Tốn 2.5 Cấp bậc đo lường thang đo liệu Dữ liệu phân loại theo cấp bậc đo lường Thang đo quan trọng việc xác định phương pháp để mơ tả phân tích liệu Có bốn cấp bậc đo lường theo mức độ thơng tin tăng dần, thang đo: định danh, thứ bậc, khoảng tỉ lệ Trang - Thang đo định danh (hay thang đo phân loại) bậc thấp nhất, Thang đo sử dụng cho liệu định tính, khác biệt tên gọi Ví dụ Giới tính, màu sắc, nhãn hiệu, tình trạng nhân,… thang đo định danh - Thang đo thứ bậc thể liệu khơng biết xác mức độ Thang đo sử dụng cho liệu định tính Ví dụ Trình độ văn hố, xếp loại học lực,… thang đo thứ bậc - Thang đo khoảng thể mức độ giá trị đo lường, giá trị quy ước mà khơng có ý nghĩa Thang đo khoảng xem thang đo thứ bậc có khoảng cách Thang đo sử dụng cho liệu định lượng Ví dụ Để đo lường sở thích khách hàng, dùng thang đo khoảng sau: (1) Rất khơng thích; (2) Khơng thích; (3) Khơng có ý kiến gì; (4) Thích; (5) Rất thích - Thang đo tỉ lệ loại thang đo dùng cho liệu định lượng, có đầy đủ tính chất thang đo khoảng, giá trị có nghĩa thật sự, cho phép lấy tỉ lệ so sánh hai giá trị thu thập Đây thang đo bậc cao hệ thống thang đo Ví dụ Tiền tệ, mét, kg,… thang đo tỉ lệ Các kĩ thuật chọn mẫu Việc nghiên cứu tổng thể trường hợp tổng thể có số lượng phần tử (đơn vị) lớn dẫn đến: Mất nhiều thời gian; Tốn nhiều tiền bạc; Cần nhiều nhân lực,… Trong trường hợp khơng có đủ nguồn lực cho nghiên cứu tổng thể muốn tiết kiệm nguồn lực này, người ta tiến hành nghiên cứu mẫu Mục đích việc chọn mẫu bảo đảm cho mẫu chọn thực phản ánh trung thực, đại diện cho toàn tổng thể Sau bốn phương pháp chọn mẫu phổ biến a) Phương pháp chọn mẫu ngẫu nhiên đơn giản: mẫu mà đơn vị tổng thể chọn với ngẫu nhiên Ví dụ Từ danh sách 10.000 SV, muốn chọn 200 SV để vấn, ta dùng lệnh RAND (.) Excel để có danh sách ngẫu nhiên b) Đối với phương pháp chọn mẫu hệ thống, trước tiên lập danh sách đơn vị tổng thể chung theo trật tự quy ước đó, sau đánh số thứ tự đơn vị danh sách Đầu tiên chọn ngẫu nhiên đơn vị danh sách; sau cách k đơn vị lại chọn đơn vị vào mẫu,… chọn đủ số đơn vị mẫu Trang Ví dụ 10 Dựa vào danh sách bầu cử thành phố, ta có danh sách theo thứ tự tên chủ hộ, bao gồm 240.000 hộ Ta muốn chọn mẫu có 2000 hộ Vậy khoảng cách chọn là: k = 240000/2000 = 120, có nghĩa cách 120 hộ ta chọn hộ vào mẫu c) Trong phương pháp chọn mẫu khối (hay lấy mẫu nhiều giai đoạn), tổng thể chia thành nhiều khối, lẫy ngẫu nhiên m khối sau khảo sát hết (hay số) đối tượng khối mẫu lấy Đối với phương pháp ta không cần phải có danh sách đơn vị chọn mẫu Ví dụ 11 Cần khảo sát tất hộ dân thường trú TP HCM, ta chọn ngẫu nhiên số quận, khảo sát tất (hay số) hộ dân quận chọn d) Ta sử dụng phương pháp chọn mẫu phân tầng đơn vị khác tính chất liên quan đến vấn đề cần nghiên cứu khảo sát Ví dụ 12 khảo sát mức độ hài lòng sinh viên trường đại học cảm nhận sinh viên chất lượng đào tạo, thường có khác biệt lớn số lượng sinh viên điều kiện học tập hệ khác hệ quy, hệ hồn chỉnh đại học, hệ đại học… Theo phương pháp tổng thể nghiên cứu chia thành tầng lớp, từ kích thước mẫu chọn ta phân bổ tỷ lệ cho tầng lớp tiến hành lấy mẫu ngẫu nhiên hay có thệ thống Ví dụ 13 Các ví dụ sau sử dụng phương pháp chọn mẫu gì? a) Để nghiên cứu tỉ lệ trẻ em tiêm phòng tỉnh X, người ta chọn ngẫu nhiên 10 xã tỉnh để điều tra tồn b) Để thăm dị tỉ lệ u thích sản phẩm A đối tượng khách hàng, công ty yêu cầu khảo sát ngẫu nhiên 1000 người, 50% nam 50% nữ, 50% 40 tuổi 50% độ tuổi từ 15 đến 40 c) Để kiểm tra mức độ xác thơng tin 800 khách hàng nhân viên thu thập, nhà quản lý dựa vào danh sách định chọn 10% khách hàng để kiểm tra lại thông tin Nguyên tắc thiết kế bảng câu hỏi Để khảo sát mang lại thơng tin hữu ích tổng thể mà quan tâm Trước tiến hành, cần phải trả lời câu hỏi sau: Tơi muốn biết điều gì? Ai người trả lời đúng? Thế câu hỏi đúng? Điều thực với kết thu được? Những câu hỏi hiển nhiên, giúp cho xác định nguyên tắc đắn việc tiến hành khảo sát: Chỉ tìm bạn muốn biết Trước khảo sát, cần phải rõ ràng chúng Trang ta muốn biết tổng thể, không điều này, khơng thể có khảo sát tốt Lỗi phổ biến trường hợp thường thiết kế bảng câu hỏi (công cụ khảo sát) dài, làm hạn chế đối tượng mà khảo sát thông tin thu thường không trung thực Hãy đặt câu hỏi thật cụ thể, hạn chế câu hỏi chung chung Ví dụ 14 Thay cho câu hỏi: “Bạn có dành nhiều thời gian cho việc học khơng?” nên đặt: “Mỗi ngày, bạn dùng cho việc học?” Sử dụng bảng khảo sát phù hợp với đối tượng Chẳng hạn, bạn muốn thăm dò khách hàng mức độ hài lòng họ sản phẩm hay dịch vụ mình, đối tượng khách hàng Nhưng bạn muốn cải tiến sản phẩm hay dịch vụ mình, đối tượng nên tập trung vào khách hàng có khiếu nại từ chối sử dụng sản phẩm hay dịch vụ Cẩn thận với thành kiến hay chủ quan Việc thiết kế câu hỏi phương án trả lời dựa kinh nghiệm người thiết kế ghi nhận khách quan khoa học, điều dẫn đến áp đặt người trả lời, thơng tin thu khơng khách quan Ví dụ 15 Trong đề tài khảo sát SV Hoa Sen với chủ đề “Trà sữa”, SV thường đặt câu hỏi: “Bạn uống ly trà sữa tuần” với phương án: a) – b) – c) – d) – Như vậy, dẫn đến áp đặt tất người khảo sát phải uống trà sữa lần/tuần Cẩn thận với câu hỏi phương án trả lời gây nhiễu Các câu hỏi phương án trả lời nên thiết kế rõ ràng, đảm bảo đối tượng khảo sát khơng hiểu nhầm khó khăn việc xác định câu trả lời Ví dụ 15 Với câu hỏi: “Bao nhiêu người gia đình bạn sở hữu xe gắn máy?” nên làm rõ “gia đình” hiểu theo nghĩa nào? Dựa vào quan hệ huyết thống hay phải chung nhà? Còn với câu hỏi: “Bạn có thường xun xem phim rạp khơng?” với phương án: a) Không b) Hiếm c) Thỉnh thoảng d) Thường xuyên Thì việc phân biệt phương án b), c) d) gây khó khăn lựa chọn Bài tập thực hành: Sử dụng Google Docs, thiết kế soạn bảng khảo sát, sau viết email có nội dung mời tham gia khảo sát kèm link bảng khảo sát Trang I.2 TRÌNH BÀY VÀ MƠ TẢ DỮ LIỆU ĐỊNH TÍNH Bảng tần số, tần suất Bảng tần số, tần suất bảng tổng hợp, trình bày liệu cách phân chia chúng thành nhóm khác Bảng tần số thường bao gồm ba cột: - Cột thứ liệt kê tất các biểu có tập liệu - Cột thứ hai ghi tần số (số lần biểu xuất tập liệu) Tổng cột tần số phải số phần tử tập liệu - Cột thứ ba ghi tần suất (bằng cách lấy tần số chia cho số phần tử tập liệu nhân với 100%) Tổng cột tần suất phải 100% Ví dụ Bảng tần số, tần suất ngành học sinh viên trường đại học sau: Ngành học Quản trị kinh doanh Điện tử viễn thông Công nghệ thông tin Tổng Tần số (sinh viên) 500 300 200 1000 Tần suất (%) 50 30 20 100 Ví dụ Dưới kết 40 câu trả lời từ khảo sát việc liệu người xem TV quan tâm đến chương trình Gameshow hay quảng cáo xuất chương trình: Bảng tần số, tần suất tương ứng: Trang Đồ thị thống kê 2.1 Biểu đồ dạng (Bar Chart: đứng hay ngang) Trên biểu đồ này, đại diện phân loại biến (đặc điểm thống kê) mà ta quan tâm, chiều dài thể tần số quan sát thuộc phân loại Cịn chiều rộng Ví dụ Dữ liệu việc sử dụng trang mạng xã hội để mua mặt hàng có bảng tần số sau: Biểu đồ dạng là: Trang 2.2 Biểu đồ hình trịn: Thường dùng để mơ tả kết cấu (%) vấn đề nghiên cứu Ví dụ Biểu đồ hình trịn bảng liệu VD sau Trên biểu đồ, tồn diện tích hình trịn chia thành nhiều mảnh nhỏ hình rẻ quạt, diện tích mảnh tương ứng với tỉ lệ phân loại mà đại diện tồn thể mang màu khác Thứ tự phân loại (theo chiều ngược kim đồng hồ) thứ tự xếp bảng tổng hợp Bảng kết hợp nhiều biến định tính Ví dụ Bảng mô tả việc sử dụng mạng xã hội để mua hàng khách hàng nước Ví dụ Bảng khảo sát từ 1008 niên Mỹ việc quan tâm đến chương trình Gameshow hay quảng cáo xuất chương trình: Trang 10 Mơ hình hồi quy tuyến tính đơn Armand’s Pizza Parlors chuỗi nhà hàng thức ăn nhanh miền bắc nước Ý Vị trí thành cơng Armand nằm gần trường đại học Các nhà quản lý tin doanh thu hàng quý (kí hiệu Y) cho nhà hàng có tương quan dương với số lượng sinh viên (kí hiệu X); có nghĩa là, nhà hàng gần khn viên trường có số lượng sinh viên lớn có xu hướng tạo doanh thu cao so với số lượng sinh viên nhỏ Sử dụng phân tích hồi quy, phát triển phương trình cho thấy biến phụ thuộc Y có liên quan đến biến độc lập X có dạng: Y 1 X (1) gọi mơ hình hồi quy tổng thể Trong đó, epsilon gọi sai số ngẫu nhiên mơ hình (các yếu tố khác X tác động đến Y), beta gọi tham số tổng thể mơ hình Trong hình bên trường hợp xảy hệ số góc beta Hình 1: Các trường hợp hệ số góc beta Phương trình hồi quy ước lượng tuyến tính mẫu có dạng Yˆi b b1 X i Với Yˆi giá trị kì vọng (trung bình theo xác suất) ước lượng biến phụ thuộc Y quan sát thứ i Xi quan sát thứ i biến độc lập X b0, b1 ước lượng hệ số hồi quy beta mơ hình hồi quy tổng thể Dựa vào liệu mẫu thu thập được, áp dụng phương pháp bình phương nhỏ (least squares method – đọc giáo trình chính), ta xác định cơng thức sau: n b1 (x x)(y y) i 1 i i n (x x) i 1 i rxy sY sX b0 y b1x Trong đó, X , Y trung bình số học X Y, sX, sY độ lệch chuẩn hiệu chỉnh X Y, rXY hệ số tương quan X Y Ý nghĩa kinh tế b0 b1: - Nếu X = giá trị trung bình Y = b0 (đơn vị) Trang 74 - Trong điều kiện yếu tố khác không thay đổi, X tăng 1(đơn vị) giá trị trung bình Y tăng (hoặc giảm) b1 (đơn vị) Case study Trong tình Armand’s Pizza Parlors, tổng thể gì? Thu thập liệu ngẫu nhiên 10 nhà hàng (n = 10 observations), ta có tập liệu mẫu (data set) đồ thị phân tán sau: Hình 2: Dữ liệu “số lượng sinh viên” (X- đơn vị: 1000SV) “doanh số quý”(Y – đơn vị: 1000 Euro) 10 nhà hàng Sử dụng Excel để vẽ phân tích đồ thị rời rạc liệu ta có: Hình 3: Đồ thị rời rạc liệu mẫu Từ đồ thị ta nhận thấy mối quan hệ số lượng sinh viên doanh số bán hàng nhà hàng quan hệ tuyến tính Nghĩa số lượng sinh viên tăng (hoặc giảm) tác động tăng (hoặc giảm) đến doanh số Hệ số tương quan rXY 0,9501 > Sau kết tính tốn chi tiết cơng thức Chúng ta sử dụng máy tính bỏ túi phần mềm để tính kết b0 b1 nhanh chóng Trang 75 Hình 4: Bảng tính tốn chi tiết theo phương pháp ước lượng Bình phương nhỏ Phương trình hồi quy ước lượng tuyến tính mẫu có dạng Yˆ 60 X Hệ số góc phương trình hồi quy ước lượng (b1 = 5) dương, ngụ ý số lượng sinh viên tăng lên doanh thu tăng lên Điều có nghĩa là, điều kiện yếu tố khác không thay đổi, trường tuyển sinh tăng thêm 1000 SV doanh thu cửa hàng tăng lên 5000 euro (lưu ý đổi đơn vị) Hay nói cách khác, sinh viên học trường mang lại euro doanh thu cho hàng Hình 5: Đường hồi quy mẫu Trang 76 Nếu muốn dự đoán doanh số bán hàng quý cho nhà hàng đặt gần khuôn viên trường với 16 000 sinh viên, tính được: Yˆ 60 5.(16) 140 , nghĩa dự đoán doanh thu nhà hàng 140.000 (Euro) Hệ số xác định R2 mơ hình Trong hình 14.4 ví dụ trên, ta sử dụng đường thẳng liên tục để mô cho liệu điểm rời rạc Câu hỏi đặt ra: Liệu mơ hình đường thẳng có thực mơ tả tốt cho liệu thực tế không? Làm để đánh giá khả dự báo tốt doanh thu chọn mơ hình dạng đường thẳng Để trả lời cho câu hỏi ta sử dụng hệ số xác định R2 (coefficient of determination) mơ hình Đối với mơ hình hồi quy tuyến tính đơn (1), hệ số xác định mơ hình (1) cho cơng thức: R2 rXY Một cách tổng quát, R SSR , với SST, SSR SSE định nghĩa sau: SST SST (Total Sum of Squares): SST (Yi Y )2 (n 1)sY2 SSR (Sum of Squares due to Regresstion): ^ SSR (Y i Y ) ( n 1).s X2 b12 ^ SSE (Sum of Squares due to Error): SSE Yi Y i Với Y = Giá trị trung bình biến phụ thuộc, Yi = Giá trị quan sát thứ i biến phụ ^ thuộc, Y i = Giá trị dự báo Y tương ứng với giá trị Xi cho Mối quan hệ SST, SSR SSE: SST =SSE SSR Trang 77 Nhận xét: 0% ≤ R2 ≤ 100% Hệ số xác định sử dụng để đánh giá % mức độ phù hợp mơ hình mơ tả mối quan hệ biến phụ thuộc Y với biến độc lập X - R2 = Mơ hình hồn tồn khơng phù hợp - R2 = Mơ hình hồn hảo - R2 1 Mơ hình phù hợp với liệu thực tế Ví dụ: Hãy tính hệ số xác định mơ hình tình Armand’s Pizza Parlors giải thích ý nghĩa Với liệu ta tính R rXY 0,9501 0,9027 Như vậy, sử dụng mô hình để dự báo doanh thu mức độ xác lên đến 90.27% Bài tốn kiểm định 4.1 Kiểm định phù hợp mơ hình (F test) Thêm câu hỏi khác đặt ra: Một mơ hình có hệ số xác định R2 % chấp nhận được? Để trả lời cho câu hỏi này, ta thực toán kiểm định phù hợp mơ hình với mức ý nghĩa cho trước Bài tốn kiểm định F có bước: Bước 1: Lập giả thuyết H0: Mơ hình (1) khơng phù hợp H1: Mơ hình (1) phù hợp (có biến độc lập X tác động đến Y) Trang 78 Bước 2: Tính giá trị F R2 (n k ) (1 R2 )(k 1) MSR hay F với k số lượng tham số beta MSE có mơ hình Bước 3: Tra bảng phân phối Fisher tìm F(k-1, n-k) ứng với hàng (n-k) cột (k-1) Bước 4: Quy tắc định - Nếu F > F(k-1,n-k) Bác bỏ H0 - Nếu F ≤ F(k-1,n-k) Chấp nhận H0 Ví dụ: Với liệu có tình Armand’s Pizza Parlors, mơ hình (1) có thực tốt để dự báo doanh thu theo quý nhà hàng thức ăn nhanh không với mức ý nghĩa 5% Bước 1: Lập giả thuyết H0: Mơ hình (1) khơng phù hợp H1: Mơ hình (1) phù hợp (có biến độc lập X tác động đến Y) Bước 2: Tính giá trị F 0,9027(10 2) R2 (n k ) 74,25 (1 R )(k 1) (1 0,9027)(2 1) Bước 3: F(k-1, n-k) = F5%(1, 8) = 5,32 Bước 4: Vì F = 74,2 > F = 5.32 nên bác bỏ giả thuyết H0 Như vậy, mơ hình (1) phù hợp để dự báo doanh thu hàng quý nhà hàng phụ thuộc theo số lượng sinh viên với mức ý nghĩa 5% Ví dụ: Với mức ý nghĩa 1% liệu kết luận có cịn khơng? 4.2 Kiểm định tác động biến độc lập X đến Y (t test) Đối với biến phụ thuộc Y có nhiều biến độc lập X tác động đến Do đó, cần phải kiểm tra xem biến X có thực tác động đến Y mơ hình hay khơng Ta thực toán kiểm định t test sau Để tính giá trị kiểm định t ta có công thức sau: công thức sau để đo lường mức độ tập trung liệu quanh đường hồi quy - Phương sai sai số ngẫu nhiên (Mean square error - MSE) se MSE SSE nk - Độ lệch chuẩn sai số ngẫu nhiên (Standard error) - Độ lệch chuẩn hệ số hồi quy b1 se(b1 ) M SE se se X i X se hay se(b1 ) s X n dùng đo lường biến động hệ số gốc đường hồi quy người chọn mẫu khác Trang 79 Bài toán kiểm định t có bước sau: Bước 1: Lập giả thuyết H0: 1 0 (X không tác động đến Y) H1: 1 (X có tác động đến Y) Bước 2: Tính giá trị kiểm định t b1 se(b1 ) Bước 3: Tra bảng phân phối Student tìm t(/2,n-k) ứng với hàng (n-k) cột (/2) với k số lượng tham số beta có mơ hình Bước 4: Quy tắc định - Nếu t t( /2,nk ) Bác bỏ H0 - Nếu t t( /2,nk ) Chấp nhận H0 Ví dụ: Với liệu có tình Armand’s Pizza Parlors, với mức ý nghĩa 1%, số lượng sinh viên (X) trường gần nhà hàng có thực tác động đến doanh thu (Y) nhà hàng không? Ta có kết sau: SST ( n 1) sY2 9.(41, 8064) 15730 SSR ( n 1).s X2 b12 9.(7, 9443) 14200 SST SSE SSR SSE 1530 se M S E se(b1 ) SS E 1530 191, 25 nk se M S E 191, 25 13, 829 se 13,829 0,5803 sX n 1 7,9443 Bước 1: Lập giả thuyết H0: 1 0, Số lượng sinh viên không tác động đến doanh thu nhà hàng H1: 1 Bước 2: Tính giá trị kiểm định t b1 1 50 8,62 se(b1 ) 0,5803 Bước 3: Tra bảng phân phối Student tìm t(8;0,005)= 3,355 Bước 4: Quy tắc định Vì t t(nk , /2) nên bác bỏ H0 Vậy số lượng sinh viên thực có ảnh hưởng đến doanh thu nhà hàng với mức ý nghĩa 1% 4.3 p – value tốn kiểm định t F Ngồi việc áp dụng bước toán kiểm định đề cập, để thực toán kiểm định nhanh mà không cần phải tra bảng phụ lục thống kê, sử dụng giá trị p – value Giá trị phần mềm thống kê tính tốn sẵn Trang 80 p – value mức ý nghĩa nhỏ để bác bỏ giả thuyết H0, tức p value P( ti t ) Nhắc lại cặp giả thuyết kiểm định t F - Giả thuyết kiểm định t H0: 1 0 (X không tác động đến Y) H1: 1 (X có tác động đến Y) - Giả thuyết kiểm định F H0: Mơ hình (3) khơng phù hợp H1: Mơ hình (3) phù hợp (có biến độc lập X tác động đến Y) Quy tắc định - Nếu p ≤ : Bác bỏ H0 - Nếu p > : Chấp nhận H0 Khoảng ước lượng beta Bên cạnh việc giải thích ý nghĩa hệ số hồi quy biết, nhà quản trị muốn biết thay đổi biến phụ thuộc Y tối đa tối thiểu X tăng đơn vị Đây tốn ước lượng khoảng giá trị beta với công thức sau: 1 b1 t( n2, /2) se(b1 ); b1 t( n2, /2) se(b1 ) Ý nghĩa: Trong điều kiện yếu tố khác không thay đổi, X tăng 1(đơn vị) giá trị trung bình Y tăng (hoặc giảm) khoảng (đơn vị) Ví dụ: Nếu lượng sinh viên trường gần nhà hàng tăng thêm 1000 SV doanh thu cửa hàng đạt tối đa với mức ý nghĩa 1% Ta có: b1 = 5; t(8;0,005)= 3,355; se(b1 ) 0,5803 Do đó, doanh thu tối đa cận khoảng ước lượng b1 t(n2, /2) se(b1) 3,355.0,5803 6,9496 Như vậy, lượng sinh viên trường gần nhà hàng tăng thêm 1000 SV doanh thu cửa hàng đạt tối đa 6,9469 nghìn euro Sử dụng phương trình hồi quy ước lượng để xây dựng dự báo khoảng giá trị kỳ vọng Y X0 với mức ý nghĩa cho trước Sau kiểm định xác nhận việc lựa chọn mơ hình hồi quy tuyến tính để mô tả mối quan hệ biến tập liệu phù hợp Nhà quản trị sử dụng mơ hình để ước tính giá trị tối đa tối thiểu biến phụ thuộc Y cho trước giá trị X Giá trị ước tính gọi dự báo khoảng giá trị trung bình Y ^ ^ Công thức Y0 t( n k , / 2) se(Yˆ0 ); Y0 t( n k , / 2) se(Yˆ0 ) với Yˆ0 b0 b1 X ( X X )2 se(Yˆ0 ) se n ( n 1) s X Ví dụ: Quản lý chuỗi nhà hàng Armand’s Pizza Parlors muốn dự đốn kì vọng doanh thu tối đa tối thiểu cửa hàng biết số lượng sinh viên ngơi trường gần 10 000SV với mức ý nghĩa 5% Trang 81 Từ phương trình hồi quy ước lượng ta có: Yˆ0 60 5.(10) 110 t(8;0,025;)= 2,306 ( X X )2 (14 10) se (Yˆ0 ) se 4, 9501 13,829 10 9.7, 9443 n ( n 1) s X ^ Y0 t ( n k , / ) se (Yˆ0 ) 110 2, 306.4, 9501 98 , 585 ^ Y0 t ( n k , / ) se (Yˆ0 ) 110 2, 306.4, 9501 121, 415 Như vậy, với quy mô ngơi trường có 10 000 sinh viên gần hàng doanh thu đem lại cho cửa hàng khoảng từ 98.585 Euro đến 121.415 euro với mức ý nghĩa 5% (Lưu ý đơn vị) Các giả thiết mô hình (1) (Đọc thêm giáo trình chính) Giả thiết 1: Kỳ vọng sai số ngẫu nhiên mơ hình Giả thiết 2: Sai số ngẫu nhiên có phương sai khơng thay đổi tất X Giả thiết 3: Không tự tương quan với X Giả thiết 4: Sai số ngẫu nhiên biến ngẫu nhiên có phân phối chuẩn Computer Solution Case study Một công ty bất động sản muốn xem xét mối quan hệ giá bán ngơi nhà diện tích để dự dốn mức giá bán hợp lý cho ngơi nhà Một mẫu ngẫu nhiên gồm 10 nhà chọn Biến phụ thuộc (Y) = giá nhà (đơn vị 1000 đơla) Biến độc lập (X) = diện tích (square feet) House Price in $1000s (Y) 245 312 279 308 199 219 405 324 319 255 Square feet (X) 1400 1600 1700 1875 1100 1550 2350 2450 1425 1700 Sử dụng Excel để phân tích hồi quy: Trên cơng cụ chọn Data / Data Analysis / Regression Hình 1: Hướng dẫn phân tích hồi quy Excel Trang 82 Hình 2: Hệ số hồi quy b0, b1 phương trình ước lượng Trang 83 Hình 3: Đồ thị rời rạc đường hồi quy Hình 4: Hệ số xác định R2, giá trị kiểm định t Trang 84 b1 se(b1) t b1 β1 0.10977 3.32938 se(b1 ) 0.03297 Hình 5: Giá trị kiểm định F; p – value F, t; khoảng ước lượng beta1 P – value t BÀI TẬP Trang 85 Khoảng ước lượng beta1 với mức ý nghĩa 5% Cho kết phân tích hồi qui Dữ liệu “số lượng sinh viên” (X- đơn vị: 1000SV) “doanh số quý”(Y – đơn vị: 1000 Euro) 10 nhà hàng SUMMARY OUTPUT Regression Statistics Multiple R 0.950123 R Square 0.902734 Adjusted R Square 0.890575 Standard Error 13.82932 Observations 10 ANOVA df Regression Residual Total Intercept X Coefficients 60 SS 14200 1530 15730 Significance MS F F 14200 74.24837 2.55E-05 191.25 Standard Error t Stat P-value 9.226035 6.503336 0.000187 0.580265 8.616749 2.55E-05 Upper Lower 95% 95% 38.72473 81.27527 3.661906 6.338094 a) Hãy hệ số ước lượng hồi qui b0, b1 Giải thích ý nghĩa viết phương trình ước lượng hồi qui mẫu b) Chỉ hệ số xác định R2 mơ hình giải thích ý nghĩa Hệ số tương quan biến X, Y bao mhiêu? c) Cỡ mẫu bao nhiêu? Chỉ SST, SSE, SSR, MSE Se d) Chỉ giá trị kiểm định F p – value F Thực kiểm định F (sự phù hợp mơ hình để dự báo doanh số quý) cách e) Chỉ giá trị kiểm định t p – value t Thực kiểm định t (sự ảnh hưởng lượng sinh viên đến doanh số bán hàng) cách f) Giải thích ý nghĩa khoảng ước lượng hệ số beta với mức ý nghĩa 5% g) Nếu lượng sinh viên tăng thêm 1000 người doanh số ước lượng tối thiểu với mức ý nghĩa 1% h) Dự kiến doanh số cửa hàng mở cạnh trường HSU có 20.000 sinh viên i) Dự kiến doanh số tối đa cử hàng mở với mức ý nghãi 5% 3.16 Cho bảng liệu lượng phân bón (tấn/năm) suất loại nơng sản (tấn/ha) Năm Phân bón Năng suất Năm Phân bón Năng suất (Y) 40 (Y) 58 1990 (X) 1995 (X) 18 1991 10 44 1996 22 60 1992 12 46 1997 24 68 1993 14 48 1998 26 74 1994 16 52 1999 32 80 Mơ hình hồi quy: Y = β0 + β1 X + e a Ước lượng hệ số beta phương pháp bình phương nhỏ Giải thích ý nghĩa giá trị ước lượng nhận b Với mức ý nghĩa 5%, lượng phân bón có ảnh hưởng đến suất nơng sản khơng? Trang 86 c Hãy kiểm định tính phù hợp mơ hình với mức ý nghĩa 1% d Hãy dự báo suất trung bình nơng sản năm 2000 với lượng phân bón 35 tấn/năm với độ tin cậy 95% 3.17 Dưới số liệu DPI (thu nhập khả dụng - X) DTE (số tiền chi cho du lịch nước -Y) bang Mỹ DTE (tỷ USD) Tên Bang DPI (tỷ USD) Colorado 18,6 4,6 New Mexico 14,5 1,7 Arizona 15,9 3,8 Utah 14,0 1,7 Nevada 19,7 6,4 California 17,3 3,8 Kentucky 16,8 4,2 Ohio 18,5 7,3 Florida 15,3 5,6 a Viết phương trình hồi qui tuyến tính ước lượng thể mối liên hệ DTE DPI Giải thích ý nghĩa hệ số góc phương trình b Hãy tính hệ số xác định kiểm định phù hợp mơ hình hồi quy tuyến tính với mức ý nghĩa 5% c Với mức ý nghĩa 5%, DPI tăng tỷ USD DTE thay đổi tối đa bao nhiêu? d Nếu DPI 19 tỷ USD DTE trung bình dự báo đạt với độ tin cậy 90%? 3.18 Cho kết phân tích hồi quy nhu cầu tiêu thụ cà phê (Y-tấn/năm) giá cà phê (X - USD) với mức ý nghĩa 1% công ty sản xuất cà phê sau SUMMARY OUTPUT Regression Statistics Multiple R 0.814099 R Square 0.66275 Adjusted R Square 0.625285 Standard Error 0.128702 Observations 11 ANOVA Df Regression Residual Total Intercept Giá (USD) 10 SS 0.2929748 0.1490797 0.4420545 Coefficients 2.691123 -0.47952 Standard Error 0.12162 0.11402 MS 0.292974 0.016564 F 17.68700 Significance F 0.002287 t Stat 22.1268 -4.20559 P-value 3.717E-09 0.00228 Lower 95% 2.41599 -0.73746 Trang 87 Upper 95% 2.96625 -0.22159 Từ kết phân tích a Viết phương trình ước lượng nhu cầu tiêu thụ theo mức giá cà phê Giải thích ý nghĩa hệ số hồi quy b1 b Kiểm định phù hợp mơ hình c Giá bán có thực tác động đến nhu cầu tiêu thụ cà phê? d Nếu giá bán tăng 1$ nhu cầu biến động khoảng bao nhiêu? Trang 88 ...BÀI GIẢNG THỐNG KÊ KINH DOANH (Năm học 2020 – 2021 Trường Đại học Hoa Sen) PHẦN I THỐNG KÊ MÔ TẢ - THU THẬP VÀ KHÁM PHÁ DỮ LIỆU I.1 THU THẬP DỮ LIỆU Thống kê gì? Thống kê hệ thống phương... hợp đơn vị nghiên cứu Thống kê kinh doanh môn học thuộc thống kê học, nghiên cứu hệ thống phương pháp thu thập, xử lý phân tích số (mặt lượng) tượng số lớn lĩnh vực kinh doanh để tìm hiểu chất... dự đốn định Như vậy, thống kê có hai lĩnh vực: - Thống kê mô tả: Bao gồm phương pháp thu thập, trình bày liệu tính tốn đặc trưng nhằm mô tả đối tượng nghiên cứu - Thống kê suy diễn: Bao gồm phương