1 Chương I. GIỚI THIỆU MÔN HỌC 1.1. Định nghĩa Thống kê là một nhánh của toán học liên quan đến việc thu thập, phân tích, diễn giải hay giải thích và trình bày các dữ liệu. Thống kê được vận dụng trong nhiều lĩnh vực học thuật khác nhau, từ vật lý cho đến khoa học xã hội và nhân văn. Thống kê cũng được sử dụng để ra quyết định trong tất cả mọi lĩnh vực kinh doanh và quản trị nhà nước. 1.2. Chức năng của thống kê Thống kê mô tả: là pháp sử dụng để tóm tắt hoặc mô tả một tập hợp dữ liệu. Thống kê suy diễn: là phương pháp mô hình hóa trên các dữ liệu quan sát để giải thích được những biến thiên “dường như” có tính ngẫu nhiên và tính không chắc chắn của các quan sát và dùng để rút ra các suy diễn về quá trình hay về tập hợp các đơn vị được nghiên cứu. Thống kê mô tả và thống kê suy diễn tạo thành thống kê trong ứng dụng. Còn thống kê toán là lĩnh vực nghiên cứu cơ sở lý thuyết của khoa học thống kê. 1.3. Các khái niệm căn bản 1. Tổng thể và đơn vị tổng thể Tổng thể thống kê (còn gọi là tổng thể chung) là tập hợp các đơn vị (hay phần tử) thuộc hiện tượng nghiên cứu, cần quan sát, thu thập và phân tích mặt lượng của chúng theo một hoặc một số tiêu thức nào đó. Các đơn vị (hay phần tử) cấu thành tổng thể thống kê gọi là đơn vị tổng thể. Ví dụ: Muốn thu thập trung bình của một hộ gia đình ở Thành phố Hồ Chí Minh thì tổng thể sẽ là tổng số hộ của TP. HCM. Muốn tìm chiều cao trung bình của sinh viên nam lớp X thì tổng thể sẽ là toàn bộ nam sinh viên của lớp X. Như vậy thực chất của việc xác định tổng thể thống kê là xác định các đơn vị tổng thể. Đơn vị tổng thể là xuất phát điểm của quá trình nghiên cứu thống kê, vì nó chứa đựng những thông tin ban đầu cần cho quá trình nghiên cứu. Tổng thể trong đó bao gồm các đơn vị (hay phần tử) mà ta có thể trực tiếp quan sát hoặc nhận biết được gọi là tổng thể bộc lộ. Ví dụ tổng thể sinh viên của một trường, tổng thể các doanh nghiệp trên một địa bàn… Khi xác định tổng thể có thể gặp trường hợp các đơn vị tổng thể không trực tiếp quan sát hoặc nhận biết được, ta gọi đó là tổng thể tiềm ẩn. Khi nghiên cứu các hiện tượng xã hội ta thường gặp loại tổng thể này (ví dụ như tổng thể những người đồng ý (ủng hộ) một vấn đề nào đó, tổng thể những người ưa thích nghệ thuật cải lương…) Tổng thể trong đó bao gồm các đơn vị (hay phần tử) giống nhau ở một hay một số đặc điểm chủ yếu có liên quan trực tiếp đến mục đích nghiên cứu được gọi là tổng thể đồng chất. Ngược lại, nếu tổng thể trong đó bao gồm các đơn vị (hay phần tử) không giống nhau ở những đặc điểm chủ yếu có liên quan đến mục đích nghiên cứu được gọi là tổng thể không đồng nhất. Ví dụ mục đích nghiên cứu là tìm hiểu hiệu quả sử dụng vốn của các doanh nghiệp dệt trên địa bàn thì tổng thể các doanh nghiệp dệt trên địa bàn là tổng thể đồng chất, nhưng tổng thể các doanh nghiệp trên địa bàn là tổng thể không đồng chất. 2 Việc xác định một tổng thể là đồng chất hay không đồng chất là tùy thuộc vào mục đích nghiên cứu cụ thể. Các kết luận rút ra từ nghiên cứu thống kê chỉ có ý nghĩa khi nghiên cứu trên tổng thể đồng chất. Tổng thể thống kê có thể là hữu hạn, cũng có thể được coi là vô hạn (không thể hoặc khó xác định được số đơn vị tổng thể như tổng thể trẻ sơ sinh, tổng thể sản phẩm do một loại máy sản xuất ra…) cho nên khi xác định tổng thể thống kê không những phải giới hạn về thực thể (tổng thể là tổng thể gì), mà còn phải giới hạn về thời gian và không gian (tổng thể tồn tại ở thời gian nào, không gian nào). 2. Mẫu và đơn vị mẫu Mẫu là tổng thể bao gồm một số đơn vị được chọn ra từ tổng thể chung theo một phương pháp lấy mẫu nào đó. Các đặc trưng mẫu được sử dụng để suy rộng ra các đặc trưng của tổng thể chung. Quan sát là cơ sở thu thập số liệu và thông tin cần nghiên cứu. Chẳng hạn trong điều tra chọn mẫu, mỗi đơn vị mẫu sẽ được tiến hành ghi chép, thu thập thông tin được gọi là một quan sát. 3. Dữ liệu định tính và dữ liệu định lượng Dữ liệu định tính phản ánh tính chất, sự hơn kém của đối tượng của các đối tượng nghiên cứu, là các dữ liệu ban đầu không được thể hiện dưới dạng số ví dụ như giới tính, vùng địa lý, ngành học Dữ liệu định lượng phản ánh mức độ hay mức độ hơn kém, là các dữ liệu có thể cân, đong, đo, đếm được… ví dụ như thời gian làm thêm của sinh viên bao nhiêu giờ trong một tuần hay một ngày… Dữ liệu định tính dễ thu thập hơn dữ liệu định lượng, nhưng dữ liệu định lượng thường cung cấp nhiều thông tin hơn và dễ áp dụng nhiều phương pháp phân tích hơn. Khi thực hiện nghiên cứu, trong giai đoạn lập kế hoạch nghiên cứu và thu thập dữ liệu, người nghiên cứu cần xác định trước các phương pháp phân tích cần sử dụng để phục vụ cho mục tiêu của mình; từ đó xác định loại dữ liệu cần thu thập để thu thập được dữ liệu mong muốn. 4. Tiêu thức thống kê Tiêu thức thống kê là khái niệm dùng để chỉ các đặc điểm của đơn vị tổng thể. Ví dụ khi nghiên cứu nhân khẩu có các tiêu thức như: giới tính, độ tuổi, trình độ học vấn, nghề nghiệp, dân tộc, tôn giáo… ; khi nghiên cứu các doanh nghiệp, mỗi doanh nghiệp có các tiêu thức như: số lượng công nhân, vốn cố định, vốn lưu động, giá trị sản xuất… Tiêu thức thống kê được chia thành hai loại: Tiêu thức thuộc tính: là tiêu thức phản ánh tính chất hay loại hình của đơn vị tổng thể, không có biểu hiện trực tiếp bằng các con số. Ví dụ như tiêu thức giới tính, nghề nghiệp, tình trạng hôn nhân, dân tộc, tôn giáo… là các tiêu thức thuộc tính. Tiêu thức số lượng: là tiêu thức có biểu hiện trực tiếp bằng con số. Ví dụ như: tuổi, chiều cao, trọng lượng của con người, năng suất làm việc của công nhân… 3 Các trị số cụ thể khác nhau của tiêu thức số lượng gọi là lượng biến. Ví dụ: tuổi là tiêu thức số lượng, tuổi không phải là lượng biến; lượng biến là 18 tuổi, 20 tuổi, 30 tuổi… Lượng biến có thể phân làm hai loại: Lượng biến rời rạc: là lượng biến mà các giá trị có thể có của nó là hữu hạn hay vô hạn đếm được. Ví dụ như số công nhân trong một doanh nghiệp, số sản phẩm sản xuất trong một ngày của một phân xưởng… Lượng biến liên tục: là lượng biến mà các giá trị có thể có của nó có thể lấp kín cả một khoảng trên trục số. Ví dụ như trọng lượng, chiều cao của sinh viên; năng suất của một loại cây trồng… Các tiêu thức thuộc tính hay tiêu thức số lượng chỉ có hai biểu hiện không trùng nhau trên một đơn vị tổng thể được gọi là tiêu thức thay phiên. Ví dụ như tiêu thức giới tính là tiêu thức thay phiên vì chỉ có hai biểu hiện là nam và nữ. Đối với tiêu thức có nhiều biểu hiện ta có thể chuyển thành tiêu thức thay phiên bằng cách rút gọn thành hai biểu hiện. Ví dụ như thành phần kinh tế nhà nước và ngoài nhà nước, số công nhân trong doanh nghiệp chia thành <500 và ≥500. 1.4.Cấp bậc đo lường và các loại thang đo dữ liệu 1. Thang đo định danh: là loại thang đo dùng cho các tiêu thức thuộc tính. Người ta sử dụng các mã số để phân loại các đối tượng, chúng không mang ý nghĩa nào khác. Ví dụ giới tính, nam ký hiệu là số 1, nữ ký hiệu là số 0. Giữa các con số ở đây không có quan hệ hơn kém, mà chỉ dùng để đếm số tần số xuất hiện của các biểu hiện. Thước đo độ tập trung duy nhất là mode; độ phân tán thống kê có thể đo bằng các tỷ lệ, không tính được độ lệch chuẩn. Chúng ta hay gặp thang đo định danh trong các câu hỏi về thong tin cá nhân của từng người hay của thông tin về doanh nghiệp. Ví dụ như - Tình trạng hôn nhân của anh (chị) là: 1. Có gia đình 2. Độc thân 3. Ly dị 4. Trường hợp khác Đối với mỗi người sẽ chọn một trong các mã số 1, 2, 3, 4. Các mã số này là thang đo định danh. Các mã số trên cũng có thể thay đổi như sau: 1. Độc thân 2. Có gia đình 3. Ly dị 4. Trường hợp khác - Công ty của ông/ bà đang hoạt động chính trong lĩnh vực nào 1.Sản xuất 2.Xây dựng 3.Dịch vụ 4.Thương mại 5.Khác 2. Thang đo thứ bậc: là loại thang đo dùng cho các tiêu thức thuộc tính và các tiêu thức số lượng. Trong thang đo này, giữa các biểu hiện của tiêu thức có quan hệ thứ bậc hơn kém. Sự chênh lệch giữa các biểu hiện không nhất thiết phải bằng nhau. Thước đo độ tập trung là mode hay trung vị, trung vị cung cấp nhiều thông tin hơn mode. Chúng ta thường gặp loại thang đo này trong các câu hỏi dang so sánh 4 - Huân chương có ba hạng Nhất, nhì, ba. - “Anh/ chị hãy xếp hạng các chủ đề sau trên báo Phụ nữ theo mức độ quan tâm (chủ đề nào quan tâm nhất thì ghi số 1, quan tâm thứ hai thì ghi số 2 và quan tâm số ba thì ghi số 3) Hôn nhân gia đình. Thời trang. Nuôi dạy con cái.” - “ Thu nhập của anh/ chị hàng tháng là: 1. Dưới 3 triệu đồng. 2. Từ 3 đến 4 triệu đồng. 3. Trên 4 triệu đồng.” 3. Thang đo khoảng: là loại thang đo dùng cho các tiêu thức số lượng và các thang đo thuộc tính. Thang đo khoảng là thang đo thứ bậc có các khoảng cách đều nhau. Khuynh hướng trung tâm của dữ liệu thu thập từ thang đo khoảng có thể là mode, trung vị và trung bình cộng; trong đó trung bình cộng chứa nhiều thang đo nhất. Ví dụ rõ nhất cho loại thang đo này là thang đo nhiệt độ, 32℃> 30℃và 80℃ > 78℃, sự chênh lệch giữa 32℃và 30℃cũng giống sự chênh lệch giữa 80℃ và 78℃đều cách nhau 2℃. Như vậy, thang đo khoảng cho phép chúng ta đo lường một cách chính xác sự khác nhau giữa hai giá trị bất kỳ, còn trong thang đo thứ bậc thì không thể, vì nó chỉ cho biết giá trị này lớn hơn giá trị khác mà thôi. Ta cũng gặp loại thang đo này trong câu hỏi phỏng vấn dạng: “Đề nghị quý thầy/ cô cho biết ý kiến của mình về tầm quan trọng của các mục tiêu đào tạo sinh viên đại học sau đây bằng cách khoanh tròn các con số tương ứng trên thang đánh giá chỉ mức độ từ 1 đển 5 (1: không quan trọng, 5: rất quan trọng). Không quan trọng Bình thường Rất quan trọng Đạo đức 1 2 3 4 5 Khả năng biết phê phán 1 2 3 4 5 Năng lực giải quyết vấn đề 1 2 3 4 5 Tư duy logic 1 2 3 4 5 Khả năng làm việc độc lập 1 2 3 4 5 Năng lực nghiên cứu khoa học 1 2 3 4 5 Tinh thần học tập suốt đời 1 2 3 4 5 Kiến thức chuyên môn sâu 1 2 3 4 5 Kỹ năng làm việc theo nhóm 1 2 3 4 5 Sức khỏe 1 2 3 4 5 4. Thang đo tỷ lệ: là loại thang đo dùng cho dữ liệu số lượng. Thang đo tỷ lệ có đầy đủ các đặc tính của thang đo khoảng tức là có thể áp dụng các phép tính cộng trừ. Ngoài ra, thang đo này có một giá trị số 0 “thật”, cho phép lấy tỷ lệ so sánh giữa hai giá trị thu thập cho nên gọi là thang đo tỷ lệ. Đây là thang đo cao nhất trong các loại thang đo. Khuynh hướng trung tâm của dữ liệu thu thập là mode, trung vị và trung bình cộng, trong đó trung bình cộng chứa nhiều thông tin nhất. Sự khác nhau giữa thang đo khoảng và thang đo tỷ lệ thường bị lẫn lộn vì hai điểm sau: 5 - Điểm 0 trong thang đo tỷ lệ là một trị số thật. - Trong thang đo khoảng, sự so sánh về mặt tỷ lệ giữa các giá trị không có ý nghĩa. Ví dụ bạn có 5 triệu đồng và anh của bạn có 10 triệu đồng. Như vậy số tiền của anh bạn gấp đôi số tiền của bạn. Nếu ta đổi sang dollars, poulds, yen hay mark thì số tiền của anh bạn vẫn gấp đôi số tiền của bạn. Nếu số tiền của bạn bị mất hay bị đánh cắp thì bạn có 0 đồng. Số 0 ở đây là một trị số thật vì thật sự bạn không có đồng nào cả. Như vậy tiền tệ có trị số 0 thật và là thang đo tỷ lệ. Các loại thang đo tỷ lệ như mét, Kg, tấn, tạ… Trái lại, nhiệt độ lại là thang đo khoảng, ví dụ nhiệt độ hôm nay là 12℃ (53.6℉) và hôm qua là 6℃(42.8℉), ta không thể nói rằng hôm nay ấm áp gấp hai lần hôm qua (vì ta đổi tử ℃ sang ℉ thì không còn gấp đôi nữa). Hơn nữa, nếu nhiệt độ là 0℃, không có nghĩa là không có nhiệt độ, 0℃dĩ nhiên lạnh hơn 6℃. Như vậy nhiệt độ không có trị số 0 thật. Hai thang đo đầu tiên cung cấp cho chúng ta các dữ liệu định tính cho nên còn có tên gọi là thang đo định tính. Hai thang đo còn lại cung cấp cho ta dữ liệu định lượng nên còn có tên gọi là thang đo định lượng. Trong thực tế, vấn đề thang đo phức tạp và trở nên quan trọng hơn nhiều, vì chúng ta có thể áp dụng thang đo định tính đối với tiêu thức số lượng (ví dụ như thu nhập, chi tiêu) và ngược lại ta có thể áp dụng thang đo định lượng đối với tiêu thức thuộc tính (ví dụ như đồng ý, không đồng ý). Trong các trường hợp này thì loại dữ liệu ta thu thập được là tùy thuộc vào thang đo chứ không phải tùy thuộc vào tiêu thức sử dụng để thu thập số lượng. Ngay cả khi dữ liệu đã thu thập xong, chúng ta còn có thể chuyển đổi dữ liệu định lượng thành dữ liệu định tính. Ví dụ từ dữ liệu thu nhập thật (thang đo thứ bậc và dữ liệu định lượng) ta có thể biến đổi thành dữ liệu về mức thu nhập (thang đo thứ bậc và dữ liệu định tính); quy mô vốn của doanh nghiệp vừa và nhỏ (tỷ đồng) có thể được biến đổi về dạng thứ bậc (dưới 1 tỷ đồng, 1-5 tỷ đồng, 5-10 tỷ đồng, 10-50 tỷ đồng, trên 50 tỷ đồng). Tuy nhiên việc chuyển ngược lại không thực hiện được, nghĩa là sau khi đã thu thập thì dữ liệu ở bậc đo lường cao hơn có thể chuyển xuống bậc đo lường thấp hơn, nhưng dữ liệu ở bậc đo lường thấp hơn không thể chuyển lên bậc đo lường cao hơn. . của các quan sát và dùng để rút ra các suy diễn về quá trình hay về tập hợp các đơn vị được nghiên cứu. Thống kê mô tả và thống kê suy diễn tạo thành thống kê trong ứng dụng. Còn thống kê toán. 1 Chương I. GIỚI THIỆU MÔN HỌC 1.1. Định nghĩa Thống kê là một nhánh của toán học liên quan đến việc thu thập, phân tích, diễn giải hay giải thích và trình bày các dữ liệu. Thống kê được vận. nghiên cứu cơ sở lý thuyết của khoa học thống kê. 1.3. Các khái niệm căn bản 1. Tổng thể và đơn vị tổng thể Tổng thể thống kê (còn gọi là tổng thể chung) là tập hợp các đơn vị (hay phần tử) thuộc