Chương 2: Phân tích dữ liệu mô tả với các công cụ phân tích dữliệu
2.1.4. Các phương pháp lấy mẫu
Bạn thu thập dữ liệu từ quần thể hoặc một mẫu. Quần thể bao gồm tất cả các cá thể hoặc cá nhân mà bạn muốn nghiên cứu để cho kết luận. Tất cả các giao dịch bán hàng Good Tunes & More cho một năm cụ thể, tất cả khách hàng mua sắm tại Good Tunes & More vào cuối tuần này, tất cả các sinh viên theo học toàn thời gian tại trường đại học, và tất cả cử tri bỏ phiếu ở Việt Nam là những ví dụ về quần thể. Một mẫu là một phần của quần thể được lựa chọn để phân tích. Các kết quả phân tích một mẫu được sử dụng để ước lượng các đặc tính của tồn bộ quần thể. Từ bốn ví dụ về số lượng người dùng đã được đưa ra, có thể chọn ngẫu nhiên một mẫu 200 bản sao giao dịch bán hàng của Good Tunes & More bởi một kiểm toán viên để nghiên cứu, một mẫu gồm 30 khách hàng của Good Tunes & More yêu cầu hoàn thành một cuộc khảo sát sự hài lòng của khách hàng, 50 sinh viên học toàn thời gian được chọn để nghiên cứu tiếp thị, và một mẫu gồm 5000 cử tri đã đăng ký ởViệt Nam đã liên hệ qua điện thoại để lấy một cuộc thăm dị chính trị.
Thu thập dữ liệu sẽ liên quan đến việc thu thập dữ liệu từ mẫu khi có bất kỳ điều kiện nào sau đây:
Chọn một mẫu ít tốn thời gian hơn so với việc chọn tất cả trong quần thể.
Lựa chọn mẫu ít tốn kém hơn so với lựa chọn mọi thứ trong quần thể.
Phân tích một mẫu khơng rườm rà và thực tế hơn phân tích tồn bộ quần thể.
Hình 2.1.4A đây là một quy trình thiết kế mẫu, từ bước đầu chọn quần thể, xác định thành phần mẫu, chọn kỹ thuật lấy mẫu : xác xuất hoặc không xác xuất (probability or
nonprobability sampling), xác định cỡ mẫu, cuối cùng thực hiện lấy mẫu.
35 | P a g e Sự lựa chọn giữa các kỹ thuật lấy mẫu xác suất hoặc phi xác xuất phải dựa trên những cân nhắc như bản chất của nghiên cứu, độ lớn tương đối so với các sai sót lấy mẫu, thống kê và thực hiện tương ứng. Trong nghiên cứu thăm dò, các phát hiện được coi là sơ bộ, và việc sử dụng lấy mẫu xác suất có thể khơng bảo đảm được. Mặt khác, trong nghiên cứu kết luận, nơi mà nhà nghiên cứu muốn sử dụng các kết quả để ước lượng thị phần hoặc quy mơ tổng thể của tồn thị trường thì lấy mẫu xác suất được ưa chuộng. Mẫu xác suất cho phép chiếu thống kê các kết quả đến một quần thể đích. Các kết quả điều tra phải dự báo được cho toàn bộ dân số từ 18 đến 24 tuổi. Do đó lấy mẫu xác suất ngẫu nhiên đơn giản được sử dụng, dùng chương trình máy tính để tạo số điện thoại gia đình ngẫu nhiên.
Khi bạn thu thập dữ liệu bằng cách chọn một mẫu, bạn bắt đầu bằng cách xác định khung mẫu. Khung mẫu là một danh sách đầy đủ hoặc một phần của các mục tạo nên quần thể mà từ đó mẫu sẽ được chọn. Các kết quả có thể khơng chính xác hoặc sai lệch nếu một khung mẫu khơng bao gồm các nhóm nhất định, hoặc một phần của quần thể. Sử dụng các khung mẫu khác nhau để thu thập dữ liệu có thể dẫn đến các kết luận khác nhau, thậm chí ngược lại.
Một mẫu phi xác xuất có thể là chọn mẫu thuận tiện và chọn mẫu phán đoán. Để thu thập mẫu thuận tiện, bạn chọn các mục dễ dàng, khơng tốn kém hoặc tiện lợi để lấy mẫu. Ví dụ, trong một kho chứa các vật xếp chồng lên nhau, chỉ chọn các mặt hàng nằm trên đỉnh của mỗi ngăn xếp và ở nơi dễ tiếp cận sẽ tạo ra một mẫu tiện lợi. Để thu thập mẫu phán đoán, bạn thu thập ý kiến của các chuyên gia được lựa chọn trong chủ đề. Mặc dù các chuyên gia có thể được có thơng tin đầy đủ, bạn khơng thể tổng hợp kết quả của họ cho quần thể.
Các loại mẫu xác suất được sử dụng phổ biến nhất bao gồm các mẫu ngẫu nhiên đơn
giản, có hệ thống, phân lớp và cụm.
Trong một mẫu ngẫu nhiên đơn giản, mỗi cá thể từ một khung mẫu có cùng một cơ hội lựa chọn như mỗi cái khác, và mỗi mẫu có kích thước cố định đều có cơ hội lựa chọn giống như mọi mẫu khác có kích thước đó. Lấy mẫu ngẫu nhiên đơn giản là lấy mẫu ngẫu nhiên nhiều nhất. Nó tạo cơ sở cho các kỹ thuật lấy mẫu ngẫu nhiên khác. Trong việc lấy mẫu ngẫu nhiên đơn giản, mỗi yếu tố trong quần thể có xác suất xác xác định giống nhau, và mỗi phần tử được lựa chọn độc lập với mọi yếu tố khác. Mẫu được rút ra bởi một thủ tục ngẫu nhiên từ một khung lấy mẫu. Phương pháp này tương đương với hệ thống xổ số, trong đó tên được đặt trong một thùng chứa, thùng chứa bị rung và tên của người trúng thưởng sau đó được rút ra một cách không thiên vị.
Trong lấy mẫu có hệ thống, mẫu được chọn bằng cách chọn một điểm khởi đầu ngẫu nhiên và sau đó chọn tất cả các phần tử thứ i liên tiếp từ khung lấy mẫu. Khoảng cách lấy mẫu, i, được xác định bằng cách chia kích thước quần thể N theo cỡ mẫu n và làm tròn số nguyên đến số nguyên gần nhất. Ví dụ, có 100.000 yếu tố trong dân số, và một mẫu là 1.000 là mong muốn. Trong trường hợp này, khoảng lấy mẫu, i, là 100. Một số ngẫu nhiên từ 1 đến 100 được chọn. Nếu số này là 23, ví dụ, mẫu bao gồm các phần tử 23, 123, 223, 323, 423,
523, v.v
Trong một mẫu phân lớp, trước tiên bạn chia nhỏ các mục N trong khung thành các phân nhóm phụ riêng biệt hoặc các tầng. Một lớp được xác định bởi một số đặc điểm chung, chẳng hạn như giới tính hay năm học. Bạn chọn một mẫu ngẫu nhiên đơn giản trong mỗi tầng và kết hợp các kết quả từ các mẫu ngẫu nhiên đơn giản đơn lẻ. Việc lấy mẫu phân lớp hiệu quả hơn so với lấy mẫu ngẫu nhiên đơn giản hoặc lấy mẫu có hệ thống bởi vì bạn đảm bảo việc đại diện các cá thể trên toàn bộ quần thể. Sự đồng nhất của các hạng mục trong từng tầng cung cấp độ chính xác cao hơn trong các ước lượng các tham số dân số cơ bản. Mục tiêu chính của việc lấy mẫu phân lớp là tăng độ chính xác mà khơng tăng chi phí.
36 | P a g e Trong một mẫu cụm, bạn chia N cá thể trong khung thành các cụm chứa nhiều mục. Các cụm thường là các tên gọi xuất hiện một cách tự nhiên, chẳng hạn như các quận, tỉnh, các thành phố, các hộ gia đình hoặc bán hàng rau sạch nhỏ. Sau đó bạn lấy một mẫu ngẫu nhiên của một hoặc nhiều cụm và nghiên cứu tất cả các mục trong mỗi cụm được chọn. Việc lấy mẫu cụm thường mang lại hiệu quả về chi phí hơn so với việc lấy mẫu ngẫu nhiên đơn giản, đặc biệt nếu quần thể trải rộng trên một khu vực địa lý rộng lớn. Tuy nhiên, lấy mẫu cụm thường đòi hỏi một mẫu lớn để tạo ra kết quả chính xác như các mẫu ngẫu nhiên đơn giản hoặc lấy mẫu phân lớp.