MỤC LỤC MỤC LỤC I HƯỚNG DẪN III BÀI 1: TỔNG QUAN VỀ DỮ LIỆU 1 1.1 PHÂN LOẠI DỮ LIỆU 1 1.1.1 Một số khái niệm 1 1.1.2 Phân loại dữ liệu 3 1.1.3 Các cấp bậc đo lường và thang đo 9 1.2 THU THẬP DỮ LIỆU 14 1.2.1 Xác định dữ liệu cần thu thập 14 1.2.2 Nguồn dữ liệu thứ cấp và sơ cấp 15 1.2.3 Những phương pháp thu thập dữ liệu sơ cấp 17 1.2.4 Các kĩ thuật lấy mẫu 19 1.3 TRÌNH BÀY DỮ LIỆU BẰNG BẢNG VÀ ĐỒ THỊ 27 1.3.1 Cách lập bảng tần số cho dữ liệu định tính và định lượng 27 1.3.2 Trình bày dữ liệu bằng đồ thị phân phối tần số và đa giác tần số 36 1.4 TRÌNH BÀY DỮ LIỆU ĐỊNH TÍNH DẠNG PHÂN LOẠI BẰNG ĐỒ THỊ 38 1.4.1 Đồ thị dạng thanh (Bar chart) 38 1.4.2 Đồ thị hình tròn (Pie chart) 39 1.4.3 Biểu đồ Pareto 40 1.5 TRÌNH BÀY DỮ LIỆU BẰNG CÁC ĐẠI LƯỢNG SỐ 42 1.5.1 Các đại lượng đo lường độ tập trung phổ biến 42 1.5.2 Nhóm các đại lượng mô tả sự phân bố của tập dữ liệu 45 1.5.3 Ứng dụng excel 46 1.5.4 Các đại lượng đo lường độ phân tán xung quanh giá trị trung bình 65 1.5.5 Nhóm các đại lượng mô tả cho bảng tần số 66 1.5.6 Sử dụng kết hợp trung bình và độ lệch tiêu chuẩn 71 TÓM TẮT 75 CÂU HỎI ÔN TẬP 77 BÀI 2: THIẾT KẾ BẢNG CÂU HỎI, TỔ CHỨC THU THẬP THÔNG TIN ĐỊNH LƯỢNG VÀ ĐỊNH TÍNH 85 2.1 THIẾT KẾ BẢNG CÂU HỎI 85 2.1.1 Khái niệm bảng câu hỏi 85 2.1.2 Những thuộc tính của một bảng câu hỏi tốt 86 2.1.3 Trình tự 8 bước cơ bản thiết kế một bảng câu hỏi 86 2.1.4 Điều tra thử 96 2.2 THU THẬP THÔNG TIN ĐỊNH LƯỢNG 121 2.2.1 Tổ chức thu thập thông tin 122 2.2.2 Hiệu chỉnh thông tin 124 2.3 TỔ CHỨC THU THẬP THÔNG TIN ĐỊNH TÍNH 126 2.3.1 Thu thập thông tin định tính 126 2.3.2 Các kĩ thuật thu thập thông tin định tính 128 TÓM TẮT 134 BÀI TẬP THỰC HÀNH 136 BÀI 3: PHÂN TÍCH DỮ LIỆU BẰNG PHẦN MỀM SPSS 137 3.1 GIỚI THIỆU VỀ PHÂN TÍCH DỮ LIỆU 137 3.1.1 Nghiên cứu và phân tích dữ liệu 137 3.1.2 Bản chất của phân tích dữ liệu 139 3.1.3 Thống kê và phân tích dữ liệu 139 3.2 GIỚI THIỆU VỀ PHẦN MỀM SPSS 140 3.2.1 Giới thiệu 140 3.2.2 Công dụng 140 3.3 PHÂN TÍCH DỮ LIỆU BẰNG PHẦN MỀM SPSS 141 3.3.1 Khởi động spss và mở dữ liệu 141 3.3.2 Mã hóa, nhập liệu và làm sạch dữ liệu 144 3.3.3 Trình bày dữ liệu 155 3.3.4 Đánh giá độ tin cậy của thang đo bằng cronbach anpha với SPSS 163 3.3.5 Phân tích nhân tố efa (exploratory factor analysis) 166 3.3.6 Xây dựng mô hình hồi quy tuyến tính 177 TÓM TẮT 202 BÀI TẬP THỰC HÀNH 204 TÀI LIỆU THAM KHẢO 207
TỔNG QUAN VỀ DỮ LIỆU
PHÂN LOẠI DỮ LIỆU
1.1.1 MỘT SỐ KHÁI NIỆM 1.1.1.1 DỮ LIỆU, THÔNG TIN VÀ TRI THỨC a Dữ liệu
Dữ liệu phản ánh thực tế của đối tượng nghiên cứu thông qua các biểu hiện như trị số đo lường, quan sát, con số, từ ngữ và hình ảnh Nó bao gồm các sự kiện và con số được thu thập, phân tích và tổng kết nhằm trình bày và giải thích Tập dữ liệu là tổng hợp tất cả dữ liệu được thu thập cho một nghiên cứu cụ thể.
Thông tin được hình thành từ việc xử lý, sắp xếp và tổ chức dữ liệu, giúp người đọc có thêm hiểu biết và tri thức Nó đại diện cho nội dung của dữ liệu đã được thu thập và mang nhiều ý nghĩa khác nhau, từ cuộc sống hàng ngày đến môi trường kỹ thuật.
Tri thức là sự hiểu biết về những điều đã được biết, và quá trình tích lũy tri thức bao gồm cảm nhận, học tập, truyền thông, liên tưởng và sử dụng lý lẽ Thuật ngữ này cũng ám chỉ những hiểu biết tin cậy về một sự vật, giúp chúng ta đạt được những mục tiêu cụ thể.
1.1.1.2 TỔNG THỂ VÀ ĐƠN VỊ TỔNG THỂ a Tổng thể
Tổng là tập hợp, thể là cá thể, phần tử Tổng thể là tập hợp nhiều cá thể, phần tử
Tổng thể bộc lộ bao gồm các đơn vị có thể quan sát hoặc nhận biết trực tiếp, chẳng hạn như tổng thể công nhân viên trong một doanh nghiệp hoặc tổng thể sinh viên tại một trường đại học.
Tổng thể tiềm ẩn là những đơn vị mà chúng ta không thể trực tiếp quan sát hoặc nhận biết Ví dụ, tổng thể này có thể bao gồm những người ủng hộ việc bắt buộc đội nón bảo hiểm khi tham gia giao thông bằng xe máy.
Tổng thể đồng chất là tập hợp các đơn vị có sự tương đồng ở một hoặc một số đặc điểm chính liên quan đến mục đích nghiên cứu Ngược lại, tổng thể không đồng chất là tập hợp các đơn vị khác nhau về những đặc điểm chủ yếu cũng liên quan đến mục đích nghiên cứu.
Hiệu quả sử dụng vốn của các doanh nghiệp dệt trên một địa bàn cho thấy sự đồng nhất trong ngành, tuy nhiên, khi so sánh với các doanh nghiệp thuộc các ngành khác, sự không đồng nhất rõ rệt Các yếu tố như tính chất sản xuất và quy mô vốn đầu tư ban đầu ảnh hưởng lớn đến hiệu quả sử dụng vốn, khiến cho việc so sánh giữa các doanh nghiệp trở nên khó khăn.
Tổng thể có thể là hữu hạn hoặc vô hạn, tùy thuộc vào khả năng xác định số lượng đơn vị trong tổng thể đó, như tổng thể trẻ sơ sinh hay sản phẩm từ một loại máy Khi xác định tổng thể thống kê, cần phải giới hạn không chỉ về thực thể mà còn về thời gian và không gian, tức là xác định tổng thể này tồn tại ở thời điểm và địa điểm nào.
Đơn vị cá biệt là những phần tử có chung một hoặc nhiều đặc điểm, được lựa chọn để tạo thành tổng thể Trong các nghiên cứu cụ thể, các đơn vị tổng thể thường là những phần tử nhỏ nhất.
Khi tiến hành nghiên cứu sức khỏe của người lao động trực tiếp trong doanh nghiệp, người lao động đó chính là đơn vị tổng thể cần được xem xét.
Mẫu là tập hợp các đơn vị được chọn từ tổng thể chung thông qua một phương pháp lấy mẫu cụ thể Các đặc trưng của mẫu được sử dụng để suy luận và mở rộng các đặc trưng của tổng thể.
Dữ liệu nghiên cứu có thể phân chia thành các loại:
1.1.2.1 DỮ LIỆU ĐỊNH TÍNH VÀ ĐỊNH LƯỢNG
Dữ liệu định tính phản ánh các đặc điểm của tổng thể mà không thể tính toán giá trị trung bình Ví dụ về dữ liệu định tính bao gồm giới tính và kết quả học tập của học sinh, được phân loại thành các mức độ như giỏi, khá, trung bình và kém.
* Dữ liệu định lượng: Phản ánh mức độ của tổng thể và tính được giá trị trung bình.
Dữ liệu định lượng là loại dữ liệu thể hiện số lượng của một đại lượng cụ thể và được biểu diễn bằng các con số thu thập được Ví dụ, việc đo lường nhiệt độ theo từng giờ trong ngày là một ứng dụng điển hình của dữ liệu định lượng.
Dữ liệu định tính dễ thu thập hơn dữ liệu định lượng, nhưng dữ liệu định lượng thường mang lại thông tin phong phú hơn và cho phép áp dụng nhiều phương pháp phân tích đa dạng Trong quá trình lập kế hoạch nghiên cứu và thu thập dữ liệu, việc xác định các phương pháp phân tích phù hợp với mục tiêu nghiên cứu là rất quan trọng, từ đó giúp xác định loại dữ liệu cần thu thập và chọn thang đo thích hợp cho việc thiết kế biểu mẫu hay bảng câu hỏi.
Nghiên cứu tác động của việc làm thêm đối với kết quả học tập của sinh viên cho thấy dữ liệu về việc sinh viên có làm thêm hay không là định tính Kết quả học tập có thể được đánh giá qua các tiêu chí định tính như xếp loại học tập (giỏi, khá, trung bình) hoặc định lượng thông qua điểm trung bình học tập.
Thời gian làm thêm Dưới 6 giờ/tuần
6-12 giờ/tuần Trên 12 giờ/tuần
Số giờ làm thêm … giờ/tuần Định tính Định tính Định tính Định lượng Định lượng
Kết quả học tập Trung bình
Khá Giỏi Điểm trung bình học tập Định tính Định tính Định tính Định lượng
Bảng 1.1: Loại dữ liệu và loại kiểm định thống kê sử dụng khi phân tích
THU THẬP DỮ LIỆU
1.2.1 XÁC ĐỊNH DỮ LIỆU CẦN THU THẬP
Việc thu thập dữ liệu bắt đầu bằng việc xác định rõ ràng các loại dữ liệu cần thiết và ưu tiên cho chúng Khi vấn đề nghiên cứu và mục tiêu nghiên cứu được cụ thể hóa, quá trình xác định dữ liệu cần thu thập sẽ trở nên dễ dàng hơn.
Nghiên cứu về ảnh hưởng của điều kiện ăn ở sinh hoạt đến kết quả học tập của sinh viên cần thu thập hai nhóm dữ liệu chính: điều kiện ăn ở sinh hoạt và kết quả học tập Đối với nhóm dữ liệu về điều kiện ăn ở sinh hoạt, các thông tin liên quan có thể bao gồm chất lượng bữa ăn, môi trường sống, và thói quen sinh hoạt hàng ngày của sinh viên.
- Ở nhà cha mẹ, ở nhà trọ, ký túc xá, hay ở nhờ nhà bà con, người quen.
- Có phòng riêng hay ở chung với người khác, nếu ở với người khác thì bao nhiêu người ở trong một phòng.
- Nếu ở chung với cha mẹ hay ở nhờ nhà bà con, người quen thì:
+ Có phòng riêng hay ở chung phòng với thành viên khác trong gia đình?
+ Nếu ở chung phòng với thành viên khác trong gia đình thì có bàn học riêng cho cá nhân hay không?
+ Có làm việc phụ giúp gia đình không? Có làm việc nhà giúp gia đình không? Thời gian làm mất bao nhiêu?
- Nếu ở nhà trọ hay ký túc xá:
+ Ở bao nhiêu người trong cùng một phòng?
+ Có nhà vệ sinh ngay trong phòng hay nhà vệ sinh ở ngoài?
- Nơi ở cách chỗ học bao xa
- Chỗ ở có nóng, chật, ồn ào không?
Một số dữ liệu về điều kiện ăn ở sinh hoạt không liên quan trực tiếp đến mục tiêu nghiên cứu tác động của chúng đến kết quả học tập có thể không cần thiết phải thu thập.
- Nhà có trồng cây gì không? Nhà có sân không?
- Nhà được xây năm nào? Nền nhà lát bằng vật liệu gì?
- Nhà vệ sinh có hiện đại không, có bồn tắm không?
- Gường ngủ, bàn học bằng sắt hay bằng gỗ?
1.2.2 NGUỒN DỮ LIỆU THỨ CẤP VÀ SƠ CẤP
1.2.2.1 NGUỒN DỮ LIỆU THỨ CẤP
Nguồn dữ liệu thứ cấp khá đa dạng, đối với doanh nghiệp và các tổ chức xã hội có thể sử dụng các nguồn sau:
Các số liệu báo cáo nội bộ về tình hình kinh tế bao gồm thông tin về sản xuất, tiêu thụ, tài chính và nhân sự từ các phòng ban, bộ phận Bên cạnh đó, các dữ liệu từ các cuộc điều tra khảo sát trước đây cũng được tổng hợp để cung cấp cái nhìn tổng quát hơn về tình hình hiện tại.
Cơ quan Thống kê Nhà nước cung cấp các số liệu quan trọng trong Niên giám thống kê, bao gồm thông tin tổng quát về dân số, lao động, việc làm, giáo dục, mức sống dân cư, tài nguyên, đầu tư, kết quả sản xuất kinh tế và xuất nhập khẩu.
Số liệu do các cơ quan Chính phủ như Bộ, cơ quan ngang Bộ, Ủy ban nhân dân và Ủy ban Quốc gia công bố thường mang tính chi tiết và đặc thù cho từng ngành hoặc địa phương Ví dụ, thông tin về số lượng người nhập cư tại TP Hồ Chí Minh, tỷ lệ người mắc bệnh tiểu đường trên toàn quốc, hay số lượng xe tải và xe buýt đang lưu hành đều được cung cấp từ những nguồn này.
Báo và tạp chí cung cấp số liệu thời sự và cập nhật, nhưng độ tin cậy của thông tin phụ thuộc vào nguồn số liệu mà các tờ báo hay tạp chí sử dụng cũng như phương pháp thu thập dữ liệu của các cơ quan này.
Trong năm học 2012-2013, số lượng học sinh, sinh viên ở các cấp và hệ đào tạo đã tăng lên đáng kể Đồng thời, số lượng công ty và tổ chức cung cấp dịch vụ tư vấn du học, xuất khẩu lao động và tư vấn tâm lý cũng đang gia tăng, phản ánh nhu cầu ngày càng cao trong xã hội.
Các tổ chức, hiệp hội và viện nghiên cứu đóng vai trò quan trọng trong việc thống kê số lượng doanh nghiệp sản xuất ống nước nhựa, cũng như số lao động trình độ cao trong ngành Sự phát triển của lĩnh vực này không chỉ tạo ra nhiều cơ hội việc làm mà còn nâng cao chất lượng sản phẩm và dịch vụ trong ngành ống nước nhựa.
- Các công ty và tổ chức nghiên cứu và cung cấp thông tin theo yêu cầu.
1.2.2.2 NGUỒN DỮ LIỆU SƠ CẤP
Trong nghiên cứu thử nghiệm, các nhà nghiên cứu tiến hành đo đạc và thu thập dữ liệu về các biến kết quả trong những điều kiện khác nhau của các biến nguyên nhân đang được khảo sát.
Trong nghiên cứu quan sát, dữ liệu cần thiết có thể thu thập từ nhiều nguồn thông tin khác nhau như chủ hộ gia đình và đại diện doanh nghiệp Người thu thập dữ liệu có thể gặp gỡ trực tiếp tại các địa điểm thuận tiện như nhà, văn phòng hoặc trường học để hỏi và ghi chép thông tin vào phiếu khảo sát Ngoài ra, họ cũng có thể gửi bảng câu hỏi qua Bưu điện để người cung cấp tự trả lời khi thuận tiện.
Dữ liệu sơ cấp trong nghiên cứu quan sát có thể thu thập từ nội bộ hoặc bên ngoài, với các doanh nghiệp và tổ chức thường có bộ phận chức năng chuyên trách ghi chép dữ liệu về hiện tượng, quá trình và yếu tố nghiên cứu Chẳng hạn, Phòng Kinh doanh của công ty theo dõi và cập nhật số liệu bán hàng, trong khi các tổ chức tài chính, ngân hàng và đầu tư thường xuyên ghi chép diễn biến giá vàng, ngoại tệ và chứng khoán trên thị trường.
Các doanh nghiệp và tổ chức thường tổ chức thu thập dữ liệu sơ cấp từ bên ngoài hoặc thuê các công ty để thực hiện việc này Ví dụ, doanh nghiệp có thể tự tiến hành hoặc thuê công ty nghiên cứu thị trường để thực hiện các cuộc khảo sát nhằm đánh giá mức độ nhận biết thương hiệu và chất lượng sản phẩm.
1.2.3 NHỮNG PHƯƠNG PHÁP THU THẬP DỮ LIỆU SƠ CẤP
1.2.3.1 THU THẬP DỮ LIỆU SƠ CẤP TRONG NGHIÊN CỨU THỰC NGHIỆM
Các công ty tiến hành thực nghiệm để thu thập dữ liệu hỗ trợ quyết định cho nhà quản lý Kế hoạch thực nghiệm được xây dựng dựa trên việc xác định các yếu tố quan tâm Những yếu tố ảnh hưởng được chọn sẽ được điều chỉnh để đo lường hoặc quan sát tác động của chúng lên yếu tố chính.
Nhà máy chế biến khoai tây chiên cần nghiên cứu kỹ lưỡng quy trình sản xuất khoai tây để đáp ứng các tiêu chuẩn chất lượng nghiêm ngặt từ khách hàng Màu sắc của khoai chiên thành phẩm phải đạt được độ vàng nâu đồng đều Quy trình chế biến bao gồm việc gọt vỏ, xắt lát, tẩy trắng, nấu chín một phần và làm lạnh khô khoai tây.
TRÌNH BÀY DỮ LIỆU BẰNG BẢNG VÀ ĐỒ THỊ
Bảng tần số là công cụ tổng hợp các biểu hiện và khoảng giá trị của dữ liệu định lượng, giúp người dùng hiểu rõ hơn về phân bố của dữ liệu Bảng này thường bao gồm ba cột: cột đầu tiên liệt kê các biểu hiện hoặc giá trị, cột thứ hai thể hiện tần số tương ứng, và cột thứ ba cung cấp tần suất dưới dạng tỷ lệ phần trăm.
1.3.1 CÁCH LẬP BẢNG TẦN SỐ CHO DỮ LIỆU ĐỊNH TÍNH VÀ ĐỊNH LƯỢNG
1.3.1.1 CÁCH LẬP BẢNG TẦN SỐ CHO DỮ LIỆU ĐỊNH TÍNH Đối với loại dữ liệu định tính như giới tính, vùng địa lý, ngành học…, lập bảng tần số với những thông tin như sau:
Cột đầu tiên trong bảng tần số liệt kê tất cả các biểu hiện có thể có của đối tượng theo đặc điểm cần phân tích Nếu đặc điểm quan tâm là giới tính, có hai biểu hiện rõ ràng là nam và nữ Đối với đặc điểm địa lý, có thể phân chia thành các vùng như miền Bắc, miền Trung và Tây Nguyên, miền Nam, hoặc chi tiết hơn nữa thành các khu vực như đồng bằng sông Hồng, Đông Bắc Bộ, duyên hải miền Trung, Tây Nguyên, Đông Nam Bộ và đồng bằng sông Cửu Long.
Cột thứ hai trong bảng là tần số, được xác định bằng cách đếm số lượng quan sát có cùng một biểu hiện Tổng số trong cột tần số cần phải khớp chính xác với tổng số quan sát của tập dữ liệu.
Cột tần suất trong bảng dữ liệu thể hiện tỷ lệ phần trăm của các biểu hiện so với tổng số quan sát Để tính tần suất, ta chia tần số của biểu hiện đó cho tổng số quan sát và nhân kết quả với 100% Các giá trị tần suất sẽ được ghi vào cột tương ứng, đảm bảo tổng cột tần suất bằng 100% bằng cách làm tròn các số liệu lẻ Công thức tính tần suất của biểu hiện thứ i là fi/n * 100%.
Trong đó: fi là tần số của biểu hiện thứ i n là tổng số quan sát của tập dữ liệu, n=∑ i=1 k f i k là số biểu hiện của đặc điểm ta quan tâm
Khảo sát 1.037 hộ gia đình tập trung vào tiêu chí "công việc của chủ hộ" đã phân loại thành ba nhóm: có hoạt động kinh tế (như lao động tay chân, viên chức Nhà nước, công nhân), không hoạt động kinh tế (như hưởng lương hưu, nhận trợ cấp, cho thuê nhà) và không có việc làm Dựa trên số liệu thu thập, số lượng chủ hộ trong mỗi nhóm được đếm và ghi vào cột tần số tương ứng Cuối cùng, tần suất được tính bằng cách chia số lượng chủ hộ của từng nhóm cho tổng số 1.037 hộ gia đình và nhân với 100%.
Công việc của chủ hộ Tần số (người) Tần suất (%)
Có hoạt động kinh tế 658 63,45
Không hoạt động kinh tế 47 4,53
Bảng 1.4: Công việc của chủ hộ
1.3.1.2 CÁCH LẬP BẢNG TẦN SỐ CHO DỮ LIỆU ĐỊNH LƯỢNG a Dữ liệu định lượng mà đặc điểm quan tâm có ít biểu hiện
Ban biên tập của tờ báo A đã khảo sát 200 người về số lượng báo mà họ đọc trong tuần Kết quả cho thấy có độc giả không đọc báo nào, tương ứng với số tờ báo là 0, trong khi một số khác đọc hàng ngày, đạt tối đa 7 tờ Các trường hợp trung gian từ 1 đến 6 cũng được ghi nhận Qua đó, nhà quản trị có thể thu thập dữ liệu định lượng về thói quen đọc báo của độc giả, mặc dù số lượng biểu hiện vẫn còn hạn chế.
Số báo đọc (tờ/tuần) Tần số (người) Tần suất (%)
Bảng 1.5: Số tờ báo đọc trong tuần b Dữ liệu định lượng của đặc điểm quan tâm có nhiều biểu hiện
Khi đặc điểm thống kê có quá nhiều biểu hiện, việc liệt kê từng biểu hiện sẽ khiến bảng tần số trở nên dài và khó hiểu Để tóm lược thông tin hiệu quả và tạo thuận lợi cho người quan sát, cần thực hiện phân tổ trước, sau đó lập bảng tần số dựa trên dữ liệu đã được phân tổ.
Phân tổ dữ liệu là quá trình sắp xếp các đơn vị quan sát thành các nhóm khác nhau dựa trên một hoặc nhiều đặc điểm nhất định Việc này giúp phân tích và hiểu rõ hơn về các đặc tính của dữ liệu, từ đó hỗ trợ trong việc ra quyết định và tìm kiếm thông tin có giá trị.
1 Phân tổ theo kinh nghiệm
Thí dụ: Khảo sát 1129 dân nhập cư vào TP HCM trong độ tuổi lao động từ 15 đến
Khi phân tích dữ liệu về độ tuổi 60, có thể gặp 46 biểu hiện tuổi khác nhau Để tránh tạo ra bảng tần số quá dài với 48 hàng, nên nhóm dữ liệu theo các khoảng độ tuổi như 15-20, 21-30, 31-40, v.v Việc này sẽ giúp tạo ra một bảng tần số gọn gàng hơn và thông tin được biểu đạt một cách súc tích hơn Bảng tần số sẽ bao gồm các thông tin như độ tuổi, tần số (số người), tần suất (%) và tần suất tích lũy (%).
Bảng 1.6: Tuổi của các đối tượng trong mẫu nghiên cứu
2 Phương pháp phân tổ dữ liệu
Tùy thuộc vào mục đích thể hiện dữ liệu và đặc điểm phân bố của nó, có thể thực hiện phân tổ đều hoặc không đều Khái niệm "đều" và "không đều" liên quan đến khoảng cách tổ, trong đó mỗi tổ có giới hạn dưới là trị số nhỏ nhất và giới hạn trên là trị số lớn nhất của tổ.
Với nhóm tuổi từ 21 đến 30, giới hạn dưới là 21 tuổi và giới hạn trên là 30 tuổi, tạo nên khoảng cách tổ là 9 tuổi Nếu tất cả các tổ trong bảng tần số có khoảng cách tổ đồng nhất, thì được gọi là phân tổ đều; ngược lại, nếu không, sẽ là phân tổ không đều.
Thí dụ ở Bảng 1.4 là phân tổ không đều vì khoảng cách tổ của tổ đầu tiên không bằng khoảng cách tổ của các tổ còn lại
3 Phương pháp phân tổ đều
Các bước của thủ tục phân tổ đều:
- Xác định số tổ cần chia k: Nên chia trong khoảng từ trên 5 tổ đến dưới 15 tổ Số tổ cần chia k = (2*n) 1/3 , với n là số quan sát của tập dữ liệu
Khi xử lý dữ liệu, nếu kết quả tính toán là số lẻ, cần phải làm tròn Đối với tập dữ liệu nhỏ với ít quan sát, nên tạo ra ít tổ hơn, trong khi với tập dữ liệu lớn và nhiều quan sát, nên tạo ra nhiều tổ hơn để đảm bảo tính chính xác và hiệu quả trong phân tích.
- Xác định trị số khoảng cách tổ h: Căn cứ trên số tổ định chia, xác định trị số khoảng cách tổ theo công thức như sau: h = (Xmax - Xmin)/k
Xmax: giá trị lớn nhất của tập dữ liệu
Xmin: giá trị nhỏ nhất của tập dữ liệu
K: số tổ định chia. h: là một số lẻ cũng được làm tròn
Để xác định giới hạn dưới và giới hạn trên của các tổ, giới hạn dưới của tổ đầu tiên cần phải nhỏ hơn hoặc bằng giá trị Xmin, nhằm đảm bảo bao quát Xmin Đồng thời, giới hạn trên của tổ cuối cùng phải lớn hơn giá trị Xmax để có thể bao gồm Xmax trong tổ cuối cùng.
Với các tổ liên tục nhau, giá trị cận trên của tổ trước vừa trùng giá trị cận dưới của tổ sau liền kề theo công thức sau:
Tổ thứ nhất: (Xmin; Xmin + h)
Tổ thứ hai: (Xmin + h; Xmin + h + h) = (Xmin + h; Xmin + 2h)
Tổ thứ ba: (Xmin + 2h ; Xmin + 2h + h) = (Xmin + 2h; Xmin + 3h)
Phân chia các quan sát vào các tổ là một quy trình quan trọng trong thống kê Khi đánh giá các quan sát, ta sẽ xếp chúng vào tổ tương ứng dựa trên giá trị của chúng Theo quy ước thông thường, nếu một quan sát có giá trị bằng đúng cận trên của một tổ, nó sẽ được xếp vào tổ kế tiếp Điều này có thể được diễn đạt bằng cách viết toán học: Cận dưới < xi < Cận trên, cho thấy sự tồn tại của một quan sát có giá trị xi trong tổ của nó.
Thí dụ 1: Dữ liệu của một mẫu điều tra nhỏ về tuổi của 30 sinh viên tại chức đang học năm 1 ngành Kế toán – Kiểm toán.
+ Xác định số tổ cần chia k = (2 x n) 1/3 với n = 30
+ Xác định trị số khoảng cách tổ h h = (Xmax - Xmin)/k, với Xmax= 39 ; Xmin = 19 và k = 4 h = (39 - 19)/ 4 = 5 tuổi
+ Xác định giới hạn dưới và giới hạn trên của các tổ
Với h = 5, xác định cận trên và dưới của các tổ
Phân chia các quan sát vào các tổ, chú ý rằng tại tổ cuối cùng giá trị cận dưới bằng
TRÌNH BÀY DỮ LIỆU ĐỊNH TÍNH DẠNG PHÂN LOẠI BẰNG ĐỒ THỊ
Các phương pháp trình bày dữ liệu định tính dạng phân loại bao gồm ba loại đồ thị cơ bản: đồ thị thanh đứng, đồ thị thanh ngang và đồ thị hình tròn Những đồ thị này giúp trực quan hóa thông tin một cách hiệu quả, hỗ trợ người xem dễ dàng nhận biết và so sánh các phân loại khác nhau.
Khảo sát được thực hiện với 500 sinh viên thuộc Khoa Kinh tế của một trường đại học, bao gồm 5 chuyên ngành: Kinh tế Phát triển, Quản Trị Kinh Doanh, Kế toán, Ngân hàng và Thương mại, nhằm thu thập thông tin và phân tích xu hướng học tập trong các lĩnh vực này.
Ngành học Số sinh viên (người) Tỷ lệ (%)
Bảng 1.12: Tổng hợp sinh viên theo ngành học
1.4.1 ĐỒ THỊ DẠNG THANH (BAR CHART)
Trên đồ thị, mỗi thanh biểu thị một phân loại của biến quan tâm, với chiều dài của thanh thể hiện tần số hoặc tỷ lệ phần trăm của các quan sát trong phân loại đó Có hai loại đồ thị thanh là đồ thị thanh đứng và đồ thị thanh ngang.
Các bước vẽ đồ thị:
- Xác định các phân loại của biến quan tâm và số quan sát thuộc từng phân loại.
Đồ thị thanh đứng thể hiện các phân loại trên trục nằm ngang, trong khi trục đứng biểu thị số lượng quan sát thuộc về từng phân loại Ngược lại, đồ thị thanh ngang có chức năng tương tự nhưng với hai trục được đảo ngược.
Để dựng các thanh đồ thị, cần tuân thủ nguyên tắc rằng bề rộng của các thanh phải bằng nhau, trong khi chiều dài của mỗi thanh tương ứng với số lượng quan sát thuộc về phân loại mà thanh đó đại diện.
Hình 1.4: Đồ thị thanh ngang
Ngành Kinh tế phát triển, mặc dù có chiều dài ngắn nhất trong các ngành học, lại thu hút ít sinh viên theo học Ngược lại, ngành Kế toán nổi bật với chiều dài dài nhất và số lượng sinh viên theo học nhiều nhất.
Hình 1.5: Đồ thị thanh đứng
Kinh tế PT Kế toán Ngân hàng QTKD Thương mại
1.4.2 ĐỒ THỊ HÌNH TRÒN (PIE CHART) Đồ thị hình tròn thường được dùng khi muốn tạo ấn tượng về kết cấu của hiện tượng đang quan tâm Trên đồ thị này, toàn bộ diện tích hình tròn được chia thành nhiều “mảnh” nhỏ hình rẻ quạt, diện tích mỗi “mảnh” tương đương với tỷ lệ của phân loại mà nó đại diện trong toàn thể và mang một màu khác nhau.
Thứ tự của các phân loại trên đồ thị (theo chiều kim đồng hồ) là trật tự nó được sắp xếp trong bảng tổng hợp.
Mục đích chính của việc sử dụng đồ thị hình thanh là để so sánh các phân loại, trong khi đồ thị hình tròn được sử dụng để thể hiện tỷ trọng của từng phân loại trong tổng thể đối tượng.
Biểu đồ Pareto là một loại đồ thị cột thể hiện thông tin quan sát được phân loại theo thứ tự giảm dần của tần số, đồng thời kết hợp với đa giác tích lũy Loại biểu đồ này thường được áp dụng trong phân tích chất lượng sản phẩm, giúp xác định và ưu tiên các vấn đề cần cải thiện.
Biểu đồ Pareto được cấu trúc với trục đứng bên trái thể hiện tần số hoặc tần suất, trong khi trục đứng bên phải hiển thị tần suất tích lũy từ 0% đến 100% Trục nằm ngang phân loại các yếu tố Các thanh đứng có độ rộng đồng nhất biểu thị thông tin cho trục bên trái, trong khi thông tin cho trục bên phải được thể hiện qua đường vạch nối giữa các điểm, tạo thành đa giác tần suất tích lũy Các điểm trên đa giác này tương ứng với mỗi phân loại, được đặt ở trung tâm của các thanh tương ứng.
Dựa trên tình hình khiếu nại về dịch vụ bưu gửi EMS trong 6 tháng cuối năm 2012, bảng số liệu cho thấy các nguyên nhân gây lỗi và tỷ lệ phần trăm tương ứng.
Lỗi Số lần Tỷ lệ (%) (%) tích lũy
Người nhận chưa nhận được 150 61,73 61,73
Chậm so với thời gian toàn trình 71 29,22 90,95
Bị suy suyễn, hư hỏng 4 1,65 99,18
Bảng 1.13: Tình hình khiếu nại bưu gởi EMS
Căn cứ vào bảng số liệu của thí dụ trên, vẽ biểu đồ Pareto xác định các lỗi thường gặp:
Người nhận chưa nhận được
Chậm so với thời gian toàn
Lạc hướng Phát nhầm Suy suyễn, hư hỏng
Khi nghiên cứu biểu đồ Pareto, cần chú ý đến chiều dài của mỗi thanh so với các thanh bên phải và tần suất tích lũy của các phân loại gần nhau Điều này giúp xác định những yếu tố quan trọng nhất ảnh hưởng đến vấn đề đang nghiên cứu.
TRÌNH BÀY DỮ LIỆU BẰNG CÁC ĐẠI LƯỢNG SỐ
1.5.1 CÁC ĐẠI LƯỢNG ĐO LƯỜNG ĐỘ TẬP TRUNG PHỔ
1.5.1.1 SỐ BÌNH QUÂN SỐ HỌC (TRUNG BÌNH CỘNG)
Số bình quân số học, hay còn gọi là số trung bình cộng, được tính bằng cách chia tổng giá trị quan sát cho tổng số quan sát Trong đó, số trung bình cộng giản đơn là phương pháp phổ biến nhất để xác định giá trị trung bình trong một tập hợp dữ liệu.
- Trung bình tổng thể: Tính bằng cách chia tổng tất cả các giá trị của các quan sát trong tổng thể cho tổng số quan sát trong tổng thể. μ ∑ i=1 n
Xi: (i= 1,2,3 n) giá trị của quan sát thứ i
N: Tổng số quan sát trong tổng thể
Trung bình mẫu được tính bằng cách chia tổng tất cả các giá trị quan sát trong tập dữ liệu cho tổng số quan sát Cụ thể, công thức tính trung bình mẫu là x̄ = ∑(i=1 đến n) x_i / n, trong đó x̄ là trung bình mẫu, x_i là giá trị của quan sát thứ i, và n là tổng số quan sát trong mẫu.
Thí dụ: Có số liệu về tiền lương của 9 nhân viên kĩ thuật của doanh nghiệp A trong tháng 7/2012 như sau: (đvt: triệu đồng)
Giả sử 9 nhân viên trên là 1 tổng thể Tính tiền lương TB 1 nhân viên trong tháng
7 và tiền lương trung bình trong mẫu (mức lương được tô đậm). b Trung bình cộng gia quyền
Là trường hợp đặc biệt của Trung bình cộng giản đơn Nó được sử dụng khi có nhiều quan sát có cùng giá trị
N: trung bình cộng gia quyền đối với tổng thể n: trung bình cộng gia quyền đối với mẫu w i :Tần số của tổ i x i :(i=1,2,3 ,k) giá trị của quan sát thứ i
Thí dụ: Có điểm số và số tín chỉ các môn học của một SV trong 1 học kỳ, yêu cầu tính trung bình cộng gia quyền
Môn học Điểm Số tín chỉ x i * w i
Bảng 1.14: Điểm số và số tín chỉ các môn học
Số trung vị là giá trị ở giữa tập dữ liệu đã được sắp xếp theo thứ tự
- n là số lẻ, Me là giá trị ở giữa tập dữ liệu.
- n là số chẵn, Me là trung bình của hai giá trị ở giữa tập dữ liệu
Thí dụ: Có tiền lương của 10 nhân viên ở công ty A trong tháng 7/2012 theo bảng. Yêu cầu tìm số trung vị
Số yếu vị là giá trị dữ liệu xuất hiện với tần số lớn nhất.
Thí dụ 1: Tập dữ liệu với các quan sát
Giá trị 4 lặp lại nhiều nhất là 3 lần, nên giá trị Mode của tập dữ liệu này là 4.
Thí dụ 2: Tập dữ liệu với các quan sát
Giá trị 3 và 6 lặp lại nhiều nhất là 3 lần, nên giá trị Mode của tập dữ liệu này là 3 và 6 (có 2 giá trị mode)
Thí dụ 3: Tập dữ liệu với các quan sát
Mỗi giá trị lặp lại 1 lần, nên tập dữ liệu này không có giá trị mode.
Nếu có n giá trị xi có quan hệ tích số kiểu x1 * x2 * … * xn thì số trung bình nhân của n giá trị này được tính như sau: ´x=√ n x 1 x 2 x 3 … x n = √ n ∏ i=1 n x i
1.5.2 NHÓM CÁC ĐẠI LƯỢNG MÔ TẢ SỰ PHÂN BỐ CỦA TẬP
Số tứ phân chỉ đơn thuần là các số phân vị cụ thể, sẽ chia tập dữ liệu ra làm 4 phần, được gọi tên là:
Q1 = số tứ phân thứ nhất = {25% (n+1)}
Q2 = số tứ phân thứ hai = {50% (n+1)} = Median
Q3 = số tứ phân thứ ba = {75% (n+1)}
Thí dụ: Có tập dữ liệu với 8 quan sát, yêu cầu xác định giá trị của các tứ phân vị Q1, Q2 và Q3.
Q1 ở vị trí 25% (8+1)=2,25, do đó giá trị này nằm giữa quan sát thứ hai và thứ ba Vì tọa độ lệch về quan sát thứ hai, nên giá trị của Q1 được xác định như sau.
Số phân vị là giá trị mà ít nhất p% số hạng trong tập dữ liệu nhỏ hơn hoặc bằng nó, trong khi có ít nhất (100-p)% số hạng lớn hơn hoặc bằng giá trị đó.
Phân vị 50th là số trung vị, phân vị 25th là Q1, phân vị 75th là số Q3
1.5.2.3 XÁC ĐỊNH PHÂN VỊ PTH
- Bước 1: Sắp xếp tập dữ liệu theo thứ tự tăng dần
- Bước 2: Tính chỉ số i, tức là xác định vị trí của phân vị cần tìm trong tập dữ liệu đã được sắp xếp theo thứ tự tăng dần: i = (p/100) * n
+Nếu i không là số nguyên thì làm tròn lên Số nguyên kế tiếp > i sẽ chỉ vị trí của phân vị pth
+ Nếu i là số nguyên, phân vị pth là trung bình của 2 giá trị dữ liệu ở vị trí i và i + 1
Thí dụ, lập bảng tần số cho dãy số sau:
Mức tiêu thụ (triệu đồng/tuần) Số cửa hàng
Vào menu Tool chọn lệnh Data Analysis Nếu không tìm thấy Data Analysis nằm sẵn trên menu Tool thì gọi chức năng Data Analysis ra như sau:
Để kích hoạt chức năng phân tích dữ liệu trong Excel, bạn vào Tools/Add-Ins để mở cửa sổ Add-Ins Trong danh sách Add-Ins Available, hãy chọn hai chức năng là Analysis Toolpak và Analysis Toolpak VBA, sau đó nhấn nút OK Quay lại menu Tools, bạn sẽ thấy tùy chọn Data Analysis.
- Bấm vào lệnh Data Analysis mở hộp thoại, chọn Histogram rồi nhấp nút OK để mở cửa sổ Histogram Xem các khai báo trên cửa sổ Histogram.
- Tại mục Input Range nhập địa chỉ khu vực chứa dữ liệu đã nhập, chú ý đưa luôn cả địa chỉ hàng tiêu đề vào.
- Tại mục Bin Range đưa địa chỉ phạm vi chứa các giá trị các cận trên vào, nhớ đưa luôn địa chỉ hàng tiêu đề.
- Nhấp chọn nút Label để loại trừ hàng chứa tiêu đề ra khỏi các tính toán.
- Chọn Cumulative Percentage để tính tần suất tích lũy.
- Nhấp nút OK được bảng kết quả, nó được đặt trên một Sheet mới nếu không xác định trước vị trí đặt kết quả trong nội dung Output Range.
Cách nhập dữ liệu cho Bin Range và các thao tác vẽ đồ thị tương tự như lập bảng tần số bằng Excel Tuy nhiên, trong phần cuối của cửa sổ Histogram, chỉ cần chọn mục Chart Output Để đảm bảo không có khoảng cách giữa các thanh của đồ thị, hãy nhấp chuột trái vào các cột đồ thị để chọn, sau đó nhấp chuột phải và chọn Format Data Series Trong cửa sổ mở ra, chọn tab Option và nhập giá trị 0 vào phần Gap width, sau đó nhấn OK.
Để tạo đồ thị, bạn vào menu Insert và chọn mục Chart để mở cửa sổ Chart Wizard Tại đây, hãy chọn kiểu đồ thị mong muốn trong khu vực Chart type Sau đó, nhấn nút Next và thực hiện các khai báo cần thiết theo yêu cầu của chương trình Cuối cùng, nhấn nút Finish để hoàn thành và nhận được đồ thị như ý.
1.5.3.4 TÍNH CÁC ĐẠI LƯỢNG ĐO LƯỜNG ĐỘ TẬP TRUNG
Vào menu Tool/Data Analysis/Descriptive Statisstic Mở cửa sổ Descriptive Statisstic và khai báo Mean, Median, Mode….
1.5.3.5 PHÂN TÍCH ANOVA VÀ ỨNG DỤNG DỰ BÁO
Thí dụ: Có số liệu dưới đây về thu nhập và tiêu dùng của 10 hộ gia đình ở một vùng.
STT THU NHẬP - X TIÊU DÙNG - Y
To begin, navigate to the Tools menu and select the Data Analysis option Click on Data Analysis to open the dialog box, then choose Regression and press OK to access the Regression window Review the settings displayed in the Regression window.
SUMMARY OUTPUT: thu nhap + tieu dung
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Đối với hàm hồi quy đa biến, các bước thực hiện tương tự như hồi quy đơn biến Tuy nhiên, khi khai báo Input X range, cần quét toàn bộ các cột X1, X2, v.v Trong ứng dụng dự báo, giá trị của X sẽ được thay thế bằng giá trị Y dự báo tương ứng.
Với hệ số tin cậy 95% và số bậc tự do là 8, t0,025 = 2,306
Dự báo điểm chi tiêu cho tiêu dùng khi thu nhập ở mức 100 USD/tháng:
Dự báo khoảng chi tiêu cho tiêu dùng khi thu nhập ở mức 100 USD/tháng: σ
1.5.3.6 PHÂN TÍCH ANOVA VÀ ỨNG DỤNG DỰ BÁO BẰNG EVIEWS
Cũng với thí dụ từ 1.5.3.5 trên EXCEL.
- Khởi động EVIEWS, bấm vào biểu tượng EVIEWS.
- Nhập dữ liệu mới, bấm nút File, chọn Workfile.
- Chọn xong, màn hình xuất hiện cửa sổ Workfile range
Tùy thuộc vào dữ liệu nhập vào Range, nếu dữ liệu là dạng chéo như trong ví dụ, bạn cần khai báo Ngày bắt đầu là 1 và Ngày kết thúc là 10 Sau khi hoàn tất việc khai báo, nhấn OK để màn hình hiển thị kết quả.
Để nhập dữ liệu mới trong EVIEWS, bạn chọn Quick/Empty Group từ cửa sổ chính Tiếp theo, nhập tên biến quan sát X, Y bằng cách nhấp chuột vào đầu cột và nhấn Enter Cuối cùng, điền các giá trị vào các cột tương ứng.
- Trường hợp copy từ EXCEL qua thì chọn Workfile, vào Gern nhập X=na và Y=na
Để sao chép dữ liệu từ Excel sang chuỗi X, bạn cần mở chuỗi X bằng cách nhấn tổ hợp phím Edit+/- Sau đó, tô khối dữ liệu cần sao chép và nhập ô đầu tiên của chuỗi X, rồi nhấp vào Edit/Paste Khi hoàn tất, bạn có thể tắt chế độ chỉnh sửa bằng cách nhấn Edit/- Các chuỗi khác có thể được sao chép theo cách tương tự.
- Tìm hàm hồi quy mẫu của Y theo X, từ cửa sổ Workfile tô khối X và Y, chọn Open as Equation
Tại cửa sổ Equation, sửa lại trên Equation Specification theo thứ tự Y X C và chọn
Màn hình sẽ hiển thị bảng phân tích ANOVA giống như trong EXCEL, nhưng sẽ không có giá trị R Multiple Để tính giá trị này, bạn cần lấy căn bậc hai của giá trị R Square.
Từ bảng trên có hàm số Y = 0.5090X + 24.4545 Dự báo điểm với thu nhập 100 USD/tháng Thay X0 thì Y= 75.3636 USD
- Dự báo điểm và khoảng kỳ (t+1)
Vào Workfile Chọn Procs, Change Workfile Range Chỉnh lại End date.
Mở lại dãy X và thêm 100 vào ô ở hàng 11.
Tại bảng Equation, vào Forecast Tại cửa sổ Forecast of Y:
+ Forecast name: Yf (mặc định), nếu không thì đặt lại tên.
+ Se (optional): đặt tên, nếu không thì chọn Se1 để không trùng với Se của hàm số.
+ Forecast Sample: chỉnh lại dãy là 1 và 11.
Vào Workfile, chọn Genr để tạo thêm:
Coi chung kết quả của Yf, cận trên và cận dưới thực hiện như sau: + Tô đen chọn Yf, cantren, canduoi và bấm Procs.
+ Chọn Extract to new Workfile.
+ Điều chỉnh sample lên 1 và 11.
1.5.4 CÁC ĐẠI LƯỢNG ĐO LƯỜNG ĐỘ PHÂN TÁN XUNG
QUANH GIÁ TRỊ TRUNG BÌNH
Range là đại lượng đo lường được xác định bằng cách lấy hiệu giữa giá trị lớn nhất và giá trị nhỏ nhất, công thức tính là Range = Max – Min Giá trị của Range phụ thuộc hoàn toàn vào hai yếu tố này, tức là giá trị Max và Min.
Thí dụ: Có tập dữ liệu với 8 quan sát, yêu cầu xác định giá trị Range.
1.5.4.2 KHOẢNG BIẾN THIÊN NỘI TỨ PHÂN (INTERQUARTILE RANGE) Độ trải giữa tính bằng chênh lệch giữa Q3 và Q1.
Thí dụ: Có tập dữ liệu với 8 quan sát, yêu cầu xác định Độ trải giữa
1.5.4.3 PHƯƠNG SAI (VARIANCE) VÀ ĐỘ LỆCH CHUẨN (STANDARD DEVIATION)
Phương sai của tổng thể: σ 2 =∑ ¿ ¿ ¿ σ 2 = ∑ i =1 n
Phương sai mẫu được tính bằng cách lấy trung bình của các biến thiên đã được bình phương giữa từng quan sát trong tập dữ liệu và giá trị trung bình của nó.
- Độ lệch chuẩn là căn bậc hai của phương sai Độ lệch chuẩn và phương sai được sử dụng phổ biến để đo lường sự biến thiên σ = √ 2 σ 2 ; s= √ 2 s 2
Thí dụ: Xác định phương sai và độ lệch chuẩn của tập dữ liệu
1.5.5 NHÓM CÁC ĐẠI LƯỢNG MÔ TẢ CHO BẢNG TẦN SỐ
1.5.5.1 TRUNG BÌNH CỘNG a Bảng tần số cho dữ liệu định lượng không phân tổ
Thí dụ: Khảo sát 200 người đọc báo theo bảng sau và tính bình quân mỗi người đọc bao nhiêu tờ báo/tuần.
Số báo đọc (tờ/tuần) - Xi Tần số (người) - fi xi*fi
Bảng 1.15: Bảng tần số cho dữ liệu định lượng không phân tổ b Bảng tần số cho dữ liệu định lượng có phân tổ
Thí dụ: Khảo sát 30 sinh viên theo bảng sau và tính độ tuổi bình quân. Độ tuổi (tuổi) Giá trị đại diện (tuổi) Tần số (SV) xi xi*fi
Bảng 1.16: Bảng tần số cho dữ liệu định lượng có phân tổ
- Giá trị đại diện 3 tổ đầu = (giá trị cận trên + giá trị cận dưới) / 2
THIẾT KẾ BẢNG CÂU HỎI, TỔ CHỨC THU THẬP THÔNG TIN ĐỊNH LƯỢNG VÀ ĐỊNH TÍNH
THIẾT KẾ BẢNG CÂU HỎI
2.1.1 KHÁI NIỆM BẢNG CÂU HỎI
Bảng câu hỏi là một kỹ thuật thu thập dữ liệu, bao gồm một tập hợp câu hỏi và câu trả lời theo logic nhất định Nó nhằm mục đích thu thập và ghi chép thông tin chính xác, đáp ứng các mục tiêu của dự án nghiên cứu Nội dung bảng câu hỏi cần được thiết kế để đảm bảo tính chính xác và hoàn hảo trong quá trình thu thập dữ liệu.
- Khảo sát thực địa cho việc lựa chọn, tiếp cận và phỏng vấn người trả lời
- Người phỏng vấn kết hợp những phương tiện khác như tranh ảnh, sản phẩm, catologue và mẫu hàng quảng cáo để giới thiệu cùng người trả lời
Sử dụng quà tặng hay thù lao để khuyến khích người trả lời trả lời.
2.1.2 NHỮNG THUỘC TÍNH CỦA MỘT BẢNG CÂU HỎI TỐT
Bảng câu hỏi hiệu quả cần hướng dẫn quá trình đặt câu hỏi và đảm bảo việc ghi chép rõ ràng, chính xác Nó đóng vai trò quan trọng trong việc tương tác với người được phỏng vấn.
Để đạt được mục tiêu nghiên cứu, cần chuyển tải rõ ràng nội dung câu hỏi và thông tin yêu cầu vào các câu hỏi phỏng vấn Quá trình phỏng vấn phải đảm bảo rằng người nghiên cứu thu thập được thông tin phù hợp với mục tiêu đã đề ra.
- Giúp người được phỏng vấn hiểu biết rõ ràng các câu hỏi.
- Khuyến khích người được phỏng vấn hợp tác và tin rằng những câu trả lời của họ sẽ được giữ kín.
- Khuyến khích sự trả lời thông qua sự xem xét lại nội tâm kĩ hơn, lục lại trí nhớ hay liên hệ với những điều đã ghi chép.
- Hướng dẫn rõ ràng những điều người được hỏi muốn biết và cách trả lời.
Để phân loại và kiểm tra lại cuộc phỏng vấn, việc xác định nhu cầu là rất quan trọng Bảng câu hỏi cần được thiết kế đơn giản, giúp người phỏng vấn dễ dàng thực hiện, đồng thời phải dự đoán trước các yêu cầu để đảm bảo việc xử lý thông tin diễn ra hiệu quả.
2.1.3 TRÌNH TỰ 8 BƯỚC CƠ BẢN THIẾT KẾ MỘT BẢNG CÂU
Khi thiết kế bảng câu hỏi, bước đầu tiên là xác định các dữ kiện riêng biệt cần tìm, dựa vào mục tiêu nghiên cứu để xác định chính xác những yếu tố cần đo lường.
- Liệt kê những gì cần đo lường, có thể là danh sách những câu hỏi riêng biệt, những nhóm chữ hay từ chủ yếu
- Dự tính những biến số được đo lường sẽ được sử dụng như thế nào, dùng loại kĩ thuật phân tích nào để mang lại ý nghĩa cho dữ liệu.
Bước 2: Xác định phương pháp phỏng vấn
Người nghiên cứu cần lựa chọn phương pháp tiếp xúc phù hợp với người được phỏng vấn, như phỏng vấn trực tiếp, gọi điện thoại, gửi thư hoặc qua Internet Mỗi phương pháp sẽ ảnh hưởng đến nội dung và cấu trúc câu hỏi của bảng câu hỏi, đòi hỏi sự điều chỉnh để thu thập thông tin hiệu quả.
Bước 3: Đánh giá nội dung câu hỏi
Mục tiêu và nội dung của nghiên cứu ảnh hưởng trực tiếp đến nội dung các câu hỏi trong bảng câu hỏi Để thu thập thông tin chính xác từ các câu trả lời, khả năng thiết kế bảng câu hỏi của nhà nghiên cứu là rất quan trọng Khi soạn thảo các câu hỏi, cần xem xét các tiêu chuẩn phù hợp để đảm bảo tính hiệu quả và độ tin cậy của dữ liệu thu thập được.
1 Câu hỏi đặt ra có cần thiết hay không
Khi xây dựng bảng câu hỏi, người nghiên cứu cần xem xét từng câu hỏi để đảm bảo rằng chúng đóng góp vào mục tiêu nghiên cứu Nếu câu hỏi không liên quan, nên loại bỏ chúng Tuy nhiên, có những câu hỏi mặc dù không trực tiếp liên quan nhưng vẫn có thể dẫn dắt và định hướng, giúp người phỏng vấn nhớ lại thông tin và trả lời chính xác hơn.
2 Người trả lời có hiểu được câu hỏi đó không
Người trả lời có thể không hiểu câu hỏi vì nhiều lý do, thường là do việc sử dụng thuật ngữ không quen thuộc, thiếu định nghĩa rõ ràng, hoặc câu hỏi mơ hồ Ngoài ra, sự khác biệt về văn phong và thói quen giao tiếp giữa các sắc tộc hoặc văn hóa cũng có thể ảnh hưởng đến khả năng hiểu câu hỏi.
Để tăng cường sự hiểu biết của người được hỏi, cần sử dụng ngôn từ quen thuộc và dễ hiểu Câu hỏi nên được xây dựng đúng cú pháp và văn phạm, tránh câu phức, không sử dụng tiếng lóng hay các thuật ngữ chuyên môn.
3 Người trả lời có được thông tin cần thiết để trả lời các câu hỏi đó không
Người được hỏi có thể không trả lời đúng hoặc không nhớ thông tin do thiếu kiến thức hoặc khó khăn trong việc hồi tưởng Để cải thiện tình trạng này, có thể áp dụng một số biện pháp hữu ích.
- Xác định khoảng thời gian rõ ràng, thời gian càng xa độ chính xác của câu trả lời càng giảm.
- Hỏi nhiều câu hỏi để gợi lại trí nhớ.
- Hỏi các câu hỏi có tính chất liên tưởng, gợi sự liên quan giữa các sự kiện để người trả lời nhớ lại.
- Đề nghị người trả lời nêu rõ sự kiện nào họ nhớ chính xác nhất và sự kiện nào còn mơ hồ.
4 Người trả lời có cung cấp các thông tin đó không
Người trả lời có thể từ chối hoặc trả lời sai do câu hỏi liên quan đến vấn đề riêng tư hoặc bí mật mà họ không muốn tiết lộ Ngoài ra, những câu hỏi về động cơ cũng có thể khiến người trả lời lo ngại về sự đánh giá của người khác Để thu thập thông tin này, có thể áp dụng một số biện pháp phù hợp.
- Dùng câu hỏi gián tiếp, thay vì hỏi về thu nhập thì hỏi sang chi tiêu.
- Thăm dò bằng cách gửi thư và không cần cho biết tên và địa chỉ.
- Thuyết phục người trả lời bằng cách nêu rõ mục đích của cuộc điều tra, gây sự tin tưởng nơi người hỏi.
5 Khắc phục các câu hỏi mà người trả lời không sẵn lòng để trả lời
Ngay cả khi một ngươi trả lời có khả năng trả lời cụ thể một câu hỏi nào đó, họ cũng có thể không sẵn lòng để trả lời
Trong ngữ cảnh giao tiếp, một số câu hỏi có thể phù hợp trong tình huống này nhưng lại không thích hợp trong tình huống khác Ví dụ, khi hỏi về phương pháp dạy học của giáo viên, nếu câu hỏi được đặt ra trong lớp học, người trả lời có thể không cung cấp thông tin Tuy nhiên, nếu câu hỏi được đưa ra ở một nơi khác, chẳng hạn như tại quán cafe, khả năng nhận được thông tin sẽ cao hơn.
Người trả lời thường không muốn cung cấp thông tin cá nhân nếu không hiểu rõ mục đích của câu hỏi Để tăng cường sự sẵn lòng hợp tác, việc giải thích lý do tại sao doanh nghiệp cần biết tuổi, thu nhập và nghề nghiệp của họ là rất quan trọng Sự minh bạch này có thể giúp người phỏng vấn nhận được thông tin cần thiết một cách dễ dàng hơn.
Những thông tin nhạy cảm có thể khiến người trả lời ngần ngại chia sẻ, do lo ngại về sự lúng túng hoặc ảnh hưởng đến danh tiếng và suy nghĩ riêng tư của họ Các câu hỏi liên quan đến tiền bạc, cuộc sống gia đình, niềm tin tôn giáo, thể chế chính trị và các vụ tai nạn hay tội ác thường được coi là xâm phạm đến quyền riêng tư cá nhân Để tăng cường sự sẵn lòng của người trả lời, người nghiên cứu cần áp dụng các kỹ thuật phù hợp.
THU THẬP THÔNG TIN ĐỊNH LƯỢNG
2.2.1 TỔ CHỨC THU THẬP THÔNG TIN
Giám đốc xử lý th tin
GĐ thu thập thông tin
GĐ bộ phận chức năng
QT viên thu thập thông tin QTV kiểm tra chất lượng thông tin
Các giám sát viên thu thập Các giám sát viên chất lượng
Các phỏng vấn viên Các kiểm tra viên
Hình 2.1: Một dạng tổ chức đơn vị nghiên cứu marketing
Bộ phận nghiên cứu đảm nhận việc hoạch định dự án nghiên cứu, thảo luận với nhà quản trị, thiết kế câu hỏi, đàm phán với khách hàng, diễn giải thông tin và viết báo cáo kết quả nghiên cứu.
2.2.1.2 BỘ PHẬN THU THẬP THÔNG TIN
Bộ phận thu thập thông tin có nhiệm vụ thu thập và đảm bảo chất lượng dữ liệu theo bảng câu hỏi đã được thiết kế Chức năng của bộ phận này bao gồm hai hoạt động độc lập: thu thập thông tin và kiểm tra độ chính xác của thông tin đã thu thập.
Sau khi nhận bản thảo cuối cùng từ bộ phận nghiên cứu, bộ phận thu thập thông tin tiến hành tuyển chọn, đào tạo và hướng dẫn các phỏng vấn viên Trong suốt quá trình phỏng vấn, các phỏng vấn viên sẽ được giám sát bởi giám sát viên.
Sau khi hoàn tất phỏng vấn, kiểm tra viên sẽ tiến hành kiểm tra lại thông tin Họ làm việc độc lập dưới sự giám sát của giám sát viên chất lượng Mục đích của việc kiểm tra này là đảm bảo tính chính xác và độ tin cậy của dữ liệu thu thập được.
1 Đảm bảo tính trung thực và chính xác của phỏng vấn viên: Phỏng vấn viên có đúng đối tượng nghiên cứu (phần tử mẫu) không, phỏng vấn viên thực hiện phỏng vấn nghiêm túc hay tự điền.
2 Đảm bảo tính trung thực của người trả lời: Người trả lời có cung cấp thông tin của chính hành vi, thái độ… của họ hay đặt ra các trả lời giả tạo. Để thực hiện việc kiểm tra, tiến hành chọn ngẫu nhiên một số đối tượng nghiên cứu, kiểm tra viên sẽ tiến hành phỏng vấn lại họ và so sánh kết quả của hai lần phỏng vấn để đo lường mức độ tin cậy của kết quả
Tại thị trường Việt Nam, việc chọn mẫu thường được thực hiện ngẫu nhiên trong khoảng 20% đến 30% kích thước mẫu Không cần thiết phải phỏng vấn toàn bộ bảng câu hỏi, mà chỉ cần tập trung vào một số câu hỏi cần thiết.
2.2.1.3 BỘ PHẬN XỬ LÝ THÔNG TIN
Bộ phận xử lý thông tin thực hiện hiệu chỉnh trung tâm nhằm đảm bảo tính hợp lý và thống nhất cho toàn bộ câu hỏi và mã Họ cũng chịu trách nhiệm nhập, xử lý và phân tích thông tin theo các tiêu chí đã được xác định trong thiết kế nghiên cứu.
Sau khi phỏng vấn, bảng câu hỏi cần được hiệu chỉnh để khắc phục sai sót, nhằm nâng cao chất lượng dữ liệu Bảng câu hỏi đã được hiệu chỉnh sẽ được gọi là bảng câu hỏi hoàn tất Những bảng câu hỏi hoàn tất này sẽ sẵn sàng cho việc nhập thông tin để tiến hành phân tích và tóm tắt kết quả.
2.2.2.1 NGUYÊN NHÂN GÂY SAI SÓT TRONG THU THẬP THÔNG TIN
Trong khâu thu thập thông tin, có ba nguyên nhân chính gây sai lệch:
1 Thiết kế bảng câu hỏi không đạt yêu cầu, đặc biệt là sử dụng thuật ngữ gây nhầm lẫn; câu hỏi không rõ ràng, hình thức trình bày không thống nhất, dễ gây nhằm lẫn cho phỏng vấn viên,… là nguyên nhân đầu tiên gây nên sai lệch.
2 Hướng dẫn phỏng vấn viên không kĩ lưỡng, đặc biệt là tính chủ quan, không kiểm tra lại phỏng vấn viên để xác định họ đã hiểu tất cả các câu hỏi và trả lời trong bảng câu hỏi, nắm vững kĩ thuật phỏng vấn, cũng là một trong các nguyên nhân chính tạo nên sai lệch trong khâu thu thập thông tin.
3 Kĩ thuật phỏng vấn kém Phỏng vấn viên thiếu kinh nghiệm trong công tác phỏng vấn, chủ quan, không chịu rèn luyện kĩ năng phỏng vấn là nguyên nhân thứ ba tạo nên sai lệch trong khâu thu thập thông tin.
Hướng dẫn và kiểm tra kỹ năng phỏng vấn của phỏng vấn viên là bước quan trọng trước khi thực hiện phỏng vấn thực tế Quy trình kiểm tra kỹ năng phỏng vấn bao gồm hai bước chính.
Sau khi hoàn tất hướng dẫn, phỏng vấn viên cần tiến hành phỏng vấn giám sát viên Nếu phát hiện sai sót trong việc hiểu các câu hỏi hoặc kỹ thuật phỏng vấn, cần thực hiện điều chỉnh kịp thời.
Sau khi được hướng dẫn lại, các phỏng vấn viên sẽ thực hành phỏng vấn đối tượng nghiên cứu Trong quá trình này, giám sát viên sẽ theo dõi và phát hiện những sai sót cũng như đánh giá kỹ năng phỏng vấn của phỏng vấn viên.
2.2.2.2 CÁC BƯỚC HIỆU CHỈNH THÔNG TIN THU THẬP XONG a Hiệu chỉnh tại hiện trường
TỔ CHỨC THU THẬP THÔNG TIN ĐỊNH TÍNH
2.3.1 THU THẬP THÔNG TIN ĐỊNH TÍNH
Nghiên cứu định tính là phương pháp khám phá, trong đó thông tin được thu thập dưới dạng định tính thông qua các kỹ thuật thảo luận và diễn dịch.
Nhà nghiên cứu thực hiện việc thu thập thông tin trực tiếp tại hiện trường thông qua thảo luận với đối tượng nghiên cứu trong các cuộc phỏng vấn tay đôi và điều khiển chương trình thảo luận trong các nhóm.
Nghiên cứu định tính là công cụ thiết yếu giúp nhà quản trị hiểu rõ hành vi tiêu dùng trong một thị trường cụ thể Ví dụ, khi chưa nắm bắt được phản ứng của người tiêu dùng đối với các chương trình marketing, khái niệm quảng cáo hoặc bao bì sản phẩm, việc khám phá thị trường thông qua nghiên cứu định tính sẽ cung cấp những thông tin quý giá để thực hiện các điều chỉnh phù hợp cho thị trường mục tiêu.
Kết quả của nghiên cứu định tính rất quan trọng cho việc xây dựng các dự án nghiên cứu sâu hơn Chẳng hạn, nó giúp khám phá những thuộc tính quan trọng của sản phẩm và thái độ của người tiêu dùng, từ đó hỗ trợ trong việc thiết kế bảng câu hỏi nghiên cứu mô tả một cách hiệu quả.
2.3.1.2 THÔNG TIN TRONG NGHIÊN CỨU ĐỊNH TÍNH
Thông tin cần thu thập trong nghiên cứu định tính bao gồm những dữ liệu "bên trong" của người tiêu dùng Để thu thập những thông tin này, các kỹ thuật thảo luận là phương pháp chủ yếu được sử dụng.
2.3.1.3 CHỌN MẪU TRONG NGHIÊN CỨU ĐỊNH TÍNH
Mẫu được chọn không dựa trên phương pháp xác suất mà được lựa chọn dựa trên các đặc tính cụ thể của thị trường nghiên cứu Các yếu tố như giới tính, nghề nghiệp, tuổi tác, và thu nhập trong hàng tiêu dùng, cũng như quy mô và ngành nghề trong hàng công nghiệp, được xem xét để đảm bảo tính đại diện của mẫu.
Để khám phá hành vi và thái độ tiêu dùng về dầu gội đầu tại thị trường TP Hồ Chí Minh, chúng ta tập trung vào nhóm người tiêu dùng nữ, thuộc tầng lớp thu nhập trung bình và cao, trong độ tuổi từ 18 đến 35 Để thực hiện kỹ thuật thảo luận nhóm, chúng ta sẽ lựa chọn 4 nhóm, mỗi nhóm gồm 8 người tiêu dùng, nhằm thu thập thông tin chi tiết về sở thích và nhu cầu của họ.
Bảng 2.1: Thí dụ chọn nhóm cho thảo luận
Để đảm bảo tính hiệu quả của nghiên cứu, đối tượng tham gia cần đáp ứng các tiêu chí thị trường như độ tuổi, giới tính, và các yếu tố khác Đồng thời, họ phải không quen biết nhau và chưa từng tham gia thảo luận nhóm trong một khoảng thời gian nhất định.
2.3.1.4 BẢNG CÂU HỎI SỬ DỤNG TRONG THU THẬP THÔNG TIN ĐỊNH TÍNH Để thu thập thông tin định tính, sử dụng dàn bài thảo luận thay cho bảng câu hỏi chi tiết Dàn bài thảo luận có hai phần chính Phần thứ nhất giới thiệu mục đích và tính chất của việc nghiên cứu Đây cũng là phần tạo nên không khí thân mật ban đầu và đóng một phần quan trọng trong việc thành công của dự án Phần thứ hai bao gồm các câu hỏi gợi ý cho việc thảo luận để thu thập thông tin.
Trong các dự án nghiên cứu định tính sử dụng kỹ thuật thảo luận nhóm, việc gạn lọc đối tượng nghiên cứu là bước quan trọng và cần được thực hiện riêng biệt trước khi tiến hành thảo luận.
Vì kích thước mẫu nhỏ, việc tuyển chọn đối tượng nghiên cứu, đặc biệt là trong thảo luận nhóm, là yếu tố quyết định cho sự thành công của dự án nghiên cứu Do đó, quá trình gạn lọc cần được thiết kế một cách chi tiết, đảm bảo đáp ứng đầy đủ các yêu cầu cần thiết.
Phạm vi so sánh Dạng nghiên cứu Định lượng Định tính
Mục đích Lượng hóa các đặc tính tính của hành vi
Tìm hiểu sâu các đặc tính của hành vi
Cách tiếp cận Cấu trúc chặt chẽ thông qua phỏng vấn
Linh hoạt thông qua thảo luận
Kích thước mẫu Lớn Nhỏ
Phương pháp chọn mẫu Thường là theo xác suất Phi xác suất
Kĩ năng phỏng vấn/ thảo luận
Không đòi hỏi kĩ năng cao Đòi hỏi kĩ năng cao
Thời gian phỏng vấn Tương đối ngắn (thường
Tương đối dài (thường từ
Bảng 2.2: So sánh tóm tắt giữa nghiên cứu định tính và định lượng
2.3.2 CÁC KĨ THUẬT THU THẬP THÔNG TIN ĐỊNH TÍNH
Thảo luận tay đôi là một kỹ thuật hiệu quả để thu thập thông tin, diễn ra giữa nhà nghiên cứu và đối tượng tham gia Phương pháp này thường được áp dụng trong nhiều trường hợp khác nhau, giúp các nhà nghiên cứu nắm bắt sâu sắc ý kiến và quan điểm của đối tượng.
1 Chủ đề nghiên cứu mang tính cá nhân cao, không phù hợp cho việc thảo luận trong môi trường tập thể (như trong thảo luận nhóm) Thí dụ như băng vệ sinh phụ nữ, tài chánh cá nhân, bao cao su kế hoạch gia đình…
2 Do vị trí xã hội, nghề nghiệp của đối tượng nghiên cứu nên rất khó mời họ tham gia nhóm Thí dụ như các đối tượng nghiên cứu là các giám đốc…
3 Do cạnh tranh mà đối tượng nghiên cứu không thể tham gia thảo luận nhóm. Thí dụ như tại thị trường nguyên vật liệu trong thị trường sản phẩm công nghiệp, các công ty không muốn cho đối thủ cạnh tranh biết được thái độ, hành vi của mình…
4 Do tính chuyên môn của sản phẩm mà phỏng vấn tay đôi mới có thể làm rõ và đào sâu được thông tin.
PHÂN TÍCH DỮ LIỆU BẰNG PHẦN MỀM SPSS
GIỚI THIỆU VỀ PHÂN TÍCH DỮ LIỆU
3.1.1 NGHIÊN CỨU VÀ PHÂN TÍCH DỮ LIỆU
Nghiên cứu định lượng một vấn đề kinh tế xã hội thường bao gồm các bước cơ bản:
1 Xác định vấn đề nghiên cứu
Xác định rõ ràng và chính xác vấn đề nghiên cứu là điều kiện tiên quyết để thực hiện một cuộc nghiên cứu hiệu quả Việc định nghĩa rõ ràng vấn đề nghiên cứu giúp quá trình thu thập dữ liệu diễn ra nhanh chóng và chính xác, đồng thời đảm bảo thu thập được những thông tin quan trọng cần thiết cho phân tích.
Dữ liệu có thể thu thập từ nhiều nguồn khác nhau, bao gồm quan sát và nghiên cứu thử nghiệm Trong nghiên cứu thử nghiệm, biến nghiên cứu được ghi nhận và các yếu tố ảnh hưởng được kiểm soát để dữ liệu phản ánh chính xác tác động của chúng Ngược lại, trong nghiên cứu quan sát, không có sự kiểm soát đối với các yếu tố ảnh hưởng, và điều tra là hình thức nghiên cứu quan sát phổ biến nhất.
Dữ liệu thường được ghi chép thủ công trên bản ghi chép và được phân tích trên máy tính Lúc đó dữ liệu qua 3 bước sau:
Mã hóa dữ liệu là một bước quan trọng trong việc xử lý thông tin, trong đó các dữ liệu định lượng (dưới dạng số) thường không cần mã hóa, trong khi các dữ liệu định tính (không phải dưới dạng số) cần được chuyển đổi thành các con số để dễ dàng phân tích và sử dụng.
Nhập liệu là quá trình mà dữ liệu được nhập và lưu trữ bởi ít nhất hai người nhập liệu độc lập Thông thường, trong thực tế, việc nhập dữ liệu từ bảng câu hỏi vào máy tính được thực hiện hai lần để đảm bảo tính chính xác và độ tin cậy của thông tin.
Hiệu chỉnh dữ liệu là quá trình kiểm tra bằng cách so sánh hai tập hợp dữ liệu được nhập độc lập Trong lần nhập thứ hai, người nhập liệu khác với người nhập lần đầu và sẽ chú ý phát hiện sai lệch giữa hai lần nhập Phương pháp này đảm bảo mức độ chính xác lên đến 99.8% cho tất cả các lần gõ phím.
Có hai phương pháp phân tích dữ liệu:
Các phương pháp thăm dò dữ liệu sử dụng các phép tính số học đơn giản và biểu đồ cơ bản nhằm khám phá ý nghĩa của dữ liệu, từ đó tóm tắt thông tin thông qua thống kê mô tả.
Các phương pháp khẳng định áp dụng lý thuyết xác suất để giải quyết các vấn đề nghiên cứu cụ thể Xác suất đóng vai trò quan trọng trong quyết định, giúp đo lường, biểu diễn và phân tích trong các tình huống thiếu thông tin liên quan đến các vấn đề kinh tế xã hội trong tương lai.
Phân tích dữ liệu là một giai đoạn quan trọng trong quá trình nghiên cứu, nhưng để đạt được kết quả tốt, cần phải nắm vững toàn bộ quy trình từ mục tiêu đến kết quả cuối cùng Một phân tích hiệu quả chỉ có thể diễn ra khi cơ sở dữ liệu được thiết kế hợp lý và được chuẩn bị kỹ lưỡng cho việc phân tích.
Thông qua việc suy diễn từ dữ liệu mẫu thu thập, chúng ta có thể ước lượng và kiểm định các đặc tính của tổng thể bằng các mô hình phân tích khác nhau Kết quả nghiên cứu thường được trình bày dưới dạng bảng, đồ thị hoặc phần trăm Do chỉ nghiên cứu trên một mẫu nhỏ thay vì toàn bộ tổng thể, các kết quả báo cáo cần phản ánh tính không chắc chắn, thông qua việc sử dụng các phát biểu xác suất và khoảng giá trị.
Nghiên cứu kinh tế xã hội đóng vai trò quan trọng trong việc đưa ra quyết định cho tương lai Phân tích dữ liệu cho phép các nhà nghiên cứu và quản lý dự đoán chính xác hơn về các thực tế phức tạp trong kinh tế và xã hội, giảm thiểu rủi ro trong quá trình ra quyết định.
3.1.2 BẢN CHẤT CỦA PHÂN TÍCH DỮ LIỆU
Dữ liệu chỉ là những con số thô và không tự nó tạo thành tri thức Quá trình chuyển đổi từ dữ liệu thành tri thức diễn ra qua các bước: từ dữ liệu đến thông tin, từ thông tin đến sự kiện, và cuối cùng từ sự kiện đến tri thức Dữ liệu trở thành thông tin khi nó liên quan đến nhận thức, kết luận và quyết định của người nghiên cứu Thông tin trở thành sự kiện khi nó hỗ trợ cho việc ra quyết định Cuối cùng, sự kiện trở thành tri thức khi được sử dụng để hoàn thành quá trình ra quyết định một cách hiệu quả.
3.1.3 THỐNG KÊ VÀ PHÂN TÍCH DỮ LIỆU
Thống kê là một bộ công cụ quan trọng giúp phân tích, trình bày và diễn giải dữ liệu Trong bối cảnh xã hội, các phương pháp thống kê hỗ trợ người ra quyết định và nhà quản lý đưa ra những quyết định hiệu quả hơn trong môi trường không chắc chắn.
Phân tích dữ liệu cung cấp kinh nghiệm thực tiễn, giúp ứng dụng tư duy và kỹ thuật thống kê để hiểu rõ các hiện tượng nghiên cứu, từ đó đưa ra quyết định chính xác Hiện nay, việc phân tích dữ liệu thường sử dụng các phần mềm như SPSS.
GIỚI THIỆU VỀ PHẦN MỀM SPSS
SPSS (Statistical Package for Social Sciences) is a powerful software tool utilized for analyzing survey results across various fields, including social sciences, education, healthcare, economics, marketing, and business operations.
Ra đời vào năm 1968, phần mềm SPSS được phát triển bởi ba nhà khoa học trẻ từ các lĩnh vực nghiên cứu khác nhau nhằm hỗ trợ ra quyết định thông qua phân tích dữ liệu Được công nhận là công cụ hàng đầu trong phân tích và xử lý số liệu thống kê, SPSS giúp hoạch định chiến lược và rút ra kết luận trong nghiên cứu Phần mềm này áp dụng rộng rãi trong các lĩnh vực liên quan đến số liệu thống kê, đặc biệt nổi bật trong việc phân tích mẫu dữ liệu lớn, giúp người dùng tiết kiệm thời gian và công sức SPSS cũng cho phép kiểm tra và hiệu chỉnh sai sót trong dữ liệu trước khi phân tích, đồng thời đơn giản hóa quá trình tạo báo cáo.
SPSS cung cấp nội dung phong phú và đa dạng, bao gồm thiết kế bảng biểu và sơ đồ thống kê, tính toán các đặc trưng mẫu trong thống kê mô tả, cùng với một hệ thống đầy đủ các phương pháp thống kê phân tích.
So sánh các mẫu có thể thực hiện thông qua nhiều tiêu chuẩn, bao gồm cả tham số và phi tham số Các mô hình phân tích phương sai được áp dụng theo dạng tuyến tính tổng quát, cho phép phân tích mối quan hệ giữa các biến Ngoài ra, các mô hình hồi quy đơn biến và đa biến cung cấp cái nhìn sâu sắc về sự ảnh hưởng của các yếu tố khác nhau Hồi quy phi tuyến tính cũng đóng vai trò quan trọng trong việc nắm bắt các mối quan hệ phức tạp, trong khi hồi quy Logistic giúp phân tích các biến phân loại.
- Phân tích theo nhóm, phân tích tách biệt và nhiều chuyên sâu khác.
Sử dụng phần mềm SPSS giúp nhập và làm sạch dữ liệu hiệu quả; xử lý và quản lý biến đổi dữ liệu; tóm tắt, tổng hợp thông tin và trình bày dưới dạng biểu bảng, đồ thị, bản đồ Phần mềm này còn hỗ trợ phân tích dữ liệu, tính toán các tham số thống kê và diễn giải kết quả một cách chính xác.
SPSS giúp thực hiện việc xử lý số liệu nghiên cứu nói chung và trong nghiên cứu các mảng chuyên ngành khác nhau:
Ứng dụng trong nghiên cứu tâm lý học và xã hội học bao gồm việc phân tích tâm lý tội phạm, tìm hiểu tâm lý học sinh - sinh viên, và khảo sát ý kiến của người dân về việc cải tạo khu chung cư.
- Ứng dụng trong nghiên cứu thị trường: nghiên cứu và định hướng phát triển sản phẩm, mở rộng thị trường; sự hài lòng của khách hàng v.v
SPSS giúp người dùng phân tích thực trạng, xác định các yếu tố ảnh hưởng, và dự đoán xu hướng tương lai Điều này hỗ trợ người dùng đưa ra quyết định chính xác, giải quyết vấn đề nhanh chóng và cải thiện kết quả hiệu quả hơn.
PHÂN TÍCH DỮ LIỆU BẰNG PHẦN MỀM SPSS
3.3.1 KHỞI ĐỘNG SPSS VÀ MỞ DỮ LIỆU
Nhấp đúp vô biểu tượng SPSS trong màn hình hoặc vào Start, Program, SPSS for Windows.
Giới thiệu một số menu chính trong cửa sổ SPSS
Bài viết này hướng dẫn cách tạo mới dữ liệu và mở dữ liệu từ các tập tin của SPSS cũng như các phần mềm khác Nó cũng đề cập đến quy trình lưu trữ dữ liệu, in ấn và cách thoát khỏi SPSS một cách hiệu quả.
Chức năng Edit cho phép người dùng thực hiện lại hoặc hủy bỏ thao tác vừa thực hiện, sao chép và cắt dán dữ liệu, cũng như chỉnh sửa các nội dung tùy chọn một cách dễ dàng và hiệu quả.
- Analyze: Chứa nội dung về thống kê mô tả, lập bảng biểu, chạy các loại hồi quy đơn và đa biến.
- Graph: Chứa nội dung về vẽ đồ thị.
- Help: Chứa nội dung về những trợ giúp cho người sử dụng.
3.3.1.2 MỞ DỮ LIỆU TỪ TẬP TIN CỦA SPSS VÀ CỦA PHẦN MỀM EXCEL a Từ tập tin của SPSS
Vào Menu File, Open, Data Sau đó chọn phần tập tin có *.sav b Nhập dữ liệu trực tiếp từ bàn phím và bằng Copy và Paste
To transfer data from Excel to SPSS, first select the desired rows and columns in your Excel file and copy them Then, open SPSS, navigate to File, and select New, followed by Data Finally, choose the appropriate location in SPSS and paste the copied data from Excel.
3.3.2 MÃ HÓA, NHẬP LIỆU VÀ LÀM SẠCH DỮ LIỆU
3.3.2.1 MÃ HÓA, NHẬP LIỆU Đầu tiên sau khi phỏng vấn xong, phải mã hóa, nhập liệu và làm sạch dữ liệu Thí dụ minh họa qua một Bảng phỏng vấn đơn giản như sau:
1 Loại điện thoại di động mà bạn sử dụng chính?
2 Mức độ hài lòng chung của bạn khi sử dụng loại điện thoại trên?
Rất không hài lòng 1 2 3 4 5 Rất hài lòng
3 Chi tiêu trung bình một tháng cho việc gọi điện thoại di động
4 Bạn theo dõi thông tin về các loại điện thoại mới như thế nào?
Không bao giờ Ít khi Thỉnh thoảng Thường xuyên
5 Bạn thường sử dụng tính năng nào
Nghe - gọi Tin nhắn Nghe nhạc
Quay phim, chụp hình Games Khác
6 Giới tính: Nam Nữ a Khai báo biến
Khi sử dụng SPSS thấy sheet Data View và Variable View Data View chứa dữ liệu, Variable View chứa các thông tin của các biến trong dữ liệu:
Tên biến phải bắt đầu bằng một chữ cái và có độ dài tối đa là 8 ký tự Không được sử dụng các ký tự đặc biệt và tên biến không được kết thúc bằng dấu chấm “.”.
- Type: loại dữ liệu của biến.
- Width: số lượng ký tự hay số lượng chữ số được hiển thị.
- Decimals: số lượng chữ số thập phân.
- Values: nhãn hoặc giá trị của các quan sát trong biến (phát huy tác dụng tốt trong thống kê mô tả).
- Missing: số lượng quan sát bị khuyết.
- Columns: chiều rộng của cột.
- Align: vị trí (nếu là số thì sẽ là bên phải, còn là ký tự sẽ nằm bên trái)
- Scale: cho biết là những con số định lượng như thu nhập, tuổi, chiều cao…
- Nominal: dữ liệu là chữ hoặc con số định tính như nam, nữ, hay 0, 1.
Dữ liệu ordinal là loại dữ liệu bao gồm chữ hoặc con số định tính, chú trọng đến thứ bậc và mức độ như cao thấp hay nặng nhẹ Các ví dụ về dữ liệu ordinal có thể là mức độ phản đối từ kịch liệt phản đối đến nhất trí cao.
3.3.2.2 LÀM SẠCH DỮ LIỆU a Sự cần thiết
Dữ liệu sau khi nhập xong thường chưa thể đưa ngay vào xử lý và phân tích vì có thể còn nhiều lỗi do:
Phỏng vấn viên có thể hiểu sai câu hỏi, dẫn đến việc thu thập dữ liệu không chính xác, thường do chọn sai đối tượng phỏng vấn hoặc ghi chép nhầm Hơn nữa, người được phỏng vấn có thể trả lời sai ý, và người đọc soát cũng có thể không phát hiện ra những sai sót này.
- Nhập dữ liệu sai, sót, thừa.
Khi thực hiện lệnh đếm tần số cho biến giới tính, quy ước mã hoá 1 cho nam và 2 cho nữ có thể gây nhầm lẫn trong quá trình nhập liệu Cụ thể, người dùng có thể vô tình gõ hai lần số 1 thay vì một lần cho giới tính nam.
Frequency Percent Valid percent Cumulative percent
11 1 2 2 100 total 500 100 100 b Các biện pháp ngăn ngừa
- Thiết kế bảng câu hỏi rõ ràng, dễ hỏi, dễ trả lời.
- Chọn lọc và huấn luyện phỏng vấn thật để hiểu thống nhất, tránh sai sót.
- Các bảng câu hỏi sau khi phỏng vấn xong phải được đọc soát kiểm lỗi chỉnh sửa trước khi nhập.
Việc mã hoá dữ liệu nên được thực hiện một cách tập trung bởi một nhóm nhỏ người phụ trách nhập liệu, nhằm tránh sự rối loạn do thiếu tính thống nhất Đồng thời, cần áp dụng các phương pháp làm sạch dữ liệu hiệu quả để đảm bảo chất lượng thông tin.
Lập bảng tần số cho tất cả các biến để xác định các giá trị lỗi Sử dụng lệnh find để xác định vị trí của các giá trị lỗi trong các biến đó và tiến hành chỉnh sửa Thực hiện quy trình tìm lỗi bằng cách áp dụng thủ tục find một cách hiệu quả.
Trên cửa sổ data view, bạn cần chọn toàn bộ cột tương ứng với biến có giá trị bị lỗi Để thực hiện việc này, hãy di chuyển con trỏ chuột lên đầu cột; khi con trỏ biến thành mũi tên màu đen hướng xuống, hãy nhấn chuột trái một lần Sau khi hoàn tất, toàn bộ cột sẽ được bôi đen.
To locate erroneous values in your data, navigate to the Edit menu and select Find to open the Find Data in Variable window Enter the faulty value in the "Find What" field and click the "Find Next" button The cell containing the error will be highlighted in white on your data screen.
- Truy ngược lại số thứ tự của hàng đó sẽ tìm về được bản câu hỏi tương ứng.
2 Dùng bảng phối hợp hai biến hay ba biến
Để phát hiện lỗi trong dữ liệu, hãy lập bảng kết quả hợp biến và sử dụng các quan hệ logic Ví dụ, khi kiểm tra bảng kết hợp giữa tuổi và nghề nghiệp, nếu phát hiện trường hợp tuổi là 13 mà nghề nghiệp là giáo viên, điều này cho thấy một trong hai biến đã bị nhập sai Sau khi xác định lỗi, sử dụng lệnh Select cases để tìm ra các trường hợp có lỗi.
Để lọc ra các trường hợp trong SPSS, bạn vào menu Data và chọn Select Cases Trong hộp thoại Select Case, hãy chọn mục "If condition is satisfied" để chỉ định điều kiện lọc cho tuổi = 13 và nghề nghiệp = giáo viên.
Để mở hộp Select Case: If, hãy nhấn nút If… dưới lựa chọn tình huống If condition is satisfied trong hộp thoại Select Case Tiến hành xây dựng biểu thức hàm If bằng cách chọn biến tuổi, nhấn nút mũi tên để chuyển sang khung nhập hàm bên phải, sau đó nhập dấu =, số 13, dấu &, chọn biến nghe, nhấn nút mũi tên để chuyển tiếp, nhập dấu = và số 2 Cuối cùng, bấm nút Continue để trở lại hộp thoại Select Case.