Cơ sở để so sánh Chọn mẫu xác suất Chọn mẫu phi xác suất Ý nghĩa
là một kỹ thuật lấy mẫu, trong đĩ các đối tượng của quần thể cĩ cơ hội bình đẳng để được chọn làm mẫu đại diện.
là một phương pháp lấy mẫu trong đĩ các đối tượng của quần thể khơng cĩ khả năng ngang nhau để được chọn vào mẫu nghiên cứu
Cơ sở lựa chọn Ngẫu nhiên Tự ý
Cơ hội lựa chọn Đã sửa và đã biết Khơng được chỉ định và khơng xác định
Nghiên cứu Kết luận Thăm dị
Kết quả Khơng thiên vị Xu hướng
Phương pháp Mục tiêu Chủ quan
Suy luận Thống kê Phân tích
Giả thuyết Thử nghiệm Tạo
Ưu điểm
- Một mẫu cĩ khả năng đại diện cho tổng thể mẫu. - Sử dụng các phương pháp ước lượng thống kê, xử lý dữ liệu để suy rộng kết quả trên mẫu cho tổng thể chung.
- Cách lấy mẫu dựa trên sự thuận tiện hay dựa trên tính dễ tiếp cận của đối tượng, ở những nơi mà nhân viên điều tra cĩ nhiều khả năng gặp được đối tượng.
Nhược điểm
- Khĩ áp dụng khi khơng xác định được danh sách cụ thể của tổng thể chung, tốn kém nhiều thời gian, chi phí, nhân lực cho việc thu thập dữ liệu khi đối tượng phân tán trên nhiều địa bàn cách xa nhau…
- Kết quả điều tra thường mang tính chủ quan của người nghiên cứu.
- Khơng thể tính được sai số do chọn mẫu, do đĩ khơng thể áp dụng phương pháp ước lượng thống kê để suy rộng kết quả trên mẫu cho tổng thể chung. Với sự hạn chế về thời gian và khả năng tiếp cận các đối tượng nên nghiên cứu này, tác giả chọn phương pháp chọn mẫu phi xác suất, kiểu lấy mẫu thuận tiện và phát triển mầm. Việc lấy mẫu này cĩ thể sẽ ảnh hưởng đến độ tin cậy của kết quả phân tích nhưng việc khoanh vùng đối tượng khảo sát trước (những đối tượng lĩnh vực xây dựng cơng nghiệp) cĩ thể làm nghiên cứu đạt được sự tin cậy cần thiết.
Yêu cầu về kích thước cỡ mẫu nhằm mục đích đảm bảo về độ tin cậy của số liệu đề ra, đồng thời đảm bảo phù hợp với điều kiện về thời gian và năng lực thực hiện.
Số lượng mẫu rất quan trọng nhằm thu thập được những kết quả nghiên cứu chính xác và cĩ ý nghĩa về mặt thống kê cũng như triển khai hoạt động nghiên cứu một cách thành cơng.
Nếu kích thước mẫu quá nhỏ, kết quả của bạn sẽ bị lẫn một tỷ lệ khơng cân đối những đối tượng khơng phù hợp và trường hợp ngoại lệ. Chúng sẽ làm thay đổi độ chính xác của kết quả nghiên cứu và khiến bạn khơng nắm được bức tranh chính xác của tổng thể.
Nếu kích thước mẫu quá lớn, tồn bộ hoạt động nghiên cứu sẽ trở nên quá phức tạp, tốn kém và mất quá nhiều thời gian để thực hiện, và dù kết quả cĩ chính xác hơn nữa thì lợi ích đĩ cũng khơng bù lại được chi phí bạn phải bỏ ra.
Theo Trọng và Ngọc (2008) [13], cơng thức xác định cỡ mẫu:
Trong đĩ: - 2
/2
Z : là giá trị tra bảng phân phối z căn cứ trên độ tin cậy 1
- e: là độ rộng của ước lượng
- p: tỉ lệ thành cơng, là tham số phải tìm cách ước lượng
Mặt khác, Trọng và Ngọc (2008) [13] cũng cho rằng số lượng mẫu cần khảo sát cĩ thể được ước tính sơ bộ ban đầu ít nhất phải từ 4 đến 5 lần số lượng biến quan sát. Ở nghiên cứu này, số biến là 18 nên số lượng bảng câu hỏi khoảng 72 đến 90 bảng. Số lượng bảng câu hỏi được gửi đi là 80 bảng, thu về được 75 bảng câu hỏi hợp lệ, tỉ lệ phản hồi là 93.75%, phù hợp với kích thước mẫu yêu cầu.
3.2.3. Phương pháp thu thập
Ở nghiên cứu này, mẫu được lấy theo phương pháp thuận tiện, cơng tác thu thập dữ liệu đã được thực hiện bằng cách gửi bảng khảo sát thơng qua phỏng vấn trực tiếp hoặc gián tiếp bằng Google Form thơng qua các ứng dụng Gmail, Zalo, Messenger,... đến những đối tượng khảo sát. Mặc dù, việc lấy khảo sát trực tiếp sẽ thu được kết quả tốt và hồn chỉnh hơn tránh những bảng câu hỏi bị đánh sĩt hay thiếu thơng tin của người khảo sát nhưng do dịch bệnh phức tạp nên việc lấy khảo sát trực tiếp bị hạn chế, tác giả ưu tiên tiến hành khảo sát online. Link khảo sát được tạo từ Google Form được gửi qua Email, Zalo, Facebook,...đến đối tượng khảo sát.
Bảng khảo sát ở giai đoạn sơ bộ được gửi đến ban quản lý dự án, các chuyên gia trong lĩnh vực xây dựng cơng nghiệp (nhà thầu kết cấu thép, ...).
Bảng khảo đại trà cung cấp dữ liệu cho việc phân tích thống kê nên cần số liệu nhiều hơn, tuy nhiên khĩ khăn tiếp cận với nhiều cơng ty hay dự án liên quan đến lĩnh vực kết cấu thép nhà cơng nghiệp, nên tác giả mở rộng đối tượng khảo sát. Bên cạnh các nhà thầu kết cấu thép, sẽ khảo sát thêm chuyên gia trong các cơng ty tổng thầu thi cơng nhà xưởng. Tất cả bảng câu hỏi được gửi đến Giám đốc dự án, kỹ sư quản lý dự án, trưởng phịng - chuyên viên phịng đấu thầu, kỹ sư giám sát cơng trình. Mục đích của bảng câu hỏi là thu thập ý kiến của những người cĩ kinh nghiệm lâu năm trong nghề nhằm đánh giá mức độ ảnh hưởng để loại bỏ các nhân tố khơng cần thiết và sắp xếp thứ tự mức độ ảnh hưởng của các nhân tố.
Những bảng khảo sát khơng phù hợp, cĩ thể gây sai lệch cho kết quả phân tích sẽ bị loại bỏ như:
+ Bảng trả lời của đối tượng khảo sát khơng thuộc lĩnh vực xây dựng cơng nghiệp. + Bảng trả lời cĩ đáp án đánh giá mức ảnh hưởng đều cùng một mức độ giống nhau hoặc theo đánh theo một quy luật nào đĩ.
3.3. Cơng cụ phân tích
Các cơng cụ nghiên cứu được trình bày cụ thể trong bảng sau: Bảng 3.3 Các cơng cụ nghiên cứu
TT Nội dung nghiên cứu Cơng cụ nghiên cứu
1 Mơ tả các tính chất của dữ liệu Thống kê mơ tả trên SPSS
2 Kiểm tra độ tin cậy của thang đo Hệ số Cronbach’s Alpha trên SPSS 3 Xây dựng mơ hình ước lượng Phần mềm Rapidminer Studio
4 Đánh giá mơ hình
Hệ số tương quan biến tổng, phần trăm sai số trung bình tuyệt đối, sai số trung bình tuyệt đối, sai số tồn phương trung bình.
3.3.1. Phân tích độ tin cậy bằng hệ số Cronbach’s Alpha
Cronbach (1951) [38] đưa ra hệ số tin cậy cho thang đo. Chú ý, hệ số Cronbach’s Alpha chỉ đo lường độ tin cậy của thang đo (bao gồm từ 3 biến quan sát trở lên) chứ khơng tính được độ tin cậy cho từng biến quan sát [35].
Hệ số Cronbach’s Alpha cĩ giá trị biến thiên trong đoạn [0,1]. Về lý thuyết, hệ số này càng cao càng tốt (thang đo càng cĩ độ tin cậy cao). Tuy nhiên điều này khơng hồn tồn chính xác. Hệ số Cronbach’s Alpha quá lớn (khoảng từ 0.95 trở lên) cho
thấy cĩ nhiều biến trong thang đo khơng cĩ khác biệt gì nhau, hiện tượng này gọi là trùng lắp trong thang đo [38].
Luận văn sử dụng IBM SPSS (Statistical Package for the Social Sciences, một phần mềm được sử dụng rộng rãi trong phân tích thống kê) để nhập các dữ liệu khảo sát đầu vào và tìm ra các nhân tố ảnh hưởng đến chi phí xây dựng kết cấu thép nhà xưởng trong giai đoạn đấu thầu.
Khi sử dụng thang đo đánh giá Likert 5 mức độ của người được khảo sát thì trị trung bình của mức độ đánh giá các yếu tố ảnh hưởng đến chi phí xây dựng nhà xưởng được sử dụng để phân tích và sắp xếp các yếu tố ảnh hưởng.
Hệ số tin cậy Cronbach’s Alpha chỉ cho biết các đo lường cĩ liên kết với nhau hay khơng, nhưng khơng cho biết biến quan sát nào cần bỏ đi và biến quan sát nào cần giữ lại. Khi đĩ, việc tính tốn hệ số tương quan giữa biến-tổng sẽ giúp loại ra những biến quan sát nào khơng đĩng gĩp nhiều cho sự mơ tả của khái niệm cần đo [34]. Cơng thức tính hệ số Cronbach’s Alpha:
Trong đĩ,
: hệ số tương quan trung bình giữa các mục hỏi N: tổng số mục hỏi
Phân tích độ tin cậy thơng qua nhận xét hệ số Cronbach’s Alpha để loại các biến khơng phù hợp.
Hệ số tương quan biến tổng là hệ số cho biết mối quan hệ giữa các biến quan sát trong nhân tố với các biến cịn lại. Nếu một biến đo lường cĩ hệ số tương quan biến tổng (Corrected Item – Total Correlation) lớn hơn hoặc bằng 0.3 thì biến đĩ đạt yêu cầu theo Nunnally, J. (1978) [40]
Mức giá trị hệ số Cronbach’s Alpha theo [13]:
- Từ 0.8 đến gần bằng 1: thang đo lường rất tốt.
- Từ 0.7 đến gần bằng 0.8: thang đo lường sử dụng tốt.
- Từ 0.6 trở lên: thang đo lường đủ điều kiện.
- Dưới 0.6: thang đo lường khơng phù hợp.
Hệ số tin cậy Cronbach’s Alpha là cơng cụ sẽ giúp kiểm tra xem các biến quan sát cĩ đáng tin cậy hay khơng, phản ánh mức độ tương quan chặt chẽ giữa các biến quan sát trong cùng một nhân tố. Nĩ cho biết trong các biến quan sát của một nhân tố, biến nào đã đĩng gĩp vào việc đo lường khái niệm nhân tố, biến nào khơng. Kết quả Cronbach’s Alpha của nhân tố tốt thể hiện rằng các biến quan sát chúng ta liệt kê
là rất tốt, thể hiện được đặc điểm của nhân tố mẹ, chúng ta đã cĩ được một thang đo tốt cho nhân tố mẹ này.
Để cĩ thể thực hiện những điều này, chúng ta cần phải xác định câu hỏi nào khơng ảnh hưởng trong tập hợp tồn bộ câu hỏi. Khi đĩ, việc tính tốn, đánh giá hệ số tương quan giữa biến tổng sẽ giúp chúng ta cĩ thể loại bỏ những biến quan sát khơng quan trọng, ít đĩng gĩp cho sự mơ tả của các khái niệm cần đo, theo [13].
Chúng ta cũng cần chú ý đến giá trị của cột Cronbach's Alpha if Item Deleted, cột này biểu diễn hệ số Cronbach's Alpha nếu loại biến đang xem xét. Mặc dù đây khơng phải là một tiêu chuẩn phổ biến để đánh giá độ tin cậy thang đo, tuy nhiên, nếu giá trị Cronbach's Alpha if Item Deleted lớn hơn hệ số Cronbach Alpha của nhĩm thì chúng ta nên cân nhắc xem xét biến quan sát này tùy vào từng trường hợp.
3.3.2. Đánh giá hiệu suất mơ hình
Các chỉ số đánh giá hiệu suất mơ hình ở bảng bên dưới: Bảng 3.4 Đánh giá hiệu suất mơ hình
Chỉ số Cơng thức
Hệ số tương quan tuyến tính R
2 2 2 2 . ' . ' ( ) ( ) . ( ') ( ') n y y y y R n y y n y y
Phần trăm sai số trung bình tuyệt đối
1 1 n ' i y y MAPE n y
Sai số trung bình tuyệt đối
1 1 n ' i MAE y y n
Sai số tồn phương trung bình 2
1 1 n ' i RMSE y y n 3.3.3. RapidMiner studio 9.5
Rapidminer là một mã nguồn mở, là một mơi trường cho Machine learning và Data mining và được viết bằng ngơn ngữ lập trình Java. Chúng sử dụng mơ hình Client/Server với máy chủ là on-premise hoặc public cloud hoặc private cloud.
Rapidminer cung cấp các lược đồ Learning Schemas, các mơ hình và các thuật tốn, và cĩ thể được mở rộng bằng ngơn ngữ R và Python.
Các thuật tốn trong Data mining được chia thành 2 loại:
- Thuật tốn Learning được giám sát: Là các thuật tốn yêu cầu đã cĩ đầu ra Output (hoặc gọi là Label hay Target). Một số mơ hình thuộc thuật tốn này cĩ thể kể đến như: Nạve Bayes, cây quyết định (Decision Tree), mạng thần kinh (Neural Networks), SVM (Support Vector Machine), mơ hình hồi quy (Logistic Regression), ...
- Thuật tốn Learning khơng được giám sát: Là các thuật tốn khơng bắt buộc phải biết trước đầu ra Output nhưng cĩ thể tìm kiếm các khuơn mẫu hoặc các xu hướng mà khơng cĩ Label hoặc Target, như mơ hình K-Mean Clustering, Anomaly Detection, Association Mining.
Với Rapidminer, cĩ thể giúp bạn:
- Tải và chuyển đổi dữ liệu (Extract, Transform, Load (ETL))
- Xử lý dữ liệu và trực quan dữ liệu
- Xây dựng các mơ hình dự báo và phân tích thống kê
- Đánh giá và triển khai dữ liệu
CHƯƠNG 4 : PHÂN TÍCH DỮ LIỆU
Nội dung chương 4 bao gồm:
4.1. Khảo sát thử nghiệm
Sau khi tổng hợp được bảng các nhân tố ảnh hưởng đến chi phí xây dựng kết cấu thép nhà xưởng, tác giả tiến hành khảo sát ý kiến chuyên gia. Những chuyên gia này sẽ giúp đánh giá, loại bỏ và bổ sung các tiêu chí để hồn chỉnh bảng khảo sát chính thức. Tổng hợp kết quả, tác giả lựa chọn những tiêu cĩ sự tương đồng giữa các chuyên gia, loại bỏ những yếu tố được đánh giá thấp. Ngồi ra, các chuyên gia bổ sung một
Chương 4
Khảo sát đại trà Khảo sát thử nghiệm
Phân tích dữ liệu Quy trình xây dựng mơ hình
Thực hiện mơ hình
Thu thập dữ liệu theo biến đã xác định Thiết kế thơng số mơ hình So sánh với các mơ hình khác
trượt giá. Sau khi tổng hợp ý kiến chuyên gia. Nghiên cứu nhận dạng được 18 yếu tố ảnh hưởng đến chi phí xây dựng nhà xưởng như bảng bên dưới:
Các biến quan sát được đo lường theo thang đo Likert 5 theo mức độ tăng dần (1)- Khơng ảnh hưởng, (2)-Ít ảnh hưởng, (3)-Ảnh hưởng trung bình, (4)-Ảnh hưởng nhiều, (5)- Ảnh hưởng rất nhiều. Thang đo định danh (nominal) được sử dụng để phân biệt các đối tượng tham gia khảo sát.
Bảng 4.1 Bảng mã hĩa các yếu tố ảnh hưởng khảo sát sơ bộ
STT Yếu tố ảnh hưởng Mã hĩa
1 Thời điểm thi cơng NT1
2 Địa điểm cơng trình NT2
3 Cơng năng sử dụng NT3
4 Biện pháp thi cơng NT4
5 Tiến độ thi cơng NT5
6 Kết cấu khung NT6 7 Khẩu độ nhà (nhịp nhà) NT7 7 Khẩu độ nhà (nhịp nhà) NT7 8 Bước nhà NT8 9 Chiều cao nhà NT9 10 Cầu trục NT10 11 Số tầng NT11 12 Địa hình tính giĩ NT12
13 Tải treo (bao gồm tải phụ và tải pin mặt trời) NT13
14 Diện tích xây dựng NT14
15 Loại mái NT15
16 Loại vách NT16
17 Hệ số trượt giá. NT17
18 Hệ số ứng suất (Stress ratio) NT18
Bảng khảo sát sơ bộ được thực hiện với 15 người cĩ nhiều năm kinh nghiệm trong cơng tác đấu thầu, thiết kế, thi cơng và quản lý dự án nhà xưởng tại Việt Nam bằng
cách phỏng vấn trực tiếp và online. Sau phỏng vấn nhận lại 15 bảng câu trả lời ở bảng 4.2. Trong đĩ, cơng tác tại phịng đấu thầu (chiếm 40%), cơng tác thi cơng (chiếm 13.3%), cơng tác thiết kế (20%), cơng tác quản lý dự án (30%) và cĩ kinh nghiệm làm việc từ 5 năm trở lên. Số liệu này cho thấy đối tượng khảo sát phù hợp với yêu cầu, phạm vi của nghiên cứu và đáng tin cậy.
Bảng 4.2 Danh sách chuyên gia khảo sát sơ bộ
STT Nơi cơng tác Kinh nghiệm làm việc Số lượng Tỷ lệ (%)
1 Phịng đấu thầu 5- 10 năm 2 13.3
Trên 10 năm 4 26.7
2 Phịng thiết kế 5- 10 năm 2 13.3
Trên 10 năm 1 6.7
3 Phịng thi cơng 5- 10 năm 1 6.7
Trên 10 năm 1 6.7
4 Phịng quản lý dự án 5- 10 năm 3 23.3
Trên 10 năm 1 6.7
Tổng 15 100%
Tiến hành sử dụng IBM SPSS 15 phân tích thu được kết quả ở bảng 4.3: Bảng 4.3 Kết quả phân tích trị trung bình của khảo sát sơ bộ
STT Nhân tố Mã hĩa Trị trung bình Xếp hạng Độ lệch chuẩn
1 Thời điểm thi cơng NT1 4.13 6 0.743
2 Địa điểm cơng trình NT2 4.27 4 0.704
3 Cơng năng sử dụng NT3 4.47 1 0.64
4 Biện pháp thi cơng NT4 4.2 5 0.561
5 Tiến độ thi cơng NT5 4.33 3 0.617
STT Nhân tố Mã hĩa Trị trung bình Xếp hạng Độ lệch chuẩn 7 Khẩu độ nhà (nhịp nhà) NT7 4.4 2 0.737 8 Bước nhà NT8 3.4 15 0.737 9 Chiều cao nhà NT9 3.33 16 0.617 10 Cầu trục NT10 3.07 17 0.594 11 Số tầng NT11 3.8 11 0.414 12 Địa hình tính giĩ NT12 3.87 9 0.834
13 Tải treo (bao gồm tải phụ và tải pin mặt
trời) NT13 3.8 10 0.862
14 Diện tích xây dựng NT14 4.07 8 0.458
15 Loại mái NT15 3.6 14 0.632
16 Loại vách NT16 3.6 13 0.632
17 Hệ số trượt giá NT17 4.07 7 0.704