- Thu thập dữ liệu về các yếu tố ảnh hưởng, sau đó áp dụng và phát triển các mô hình học máy để dự báo chi phí xây dựng nhà xưởng và các hạng mục phụ trợ.. Nghiên cứu này không chỉ phân
TỔNG QUAN
Tính cấp thiết của đề tài
1.1.1 Tình hình ngành xây dựng hiện nay:
Trong thập kỷ qua, ngành xây dựng ở Việt Nam đã chứng kiến sự phát triển mạnh mẽ và không ngừng nghỉ Từ các công trình cơ bản như nhà ở, trường học, đến những dự án lớn như cầu đường, nhà xưởng, hay các khu công nghiệp, mỗi công trình đều mang đến cho ngành xây dựng những thách thức mới và cơ hội phát triển Trong bối cảnh này, việc ước tính chi phí xây dựng trở thành một yếu tố quan trọng, đóng vai trò quyết định đến sự thành công của mỗi dự án Theo Gwang Hee Kim và cộng sự (2013) [52] việc ước tính chi phí xây dựng không chỉ đơn thuần là việc tính toán số liệu, nó còn liên quan đến việc đánh giá và dự báo các yếu tố ảnh hưởng đến chi phí, từ giá vật liệu xây dựng, tiền công, chi phí quản lý dự án, đến các rủi ro không lường trước được Sự chính xác trong việc ước tính chi phí xây dựng có thể giúp ngăn ngừa sự lệch pha giữa dự toán và thực tế, đảm bảo hiệu quả đầu tư và tối thiểu hóa rủi ro tài chính Trong một thị trường cạnh tranh khốc liệt như Việt Nam, việc này càng trở nên quan trọng Đối với việc xây dựng nhà xưởng, nhu cầu về việc ước tính chi phí càng được đặt lên hàng đầu Nhà xưởng là một phần quan trọng của nền kinh tế, đặc biệt là trong bối cảnh công nghiệp hóa, hiện đại hóa đang diễn ra mạnh mẽ ở Việt Nam Các nhà xưởng không chỉ đòi hỏi sự tuân thủ nghiêm ngặt các quy định về an toàn lao động và môi trường, mà còn cần phải đáp ứng nhu cầu sử dụng hiệu quả, từ việc tối ưu hóa không gian, năng lượng, đến việc chịu đựng được áp lực từ các hoạt động sản xuất
Quá trình dự toán chi phí thi công nhà xưởng đòi hỏi sự cẩn trọng và chuyên nghiệp cao Hơn nữa, sự phát triển của công nghệ và đổi mới trong ngành xây dựng cũng buộc công tác dự toán chi phí nhà xưởng phải thích ứng Nhà xưởng ngày nay không chỉ là không gian sản xuất mà còn phải tận dụng tối đa những tiến bộ công nghệ, từ năng lượng tái tạo, hệ thống quản lý thông minh đến tối ưu hiệu quả vận hành và bảo dưỡng Tất cả những yếu tố này tạo nên nhu cầu lớn về các dịch vụ dự toán chi phí xây dựng nhà xưởng chuyên nghiệp, đảm bảo tính chính xác và hiệu quả kinh tế.
PHẠM TẤN DŨNG - 2170245 2 ước tính chi phí xây dựng nhà xưởng một cách chính xác và chuyên nghiệp Để đáp ứng nhu cầu này, các chuyên gia trong ngành xây dựng cần có kiến thức sâu rộng, từ việc hiểu rõ về quy trình xây dựng, đánh giá vật liệu, đến việc áp dụng các phương pháp và công cụ ước tính hiện đại
Chính vì vậy, tầm quan trọng của việc ước tính chi phí xây dựng, cụ thể là xây dựng nhà xưởng ở Việt Nam hiện nay không thể phủ nhận Đây là yếu tố quyết định đến sự thành công của dự án và thậm chí là sự phát triển bền vững của ngành xây dựng nói chung Việc này đòi hỏi sự nâng cao năng lực của các nhân viên trong ngành, cũng như việc đầu tư vào công nghệ và phương pháp tiên tiến, nhằm cung cấp những ước lượng chi phí chính xác và hiệu quả
Hiện nay, tại Việt Nam các phương pháp ước tính chi phí xây dựng thường được áp dụng, bao gồm: a Phương pháp thể tích:
Phương pháp đơn vị thể tích, còn được gọi là phương pháp tính theo khối, là một cách tiếp cận thông dụng trong ước lượng chi phí xây dựng Phương pháp này dựa trên việc xác định tổng thể tích của công trình xây dựng và nhân với một đơn giá tiêu chuẩn để có được một ước lượng tổng thể của chi phí xây dựng.[25]
Dưới đây là các bước chính trong việc ứng dụng phương pháp này:
- Xác định tổng thể tích của công trình: Cách xác định thể tích của một công trình được quy định bởi các tổ chức nghề nghiệp (như là Royal Institute of British Architecs – RIB) hoặc quốc gia cụ thể RIB quy định:
Thể tích một công trình ( m 3 ) = Dài (m) x Rộng (m) x Cao (m) (1.1)
- Tìm đơn giá tiêu chuẩn: Đơn giá này thường được lấy từ dữ liệu của các dự án xây dựng tương tự trong quá khứ, hoặc từ các nguồn thông tin công nghiệp
- Tính toán chi phí tổng thể: Nhân tổng thể tích của công trình với đơn giá tiêu chuẩn để có được một ước lượng chi phí tổng thể
Chí phí xây dựng = Thể tích công trình (m 3 ) x giá thành của một m 3 (đ/m 3 ) (1.2)
- Đơn giản và nhanh chóng: Phương pháp này yêu cầu ít thông tin chi tiết và ít công sức tính toán so với một số phương pháp ước lượng chi phí khác
- Tốt cho giai đoạn sơ bộ: Đây là một cách tốt để có được một ước lượng sơ bộ về chi phí xây dựng ở giai đoạn đầu của dự án, khi thông tin chi tiết có thể chưa được biết
- Dễ so sánh: Khi được sử dụng như một chuẩn mực, phương pháp này có thể giúp so sánh chi phí của các dự án xây dựng khác nhau
- Ít chính xác: Do phương pháp này dựa trên ước lượng sơ bộ và giả định rằng tất cả các công trình có cùng một đơn giá cho mỗi đơn vị thể tích, nó có thể không chính xác đối với các dự án có đặc điểm khác nhau hoặc đối với các dự án phức tạp
- Không xem xét các yếu tố đặc biệt: Phương pháp này không xem xét các yếu tố đặc biệt hoặc không thông thường trong quá trình xây dựng, như yêu cầu về chất lượng cao, vị trí địa lý, hoặc yếu tố thời gian
Giá đơn vị có thể lỗi thời: Giá đơn vị chuẩn phải được cập nhật thường xuyên để phản ánh đúng chi phí xây dựng hiện tại Nếu không, dự toán có thể bị sai lệch.
Phương pháp diện tích sàn là một phương pháp ước lượng chi phí xây dựng rất phổ biến Theo Lưu Trường Văn (2014) [25] phương pháp này dựa trên việc nhân diện tích sàn tổng cộng của công trình xây dựng với một đơn giá tiêu chuẩn (thường được đưa ra dưới dạng chi phí cho mỗi mét vuông)
Dưới đây là các bước chính để thực hiện phương pháp diện tích sàn:
- Xác định diện tích sàn tổng cộng của công trình:
Tổng diện tích sàn của tất cả các tầng = Diện tích mặt sàn sử dụng + Các loại diện tích khác đi kèm (mái, sân, phần móng, tầng hầm…) (1.3)
- Tìm đơn giá tiêu chuẩn: Đơn giá này thường được lấy từ dữ liệu của các dự án xây dựng tương tự trong quá khứ, hoặc từ các nguồn thông tin công nghiệp
- Tính toán chi phí tổng thể: Nhân diện tích sàn tổng cộng của công trình với đơn giá tiêu chuẩn để có được một ước lượng chi phí tổng thể
Tổng chi phí = Tổng diện tích sàn x giá thành 1m 2 sàn (1.4)
Mục tiêu nghiên cứu
Mục tiêu của nghiên cứu trong việc áp dụng các mô hình học máy (ML) để dự báo chi phí xây dựng nhà xưởng là tạo ra một mô hình dự báo chính xác và đáng tin cậy, giúp nhà thầu và nhà quản lý dự án lên kế hoạch ngân sách một cách hiệu quả Để đạt được mục tiêu này, các bước sau được thực hiện:
- Xác định các nhân tố ảnh hưởng tới chi phí: Mục tiêu ban đầu là xác định các yếu tố quan trọng và ảnh hưởng đến chi phí xây dựng nhà xưởng, bao gồm diện tích, vị trí địa lý, đặc điểm công trình, loại nguyên vật liệu, cũng như các yếu tố khác có thể ảnh hưởng đến quy mô và phức tạp của dự án
- Thu thập dữ liệu: Để xây dựng mô hình dự báo chi phí quá trình thu thập dữ liệu từ các dự án xây dựng nhà xưởng trước đây là cần thiết Dữ liệu này bao gồm thông tin chi tiết về các yếu tố ảnh hưởng đến chi phí và giá trị thực tế của dự án
- Xây dựng các mô hình học máy: Sử dụng các phương pháp học máy và thuật toán, mục tiêu là xây dựng một mô hình dự báo chi phí xây dựng dựa trên dữ liệu thu thập được Các mô hình này có thể bao gồm các kỹ thuật như học có
PHẠM TẤN DŨNG - 2170245 11 giám sát, học không giám sát, hoặc kết hợp cả hai để tạo ra dự báo chính xác và linh hoạt
- Đánh giá và lựa chọn mô hình phù hợp nhất: Mục tiêu cuối cùng là đánh giá hiệu suất của các mô hình và lựa chọn mô hình phù hợp nhất cho việc dự báo chi phí xây dựng nhà xưởng Các tiêu chí đánh giá bao gồm độ chính xác, độ tin cậy và khả năng mở rộng của mô hình.
Đối tượng nghiên cứu
- Dữ liệu liên quan đến xây dựng nhà xưởng và các hạng mục phụ trợ: Bao gồm các thông tin về quy mô, vị trí, thiết kế, vật liệu, thi công, giám sát và các thông tin khác liên quan đến xây dựng nhà xưởng và các hạng mục phụ trợ
- Các yếu tố ảnh hưởng đến chi phí xây dựng: Bao gồm các yếu tố về lao động, vật liệu, thiết bị, vận chuyển, khí hậu, thị trường, chính sách và các yếu tố khác có thể ảnh hưởng đến chi phí xây dựng
- Các phương pháp và công nghệ trí tuệ nhân tạo: Bao gồm các phương pháp và công nghệ trí tuệ nhân tạo như học máy, mạng nơ-ron nhân tạo, học sâu, các giải thuật tối ưu, v.v được áp dụng để dự báo chi phí xây dựng nhà xưởng và các hạng mục phụ trợ
- Các chuyên gia trong lĩnh vực xây dựng: Những chuyên gia trong lĩnh vực xây dựng có kinh nghiệm và kiến thức về các yếu tố ảnh hưởng đến chi phí xây dựng cũng là đối tượng nghiên cứu quan trọng trong đề tài này Các chuyên gia này có thể được tham gia đưa ra các thông tin phục vụ cho việc xây dựng mô hình dự báo.
Phạm vi nghiên cứu
Thời gian thực hiện nghiên cứu 6 tháng
Không gian: Công ty xây dựng chuyên về nhà xưởng tại Tp HCM, Bình Dương
CƠ SỞ LÝ THUYẾT
Khái niệm
Nhà xưởng là một không gian được xây dựng đặc biệt để phục vụ cho công việc sản xuất và chế biến trong nhiều ngành công nghiệp khác nhau, từ chế tạo máy móc, cơ khí, chế biến thực phẩm đến dệt may, sản xuất đồ điện tử Nhà xưởng không chỉ đơn thuần là một không gian chứa đựng máy móc, nó còn tạo điều kiện thuận lợi để nhân viên làm việc hiệu quả, an toàn và thuận tiện
Hình 2.1 Nhà máy bê tông Hồng Tín Bình Phước Đầu tiên, khi xây dựng một nhà xưởng, phần chính cần xem xét là không gian làm việc Kích thước và cấu trúc của không gian này phụ thuộc vào loại hình sản xuất, quy mô doanh nghiệp, số lượng nhân viên và loại máy móc sử dụng Không gian làm việc cần rộng rãi, thoáng đãng, đảm bảo ánh sáng đủ và có hệ thống thông gió tốt để tạo môi trường làm việc thoải mái, an toàn cho công nhân Tiếp theo, phần quan trọng thứ hai là hệ thống điện và cung cấp năng lượng Hệ thống này phải đủ mạnh để cung cấp điện cho tất cả các máy móc và thiết bị, đồng thời đảm bảo an toàn, tránh nguy cơ cháy nổ do chập điện Bên cạnh đó, việc lựa chọn nguồn năng lượng thân thiện với môi trường như điện mặt trời, gió cũng đang trở nên phổ biến Hạng mục thứ ba đó là hệ thống quản lý chất thải Trong quá trình sản xuất, việc sinh ra chất thải không thể tránh khỏi Hệ thống quản lý chất thải giúp xử lý và loại bỏ chất
PHẠM TẤN DŨNG - 2170245 13 thải một cách an toàn, không gây ô nhiễm môi trường Cuối cùng, nhà xưởng cũng cần có các khu vực phụ trợ như khu vực để nghỉ ngơi, ăn uống, vệ sinh cho công nhân Đây không chỉ là yêu cầu về quy định pháp luật mà còn góp phần nâng cao hiệu suất làm việc và tạo môi trường làm việc lành mạnh, tôn trọng quyền lợi của công nhân
Nhà xưởng không chỉ là nơi để sản xuất sản phẩm, mà còn là nơi mà công nhân dành phần lớn thời gian hàng ngày để làm việc Việc xây dựng và quản lý nhà xưởng cần đặc biệt chú trọng đến việc tạo ra một môi trường làm việc hiệu quả, an toàn và thoải mái Điều này yêu cầu một sự cân nhắc kỹ lưỡng về không gian làm việc, hệ thống điện, quản lý chất thải và các khu vực phụ trợ Hơn nữa, các yếu tố như tiếng ồn, độ ẩm, nhiệt độ cũng cần được quan tâm Việc kiểm soát những yếu tố này giúp đảm bảo sức khỏe của nhân viên và tăng hiệu suất làm việc Bên cạnh đó, nhà xưởng cũng cần tuân thủ các quy định về an toàn lao động, phòng cháy chữa cháy, bảo vệ môi trường Nhà xưởng cũng cần được bảo dưỡng định kỳ để đảm bảo hoạt động ổn định và phòng tránh các rủi ro có thể xảy ra
Nhắc đến nhà xưởng thì hạng mục phụ xung quanh nó cũng góp phần quan trọng không kém Hạng mục phụ của nhà xưởng là các công trình, thiết bị và tiện ích hỗ trợ không trực tiếp liên quan đến quá trình sản xuất chính trong nhà xưởng, nhưng lại đóng vai trò quan trọng trong việc tạo điều kiện làm việc an toàn, tiện nghi và hiệu quả Các hạng mục phụ này thường bao gồm:
- Nhà vệ sinh và nhà tắm: Bao gồm các công trình như nhà vệ sinh, nhà tắm, phòng vệ sinh và phòng tắm cho nhân viên trong nhà xưởng Điều này đảm bảo rằng nhân viên có điều kiện vệ sinh cá nhân tốt và thoải mái trong quá trình làm việc
- Nhà ăn nhân viên: Là một khu vực được dành riêng để nhân viên trong nhà xưởng có thể ăn uống và nghỉ ngơi trong khoảng thời gian giải lao Nhà ăn thường bao gồm khu vực ăn uống, bếp và các tiện ích khác để phục vụ nhân viên
- Khu vực nghỉ giải lao: Đây là khu vực được thiết kế để nhân viên có thể nghỉ ngơi và giải lao trong khoảng thời gian nghỉ giữa ca làm việc Khu vực này có thể bao gồm các khu vực ghế ngồi, khu vực xanh, hoặc các tiện ích giải trí khác như phòng chơi game, phòng gym
- Khu vực tiếp khách: Đối với những nhà xưởng có quy mô lớn hoặc có nhu cầu tiếp đón khách hàng, khu vực tiếp khách được thiết kế để chào đón và tiếp đón khách hàng Điều này có thể bao gồm khu vực tiếp tân, phòng họp và khu vực chờ
Khu vực bảo vệ và an ninh đảm nhiệm vai trò quan trọng trong việc bảo vệ nhà xưởng khỏi các mối đe dọa bên ngoài Khu vực này bao gồm nhà bảo vệ, hàng rào, hệ thống camera giám sát và nhiều biện pháp phòng ngừa khác Những biện pháp này đóng vai trò là lớp bảo vệ đầu tiên, ngăn chặn sự xâm nhập không mong muốn, bảo vệ tài sản và đảm bảo sự an toàn của toàn bộ nhà xưởng.
- Ký túc xá nhân viên: Đối với những nhà xưởng có đội ngũ nhân viên từ xa, ký túc xá nhân viên cung cấp nơi ở cho nhân viên trong khoảng thời gian làm việc
- Khu vực bảo trì và sửa chữa: Bao gồm các phòng bảo trì, phòng sửa chữa và khu vực để lưu trữ các công cụ, vật liệu và linh kiện cần thiết để bảo trì và sửa chữa thiết bị trong nhà xưởng
- Hệ thống điện, nước và thoát nước: Bao gồm hệ thống điện chiếu sáng, hệ thống cung cấp nước sạch và hệ thống thoát nước để đảm bảo nguồn điện, nước và xử lý nước hiệu quả trong nhà xưởng
Các hạng mục phụ trong quá trình hoàn thiện nhà xưởng có vai trò thiết yếu trong việc tạo lập một môi trường làm việc an toàn, tiện nghi và nâng cao hiệu suất cho đội ngũ nhân viên.
Với sự phát triển của công nghệ, các nhà xưởng ngày nay đang ngày càng trở nên thông minh hơn với việc áp dụng các giải pháp tự động hóa, robot hóa, IoT, AI giúp tăng cường hiệu suất, giảm thiểu lỗi và tiết kiệm chi phí Như vậy, nhà xưởng không chỉ đóng vai trò quan trọng trong việc sản xuất hàng hóa mà còn góp phần tạo ra môi trường làm việc chất lượng cho công nhân Việc thiết kế và quản lý nhà xưởng
PHẠM TẤN DŨNG - 2170245 15 đúng cách sẽ đóng một vai trò quan trọng trong sự thành công của một doanh nghiệp công nghiệp
Các hàm và phương pháp phổ biến trong Machine Learning
Trong lĩnh vực học máy (Machine Learning), có một số hàm và phương pháp phổ biến được sử dụng rộng rãi cho các mục đích khác nhau, từ xử lý dữ liệu, huấn luyện mô hình, đến đánh giá hiệu suất Dưới đây là một số hàm và phương pháp trong
Bảng 2.1: Các hàm và phương pháp trong học máy
Mean Squared Error (MSE) Hồi quy tuyến tính và hồi quy đa biến
Cross-Entropy Loss Mạng nơ-ron ANN, Convolutional Neural Networks
Sử dụng trong Support Vector Machine (SVM) cho bài toán phân loại
ReLU Phổ biến trong mạng nơ-ron sâu, CNNs và mạng nơ- ron truy hồi (Recurrent Neural Networks - RNNs)
Sigmoid Sử dụng ở lớp đầu ra của các mô hình phân loại nhị phân Softmax Sử dụng ở lớp đầu ra của các mô hình phân loại đa lớp
3 Thuật toán tối ưu hóa
Gradient Descent Được sử dụng trong hầu hết các mô hình học máy, đặc biệt là trong mạng nơ-ron sâu
(Evaluation Metrics) Độ chính xác (Accuracy) Được sử dụng trong hầu hết các thuật toán phân loại
Precision và Recall Sử dụng trong các bài toán phân loại, đặc biệt hữu ích trong các tình huống có dữ liệu không cân đối hoặc khi chi phí của các loại lỗi khác nhau
Có thể được sử dụng trước khi đưa dữ liệu vào hầu hết các mô hình học máy, bao gồm hồi quy tuyến tính, SVM, và mạng nơ-ron
Euclidean Distance Thường được sử dụng trong thuật toán phân cụm như
K-Means hoặc trong các thuật toán phân loại dựa trên khoảng cách như K-Nearest Neighbors (KNN) Manhattan Distance
2.2.1 Hàm Mất Mát (Loss Functions):
2.2.1.1 Hàm MSE (Mean Squared Error)
Hàm Mean Square Error (MSE), hay còn gọi là lỗi trung bình bình phương, là một hàm mất mát (loss function) phổ biến trong học máy, đặc biệt trong các bài toán hồi quy (regression) MSE đo lường mức độ chênh lệch giữa các giá trị dự đoán của mô hình và giá trị thực tế Công thức của MSE là trung bình của bình phương các sai số giữa dự đoán và thực tế [59]
Công thức của MSE là:
• n là số lượng mẫu dữ liệu
• yi là giá trị thực tế của mẫu thứ i
• y là giá trị dự đoán của mẫu thứ i
MSE cung cấp một chỉ số định lượng cho việc đánh giá chất lượng của mô hình học máy: một giá trị MSE thấp cho thấy mô hình có khả năng dự đoán chính xác hơn so với một giá trị MSE cao Hàm này đặc biệt hữu ích trong các tình huống mà bạn muốn trừng phạt các dự đoán sai lệch lớn, bởi vì các sai số lớn được làm tăng cường do tính chất bình phương trong công thức
Hàm mất mát Cross Entropy, còn được gọi là mất mát Log, là một hàm mất mát được sử dụng rộng rãi trong các bài toán phân loại trong học máy Về bản chất, hàm này đo mức độ khác nhau giữa phân phối xác suất dự đoán của mô hình và phân phối thực tế của dữ liệu Giá trị của hàm càng nhỏ thì mô hình càng dự đoán chính xác Hàm mất mát Cross Entropy thường được sử dụng với các mô hình phân loại nhị phân, trong đó chỉ có hai lớp đầu ra khả thi.
PHẠM TẤN DŨNG - 2170245 26 là trong các bài toán phân loại nhị phân và đa lớp Hàm này đo lường sự khác biệt giữa hai phân phối xác suất: phân phối xác suất thực tế của nhãn dữ liệu và phân phối xác suất dự đoán bởi mô hình [59] Đối với phân loại nhị phân, công thức của Cross Entropy là:
• N là số lượng mẫu trong tập dữ liệu
• y i là nhãn thực tế của mẫu thứ i, thường là 0 hoặc 1
• y i là xác suất dự đoán mà mẫu thứ i thuộc lớp 1, như được dự đoán bởi mô hình Đối với phân loại đa lớp, công thức của Cross Entropy được mở rộng để tính toán xác suất cho mỗi lớp và so sánh với nhãn thực tế của từng lớp
Hàm Cross Entropy trừng phạt mạnh mẽ các dự đoán chắc chắn nhưng sai lệch, khiến nó trở thành một công cụ hữu ích trong việc huấn luyện các mô hình phân loại có hiệu suất cao Điều này giúp đảm bảo rằng mô hình không chỉ dự đoán đúng nhãn mà còn dự đoán với mức độ tự tin cao
Hàm Hinge là một hàm mất mát được sử dụng chủ yếu trong các bài toán phân loại, đặc biệt là với các thuật toán Máy Vector Hỗ Trợ (Support Vector Machines - SVMs) Hàm này thiết kế để tối ưu hóa các phân loại nhị phân và đặc biệt hiệu quả trong việc tăng cường "margin" - khoảng cách giữa các điểm dữ liệu và ranh giới quyết định [29]
Công thức cơ bản của Hinge là: max(0,1 i i )
• y i là nhãn thực tế của mẫu thứ i, thường là -1 hoặc 1
• y i là giá trị dự đoán của mẫu thứ i, tính bằng cách nhân trọng số của mô hình với các đặc trưng của mẫu
Hàm Hinge Loss hoạt động bằng cách trừng phạt các dự đoán sai lệch khi chúng nằm bên sai lầm của ranh giới quyết định Mục tiêu của Hinge Loss không chỉ là phân loại chính xác các mẫu, mà còn là tối đa hóa khoảng cách giữa các mẫu và ranh giới quyết định, nhằm tạo ra một mô hình có khả năng phân loại tổng quát tốt trên dữ liệu mới
Mất máng Hinge đặc biệt thích hợp với SVM do nó tối ưu hóa khoảng cách - một mục tiêu cốt lõi của SVM Tuy nhiên, phương pháp này không cung cấp xác suất dự đoán mà chỉ đưa ra quyết định phân loại, vì thế kém thông dụng trong các mô hình phân loại đòi hỏi dự đoán xác suất.
2.2.2 Hàm Kích Hoạt (Activation Functions):
Hàm ReLU (Rectified Linear Unit) là một trong những hàm kích hoạt (activation function) phổ biến nhất trong các mạng nơ-ron sâu (deep neural networks), đặc biệt là trong các mạng nơ-ron chập (convolutional neural networks - CNNs) Hàm ReLU được đánh giá cao vì tính đơn giản, hiệu quả trong việc giảm thiểu vấn đề biến mất gradient (vanishing gradient problem) mà các hàm kích hoạt phi tuyến truyền thống (như sigmoid hay tanh) thường gặp phải.[29]
Công thức của hàm ReLU là:
= (2.4) Định nghĩa trên có thể được viết lại như sau:
Nghĩa là, nếu giá trị đầu vào v là dương, hàm sẽ trả về giá trị đó; còn nếu v là âm, hàm sẽ trả về 0 Tính chất này giúp ReLU duy trì tính phi tuyến mà không làm tăng độ phức tạp của quá trình tính toán, cũng như giúp đẩy nhanh quá trình học của mạng nơ ron
Một số lợi ích của hàm ReLU bao gồm:
- Tính Hiệu Quả Tính Toán: Do tính chất đơn giản của nó, ReLU thường nhanh hơn các hàm kích hoạt phi tuyến khác
- Giảm Thiểu Vấn Đề Biến Mất Gradient: Trong quá trình lan truyền ngược (backpropagation), gradient của hàm ReLU không biến mất khi giá trị đầu vào dương, giúp mạng nơ-ron học hiệu quả hơn
Tuy nhiên, ReLU cũng có nhược điểm là "chết" (dying ReLU problem) với các nơ-ron có giá trị đầu vào âm, vì các nơ-ron này sẽ luôn trả về 0 và không còn được cập nhật trong quá trình học Để khắc phục, các biến thể của ReLU như Leaky ReLU hoặc Parametric ReLU (PReLU) đã được phát triển [29]
QUY TRÌNH NGHIÊN CỨU
Phương pháp nghiên cứu
Quy trình nghiên cứu gồm 8 bước như sau:
Bước 1: Dựa vào các nghiên cứu từ trước của các tác giả nước ngoài cũng như tổng hợp ý kiến của các chuyên gia về lĩnh vực nhà xưởng công nghiệp trong nước
Thiết kế bảng câu hỏi khảo sát Đánh giá sơ bộ bảng câu hỏi
Xây dựng bảng câu hỏi chính thức
Khảo sát Đánh giá kết quả khảo sát
Hình 3.1 Quy trình nghiên cứu
Thu thập dữ liệu tại các dự án
So sánh mối tương quan giữa các biến với biến phụ thuộc
Loại bỏ các biến không phù hợp
Chuẩn hóa dữ liệu với các biến sau khi loại bỏ Điều chỉnh siêu tham số cho các thuật toán trong Python
Tiến hành nạp dữ liệu đã qua xử lý vào hệ thống các mô hình học máy để thực thi
Phân tích, so sánh đánh giá các mô hình học máy và đưa ra kết luận
Bước 2: Tiến hành thu thập ý kiến từ các chuyên gia trong lĩnh vực xây dựng dân dụng và công nghiệp Lập bảng câu hỏi đưa ra khảo sát đại trà
Bước 3: Đánh giá lại bảng câu hỏi và tiến hành khảo sát đại trà, bảng khảo sát được gửi đến các chuyên gia hoạt động trong lĩnh vực xây dựng Khảo sát lấy mẫu thuận tiện dưới dạng bản cứng (trực tiếp) và bản online (google form)
Bước 4: Sau khi có dữ liệu khảo sát, tiến hành phân tích SPSS, tính giá trị trung bình và kiểm tra độ tin cậy Cronbach’s Alpha, loại bỏ các biến không phù hợp và xếp hạng các nhân tố
Bước 5: Tiến hành thu thập dữ liệu từ các dự án dựa vào các nhân tố đã chọn, so sánh đánh giá các biến dựa theo dữ liệu đã thu thập Loại bỏ các biến không phù hợp Bước 6: Xác định các yếu tố ảnh hưởng đến chi phí xây dựng nhà xưởng
Bước 7: Xử lý số liệu các biến, đưa vào mô hình Python để chạy
Bước 8: Đánh giá và so sánh các mô hình Đưa ra kết luận.
Thu thập dữ liệu
3.2.1 Thiết kế bảng câu hỏi:
Bảng câu hỏi có vai trò quan trọng trong việc thu thập dữ liệu khoa học chính xác và đa dạng Độ chính xác của dữ liệu phụ thuộc vào cách thiết kế câu hỏi, ảnh hưởng trực tiếp đến kết quả nghiên cứu Cấu trúc bảng câu hỏi gồm bốn phần chính:
Phần 1: Mở đầu với giới thiệu sơ lược về đề tài nghiên cứu, cung cấp thông tin cần thiết cho người được khảo sát hiểu rõ về mục tiêu và người thực hiện nghiên cứu
Phần 2: Thu thập thông tin cơ bản của người tham gia, bao gồm câu hỏi về chức vụ, lĩnh vực công tác, kinh nghiệm, chuyên môn và quy mô dự án đã tham gia, nhằm lọc ra những người không phù hợp với nội dung nghiên cứu
Phần 3: Tập trung vào việc thu thập đánh giá về các yếu tố ảnh hưởng đến chi phí xây dựng nhà xưởng, sử dụng thang đo Likert với 5 mức độ từ ảnh hưởng rất ít đến ảnh hưởng rất lớn
Phần 4: Thu thập thông tin cá nhân của người tham gia khảo sát trên tinh thần tự nghiên để phục vụ cho mục đích nghiên cứu
3.2.2 Kích thước và phương pháp lấy mẫu:
Theo "Giáo trình Phân tích số liệu thống kê" của Đỗ Anh Tài (2008), khái niệm
Mẫu trong thống kê đại diện cho một tập con nhỏ hơn thể hiện cho toàn bộ lớn hơn Mẫu được chọn từ toàn bộ thông qua các phương pháp chọn mẫu để thu thập thông tin nghiên cứu Điều quan trọng là mẫu phải đại diện cho toàn bộ mà nó thuộc về, có thể bao gồm nhóm người, chi tiết hoặc đơn vị liên quan đến đối tượng nghiên cứu Có hai loại tổng thể chính: tổng thể lý thuyết và tổng thể có thể tiếp cận được.
Tổng thể lý thuyết là tập hợp tất cả các đối tượng phù hợp cho nghiên cứu, thường lớn hơn và bao trùm tổng thể có thể tiếp cận được Tổng thể lý thuyết bao gồm tất cả các đối tượng trong phạm vi nghiên cứu, chẳng hạn như trong nghiên cứu về sinh viên, tổng thể lý thuyết sẽ là toàn bộ tập hợp sinh viên.
- Tổng thể có thể tiếp cận được là nhóm các đối tượng mà nhà nghiên cứu có khả năng tiếp cận và lựa chọn mẫu Trong ví dụ về sinh viên, không phải tất cả sinh viên đều có thể được tiếp cận do sự phân bố rộng lớn của họ, do đó chỉ có một phần trong số này thuộc về tổng thể có thể tiếp cận được
Cuối cùng, khung chọn mẫu được định nghĩa là danh sách của tổng thể có thể tiếp cận được, dùng để chọn ra mẫu cho nghiên cứu Danh sách này cần phải toàn diện, hoàn chỉnh và cập nhật thường xuyên, có thể bao gồm danh sách cử tri, danh sách địa chỉ, niên giám điện thoại, kết quả tổng điều tra công nghiệp hoặc dân số, v.v
Có hai phương pháp chọn mẫu là xác suất và phi xác suất
Bảng 3.1: Các phương pháp chọn mẫu
Phương pháp chọn mẫu Ưu điểm Nhược điểm
Dễ dàng thực hiện và đảm bảo tính khách quan Ngoài ra, nó còn có khả năng được tích hợp linh hoạt vào các kỹ thuật chọn mẫu xác suất phức tạp
Cần phải có sẵn danh sách đầy đủ của các đơn vị mẫu, không thích hợp với mẫu có kích thước lớn hoặc biến đổi Hơn nữa, mẫu được chọn có thể phân tán rộng, gây khó khăn trong việc thu thập Cuối cùng, có nguy cơ bỏ sót một số nhóm nhất định trong tổng thể mà phương pháp nghiên cứu nhắm tới
Thực hiện nhanh, độ chính xác cao, giúp chọn đối tượng mục tiêu rõ ràng Tính đại diện cao
Có thể bị trùng lặp, ảnh hưởng đến tính đại diện của mẫu
Chọn mẫu phân tầng Độ chính xác và đại diện cao, quản lý mẫu dễ dàng hơn mẫu ngẫu nhiên đơn giản
Cần thiết lập khung mẫu cho từng tầng, thường khó thực hiện trong thực tế
Thích hợp cho phạm vi rộng lớn với độ phân tán cao, chi phí thấp
Tổng thể phải lớn, độ chính xác hoặc tính đại diện thấp hơn so với mẫu ngẫu nhiên
Hiệu quả trong thu thập dữ liệu sơ cấp, tiết kiệm chi phí và thời gian, linh hoạt cao
Chủ quan, không đại diện hoàn toàn, yêu cầu thông tin cấp nhóm
Chọn mẫu tiện lợi Thực tế và thuận tiện, mẫu luôn sẵn có
Thiếu tính đại diện, không phản ánh chính xác tổng thể nghiên cứu
Có thể thực hiện khi có dữ liệu số liệu mô tả tỷ lệ của các nhóm
Cần cập nhật số liệu liên tục để duy trì tỷ lệ chính xác
Chọn mẫu có mục đích
Tiết kiệm chi phí và thời gian nhất, thích hợp cho nghiên cứu nhân học với số lượng hạn chế nguồn dữ liệu
Sai sót từ đánh giá nhà nghiên cứu, tin cậy thấp, sai lệch cao, khó khái quát hóa
Chon mẫu tuyết lăn Phù hợp khi không có khung chọn mẫu sẵn có
Sai lệch chọn mẫu, không kiểm tra được ai tham gia
Lấy mẫu tự lựa chọn Phù hợp cho thị trường hoặc nhóm khó tiếp cận
Có thể chứa sai sót chọn mẫu, thiếu tính đại diện
Thích hợp cho nghiên cứu chuyên sâu, tham khảo kinh nghiệm
Khó khăn trong việc tập hợp chuyên gia, yêu cầu kiến thức vững chắc
Có vai trò quan trọng trong việc đề ra hướng nghiên cứu cho sự phát triển của điều tra
Nhóm quan tâm không nhất thiết phải lớn về số lượng nhưng cần phải có tính đại diện cao, nghĩa là họ phản ánh được đặc điểm và ý kiến của một tổng thể lớn hơn
Vì thời gian và nguồn lực hạn chế cũng như khó tiếp cận các đối tượng nên nghiên cứu này lựa chọn phương pháp lấy mẫu phi xác suất, kiểu chọn mẫu tiện lợi Mặc dù phương pháp chọn mẫu thuận tiện có thể không cung cấp sự đại diện chính xác cho tổng thể và có nguy cơ cao về thiên vị, nó vẫn rất hữu ích trong các tình huống cụ thể, nhất là khi nghiên cứu này khoanh vùng khảo sát các đối tượng làm việc ở lĩnh vực xây dựng
Theo phương pháp Yamane Taro (1967), việc xác định kích thước mẫu cần xem xét trường hợp biết được quy mô tổng thể và trường hợp không biết được quy mô tổng thể Nếu không thể xác định chính xác được quy mô tổng thể, công thức xác định kích thước mẫu như sau:
Trong đó: n: kích thước mẫu cần xác định
Z: giá trị tra bảng phân phối Z dựa vào độ tin cậy lựa chọn Ví dụ Z = 1.96 cho mức độ tin cậy 95%) p là tỷ lệ ước lượng của đặc tính trong tổng thể (thường dùng p = 0.5 để tối đa hóa kích thước mẫu) e là sai số chuẩn mong muốn (ví dụ: 0.05 cho sai số 5%) b Trường hợp khi biết quy mô tổng thể
Trong đó: n: kích thước mẫu cần xác định
PHẠM TẤN DŨNG - 2170245 57 e: sai số cho phép Thường ba tỷ lệ sai số hay sử dụng là: ±01 (1%), ±0.05 (5%), ±0.1 (10%), trong đó mức phổ biến nhất là ±0.05
Trường hợp trong nghiên cứu này là không biết quy mô tổng thể, vì vậy kích thước mẫu cần xác định là:
Với p = 0.5; e = 0.05 và Z=1.7 cho mức độ tin cậy 91.08% (tra bảng phân phối Z)
Vậy số lượng bảng cần thu về là 289 bảng Thực tế thu về 299 bảng, phù hợp với kích thước mẫu yêu cầu.
Phân tích dữ liệu
Bảng câu hỏi được tạo dưới dang bản cứng và bản online để tiện tiến hành khảo sát Khảo sát được thực hiện trực tiếp và online với những người có nhiều năm kinh nghiệm trong công tác đấu thầu và thi công nhà xưởng tại Việt Nam Đối tượng khảo sát: giám đốc dự án, trưởng phòng/chuyên viên phòng đấu thầu, kỹ sư giám sát công trình…
Sau khi thu thập bảng câu hỏi, tiến hành phân tích kết quả với 2 nội dung:
- Mô tả tính chất của dữ liệu bằng Thống kê mô tả trên phần mềm IBM SPSS
- Kiểm tra độ tin cậy của thang đo bằng hệ số Cronbach’s Alpha trên IBM SPSS
Phương pháp hệ số tin cậy Cronbach’s Alpha: để kiểm định độ tin cậy của thang đo Phân tích độ tin cậy thông qua nhận xét hệ số Cronbach’s Alpha để loại các biến không phù hợp Hệ số tương quan biến tổng là hệ số cho biết mối quan hệ giữa các biến quan sát trong nhân tố với các biến còn lại Khi hệ số tương quan biến tổng
PHẠM TẤN DŨNG - 2170245 58 lớn hơn giá trị 0,3 thì biến đó có đóng góp giá trị khái niệm của nhân tố Đánh giá độ tin cậy thang đo theo (Nguyễn Đình Thọ, 2014) [57] và (Hoàng Trọng, Chu Nguyễn Mộng Ngọc, 2008) [36] được thể hiện ở Bảng 3.2
Bảng 3.2: Đánh giá độ tin cậy theo Cronbach’s Alpha
TT Nội dung Đánh giá
1 Cronbach’s Alpha (> 0.95) Xuất hiện trùng lặp trong đo lường
2 Cronbach’s Alpha từ 0.8 – 0.95 Có độ tin cậy rất tốt
3 0.8 Cronbach’s Alpha 0.70 Có độ tin cậy tốt
4 Cronbach’s Alpha từ 0.6 Thang đo đủ điều kiện
5 Hệ số tương quan với biến tổng 0,3 Đạt yêu cầu
Công thức hệ số Cronbach’s Alpha:
• là hệ số tương quan trung bình giữa các mục hỏi
• N là tổng số mục hỏi
Sau khi chạy phần mềm, nếu một biến có giá trị cột Cronbach’s Alpha if Item Deleted lớn hơn hệ số Cronbach’s Alpha tổng và hệ số Tương quan biến tổng (Corrected Item-Total correlation) nhỏ hơn 0.3 thì loại bỏ biến đó Nếu hệ số tương quan biến tổng lớn hơn 0.3, Cronbach’s Alpha if Item Deleted lớn hơn hệ số Cronbach’s Alpha tổng lớn hơn 0.6, cần xem xét không nhất thiết phải loại bỏ biến này
Sau khi có các biến đạt yêu cầu, thu thập dữ liệu từ các biến đó qua các dự án xây dựng ở các công ty khác nhau chuyên về xây dựng nhà xưởng Tiến hành phân tích mối liên hệ giữa các biến với biến phụ thuộc Y (chi phí) qua các biểu đồ Nếu
PHẠM TẤN DŨNG - 2170245 59 biến không có mối liên hệ rõ ràng hoặc một xu hướng cụ thể nào với biến phụ thuộc
Xử lý số liệu
Chuẩn hóa dữ liệu để biến đổi trong khoảng từ -1 đến 1 bằng phương pháp chuẩn hóa Min-Max Tuy nhiên, phương pháp chuẩn hóa Min-Max truyền thống chỉ đưa dữ liệu về khoảng từ 0 đến 1 Để điều chỉnh phương pháp này sao cho kết quả nằm trong khoảng từ -1 đến 1, sử dụng công thức sau: min( )
• X’ là giá trị sau khi đã được chuẩn hóa
• X là giá trị ban đầu
• min(X) là giá trị nhỏ nhất trong tập dữ liệu
• max(X) là giá trị lớn nhất trong tập dữ liệu
Công thức này làm việc theo cách sau:
- Đầu tiên, nó biến đổi X để nằm trong khoảng từ 0 đến 1
- Sau đó, nhân kết quả với 2 và trừ đi 1 để dữ liệu cuối cùng nằm trong khoảng từ -1 đến 1
❖ Đối với biến “Nominal”, tiến hành mã hóa one-hot encoding:
Mã hóa one-hot là một phương pháp phổ biến để biểu diễn các biến phân loại trong học máy và phân tích dữ liệu Trong phương pháp này, mỗi giá trị có thể của biến được chuyển thành một cột riêng biệt trong dữ liệu, tương ứng với một biến nhị phân có giá trị 1 khi biến có giá trị đó và 0 khi không.
- Cột đó sẽ có giá trị 1 (hoặc "hot") nếu giá trị ban đầu của biến phân loại tương ứng với cột đó
- Các cột còn lại sẽ có giá trị 0
Không có một công thức toán học cụ thể cho việc thực hiện mã hóa one-hot, nhưng quy trình chung có thể được mô tả như sau:
Giả sử bạn có biến phân loại "Màu" với ba giá trị có thể có là "Đỏ", "Xanh", và "Vàng" Mã hóa one-hot sẽ tạo ra ba cột mới: "Màu_Đỏ", "Màu_Xanh", và
"Màu_Vàng" Nếu một quan sát có giá trị "Đỏ" cho biến "Màu", thì nó sẽ được biểu diễn như sau trong dữ liệu đã mã hóa: "Màu_Đỏ" = 1, "Màu_Xanh" = 0, "Màu_Vàng"
= 0 Tương tự, một quan sát với giá trị "Xanh" sẽ có "Màu_Đỏ" = 0, "Màu_Xanh" 1, "Màu_Vàng" = 0
Quy Trình Mã Hóa One-Hot:
- Xác định tất cả các giá trị duy nhất của biến phân loại
- Tạo một cột mới cho mỗi giá trị duy nhất này
- Trong mỗi hàng của dữ liệu, đặt giá trị 1 vào cột tương ứng với giá trị của biến phân loại, và 0 vào tất cả các cột còn lại
Các ngôn ngữ lập trình và thư viện hỗ trợ phân tích dữ liệu như Python chứa các công cụ tích hợp cho phép mã hóa one-hot dễ dàng, chẳng hạn như thư viện pandas hoặc scikit-learn.
Chạy mô hình
Lựa chọn XGBoost, Random Forest, SVR (Support Vector Regression), và Decision Tree làm đại diện cho các thuật toán trong nghiên cứu có nhiều lý do chính đáng
- Hiệu Suất Cao và Nhanh Chóng: XGBoost là một trong những thuật toán học máy hiệu quả nhất, đặc biệt khi xử lý dữ liệu lớn
- Xử Lý Tốt Với Dữ Liệu Phi Tuyến: Nó có khả năng mô hình hóa phức tạp và xử lý tốt dữ liệu phi tuyến, điều này thường xảy ra trong dự đoán chi phí xây dựng
- Tính Năng Tự Động Hóa: XGBoost cung cấp tính năng tự động xử lý giá trị thiếu và giúp chọn các biến quan trọng
- Độ Chính Xác Cao và Khả Năng Chống Overfitting: Là một thuật toán ensemble, Random Forest kết hợp kết quả từ nhiều cây quyết định, giúp giảm thiểu overfitting và tăng độ chính xác
Dựa trên khả năng xử lý dữ liệu có nhiều biến, Random Forest là lựa chọn phù hợp trong quá trình xây dựng nhà xưởng vì loại dữ liệu này thường chứa đựng nhiều yếu tố ảnh hưởng.
- Hiệu Quả Trong Dự Đoán Liên Tục: SVR là một phiên bản của máy vector hỗ trợ (SVM) cho các bài toán hồi quy Nó rất hiệu quả trong việc mô hình hóa và dự đoán các giá trị liên tục, như chi phí xây dựng Thay vì tìm siêu mặt phẳng để phân chia dữ liệu, SVR cố gắng tìm siêu mặt phẳng sao cho nó có thể tạo ra sai số nhỏ nhất trong một khoảng chấp nhận được từ các điểm dữ liệu thực tế
- Khả Năng Tổng Quát Hóa Tốt: SVR có khả năng tổng quát hóa tốt từ dữ liệu huấn luyện đến dữ liệu chưa biết, giảm thiểu rủi ro overfitting
- Dễ Hiểu và Diễn Giải: Cây quyết định cung cấp mô hình dễ hiểu và có thể diễn giải, điều này hữu ích khi cần giải thích mô hình cho các bên liên quan không chuyên môn
- Xử Lý Tốt Với Dữ Liệu Phi Tuyến và Phân Loại: Cây quyết định có thể xử lý tốt dữ liệu phi tuyến và phân loại, phù hợp với bản chất phức tạp của dự án xây dựng
Việc kết hợp các thuật toán này trong nghiên cứu giúp tận dụng lợi thế của từng phương pháp, từ hiệu suất, khả năng chống overfitting, đến khả năng diễn giải Điều này cung cấp một cách tiếp cận toàn diện và mạnh mẽ để dự đoán chi phí xây dựng, một vấn đề thường có nhiều biến số và đòi hỏi độ chính xác cao
Sau khi xử liệu số liệu, đưa chúng vào mô hình các thuật toán trên Python và chạy, xuất ra kết quả Python đã trở thành một trong những ngôn ngữ lập trình phổ biến nhất cho học máy và khoa học dữ liệu Có nhiều lý do tại sao Python được ưa chuộng trong việc phát triển các mô hình học máy:
Python có một hệ sinh thái rộng lớn của các thư viện và frameworks dành cho học máy và khoa học dữ liệu, như TensorFlow, PyTorch, Scikit-learn, Pandas, NumPy, và Matplotlib Những thư viện này cung cấp các công cụ mạnh mẽ và dễ sử dụng để xử lý dữ liệu, xây dựng mô hình, đánh giá và triển khai mô hình
- Cộng Đồng Lớn và Hỗ Trợ
Python có một cộng đồng lớn và tích cực, từ những người mới bắt đầu cho đến các chuyên gia hàng đầu trong lĩnh vực Sự hỗ trợ này bao gồm một lượng lớn tài nguyên học tập, hướng dẫn, và các diễn đàn thảo luận, giúp giải quyết vấn đề và chia sẻ kiến thức
- Đơn Giản và Dễ Tiếp Cận
Python nổi tiếng với cú pháp đơn giản và dễ đọc, giúp nó trở thành lựa chọn lý tưởng cho những người mới bắt đầu học lập trình Điều này giúp giảm bớt độ phức tạp khi xây dựng mô hình học máy
- Linh Hoạt và Đa Dạng
Python có khả năng tích hợp với các hệ thống và ngôn ngữ lập trình khác, biến nó thành một công cụ linh hoạt cao Khả năng này cho phép Python giao tiếp và trao đổi dữ liệu với các hệ thống và ngôn ngữ khác, tăng cường khả năng mở rộng và tương thích của nó Ngoài ra, Python được sử dụng rộng rãi trong cả nghiên cứu khoa học và phát triển sản phẩm thực tế nhờ tính linh hoạt và khả năng xử lý dữ liệu mạnh mẽ của nó.
Mặc dù Python không phải là ngôn ngữ lập trình nhanh nhất, nhưng nó cung cấp hiệu suất tốt cho hầu hết các nhu cầu của học máy Đối với các tác vụ cần hiệu
PHẠM TẤN DŨNG - 2170245 63 suất cao hơn, Python có thể sử dụng các thư viện được viết bằng C/C++ hoặc tích hợp với các ngôn ngữ khác
Sự kết hợp của sự đơn giản, một hệ sinh thái mạnh mẽ, và cộng đồng lớn làm cho Python trở thành lựa chọn lý tưởng cho cả học thuật và ứng dụng thực tế trong học máy và khoa học dữ liệu.
Đánh giá mô hình
Đánh giá mô hình học máy thường sử dụng nhiều tiêu chí khác nhau để hiểu rõ về hiệu suất của mô hình Ba chỉ số phổ biến là RMSE (Root Mean Square Error), MAE (Mean Absolute Error), và Coefficient of Determination (thường được biết đến là R²) Dưới đây là cách mỗi chỉ số này đánh giá mô hình và ý nghĩa của chúng: a RMSE (Root Mean Square Error)
- Ý nghĩa: RMSE là căn bậc hai của trung bình cộng các bình phương sai số Sai số ở đây là sự chênh lệch giữa giá trị dự đoán ( y i ') và giá trị thực tế ( ) y i
- Đặc điểm: RMSE tính toán sai số bằng cách nâng mỗi sai số lên bình phương
Do đó, những sai số lớn (lớn hơn về giá trị tuyệt đối) sẽ có ảnh hưởng lớn hơn đến giá trị của RMSE Điều này khiến RMSE trở thành một chỉ số nhạy cảm với các ngoại lai và sai số lớn RMSE thường được sử dụng trong các mô hình dự đoán với dữ liệu liên tục và là một chỉ số quan trọng để đánh giá chất lượng mô hình Giá trị RMSE thấp hơn cho thấy chất lượng dự đoán của mô hình tốt hơn Một RMSE thấp chỉ ra rằng sai số giữa giá trị dự đoán và thực tế là nhỏ b MAE (Mean Absolute Error)
- Ý nghĩa: MAE là trung bình cộng của giá trị tuyệt đối của sai số Nó cũng đo lường sự chênh lệch giữa giá trị dự đoán và thực tế
- Đặc điểm: Khác với RMSE, MAE không phân biệt giữa sai số lớn và nhỏ vì nó không bình phương sai số trước khi lấy trung bình Điều này làm cho MAE ít nhạy cảm với các ngoại lệ hoặc sai số rất lớn so với RMSE Giá trị MAE dễ hiểu và diễn giải, vì nó đơn giản là mức độ sai lệch trung bình Đơn vị của MAE tương đồng với đơn vị của dữ liệu gốc, giúp việc diễn giải trở nên trực quan Giá trị MAE thấp cho thấy mô hình có khả năng dự đoán chính xác cao hơn Tuy nhiên, do không phân biệt các loại sai số, một mô hình có MAE thấp vẫn có thể có những dự đoán riêng lẻ rất sai lệch c Coefficient of Determination (R 2 )
- Ý nghĩa: R 2 là tỷ lệ phần trăm biến thiên trong biến phụ thuộc được giải thích bởi mô hình y ' là giá trị trung bình của y i
- Đặc điểm: R² càng cao, mô hình càng tốt trong việc giải thích biến thiên của dữ liệu Một giá trị R² gần 1 chỉ ra rằng mô hình có khả năng dự đoán chính xác cao Tuy nhiên, R² có thể bị hiểu lầm nếu mô hình bị overfitting
- RMSE và MAE: Cả hai đều là chỉ số đánh giá sai số, nhưng RMSE nhạy cảm hơn đối với các sai số lớn
- R²: Đo lường khả năng giải thích của mô hình đối với biến thiên trong dữ liệu
XỬ LÝ SỐ LIỆU
Khảo sát
Ngành xây dựng không ngừng thay đổi theo thời gian, phản ánh sự tiến bộ công nghệ, nhu cầu kỹ thuật cao và các quy định pháp luật Các dự án xây dựng không chỉ phụ thuộc vào một yếu tố cụ thể mà còn do sự tham gia của nhiều bên liên quan như chủ đầu tư, nhà thầu, nhà cung cấp và chuyên gia (Theo Chang, 2005) Điều này cho thấy chi phí xây dựng tùy thuộc vào đặc tính dự án, đội ngũ thực hiện và điều kiện thị trường hiện tại Trong nghiên cứu này, các yếu tố ảnh hưởng được tổng hợp từ các nghiên cứu khoa học và ý kiến chuyên gia, được phân loại thành 3 nhóm chính và trình bày chi tiết trong Bảng 4.1.
Bảng 4.1: Các nhân tố ảnh hưởng đến chi phí xây dựng nhà xưởng và các hạng mục phụ trợ
TT Nhân tố Mã hóa
I Chiến lược nhà thầu CL
1 Biện pháp thi công CL1 Chuyên gia
2 Chiến lược đấu thầu CL2 Chuyên gia
II Đặc điểm kỹ thuật KT
1 Địa điểm xây dựng KT1 [40]
2 Mục đích sử dụng KT2 [55], [14], chuyên gia
4 Hình thức xây dựng KT4 [41]
6 Diện tích sử dụng KT6 [49], [56], [21], [31], [55], [20],
12 Bước cột KT12 [30], [56], chuyên gia
13 Kết cấu khung KT13 [14] chuyên gia
14 Tải trọng cầu trục KT14 [30], [56]
15 Năm xây dựng KT15 Chuyên gia
16 Vật liệu hoàn thiện nền KT16 Chuyên gia
17 Loại cửa KT17 Chuyên gia
III Yếu tố bên ngoài BN
2 Mức lương cơ bản BN2 [40]
3 Lãi suất ngân hàng trong thời gian thi công
4 Giá xăng BN4 Chuyên gia
5 Số lượng nhân công BN5 Chuyên gia
6 Nguồn vốn duy trì hoạt động công trình
Các biến được xem xét trong nghiên cứu này đều được đo bằng thang đo Likert 5 điểm, trong đó giá trị từ 1 đến 5 tăng dần từ mức ảnh hưởng rất ít đến ảnh hưởng rất nhiều Ngoài ra, để phân loại đối tượng tham gia khảo sát, tác giả sử dụng thang đo định danh để làm rõ sự khác biệt giữa các đối tượng này.
Nhóm mục tiêu của cuộc khảo sát này bao gồm các cá nhân làm việc tại các công ty hoạt động trong lĩnh vực xây dựng, bao gồm các chức danh như giám đốc, chỉ huy trưởng, trưởng phòng, và nhân viên Mục tiêu của phần thông tin chung là cung cấp một cái nhìn toàn diện về những người tham gia Cuộc khảo sát được tiến hành thông qua phương pháp trực tiếp và gửi qua email hoặc zalo Tổng số phiếu
PHẠM TẤN DŨNG - 2170245 67 khảo sát thu được là 314, nhưng 15 trong số đó không được xem xét do thiếu thông tin hoặc cùng một lựa chọn đáp án cho mọi câu hỏi Do đó, có 299 phiếu đáp ứng được xem xét hợp lệ, phù hợp với quy mô mẫu đã được xác định trong phân tích.
Phân tích thông tin đối tượng khảo sát
Hình 4.1 Biểu đồ tròn theo số năm làm việc
Biểu đồ hình 4.1 thể hiện phân phối số năm công tác trong lĩnh vực xây dựng của các đối tượng tham gia khảo sát Đối tượng khảo sát dưới 3 năm kinh nghiệm là 12.37%, kinh nghiệm từ 3-5 năm là 23.75%, kinh nghiệm từ 5-10 năm là 52.17% và kinh nghiệm trên 10 năm là 11.71%
Biểu đồ thể hiện sự phân bổ kinh nghiệm của những người tham gia khảo sát trong lĩnh vực xây dựng cho thấy nhóm có kinh nghiệm trên 5 năm chiếm ưu thế, phản ánh mức độ am hiểu và chuyên môn trong lĩnh vực Mặt khác, tỷ lệ nhóm có kinh nghiệm dưới 3 năm (12,37%) đóng góp ý kiến với mức độ tin cậy tương đối tốt cho kết quả khảo sát.
Hình 4.2 Biểu đồ tròn theo chức danh nghề nghiệp
Biểu đồ hình 4.2 phản ánh sự phân bố của các chức danh nghề nghiệp của các đối tượng khảo sát Mỗi lát cắt của biểu đồ tương ứng với tỷ lệ phần trăm của mỗi chức danh nghề nghiệp so với tổng số người tham gia khảo sát Biểu đồ cho thấy sự đa dạng trong chức danh nghề nghiệp của người tham gia Có thể thấy rõ sự phân bố không đều giữa các chức danh, chức danh nhân viên chiếm ưu thế với 46.15% chiếm tỷ lệ phần trăm cao hơn hẳn so với các chức danh khác Ngược lại, một số chức danh khác xuất hiện với tỷ lệ rất nhỏ, đó là chỉ huy trưởng và giám đốc với tỉ lệ phần trăm lần lược là 3.68% và 3.01% cho thấy sự khan hiếm hoặc ít phổ biến của chức danh này trong nhóm người được khảo sát Tuy nhiên họ lại có những kinh nghiệm, kiến thức chuyên sâu về chi phí dự án nên ý kiến của các chuyên gia này rất quan trọng
Biểu đồ hình 4.3 cung cấp cái nhìn toàn diện về sự phân bố công tác của các cá nhân tham gia khảo sát Biểu đồ cho thấy sự đa dạng trong loại đơn vị mà các cá nhân tham gia khảo sát đang công tác với các tỉ lệ khá tương đồng lần lượt là 24.75%, 28.43%, 25.42% và 21.4% tương ứng với các đơn vị “Tư vấn thiết kế”, “Thầu thi công”, “Ban Quản lý Dự án/Chủ đầu tư” và “Khác” Đơn vị công tác “Khác” là những
PHẠM TẤN DŨNG - 2170245 69 đơn vị đảm nhận cả 2 hoặc 3 vai trò khác nhau Điều này phản ánh sự phong phú về ngành nghề và loại hình công việc trong nhóm đối tượng khảo sát
Hình 4.3 Biểu đồ tròn theo đơn vị công tác
Hình 4.4 Biểu đồ tròn theo chuyên môn
Biểu đồ hình 4.4 về "Chuyên môn" từ bảng câu trả lời khảo sát cung cấp cái nhìn tổng quan về sự phân bố chuyên môn trong nhóm người được khảo sát Trong đó chiếm tỷ lệ nhiều nhất là “Kỹ sư giám sát” với 35.79%, các nhóm “Kỹ sư kết cấu, điện nước”, “Kỹ sư bóc tách khối lượng”, “Kiến trúc sư” và “Khác” lần lượt là 18.4%, 17.39%, 15.38% và 13.04% Điều này thể hiện sự đa dạng trong chuyên môn của những người tham gia khảo sát, cho thấy rằng nhóm người khảo sát đến từ nhiều lĩnh vực và chuyên ngành khác nhau
4.2.5 Loại dự án tham gia
Hình 4.5 Biểu đồ tròn theo loại dự án tham gia
Biểu đồ 4.5 về "Loại dự án tham gia" đã mô tả rõ ràng sự phân chia trong loại hình dự án mà các đối tượng khảo sát tham gia Trong tổng số 299 người tham gia, phần lớn là làm các công trình công nghiệp, với 134 người, chiếm 44.81% Đứng sau đó là công trình dân dụng với 74 người, chiếm 24.75% Các loại dự án khác bao gồm cầu đường và thủy lợi/cấp thoát nước, lần lượt có 26 và 34 người, chiếm 12.04% và 8.03% Phần "Khác", gồm 31 người chiếm 10.37%, bao gồm những người làm việc các loại dự án khác nhau
Tuy công trình công nghiệp chiếm ưu thế và phản ánh đúng trọng tâm nghiên cứu của đề tài, nhưng các dạng công trình khác, dù ít phổ biến hơn, vẫn góp phần không nhỏ vào bức tranh tổng thể, phản ánh sự đa dạng, phong phú của các loại hình công trình trong đề tài này.
PHẠM TẤN DŨNG - 2170245 71 mang những điểm chung và phù hợp với đặc trưng đa dạng của công trình công nghiệp Do đó, tất cả các câu trả lời từ các đối tượng tham gia các loại dự án này đều quan trọng và sẽ được sử dụng trong phân tích dữ liệu, góp phần cung cấp cái nhìn toàn diện về lĩnh vực nghiên cứu
Biểu đồ về quy mô dự án lớn nhất mà người tham gia khảo sát từng tham gia cung cấp cái nhìn toàn diện về kinh nghiệm làm việc của họ trên các dự án có quy mô khác nhau Biểu đồ thể hiện sự phân bố đa dạng về quy mô dự án, chiếm nhiều nhất là quy mô dự án từ 20-100 tỷ với 52.84%, tiếp đến là 20 tỷ với 23.08%, còn lại là quy mô từ 100-200 tỷ và trên 200 tỷ tương ứng với tỉ lệ lần lượt là 16.72% và 7.36% Biểu đồ này cho thấy sự đa dạng hóa của của các đối tượng tham gia khảo sát
Hình 4.6 Biểu đồ tròn về quy mô dự án
Phân tích số liệu thu thập
Tiến hành phân tích thống kê mô tả bằng phần mềm IBM SPSS Static 27 với dữ liệu thu thập được, ta có bảng sau:
Bảng 4.2: Các chỉ số thống kê mô tả theo các biến
Thống kê mô tả (Item Statistics)
Trung bình (Mean) Độ lệch chuẩn (Std
I CHIẾN LƯỢC NHÀ THẦU [Biện pháp thi công] 2.51 1.121 299
I CHIẾN LƯỢC NHÀ THẦU [Chiến lược đấu thầu] 2.64 1.320 299
II ĐẶC ĐIỂM KỸ THUẬT [Địa điểm xây dựng] 3.99 1.026 299
II ĐẶC ĐIỂM KỸ THUẬT [Mục đích sử dụng] 2.31 1.178 299
II ĐẶC ĐIỂM KỸ THUẬT [Năm xây dựng] 2.51 1.327 299
II ĐẶC ĐIỂM KỸ THUẬT [Cấp công trình] 2.47 1.324 299
II ĐẶC ĐIỂM KỸ THUẬT [Chu vi] 1.62 0.715 299
II ĐẶC ĐIỂM KỸ THUẬT [Diện tích sử dụng] 4.22 0.944 299
II ĐẶC ĐIỂM KỸ THUẬT [Chiều cao] 4.09 0.912 299
II ĐẶC ĐIỂM KỸ THUẬT [Số tầng] 3.90 1.017 299
II ĐẶC ĐIỂM KỸ THUẬT [Loại móng] 1.67 0.856 299
II ĐẶC ĐIỂM KỸ THUẬT [Loại mái] 4.17 0.942 299
II ĐẶC ĐIỂM KỸ THUẬT [Tường bao che] 2.21 0.964 299
II ĐẶC ĐIỂM KỸ THUẬT [Bước cột] 2.58 1.219 299
II ĐẶC ĐIỂM KỸ THUẬT [Kết cấu khung] 3.85 1.065 299
II ĐẶC ĐIỂM KỸ THUẬT [Tải trọng cầu trục] 3.80 1.059 299
II ĐẶC ĐIỂM KỸ THUẬT [Vật liệu hoàn thiện nền] 3.02 1.347 299
II ĐẶC ĐIỂM KỸ THUẬT [Loại cửa] 3.06 1.461 299
II ĐẶC ĐIỂM KỸ THUẬT [Loại hạng mục] 3.79 1.002 299
II ĐẶC ĐIỂM KỸ THUẬT [Tiến độ] 3.87 0.943 299 III YẾU TỐ BÊN NGOÀI [Đơn giá] 3.94 0.990 299 III YẾU TỐ BÊN NGOÀI [Mức lương cơ bản] 3.01 1.354 299
III YẾU TỐ BÊN NGOÀI [Lãi suất ngân hàng trong thời gian thi công] 2.93 1.441 299 III YẾU TỐ BÊN NGOÀI [Giá xăng] 3.11 1.408 299 III YẾU TỐ BÊN NGOÀI [Số lượng nhân công] 2.95 1.361 299
III YẾU TỐ BÊN NGOÀI [Nguồn vốn duy trì hoạt động công trình] 3.05 1.386 299
Bảng 4.2 trên bao gồm các thông tin sau:
- Cột đầu tiên ("Item Statistics") liệt kê các danh mục hoặc tiêu chí đánh giá, chẳng hạn như "[Biện pháp thi công]", "[Chiến lược đấu thầu]", "[Địa điểm xây dựng]", v.v
- Cột "Mean" (Trung bình) cho thấy giá trị trung bình đối với mỗi danh mục hoặc tiêu chí
- Cột "Std Deviation" (Độ lệch chuẩn) cho biết độ lệch chuẩn của dữ liệu đối với mỗi danh mục
- Cột cuối cùng, "N", chỉ số lượng quan sát hoặc số lượng dữ liệu được sử dụng để tính toán các giá trị trung bình và độ lệch chuẩn
Ta thấy giá trị trung bình (mean) thấp hơn 3 chỉ ra rằng nhận xét hoặc đánh giá về tiêu chí đó có xu hướng ảnh hưởng ít hoặc không có ảnh hưởng đến chi phí xây dựng Đề xuất loại bỏ các tiêu chi có mean nhỏ hơn 3 sẽ hữu ích trong việc tập trung vào các yếu tố quan trọng nhất, có ảnh hưởng cao với chi phí xây dựng Mặt khác việc loại bỏ sẽ giúp đơn giản hóa mô hình phân tích và giảm thiểu nhiễu Sau khi loại bỏ ta được bảng sau:
Bảng 4.3: Các chỉ số thống kê mô tả sau khi loại bỏ các biến
Thống kê mô tả (Item Statistics)
Trung bình (Mean) Độ lệch chuẩn (Std
II ĐẶC ĐIỂM KỸ THUẬT [Địa điểm xây dựng] 3.99 1.026 299
II ĐẶC ĐIỂM KỸ THUẬT [Diện tích sử dụng] 4.22 0.944 299
II ĐẶC ĐIỂM KỸ THUẬT [Chiều cao] 4.09 0.912 299
II ĐẶC ĐIỂM KỸ THUẬT [Số tầng] 3.90 1.017 299
II ĐẶC ĐIỂM KỸ THUẬT [Loại mái] 4.17 0.942 299
II ĐẶC ĐIỂM KỸ THUẬT [Kết cấu khung] 3.85 1.065 299
II ĐẶC ĐIỂM KỸ THUẬT [Tải trọng cầu trục] 3.80 1.059 299
II ĐẶC ĐIỂM KỸ THUẬT [Vật liệu hoàn thiện nền] 3.02 1.347 299
II ĐẶC ĐIỂM KỸ THUẬT [Loại cửa] 3.06 1.461 299
II ĐẶC ĐIỂM KỸ THUẬT [Loại hạng mục] 3.79 1.002 299
II ĐẶC ĐIỂM KỸ THUẬT [Tiến độ] 3.87 0.943 299
III YẾU TỐ BÊN NGOÀI [Đơn giá] 3.94 0.990 299
III YẾU TỐ BÊN NGOÀI [Mức lương cơ bản] 3.01 1.354 299
III YẾU TỐ BÊN NGOÀI [Giá xăng] 3.11 1.408 299
Sau khi loại bỏ 12 biến có giá trị trung bình mean nhỏ hơn 3, còn lại 14 biến Tiến hành kiểm tra độ tin cậy thang đo bằng hệ số Cronbach’s Alpha bằng phần mềm IBM SPSS Statistics 27 Ta có:
Bảng 4.4: Thống kê độ tin cậy
Reliability Statistics (Thống kê độ tin cậy)
Cronbach's Alpha Số lượng biến
Bảng 4.5: Hệ số tương quan biến tổng và Cronbach’s Alpha giữa các biến
Thống kê Tổng số-Mục (Item-Total Statistics)
Hệ số tương quan biến tổng
Hệ số Cronbach nếu yếu tố bị xóa (Cronbach's Alpha if Item Deleted)
II ĐẶC ĐIỂM KỸ THUẬT [Địa điểm xây dựng] 0.619 0.754
II ĐẶC ĐIỂM KỸ THUẬT [Diện tích sử dụng] 0.704 0.749
II ĐẶC ĐIỂM KỸ THUẬT [Chiều cao] 0.721 0.749
II ĐẶC ĐIỂM KỸ THUẬT [Số tầng] 0.609 0.755
II ĐẶC ĐIỂM KỸ THUẬT [Loại mái] 0.689 0.750
II ĐẶC ĐIỂM KỸ THUẬT [Kết cấu khung] 0.587 0.756
II ĐẶC ĐIỂM KỸ THUẬT [Tải trọng cầu trục] 0.600 0.754
II ĐẶC ĐIỂM KỸ THUẬT [Vật liệu hoàn thiện nền] 0.076 0.805
II ĐẶC ĐIỂM KỸ THUẬT [Loại cửa] -0.039 0.820
II ĐẶC ĐIỂM KỸ THUẬT [Loại hạng mục] 0.575 0.758
II ĐẶC ĐIỂM KỸ THUẬT [Tiến độ] 0.542 0.761
III YẾU TỐ BÊN NGOÀI [Đơn giá] 0.597 0.756
III YẾU TỐ BÊN NGOÀI [Mức lương cơ bản] 0.042 0.808
III YẾU TỐ BÊN NGOÀI [Giá xăng] 0.073 0.807 Ở bảng 4.5 cột "Hệ số tương quan biến tổng" đại diện cho mối quan hệ giữa mỗi yếu tố riêng biệt với tất cả các yếu tố còn lại Cột "Cronbach's Alpha if Item Deleted" (Hệ số Cronbach’s Alpha nếu yếu tố bị xóa) chứa các giá trị chỉ ra chất lượng độ tin cậy của tổng biến khi một mục cụ thể được loại bỏ khỏi phân tích Ví dụ, giá trị 0.619 cho mục "II ĐẶC ĐIỂM KỸ THUẬT [Địa điểm xây dựng]" cho thấy giá trị Cronbach's Alpha của toàn bộ bộ yếu tố nếu mục này không được tính vào Những giá trị này giúp xác định liệu việc loại bỏ một mục có làm tăng độ tin cậy của bảng khảo sát hay không
Kết quả cho thấy hệ số Cronbach’s Alpha là 0.784 cho thấy thang đo lường tốt Tuy nhiên, các biến [Vật liệu hoàn thiện nền], [Loại cửa], [Mức lương cơ bản] và [Giá xăng] có hệ số tương quan biến tổng nhỏ hơn 0.3 cho thấy các biến này giải thích ý nghĩa rất yếu cho nhân tố chi phí Tiến hành loại bỏ các yếu tố này, chạy lại Cronbach’s Alpha, ta được kết quả như sau:
Bảng 4.6: Thống kê độ tin cậy sau khi loại bỏ các biến không phù hợp
Reliability Statistics (Thống kê độ tin cậy)
Cronbach's Alpha Số lượng biến
Bảng 4.7: Hệ số tương quan biến tổng, Cronbach’s Alpha và giá trị Mean sau khi loại các biến không phù hợp
Thống kê Tổng số-Mục (Item-Total Statistics)
Hệ thống tương quan biến tổng
Hệ số Cronbach nếu yếu tố bị xóa (Cronbach's Alpha if Item Deleted)
II ĐẶC ĐIỂM KỸ THUẬT [Diện tích sử dụng] 0.750 0.896 4.22
II ĐẶC ĐIỂM KỸ THUẬT [Loại mái] 0.764 0.895 4.17
II ĐẶC ĐIỂM KỸ THUẬT [Chiều cao] 0.774 0.895 4.09
II ĐẶC ĐIỂM KỸ THUẬT [Địa điểm xây dựng] 0.656 0.902 3.99
III YẾU TỐ BÊN NGOÀI [Đơn giá] 0.631 0.903 3.94
II ĐẶC ĐIỂM KỸ THUẬT [Số tầng] 0.662 0.901 3.90
II ĐẶC ĐIỂM KỸ THUẬT [Tiến độ] 0.624 0.903 3.87
II ĐẶC ĐIỂM KỸ THUẬT [Kết cấu khung] 0.635 0.903 3.85
II ĐẶC ĐIỂM KỸ THUẬT [Tải trọng cầu trục] 0.635 0.903 3.80
II ĐẶC ĐIỂM KỸ THUẬT [Loại hạng mục] 0.623 0.904 3.79
Sau khi loại bỏ 4 biến theo hệ số Cronbach’s Alpha là 0,910, các biến quan sát còn lại có độ tương quan lớn hơn 0,3 Thang đo đạt độ tin cậy cho thấy các biến có ý nghĩa giải thích tốt cho nhân tố chi phí Sắp xếp theo thứ tự giá trị trung bình từ lớn đến nhỏ, ta được bảng dưới đây.
Bảng 4.8: Thứ tự các biến sau khi được sắp xếp theo giá trị mean
Thống kê Tổng số-Mục (Item-Total Statistics)
Thứ tự Biến quan sát
Trung bình (Mean) Độ lệch chuẩn (Std
Hệ số biến động CV (Coefficient of Variation)
1 II ĐẶC ĐIỂM KỸ THUẬT [Diện tích sử dụng] 4.22 0.944 0.224
2 II ĐẶC ĐIỂM KỸ THUẬT [Loại mái] 4.17 0.942 0.226
3 II ĐẶC ĐIỂM KỸ THUẬT [Chiều cao] 4.09 0.912 0.223
4 II ĐẶC ĐIỂM KỸ THUẬT [Địa điểm xây dựng] 3.99 1.026 0.257
5 III YẾU TỐ BÊN NGOÀI [Đơn giá] 3.94 0.990 0.251
6 II ĐẶC ĐIỂM KỸ THUẬT [Số tầng] 3.90 1.017 0.261
7 II ĐẶC ĐIỂM KỸ THUẬT [Tiến độ] 3.87 0.943 0.244
8 II ĐẶC ĐIỂM KỸ THUẬT [Kết cấu khung] 3.85 1.065 0.277
9 II ĐẶC ĐIỂM KỸ THUẬT [Tải trọng cầu trục] 3.80 1.059 0.279
10 II ĐẶC ĐIỂM KỸ THUẬT [Loại hạng mục] 3.79 1.002 0.264
- Các giá trị mean cho từng biến dao động trong khoảng từ 3.79 đến 4.22, nằm ở phía cao của thang đo Likert 5 điểm Điều này cho thấy mỗi yếu tố được coi là có ảnh hưởng đáng kể đến chi phí xây dựng
- Độ lệch chuẩn cho mỗi biến quan sát dao động quanh 1, cho thấy có sự biến động nhất định trong các phản hồi Để hiểu rõ hơn sự biến động này như thế nào, ta sử dụng hệ số dao động dữ liệu Coeficient of Variation (CV) Hệ số biến động cho mỗi biến quan sát là khoảng 0.223 đến 0.279 nhỏ hơn 1, cho thấy mặc dù có sự biến động, nhưng tỷ lệ này không quá lớn so với giá trị trung bình mean Một hệ số biến động thấp cho thấy sự ổn định của các phản hồi; người đánh giá có xu hướng đồng thuận về mức độ ảnh hưởng của các yếu tố này
Tổng kết, dữ liệu cho thấy một sự đồng thuận khá cao về mức độ ảnh hưởng của các đặc điểm (như diện tích sử dụng, loại mái, chiều cao, địa điểm xây dựng) đối với chi phí xây dựng Các yếu tố này đều được đánh giá cao về mức độ ảnh hưởng của chúng, với một mức độ biến động và hệ số biến động không quá lớn, cho thấy một mức độ đồng thuận tốt trong quan điểm của những người đánh giá.
Dữ liệu đầu vào cho mô hình
Với yếu tố đơn giá, tác giả sẽ phân chia thành ba loại riêng biệt – đơn giá thép tấm, đơn giá cốt thép và đơn giá bê tông Nguyên nhân là vì:
- Tính Chính Xác Chi Phí: Mỗi loại vật liệu - thép tấm, cốt thép, và bê tông - có chi phí riêng biệt dựa trên nguồn cung cấp, chất lượng, và yêu cầu kỹ thuật Việc tách biệt chi phí giúp đảm bảo tính chính xác trong việc ước lượng và quản lý tài chính cho từng phần của dự án
- Đặc điểm của công trình: Có những loại công trình chủ đầu tư chỉ yêu cầu thi công riêng biệt phần bê tông hoặc phần kết cấu thép Việc phân loại đơn giá sẽ phản ánh được đặc điểm này của công trình
- Quản Lý Nguyên Vật Liệu: Mỗi loại nguyên vật liệu có đặc điểm cung ứng, vận chuyển và lưu trữ khác nhau Việc phân loại chi phí giúp theo dõi và quản lý hiệu quả từng loại vật liệu, từ đó tối ưu hóa quá trình mua hàng và logistics
- So Sánh và Đàm Phán Giá Cả: Khi có chi phí cụ thể cho từng loại vật liệu, các nhà thầu có thể dễ dàng so sánh giá cả từ các nhà cung cấp khác nhau và đàm phán để đạt được mức giá tốt nhất, từ đó tiết kiệm chi phí cho dự án
- Dự Báo và Lập Kế Hoạch Tài Chính Tương Lai: Thông tin chi tiết về chi phí cung cấp cơ sở dữ liệu cho việc dự báo và lập kế hoạch cho các dự án tương lai, giúp cải thiện khả năng ước lượng và quản lý ngân sách một cách hiệu quả hơn
Dữ liệu được thu thập từ BOQ (Bill of Quantites) và tiến độ của các công ty chuyên thiết kế, thi công các công trình nhà xưởng Tác giả đã thu thập được 150 công trình với quy mô trải dài từ lớn đến nhỏ, tạo ra tính đa dạng của dữ liệu Tuy nhiên, ở yếu tố địa điểm công trình, các thông tin có xu hướng phân tán rộng không đều, có những địa điểm chỉ có một thông tin trong toàn bộ dữ liệu Tác giả quyết định nhóm các thông tin địa điểm thành các nhóm phân loại theo khoảng cách tính từ Tp
Hồ Chí Minh – nơi lập bảng khảo sát (500km) Việc này không những giải quyết được vấn đề trên mà còn làm cho việc phân tích trở nên dễ dàng hơn bằng cách giảm bớt số lượng biến cần xem xét, giúp dễ dàng hơn trong việc xác định xu hướng tổng thể và so sánh giữa các nhóm
Bảng 4.9: Thể hiện tóm tắt dữ liệu, với 5 cột kí hiệu mã hóa, tên biến quan sát, kiểu dữ liệu, mô tả giá trị và đơn vị
Kí hiệu Biến quan sát Kiểu dữ liệu Giá trị Đơn vị
[Không mái; Mái bê tông; Mái lợp ngói kèo bê tông; Mái lợp tôn kèo bê tông; Mái lợp tôn kèo thép]
X10 [Kết cấu khung] Định danh
[Kết cấu thép; Bê tông cốt thép]
X12 [Loại hạng mục] Định danh
[Hạng mục chính; Hạng mục phụ]
Các dữ liệu “Continuous” gồm có:
- Diện tích sử dụng: có giá trị trải rộng từ 10.8 m² đến 45756.59m²
- Chiều cao: có giá trị từ 3m đến 33.125m
- Đơn giá thép tấm: có giá trị từ 0 VND đến 41,942 VND
- Đơn giá cốt thép: có giá trị trừ 0 VND đến 27,200 VND
- Đơn giá bê tông: có giá trị từ 0 VND đến 1,620,000 VND
- Tiến độ: có giá trị từ 10 ngày đến 249 ngày
- Tải trọng cầu trục: có giá trị từ 0 đến 53 tấn
- Chí phí xây dựng: có giá trị dao động từ 85,352,000 VND đến 98,423,886,821 VND Đây cũng là giá trị mục tiêu của mô hình
Các dữ liệu “Nominal” gồm có:
Loại mái bao gồm "Không mái", "Mái bê tông", "Mái lợp ngói, kèo bê tông", "Mái lợp tôn, kèo bê tông" và "Mái lợp tôn, kèo thép".
- Khoảng cách từ Tp.HCM: bao gồm các mục “500”, đơn vị của các mục này là km
- Số tầng: được phân thành “1-2”, “3-4” và “5-6” tầng
- Kết cấu khung: Gồm có “Kết cấu thép” và “Bê tông cốt thép”
- Loại hạng mục: Gồm có “Hạng mục chính” và “Hạng mục phụ”
Các biến được mã hóa kí hiệu với biến đầu vào từ X1 đến X12 và biến phụ thuộc là
4.4.2 Phân tích số liệu đã thu thập: a Diện tích
Hình 4.7 Biểu đồ scatter giữa diện tích và chi phí
Biểu đồ hình 4.7 ở trên thể hiện mối quan hệ giữa diện tích và chi phí của các dự án xây dựng trong data Từ biểu đồ, có thể nhận thấy một số điểm như sau:
- Các dự án với diện tích nhỏ hơn có xu hướng chiếm ưu thế trong dữ liệu, với một số ít dự án có diện tích lớn hơn
- Không có một mối quan hệ tuyến tính rõ ràng giữa diện tích và chi phí, có thể quan sát thấy rằng chi phí tăng lên với sự tăng của diện tích, đặc biệt đối với các dự án có diện tích lớn hơn
- Ngoại lệ, có một số dự án có chi phí cao bất thường so với diện tích của chúng, điều này có thể do yếu tố khác ngoài diện tích, như độ phức tạp của kết cấu, vị trí xây dựng, hoặc chất lượng vật liệu Đưa thêm yếu tố kết cấu khung vào biểu đồ, ta được biểu đồ mới hình 4.8, các màu sắc khác nhau trên biểu đồ đại diện cho các loại kết cấu khung khác nhau Dựa
PHẠM TẤN DŨNG - 2170245 85 vào biểu đồ, có thể thấy rằng gần cùng một diện tích, khung kết cấu bê tông cho chi phí cao hơn kết cấu thép Đồng thời mối liên hệ giữa chi phí và diện tích của kết cấu bê tông tuyến tính rõ ràng hơn với kết cấu thép, điều này là do một số công trình kết cấu thép chủ đầu tư yêu cầu chỉ thi công phần kết cấu thép không làm phần bê tông dẫn tới chi phí không đều Tóm lại, cần xem xét thêm các yếu tố khác để hiểu rõ hơn về chi phí của từng dự án
Hình 4.8 Biểu đồ liên hệ giữa diện tích, loại khung và chi phí
Thay biến “kết cấu khung” bằng biến “loại hạng mục” ta thấy hạng mục chính có chi phí và diện tích phân bố rộng (hình 4.9), trong khi đó hạng mục phụ tập trung ở mức khoảng 25 tỷ trở xuống Đối với các dự án có diện tích gần như tương đương, hạng mục phụ thường có chi phí cao hơn so với hạng mục chính Điều này nằm ở chiến lược báo giá của chuyên gia nhằm cân bằng tổng chi phí của dự án
Hình 4.9 Biểu đồ liên hệ giữa diện tích, loại hạng mục và chi phí b Kết cấu khung
Hình 4.10 Biểu đồ cột thể hiện trung bình chi phí/m 2 theo loại khung
Biểu đồ hình 4.10 trên cho thấy mối quan hệ giữa loại kết cấu khung và chi phí trung bình trên một mét vuông diện tích của các dự án xây dựng Từ dữ liệu và biểu đồ, ta có thể rút ra những nhận xét sau:
Triển khai mô hình
Trong nghiên cứu này, cơ sở dữ liệu được chia thành hai phần: 80% (tương ứng với 120 điểm dữ liệu) được chọn một cách ngẫu nhiên để huấn luyện các mô hình học máy, còn 20% còn lại (30 điểm dữ liệu) được sử dụng để kiểm thử các mô hình đã được phát triển Để đạt được hiệu suất cao nhất cho mỗi hàm pedotransfer dựa trên học máy (ML) tương ứng với từng thuật toán, nghiên cứu đã tiến hành điều chỉnh siêu tham số (hyperparameters) cho bốn ML khác nhau là SVR (Support Vector Regression), DT (Decision Tree), RF (Random Forest) và XGB (Extreme Gradient Boosting) Một thuật toán tìm kiếm lưới (grid-search algorithm) đã được áp dụng để thực hiện việc điều chỉnh siêu tham số một cách hiệu quả, vì việc xác định bộ siêu tham số tối ưu cho tất cả các siêu tham số liên quan trong một số thuật toán ML có thể rất tốn kém về mặt tính toán Vì vậy, chỉ một số siêu tham số quan trọng được lựa chọn để điều chỉnh cho mỗi thuật toán ML, bao gồm cả phạm vi của từng siêu tham số Đối với việc điều chỉnh siêu tham số, phương pháp kiểm định chéo K-fold với năm phần được sử dụng để đánh giá hiệu suất (dựa trên giá trị R²) của mô hình cho mỗi sự kết hợp siêu tham số.
Bảng 4.11: Biến siêu tham số cho từng thuật toán học máy (Machine Learning)
Phương pháp học máy (ML algorithm)
Siêu tham số mặc định
Phạm vị của siêu tham số (Range of hyperparemeters)
Các siêu tham số đã được điều chỉnh (Tuned hyperparameters)
DT min_samples_leaf = 1, min_samples_split = 2 min_samples_leaf = 1, 2, 3, … , 8, 9, 10 min_samples_split = 1, 2, 3, … , 8, 9, 10 min_samples_leaf = 1, min_samples_split = 5
XGB* max_dept = None, n_estimators = 100 max_dept = 2, 3, 4, … , 8, 9, 10 n_estimators = 20, 30, 40, … , 290, 300 max_dept = 5, n_estimators = 140
Sau khi thiết lập thông số, tiến hành nhập dữ liệu đã được chuẩn hóa vào Python để chạy bốn thuật toán học máy SVR, DT, DF, XGB và xuất ra kết quả
KẾT QUẢ
So sánh các mô hình
Sau khi chạy các mô hình trên Python, mô hình tự động tính toán các chỉ số đánh giá Kết quả các chỉ số này được thể hiện trong bảng 5.1 dưới đây:
Bảng 5.1: Tóm tắt các chỉ số đánh giá của các thuật toán
Tập huấn luyện (Train set) Tập kiểm tra (Test set)
Thuật toán RMSE MAE R² RMSE MAE R²
RF (Random Forest) 3.846 1.303 0.941 8.249 4.898 0.826 SVR (Support Vector
Từ bảng trên tiến hành xây dựng các biểu đồ (Hình 5.1, Hình 5.2 và Hình 5.3) hiển thị các chỉ số đánh giá Mean Absolute Error (MAE), Coefficient of Determination (R²), và Root Mean Square Error (RMSE) cho cả tập huấn luyện (Train set) và tập kiểm tra (Test set) của bốn thuật toán học máy: XGBoost, Random Forest (RF), Support Vector Regression (SVR), và Decision Tree (DT)
Hình 5.1 Biểu đồ thể hiện chỉ số RMSE của các thuật toán theo hai tập Huấn luyện và Kiểm tra
❖ Nhận xét về Biểu Đồ RMSE:
- XGBoost có RMSE tăng từ 1.826 lên 5.110, mặc dù cao nhưng vẫn giữ được một mức độ chấp nhận được so với các thuật toán khác
- Random Forest cho thấy sự tăng RMSE đáng kể từ 3.846 lên 8.249 trên tập kiểm tra, là dấu hiệu của overfitting
- SVR có RMSE thấp hơn trên tập kiểm tra (4.038) so với Random Forest và XGBoost
- Decision Tree có RMSE cực thấp trên tập huấn luyện (0.131) nhưng lại tăng lên 5.328 trên tập kiểm tra, cho thấy mô hình này rất chính xác với dữ liệu huấn luyện nhưng không duy trì được độ chính xác đó trên dữ liệu mới
Hình 5.2 Biểu đồ thể hiện chỉ số MAE của các thuật toán theo hai tập Huấn luyện và Kiểm tra
❖ Nhận xét về Biểu Đồ MAE:
- XGBoost cho thấy sự chênh lệch đáng kể giữa kết quả trên tập huấn luyện và tập kiểm tra, với MAE tăng từ 1.065 lên 3.106
- Random Forest cũng thể hiện sự tăng MAE từ tập huấn luyện (1.303) lên tập kiểm tra (4.898), điều này cũng có thể chỉ ra sự overfitting
- SVR có MAE thấp nhất trên tập kiểm tra (2.971) so với RF, DT và XGBOOST, nhưng cao hơn so với tập huấn luyện của chính nó (2.150)
- Decision Tree có MAE rất thấp trên tập huấn luyện (0.018) nhưng lại tăng vọt lên 3.461 trên tập kiểm tra, chỉ ra rằng mô hình này có thể đã bị overfitting nghiêm trọng
Hình 5.3 Biểu đồ thể hiện chỉ số R 2 của các thuật toán theo hai tập Huấn luyện và Kiểm tra
❖ Nhận xét về Biểu Đồ R²:
- XGBoost và SVR duy trì được R² cao trên cả tập huấn luyện và tập kiểm tra, với SVR thậm chí còn tăng nhẹ từ 0.921 lên 0.958, cho thấy khả năng dự đoán tốt trên dữ liệu mới
- Random Forest có sự giảm R² từ 0.941 xuống 0.826, điều này có thể là dấu hiệu của sự overfitting hoặc không tổng quát hóa tốt
- Decision Tree cho thấy R² gần như hoàn hảo trên tập huấn luyện (0.999) nhưng giảm xuống 0.927 trên tập kiểm tra, mặc dù vẫn còn khá cao
Kết luận chung từ các biểu đồ:
- Các mô hình có sự chênh lệch giữa hiệu suất trên tập huấn luyện (Train set) và tập kiểm tra (Test set), mô hình DT (Decision Tree) có kết quả 3 chỉ số khá ấn tượng trên tập huấn luyện, tuy nhiên trên tập kiểm tra có sự chênh lệch rõ rệt Decision Tree có dấu hiệu rõ ràng nhất của overfitting
- SVR là mô hình có khả năng tổng quát hóa tốt nhất, với sự ổn định của các chỉ số trên cả hai tập dữ liệu
- XGBoost và SVR đều có hiệu suất tốt trên tập kiểm tra, nhưng XGBoost có RMSE và MAE cao hơn một chút so với SVR
Vậy mô hình tối ưu nhất là SVR (Support Vector Regression) về hiệu suất lẫn khả năng diễn giải.
Phân tích giá trị dự đoán và thực tế trên mô hình SVR
Sau khi xác định SVR là mô hình tối ưu, lập bảng thể hiện giá trị chi phí dự đoán Y’ và chi phí thực tế Y trên cả tập huấn luyện (Train set) và tập kiểm tra (Test set) Dùng biểu đồ Box plot và Scatter plot để phân tích
Hình 5.4 Biểu đồ Boxplot chênh lệch chi phí trên hai tập Kiểm tra và Huấn luyện
Bảng 5.2: Thông số cho biểu đồ boxplot hình 5.4
Thống kê (Statistic) Chênh lệch tập kiểm tra
Chênh lệch tập huấn luyện (Residual_Train set)
Biểu đồ box plot có hai cột "Chênh lệch chi phí tập kiểm tra (Residual_Test set)" và "Chênh lệch chi phí tập huấn luyện (Residual_Train set)" đại diện cho sự chênh lệch giữa giá trị dự đoán và giá trị thực tế (tính bằng tỷ đồng) của mô hình học máy SVR trên hai tập dữ liệu: tập huấn luyện (Train set) và tập kiểm tra (Test set) Giá trị chênh lệch bằng Y (chi phí thực tế) – Y’ (chi phí dự đoán) Dưới đây là nhận xét chi tiết về biểu đồ này:
- Tập kiểm tra có trung vị âm (-2.2409), cho thấy dự đoán thường thấp hơn giá trị thực tế
- Tập huấn luyện có trung vị gần 0 (0.0430), cho thấy dự đoán và thực tế khá cân xứng
- Tập kiểm tra có phạm vi rộng hơn (từ -13.0330 đến 8.0542) so với tập huấn luyện (từ -7.4290 đến 24.3815), điều này cho thấy sự biến động lớn hơn trong chất lượng dự đoán trên tập kiểm tra
❖ IQR (Interquartile Range – Độ trải giữa):
- IQR lớn hơn ở tập kiểm tra (2.9442 so với 1.5685) cũng phản ánh sự biến động lớn hơn trong dữ liệu này
- Có nhiều ngoại lệ hơn ở tập huấn luyện (21 so với 2 trong tập kiểm tra), điều này có thể chỉ ra rằng mô hình có xu hướng dự đoán không chính xác hơn trên một số điểm dữ liệu cụ thể trong quá trình huấn luyện
- Tập kiểm tra: Có sự biến động lớn trong chất lượng dự đoán, với nhiều giá trị dư âm và một phạm vi rộng Điều này cho thấy mô hình có thể ít hiệu quả trong việc dự đoán trên dữ liệu chưa từng thấy trước đó
- Tập huấn luyện: Mặc dù có ít biến động hơn và trung vị gần với 0, nhưng số lượng ngoại lệ lớn cho thấy mô hình có thể không ổn định hoặc bị ảnh hưởng bởi một số điểm dữ liệu cụ thể
Việc có một số ngoại lệ không nhất thiết là dấu hiệu xấu, nhưng nó cho thấy cần xem xét thêm về tính chính xác và ổn định của mô hình Việc tinh chỉnh mô hình hoặc sử dụng các kỹ thuật xử lý dữ liệu khác có thể cần thiết để cải thiện hiệu suất
Hình 5.5 Biểu đồ scatter giữa chi phí thực tế và chi phí dự đoán
Bảng 5.3: So sánh thông số giữa hai tập huấn luyện và kiểm tra
Tập huấn luyện (Train set)
Tập kiểm tra (Test set)
Mean Absolute Error (MAE) 2.15 tỷ đồng 2.9706 tỷ đồng
(RMSE) 4.4366 tỷ đồng 4.0378 tỷ đồng
Dựa trên biểu đồ scatter plot giữa chi phí thực tế (Y) và giá trị dự đoán (Y') của mô hình SVR, cùng với các thông số phân tích cho cả tập huấn luyện (Train set) và tập kiểm tra (Test set), chúng ta có thể đưa ra những nhận xét chi tiết sau:
- Mối Quan Hệ Tuyến Tính: Có mối quan hệ tuyến tính mạnh giữa chi phí thực tế và dự đoán, đặc biệt là trong tập kiểm tra, được thể hiện bởi hệ số tương quan cao Điều này cho thấy mô hình SVR dự đoán chính xác trong hầu hết các trường hợp
- Phân Bố Điểm Dữ Liệu: Các điểm dữ liệu có xu hướng tập trung gần đường chéo hơn khi chi phí tăng cao, điều này phản ánh khả năng dự đoán chính xác hơn của mô hình đối với các trường hợp có chi phí lớn Tuy vậy, vẫn còn một số trường hợp, nhất là trong tập huấn luyện, nằm cách biệt so với đường chéo, chỉ ra sự chênh lệch tương đối giữa dự đoán và thực tế
Phân biệt rõ ràng giữa tập huấn luyện và tập kiểm tra dựa trên độ chính xác và sự phân bố của chúng Tập kiểm tra thường có độ chính xác cao hơn tập huấn luyện vì mục đích của nó là đánh giá hiệu suất của mô hình trên dữ liệu chưa nhìn thấy trước đó, giúp đảm bảo rằng mô hình có khả năng tổng quát hóa tốt.
Hệ số tương quan cho thấy mô hình có hiệu quả cao trong việc dự đoán chi phí dựa trên các biến đầu vào, đặc biệt là đối với tập kiểm tra Điều này minh chứng cho độ tin cậy và khả năng khái quát của mô hình trong thực tiễn, củng cố thêm sự đánh giá tích cực về hiệu quả của mô hình.
- Mean Absolute Error (MAE) và Root Mean Squared Error (RMSE): Tuy có giá trị không quá cao, nhưng vẫn tồn tại một chênh lệch đáng kể giữa giá trị dự đoán và thực tế, đặc biệt trong tập kiểm tra
- R-squared (R²): Giá trị R² cao cho thấy mô hình giải thích được một tỷ lệ lớn sự biến đổi trong chi phí thực tế Tuy nhiên, vẫn có một phần không nhỏ mà mô hình chưa thể giải thích, đặc biệt trong tập huấn luyện
- Mô hình SVR thể hiện khả năng dự đoán tốt, với mức độ chính xác cao, nhưng không hoàn hảo Có thể cần xem xét việc tinh chỉnh mô hình hoặc kiểm tra chất lượng và tính đầy đủ của dữ liệu đầu vào
- Có chênh lệch giữa tập huấn luyện và kiểm tra, tuy nhiên không đáng kể
- Cần cân nhắc thêm về việc giảm thiểu lỗi dự đoán, đặc biệt với các trường hợp nằm xa đường chéo trên biểu đồ