- Thu thập dữ liệu về các yếu tố ảnh hưởng, sau đó áp dụng và phát triển các mô hình học máy để dự báo chi phí xây dựng nhà xưởng và các hạng mục phụ trợ.. Nghiên cứu này không chỉ phân
TỔNG QUAN
Tính cấp thiết của đề tài
1.1.1 Tình hình ngành xây dựng hiện nay:
Trong thập kỷ qua, ngành xây dựng ở Việt Nam đã chứng kiến sự phát triển mạnh mẽ và không ngừng nghỉ Từ các công trình cơ bản như nhà ở, trường học, đến những dự án lớn như cầu đường, nhà xưởng, hay các khu công nghiệp, mỗi công trình đều mang đến cho ngành xây dựng những thách thức mới và cơ hội phát triển Trong bối cảnh này, việc ước tính chi phí xây dựng trở thành một yếu tố quan trọng, đóng vai trò quyết định đến sự thành công của mỗi dự án Theo Gwang Hee Kim và cộng sự (2013) [52] việc ước tính chi phí xây dựng không chỉ đơn thuần là việc tính toán số liệu, nó còn liên quan đến việc đánh giá và dự báo các yếu tố ảnh hưởng đến chi phí, từ giá vật liệu xây dựng, tiền công, chi phí quản lý dự án, đến các rủi ro không lường trước được Sự chính xác trong việc ước tính chi phí xây dựng có thể giúp ngăn ngừa sự lệch pha giữa dự toán và thực tế, đảm bảo hiệu quả đầu tư và tối thiểu hóa rủi ro tài chính Trong một thị trường cạnh tranh khốc liệt như Việt Nam, việc này càng trở nên quan trọng Đối với việc xây dựng nhà xưởng, nhu cầu về việc ước tính chi phí càng được đặt lên hàng đầu Nhà xưởng là một phần quan trọng của nền kinh tế, đặc biệt là trong bối cảnh công nghiệp hóa, hiện đại hóa đang diễn ra mạnh mẽ ở Việt Nam Các nhà xưởng không chỉ đòi hỏi sự tuân thủ nghiêm ngặt các quy định về an toàn lao động và môi trường, mà còn cần phải đáp ứng nhu cầu sử dụng hiệu quả, từ việc tối ưu hóa không gian, năng lượng, đến việc chịu đựng được áp lực từ các hoạt động sản xuất
Do đó, việc ước tính chi phí xây dựng nhà xưởng đòi hỏi sự thận trọng và chuyên môn cao Ngoài ra, với sự gia tăng của công nghệ và sự đổi mới trong ngành xây dựng, việc ước tính chi phí xây dựng nhà xưởng cũng phải thích ứng với những thay đổi này Ngày nay, không chỉ là việc xây dựng một khuôn viên để hoạt động sản xuất, nhà xưởng cũng cần phải tận dụng tối đa các tiến bộ trong công nghệ, từ việc sử dụng năng lượng tái tạo, hệ thống quản lý thông minh, đến việc tối ưu hóa hiệu quả vận hành và bảo dưỡng Tất cả những yếu tố này đều tạo ra một nhu cầu mạnh mẽ về việc
PHẠM TẤN DŨNG - 2170245 2 ước tính chi phí xây dựng nhà xưởng một cách chính xác và chuyên nghiệp Để đáp ứng nhu cầu này, các chuyên gia trong ngành xây dựng cần có kiến thức sâu rộng, từ việc hiểu rõ về quy trình xây dựng, đánh giá vật liệu, đến việc áp dụng các phương pháp và công cụ ước tính hiện đại
Ngày nay, tầm quan trọng của báo giá xây nhà xưởng tại Việt Nam là không thể phủ nhận, đóng vai trò quyết định đến thành công của dự án và sự phát triển bền vững của ngành Để đáp ứng nhu cầu này, đòi hỏi các nhân sự trong ngành cần nâng cao năng lực, đầu tư vào công nghệ và phương pháp tiên tiến để đưa ra con số ước tính chi phí chính xác và hiệu quả.
Hiện nay, tại Việt Nam các phương pháp ước tính chi phí xây dựng thường được áp dụng, bao gồm: a Phương pháp thể tích:
Phương pháp tính đơn vị thể tích, hay còn gọi là phương pháp tính theo khối, là một cách tiếp cận phổ biến để ước tính chi phí xây dựng Phương pháp này căn cứ vào khối lượng xây dựng của tòa nhà hoặc công trình và nhân với một đơn giá tiêu chuẩn để có được mức ước tính chi phí xây dựng tổng thể.
Dưới đây là các bước chính trong việc ứng dụng phương pháp này:
- Xác định tổng thể tích của công trình: Cách xác định thể tích của một công trình được quy định bởi các tổ chức nghề nghiệp (như là Royal Institute of British Architecs – RIB) hoặc quốc gia cụ thể RIB quy định:
Thể tích một công trình ( m 3 ) = Dài (m) x Rộng (m) x Cao (m) (1.1)
- Tìm đơn giá tiêu chuẩn: Đơn giá này thường được lấy từ dữ liệu của các dự án xây dựng tương tự trong quá khứ, hoặc từ các nguồn thông tin công nghiệp
- Tính toán chi phí tổng thể: Nhân tổng thể tích của công trình với đơn giá tiêu chuẩn để có được một ước lượng chi phí tổng thể
Chí phí xây dựng = Thể tích công trình (m 3 ) x giá thành của một m 3 (đ/m 3 ) (1.2)
- Đơn giản và nhanh chóng: Phương pháp này yêu cầu ít thông tin chi tiết và ít công sức tính toán so với một số phương pháp ước lượng chi phí khác
- Tốt cho giai đoạn sơ bộ: Đây là một cách tốt để có được một ước lượng sơ bộ về chi phí xây dựng ở giai đoạn đầu của dự án, khi thông tin chi tiết có thể chưa được biết
- Dễ so sánh: Khi được sử dụng như một chuẩn mực, phương pháp này có thể giúp so sánh chi phí của các dự án xây dựng khác nhau
- Ít chính xác: Do phương pháp này dựa trên ước lượng sơ bộ và giả định rằng tất cả các công trình có cùng một đơn giá cho mỗi đơn vị thể tích, nó có thể không chính xác đối với các dự án có đặc điểm khác nhau hoặc đối với các dự án phức tạp
- Không xem xét các yếu tố đặc biệt: Phương pháp này không xem xét các yếu tố đặc biệt hoặc không thông thường trong quá trình xây dựng, như yêu cầu về chất lượng cao, vị trí địa lý, hoặc yếu tố thời gian
- Đơn giá có thể lỗi thời: Đơn giá tiêu chuẩn cần được cập nhật thường xuyên để phản ánh đúng chi phí xây dựng hiện tại Nếu không, ước lượng có thể bị sai lệch b Phương pháp diện tích sàn:
Phương pháp diện tích sàn là một phương pháp ước lượng chi phí xây dựng rất phổ biến Theo Lưu Trường Văn (2014) [25] phương pháp này dựa trên việc nhân diện tích sàn tổng cộng của công trình xây dựng với một đơn giá tiêu chuẩn (thường được đưa ra dưới dạng chi phí cho mỗi mét vuông)
Dưới đây là các bước chính để thực hiện phương pháp diện tích sàn:
- Xác định diện tích sàn tổng cộng của công trình:
Tổng diện tích sàn của tất cả các tầng = Diện tích mặt sàn sử dụng + Các loại diện tích khác đi kèm (mái, sân, phần móng, tầng hầm…) (1.3)
Đơn giá tiêu chuẩn là giá tham chiếu quan trọng được sử dụng trong lập dự toán xây dựng Đơn giá này thường được xác định dựa trên dữ liệu về chi phí thực tế của các dự án xây dựng tương tự đã hoàn thành Ngoài ra, các nguồn thông tin công nghiệp uy tín cũng có thể cung cấp thông tin về đơn giá tiêu chuẩn của các hạng mục công trình khác nhau.
- Tính toán chi phí tổng thể: Nhân diện tích sàn tổng cộng của công trình với đơn giá tiêu chuẩn để có được một ước lượng chi phí tổng thể
Tổng chi phí = Tổng diện tích sàn x giá thành 1m 2 sàn (1.4)
Mục tiêu nghiên cứu
Mục tiêu của nghiên cứu trong việc áp dụng các mô hình học máy (ML) để dự báo chi phí xây dựng nhà xưởng là tạo ra một mô hình dự báo chính xác và đáng tin cậy, giúp nhà thầu và nhà quản lý dự án lên kế hoạch ngân sách một cách hiệu quả Để đạt được mục tiêu này, các bước sau được thực hiện:
- Xác định các nhân tố ảnh hưởng tới chi phí: Mục tiêu ban đầu là xác định các yếu tố quan trọng và ảnh hưởng đến chi phí xây dựng nhà xưởng, bao gồm diện tích, vị trí địa lý, đặc điểm công trình, loại nguyên vật liệu, cũng như các yếu tố khác có thể ảnh hưởng đến quy mô và phức tạp của dự án
- Thu thập dữ liệu: Để xây dựng mô hình dự báo chi phí quá trình thu thập dữ liệu từ các dự án xây dựng nhà xưởng trước đây là cần thiết Dữ liệu này bao gồm thông tin chi tiết về các yếu tố ảnh hưởng đến chi phí và giá trị thực tế của dự án
- Xây dựng các mô hình học máy: Sử dụng các phương pháp học máy và thuật toán, mục tiêu là xây dựng một mô hình dự báo chi phí xây dựng dựa trên dữ liệu thu thập được Các mô hình này có thể bao gồm các kỹ thuật như học có
PHẠM TẤN DŨNG - 2170245 11 giám sát, học không giám sát, hoặc kết hợp cả hai để tạo ra dự báo chính xác và linh hoạt
- Đánh giá và lựa chọn mô hình phù hợp nhất: Mục tiêu cuối cùng là đánh giá hiệu suất của các mô hình và lựa chọn mô hình phù hợp nhất cho việc dự báo chi phí xây dựng nhà xưởng Các tiêu chí đánh giá bao gồm độ chính xác, độ tin cậy và khả năng mở rộng của mô hình.
Đối tượng nghiên cứu
- Dữ liệu liên quan đến xây dựng nhà xưởng và các hạng mục phụ trợ: Bao gồm các thông tin về quy mô, vị trí, thiết kế, vật liệu, thi công, giám sát và các thông tin khác liên quan đến xây dựng nhà xưởng và các hạng mục phụ trợ
Các yếu tố ảnh hưởng đến chi phí xây dựng bao gồm chi phí lao động, vật liệu, thiết bị, vận chuyển, điều kiện khí hậu, thị trường, chính sách và nhiều yếu tố khác Những yếu tố này đóng vai trò quan trọng trong việc xác định chi phí tổng thể của một dự án xây dựng, vì vậy việc xem xét và cân nhắc cẩn thận từng yếu tố là điều cần thiết để lập kế hoạch và quản lý chi phí hiệu quả.
- Các phương pháp và công nghệ trí tuệ nhân tạo: Bao gồm các phương pháp và công nghệ trí tuệ nhân tạo như học máy, mạng nơ-ron nhân tạo, học sâu, các giải thuật tối ưu, v.v được áp dụng để dự báo chi phí xây dựng nhà xưởng và các hạng mục phụ trợ
Các chuyên gia xây dựng đóng vai trò quan trọng trong việc cung cấp thông tin cho mô hình dự đoán chi phí xây dựng Họ sở hữu chuyên môn và kiến thức sâu rộng về các yếu tố ảnh hưởng đến chi phí.
Phạm vi nghiên cứu
Thời gian thực hiện nghiên cứu 6 tháng
Không gian: Công ty xây dựng chuyên về nhà xưởng tại Tp HCM, Bình Dương
CƠ SỞ LÝ THUYẾT
Khái niệm
Nhà xưởng là một không gian được xây dựng đặc biệt để phục vụ cho công việc sản xuất và chế biến trong nhiều ngành công nghiệp khác nhau, từ chế tạo máy móc, cơ khí, chế biến thực phẩm đến dệt may, sản xuất đồ điện tử Nhà xưởng không chỉ đơn thuần là một không gian chứa đựng máy móc, nó còn tạo điều kiện thuận lợi để nhân viên làm việc hiệu quả, an toàn và thuận tiện
Hình 2.1 Nhà máy bê tông Hồng Tín Bình Phước Đầu tiên, khi xây dựng một nhà xưởng, phần chính cần xem xét là không gian làm việc Kích thước và cấu trúc của không gian này phụ thuộc vào loại hình sản xuất, quy mô doanh nghiệp, số lượng nhân viên và loại máy móc sử dụng Không gian làm việc cần rộng rãi, thoáng đãng, đảm bảo ánh sáng đủ và có hệ thống thông gió tốt để tạo môi trường làm việc thoải mái, an toàn cho công nhân Tiếp theo, phần quan trọng thứ hai là hệ thống điện và cung cấp năng lượng Hệ thống này phải đủ mạnh để cung cấp điện cho tất cả các máy móc và thiết bị, đồng thời đảm bảo an toàn, tránh nguy cơ cháy nổ do chập điện Bên cạnh đó, việc lựa chọn nguồn năng lượng thân thiện với môi trường như điện mặt trời, gió cũng đang trở nên phổ biến Hạng mục thứ ba đó là hệ thống quản lý chất thải Trong quá trình sản xuất, việc sinh ra chất thải không thể tránh khỏi Hệ thống quản lý chất thải giúp xử lý và loại bỏ chất
PHẠM TẤN DŨNG - 2170245 13 thải một cách an toàn, không gây ô nhiễm môi trường Cuối cùng, nhà xưởng cũng cần có các khu vực phụ trợ như khu vực để nghỉ ngơi, ăn uống, vệ sinh cho công nhân Đây không chỉ là yêu cầu về quy định pháp luật mà còn góp phần nâng cao hiệu suất làm việc và tạo môi trường làm việc lành mạnh, tôn trọng quyền lợi của công nhân
Nhà xưởng không chỉ là nơi để sản xuất sản phẩm, mà còn là nơi mà công nhân dành phần lớn thời gian hàng ngày để làm việc Việc xây dựng và quản lý nhà xưởng cần đặc biệt chú trọng đến việc tạo ra một môi trường làm việc hiệu quả, an toàn và thoải mái Điều này yêu cầu một sự cân nhắc kỹ lưỡng về không gian làm việc, hệ thống điện, quản lý chất thải và các khu vực phụ trợ Hơn nữa, các yếu tố như tiếng ồn, độ ẩm, nhiệt độ cũng cần được quan tâm Việc kiểm soát những yếu tố này giúp đảm bảo sức khỏe của nhân viên và tăng hiệu suất làm việc Bên cạnh đó, nhà xưởng cũng cần tuân thủ các quy định về an toàn lao động, phòng cháy chữa cháy, bảo vệ môi trường Nhà xưởng cũng cần được bảo dưỡng định kỳ để đảm bảo hoạt động ổn định và phòng tránh các rủi ro có thể xảy ra
Nhắc đến nhà xưởng thì hạng mục phụ xung quanh nó cũng góp phần quan trọng không kém Hạng mục phụ của nhà xưởng là các công trình, thiết bị và tiện ích hỗ trợ không trực tiếp liên quan đến quá trình sản xuất chính trong nhà xưởng, nhưng lại đóng vai trò quan trọng trong việc tạo điều kiện làm việc an toàn, tiện nghi và hiệu quả Các hạng mục phụ này thường bao gồm:
Nhà vệ sinh, nhà tắm là các công trình thiết yếu trong nhà xưởng, bao gồm cả phòng vệ sinh và phòng tắm cho nhân viên Những tiện ích này đảm bảo môi trường vệ sinh và thoải mái cho người lao động trong suốt quá trình làm việc, góp phần nâng cao năng suất lao động và duy trì sức khỏe tốt.
- Nhà ăn nhân viên: Là một khu vực được dành riêng để nhân viên trong nhà xưởng có thể ăn uống và nghỉ ngơi trong khoảng thời gian giải lao Nhà ăn thường bao gồm khu vực ăn uống, bếp và các tiện ích khác để phục vụ nhân viên
Khu vực nghỉ giải lao là nơi được thiết kế để nhân viên thư giãn và tái tạo năng lượng trong thời gian nghỉ giữa ca làm việc Khu vực này thường bao gồm những khu vực có ghế ngồi, không gian xanh hoặc các tiện nghi giải trí khác như phòng chơi game hay phòng tập thể dục.
- Khu vực tiếp khách: Đối với những nhà xưởng có quy mô lớn hoặc có nhu cầu tiếp đón khách hàng, khu vực tiếp khách được thiết kế để chào đón và tiếp đón khách hàng Điều này có thể bao gồm khu vực tiếp tân, phòng họp và khu vực chờ
- Khu vực bảo vệ và an ninh: Bao gồm các công trình như nhà bảo vệ, hàng rào, hệ thống camera an ninh và các biện pháp bảo vệ khác để đảm bảo an toàn và bảo vệ tài sản của nhà xưởng
- Ký túc xá nhân viên: Đối với những nhà xưởng có đội ngũ nhân viên từ xa, ký túc xá nhân viên cung cấp nơi ở cho nhân viên trong khoảng thời gian làm việc
- Khu vực bảo trì và sửa chữa: Bao gồm các phòng bảo trì, phòng sửa chữa và khu vực để lưu trữ các công cụ, vật liệu và linh kiện cần thiết để bảo trì và sửa chữa thiết bị trong nhà xưởng
- Hệ thống điện, nước và thoát nước: Bao gồm hệ thống điện chiếu sáng, hệ thống cung cấp nước sạch và hệ thống thoát nước để đảm bảo nguồn điện, nước và xử lý nước hiệu quả trong nhà xưởng
Các hạng mục phụ này đóng vai trò quan trọng trong việc tạo môi trường làm việc an toàn, tiện nghi và hiệu quả cho nhân viên trong quá trình hoạt động của nhà xưởng
Với sự bùng nổ công nghệ, các nhà xưởng đang chuyển mình thành những không gian sản xuất thông minh Tự động hóa, rô bốt hóa, IoT và AI đóng vai trò then chốt trong việc tối ưu hiệu suất, giảm thiểu sai sót và tiết kiệm chi phí Từ đó, các nhà xưởng không chỉ là nơi sản xuất sản phẩm chất lượng mà còn là môi trường làm việc lý tưởng cho công nhân Quá trình thiết kế và quản lý nhà xưởng hiện đại luôn hướng đến mục tiêu tạo ra không gian làm việc hiệu quả, an toàn và đáp ứng nhu cầu ngày càng cao của sự phát triển công nghiệp.
PHẠM TẤN DŨNG - 2170245 15 đúng cách sẽ đóng một vai trò quan trọng trong sự thành công của một doanh nghiệp công nghiệp
Các hàm và phương pháp phổ biến trong Machine Learning
Trong lĩnh vực học máy (Machine Learning), có một số hàm và phương pháp phổ biến được sử dụng rộng rãi cho các mục đích khác nhau, từ xử lý dữ liệu, huấn luyện mô hình, đến đánh giá hiệu suất Dưới đây là một số hàm và phương pháp trong
Bảng 2.1: Các hàm và phương pháp trong học máy
Mean Squared Error (MSE) Hồi quy tuyến tính và hồi quy đa biến
Cross-Entropy Loss Mạng nơ-ron ANN, Convolutional Neural Networks
Sử dụng trong Support Vector Machine (SVM) cho bài toán phân loại
ReLU Phổ biến trong mạng nơ-ron sâu, CNNs và mạng nơ- ron truy hồi (Recurrent Neural Networks - RNNs)
Sigmoid Sử dụng ở lớp đầu ra của các mô hình phân loại nhị phân Softmax Sử dụng ở lớp đầu ra của các mô hình phân loại đa lớp
3 Thuật toán tối ưu hóa
Gradient Descent Được sử dụng trong hầu hết các mô hình học máy, đặc biệt là trong mạng nơ-ron sâu
(Evaluation Metrics) Độ chính xác (Accuracy) Được sử dụng trong hầu hết các thuật toán phân loại
Precision và Recall Sử dụng trong các bài toán phân loại, đặc biệt hữu ích trong các tình huống có dữ liệu không cân đối hoặc khi chi phí của các loại lỗi khác nhau
Có thể được sử dụng trước khi đưa dữ liệu vào hầu hết các mô hình học máy, bao gồm hồi quy tuyến tính, SVM, và mạng nơ-ron
Euclidean Distance Thường được sử dụng trong thuật toán phân cụm như
K-Means hoặc trong các thuật toán phân loại dựa trên khoảng cách như K-Nearest Neighbors (KNN) Manhattan Distance
2.2.1 Hàm Mất Mát (Loss Functions):
2.2.1.1 Hàm MSE (Mean Squared Error)
Hàm Mean Square Error (MSE), hay còn gọi là lỗi trung bình bình phương, là một hàm mất mát (loss function) phổ biến trong học máy, đặc biệt trong các bài toán hồi quy (regression) MSE đo lường mức độ chênh lệch giữa các giá trị dự đoán của mô hình và giá trị thực tế Công thức của MSE là trung bình của bình phương các sai số giữa dự đoán và thực tế [59]
Công thức của MSE là:
• n là số lượng mẫu dữ liệu
• yi là giá trị thực tế của mẫu thứ i
• y là giá trị dự đoán của mẫu thứ i
MSE cung cấp một chỉ số định lượng cho việc đánh giá chất lượng của mô hình học máy: một giá trị MSE thấp cho thấy mô hình có khả năng dự đoán chính xác hơn so với một giá trị MSE cao Hàm này đặc biệt hữu ích trong các tình huống mà bạn muốn trừng phạt các dự đoán sai lệch lớn, bởi vì các sai số lớn được làm tăng cường do tính chất bình phương trong công thức
Hàm mất mát Cross Entropy, còn được gọi là log loss, là một hàm mất mát phổ biến sử dụng trong các bài toán phân loại (classification) trong học máy, đặc biệt
Hàm Cross Entropy đóng vai trò quan trọng trong các bài toán phân loại nhị phân và đa lớp, đo lường sự khác biệt giữa phân phối xác suất thực tế của nhãn dữ liệu và phân phối xác suất dự đoán bởi mô hình.
• N là số lượng mẫu trong tập dữ liệu
• y i là nhãn thực tế của mẫu thứ i, thường là 0 hoặc 1
• y i là xác suất dự đoán mà mẫu thứ i thuộc lớp 1, như được dự đoán bởi mô hình Đối với phân loại đa lớp, công thức của Cross Entropy được mở rộng để tính toán xác suất cho mỗi lớp và so sánh với nhãn thực tế của từng lớp
Hàm Cross Entropy trừng phạt mạnh mẽ các dự đoán chắc chắn nhưng sai lệch, khiến nó trở thành một công cụ hữu ích trong việc huấn luyện các mô hình phân loại có hiệu suất cao Điều này giúp đảm bảo rằng mô hình không chỉ dự đoán đúng nhãn mà còn dự đoán với mức độ tự tin cao
Hàm Hinge là một hàm mất mát được sử dụng chủ yếu trong các bài toán phân loại, đặc biệt là với các thuật toán Máy Vector Hỗ Trợ (Support Vector Machines - SVMs) Hàm này thiết kế để tối ưu hóa các phân loại nhị phân và đặc biệt hiệu quả trong việc tăng cường "margin" - khoảng cách giữa các điểm dữ liệu và ranh giới quyết định [29]
Công thức cơ bản của Hinge là: max(0,1 i i )
• y i là nhãn thực tế của mẫu thứ i, thường là -1 hoặc 1
• y i là giá trị dự đoán của mẫu thứ i, tính bằng cách nhân trọng số của mô hình với các đặc trưng của mẫu
Hàm Hinge Loss hoạt động bằng cách trừng phạt các dự đoán sai lệch khi chúng nằm bên sai lầm của ranh giới quyết định Mục tiêu của Hinge Loss không chỉ là phân loại chính xác các mẫu, mà còn là tối đa hóa khoảng cách giữa các mẫu và ranh giới quyết định, nhằm tạo ra một mô hình có khả năng phân loại tổng quát tốt trên dữ liệu mới
Hinge Loss đặc biệt phù hợp với SVM vì nó tối ưu hóa margin, điều mà là mục tiêu cốt lõi của SVM Tuy nhiên, nó không cung cấp xác suất dự đoán mà chỉ cung cấp quyết định phân loại, và do đó ít phổ biến hơn trong các mô hình phân loại cần dự đoán xác suất
2.2.2 Hàm Kích Hoạt (Activation Functions):
The Rectified Linear Unit (ReLU) activation function is widely used in deep neural networks, particularly convolutional neural networks (CNNs) It is known for its simplicity and effectiveness in addressing the vanishing gradient problem commonly encountered with traditional non-linear activation functions like sigmoid and tanh.
Công thức của hàm ReLU là:
= (2.4) Định nghĩa trên có thể được viết lại như sau:
Nghĩa là, nếu giá trị đầu vào v là dương, hàm sẽ trả về giá trị đó; còn nếu v là âm, hàm sẽ trả về 0 Tính chất này giúp ReLU duy trì tính phi tuyến mà không làm tăng độ phức tạp của quá trình tính toán, cũng như giúp đẩy nhanh quá trình học của mạng nơ ron
Một số lợi ích của hàm ReLU bao gồm:
- Tính Hiệu Quả Tính Toán: Do tính chất đơn giản của nó, ReLU thường nhanh hơn các hàm kích hoạt phi tuyến khác
- Giảm Thiểu Vấn Đề Biến Mất Gradient: Trong quá trình lan truyền ngược (backpropagation), gradient của hàm ReLU không biến mất khi giá trị đầu vào dương, giúp mạng nơ-ron học hiệu quả hơn
Tuy nhiên, ReLU cũng có nhược điểm là "chết" (dying ReLU problem) với các nơ-ron có giá trị đầu vào âm, vì các nơ-ron này sẽ luôn trả về 0 và không còn được cập nhật trong quá trình học Để khắc phục, các biến thể của ReLU như Leaky ReLU hoặc Parametric ReLU (PReLU) đã được phát triển [29]
QUY TRÌNH NGHIÊN CỨU
Phương pháp nghiên cứu
Quy trình nghiên cứu gồm 8 bước như sau:
Bước đầu tiên trong quá trình nghiên cứu đề tài xây dựng nhà xưởng công nghiệp là tham khảo các công trình nghiên cứu trước đây của các tác giả nước ngoài và thu thập ý kiến chuyên môn của các chuyên gia trong lĩnh vực này tại Việt Nam.
Thiết kế bảng câu hỏi khảo sát Đánh giá sơ bộ bảng câu hỏi
Xây dựng bảng câu hỏi chính thức
Khảo sát Đánh giá kết quả khảo sát
Hình 3.1 Quy trình nghiên cứu
Thu thập dữ liệu tại các dự án
So sánh mối tương quan giữa các biến với biến phụ thuộc
Loại bỏ các biến không phù hợp
Chuẩn hóa dữ liệu với các biến sau khi loại bỏ Điều chỉnh siêu tham số cho các thuật toán trong Python
Tiến hành nạp dữ liệu đã qua xử lý vào hệ thống các mô hình học máy để thực thi
Phân tích, so sánh đánh giá các mô hình học máy và đưa ra kết luận
Bước 2: Tiến hành thu thập ý kiến từ các chuyên gia trong lĩnh vực xây dựng dân dụng và công nghiệp Lập bảng câu hỏi đưa ra khảo sát đại trà
Bước 3: Đánh giá lại bảng câu hỏi và tiến hành khảo sát đại trà, bảng khảo sát được gửi đến các chuyên gia hoạt động trong lĩnh vực xây dựng Khảo sát lấy mẫu thuận tiện dưới dạng bản cứng (trực tiếp) và bản online (google form)
Bước 4: Sau khi có dữ liệu khảo sát, tiến hành phân tích SPSS, tính giá trị trung bình và kiểm tra độ tin cậy Cronbach’s Alpha, loại bỏ các biến không phù hợp và xếp hạng các nhân tố
Bước 5: Tiến hành thu thập dữ liệu từ các dự án dựa vào các nhân tố đã chọn, so sánh đánh giá các biến dựa theo dữ liệu đã thu thập Loại bỏ các biến không phù hợp Bước 6: Xác định các yếu tố ảnh hưởng đến chi phí xây dựng nhà xưởng
Bước 7: Xử lý số liệu các biến, đưa vào mô hình Python để chạy
Bước 8: Đánh giá và so sánh các mô hình Đưa ra kết luận.
Thu thập dữ liệu
3.2.1 Thiết kế bảng câu hỏi:
Bảng câu hỏi đóng vai trò quan trọng trong việc thu thập dữ liệu cho các nghiên cứu khoa học, với khả năng cung cấp thông tin chính xác và đa dạng từ những người tham gia Sự chính xác của dữ liệu thu được phụ thuộc lớn vào cách thiết kế các câu hỏi, điều này ảnh hưởng trực tiếp đến kết quả của dự án nghiên cứu Cấu trúc của bảng câu hỏi gồm bốn phần chủ yếu:
Phần 1: Mở đầu với giới thiệu sơ lược về đề tài nghiên cứu, cung cấp thông tin cần thiết cho người được khảo sát hiểu rõ về mục tiêu và người thực hiện nghiên cứu
Phần 2: Thu thập thông tin cơ bản của người tham gia, bao gồm câu hỏi về chức vụ, lĩnh vực công tác, kinh nghiệm, chuyên môn và quy mô dự án đã tham gia, nhằm lọc ra những người không phù hợp với nội dung nghiên cứu
Phần 3: Tập trung vào việc thu thập đánh giá về các yếu tố ảnh hưởng đến chi phí xây dựng nhà xưởng, sử dụng thang đo Likert với 5 mức độ từ ảnh hưởng rất ít đến ảnh hưởng rất lớn
Phần 4: Thu thập thông tin cá nhân của người tham gia khảo sát trên tinh thần tự nghiên để phục vụ cho mục đích nghiên cứu
3.2.2 Kích thước và phương pháp lấy mẫu:
Theo "Giáo trình Phân tích số liệu thống kê" của Đỗ Anh Tài (2008), khái niệm
"mẫu" trong thống kê được hiểu là một phần nhỏ, đại diện cho tổng thể lớn hơn Mẫu này được chọn lựa từ tổng thể thông qua các phương pháp lựa chọn khác nhau, nhằm thu thập thông tin cho nghiên cứu Điều quan trọng là mẫu phải đảm bảo tính đại diện cho tổng thể mà nó thuộc về Tổng thể ở đây có thể bao gồm một nhóm người, các chi tiết hoặc đơn vị khác liên quan đến đối tượng nghiên cứu Có hai loại tổng thể chính được xác định: tổng thể lý thuyết và tổng thể có thể tiếp cận được
Tổng thể lý thuyết là tập hợp tất cả các đối tượng đủ điều kiện tham gia nghiên cứu, thường lớn hơn và bao trùm hơn tổng thể có thể tiếp cận được Trong một nghiên cứu về sinh viên, chẳng hạn, tổng thể lý thuyết sẽ bao gồm tất cả sinh viên.
- Tổng thể có thể tiếp cận được là nhóm các đối tượng mà nhà nghiên cứu có khả năng tiếp cận và lựa chọn mẫu Trong ví dụ về sinh viên, không phải tất cả sinh viên đều có thể được tiếp cận do sự phân bố rộng lớn của họ, do đó chỉ có một phần trong số này thuộc về tổng thể có thể tiếp cận được
Cuối cùng, khung chọn mẫu được định nghĩa là danh sách của tổng thể có thể tiếp cận được, dùng để chọn ra mẫu cho nghiên cứu Danh sách này cần phải toàn diện, hoàn chỉnh và cập nhật thường xuyên, có thể bao gồm danh sách cử tri, danh sách địa chỉ, niên giám điện thoại, kết quả tổng điều tra công nghiệp hoặc dân số, v.v
Có hai phương pháp chọn mẫu là xác suất và phi xác suất
Bảng 3.1: Các phương pháp chọn mẫu
Phương pháp chọn mẫu Ưu điểm Nhược điểm
Dễ dàng thực hiện và đảm bảo tính khách quan Ngoài ra, nó còn có khả năng được tích hợp linh hoạt vào các kỹ thuật chọn mẫu xác suất phức tạp
Cần phải có sẵn danh sách đầy đủ của các đơn vị mẫu, không thích hợp với mẫu có kích thước lớn hoặc biến đổi Hơn nữa, mẫu được chọn có thể phân tán rộng, gây khó khăn trong việc thu thập Cuối cùng, có nguy cơ bỏ sót một số nhóm nhất định trong tổng thể mà phương pháp nghiên cứu nhắm tới
Thực hiện nhanh, độ chính xác cao, giúp chọn đối tượng mục tiêu rõ ràng Tính đại diện cao
Có thể bị trùng lặp, ảnh hưởng đến tính đại diện của mẫu
Chọn mẫu phân tầng Độ chính xác và đại diện cao, quản lý mẫu dễ dàng hơn mẫu ngẫu nhiên đơn giản
Cần thiết lập khung mẫu cho từng tầng, thường khó thực hiện trong thực tế
Thích hợp cho phạm vi rộng lớn với độ phân tán cao, chi phí thấp
Tổng thể phải lớn, độ chính xác hoặc tính đại diện thấp hơn so với mẫu ngẫu nhiên
Hiệu quả trong thu thập dữ liệu sơ cấp, tiết kiệm chi phí và thời gian, linh hoạt cao
Chủ quan, không đại diện hoàn toàn, yêu cầu thông tin cấp nhóm
Chọn mẫu tiện lợi Thực tế và thuận tiện, mẫu luôn sẵn có
Thiếu tính đại diện, không phản ánh chính xác tổng thể nghiên cứu
Có thể thực hiện khi có dữ liệu số liệu mô tả tỷ lệ của các nhóm
Cần cập nhật số liệu liên tục để duy trì tỷ lệ chính xác
Chọn mẫu có mục đích
Tiết kiệm chi phí và thời gian nhất, thích hợp cho nghiên cứu nhân học với số lượng hạn chế nguồn dữ liệu
Sai sót từ đánh giá nhà nghiên cứu, tin cậy thấp, sai lệch cao, khó khái quát hóa
Chon mẫu tuyết lăn Phù hợp khi không có khung chọn mẫu sẵn có
Sai lệch chọn mẫu, không kiểm tra được ai tham gia
Lấy mẫu tự lựa chọn Phù hợp cho thị trường hoặc nhóm khó tiếp cận
Có thể chứa sai sót chọn mẫu, thiếu tính đại diện
Thích hợp cho nghiên cứu chuyên sâu, tham khảo kinh nghiệm
Khó khăn trong việc tập hợp chuyên gia, yêu cầu kiến thức vững chắc
Có vai trò quan trọng trong việc đề ra hướng nghiên cứu cho sự phát triển của điều tra
Nhóm quan tâm tuy không nhất thiết phải lớn về quy mô nhưng cần đảm bảo tính đại diện cao Điều này có nghĩa là nhóm này phải phản ánh chính xác các đặc điểm và quan điểm của một nhóm lớn hơn.
Vì thời gian và nguồn lực hạn chế cũng như khó tiếp cận các đối tượng nên nghiên cứu này lựa chọn phương pháp lấy mẫu phi xác suất, kiểu chọn mẫu tiện lợi Mặc dù phương pháp chọn mẫu thuận tiện có thể không cung cấp sự đại diện chính xác cho tổng thể và có nguy cơ cao về thiên vị, nó vẫn rất hữu ích trong các tình huống cụ thể, nhất là khi nghiên cứu này khoanh vùng khảo sát các đối tượng làm việc ở lĩnh vực xây dựng
Theo Yamane Taro 1967 [66], việc xác định kích thước mẫu sẽ được chia làm hai trường hợp: không biết tổng thể và biết được tổng thể a Trường hợp không biết quy mô tổng thể
Trong đó: n: kích thước mẫu cần xác định
Z: giá trị tra bảng phân phối Z dựa vào độ tin cậy lựa chọn Ví dụ Z = 1.96 cho mức độ tin cậy 95%) p là tỷ lệ ước lượng của đặc tính trong tổng thể (thường dùng p = 0.5 để tối đa hóa kích thước mẫu) e là sai số chuẩn mong muốn (ví dụ: 0.05 cho sai số 5%) b Trường hợp khi biết quy mô tổng thể
Trong đó: n: kích thước mẫu cần xác định
PHẠM TẤN DŨNG - 2170245 57 e: sai số cho phép Thường ba tỷ lệ sai số hay sử dụng là: ±01 (1%), ±0.05 (5%), ±0.1 (10%), trong đó mức phổ biến nhất là ±0.05
Trường hợp trong nghiên cứu này là không biết quy mô tổng thể, vì vậy kích thước mẫu cần xác định là:
Với p = 0.5; e = 0.05 và Z=1.7 cho mức độ tin cậy 91.08% (tra bảng phân phối Z)
Vậy số lượng bảng cần thu về là 289 bảng Thực tế thu về 299 bảng, phù hợp với kích thước mẫu yêu cầu.
Phân tích dữ liệu
Bảng câu hỏi được tạo dưới dang bản cứng và bản online để tiện tiến hành khảo sát Khảo sát được thực hiện trực tiếp và online với những người có nhiều năm kinh nghiệm trong công tác đấu thầu và thi công nhà xưởng tại Việt Nam Đối tượng khảo sát: giám đốc dự án, trưởng phòng/chuyên viên phòng đấu thầu, kỹ sư giám sát công trình…
Sau khi thu thập bảng câu hỏi, tiến hành phân tích kết quả với 2 nội dung:
- Mô tả tính chất của dữ liệu bằng Thống kê mô tả trên phần mềm IBM SPSS
- Kiểm tra độ tin cậy của thang đo bằng hệ số Cronbach’s Alpha trên IBM SPSS
Phương pháp hệ số tin cậy Cronbach’s Alpha: để kiểm định độ tin cậy của thang đo Phân tích độ tin cậy thông qua nhận xét hệ số Cronbach’s Alpha để loại các biến không phù hợp Hệ số tương quan biến tổng là hệ số cho biết mối quan hệ giữa các biến quan sát trong nhân tố với các biến còn lại Khi hệ số tương quan biến tổng
Giá trị đóng góp giá trị khái niệm của nhân tố được xác định khi giá trị khả năng phân biệt đạt lớn hơn 0,3 Để đánh giá độ tin cậy của thang đo, nghiên cứu dựa trên các thang đánh giá được đề xuất bởi Nguyễn Đình Thọ (2014) và Hoàng Trọng, Chu Nguyễn Mộng Ngọc (2008), được trình bày trong Bảng 3.2.
Bảng 3.2: Đánh giá độ tin cậy theo Cronbach’s Alpha
TT Nội dung Đánh giá
1 Cronbach’s Alpha (> 0.95) Xuất hiện trùng lặp trong đo lường
2 Cronbach’s Alpha từ 0.8 – 0.95 Có độ tin cậy rất tốt
3 0.8 Cronbach’s Alpha 0.70 Có độ tin cậy tốt
4 Cronbach’s Alpha từ 0.6 Thang đo đủ điều kiện
5 Hệ số tương quan với biến tổng 0,3 Đạt yêu cầu
Công thức hệ số Cronbach’s Alpha:
• là hệ số tương quan trung bình giữa các mục hỏi
• N là tổng số mục hỏi
Sau khi chạy phần mềm, nếu một biến có giá trị cột Cronbach’s Alpha if Item Deleted lớn hơn hệ số Cronbach’s Alpha tổng và hệ số Tương quan biến tổng (Corrected Item-Total correlation) nhỏ hơn 0.3 thì loại bỏ biến đó Nếu hệ số tương quan biến tổng lớn hơn 0.3, Cronbach’s Alpha if Item Deleted lớn hơn hệ số Cronbach’s Alpha tổng lớn hơn 0.6, cần xem xét không nhất thiết phải loại bỏ biến này
Sau khi có các biến đạt yêu cầu, thu thập dữ liệu từ các biến đó qua các dự án xây dựng ở các công ty khác nhau chuyên về xây dựng nhà xưởng Tiến hành phân tích mối liên hệ giữa các biến với biến phụ thuộc Y (chi phí) qua các biểu đồ Nếu
PHẠM TẤN DŨNG - 2170245 59 biến không có mối liên hệ rõ ràng hoặc một xu hướng cụ thể nào với biến phụ thuộc
Xử lý số liệu
Chuẩn hóa dữ liệu để biến đổi trong khoảng từ -1 đến 1 bằng phương pháp chuẩn hóa Min-Max Tuy nhiên, phương pháp chuẩn hóa Min-Max truyền thống chỉ đưa dữ liệu về khoảng từ 0 đến 1 Để điều chỉnh phương pháp này sao cho kết quả nằm trong khoảng từ -1 đến 1, sử dụng công thức sau: min( )
• X’ là giá trị sau khi đã được chuẩn hóa
• X là giá trị ban đầu
• min(X) là giá trị nhỏ nhất trong tập dữ liệu
• max(X) là giá trị lớn nhất trong tập dữ liệu
Công thức này làm việc theo cách sau:
- Đầu tiên, nó biến đổi X để nằm trong khoảng từ 0 đến 1
- Sau đó, nhân kết quả với 2 và trừ đi 1 để dữ liệu cuối cùng nằm trong khoảng từ -1 đến 1
❖ Đối với biến “Nominal”, tiến hành mã hóa one-hot encoding:
Mã hóa one-hot là một phương pháp phổ biến để xử lý biến phân loại trong học máy và phân tích dữ liệu Khi sử dụng mã hóa one-hot, mỗi giá trị có thể có của biến phân loại sẽ được chuyển đổi thành một cột riêng biệt trong dữ liệu, trong đó:
- Cột đó sẽ có giá trị 1 (hoặc "hot") nếu giá trị ban đầu của biến phân loại tương ứng với cột đó
- Các cột còn lại sẽ có giá trị 0
Không có một công thức toán học cụ thể cho việc thực hiện mã hóa one-hot, nhưng quy trình chung có thể được mô tả như sau:
Giả sử bạn có biến phân loại "Màu" với ba giá trị có thể có là "Đỏ", "Xanh", và "Vàng" Mã hóa one-hot sẽ tạo ra ba cột mới: "Màu_Đỏ", "Màu_Xanh", và
"Màu_Vàng" Nếu một quan sát có giá trị "Đỏ" cho biến "Màu", thì nó sẽ được biểu diễn như sau trong dữ liệu đã mã hóa: "Màu_Đỏ" = 1, "Màu_Xanh" = 0, "Màu_Vàng"
= 0 Tương tự, một quan sát với giá trị "Xanh" sẽ có "Màu_Đỏ" = 0, "Màu_Xanh" 1, "Màu_Vàng" = 0
Quy Trình Mã Hóa One-Hot:
- Xác định tất cả các giá trị duy nhất của biến phân loại
- Tạo một cột mới cho mỗi giá trị duy nhất này
- Trong mỗi hàng của dữ liệu, đặt giá trị 1 vào cột tương ứng với giá trị của biến phân loại, và 0 vào tất cả các cột còn lại
Các ngôn ngữ lập trình và thư viện hỗ trợ phân tích dữ liệu như Python (với thư viện pandas hoặc scikit-learn) thường cung cấp các công cụ tích hợp sẵn để thực hiện mã hóa one-hot một cách dễ dàng.
Chạy mô hình
Lựa chọn XGBoost, Random Forest, SVR (Support Vector Regression), và Decision Tree làm đại diện cho các thuật toán trong nghiên cứu có nhiều lý do chính đáng
- Hiệu Suất Cao và Nhanh Chóng: XGBoost là một trong những thuật toán học máy hiệu quả nhất, đặc biệt khi xử lý dữ liệu lớn
- Xử Lý Tốt Với Dữ Liệu Phi Tuyến: Nó có khả năng mô hình hóa phức tạp và xử lý tốt dữ liệu phi tuyến, điều này thường xảy ra trong dự đoán chi phí xây dựng
- Tính Năng Tự Động Hóa: XGBoost cung cấp tính năng tự động xử lý giá trị thiếu và giúp chọn các biến quan trọng
- Độ Chính Xác Cao và Khả Năng Chống Overfitting: Là một thuật toán ensemble, Random Forest kết hợp kết quả từ nhiều cây quyết định, giúp giảm thiểu overfitting và tăng độ chính xác
- Xử Lý Tốt Với Dữ Liệu Có Nhiều Biến: Random Forest có khả năng xử lý dữ liệu với nhiều biến đặc trưng, phù hợp với dữ liệu xây dựng nhà xưởng có nhiều yếu tố ảnh hưởng
- Hiệu Quả Trong Dự Đoán Liên Tục: SVR là một phiên bản của máy vector hỗ trợ (SVM) cho các bài toán hồi quy Nó rất hiệu quả trong việc mô hình hóa và dự đoán các giá trị liên tục, như chi phí xây dựng Thay vì tìm siêu mặt phẳng để phân chia dữ liệu, SVR cố gắng tìm siêu mặt phẳng sao cho nó có thể tạo ra sai số nhỏ nhất trong một khoảng chấp nhận được từ các điểm dữ liệu thực tế
- Khả Năng Tổng Quát Hóa Tốt: SVR có khả năng tổng quát hóa tốt từ dữ liệu huấn luyện đến dữ liệu chưa biết, giảm thiểu rủi ro overfitting
Cây quyết định dễ hiểu, có thể diễn giải, đóng vai trò quan trọng trong việc truyền đạt mô hình cho các bên liên quan không chuyên môn Nhờ đặc điểm này, các bên liên quan có thể nhanh chóng nắm bắt và hiểu rõ logic, quy trình ra quyết định của mô hình Điều này giúp tăng cường sự đồng thuận và hỗ trợ cho mô hình ra quyết định trong toàn bộ tổ chức.
- Xử Lý Tốt Với Dữ Liệu Phi Tuyến và Phân Loại: Cây quyết định có thể xử lý tốt dữ liệu phi tuyến và phân loại, phù hợp với bản chất phức tạp của dự án xây dựng
Sự kết hợp các thuật toán trong nghiên cứu khai thác những ưu điểm của từng phương pháp, từ hiệu suất, khả năng chống quá khớp đến khả năng diễn giải Điều này cung cấp cách tiếp cận toàn diện và mạnh mẽ để dự đoán chi phí xây dựng, một vấn đề thường có nhiều biến số và đòi hỏi độ chính xác cao.
Sau khi xử liệu số liệu, đưa chúng vào mô hình các thuật toán trên Python và chạy, xuất ra kết quả Python đã trở thành một trong những ngôn ngữ lập trình phổ biến nhất cho học máy và khoa học dữ liệu Có nhiều lý do tại sao Python được ưa chuộng trong việc phát triển các mô hình học máy:
Python có một hệ sinh thái rộng lớn của các thư viện và frameworks dành cho học máy và khoa học dữ liệu, như TensorFlow, PyTorch, Scikit-learn, Pandas, NumPy, và Matplotlib Những thư viện này cung cấp các công cụ mạnh mẽ và dễ sử dụng để xử lý dữ liệu, xây dựng mô hình, đánh giá và triển khai mô hình
- Cộng Đồng Lớn và Hỗ Trợ
Python sở hữu một cộng đồng lớn mạnh và hoạt động tích cực, gồm những người mới bắt đầu cho đến những chuyên gia hàng đầu Nhờ đó, người học được hỗ trợ bởi vô số tài nguyên học tập, hướng dẫn và các diễn đàn thảo luận, nơi giải đáp thắc mắc và chia sẻ kiến thức hữu ích.
- Đơn Giản và Dễ Tiếp Cận
Python nổi tiếng với cú pháp đơn giản và dễ đọc, giúp nó trở thành lựa chọn lý tưởng cho những người mới bắt đầu học lập trình Điều này giúp giảm bớt độ phức tạp khi xây dựng mô hình học máy
- Linh Hoạt và Đa Dạng
Python có khả năng tích hợp với các hệ thống và ngôn ngữ lập trình khác, làm cho nó trở thành một công cụ linh hoạt Nó có thể được sử dụng trong cả nghiên cứu khoa học và phát triển sản phẩm thực tế
Mặc dù Python không phải là ngôn ngữ lập trình nhanh nhất, nhưng nó mang lại hiệu suất tốt cho hầu hết các nhu cầu về học máy.
PHẠM TẤN DŨNG - 2170245 63 suất cao hơn, Python có thể sử dụng các thư viện được viết bằng C/C++ hoặc tích hợp với các ngôn ngữ khác
Sự kết hợp của sự đơn giản, một hệ sinh thái mạnh mẽ, và cộng đồng lớn làm cho Python trở thành lựa chọn lý tưởng cho cả học thuật và ứng dụng thực tế trong học máy và khoa học dữ liệu.
Đánh giá mô hình
Đánh giá mô hình học máy thường sử dụng nhiều tiêu chí khác nhau để hiểu rõ về hiệu suất của mô hình Ba chỉ số phổ biến là RMSE (Root Mean Square Error), MAE (Mean Absolute Error), và Coefficient of Determination (thường được biết đến là R²) Dưới đây là cách mỗi chỉ số này đánh giá mô hình và ý nghĩa của chúng: a RMSE (Root Mean Square Error)
- Ý nghĩa: RMSE là căn bậc hai của trung bình cộng các bình phương sai số Sai số ở đây là sự chênh lệch giữa giá trị dự đoán ( y i ') và giá trị thực tế ( ) y i
- Đặc điểm: RMSE tính toán sai số bằng cách nâng mỗi sai số lên bình phương
Do đó, những sai số lớn (lớn hơn về giá trị tuyệt đối) sẽ có ảnh hưởng lớn hơn đến giá trị của RMSE Điều này khiến RMSE trở thành một chỉ số nhạy cảm với các ngoại lai và sai số lớn RMSE thường được sử dụng trong các mô hình dự đoán với dữ liệu liên tục và là một chỉ số quan trọng để đánh giá chất lượng mô hình Giá trị RMSE thấp hơn cho thấy chất lượng dự đoán của mô hình tốt hơn Một RMSE thấp chỉ ra rằng sai số giữa giá trị dự đoán và thực tế là nhỏ b MAE (Mean Absolute Error)
- Ý nghĩa: MAE là trung bình cộng của giá trị tuyệt đối của sai số Nó cũng đo lường sự chênh lệch giữa giá trị dự đoán và thực tế
- Đặc điểm: Khác với RMSE, MAE không phân biệt giữa sai số lớn và nhỏ vì nó không bình phương sai số trước khi lấy trung bình Điều này làm cho MAE ít nhạy cảm với các ngoại lệ hoặc sai số rất lớn so với RMSE Giá trị MAE dễ hiểu và diễn giải, vì nó đơn giản là mức độ sai lệch trung bình Đơn vị của MAE tương đồng với đơn vị của dữ liệu gốc, giúp việc diễn giải trở nên trực quan Giá trị MAE thấp cho thấy mô hình có khả năng dự đoán chính xác cao hơn Tuy nhiên, do không phân biệt các loại sai số, một mô hình có MAE thấp vẫn có thể có những dự đoán riêng lẻ rất sai lệch c Coefficient of Determination (R 2 )
- Ý nghĩa: R 2 là tỷ lệ phần trăm biến thiên trong biến phụ thuộc được giải thích bởi mô hình y ' là giá trị trung bình của y i
- Đặc điểm: R² càng cao, mô hình càng tốt trong việc giải thích biến thiên của dữ liệu Một giá trị R² gần 1 chỉ ra rằng mô hình có khả năng dự đoán chính xác cao Tuy nhiên, R² có thể bị hiểu lầm nếu mô hình bị overfitting
- RMSE và MAE: Cả hai đều là chỉ số đánh giá sai số, nhưng RMSE nhạy cảm hơn đối với các sai số lớn
- R²: Đo lường khả năng giải thích của mô hình đối với biến thiên trong dữ liệu
XỬ LÝ SỐ LIỆU
Khảo sát
Lĩnh vực xây dựng chứng kiến sự biến đổi liên tục qua thời gian, phản ánh sự tiến hóa của công nghệ, nhu cầu kỹ thuật tăng cao và các quy định pháp lý từ phía nhà nước Theo nghiên cứu của Chang năm 2005 [39], chi phí của các dự án xây dựng không chỉ chịu ảnh hưởng từ một nguyên nhân đơn lẻ mà từ nhiều yếu tố khác nhau, bởi lĩnh vực này liên quan đến sự tham gia của nhiều bên khác nhau như chủ đầu tư, nhà thầu, nhà cung cấp, cùng với các chuyên gia trong ngành Điều này cho thấy chi phí xây dựng phụ thuộc vào một loạt các yếu tố liên quan đến đặc thù của từng dự án, đội ngũ thực hiện và các điều kiện thị trường hiện hành Trong nghiên cứu này, tôi tổng hợp các yếu tố ảnh hưởng từ các công trình nghiên cứu khoa học và ý kiến của chuyên gia trong ngành xây dựng nhà xưởng Các yếu tố này được phân loại thành 3 nhóm và được thể hiện chi tiết tại Bảng 4.1:
Bảng 4.1: Các nhân tố ảnh hưởng đến chi phí xây dựng nhà xưởng và các hạng mục phụ trợ
TT Nhân tố Mã hóa
I Chiến lược nhà thầu CL
1 Biện pháp thi công CL1 Chuyên gia
2 Chiến lược đấu thầu CL2 Chuyên gia
II Đặc điểm kỹ thuật KT
1 Địa điểm xây dựng KT1 [40]
2 Mục đích sử dụng KT2 [55], [14], chuyên gia
4 Hình thức xây dựng KT4 [41]
6 Diện tích sử dụng KT6 [49], [56], [21], [31], [55], [20],
12 Bước cột KT12 [30], [56], chuyên gia
13 Kết cấu khung KT13 [14] chuyên gia
14 Tải trọng cầu trục KT14 [30], [56]
15 Năm xây dựng KT15 Chuyên gia
16 Vật liệu hoàn thiện nền KT16 Chuyên gia
17 Loại cửa KT17 Chuyên gia
III Yếu tố bên ngoài BN
2 Mức lương cơ bản BN2 [40]
3 Lãi suất ngân hàng trong thời gian thi công
4 Giá xăng BN4 Chuyên gia
5 Số lượng nhân công BN5 Chuyên gia
6 Nguồn vốn duy trì hoạt động công trình
Các biến được quan sát trong nghiên cứu này đều được đánh giá dựa trên thang đo Likert 5 điểm, với giá trị từ 1 đến 5 tăng dần theo mức độ ảnh hưởng rất ít đến ảnh hưởng rất nhiều Đối với việc phân loại các đối tượng tham gia khảo sát, tác giả áp dụng thang đo định danh (nominal) để xác định rõ ràng sự khác biệt giữa chúng
Nhóm mục tiêu của cuộc khảo sát này bao gồm các cá nhân làm việc tại các công ty hoạt động trong lĩnh vực xây dựng, bao gồm các chức danh như giám đốc, chỉ huy trưởng, trưởng phòng, và nhân viên Mục tiêu của phần thông tin chung là cung cấp một cái nhìn toàn diện về những người tham gia Cuộc khảo sát được tiến hành thông qua phương pháp trực tiếp và gửi qua email hoặc zalo Tổng số phiếu
PHẠM TẤN DŨNG - 2170245 67 khảo sát thu được là 314, nhưng 15 trong số đó không được xem xét do thiếu thông tin hoặc cùng một lựa chọn đáp án cho mọi câu hỏi Do đó, có 299 phiếu đáp ứng được xem xét hợp lệ, phù hợp với quy mô mẫu đã được xác định trong phân tích.
Phân tích thông tin đối tượng khảo sát
Hình 4.1 Biểu đồ tròn theo số năm làm việc
Biểu đồ hình 4.1 thể hiện phân phối số năm công tác trong lĩnh vực xây dựng của các đối tượng tham gia khảo sát Đối tượng khảo sát dưới 3 năm kinh nghiệm là 12.37%, kinh nghiệm từ 3-5 năm là 23.75%, kinh nghiệm từ 5-10 năm là 52.17% và kinh nghiệm trên 10 năm là 11.71%
Từ biểu đồ, chúng ta có thể quan sát thấy các nhóm kinh nghiệm trên 5 năm chiếm ưu thế, điều này phản ánh mức độ hiểu biết và kỹ năng chuyên môn trong lĩnh vực xây dựng Đồng thời nhóm dưới 3 năm kinh nghiệm chiếm khoảng 12.37%, như vậy ý kiến của các đối tượng tham gia khảo sát có mức độ tin cậy tương đối tốt
Hình 4.2 Biểu đồ tròn theo chức danh nghề nghiệp
Biểu đồ hình 4.2 phản ánh sự phân bố của các chức danh nghề nghiệp của các đối tượng khảo sát Mỗi lát cắt của biểu đồ tương ứng với tỷ lệ phần trăm của mỗi chức danh nghề nghiệp so với tổng số người tham gia khảo sát Biểu đồ cho thấy sự đa dạng trong chức danh nghề nghiệp của người tham gia Có thể thấy rõ sự phân bố không đều giữa các chức danh, chức danh nhân viên chiếm ưu thế với 46.15% chiếm tỷ lệ phần trăm cao hơn hẳn so với các chức danh khác Ngược lại, một số chức danh khác xuất hiện với tỷ lệ rất nhỏ, đó là chỉ huy trưởng và giám đốc với tỉ lệ phần trăm lần lược là 3.68% và 3.01% cho thấy sự khan hiếm hoặc ít phổ biến của chức danh này trong nhóm người được khảo sát Tuy nhiên họ lại có những kinh nghiệm, kiến thức chuyên sâu về chi phí dự án nên ý kiến của các chuyên gia này rất quan trọng
Biểu đồ hình 4.3 phản ánh sự phân bố đa dạng về đơn vị công tác của những người tham gia khảo sát Cụ thể, 24,75% đang làm tại các đơn vị "Tư vấn thiết kế", 28,43% tại "Thầu thi công", 25,42% tại "Ban Quản lý Dự án/Chủ đầu tư", và 21,4% làm việc tại các đơn vị "Khác" Nhóm "Khác" bao gồm những đơn vị không thuộc ba nhóm trên.
PHẠM TẤN DŨNG - 2170245 69 đơn vị đảm nhận cả 2 hoặc 3 vai trò khác nhau Điều này phản ánh sự phong phú về ngành nghề và loại hình công việc trong nhóm đối tượng khảo sát
Hình 4.3 Biểu đồ tròn theo đơn vị công tác
Hình 4.4 Biểu đồ tròn theo chuyên môn
Biểu đồ hình 4.4 về "Chuyên môn" từ bảng câu trả lời khảo sát cung cấp cái nhìn tổng quan về sự phân bố chuyên môn trong nhóm người được khảo sát Trong đó chiếm tỷ lệ nhiều nhất là “Kỹ sư giám sát” với 35.79%, các nhóm “Kỹ sư kết cấu, điện nước”, “Kỹ sư bóc tách khối lượng”, “Kiến trúc sư” và “Khác” lần lượt là 18.4%, 17.39%, 15.38% và 13.04% Điều này thể hiện sự đa dạng trong chuyên môn của những người tham gia khảo sát, cho thấy rằng nhóm người khảo sát đến từ nhiều lĩnh vực và chuyên ngành khác nhau
4.2.5 Loại dự án tham gia
Hình 4.5 Biểu đồ tròn theo loại dự án tham gia
Biểu đồ 4.5 về "Loại dự án tham gia" đã mô tả rõ ràng sự phân chia trong loại hình dự án mà các đối tượng khảo sát tham gia Trong tổng số 299 người tham gia, phần lớn là làm các công trình công nghiệp, với 134 người, chiếm 44.81% Đứng sau đó là công trình dân dụng với 74 người, chiếm 24.75% Các loại dự án khác bao gồm cầu đường và thủy lợi/cấp thoát nước, lần lượt có 26 và 34 người, chiếm 12.04% và 8.03% Phần "Khác", gồm 31 người chiếm 10.37%, bao gồm những người làm việc các loại dự án khác nhau
Mặc dù công trình công nghiệp chiếm đa số và phản ánh chính xác nội dung nghiên cứu của đề tài, nhưng các loại công trình khác, mặc dù ít phổ biến hơn, vẫn
PHẠM TẤN DŨNG - 2170245 71 mang những điểm chung và phù hợp với đặc trưng đa dạng của công trình công nghiệp Do đó, tất cả các câu trả lời từ các đối tượng tham gia các loại dự án này đều quan trọng và sẽ được sử dụng trong phân tích dữ liệu, góp phần cung cấp cái nhìn toàn diện về lĩnh vực nghiên cứu
Biểu đồ về quy mô dự án lớn nhất mà người tham gia khảo sát từng tham gia cung cấp cái nhìn toàn diện về kinh nghiệm làm việc của họ trên các dự án có quy mô khác nhau Biểu đồ thể hiện sự phân bố đa dạng về quy mô dự án, chiếm nhiều nhất là quy mô dự án từ 20-100 tỷ với 52.84%, tiếp đến là 20 tỷ với 23.08%, còn lại là quy mô từ 100-200 tỷ và trên 200 tỷ tương ứng với tỉ lệ lần lượt là 16.72% và 7.36% Biểu đồ này cho thấy sự đa dạng hóa của của các đối tượng tham gia khảo sát
Hình 4.6 Biểu đồ tròn về quy mô dự án
Phân tích số liệu thu thập
Tiến hành phân tích thống kê mô tả bằng phần mềm IBM SPSS Static 27 với dữ liệu thu thập được, ta có bảng sau:
Bảng 4.2: Các chỉ số thống kê mô tả theo các biến
Thống kê mô tả (Item Statistics)
Trung bình (Mean) Độ lệch chuẩn (Std
I CHIẾN LƯỢC NHÀ THẦU [Biện pháp thi công] 2.51 1.121 299
I CHIẾN LƯỢC NHÀ THẦU [Chiến lược đấu thầu] 2.64 1.320 299
II ĐẶC ĐIỂM KỸ THUẬT [Địa điểm xây dựng] 3.99 1.026 299
II ĐẶC ĐIỂM KỸ THUẬT [Mục đích sử dụng] 2.31 1.178 299
II ĐẶC ĐIỂM KỸ THUẬT [Năm xây dựng] 2.51 1.327 299
II ĐẶC ĐIỂM KỸ THUẬT [Cấp công trình] 2.47 1.324 299
II ĐẶC ĐIỂM KỸ THUẬT [Chu vi] 1.62 0.715 299
II ĐẶC ĐIỂM KỸ THUẬT [Diện tích sử dụng] 4.22 0.944 299
II ĐẶC ĐIỂM KỸ THUẬT [Chiều cao] 4.09 0.912 299
II ĐẶC ĐIỂM KỸ THUẬT [Số tầng] 3.90 1.017 299
II ĐẶC ĐIỂM KỸ THUẬT [Loại móng] 1.67 0.856 299
II ĐẶC ĐIỂM KỸ THUẬT [Loại mái] 4.17 0.942 299
II ĐẶC ĐIỂM KỸ THUẬT [Tường bao che] 2.21 0.964 299
II ĐẶC ĐIỂM KỸ THUẬT [Bước cột] 2.58 1.219 299
II ĐẶC ĐIỂM KỸ THUẬT [Kết cấu khung] 3.85 1.065 299
II ĐẶC ĐIỂM KỸ THUẬT [Tải trọng cầu trục] 3.80 1.059 299
II ĐẶC ĐIỂM KỸ THUẬT [Vật liệu hoàn thiện nền] 3.02 1.347 299
II ĐẶC ĐIỂM KỸ THUẬT [Loại cửa] 3.06 1.461 299
II ĐẶC ĐIỂM KỸ THUẬT [Loại hạng mục] 3.79 1.002 299
II ĐẶC ĐIỂM KỸ THUẬT [Tiến độ] 3.87 0.943 299 III YẾU TỐ BÊN NGOÀI [Đơn giá] 3.94 0.990 299 III YẾU TỐ BÊN NGOÀI [Mức lương cơ bản] 3.01 1.354 299
III YẾU TỐ BÊN NGOÀI [Lãi suất ngân hàng trong thời gian thi công] 2.93 1.441 299 III YẾU TỐ BÊN NGOÀI [Giá xăng] 3.11 1.408 299 III YẾU TỐ BÊN NGOÀI [Số lượng nhân công] 2.95 1.361 299
III YẾU TỐ BÊN NGOÀI [Nguồn vốn duy trì hoạt động công trình] 3.05 1.386 299
Bảng 4.2 trên bao gồm các thông tin sau:
- Cột đầu tiên ("Item Statistics") liệt kê các danh mục hoặc tiêu chí đánh giá, chẳng hạn như "[Biện pháp thi công]", "[Chiến lược đấu thầu]", "[Địa điểm xây dựng]", v.v
- Cột "Mean" (Trung bình) cho thấy giá trị trung bình đối với mỗi danh mục hoặc tiêu chí
- Cột "Std Deviation" (Độ lệch chuẩn) cho biết độ lệch chuẩn của dữ liệu đối với mỗi danh mục
- Cột cuối cùng, "N", chỉ số lượng quan sát hoặc số lượng dữ liệu được sử dụng để tính toán các giá trị trung bình và độ lệch chuẩn
Ta thấy giá trị trung bình (mean) thấp hơn 3 chỉ ra rằng nhận xét hoặc đánh giá về tiêu chí đó có xu hướng ảnh hưởng ít hoặc không có ảnh hưởng đến chi phí xây dựng Đề xuất loại bỏ các tiêu chi có mean nhỏ hơn 3 sẽ hữu ích trong việc tập trung vào các yếu tố quan trọng nhất, có ảnh hưởng cao với chi phí xây dựng Mặt khác việc loại bỏ sẽ giúp đơn giản hóa mô hình phân tích và giảm thiểu nhiễu Sau khi loại bỏ ta được bảng sau:
Bảng 4.3: Các chỉ số thống kê mô tả sau khi loại bỏ các biến
Thống kê mô tả (Item Statistics)
Trung bình (Mean) Độ lệch chuẩn (Std
II ĐẶC ĐIỂM KỸ THUẬT [Địa điểm xây dựng] 3.99 1.026 299
II ĐẶC ĐIỂM KỸ THUẬT [Diện tích sử dụng] 4.22 0.944 299
II ĐẶC ĐIỂM KỸ THUẬT [Chiều cao] 4.09 0.912 299
II ĐẶC ĐIỂM KỸ THUẬT [Số tầng] 3.90 1.017 299
II ĐẶC ĐIỂM KỸ THUẬT [Loại mái] 4.17 0.942 299
II ĐẶC ĐIỂM KỸ THUẬT [Kết cấu khung] 3.85 1.065 299
II ĐẶC ĐIỂM KỸ THUẬT [Tải trọng cầu trục] 3.80 1.059 299
II ĐẶC ĐIỂM KỸ THUẬT [Vật liệu hoàn thiện nền] 3.02 1.347 299
II ĐẶC ĐIỂM KỸ THUẬT [Loại cửa] 3.06 1.461 299
II ĐẶC ĐIỂM KỸ THUẬT [Loại hạng mục] 3.79 1.002 299
II ĐẶC ĐIỂM KỸ THUẬT [Tiến độ] 3.87 0.943 299
III YẾU TỐ BÊN NGOÀI [Đơn giá] 3.94 0.990 299
III YẾU TỐ BÊN NGOÀI [Mức lương cơ bản] 3.01 1.354 299
III YẾU TỐ BÊN NGOÀI [Giá xăng] 3.11 1.408 299
Sau khi loại bỏ 12 biến có giá trị trung bình mean nhỏ hơn 3, còn lại 14 biến Tiến hành kiểm tra độ tin cậy thang đo bằng hệ số Cronbach’s Alpha bằng phần mềm IBM SPSS Statistics 27 Ta có:
Bảng 4.4: Thống kê độ tin cậy
Reliability Statistics (Thống kê độ tin cậy)
Cronbach's Alpha Số lượng biến
Bảng 4.5: Hệ số tương quan biến tổng và Cronbach’s Alpha giữa các biến
Thống kê Tổng số-Mục (Item-Total Statistics)
Hệ số tương quan biến tổng
Hệ số Cronbach nếu yếu tố bị xóa (Cronbach's Alpha if Item Deleted)
II ĐẶC ĐIỂM KỸ THUẬT [Địa điểm xây dựng] 0.619 0.754
II ĐẶC ĐIỂM KỸ THUẬT [Diện tích sử dụng] 0.704 0.749
II ĐẶC ĐIỂM KỸ THUẬT [Chiều cao] 0.721 0.749
II ĐẶC ĐIỂM KỸ THUẬT [Số tầng] 0.609 0.755
II ĐẶC ĐIỂM KỸ THUẬT [Loại mái] 0.689 0.750
II ĐẶC ĐIỂM KỸ THUẬT [Kết cấu khung] 0.587 0.756
II ĐẶC ĐIỂM KỸ THUẬT [Tải trọng cầu trục] 0.600 0.754
II ĐẶC ĐIỂM KỸ THUẬT [Vật liệu hoàn thiện nền] 0.076 0.805
II ĐẶC ĐIỂM KỸ THUẬT [Loại cửa] -0.039 0.820
II ĐẶC ĐIỂM KỸ THUẬT [Loại hạng mục] 0.575 0.758
II ĐẶC ĐIỂM KỸ THUẬT [Tiến độ] 0.542 0.761
III YẾU TỐ BÊN NGOÀI [Đơn giá] 0.597 0.756
III YẾU TỐ BÊN NGOÀI [Mức lương cơ bản] 0.042 0.808
III YẾU TỐ BÊN NGOÀI [Giá xăng] 0.073 0.807 Ở bảng 4.5 cột "Hệ số tương quan biến tổng" đại diện cho mối quan hệ giữa mỗi yếu tố riêng biệt với tất cả các yếu tố còn lại Cột "Cronbach's Alpha if Item Deleted" (Hệ số Cronbach’s Alpha nếu yếu tố bị xóa) chứa các giá trị chỉ ra chất lượng độ tin cậy của tổng biến khi một mục cụ thể được loại bỏ khỏi phân tích Ví dụ, giá trị 0.619 cho mục "II ĐẶC ĐIỂM KỸ THUẬT [Địa điểm xây dựng]" cho thấy giá trị Cronbach's Alpha của toàn bộ bộ yếu tố nếu mục này không được tính vào Những giá trị này giúp xác định liệu việc loại bỏ một mục có làm tăng độ tin cậy của bảng khảo sát hay không
Kết quả cho thấy hệ số Cronbach’s Alpha là 0.784 cho thấy thang đo lường tốt Tuy nhiên, các biến [Vật liệu hoàn thiện nền], [Loại cửa], [Mức lương cơ bản] và [Giá xăng] có hệ số tương quan biến tổng nhỏ hơn 0.3 cho thấy các biến này giải thích ý nghĩa rất yếu cho nhân tố chi phí Tiến hành loại bỏ các yếu tố này, chạy lại Cronbach’s Alpha, ta được kết quả như sau:
Bảng 4.6: Thống kê độ tin cậy sau khi loại bỏ các biến không phù hợp
Reliability Statistics (Thống kê độ tin cậy)
Cronbach's Alpha Số lượng biến
Bảng 4.7: Hệ số tương quan biến tổng, Cronbach’s Alpha và giá trị Mean sau khi loại các biến không phù hợp
Thống kê Tổng số-Mục (Item-Total Statistics)
Hệ thống tương quan biến tổng
Hệ số Cronbach nếu yếu tố bị xóa (Cronbach's Alpha if Item Deleted)
II ĐẶC ĐIỂM KỸ THUẬT [Diện tích sử dụng] 0.750 0.896 4.22
II ĐẶC ĐIỂM KỸ THUẬT [Loại mái] 0.764 0.895 4.17
II ĐẶC ĐIỂM KỸ THUẬT [Chiều cao] 0.774 0.895 4.09
II ĐẶC ĐIỂM KỸ THUẬT [Địa điểm xây dựng] 0.656 0.902 3.99
III YẾU TỐ BÊN NGOÀI [Đơn giá] 0.631 0.903 3.94
II ĐẶC ĐIỂM KỸ THUẬT [Số tầng] 0.662 0.901 3.90
II ĐẶC ĐIỂM KỸ THUẬT [Tiến độ] 0.624 0.903 3.87
II ĐẶC ĐIỂM KỸ THUẬT [Kết cấu khung] 0.635 0.903 3.85
II ĐẶC ĐIỂM KỸ THUẬT [Tải trọng cầu trục] 0.635 0.903 3.80
II ĐẶC ĐIỂM KỸ THUẬT [Loại hạng mục] 0.623 0.904 3.79
Sau khi loại bỏ 4 biến [Vật liệu hoàn thiện nền], [Loại cửa], [Mức lương cơ bản] và [Giá xăng] ta được hệ số Cronbach’s Alpha là 0.910 nằm trong khoảng từ 0.8 đến 1, và các biến quan sát có hệ số tương quan biến tổng lớn hơn 0.3 Điều này cho thấy thang đo đạt độ tin cậy, các biến quan sát đều có ý nghĩa giải thích tốt cho nhân tố chi phí Sắp xếp các biến theo thứ tự giá trị mean từ lớn tới nhỏ, ta được bảng sau:
Bảng 4.8: Thứ tự các biến sau khi được sắp xếp theo giá trị mean
Thống kê Tổng số-Mục (Item-Total Statistics)
Thứ tự Biến quan sát
Trung bình (Mean) Độ lệch chuẩn (Std
Hệ số biến động CV (Coefficient of Variation)
1 II ĐẶC ĐIỂM KỸ THUẬT [Diện tích sử dụng] 4.22 0.944 0.224
2 II ĐẶC ĐIỂM KỸ THUẬT [Loại mái] 4.17 0.942 0.226
3 II ĐẶC ĐIỂM KỸ THUẬT [Chiều cao] 4.09 0.912 0.223
4 II ĐẶC ĐIỂM KỸ THUẬT [Địa điểm xây dựng] 3.99 1.026 0.257
5 III YẾU TỐ BÊN NGOÀI [Đơn giá] 3.94 0.990 0.251
6 II ĐẶC ĐIỂM KỸ THUẬT [Số tầng] 3.90 1.017 0.261
7 II ĐẶC ĐIỂM KỸ THUẬT [Tiến độ] 3.87 0.943 0.244
8 II ĐẶC ĐIỂM KỸ THUẬT [Kết cấu khung] 3.85 1.065 0.277
9 II ĐẶC ĐIỂM KỸ THUẬT [Tải trọng cầu trục] 3.80 1.059 0.279
10 II ĐẶC ĐIỂM KỸ THUẬT [Loại hạng mục] 3.79 1.002 0.264
- Các giá trị mean cho từng biến dao động trong khoảng từ 3.79 đến 4.22, nằm ở phía cao của thang đo Likert 5 điểm Điều này cho thấy mỗi yếu tố được coi là có ảnh hưởng đáng kể đến chi phí xây dựng
- Độ lệch chuẩn cho mỗi biến quan sát dao động quanh 1, cho thấy có sự biến động nhất định trong các phản hồi Để hiểu rõ hơn sự biến động này như thế nào, ta sử dụng hệ số dao động dữ liệu Coeficient of Variation (CV) Hệ số biến động cho mỗi biến quan sát là khoảng 0.223 đến 0.279 nhỏ hơn 1, cho thấy mặc dù có sự biến động, nhưng tỷ lệ này không quá lớn so với giá trị trung bình mean Một hệ số biến động thấp cho thấy sự ổn định của các phản hồi; người đánh giá có xu hướng đồng thuận về mức độ ảnh hưởng của các yếu tố này
Tóm lại, các dữ liệu thu thập được cho thấy sự thống nhất cao về mức độ ảnh hưởng của các đặc điểm tòa nhà (như diện tích sử dụng, loại mái, chiều cao, vị trí xây dựng) đối với chi phí xây dựng Các yếu tố này đều được đánh giá là có mức độ ảnh hưởng cao, với mức độ dao động và hệ số biến thiên không đáng kể, chứng tỏ sự đồng thuận của những người đánh giá.
Dữ liệu đầu vào cho mô hình
Với yếu tố đơn giá, tác giả sẽ phân chia thành ba loại riêng biệt – đơn giá thép tấm, đơn giá cốt thép và đơn giá bê tông Nguyên nhân là vì:
Việc tính chính xác chi phí đóng vai trò rất quan trọng trong ước lượng và quản lý dự án xây dựng Tách biệt chi phí của từng loại vật liệu - thép tấm, cốt thép, và bê tông - dựa trên các yếu tố như nguồn cung cấp, chất lượng và yêu cầu kỹ thuật, giúp đảm bảo tính chính xác trong việc ước lượng và quản lý tài chính hiệu quả cho từng phần của dự án.
- Đặc điểm của công trình: Có những loại công trình chủ đầu tư chỉ yêu cầu thi công riêng biệt phần bê tông hoặc phần kết cấu thép Việc phân loại đơn giá sẽ phản ánh được đặc điểm này của công trình
- Quản Lý Nguyên Vật Liệu: Mỗi loại nguyên vật liệu có đặc điểm cung ứng, vận chuyển và lưu trữ khác nhau Việc phân loại chi phí giúp theo dõi và quản lý hiệu quả từng loại vật liệu, từ đó tối ưu hóa quá trình mua hàng và logistics
- So Sánh và Đàm Phán Giá Cả: Khi có chi phí cụ thể cho từng loại vật liệu, các nhà thầu có thể dễ dàng so sánh giá cả từ các nhà cung cấp khác nhau và đàm phán để đạt được mức giá tốt nhất, từ đó tiết kiệm chi phí cho dự án
- Dự Báo và Lập Kế Hoạch Tài Chính Tương Lai: Thông tin chi tiết về chi phí cung cấp cơ sở dữ liệu cho việc dự báo và lập kế hoạch cho các dự án tương lai, giúp cải thiện khả năng ước lượng và quản lý ngân sách một cách hiệu quả hơn
Dữ liệu được thu thập từ BOQ (Bill of Quantites) và tiến độ của các công ty chuyên thiết kế, thi công các công trình nhà xưởng Tác giả đã thu thập được 150 công trình với quy mô trải dài từ lớn đến nhỏ, tạo ra tính đa dạng của dữ liệu Tuy nhiên, ở yếu tố địa điểm công trình, các thông tin có xu hướng phân tán rộng không đều, có những địa điểm chỉ có một thông tin trong toàn bộ dữ liệu Tác giả quyết định nhóm các thông tin địa điểm thành các nhóm phân loại theo khoảng cách tính từ Tp
Hồ Chí Minh – nơi lập bảng khảo sát (500km) Việc này không những giải quyết được vấn đề trên mà còn làm cho việc phân tích trở nên dễ dàng hơn bằng cách giảm bớt số lượng biến cần xem xét, giúp dễ dàng hơn trong việc xác định xu hướng tổng thể và so sánh giữa các nhóm
Bảng 4.9: Thể hiện tóm tắt dữ liệu, với 5 cột kí hiệu mã hóa, tên biến quan sát, kiểu dữ liệu, mô tả giá trị và đơn vị
Kí hiệu Biến quan sát Kiểu dữ liệu Giá trị Đơn vị
[Không mái; Mái bê tông; Mái lợp ngói kèo bê tông; Mái lợp tôn kèo bê tông; Mái lợp tôn kèo thép]
X10 [Kết cấu khung] Định danh
[Kết cấu thép; Bê tông cốt thép]
X12 [Loại hạng mục] Định danh
[Hạng mục chính; Hạng mục phụ]
Các dữ liệu “Continuous” gồm có:
- Diện tích sử dụng: có giá trị trải rộng từ 10.8 m² đến 45756.59m²
- Chiều cao: có giá trị từ 3m đến 33.125m
- Đơn giá thép tấm: có giá trị từ 0 VND đến 41,942 VND
- Đơn giá cốt thép: có giá trị trừ 0 VND đến 27,200 VND
- Đơn giá bê tông: có giá trị từ 0 VND đến 1,620,000 VND
- Tiến độ: có giá trị từ 10 ngày đến 249 ngày
- Tải trọng cầu trục: có giá trị từ 0 đến 53 tấn
- Chí phí xây dựng: có giá trị dao động từ 85,352,000 VND đến 98,423,886,821 VND Đây cũng là giá trị mục tiêu của mô hình
Các dữ liệu “Nominal” gồm có:
- Loại mái: được phân chia thành các loại “Không mái”, “Mái bê tông”, “Mái lợp ngói, kèo bê tông”, “Mái lợp tôn, kèo bê tông”, “Mái lợp tôn, kèo thép”
- Khoảng cách từ Tp.HCM: bao gồm các mục “500”, đơn vị của các mục này là km
- Số tầng: được phân thành “1-2”, “3-4” và “5-6” tầng
- Kết cấu khung: Gồm có “Kết cấu thép” và “Bê tông cốt thép”
- Loại hạng mục: Gồm có “Hạng mục chính” và “Hạng mục phụ”
Các biến được mã hóa kí hiệu với biến đầu vào từ X1 đến X12 và biến phụ thuộc là
4.4.2 Phân tích số liệu đã thu thập: a Diện tích
Hình 4.7 Biểu đồ scatter giữa diện tích và chi phí
Biểu đồ hình 4.7 ở trên thể hiện mối quan hệ giữa diện tích và chi phí của các dự án xây dựng trong data Từ biểu đồ, có thể nhận thấy một số điểm như sau:
- Các dự án với diện tích nhỏ hơn có xu hướng chiếm ưu thế trong dữ liệu, với một số ít dự án có diện tích lớn hơn
Mối quan hệ giữa diện tích và chi phí không hoàn toàn tuyến tính Tuy nhiên, có thể thấy rằng chi phí có xu hướng tăng khi diện tích mở rộng, đặc biệt là đối với những dự án có diện tích lớn.
- Ngoại lệ, có một số dự án có chi phí cao bất thường so với diện tích của chúng, điều này có thể do yếu tố khác ngoài diện tích, như độ phức tạp của kết cấu, vị trí xây dựng, hoặc chất lượng vật liệu Đưa thêm yếu tố kết cấu khung vào biểu đồ, ta được biểu đồ mới hình 4.8, các màu sắc khác nhau trên biểu đồ đại diện cho các loại kết cấu khung khác nhau Dựa
PHẠM TẤN DŨNG - 2170245 85 vào biểu đồ, có thể thấy rằng gần cùng một diện tích, khung kết cấu bê tông cho chi phí cao hơn kết cấu thép Đồng thời mối liên hệ giữa chi phí và diện tích của kết cấu bê tông tuyến tính rõ ràng hơn với kết cấu thép, điều này là do một số công trình kết cấu thép chủ đầu tư yêu cầu chỉ thi công phần kết cấu thép không làm phần bê tông dẫn tới chi phí không đều Tóm lại, cần xem xét thêm các yếu tố khác để hiểu rõ hơn về chi phí của từng dự án
Hình 4.8 Biểu đồ liên hệ giữa diện tích, loại khung và chi phí
Biến đổi "kết cấu khung" bằng biến "loại hạng mục" cho thấy hạng mục chính có chi phí và diện tích phân bố rộng, trái ngược với hạng mục phụ thường có chi phí cao hơn nhưng tập trung ở mức khoảng 25 tỷ trở xuống Đối với các dự án có diện tích tương đương, hạng mục phụ thường có chi phí cao hơn do chiến lược báo giá của chuyên gia nhằm cân bằng tổng chi phí dự án.
Hình 4.9 Biểu đồ liên hệ giữa diện tích, loại hạng mục và chi phí b Kết cấu khung
Hình 4.10 Biểu đồ cột thể hiện trung bình chi phí/m 2 theo loại khung
Biểu đồ 4.10 minh họa mối tương quan giữa loại kết cấu khung và chi phí xây dựng trung bình trên mỗi mét vuông Các loại kết cấu khung được phân loại thành khung bê tông cốt thép (RCC), khung thép và khung gỗ Phân tích dữ liệu trong biểu đồ cho thấy khung thép có chi phí xây dựng trung bình cao nhất, tiếp theo là khung RCC và khung gỗ có chi phí thấp nhất.
Triển khai mô hình
Trong nghiên cứu này, cơ sở dữ liệu được chia thành hai phần: 80% (tương ứng với 120 điểm dữ liệu) được chọn một cách ngẫu nhiên để huấn luyện các mô hình học máy, còn 20% còn lại (30 điểm dữ liệu) được sử dụng để kiểm thử các mô hình đã được phát triển Để đạt được hiệu suất cao nhất cho mỗi hàm pedotransfer dựa trên học máy (ML) tương ứng với từng thuật toán, nghiên cứu đã tiến hành điều chỉnh siêu tham số (hyperparameters) cho bốn ML khác nhau là SVR (Support Vector Regression), DT (Decision Tree), RF (Random Forest) và XGB (Extreme Gradient Boosting) Một thuật toán tìm kiếm lưới (grid-search algorithm) đã được áp dụng để thực hiện việc điều chỉnh siêu tham số một cách hiệu quả, vì việc xác định bộ siêu tham số tối ưu cho tất cả các siêu tham số liên quan trong một số thuật toán ML có thể rất tốn kém về mặt tính toán Vì vậy, chỉ một số siêu tham số quan trọng được lựa chọn để điều chỉnh cho mỗi thuật toán ML, bao gồm cả phạm vi của từng siêu tham số Đối với việc điều chỉnh siêu tham số, phương pháp kiểm định chéo K-fold với năm phần được sử dụng để đánh giá hiệu suất (dựa trên giá trị R²) của mô hình cho mỗi sự kết hợp siêu tham số.
Bảng 4.11: Biến siêu tham số cho từng thuật toán học máy (Machine Learning)
Phương pháp học máy (ML algorithm)
Siêu tham số mặc định
Phạm vị của siêu tham số (Range of hyperparemeters)
Các siêu tham số đã được điều chỉnh (Tuned hyperparameters)
DT min_samples_leaf = 1, min_samples_split = 2 min_samples_leaf = 1, 2, 3, … , 8, 9, 10 min_samples_split = 1, 2, 3, … , 8, 9, 10 min_samples_leaf = 1, min_samples_split = 5
XGB* max_dept = None, n_estimators = 100 max_dept = 2, 3, 4, … , 8, 9, 10 n_estimators = 20, 30, 40, … , 290, 300 max_dept = 5, n_estimators = 140
Sau khi thiết lập thông số, tiến hành nhập dữ liệu đã được chuẩn hóa vào Python để chạy bốn thuật toán học máy SVR, DT, DF, XGB và xuất ra kết quả
KẾT QUẢ
So sánh các mô hình
Sau khi chạy các mô hình trên Python, mô hình tự động tính toán các chỉ số đánh giá Kết quả các chỉ số này được thể hiện trong bảng 5.1 dưới đây:
Bảng 5.1: Tóm tắt các chỉ số đánh giá của các thuật toán
Tập huấn luyện (Train set) Tập kiểm tra (Test set)
Thuật toán RMSE MAE R² RMSE MAE R²
RF (Random Forest) 3.846 1.303 0.941 8.249 4.898 0.826 SVR (Support Vector
Từ bảng trên tiến hành xây dựng các biểu đồ (Hình 5.1, Hình 5.2 và Hình 5.3) hiển thị các chỉ số đánh giá Mean Absolute Error (MAE), Coefficient of Determination (R²), và Root Mean Square Error (RMSE) cho cả tập huấn luyện (Train set) và tập kiểm tra (Test set) của bốn thuật toán học máy: XGBoost, Random Forest (RF), Support Vector Regression (SVR), và Decision Tree (DT)
Hình 5.1 Biểu đồ thể hiện chỉ số RMSE của các thuật toán theo hai tập Huấn luyện và Kiểm tra
❖ Nhận xét về Biểu Đồ RMSE:
- XGBoost có RMSE tăng từ 1.826 lên 5.110, mặc dù cao nhưng vẫn giữ được một mức độ chấp nhận được so với các thuật toán khác
- Random Forest cho thấy sự tăng RMSE đáng kể từ 3.846 lên 8.249 trên tập kiểm tra, là dấu hiệu của overfitting
- SVR có RMSE thấp hơn trên tập kiểm tra (4.038) so với Random Forest và XGBoost
- Decision Tree có RMSE cực thấp trên tập huấn luyện (0.131) nhưng lại tăng lên 5.328 trên tập kiểm tra, cho thấy mô hình này rất chính xác với dữ liệu huấn luyện nhưng không duy trì được độ chính xác đó trên dữ liệu mới
Hình 5.2 Biểu đồ thể hiện chỉ số MAE của các thuật toán theo hai tập Huấn luyện và Kiểm tra
❖ Nhận xét về Biểu Đồ MAE:
- XGBoost cho thấy sự chênh lệch đáng kể giữa kết quả trên tập huấn luyện và tập kiểm tra, với MAE tăng từ 1.065 lên 3.106
- Random Forest cũng thể hiện sự tăng MAE từ tập huấn luyện (1.303) lên tập kiểm tra (4.898), điều này cũng có thể chỉ ra sự overfitting
- SVR có MAE thấp nhất trên tập kiểm tra (2.971) so với RF, DT và XGBOOST, nhưng cao hơn so với tập huấn luyện của chính nó (2.150)
- Decision Tree có MAE rất thấp trên tập huấn luyện (0.018) nhưng lại tăng vọt lên 3.461 trên tập kiểm tra, chỉ ra rằng mô hình này có thể đã bị overfitting nghiêm trọng
Hình 5.3 Biểu đồ thể hiện chỉ số R 2 của các thuật toán theo hai tập Huấn luyện và Kiểm tra
❖ Nhận xét về Biểu Đồ R²:
- XGBoost và SVR duy trì được R² cao trên cả tập huấn luyện và tập kiểm tra, với SVR thậm chí còn tăng nhẹ từ 0.921 lên 0.958, cho thấy khả năng dự đoán tốt trên dữ liệu mới
- Random Forest có sự giảm R² từ 0.941 xuống 0.826, điều này có thể là dấu hiệu của sự overfitting hoặc không tổng quát hóa tốt
- Decision Tree cho thấy R² gần như hoàn hảo trên tập huấn luyện (0.999) nhưng giảm xuống 0.927 trên tập kiểm tra, mặc dù vẫn còn khá cao
Kết luận chung từ các biểu đồ:
- Các mô hình có sự chênh lệch giữa hiệu suất trên tập huấn luyện (Train set) và tập kiểm tra (Test set), mô hình DT (Decision Tree) có kết quả 3 chỉ số khá ấn tượng trên tập huấn luyện, tuy nhiên trên tập kiểm tra có sự chênh lệch rõ rệt Decision Tree có dấu hiệu rõ ràng nhất của overfitting
- SVR là mô hình có khả năng tổng quát hóa tốt nhất, với sự ổn định của các chỉ số trên cả hai tập dữ liệu
- XGBoost và SVR đều có hiệu suất tốt trên tập kiểm tra, nhưng XGBoost có RMSE và MAE cao hơn một chút so với SVR
Vậy mô hình tối ưu nhất là SVR (Support Vector Regression) về hiệu suất lẫn khả năng diễn giải.
Phân tích giá trị dự đoán và thực tế trên mô hình SVR
Sau khi xác định SVR là mô hình tối ưu, lập bảng thể hiện giá trị chi phí dự đoán Y’ và chi phí thực tế Y trên cả tập huấn luyện (Train set) và tập kiểm tra (Test set) Dùng biểu đồ Box plot và Scatter plot để phân tích
Hình 5.4 Biểu đồ Boxplot chênh lệch chi phí trên hai tập Kiểm tra và Huấn luyện
Bảng 5.2: Thông số cho biểu đồ boxplot hình 5.4
Thống kê (Statistic) Chênh lệch tập kiểm tra
Chênh lệch tập huấn luyện (Residual_Train set)
Biểu đồ box plot có hai cột "Chênh lệch chi phí tập kiểm tra (Residual_Test set)" và "Chênh lệch chi phí tập huấn luyện (Residual_Train set)" đại diện cho sự chênh lệch giữa giá trị dự đoán và giá trị thực tế (tính bằng tỷ đồng) của mô hình học máy SVR trên hai tập dữ liệu: tập huấn luyện (Train set) và tập kiểm tra (Test set) Giá trị chênh lệch bằng Y (chi phí thực tế) – Y’ (chi phí dự đoán) Dưới đây là nhận xét chi tiết về biểu đồ này:
- Tập kiểm tra có trung vị âm (-2.2409), cho thấy dự đoán thường thấp hơn giá trị thực tế
- Tập huấn luyện có trung vị gần 0 (0.0430), cho thấy dự đoán và thực tế khá cân xứng
- Tập kiểm tra có phạm vi rộng hơn (từ -13.0330 đến 8.0542) so với tập huấn luyện (từ -7.4290 đến 24.3815), điều này cho thấy sự biến động lớn hơn trong chất lượng dự đoán trên tập kiểm tra
❖ IQR (Interquartile Range – Độ trải giữa):
- IQR lớn hơn ở tập kiểm tra (2.9442 so với 1.5685) cũng phản ánh sự biến động lớn hơn trong dữ liệu này
- Có nhiều ngoại lệ hơn ở tập huấn luyện (21 so với 2 trong tập kiểm tra), điều này có thể chỉ ra rằng mô hình có xu hướng dự đoán không chính xác hơn trên một số điểm dữ liệu cụ thể trong quá trình huấn luyện
- Tập kiểm tra: Có sự biến động lớn trong chất lượng dự đoán, với nhiều giá trị dư âm và một phạm vi rộng Điều này cho thấy mô hình có thể ít hiệu quả trong việc dự đoán trên dữ liệu chưa từng thấy trước đó
- Tập huấn luyện: Mặc dù có ít biến động hơn và trung vị gần với 0, nhưng số lượng ngoại lệ lớn cho thấy mô hình có thể không ổn định hoặc bị ảnh hưởng bởi một số điểm dữ liệu cụ thể
Việc tồn tại ngoại lệ không hẳn là dấu hiệu xấu, nhưng lại chỉ ra rằng cần xem xét thêm tính chính xác và ổn định của mô hình Việc tinh chỉnh mô hình hoặc sử dụng các kỹ thuật xử lý dữ liệu khác có thể là cần thiết để cải thiện hiệu suất.
Hình 5.5 Biểu đồ scatter giữa chi phí thực tế và chi phí dự đoán
Bảng 5.3: So sánh thông số giữa hai tập huấn luyện và kiểm tra
Tập huấn luyện (Train set)
Tập kiểm tra (Test set)
Mean Absolute Error (MAE) 2.15 tỷ đồng 2.9706 tỷ đồng
(RMSE) 4.4366 tỷ đồng 4.0378 tỷ đồng
Dựa trên biểu đồ scatter plot giữa chi phí thực tế (Y) và giá trị dự đoán (Y') của mô hình SVR, cùng với các thông số phân tích cho cả tập huấn luyện (Train set) và tập kiểm tra (Test set), chúng ta có thể đưa ra những nhận xét chi tiết sau:
- Mối Quan Hệ Tuyến Tính: Có mối quan hệ tuyến tính mạnh giữa chi phí thực tế và dự đoán, đặc biệt là trong tập kiểm tra, được thể hiện bởi hệ số tương quan cao Điều này cho thấy mô hình SVR dự đoán chính xác trong hầu hết các trường hợp
- Phân Bố Điểm Dữ Liệu: Các điểm dữ liệu có xu hướng tập trung gần đường chéo hơn khi chi phí tăng cao, điều này phản ánh khả năng dự đoán chính xác hơn của mô hình đối với các trường hợp có chi phí lớn Tuy vậy, vẫn còn một số trường hợp, nhất là trong tập huấn luyện, nằm cách biệt so với đường chéo, chỉ ra sự chênh lệch tương đối giữa dự đoán và thực tế
- Phân Biệt giữa Tập Huấn Luyện và Tập Kiểm Tra: Có sự khác biệt rõ ràng về mức độ chính xác và phân bố giữa hai tập dữ liệu, với tập kiểm tra có độ chính xác cao hơn
- Hệ Số Tương Quan (Correlation): Rất cao cho cả hai tập, đặc biệt là tập kiểm tra, cho thấy mô hình rất hiệu quả trong việc dự đoán chi phí dựa trên các biến đầu vào
Mặc dù có giá trị không quá cao, nhưng Mean Absolute Error (MAE) và Root Mean Squared Error (RMSE) vẫn cho thấy sự chênh lệch đáng kể giữa giá trị dự đoán và giá trị thực tế, đặc biệt là trong tập kiểm tra Điều này cho thấy mô hình hiện tại vẫn chưa đạt được độ chính xác hoàn hảo và cần được cải thiện thêm để đưa ra các dự đoán đáng tin cậy hơn.
- R-squared (R²): Giá trị R² cao cho thấy mô hình giải thích được một tỷ lệ lớn sự biến đổi trong chi phí thực tế Tuy nhiên, vẫn có một phần không nhỏ mà mô hình chưa thể giải thích, đặc biệt trong tập huấn luyện
- Mô hình SVR thể hiện khả năng dự đoán tốt, với mức độ chính xác cao, nhưng không hoàn hảo Có thể cần xem xét việc tinh chỉnh mô hình hoặc kiểm tra chất lượng và tính đầy đủ của dữ liệu đầu vào
- Có chênh lệch giữa tập huấn luyện và kiểm tra, tuy nhiên không đáng kể
- Cần cân nhắc thêm về việc giảm thiểu lỗi dự đoán, đặc biệt với các trường hợp nằm xa đường chéo trên biểu đồ