Ứng dụng học máy trong dự báo chi phí xây dựng nhà xưởng

MỤC LỤC

CƠ SỞ LÝ THUYẾT 2.1. Khái niệm

Support Vector Machine (SVM)

Nó hoạt động dựa trên nguyên lý tạo ra một "siêu phẳng" (hyperplane) trong không gian nhiều chiều của dữ liệu, với mục tiêu là tối ưu hóa sự phân chia giữa các lớp dữ liệu. Trong quá trình học có giám sát, thuật toán SVM sử dụng một tập hợp dữ liệu đã được gán nhãn (labeled data) để học cách xây dựng mô hình phân loại.

Linear Regression (hồi quy tuyến tính)

- Dự Đoán Xu Hướng và Giá Trị Tương Lai: Sử dụng phân tích hồi quy để dự đoán sự thay đổi trong tương lai, như dự đoán giá cả sản phẩm dựa trên các yếu tố thị trường. Hồi quy tuyến tính là một công cụ mạnh mẽ giúp hiểu và dự đoán mối quan hệ giữa các biến, hỗ trợ trong việc ra quyết định dựa trên dữ liệu.

Mạng thần kinh nhân tạo (Artificial Neural Network - ANN)

ANN học từ dữ liệu bằng cách điều chỉnh trọng số liên kết giữa các nơ-ron thông qua quá trình học có giám sát, thường sử dụng thuật toán lan truyền ngược để giảm thiểu sai số giữa kết quả dự đoán và giá trị thực tế. Với khả năng xử lý thông tin phức tạp và khả năng học tập, ANN trở thành công cụ không thể thiếu trong trí tuệ nhân tạo và khoa học máy tính.

Decision Tree (DT)

ANN được áp dụng rộng rãi trong các lĩnh vực như nhận dạng mẫu, dự đoán, phân loại, xử lý ngôn ngữ tự nhiên, và tự động hóa. Các câu hỏi thường được đặt cho từng thuộc tính riêng lẻ hoặc một kết hợp của chúng, nhưng phổ biến nhất là cách tiếp cận đơn giản, tập trung vào mỗi thuộc tính riêng biệt.

Random Forest (RF)

- Sử dụng phương pháp bootstrapping để tạo ra các tập dữ liệu huấn luyện mới từ tập dữ liệu ban đầu, nơi một số điểm dữ liệu được chọn lặp lại, tạo nên sự đa dạng trong tập huấn luyện của mỗi cây. Thông thường, số lượng thuộc tính được chọn bằng căn bậc hai của tổng số thuộc tính, ví dụ với 16 thuộc tính, mỗi node sẽ xem xét 4 thuộc tính ngẫu nhiên cho việc phân chia.

XGBOOST (Extreme Gradient Boosting)

XGBoost giải quyết nguy cơ overfitting (quá khớp) cao và chi phí tính toán của Gradient Boosting (GB) bằng cách thêm các tham số điều chuẩn vào hàm mục tiêu ban đầu, điều này giúp kiểm soát độ phức tạp của mô hình và sử dụng thuật toán phân bố quantile trọng số xấp xỉ để học cây gần đúng. - Regularization: Một trong những ưu điểm của XGBoost là nó bao gồm cả regularization (một kỹ thuật được sử dụng để ngăn chặn việc mô hình quá khớp với dữ liệu huấn luyện – L1 và L2), giúp ngăn chặn hiện tượng overfitting, làm cho mô hình ổn định và chính xác hơn.

Các hàm và phương pháp phổ biến trong Machine Learning

- Xử Lý Dữ Liệu Thiếu Sót: XGBoost có khả năng tự động xử lý các giá trị thiếu trong dữ liệu, làm giảm nhu cầu cho việc tiền xử lý dữ liệu phức tạp. - Đa Dạng Ứng Dụng: Nó được ứng dụng trong nhiều lĩnh vực khác nhau như tài chính, y học, sinh học, và nhiều ngành công nghiệp khác, nhờ khả năng dự đoán chính xác và hiệu quả cao.

Hàm mất mát (Loss Functions)

- Hiệu Suất Cao: XGBoost được thiết kế để hiệu quả về mặt tài nguyên và thời gian tính toán. Nó tận dụng tối đa phần cứng và có thể chạy nhanh trên cả máy tính cá nhân và các hệ thống phân tán lớn.

Khoảng cách (Distance Metrics)

  • Hàm Mất Mát (Loss Functions)
    • Hàm Kích Hoạt (Activation Functions)
      • Thuật toán Tối Ưu Hóa (Optimization Algorithm)
        • Chuẩn Hóa (Normalization)
          • Khoảng Cách (Distance Metrics)
            • Các nghiên cứu trước đây sử dụng các thuật toán học máy trong dự báo chi phí xây dựng

              Nó thường được sử dụng trong các thuật toán phân cụm như K-Means hoặc trong các thuật toán phân loại như K-Nearest Neighbors, đặc biệt khi dữ liệu có tính chất "lưới đường phố" hoặc khi biên độ giữa các tọa độ không đồng nhất. Mạng Nơ-ron Nhân tạo (NN) cho thấy độ chính xác cao nhất trong ước lượng chi phí xây dựng trường học, với sai số tuyệt đối trung bình (Mean Absolute Error Rate, MAER) thấp hơn so với Phân tích Hồi Quy (RA) và Máy Vector Hỗ Trợ (SVM).

              Hình 2.7 Hàm ReLU
              Hình 2.7 Hàm ReLU

              QUY TRÌNH NGHIÊN CỨU

              • Thu thập dữ liệu
                • Mẫu phi xác suất

                  Mặc dù phương pháp chọn mẫu thuận tiện có thể không cung cấp sự đại diện chính xác cho tổng thể và có nguy cơ cao về thiên vị, nó vẫn rất hữu ích trong các tình huống cụ thể, nhất là khi nghiên cứu này khoanh vùng khảo sát các đối tượng làm việc ở lĩnh vực xây dựng. Sau khi chạy phần mềm, nếu một biến có giá trị cột Cronbach’s Alpha if Item Deleted lớn hơn hệ số Cronbach’s Alpha tổng và hệ số Tương quan biến tổng (Corrected Item-Total correlation) nhỏ hơn 0.3 thì loại bỏ biến đó. Các ngôn ngữ lập trình và thư viện hỗ trợ phân tích dữ liệu như Python (với thư viện pandas hoặc scikit-learn) thường cung cấp các công cụ tích hợp sẵn để thực hiện mã hóa one-hot một cách dễ dàng.

                  XỬ LÝ SỐ LIỆU 4.1. Khảo sát

                  Phân tích thông tin đối tượng khảo sát

                    Từ biểu đồ, chúng ta có thể quan sát thấy các nhóm kinh nghiệm trên 5 năm chiếm ưu thế, điều này phản ánh mức độ hiểu biết và kỹ năng chuyên môn trong lĩnh vực xây dựng. Ngược lại, một số chức danh khác xuất hiện với tỷ lệ rất nhỏ, đó là chỉ huy trưởng và giám đốc với tỉ lệ phần trăm lần lược là 3.68% và 3.01% cho thấy sự khan hiếm hoặc ít phổ biến của chức danh này trong nhóm người được khảo sát. Do đó, tất cả các câu trả lời từ các đối tượng tham gia các loại dự án này đều quan trọng và sẽ được sử dụng trong phân tích dữ liệu, góp phần cung cấp cái nhìn toàn diện về lĩnh vực nghiên cứu.

                    Phân tích số liệu thu thập

                    Cột "Cronbach's Alpha if Item Deleted" (Hệ số Cronbach’s Alpha nếu yếu tố bị xóa) chứa các giá trị chỉ ra chất lượng độ tin cậy của tổng biến khi một mục cụ thể được loại bỏ khỏi phân tích. Tuy nhiên, các biến [Vật liệu hoàn thiện nền], [Loại cửa], [Mức lương cơ bản] và [Giá xăng] có hệ số tương quan biến tổng nhỏ hơn 0.3 cho thấy các biến này giải thích ý nghĩa rất yếu cho nhân tố chi phí. Các yếu tố này đều được đánh giá cao về mức độ ảnh hưởng của chúng, với một mức độ biến động và hệ số biến động không quá lớn, cho thấy một mức độ đồng thuận tốt trong quan điểm của những người đánh giá.

                    Bảng 4.4: Thống kê độ tin cậy
                    Bảng 4.4: Thống kê độ tin cậy

                    Dữ liệu đầu vào cho mô hình 1. Thu thập dữ liệu

                      Đồng thời mối liên hệ giữa chi phí và diện tích của kết cấu bờ tụng tuyến tớnh rừ ràng hơn với kết cấu thộp, điều này là do một số cụng trỡnh kết cấu thép chủ đầu tư yêu cầu chỉ thi công phần kết cấu thép không làm phần bê tông dẫn tới chi phớ khụng đều. - Tránh Đa Cộng Tuyến: Hệ số tương quan thấp giữa các biến giúp tránh vấn đề đa cộng tuyến (multicollinearity) trong mô hình, đây là tình huống khi các biến độc lập tương quan cao với nhau, gây khó khăn trong việc xác định tác động riêng biệt của từng biến lên biến mục tiêu. Khi làm việc với tập dữ liệu có các thuộc tính đo lường trong các đơn vị khác nhau và có khoảng giá trị rất khác nhau, việc chuẩn hóa có thể giúp giảm thiểu ảnh hưởng của các thuộc tính có phạm vi lớn hơn đối với quá trình phân loại hoặc hồi quy.

                      Hình 4.7 Biểu đồ scatter giữa diện tích và chi phí
                      Hình 4.7 Biểu đồ scatter giữa diện tích và chi phí

                      Triển khai mô hình

                      Ví dụ, One-Hot Encoding biểu diễn mỗi danh mục là độc lập với nhau, trong khi các kỹ thuật như Embedding có thể biểu diễn mối quan hệ phức tạp hơn. Chuẩn hóa đúng cách giúp mô hình học máy hiểu được bản chất của dữ liệu, từ đó cải thiện độ chính xác và hiệu suất của mô hình, mô hình có khả năng tổng quát hóa tốt hơn trên dữ liệu mới, giảm rủi ro overfitting. Tóm lại, chuẩn hóa dữ liệu là một bước quan trọng trong tiền xử lý dữ liệu cho học máy, giúp cải thiện hiệu suất, ổn định và tính chính xác của mô hình.

                      KẾT QUẢ 5.1. So sánh các mô hình

                      Phân tích giá trị dự đoán và thực tế trên mô hình SVR

                        Biểu đồ box plot có hai cột "Chênh lệch chi phí tập kiểm tra (Residual_Test set)" và "Chênh lệch chi phí tập huấn luyện (Residual_Train set)" đại diện cho sự chênh lệch giữa giá trị dự đoán và giá trị thực tế (tính bằng tỷ đồng) của mô hình học máy SVR trên hai tập dữ liệu: tập huấn luyện (Train set) và tập kiểm tra (Test set). - Có nhiều ngoại lệ hơn ở tập huấn luyện (21 so với 2 trong tập kiểm tra), điều này có thể chỉ ra rằng mô hình có xu hướng dự đoán không chính xác hơn trên một số điểm dữ liệu cụ thể trong quá trình huấn luyện. - Phân Bố Điểm Dữ Liệu: Các điểm dữ liệu có xu hướng tập trung gần đường chéo hơn khi chi phí tăng cao, điều này phản ánh khả năng dự đoán chính xác hơn của mô hình đối với các trường hợp có chi phí lớn.

                        Hình 5.5 Biểu đồ scatter giữa chi phí thực tế và chi phí dự đoán
                        Hình 5.5 Biểu đồ scatter giữa chi phí thực tế và chi phí dự đoán