.11 Kết quả Cronbach’s Alpha chạy lần 2 của nhĩm

Một phần của tài liệu (Trang 76)

Nhĩm đặc điểm kỹ thuật

Hệ số Cronbach's Alpha lần 2 Số lượng biến

0,919 16

Sau khi loại bỏ nhân tố NT3 (Cơng năng sử dụng) và NT10 (Cầu trục) kết quả Cronbach’s Alpha là 0.919>0.7, như vậy thang đo được xem là đáng tin cậy, hệ số tương quan của các biến lớn hơn giá trị 0.3, đạt yêu cầu về độ tin cậy. Sau khi đã đánh giá, lựa chọn các nhân tố phù hợp với mơ hình, tiến hành xếp hạng sự ảnh hưởng các nhân tố theo trị trung bình mức độ ảnh hưởngm và được thể hiện ở bảng 4.13. Bảng 4.12 Bảng xếp hạng nhân tố theo trị trung bình

Nhân tố ảnh hưởng Mã hĩa Trung bình Xếp hạng

Thời điểm thi cơng NT1 4.01 10

Địa điểm cơng trình NT2 4.04 9

Biện pháp thi cơng NT4 4.12 5

Tiến độ thi cơng NT5 4.63 1

Kết cấu khung NT6 4.59 2

Khẩu độ nhà (nhịp nhà) NT7 4.57 3

Chiều cao nhà NT9 3.95 12

Số tầng NT11 4.12 6

Địa hình tính giĩ NT12 3.96 11

Tải treo (bao gồm tải phụ và

tải pin mặt trời) NT13 3.93 13

Diện tích xây dựng NT14 4.15 4

Loại mái NT15 3.27 15

Loại vách NT16 3.28 14

Hệ số trượt giá. NT17 4.09 8

Hệ số ứng suất (Stress ratio) NT18 3.23 16

Nhân tố cĩ mức độ ảnh hưởng nhiều nhất là Tiến độ thi cơng (NT5) với trung bình 4.63 tiếp theo là Kết cấu khung NT6 với trung bình 4.59, Khẩu độ nhà NT7 là 4.57. Nhân tố cĩ mức ảnh hưởng thấp nhất là Hệ số ứng suất NT18 với trung bình là 3.23.

Nhận xét chung:

Kết quả 75 bảng khảo sát, với hầu hết các chuyên gia cĩ trên 5 năm kinh nghiệm (chiếm hơn 38%), tất cả đều hoạt động trong lĩnh vực xây cơng nghiệp (100%), cĩ chuyên mơn về cơng tác lập và quản lý chi phí. Ý kiến đánh giá của các chuyên gia đồng ý với 16 yếu tố ảnh hưởng theo thứ tự ở bảng trên, với mức trung bình cao nhất là 4,63 thấp nhất là 3,23. Trong một số nghiên cứu trước đây, thì với thang đo Likert 5 mức độ thì mức độ trên 3 được đánh giá là mức độ chấp nhận được. Vì vậy, kết quả khảo sát này đạt yêu cầu.

4.4. Quy trình xây dựng mơ hình

Quy trình xây dựng mơ hình gồm 3 bước sau:

Bước 1: Thu thập và xử lý số liệu

Từ các yếu tố ảnh hưởng đã xác định ở chương 4, thu thập dữ liệu từ 40 dự án. Chia 40 bộ dữ liệu thành 5-fold, mỗi fold gồm 8 bộ dữ liệu.

Fold 1 Fold 2 Fold 3 Fold 4 Fold 5

Fold 1 Fold 2 Fold 3 Fold 4 Fold 5

Fold 1 Fold 2 Fold 3 Fold 4 Fold 5

Fold 1 Fold 2 Fold 3 Fold 4 Fold 5

Fold 1 Fold 2 Fold 3 Fold 4 Fold 5 TRAINING

Huấn luyện Kiểm traTEST Lần 1

Lần 2

Lần 3

Lần 4

Lần 5

Hình 4.1 Phân chia tập dữ liệu 5-fold

Bước 2: Xây dựng mạng neuron

- Thiết kế các tham số đâu vào: Số lớp ẩn, số nút trong lớp ẩn, hàm truyền

- Tiến hành xây dựng mơ hình bằng phần mềm Rapidminer Studio 9.5

OUTPUT

Training

Testing

Hình 4.2: Sơ đồ quy trình thực hiện trong Rapisminer Studio 9.5

Bước 3: Đánh giá mơ hình

Đánh giá mơ hình với hệ số tương quan (R), sai số trung bình tuyệt đối (MAE - Mean absolute error), sai số phần trăm sai số tuyệt đối trung bình (MAPE - Mean Absolute Percent Error), sai số tồn phương trung bình (RMSE - Root mean squared error).

4.5. Thực hiện mơ hình 4.5.1. Thu thập dữ liệu 4.5.1. Thu thập dữ liệu

Dữ liệu thu thập từ các hồ sơ các dự án khu cơng nghiệp. Cĩ tổng cộng 40 dự án khu cơng nghiệp và thu thập các thơng tin liên quan đến bảng sau.

Bảng 4.13 Các nhân tố và kiểu dữ liệu được chọn để thu thập

hiệu Nhân tố Phân loại Thứ nguyên

X1 Thời điểm thi cơng 2018, 2019, 2020, 2021 Khơng thứ nguyên X2 Địa điểm cơng trình Bắc, Trung, Nam Khơng thứ nguyên X3 Biện pháp thi cơng khĩ, trung bình. Khơng thứ nguyên

X4 Tiến độ thi cơng [min-max] = [÷] ngày

X5 Kết cấu khung RF, MS, BC1, BC2, BC3, SS Khơng thứ nguyên

X6 Khẩu độ nhà (nhịp nhà) [min-max] = [÷] m

X7 Bước nhà [min-max] = [÷] m

X8 Chiều cao nhà [min-max] = [÷] m

X9 Số tầng [min-max] =[0÷4] Khơng thứ ngun

X10 Địa hình tính giĩ B, C, D Khơng thứ nguyên

X11 Tải treo (bao gồm tải phụ và tải pin mặt trời) [min-max] =[0.05÷0.47] kN/m2

X12 Diện tích xây dựng [min-max] =[÷] m2

hiệu Nhân tố Phân loại Thứ nguyên

X14 Loại vách tơn mạ màu, tơn thường, panel Khơng thứ nguyên

X15 Hệ số trượt giá. [min-max] =[÷] %

X16 Hệ (Hệ số ứng suất (Stress ratio)) [min-max] =[0.93÷1] số ứng suất Khơng thứ nguyên

Y Giá trúng thầu [min-max] =[÷] VNĐ

Các dữ liệu như Địa điểm xây dựng, Biện pháp thi cơng, Kết cấu khung, Loại tường,

Loại mái được thu thập phân loại như sau:

- Địa điểm xây dựng bao gồm 20 địa điểm: An Giang, Bình Dương, Bình Phước, Cần Thơ, Đà Nẵng, Đồng Nai, Hà Nội, Hải Phịng, Hậu Giang, Kiên Giang, Lâm Đồng, Long An, Nghệ An, Quãng Nam, Quãng Bình, Quãng Ngải, Tây Ninh, Thừa Thiên Huế, Tp.HCM, Trà Vinh.

- Biện pháp thi cơng: khĩ, trung bình.

- Địa hình tính giĩ: B, C, D theo ASCE 7-05

- Loại tường: gồm 3 loại là tơn mạ màu, tơn thường, panel - Loại mái: gồm 3 loại là tơn mạ màu, tơn thường, panel

Vậy dữ liệu đầu vào của lớp neuron đầu vào (input) gồm 40 dữ liệu. Trước khi xử lý số liệu, các kiểu dữ liệu cần mã hĩa và đặt tên thể hiện ở bảng bên dưới:

Bảng 4.14 Mã hĩa và gọi tên biến các nhân tố

Ký hiệu Nhân tố Dạng dữ liệu Ký hiệu

X1 Thời điểm thi cơng Dạng số nguyên Interger X2 Địa điểm cơng trình Dạng chữ: Vị trí (tỉnh) Polynominal

X3 Biện pháp thi cơng Dạng chữ Polynominal

X4 Tiến độ thi cơng Dạng số nguyên (ngày) Interger

X6 Khẩu độ nhà (nhịp nhà) Dạng số thực (m) Real

X7 Bước nhà Dạng số thực (m) Real

X8 Chiều cao nhà Dạng số thực (m) Real

X9 Số tầng Dạng số ngun Interger

X10 Địa hình tính giĩ Dạng chữ: B, C, D Polynominal X11 Tải treo (bao gồm tải phụ và tải pin mặt trời) Dạng số thực (m) Real

X12 Diện tích xây dựng Dạng số thực (m) Real

X13 Loại mái Dạng chữ Polynominal

X14 Loại vách Dạng chữ Polynominal

X15 Hệ số trượt giá. Dạng số thực Real

X16 Hệ số ứng suất (Stress ratio) Dạng số thực Real

Y Giá trúng thầu Dạng số thực Real

4.5.2. Thiết kế thơng số

Mạng nơ ron nhân tạo (ANN) đã được sử dụng trong nhiều lĩnh vực cho nhiều ứng dụng khác nhau và được chứng minh là đáng tin cậy. Mặc dù cĩ những ưu điểm độc đáo như bản chất phi tham số, khả năng giới hạn quyết định tùy ý và dễ dàng thích ứng với các loại dữ liệu khác nhau thì chúng cĩ một số hạn chế. Những hạn chế này là kết quả của một số yếu tố, cĩ thể ảnh hưởng đến độ chính xác của việc phân loại. Các yếu tố này cĩ thể được chia thành hai nhĩm chính: yếu tố bên ngồi và yếu tố bên trong. Các yếu tố bên ngồi bao gồm các đặc điểm của tập dữ liệu đầu vào và quy mơ của nghiên cứu, trong khi các yếu tố bên trong là sự lựa chọn cấu trúc mạng thích hợp, trọng số ban đầu, số lần lặp, chức năng truyền và tốc độ học. Vì vậy, một trong những thách thức lớn trong thiết kế mạng neuron là việc xác định các thơng số nhằm để quá trình huấn luyện đạt sai số tối thiểu và độ chính xác cao nhất.

4.5.2.1. Số lớp ẩn và số neuron trong lớp ẩn

Vì các mạng cĩ hai lớp ẩn cĩ thể thể hiện các hàm với dáng điệu bất kỳ, nên về lý thuyết, khơng cĩ lý do nào sử dụng các mạng cĩ nhiều hơn hai lớp ẩn. Người ta đã xác định rằng đối với phần lớn các bài tốn cụ thể, chỉ cần sử dụng một lớp ẩn cho mạng là đủ. Các bài tốn sử dụng hai lớp ẩn hiếm khi xảy ra trong thực tế. Thậm chí

đối với các bài tốn cần sử dụng nhiều hơn một lớp ẩn thì trong phần lớn các trường hợp trong thực tế, sử dụng chỉ một lớp ẩn cho ta hiệu năng tốt hơn là sử dụng nhiều hơn một lớp. Việc huấn luyện mạng thường rất chậm khi mà số lớp ẩn sử dụng càng nhiều.

Một vấn đề quan trọng trong việc thiết kế một mạng là cần cĩ bao nhiêu đơn vị trong mỗi lớp. Sử dụng quá ít đơn vị cĩ thể dẫn đến việc khơng thể nhận dạng được các tín hiệu đầy đủ trong một tập dữ liệu phức tạp, hay thiếu ăn khớp (underfitting). Sử dụng quá nhiều đơn vị sẽ tăng thời gian luyện mạng, cĩ lẽ là quá nhiều để luyện khi mà khơng thể luyện mạng trong một khoảng thời gian hợp lý. Số lượng lớn các đơn vị cĩ thể dẫn đến tình trạng thừa ăn khớp (overfitting), trong trường hợp này mạng cĩ quá nhiều thơng tin, hoặc lượng thơng tin trong tập dữ liệu mẫu (training set) khơng đủ các dữ liệu đặc trưng để huấn luyện mạng. Số lượng tốt nhất của các đơn vị ẩn phụ thuộc vào rất nhiều yếu tố - số đầu vào, đầu ra của mạng, số trường hợp trong tập mẫu, độ nhiễu của dữ liệu đích, độ phức tạp của hàm lỗi, kiến trúc mạng và thuật tốn luyện mạng.

Trong phần lớn các trường hợp, khơng cĩ một cách để cĩ thể dễ dàng xác định được số tối ưu các đơn vị trong lớp ẩn mà khơng phải luyện mạng sử dụng số các đơn vị trong lớp ẩn khác nhau và dự báo lỗi tổng quát hĩa của từng lựa chọn. Cách tốt nhất là sử dụng phương pháp thử-sai (trial-and-error). Trong thực tế, cĩ thể sử dụng phương pháp Lựa chọn tiến (forward selection) hay Lựa chọn lùi (backward selection) để xác định số đơn vị trong lớp ẩn. Lựa chọn tiến bắt đầu với việc chọn một luật hợp lý cho việc đánh giá hiệu năng của mạng. Sau đĩ, ta chọn một số nhỏ các đơn vị ẩn, luyện và thử mạng; ghi lại hiệu năng của mạng. Sau đĩ, tăng một chút số đơn vị ẩn; luyện và thử lại cho đến khi lỗi là chấp nhận được, hoặc khơng cĩ tiến triển đáng kể so với trước. Lựa chọn lùi, ngược với lựa chọn tiến, bắt đầu với một số lớn các đơn vị trong lớp ẩn, sau đĩ giảm dần đi. Quá trình này rất tốn thời gian nhưng sẽ giúp ta tìm được số lượng đơn vị phù hợp cho lớp ẩn.

Để khắc phục điều này K. Gnana Sheela (2013) đưa ra cơng thức tính số neuron trong lớp ẩn và Tijana Vujičić và cộng sự (2016) đã chứng minh cơng thức này giúp quá trình huấn luyện đạt sai số thấp nhất với n là số neuron lớp đầu vào:

4.5.2.2. Tốc độ học (learning rate)

Tốc độ học là một siêu tham số sử dụng trong việc huấn luyện các mạng neuron, thường nằm trong khoảng giữa 0 và 1. Tốc độ học kiểm sốt tốc độ mơ hình thay đổi các trọng số để phù hợp với bài tốn. Cập nhật trọng số:

weight new = weight old - (learning rate * gradient)

Tốc độ học lớn giúp mạng neuron được huấn luyện nhanh hơn nhưng cũng cĩ thể làm giảm độ chính xác. Nếu tốc độ học quá thấp sẽ ảnh hưởng tới tốc độ của thuật tốn rất nhiều, thậm chí khơng bao giờ tới được đích. Ngược lại, tốc độ học lớn thì thuật tốn tiến rất nhanh tới gần đích sau vài vịng lặp nhưng thuật tốn khơng hội tụ được vì bước nhảy quá lớn, khiến nĩ cứ quẩn quanh ở đích.

Việc lựa chọn giá trị này phụ thuộc nhiều vào dữ liệu và yêu cầu mỗi bài tốn và phải làm một vài thí nghiệm để chọn ra giá trị tốt nhất. Ở nghiên cứu này tác giả đã thử và chọn tốc độ học là 0.02 thì kết quả sai số thấp nhất.

Khi tốc độ học quá lớn hoặc quá bé sẽ khiến quá trình huấn luyện gặp khĩ khăn, momentum- động lực hoặc gọi là đà giúp cho quá trình diễn ra thuận lợi hơn.

Wnew = W old - (*v + * gradient) Trong đĩ:

: momentum, thường chọn 0.9 v: vận tốc

Trước khi đưa các tập dữ liệu vào mơ hình, ta cần thiết lập các thơng số mơ hình. Các thơng số này được ở bảng và hình bên dưới. Các bước thực hiện được tham khảo ở tài liệu hướng dẫn và cụ thể các thiết lập trong phần mềm Rapidminer Studio sẽ được trình bày ở phần tiếp theo.

Bảng 4.15 Thiết lập các thơng số cho mơ hình mạng ANN

Thơng số Giá trị trong Rapidminer

Số nút của lớp vào 16

Số lớp ẩn 1

Số nút của lớp ẩn 4

Số vịng lặp 200

Thơng số Giá trị trong Rapidminer

Learning rate (tỉ lệ học) 0.02

Hàm truyền Sigmod

Error epsilon (sai số cho phép) 1.0E-4

4.5.2.3. Xây dựng mơ hình

Mơ hình thực hiện được thể hiện qua hình 4.3:

Hình 4.3 Mơ hình huấn luyện ANN Các bước thực hiện mơ hình: Các bước thực hiện mơ hình:

- Bước 3: Thay đổi vai trị của thuộc tính, chọn Y là biến mục tiêu (Output).

- Bước 4: Chuyển đổi các thuộc tính về dạng số

Các thuộc tính khơng phài dạng số sẽ được ánh xạ về dạng số nhưng khơng làm thay đổi bản chất của thuộc tính ban đầu.

Mơ hình 5 fold, kiểu dữ liệu xáo theo tuỳ chọn bố trí lại (shuffled) bộ dữ liệu.

- Bước 6: Thiết lập các thơng số của mơ hình

Sau khi chạy các mơ hình, kết quả hiệu suất được liệt kê trong bảng dưới đây. Chi tiết các kết quả được trình bày ở phụ lục.

Bảng 4.16 Kết quả hiệu suất mơ hình ANN

Model R MPAE (%) MAE (nghìn VNĐ) RMSE (nghìn VNĐ) ANN 0.931 26.56% 1,707,889 2,276,932 Nhận xét:

Giá trị sai số tuyệt đối trung bình (MAE) cho giá trị được thơng qua mơ hình cĩ thể chấp nhận được đối với dự án cĩ tổng mức đầu tư lớn nhưng nĩ là một sai số lớn nếu dự án cĩ tổng mức đầu tư nhỏ. Do đĩ, chỉ số này khơng quyết định quan trọng khi đánh giá hiệu suất của mơ hình. Sai số phần trăm tuyệt đối trung bình của mơ hình là được tính tốn từ bộ thử nghiệm, bằng 26.56% cĩ thể chấp nhận được. Hệ số tương quan (R) là 0.931 tương đối cao, cĩ mối tương quan tuyến tính tốt giữa giá trị thực tế và giá trị nơ-ron ước tính chi phí mạng ở giai đoạn thử nghiệm.

Hình 4.4 Biểu đồ so sánh Y và Y’

4.6. So sánh với các mơ hình khác

Sử dụng bộ dữ liệu 40 cơng trình chạy mơ hình hồi quy và mơ hình máy véc tơ hỗ trợ (SVM). Kết quả của 3 mơ hình thể hiện ở bảng bên dưới, hệ số tương quan (R),

0 10000000 20000000 30000000 40000000 50000000 60000000 70000000 80000000 90000000 100000000 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 Y Y'

số tồn phương trung bình (RMSE) của mơ hình ANN cĩ độ tin cậy cao, tốt hơn, tiếp theo là mơ hình hồi quy và cuối cùng là mơ hình véc tơ hỗ trợ (SVM). Vì vậy, mơ hình ANN sử dụng trong nghiên cứu này là mơ hình cho kết quả tin cậy cao.

Bảng 4.17 So sánh kết quả các mơ hình

Model R MPAE (%) MAE (triệu VNĐ)

RMSE (triệu VNĐ)

ANN 0.931 26.56% 1,707,889 2,276,932 Hồi quy 0.670 37.7% 1,448,755 1,808,003

Mơ hình ANN cĩ hệ số tương quan lớn nhất 0.931, lớn hơn mơ hình hồi quy. Vậy mơ hình ANN cĩ độ tin cậy lớn hơn.

Kết quả xuất ra từ mơ hình Hồi quy tuyến tính

4.7. Kết luận:

- Sau khi khảo sát và phân tích chọn lọc được 16 nhân tố chính ảnh hưởng đến chi phí xây dựng kết cấu thép nhà xưởng trong giai đoạn đấu thầu.

- Nhân tố quan trọng nhất là tiến độ dự án, tiếp theo là nhân tố kết cấu khung và thấp nhất là nhân tố hệ số ứng suất thiết kế.

- Mơ hình ANN cĩ hệ số tương quan R tương đối cao (R=0.931) - Mơ hình ANN cĩ hệ số tương quan lớn hơn mơ hình hồi quy.

KẾT LUẬN VÀ KIẾN NGHỊ

Nội dung chương 5 bao gồm:

4.8. Kết luận

Đề tài đã gĩp phần xây dựng mơ hình hỗ trợ ước lượng chi phí dự thầu trong giai đoạn đấu thầu và lên phương án thiết kế sơ bộ. Nghiên cứu này giúp cho nhà thầu cĩ

Một phần của tài liệu (Trang 76)

Tải bản đầy đủ (PDF)

(114 trang)