CƠ SỞ LÝ THUYẾT
Các khái niệm
2.1.1 Khái niệm công trình thủy lợi:
Theo Khoản 3 Điều 2 Luật Thủy lợi 2017: “Công trình thủy lợi là công trình hạ tầng kỹ thuật thủy lợi bao gồm đập, hồ chứa nước, cống, trạm bơm, hệ thống dẫn, chuyển nước, kè, bờ bao thủy lợi và công trình khác phục vụ quản lý, khai thác thủy lợi”
2.1.2 Nguyên tắc tổ chức thi công công trình thủy lợi:
Theo QCVN 04 – 01:2018/BNNPTNT của Bộ Nông nghiệp và Phát triển nông thôn tổ chức thi công phụ thuộc: Đặc điểm và yêu cầu xây dựng công trình Đặc điểm công trình: Nêu đặc điểm chung, điều kiện tự nhiên (địa hình, địa chất, khí tƣợng thuỷ văn), điều kiện kinh tế xã hội và cơ sở hạ tầng liên quan đến thi công;
Yêu cầu đối với công tác thi công: Tiến độ (các mốc thời gian đặc biệt cần khống chế), sự phối hợp giữa các hạng mục công trình, thông thuyền bè, tích nước hồ và cấp nước cho hạ du, việc khai thác từng bước công trình, bảo vệ môi trường, thu dọn và vệ sinh lòng hồ trong thời gian thi công
Dẫn dòng và lấp dòng (đối với các công trình có yêu cầu)
+ Tần suất, lưu lượng dẫn dòng:
Tần suất dẫn dòng xác định trong nghiên cứu khả thi và những điều chỉnh (nếu có);
HVTH: Nguyễn Minh Trí MSHV: 1770432
Xác định lưu lượng dẫn dòng, lấp dòng theo thời đoạn thi công công trình + Phương án dẫn dòng các thời đoạn thi công:
Chính xác hóa phương án dẫn dòng, biện pháp bố trí công trình dẫn dòng; Thiết kế công trình dẫn dòng: Chọn hình thức bố trí, hình thức kết cấu, xác định quy mô công trình ngăn nước, xả nước dẫn dòng
Chọn phương pháp thi công công trình dẫn dòng
Chính xác hoá sơ đồ bố trí, trình tự thi công và biện pháp tổ chức thi công; Tính toán thuỷ lực lấp dòng: Chỉ tiêu, phương pháp và kết quả tính toán;
Theo TCVN 12845:2020 về nội dung lập báo cáo đề xuất chủ trương đầu tư, báo cáo nghiên cứu tiền khả thi, báo cáo nghiên cứu khả thi và báo cáo kinh tế - kỹ thuật quy định:
Biện pháp xây dựng công trình chính: Đề xuất sơ bộ biện pháp về dẫn dòng thi công đối với công trình chính có nhu cầu dẫn dòng trong quá trình thi công; Đề xuất sơ bộ biện pháp xây dựng đối với công trình đầu mối và đường dẫn chính
Tổ chức xây dựng: Đề xuất sơ bộ tổng mặt bằng xây dựng công trình đầu mối và công trình quan trọng trên đường dẫn chính; Đề xuất sơ bộ tổng tiến độ thi công dự án
2.1.3 Dự án đầu tƣ xây dựng
Theo Điều 3 Luật Xây dựng 2019: “Dự án đầu tư xây dựng là tập hợp các đề xuất có liên quan đến việc sử dụng vốn để tiến hành hoạt động xây dựng để xây dựng mới, sửa chữa, cải tạo công trình xây dựng nhằm phát triển, duy trì, nâng cao chất lượng công trình hoặc sản phẩm, dịch vụ trong thời hạn và chi phí xác định Ở giai đoạn chuẩn bị dự án đầu tư xây dựng, dự án được thể hiện thông qua Báo cáo nghiên cứu tiền khả thi đầu tư xây dựng, Báo cáo nghiên cứu khả thi đầu tư xây dựng hoặc Báo cáo kinh tế - kỹ thuật đầu tư xây dựng”
2.1.4 Quy định thực hiện chương trình dự án đầu tư công
HVTH: Nguyễn Minh Trí MSHV: 1770432
Theo quy định của Luật đầu tƣ công 2019 thì đơn vị sử dụng vốn đầu tƣ công có trách nhiệm:
“Tổ chức thực hiện kế hoạch đầu tƣ công đúng mục tiêu đã đƣợc cấp có thẩm quyền quyết định;
Triển khai thực hiện dự án theo đúng tiến độ và kế hoạch vốn đã đƣợc cấp có thẩm quyền quyết định;
Lập kế hoạch và tổ chức lựa chọn nhà thầu đối với gói thầu thuộc dự án đƣợc bố trí vốn theo kế hoạch đầu tƣ công đã đƣợc cấp có thẩm quyền quyết định;
Tổ chức nghiệm thu và thanh toán, quyết toán theo đúng hợp đồng đối với gói thầu đã hoàn thành và bàn giao đƣa vào sử dụng;
Cân đối các nguồn vốn để thanh toán nợ đọng xây dựng cơ bản theo quy định Bảo đảm phạm vi, quy mô đầu tƣ của từng dự án thực hiện theo đúng mục tiêu, lĩnh vực, chương trình đã được phê duyệt và theo kế hoạch vốn đã được bố trí; Theo dõi, kiểm tra, đánh giá việc thực hiện kế hoạch đầu tƣ công”
Nguyên tắc bố trí vốn kế hoạch đầu tƣ công
Việc bố trí vốn kế hoạch cho chương trình, dự án khởi công mới phải đáp ứng các yêu cầu sau đây:
“Chương trình, dự án cần thiết, có đủ điều kiện được bố trí vốn kế hoạch theo quy định
Sau khi đã bố trí vốn để thanh toán nợ đọng xây dựng cơ bản theo quy định Bảo đảm bố trí đủ vốn để hoàn thành chương trình, dự án theo tiến độ đầu tư đã đƣợc phê duyệt”.
Mạng nơ ron thần kinh
2.2.1 Định nghĩa Mạng Nơron nhân tạo
Là phương pháp xử lý dữ liệu bằng mô phỏng theo phương pháp hoạt động của não bộ con người, bao gồm nhiều tế bào thần kinh liên kết với các tế bào thần kinh khác ở các lớp khác nhau, có khả năng thích nghi linh hoạt, điều chỉnh và học hỏi với mức độ trừu tƣợng khác nhau thông qua các liên kết phi tuyến phức tạp với các trọng số chứa thông tin về tín hiệu đầu vào để thực hiện các nhiệm vụ quan tâm cụ thể trên các dữ liệu chƣa biết
HVTH: Nguyễn Minh Trí MSHV: 1770432
2.2.2 Cấu tạo cơ bản của một nơ ron sinh học:
Hình 2.1 – Cấu tạo một nơ ron sinh học
(Nguồn: researchgate, 2020) Dendrite (đuôi gai) cấu tạo giống nhƣ nhánh mở rộng ra khỏi thân tế bào (cell body), và công việc của chúng là nhận đầu vào điện hóa từ các tế bào thần kinh khác Nếu tổng các đầu vào điện này đủ mạnh để kích hoạt tế bào thần kinh, nó sẽ truyền tín hiệu điện hóa dọc theo sợi trục và chuyển tín hiệu này đến các tế bào thần kinh khác có đuôi gai đƣợc gắn vào bất kỳ đầu cuối nào của sợi trục Các tế bào thần kinh gắn liền này sau đó có thể kích hoạt Điều quan trọng cần lưu ý là một tế bào thần kinh chỉ kích hoạt khi tổng tín hiệu nhận đƣợc ở thân tế bào vƣợt quá một mức nhất định
Sợi trục (Axon) kéo dài từ thân tế bào và thường tạo ra nhiều nhánh nhỏ hơn trước khi kết thúc tại các đầu tận cùng thần kinh Sợi trục mang điện thế hoạt động cho tế bào thần kinh tiếp theo Một số sợi trục đƣợc bao phủ bởi myelin, hoạt động nhƣ một chất cách điện để giảm thiểu sự tiêu tán tín hiệu điện khi nó truyền xuống sợi trục, làm tăng đáng kể tốc độ dẫn truyền
Các đuôi gai đƣợc bao phủ bởi các khớp thần kinh (Synapses ) đƣợc hình thành bởi các đầu tận cùng của sợi trục (Axon terminals) sẽ kết nối hóa học (chất
HVTH: Nguyễn Minh Trí MSHV: 1770432 dẫn truyền thần kinh) với các tế bào thần kinh riêng lẻ khác tạo ra các đường dẫn mạng Sự tiếp nhận dẫn truyền của tế bào thần kinh từ đuôi gai phụ thuộc vào hoạt động của các khớp thần kinh Các khớp thần kinh đƣợc cho là ức chế nếu chúng để các xung động đi qua cản trở việc kích hoạt tế bào nhận hoặc kích thích nếu chúng để lọt qua xung động gây ra sự kích hoạt của tế bào nhận Các khớp thần kinh là những cỗ máy phân tử rất nhỏ nhƣng vô cùng phức tạp đƣợc tạo thành từ các protein hướng dẫn, duy trì và củng cố các kết nối Sự đa dạng của những protein này cho phép não bộ điều chỉnh sức mạnh thực hiện những suy nghĩ phức tạp và xây dựng ký ức nhằm cải thiện tốc độ tiếp nhận tín hiệu cùng lúc từ khoảng 10 14 khớp thần kinh trên mỗi tế bào thần kinh ở người
2.2.3 Cấu tạo cơ bản của một nơ ron nhân tạo:
Nơ ron thần kinh nhân tạo là mô hình toán học đƣợc xây dựng từ các liên kết thông tin đầu vào và cho một đầu ra tương ứng, khi đó mối quan hệ phi tuyến của thông tin xác định bởi hàm kích hoạt có chức năng thực hiện biến đổi các tổ hợp tuyến tính của các liên kết trước đó
Hình 2.2 – Cấu tạo một nơ ron nhân tạo
Tập đầu vào: các dữ liệu vào tương ứng của nơ ron thường được biểu diễn dưới dạng vectơ N chiều
HVTH: Nguyễn Minh Trí MSHV: 1770432
Trọng số liên kết (synaptic weight) kết nối với dữ liệu đầu vào và nơ ron tương ứng ký hiệu wkj Có vai trò quan trọng tương tự như một khớp thần kinh cho tổng quát mức độ mạnh yếu của dữ liệu đầu vào Thường các trọng số này được khởi tạo ngẫu nhiên và cập nhật sau đó qua mỗi đợt huấn luyện
Hàm truyền (Transfer function): cho phép tính tổng của các tích trọng số liên kết với dữ liệu đầu vào từ các nơ ron tương ứng
Ngƣỡng (threshold): phạm vi cho phép trên dữ liệu đầu ra của nơ ron phụ thuộc vào loại hàm kích hoạt đƣợc sử dụng
Hàm Kích hoạt (Active function):Một hàm kích hoạt là một ánh xạ đơn giản của đầu vào có trọng số tổng đến đầu ra của nơ-ron Thông qua các hàm kích hoạt phi tuyến khác nhau để chi phối ngƣỡng mà tế bào thần kinh đƣợc kích hoạt và cường độ của tín hiệu đầu ra Có vai trò quan trọng cho phép điều chỉnh linh hoạt tùy theo mức độ liên kết dữ liệu phức tạp khác nhau
Đầu ra: cho kết quả tính toán của hàm kích hoạt tương ứng
Mô hình toán học của một nơ ron có thể biểu diễn bằng các biểu thức sau:
Trong đó: x 1 , x 2 , x 3 , , x N : là các dữ liệu đầu vào; (w k1 , w k2 , w k3 , , w kN ) là các trọng số liên kết thuộc nơron thứ k; s k là hàm truyền; h k là một ngƣỡng; f là hàm kích hoạt và y k là kết quả đầu ra của nơron
2.2.4 Kiến trúc của mạng nơron nhân tạo:
HVTH: Nguyễn Minh Trí MSHV: 1770432
Hình 2.3 – Kiến trúc mạng nơ ron nhân tạo
Mạng nơ-ron đƣợc cấu tạo từ nhiều tầng (layer) lại với nhau Trong mỗi layer lại bao gồm nhiều nơ-ron (node) Có thể chia làm 3 tầng chính:
Input layer: Là tầng bao gồm các giá trị đầu vào của mạng
Hidden layer: Có thể gồm 1 hoặc nhiều tầng, các tầng này đóng vai trò nhƣ các logic, suy luận của mạng
Output layer: Thể hiện kết quả đầu ra của mạng
Giữa các tầng có các liên kết bởi những nơron trong mỗi tầng hoặc là giữa các tầng với nhau Trong mỗi tầng có thể có số lƣợng nơ-ron khác nhau cũng nhƣ các kết nối khác nhau
2.2.5 Phân loại mạng nơ-ron nhân tạo:
Mạng nơ-ron nhân tạo phân loại tùy vào cấu trúc hoạt động nơ-ron và độ dài, rộng, sâu của kiến trúc mạng tương ứng Cụ thể gồm 3 mạng cơ bản sau:
Mạng truyền tới (Multilayered Feedforward Neural Network - MFNN hay Multi – Layer Perceptron – MLP)
Perceptron nhiều lớp (MLP) là mạng nơ-ron sâu cơ bản nhất, bao gồm một loạt các lớp đƣợc kết nối đầy đủ
HVTH: Nguyễn Minh Trí MSHV: 1770432
Mỗi lớp mới là một tập hợp các hàm phi tuyến của tổng trọng số của tất cả các đầu ra (được kết nối đầy đủ) từ lớp trước
Mạng nơ-ron tích chập (“CNN, hoặc ConvNet”) là một lớp khác của mạng nơ- ron sâu Trong mô hình CNN, một hoặc nhiều lớp tích chập trích xuất các tính năng đơn giản từ đầu vào bằng cách thực hiện các phép toán tích chập Mỗi lớp là một tập hợp các hàm phi tuyến của các tổng các trọng số tại các tọa độ khác nhau của các tập con đầu ra lân cận về mặt không gian từ lớp trước, cho phép các trọng số đƣợc sử dụng lại
Mạng nơ-ron hồi quy (RNN) là một lớp khác của mạng nơ-ron nhân tạo sử dụng cấp dữ liệu tuần tự RNN đã đƣợc phát triển để giải quyết vấn đề chuỗi thời gian của dữ liệu đầu vào tuần tự Đầu vào của RNN bao gồm đầu vào hiện tại và các mẫu trước đó Do đó, các kết nối giữa các nút tạo thành một đồ thị có hướng dọc theo một chuỗi thời gian Mỗi nơ-ron trong RNN sở hữu một bộ nhớ trong để lưu giữ thông tin tính toán từ các mẫu trước đó
2.2.6 Các hình thức học của mạng nơron
Quá trình học tập trong mạng nơ-ron nhân tạo là kết quả của việc thay đổi trọng số của mạng, bằng một số loại thuật toán học tập Mục tiêu là tìm một tập hợp các ma trận trọng số mà khi áp dụng vào mạng, ánh xạ bất kỳ đầu vào nào thành một đầu ra chính xác mong đợi
Các phương thức học phổ biến của mạng là: học với sự giám sát (supervised learning), học không có giám sát (unsupervised learning) và cuối cùng là học tăng cường hay củng cố (Reinforcement learning):
Mô hình mạng MLP, cơ chế hoạt động và các thuộc tính của mạng
Mạng MLP truyền thẳng nhiều lớp là mạng nơ ron sâu cơ bản nhất, hình thức học của mạng MLP là học có giám sát, cơ chế hoạt động của một mạng MLP điển hình được mô tả cụ thể dưới quy trình lặp lại sau:
HVTH: Nguyễn Minh Trí MSHV: 1770432
Hình 2.4 – Cơ chế hoạt động mạng MLP
2.3.1 Thuật toán lan truyền ngược
Thuật toán lan truyền ngƣợc (backward propagation) là một cách thức phổ biến trong huấn luyện các mạng thần kinh nhân tạo và có thể đƣợc sử dụng kết hợp với các phương pháp tối ưu hóa như stochastic gradient descent Thuật toán đầu tiên sử dụng một pha tiến để tiếp nhận giá trị đầu vào và tính toán các giá trị của đầu ra của hàm tổn thất Do đó, pha tiến thiết lập khởi tạo cho thuật toán quy hoạch động để truy xuất sau này, và cũng là các tham số trung gian cần thiết trong pha lan truyền ngƣợc Sau đó, pha lan truyền ngƣợc lợi dụng khả năng truy vấn lại của thuật toán quy hoạch động đƣợc tạo ra dựa trên hàm tổn thất và tính toán Gradient Cụ thể nhƣ sau:
Pha tiến: Trong pha tiến, một vector đầu vào cụ thể đƣợc sử dụng để tính toán giá trị của mỗi lớp ẩn dựa trên giá trị hiện tại của các trọng số; tên "pha tiến" đƣợc
HVTH: Nguyễn Minh Trí MSHV: 1770432 sử dụng bởi vì các phép tính nhƣ vậy tiến qua các lớp Mục tiêu của pha tiến là tính toán tất cả các tham số trung gian của tầng ẩn và tính toán đầu ra từ một đầu vào cho trước Các giá trị này sẽ cần dùng trong pha lan truyền ngược
Pha lan truyền ngược : Pha lan truyền ngƣợc tính toán các gradient của hàm tổn thất cho tất cả các trọng số có liên quan trong mạng nơ ron đó Sau đó, Gradient này được đưa vào các phương pháp tối ưu hóa và sử dụng nó để cập nhật các trọng số liên kết, mục đích cực tiểu hóa hàm tổn thất Truyền ngƣợc xác định một đầu ra mong muốn, đã biết đối với mỗi giá trị đầu vào để tính toán các gradient hàm tổn thất Truyền ngƣợc đòi hỏi các hàm kích hoạt đƣợc sử dụng bởi các nơ-ron nhân tạo (hay "nút") khả vi
Hàm tổn thất Công thức Điều kiện sử dụng
Dự đoán một số thực
Cross Entropy ∑ ( ) Dự đoán 1 lớp trong bài toán phân loại đa lớp
Bảng 2.1 – Hàm tổn thất trong hoạt động mạng MLP
Thuật toán lan truyền ngƣợc truyền qua các lớp trung gian liên tục theo tổ hợp nhiều hướng khác nhau, mỗi hướng có thể biểu diễn theo sơ đồ đơn giản sau:
Thủ tục trên có thể đƣợc tính toán dựa vào đạo hàm riêng và quy tắc chuỗi nhƣ sau:
HVTH: Nguyễn Minh Trí MSHV: 1770432
Với các hướng khác nhau, một Gradient chức năng tính đạo hàm đa biến cho kết quả xác định hướng mà độ dốc tăng nhanh nhất
Mỗi đầu ra của một lớp ẩn (hidden layer) đặc trƣng bởi các hàm kích hoạt của lớp đó Có các dạng hàm kích hoạt phổ biến sau:
Công thức Đồ thị Đặc trƣng - Hàm Sigmoid có đầu ra trong khoảng [0,1]
- Tốc độ hội tụ chậm
- Trong tính toán tối ƣu Gradient Descent có thể không thực hiện đƣợc do hàm có thể đạt trạng thái bão hòa nếu dữ liệu đầu vào không đƣợc xử lý kỹ
HVTH: Nguyễn Minh Trí MSHV: 1770432
Công thức Đồ thị Đặc trƣng - Hàm tanh có đầu ra trong khoảng [-1,1]
- Trong tính toán tối ƣu Gradient Descent có thể không thực hiện đƣợc do hàm có thể đạt trạng thái bão hòa nếu dữ liệu đầu vào không đƣợc xử lý kỹ
Công thức Đồ thị Đặc trƣng - Hàm ReLu có đầu ra trong khoảng
- Tốc độ hội tụ nhanh gấp 6 lần Tanh (Krizhevsky et al.)
HVTH: Nguyễn Minh Trí MSHV: 1770432
- Trong tính toán tối ƣu Gradient Descent một số nơron đặc biệt đầu ra không có khả năng xác định dẫn đến bị mất trọng số trong mạng
2.3.4 Tối ưu Adam (Adaptive Moment Estimation)
Adam là một kỹ thuật tối ƣu hóa cho tính toán Gradient Descent đƣợc sử dụng khá phổ biến trong giai đoạn hiện nay Phương pháp này thực sự hiệu quả khi làm việc với các vấn đề liên quan đến nhiều dữ liệu hoặc tham số Nói một cách trực quan, thuật toán là sự kết hợp tính toán Gradient Descent với thuật toán
“Momentum” và thuật toán „RMSP‟
Momentum: Thuật toán này đƣợc sử dụng để tăng tốc thuật toán Gradient
Descent bằng cách xem xét 'trung bình có trọng số theo cấp số nhân' của các độ dốc
Sử dụng trung bình làm cho thuật toán hội tụ về cực tiểu với tốc độ nhanh hơn
Root Mean Square Propagation (RMSP hoặc RMSprop):là một thuật toán học tập thích ứng cố gắng cải thiện AdaGrad Thay vì lấy tổng tích lũy của các gradient bình phương như trong AdaGrad, nó lấy 'đường trung bình động theo cấp số nhân'
HVTH: Nguyễn Minh Trí MSHV: 1770432 Ở đây, thuật toán kiểm soát tốc độ Gradient Descent theo cách có dao động tối thiểu khi nó đạt đến mức tối thiểu chung trong khi thực hiện các bước đủ lớn (kích thước bước) để vượt qua các rào cản cực tiểu cục bộ trên đường đi Do đó, kết hợp các tính năng của các phương pháp trên để đạt mức tối thiểu toàn cục một cách hiệu quả
Hình 2.5 – Tối ƣu độ dốc cực tiểu trong thuật toán Adam Để tránh rơi vào các rào cản cực tiểu cục bộ trên đường đi như hai phương pháp Momentum và RMSprop gặp phải, thuật toán Adam kiểm soát trọng lƣợng trong khi đạt mức tối thiểu toàn cục để ngăn chặn dao động cao khi ở gần nó Công thức đƣợc sử dụng: ̂ ̂
Hiệu chỉnh độ lệch các trọng số, ta có phương trình tổng quát sau: ̂ (
Phương pháp Kennard stone
2.4.1 Giới thiệu quá trình xây dựng phương pháp
HVTH: Nguyễn Minh Trí MSHV: 1770432
Phương pháp Kennard stone (R.W Kennard và L A Stone, 1969) là kỹ thuật thiết kế thí nghiệm dựa trên sự hỗ trợ của máy tính, thực hiện số lần chạy lặp xác định trước để đạt đến sự hội tụ trong kết quả Phương pháp này tìm kiếm các vấn đề trong quy hoạch thực nghiệm truyền thống, đặc biệt là đối với quy hoạch thực nghiệm tối ƣu bề mặt tác động (Response surface), từ đó giải quyết chúng theo hướng mới mang đến mô hình thiết kế linh hoạt hơn cho các yếu tố đầu vào quan tâm
Trong đó, phương pháp tối ưu bề mặt tác động dùng các kỹ thuật toán học và thống kê để xây dựng nên bề mặt tác động mô tả mối quan hệ giữa các yếu tố đầu vào và kết quả đầu ra, từ đó tối ƣu hóa bề mặt này Tuy nhiên, có đƣợc thông tin về mối quan hệ này ở giai đoạn đầu để biểu diễn dưới dạng toán học là rất khó, đôi khi để có được thông tin chi tiết phải dựa vào kết quả các lần chạy cụ thể Phương pháp chỉ xác định kết quả sau cùng của các lần chạy để biểu diễn mối quan hệ toán học giữa các yếu tố này mà không đánh giá sự thay đổi của các mối quan hệ trong mỗi bước chạy Do đó dẫn đến kết quả cuối cùng rất khó kiểm soát Kiểm soát quá trình thực thi liên tục dựa trên thông tin đầu vào hợp lý làm cho mô hình rõ ràng, chi tiết, chứa đựng nhiều thông tin phù hợp để phân tích hơn
Mặt khác, trên bề mặt tác động đại diện bởi một vùng giới hạn trong hình dạng khối vuông hoặc cầu có kích thước p-chiều xác định, chứa những điểm chỉ định để thiết kế quy hoạch thực nghiệm Việc nhận dạng những điểm chỉ định trong vùng không gian giới hạn dưới dạng các biểu thức toán học mang lại tính khái quát hóa cao, tuy nhiên cũng rất phức tạp để thực hiện Thông qua việc biểu diễn những điểm chỉ định này bằng quy hoạch số điểm mạng thiết kế tương ứng có thể xấp xỉ được vùng không gian chồng chéo này Do đó, cần thiết việc quy hoạch số điểm mạng thiết kế từ những điểm chỉ định tồn tại sẵn trong không gian ban đầu làm cho mô hình tin cậy, trực quan hơn
Số điểm mạng thiết kế trong quy hoạch thực nghiệm tương ứng số lần chạy lặp bị ràng buộc bởi thông tin của số đầu vào, nếu thông tin của số đầu vào không đƣợc lựa chọn phù hợp sẽ cần rất nhiều lần chạy thủ tục mới có thể bổ sung thông tin cần thiết để phân tích Phương pháp mới ngoài việc kiểm soát quá trình thay đổi
HVTH: Nguyễn Minh Trí MSHV: 1770432 đầu vào và đầu ra nhƣ đã phân tích ở trên còn tập trung vào việc bao phủ thông tin trên số lần chạy lặp thích hợp
2.4.2 Đặc trưng của phương pháp
Là mô hình thiết kế “phi giai thừa” Không gian thông tin của các số đầu vào được chuyển đổi rõ ràng theo dạng bình phương Quy trình dựa trên quy hoạch thực nghiệm bằng việc tìm (lấy ra) số điểm mạng thiết kế dựa trên những điểm chỉ định trực quan, tồn tại sẵn Về đặc trưng hội tụ của phương pháp này dựa vào mục tiêu: (1) Những điểm chỉ định không quá xa những điểm mạng thiết kế, (2) Hội tụ xác định từ biên của không gian thông tin vào
2.4.3 Quy trình thiết kế thuật toán:
Không gian ma trận N điểm chỉ định với p số đầu vào:
Không gian thông tin số đầu vào từ việc phân bố các điểm chỉ định đƣợc xác định dưới công thức:
Tính được bình phương khoảng cách từ điểm v tới điểm u
Từ không gian thông tin này ta có:
Là những điểm gần điểm thiết kế nhất
Trong số những điểm chỉ định này chọn ra những điểm thiết kế sao cho:
Là những điểm xa nhất trong số những điểm chỉ định trên
Quy trình này đƣợc lặp lại đến khi đạt đến số điểm thiết kế P k mong muốn
HVTH: Nguyễn Minh Trí MSHV: 1770432 Để hội tụ cần xác định đƣợc biên trên không gian thông tin, cũng dựa vào công thức:
Chọn đƣợc hai điểm thiết kế đầu tiên P 1 và P 2 xa nhau nhất
Tuy nhiên vấn đề các yếu tố đầu vào có thể dưới dạng gồm nhiều bộ thang đo khác nhau Kết quả trong quá trình tính toán khoảng cách có thể không đảm bảo độ tin cậy Do đó, cần chuẩn hóa các dạng thang đo của không gian ma trận số đầu vào dựa theo công thức sau:
Ngoài ra có thể tính khoảng cách theo ma trận trực giao bằng phân tích Choleski và phân rã Gauss:
(2.4.3.7) Trong đó T là ma trận tam giác trên
Quy trình Kennard Stone có thể minh họa nhƣ sau:
HVTH: Nguyễn Minh Trí MSHV: 1770432
Chƣa phù hợp và phù hợp quá mức (Underfit và overfit)
Underfit và overfit là hai nguyên nhân lớn nhất dẫn đến hiệu suất kém của các mô hình hoặc thuật toán máy học
2 Bước 1 chọn 2 điểm xa nhất bộ dữ liệu
Xác định những điểm chỉ định gần các điểm vừa chọn
2 Từ những điểm chỉ định chọn điểm xa nhất điểm đã chọn, thực hiện lặp lại bước 2,3 ở các bước tiếp theo
HVTH: Nguyễn Minh Trí MSHV: 1770432
Hình 2.7 – quan hệ giữa độ phức tạp mô hình và dữ liệu
Trường hợp xảy ra trong đó mô hình không thể nắm bắt mối quan hệ giữa các biến đầu vào và đầu ra một cách chính xác, tạo ra tỷ lệ lỗi cao trên cả tập huấn luyện và dữ liệu không nhìn thấy Nó xảy ra khi một mô hình quá đơn giản, có thể kết quả của việc một mô hình cần nhiều thời gian đào tạo hơn, nhiều tính năng đầu vào hơn hoặc ít chính quy hơn
Overfitting đề cập đến tình huống trong đó một mô hình học máy không thể tổng quát hóa hoặc không phù hợp tốt trên tập dữ liệu chƣa nhìn thấy Một dấu hiệu rõ ràng của việc phù hợp quá mức cho mô hình máy học là nếu lỗi của nó trên tập dữ liệu kiểm tra hoặc xác thực lớn hơn nhiều so với lỗi trên tập dữ liệu đào tạo Overfitting xảy ra khi một mô hình tìm hiểu chi tiết và nhiễu trong tập dữ liệu huấn luyện đến mức nó tác động không tốt đến hiệu suất của mô hình thực hiện với tập dữ liệu mới Điều này có nghĩa là nhiễu hoặc biến động ngẫu nhiên trong tập dữ liệu huấn luyện được mô hình thu thập, phân tích và học dưới dạng các khái niệm Vấn đề là những khái niệm này không thích ứng cho các tập dữ liệu mới và tác động không tốt đến khả năng tổng quát hóa của mô hình
HVTH: Nguyễn Minh Trí MSHV: 1770432
Đánh giá hiệu quả mô hình
Các thước đo để đánh giá hiệu suất mô hình máy học, gồm:
Sai số bình phương trung bình:
Sai số trung bình tuyệt đối:
Sai số phần trăm trung bình tuyệt đối:
Trong đó: y – Giá trị thực tế; ̂ – Giá trị dự đoán
Các hệ số MSE, RMSE, MAE, MAPE càng gần 0 càng chính xác, riêng R 2 càng gần 1 mô hình càng phù hợp.
Tình hình nghiên cứu trước đây
Xác định thời gian hoàn thành công trình đã có các nghiên cứu thực hiện trên mạng ANN nhƣ Zileska-Pancovska và cộng sự (2013) [6], Ahmed A Gab-Allah và cộng sự (2015) [4], Hadi Salih Mijwel Aljumaily (2016) [5], Gabriel Nani và cộng sự (2017) [13], Meervat Altaie và Abbas M Borhan (2018) [14] Các nghiên cứu tập trung phần lớn ở nước ngoài, hầu như trong nước các nghiên cứu xác định thời gian thi công công trình thủy lợi vẫn chƣa thật sự nhiều Lê Đăng Hƣng (2020) [1]
HVTH: Nguyễn Minh Trí MSHV: 1770432 nghiên cứu ảnh hưởng của điều kiện thời tiết tác động đến năng suất lao động trong các dự án thủy lợi Có thể thấy tất cả các mô hình mạng ANN nói chung và mạng MLP nói riêng đều có tính linh động cao trong việc thiết lập kiến trúc mạng hướng tới mô hình thích nghi đƣợc với nhiều dạng dữ liệu đào tạo khác nhau và tổng quát hóa cao trên các dữ liệu chúng chƣa nhìn thấy (dữ liệu dùng để kiểm tra hoặc ƣớc lƣợng) Mô hình MLP cho khả năng đáp ứng cao trên quy mô về dữ liệu Do đó phân tách dữ liệu một cách hợp lý để mô hình dùng cho huấn luyện và kiểm tra là một bước quan trọng cải thiện hiệu suất mô hình với mức dữ liệu có được theo hướng tích cực hơn Luận văn kết hợp mạng MLP với Phương pháp Kennard Stone sử dụng dữ liệu có sẵn để truy xuất tối đa điểm khác biệt phân bố đến hai tập dữ liệu huấn luyện và kiểm tra, mang lại hiệu suất ổn định hơn các phương pháp khác, cho thấy đây là cách tiếp cận có hiệu quả trong việc xây dựng mô hình MLP phù hợp, cho độ tin cậy cao và hiện vẫn chưa có các nghiên cứu tương tự nào liên quan đã công bố trong nước
STT Tác giả Tên đề tài Phương pháp nghiên cứu
Mục tiêu, kết quả nghiên cứu
Neural Network Prediction Model for Construction Project Duration
Thu thập dữ liệu thực địa
Sử dụng mô hình hồi quy tuyến tính và mạng MLP
Xác định thời gian thực hiện dự án ở Bosnia với các nhân tố liên quan, so sánh mô hình hồi quy và mô hình mạng MLP trên dữ liệu của 75 dự án hoàn thành
Gab-Allah và cộng sự (2015)
Predicting the construction duration of building projects using
Bảng khảo sát thu thập dữ liệu phân tích nhân tố ảnh hưởng
Xác định thời gian thực hiện dự án ở Egypt với các nhân tố liên quan từ dữ liệu của 130 dự án
HVTH: Nguyễn Minh Trí MSHV: 1770432 artificial neural networks dự báo mạng ANN dân dụng thông qua mô hình mạng ANN
Predicating the durations of irregation channels projects in iraq by using ann modelling
Thu thập dữ liệu thực địa
Sử dụng mô hình dự báo mạng ANN
Xác định thời gian hoàn thành của 50 dự án kênh thủy lợi tại Iraq thông qua mô hình mạng ANN
4 Gabriel Nani và cộng sự
Duration estimation model for bridge construction projects in Ghana
Bảng khảo sát thu thập dữ liệu phân tích nhân tố ảnh hưởng
Giới thiệu công thức tính chỉ số tầm quan trọng RII
Sử dụng mô hình hồi quy tuyến tính và ANN
Xác định các nhân tố ảnh hưởng chính cụ thể là bê tông đổ tại chỗ, trọng lƣợng của các cấu kiện cầu thép, nền phụ và khối lƣợng vận chuyển của cốt liệu sau đó đƣợc sử dụng làm yếu tố dự báo để phát triển cả mô hình hồi quy và ANN nhằm mục đích dự báo thời gian xây dựng các công trình cầu từ dữ liệu 30 dự án tại Ghana
Bảng khảo sát thu thập dữ liệu phân
Xác định thời gian thực hiện dự án tối
HVTH: Nguyễn Minh Trí MSHV: 1770432
Estimate the Optimum Time for Repetitive Construction Projects in Iraq tích nhân tố ảnh hưởng
Xác định chỉ số tầm quan trọng RII
Giới thiệu công thức tính thời gian cho các dự án có tính dây chuyền
Sử dụng mô hình mạng MLP ƣu ở Iraq với các nhân tố liên quan từ dữ liệu của 65 dự án xây dựng có tính dây chuyền qua mô hình mạng MLP
(2020) Đánh giá ảnh hưởng của các yếu tố thời tiết đến năng suất lao động trong các dự án thủy lợi của Việt Nam
Bảng khảo sát thu thập dữ liệu phân tích nhân tố ảnh hưởng
Phân tích nhân tố EFA
Sử dụng mô hình hồi quy đa biến và mạng ANN
Xây dựng mô hình dự báo sự mất năng suất khi chịu các tác động của thời tiết cho các dự án chuẩn bị đầu tƣ thuộc nhóm công trình xây dựng Thủy lợi bằng mô hình ANN và hồi quy đa biến
Bảng 2.2 – Tóm tắt tình hình nghiên cứu của các tác giả liên quan
Kết luận chương
Chương 2 đã trình bày tổng quan các khái niệm về công trình thủy lợi, công tác thi công và các quy định về đầu tƣ xây dựng các dự án có vốn ngân sách nhà nước liên quan đến yếu tố tiến độ thực hiện dự án Giới thiệu tổng quát mạng thần kinh nơ ron nhiều lớp và các thuật toán liên quan trong việc xây dựng mô hình mạng nơ ron điển hình, cũng như lượt khảo các nghiên cứu trước đây Các nội dung nghiên cứu chi tiết sẽ được trình bày trong các chương tiếp theo
HVTH: Nguyễn Minh Trí MSHV: 1770432
PHƯƠNG PHÁP NGHIÊN CỨU
Quy trình nghiên cứu
Hình 3.1 – Quy trình nghiên cứu
Xác định vấn đề nghiên cứu
Xác định các nhân tố ảnh hưởng
Thiết kế bảng câu hỏi sơ bộ Khảo sát sơ bộ chính thức hoàn thiện bảng câu hỏi Khảo sát chính thức
Các nhân tố ảnh hưởng nhất
Xây dựng mô hình MLP:
- Khởi tạo 2 mô hình MLP theo dữ liệu ngẫu nhiên và có kiểm soát bằng KS
- Cải thiện hiệu suất mô hình
- Tìm đặc trƣng đại diện tốt Đánh giá mô hình Áp dụng thử nghiệm vào 1 dự án thực tế và tìm khoảng thời gian thi công dao động cho phép Đánh giá kết quả thử nghiệm
Tham khảo các tài liệu nghiên cứu và ý kiến chuyên gia
Phân tích định lượng Xây dựng mô hình
HVTH: Nguyễn Minh Trí MSHV: 1770432
Mô tả phương pháp nghiên cứu
Phương pháp nghiên cứu được thực hiện trên các giai đoạn:
3.2.1 Giai đoạn 1: Xác định các nhân tố ảnh hưởng
Giai đoạn này mục đích tìm ra các nhân tố ảnh hưởng đến thời gian thi công các gói thầu công trình thủy lợi giới hạn trong phạm vi cụ thể một loại công trình
Bước 1: Chọn nhân tố liên quan sơ bộ
Các nhân tố ảnh hưởng được chọn từ các đặc điểm quy mô của loại công trình nghiên cứu thu thập qua các tài liệu nghiên cứu, thuyết minh báo cáo dự án, biện pháp thi công Để đảm bảo các nhân tố đƣợc chọn bao quát, đầy đủ, tác giả khảo sát thêm ý kiến từ các chuyên gia trong lĩnh vực
Bước 2: Sau khi xác định sơ bộ đầy đủ các nhân tố ảnh hưởng, tiến hành lập bảng câu hỏi để chọn ra các nhân tố ảnh hưởng chính
Bước 3: Sử dụng bảng câu hỏi gửi đến các chuyên gia trong lĩnh vực để thu thập mẫu khảo sát
Bước 4: Tập hợp số liệu, tiến hành xử lý số liệu bước đầu bằng kiểm định Cronbachs Anpha để kiểm tra độ tin cậy của dữ liệu với phần mềm thống kê Stata Bước 5: Tất cả thang đo và biến quan sát thỏa điều kiện Cronbachs Anpha mới được đưa vào lựa chọn những nhân tố ảnh hưởng nhất – sử dụng phần mềm thống kê Stata
3.2.2 Giai đoạn 2: Xây dựng mô hình xác định thời gian thi công của loại công trình thủy lợi khảo sát
Mục đích: Đánh giá hiệu quả mô hình qua 3 giai đoạn:
- Chỉ sử dụng dữ liệu thô
- Sử dụng dữ liệu qua xử lý bằng kỹ thuật Kennard Stone
- Chạy lặp chéo với các nhân tố thay đổi
HVTH: Nguyễn Minh Trí MSHV: 1770432
Bước 1: Các nhân tố được cho là ảnh hưởng nhất đến thời gian thực hiện gói thầu thi công công trình thủy lợi đã đƣợc xác định cụ thể qua phân tích ở giai đoạn
1, do đó việc thu thập dữ liệu trên các gói thầu đã thi công trong quá khứ ở bước này là tin cậy và góp phần giảm đáng kể cho khối lƣợng công việc
Dữ liệu các gói thầu đƣợc lấy đồng bộ, đa dạng, trên các dự án để có thể phản ánh đúng đắn, đầy đủ nhất tính chất tổng thể nghiên cứu Đối với các dữ liệu không đầy đủ, tác giả liên hệ với những người có liên quan nhất đến dự án đã tham gia để đƣợc cung cấp thông tin
Các dữ liệu sau khi lấy được lưu trữ cần thận, đầy đủ
Bước 2: Dữ liệu thô được chuẩn hóa để đưa vào mô hình cho việc học – sử dụng ngôn ngữ lập trình Python hỗ trợ tốt nhiều tính năng trong lĩnh vực học máy để sử dụng trong bước này
Ngoài ra dữ liệu thô có thể đƣợc tiền xử lý thông qua kỹ thuật Kennard Stone
Bước 3: Phân tách dữ liệu chuẩn hóa thành tập kiểm tra và tập đào tạo và đưa vào mô hình học sâu - sử dụng ngôn ngữ Python
Bước 4: Thiết kế một kiến trúc mô hình MLP - sử dụng ngôn ngữ Python Bước 5: Kiểm định hiệu suất mô hình đạt được
Bước 6: Chạy lập chéo nhiều lần để xác định lại các nhân tố đại diện tốt cho mô hình
Bước 7: Kiểm định hiệu suất mô hình đạt được
Bước 8: Kết luận và kiến nghị.
Thu thập dữ liệu
3.3.1 Thu thập dữ liệu cho giai đoạn 1:
3.3.1.1 Xác định các nhân tố ảnh hưởng:
Các nhân tố ảnh hưởng phải phản ánh đầy đủ thuộc tính của đối tượng khảo sát, mang đến sự hội tụ cao
Do đó, các nhân tố ảnh hưởng xác định dựa trên cơ sở kết hợp của các phương pháp thu thập dữ liệu thứ cấp và sơ cấp, gồm:
- Đánh giá sơ bộ từ các dữ liệu thực tế qua các tài liệu báo cáo của dự án
HVTH: Nguyễn Minh Trí MSHV: 1770432
- Tham khảo các nghiên cứu tương tự
- Ý kiến của các chuyên gia trong lĩnh vực
Sau khi thực hiện đánh giá, phân tích; kết quả tổng hợp các nhân tố ảnh hưởng đƣợc trình bày trong bảng sau:
STT Nhân tố ảnh hưởng Mô tả Ghi chú
Chiều rộng kênh BTCT chữ nhật Tham khảo [5]
2 Điều kiện thời tiết Tham khảo
Mức độ cung cấp điện nước phục vụ thi công Chuyên gia
Chiều cao kênh BTCT chữ nhật Tham khảo [5]
5 Chiều dài tuyến kênh Tham khảo [5]
6 Chiều rộng bờ kênh Hồ sơ dự án
7 Điều kiện địa hình, địa mạo khi thi công
Vật cản bề mặt tự nhiên, đặc điểm lớp đất mặt (độ bằng phẳng, loại đất )
8 Điều kiện địa chất Tham khảo [5]
Lưu lượng nước ảnh hưởng đến biện pháp thi công, nhất là dẫn dòng
10 Số lƣợng bãi đổ tạm Hồ sơ dự án
11 Điều kiện về vị trí thi công
Từ phạm vi thi công đến khu vực dân sinh (sinh hoạt, đi lại của người dân),
HVTH: Nguyễn Minh Trí MSHV: 1770432 điều kiện bố trí mặt bằng thi công; khả năng cung ứng vật tư
12 Chiều dày lớp đất lấp Hồ sơ dự án
13 Số lƣợng kênh nhánh Hồ sơ dự án
14 Số tai nạn lao động Tham khảo [3]
15 Số lƣợng cống kết nối Chuyên gia
Số lƣợng cầu băng ngang và đường giao thông kết nối
Bảng 3.1 – Các nhân tố ảnh hưởng đến thời gian thi công
3.3.1.2 Thiết kế bảng câu hỏi:
Sau khi xác định được các nhân tố ảnh hưởng tác giả tiến hành thu thập dữ liệu Công cụ thu thập dữ liệu đƣợc sử dụng là Bảng câu hỏi chi tiết bởi lẽ loại bảng câu hỏi này đƣợc xem là phù hợp cho nghiên cứu định lƣợng
Kết cấu bảng câu hỏi sử dụng hình thức trả lời dưới dạng câu hỏi đóng – dạng câu hỏi đƣợc thiết kế có đáp án sẵn, với thang đo khoảng Likert (Likert, 1932) cho năm cấp độ được đánh số từ 1 đến 5 dựa trên mức độ đánh giá của người được khảo sát tương ứng từ “ không ảnh hưởng ;…; ; đặc biệt ảnh hưởng ”
Bảng câu hỏi sau khi đƣợc thiết kế sẽ đƣợc gửi đến nhà thầu, tƣ vấn thiết kế; ban quản lý dự án để thu thập dữ liệu
3.3.1.3 Xác định số lượng mẫu:
Theo thực nghiệm, Hair và cộng sự cho rằng kích thước mẫu phải gấp 5 lần số lƣợng biến quan sát; Hoàng và Chu (2008) cho rằng con số này từ 4 đến 5 lần Dung hòa hai quan điểm trên, tác giả xác định kích thước mẫu phải gấp 4,5 lần số lƣợng biến quan sát
3.3.2 Thu thập dữ liệu cho giai đoạn 2:
3.3.2.1 Xác định cỡ biến ảnh hưởng:
HVTH: Nguyễn Minh Trí MSHV: 1770432
Việc xác định đƣợc cỡ biến góp phần giảm khối lƣợng công việc từ đó giảm đƣợc nguồn lực về tài chính và thời gian mà vẫn đảm bảo đƣợc kết quả nghiên cứu Đối với việc xác định cỡ mẫu chủ yếu dựa trên kết quả của định lý giới hạn trung tâm được lấy từ một tổng thể bất kỳ có các tham số biết trước hội tụ về một phân phối chuẩn theo quy luật xác suất khi số lƣợng mẫu đủ lớn
Ngoài ra theo phương pháp phân tích thành phần chính PCA cũng cho thấy việc giảm số chiều của biến ảnh hưởng, giữ lại những biến chứa thông tin nhiều nhất mà không giảm đáng kể kết quả tính toán thông qua ma trận hiệp phương sai chứa thông tin của các biến quan sát từ đó tìm ra hướng tập trung nhiều phương sai tức mang lại thông tin nhiều nhất cho tổng thể khảo sát
Dựa vào những phân tích trên cho phép xác định đƣợc số biến ban đầu phù hợp để đưa vào thu thập dữ liệu Giá trị kỳ vọng số biến ảnh hưởng được chọn là 7 theo các tài liệu [7]; [12] mà tác giả tham khảo
3.3.2.2 Thực hiện thu thập dữ liệu sơ cấp:
Sau khi có kết quả phân tích các nhân tố ảnh hưởng đến thời gian thi công, một lần nữa tác giả tiến hành thu thập dữ liệu sơ cấp Lần này tác giả xem xét từ các tài liệu, hồ sơ dự án có liên quan Cụ thể: hồ sơ bản cứng và bản mềm từ năm 2015 đến năm 2020 của các dự án có các gói thầu đã thi công tại Tp HCM Bao gồm: nội dung trong các Quyết định phê duyệt kế hoạch lựa chọn nhà thầu; thiết kế bản vẽ kỹ thuật thi công; hợp đồng thi công xây dựng; chỉ dẫn kỹ thuật; báo cáo giám sát; nhật ký công trình và các hồ sơ điều chỉnh khác Trong trường hợp còn thiếu, dữ liệu chưa chặt chẽ, tác giả liên hệ đến những người đã tham gia vào các gói thầu trên để bổ sung dữ liệu cần thiết cho nghiên cứu Các dữ liệu này sau đó sẽ đƣợc ghi nhận bằng bảng lấy mẫu được thiết kế đầy đủ các nhân tố ảnh hưởng và ký hiệu rõ ràng, cẩn thận tương ứng với từng gói thầu dự án.
Kiểm định chất lƣợng của thang đo
Trong nghiên cứu, nhiều vấn đề rất phức tạp, đa khía cạnh không thể chỉ sử dụng những thang đo đơn giản mà cần xây dựng các thang đo có đầy đủ các thuộc tính để phản ánh những nội dung phong phú của các vấn đề nghiên cứu và việc
HVTH: Nguyễn Minh Trí MSHV: 1770432 kiểm tra chất lƣợng của thang đo là điều hết sức cấp thiết trong nghiên cứu định lƣợng
Theo Hoàng Trọng – Chu Nguyễn Mộng Ngọc, một trong số hình thức đo lường các khái niệm trừu tượng được sử dụng phổ biến nhất là thang đo Likert (Likert, 1932) Trong thang đo này các câu hỏi đƣợc tạo ra chứa đựng thông tin cần thiết của vấn đề nghiên cứu Tuy nhiên đó là trên lý thuyết, về thực tế có thể trong những câu hỏi sẽ có những câu hỏi không cần thiết Do đó, để kiểm tra việc này người ta thường sử dụng hai chỉ số thống kê là (1) Hệ số Cronbach‟s Alpha và (2) hệ số tương quan biến tổng
Hệ số Cronbach‟s Alpha có giá trị biến thiên trong đoạn [0,1] Về lý thuyết, hệ số này càng cao thang đo càng có độ tin cậy cao Tuy nhiên khi hệ số Cronbach‟s Alpha quá lớn (khoảng 0.95 trở lên) thể hiện nhiều biến trong thang đo không có sự khác biệt nhau, đây là hiện tƣợng trùng lắp trong thang đo (“Nguyễn Đình Thọ”) Khi đánh giá về độ tin cậy của thang đo, cần xem xét các tiêu chuẩn sau:
Nếu một biến đo lường cho hệ số tương quan biến tổng thu được lớn hơn hoặc bằng 0.3 thì xem nhƣ biến đó đạt yêu cầu (Nunnally, J 1978)
Giá trị hệ số Cronbach‟s Alpha (Hoàng và Chu 2008):
- Từ 0.8 đến gần bằng 1: thang đo lường rất tốt;
- Từ 0.7 đến gần bằng 0.8: thang đo lường sử dụng tốt;
- Từ 0.6 trở lên: thang đo lường đủ điều kiện
Hệ số Cronbach‟s Alpha nếu loại biến quan sát lớn hơn hệ số Cronbach‟s Alpha của nhóm, chúng ta xem xét loại biến quan sát này.
Công cụ phân tích
3.5.1 Phần mềm thống kê STATA
STATA là phần mềm thống kê đƣợc phát triển từ những năm 1985s bởi StataCorp Tên gọi “STATA” là kết hợp của các từ “statistics” và “data” Đây là phần mềm ƣa thích của các nhà nghiên cứu khoa học dữ liệu vì tích hợp nhiều công cụ phân tích, đồng thời lại sử dụng mã nguồn mở, cho phép người dùng tự soạn công thức và câu lệnh riêng phù hợp với nhu cầu sử dụng của mình Hiện nay, phiên
HVTH: Nguyễn Minh Trí MSHV: 1770432 bản STATA 16 đã có thể tích hợp đƣợc ngôn ngữ Python để thực thi Luận văn này, phần mềm STATA được hỗ trợ để xây dựng các nhân tố ảnh hưởng đầu vào
3.5.2 Ngôn ngữ lập trình Python
Python được sáng tạo bởi lập trình gia người Hà Lan Guido vào cuối những năm 1980s là ngôn ngữ lập trình hướng đối tượng đa năng Ngôn ngữ này sở hữu cấu trúc dữ liệu cấp cao mạnh mẽ và hệ thống thƣ viện lớn hỗ trợ hiệu quả cho việc thiết kế các mô hình máy học hiện nay.
Kết luận chương
Chương 3 đã trình bày cụ thể quy trình nghiên cứu trong luận văn, đồng thời xác định được các nhân tố ảnh hưởng đến thời gian thi công xây dựng công trình thủy lợi dựa vào việc thiết kế, thu thập, xử lý các dữ liệu sơ cấp và thứ cấp, từ đó đưa ra được quy trình xác định các nhân tố ảnh hưởng nhiều nhất để thu thập, đánh giá đƣa vào mô hình mạng MLP
HVTH: Nguyễn Minh Trí MSHV: 1770432
THU THẬP VÀ PHÂN TÍCH DỮ LIỆU
Tổ chức điều tra chọn mẫu
Sau khi xác định được sơ bộ các nhân tố ảnh hưởng từ nguồn dữ liệu thứ cấp và sơ cấp, tác giả tiến hành lập bảng câu hỏi khảo sát sơ bộ nhằm ƣớc lƣợng, đánh giá mức độ phù hợp của bộ câu hỏi và thang đo thiết kế ở các đối tƣợng liên quan khác nhau, từ đó có thể nhận diện, loại bỏ và điều chỉnh những yếu tố gây sai sót kịp thời trước khi tiến hành khảo sát đại trà Khảo sát sơ bộ ở đây được thực hiện với bảng câu hỏi đóng với số lượng 30 người thuộc nhóm đối tượng nghiên cứu, đồng thời trong bảng câu hỏi sơ bộ chú trọng lấy ý kiến người được khảo sát về những khó khăn gặp phải trong quá trình trả lời câu hỏi
Sau khi tổng hợp, đánh giá, điều chỉnh hoàn thiện bảng câu hỏi từ giai đoạn khảo sát sơ bộ, tác giả tiến hành điều tra thu thập dữ liệu dựa trên các bảng câu hỏi đóng hoàn chỉnh (kèm theo phụ lục) và gửi ngẫu nhiên đến các đối tƣợng có liên quan đến lĩnh vực nghiên cứu thuộc các đơn vị trong Tp HCM gồm Phòng quản lý các dự án đầu tƣ công chuyên ngành theo thẩm quyền; Chủ đầu tƣ, Ban quản lý dự án chuyên ngành; nhà thầu thi công; thiết kế; tƣ vấn giám sát
Số lƣợng bảng câu hỏi là 111 bảng, thu về đƣợc 89 bảng; tỷ lệ phản hồi 80%, không có bảng nào thiếu hợp lệ.
Đặc trƣng mẫu khảo sát
HVTH: Nguyễn Minh Trí MSHV: 1770432
Hình 4.1 – Biểu đồ tổng hợp số năm kinh nghiệm các đối tƣợng khảo sát Đối tƣợng khảo sát có kinh nghiệm từ 3 – 10 năm chiếm tỷ lệ gần 60%, các đối tượng kinh nghiệm trên 10 năm chiếm tỷ lệ tương đối thấp gần 10%, đối tượng có kinh nghiệm dưới 3 năm chiếm tỷ lệ 30%
Hình 4.2 – Biểu đồ cơ cấu đơn vị công tác các đối tƣợng khảo sát
10.11% dưới 3 năm từ 3 - 5 năm từ 5 - 10 năm trên 10 năm
Chủ đầu tư Quản lý dự án
Tư vấn giám sát Nhà thầu thi công khác Đơn vị công tác
HVTH: Nguyễn Minh Trí MSHV: 1770432 Đơn vị công tác chiếm tỷ lệ lớn ở các nhà thầu thi công và tƣ vấn giám sát lần lƣợt là 30% và 31% có thể thấy quy mô đa dạng của các công ty hoạt động xây dựng ở lĩnh vực này, đơn vị quản lý dự án chiếm tỷ lệ tương đối 18% và chủ đầu tư là 15%, còn lại 6% thuộc về đơn vị khác nhƣ thiết kế, phòng quản lý đầu tƣ
4.2.3 Số dự án tham gia
Hình 4.3 – Biểu đồ cơ cấu số dự án tham gia các đối tƣợng khảo sát
Có thể thấy các đối tƣợng có số lƣợng tham gia từ 3 đến trên 10 dự án cho tỷ lệ gần 70% mang lại kết quả đánh giá có thể xem là tương đối đảm bảo tin cậy.
Lưu đồ xử lý dữ liệu bằng STATA
25% chưa có dự án nào từ 1 - 3 dự án từ 3 - 10 dự án trên 10 dự án
Số dự án tham gia
HVTH: Nguyễn Minh Trí MSHV: 1770432
Hình 4.4 – Lưu đồ xử lý dữ liệu bằng Stata
Giai đoạn 1: Xử lý dữ liệu thu thập bằng STATA
Mã hóa tên biến ảnh hưởng:
STT Biến ảnh hưởng Mã hóa
1 Chiều rộng kênh BTCT chữ nhật TL 1
2 Điều kiện thời tiết TL 2
3 Mức độ cung cấp điện nước phục vụ thi công TL 3
4 Chiều cao kênh BTCT chữ nhật TL 4
5 Chiều dài tuyến kênh TL 5
6 Chiều rộng bờ kênh TL 6
7 Điều kiện địa hình, địa mạo khi thi công TL 7
Tính mean để xếp hạng
Nếu không thỏa, loại bỏ biến rồi lấy biến chỉ số mean tiếp theo thử dần Giai đoạn
2 Kiểm định Cronbach anpha để loại bỏ
3 Kiểm định Cronbach anpha để loại bỏ
HVTH: Nguyễn Minh Trí MSHV: 1770432
8 Điều kiện địa chất TL 8
9 Điều kiện thủy văn TL 9
10 Số lƣợng bãi đổ tạm TL 10
11 Điều kiện về vị trí thi công TL 11
12 Chiều dày lớp đất lấp TL 12
13 Số lƣợng kênh nhánh TL 13
14 Số tai nạn lao động TL 14
15 Số lƣợng cống kết nối TL 15
16 Số lƣợng cầu băng ngang và đường giao thông kết nối TL 16
Bảng 4.1 – Mã hóa các biến ảnh hưởng
Thực hiện kiểm định Cronbach anpha cho 16 thông số xác định:
Bảng 4.2 – Bảng kết quả kiểm định Cronbach anpha cho 16 thông số
HVTH: Nguyễn Minh Trí MSHV: 1770432
Bảng 4.3 Bảng kiểm định cronbach Anpha chi tiết 16 thông số
Kết quả kiểm định Cronbach anpha cho hệ số tương quan 0,9296 > 0,8: Thang đo cho chất lƣợng rất tốt
Tính giá trị trung bình của 16 biến:
Bảng 4.4 – Bảng kết quả giá trị trung bình cho 16 thông số
HVTH: Nguyễn Minh Trí MSHV: 1770432
Xếp hạng các biến theo giá trị trung bình:
STT Biến ảnh hưởng Mã hóa rank
1 Chiều rộng kênh BTCT chữ nhật TL 1 2
2 Điều kiện thời tiết TL 2 4
3 Mức độ cung cấp điện nước phục vụ thi công TL 3 15
4 Chiều cao kênh BTCT chữ nhật TL 4 3
5 Chiều dài tuyến kênh TL 5 1
6 Chiều rộng bờ kênh TL 6 10
7 Điều kiện địa hình, địa mạo khi thi công TL 7 6
8 Điều kiện địa chất TL 8 6
9 Điều kiện thủy văn TL 9 11
10 Số lƣợng bãi đổ tạm TL 10 8
11 Điều kiện về vị trí thi công TL 11 5
12 Chiều dày lớp đất lấp TL 12 13
13 Số lƣợng kênh nhánh TL 13 14
14 Số tai nạn lao động TL 14 16
15 Số lƣợng cống kết nối TL 15 11
16 Số lƣợng cầu băng ngang và đường giao thông kết nối TL 16 8
Bảng 4.5 – Bảng xếp hạng mức độ ảnh hưởng cho 16 thông số
Nghiên cứu sử dụng 7 thông số cho mô hình khảo sát (6 thông số nhân tố ảnh hưởng và 1 thông số phụ thuộc) theo đánh giá tại mục 3.3.2 chương 2, do đó thông
HVTH: Nguyễn Minh Trí MSHV: 1770432 số ảnh hưởng “Điều kiện địa hình, địa mạo khi thi công” (TL7) được loại bỏ vì cho hệ số tương quan biến tổng 0,6644 nhỏ hơn thông số “Điều kiện địa chất” (TL8) có tương quan biến tổng 0,7381
Tổng kết 6 thông số ảnh hưởng nhất theo thứ tự gồm:
STT Biến ảnh hưởng Mã hóa Mô tả
1 Chiều dài tuyến kênh TL 5
2 Chiều rộng kênh BTCT chữ nhật TL 1
3 Chiều cao kênh BTCT chữ nhật TL 4
4 Điều kiện thời tiết TL 2
5 Điều kiện về vị trí thi công TL 11
Từ phạm vi thi công đến khu vực dân sinh (sinh hoạt, đi lại của người dân), điều kiện bố trí mặt bằng thi công; khả năng cung ứng vật tư
6 Điều kiện địa chất TL 8
Bảng 4.6 – Bảng tổng hợp 6 thông số ảnh hưởng nhất
Thực hiện kiểm định Cronbach anpha cho 6 thông số xác định:
Bảng 4.7 – Bảng kết quả kiểm định Cronbach Anpha 6 thông số ảnh hưởng nhất
HVTH: Nguyễn Minh Trí MSHV: 1770432
Bảng 4.8 – Bảng kiểm định Cronbach Anpha chi tiết 6 thông số ảnh hưởng nhất
Kết quả kiểm định Cronbach anpha cho giá trị tương quan 0,8281 > 0,8: Thang đo cho chất lƣợng rất tốt
Nhƣ vậy 6 thông số đã chọn đủ điều kiện để thực hiện giai đoạn 2.
Giai đoạn 2: Thu thập dữ liệu để thực hiện mô hình mạng MLP
Quy trình thu thập dữ liệu giai đoạn 2 được thể hiện dưới lưu đồ sau:
Hình 4.5 – Lưu đồ thu thập dữ liệu mạng MLP
Thu thập dữ liệu giai đoạn 2
Dữ liệu thu thập nếu không đầy đủ Đo lường qua trung gian hoặc sử dụng các biện pháp xử lý dữ liệu không cân bằng
Có th ể th ay th ế d ữ li ệu
HVTH: Nguyễn Minh Trí MSHV: 1770432
Trong quá trình thiết kế dữ liệu thu thập để phục vụ công tác dự đoán trong mô hình mạng MLP cần đảm bảo các biến độc lập khi được lấy không có sự tương quan với nhau, điều này xảy ra sẽ làm giảm lƣợng thông tin đạt đƣợc của thuộc tính cần nghiên cứu, đồng thời dữ liệu lấy được phải tương đối đồng đều, tránh một dữ liệu nào đó quá nhiều hoặc quá ít
Mô hình mạng MLP đang sử dụng gồm 6 biến (không kể biến dự đoán): 3 biến định lƣợng và 3 biến định tính, số biến định tính càng nhiều càng cho thấy dữ liệu phù hợp với các mô hình máy học
Thang đo cho các biến định tính phải đƣợc thiết kế đầy đủ và hiệu quả theo đặc trƣng của từng lĩnh vực chuyên môn nghiên cứu Các công trình xây dựng nói chung cũng nhƣ công trình thủy lợi nói riêng, việc chọn thang đo quá ít hay quá nhiều có thể không phù hợp dẫn đến mất cân bằng dữ liệu, ở đây tác giả lấy thang đo 3 mức độ để xây dựng dữ liệu đầu vào, đảm bảo đƣợc tính tổng quan và độ tin cậy của đối tƣợng nghiên cứu
Mô tả thang đo định tính 3 mức độ:
Mức độ 1 2 3 Dựa vào tần suất cơn bão xuất hiện trong quá trình thi công để đánh giá
Mô tả Ảnh hưởng ít Ảnh hưởng trung bình Ảnh hưởng nhiều
II Điều kiện địa chất
Mức độ 1 2 3 Dựa vào hồ sơ địa chất phân loại
Mô tả Địa chất tốt Địa chất yếu Địa chất rất yếu
III Điều kiện vị trí công trình
HVTH: Nguyễn Minh Trí MSHV: 1770432
Mức độ 1 2 3 Dựa vào hồ sơ thiết kế có biện pháp thi công, tổng quan vị trí công trình để xếp loại
Mô tả Vị trí thi công thuận lợi
Vị trí thi công khó khăn
Vị trí thi công đặc biệt khó khăn
Thu thập dữ liệu
Tổng hợp thông số của các biến khảo sát trong mô hình MLP:
STT Nhân tố khảo sát Dạng Đơn vị
1 Thời gian thi công Numerica tháng
2 Chiều dài tuyến kênh Numerica m
3 Chiều rộng kênh BTCT chữ nhật Numerica m
4 Chiều cao kênh BTCT chữ nhật Numerica m
5 Điều kiện thời tiết Categorical 1-…….; 2 - …….;
6 Điều kiện về vị trí thi công Categorical 1-…….; 2 - …….;
7 Điều kiện địa chất Categorical 1-…….; 2 - …….;
Bảng 4.10 – Bảng tổng hợp thông số của các biến khảo sát trong mô hình MLP
Tác giả tiến hành thu thập dữ liệu của 137 gói thầu công trình kênh thủy lợi thi công hoàn thành từ năm 2015 đến năm 2020 trên địa bàn Thành phố Hồ Chí Minh
Dữ liệu thu thập đƣợc ghi lại đầy đủ theo bảng lấy mẫu (bảng dữ liệu đính kèm phụ lục)
HVTH: Nguyễn Minh Trí MSHV: 1770432
Kết luận chương
Chương 4 đã xây dựng được số nhân tố ảnh hưởng đến thời gian thi công xây dựng công trình thủy lợi chi tiết ở các mức độ và thu thập đƣợc dữ liệu hoàn chỉnh cho mô hình mạng MLP từ những các gói thầu thi công xây dựng trình Kênh thủy lợi BTCT chữ nhật trên địa bàn Thành phố Hồ Chí Minh
HVTH: Nguyễn Minh Trí MSHV: 1770432
XÂY DỰNG MÔ HÌNH MẠNG TRUYỀN THẲNG MLP
Đề xuất mạng MLP để dự đoán và các giai đoạn tham gia học của mạng
Mạng truyền thẳng MLP có kiến trúc với chiều rộng và chiều sâu rất đa dạng kết hợp với các liên kết phức tạp và nhiều thông số cho phép biểu diễn mối quan hệ phi tuyến tốt giữa đầu vào và đầu ra, do đó việc sử dụng mạng MLP để xây dựng, tính toán các dữ liệu liên quan đến công trình thủy lợi đƣợc đánh giá có mức độ nhiễu tương đối là một hướng tiếp cận hiệu quả Đặc trưng của mạng MLP gồm: Số lƣợng nơron (perceptron); Số lớp; Hàm kích hoạt; Hàm tổn thất và thuật toán tối ƣu
Số nơ ron lớp ẩn của mạng càng lớn, năng lực của mạng càng lớn, năng lực học cũng càng lớn, khả năng phù hợp quá mức (overfit) càng cao Để giảm khả năng quá trùng khớp, thường là giảm số nơ ron lớp ẩn Điều này có nghĩa là: Mỗi thông số cấu trúc, chủ yếu là mỗi trọng số là một tham số làm tăng khả năng của mạng Số trọng số quyết định các mức độ tự do mà mạng có thể khớp với dữ liệu
Do đó, để hạn chế mức tự do trên, cần giảm số trọng số, nghĩa là giới hạn số nơ ron lớp ẩn
Cho tới nay, lý thuyết MLP chƣa đƣa ra đƣợc một công thức hay thuật toán chính xác nào để xác định số nơ ron lớp ẩn tối ƣu cho mạng Thủ tục xác định số nơ ron lớp ẩn cho mạng vẫn đang đƣợc dùng là: Chọn mạng với số nơ ron lớp ẩn khác nhau, qua quá trình luyện bằng tập mẫu luyện, kiểm tra sai số Sai số nhỏ hơn có nghĩa là số nơ ron lớp ẩn kiểm tra đã tối ƣu Tuy nhiên, số nơ ron lớp ẩn ban đầu cần chọn để thử chƣa có cách nào xác định
HVTH: Nguyễn Minh Trí MSHV: 1770432
Abrahart và See (2000) cho rằng việc sử dụng các lớp ẩn lớn cũng có thể phản tác dụng vì quá nhiều tham số tự do sẽ khuyến khích giải pháp mạng phù hợp quá mức (overfit) với dữ liệu đào tạo và do đó làm giảm khả năng tổng quát hóa của sản phẩm cuối cùng
Hàm kích hoạt: Sử dụng hàm ReLu để truyền các nơron đầu ra của mỗi lớp – ƣu điểm hàm này cho tốc độ hội tụ rất nhanh
Hàm tổn thất : Sử dụng hàm MSE cho bài toán dự đoán 1 số thực
Hàm tối ưu : Sử dụng Adam cho việc hội tụ đầy đủ các trọng số trong quá trình học
Thông số mô hình MLP đƣợc tổng kết nhƣ sau:
STT Mô hình 1 Mô hình 2
Số nơ ron lớp 1 (input) 7 Số nơ ron lớp 1 (input) 7
Số nơ ron lớp ẩn 1 7 Số nơ ron lớp ẩn 1 7
Số nơ ron lớp ẩn 2 8 Số nơ ron lớp ẩn 2 8
Số nơ ron lớp ẩn 3 8 Số nơ ron lớp 4 (output) 1
Số nơ ron lớp ẩn 4 8
Số nơ ron lớp 6 (output) 1
4 Hàm kích hoạt ReLu Hàm kích hoạt ReLu
5 Hàm tổn thất MSE Hàm tổn thất MSE
Bảng 5.1 – Bảng tổng hợp thông số đầu vào mô hình MLP
HVTH: Nguyễn Minh Trí MSHV: 1770432
Dữ liệu thô đƣợc chia để huấn luyện (train) và kiểm tra (test) theo tỷ lệ 80:20 và có sử dụng thuật toán KS (Kennard stone) xem xét hiệu xuất đạt đƣợc của mô hình một cách tổng quát hóa trên các thuật toán huấn luyện rất mạnh của mạng MLP
5.1.2 Giai đoạn học của mô hình
Giai đoạn 1: Đánh giá sự phù hợp các mô hình khác nhau khi sử dụng dữ liệu huấn luyện và kiểm tra theo hai hình thức: (1) Khởi tạo ngẫu nhiên hai tập dữ liệu train và test – (2) Sử dụng thuật toán Kennard Stone về chọn đặc điểm dữ liệu cho hai tập dữ liệu
Từ tập dữ liệu đã chọn với thuật toán KS (Kennard stone) tìm cấu trúc mạng thích hợp hơn mang lại hiệu suất chấp nhận đƣợc
Từ cấu trúc mạng đã tìm ở giai đoạn 2 chạy lặp kiểm tra để tìm các nhân tố đặc trƣng có thể đại diện tốt cho mô hình MLP trong phạm vi nghiên cứu
HVTH: Nguyễn Minh Trí MSHV: 1770432
Hình 5.1 – Lưu đồ tổng quát các giai đoạn học của mô hình MLP
Giai đoạn 1: Đánh giá sự phù hợp các mô hình theo hai hình thức chia dữ liệu
Khái quát quy trình qua lưu đồ sau:
Chia ngẫu nhiên Chia Kennard Stone
2 mô hình MLP có số lớp khác nhau Đánh giá MSE, RMSE, MAPE, R 2
Mô hình đạt hiệu suất tốt theo KS
9 Mô hình MLP số nơ-ron thay đổi Đánh giá RMSE, MAPE, R 2
Mô hình đầy đủ đặc trƣng tốt nhất
Mô hình các trường hợp với đặc trƣng khác nhau Độ tương quan đặc trƣng với biến tổng
G iai đ oạ n 1 G iai đ oạ n 2 G iai đ oạ n 3
HVTH: Nguyễn Minh Trí MSHV: 1770432
Hình 5.2 – Lưu đồ đánh giá sự phù hợp các mô hình theo hai hình thức chia dữ liệu
5.2.1 Đặc trưng của dữ liệu:
Quá trình xây dựng mạng MLP đƣợc lập trình bằng ngôn ngữ PyThon (code chi tiết đính kèm phụ lục)
Mô hình MLP (2 mô hình) Đánh giá hiệu suất (MSE, RMSE, R 2 , MAPE)
Kiểm soát dữ liệu chia theo đặc trƣng dữ liệu
Dữ liệu chia theo ngẫu nhiên
HVTH: Nguyễn Minh Trí MSHV: 1770432
Hình 5.3 – Biểu đồ mô tả dữ liệu điều kiện thời tiết
Biểu đồ dữ liệu của thông số ảnh hưởng “Điều kiện thời tiết” khá đồng đều Tần suất xuất hiện của mức độ 3 - ảnh hưởng lớn nhất gây ra bởi yếu tố thời tiết đối với công trình thủy lợi là cao nhất
Hình 5.4 – Biểu đồ mô tả dữ liệu điều kiện địa chất
HVTH: Nguyễn Minh Trí MSHV: 1770432
Biểu đồ dữ liệu của thông số ảnh hưởng “Điều kiện địa chất” không lệch nhau nhiều Tần suất xuất hiện của mức độ 3 - ảnh hưởng cao nhất gây ra bởi yếu tố điều kiện địa chất đối với công trình thủy lợi là cao nhất
Hình 5.5 – Biểu đồ mô tả dữ liệu điều kiện vị trí công trình
Biểu đồ dữ liệu của thông số ảnh hưởng “Điều kiện vị trí công trình” khá đồng đều Tần suất xuất hiện của mức độ 3 - ảnh hưởng cao nhất do điều kiện vị trí không thuận lợi đối với công trình thủy lợi là cao nhất
Hình 5.6 – Biểu đồ mô tả dữ liệu chiều dài tuyến kênh
Chiều dài max truyến kênh – 2500m; Chiều dài min truyến kênh – 545m
HVTH: Nguyễn Minh Trí MSHV: 1770432
Hình 5.7 – Biểu đồ mô tả dữ liệu chiều rộng kênh BTCT chữ nhật
Chiều rộng max kênh BTCT chữ nhật – 14m; Chiều rộng min kênh BTCT chữ nhật – 0,8m
Hình 5.8 – Biểu đồ mô tả dữ liệu chiều cao kênh BTCT chữ nhật
Chiều cao max kênh BTCT chữ nhật –4m; Chiều cao min kênh BTCT chữ nhật – 0,9 m
Hình 5.9 – Biểu đồ mô tả dữ liệu thời gian thi công gói thầu kênh thủy lợi
HVTH: Nguyễn Minh Trí MSHV: 1770432
Thời gian thi công gói thầu xây dựng công trình thủy lợi cao nhất 26 tháng; Thời gian thi công gói thầu xây dựng công trình thủy lợi ngắn nhất 4 tháng
5.2.2 Kết quả mô hình huấn luyện với dữ liệu ngẫu nhiên
Hình 5.10 – Biểu đồ sai số tổn thất MSE (loss) của hai mô hình với dữ liệu chia ngẫu nhiên trên tập huấn luyện
Trong quá trình huấn luyện, mô hình 1 có 4 lớp ẩn hội tụ nhanh hơn mô hình 2 có 2 lớp ẩn
HVTH: Nguyễn Minh Trí MSHV: 1770432
Hình 5.11 – Biểu đồ RMSE của hai mô hình với dữ liệu chia ngẫu nhiên trên tập huấn luyện
Quá trình huấn luyện mô hình 1 có 4 lớp ẩn cho lỗi sai số bình phương RMSE (loss) giảm nhanh hơn mô hình 2 có 2 lớp ẩn, đến đợt ra mạng (epoch) lần thứ 22 thì 2 mô hình đạt xấp xỉ lỗi sai số bình phương
HVTH: Nguyễn Minh Trí MSHV: 1770432
Hình 5.12 – Biểu đồ sai số tổn thất MSE (loss) của hai mô hình với dữ liệu chia ngẫu nhiên trên tập kiểm tra
Tương tự ở tập kiểm tra mô hình 1 có 4 lớp ẩn hội tụ nhanh hơn mô hình 2 có
HVTH: Nguyễn Minh Trí MSHV: 1770432
Hình 5.13 – Biểu đồ RMSE của hai mô hình với dữ liệu chia ngẫu nhiên trên tập kiểm tra
Tương tự ở tập kiểm tra mô hình 1 có 4 lớp ẩn cho lỗi sai số bình phương RMSE (loss) giảm nhanh hơn mô hình 2 có 2 lớp ẩn, đến đợt ra mạng (epoch) lần thứ 21 thì 2 mô hình đạt xấp xỉ lỗi sai số bình phương RMSE
HVTH: Nguyễn Minh Trí MSHV: 1770432
Hình 5.14 – Biểu đồ sai số tổn thất MSE (loss) của mô hình 1 với dữ liệu chia ngẫu nhiên trên tập kiểm tra và tập huấn luyện
Trong cùng mô hình 1 có 4 lớp ẩn, độ lệch hàm tổn thất MSE (loss) giữa hai tập huấn luyện và kiểm tra gần nhƣ xấp xỉ và hội tụ đều chứng tỏ các mô hình huấn mạng MLP là phù hợp với dữ liệu, mô hình hội tụ chỉ sau 15 epoch
HVTH: Nguyễn Minh Trí MSHV: 1770432
Hình 5.15 – Biểu đồ RMSE của mô hình 1 với dữ liệu chia ngẫu nhiên trên tập kiểm tra và tập huấn luyện
Tương tự, trong cùng mô hình 1 có 4 lớp ẩn, độ lệch sai số bình phương giữa hai tập huấn luyện và kiểm tra gần nhƣ xấp xỉ chứng tỏ các mô hình huấn mạng MLP là phù hợp với dữ liệu, mô hình hội tụ chỉ sau 15 epoch Tuy nhiên hiệu suất sai số bình phương đạt được giữa hai tập huấn luyện và kiểm tra không ổn định từ giai đoạn hội tụ đến epoch 30
HVTH: Nguyễn Minh Trí MSHV: 1770432
Hình 5.16 – Biểu đồ sai số tổn thất MSE (loss) của mô hình 2 với dữ liệu chia ngẫu nhiên trên tập kiểm tra và tập huấn luyện
Trong cùng mô hình 2 có 2 lớp ẩn, độ lệch hàm tổn thất MSE (loss) giữa hai tập huấn luyện và kiểm tra gần nhƣ xấp xỉ và hội tụ đều chứng tỏ các mô hình huấn mạng MLP là phù hợp với dữ liệu, mô hình hội tụ sau 22 epoch
HVTH: Nguyễn Minh Trí MSHV: 1770432
Hình 5.17 – Biểu đồ RMSE của mô hình 2 với dữ liệu chia ngẫu nhiên trên tập kiểm tra và tập huấn luyện
Tương tự, trong cùng mô hình 2 có 2 lớp ẩn, độ lệch sai số bình phương giữa hai tập huấn luyện và kiểm tra gần nhƣ xấp xỉ chứng tỏ các mô hình huấn mạng MLP là phù hợp với dữ liệu, mô hình hội tụ sau 22 epoch Tuy nhiên hiệu suất sai số bình phương đạt được giữa hai tập huấn luyện và kiểm tra không ổn định từ giai đoạn hội tụ đến epoch 30
5.2.3 Kết quả mô hình huấn luyện với dữ liệu chia theo KS:
HVTH: Nguyễn Minh Trí MSHV: 1770432
Hình 5.18 – Biểu đồ sai số tổn thất MSE (loss) của 2 mô hình với dữ liệu chia theo KS trên tập huấn luyện
Trong quá trình huấn luyện, mô hình 1 có 4 lớp ẩn hội tụ nhanh hơn mô hình
HVTH: Nguyễn Minh Trí MSHV: 1770432
Hình 5.19 – Biểu đồ RMSE của 2 mô hìnhvới dữ liệu chia theo KS trên tập huấn luyện
Quá trình huấn luyện mô hình 1 có 4 lớp ẩn cho lỗi sai số bình phương RMSE (loss) giảm nhanh hơn mô hình 2 có 2 lớp ẩn, đến đợt ra mạng (epoch) lần thứ 22 thì 2 mô hình đạt xấp xỉ lỗi sai số bình phương RMSE
HVTH: Nguyễn Minh Trí MSHV: 1770432
Hình 5.20 – Biểu đồ sai số tổn thất MSE (loss) của 2 mô hình với dữ liệu chia theo KS trên tập kiểm tra
Tương tự ở tập kiểm tra mô hình 1 có 4 lớp ẩn hội tụ nhanh hơn mô hình 2 có
HVTH: Nguyễn Minh Trí MSHV: 1770432
Hình 5.21 – Biểu đồ RMSE của 2 mô hình với dữ liệu chia theo KS trên tập kiểm tra
Tương tự ở tập kiểm tra mô hình 1 có 4 lớp ẩn cho lỗi sai số bình phương RMSE (loss) giảm nhanh hơn mô hình 2 có 2 lớp ẩn, đến đợt ra mạng (epoch) lần thứ 21 thì 2 mô hình đạt xấp xỉ lỗi sai số bình phương RMSE
HVTH: Nguyễn Minh Trí MSHV: 1770432
Hình 5.22 – Biểu đồ sai số tổn thất MSE (loss) của mô hình 1 với dữ liệu chia theo KS trên tập kiểm tra và tập huấn luyện
Trong cùng mô hình 1 có 4 lớp ẩn, độ lệch hàm tổn thất MSE (loss) giữa hai tập huấn luyện và kiểm tra gần nhƣ hội tụ đều và hiệu suất đạt đƣợc ở tập kiểm tra rất khả thi khi dùng thuật toán KS, mô hình hội tụ chỉ sau 15 epoch
HVTH: Nguyễn Minh Trí MSHV: 1770432
Hình 5.23 – Biểu đồ RMSE của mô hình 1 với dữ liệu chia theo KS trên tập kiểm tra và tập huấn luyện
Tương tự, trong cùng mô hình 1 có 4 lớp ẩn, độ lệch sai số bình phương giữa hai tập huấn luyện gần nhƣ hội tụ đều và hiệu suất rất khả thi đạt đƣợc trên tập kiểm tra, mô hình hội tụ chỉ sau 15 epoch Hiệu suất sai số bình phương đạt được giữa hai tập huấn luyện và kiểm tra không ổn định từ giai đoạn hội tụ đến epoch 19 Sau đó, mô hình cho hiệu suất tốt hơn và ổn định trên tập kiểm tra, cho thấy thuật toán
KS đã chia dữ liệu toàn diện hơn trên hai tập dữ liệu, theo đó các dữ liệu dùng để huấn luyện đều có đặc điểm khác biệt so với tập dữ liệu (unseen) kiểm tra còn lại, chính vì thế mô hình đạt độ ổn định và tổng quát hóa cao hơn
HVTH: Nguyễn Minh Trí MSHV: 1770432
Hình 5.24 – Biểu đồ sai số tổn thất MSE (loss) của mô hình 2 với dữ liệu chia theo KS trên tập kiểm tra và tập huấn luyện
Giai đoạn 2: Từ tập dữ liệu đã chọn với thuật toán KS (Kennard stone) tìm cấu trúc mạng thích hợp hơn mang lại hiệu suất chấp nhận đƣợc
Khái quát quy trình qua lưu đồ sau:
Hình 5.26 – Lưu đồ tìm cấu trúc mạng thích hợp hơn mang lại hiệu suất chấp nhận đƣợc từ tập dữ liệu đã chọn với thuật toán KS Để xác định cấu trúc mạng mới cho kết quả tốt hơn một cách hiệu quả, ta chỉ thay đổi số nơ ron trên lớp đầu vào vì mạng MLP 4 lớp ẩn đủ phức tạp cho phép biểu diễn mối quan hệ phi tuyến của dữ liệu
Các mô hình tiến hành thử nghiệm đƣợc tổng hợp nhƣ sau:
Mô hình MLP 4 lớp ẩn – nơ ron thay đổi Đánh giá hiệu suất (RMSE, R 2 , MAPE)
Thay đổi số nơ ron trên lớp ẩn đầu tiên
HVTH: Nguyễn Minh Trí MSHV: 1770432
Số nơ ron lớp đầu vào
Số nơ ron lớp ẩn đầu tiên
Số nơ ron trên 3 lớp ẩn giữa
Số nơ ron lớp đầu ra 1
Bảng 5.3 – bảng tổng hợp các mô hình đề xuất với thuật toán KS
Kết quả thực hiện trên các mô hình giai đoạn 2
Đánh giá chỉ số RMSE
Hình 5.27 – Biểu đồ chỉ số RMSE các mô hình đề xuất với thuật toán KS Nhận xét: Kết quả cho thấy Mô hình 4 có chỉ số RMSE thấp nhất 1,26
HVTH: Nguyễn Minh Trí MSHV: 1770432
Hình 5.28 – Biểu đồ chỉ số R 2 các mô hình đề xuất với thuật toán KS
Nhận xét: Kết quả cho thấy Mô hình 4 có hiệu suất R 2 cao nhất 86%
Đánh giá chỉ số MAPE
Hình 5.29 – Biểu đồ chỉ số MAPE các mô hình đề xuất với thuật toán KS
HVTH: Nguyễn Minh Trí MSHV: 1770432
Nhận xét: Kết quả cho thấy Mô hình 4, Mô hình 5 có MAPE thấp nhất 11%
- Sai số trung bình tuyệt đối rất khả quan thể hiện mô hình dự đoán có độ chính xác cao
Tổng kết trị số hiệu suất đạt được ở các mô hình như sau:
Bảng 5.4 – bảng tổng hợp hiệu suất các mô hình đề xuất với thuật toán KS Nhận xét: Mô hình 4 với 23 nơ ron trên lớp ẩn đầu tiên cho kết quả sau cùng tốt nhất, điều này cũng phản ánh khá chính xác độ tương thích giữa mô hình MLP và dữ liệu với số lƣợng nơ ron không quá nhiều hoặc quá ít
Kiểm tra lại sự làm việc của mô hình 4 qua hai tập dữ liệu:
Hình 5.30 – Biểu đồ RMSE mô hình 4 với thuật toán KS trên tập huấn luyện và tập kiểm tra
HVTH: Nguyễn Minh Trí MSHV: 1770432
Nhận xét: Mô hình 4 đã chọn cho thấy sự thích nghi cao với dữ liệu qua việc mô hình đạt hiệu suất chỉ số sai số bình phương rất tốt trên tập kiểm tra và cả trên hai tập dữ liệu có xu hướng hội tụ đều.
Giai đoạn 3: Từ cấu trúc mạng đã tìm ở giai đoạn 2 chạy lặp kiểm tra để tìm các nhân tố ảnh hưởng đặc trưng có thể đại diện cho mô hình MLP trong phạm vi nghiên cứu
Khái quát quy trình qua lưu đồ sau:
Hình 5.31 – Lưu đồ tìm các nhân tố ảnh hưởng đặc trưng có thể đại diện cho mô hình MLP Nhƣ đã biết tìm ra các yếu tố đại diện cho phân phối của tổng thể là một phần trong định lý giới hạn trung tâm, các yếu tố đại diện có khả năng tương quan với nhau mà trong đó một hoặc nhiều yếu tố không có tác động lên tổng thể gây ra nhiễu Loại bỏ các nhiễu trong dữ liệu, tìm ra các yếu tố đại diện chính góp phần
Mô hình MLP đã xác định giai đoạn 2
Kiểm tra các trường hợp có thể thay thế với
6 ảnh hưởng đặc trưng ban đầu
Dựa vào mức độ tương quan với biến tổng để chỉ ra các trường hợp thẩm định Đánh giá hiệu suất (RMSE, R2, MAPE)
Mô hình với đặc trƣng mới
HVTH: Nguyễn Minh Trí MSHV: 1770432 nâng cao chất lƣợng trong các giải pháp xây dựng cơ sở dữ liệu chuẩn hóa và giảm áp lực cho việc thiết kế dữ liệu Đối với việc tìm kiếm mô hình có yếu tố đặc trƣng đại diện cao một cách tổng quát hóa có thể xây dựng bằng phương pháp thiết kế quy hoạch thực nghiệm đầy đủ các tổ hợp, việc xây dựng bằng phương pháp này gây tốn kém tài nguyên và có thể không hiệu quả trong đánh giá do xu hướng thay đổi thông tin phản ánh rất ít trong suốt quá trình quy hoạch Tuy nhiên với thuận lợi khi mô hình MLP đến giai đoạn này đã cho kết quả gần như rất tốt, do đó có thể quy hoạch các trường hợp để thẩm định, đánh giá dựa trên mối quan hệ tương quan giữa các đặc trưng với biến tổng
Xuất bản đồ ma trận biểu diễn tương quan của các đặc trưng:
HVTH: Nguyễn Minh Trí MSHV: 1770432
Hình 5.32 – Biểu đồ ma trận mối quan hệ tương quan của các đặc trưng
HVTH: Nguyễn Minh Trí MSHV: 1770432
Hình 5.33 – Biểu đồ scatter plot mối quan hệ tương quan của các đặc trưng Nhận xét: Biểu đồ cho thấy mức độ tương quan các đặc trưng phân thành 2 nhóm:
- Nhóm A – có tương quan biến tổng (thời gian thi công): chiều dài tuyến kênh, chiều rộng kênh BTCT chữ nhật, chiều cao kênh BTCT chữ nhật, điều kiện thời tiết
- Nhóm B – không tương quan biến tổng: Điều kiện địa chất, vị trí thi công công trình
HVTH: Nguyễn Minh Trí MSHV: 1770432 Đặc trưng Ký hiệu Xếp hạng mức tương quan
Chiều cao kênh BTCT chữ nhật
Chiều rộng kênh BTCT chữ nhật
X3 3 Điều kiện thời tiết X4 4 Điều kiện địa chất X5 5 vị trí thi công công trình X6 6
Bảng 5.5 – Bảng phân nhóm tương quan của các đặc trưng
Từ đó phân thành 2 nhóm gồm: nhóm tương quan với biến tổng và nhóm kết hợp giữa tương quan và không tương quan với biến tổng Trong mỗi nhóm sẽ xác định các trường hợp để thẩm định đánh giá quy hoạch thực nghiệm
Các trường hợp thẩm định quy hoạch thực nghiệm:
NHÓM ĐẶC TRƯNG TƯƠNG QUAN BIẾN TỔNG (NHÓM 1)
NHÓM ĐẶC TRƯNG TƯƠNG QUAN VÀ KHÔNG TƯƠNG QUAN BIẾN TỔNG (NHÓM 2)
HVTH: Nguyễn Minh Trí MSHV: 1770432
Bảng 5.6 – Bảng mô tả các trường hợp quy hoạch của các đặc trưng
Kết quả tính hiệu suất các trường hợp:
NHÓM 1 TH1 TH2 TH3 TH4
Bảng 5.7 – Bảng kết quả tính hiệu suất nhóm 1
NHÓM 2 TH5 TH6 TH7 TH8 TH9 TH10
Bảng 5.8 – Bảng kết quả tính hiệu suất nhóm 2 Nhận xét: Trường hợp 1 cho mô hình hiệu suất tốt nhất với 4 đặc trưng tương quan mạnh nhất kết hợp Các trường hợp khác cho kết quả chênh lệch không đáng kể và độ sai số trung bình tuyệt đối tương đối thấp thể hiện kết quả dự đoán tốt Do đó tùy vào đặc điểm thuận tiện của các đặc trƣng trong khảo sát và tính chất riêng của từng loại công trình mà có thể chọn các đặc trƣng sao cho phù hợp Ở đây tác giả chọn 3 đặc trƣng về quy mô công trình (TH2) để sử dụng do độ chính xác trong quá trình thu thập số liệu các hồ sơ giai đoạn thiết kế mang lại đáng tin cậy
Kiểm tra lại sự làm việc của mô hình TH2 qua hai tập dữ liệu:
HVTH: Nguyễn Minh Trí MSHV: 1770432
Hình 5.34 – Biểu đồ RMSE của mô hình TH2 trên tập huấn luyện và tập kiểm tra
Nhận xét: Mô hình đã chọn cho thấy sự thích nghi cao với dữ liệu qua việc mô hình đạt hiệu suất chỉ số sai số bình phương rất tốt trên tập kiểm tra và cả trên hai tập dữ liệu có xu hướng hội tụ đều.
Ứng dụng mô hình vào trường hợp thực tế
Mô hình tốt nhất đƣợc sử dụng để đánh giá khả năng làm việc trên 1 dự án thủy lợi cụ thể đã hoàn thành gần đây ở Huyện Củ Chi
HVTH: Nguyễn Minh Trí MSHV: 1770432
Hình 5.35 – Kênh N46 – Dự án kênh Đông Củ Chi
Tên dự án : “ Nâng cấp hệ thống Thủy lợi Kênh Đông Củ Chi”
Chủ đầu tư : Công ty TNHH MTV Quản lý khai thác Dịch Vụ Thủy Lợi Đơn vị Quản lý dự án : Ban Quản lý dự án đầu tƣ xây dựng các công trình nông nghiệp và phát triển nông thôn Tp.HCM
Nhiệm vụ dự án : Nâng cấp trục kênh Chính Đông – N46 và các kênh cấp I đảm bảo năng lực cấp nước theo nhiệm vụ mới
Tổng mức đầu tư : 577.000.000.000 đồng
HVTH: Nguyễn Minh Trí MSHV: 1770432
Nhƣ đã nêu ở trên, mô hình phù hợp sau cùng chọn để thử nghiệm bao gồm các thông số về quy mô của công trình kênh thủy lợi do tính tin cậy của các thông số này mang lại trong các hồ sơ thiết kế của dự án Cấu trúc của mô hình sử dụng mạng MLP có số nơ ron trên mỗi lớp là 7-23-8-8-8-1 với thuật toán về đặc trƣng dữ liệu Kennard Stone Áp dụng thử nghiệm với các gói thầu mới có quy mô khác nhau đối với công trình kênh thủy lợi điển hình xây dựng tại thời điểm gần đây
Các gói thầu thi công sử dụng thử nghiệm, đánh giá mô hình tại dự án gồm:
Gói thầu 1: Xây dựng kênh N46 có giá trị 115.781.302.596 đồng, với quy mô sau:
Chiều rộng kênh BTCT chữ nhật (m)
Chiều cao kênh BTCT chữ nhật (m)
Thời gian thi công (tháng)
Gói thầu 2: Xây dựng kênh N25 có giá trị 17.467.286.421 đồng, với quy mô sau:
Chiều rộng kênh BTCT chữ nhật (m)
Chiều cao kênh BTCT chữ nhật (m)
Thời gian thi công (tháng)
Gói thầu 3: Xây dựng kênh T25 có giá trị 8.366.238.497 đồng, với quy mô sau:
Chiều rộng kênh BTCT chữ nhật (m)
Chiều cao kênh BTCT chữ nhật (m)
Thời gian thi công (tháng)
Tổng hợp kết quả tính toán với mô hình MLP đã chọn:
HVTH: Nguyễn Minh Trí MSHV: 1770432
Gói thầu Chiều dài tuyến kênh (m)
Chiều rộng kênh BTCT chữ nhật (m)
Chiều cao kênh BTCT chữ nhật (m)
Thời gian thi công thực tế (tháng)
Thời gian thi công tính toán (tháng)
Bảng 5.9 – Bảng kết tổng hợp kết quả tính toán các gói thầu với mô hình
Nhận xét: Từ đó cho thấy mô hình chọn thử nghiệm trên các gói thầu quy mô khác nhau có kết quả ƣớc lƣợng sai khác không nhiều (sai số khoảng 13%) so với điều kiện thực tế thi công Do đó, mô hình MLP đủ độ tin cậy và phù hợp để ƣớc lƣợng thời gian thi công xây dựng các công trình Thủy lợi Kênh BTCT chữ nhật trên địa bàn Tp HCM
Thực tế thời gian thi công xây dựng công trình có thể dao động trong phạm vi cho phép nào đó khả thi để có thể áp dụng linh hoạt vào công tác quản lý dự án cụ thể nhƣ: phân phối thời gian thực hiện hợp lý các gói thầu trong tiến độ tổng của dự án, cũng nhƣ ấn định các mốc thời gian hoàn thành theo kế hoạch vốn Tuy nhiên, mô hình MLP chỉ thể hiện kết quả ở mức ƣớc lƣợng điểm Do đó để đánh giá khoảng dao động về thời gian thi công cần xây dựng phương pháp tính ước lượng khoảng từ mô hình MLP
Phương pháp ước lượng khoảng có thể được xây dựng trực tiếp trên chính mô hình MLP hoặc gián tiếp bằng phương pháp bootstrap lấy mẫu có hoàn lại từ những điểm giá trị ước lượng của kết quả mô hình Phương pháp trực tiếp, ước lƣợng khoảng tính toán theo một phân phối cụ thể xác định từ kết quả những sai số dự đoán trong quá trình kiểm tra mô hình Ở phương pháp bootstrap cho kết quả đồng đều và tổng quát hơn dựa vào số lƣợng lấy mẫu có hoàn lại từ những điểm giá trị ước lượng của kết quả mô hình Do đó, tác giả sử dụng phương pháp bootstrap để xác định khoảng ƣớc lƣợng của mô hình
HVTH: Nguyễn Minh Trí MSHV: 1770432
Khoảng ƣớc lƣợng của mô hình đƣợc xác định theo công thức sau:
Trong đó: N –Tổng số mẫu, – Mức ý nghĩa
Phương pháp bootstrap chọn 20 điểm trá trị ước lượng của kết quả mô hình từ đó phát triển thành 200 bộ dữ liệu Sử dụng Stata để thực hiện bootstrap kết quả tổng hợp theo bảng sau:
Chiều rộng kênh BTCT chữ nhật (m)
Chiều cao kênh BTCT chữ nhật (m)
Thời gian thi công thực tế (tháng)
Thời gian thi công dao động (tháng)
Bảng 5.10 – Bảng kết tổng hợp kết quả tính toán các gói thầu với mô hình
MLP thử nghiệm với phương pháp bootstrap
Nhận xét: Có thể nhận thấy mức độ dao động thời gian thi công cho kết quả không lớn, thời gian thi công ƣớc lƣợng tối đa cho kết quả gần và nhỏ hơn so với thời gian thi công thực tế và công trình có thể đẩy nhanh tiến độ hoàn thành sớm tối đa 1 tháng với chất lƣợng xây dựng không đổi.
Kết luận chương
Chương 5 đã xây dựng được mô hình mạng MLP hoàn chỉnh có kiến trúc 6 lớp gồm 4 lớp ẩn, số nơ ron tương ứng trên mỗi lớp 7-23-8-8-8-1 cho hiệu suất tốt khi cùng làm việc với thuật toán Kennard Stone về chọn đặc trƣng dữ liệu, kết quả thử nghiệm mô hình trên dự án thực tế có sai số tương đối nhỏ MAPE đạt 13%, cho thấy mô hình đáng tin cậy để ƣớc lƣợng thời gian thi công xây dựng các công trình Thủy lợi Kênh BTCT chữ nhật trên địa bàn Tp HCM
HVTH: Nguyễn Minh Trí MSHV: 1770432