Nghiên cứu xây dựng mô hình sử dụng dụng thuật toán trí tuệ nhân tạo để ước lượng rác thải xây dựng trong các công trình dân dụng.. Áp dụng và xây dựng quy trình sử dụng mô hình thuật to
TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU
Một số nghiên cứu trước đây
Để bắt kịp cùng xu hướng trong nền công nghiệp lần thứ tư thường được gọi là công nghiệp 4.0, những chủ đề về áp dụng công nghệ thông tin và ứng dụng tin học trong ngành xây dựng được một số nhà nghiên cứu quan tâm nhiều hơn và thúc đẩy ứng dụng ngày còn nhiều Những nhà nghiên cứu về các vấn đề liên quan đến ngành xây dựng trong nước và nước ngoài đã sử dụng các mô hình sử dụng những thuật toán tối ưu, trí tuệ nhân tạo (AI) áp dụng vào ngành xây dựng Trong đó có nhiều nghiên cứu liên quan đến lĩnh vực ước lượng và quản lý rác thải Sử dụng thuật toán trí tuệ nhân tạo với ưu điểm như: thời gian tính toán nhanh, độ chính xác cao, ngoài ra có một số nhược điểm như: cần tập hợp một số dữ liệu trong thời gian dài với số lượng dữ liệu lớn Các tác giả đã nghiên cứu nhiều bằng nhiều phương pháp và nhìn vấn đề theo nhiều chiều hướng khác nhau để đưa ra các cách giải quyết và đề xuất những giải pháp tốt nhất có thể
2.1.1Các nghiên cứu nước ngoài
Có nhiều đề tài nghiên cứu nước ngoài và đề cập đến dự đoán về lượng rác thải xây dựng, nhưng chủ yếu có thể phân thành năm loại chính: (i) phương pháp thống kê mô tả[14]; (ii)phân tích hồi quy tuyến tính của Denafas và cộng sự[15]; (iii) mô hình dòng nguyên liệu của Liu và cộng sự [16]; (iiii) phân tích chuỗi thời gian Xu, Lilai và cộng sự[17]; (iiiii) các mô hình trí tuệ nhân tạo của Abbasi và cộng sự[18, 19] Mỗi phương pháp đều có những điểm mạnh của nó và hạn chế riêng của mỗi phương pháp Trong đó phương pháp hồi quy đã được cải tiến như một phương pháp ước tính số lượng và chi phí xử lý rác thải xây dựng và được cho là một trong số những mô hình rất hiệu quả trong các dự án xây dựng để phân tích tiền khả thi về kinh tế ở giai đoạn đầu[20-22], nhưng phương pháp hồi quy vẫn có một số hạn chế như thiếu cách tiếp cận cụ thể để lựa chọn mô hình dữ liệu lịch sử phù hợp nhất khi dự đoán chi phí xây dựng[22] Ngoài ra, các biến đầu vào còn ảnh hưởng đến cách ước lượng, như vậy phải được xem xét trước và rất khó quản lý một số lượng lớn các biến[23] Các phương pháp thống kê mô tả thông thường để dự báo lượng chất thải rắn sinh hoạt thường sử dụng mức tăng dân số và lượng chất thải bình quân đầu người làm yếu tố dự báo chính[24], tuy nhiên, phương pháp này không còn hiệu quả do tính chất động của quá trình phát sinh chất thải[25] Các nghiên cứu gần đây những mô hình trí tuệ nhân tạo để ước lượng khối lượng và chi phí trong lĩnh vực xây dựng như mô hình như máy vectơ hỗ trợ (SVM), mô hình mạng lưới nơ ron thần kinh nhân tạo (ANN) và mô hình hệ thống suy luận mờ thần kinh thích ứng (ANFIS), những mô hình này đã trở nên dần phổ biến do sự phát triển của công nghệ AI và cải thiện đi sự hạn chế của những phương pháp tính toán thông thường
Chẳng hạn như mô hình máy học sử dụng máy vectơ hỗ trợ (SVM) đã được sử dụng để ước tính chi phí vì hiệu suất cao và khả năng tự học của nó[21] Tuy nhiên, SVM yêu cầu một phương pháp thử và sai để xác định cả chức năng cốt lõi thích hợp và các tham số liên quan[26] Mô hình ANN, dùng để tái hiện lại quá trình học tập và bắt chước các hoạt động của não bộ, mô hình đã được ứng dụng cũng khá phổ biến để ước tính chi phí trong lĩnh vực đầu tư xây dựng[23] Một số đề tài nghiên cứu trước đây đã mô tả ANN vượt trội hơn SVM trong việc ước tính số lượng và chi phí xây dựng[27] Một mô hình khác là mô hình thuật toán lan truyền ngược(BP) chính là một trong những thuật toán ANN phổ biến nhất, cung cấp đào tạo về cài đặt điều chỉnh tham số cho ANN BP không có một lý thuyết xác định rõ ràng cho việc tìm kiếm các cài đặt tham số phù hợp Các thông số được xác định bằng cách thử và sai, cũng như theo kinh nghiệm, điều này dẫn đến rời rạc và mất nhiều thời gian [11] Dongoun Lee cùng nhóm cộng sự[11] đề xuất phương pháp ước lượng rác thải xây dựng của các tòa nhà khu dân cư ở Hàn Quốc, nghiên cứu đề xuất một tối ưu hóa mạng ANN và dùng thuật toán tối ưu đàn kiến (ACO) điều chỉ thông số để ước lượng rác thải xây dựng với các thông số đầu vào số lượng tòa nhà, diện tích sàn, diện tích đất xây dựng, năm xây dựng, năm phá hủy
Mohamed Abdallah cùng nhóm cộng sự[28] nghiên cứu xác định các mô hình
AI phù hợp nhất nhằm mục đích quản lý những chất thải rắn điển hình như mô hình mạng thần kinh nhân tạo (ANN), máy vectơ hỗ trợ (SVM), hồi quy tuyến tính (LR), cây quyết định (DT) và thuật toán di truyền (GA)
Qua những tìm hiểu và sưu tầm thì đã tổng hợp được một số nghiên cứu nước ngoài có liên quan đến việc áp dụng trí tuệ nhân tạo bằng nhiều phương pháp khác nhau để ước lượng và quản lý rác thải (Bảng 2.1)
Bảng 2.1: Một số nghiên cứu nước ngoài áp dụng trí tuệ nhân tạo hay những liên quan đến trí tuệ nhân tạo để quản lý rác thải
STT Tên nghiên cứu Tác giả Năm Mô tả
Estimation of construction waste generation and management in Thailand[29]
Nghiên cứu này xem xét việc phát sinh và quản lý chất thải xây dựng ở Thái Lan Người ta ước tính rằng từ năm 2002 đến 2005, trung bình 1,1 triệu tấn chất thải xây dựng được tạo ra mỗi năm ở Thái Lan
Bằng phương pháp ước lượng từ cơ sở dữ liệu của giấy phép xây dựng như diện tích sàn, loại công trình
Web-based construction waste estimation system for building construction projects[30]
Yashuai Li, Xue qing Zhang 2013
Bài báo này đề xuất hệ thống ước tính chất thải xây dựng dựa trên web (WCWES) cho hoạt động xây dựng công trình
Kết hợp bóc tách khối lượng vật liệu, phân loại vật liệu, tỷ lệ chuyển đổi vật liệu, mức độ lãng phí vật
STT Tên nghiên cứu Tác giả Năm Mô tả liệu và nguyên tắc cân bằng khối lượng
Estimation of building-related construction and demolition waste in Shanghai[31]
Tao Ding, Jianz huang Xiao 2014
Một phương pháp được đề xuất để ước tính số lượng và thành phần chất thải xây dựng và phá dỡ ở một khu vực đang phát triển nhanh như Thượng Hải, Trung Quốc bằng 2 phương pháp: Phương pháp 1: Cân bằng nguyên liệu phân tích Nó tính toán lượng vật liệu được đưa vào sử dụng tức là chất thải phá dỡ
Phương pháp 2: Dựa trên về một số phép đo của công trình hoặc hoạt động phá dỡ mức độ trong một khu vực (theo diện tích của công trình) và mức trung bình
Estimation of the annual production and composition of
Fernando Martín ez và cộng sự 2009
Bài báo trình bày: xây dựng bền vững là việc quản lý rác thải xây dựng và xây dựng chiến lược quy hoạch công nhằm mục đích quản lý rác chất thải xây dựng Quy trình được ước tính từ dữ liệu có sẵn trong
STT Tên nghiên cứu Tác giả Năm Mô tả những năm gần đây, cũng như thông tin về khối lượng của các tòa nhà cũ phá dỡ trong khu vực
Estimation of construction and demolition waste using waste generation rates in Chennai,
VG Ram and Satyanarayana N Kalidindi
Bài báo trình bày ước tính lượng phát sinh chất thải xây dựng và phá hủy là cần thiết để nâng cao nhận thức về dòng chất thải rắn này trong cộng đồng các cơ quan chính phủ ở Ấn Độ Ước lượng bằng phương pháp phân tích hồi quy sử dụng dữ liệu chất thải từ 45 nghiên cứu trường hợp
Artificial intelligence applications in solid waste management:
Mohamed Abdallah và cộng sự
Bài báo trình bày sử dụng kỹ thuật trí tuệ nhân tạo (AI) trong việc đưa ra các phương pháp tính toán thay thế để giải quyết các vấn đề về quản lý chất thải rắn
Dongoun Lee , Seungho Kim and Sangyong Kim
Trình bày ước tính chính xác lượng chất thải xây dựng là yếu tố then chốt
STT Tên nghiên cứu Tác giả Năm Mô tả
Optimization[11] dẫn đến thành công của một dự án
Mô hình ước tính kết hợp để dự đoán số lượng và chi phí của chất thải trong giai đoạn đầu xây dựng
Mô hình lai được đề xuất sử dụng mạng nơ-ron nhân tạo (ANN) và tối ưu hóa đàn kiến (ACO) Nó dự kiến sẽ cung cấp một ước tính chất thải chính xác bằng cách áp dụng dữ liệu lịch sử từ các tòa nhà dân cư nhiều gia đình
Hongqin Fan; and Guiwen Liu
Bài báo trình bày ước lượng rác thải xây dựng bằng sử dụng mô hình GEP với những thông số đầu vào diện tích sàn xây dựng Kết quả và phát hiện thu được từ nghiên cứu này cho thấy rằng GEP là một mô hình hiệu quả để dự đoán phát sinh chất thải, với sai số dự báo trung bình thấp hơn mô hình tuyến tính và
STT Tên nghiên cứu Tác giả Năm Mô tả mạng lưới thần kinh nhân tạo
Methodology for upstream estimation of construction waste for new building projects[35]
Patrick T.I Lam , Ann T.W Yu, Zezho u Wu , Chi Sun Poon
Bài báo trình bày phương pháp dự đoán lượng rác thải xây dựng vào thời kì đầu của dự án thông qua định mức dự toán của công trình từ đó đưa ra những số liệu chất thải sau khi phá dỡ
Estimation of construction waste composition based on bulk density: A big data-probability
Liang Yuan, Weisheng Lu, Fan Xue
Bài báo trình bày phương pháp dự báo ước lượng rác thải bằng mô hình dữ liệu lớn BD-P mô hình được tính toán ở Hong Kong
Estimating construction waste generation in the Greater
Bay Area, China using machine learning[37]
Weisheng Lu, Jinfeng Lou, Chris Webster, Fan Xue, Zhikang Bao, Bin Chi
Các kỹ thuật trí tuệ nhân tạo (AI) dùng trong mô hình ước lượng rác thải xây dựng trong các công trình dân dụng
thải xây dựng trong các công trình dân dụng Đối với mô hình ước lượng rác thải xây dựng trong các công trình dân dụng các kỹ thuật trí tuệ nhân tạo (AI) chủ yếu là kết hợp các bộ dữ liệu được cách huyến luyện (học tập) của các thuật toán sau đó được xử lý bằng cách lặp đi lặp lại một cách thông minh để học hỏi các đặt tính của dữ liệu mẫu, sau các vòng lặp sẽ tự kiểm tra kết quả và đưa ra kết quả tốt nhất để giải quyết những vấn đề cụ thể Nên chọn lọc những thuật toán phù hợp với dữ liệu Đối với mọi bài toán cơ bản của thuật toán trí tuệ nhân tạo cụ thể sẽ có quy trình như sau:
- Chuẩn bị dữ liệu (Dataset preparation)
- Chọn mô hình (Selection model)
- Xác nhận huấn luyện (Training validation)
- Thử nghiệm mô hình (Test the model) Ứng dụng của các mô hình sử dụng thuật toán trí tuệ nhân tạo (Artificial Intelligence):
- Dự đoán giá cả, sản lượng…
Biều đồ 2.1: Quy trình huấn luyện mô hình thuật toán trí tuệ nhân tạo Đối với những bài toán ước lượng, quản lý, tối ưu hóa quá trình sản xuất, thường dùng một nhánh của trí tuệ nhân tạo đó là công nghệ máy học (Machine Learning) để giải quyết các vấn đề thông qua sử dụng các phương pháp thống kê và dùng các thuật toán phân loại và khám quá một cách chi tiết của dữ liệu
Máy học dựa trên ý tưởng từ một chương trình máy tính có thể học từ dữ liệu, định rõ các mẫu và rút ra lựa chọn với sự can thiệp ít nhất đến từ con người Khái niệm học máy bắt nguồn từ nghiên cứu về AI và thống kê
Trong những năm 1950 và 1960, các nhà khoa học như Frank Rosenblatt và nhóm các nhà nghiên cứu tại Hội nghị Dartmouth đã đề xuất khái niệm về một loại máy có thể học hỏi kinh nghiệm Trong những năm 1980 và 1990, sự phát triển của phần cứng máy tính tiên tiến hơn và lượng dữ liệu lớn ngày càng sẵn có đã dẫn đến sự phát triển của lĩnh vực máy học
Phương pháp máy học có ba loại chính:
Chuẩn bị dữ liệu Chọn mô hình
Xác nhận huấn luyện nghiệm Thử mô hình
(i) Máy học có giám sát: là nhóm các thuật toán sử dụng các dữ liệu được gắn nhãn để huấn luyện nhằm mục đích mô hình hóa tìm rac các mối tương quan giữa các biến đầu vào của mô hình và biến đầu ra đầu ra của mô hình và đưa dự đoán ước lượng đầu ra của dữ liệu mới trên cơ sở của mối quan hệ liên quan giữa các biến đầu vào và đầu ra của dữ liệu được gắn nhãn
(ii) Máy học không giám sát: là nhóm thuật toán sử dụng các thuật toán để phân tích các dữ liệu hoặc các cụm dữ liệu không được gắn nhãn, các thuật toán tự nhận biết các mẫu và dữ liệu bị ẩn trong các đặt tính mà không cần sự trợ giúp, can thiệp của con người
(iii) Học tập bán giám sát: là sự kết hợp giữa 2 cách học, là giám sát và học không giám sát để sử dụng các ưu điểm của từng loại trong trường hợp không đủ dữ liệu
Có nhiều sự phân vân lựa chọn các mô hình học máy, làm thế nào để sử dụng được mô hình phù hợp và phát huy hết tính năng của mô hình để đưa ra mục tiêu kết quả tốt nhất đo là một điều cần được giải quyết Để trả lời cho truy vấn này sẽ phụ thuộc vào nhiều yếu tố khác nhau, gồm:
Kích cỡ, chất lượng và thuộc tính của dữ liệu;
Tính cấp thiết của nhiệm vụ;
Mục đích sau cùng với dữ liệu
Với mục tiêu nghiên cứu được nêu ở luận văn này là ước lượng chính xác rác thải xây dựng của các công trình dân dụng Chính vì vậy, luận văn tiến hành xây dựng mô hình học máy có giám sát như (Biều đồ 2.1), dựa trên vấn đề mang tính hồi quy trong việc ước lượng kết quả gần nhất và có độ chính xác cao so với các giá trị đã được ghi nhận trong thực tế
Biểu đồ 2.2: Các mô hình máy học được áp dụng trong nghiên cứu của luận văn
2.2.1Các mô hình phân tích hồi quy độc lập
Phân tích hồi quy là một phương pháp thống kê để tạo một mối tương quan giữa một dữ liệu đầu vào và đầu ra dựa trên các cặp đầu vào và đầu ra tương ứng đã biết ở dữ liệu mẫu[44] Cụ thể hơn, phân tích hồi quy giúp chúng ta hiểu sự tương ứng giữa biến đầu vào và biến đầu ra
Kết hợp Rừng ngẫu nhiên
Mạng nơron thần kinh nhân tạo MLP
Mô hình K–lân cận (KNN) lần đầu được giới thiệu lần đầu năm 1951 bởi Joseph Hodges và Evelyn Fix sau đó được nhiều nhà nghiên cứu mở rộng, trong đó Edward
A Kirschbaum, người đã sử dụng thuật toán với mục đích hồi quy[44] Là một thuật học có giám sát (supervised learning) được sử dụng nhiều trong máy học một phần của thuật toán trí tuệ nhân tạo AI[45] Mô hình KNN được sử dụng rộng rãi trong các ứng dụng khác nhau, với bao gồm phân loại, hồi quy, ước tính mật độ và phát hiện bất thường
2.2.1.2 Mô hình hồi quy tuyến tính
Mô hình hồi quy tuyến tính (LR) là nhóm học có giám sát(supervised learning)
Mô hình hồi quy tuyến tính (Linear Regression - LR) được đưa ra lần đầu bởi Francis Galton là nhà khoa học người Anh rất nổi tiếng[46] Mô hình hồi quy tuyến tính là một trong những phương pháp rất đơn giản, nhưng nó đã được chứng minh được tính hữu ích với các mẫu có một số lượng lớn cho các tình huống khác nhau
2.2.1.3 Mô hình hồi quy Lasso
Mô hình hiệu chỉnh trị tuyệt đối bé nhất và lựa chọn biến (Lasso) được đề xuất bởi một nhà thống kê của Đại học Stanford là Robert Tibshirani vào những năm 1990 là một phương pháp phân tích hồi quy có giám sát, được ứng dụng nhiều trong các mô hình dự báo, đánh giá hiệu quả
B D İÇTENBAŞ[47] đã ước lượng rác thải rác thải y bằng các phương pháp sử dụng các mô hình máy học bao gồm Ridge Regression, Elastic Net Regression và Lasso Regression, kết quả cho thấy thuật toán dựa trên Lasso đạt được độ chính xác cao hơn đáng kể so với các phương pháp còn lại
2.2.1.4 Mô hình hồi quy dựa theo vector hỗ trợ
Môi trường ảo thực thi máy học
Môi trường dùng để thực thi máy học dựa trên ngôn ngữ lập trình Python Ngày nay Python là một ngôn ngữ lập trình phổ biến được sử dụng trong khoa học dữ liệu các ứng dụng web và mô hình máy học, Python Guido Van Rossum người Hà Lan đề xuất cuối những năm 1980 Trải qua thời gian ngôn ngữ lập trình được cải tiến và có nhiều phiên bản mới ra đời nhằm hỗ trợ, tăng nhiều tính năng mới phù hợp hơn so với mục đích của người sử dụng
Khi mô phỏng mô hình máy học trong Python, người sử dụng thường cần một phần mềm hỗ trợ làm môi trường để soạn thảo các dòng lệnh Thông thường có hai loại phần mềm phổ biến dùng để thực thi ngôn ngữ Python được sử dụng, đó là giao diện (Code Editor) hay gọi là môi trường soạn thảo và môi trường ảo IDE (Integrated Development Environment) hay là một môi trường phát triển tích hợp Tùy vào từng trường hợp, người thực thi ngôn ngữ Python lựa chọn môi trường soạn thảo hay môi trường phát triển tích hợp (IDE), giữa chúng có những ưu điểm và nhược điểm riêng Như các phần mềm IDE hỗ trợ nhiều ngôn ngữ lập trình khác nhau và nhiều tính năng nên kích thước lớn thời gian cài đặt mất nhiều thời gian, người thực thi cần nhiều kỹ năng kiến thức nâng cao mới có thể sử dụng hiệu quả chúng Trong khi đó môi trường soạn thảo chuyên dụng kích thước và cài đặt dễ dàng hơn, các cú pháp thực thi dễ dàng sử dụng nhưng ít tính năng hơn so với môi trường phát triển tích hợp
Tuy ra đời muộn hơn so với các ngôn ngữ lập trình khác nhưng hiện nay ngôn ngữ lập trình Python có nhiều phần mềm khác nhau để hỗ trợ thực thi Nhưng có lẽ các phần mềm sử dụng môi trường ảo IDE có nhiều lập trình viên hơn với môi trường soạn thảo chuyên dụng Vì có nhiều phần mềm IDE không tốn phí, nhưng vẫn đầy đủ tính năng hữu ích Một số phần mềm môi trường ảo IDE được sử dụng nhiều hiện nay như:
Visual Studio là phần mềm môi trường tích hợp được phát triển bởi Microsoft hỗ trợ trên các dòng máy tính sử dụng hệ điều hành Windows và Mac OS, phầm mềm có thể tích hợp riêng các nền tảng ứng dụng khác cho phần mở rộng, đây cũng chính là tính ưu việt và đáng sử dụng của phần mềm Visual Studio
Jupyter Notebook được phát triển bới Project Jupyter là một phần mềm mã nguồn mở được sử dụng phổ biến trong lĩnh vực khoa học dữ liệu và lập trình Phần mềm này cung cấp một môi trường tích hợp để thực hiện các phân tích dữ liệu, viết mã, hiển thị kết quả và tạo tài liệu tương tác Một số lý do chính Jupiter Notebook được yêu thích bởi vì: Có 40 ngôn ngữ lập trình riêng biệt khác nhau khác nhau như Python, R, Scala và nhiều ngôn ngữ khác, cho phép người sử dụng linh hoạt trong việc thực thi và mô hình hóa ý tưởng Có thể chia sẻ và kết hợp nhiều mã nguồn khác nhau, có thể chia sẻ kết quả tính toán và mô tả chi tiết trong cùng một tệp tin
Pycharm phát triển bởi JetBrains là môi trường ảo mạnh mẽ sử dụng được cho các hệ điều hành phổ biến như Windows, Linux, Mac OS dùng cho việc thực thi Python PyCharm cung cấp nhiều tính năng và công cụ hỗ trợ có thể mở rộng các chức năng cơ bản của phần mềm thông qua việc viết thêm các phần mềm bổ trợ để tăng năng suất và hiệu quả trong quá trình viết mã Python Pycharm có một số ưu điểm như sau: Có giao diện tương tác thân thiện và dễ sử dụng Có tính năng tìm kiếm thông minh để chuyến đến các lớp, biểu tượng hoặc một tệp Tính năng gỡ lỗi mạnh mẽ, điều hướng thông minh Tương thích với nhiều thư viện của Python như Pandas và Numpy Cho phép truy cập nhiều cơ sở dữ liệu khác nhau từ môi trường ảo IDE
Google Colaboratory (Google Colab) là một môi trường ảo miễn phí, và có những tính năng nâng cấp hữu ích mà không có trên các phần mềm thực thi Python khác như tạo mục lục, thêm hình ảnh bằng ngôn ngữ Markdown, dễ dàng kết nối và phân tích dựa trên đám mây Google Colab được phát triển bởi Google và chạy trên nền tảng Google Cloud hay Local Runtime (trên máy tính cá nhân) Nó cho phép người dùng tạo và chạy sổ ghi chép Jupyter trên đám mây, có thể truy xuất vào các tài nguyên tính toán bao gồm cả TPU (đơn vị xử lý tensor) và GPU (đơn vị xử lý đồ họa) Google Colab không cần cài đặt và nâng cấp phần cứng máy tính khi sử dụng, nó cung cấp miễn phí như bộ nhớ lưu trữ, GPU, CPU (khả năng xử lý), TPU, RAM (bộ nhớ khả biến) trên này tảng đám mây
Khi sử dụng Google Colab để thực thi có những thuận lợi như được lưu trên đám mây miễn phí, dễ dàng thuận tiện linh hoạt khi cần sử dụng, miễn phí GPU, TPU cho dự án, không yêu cầu cài đặt hay nâng cấp hạ tầng cấu hình máy tính, dễ dàng thực hiện khi máy tính kết nối internet, liên kết với tài khoản Google Drive dễ dàng, truy cập và xem nhanh các tập tin dự án, các tập tin được đồng bộ hóa liên tục trên đám mây, có thể truy cập vào các thư viện máy học phổ biến như Matplotlib, Numpy, Pandas, Scikit-learn,… Từ những ưu điểm và tính thuận tiện vì thế trong luận văn nghiên cứu này Google Colab sẽ được chọn làm môi trường để thực thi ngôn ngữ Python và xây dựng các mô hình máy học ước lượng rác thải xây dựng trong các công trình dân dụng
Kết luận về vấn đề nghiên cứu
Từ các vấn đề nêu trên mục tiêu của sự nghiên cứu này là tạo ra công cụ ước lượng khối lượng chất thải từ những công trình nằm trong giai đoạn đầu của dự án
Cụ thể để giải quyết tình trạng tăng chi phí trong các giai đoạn tiếp theo và khắc phục những hạn chế của các mô hình sử dụng để ước lượng hiện có Việc sử dụng mô hình học máy thuộc một nhánh chuyên sâu của AI, bao gồm các chương trình máy tính sử dụng mô hình toán học để dạy cách học tập và tìm ra mối liên quan từ những dữ liệu và đưa ra đáp án với sự can thiệp tối thiểu của con người Các phương pháp sử dụng máy học được cho là những công cụ hứa hẹn vì mang lại tính hiệu quả cao.
PHƯƠNG PHÁP NGHIÊN CỨU
Các trường hợp nghiên cứu
Dữ liệu được lấy từ nghiên cứu của D Lee và cộng sự[11] Các số liệu được ghi nhận tại 6 địa điểm của Hàn Quốc có 118 công trình đã phá dỡ và xử lý rác thải xây dựng, các công trình được xây dựng và phá dỡ trong khoảng thời gian từ năm 1959 đến năm 2010 được mô tả như (Bảng 4.1)
Theo yêu cầu của vấn đề cần phân tích, mô hình cần huấn luyện thì dữ liệu thu thập có thể được xác định một cách phù hợp
Bảng 4.1Tổng quan dữ liệu mô hình bài toán thực tế 1 Nguồn:[11]
Theo mục tiêu nghiên cứu và các kết quả nghiên cứu được xem xét, các dữ liệu chính được thu thập được đảm bảo như sau:
Chuỗi dữ liệu làm biến đầu vào gồm (số tầng, số căn hộ, diện tích sàn, diện tích đất, khối lượng rác thải xây dựng)
Các giá trị bị khuyết hoặc không đáng tin cậy, để bảo đảm được cấu trúc của dữ liệu, có thể xử lý như sau
Điền các giá trị bị khuyết bằng giá trị trung bình hoặc giá trị trung vị của trường (cột) dữ liệu Cách này thường được sử dụng khi trường (cột) thông tin có số lượng giá trị bị khuyết không nhiều
Loại những dữ liệu có giá trị bị khuyết nhiều ra khỏi chuỗi dữ liệu
Tập dữ liệu bao gồm 118 bộ được chia ra 103 bộ dùng mẫu huấn luyện, còn lại
15 bộ dùng để kiểm tra Điều này giúp đảm bảo rằng mô hình được huấn luyện trên một tập dữ liệu độc lập với tập dữ liệu kiểm tra và đánh giá chính xác khả năng tổng quát hóa của mô hình
4.1.1.4 Mô tả dữ liệu và các biến của mô hình
Bộ dữ liệu đưa vào để xây dựng mô hình ước lượng được thu thập tại 6 thành phố của Hàn Quốc gồm Seoul, Gyeonggi, Incheon, Daege, Busan, Gwangju Các dữ liệu này bao gồm: địa điểm xây dựng, số tầng, loại công trình, năm xây dựng, năm phá dỡ, số căn hộ, tổng diện tích xây dựng, diện tích khu đất và khối lượng rác thải xây dựng đã xử lý được mô tả như (Hình 4.1)
Các biến được xem xét đưa vào mô hình gồm: 04 biến đầu vào (đặc điểm) và
01 ước lượng (mục tiêu) Đặc điểm (loại và ô trống) của tập dữ liệu đưa vào mô hình được thể hiện (Bảng 4.1), chi tiết như sau:
Biến ước lượng: Khối lượng rác thải xây dựng
Các biến đầu vào bao gồm: Số tầng, số tòa nhà, số căn hộ, diện tích sàn xây dựng
Hình 4.1: Mô tả dữ liệu của mô hình ước lượng bài toán thực tế 1
Hình 4.2: Mô tả sự phân bố các đặc tính của mô hình bài toán thực tế 1
4.1.1.5 Kết quả mô hình máy học
Sau khi chạy mô hình thực hiện huấn luyện các mô hình máy học với bộ dữ liệu của D Lee và cộng sự [11], nhận được kết quả của các mô hình ước lượng so sánh khối lượng thực tế
Bảng 4.2: Kết quả ước lượng của mô hình KNN trong bài toán thực tế 1
STT Khối lượng thực tế (m 3 )
Tỉ lệ lỗi % Độ chính xác (%)
Bảng 4.3: Kết quả ước lượng của mô hình LR trong bài toán thực tế 1
STT Khối lượng thực tế (m 3 )
Tỉ lệ lỗi % Độ chính xác (%)
STT Khối lượng thực tế (m 3 )
Tỉ lệ lỗi % Độ chính xác (%)
Bảng 4.4: Kết quả ước lượng của mô hình Lasso trong bài toán thực tế 1
STT Khối lượng thực tế (m 3 )
Tỉ lệ lỗi % Độ chính xác (%)
Bảng 4.5: Kết quả ước lượng của mô hình SVR trong bài toán thực tế 1
STT Khối lượng thực tế (m 3 )
Tỉ lệ lỗi % Độ chính xác (%)
Bảng 4.6: Kết quả ước lượng của mô hình DT trong bài toán thực tế 1
STT Khối lượng thực tế (m 3 )
Tỉ lệ lỗi % Độ chính xác (%)
STT Khối lượng thực tế (m 3 )
Tỉ lệ lỗi % Độ chính xác (%)
Bảng 4.7: Kết quả ước lượng của mô hình RF trong bài toán thực tế 1
STT Khối lượng thực tế (m 3 )
Tỉ lệ lỗi % Độ chính xác (%)
Bảng 4.8: Kết quả ước lượng của mô hình GBR trong bài toán thực tế 1
STT Khối lượng thực tế (m 3 )
Tỉ lệ lỗi % Độ chính xác (%)
Bảng 4.9: Kết quả ước lượng của mô hình MLP trong bài toán thực tế 1
STT Khối lượng thực tế (m 3 )
Tỉ lệ lỗi % Độ chính xác %
STT Khối lượng thực tế (m 3 )
Tỉ lệ lỗi % Độ chính xác %
Bảng 4.10: Kết quả tổng hợp kết quả ước lượng của các mô hình máy học để ước lượng rác thải trong bài toán thực tế 1
Khối lượng ước lượng của mô hình (m 3 )
KNN LR Lasso SVR DT RF GBR MLP ANN+
Khối lượng ước lượng của mô hình (m 3 )
KNN LR Lasso SVR DT RF GBR MLP ANN+
Biểu đồ 4.1: So sánh các kết quả của các mô hình máy học ước lượng rác thải ở bài toán thực tế 1
4.1.1.6 Đánh giá các mô hình dự báo
Nghiên cứu đã tiến hành lập trình để chọn lựa được mô hình sở hữu kết quả tốt nhất với tập dữ liệu có sẵn Kết quả chi tiết được thể hiện như Bảng 4.6
Số thứ tự mẫu test Khối lượng thực tế (tấn) KNN LR
Bảng 4.11: So sánh các kết quả các mô hình áp dụng các mô hình máy học ước lượng rác thải xây dựng trong bài toán thực tế 1
Mô hình MEAR R 2 Độ chính xác (%)
Mạng thần kinh nhân tạo MLPRegressor 11.5356 0.9944 88.4644 Tối ưu hóa[11] ANN+ACO 13.8788 0.9889 86.1212
Biểu đồ 4.2: So sánh các mô hình máy học ở bài toán thực tế 1 theo MAER
KNN LR Lasso SVR DT RF GBR MLP ANN+ACO
Biều đồ 4.3: So sánh các mô hình máy học ở bài toán thực tế 1 theo R 2
Biểu đồ 4.4: So sánh các mô hình máy học ở bài toán thực tế 1 theo độ chính xác của khối lượng rác thải
Từ các kết quả nhận được sau khi chạy mô hình rút ra được các nhận xét sau:
KNN LR Lasso SVR DT RF GBR MLP ANN+ACO
Mô hình Độ chính xác (%)
KNN LR Lasso SVR DT RF GBR MLP ANN+ACO
Mô hình KNN cho ra kết quả tỉ lệ lỗi tuyệt đối trung bình MAER thấp gần là 9.3189 và mô hình DT cho ra kết quả tỉ lệ lỗi tuyệt đối trung bình MAER cao nhất là 17.7049 Trong khi kết quả của mô hình dùng thuật toán ANN+ACO của tác giả của D Lee và cộng sự [11] là 13.8788
Xét về hệ số tương quan R 2 của các mô hình máy học thì cao nhất là mô hình
K lân cận gần nhất KNN là 0.9966 và mô hình cho hệ số tương quan nhỏ nhất là DT là 0.9631 So với hệ số tương quan của nghiên cứu thuật toán ANN+CO để ước lượng rác thải xây dựng thì hệ số tương quan của mô hình KNN vẫn lớn hơn
Qua những thực nghiệm với bộ dữ liệu được sử dụng của phương pháp nghiên cứu trước đó của D.Lee và cộng sự cho thấy mô hình KNN phù hơn tất cả các mô hình khác và vượt trội hơn phương pháp lai kết hợp giữa thuật toán ANN+ACO đã từng công bố để ước lượng rác thải xây dựng trong các công trình dân dụng
Dữ liệu được ghi nhận để xây dựng mô hình đề xuất dự trên là 150 dự án đã phá dỡ có tầng nhỏ nhất là 1 và số tầng cao nhất là 6 tầng Các đữ liệu được ghi nhận để xây dựng mô hình là các dự án nhà dân dụng đã được xây dựng từ những năm 1990 đến năm 2005 ở tại các quận, huyện trải khắp ở Thành phố Hồ Chí Minh ở (Bảng 4.12) Và các nhà thầu đã thực hiện phá dỡ các công trình được thu thập từ năm 2017 đến năm 2019 với các đặc tính thông tin có sẵn như: năm xây dựng, năm phá dỡ, vị trí, tổng diện tích sàn, tổng diện tích đất và số tầng được thể hiện tổng quan như ở (Hình 4.4) Với những đặc tính của một công trình xây dựng được nên ở trên có thể dễ dàng khảo sát thu thập ở giai đoạn đầu của việc phá dỡ
Bảng 4.12: Tổng quan các đặc tính bài toán thực tế 2 ở thành phố Hồ Chí Minh Đặc tính Nhỏ nhất Lớn nhất Trung bình Đầu vào Địa điểm Các quận TP Hồ Chí Minh
Tổng diện tích đất (m2) 41 137 82.37 Đầu ra Tổng lượng rác thải xây dựng (tấn)
Hình 4.3: Bản đồ khu vực thành phố Hồ Chí Minh Nguồn[53]
4.1.2.2 Xử lý dữ liệu Được tiến hành như bài toán thực tế 1 ở mục 4.1.1.2
Tập dữ liệu thu thập gồm có 150 bộ được chia ra và lấy ngẫu nhiên với số lượng như sau: 120 bộ dùng mẫu huấn luyện, còn lại 30 bộ dùng để kiểm tra Việc phân chia này giúp đảm bảo rằng mô hình được học tập được xây dựng một tập dữ liệu độc lập với tập dữ liệu kiểm tra Nhằm đánh giá tổng quát khách quan độ chính xác mô hình
4.1.2.4 Mô tả dữ liệu và các biến của mô hình
Dữ liệu đưa vào để tính toán được thu thập ở Hồ Chí Minh Các dữ liệu này bao gồm: địa điểm xây dựng, số tầng, loại công trình, năm xây dựng, năm phá dỡ, tổng diện tích xây dựng, diện tích đất và khối lượng rác thải xây dựng đã xử lý Tuy nhiên các biến có những đặc tính ít ảnh hưởng khối lượng rác thải sẽ được lược bỏ như địa điểm, năm xây dựng, năm phá dỡ Các đặc tính ảnh hưởng rõ đến việc ước lượng được mô tả như (Hình 4.5) và sự tương quan giữa các biến và khối lượng thực tế trong bộ dữ liệu được mô tả ở (Hình 4.6)
Hình 4.4: Mô tả dữ liệu của mô hình tại thành phố Hồ Chí Minh
Các biến được xem xét đưa vào mô hình gồm: 03 biến đầu vào (đặc điểm) và
01 ước lượng (mục tiêu) sự tương quan giữa các biến đầu vào và biến ước lượng khối lượng thực tế trong bộ dữ liệu được mô tả ở (Hình 4.7), chi tiết như sau:
Biến ước lượng: Khối lượng rác thải xây dựng
Các biến đầu vào bao gồm: Số tầng, Tổng diện tích sàn, tổng diện tích đất
Hình 4.5 Sự tương quan giữa các biến đầu vào và biến ước lượng của mô hình ở
4.1.2.5 Kết quả của mô hình máy học
Sau khi chạy các mô hình huấn luyện các mô hình máy học với các dữ liệu thu thập tại các quận, huyện ở TP.Hồ Chí Minh các mô hình cho ta được kết quả ước lượng như sau:
Bảng 4.13: Kết quả ước lượng của mô hình KNN trong bài toán thực tế 2
Khối lượng thực tế (tấn)
Khối lượng ước lượng (tấn)
Tỉ lệ lỗi % Độ chính xác (%)
Khối lượng thực tế (tấn)
Khối lượng ước lượng (tấn)
Tỉ lệ lỗi % Độ chính xác (%)
Bảng 4.14: Kết quả ước lượng của mô hình LR trong bài toán thực tế 2
Khối lượng thực tế (tấn)
Khối lượng ước lượng (tấn)
Tỉ lệ lỗi % Độ chính xác (%)
Khối lượng thực tế (tấn)
Khối lượng ước lượng (tấn)
Tỉ lệ lỗi % Độ chính xác (%)
Bảng 4.15: Kết quả ước lượng của mô hình Lasso trong bài toán thực tế 2
Khối lượng thực tế (tấn)
Khối lượng ước lượng (tấn)
Tỉ lệ lỗi % Độ chính xác (%)
Bảng 4.16: Kết quả ước lượng của mô hình SVR trong bài toán thực tế 2
Khối lượng thực tế (tấn)
Khối lượng ước lượng (tấn)
Tỉ lệ lỗi % Độ chính xác (%)
Bảng 4.17: Kết quả ước lượng của mô hình DT trong bài toán thực tế 2
Khối lượng thực tế (tấn)
Khối lượng ước lượng (tấn)
Tỉ lệ lỗi % Độ chính xác (%)
Bảng 4.18: Kết quả ước lượng của mô hình RF trong bài toán thực tế 2
Khối lượng thực tế (tấn)
Khối lượng ước lượng (tấn)
Tỉ lệ lỗi % Độ chính xác (%)
Bảng 4.19: Kết quả ước lượng của mô hình GBR trong bài toán thực tế 2
Khối lượng thực tế (tấn)
Khối lượng ước lượng (tấn)
Tỉ lệ lỗi % Độ chính xác (%)
Bảng 4.20: Kết quả ước lượng của mô hình MLP trong bài toán thực tế 2
Khối lượng thực tế (tấn)
Khối lượng ước lượng (tấn)
Tỉ lệ lỗi % Độ chính xác %
Nhận xét về mô hình máy học đối với ước lượng rác thải xây dựng
Qua 2 bài toán thực tế, ta có thể thấy kết quả của các mô hình máy học sử dụng các trí tuệ nhân tạo ra rất phù hợp với bài toán ước lượng rác thải trong các công trình dân dụng bởi vì hệ số tương quan giữa giá trị ước lượng và giá trị thực tế rất cao đều lớn hơn 0.98
KNN LR Lasso SVR DT RF GBR MLP Độ ch ín h xác ( %)
Mô hình Độ chính xác (%)
KNN LR Lasso SVR DT RF GBR MLP Ở trường hợp bài toán thực tế 1 hầu như tất cả các mô hình máy học được nghiên cứu như KNN, LR, Lasso, SVR, RF, GBR, MLP điều có hệ số tương quan rất cao hầu hết trên 0.98, hệ số tương quan đều dương có nghĩa là các biến đầu vào của mô hình và biến ước lượng của mô hình đồng biến với nhau Một điều quan trọng ở trong các kết quả ở trên là tỉ lệ lỗi trung bình tuyệt đối MAER của từng thuật toán chỉ ở mức thấp thậm chí mô hình KNN ở bài toán thực tế 1 càng nhỏ hơn 10
So với mô hình thuật toán tối ưu lai tạo giữa thuật toán mạng nơ ron thần kinh (ANN) và thuật toán tối ưu đàn kiến (ACO) nghiên cứu của D Lee và cộng sự[11], trong cùng một kích thước mẫu và điều kiện vẫn giữ nguyên các biến đầu vào của mô hình thì các mô hình học máy đều cho rất quả tốt hơn thuật toán kết hợp giữa ANN+ACO mặc dù thuật toán được tác giả đã lặp và tối ưu thông số của mô hình lai tạo Nếu xét về tổng thể bài toán sử dụng mô hình máy học dùng để ước lượng thì bài toán thực tế 1 số lượng bộ dữ liệu dùng để học tập vẫn còn hạn chế, các mô hình máy học chưa thể học được nhiều thông tin trong bộ dữ liệu, có thể các mô hình máy học vẫn chưa phát huy sức mạnh của mô hình Ở trường hợp bài toán thực tế 2 được xây dựng từ dữ liệu thu thập tại Hồ Chí Minh, các mô hình máy học cho bài toán 1 vẫn được sử dụng lại để ước lượng rác thải xây dựng cho các công trình dân dụng tại thành phố Hồ Chí Minh bài toán thực tế 2 So với bộ dữ liệu của bài toán thực tế 1 thì dữ liệu nhiều hơn và số biến đầu vào cũng có sự thay đổi so với bài toán thực tế 1, và dữ liệu của bộ dữ kiểm tra cũng được mô hình thiết lập chọn ngẫu nhiên, nhằm mục đích đánh giá khách quan và tính tổng quát và tính chính xác của mô hình máy học để tránh trường hợp các mô hình chỉ quen dùng bộ dữ liệu quen thuộc
Kết quả ở (Bảng 4.4) cho thấy rằng mặc dù không cùng điều kiện như ở bài toán thực tế 1 và số lượng biến đầu vào có một số thay đổi nhưng các mô hình máy học vẫn cho kết quả tốt với tỉ lệ lỗi tuyệt đối trung bình thấp và hệ số tương quan của các mô hình đều cho kết quả khá cao Điều dễ nhận thấy rằng các mô hình máy học cho kết quả cao ở bài toán thực tế 1 thì vẫn cho kết quả cao ở bài toán thực tế 2 ở tại thành phố Hồ Chí Minh Và mô hình KNN vẫn vượt trội hơn cả cho kết quả tốt nhất trong số các mô hình còn lại với kết quả ước lượng chính xác đến 89.1714 % không có sự chênh lệnh đáng kể so với mô hình KNN ở bài toán thực tế số 1 là 90.6811%, điều này cho thấy các mô hình ước lượng hoạt động ổn định cho ra kết quả tương đồng mặc dù không cùng điều kiện
Bởi có sự chênh lệch tỉ lệ lỗi trung bình tuyệt đối và hệ số tương quan giữa hai bài toán bởi vì bộ dữ liệu thu thập ở 2 địa điểm khác nhau và cách xa nhau, nên có khác biệt về kiến trúc công trình ở mỗi bài toán, ngoài ra còn có sự khác nhau về biện pháp thi công phá dỡ cũng yếu tố nhỏ dẫn đến sự chênh lệch giữa 2 mô hình Nhưng đối với số liệu về khối lượng rác lượng rác thải xây dựng thì sự chênh lệch này không đáng kể
Từ các kết quả ở (Bảng 4.2) và (Bảng 4.4) ở trên nhận thấy rằng mô hình K lân cận gần nhất (KNN) nhận định là một giải pháp tốt trong việc ước lượng rác thải trong các công trình dân dụng ở tại thành phố Hồ Chí Minh.
Xây dựng công cụ ước lượng rác thải xây dựng trong các công trình dân dụng tại thành phố Hồ Chí Minh
dụng tại thành phố Hồ Chí Minh
Hồ Chí Minh là thành phố lớn và dẫn đầu về kinh tế của Việt Nam Các hoạt động xây dựng ở đây cũng phát triển ở mức cao Vì vậy việc quản lý và ước lượng rác thải xây dựng của các công trình dân dụng là hết sức cần thiết, tuy nhiên để ước lượng được cũng hết sức khó khăn và tốn kém Do đó công cụ ước lượng rác thải xây dựng cho các công trình dân dụng, bằng cách sử dụng mô hình máy học K lân cận gần nhất (KNN) được đề xuất quy trình như (Hình 4.10) như sau:
Mô hình lượng ước (KNN)
Hình 4.6: Quy trình thực hiện của mô hình sử dụng thuật toán K lân cận gần nhất để ước lượng rác thải xây dựng
Bước 1: Thu thập dữ liệu: Xây dựng bộ dữ liệu từ nhiều nguồn có thông tin liên quan chính xác như: ghi nhận dữ liệu về thông tin công trình trong giai đoạn cấp giấy phép xây dựng bao gồm tổng diện tích sàn nhà, số tầng, diện tích tổng diện tích đất, địa điểm xây dựng, năm xây dựng, khối lượng rác thải xây dựng của công trình cũ Ngoài ra số liệu cần được thu thập từ các nhà thầu phá dỡ, và nhà máy xử lý rác thải xây dựng
Bước 2: Tổng hợp, phân loại: dữ liệu từ nhiều nguồn cung cấp khác nhau từ các loại công trình xây dựng khác nhau nên cần phân theo từng chuẩn loại khác nhau, tổng hợp các dữ liệu giống nhau và cùng đặc tính
Bước 3: Chuẩn dữ liệu: trước khi nạp dữ liệu cho mô hình ước lượng cần được chuẩn dữ liệu, đảm bảo dữ liệu đầu vào ít ngoại lai nhất
Bước 4: Mô hình ước lượng KNN: đưa các bộ dữ liệu đủ lớn vào huấn luyện tạo cho mô hình được học tập đầu đủ và mạnh nhất Nạp các dữ liệu vào cho mô hình là số tầng của công trình, tổng diện tích sàn xây dựng, tổng diện tích đất Một đoạn mã xử lý của mô hình ước lượng KNN được thể hiện như (Hình 4.9)
Hình 4.7: Đoạn mã xử lý của mô hình ước lượng KNN
Bước 5: Đưa kết quả ước lượng: Mô hình xuất ra kết quả ước lượng, từ đó kết quả ước lượng có thể quản lý được khối lượng rác thải xây dựng trong một công trình dân dụng cụ thể của một công trình cụ thể hoặc một vùng cụ thể.