Xây dựng công cụ ước lượng rác thải xây dựng bằng thuật toán trí tuệ nhân tạo cho công trình dân dụng tại Thành phố Hồ Chí Minh

MỤC LỤC

Quy tình thực hiện thực hiện nghiên cứu, các cơ sở lý thuyết các thuật toán trong mô hình máy học sử dụng trong bài toán ước lượng rác thải xây dựng

Giúp cơ quan quản lý nhà nước có được một công cụ ước lượng được khối lượng rác thải xây dựng trong khu vực quản lý, từ đó đưa ra những vùng quy hoạch thuận tiện để xây dựng nhà máy xử lý rác thải. Đưa ra khối lượng rác thải xây dựng và chi phí xử lý, giúp các nhà đầu tư nhà máy xử lý rác nắm được quy mô của thị trường, mật độ khu vực phát thải, trên cơ sở của việc ước lượng chủ động quyết định địa điểm đầu tư.

Xây dựng mô hình trên cơ sở của những số liệu thực tế và so sánh các mô hình để chọn mô hình ước lượng hiệu quả nhất. Xây dựng công cụ ước lượng

Có khối lượng chính xác từ đó các nhà thầu xây dựng các công trình xây dựng dân dụng, đưa ra giá dự thầu hợp lý để tăng tỉ lệ trúng thầu. Nâng cao năng lực quản lý xây dựng ở Việt Nam, ứng dụng công nghệ cao vào trong xây dựng, phát triển ngành xây dựng bền vững và hiện đại.

Đưa ra kết luận của vấn đề nghiên cứu, đưa ra một số hướng nghiên cứu mới dựa trên nghiên cứu mới dựa trên hướng nghiên cứu vừa đề xuất

Uớc lượng rác thải xây dựng cũng góp phần vào công tác quản lý rác thải và bảo vệ môi trường. Từ việc ước lượng được khối lượng, từ đó có cơ sở chọn địa điểm xây dựng nhà máy xử lý và tái chế rác thải xây dựng phù hợp.

PHƯƠNG PHÁP NGHIÊN CỨU 3.1 Quy trình thực hiện nghiên cứu

Các lý thuyết, thuật toán áp dụng

Dựa trên các cách thức hoạt động của máy học, các mô hình học máy thường được phân loại làm ba nhóm chính: học không giám sát (unsupervised learning), học có giám sát (supervised learning), học bán giám sát (semi-supervised learning). Mục đích nghiên cứu này là đóng góp cho xã hội một công cụ ước lượng khối lượng rác thải xây dựng sử dụng trong các công trình dân dụng nhằm quy hoạch vùng rác thải xây dựng để quản lý và có kế hoạch đầu tư nhà máy xử lý rác thải hợp lý. Các hệ số trong mô hình hồi quy tuyến tính có thể được ước tính bằng nhiều phương pháp khác nhau, mục tiêu là tìm các giá trị của các hệ số làm giảm thiểu sự khác biệt giữa các giá trị dự đoán và giá trị thực tế của biến phụ thuộc.

Cũng như mô hình hồi quy tuyến tính mục tiêu của Lasso là tìm tất cả các hệ số tốt nhất giúp giảm thiểu tổng sai số bình phương (RSS) giữa giá trị dự đoán, ước lượng của mô hình và giá trị thực tế, mô hình hồi quy Lasso sẽ tối thiểu hóa công thức (3.5) để tìm các hệ số tốt nhất. Mô hình hồi quy dựa theo vectơ hỗ trợ là một mô hình hồi quy hỗ trợ hồi quy tuyến tính và phi tuyến tính, được lấy cảm hứng từ thuật toán máy vectơ hỗ trợ cho các biến phản hồi nhị phân đặc trưng chính là tạo ra vùng biên tối đa. Mô hình hồi quy dựa theo vectơ hỗ trợ chỉ phụ thuộc vào tập hợp con của dữ liệu đào tạo, bởi vì hàm mất mát bỏ qua các mẫu có dự đoán gần với mục tiêu của chúng nhờ đó trở nên khái quát hóa hơn so với dữ liệu mới.

HUẤN LUYỆN MÔ HÌNH ƯỚC LƯỢNG VÀ ĐƯA RA NHẬN XÉT VỀ MÔ HÌNH

Các trường hợp nghiên cứu .1 Bài toán thực tế 1

Điều này giúp đảm bảo rằng mô hình được huấn luyện trên một tập dữ liệu độc lập với tập dữ liệu kiểm tra và đánh giá chính xác khả năng tổng quát hóa của mô hình. Bộ dữ liệu đưa vào để xây dựng mô hình ước lượng được thu thập tại 6 thành phố của Hàn Quốc gồm Seoul, Gyeonggi, Incheon, Daege, Busan, Gwangju. Các dữ liệu này bao gồm: địa điểm xây dựng, số tầng, loại công trình, năm xây dựng, năm phá dỡ, số căn hộ, tổng diện tích xây dựng, diện tích khu đất và khối lượng rác thải xây dựng đã xử lý được mô tả như (Hình 4.1).

So với hệ số tương quan của nghiên cứu thuật toán ANN+CO để ước lượng rác thải xây dựng thì hệ số tương quan của mô hình KNN vẫn lớn hơn. Và các nhà thầu đã thực hiện phá dỡ các công trình được thu thập từ năm 2017 đến năm 2019 với các đặc tính thông tin có sẵn như: năm xây dựng, năm phá dỡ, vị trí, tổng diện tích sàn, tổng diện tích đất và số tầng được thể hiện tổng quan như ở (Hình 4.4). Các dữ liệu này bao gồm: địa điểm xây dựng, số tầng, loại công trình, năm xây dựng, năm phá dỡ, tổng diện tích xây dựng, diện tích đất và khối lượng rác thải xây dựng đã xử lý.

Cỏc đặc tớnh ảnh hưởng rừ đến việc ước lượng được mô tả như (Hình 4.5) và sự tương quan giữa các biến và khối lượng thực tế trong bộ dữ liệu được mô tả ở (Hình 4.6).  Qua thực nghiệm với bộ dữ liệu ở thành phố Hồ Chí Minh ở trên cho có thể thấy rằng mô hình KNN phù hợp hơn tất cả các mô hình khác để ước lượng rác thải xây dựng trong các công trình dân dụng.

Hình 4.2: Mô tả sự phân bố các đặc tính của mô hình bài toán thực tế 1

Nhận xét về mô hình máy học đối với ước lượng rác thải xây dựng trong công trình dân dụng

Ở trường hợp bài toán thực tế 1 hầu như tất cả các mô hình máy học được nghiên cứu như KNN, LR, Lasso, SVR, RF, GBR, MLP điều có hệ số tương quan rất cao hầu hết trên 0.98, hệ số tương quan đều dương có nghĩa là các biến đầu vào của mô hình và biến ước lượng của mô hình đồng biến với nhau. Lee và cộng sự[11], trong cùng một kích thước mẫu và điều kiện vẫn giữ nguyên các biến đầu vào của mô hình thì các mô hình học máy đều cho rất quả tốt hơn thuật toán kết hợp giữa ANN+ACO mặc dù thuật toán được tác giả đã lặp và tối ưu thông số của mô hình lai tạo. Nếu xét về tổng thể bài toán sử dụng mô hình máy học dùng để ước lượng thì bài toán thực tế 1 số lượng bộ dữ liệu dùng để học tập vẫn còn hạn chế, các mô hình máy học chưa thể học được nhiều thông tin trong bộ dữ liệu, có thể các mô hình máy học vẫn chưa phát huy sức mạnh của mô hình.

So với bộ dữ liệu của bài toán thực tế 1 thì dữ liệu nhiều hơn và số biến đầu vào cũng có sự thay đổi so với bài toán thực tế 1, và dữ liệu của bộ dữ kiểm tra cũng được mô hình thiết lập chọn ngẫu nhiên, nhằm mục đích đánh giá khách quan và tính tổng quát và tính chính xác của mô hình máy học để tránh trường hợp các mô hình chỉ quen dùng bộ dữ liệu quen thuộc. Kết quả ở (Bảng 4.4) cho thấy rằng mặc dù không cùng điều kiện như ở bài toán thực tế 1 và số lượng biến đầu vào có một số thay đổi nhưng các mô hình máy học vẫn cho kết quả tốt với tỉ lệ lỗi tuyệt đối trung bình thấp và hệ số tương quan của các mô hình đều cho kết quả khá cao. Bởi có sự chênh lệch tỉ lệ lỗi trung bình tuyệt đối và hệ số tương quan giữa hai bài toán bởi vì bộ dữ liệu thu thập ở 2 địa điểm khác nhau và cách xa nhau, nên có khác biệt về kiến trúc công trình ở mỗi bài toán, ngoài ra còn có sự khác nhau về biện pháp thi công phá dỡ cũng yếu tố nhỏ dẫn đến sự chênh lệch giữa 2 mô hình.

Xây dựng công cụ ước lượng rác thải xây dựng trong các công trình dân dụng tại thành phố Hồ Chí Minh

Từ các kết quả ở (Bảng 4.2) và (Bảng 4.4) ở trên nhận thấy rằng mô hình K lân cận gần nhất (KNN) nhận định là một giải pháp tốt trong việc ước lượng rác thải trong các công trình dân dụng ở tại thành phố Hồ Chí Minh. Bước 1: Thu thập dữ liệu: Xây dựng bộ dữ liệu từ nhiều nguồn có thông tin liên quan chính xác như: ghi nhận dữ liệu về thông tin công trình trong giai đoạn cấp giấy phép xây dựng bao gồm tổng diện tích sàn nhà, số tầng, diện tích tổng diện tích đất, địa điểm xây dựng, năm xây dựng, khối lượng rác thải xây dựng của công trình cũ. Bước 2: Tổng hợp, phân loại: dữ liệu từ nhiều nguồn cung cấp khác nhau từ các loại công trình xây dựng khác nhau nên cần phân theo từng chuẩn loại khác nhau, tổng hợp các dữ liệu giống nhau và cùng đặc tính.

Bước 3: Chuẩn dữ liệu: trước khi nạp dữ liệu cho mô hình ước lượng cần được chuẩn dữ liệu, đảm bảo dữ liệu đầu vào ít ngoại lai nhất. Bước 4: Mô hình ước lượng KNN: đưa các bộ dữ liệu đủ lớn vào huấn luyện tạo cho mô hình được học tập đầu đủ và mạnh nhất. Bước 5: Đưa kết quả ước lượng: Mô hình xuất ra kết quả ước lượng, từ đó kết quả ước lượng có thể quản lý được khối lượng rác thải xây dựng trong một công trình dân dụng cụ thể của một công trình cụ thể hoặc một vùng cụ thể.

Hình 4.6: Quy trình thực hiện của mô hình sử dụng thuật toán K lân cận gần nhất để ước lượng rác thải xây dựng