CHƯƠNG 3 KHẢO SÁT THU THẬP VÀ ĐÁNH GIÁ SỐ LIỆU
3.3 Kết luận Chương 3
Hầu hết, các chung cư được khảo sát nằm ở các quận khác nhau trên địa bàn Thành phố Hồ Chí Minh để đảm bảo tính bao phủ về vị trí. Trong mỗi tầng sẽ tiến
86 hành khảo sát các vị trí dầm các tầng khác biệt (Lầu/Tầng, loại dầm, ...) để đảm bảo tính đa dạng của đối tượng được khảo sát. Mặt khác, số liệu khảo sát phản ánh sát với thực tế, đảm bảo tính trung thực khách quan trong khảo sát nghiên cứu.
Đặc điểm chung các cơng trình là chung cư, nơi ở tập thể, thấp tầng (< 7 tầng) được xây dựng phần lớn trước năm 1975. Hơn nữa, tình trạng xuống cấp, ăn mịn của hệ kết cấu khung bê tông cốt thép đã và đang diễn ra theo thời gian, đặc biệt liên quan đến khả năng chịu lực [M] của phần tử dầm bê tông cốt thép được khảo sát dùng trong nghiên cứu này.
87
CHƯƠNG 4. ỨNG DỤNG MƠ HÌNH VÀ THUẬT TỐN TRÍ TUỆ NHÂN TẠO VÀO DỰ ĐOÁN
4.1 Giới thiệu tổng quan về phần mềm Clementine 12.0
Clementine là một sản phẩm của SPSS inc [67], SPSS Clementine cho phép mơ hình hóa q trình khai phá dữ liệu, vì vậy người dùng nhanh chóng phát triển các mơ hình dự đốn bằng cách sử dụng các nguồn dữ liệu thực tế trong việc triển khai dự đoán chúng vào từng lĩnh vực cụ thể được tốt hơn.
Giao diện phần mềm Clementine
Gồm các Tab điều khiển chính sau:
Tab Favorites: Chỉnh sửa các nút được lựa chọn mặc định. Tab Source: Nguồn dữ liệu, nhập dữ liệu vào Clementine.
Tab Record Ops: Thực hiện các thao tác trên bản ghi dữ liệu như: lựa chọn,
trộn, thêm, trường dữ liệu.
Tab Field Ops: Thực hiện các thao tác trên các trường dữ liệu như lọc, chuyển
hóa trường dữ liệu mới, xác định kiểu dữ liệu.
Tab Graphs (đồ thị): bao gồm các nút hiển thị đồ họa trước và sau khi
Modeling ( mơ hình hóa) gồm các nút Plot, nút Web, nút Histogram, biểu đồ đánh giá.
Tab Modeling: Mơ hình hóa các thuật tốn trong Clementine chẳng hạn như:
nút K-means, C&R Tree, C5.0, Sequence.
Tab Output: Xuất dữ liệu đầu ra dưới dạng như bản báo cáo (report), SPSS, ... Tab Export: Xuất dữ liệu đầu ra dưới dạng chẳng hạn như Exel, SPSS,
Quá trình xử lý dữ liệu trong Clementine
Clementine là phần mềm ứng dụng trong khai phá dữ liệu. Do đó quy trình xử lý dữ liệu được thể hiện như sau:
Nguồn dữ liệu: Nguồn dữ liệu bao gồm tập dữ liệu với rất nhiều các định dạng
giúp người sử dụng dễ dàng đưa dữ liệu của mình vào để xử lý như là: Exel, SPSS, SQL, ... Nguồn dữ liệu hay cịn gọi là dữ liệu thơ nghĩa là dữ liệu chưa qua quá trình
88 tinh chỉnh, là nguồn dữ liệu gốc, nguồn dữ liệu ban đầu.
Trích chọn dữ liệu: Chọn nguồn dữ liệu phù hợp nhất với yêu cầu bài toán đặt
ra. Dữ liệu được chọn phải chứa những thông tin đầy đủ liên quan đến yêu cầu cần đặt ra, phải thỏa mãn các tiêu chí nhất định nào đó.
Tiền xử lý dữ liệu: Tiền xử lý dữ liệu là quá trình tinh chỉnh dữ liệu, chỉnh sửa
dữ liệu, dữ liệu có thể được xử lý trong SPSS trước khi được đưa vào khai thác.
Biến đổi dữ liệu: Biến đổi dữ liệu là q trình chuẩn hóa và làm mịn dữ liệu
để đưa dữ liệu về dạng ngắn gọn và đơn giản giúp giải quyết bài toán một cách nhanh nhất.
Khai phá dữ liệu: Áp dụng các kỹ thuật phân tích để khai phá dữ liệu. Trong
quá trình này sử dụng các thuật tốn phân hoạch, các thuật toán phân cụm phân cấp để khai phá dữ liệu…như thuật toán K-means, PAM, CLARA, BIRCH,….
Đánh giá và biểu diễn tri thức. Đây là kết quả của tồn bộ q trình. Kết quả được thể hiện dưới các dạng khác nhau như bảng biểu (Exel, Table, Custom Table..), dạng cây (C&R Tree, C5.0…), hay dưới dạng đồ thị (Graphboard, Plot, Distribution, histogram, collection, multiplot, Web, Timelot, Evaluation …) giúp đưa ra kết quả gần gũi với người sử dụng. Sau khi kết quả được đưa ra thì đánh giá xem kết quả đó có phù hợp u cầu bài tốn và điều kiện của bài toán.
4.2 Quy trình dự đốn
Q trình dự đốn được thực hiện bằng phần mềm Clementine 12.0. Sáu mơ hình đơn bao gồm ANN, SVM, CART, LR, GENLIN và CHAID được áp dụng. Sáu mơ hình đơn lẻ được xếp hạng dựa trên độ chính xác của chúng. Các mơ hình kết hợp sau đó được đề xuất. Q trình này được chia thành 5 bước. Hình 3.1 mơ tả mơ hình dữ liệu với các nút hồn chỉnh để phân tích và dự đốn:
Bước 1: Dữ liệu được chia thành 10 nhóm. Dữ liệu sau đó được áp dụng thuật
toán Xác thực chéo [59] để phân chia các tập dữ liệu. Phần mềm được đào tạo 10 lần. Mỗi lần đào tạo cho phần mềm, một nhóm 12 dầm trong thuật tốn Xác thực chéo khơng được sử dụng trong đào tạo.
89 dầm) được đưa vào phần mềm đã huấn luyện để dự đoán khả năng chịu uốn của dầm. Trong phần mềm được đào tạo, sáu kỹ thuật khai thác dữ liệu bao gồm các mơ hình ANN, SVM, CART, LR, GENLIN và CHAID được áp dụng để dự đoán khả năng uốn của các cấu trúc dầm bị ăn mịn.
Hình 4.1 Biểu đồ dự đoán khả năng chịu uốn của dầm bê tơng cốt thép bị ăn mịn
90
Bước 3: Khả năng chịu uốn được dự đoán từ phần mềm đã đào tạo, sẽ được
đem đi so sánh với liệu đầu vào đã khảo sát. Dựa trên độ chính xác dựa trên các phương pháp đánh giá, các mơ hình đơn lẻ được xếp hạng.
Bước 4: Dựa trên độ chính xác của các mơ hình đơn lẻ, các mơ hình kết hợp
được đề xuất. Các mơ hình kết hợp này cũng được sử dụng trong phần mềm được đào tạo bởi chức năng Ensemble trong phần mềm để dự đoán khả năng uốn của các kết cấu dầm bị ăn mịn. Độ chính xác của kết quả từ các mơ hình kết hợp cũng được đánh giá để xếp hạng các mơ hình kết hợp.
Bước 5: Đề xuất mơ hình dự đốn khả năng uốn của dầm BTCT bị ăn mịn.
Thơng qua phương pháp thử nghiệm (trial and error) và các đề xuất từ nghiên cứu trước Jui-Sheng Chou and Pham Anh Duc (2013) [59], nghiên cứu này đề xuất các tham số cho các mơ hình như trong Bảng 4.1.
Bảng 4.1 Thơng số cho SPSS Modeler
Mơ hình Thơng số Giá trị
ANN Alpha Initial Eta High Eta Low Eta Eta decay Hidden layers Persistence 200 0.9 0.3 0.1 0.01 30 Three (20, 15, 10) 200 SVM Stopping criteria Regularization parameter (C) Regression precision (epsilon)
Kernel type RBF RBF gamma 10-3 10 0.1 RBF 0.1 CART
Level s below root Mode
Maximum surrogates
5 Simple
91
Mơ hình Thông số Giá trị
Minimum change in impurity Impurity measure for categorical
targets
Minimum records in parent branch (%) Minimum records in child branch (%)
0.00001 Gini 2 1 GENLIN Distribution Singularity tolerance Value order for categorical inputs
Scale parameter method
Covariance matrix Confidence interval level (%)
Norma 10-7 Ascending Maximum likelihood estimate Model-based estimator 95 CHAID Mode Alpha for splitting Alpha for merging Chi-square method
Minimum records in parent branch (%) Minimum records in child branch (%)
Epsilon for convergence Maximum iterations for convergence
Allow splitting of merged categories Use bonferroni adjustment
Simple 0.05 0.05 Pearson 2 1 0.001 100 False True
4.3 Xây dựng mơ hình bằng SPSS Modeler
Bảng 4.2 mô tả sự phân chia bộ dữ liệu đầu vào, nhằm phân chia nhiệm vụ đào
tạo và kiểm tra của từng cụm dữ liệu trong mơ hình dự đốn.
Bảng 4.2 Bảng phân chia bộ dữ liệu trong dự đoán
92 1 - 12 1 1 1 1 1 1 1 1 1 0 13 - 24 1 1 1 1 1 1 1 1 0 1 25 - 36 1 1 1 1 1 1 1 0 1 1 37 - 48 1 1 1 1 1 1 0 1 1 1 49 - 60 1 1 1 1 1 0 1 1 1 1 61 - 72 1 1 1 1 0 1 1 1 1 1 73 - 84 1 1 1 0 1 1 1 1 1 1 85 - 96 1 1 0 1 1 1 1 1 1 1 97 - 108 1 0 1 1 1 1 1 1 1 1 109 - 120 0 1 1 1 1 1 1 1 1 1 Ghi chú:
0 Testing data 1 Training data
Thực hiện huấn luyện và dự đoán cho cột dữ liệu T1 để truy xuất kết quả dự đoán cho các dầm có số thứ tự từ 109 – 120.
Đưa dữ liệu vào mơ hình, dùng thuật tốn Cross Validation phân chia thành các bộ dữ liệu. Qua bộ lọc để xác định tập dữ liệu Train/Test.
Hình 4.2 Đưa dữ liệu vào mơ hình
Sử dụng node dự đốn để huấn luyện dữ liệu theo các thuật toán ANN, SVM, CART, GENLIN, CHAID
93
Hình 4.3 Huấn luyện dữ liệu trên mơ hình
Tiếp theo tiến hình thử nghiệm bằng cách xây dựng các mơ hình đơn, mơ hình kết hợp và truy xuất kết quả dự đoán:
Xây dựng mơ hình đơn
Hình 4.4 Xây dựng các mơ hình đơn
Đánh giá kết quả thơng qua các bảng và các nút phân tích từ các mơ hình
94
Hình 3.5 Truy xuất và đánh giá kết quả từ mơ hình dự đốn đơn
Tương tự, lần lượt thực hiện huấn luyện và dự đoán cho các cột dữ liệu T2 - T10 để lấy kết quả cho các dầm có số thứ tự từ 108 đến 1 từ các mơ hình dự đốn đơn.
Tiếp theo, xây dựng mơ hình kết hợp: Thơng qua kết quả xếp hạng hiệu suất,
lần lượt kết hợp các mơ hình có hiệu suất tốt nhất lại với nhau để tăng hiệu quả dự đốn (được trình bày trong bảng phân tích mục 5.1 Chương 5).
Xây dựng mơ hình kết hợp: Thơng qua kết quả xếp hạng hiệu suất ta kết hợp
các mơ hình có hiệu suất tốt nhất với nhau nhằm tăng hiệu quả dự đốn (thể hiện trong bảng phân tích mục 5.1 Chương 5 trong nghiên cứu này)
95
Hình 4.6 Xây dựng các mơ hình kết hợp
Cuối cùng, đánh giá kết quả phân tích thơng qua bảng phân tích và nút từ các
mơ hình kết hợp.
Hình 4.7 Truy xuất và đánh giá kết quả mơ hình
Tương tự lần lượt thực hiện huấn luyện và dự đoán cho cột dữ liệu T2 - T10 để truy xuất kết quả cho các dầm có số thứ tự từ 108 – 1.
Bảng tổng hợp kết quả chuẩn hóa trong đoạn [0;1] được trình bày trong Chương 5 mục 5.1 luận văn này.
96
CHƯƠNG 5. KẾT QUẢ VÀ KẾT LUẬN KIẾN NGHỊ
5.1 Kết quả mơ hình dự đốn
Phần này trình bày kết quả dự đốn, đồng thời so sánh hiệu suất mơ hình kết hợp với năm mơ hình dự đốn đơn được đề xuất bằng hệ số tổng hợp SI. Bằng kết quả xếp hạng hiệu suất ta sẽ kết hợp các mơ hình đơn lại nhằm tăng hiệu quả dự đoán.
Bảng 5.1 Bảng tổng hợp kết quả dự đốn chuẩn hóa trong đoạn [0;1]
No Y
Y'
ANN SVM CART LR GEN LIN CHAID CM6 CM5 CM4 CM3 CM2 1 0.399 0.398 0.367 0.261 0.392 0.392 0.384 0.366 0.387 0.387 0.394 0.392 2 0.411 0.414 0.386 0.411 0.407 0.407 0.384 0.402 0.400 0.404 0.409 0.407 3 0.391 0.389 0.354 0.411 0.383 0.383 0.384 0.384 0.379 0.377 0.385 0.383 4 0.477 0.530 0.531 0.412 0.531 0.531 0.429 0.494 0.511 0.531 0.531 0.531 5 0.416 0.438 0.464 0.412 0.436 0.436 0.429 0.436 0.440 0.443 0.436 0.436 6 0.364 0.361 0.335 0.411 0.355 0.355 0.384 0.367 0.358 0.351 0.357 0.355 7 0.275 0.275 0.288 0.292 0.287 0.287 0.268 0.283 0.281 0.284 0.283 0.287 8 0.474 0.512 0.539 0.480 0.506 0.506 0.479 0.504 0.508 0.516 0.508 0.506 9 0.451 0.496 0.527 0.480 0.485 0.485 0.479 0.492 0.494 0.498 0.488 0.485 10 0.183 0.175 0.209 0.259 0.163 0.163 0.180 0.192 0.178 0.178 0.167 0.163 11 0.184 0.173 0.204 0.259 0.159 0.159 0.180 0.189 0.175 0.174 0.164 0.159 12 0.180 0.149 0.146 0.259 0.125 0.125 0.180 0.164 0.145 0.136 0.133 0.125 13 1.000 0.843 0.882 0.754 0.964 0.964 0.765 0.862 0.884 0.913 0.923 0.964 14 0.934 0.834 0.856 0.754 0.933 0.933 0.765 0.846 0.864 0.889 0.900 0.933 15 0.422 0.459 0.508 0.476 0.458 0.458 0.451 0.468 0.467 0.471 0.458 0.458 16 0.175 0.173 0.209 0.182 0.166 0.166 0.147 0.174 0.172 0.178 0.168 0.166 17 0.467 0.445 0.465 0.476 0.458 0.458 0.451 0.459 0.456 0.457 0.454 0.458 18 0.510 0.543 0.569 0.476 0.535 0.535 0.470 0.521 0.530 0.545 0.537 0.535 19 0.726 0.708 0.661 0.754 0.702 0.702 0.765 0.715 0.708 0.693 0.704 0.702 20 0.779 0.737 0.710 0.754 0.744 0.744 0.765 0.742 0.740 0.734 0.742 0.744 21 0.764 0.738 0.715 0.754 0.739 0.739 0.765 0.742 0.739 0.733 0.739 0.739
97
No Y
Y'
ANN SVM CART LR GEN LIN CHAID CM6 CM5 CM4 CM3 CM2 22 0.383 0.381 0.342 0.317 0.381 0.381 0.388 0.365 0.374 0.371 0.381 0.381 23 0.388 0.370 0.331 0.317 0.372 0.372 0.388 0.358 0.367 0.361 0.371 0.372 24 0.401 0.388 0.364 0.413 0.390 0.390 0.404 0.392 0.387 0.383 0.389 0.390 25 0.467 0.503 0.523 0.422 0.491 0.491 0.433 0.477 0.488 0.502 0.495 0.491 26 0.478 0.515 0.533 0.422 0.502 0.502 0.413 0.481 0.493 0.513 0.506 0.502 27 0.482 0.531 0.559 0.422 0.518 0.518 0.403 0.492 0.506 0.531 0.522 0.518 28 0.493 0.540 0.560 0.422 0.523 0.523 0.481 0.508 0.525 0.536 0.529 0.523 29 0.479 0.516 0.531 0.422 0.501 0.501 0.413 0.481 0.492 0.512 0.506 0.501 30 0.481 0.502 0.498 0.422 0.494 0.494 0.325 0.456 0.463 0.497 0.497 0.494 31 0.606 0.627 0.550 0.507 0.605 0.605 0.507 0.567 0.579 0.597 0.612 0.605 32 0.762 0.745 0.688 0.752 0.729 0.729 0.766 0.735 0.731 0.723 0.734 0.729 33 0.763 0.748 0.699 0.752 0.734 0.734 0.967 0.772 0.776 0.729 0.738 0.734 34 0.295 0.301 0.285 0.264 0.303 0.303 0.481 0.323 0.335 0.298 0.303 0.303 35 0.288 0.275 0.286 0.264 0.272 0.272 0.246 0.270 0.271 0.277 0.273 0.272 36 0.522 0.565 0.579 0.422 0.548 0.548 0.413 0.513 0.531 0.560 0.554 0.548 37 0.785 0.754 0.675 0.786 0.745 0.745 0.761 0.744 0.736 0.730 0.748 0.745 38 0.648 0.650 0.641 0.557 0.633 0.633 0.638 0.625 0.639 0.639 0.639 0.633 39 0.766 0.730 0.659 0.786 0.717 0.717 0.761 0.728 0.717 0.706 0.722 0.717 40 0.715 0.708 0.575 0.531 0.696 0.696 0.540 0.624 0.643 0.669 0.700 0.696 41 0.698 0.699 0.563 0.531 0.684 0.684 0.540 0.617 0.634 0.657 0.689 0.684 42 0.509 0.412 0.390 0.412 0.453 0.453 0.483 0.434 0.438 0.427 0.439 0.453 43 0.408 0.411 0.433 0.412 0.409 0.409 0.383 0.409 0.409 0.415 0.409 0.409 44 0.413 0.420 0.436 0.255 0.414 0.414 0.257 0.366 0.388 0.421 0.416 0.414 45 0.416 0.420 0.439 0.412 0.416 0.416 0.415 0.420 0.421 0.423 0.418 0.416 46 0.427 0.455 0.478 0.412 0.441 0.441 0.483 0.452 0.459 0.454 0.445 0.441 47 0.431 0.461 0.486 0.412 0.446 0.446 0.483 0.456 0.464 0.460 0.451 0.446 48 0.429 0.427 0.438 0.412 0.426 0.426 0.483 0.435 0.440 0.429 0.426 0.426 49 0.293 0.290 0.309 0.267 0.311 0.311 0.253 0.290 0.295 0.305 0.304 0.311 50 0.292 0.296 0.331 0.267 0.314 0.314 0.253 0.296 0.301 0.314 0.308 0.314
98
No Y
Y'
ANN SVM CART LR GEN LIN CHAID CM6 CM5 CM4 CM3 CM2 51 0.468 0.462 0.426 0.418 0.456 0.456 0.480 0.450 0.456 0.450 0.458 0.456 52 0.209 0.184 0.223 0.267 0.188 0.188 0.253 0.217 0.207 0.196 0.186 0.188 53 0.279 0.218 0.226 0.267 0.226 0.226 0.253 0.236 0.230 0.224 0.224 0.226 54 0.524 0.512 0.481 0.590 0.509 0.509 0.490 0.515 0.500 0.503 0.510 0.509 55 0.409 0.404 0.426 0.418 0.412 0.412 0.415 0.414 0.414 0.413 0.409 0.412 56 0.437 0.431 0.429 0.418 0.433 0.433 0.480 0.437 0.441 0.431 0.432 0.433 57 0.427 0.390 0.341 0.418 0.382 0.382 0.401 0.386 0.379 0.374 0.385 0.382 58 0.406 0.404 0.411 0.418 0.420 0.420 0.480 0.426 0.427 0.414 0.415 0.420 59 0.416 0.408 0.425 0.418 0.415 0.415 0.480 0.427 0.428 0.415 0.412 0.415 60 0.425 0.419 0.437 0.418 0.426 0.426 0.480 0.434 0.438 0.427 0.424 0.426 61 0.636 0.632 0.637 0.543 0.628 0.628 0.455 0.587 0.596 0.631 0.629 0.628 62 0.641 0.637 0.640 0.543 0.632 0.632 0.687 0.628 0.646 0.635 0.634 0.632 63 0.385 0.412 0.381 0.284 0.409 0.409 0.687 0.430 0.459 0.402 0.410 0.409 64 0.764 0.731 0.730 0.543 0.740 0.740 0.687 0.695 0.725 0.735 0.737 0.740 65 0.768 0.729 0.705 0.749 0.733 0.733 0.687 0.723 0.717 0.725 0.732 0.733 66 0.768 0.733 0.749 0.543 0.747 0.747 0.687 0.701 0.733 0.744 0.743 0.747 67 0.763 0.736 0.779 0.967 0.758 0.758 0.687 0.781 0.744 0.758 0.751 0.758 68 0.753 0.728 0.709 0.749 0.732 0.732 0.687 0.723 0.718 0.725 0.731 0.732 69 0.760 0.730 0.688 0.749 0.731 0.731 0.687 0.719 0.713 0.720 0.730 0.731 70 0.394 0.375 0.431 0.435 0.404 0.404 0.399 0.408 0.403 0.404 0.395 0.404 71 0.405 0.391 0.478 0.435 0.424 0.424 0.399 0.425 0.423 0.429 0.413 0.424 72 0.403 0.379 0.414 0.435 0.404 0.404 0.399 0.406 0.400 0.400 0.396 0.404 73 0.516 0.543 0.545 0.641 0.547 0.547 0.663 0.581 0.569 0.545 0.546 0.547 74 0.333 0.300 0.363 0.392 0.334 0.334 0.326 0.341 0.331 0.333 0.323 0.334