1. Trang chủ
  2. » Luận Văn - Báo Cáo

Lựa chọn các biến có ý nghĩa nghiên cứu trên dữ liệu giám sát cầu

59 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 59
Dung lượng 1,04 MB

Nội dung

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA Khoa khoa học kỹ thuật máy tính LUẬN VĂN THẠC SỸ Lựa chọn biến có ý nghĩa: Nghiên cứu liệu giám sát cầu Sinh viên: Trần Vĩnh Tân Giáo viên hướng dẫn: TS Nguyễn Văn Minh Mẫn TP.HCM, ngày tháng 12, 2009 Lời cảm ơn Tôi muốn gửi lời cảm ơn sâu sắc đến thầy TS Nguyễn Văn Minh Mẫn hướng dẫn tơi hồn thành luận văn giúp đỡ, khích lệ dẫn vơ thầy dành cho suốt thời gian dài Cuốn luận văn khơng thể hồn thiện khơng hỗ trợ từ Phịng thí nghiệm Cơ học ứng dụng, đặc biệt GS-TS Ngô Kiều Nhi rộng rãi chia sẻ liệu Cầu Sài Gòn mà thành viên Phòng tốn công sức thực Tôi gửi lời cảm ơn đến thành viên Nhóm Thống kê Toán học ứng dụng, đặc biệt TS Trần Nam Dũng lắng nghe buổi thuyết trình tơi đóng góp câu hỏi giúp tơi nhận thiếu sót Cảm ơn người bạn du học Hàn Quốc Úc gửi cho tài liệu khoa học mà tơi khơng thể có mơi trường nghiên cứu cịn khó khăn Việt Nam Về mặt cá nhân, xin gửi lời tri ân đến gia đình tơi, đặc biệt ba mẹ, hai ln nguồn khích lệ lớn tinh thần động lực phấn đấu Và cảm ơn Thư, người ln biết làm tơi vui lúc nản chí i Tóm tắt luận văn Giám sát sức khỏe cầu vấn đề quan trọng nhiều quốc gia, có Việt Nam Vì lý có nhiều phương pháp học, tốn học, thống kê, đề nghị để giải tốn Trong quy trình giám sát sức khỏe cầu, bước quan trọng thu giảm liệu, nhằm tạo lượng liệu nhỏ đảm bảo thông tin quan trọng ban đầu Luận văn tập trung vào việc thu giảm số biến đo cầu, sử dụng phương pháp Phân tích thành phần Trong bao gồm số phương pháp phụ trợ khác Cụ thể là, sau thu tập liệu với biến không tương quan với Phân tích thành phần chính, luận văn tiếp tục sử dụng ý tưởng phê chuẩn chéo nhằm xác định số thành phần cần giữ lại đủ để tái tạo lại tập liệu gốc với lượng thơng tin (phương sai) thích hợp Cuối cùng, nhằm phục vụ mục tiêu luận văn thu giảm số biến, phương pháp Phân tích tương quan tắc sử dụng để định tập biến gốc giữ thơng tin nhiều nhất, tập kết quy trình Để kiểm chứng giải thuật thực tế, luận văn sử dụng Dữ liệu đo độ rung Cầu Sài Gòn Phịng thí nghiệm học ứng dụng thuộc Trường Đại học Bách khoa thành phố Hồ Chí Minh xây dựng, thực giải thuật mơi trường lập trình thống kê R ứng dụng Java để giúp người dùng tương tác trình bày kết cách trực quan Từ khóa: Giám sát sức khỏe cầu, thu giảm số chiều, thu giảm số biến, phân tích thành phần chính, phê chuẩn chéo, phân tích tương quan tắc ii Abstract Bridge Health Monitoring is an important problem in many countries, including Viet Nam Therefore, there have been many proposed mechanical, mathematical, statistical, etc methods created to solve this problem In Bridge Health Monitoring process, one important step is to reduce and extract important information from the original dataset This thesis focuses on reduction of variables measured on the bridge using the Principal components analysis, with some additional methods Specifically, after achieving a new dataset having new uncorrelated variables using Principal component analysis, the thesis uses the idea of cross-validation to point out some first few components enough to be able to reconstruct the original data with appropriate information (variance) Finally, for the purpose of variable reduction, the Canonical correlations analysis is used to decide which subset of the original dataset keeps the most information This is the result of the process To validate the algorithm in practical usage, the thesis uses Sai Gon Bridge’s vibration measure data created by Laboratory of Applied Mechanics, Ho Chi Minh city University of Technology, implementing it in statistical programming environment R and a small Java application to allow users to interact and see the results graphically Keywords: Bridge health monitoring, dimensionality reduction, variable reduction, principal components analysis, cross-validation, canonical correlations analysis iii Mục lục Lời cảm ơn i Tóm tắt luận văn ii Abstract iii Giới thiệu 1.1 Động lực nghiên cứu 1.2 Dữ liệu Cầu Sài Gòn 1.3 Kết luận văn Tổng quan lý thuyết 2.1 2.2 Quy trình Giám sát Sức khỏe Cấu trúc 2.1.1 Đánh giá tác dụng 2.1.2 Thu thập, tổng hợp, tinh lọc liệu 2.1.3 Trích xuất đặc tính Cơ đọng thơng tin 2.1.4 Phát triển mơ hình thống kê dựa đặc tính Thu giảm số chiều liệu 2.2.1 Phát biểu toán học 2.2.2 Phân biệt phương pháp thu giảm số chiều Lý thuyết toán học 11 3.1 Giá trị riêng, Vector riêng 11 3.2 Khai triển phổ 12 3.3 Dạng toàn phương 14 3.4 Đạo hàm 14 3.5 Kỳ vọng Ma trận hiệp phương sai 15 3.5.1 16 Tính chất Ma trận hiệp phương sai iv MỤC LỤC 3.5.2 3.6 Tính chất Phương sai Hiệp phương sai 16 Tương quan 17 Phương pháp đề xuất 18 4.1 Phân tích thành phần 19 4.2 Lựa chọn Thành phần 27 4.3 Lựa chọn biến 31 Đánh giá thí nghiệm liệu 34 5.1 Dữ liệu thí nghiệm 34 5.2 Đánh giá tập liệu 35 5.3 Hiện thực máy tính 39 5.3.1 Tính toán R 39 5.3.2 Ứng dụng người dùng Java 40 5.3.3 Rserve - Máy chủ R nhị phân 41 Kết luận 42 5.4 A Hiện thực giải thuật R 43 A.1 Tính Thành phần số lượng thành phần k 43 A.2 Tìm biến giữ lại loại 45 Tài liệu tham khảo 46 v Danh sách hình vẽ 1.1 Hình ảnh Cầu Sài Gịn 1.2 Sơ đồ bố trí cảm biến nhịp Cầu Sài Gòn 3.1 Vector riêng giá trị riêng 12 4.1 Biểu đồ 18 điểm quan sát hai biến age, chol 20 4.2 Biểu đồ 18 điểm từ Hình 4.1 trục PC1, PC2 21 4.3 Mơ hình dự đốn ma trận X dùng k PC đầu 28 5.1 Vị trí tương đối cảm biến giữ lại (dấu ×) 38 5.2 Giao diện ứng dụng Factor Reduction 41 vi Danh sách bảng 5.1 Một số kết phê chuẩn chéo lên liệu mẫu A1 35 5.2 Kết chọn biến liệu mẫu A1 36 5.3 Các tập liệu chọn kết 37 5.4 Các hàm R 40 vii Chương Giới thiệu 1.1 Động lực nghiên cứu Giám sát Sức khỏe Cấu trúc (Structural Health Monitoring - SHM) toán quan trọng thực tế Đó bước để tiến hành chiến lược kiểm tra hư hại sở hạ tầng ngành vũ trụ, dân dụng kỹ thuật khí [15] Quy trình SHM theo dõi liên tục hệ thống cách sử dụng cơng cụ đo, liệu lấy mẫu theo chu kỳ thông qua loạt cảm biến, trích xuất đặc điểm liên quan đến hư hại thu từ công cụ đo, phân tích thống kê đặc điểm để xác định tình trạng thời sức khỏe hệ thống Quy trình Theo dõi Sức khỏe Cấu trúc sử dụng rộng rãi nhiều cấu trúc vật liệu giới để dự đoán hư hại vật liệu qua thời gian sử dụng sau thiên tai Tại Việt Nam, vấn đề quan tâm từ lâu, đến gần đây, người ta bắt đầu sử dụng phương pháp đo độ rung cầu qua cảm biến Phịng Thí nghiệm Cơ học Ứng dụng (Lab of Applied Mechanics - LAM), thuộc khoa Cơ khí, trường Đại học Thành phố Hồ Chí Minh nhóm nghiên cứu hàng đầu miền Nam, thực dự án nghiên cứu việc theo dõi tình trạng sức khỏe cầu Thành phố Hồ Chí Minh Để làm điều đó, nhóm nghiên cứu sử dụng phương pháp phổ biến [11] lắp đặt hệ thống cảm biến số cầu, có Cầu Sài Gòn, để đo biên độ rung vị trí cầu liên tục nhiều ngày, nhằm từ tìm thơng tin quan trọng sức khỏe cầu Theo mơ hình nhận dạng mẫu thống kê, phân chia mơ hình thành 1.2 DỮ LIỆU TRÊN CẦU SÀI GỊN Hình 1.1: Hình ảnh Cầu Sài Gịn q trình gồm bốn phần: (1) Đánh giá tác dụng, (2) Thu thập, phối hợp, tinh lọc liệu, (3) Trích xuất đặc tính Cơ đọng thơng tin, (4) Phát triển mơ hình thống kê dựa đặc tính Như thấy, việc phối hợp, tinh lọc liệu, với trích xuất đặc tính đọng thông tin bước quan trọng quy trình BHM Đó mục tiêu mà luận văn hướng đến, để thu giảm số lượng cảm biến đo Cầu Sài Gòn, nhắm đến hai nhiệm vụ: thu giảm lượng liệu cịn tập trung số lượng cảm biến hơn, tạo ý cho nhà đo đạc điểm “quan trọng”, số trường hợp, giúp giảm chi phí nhu cầu đo đạc cụ thể hóa; tiếp đó, luận văn giúp nhà khoa học thống kê tiếp tục khai phá tập liệu nhỏ mang phần lớn thông tin liệu gốc q trình Trích xuất đặc tính Phát triển mơ hình thống kê để xác định hư hại cầu 1.2 Dữ liệu Cầu Sài Gòn Phương pháp đề nghị để tinh lọc thu giảm số chiều liệu kiểm chứng tập liệu đo đạc Cầu Sài Gòn Cầu Sài Gòn cầu lâu đời quan trọng bậc Thành phố Hồ Chí Minh Được hoàn thành vào năm 1961, trải qua nhiều lần sửa chữa lần nâng cấp lớn vào năm 2000, thời điểm viết luận văn này, Cầu Sài Gịn cửa ngõ để vào nội ô thành phố từ tỉnh miền Trung miền Bắc Việt Nam 5.2 ĐÁNH GIÁ TRÊN TẬP DỮ LIỆU Bảng 5.3: Các tập liệu chọn kết Thời điểm đo (giây) Tên Thời Số liệu điểm đo hàng t1 t2 k Biến giữ lại A1 25-08-09 02:23 PM 500 43 22 10 A2 25-08-09 08:30 PM 500 51 13 1, 10, 21, 41, 48, 50, 54, 56, 58 A3 26-08-09 12:00 AM 500 48 20 1, 5, 21, 27, 41, 48, 50, 55, 56 A4 26-08-09 08:00 AM 500 49 20 1, 5, 15, 27, 41, 48, 50, 55, 56 A5 27-08-09 08:00 AM 500 49 30 1, 5, 15, 21, 41, 48, 50, 55, 56 A6 27-08-09 02:40 PM 1000 105 25 10 A7 26-08-09 08:11 AM 1500 172 32 1, 5, 15, 21, 27, 41, 48, 50, 55, 56 1, 5, 15, 21, 27, 41, 48, 50, 55, 56 1, 5, 15, 27, 41, 48, 50, 55, 56 q trình đo đạc, tơi chọn lọc thêm liệu, lấy từ thời điểm khác vào ngày khác nhau, số lượng mẫu khác nhau, mô tả bảng 5.3 Thông tin bảng bao gồm: tên tập liệu, thời điểm đo, số dòng tập liệu mẫu, t1 thời gian tính tốn bước lựa chọn số biến k, t2 thời gian tính tốn bước lựa chọn biến, số biến giữ lại cuối danh sách biến giữ lại Những liệu chọn lý đặc biệt sau đây: - Các tập liệu A2, A4, A5 thông tin đo vào thời điểm lượng xe cộ qua cầu cho đông đúc nhất, sáng 30 phút tối, lại chủ yếu xe container qua cầu - Tập liệu A3, tập A1 chọn vào thời điểm 12 trưa, lúc số lượng xe qua cầu thấp - Tập A4 A5 chọn cho đo vào thời điểm hai ngày khác nhau, nhằm kiểm tra tính quán kết giải thuật - Các tập A6 A7 chọn để kiểm thử giải thuật số dịng liệu lớn hơn, có 1000 1500 dòng Sự khác biệt lượng liệu thể rõ thời gian tính tốn kết Bảy kết cho số lượng biến chọn khác (A1 A6 giữ lại 10 biến, cịn lại biến), vị trí biến giữ lại khơng hồn tồn đồng nhất, 37 5.2 ĐÁNH GIÁ TRÊN TẬP DỮ LIỆU Hình 5.1: Vị trí tương đối cảm biến giữ lại (dấu ×) có vị trí cảm biến xuất nhiều lần hay chí xuất tồn liệu Từ đây, vị trí cảm biến quan trọng, mang tính độc lập tương đối, vị trí xuất từ đến lần 1, 5, 21, 41, 48, 50, 55, 56 Ngoài ra, theo cảm tính nghi ngờ thơng thường, phân tích liệu tiến hành đo đạc sau, ta lưu tâm đến “hội” tất kết Khi đó, tổng số lượng biến cần đo 13 biến, bé nhiều so với số lượng 59 biến ban đầu Về khía cạnh hiệu suất, bảng cho thấy thời gian tính tốn bước lựa chọn số lượng thành phần bước lựa chọn biến ct1 t2 Tổng thời gian tính tốn xem tốt từ phút (đối với liệu 500 dòng) đến phút 30 giây (đối với liệu 1500 dòng) Điều chứng tỏ hiệu suất phương pháp tổng hợp tốt Một đặc điểm thú vị khác minh chứng cho hiệu “có lý” phương pháp đề nghị, đối chiếu với sơ đồ đo Hình 5.2, ta nhận thấy vị trí 13 cảm biến đề nghị phân bố hướng đo đạc, đầu cầu, cầu, cuối cầu, hai phương đo theo chiều ngang cầu Tập liệu gồm 13 biến đại diện cho vị trí đặc trưng cầu, nơi có khả rung động mạnh (giữa nhịp, dầm giữa) nơi có 38 5.3 HIỆN THỰC TRÊN MÁY TÍNH rung động (đầu cầu, thành cầu) Điều chứng tỏ mặt cảm quan, tập liệu chứa đựng thơng tin quan trọng rút trích từ tập liệu gốc với số chiều lớn 5.3 Hiện thực máy tính Các giải thuật sử dụng luận văn thực để tính tốn máy tính, có sử dụng giao diện giao tiếp người dùng Số liệu tính tốn R, mơi trường phần mềm dành cho tính tốn đồ họa thống kê Chương trình ứng dụng người dùng viết môi trường ứng dụng Java, thông qua thư viện liên kết Java R Tất chúng phần mềm tự mã nguồn mở 5.3.1 Tính tốn R R mơi trường tính tốn phổ biến mạnh, tự do, mã nguồn mở R tích hợp sẵn tính đọc tập tin liệu dạng CSV (giá trị phân tách dấu phẩy), tính tốn Khai triển giá trị kỳ dị SVD, đặc biệt hỗ trợ phép tính ma trận tốt Ngồi ra, R cịn ngơn ngữ lập trình hướng đối tượng, phù hợp để viết hàm, gửi vào thông số truy xuất kết trả cách thuận lợi [10] Phương pháp tính tốn đề xuất Luận văn thực thành hai hàm riêng rẽ R, hàm choose_pc(fn) dùng để tính số lượng thành phần k cần giữ lại với thơng số đầu vào fn tên tập tin liệu định dạng CSV với đường dẫn trực tiếp đến nó, kết đầu đối tượng gồm thuộc tính: thuộc tính pcs để đếm thứ tự; thuộc tính eigenvalues lưu trữ giá trị riêng ma trận hiệp phương sai Σ xếp theo thứ tự giảm dần; thuộc tính cumvar để tính lượng phương sai k giá trị đầu giải thích được; cuối w tương ứng với giá trị W Hay nói cách tóm tắt, đối tượng trả tương đương với Bảng 5.2 Hàm thứ hai hàm choose_var(fn,k) để tính biến bị loại biến giữ lại Hàm chấp nhận hai thông số đường dẫn tên tập tin liệu CSV fn số biến giữ lại k Đối tượng trả có hai thuộc tính keep omit để biến giữ biến bị xóa Mã nguồn hai hàm có Phụ lục A Tốc độ tính tốn tập liệu 39 5.3 HIỆN THỰC TRÊN MÁY TÍNH Bảng 5.4: Các hàm R Tên hàm Đầu vào Đầu choose_pc fn: đường dẫn tên tập tin pcs: số thứ tự eigenvalues: giá trị riêng cumvar: phương sai giải thích w: giá trị thống kê W choose_var fn: đường dẫn tên tập tin keep: biến giữ k: số biến giữ omit: biến loại mẫu có kích thước (500 × 59) máy tính thử nghiệm khoảng phút 30 giây, thời gian chấp nhận với ứng dụng mang tính lý thuyết tham khảo 5.3.2 Ứng dụng người dùng Java Java ngơn ngữ lập trình hướng đối tượng đại, chạy máy ảo Java Vì vậy, ứng dụng viết Java độc lập với hệ điều hành theo tiêu chí “viết lần, chạy nơi” Ngồi ra, Java cịn ngôn ngữ mã nguồn mở, IDE NetBeans, chương trình tự mã nguồn mở, có tích hợp cơng cụ thiết kế giao diện ứng dụng mạnh [18] Chính vậy, viết ứng dụng ngôn ngữ Java lựa chọn hợp lý để thực giao diện người dùng Ứng dụng Factor Reduction có giao diện tương đối đơn giản thấy Hình 5.2, với chức minh họa cho bước tính tốn thu giảm liệu đo cầu phương pháp phân tích thành phần Các chức bao gồm: chuyển đổi liệu từ dạng tập tin thô TXT sang định dạng CSV mà R đọc được, kết nối gọi hàm choose_pc R, truy xuất kết hiển thị cho người dùng, đề nghị sẵn k PC có giá trị W > để giúp người dùng nhanh chóng lựa chọn giá trị k hợp lý, kết nối gọi hàm choose_var để xác định biến giữ lại, hiển thị tồn liệu hình tơ sáng cột biến giữ lại, 40 5.3 HIỆN THỰC TRÊN MÁY TÍNH Hình 5.2: Giao diện ứng dụng Factor Reduction lưu tập liệu rút gọn dạng tập tin CSV TXT nhằm phục vụ cho việc tính tốn sau 5.3.3 Rserve - Máy chủ R nhị phân Một gói ứng dụng hỗ trợ thức mơi trường R Rserve Rserve máy chủ TCP/IP cho phép chương trình khác sử dụng tính R nhiều ngôn ngữ khác mà không cần phải khởi tạo R liên kết với thư viện R Mỗi kết nối đến có khơng gian làm việc thư mục làm việc riêng Hiện Rserve có thực dành cho phía máy chủ viết ngôn ngữ C/C++ Java Rserve hỗ trợ kết nối từ xa, xác thực truyền tập tin Người ta thường dùng Rserve để tích hợp R, dùng cho tính tốn mơ hình thống kê, vẽ đồ thị, v.v ứng dụng khác [17] Các thư viện dành cho Java Rserve nhập thẳng vào ứng dụng Java, số câu lệnh khởi tạo đơn giản Một đoạn mã ví dụ việc thực thi hàm choose_var: S t r i n g c u r D i r = System g e t P r o p e r t y ( " user dir " ) ; RConnection c = new RConnection ( ) ; 41 5.4 KẾT LUẬN // l o a d s c r i p t i n t o R c e v a l ( " source (\" " + c u r D i r + "/" + SCRIPT2 + " \") " ) ; // c a l l t h e f u n c t i o n and g e t t h e r e s u l t RList r e t = c e v a l ( "( choose_var (\" " + f i l e N a m e T e x t g et Te xt ( ) + " \" , ␣" + keptVarNum + " )) " ) a s L i s t ( ) ; // p a r s e t h e r e s u l t i n t o a r r a y o f S t r i n g S t r i n g [ ] keep = r e t a t ( " keep " ) a s S t r i n g s ( ) ; S t r i n g [ ] omit = r e t a t ( " omit " ) a s S t r i n g s ( ) ; 5.4 Kết luận Luận văn đề xuất quy trình giải thuật dựa luận toán học thống kê nhằm thu giảm số lượng cảm biến đo cầu Do đó, a) giúp cho nhà học ý đến vị trí xác định để thăm dò, kiểm tra kỹ lưỡng hơn; mặt khác, b) giúp cho nhà thống kê giảm bớt khối lượng tính tốn cách rút ngắn số chiều liệu, giữ lại biến mang nhiều thông tin đại diện cho toàn tập liệu khai phá liệu, ví dụ Bài tốn xác định vị trí hư hại sau chưa phải tất c) giúp nhà thực nghiệm khoc học suy nghĩ nhận đặc tính từ liệu tương quan lớn với thông qua phần mềm tương tác Tuy nhiên, để có kết luận xác hơn, mặt lý thuyết lẫn thực nghiệm, vấn đề cần khắc phục làm rõ tương lai, là: Cộng tác với kỹ sư cầu đường để so sánh kết với hướng tiếp cận khí Vì sở liệu cầu thường đo đạc theo thời gian, tạo chất chuỗi thời gian cho tập liệu Trong nghiên cứu này, xét hàng liệu phép thử độc lập Do đó, ta mở rộng phân tích khía cạnh thời gian để hiểu rõ tương quan nhân tố (cảm biến) Cuối cùng, cố gắng sử dụng cách tiếp cận tốt (về mặt toán học lẫn thống kê) để lựa chọn số k thành phần chính, khơng sử dụng phương pháp đơn giản dựa giá trị riêng, phương pháp phê chuẩn chéo chưa phải phương pháp tốt nhất, vấn đề cần quan tâm nhiều 42 Phụ lục A Hiện thực giải thuật R Một số chương trình máy tính tương ứng với kỹ thuật tính tốn nói đến luận văn viết mơi trường lập trình thống kê R A.1 Tính Thành phần số lượng thành phần k choose_pc

Ngày đăng: 04/04/2021, 00:33

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w