3.2. Nghiên cứu xây dựng phương pháp xử lý dữ liệu
3.2.2. Các giải pháp xử lý dữ liệu
3.2.2.1. Bộ lọc Kalman (Kalman Filter _ KF)
Bộ lọc Kalman (Kalman Filter) lần đầu được giới thiệu bởi R.E. Kalman năm 1960 [76]. Phương pháp lọc Kalman cơ bản là một thuật toán xử lý dữ liệu theo thủ tục đệ quy cho các hệ thống tuyến tính gián đoạn. Từ đó, với sự tiến bộ của khoa học máy tính, thuật tốn này được các nhà khoa học ngày một hồn thiện, phát triển và ứng dụng rộng rãi đặc biệt trong hai lĩnh vực điều hướng tự động và định vị quỹ đạo dịch chuyển [32][82][100]. Khối trễ xk xk+1 wk uk yk vk k+1,k F + + + + +
Khối xử lý Khối đo lường
Hk +
G
Hình 3.4 Mơ hình cấu trúc trạng thái
Giả thiết với một hệ tuyến tính với các thành phần xử lý và đo lường chịu tác động của nhiều nguồn nhiễu khác nhau được mơ hình hóa như Hình 3.4. Ta có thể xây dựng biểu thức sau: 1 1, . . w k k k k k k x F x G u (3-1) . k k k k y H x v (3-2)
Trong đó: xk và xk+1 là trạng thái hệ thống ở thời điểm k và k+1; Fk+1,k là ma trận chuyển trạng thái của hệ thống; uk là vector điều khiển đầu vào; wk là nhiễu tác động vào hệ thống được giả định là dạng Gause có giá trị trung bình bằng 0; yk là kết quả đo lường tại thời điểm k; xk là trạng thái hệ thống tại thời điểm k; Hk là ma trận quan sát mô tả hoạt động của khối đo lường; vk là nhiễu của quá trình đo phân bổ dạng Gause có giá trị trung bình bằng 0.
Thuật tốn Kalman là phương pháp để thực hiện đồng thời hai quá trình xử lý và đo lường (Hình 3.4) để xác định trạng thái tối ưu cho hệ thống. Bản chất là khi hệ
thống là tuyến tính thì từ bộ dữ liệu đã quan sát được là các vecto y1, y2, …, yn với mỗi bước k (1≤k≤n) sẽ ước lượng được trạng thái xi với sai số trung bình nhỏ nhất. Thuật toán lọc Kalman bao gồm hai giai đoạn: Dự đoán (estimate) và Cập nhật (update) (Hình 3.5). Ban đầu | ˆk k x và Pk k| 1| | ˆk k kˆk k G uk k x F x Dự đoán 1| | T k k k k k k k P F P F Q Hiệu chỉnh 1| 1 1| 1 1 ˆk k = ˆk k k k x x K r 1| 1 (I 1 1) 1| k k k k k k P K H P
(1) Trạng thái ước lượng trước : (2) Hiệp phương sai trước :
(1) Sai lệch của ước lượng đo : (2) Hệ số Kalman :
(3) Cập nhật ước lượng : (4) Cập nhật hiệp phương sai :
1 1 1ˆ 1| k k k k k r y H x 1 1 1| T1( 1 1| T1 1) k k k k k k k k k K P H H P H R
Hình 3.5 Quy trình xử lý dữ liệu của bộ lọc Kalman [76]
3.2.2.2. Thuật toán lọc Kalman mở rộng (Extent Kalman Filter _ EKF)
Vấn đề cơ bản của bộ lọc Kalman là phải thỏa mãn hai điều kiện: hệ thống là tuyến tính và mơ hình trạng thái đã biết. Tuy nhiên, trong thực tế, các hệ thống thường là phi tuyến. Khi đó, muốn áp dụng thuật tốn lọc Kalman, thì phải tuyến tính hóa trạng thái hệ thống theo từng giai đoạn. Giải pháp này được xem là phù hợp bởi bộ lọc Kalman được áp dụng trên hệ thống rời rạc. Khi đó, bộ lọc Kalman được gọi là bộ lọc Kalman mở rộng (Extended Kalman Filter – EKF) [76][82]. Như vậy, trạng thái hệ thống thứ k+1 (xk+1) ứng với thời điểm t = i không chỉ phụ thuộc và trạng thái hệ thống thứ k (xk) (biểu thức 3-1) mà còn phụ thuộc vào yếu tố thời gian i. Lúc này, mơ hình trạng thái được mơ tả như sau:
1 ( , ) w k k k x f k x (3-3) ( , x ) k k k y h k v (3-4)
Trong đó, wk và vk vẫn là nhiễu của hệ thống và của q trình đo, có phân bổ dạng Gause và giá trị trung bình bằng 0. Và các ma trận hiệp phương sai tương ứng vẫn là Rk và Qk. Hàm f(k,xk) biểu thị một hàm ma trận chuyển tiếp phi tuyến có thể biến thiên theo thời gian. Tương tự như vậy, hàm h(k,xk) biểu thị một ma trận đo phi tuyến tính cũng có thể biến thiên theo thời gian. Tuyến tính hóa mơ hình trạng thái được mô tả trong (3-3) và (3-4). Tại một thời điểm k bất kỳ, ước lượng mơ hình trạng thái xung quanh thời điểm đó được ký hiệu là xˆk1|k và xˆk k| tương ứng với trạng thái ước lượng tại lân cận với thời điểm k. Sau khi thu được mơ hình tuyến tính, các phương trình lọc Kalman tiêu chuẩn được áp dụng. Q trình tuyến tính hóa trải qua hai bước cơ bản gồm: Lấy vi phân các hàm f(k,xk) và h(k,xk) để được Fk+1|k và Hk , sau đó lấy xấp sỉ (gần đúng) theo phương pháp chuỗi Taylor bậc 1 cho hai hàm F(k,xk) và H(k,xk) theo xˆk1|k và xˆk k| . Thuật tốn lọc Kalman mở rộng (EKF) được mơ tả tóm tắt trong Hình 3.6. Ban đầu 1| ˆk k x vàPk1|k 1| | 1 ˆk k ( ,ˆk k ) x f k x Dự đoán 1| | 1 T k k k k k k k P F P F Q Hiệu chỉnh 1 1 1| T1( 1 1| T1 1) k k k k k k k k k K P H H P H R 1| 1 1| 1 1 ˆk k = ˆk k k k x x K r 1| 1 (I 1 1) 1| k k k k k k P K H P
(1) Trạng thái ước lượng trước : (2) Hiệp phương sai trước :
(1) Sai lệch của ước lượng đo : (2) Hệ số Kalman :
(3) Cập nhật ước lượng : (4) Cập nhật hiệp phương sai :
1 1 (ˆ 1| )
k k k k
r y h x
Hình 3.6 Quy trình xử lý dữ liệu của bộ lọc Kalman mở rộng [82]
3.2.2.3. Thuật tốn tối đa hóa kỳ vọng (Expectation Maximization _ EM ).
Thuật tốn tối đa hóa kỳ vọng EM là thuật tốn xử lý dữ liệu được áp dụng phổ biến trong các bài toán thống kê. Thuật toán EM được áp dụng khi dữ liệu quan sát phụ thuộc vào các biến ẩn và các tham số khơng thể xác định. Nó đơn giản là một thủ
tục ước lượng tham số lặp lại. Mục tiêu của nó là xác định mơ hình trạng thái tối ưu của hệ thống từ bộ dữ liệu đã quan sát được. Kết quả đó được gọi là Maximum likelihood (MLE). Đây chính là thuật tốn cơ bản trong kỹ thuật về máy học (machine learning).
Gọi Z là tập hợp biến ẩn tác động đến dữ liệu được sinh ra, p(Z) là tỉ lệ phần trăm các khả năng có thể xảy ra đối với mỗi trường hợp của Z. i là xác suất xảy ra của dữ liệu i, X là tập hợp các dữ liệu được sinh ra. Mục tiêu của thuật toán EM lúc này là tìm tập hợp các (ký hiệu là I()) sao cho đó là MLE. Q trình thực hiện thuật toán EM được mơ tả một cách trực quan ở Hình 3.7. Thuật tốn EM thu được kết quả là đường gấp khúc nằm trong miền các giá trị của F(Q,). Bước E là tìm F lớn nhất ứng với Q(x)=const, là các đoạn thẳng song song với trục . Bước M là tìm F lớn nhất ứng với = const, là các đoạn thẳng song song với trục Q(x).
Hình 3.7 Ngun lý thuật tốn EM [82]
3.2.3. Xây dựng giải pháp xử lý dữ liệu
Theo mục 3.1 và 3.2.1, có 2 nguồn dữ liệu cần được xử lý là biên độ và vận tốc lan truyền sóng chấn động. Hình 3.8 mơ tả cấu trúc tương đương hệ thống đo thu thập dữ liệu của vụ nổ. Trong đó u là nguồn nổ tạo ra sóng ứng suất và sau đó là sóng chấn động; G mơ tả thơng số cơ lý cơ bản của đất đá; v là nhiễu của thiết bị đo; w mô tả sự biến đổi của hiện trạng đất đá khu vực nổ được coi là nhiễu tác động vào q trình lan truyền sóng ; H là hàm truyền của khối đo lường (cảm biến); và y là kết quả đo thu được của trạm cảm biến. Từ Hình 3.8, y chịu tác động của u, G, w, H, v. Với cấu
trúc này, có thể giả thiết rằng G và H là khơng đổi thì y lúc này phụ thuộc vào u, w và v. Thành phần u thể hiện năng lượng xuất phát điểm của sóng ở điểm gốc gây ra bởi những thơng số thuộc tính của bãi nổ. Nếu trong q trình thiết kế và thi cơng, các thơng số thuộc tính này được thực hiện giống nhau, thì u là khơng đổi. Thêm vào đó, v thể hiện nhiễu tự thân của cảm biến gia tốc, là thành phần có thể khảo sát và lọc bỏ. Như vậy y chỉ còn phụ thuộc vào w. Tuy nhiên w là thành phần biến thiên và bất định, do đó y là một hàm phi tuyến theo w. Trong tình huống này, giải pháp lọc dữ liệu sử dụng thuật toán Kalman mở rộng (Extented Kalman Filter _ EKF) là phù hợp. Kết quả thử nghiệm được thể hiện ở Hình 3.9.
w u y v + + + + Hệ thống Đo lường H + G
Hình 3.8. Mơ hình cấu trúc hệ thống tương đương
Phần dữ liệu thứ hai của hệ thống là vận tốc lan truyền sóng chấn động (giả sử gọi là vm). Về nguyên tắc, giá trị này được tính theo cơng thức:
m ltr l v t (3-5)
Trong đó, l là khoảng cách từ điểm nổ đến điểm đặt trạm cảm biến đo, là giá trị đã biết; tltr là khoảng thời gian từ thời điểm kích nổ đến khi trạm cảm biến ghi nhận được sóng.
Do sóng đi từ điểm nổ đến điểm đo gồm 2 thành phần là sóng ứng suất và sóng chấn động xuất hiện lần lượt và có vận tốc khác nhau. Mặt khác, q trình lan truyền sóng đi qua nhiều mơi trường khác nhau sẽ có vận tốc tương ứng khác nhau. Nên vm có thể được gọi chính xác là vận tốc lan truyền trung bình của sóng.
Hình 3.9. Hình ảnh mơ tả kết quả lọc dữ liệu vận tốc lan truyền và biên độ sóng bằng thuật toán EKF với bộ dữ liệu thu được ở mỏ Núi Béo
Hình 3.10. Kết quả xử lý dữ liệu vận tốc lan truyền sóng chấn động khu vực mỏ Núi Béo bằng thuật toán EKF kết hợp EM
Ảnh hưởng của các nguồn nhiễu (mục 3.2.1) làm thay đổi vận tốc và hướng lan truyền trong q trình sóng đi từ điểm nổ đến điểm đo nên tltr biến thiên phi tuyến. Quá trình tập hợp dữ liệu, phân tích để tìm ra xu thế biến đổi và dự đốn giá trị của vm chính là một bài tốn thống kê phân tích dữ liệu. Do đó, giải pháp phù hợp để xử lý dữ liệu này là sử dụng thuật tốn tối đa hóa kỳ vọng (EM). Tuy nhiên, do dữ liệu hàm chứa sai số, nên ban đầu dữ liệu được lọc bằng thuật toán EKF để loại bỏ phần nào sai số có thể; Tiếp theo, mới sử dụng thuật toán EM để xác định xu thế biến đổi của dữ liệu. Kết quả thử nghiệm được thể hiện ở Hình 3.10.
3.3. Xây dựng mơ hình nhận dạng
Với cơ sở dữ liệu đủ lớn, hệ thống được nhận dạng bằng cách huấn luyện mơ hình mạng nơ ron nhân tạo (ANN). Dữ liệu đầu vào cơ bản để huấn luyện mạng ANN sẽ là vận tốc lan truyền sóng chấn động và khoảng thời gian vi sai; dữ liệu đầu ra sẽ là mức độ chấn động. Theo đó, tác giả lựa chọn khoảng thời gian vi sai là khoảng thời gian trễ giữa các lỗ mìn hoặc nhóm lỗ mìn nổ liên tiếp theo thời gian. Ví dụ, hai sơ đồ vi sai của các vụ nổ được phân tích tại mỏ Núi Béo (Hình 2.10 và Hình 2.13) cho thấy có 2 khoảng thời gian dãn cách phổ biến giữa các đợt nổ liên tiếp là 10ms và 16ms, đây sẽ là hai giá trị của dữ liệu đầu vào nhận dạng chứ không phải giá trị 42ms và 100ms của loại kíp vi sai được sử dụng. Hoặc tương tự, nếu xét với hai sơ đồ vi sai Hình 2.16 và Hình 2.19 thì 2 khoảng thời gian trễ phổ biến giữa các đợt nổ liên tiếp là 8ms và 9ms, sẽ tương ứng là hai giá trị của dữ liệu đầu vào nhận dạng chứ không phải giá trị 17ms và 42ms của loại kíp vi sai được sử dụng.
Mạng ANN được huấn luyện sẽ chỉ ra mối quan hệ giữa vận tốc lan truyền sóng và thời gian dãn cách vi sai với mức độ chấn động. Sau mỗi một lượng nhất định dữ liệu mới được bổ sung, quá trình huấn luyện cần được thực hiện lại để đảm bảo cập nhật sự biến đổi của điều kiện môi trường đất đá khu vực nổ. Giá trị này có thể được hiệu chỉnh trong quá trình ứng dụng thực tế với từng khu vực.
Từ dữ liệu chấn động các vụ nổ mìn tại các vỉa khai thác lộ thiên, thuộc mỏ than Núi Béo được theo dõi hàng ngày, vận tốc lan truyền sóng chấn động được xác định theo phương pháp đã lựa chọn (chương 2). Do bộ dữ liệu được ghi chép từ các vụ nổ mìn thực tế, nên có rất nhiều thơng số khác nhau khơng đáp ứng được đầy đủ điều kiện biên đã đặt ra (mục 3.1). Vì vậy, cho dù mục đích xây dựng mơ hình là nhận dạng mối quan hệ giữa giá trị thời gian vi sai với vận tốc lan truyền sóng chấn động và mức độ chấn động, nhưng để tăng độ chính xác cho mơ hình, dữ liệu đầu vào huấn luyện được bổ sung thêm một số thông tin. Tất cả gồm có : Khoảng cách từ điểm nổ đến điểm đo; Các khoảng thời gian dãn cách vi sai giữa các lỗ mìn hoặc nhóm lỗ mìn nổ liên tiếp; Lượng thuốc của một lần nổ; và Vận tốc lan truyền của sóng chấn động. Trong đó, giá trị vận tốc lan truyền được tính được theo kết quả đã thực hiện ở chương 2 ứng với từng vụ nổ, các giá trị còn lại được ghi chép trong thực tế tại khu vực nghiên cứu. Bộ dữ liệu được mô tả cụ thể tại phụ lục 3.
Cấu trúc chung của mơ hình huấn luyện mạng nơ ron nhân tạo được mơ tả trong Hình 3.11. Giải thuật huấn luyện được lựa chọn là giải thuật lan truyền ngược (backpropagation). Trong bộ dữ liệu phân tích được, tác giả sử dụng 70% để xây dựng mơ hình nhận dạng, 30% cịn lại sẽ được sử dụng làm cơ sở đánh giá mơ hình đã lựa chọn và thiết lập được. Phần mềm được sử dụng để huấn luyện là Matlab2013.
Dữ liệu vào: - Khoảng cách đo - T vi sai 1 - T vi sai 2 - Lượng thuốc - Vận tốc lan truyền Dữ liệu ra: PPV Các lớp ẩn Lớp ra
Hình 3.11 Sơ đồ cấu trúc chung huấn luyện mạng nơ ron nhân tạo (ANN) để nhận dạng hệ thống
3.3.1. Mạng ANN có một lớp ẩn
Mạng nơ ron được xây dựng gồm 1 lớp ẩn, một lớp ra. Lớp ẩn gồm 40 tế bào. Quá trình huấn luyện với 20000 epochs. Giải thuật lựa chọn để huấn luyện là “giải thuật lan truyền ngược” (backpropagation) với phương pháp hiệu chỉnh và cập nhật trọng số theo nguyên tắc tỉ lệ từng bước (Scaled conjuntion gradient) nên hàm huấn luyện
là “trainscg”. Hàm truyền của lớp ẩn được lựa chọn là “tansig” , hàm truyền của lớp ra là “purelin”. Kết quả huấn luyện được mơ tả trong Hình 3.12.
Hình 3.12 Quá trình và kết quả huấn luyện mạng nơ ron nhân tạo ANN với một lớp ẩn
3.3.2. Mạng ANN có hai lớp ẩn 3.3.2.1. Thử nghiệm 1
Mạng nơ ron được xây dựng gồm 2 lớp ẩn, một lớp ra. Lớp ẩn thứ nhất gồm 19 tế bào, lớp ẩn thứ 2 là 40 tế bào. Quá trình huấn luyện với 20000 epochs. Giải thuật lựa chọn để huấn luyện là “giải thuật lan truyền ngược” (backpropagation) với phương pháp hiệu chỉnh trọng số. với phương pháp hiệu chỉnh và cập nhật trọng số theo nguyên tắc tỉ lệ từng bước (Scaled conjuntion gradient) nên hàm huấn luyện là “trainscg”. Hàm truyền của các lớp ẩn được lựa chọn là “tansig” , hàm truyền của lớp ra là “purelin”. Kết quả huấn luyện được mơ tả trong Hình 3.14.
Hình 3.13 Quá trình và kết quả huấn luyện mạng nơ ron nhân tạo ANN với hai lớp ẩn ở trường hợp 1
3.3.2.2. Thử nghiệm 2
Mạng nơ ron được xây dựng gồm 2 lớp ẩn, một lớp ra. Lớp ẩn thứ nhất gồm 69 tế bào, lớp ẩn thứ 2 là 60 tế bào. Quá trình huấn luyện với 200 epochs. Giải thuật lựa chọn để huấn luyện là “giải thuật lan truyền ngược” (backpropagation) với thuật toán Levenberg-Marquardt (triển khai theo chuỗi Taylor bậc 2) nên hàm huấn luyện là “trainlm”. Hàm truyền của các lớp ẩn được lựa chọn là “tansig” , hàm truyền của lớp ra là “purelin”. Kết quả huấn luyện được mơ tả trong Hình 3.14.
Hình 3.14 Quá trình và kết quả huấn luyện mạng nơ ron nhân tạo ANN với hai lớp ẩn ở trường hợp 2
3.3.2.3. Thử nghiệm 3