8. Cấu trúc luận án
2.3.1 Dữ liệu xác định và dữ liệu ngẫu nhiên
Bất kỳ dữ liệu quan sát nào đại diện cho một hiện tượng vật lý cĩ thể được phân loại dữ liệu tiền định hoặc khơng tiền định. Dữ liệu tiền định là những dữ liệu cĩ thể được mơ tả bằng một mối quan hệ tốn học rõ ràng. Cĩ nhiều hiện tượng vật
37
lý trong thực tế tạo ra dữ liệu cĩ thể được biểu diễn với độ chính xác hợp lý bằng các mối quan hệ tốn học rõ ràng.
Tuy nhiên, cĩ nhiều hiện tượng vật lý khác tạo ra dữ liệu khơng mang tính tiền định. Ví dụ, âm thanh đường phố, độ cao của sĩng trong một vùng biển, tiếng ồn của một động cơ, v.v là thể hiện dữ liệu mà khơng thể mơ tả bằng các mối quan hệ tốn học rõ ràng. Với các dữ liệu đĩ, cũng khơng cĩ cách nào để dự đốn một giá trị chính xác tại một thời điểm trong tương lai. Những dữ liệu này cĩ tính chất ngẫu nhiên và phải được mơ tả dưới dạng các mơ-men xác suất và trung bình thống kê chứ khơng phải bằng các phương trình rõ ràng. Việc phân loại các dữ liệu vật lý khác nhau là tiền định hay ngẫu nhiên cĩ thể được tranh luận trong nhiều trường hợp. Ví dụ, cĩ thể lập luận rằng khơng cĩ dữ liệu vật lý nào trong thực tế cĩ thể thực sự xác định được vì luơn cĩ khả năng xảy ra một số sự kiện khơng lường trước được trong tương lai cĩ thể ảnh hưởng đến hiện tượng tạo ra dữ liệu theo cách mà ban đầu khơng được xem xét. Mặt khác, cĩ thể lập luận rằng khơng cĩ dữ liệu vật lý nào thực sự là ngẫu nhiên, bởi vì cĩ thể mơ tả tốn học chính xác nếu cĩ đủ kiến thức về các cơ chế cơ bản của hiện tượng tạo ra dữ liệu. Về mặt thực tế, quyết định xem dữ liệu vật lý là tiền định hay ngẫu nhiên thường dựa trên khả năng tái tạo dữ liệu bằng các thí nghiệm được kiểm sốt. Nếu một thử nghiệm tạo ra dữ liệu cụ thể quan tâm cĩ thể được lặp lại nhiều lần với các kết quả giống hệt nhau (trong giới hạn sai số thử nghiệm), thì dữ liệu nĩi chung cĩ thể được coi là tiền định. Nếu một thử nghiệm khơng thể được thiết kế để tạo ra kết quả giống hệt nhau khi thử nghiệm được lặp lại, thì dữ liệu thường phải được coi là ngẫu nhiên.
Phân loại dữ liệu ngẫu nhiên
Dữ liệu đại diện cho một hiện tượng vật lý ngẫu nhiên khơng thể được mơ tả bằng một mối quan hệ tốn học rõ ràng bởi vì mỗi quan sát về hiện tượng sẽ là duy nhất. Nĩi cách khác, bất kỳ quan sát nhất định nào sẽ chỉ đại diện cho một trong nhiều kết quả khả dĩ cĩ thể đã xảy ra.
Một lịch sử thời gian duy nhất đại diện cho một hiện tượng ngẫu nhiên được gọi là hàm lấy mẫu (hoặc bản ghi mẫu khi được quan sát trong một khoảng thời gian hữu hạn). Tập hợp tất cả các hàm mẫu cĩ thể cĩ mà hiện tượng ngẫu nhiên cĩ
38
thể tạo ra được gọi là quá trình ngẫu nhiên hoặc quá trình ngẫu nhiên. Do đĩ, một bản ghi dữ liệu mẫu cho một hiện tượng vật lý ngẫu nhiên cĩ thể được coi là một hiện thực vật lý của một quá trình ngẫu nhiên.
Các quy trình ngẫu nhiên cĩ thể được phân loại là dừng hoặc khơng dừng. Các quá trình ngẫu nhiên dừng cĩ thể được phân loại thêm là egordic hoặc khơng egordic. Các quá trình ngẫu nhiên khơng dừng cĩ thể được phân loại thêm về các loại đặc tính khơng dừng cụ thể. Các cách phân loại khác nhau của các quá trình ngẫu nhiên được minh họa bằng sơ đồ trong hình dưới đây.
nh 10 Phân loại dữ liệu ngẫu nhiên Dữ liệu ngẫu nhiên dừng
Khi một hiện tượng vật lý được xem xét dưới dạng một quá trình ngẫu nhiên, các thuộc tính của hiện tượng đĩ cĩ thể được mơ tả theo giả thuyết tại bất kỳ thời điểm nào bằng cách tính tốn các giá trị trung bình thơng qua việc thu thập các hàm mẫu mơ tả quá trình ngẫu nhiên. Ví dụ, hãy xem xét tập hợp các hàm mẫu (cịn được gọi là tập hợp) tạo thành quá trình ngẫu nhiên được minh họa trong Hình 2.11.
39
nh 11 Mơ tả các hàm lấy mẫu của dữ liệu ngẫu nhiên [40]
Giá trị trung bình (mơ-men đầu tiên) của quá trình ngẫu nhiên tại một số t1 cĩ thể được tính bằng cách lấy giá trị tức thời của mỗi hàm mẫu của tập hợp tại thời điểm t1, lấy tổng các giá trị và chia cho số hàm mẫu. Theo cách tương tự, giá trị tương quan (mơ-men kết hợp) giữa các giá trị của quá trình ngẫu nhiên tại hai thời điểm khác nhau (được gọi là hàm tự tương quan) cĩ thể được tính bằng cách lấy trung bình cộng của tích các giá trị tức thời tại hai thời điểm, t1 và t1 + η. Đĩ là, đối với quá trình ngẫu nhiên {x(t)}, Trong đĩ ký hiệu {} được sử dụng để biểu thị một nhĩm các hàm mẫu, giá trị trung bình µx(t1) và hàm tự tương quan Rxx(t1, t1+ η)
được đưa ra bởi:
∑ ∑
Đối với trường hợp tổng quát trong đĩ µx(t1) và Rxx(t1, t1+ η) được xác định trong cơng thức trên thay đổi khi thời gian t1 thay đổi, quá trình ngẫu nhiên {x (t)} được cho là khơng dừng. Đối với chúng trong trường hợp đặc biệt, trong đĩ µx(t1)
và Rxx(t1, t1+ η) khơng thay đổi khi thời gian t1 thay đổi, quá trình ngẫu nhiên {x (t)} được cho là dừng yếu hoặc dừng theo nghĩa rộng. Đối với các quá trình ngẫu nhiên
dừng yếu, giá trị trung bình là một hằng số và hàm tự tương quan chỉ phụ thuộc vào độ dịch chuyển thời gian. Tức là, µx(t1) = µxvà Rxx(t1, t1+ η) = Rxx(η)
40
Dữ liệu ngẫu nhiên egordic
Cần lưu ý cách các thuộc tính của một quá trình ngẫu nhiên cĩ thể được xác định bằng cách tính tốn các giá trị trung bình tổng hợp tại các thời điểm cụ thể. Tuy nhiên, trong hầu hết các trường hợp, cũng cĩ thể mơ tả các thuộc tính của một quá trình ngẫu nhiên dừng bằng cách tính tốn trung bình thời gian trên các hàm mẫu cụ thể trong tập hợp. Ví dụ, hãy xem xét hàm mẫu thứ k của quá trình ngẫu nhiên được minh họa trong hình 2.11. Giá trị trung bình µx(k) và hàm tự tương quan
Rxx(η,k) của hàm mẫu thứ k được cho bởi
∫ ∫
Nếu {x(t)} là quá trình ngẫu nhiên dừng, và các giá trị và
khơng phụ thuộc vào hàm lấy mẫu thứ k, thì {x(t)} được gọi là quá trình egordic. Quá trình ngẫu nhiên egordic là một lớp quan trọng của các quá trình tự nhiên vì tất cả các thuộc tính của quy trình ngẫu nhiên egordic cĩ thể được xác định bằng cách thực hiện trung bình thời gian trên một hàm mẫu đơn lẻ. May mắn thay, trong thực tế, dữ liệu ngẫu nhiên đại diện cho các hiện tượng vật lý dừng nĩi chung là egordic. Chính vì lý do này mà các thuộc tính của các hiện tượng ngẫu nhiên dừng cĩ thể được đo lường một cách chính xác, trong hầu hết các trường hợp, từ một bản ghi lịch sử thời gian được quan sát duy nhất.
Bản ghi mẫu dừng
Khái niệm về tính dừng, liên quan đến các thuộc tính trung bình cộng của một quá trình ngẫu nhiên. Tuy nhiên, trên thực tế, dữ liệu dưới dạng các bản ghi lịch sử thời gian riêng lẻ của một hiện tượng ngẫu nhiên thường được gọi là dừng hoặc khơng dừng. Khi một bản ghi thời gian đơn lẻ được coi là dừng, điều đĩ thường cĩ nghĩa là các thuộc tính được tính trong các khoảng thời gian ngắn khơng thay đổi đáng kể từ khoảng thời gian này sang khoảng thời gian tiếp theo. Hãy xem xét một bản ghi mẫu đơn xk(t) thu được từ hàm mẫu thứ k của một quá trình ngẫu nhiên
41
{x(t)}. Giả sử một giá trị trung bình và một hàm tự tương quan thu được bằng cách lấy trung bình theo thời gian trong một khoảng thời gian ngắn T với thời gian bắt đầu là t1 như sau:
∫
∫
Đối với trường hợp chung trong đĩ các thuộc tính mẫu được xác định trong cơng thức (2.26) và (2.27) thay đổi đáng kể khi thời gian bắt đầu t1 thay đổi, bản ghi mẫu riêng lẻ được cho là khơng dừng. Đối với trường hợp đặc biệt trong đĩ các thuộc tính mẫu được xác định trong hai cơng nĩi trên khơng thay đổi đáng kể khi thời gian bắt đầu t1 thay đổi, bản ghi mẫu được cho là dừng. Lưu ý rằng bản ghi mẫu thu được từ một quá trình ngẫu nhiên egordic sẽ ở trạng dừng. Hơn nữa, các bản ghi mẫu từ hầu hết các quy trình ngẫu nhiên khơng dừng về mặt vật lý sẽ là khơng tĩnh. Do đĩ, nếu một giả định đúng đắn được chứng minh (như đối với hầu hết các hiện tượng vật lý dừng tại thực tế), thì việc xác minh tính ổn định đối với một bản ghi mẫu đơn lẻ sẽ biện minh một cách hiệu quả cho giả định về tính ổn định và tính đúng đắn cho quá trình ngẫu nhiên mà từ đĩ bản ghi mẫu thu được. Điều này sẽ rất cĩ ý nghĩa, khi chúng ta xem xét việc thu thập tín hiệu đầu ra của mơ-đun cảm biến PIR với một đối tượng nguồn nhiệt bất kỳ, việc coi dữ liệu thu được là một bản ghi dừng giúp chúng ta cĩ những phân tích nhất định về độ khơng đảm bảo đo độ trễ khi áp dụng các thuật tốn khác nhau.