CHƯƠNG 2. CƠ SỞ LÝ THUYẾT
2.6. SO SÁNH HAI PHƯƠNG PHÁP THU GIẢM SỐ CHIỀU PIP VÀ PAA
Phần này chúng tôi so sánh phương pháp thu giảm PIP và PAA trên hai tiêu chí: tiêu chí khả năng phản ánh hình dạng tổng quát dữ liệu trước khi thu giảm và tiêu chí thời gian thu giảm dữ liệu.
Cả hai phương pháp PIP hoặc PAA đều là các phương pháp thu giảm số chiều của một tập dữ liệu. Nhưng về cách thức thu giảm, đồng nghĩa với bản chất của phương pháp, chúng khác nhau khá nhiều.
Phương pháp thu giảm số chiều PIP dựa trên mức độ quan trọng của từng điểm dữ liệu. Mức độ quan trọng của điểm dữ liệu có liên quan đến vị trí của điểm đó trên đồ thị biểu diễn sự biến thiên, dao động của chuỗi dữ liệu (hình dạng tổng quát): điểm đó có nằm ở vị trí gấp khúc, lồi lõm hay không, điểm đó có tham gia mạnh mẽ vào hình dáng tổng thể của chuỗi dữ liệu hay không. Như vậy, khi thu giảm số chiều dữ liệu xuống còn n PIPs thìn PIPs sẽ là n điểm thể hiện tốt nhất hình dạng tổng quát của chuỗi dữ liệu trước khi thu giảm. Nói một cách khác, n PIPs chỉ giữ lại hình dạng tổng quát của chuỗi dữ liệu. Giá trị n càng lớn thì dữ liệu sau khi thu giảm càng thể hiện tổng quát chuỗi dữ liệu.
Phương pháp thu giảm số chiều PAA lại thu giảm dữ liệu bằng cách lấy mẫu trên n
đoạn nhỏ của chuỗi dữ liệu. Vì vậy kết quả sau khi thu giảm bằng phương pháp PAA vẫn thể hiện chi tiết biến thiên của toàn thể dữ liệu. Giá trịncàng lớn thì dữ liệu sau khi thu giảm càng thể hiện chi tiết biến thiên của chuỗi dữ liệu.
Như vậy, chúng ta nên sử dụng phương pháp PIP khi ta muốn thu giảm dữ liệu mà vẫn giữ được hình dạng tổng quát của dữ liệu trước khi thu giảm. Và chúng ta nên sử dụng phương pháp PAA khi ta muốn thu giảm dữ liệu mà vẫn giữ được chi tiết biến thiên của dữ liệu sau khi thu giảm. Vì vậy, tùy vào bài toán, chúng ta nên cân nhắc, lựa chọn sử dụng phương pháp nào để thu giảm số chiều của dữ liệu.
Trong bài toán dự báo dữ liệu chuỗi thời gian dùng mô hình mạng nơron nhân tạo, dữ liệu cần dùng là dữ liệu huấn luyện mạng nơron. Trong tập dữ liệu huấn luyện đó, từng điểm dữ liệu và sự biến thiên, tăng giảm giá trị dữ liệu góp phần quan trọng vào kết quả huấn luyện mạng nơron, kéo theo kết quả dự báo của mạng. Mà phương pháp PAA lại có ưu điểm là vẫn giữ lại một phần chi tiết biến thiên của dữ liệu. Trực
Chương 2. Cơ sở lý thuyết 33
giác cho ta thấy, sử dụng phương pháp PAA để thu giảm số chiều của tập huấn luyện sẽ tốt hơn sử dụng phương pháp PIP.
2.6.2. Theo tiêu chí thời gian thu giảm dữ liệu
Gọi N là số điểm dữ liệu trong chuỗi thời gian bất kỳ trước khi thu giảm, n là số điểm dữ liệu trong chuỗi thời gian sau khi thu giảm.
Phương pháp thu giảm số chiều PAA chia chuỗi thời gian thành n đoạn, rồi tính trung bình cộng trên từng đoạn. Nếu xem thời gian một lần tính toán trung bình cộng này là 1 đơn vị thời gian, thì tổng thời gian tính toán để thu giảm xuống cònn điểm, có giá trị xấp xỉO(n).
Trong khi đó, dựa theo giải thuật được nêu ở Hình 2.11, để xác định một PIP mới thứ i (i bắt đầu từ 3), chúng ta phải tính khoảng cách VD của (N-i+1) điểm còn lại rồi so sánh các khoảng cách này. Nếu xem thời gian tính khoảng cách VD của 1 điểm là 1 đơn vị thì tổng thời gian để để xác định n điểm PIP có giá trị xấp xỉ
O(n).O(N).
Qua hai tiêu chí so sánh trên, ta thấy, phương pháp PIP có đặc điểm là kết quả thu giảm có khuynh hướng phản ảnh hình dạng tổng quát của chuỗi dữ liệu trước khi thu giảm; phương pháp PAA là phương pháp lấy mẫu trên từng đoạn nên kết quả thu giảm vẫn giữ được sự biến thiên, dao động chi tiết của chuỗi dữ liệu ban đầu. Về thời gian tính toán, với cùng hệ số thu giảmCR=N/n thì thời gian tính toán của phương pháp PAA nhanh hơn xấp xỉO(N)lần.
Trong chương 3, chúng tôi đã trình bày lý thuyết cơ bản về mạng nơron và ứng dụng mạng nơron vào công tác dự báo dữ liệu chuỗi thời gian; các phương pháp thu giảm số chiều PAA và PIP. Đây là lý thuyết nền tảng để chúng tôi đưa ra những ý tưởng cho việc kết hợp mạng nơron với các phương pháp thu giảm số chiều, sẽ được trình bày ở các chương tiếp theo.