Đánh giá hỗ trợ của R về mặt phân tích và dự đoán số liệu thì thấy rằng R là công cụ phân tích thống kê mạnh, nhưng cũng có một số đánh giá sau:
- Thích hợp với các bài toán phân tích thống kê và vẽ biểu đồ; - Môi trường làm việc sử dụng câu lệnh, phức tạp và khó khai thác;
- Dữ liệu đầu vào cho phân tích dạng bảng theo cấu trúc file .csv hoặc file .txt, công cụ không có hỗ trợ kết nối trực tiếp vào cơ sở dữ liệu;
- Trong R cho phép tính toán thực hiện trên vectors hay nói cách khác R là một ngôn ngữ vector, vì vậy chúng ta có thể sử dụng bất kỳ hàm nào trên vector và không phải sử dụng vòng lặp. Ví dụ: chúng ta có một mảng và qua mỗi phần tử trong mảng lại tăng 1. Nếu chúng ta không dùng vector, cần lặp qua dãy các phần tử và trong vòng lặp chúng ta có n phép tính +1 với mảng gồm n phần tử.
- R là ngôn ngữ thống kê và được sử dụng nhiều và có thế mạnh trong lĩnh vực sinh học, thống kê dữ liệu và di truyền họ.
Với những ưu điểm vượt trội như trên, trong luận văn này học viên quyết định lựa chọn R làm công cụ hỗ trợ phân tích tập dữ liệu dịch bệnh cúm do Google Flu Trends cung cấp tại phần trình bày thực nghiệm.
Tóm tắt chương 2
Chương 2 học viên đã giới thiệu về các phương pháp và công cụ phục vụ khai phá dữ liệu. Bên cạnh đó, cũng đã đề cập đến chuỗi dữ liệu thời gian để chúng ta hiểu bản chất của chuỗi dữ liệu thời gian. Qua phân tích chi tiết đặc điểm của các phương pháp khai phá dữ liệu và dựa trên đặc điểm của tập dữ liệu Google Flu Trends, đã quyết định lựa chọn phương pháp hồi quy để phân tích và dự báo.
18
Chương 3 sẽ đi sâu phân tích phương pháp phân tích hồi quy với chuỗi dữ liệu thời gian làm cơ sở cho việc thực nghiệm.
CHƯƠNG 3. PHƯƠNG PHÁP PHÂN TÍCH VÀ DỰ BÁO VỚI CHUỖI DỮ LIỆU THỜI GIAN
3.1. Dữ liệu chuỗi thời gian
Dữ liệu chuỗi thời gian là một dãy giá trị phép đo trên cùng một đối tượng được ghi nhận theo thời gian, các phép đo được thực hiện theo thời gian định kỳ hoặc không [10].