Bƣớc 3: Phân tích dự báo
Từ bảng dữ liệu trên, chúng ta thấy chuỗi kết quả của dung lượng tìm kiếm có mối quan hệ tiêu cực với chỉ số DJIA, đồng nghĩa với việc giá DJIA sẽ có xu hướng giảm.
Hình 7: Mối tương quan giữa DJIA và Volume tìm kiếm trên Google Trends
-0.3 -0.25 -0.2 -0.15 -0.1 -0.05 0 0.05 1 2 3 4 5 6 7 8 9 DJIA Volume
Hình 8: Chỉ số DJIA của các ngày từ 25/9/2014 đến 25/10/2014
4.2.Dự đoán chỉ số DJIA dựa trên miền dữ liệu từ các trang tin tức và Twitter
Bƣớc 1: Thu thập dữ liệu từ nguồn các trang tin tức
Chúng tôi tiến hành thu thập các tin bài từ mục thị trường chứng khoán và kinh doanh của các trang: Wall Street Journal, Bloomberg, Reuters Bussiness & Finance, BussinessWeek, Financial Times, CNN-Money và CNBC trong khoảng thời gian tương ứng với thời gian thu thập chỉ số DJIA (từ 25/09/2014 đến 25/10/2014). Để bổ sung thêm thông tin, sau khi thu thập các tin bài, ngoài việc trích xuất tiêu đề bài báo, chúng tôi tiến hành trích xuất thêm đoạn tóm tắt của bài báo. Ví dụ:
15600 15800 16000 16200 16400 16600 16800 17000 17200 DJIA DJIA
Hình 9: Tiêu đề và đoạn tóm tắt của bài báo
Sau khi trích xuất xong dữ liệu, chúng tôi tiến hành tách từ và sử dụng từ điển của Loughran và McDonald để xác định các từ tiêu cực trong tập dữ liệu tiêu đề và đoạn tóm tắt của bài báo:
Tiếp theo, chúng tôi thống kê tổng số từ mang tính tiêu cực và tính chỉ số tâm trạng NNS (Negative News Sentiment).
Hình 10: Tần suất xuất hiện của một số từ tiêu cực trên các trang tin tức tài chính từ ngày 25/09/2014 đến 25/10/2014
Bƣớc 2: Thu thập dữ liệu từ Twitter
Chúng tôi tiến hành thu thập dữ liệu từ Twitter trong khoảng thời gian tương ứng từ ngày 25/09/2014 đến 25/10/2014 và tính số lần xuất hiện từ khóa “bullish” và “bearish”. Kết quả thu được như sau:
Thời gian Số tweets thu đƣợc
Tuần 1 188820
Tuần 2 112644
Tuần 3 119243
Tuần 4 110255