Chỉ số NNS Hàm thống kê R Chỉ số TV-FST Chỉ số TIS Từ đồng nghĩa Từ khóa Xây dựng chỉ số tâm trạng Phân tích mối tương quan Phân tích nhân
quả Granger Phân tích dự báo
Dự đoán chỉ số DJIA Thu thập dữ liệu Máy tìm kiếm Trích xuất lượng truy cập Từ khóa Dung lượng truy cập Twitter Trích xuất tweets Tập các tweets Yahoo! Finance Trích xuất chỉ số DJIA Tập chỉ số DJIA Trang tin tức Trích xuất tiêu đề, tóm tắt Tập tiêu đề, tóm tắt tin tức
3.2.1. Thu thập dữ liệu và phân tích tâm trạng
Từ các trang tin tức
Thu thập dữ liệu từ 8 trang tin tức truyền thông: Wall Street Journal, Bloomberg, Forbers.com, Reuters Business&Finance, BusinessWeek, Financial Times, CNN-Money và CNBC. Với tập dữ liệu thu được, tiến hành trích xuất lấy các tiêu đề của bài tin tức. Theo Tetlock [T07] đã chứng minh rằng tâm trạng tiêu cực có vẻ là nhiều tiên đoán thị trường tài chính hơn so với tâm trạng tích cực. Có hai tập từ vựng về tài chính được chấp nhận để xác định từ tiêu cực: Thứ nhất là, từ điển Havard IV-4 được sử dụng trong [T07], [TTM08]; Thứ hai là, từ điển được phát triển bởi Loughran và McDonald [LD11]. Trong mô hình đề xuất, chúng tôi sử dụng từ điển của Loughran và McDonald để xác định từ tiêu cực trong tiêu đề tin tức. Sau đó, tính tỷ lệ giữa tổng số từ trong một tiêu đề tin tức và số từ tâm trạng tiêu cực trong tiêu đề. Tiếp theo, tính tỷ lệ giữa tổng tất cả tâm trạng và tổng số tiêu đề bài báo trong cùng một ngày, đó chính là Chỉ số tâm trạng NNS – Negative News Sentiment.
Từ máy tìm kiếm
[DEG10] đã chỉ ra rằng, càng có nhiều người tìm kiếm các từ mang tính tiêu cực về kinh tế như “suy thoái”, “phá sản” thì nhiều người sẽ cảm thấy bi quan hơn về nền kinh tế. Để tạo ra một chỉ số truy vấn tìm kiếm dựa trên tâm trạng tài chính. Chúng tôi thực hiện các bước như sau:
Một là, thu thập dữ liệu dung lượng tìm kiếm hàng tuần cho các truy vấn với các từ
khóa bao gồm “dow jones”, “stock market”, “stock to buy”, “stock”, “bullish”, “bearish”, “financial news” và “wall street” từ Google Trends (GT). GT là một dịch vụ của Google cung cấp dữ liệu dung lượng tìm kiếm. Ví dụ:
Hình 4: Số lượng truy vấn tìm kiếm từ khóa “Dow Jone”
Hai là, để nắm bắt đầy đủ hơn hoạt động tìm kiếm liên quan đến thị trường tài chính,
Từ mạng xã hội Twitter
Tiến hành thu thập dữ liệu từ Twitter, sau đó xác định hai chỉ số tâm trạng: Twitter Investor Sentiment (TIS) và Tweet Volumes of Financial Search Terms (TV-FST).
Twitter Investor Sentiment (TIS):
- Trước hết, xây dựng tập từ điển đồng nghĩa với “bullish” và “bearish”.
- Sau khi xây dựng xong tập từ điển đồng nghĩa, xác định một tweet là tăng nếu chứa từ “bullish” hoặc từ đồng nghĩa với “bullish” và là giảm nếu chứa từ
“bearish” hoặc từ đồng nghĩa với “bearish”.
- Trên cơ sở số lượng tweet tăng và giảm vào một ngày nhất định, tính ra điểm số tâm trạng TIS của ngày t, công thức tính như sau:
𝑇𝐼𝑆𝑡 = 𝑁𝑏𝑢𝑙𝑙
𝑁𝑏𝑢𝑙𝑙 + 𝑁𝑏𝑒𝑎𝑟 (2)
Trong đó, Nbull là số tweet tăng của ngày t và Nbear là số tweet giảm của ngày t.
Tweet Volumes of Financial Search Terms (TV-FST):
Áp dụng hướng tiếp cận giống như tính dung lượng truy vấn tìm kiếm tên chứng khoán và tài chính/kinh tế từ Google Trends đã được đề cập ở trên để định nghĩa cho TV- FST. Chúng tôi thực hiện như sau:
- Thực hiện trong cùng một khoảng thời gian: Tính trong một tuần, sử dụng 26 từ truy vấn để tính dung lượng tìm kiếm trên GT và lượng tweet hàng ngày có chứa 1 trong 26 từ truy vấn trên.
- Tính giá trị trung bình hàng tuần so với dung lượng tweets hàng ngày: Bước này quan trọng vì dùng để so sánh Twitter và GT.
- Lấy trung bình theo chuỗi thời gian hàng tuần của GT và Twitter.
Từ thị trường kinh tế và tài chính
Tiến hành thu thập dữ liệu hàng ngày và hàng tuần về chỉ số DJIA từ Yahoo! Finance. Thêm vào đó, thực hiện xây dựng hàm thống kê R cho giá cổ phiếu S(t) trong một khoảng thời gian ∆𝑡:
𝑅∆𝑡 = 𝑙𝑜𝑔𝑆 𝑡 + ∆𝑡 − 𝑙𝑜𝑔𝑆(𝑡) (3) Trong đó,
𝑅∆𝑡 là hàm thống kê R,
𝑆(𝑡) là giá cổ phiếu của ngày t
∆𝑡= 1.
3.2.2. Dự đoán chỉ số DJIA dựa trên dung lượng tìm kiếm từ Google Trends
Phân tích sự tương quan giữa dung lượng tìm kiếm và chỉ số DJIA
- Thực hiện việc so sánh dung lượng tuy vấn tìm kiếm 26 thuật ngữ về tài chính trên GT với chỉ số DJIA trong khoảng thời gian n tuần (theo thời gian thu thập dữ liệu). - Giữ các thuật ngữ tìm kiếm có mối tương quan cao nhất với chỉ số DJIA tương ứng
cho mỗi chuỗi thời gian.
- Để đánh giá thời gian trễ của mối tương quan giữa dung lượng tìm kiếm và chuỗi thời gian tài chính, chúng tôi tính toán tương quan chéo. Xét hai chuỗi
𝑥 = 𝑥1, … , 𝑥𝑛 và chuỗi 𝑦 = 𝑦1, … , 𝑦𝑛 tương quan chéo gama với độ trễ k được tính như sau:
𝛾 = 𝑥𝑖 𝑖+𝑘 − 𝑥 𝑦𝑖 − 𝑦 𝑥𝑖 𝑖+𝑘 − 𝑥 2 𝑦𝑖 𝑖 − 𝑦 2
4
Trong đó,
𝛾 là giá trị tương quan chéo của chuỗi x và chuỗi y
𝑥 và 𝑦 là giá trị trung bình của x và y tương ứng.
Sử dụng hàm tương quan chéo ccf và hàm thống kê R. ví dụ, ccf(x;y) ước lượng tương quan giữa x[t+k] và y[t], có nghĩa là giữ nguyên y, thay đổi x về phía trước hoặc phía sau thời gian trễ k. Nếu k > 0, y là dự đoán của x và ngược lại.
Phân tích nhân quả Granger
Tiếp tục tinh chỉnh các quan sát ở trên bằng cách kiểm tra với quan hệ nhân quả Granger, một kỹ thuật được sử dụng rộng rãi để phân tích mối quan hệ giữa chuỗi thời gian về kinh tế.
Kiểm tra quan hệ nhân quản Granger để xác định xem một chuỗi thời gian X(t) có hữu ích trong việc dự báo một chuỗi thời gian Y(t) hay không bằng cách phủ định rằng X(t) là không có giá trị dự báo.
Nếu muốn kiểm tra quan hệ nhân quả giữa X và Y, chúng ta kiểm tra cách biểu diễn Y
của biến Y (chỉ số DJIA) thì sự thay đổi của X sẽ có trước sự thay đổi của Y, với hai điều kiện phải có được đó là:
Thứ nhất, nếu X giúp cho việc dự đoán Ytức là trong hồi quy của Y đối với các giá trị
trễ của Y và những giá trị trễ của X là các biến độc lập, sẽ đóng góp một cách có ý nghĩa vào khả năng giải thích của hồi quy.
Thứ hai, Y không giúp cho dự đoán của X. Vì rằng nếu X giúp cho dự đoán của Y, và Y
lại giúp cho dự đoán X thì điều này dường như là có một số biến khác đang gây ra sự thay đổi của cả X và Y.
Cách này phổ biến trong thực tế để xem xét cả hai chiều tác động (X là nguyên nhân của Y, Y là nguyên nhân của X). Trong khi quan hệ nhân quả theo Granger chúng ta đặt giả thuyết kiểm định X không là nguyên nhân của Y, và nếu có thể bác bỏ giả thuyết này, nó ngụ ý rằng X là nguyên nhân của Y.
Để kiểm định các ràng buộc này, ta có thể sử dụng ba cách kiểm định: Likelihood Ratio (LR), thống kê F của kiểm định Wald, và Lagrane Multiplier (LM). Ý tưởng cơ bản của ba thủ tục kiểm định này là đánh giá sự khác biện giữa mô hình giới hạn và mô hình không giới hạn. Nếu các ràng buộc này không ảnh hưởng nhiều đến mức độ phù hợp của mô hình, thì chúng ta có thể chấp nhận các ràng buộc đó là hợp lý. Ngược lại nếu mô hình giới hạn không phù hợp bằng mô hình không giới hạn, thì chúng ta có thể bác bỏ giả thuyết 𝐻0 (bác bỏ mô hình giới hạn). Ngoài ra, LR thường được sử dụng để kiểm định có nên đưa thêm hay bỏ bớt một hoặc một số biến giải thích vào hoặc ra khỏi mô hình hay không.
Trong luận văn này, chúng tôi sử dụng kiểm định LR, cách quyết định nhân quả Granger như sau:
- Nhân quả Granger một chiều từ X sang Y nếu các biến trễ của X có tác động lên Y, nhưng các biến trễ của Y không tác động lên X.
- Nhân quả Granger một chiều từ Y sang X nếu các biến trễ của Y có tác động lên X, nhưng các biến trễ của X không tác động lên Y.
- Nhân quả Granger hai chiều giữa X và Y nếu các biến trễ của X tác động lên Y và các biến trễ của Y tác động lên X.
- Không có quan hệ nhân quả Granger giữa X và Y nếu các biến trễ của X không có tác động lên Y và các biến trễ của Y không tác động lên X.
Với giả định rằng khi các yếu tố khác không đổi thì dữ liệu chuỗi thời gian là chuỗi dữ liệu duy nhất hàm chứa đầy đủ các thông tin thích hợp để giải thích cho những sự thay đổi trong mối quan hệ giữa các biến.
- Các biến chỉ số tâm trạng, chỉ số DJIA phải là các chuỗi dừng và/hoặc đồng liên kết (không có hiện tượng tương quan giả).
- Chiều hướng của mối quan hệ nhân quả cso thể phụ thuộc vào số biến trong mô hình. Nói cách khác, kết quả kiểm định Granger rất nhạy cảm với việc lựa chọn độ trễ các biến. Nếu độ trễ được chọn nhỏ nhơn độ trễ thực sự, thì việc bỏ sót biến trễ thích hợp có thể làm lệch kết quả. Ngược lại, nếu lớn hơn, thì số biến trễ không thích hợp sẽ làm cho các ước lượng không hiệu quả.
- Các phần dư không có hiện tượng tự tương quan. Nếu có hiện tượng tương quan cần phải thực hiện việc chuyển sang một dạng mô hình thích hợp hơn.
3.2.3. Dự đoán chỉ số DJIA dựa trên dữ liệu Twitter, máy tìm kiếm và trang tin tức
Phân tích mối tương quan
Xét 3 chỉ số tâm trạng hàng ngày:Twitter Investor Sentiment (TIS), Tweet Volume of Financial Search Terms (TV-FST), Negative News Sentiment (NNS). Theo Mao và cộng sự, chỉ số TV-FST thể hiện mối tương quan tiêu cực với TIS và mối tương quan tích cực với NNS. Từ tập dữ liệu thu thập, tính ra 3 chỉ số tâm trạng trên. Sau đó chỉ ra mối quan hệ giữa các giá trị của chỉ số tâm trạng.
Phân tích nhân quả Granger
Dự đoán thị trường chứng khoán là một vấn đề được quan tâm đáng kể. Để xác định xem bất kỳ chỉ số tâm trạng trên là hữu ích trong việc dự đoán chỉ số DJIA, chúng tôi tiến hành phân tích quan hệ nhân quả Granger. Đầu tiên, phân tích mối tương quan giữa dung lượng tìm kiếm từ khóa liên quan đến tài chính cá nhân và giá trị hàm log. Sau đó, lựa chọn từ khóa tìm kiếm mà dung lượng tìm kiếm thể hiện mối tương quan ý nghĩa nhất với giá trị hàm log. Tiếp theo, lấy giá trị trung bình của chuỗi thời gian để gán cho chỉ số TV- FST.
Mao và cộng sự đã tìm thấy hệ nhân quả Granger có ý nghĩa thống kê trong cả hai hướng giữa giá trị hàm log và TIS, NNS và TV-FST với trường hợp độ trễ = 1.
Chƣơng 4. Thực nghiệm và kết quả
Dựa vào mô hình đề xuất ở chương 3, chúng tôi tiến hành thực nghiệm việc dự đoán xu hướng chứng khoán, dữ liệu thực nghiệm lấy trong khoảng thời gian từ 25/09/2014 đến 25/10/2014.
Môi trường và các công cụ sử dụng thực nghiệm
Cấu hình phần cứng
Thành phần Chỉ số
CPU Core 2 Duo P7370 2.00 GHz
RAM 3 GB
OS Windows 7 Ultimate
Bộ nhớ ngoài 160 GB
Bảng 6. Cấu hình phần cứng sử dụng trong thực nghiệm
Các công cụ phần mềm/thư viện sử dụng:
STT Tên phần
mềm Tác giả Chức năng Nguồn
1 Eclipse -SDK- 3.4.1-win32 Môi trường phát triển phần mềm http://www.eclipse.org/dowloads 2 JvnTextpro Cam-Tu Nguyen Xuan-Hieu Phan Thu-Trang Nguyen Tách câu, tách từ http://jvntextpro.sourceforge.net/ 3 RegexBuddy 3.4.2
Just Great Software Co.Ltd. Xây dựng biểu thức chính quy www.regexbuddy.com 4 IDM 6.18 Crawler trang web http://www.internetdownloadmanag er.com Bảng 7: Các công cụ phần mềm sử dụng
Ngoài các công cụ trên, chúng tôi tiến hành cài đặt các module xử lý dựa trên ngôn ngữ Java, bao gồm các package chính sau:
InfomationExtraction.dataProcess: Trích rút tiêu đề và nội dung tóm tắt của bài báo trên các trang tin tức
SentimentIndex.DataProcess: Tính toán chỉ số tâm trạng NNS, TIS, TV-FST
Util: Chứa các hàm tiện ích để đọc, ghi file, …
4.1.Dự đoán chỉ số DJIA dựa trên dữ liệu dung lượng tìm kiếm từ Google Trends
Chúng tôi tiến hành mở rộng tập từ khóa liên quan đến tài chính. Xuất phát từ 26 từ khóa theo Mao và cộng sự, chúng tôi sử dụng chính tính năng Related searches của Google Trends để mở rộng từ khóa truy vấn. Ví dụ với từ khóa Stock market
Hình 5: Mở rộng từ khóa truy vấn
Bƣớc 2: Thu thập dung lƣợng truy vấn từ khóa
Tiếp theo chúng tôi sử dụng tập từ khóa thu được truy vấn trên Google Trends và thống kê dung lượng truy vấn từ khóa từ ngày 25/9/2014 đến 25/10/2014 (tương đương với khoảng thời gian thu thập chỉ số DJIA).
Sau khi trích xuất ra thời gian và dung lượng tìm kiếm, chúng tôi biểu diễn kết quả tìm kiếm thông qua hàm log và tiến hành tính toán độ tương quan giữa dung lượng tìm kiếm với chỉ số DJIA. Dưới đây là kết quả mối tương quan của 9 từ khóa tìm kiếm phổ biến nhất:
Từ khóa truy vấn DJIA Volume
DJIA -0.012 0.008
Dow -0.098 0.005
Dow Jones -0.05 0.004
Dow Jones Industrial Average -0.032 0.005 Stock market news -0.247 -0.006
Finance 0.028 0.001
Stock market today -0.23 -0.004 Financial news -0.119 -0.002
Stock -0.07 0
Bảng 8: Mối tương quan giữa DJIA và Volume tìm kiếm trên Google Trends
Bƣớc 3: Phân tích dự báo
Từ bảng dữ liệu trên, chúng ta thấy chuỗi kết quả của dung lượng tìm kiếm có mối quan hệ tiêu cực với chỉ số DJIA, đồng nghĩa với việc giá DJIA sẽ có xu hướng giảm.
Hình 7: Mối tương quan giữa DJIA và Volume tìm kiếm trên Google Trends
-0.3 -0.25 -0.2 -0.15 -0.1 -0.05 0 0.05 1 2 3 4 5 6 7 8 9 DJIA Volume
Hình 8: Chỉ số DJIA của các ngày từ 25/9/2014 đến 25/10/2014
4.2.Dự đoán chỉ số DJIA dựa trên miền dữ liệu từ các trang tin tức và Twitter
Bƣớc 1: Thu thập dữ liệu từ nguồn các trang tin tức
Chúng tôi tiến hành thu thập các tin bài từ mục thị trường chứng khoán và kinh doanh của các trang: Wall Street Journal, Bloomberg, Reuters Bussiness & Finance, BussinessWeek, Financial Times, CNN-Money và CNBC trong khoảng thời gian tương ứng với thời gian thu thập chỉ số DJIA (từ 25/09/2014 đến 25/10/2014). Để bổ sung thêm thông tin, sau khi thu thập các tin bài, ngoài việc trích xuất tiêu đề bài báo, chúng tôi tiến hành trích xuất thêm đoạn tóm tắt của bài báo. Ví dụ:
15600 15800 16000 16200 16400 16600 16800 17000 17200 DJIA DJIA
Hình 9: Tiêu đề và đoạn tóm tắt của bài báo
Sau khi trích xuất xong dữ liệu, chúng tôi tiến hành tách từ và sử dụng từ điển của Loughran và McDonald để xác định các từ tiêu cực trong tập dữ liệu tiêu đề và đoạn tóm tắt của bài báo:
Tiếp theo, chúng tôi thống kê tổng số từ mang tính tiêu cực và tính chỉ số tâm trạng