Bƣớc 3: Tính toán chỉ số tâm trạng NNS, TIS và TV-FST
Tính chỉ số NNS: Sau khi đếm được số lần xuất hiện của từ mang tính tiêu cực, chúng tôi tiến hành tính toán chỉ số tâm trạng NNS bằng cách lấy tần số xuất hiện chia cho tổng số bài bài báo đã thu thập.
Tính chỉ số TIS: Lấy tần suất xuất hiện từ “bullish” chia cho tổng tần suất xuất hiện “bullish” và tần suất xuất hiện “bearish”.
Tính chỉ số TV-FST: tương tự như dung lượng tìm kiếm, chúng tôi sử dụng tập từ khóa liên quan đến tài chính, truy vấn trong tập dữ liệu tweets rồi tính toán chỉ số TV- FST dựa trên tần suất xuất hiện của các từ khóa đó.
0 10000 20000 30000 40000 50000 60000 Số lượng tweets Số lượng tweets 0 20 40 60 80 100 120 Bullish Bearish
Sau khi tính toán, chúng tôi thu được kết quả về mối quan hệ giữa các chỉ số như sau:
NNS TIS TV-FST
NNS 1
TIS -0.285 1
TV-FST 0.032 0.338 1
Từ kết quả trên cho thấy, chỉ số NSS có quan hệ tiêu cực với chỉ số TIS và quan hệ tích cực với chỉ số TV-FST, hai chỉ số TIS và TV-FST có quan hệ tích cực với nhau.
Tiếp theo tiến hành phân tích mối quan hệ giữa các chỉ số tâm trạng và chỉ số DJIA, kết quả như sau:
DJIA
NNS -0.184
TIS 0.093
TV-FST 0.135
Chúng tôi quan sát thấy rằng, chỉ số NNS có quan hệ tiêu cực với chỉ số DJIA, còn chỉ số TIS và chỉ số TV-FST quan hệ tích cực với DJIA. Như vậy, “tăng” có nghĩa là tâm trạng tiêu cực, “giảm” trong khi chỉ số tâm trạng tích cực.
Dữ liệu hàng ngày, chỉ số TIS và TV-FST nhiễu khá nhiều, song chỉ số tâm trạng tiêu cực tăng không đáng kể so với giai đoạn trước khi DJIA giảm giá.
Kết luận
Kết quả đạt đƣợc của luận văn:
Trong luận văn này, chúng tôi đã tìm hiểu được một số phương pháp phân tích tâm trạng, một số kỹ thuật dự báo xu hướng thị trường chứng khoán.
Từ tham khảo các kết quả nghiên cứu về dự báo xu hướng thị trường chứng khoán, đặc biệt là các kết quả của Mao cùng cộng sư [MCB11] và Johan Bollen cùng cộng sự [BMZ11], chúng tôi đề xuất mô hình dự báo xu hướng của chỉ số chứng khoán DJIA dựa trên phân tích tâm trạng trên miền dữ liệu các trang tin tức, máy tìm kiếm và Twitter.
Chúng tôi đã cài đặt, thử nghiệm việc trích chọn tập tiêu đề, các câu tóm tắt của một số trang báo mạng về kinh tế, tài chính và thị trường chứng khoán; trích xuất dung lượng tìm kiếm các từ khóa liên quan đến thị trường chứng khoán từ Google Trends; thu thập dữ liệu tweets từ Twitter; thu thập chỉ số DJIA từ Yahoo! Finance; tính toán các chỉ số tâm trạng NNS (Negative News Sentiment), TIS (Twitter Investor Sentiment) và TV- FST (Tweet Volume of Financial Search Terms); thống kê và phân tích dự báo xu hướng của chỉ số chứng khoán DJIA.
Các hạn chế còn tồn tại:
Bước tính toán chỉ số tâm trạng phụ thuộc nhiều vào việc tách câu, tách từ, do đó nếu kết quả của việc tách câu, tách từ không tốt, sẽ ảnh hưởng đến kết quả của bài toán.
Đối với bước dự đoán: đây được xem như là bài toán thống kê, do đó cần khảo sát, thu thập và phân tích trên tập dữ liệu lớn, tuy nhiên luận văn mới chỉ thực nghiệm dữ liệu trong vòng 1 tháng, chủ yếu là để thực hiện luồng của mô hình nên kết quả dự đoán còn hạn chế.
Bài toán dự đoán là một bài toán khó, đặc biệt trong lĩnh vực tài chính, chứng khoán. Kết quả dự đoán có độ chính xác tương đối, người dùng sử dụng thông tin này chỉ mang tính chất tham khảo, không hoàn toàn phụ thuộc để đưa ra quyết định. Đây là một bài toán lớn, gồm nhiều phần phức tạp, do thời gian, cũng như kiến thức có hạn nên luận văn chưa thực hiện được một hệ thống hoàn chỉnh.
Định hƣớng tƣơng lai:
Chúng tôi thử nghiệm bổ sung thêm việc áp dụng một số phương pháp trích rút quan hệ gần nghĩa và kỹ thuật boostrapping trong trích rút quan hệ ngữ nghĩa để mở rộng từ khóa truy vấn, tiếp tục thực nghiệm, thống kê, đánh giá kết quả dự đoán xu hướng chỉ số chứng khoán DJIA.
TÀI LIỆU THAM KHẢO
Tiếng Việt:
[T14] Phạm Huyền Trang. Một mô hình sử dụng Twitter và một số phương tiện xã hội
khác dự báo xu hướng chỉ số chứng khoán của APPLE. Luận văn thạc sỹ trường Đại học
Công nghệ - ĐHQGHN, 2014.
Tiếng Anh:
[VCH12] Tien Thanh Vu, Shu Chang, Quang Thuy Ha and Nigel Collier (2012). An
Experiment in Integrating Sentiment Features for Tech Stock Prediction in Twitter,
IEEASMD 2012
[KS12] Akshi Kumar and Teeja Mary Sebastian. Sentiment Analysis on Twitter. IJCSI International Journal of Computer Science Issues, Vol. 9, Issue 4, No 3, July 2012 .
[AA12] Anshul Mittal, Arpit Goel (2012). Stock Prediction Using Twitter Sentiment
Analysis. Standford University, CS229.
[YK12] Sheng Yu, Subhash Kak (2012). A Survey of Prediction Using Social Media, CoRR abs/1203.1647: (2012), http://arxiv.org/abs/1203.1647.
[TBP12] Mike Thelwall, Kevan Buckley, and Georgios Paltoglou. Sentiment Strength
Detection for the SocialWeb, JASIST 63(1): 163-173 (2012).
[MCB11] Huina Mao, Scott Counts, Johan Bollen. Predicting Financial Markets:
Comparing Survey, News, Twitter and Search Engine Data.CoRR abs/1112.1051 (2011)
[JYZ11] Long Jiang, Mo Yu, Ming Zhou. Target-dependent Twitter Sentiment
Classification, Association for Computational Linguistics Stroudsburg, PA, USA ©2011
[CL11] Sang Chung & Sandy Liu. Predicting Stock Market Fluctuations from Twitter.
2011, Stat 157, Professor Aldous.
[BMZ11]Johan Bollena,Huina Maoa,Xiaojun Zengb. Twitter mood predicts the stock
market, Journal of Computational Science2 (2011): 1–8
[ZFG11] Xue Zhang, Hauke Fuehres, Peter A. Gloor. Predicting Stock Market Indicators Through Twitter “I hope it is not as bad as I fear”. Procedia - Social and Behavioral Sciences 26 ( 2011 ): 55 – 62.
[LD11] T. Loughran and B. McDonald. When is a liability not a liability?
Textualanalysis, dictionaries, and 10-ks. Journal of Finance, 66(1):67–97, 2011.
[KXM10] Kunlun Li, Xuerong Luo and Ming Jin (2010). Semi-supervised Learning for
[BF10] Luciano Barbosa and Junlan Feng. 2010. Robust SentimentDetection on Twitter
from Biased and NoisyData. Coling 2010.
[DEG10]Z. Da, J. Engelberand, and P. Gao. The sum of all fears: investor sentiment and
asset prices. http://ssrn.com/abstract=1509162, 2010.
[GBH09] Alec Go, Richa Bhayani, Lei Huang. 2009. Twitter SentimentClassification using Distant Supervision.
[SC09] R. Schumaker and H. Chen. Textual analysis of stock market prediction using
breaking financial news: Theazfintext system. ACM Transactionson Information Systems,
27(2), 2009.
[CSJ08] M. De Choudhury, H. Sundaram, A. John, and D. D. Seligmann, “Can
blogcommunicationdynamics be correlated with stock market activity?,” HT ’08, 2008,
vol. 2, no. 1, p. 55.
[TTM08] P. C. Tetlock, M. Saar-Tsechansky, and S. Macskassy. More than words:
Quantifying language to measure firms’ fundamentals. Journalof Finance, 63:1437–1467,
2008.
[T07] P. C. Tetlock. Giving content to investor sentiment: The role of media in the stock
market. Journal of Finance, 62(3):1139–1168, 2007.
[C03] W. Chan. Stock price reaction to news and to no-news- drift and reversal after
headlines. Journal of Financial Economics, 70:223–236, 2003
[H99] Eui-Hong Han, Text Categorization Using Weight Adjusted k-Nearest Neighbor
Classification. PhD thesis, University of Minnesota, October 1999.
[J98] T. Joachims, Text categorization with Support Vector Machines: Learningwith
many relevant features. In Machine Learning: ECML-98, Tenth EuropeanConference on
Machine Learning, pp. 137-142
[YJ97] Yiming Yang, Jan O.Pedersen (1997). A comparative study on feature selection in
text categorization. In Proceedings of ICML-97, 14th International Conference on