Các công cụ phần mềm/thư viện sử dụng:
STT Tên phần
mềm Tác giả Chức năng Nguồn
1 Eclipse -SDK- 3.4.1-win32 Môi trường phát triển phần mềm http://www.eclipse.org/dowloads 2 JvnTextpro Cam-Tu Nguyen Xuan-Hieu Phan Thu-Trang Nguyen Tách câu, tách từ http://jvntextpro.sourceforge.net/ 3 RegexBuddy 3.4.2
Just Great Software Co.Ltd. Xây dựng biểu thức chính quy www.regexbuddy.com 4 IDM 6.18 Crawler trang web http://www.internetdownloadmanag er.com Bảng 7: Các công cụ phần mềm sử dụng
Ngoài các công cụ trên, chúng tôi tiến hành cài đặt các module xử lý dựa trên ngôn ngữ Java, bao gồm các package chính sau:
InfomationExtraction.dataProcess: Trích rút tiêu đề và nội dung tóm tắt của bài báo trên các trang tin tức
SentimentIndex.DataProcess: Tính toán chỉ số tâm trạng NNS, TIS, TV-FST
Util: Chứa các hàm tiện ích để đọc, ghi file, …
4.1.Dự đoán chỉ số DJIA dựa trên dữ liệu dung lượng tìm kiếm từ Google Trends
Chúng tôi tiến hành mở rộng tập từ khóa liên quan đến tài chính. Xuất phát từ 26 từ khóa theo Mao và cộng sự, chúng tôi sử dụng chính tính năng Related searches của Google Trends để mở rộng từ khóa truy vấn. Ví dụ với từ khóa Stock market
Hình 5: Mở rộng từ khóa truy vấn
Bƣớc 2: Thu thập dung lƣợng truy vấn từ khóa
Tiếp theo chúng tôi sử dụng tập từ khóa thu được truy vấn trên Google Trends và thống kê dung lượng truy vấn từ khóa từ ngày 25/9/2014 đến 25/10/2014 (tương đương với khoảng thời gian thu thập chỉ số DJIA).
Sau khi trích xuất ra thời gian và dung lượng tìm kiếm, chúng tôi biểu diễn kết quả tìm kiếm thông qua hàm log và tiến hành tính toán độ tương quan giữa dung lượng tìm kiếm với chỉ số DJIA. Dưới đây là kết quả mối tương quan của 9 từ khóa tìm kiếm phổ biến nhất:
Từ khóa truy vấn DJIA Volume
DJIA -0.012 0.008
Dow -0.098 0.005
Dow Jones -0.05 0.004
Dow Jones Industrial Average -0.032 0.005 Stock market news -0.247 -0.006
Finance 0.028 0.001
Stock market today -0.23 -0.004 Financial news -0.119 -0.002
Stock -0.07 0
Bảng 8: Mối tương quan giữa DJIA và Volume tìm kiếm trên Google Trends
Bƣớc 3: Phân tích dự báo
Từ bảng dữ liệu trên, chúng ta thấy chuỗi kết quả của dung lượng tìm kiếm có mối quan hệ tiêu cực với chỉ số DJIA, đồng nghĩa với việc giá DJIA sẽ có xu hướng giảm.
Hình 7: Mối tương quan giữa DJIA và Volume tìm kiếm trên Google Trends
-0.3 -0.25 -0.2 -0.15 -0.1 -0.05 0 0.05 1 2 3 4 5 6 7 8 9 DJIA Volume
Hình 8: Chỉ số DJIA của các ngày từ 25/9/2014 đến 25/10/2014
4.2.Dự đoán chỉ số DJIA dựa trên miền dữ liệu từ các trang tin tức và Twitter
Bƣớc 1: Thu thập dữ liệu từ nguồn các trang tin tức
Chúng tôi tiến hành thu thập các tin bài từ mục thị trường chứng khoán và kinh doanh của các trang: Wall Street Journal, Bloomberg, Reuters Bussiness & Finance, BussinessWeek, Financial Times, CNN-Money và CNBC trong khoảng thời gian tương ứng với thời gian thu thập chỉ số DJIA (từ 25/09/2014 đến 25/10/2014). Để bổ sung thêm thông tin, sau khi thu thập các tin bài, ngoài việc trích xuất tiêu đề bài báo, chúng tôi tiến hành trích xuất thêm đoạn tóm tắt của bài báo. Ví dụ:
15600 15800 16000 16200 16400 16600 16800 17000 17200 DJIA DJIA
Hình 9: Tiêu đề và đoạn tóm tắt của bài báo
Sau khi trích xuất xong dữ liệu, chúng tôi tiến hành tách từ và sử dụng từ điển của Loughran và McDonald để xác định các từ tiêu cực trong tập dữ liệu tiêu đề và đoạn tóm tắt của bài báo:
Tiếp theo, chúng tôi thống kê tổng số từ mang tính tiêu cực và tính chỉ số tâm trạng NNS (Negative News Sentiment).
Hình 10: Tần suất xuất hiện của một số từ tiêu cực trên các trang tin tức tài chính từ ngày 25/09/2014 đến 25/10/2014
Bƣớc 2: Thu thập dữ liệu từ Twitter
Chúng tôi tiến hành thu thập dữ liệu từ Twitter trong khoảng thời gian tương ứng từ ngày 25/09/2014 đến 25/10/2014 và tính số lần xuất hiện từ khóa “bullish” và “bearish”. Kết quả thu được như sau:
Thời gian Số tweets thu đƣợc
Tuần 1 188820
Tuần 2 112644
Tuần 3 119243
Tuần 4 110255
Bảng 9: Kết quả thu thập tweets trên Twitter
0 20 40 60 80 100 120 140 160 180 200
Tần suất xuất hiện
Hình 11: Số lượng tweets thu thập trong mỗi ngày
Hình 12: Tần suất “Bullish” và “Bearish” thu thập trong mỗi ngày
Bƣớc 3: Tính toán chỉ số tâm trạng NNS, TIS và TV-FST
Tính chỉ số NNS: Sau khi đếm được số lần xuất hiện của từ mang tính tiêu cực, chúng tôi tiến hành tính toán chỉ số tâm trạng NNS bằng cách lấy tần số xuất hiện chia cho tổng số bài bài báo đã thu thập.
Tính chỉ số TIS: Lấy tần suất xuất hiện từ “bullish” chia cho tổng tần suất xuất hiện “bullish” và tần suất xuất hiện “bearish”.
Tính chỉ số TV-FST: tương tự như dung lượng tìm kiếm, chúng tôi sử dụng tập từ khóa liên quan đến tài chính, truy vấn trong tập dữ liệu tweets rồi tính toán chỉ số TV- FST dựa trên tần suất xuất hiện của các từ khóa đó.
0 10000 20000 30000 40000 50000 60000 Số lượng tweets Số lượng tweets 0 20 40 60 80 100 120 Bullish Bearish
Sau khi tính toán, chúng tôi thu được kết quả về mối quan hệ giữa các chỉ số như sau:
NNS TIS TV-FST
NNS 1
TIS -0.285 1
TV-FST 0.032 0.338 1
Từ kết quả trên cho thấy, chỉ số NSS có quan hệ tiêu cực với chỉ số TIS và quan hệ tích cực với chỉ số TV-FST, hai chỉ số TIS và TV-FST có quan hệ tích cực với nhau.
Tiếp theo tiến hành phân tích mối quan hệ giữa các chỉ số tâm trạng và chỉ số DJIA, kết quả như sau:
DJIA
NNS -0.184
TIS 0.093
TV-FST 0.135
Chúng tôi quan sát thấy rằng, chỉ số NNS có quan hệ tiêu cực với chỉ số DJIA, còn chỉ số TIS và chỉ số TV-FST quan hệ tích cực với DJIA. Như vậy, “tăng” có nghĩa là tâm trạng tiêu cực, “giảm” trong khi chỉ số tâm trạng tích cực.
Dữ liệu hàng ngày, chỉ số TIS và TV-FST nhiễu khá nhiều, song chỉ số tâm trạng tiêu cực tăng không đáng kể so với giai đoạn trước khi DJIA giảm giá.
Kết luận
Kết quả đạt đƣợc của luận văn:
Trong luận văn này, chúng tôi đã tìm hiểu được một số phương pháp phân tích tâm trạng, một số kỹ thuật dự báo xu hướng thị trường chứng khoán.
Từ tham khảo các kết quả nghiên cứu về dự báo xu hướng thị trường chứng khoán, đặc biệt là các kết quả của Mao cùng cộng sư [MCB11] và Johan Bollen cùng cộng sự [BMZ11], chúng tôi đề xuất mô hình dự báo xu hướng của chỉ số chứng khoán DJIA dựa trên phân tích tâm trạng trên miền dữ liệu các trang tin tức, máy tìm kiếm và Twitter.
Chúng tôi đã cài đặt, thử nghiệm việc trích chọn tập tiêu đề, các câu tóm tắt của một số trang báo mạng về kinh tế, tài chính và thị trường chứng khoán; trích xuất dung lượng tìm kiếm các từ khóa liên quan đến thị trường chứng khoán từ Google Trends; thu thập dữ liệu tweets từ Twitter; thu thập chỉ số DJIA từ Yahoo! Finance; tính toán các chỉ số tâm trạng NNS (Negative News Sentiment), TIS (Twitter Investor Sentiment) và TV- FST (Tweet Volume of Financial Search Terms); thống kê và phân tích dự báo xu hướng của chỉ số chứng khoán DJIA.
Các hạn chế còn tồn tại:
Bước tính toán chỉ số tâm trạng phụ thuộc nhiều vào việc tách câu, tách từ, do đó nếu kết quả của việc tách câu, tách từ không tốt, sẽ ảnh hưởng đến kết quả của bài toán.
Đối với bước dự đoán: đây được xem như là bài toán thống kê, do đó cần khảo sát, thu thập và phân tích trên tập dữ liệu lớn, tuy nhiên luận văn mới chỉ thực nghiệm dữ liệu trong vòng 1 tháng, chủ yếu là để thực hiện luồng của mô hình nên kết quả dự đoán còn hạn chế.
Bài toán dự đoán là một bài toán khó, đặc biệt trong lĩnh vực tài chính, chứng khoán. Kết quả dự đoán có độ chính xác tương đối, người dùng sử dụng thông tin này chỉ mang tính chất tham khảo, không hoàn toàn phụ thuộc để đưa ra quyết định. Đây là một bài toán lớn, gồm nhiều phần phức tạp, do thời gian, cũng như kiến thức có hạn nên luận văn chưa thực hiện được một hệ thống hoàn chỉnh.
Định hƣớng tƣơng lai:
Chúng tôi thử nghiệm bổ sung thêm việc áp dụng một số phương pháp trích rút quan hệ gần nghĩa và kỹ thuật boostrapping trong trích rút quan hệ ngữ nghĩa để mở rộng từ khóa truy vấn, tiếp tục thực nghiệm, thống kê, đánh giá kết quả dự đoán xu hướng chỉ số chứng khoán DJIA.
TÀI LIỆU THAM KHẢO
Tiếng Việt:
[T14] Phạm Huyền Trang. Một mô hình sử dụng Twitter và một số phương tiện xã hội
khác dự báo xu hướng chỉ số chứng khoán của APPLE. Luận văn thạc sỹ trường Đại học
Công nghệ - ĐHQGHN, 2014.
Tiếng Anh:
[VCH12] Tien Thanh Vu, Shu Chang, Quang Thuy Ha and Nigel Collier (2012). An
Experiment in Integrating Sentiment Features for Tech Stock Prediction in Twitter,
IEEASMD 2012
[KS12] Akshi Kumar and Teeja Mary Sebastian. Sentiment Analysis on Twitter. IJCSI International Journal of Computer Science Issues, Vol. 9, Issue 4, No 3, July 2012 .
[AA12] Anshul Mittal, Arpit Goel (2012). Stock Prediction Using Twitter Sentiment
Analysis. Standford University, CS229.
[YK12] Sheng Yu, Subhash Kak (2012). A Survey of Prediction Using Social Media, CoRR abs/1203.1647: (2012), http://arxiv.org/abs/1203.1647.
[TBP12] Mike Thelwall, Kevan Buckley, and Georgios Paltoglou. Sentiment Strength
Detection for the SocialWeb, JASIST 63(1): 163-173 (2012).
[MCB11] Huina Mao, Scott Counts, Johan Bollen. Predicting Financial Markets:
Comparing Survey, News, Twitter and Search Engine Data.CoRR abs/1112.1051 (2011)
[JYZ11] Long Jiang, Mo Yu, Ming Zhou. Target-dependent Twitter Sentiment
Classification, Association for Computational Linguistics Stroudsburg, PA, USA ©2011
[CL11] Sang Chung & Sandy Liu. Predicting Stock Market Fluctuations from Twitter.
2011, Stat 157, Professor Aldous.
[BMZ11]Johan Bollena,Huina Maoa,Xiaojun Zengb. Twitter mood predicts the stock
market, Journal of Computational Science2 (2011): 1–8
[ZFG11] Xue Zhang, Hauke Fuehres, Peter A. Gloor. Predicting Stock Market Indicators Through Twitter “I hope it is not as bad as I fear”. Procedia - Social and Behavioral Sciences 26 ( 2011 ): 55 – 62.
[LD11] T. Loughran and B. McDonald. When is a liability not a liability?
Textualanalysis, dictionaries, and 10-ks. Journal of Finance, 66(1):67–97, 2011.
[KXM10] Kunlun Li, Xuerong Luo and Ming Jin (2010). Semi-supervised Learning for
[BF10] Luciano Barbosa and Junlan Feng. 2010. Robust SentimentDetection on Twitter
from Biased and NoisyData. Coling 2010.
[DEG10]Z. Da, J. Engelberand, and P. Gao. The sum of all fears: investor sentiment and
asset prices. http://ssrn.com/abstract=1509162, 2010.
[GBH09] Alec Go, Richa Bhayani, Lei Huang. 2009. Twitter SentimentClassification using Distant Supervision.
[SC09] R. Schumaker and H. Chen. Textual analysis of stock market prediction using
breaking financial news: Theazfintext system. ACM Transactionson Information Systems,
27(2), 2009.
[CSJ08] M. De Choudhury, H. Sundaram, A. John, and D. D. Seligmann, “Can
blogcommunicationdynamics be correlated with stock market activity?,” HT ’08, 2008,
vol. 2, no. 1, p. 55.
[TTM08] P. C. Tetlock, M. Saar-Tsechansky, and S. Macskassy. More than words:
Quantifying language to measure firms’ fundamentals. Journalof Finance, 63:1437–1467,
2008.
[T07] P. C. Tetlock. Giving content to investor sentiment: The role of media in the stock
market. Journal of Finance, 62(3):1139–1168, 2007.
[C03] W. Chan. Stock price reaction to news and to no-news- drift and reversal after
headlines. Journal of Financial Economics, 70:223–236, 2003
[H99] Eui-Hong Han, Text Categorization Using Weight Adjusted k-Nearest Neighbor
Classification. PhD thesis, University of Minnesota, October 1999.
[J98] T. Joachims, Text categorization with Support Vector Machines: Learningwith
many relevant features. In Machine Learning: ECML-98, Tenth EuropeanConference on
Machine Learning, pp. 137-142
[YJ97] Yiming Yang, Jan O.Pedersen (1997). A comparative study on feature selection in
text categorization. In Proceedings of ICML-97, 14th International Conference on