Cấu hình phần cứng sử dụng trong thực nghiệm

Một phần của tài liệu (LUẬN văn THẠC sĩ) sử dụng kỹ thuật tương quan chéo, kỹ thuật phân tích nhân quả dự đoán xu hướng chỉ số chứng khoán dựa trên phân tích tâm trạng từ phương tiện xã hội (Trang 31)

 Các công cụ phần mềm/thư viện sử dụng:

STT Tên phần

mềm Tác giả Chức năng Nguồn

1 Eclipse -SDK- 3.4.1-win32 Môi trường phát triển phần mềm http://www.eclipse.org/dowloads 2 JvnTextpro Cam-Tu Nguyen Xuan-Hieu Phan Thu-Trang Nguyen Tách câu, tách từ http://jvntextpro.sourceforge.net/ 3 RegexBuddy 3.4.2

Just Great Software Co.Ltd. Xây dựng biểu thức chính quy www.regexbuddy.com 4 IDM 6.18 Crawler trang web http://www.internetdownloadmanag er.com Bảng 7: Các công cụ phần mềm sử dụng

Ngoài các công cụ trên, chúng tôi tiến hành cài đặt các module xử lý dựa trên ngôn ngữ Java, bao gồm các package chính sau:

 InfomationExtraction.dataProcess: Trích rút tiêu đề và nội dung tóm tắt của bài báo trên các trang tin tức

 SentimentIndex.DataProcess: Tính toán chỉ số tâm trạng NNS, TIS, TV-FST

 Util: Chứa các hàm tiện ích để đọc, ghi file, …

4.1.Dự đoán chỉ số DJIA dựa trên dữ liệu dung lượng tìm kiếm từ Google Trends

Chúng tôi tiến hành mở rộng tập từ khóa liên quan đến tài chính. Xuất phát từ 26 từ khóa theo Mao và cộng sự, chúng tôi sử dụng chính tính năng Related searches của Google Trends để mở rộng từ khóa truy vấn. Ví dụ với từ khóa Stock market

Hình 5: Mở rộng từ khóa truy vấn

Bƣớc 2: Thu thập dung lƣợng truy vấn từ khóa

Tiếp theo chúng tôi sử dụng tập từ khóa thu được truy vấn trên Google Trends và thống kê dung lượng truy vấn từ khóa từ ngày 25/9/2014 đến 25/10/2014 (tương đương với khoảng thời gian thu thập chỉ số DJIA).

Sau khi trích xuất ra thời gian và dung lượng tìm kiếm, chúng tôi biểu diễn kết quả tìm kiếm thông qua hàm log và tiến hành tính toán độ tương quan giữa dung lượng tìm kiếm với chỉ số DJIA. Dưới đây là kết quả mối tương quan của 9 từ khóa tìm kiếm phổ biến nhất:

Từ khóa truy vấn DJIA Volume

DJIA -0.012 0.008

Dow -0.098 0.005

Dow Jones -0.05 0.004

Dow Jones Industrial Average -0.032 0.005 Stock market news -0.247 -0.006

Finance 0.028 0.001

Stock market today -0.23 -0.004 Financial news -0.119 -0.002

Stock -0.07 0

Bảng 8: Mối tương quan giữa DJIA và Volume tìm kiếm trên Google Trends

Bƣớc 3: Phân tích dự báo

Từ bảng dữ liệu trên, chúng ta thấy chuỗi kết quả của dung lượng tìm kiếm có mối quan hệ tiêu cực với chỉ số DJIA, đồng nghĩa với việc giá DJIA sẽ có xu hướng giảm.

Hình 7: Mối tương quan giữa DJIA và Volume tìm kiếm trên Google Trends

-0.3 -0.25 -0.2 -0.15 -0.1 -0.05 0 0.05 1 2 3 4 5 6 7 8 9 DJIA Volume

Hình 8: Chỉ số DJIA của các ngày từ 25/9/2014 đến 25/10/2014

4.2.Dự đoán chỉ số DJIA dựa trên miền dữ liệu từ các trang tin tức và Twitter

Bƣớc 1: Thu thập dữ liệu từ nguồn các trang tin tức

Chúng tôi tiến hành thu thập các tin bài từ mục thị trường chứng khoán và kinh doanh của các trang: Wall Street Journal, Bloomberg, Reuters Bussiness & Finance, BussinessWeek, Financial Times, CNN-Money và CNBC trong khoảng thời gian tương ứng với thời gian thu thập chỉ số DJIA (từ 25/09/2014 đến 25/10/2014). Để bổ sung thêm thông tin, sau khi thu thập các tin bài, ngoài việc trích xuất tiêu đề bài báo, chúng tôi tiến hành trích xuất thêm đoạn tóm tắt của bài báo. Ví dụ:

15600 15800 16000 16200 16400 16600 16800 17000 17200 DJIA DJIA

Hình 9: Tiêu đề và đoạn tóm tắt của bài báo

Sau khi trích xuất xong dữ liệu, chúng tôi tiến hành tách từ và sử dụng từ điển của Loughran và McDonald để xác định các từ tiêu cực trong tập dữ liệu tiêu đề và đoạn tóm tắt của bài báo:

Tiếp theo, chúng tôi thống kê tổng số từ mang tính tiêu cực và tính chỉ số tâm trạng NNS (Negative News Sentiment).

Hình 10: Tần suất xuất hiện của một số từ tiêu cực trên các trang tin tức tài chính từ ngày 25/09/2014 đến 25/10/2014

Bƣớc 2: Thu thập dữ liệu từ Twitter

Chúng tôi tiến hành thu thập dữ liệu từ Twitter trong khoảng thời gian tương ứng từ ngày 25/09/2014 đến 25/10/2014 và tính số lần xuất hiện từ khóa “bullish” và “bearish”. Kết quả thu được như sau:

Thời gian Số tweets thu đƣợc

Tuần 1 188820

Tuần 2 112644

Tuần 3 119243

Tuần 4 110255

Bảng 9: Kết quả thu thập tweets trên Twitter

0 20 40 60 80 100 120 140 160 180 200

Tần suất xuất hiện

Hình 11: Số lượng tweets thu thập trong mỗi ngày

Hình 12: Tần suất “Bullish” và “Bearish” thu thập trong mỗi ngày

Bƣớc 3: Tính toán chỉ số tâm trạng NNS, TIS và TV-FST

 Tính chỉ số NNS: Sau khi đếm được số lần xuất hiện của từ mang tính tiêu cực, chúng tôi tiến hành tính toán chỉ số tâm trạng NNS bằng cách lấy tần số xuất hiện chia cho tổng số bài bài báo đã thu thập.

 Tính chỉ số TIS: Lấy tần suất xuất hiện từ “bullish” chia cho tổng tần suất xuất hiện “bullish” và tần suất xuất hiện “bearish”.

 Tính chỉ số TV-FST: tương tự như dung lượng tìm kiếm, chúng tôi sử dụng tập từ khóa liên quan đến tài chính, truy vấn trong tập dữ liệu tweets rồi tính toán chỉ số TV- FST dựa trên tần suất xuất hiện của các từ khóa đó.

0 10000 20000 30000 40000 50000 60000 Số lượng tweets Số lượng tweets 0 20 40 60 80 100 120 Bullish Bearish

Sau khi tính toán, chúng tôi thu được kết quả về mối quan hệ giữa các chỉ số như sau:

NNS TIS TV-FST

NNS 1

TIS -0.285 1

TV-FST 0.032 0.338 1

Từ kết quả trên cho thấy, chỉ số NSS có quan hệ tiêu cực với chỉ số TIS và quan hệ tích cực với chỉ số TV-FST, hai chỉ số TIS và TV-FST có quan hệ tích cực với nhau.

Tiếp theo tiến hành phân tích mối quan hệ giữa các chỉ số tâm trạng và chỉ số DJIA, kết quả như sau:

DJIA

NNS -0.184

TIS 0.093

TV-FST 0.135

Chúng tôi quan sát thấy rằng, chỉ số NNS có quan hệ tiêu cực với chỉ số DJIA, còn chỉ số TIS và chỉ số TV-FST quan hệ tích cực với DJIA. Như vậy, “tăng” có nghĩa là tâm trạng tiêu cực, “giảm” trong khi chỉ số tâm trạng tích cực.

Dữ liệu hàng ngày, chỉ số TIS và TV-FST nhiễu khá nhiều, song chỉ số tâm trạng tiêu cực tăng không đáng kể so với giai đoạn trước khi DJIA giảm giá.

Kết luận

Kết quả đạt đƣợc của luận văn:

Trong luận văn này, chúng tôi đã tìm hiểu được một số phương pháp phân tích tâm trạng, một số kỹ thuật dự báo xu hướng thị trường chứng khoán.

Từ tham khảo các kết quả nghiên cứu về dự báo xu hướng thị trường chứng khoán, đặc biệt là các kết quả của Mao cùng cộng sư [MCB11] và Johan Bollen cùng cộng sự [BMZ11], chúng tôi đề xuất mô hình dự báo xu hướng của chỉ số chứng khoán DJIA dựa trên phân tích tâm trạng trên miền dữ liệu các trang tin tức, máy tìm kiếm và Twitter.

Chúng tôi đã cài đặt, thử nghiệm việc trích chọn tập tiêu đề, các câu tóm tắt của một số trang báo mạng về kinh tế, tài chính và thị trường chứng khoán; trích xuất dung lượng tìm kiếm các từ khóa liên quan đến thị trường chứng khoán từ Google Trends; thu thập dữ liệu tweets từ Twitter; thu thập chỉ số DJIA từ Yahoo! Finance; tính toán các chỉ số tâm trạng NNS (Negative News Sentiment), TIS (Twitter Investor Sentiment) và TV- FST (Tweet Volume of Financial Search Terms); thống kê và phân tích dự báo xu hướng của chỉ số chứng khoán DJIA.

Các hạn chế còn tồn tại:

Bước tính toán chỉ số tâm trạng phụ thuộc nhiều vào việc tách câu, tách từ, do đó nếu kết quả của việc tách câu, tách từ không tốt, sẽ ảnh hưởng đến kết quả của bài toán.

Đối với bước dự đoán: đây được xem như là bài toán thống kê, do đó cần khảo sát, thu thập và phân tích trên tập dữ liệu lớn, tuy nhiên luận văn mới chỉ thực nghiệm dữ liệu trong vòng 1 tháng, chủ yếu là để thực hiện luồng của mô hình nên kết quả dự đoán còn hạn chế.

Bài toán dự đoán là một bài toán khó, đặc biệt trong lĩnh vực tài chính, chứng khoán. Kết quả dự đoán có độ chính xác tương đối, người dùng sử dụng thông tin này chỉ mang tính chất tham khảo, không hoàn toàn phụ thuộc để đưa ra quyết định. Đây là một bài toán lớn, gồm nhiều phần phức tạp, do thời gian, cũng như kiến thức có hạn nên luận văn chưa thực hiện được một hệ thống hoàn chỉnh.

Định hƣớng tƣơng lai:

Chúng tôi thử nghiệm bổ sung thêm việc áp dụng một số phương pháp trích rút quan hệ gần nghĩa và kỹ thuật boostrapping trong trích rút quan hệ ngữ nghĩa để mở rộng từ khóa truy vấn, tiếp tục thực nghiệm, thống kê, đánh giá kết quả dự đoán xu hướng chỉ số chứng khoán DJIA.

TÀI LIỆU THAM KHẢO

Tiếng Việt:

[T14] Phạm Huyền Trang. Một mô hình sử dụng Twitter và một số phương tiện xã hội

khác dự báo xu hướng chỉ số chứng khoán của APPLE. Luận văn thạc sỹ trường Đại học

Công nghệ - ĐHQGHN, 2014.

Tiếng Anh:

[VCH12] Tien Thanh Vu, Shu Chang, Quang Thuy Ha and Nigel Collier (2012). An

Experiment in Integrating Sentiment Features for Tech Stock Prediction in Twitter,

IEEASMD 2012

[KS12] Akshi Kumar and Teeja Mary Sebastian. Sentiment Analysis on Twitter. IJCSI International Journal of Computer Science Issues, Vol. 9, Issue 4, No 3, July 2012 .

[AA12] Anshul Mittal, Arpit Goel (2012). Stock Prediction Using Twitter Sentiment

Analysis. Standford University, CS229.

[YK12] Sheng Yu, Subhash Kak (2012). A Survey of Prediction Using Social Media, CoRR abs/1203.1647: (2012), http://arxiv.org/abs/1203.1647.

[TBP12] Mike Thelwall, Kevan Buckley, and Georgios Paltoglou. Sentiment Strength

Detection for the SocialWeb, JASIST 63(1): 163-173 (2012).

[MCB11] Huina Mao, Scott Counts, Johan Bollen. Predicting Financial Markets:

Comparing Survey, News, Twitter and Search Engine Data.CoRR abs/1112.1051 (2011)

[JYZ11] Long Jiang, Mo Yu, Ming Zhou. Target-dependent Twitter Sentiment

Classification, Association for Computational Linguistics Stroudsburg, PA, USA ©2011

[CL11] Sang Chung & Sandy Liu. Predicting Stock Market Fluctuations from Twitter.

2011, Stat 157, Professor Aldous.

[BMZ11]Johan Bollena,Huina Maoa,Xiaojun Zengb. Twitter mood predicts the stock

market, Journal of Computational Science2 (2011): 1–8

[ZFG11] Xue Zhang, Hauke Fuehres, Peter A. Gloor. Predicting Stock Market Indicators Through Twitter “I hope it is not as bad as I fear”. Procedia - Social and Behavioral Sciences 26 ( 2011 ): 55 – 62.

[LD11] T. Loughran and B. McDonald. When is a liability not a liability?

Textualanalysis, dictionaries, and 10-ks. Journal of Finance, 66(1):67–97, 2011.

[KXM10] Kunlun Li, Xuerong Luo and Ming Jin (2010). Semi-supervised Learning for

[BF10] Luciano Barbosa and Junlan Feng. 2010. Robust SentimentDetection on Twitter

from Biased and NoisyData. Coling 2010.

[DEG10]Z. Da, J. Engelberand, and P. Gao. The sum of all fears: investor sentiment and

asset prices. http://ssrn.com/abstract=1509162, 2010.

[GBH09] Alec Go, Richa Bhayani, Lei Huang. 2009. Twitter SentimentClassification using Distant Supervision.

[SC09] R. Schumaker and H. Chen. Textual analysis of stock market prediction using

breaking financial news: Theazfintext system. ACM Transactionson Information Systems,

27(2), 2009.

[CSJ08] M. De Choudhury, H. Sundaram, A. John, and D. D. Seligmann, “Can

blogcommunicationdynamics be correlated with stock market activity?,” HT ’08, 2008,

vol. 2, no. 1, p. 55.

[TTM08] P. C. Tetlock, M. Saar-Tsechansky, and S. Macskassy. More than words:

Quantifying language to measure firms’ fundamentals. Journalof Finance, 63:1437–1467,

2008.

[T07] P. C. Tetlock. Giving content to investor sentiment: The role of media in the stock

market. Journal of Finance, 62(3):1139–1168, 2007.

[C03] W. Chan. Stock price reaction to news and to no-news- drift and reversal after

headlines. Journal of Financial Economics, 70:223–236, 2003

[H99] Eui-Hong Han, Text Categorization Using Weight Adjusted k-Nearest Neighbor

Classification. PhD thesis, University of Minnesota, October 1999.

[J98] T. Joachims, Text categorization with Support Vector Machines: Learningwith

many relevant features. In Machine Learning: ECML-98, Tenth EuropeanConference on

Machine Learning, pp. 137-142

[YJ97] Yiming Yang, Jan O.Pedersen (1997). A comparative study on feature selection in

text categorization. In Proceedings of ICML-97, 14th International Conference on

Một phần của tài liệu (LUẬN văn THẠC sĩ) sử dụng kỹ thuật tương quan chéo, kỹ thuật phân tích nhân quả dự đoán xu hướng chỉ số chứng khoán dựa trên phân tích tâm trạng từ phương tiện xã hội (Trang 31)

Tải bản đầy đủ (PDF)

(41 trang)