Dự đoán xu hướng thị trường chứng khoán bằng cách sử dụng Twitter Trịnh Thanh Ngọc Trường Đại học Công nghệ. Đại học Quốc gia Hà Nội Luận văn ThS. Công nghệ thông tin: 60 48 05 Người hướng dẫn : TS. Nguyễn Văn Vinh Năm bảo vệ: 2013 58 tr . Abstract. Giới thiệu những khái niệm và lý thuyết cơ bản về chứng khoán và thị trường chứng khoán; lý thuyết thị trường tài chính, phương tiện truyền thông xã hội, micro-blogging và Twitter, những công trình nghiên cứu đã có liên quan đến lĩnh vực dự báo chứng khoán. Mô tả những vấn đề cơ bản của các phương pháp phân tích và dự đoán chứng khoán, trong đó đi sâu vào phương pháp dự báo định lượng với bài toán dự báo chứng khoán. Thiết kế và xây dựng được framework dự đoán xu hướng tăng giảm của cổ phiếu cụ thể với các bước làm chi tiết. Từ đó xây dựng được chương trình dự đoán xu hướng tăng giảm của cổ phiếu, ứng dụng kỹ thuật học máy SVR. Kết quả dự đoán chính xác tương đối cao, tuy nhiên cũng chưa thể lấy kết quả đó để ra quyết định mua/bán cổ phiếu ngay. Trên thực tế giá cổ phiếu còn phụ thuộc vào nhiều yếu tố chính trị, kinh tế, lịch sử… khác. Kết quả này sẽ là một sự tham khảo có ý nghĩa cho các nhà phân tích thị trường, các nhà đầu tư cổ phiếu đưa ra quyết sách phù hợp Keywords. Thị trường chứng khoán; Dự báo; Twitter; Công nghệ thông tin Content. Ngày nay, cách thức kiếm tiền và sử dụng đồng tiền của các nhà đầu tư cũng có nhiều thay đổi. Có khá nhiều người đầu tư vào chứng khoán, họ cho rằng đó là một cách đầu tư thông minh và những đồng tiền ấy là đồng tiền thông minh. Nhưng thị trường chứng khoán luôn có những yếu tố bất ngờ không theo ý muốn chủ quan của ai, có lúc tăng nhanh sau đó giảm một cách đột ngột, có lúc thì liên tục tăng mà chưa có dấu hiệu giảm xuống. Do vậy dự đoán được xu thế của thị trường chứng khoán là một vấn đề quan trọng trong đầu tư tài chính. Thị trường sẽ diễn biến ra sao, đầu tư vào chứng khoán ở thời điểm này có được hay không, phụ thuộc rất nhiều vào kết quả dự đoán của chúng ta chính xác ra sao. Hiện nay trên thế giới, ở các thị trường chứng khoán phát triển, các nhà phân tích và dự báo đã áp dụng và đưa ra nhiều công cụ giúp cho các nhà đầu tư trên thị trường dự báo được giá chứng khoán một cách chính xác nhằm đưa ra các quyết định đầu tư của mình. Tuy nhiên, việc ứng dụng các công cụ này trên các thị trường là khác nhau. Đối với các nước phát triển thì việc ứngdụng trở nên đơn giản hơn vì thông tin minh bạch hơn và thị trường cũng trở nên ổn định hơn. Đối với thị trường các nước đang phát triển, trong đó có Việt Nam, thì thật sự trở nên phức tạp khi áp dụng các mô hình phân tích và dự báo giá chứng khoán. Bởi vì ở nước ta, thị trường chứng khoán còn rất non trẻ, mới chỉ mang tính thử nghiệm và hoạt động với khá nhiều quy định giới hạn chặt chẽ, các nhà đầu tư bước đầu làm quen với loại hình đầu tư mới nên trong hành vi đầu tư còn có những đặc điểm riêng. Điều này tạo ra những đặc thù trong sự vận động của giá chứng khoán, do đó việc đưa ra phân tích chuỗi thời gian về xu hướng biến động của giá chứng khoán cho thị trường là rất có ý nghĩa. Đã có rất nhiều nhà kinh tế học đưa ra các mô hình khác nhau để phân tích và dự báo về giá chứng khoán. Cụ thể, như C. Fung [9] đã sử dụng mô hình phương pháp nhận dạng mẫu để mô hình hóa giá chứng khoán bằng cách sử dụng một thuật toán hồi quy kết hợp với kết quả phân loại của thuật toán máy véc tơ hỗ trợ, hay Yi [8] so sánh ba nguồn văn bản từ các phương tiện truyền thông xã hội và xây dựng các mô hình dự đoán sử dụng hồi quy véc tơ hỗ trợ cho mỗi nguồn văn bản để dự đoán giá cả thực tế của chứng khoán,… Sự phát triển mạnh mẽ của công nghệ thông tin trong những năm gần đây đồng nghĩa với lượng thông tin lưu trữ ngày càng tăng của các cơ quan, tổ chức có ứng dụng công nghệ thông tin trong công việc. Kho thông tin khổng lồ này hầu hết đều được lưu trữ vào máy tính. Tuy nhiên việc khai thác kho thông tin này để tìm ra những thông tin có giá trị lại là một vấn đề không đơn giản. Chính vì vậy mà kỹ thuật phát hiện tri thức và khai phá dữ liệu được ra đời và ngày càng phát triển mạnh mẽ để khai thác kho dữ liệu này. Dữ liệu chứng khoán là dữ liệu theo dạng chuỗi thời gian. Do đó để khai phá dữ liệu từ tập dữ liệu chuỗi thời gian chúng ta cần có các kỹ thuật học máy tiên tiến. Học máy là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc phát triển các kỹ thuật cho phép máy tính có thể “học”. Hay nói cách khác, học máy là một phương pháp để phân tích tập dữ liệu. Trong nghiên cứu này, tôi đã ứng dụng kỹ thuật học máy hồi quy véc tơ hỗ trợ (Support Vector Regression - SVR) vào bài toán dự báo xu thế của chứng khoán dựa trên tập dữ liệu Twitter. Tập dữ liệu này được tải xuống trực tiếp từ trang web https://twitter.com. Đồng thời tôi cũng sử dụng ngôn ngữ Python để xây dựng chương trình dự đoán và thử nghiệm xu thế tăng giảm của cổ phiếu Apple, do đây là ngôn ngữ có nhiều ưu điểm trong việc xử lý ngôn ngữ tự nhiên và nó có các thư viện hỗ trợ cho việc phân tích dữ liệu. Ngoài phần Mở đầu, Kết luận và các Phụ lục, nội dung luận văn được chia làm 4 chương chính: Chương 1. Tổng quan về chứng khoán và Twitter: chương này giới thiệu những vấn đề cơ bản nhất về chứng khoán, thị trường chứng khoán, phương tiện truyền thông xã hội và trang web mạng xã hội Twitter. Chương 2. Các phương pháp phân tích và dự báo chứng khoán: chương này mô tả khái quát các phương pháp phân tích chứng khoán, chi tiết hơn về các loại giá của chứng khoán, đi sâu hơn vào phương pháp dự báo định lượng – phương pháp dự báo được dùng nhiều hiện nay. Chương 3. Dự đoán xu thế chứng khoán dựa vào Twittter: chương này mô tả chi tiết cách thức các bước xây dựng framework dự đoán cũng như thuật toán học máy hồi quy véc tơ hỗ trợ. Chương 4. Xây dựng chương trình và đánh giá: chương này trình bày cách thức xây dựng chương trình dự đoán xu thế của cổ phiếu Apple, kết quả thử nghiệm và đánh giá hệ số lỗi. Phần Kết luận: trình bày tổng hợp các kết quả nghiên cứu của luận văn và định hướng nghiên cứu tiếp theo. Luận văn đã đạt được một số kết quả khả quan trong nghiên cứu kỹ thuật học máy và sử dụng dữ liệu Twitter để xây dựng chương trình thử nghiệm cho bài toán dự báo xu thế của chứng khoán. Tuy nhiên, luận văn không thể tránh khỏi những thiếu sót, rất mong nhận được những ý kiến đóng góp, nhận xét để tôi tiếp tục hoàn thiện và nâng cao kết quả nghiên cứu. TÀI LIỆU THAM KHẢO Tiếng Việt: [1]Sử dụng mô hình ARCH và GARCH để phân tích và dự báo về giá cổ phiếu trên thị trường chứng khoán Việt Nam" (2010), PGS-TS Hoàng Đình Tuấn, trang 3-11. Tiếng Anh: [2] Boyd, D. M. andEllison, N. B. (2008). SocialNetworkSites: Definition, History, and Scholarship. Journal of Computer-Mediated Communication, 13(1): 210-230. [3] Brooks, D. (2009). Twitter Marketing Tips. Emereo Pty Limited, page200. [4] Chang, C. and Lin, C. (2001). LIBSVM: a library for support vector machines. [5] Chen, P., Lin, C., and Schölkopf, B. (2005). A tutorial onv-support vector machines. [6] Connor, B. O., Balasubramanyan, R., Routledge, B. R., and Smith, N. A. (2010). From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series. Most, (May). [7] Fama, E. (1965). The behavior of stock-market prices. Journal of business, 38(1): 34. [8] Findlay, M. and Williams, E. (2000). A fresh look at the efficient market hypothesis: how the intellectual history of finance encouraged a real” fraud-on-the-market”. Journal of Post Keynesian Economics, 23(2): 181–199. [9] Fung, G., Yu, J., and Lam, W. (2002). News sensitive stock trend prediction. Advances [10] Forman, G. (2003). An Extensive Empirical Study of Feature Selection Metricsfor [11] Ginsberg, J., Mohebbi, M. H., Patel, R. S., Brammer, L., Smolinski, M. S., and Brilliant, L. (2009). Detecting influenza epidemics using search engine query data. Nature, 457(7232): 1012–4. [12] Huang, W. , Nakamori, Y., and Wang, S. (2005). Forecasting stock market movement direction with support vector machine. Computers & Operations Research, 32(10): 2513–2522. [13] Lavrenko, V., Schmill, M., Lawrie, D., and Ogilvie, P. (2000). Language models for financial news recommendation. Proceedings of the ninth international conference on Information and knowledge management, pages 389 – 396. [14] Mittermayer, M a. (2004). Forecasting intraday stock price trends with text mining techniques. 37th Annual Hawaii International Conference on System Sciences, 2004. Proceedings of the, 00(C):64–73. [15] M.Sebastian A.Wolfram (2010), Modelling the Stock Market using Twitter. [16] Peramunetilleke, D. and Wong, R. (2002). Currency exchange rate forecasting from news headlines. roceedings of the 13th Australasian database conference, 5:131 –139. [17] Schumaker, R. P. and Chen, H. (2009). Textual analysis of stock market prediction using breaking financial news. ACM Transactions on Information Systems, 27(2):1–19. [18] Tayal, D. and Komaragiri, S. (2009). Comparative Analysis of the Impact of Blogging and Micro-blogging on Market Performance. International Journal, 1(3):176–182. [19] Thomas, J. and Sycara, K. (2000). Integrating Genetic Algorithms and Text Learning for Financial Prediction. n Proceedings of the Genetic and Evolutionary Computing 2000 Conference Workshop on Data Mining with Evolutionary Algorithms, Las Vegas, pages 72-75. [20] Yi, A. (2009). Stock Market Prediction Based on Public Attentions: a Social Web Mining Approach. Citeseer. . Dự đoán xu hướng thị trường chứng khoán bằng cách sử dụng Twitter Trịnh Thanh Ngọc Trường Đại học Công nghệ. Đại học Quốc gia Hà Nội. hiệu giảm xu ng. Do vậy dự đoán được xu thế của thị trường chứng khoán là một vấn đề quan trọng trong đầu tư tài chính. Thị trường sẽ diễn biến ra sao, đầu tư vào chứng khoán ở thời điểm này. khác nhau để phân tích và dự báo về giá chứng khoán. Cụ thể, như C. Fung [9] đã sử dụng mô hình phương pháp nhận dạng mẫu để mô hình hóa giá chứng khoán bằng cách sử dụng một thuật toán hồi quy