ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN TIẾN TÙNG SỬ DỤNG KỸ THUẬT TƢƠNG QUAN CHÉO, KỸ THUẬT PHÂN TÍCH NHÂN QUẢ DỰ ĐỐN XU HƢỚNG CHỈ SỐ CHỨNG KHỐN DỰA TRÊN PHÂN TÍCH TÂM TRẠNG TỪ PHƢƠNG TIỆN XÃ HỘI LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2014 TIEU LUAN MOI download : skknchat@gmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN TIẾN TÙNG SỬ DỤNG KỸ THUẬT TƢƠNG QUAN CHÉO, KỸ THUẬT PHÂN TÍCH NHÂN QUẢ DỰ ĐOÁN XU HƢỚNG CHỈ SỐ CHỨNG KHOÁN DỰA TRÊN PHÂN TÍCH TÂM TRẠNG TỪ PHƢƠNG TIỆN XÃ HỘI Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã Số: 60480104 LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS HÀ QUANG THỤY HÀ NỘI - 2014 TIEU LUAN MOI download : skknchat@gmail.com Lời cam đoan Tôi xin cam đoan luận văn với đề tài “Sử dụng kỹ thuật tương quan chéo, kỹ thuật phân tích nhân dự đoán xu hướng số chứng khoán dựa phân tích tâm trạng từ phương tiện xã hội” thực hướng dẫn PGS.TS Hà Quang Thụy Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Trong luận văn, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà không rõ tài liệu tham khảo Luận văn hồn thành thời gian tơi học viên Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Hà Nội, ngày 10 tháng 10 năm 2014 Học viên Nguyễn Tiến Tùng TIEU LUAN MOI download : skknchat@gmail.com Lời cảm ơn Lời đầu tiên, xin gửi lời cảm ơn lịng biết ơn sâu sắc tới Phó Giáo sư Tiến sĩ Hà Quang Thụy tận tình bảo hướng dẫn tơi suốt q trình thực luận văn tốt nghiệp Tôi xin chân thành cảm ơn thầy, cô tạo điều kiện thuật lợi cho để học tập nghiên cứu trường Đại học Công nghệ Tôi xin gửi lời cảm ơn tới bạn lớp K18CHTTT ủng hộ, khuyến khích tơi suốt q trình học tập trường Tôi muốn gửi lời cảm ơn vô hạn tới gia đình bạn bè, người thân yêu bên cạnh động viên suốt trình học tập thực luận văn tốt nghiệp Tôi xin chân thành cảm ơn! Hà Nội, ngày 10 tháng 10 năm 2014 Học viên Nguyễn Tiến Tùng TIEU LUAN MOI download : skknchat@gmail.com Tóm tắt nội dung Phân tích tâm trạng việc khai thác tự động thơng tin liên quan đến tình cảm từ văn [TBP12] Phân tích tâm trạng ứng dụng nhiều cho toán: đánh giá sản phẩm, chất lượng dịch vụ; hỗ trợ người dùng đưa định; đặc biệt toán dự báo lĩnh vực tài Theo Johan Bollen cộng [BMZ11], kinh tế học hành vi cho biết cảm xúc sâu sắc ảnh hưởng đến hành vi cá nhân đưa định Các tác giả chứng minh giả thuyết “Tâm trạng cộng đồng dự đốn giá thị trường chứng khoán” Luận văn tập trung nghiên cứu phương pháp dự báo xu hướng thị trường chứng khốn dựa phân tích tâm trạng miền liệu trang tin tức tài chứng khốn, máy tìm kiếm Twitter Chúng tơi sử dụng kỹ thuật thống kê, phân tích nhân Granger để phân tích dự báo.Thực nghiệm ban đầu CSDL thu thập từ trang tin tức, máy tìm kiếm Twitter: phân tích liệu hàng tuần cho thấy tồn mối quan hệ đáng kể dung lượng tìm kiếm từ khóa liên quan đến tài số DJIA Sau kiểm định nhân Granger cho thấy thực dự đốn số chứng khốn Tiếp theo, chúng tơi phân tích số tâm trạng miền liệu Twitter hàng ngày cho thấy số tâm trạng 1-2 ngày trước có ý nghĩa thống kê đáng kể việc dự đoán số chứng khoán ngày Và số tâm trạng miền liệu trang tin tức tài có ý nghĩa thống kê dự báo Kết cho thấy hướng tiếp cận chúng tơi có tính khả thi việc làm rõ mối quan hệ nhân tình cảm tâm trạng liên quan đến thị trường tài TIEU LUAN MOI download : skknchat@gmail.com Mở đầu Phương tiện truyền thông xã hội bao gồm ứng dụng tương tác tảng để tạo, chia sẻ trao đổi nội dung người dùng tạo Mười năm qua mang lại tăng trưởng lớn phương tiện truyền thông xã hội, đặc biệt dịch vụ mạng xã hội trực tuyến, thay đổi cách tổ chức giao tiếp [YK12] Nó tập hợp ý kiến cảm xúc nhóm đa dạng người dân với chi phí thấp Khai thác thuộc tính nội dung phương tiện truyền thông xã hội cho hội để khám phá đặc tính cấu trúc xã hội, phân tích mẫu hoạt động chất lượng số lượng, đơi khả dự đốn kiện liên quan đến người tương lai Trong thị trường chứng khoán, nghiên cứu dựa lý thuyết bước ngẫu nhiên giả thuyết thị trường hiệu (EMH) cho thấy giá cổ phiếu khơng thể đốn trước Nhưng nghiên cứu gần đây, từ quan điểm Lý thuyết kinh tế xã hội Tài kinh tế học hành vi, cho giá cổ phiếu dự đốn đến mức độ [YK12] Số lượng lớn thông tin đăng bảng thông tin tài chính, chẳng hạn Yahoo! Tài chính, dự đoán lợi nhuận cổ phiếu Mối tương quan chúng có ý nghĩa thống kê Mặc dù hiệu kinh tế nhỏ số lượng viết hữu ích để dự đốn biến động chứng khoán Đối với viết cụ thể bao gồm từ cảm xúc lo lắng, hy vọng sợ hãi, tổng số người số họ tiên đốn số chứng khốn, thơng tin tâm lý thị trường có giá trị tiên đốn Mục tiêu luận văn khảo sát, tìm hiểu để đề xuất mơ hình dự đốn xu hướng số chứng khốn dựa phân tích tâm trạng từ liệu máy tìm kiếm, tin tức Twitter Để tiếp cận mục tiêu này, luận văn nghiên cứu giới thiệu số phương pháp dự đoán chứng khốn quan tâm Từ đó, lựa chọn mơ hình phù hợp để dự đốn xu hướng số chứng khoán DJIA cho ngày miền liệu máy tìm kiếm, tin tức Twitter Nội dung luận văn chia thành chương sau: Chƣơng 1:Trình bày phân tích tâm trạng phương tiện truyền thông Chƣơng 2: Luận văn giới thiệu số kỹ thuật dự đoán xu hướng chứng khoán miền liệu Twitter Chƣơng 3:Luận văn đề xuất mơ hình dự đốn xu hướng số chứng khốn dựa phân tích tâm trạng từ phương tiện xã hội Chƣơng 4:Thực nghiệm, kết đánh giá Phần kết luận: Tóm lược kết đạt luận văn định hướng phát triển TIEU LUAN MOI download : skknchat@gmail.com Mục Lục Lời cam đoan Lời cảm ơn Tóm tắt nội dung Mở đầu Mục Lục Danh mục bảng biểu Danh mục hình vẽ Chương Phân tích tâm trạng phương tiện truyền thông 10 1.1 Phân tích tâm trạng Twitter 10 1.2 Phân lớp tâm trạng Twitter dựa vào mục tiêu phụ thuộc 11 Chương Một số kỹ thuật dự đoán xu hướng chứng khoán miền liệu Twitter 14 2.1 Dự đoán thị trường chứng khoán dựa vào tâm trạng Twitter 14 2.2 Xác định cường độ tình cảm trang mạng xã hội 15 2.3 Dự đoán số thị trường chứng khoán thơng qua Twitter nhóm tác giả Xue Zhang cộng 15 2.4 Dự đoán thị trường tài chính: so sánh khảo sát, tin tức, Twitter liệu máy tìm kiếm 19 2.5 Dự báo biến động thị trường chứng khoán từ Twitter 19 Chương Đề xuất mơ hình dự đốn xu hướng số chứng khốn dựa phân tích tâm trạng từ phương tiện xã hội 23 3.1 Tư tưởng giải pháp đề xuất 23 3.2 Mơ hình đề xuất 25 Chương Thực nghiệm kết 31 Kết luận 39 TIEU LUAN MOI download : skknchat@gmail.com Danh mục bảng biểu Bảng 1: Số lượng tweets chứa từ tâm trạng “Fear”, “Worry”, “Hope”, … 16 Bảng 2: Kết phân tích mối tương quan với số chứng khoán 17 Bảng 3: Kết phân tích mối tương quan follower với số chứng khoán 18 Bảng 4: Số lượng retweets chủ đề định ngày 18 Bảng 5: Kết phân tích mối tương quan retweets với số chứng khoán 19 Bảng Cấu hình phần cứng sử dụng thực nghiệm 31 Bảng 7: Các công cụ phần mềm sử dụng 31 Bảng 8: Mối tương quan DJIA Volume tìm kiếm Google Trends 33 Bảng 9: Kết thu thập tweets Twitter 36 TIEU LUAN MOI download : skknchat@gmail.com Danh mục hình vẽ Hình 1: Biểu đồ gia tăng số lượng tweets ngày 17 Hình 2: Tương quan chéo điểm số tâm trạng giá chứng khoán cao người thắng 21 Hình 3: Tương quan chéo điểm số tâm trạng giá chứng khoán cao người thua 22 Hình 4: Số lượng truy vấn tìm kiếm từ khóa “Dow Jone” 26 Hình 5: Mở rộng từ khóa truy vấn 32 Hình 6: Biểu đồ dung lượng tìm kiếm từ khóa liên quan đến tài 32 Hình 7: Mối tương quan DJIA Volume tìm kiếm Google Trends 33 Hình 8: Chỉ số DJIA ngày từ 25/9/2014 đến 25/10/2014 34 Hình 9: Tiêu đề đoạn tóm tắt báo 35 Hình 10: Tần suất xuất số từ tiêu cực trang tin tức tài từ ngày 25/09/2014 đến 25/10/2014 36 Hình 11: Số lượng tweets thu thập ngày 37 Hình 12: Tần suất “Bullish” “Bearish” thu thập ngày 37 TIEU LUAN MOI download : skknchat@gmail.com 10 Chƣơng Phân tích tâm trạng phƣơng tiện truyền thơng 1.1 Phân tích tâm trạng Twitter Kumar Sebastian [KS12] đề xuất mơ hình để khai thác tình cảm từ Twitter với thời gian thực, tác giả tiếp cận theo hướng sử dụng kết hợp hai phương pháp dựa ngữ liệu dựa từ điển để xác định ngữ nghĩa từ thể quan điểm tweet Tweet có đặc điểm sau: - - - - Độ dài tweet: Độ dài tối đa tweet 140 ký tự Điều khác với nghiên cứu trước chủ yếu tập trung vào phân lớp văn dài Kỹ thuật viết tweet: Các tweet đăng tải thường xuất từ khơng xác tiếng lóng thường xuyên so với lĩnh vực khác Các thông điệp người dùng thường nhanh, ngắn, sử dụng từ viết tắt, viết sai sử dụng biểu tượng cảm xúc để truyền đạt ý nghĩa đặc biệt Tính sẵn sàng: Số lượng liệu có sẵn lớn Miền liệu tweet người dùng mở so với Facebook (Facebook có nhiều cài đặt bảo mật) Twitter API thu thập sẵn liệu tweets cho việc học mơ hình Chủ đề: Người dùng twitter đăng tải thông điệp loạt chủ đề không giống trang web khác thiết kế riêng cho chủ đề cụ thể Điều khác với nghiên cứu trước tập trung vào lĩnh vực cụ thể như: phim ảnh, trị, xã hội, … Thời gian thực: Các tweets bị giới hạn số ký tự cập nhật thường xuyên, điều tạo cảm giác thời gian thực đại diện cho phản ứng kiện Một số thuật ngữ liên quan đến Twitter: - - - Biểu tượng cảm xúc: Đây biểu tượng nét mặt sử dụng dấu chấm câu chữ Mục đích biểu tượng cảm xúc để diễn tả tâm trạng người dùng Mục tiêu: Người dùng Twitter sử dụng ký tự @ để đề cập người dùng khác Twitter Người dùng tự động thông báo đề cấp đến thời gian Hash tags: Người dùng sử dụng ký tự # để đánh dấu chủ đề Nó sử dụng người dùng Twitter để giúp lượng lớn người dùng khác nhìn thấy tweets họ Ký tự đặc biệt: Ký tự “RT” dùng để tweet lặp trước người dùng khác Từ thể quan điểm (từ quan điểm) từ mà người sử dụng để bày tỏ ý kiến (tích cực, tiêu cực hay trung tính) Để tìm ngữ nghĩa từ quan điểm TIEU LUAN MOI download : skknchat@gmail.com 27 Từ mạng xã hội Twitter Tiến hành thu thập liệu từ Twitter, sau xác định hai số tâm trạng: Twitter Investor Sentiment (TIS) Tweet Volumes of Financial Search Terms (TV-FST) Twitter Investor Sentiment (TIS): - - Trước hết, xây dựng tập từ điển đồng nghĩa với “bullish” “bearish” Sau xây dựng xong tập từ điển đồng nghĩa, xác định tweet tăng chứa từ “bullish” từ đồng nghĩa với “bullish” giảm chứa từ “bearish” từ đồng nghĩa với “bearish” Trên sở số lượng tweet tăng giảm vào ngày định, tính điểm số tâm trạng TIS ngày t, công thức tính sau: 𝑁𝑏𝑢𝑙𝑙 𝑇𝐼𝑆𝑡 = (2) 𝑁𝑏𝑢𝑙𝑙 + 𝑁𝑏𝑒𝑎𝑟 Trong đó, Nbull số tweet tăng ngày t Nbear số tweet giảm ngày t Tweet Volumes of Financial Search Terms (TV-FST): Áp dụng hướng tiếp cận giống tính dung lượng truy vấn tìm kiếm tên chứng khốn tài chính/kinh tế từ Google Trends đề cập để định nghĩa cho TVFST Chúng thực sau: Thực khoảng thời gian: Tính tuần, sử dụng 26 từ truy vấn để tính dung lượng tìm kiếm GT lượng tweet hàng ngày có chứa 26 từ truy vấn - Tính giá trị trung bình hàng tuần so với dung lượng tweets hàng ngày: Bước quan trọng dùng để so sánh Twitter GT - Lấy trung bình theo chuỗi thời gian hàng tuần GT Twitter Từ thị trường kinh tế tài - Tiến hành thu thập liệu hàng ngày hàng tuần số DJIA từ Yahoo! Finance Thêm vào đó, thực xây dựng hàm thống kê R cho giá cổ phiếu S(t) khoảng thời gian ∆𝑡: TIEU LUAN MOI download : skknchat@gmail.com 28 𝑅∆𝑡 = 𝑙𝑜𝑔𝑆 𝑡 + ∆𝑡 − 𝑙𝑜𝑔𝑆(𝑡) (3) Trong đó, 𝑅∆𝑡 hàm thống kê R, 𝑆(𝑡) giá cổ phiếu ngày t ∆𝑡= 3.2.2 Dự đoán số DJIA dựa dung lượng tìm kiếm từ Google Trends Phân tích tương quan dung lượng tìm kiếm số DJIA - Thực việc so sánh dung lượng vấn tìm kiếm 26 thuật ngữ tài GT với số DJIA khoảng thời gian n tuần (theo thời gian thu thập liệu) - Giữ thuật ngữ tìm kiếm có mối tương quan cao với số DJIA tương ứng cho chuỗi thời gian - Để đánh giá thời gian trễ mối tương quan dung lượng tìm kiếm chuỗi thời gian tài chính, chúng tơi tính tốn tương quan chéo Xét hai chuỗi 𝑥 = 𝑥1 , … , 𝑥𝑛 chuỗi 𝑦 = 𝑦1 , … , 𝑦𝑛 tương quan chéo gama với độ trễ k tính sau: 𝑖 𝛾= 𝑖 𝑥𝑖+𝑘 − 𝑥 𝑦𝑖 − 𝑦 𝑥𝑖+𝑘 − 𝑥 𝑖 𝑦𝑖 − 𝑦 Trong đó, 𝛾 giá trị tương quan chéo chuỗi x chuỗi y 𝑥 𝑦 giá trị trung bình x y tương ứng Sử dụng hàm tương quan chéo ccf hàm thống kê R ví dụ, ccf(x;y) ước lượng tương quan x[t+k] y[t], có nghĩa giữ nguyên y, thay đổi x phía trước phía sau thời gian trễ k Nếu k > 0, y dự đốn x ngược lại Phân tích nhân Granger Tiếp tục tinh chỉnh quan sát cách kiểm tra với quan hệ nhân Granger, kỹ thuật sử dụng rộng rãi để phân tích mối quan hệ chuỗi thời gian kinh tế Kiểm tra quan hệ nhân quản Granger để xác định xem chuỗi thời gian X(t) có hữu ích việc dự báo chuỗi thời gian Y(t) hay không cách phủ định X(t) giá trị dự báo Nếu muốn kiểm tra quan hệ nhân X Y, kiểm tra cách biểu diễn Y theo X X theo Y Tư tưởng sau: Nếu biến X (chỉ số tâm trạng) gây thay đổi TIEU LUAN MOI download : skknchat@gmail.com 29 biến Y (chỉ số DJIA) thay đổi X có trước thay đổi Y, với hai điều kiện phải có là: Thứ nhất, X giúp cho việc dự đoán Ytức hồi quy Y giá trị trễ Y giá trị trễ X biến độc lập, đóng góp cách có ý nghĩa vào khả giải thích hồi quy Thứ hai, Y khơng giúp cho dự đốn X Vì X giúp cho dự đoán Y, Y lại giúp cho dự đốn X điều dường có số biến khác gây thay đổi X Y Cách phổ biến thực tế để xem xét hai chiều tác động (X nguyên nhân Y, Y nguyên nhân X) Trong quan hệ nhân theo Granger đặt giả thuyết kiểm định X không nguyên nhân Y, bác bỏ giả thuyết này, ngụ ý X nguyên nhân Y Để kiểm định ràng buộc này, ta sử dụng ba cách kiểm định: Likelihood Ratio (LR), thống kê F kiểm định Wald, Lagrane Multiplier (LM) Ý tưởng ba thủ tục kiểm định đánh giá khác biện mơ hình giới hạn mơ hình khơng giới hạn Nếu ràng buộc không ảnh hưởng nhiều đến mức độ phù hợp mơ hình, chấp nhận ràng buộc hợp lý Ngược lại mơ hình giới hạn khơng phù hợp mơ hình khơng giới hạn, bác bỏ giả thuyết 𝐻0 (bác bỏ mơ hình giới hạn) Ngồi ra, LR thường sử dụng để kiểm định có nên đưa thêm hay bỏ bớt biến giải thích vào khỏi mơ hình hay khơng Trong luận văn này, sử dụng kiểm định LR, cách định nhân Granger sau: - Nhân Granger chiều từ X sang Y biến trễ X có tác động lên Y, biến trễ Y không tác động lên X Nhân Granger chiều từ Y sang X biến trễ Y có tác động lên X, biến trễ X không tác động lên Y Nhân Granger hai chiều X Y biến trễ X tác động lên Y biến trễ Y tác động lên X Khơng có quan hệ nhân Granger X Y biến trễ X khơng có tác động lên Y biến trễ Y không tác động lên X Với giả định yếu tố khác khơng đổi liệu chuỗi thời gian chuỗi liệu hàm chứa đầy đủ thông tin thích hợp để giải thích cho thay đổi mối quan hệ biến Điều kiện cần để thực kiểm định nhân Granger: TIEU LUAN MOI download : skknchat@gmail.com 30 Các biến số tâm trạng, số DJIA phải chuỗi dừng và/hoặc đồng liên kết (khơng có tượng tương quan giả) - Chiều hướng mối quan hệ nhân cso thể phụ thuộc vào số biến mơ hình Nói cách khác, kết kiểm định Granger nhạy cảm với việc lựa chọn độ trễ biến Nếu độ trễ chọn nhỏ nhơn độ trễ thực sự, việc bỏ sót biến trễ thích hợp làm lệch kết Ngược lại, lớn hơn, số biến trễ khơng thích hợp làm cho ước lượng không hiệu - Các phần dư khơng có tượng tự tương quan Nếu có tượng tương quan cần phải thực việc chuyển sang dạng mơ hình thích hợp 3.2.3 Dự đoán số DJIA dựa liệu Twitter, máy tìm kiếm trang tin tức Phân tích mối tương quan - Xét số tâm trạng hàng ngày:Twitter Investor Sentiment (TIS), Tweet Volume of Financial Search Terms (TV-FST), Negative News Sentiment (NNS) Theo Mao cộng sự, số TV-FST thể mối tương quan tiêu cực với TIS mối tương quan tích cực với NNS Từ tập liệu thu thập, tính số tâm trạng Sau mối quan hệ giá trị số tâm trạng Phân tích nhân Granger Dự đốn thị trường chứng khoán vấn đề quan tâm đáng kể Để xác định xem số tâm trạng hữu ích việc dự đốn số DJIA, chúng tơi tiến hành phân tích quan hệ nhân Granger Đầu tiên, phân tích mối tương quan dung lượng tìm kiếm từ khóa liên quan đến tài cá nhân giá trị hàm log Sau đó, lựa chọn từ khóa tìm kiếm mà dung lượng tìm kiếm thể mối tương quan ý nghĩa với giá trị hàm log Tiếp theo, lấy giá trị trung bình chuỗi thời gian để gán cho số TVFST Mao cộng tìm thấy hệ nhân Granger có ý nghĩa thống kê hai hướng giá trị hàm log TIS, NNS TV-FST với trường hợp độ trễ = TIEU LUAN MOI download : skknchat@gmail.com 31 Chƣơng Thực nghiệm kết Dựa vào mơ hình đề xuất chương 3, tiến hành thực nghiệm việc dự đoán xu hướng chứng khoán, liệu thực nghiệm lấy khoảng thời gian từ 25/09/2014 đến 25/10/2014 Môi trường công cụ sử dụng thực nghiệm Cấu hình phần cứng Thành phần Chỉ số CPU RAM OS Bộ nhớ Core Duo P7370 2.00 GHz GB Windows Ultimate 160 GB Bảng Cấu hình phần cứng sử dụng thực nghiệm Các công cụ phần mềm/thư viện sử dụng: STT Tên phần mềm Eclipse -SDK3.4.1-win32 JvnTextpro RegexBuddy 3.4.2 IDM 6.18 Tác giả Cam-Tu Nguyen Xuan-Hieu Phan Thu-Trang Nguyen Chức Nguồn Môi trường phát triển phần mềm http://www.eclipse.org/dowloads Tách câu, tách từ http://jvntextpro.sourceforge.net/ Xây dựng Just Great Software biểu thức Co.Ltd quy Crawler trang web www.regexbuddy.com http://www.internetdownloadmanag er.com Bảng 7: Các công cụ phần mềm sử dụng Ngồi cơng cụ trên, chúng tơi tiến hành cài đặt module xử lý dựa ngôn ngữ Java, bao gồm package sau: InfomationExtraction.dataProcess: Trích rút tiêu đề nội dung tóm tắt báo trang tin tức SentimentIndex.DataProcess: Tính tốn số tâm trạng NNS, TIS, TV-FST Util: Chứa hàm tiện ích để đọc, ghi file, … 4.1.Dự đoán số DJIA dựa liệu dung lượng tìm kiếm từ Google Trends Bƣớc 1: Mở rộng từ khóa truy vấn TIEU LUAN MOI download : skknchat@gmail.com 32 Chúng tơi tiến hành mở rộng tập từ khóa liên quan đến tài Xuất phát từ 26 từ khóa theo Mao cộng sự, chúng tơi sử dụng tính Related searches Google Trends để mở rộng từ khóa truy vấn Ví dụ với từ khóa Stock market Hình 5: Mở rộng từ khóa truy vấn Bƣớc 2: Thu thập dung lƣợng truy vấn từ khóa Tiếp theo chúng tơi sử dụng tập từ khóa thu truy vấn Google Trends thống kê dung lượng truy vấn từ khóa từ ngày 25/9/2014 đến 25/10/2014 (tương đương với khoảng thời gian thu thập số DJIA) Hình 6: Biểu đồ dung lượng tìm kiếm từ khóa liên quan đến tài TIEU LUAN MOI download : skknchat@gmail.com 33 Sau trích xuất thời gian dung lượng tìm kiếm, chúng tơi biểu diễn kết tìm kiếm thơng qua hàm log tiến hành tính tốn độ tương quan dung lượng tìm kiếm với số DJIA Dưới kết mối tương quan từ khóa tìm kiếm phổ biến nhất: Từ khóa truy vấn DJIA Volume DJIA -0.012 0.008 Dow -0.098 0.005 Dow Jones -0.05 0.004 Dow Jones Industrial Average -0.032 0.005 Stock market news -0.247 -0.006 Finance 0.028 0.001 Stock market today -0.23 -0.004 Financial news -0.119 -0.002 Stock -0.07 Bảng 8: Mối tương quan DJIA Volume tìm kiếm Google Trends Bƣớc 3: Phân tích dự báo Từ bảng liệu trên, thấy chuỗi kết dung lượng tìm kiếm có mối quan hệ tiêu cực với số DJIA, đồng nghĩa với việc giá DJIA có xu hướng giảm 0.05 -0.05 -0.1 -0.15 DJIA Volume -0.2 -0.25 -0.3 Hình 7: Mối tương quan DJIA Volume tìm kiếm Google Trends TIEU LUAN MOI download : skknchat@gmail.com 34 DJIA 17200 17000 16800 16600 16400 16200 16000 15800 15600 DJIA Hình 8: Chỉ số DJIA ngày từ 25/9/2014 đến 25/10/2014 4.2.Dự đoán số DJIA dựa miền liệu từ trang tin tức Twitter Bƣớc 1: Thu thập liệu từ nguồn trang tin tức Chúng tiến hành thu thập tin từ mục thị trường chứng khoán kinh doanh trang: Wall Street Journal, Bloomberg, Reuters Bussiness & Finance, BussinessWeek, Financial Times, CNN-Money CNBC khoảng thời gian tương ứng với thời gian thu thập số DJIA (từ 25/09/2014 đến 25/10/2014) Để bổ sung thêm thông tin, sau thu thập tin bài, ngồi việc trích xuất tiêu đề báo, chúng tơi tiến hành trích xuất thêm đoạn tóm tắt báo Ví dụ: TIEU LUAN MOI download : skknchat@gmail.com 35 Hình 9: Tiêu đề đoạn tóm tắt báo Sau trích xuất xong liệu, tiến hành tách từ sử dụng từ điển Loughran McDonald để xác định từ tiêu cực tập liệu tiêu đề đoạn tóm tắt báo: Tiếp theo, thống kê tổng số từ mang tính tiêu cực tính số tâm trạng NNS (Negative News Sentiment) TIEU LUAN MOI download : skknchat@gmail.com 36 Tần suất xuất 200 180 160 140 120 100 80 60 40 20 Tần suất xuất Hình 10: Tần suất xuất số từ tiêu cực trang tin tức tài từ ngày 25/09/2014 đến 25/10/2014 Bƣớc 2: Thu thập liệu từ Twitter Chúng tiến hành thu thập liệu từ Twitter khoảng thời gian tương ứng từ ngày 25/09/2014 đến 25/10/2014 tính số lần xuất từ khóa “bullish” “bearish” Kết thu sau: Thời gian Số tweets thu đƣợc Tuần 188820 Tuần 112644 Tuần 119243 Tuần 110255 Bảng 9: Kết thu thập tweets Twitter TIEU LUAN MOI download : skknchat@gmail.com 37 Số lượng tweets 60000 50000 40000 30000 20000 Số lượng tweets 10000 Hình 11: Số lượng tweets thu thập ngày 120 100 80 60 40 Bullish Bearish 20 Hình 12: Tần suất “Bullish” “Bearish” thu thập ngày Bƣớc 3: Tính tốn số tâm trạng NNS, TIS TV-FST Tính số NNS: Sau đếm số lần xuất từ mang tính tiêu cực, chúng tơi tiến hành tính tốn số tâm trạng NNS cách lấy tần số xuất chia cho tổng số bài báo thu thập Tính số TIS: Lấy tần suất xuất từ “bullish” chia cho tổng tần suất xuất “bullish” tần suất xuất “bearish” Tính số TV-FST: tương tự dung lượng tìm kiếm, chúng tơi sử dụng tập từ khóa liên quan đến tài chính, truy vấn tập liệu tweets tính tốn số TVFST dựa tần suất xuất từ khóa TIEU LUAN MOI download : skknchat@gmail.com 38 Sau tính tốn, chúng tơi thu kết mối quan hệ số sau: NNS TIS TV-FST NNS -0.285 0.032 TIS TV-FST 0.338 Từ kết cho thấy, số NSS có quan hệ tiêu cực với số TIS quan hệ tích cực với số TV-FST, hai số TIS TV-FST có quan hệ tích cực với Tiếp theo tiến hành phân tích mối quan hệ số tâm trạng số DJIA, kết sau: NNS TIS TV-FST DJIA -0.184 0.093 0.135 Chúng quan sát thấy rằng, số NNS có quan hệ tiêu cực với số DJIA, số TIS số TV-FST quan hệ tích cực với DJIA Như vậy, “tăng” có nghĩa tâm trạng tiêu cực, “giảm” số tâm trạng tích cực Dữ liệu hàng ngày, số TIS TV-FST nhiễu nhiều, song số tâm trạng tiêu cực tăng không đáng kể so với giai đoạn trước DJIA giảm giá TIEU LUAN MOI download : skknchat@gmail.com 39 Kết luận Kết đạt đƣợc luận văn: Trong luận văn này, tìm hiểu số phương pháp phân tích tâm trạng, số kỹ thuật dự báo xu hướng thị trường chứng khoán Từ tham khảo kết nghiên cứu dự báo xu hướng thị trường chứng khoán, đặc biệt kết Mao cộng sư [MCB11] Johan Bollen cộng [BMZ11], chúng tơi đề xuất mơ hình dự báo xu hướng số chứng khốn DJIA dựa phân tích tâm trạng miền liệu trang tin tức, máy tìm kiếm Twitter Chúng tơi cài đặt, thử nghiệm việc trích chọn tập tiêu đề, câu tóm tắt số trang báo mạng kinh tế, tài thị trường chứng khốn; trích xuất dung lượng tìm kiếm từ khóa liên quan đến thị trường chứng khoán từ Google Trends; thu thập liệu tweets từ Twitter; thu thập số DJIA từ Yahoo! Finance; tính tốn số tâm trạng NNS (Negative News Sentiment), TIS (Twitter Investor Sentiment) TVFST (Tweet Volume of Financial Search Terms); thống kê phân tích dự báo xu hướng số chứng khoán DJIA Các hạn chế cịn tồn tại: Bước tính tốn số tâm trạng phụ thuộc nhiều vào việc tách câu, tách từ, kết việc tách câu, tách từ không tốt, ảnh hưởng đến kết toán Đối với bước dự đoán: xem tốn thống kê, cần khảo sát, thu thập phân tích tập liệu lớn, nhiên luận văn thực nghiệm liệu vòng tháng, chủ yếu để thực luồng mơ hình nên kết dự đốn cịn hạn chế Bài tốn dự đốn tốn khó, đặc biệt lĩnh vực tài chính, chứng khốn Kết dự đốn có độ xác tương đối, người dùng sử dụng thông tin mang tính chất tham khảo, khơng hồn tồn phụ thuộc để đưa định Đây toán lớn, gồm nhiều phần phức tạp, thời gian, kiến thức có hạn nên luận văn chưa thực hệ thống hoàn chỉnh Định hƣớng tƣơng lai: Chúng thử nghiệm bổ sung thêm việc áp dụng số phương pháp trích rút quan hệ gần nghĩa kỹ thuật boostrapping trích rút quan hệ ngữ nghĩa để mở rộng từ khóa truy vấn, tiếp tục thực nghiệm, thống kê, đánh giá kết dự đoán xu hướng số chứng khoán DJIA TIEU LUAN MOI download : skknchat@gmail.com 40 TÀI LIỆU THAM KHẢO Tiếng Việt: [T14] Phạm Huyền Trang Một mơ hình sử dụng Twitter số phương tiện xã hội khác dự báo xu hướng số chứng khoán APPLE Luận văn thạc sỹ trường Đại học Công nghệ - ĐHQGHN, 2014 Tiếng Anh: [VCH12] Tien Thanh Vu, Shu Chang, Quang Thuy Ha and Nigel Collier (2012) An Experiment in Integrating Sentiment Features for Tech Stock Prediction in Twitter, IEEASMD 2012 [KS12] Akshi Kumar and Teeja Mary Sebastian Sentiment Analysis on Twitter IJCSI International Journal of Computer Science Issues, Vol 9, Issue 4, No 3, July 2012 [AA12] Anshul Mittal, Arpit Goel (2012) Stock Prediction Using Twitter Sentiment Analysis Standford University, CS229 [YK12] Sheng Yu, Subhash Kak (2012) A Survey of Prediction Using Social Media, CoRR abs/1203.1647: (2012), http://arxiv.org/abs/1203.1647 [TBP12] Mike Thelwall, Kevan Buckley, and Georgios Paltoglou Sentiment Strength Detection for the SocialWeb, JASIST 63(1): 163-173 (2012) [MCB11] Huina Mao, Scott Counts, Johan Bollen Predicting Financial Markets: Comparing Survey, News, Twitter and Search Engine Data.CoRR abs/1112.1051 (2011) [JYZ11] Long Jiang, Mo Yu, Ming Zhou Target-dependent Twitter Sentiment Classification, Association for Computational Linguistics Stroudsburg, PA, USA ©2011 [CL11] Sang Chung & Sandy Liu Predicting Stock Market Fluctuations from Twitter 2011, Stat 157, Professor Aldous [BMZ11]Johan Bollena,Huina Maoa,Xiaojun Zengb Twitter mood predicts the stock market, Journal of Computational Science2 (2011): 1–8 [ZFG11] Xue Zhang, Hauke Fuehres, Peter A Gloor Predicting Stock Market Indicators Through Twitter “I hope it is not as bad as I fear” Procedia - Social and Behavioral Sciences 26 ( 2011 ): 55 – 62 [LD11] T Loughran and B McDonald When is a liability not a liability? Textualanalysis, dictionaries, and 10-ks Journal of Finance, 66(1):67–97, 2011 [KXM10] Kunlun Li, Xuerong Luo and Ming Jin (2010) Semi-supervised Learning for SVM-KNN Journal of computers, 5(5): 671-678, May 2010 TIEU LUAN MOI download : skknchat@gmail.com 41 [BF10] Luciano Barbosa and Junlan Feng 2010 Robust SentimentDetection on Twitter from Biased and NoisyData Coling 2010 [DEG10]Z Da, J Engelberand, and P Gao The sum of all fears: investor sentiment and asset prices http://ssrn.com/abstract=1509162, 2010 [GBH09] Alec Go, Richa Bhayani, Lei Huang 2009 Twitter SentimentClassification using Distant Supervision [SC09] R Schumaker and H Chen Textual analysis of stock market prediction using breaking financial news: Theazfintext system ACM Transactionson Information Systems, 27(2), 2009 [CSJ08] M De Choudhury, H Sundaram, A John, and D D Seligmann, “Can blogcommunicationdynamics be correlated with stock market activity?,” HT ’08, 2008, vol 2, no 1, p 55 [TTM08] P C Tetlock, M Saar-Tsechansky, and S Macskassy More than words: Quantifying language to measure firms’ fundamentals Journalof Finance, 63:1437–1467, 2008 [T07] P C Tetlock Giving content to investor sentiment: The role of media in the stock market Journal of Finance, 62(3):1139–1168, 2007 [C03] W Chan Stock price reaction to news and to no-news- drift and reversal after headlines Journal of Financial Economics, 70:223–236, 2003 [H99] Eui-Hong Han, Text Categorization Using Weight Adjusted k-Nearest Neighbor Classification PhD thesis, University of Minnesota, October 1999 [J98] T Joachims, Text categorization with Support Vector Machines: Learningwith many relevant features In Machine Learning: ECML-98, Tenth EuropeanConference on Machine Learning, pp 137-142 [YJ97] Yiming Yang, Jan O.Pedersen (1997) A comparative study on feature selection in text categorization In Proceedings of ICML-97, 14th International Conference on Machine Learning (1997), pp 412-420 TIEU LUAN MOI download : skknchat@gmail.com ... đoan luận văn với đề tài ? ?Sử dụng kỹ thuật tương quan chéo, kỹ thuật phân tích nhân dự đốn xu hướng số chứng khốn dựa phân tích tâm trạng từ phương tiện xã hội? ?? thực hướng dẫn PGS.TS Hà Quang Thụy... CÔNG NGHỆ NGUYỄN TIẾN TÙNG SỬ DỤNG KỸ THUẬT TƢƠNG QUAN CHÉO, KỸ THUẬT PHÂN TÍCH NHÂN QUẢ DỰ ĐỐN XU HƢỚNG CHỈ SỐ CHỨNG KHỐN DỰA TRÊN PHÂN TÍCH TÂM TRẠNG TỪ PHƢƠNG TIỆN XÃ HỘI Ngành: Công nghệ thông... tính từ, động từ trạng từ Sử dụng liệu corpus để tìm tính từ mang xu hướng tâm trạng, sử dụng liệu từ điển để tìm động từ trạng từ mang xu hướng tâm trạng Tâm lý chung tweet tính cách sử dụng phương