Hiện nay trên thế giới đã có một số công trình nghiên cứu ứng dụng khai phá văn bản trong việc dự đoán thị trường chứng khoán cũng như biến động về giá. Tuy nhiên, ở Việt Nam chưa thực sự có nhiều nghiên cứu về khai phá văn bản (Textmining) ứng dụng trong tài chính cũng như xử lý ngôn ngữ tiếng Việt. Bài nghiên cứu là nguồn tham khảo khách quan và có giá trị cho các nhà quản lý và nhà đầu tư trong việc đưa ra các quyết định trên thị trường chứng khoán.
Chuyên mục Nghiên cứu Khoa học Sinh viên, Số (Tháng 6/2021)/UEB Category of Student Scientific Research ỨNG DỤNG KỸ THUẬT KHAI PHÁ VĂN BẢN (TEXT MINING) TRONG DỰ BÁO THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM Nguyễn Thùy Linh*, Nguyễn Linh Diệp, Nguyễn Ngọc Hải Trường Đại học Kinh tế, Đại học Quốc gia Hà Nội, 144 Xuân Thủy, Cầu Giấy, Hà Nội, Việt Nam Tóm tắt: Hiện giới có số cơng trình nghiên cứu ứng dụng khai phá văn việc dự đoán thị trường chứng khoán biến động giá Tuy nhiên, Việt Nam chưa thực có nhiều nghiên cứu khai phá văn (Textmining) ứng dụng tài xử lý ngơn ngữ tiếng Việt Sự thiếu hụt xuất phát từ chất liên ngành liên quan đến ngơn ngữ học – học máy – kinh tế học hành vi Do đó, nghiên cứu xem xét kỹ thuật khai phá văn ứng dụng nhằm dự báo thị trường chứng khoán Việt Nam Nghiên cứu sử dụng gần 70.000 báo từ trang báo điện tử uy tín Việt Nam làm liệu đầu vào cho mơ hình: Cây định (Decision Tree), Rừng ngẫu nhiên (Random Forest), K-Láng giềng (KNN) Vector hỗ trợ (SVM) với tỷ lệ dự đốn xác 51,23%, 52,73%, 51,38% 52,8% Sau lựa chọn mơ hình tối ưu (SVM) tập liệu tốt (Vietstock), thuật toán nhằm đào sâu cải thiện kết tăng độ xác lên 60,1% Mặc dù kết chưa đạt độ xác kỳ vọng nghiên cứu cho thấy tin tức tình hình tài chính, chứng khốn báo chí phổ thơng có ảnh hưởng đến xu hướng giá số VN-Index Do đó, kết nghiên cứu nguồn tham khảo khách quan có giá trị cho nhà quản lý nhà đầu tư việc đưa định thị trường chứng khốn Từ khóa: Khai phá văn bản, học máy, thị trường chứng khoán, SVM, VN-Index GIỚI THIỆU Chứng khoán coi kênh “huyết mạch” để huy động vốn, thị trường chứng khốn giới nói chung Việt Nam nói riêng ngày * Tác giả liên hệ: 094 386 0576 Email: leeyiingg2910@gmail.com 42 Chuyên mục Nghiên cứu Khoa học Sinh viên, Số (Tháng 6/2021)/UEB Category of Student Scientific Research thu hút nhiều nhà đầu tư Theo số liệu từ Trung tâm Lưu ký Chứng khoán Việt Nam, riêng tháng 11/2020, thị trường chứng khốn Việt Nam có 41.200 tài khoản (cao theo tháng từ trước đến nay) Hiện với 2,7 triệu tài khoản (tính đến cuối tháng 11/2020), thị trường chứng khoán Việt Nam ngày quan tâm nhà đầu tư muốn biết thêm tương lai thị trường để đầu tư thành cơng Chính vậy, việc dự đốn thị trường hiệu mang lại lợi ích to lớn cấp độ vĩ mô vi mô, giúp nhà đầu tư đưa lời khuyên giao dịch sử dụng phần gợi ý đại lý giao dịch tự động Các phương pháp phân tích cổ điển thường dựa vào số liệu lịch sử giá kết hợp với số tài Tuy nhiên, thơng tin thực tế số tài chính, kết hoạt động kinh doanh thường mang tính chất tổng kết thời kỳ (quý, nửa năm, năm), tin tức liên quan tới doanh nghiệp thường có tác động đến giá cổ phiếu doanh nghiệp Đã có nhiều nghiên cứu trước sử dụng thuật tốn để phân tích liệu thị trường thơng qua phân tích kỹ thuật như: sử dụng mơ hình ARCH GARCH Tuy nhiên, với phát triển khoa học công nghệ, thuật toán liên quan tới kỹ thuật học máy (Machine learning) áp dụng, khắc phục nhược điểm phương pháp phân tích cổ điển Theo lý thuyết “Thị trường hoàn hảo”, tất nhà đầu tư nắm thông tin giống giá chứng khốn phản ánh đầy đủ giá trị Tuy nhiên, nhà đầu tư, việc tổng hợp tất tin tức không vấn đề nguồn tài liệu mà vấn đề thời gian Theo kiểm tra tốc độ đọc tài trợ Staples, người lớn có tốc độ đọc trung bình 300 từ phút Trung bình, trang giấy A4 có từ 400 đến 500 từ Do đó, để đọc tài liệu gồm 20 trang, người cần 30 phút chí cần nhiều thời gian để hiểu, phân tích tổng hợp lượng thơng tin Tuy nhiên, khối lượng thơng tin công bố Internet ngày nhiều khiến cho nhu cầu công cụ giúp người đọc tìm kiếm, tổng hợp thơng tin gia tăng (Aas Eikvil, 1999) 43 Chuyên mục Nghiên cứu Khoa học Sinh viên, Số (Tháng 6/2021)/UEB Category of Student Scientific Research Trong thời đại bùng nổ thông tin, ngày người đọc tiếp xúc với vơ vàn nguồn tin tức khác Những nguồn tin tin tức trực tiếp liên quan tới tình hình tài thị trường, doanh nghiệp liên quan gián tiếp tới doanh nghiệp thơng qua báo nói đời tư, gặp gỡ doanh nghiệp với doanh nghiệp khác chí đơi chia sẻ (có thể chưa kiểm chứng) lan truyền mạng xã hội Trên thực tế, văn cung cấp thông tin quan trọng liệu số Thông tin văn dễ hiểu giúp người đọc nắm bắt cách tổng quát Đặc biệt nhà đầu tư mới, cịn kinh nghiệm việc áp dụng phân tích kỹ thuật để đầu tư chứng khốn, đa phần họ dựa vào thơng tin văn cung cấp trang tin tức online hàng đầu chứng khoán báo hàng ngày cơng ty chứng khốn đăng tải dành cho khách hàng Do đó, phân tích văn có ý nghĩa quan trọng bổ sung cho việc phân tích số tài mơ hình giá Text-mining kỹ thuật trí tuệ nhân tạo xu hướng nhiều nhà nghiên cứu lựa chọn để tìm giải pháp cho nhiều lĩnh vực đời sống, đặc biệt dự báo thị trường chứng khoán Việt Nam Việc sử dụng phương pháp Khai phá liệu văn cần thiết, mang tính sáng tạo cao Hơn nữa, khơng có nghiên cứu gần Việt Nam làm đề tài tương tự nên nhóm nghiên cứu định tiến hành nghiên cứu tiên phong đề tài TỔNG QUAN TÀI LIỆU 2.1 Tổng quan nghiên cứu nước Lĩnh vực dự báo thị trường chứng khốn ln nhận quan tâm cộng đồng nghiên cứu nước Đã có nhiều cơng trình nước nghiên cứu dự báo chứng khoán như: Đặng Hồng Phú (2008) trình bày tổng quan khai phá liệu: khái niệm, kỹ thuật khai phá liệu ứng dụng khai phá liệu Trong luận văn tập trung vào kỹ thuật khai phá liệu chuỗi thời gian áp dụng vào toán thực tế quan tâm tốn dự báo nói chung dự báo giá chứng khốn nói riêng Luận văn trình bày số nội dung sở lý thuyết 44 Chuyên mục Nghiên cứu Khoa học Sinh viên, Số (Tháng 6/2021)/UEB Category of Student Scientific Research chuỗi thời gian thực, mơ hình ARIMA (các cơng cụ áp dụng mơ hình, quy trình xây dựng mơ hình) phần mềm Eviews, áp dụng Eviews để thi hành bước mơ hình ARIMA dự báo chứng khốn Luận văn áp dụng sở lý thuyết nghiên cứu tiến hành thực nghiệm ba chuỗi chứng khoán (chỉ số VnIndex, mã CK ABT, ACB) dựa liệu lịch sử chuỗi (gồm 257 quan sát khứ) dự báo giá đóng cửa 10 ngày Kết dự báo phân tích, kiểm tra, đối chiếu với giá thực tế cho thấy kết xác, độ tin cậy cao Như vậy, mơ hình ARIMA đưa cho chuỗi chứng khoán luận văn phù hợp để dự báo ngắn hạn giá cổ phiếu Tác giả nắm quy trình dùng phần mềm Eviews để xây dựng mơ hình ARIMA cho liệu thời gian thực, tính tốn giá trị dự báo cho chuỗi liệu chứng khoán Trịnh Thanh Ngọc (2013) sử dụng trang mạng xã hội Twitter kết hợp với kỹ thuật học máy hồi quy hỗ trợ SVR để dự báo xu chứng khoán Cụ thể hơn, tác giả xây dựng chương trình dự báo giá cổ phiếu Apple Lê Văn Tuấn (2021) sử dụng số mơ hình thuật tốn học máy để dự báo xu hướng biến động (tăng/giảm) số thị trường chứng khoán Việt Nam Kết cho thấy, biến động tăng/giảm thị trường chứng khoán Việt Nam phụ thuộc vào tăng/ giảm ngày trước mà không phụ thuộc vào ngày xa hơn, không phụ thuộc vào khối lượng giao dịch Trong mơ hình hồi quy Logistic, mơ hình phân tích phân biệt tuyến tính (LDA), phân tích phân biệt tồn phương (QDA) mơ hình K láng giềng (KNN), mơ hình KNN có độ xác dự báo tốt với 55,6% Nguyễn Thị Thu Hiền (2016) đề xuất mơ hình dự báo đa trị dựa hệ suy luận ANFIS, từ xây dựng thuật toán huấn luyện thuật toán dự báo Để minh chứng tính hiệu mơ hình đề xuất, nhóm nghiên cứu xây dựng hai ứng dụng thực nghiệm: (1) Dự báo sản lượng sữa sở liệu công ty Vinamilk; (2) Dự báo giá cổ phiếu sở liệu Cophieu68 Bài báo giải vấn đề dự báo đồng thời nhiều kết quả, giúp cải thiện đáng kể tốc độ so với phương pháp khác như: AR, ARMA, ANFIS, NARX, SANN, MLR, T-Norm dựa ANFIS 45 Chuyên mục Nghiên cứu Khoa học Sinh viên, Số (Tháng 6/2021)/UEB Category of Student Scientific Research Điều minh chứng phần kết thực nghiệm Hướng phát triển báo đề xuất hệ ANFIS có khả tự nhận biết trường hợp dị biệt có khả chịu lỗi cao để kết dự báo không bị ảnh hưởng giá trị bất thường Có thể thấy, nghiên cứu chủ yếu sử dụng liệu số để dự báo giá chứng khoán mà chưa xem xét đến tác động tin tức tình hình tài chính, kinh tế, giới đến xu hướng biến động giá chứng khốn 2.2 Tổng quan nghiên cứu nước ngồi Lĩnh vực sử dụng kỹ thuật học máy để dự báo xu hướng thị trường chứng khốn khơng xuất nghiên cứu nước mà thu hút quan tâm cộng đồng nghiên cứu giới, như: Arman Khadjeh Nassirtoussi cộng (2014) tổng kết cơng trình gần việc áp dụng text mining để dự báo thị trường, hầu hết hệ thống đề xuất cơng trình nghiên cứu theo kiến trúc sau: Hình 1: Sơ đồ thành phần hệ thống dự báo thị trường Nguồn: Nhóm nghiên cứu tổng hợp 46 Chuyên mục Nghiên cứu Khoa học Sinh viên, Số (Tháng 6/2021)/UEB Category of Student Scientific Research Về cơng trình sử dụng kỹ thuật khai phá văn để dự báo số chứng khốn, kể đến số nghiên cứu sau: Tien Thanh Vu cộng (2012) khai phá tính từ tin nhắn Twitter để nắm bắt tâm trạng công chúng liên quan cho bốn công ty công nghệ để dự đoán biến động giá lên xuống hàng ngày cổ phiếu NASDAQ công ty Nghiên cứu đề xuất mơ hình kết hợp tính cụ thể phân tích tâm lý tích cực, tâm lý tiêu cực niềm tin người tiêu dùng vào sản phẩm liên quan đến từ “tăng giá” “giảm giá” ba ngày vận động thị trường chứng khốn trước Các tính sử dụng phân loại Cây định cách sử dụng xác thực nhiều lần để mang lại độ xác 82,93%, 80,49%, 75,61% 75,00% việc dự đoán thay đổi lên xuống hàng ngày Apple (AAPL), Google (GOOG), cổ phiếu Microsoft (MSFT) Amazon (AMZN) tương ứng mẫu 41 ngày thị trường Hình 2: Mơ hình dự báo giá chứng khốn sử dụng liệu Twitter Nguồn: Nhóm nghiên cứu tổng hợp 47 Chuyên mục Nghiên cứu Khoa học Sinh viên, Số (Tháng 6/2021)/UEB Category of Student Scientific Research G Pui Cheong Fung cộng (2003), đề xuất kết hợp hai phương pháp khai phá liệu văn chuỗi thời gian dựa giả thuyết thị trường hiệu (Eficient Market Hypothesis), giúp đưa nhìn khái quát thị trường chứng khoán Tới năm 2004, Marc-André Mittermayer thực nghiên cứu dựa báo liệu giá cổ phiếu năm 2002 NewsCATS Kết cho thấy việc phân loại báo cung cấp thơng tin bổ sung có khả sử dụng để dự báo xu hướng giá cổ phiếu Robert P Schumaker Hsinchun Chen (2009) sử dụng liệu 9.211 báo tin tức tài 10.259.042 báo giá chứng khoán, bao gồm cổ phiếu S&P 500 thời gian tuần Bằng phương pháp khai phá liệu văn bản, nhóm tác giả đưa kết luận với độ xác khoảng 57% Johan Bollena, Huina Maoa Xiaojun Zeng, (2011) thu tập hợp đăng công khai ghi lại từ ngày 28/02 đến ngày 19/12/2008, bao gồm 9.853.498 đăng khoảng 2,7 triệu người theo dõi Họ phân tích nội dung văn nguồn liệu Twitter hàng ngày hai công cụ theo dõi tâm trạng, đo lường trạng thái tích cực so với tiêu cực (Opinion Finder) đo lường tâm trạng theo sáu chiều (Calm, Alert, Sure, Vital, Kind, Happy) Kết cho thấy biểu tâm trạng thông qua đăng Twitter có ảnh hưởng tới thị trường chứng khoán Hiện giới có số cơng trình nghiên cứu ứng dụng khai phá văn việc dự đoán thị trường chứng khoán biến động giá Tuy nhiên, phạm vi Việt Nam, cơng trình nghiên cứu dự báo thị trường chứng khoán chủ yếu tiếp cận phương pháp khai phá liệu dựa liệu số đơn Như vậy, nói, việc sử dụng phương pháp khai phá văn thị trường chứng khốn Việt Nam cịn mẻ đóng góp rõ rệt lĩnh vực Trong chương sau, nhóm nghiên cứu trình bày sơ lược kỹ thuật khai phá văn trình bày mơ hình kết thử nghiệm PHƯƠNG PHÁP NGHIÊN CỨU 48 Chuyên mục Nghiên cứu Khoa học Sinh viên, Số (Tháng 6/2021)/UEB Category of Student Scientific Research Nghiên cứu sử dụng mô hình học máy (Marchine Learning): Véc tơ hỗ trợ (SVM), Cây định (Decision Tree), Rừng ngẫu nhiên (Random Forest), K-láng giềng (KNN) để dự báo biến động giá thị trường chứng khoán Việt Nam Textmining trang báo điện tử Việt Nam Quy trình nghiên cứu cụ thể sau: Nhóm nghiên cứu thu thập nguồn liệu văn báo, tin tức từ trang web tài tiếng nguồn liệu số số lịch sử giá VN-INDEX từ trang: Investing.com sử dụng công cụ thư viện Beautiful Soup Python Sau nghiên cứu tiến hành kết hợp tin tức văn đồng thời gán nhãn cho báo theo mức độ: tăng, giảm, không đổi, để phục vụ cho công tác nghiên cứu bước Nhóm nghiên cứu loại bỏ ký tự gây nhiễu, từ dừng việc sử dụng công cụ phân đoạn từ tiếng Việt Word_tokenizer thư viện Underthesea cơng cụ đạt tỷ lệ xác 90% việc mã hóa câu tiếng Việt Các văn tin tức sau xử lý đưa vào Lựa chọn đặc trưng Ở bước này, nhóm nghiên cứu sử dụng phương pháp TF-DIF để lọc 1024 từ đặc trưng từ tập liệu, từ đặc trưng giúp mơ hình máy học từ việc dựa vào để đưa kết phân loại xác Các liệu đưa vào chương trình Huấn luyện tập liệu với tỷ lệ 70:30 Sau huấn luyện, nhóm nghiên cứu thực Thử nghiệm mơ hình để lựa chọn mơ hình tối ưu tập liệu đầu vào tốt nhất, nhằm nâng cao kết nghiên cứu 49 Chuyên mục Nghiên cứu Khoa học Sinh viên, Số (Tháng 6/2021)/UEB Category of Student Scientific Research Hình 3: Quy trình nghiên cứu Nguồn: Nhóm nghiên cứu tổng hợp KẾT QUẢ NGHIÊN CỨU Nhóm sử dụng mơ hình học máy: Decision Tree, Random Forrest, KNN SVM để thử nghiệm tập liệu đầu vào Mơ hình có tỷ lệ xác cao chọn làm mơ hình tối ưu Kết thu sau: Bảng 1: Kết thử nghiệm mơ hình tối ưu Thuật tốn/ Mơ hình Cây định Random Forest K-Láng Giềng Máy Vector Hỗ trợ (SVM) Tỷ lệ xác 51,23% 52,73% 51,38% 52,8% Từ kết trên, ta thấy kết mơ hình SVM đạt tỷ lệ xác cao với 52,8% Trong phần thử nghiệm nhóm sử dụng mơ hình SVM dự báo số giá VN-index (dự báo Thị trường chứng khoán Việt Nam) Bảng 2: Kết thử nghiệm tập liệu đầu vào tốt Từ ngày Đến ngày Số mẫu Kết Vietstock 2016-2021 09/02/2021 1.274 55,87% Vnexpress 24/02/2001 11/02/2021 3.408 53,37% Thanhnien 28/01/2013 12/02/2021 3.784 53,52% Cafef 15/10/2008 04/02/2021 3.065 53,48% Nguồn: Nhóm nghiên cứu tổng hợp 50 Chuyên mục Nghiên cứu Khoa học Sinh viên, Số (Tháng 6/2021)/UEB Category of Student Scientific Research Với thử nghiệm sử dụng mơ hình SVM để dự báo Chỉ số giá VN-Index liệu đầu vào trang báo điện tử Vietstock, kết cho thấy trang web mang lại kết cao (55,87%) Chính vậy, lựa chọn liệu đầu vào cho mô hình báo tài chính, kinh tế trang báo điện tử Vietstock Để nâng cao kết chương trình thử nghiệm, chúng tơi sử dụng kỹ thuật thay đổi tham số C Gamma Nhóm thử nghiệm thay tham số cho mơ hình C với giá trị từ 0,1 đến 1000 gamma từ 0.0001 đến kernel 'rbf' Kết tốt thu 60,1% Bảng 3: Kết nâng cao chương trình thử nghiệm Tham số cho mơ hình Kết C=0,1 gamma=1 kernel='rbf 57,1% C=0,1 gamma=0,1 kernel='rbf 57,1% C=0,1 gamma=0,01 kernel='rbf 57,1% C=0,1 gamma=0,001 kernel='rbf 58,1% C=0,1 gamma=0,0001 kernel='rbf 57,1% C=1 gamma=1 kernel='rbf 57,6% C=1 gamma=0,1 kernel='rbf 58,1% C=1 gamma=0,01 kernel='rbf 57,1% C=1 gamma=0,001 kernel='rbf 57,1% C=1 gamma=0,0001 kernel='rbf 57,1% C=10 gamma=1 kernel='rbf 56,0% 51 Chuyên mục Nghiên cứu Khoa học Sinh viên, Số (Tháng 6/2021)/UEB Category of Student Scientific Research C=10 gamma=0,1 kernel='rbf 59,2% C=10 gamma=0,01 kernel='rbf 57,1% C=10 gamma=0,001 kernel='rbf 59,1% C=10 gamma=0,0001 kernel='rbf 57,1% C=100 gamma=1 kernel='rbf 56,3% C=100 gamma=0,1 kernel='rbf 55,2% C=100 gamma=0,01 kernel='rbf 60,1% C=100 gamma=0,001 kernel='rbf 57,1% C=100 gamma=0,0001 kernel='rbf 57,1% C=1000 gamma=1 kernel='rbf 56,3% C=1000 gamma=0,1 kernel='rbf 56,0% C=1000 gamma=0,01 kernel='rbf 56,0% C=1000 gamma=0,001 kernel='rbf 60,1% C=1000 gamma=0,0001 kernel='rbf 57,1% Nguồn: Nhóm nghiên cứu tổng hợp Sau thực nâng cao kết thực nghiệm, kết nhận khả thi lần thử nghiệm Các kết cho thấy tin tức tài chính, chứng khốn trang báo điện tử mà người dân Việt Nam xem ngày có ảnh hưởng đến Giá chứng khốn VN-Index KẾT LUẬN 52 Chuyên mục Nghiên cứu Khoa học Sinh viên, Số (Tháng 6/2021)/UEB Category of Student Scientific Research Trong thời đại nay, phát triển công nghệ thông tin kéo theo phát triển nhiều lĩnh vực (trong có kinh tế, tài chính,…) Ngày người khơng phải vất vả cơng thu thập liệu có trợ thủ hệ thống máy tính mạng truyền số liệu triển khai quy mơ tồn cầu Tuy nhiên, thay đổi lại làm cho lượng thơng tin tăng cách chóng mặt Có nhiều trang báo, trang thông tin mạng đăng tải lên hàng ngày, hàng Các nhà đầu tư thị trường chứng khoán để hiểu biết Thị trường, họ phải tìm kiếm thơng tin hiệu quả, phân loại thơng tin để nắm bắt Thị trường với lượng thơng tin q lớn, địi hỏi xử lí nhanh việc phân loại thủ công điều không tưởng Kỹ thuật sử dụng Học máy ứng dụng Text-mining để tự động phân loại thơng tin giúp ích cho người nhiều Trong nghiên cứu này, tác giả khảo sát tổng kết số công trình dự báo thị trường chứng khốn gần từ phương pháp dựa vào liệu số đơn đến phương pháp sử dụng khai phá văn Sau nhóm đề xuất mơ hình nghiên cứu tiến hành thử nghiệm chương trình dự báo số VN-Index dựa vào tin tức tiếng Việt tải từ trang web tin tức phổ biến Việt Nam nghiên cứu từ loại góp phần làm cho kết dự báo VN-Index tốt Nghiên cứu tổng hợp sở lý thuyết liên quan tới việc ứng dụng học máy dự báo biến động giá chứng khoán nhằm bổ sung sở lý thuyết lĩnh vực Sau thử nghiệm kỹ thuật – mơ hình phổ biến nay: Decision Tree, Random Forrest, KNN SVM Nhóm nghiên cứu định lựa chọn sử dụng Support Vector Machines (SVM) cho toán dự báo thị trường chứng khoán, với số lý trên: + Số lượng đặc trưng (kích thước khơng gian đặc trưng) văn phân loại không ảnh hưởng nhiều đến khả hệ thống sử dụng SVM + SVM có khả phân loại tốt tập liệu kiểm tra mà khơng cần có tập liệu huấn luyện q lớn 53 Chuyên mục Nghiên cứu Khoa học Sinh viên, Số (Tháng 6/2021)/UEB Category of Student Scientific Research + SVM dùng nhiều cơng trình khoa học công bố áp dụng khai phá văn dự báo thị trường chứng khoán chứng minh có kết tốt Kết thử nghiệm lần cho thấy SVM đạt mức độ xác cao với 52,8% Để cải tiến mơ hình đạt độ tin cậy cao hơn, nhóm nghiên cứu thử nghiệm lần với tập liệu riêng lẻ trang báo cuối chọn lựa tập liệu đầu mang kết tốt từ trang báo điện tử Vietstock Việc thay đổi phạm vi tập liệu, nhóm nghiên cứu dự báo xu hướng giá số VN-INDEX đạt tỷ lệ xác đến 60,1% Điều chứng tỏ tin tức tình hình tài chính, chứng khốn báo chí phổ thơng gây ảnh hưởng đến xu hướng giá số VN-INDEX Kết dự báo mơ hình nghiên cứu nguồn tham khảo khách quan có giá trị cho nhà quản lý nhà đầu tư định thị trường chứng khốn Tuy nhiên, kết dự báo nghiên cứu chưa thật cao, theo nhóm nghiên cứu phần tính biến động khó lường thị trường chứng khốn, phần độ trễ liệu tin tức Ngồi ra, mơ hình nghiên cứu sử dụng hệ thống khác dự báo tỉ giá, phân tích quan điểm nhận xét sản phẩm, dự báo giá vàng, phân loại tin tức theo chủ đề, phân loại email, trang tin tức tùy biến theo ngữ cảnh,… TÀI LIỆU THAM KHẢO Tài liệu Tiếng Việt Nguyễn Thị Hải Yến (2007), “Phân lớp bán giám sát ứng dụng thuật toán SVM vào phân lớp trang web”, Khoá luận tốt nghiệp, Đại học quốc gia Hà Nội, Đại học Công nghệ L C M Hồ Tú Bảo (2017), “Về xử lý tiếng Việt công nghệ thông tin”, Viện Công nghệ Thông tin, Viện Khoa học Công nghệ Tiên tiến Nhật Bản 54 Chuyên mục Nghiên cứu Khoa học Sinh viên, Số (Tháng 6/2021)/UEB Category of Student Scientific Research Phạm Quốc Hùng (2013), “Nghiên cứu ứng dụng kỹ thuật học máy để dự đốn chứng khốn ngơn ngữ R”, Luận văn Thạc sĩ, Đại học Quốc gia Hà Nội, Trường Đại học Công nghệ Nguyễn Thị Lan Anh (2015), “Nghiên cứu thuật toán học máy SVM ứng dụng toán khai phá ý kiến phản hồi khách hàng web”, Luận văn thạc sĩ, Học viện Cơng nghê Bưu Viễn thơng Vũ Hữu Dũng (2013), “Ứng dụng khai phá liệu dự báo biến động thị trường chứng khoán Việt Nam”, LVThs CNTT, Trường Đại học Công nghệ Đại học Quốc gia Hà Nội Nguyễn Hữu Bình (2020), “Thị trường chứng khoán Việt Nam: Sự trưởng thành sau 20 năm hình thành phát triển”, Nghiên cứu, Trường Đại học Lao động – Xã hội Phạm Thành Phước (2013), “Mạng neural ứng dụng dự báo giá chứng khoán trung tâm giao dịch chứng khoán TP Hồ Chí Minh”, Luận văn Thạc sĩ, Học viện Cơng nghệ Bưu Viễn thơng Hà Quang Thụy, Phan Xn Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2011), Giáo trình Khai phá liệu web, Nhà XB GD VN Đặng Thị Quỳnh Mai (2015), “Tác động yếu tố kinh tế vĩ mô đến số giá Chứng khoán VN-Index”, Luận văn Thạc sĩ, Đại học Tài – Marketing Tài liệu tiếng Anh Cady, Field “Machine Learning Overview”, The Data Science Handbook Hoboken, NJ, USA: John Wiley & Sons, 2017 87-91 Web Raschka, Sebastian; Mirajalili, Vahid Python Machine Learning: Machine Learning and Deep Learning with Python, Scikit-learn, and Tensor Flow Packt, 2020 Web 55 Chuyên mục Nghiên cứu Khoa học Sinh viên, Số (Tháng 6/2021)/UEB Category of Student Scientific Research Dao, Ly Na, Tran, Duc Quynh, and VNU– International School Application of Machine Learning to Predict the Success of Telemarketing H.: VNU, 2020 Web Murdoch, W., Chandan Singh, Karl Kumbier, Reza Abbasi-Asl, and Bin Yu "Interpretable Machine Learning: Definitions, Methods, and Applications." ArXiv.org 116.44 (2019): 22071-22080 Web M K C Dr P K Sahoo (2019), "Stock Price Prediction Using Regression Analysis", International Journal of Scientific & Engineering Research, Vol 6, No Nikfarjam, A.; Emadzadeh, E.; Muthaiyah, S (2010), “Text mining approaches for stock market prediction”, Computer and Automation Engineering (ICCAE), 2010 The 2nd International Conference on, Vol 4, 26-28 Feb 2010, Singapore, IEEE, pp.256260 T Joachims (1999), Transductive Inference for Text Classification using Support Vector Machines International Conference on Machine Learning (ICML), 1999 Aas, K., & Eikvil, L (1999), Text categorisation: A survey Technical report Norwegian Computing Center D Blei and J Lafferty (2009), Topic models Text Mining: Theory and Applications 10 Fung, G P C., Yu, J X., & Lam, W (2002, May), News sensitive stock trend prediction In Pacific-Asia Conference on Knowledge Discovery and Data Mining (pp 481-493) Springer, Berlin, Heidelberg 11 Kloptchenko, Antonina, Tomas Eklund, Jonas Karlsson, Barbro Back, Hannu Vanharanta, and Ari Visa, “Combining data and text mining techniques for analysing financial reports”, Intelligent Systems in Accounting, Finance and Management 12, no (2004): 29-41 12 Meier, Marco, and Michael Beckh, “Text Mining”, Wirtschaftsinformatik 42.2 (2000): 165-67 Web 56 Chuyên mục Nghiên cứu Khoa học Sinh viên, Số (Tháng 6/2021)/UEB Category of Student Scientific Research 13 Nassirtoussi, A.K (2015) A multi-layer dimension reduction algorithm for text mining of news in forex / Arman Khadjeh Nassirtoussi Tài liệu web Báo điện tử Thanh Niên, http://www.thanhnien.com.vn/chung-khoan/ Báo điện từ Tuổi Trẻ, http://tuoitre.vn/tin/kinh-te Báo điện tử Vietstock, http://vietstock.vn/ Báo điện tử Cafef, https://cafef.vn/ Báo điện tử VNEXPRESS (05/2015), http://kinhdoanh.vnexpress.net/ Báo cáo phân tích BVSC Báo cáo phân tích SSI Báo cáo phân tích VDSC Thị trường chứng khốn Việt Nam: http://consosukien.vn/thi-truong-chung-khoan-viet-nam-su-truong-thanh-sau-20-namhinh-thanh-va-phat-trien.htm 11 Bộ liệu từ điển tiếng Việt: http://www.informatik.uni- leipzig.de/~duc/Dict/ 12 Bộ gán nhãn từ Tiếng Việt: https://github.com/hakz/vntagger-gate- plugin.vntagger 57 ... niệm, kỹ thuật khai phá liệu ứng dụng khai phá liệu Trong luận văn tập trung vào kỹ thuật khai phá liệu chuỗi thời gian áp dụng vào tốn thực tế quan tâm tốn dự báo nói chung dự báo giá chứng khốn... tới thị trường chứng khoán Hiện giới có số cơng trình nghiên cứu ứng dụng khai phá văn việc dự đoán thị trường chứng khoán biến động giá Tuy nhiên, phạm vi Việt Nam, cơng trình nghiên cứu dự báo. .. nghiên cứu dự báo thị trường chứng khoán chủ yếu tiếp cận phương pháp khai phá liệu dựa liệu số đơn Như vậy, nói, việc sử dụng phương pháp khai phá văn thị trường chứng khốn Việt Nam cịn mẻ đóng