1. Trang chủ
  2. » Luận Văn - Báo Cáo

ỨNG DỤNG TEXT MINING dự báo THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM

57 522 9

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 57
Dung lượng 5,96 MB

Nội dung

Góp phần vào các giải pháp dự báo thị trường chứng khoán tại Việt Nam, và đặc biệt là khảo sát sự liên hệ giữa các tin tức về tình hình kinh tế, tài chính trên các báo điện tử phổ biến ở

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

-

PHẠM XUÂN DŨNG

ỨNG DỤNG TEXT MINING DỰ BÁO THỊ TRƯỜNG

CHỨNG KHOÁN VIỆT NAM

LUẬN VĂN THẠC SĨ CAO HỌC NGÀNH: KHOA HỌC MÁY TÍNH

Mã số: 60.48.01.01

HƯỚNG DẪN KHOA HỌC:

GS.TSKH HOÀNG VĂN KIẾM

TP HỒ CHÍ MINH - 2015

Trang 2

Lời cam đoan:

Tôi xin cam đoan những nội dung trong luận văn này là do chính tôi tìm hiểu, tổng hợp và tự nghiên cứu Tất cả dữ liệu thử nghiệm đều là dữ liệu thực và các kết quả thử nghiệm được trình bầy trong luận văn là trung thực Những phần hay phương pháp sưu tầm từ các tài liệu khác đều được trích dẫn đầy đủ Tôi xin chịu mọi trách nghiệm về nội dung của luận văn này và chịu mọi hình thức kỷ luật nếu lời cam đoan này không trung thực

TP HCM, ngày 6 tháng 1 năm 2016

Học Viên

Phạm Xuân Dũng

Trang 3

MỤC LỤC

Trang CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN DỰ BÁO THỊ TRƯỜNG CHỨNG

KHOÁN, CÁC KỸ THUẬT VÀ CÁC CÔNG TRÌNH LIÊN QUAN 3

1.1 Mục tiêu, đối tượng, phạm vi của đề tài luận văn thạc sĩ 3

1.2 Giới thiệu bài toán dự báo thị trường chứng khoán 3

1.3 Giả thiết thị trường hiệu quả [6, 30] 4

1.4 Các bằng chứng chống lại giải thiết thị trường hiệu quả [6, tr 53-56] 5

1.5 Tổng quan tình hình nghiên cứu trong nước và trên thế giới 5

CHƯƠNG 2: CÁC KỸ THUẬT KHAI PHÁ VĂN BẢN [4, 12] 12

2.1 Thuật toán K-Trung bình (K-means)[4] 12

2.2 Thuật toán cây quyết định (Decision tree)[4] 13

2.3 K-láng giềng gần nhất (K-Nearest Neighbor)[4] 13

2.4 Support Vector Machines (SVM)[4] 15

2.4.1 Giới thiệu 15

2.4.2 Bài toán và cách giải quyết 15

2.4.3 Hàm nhân Kernel 21

2.4.4 Thuật toán Sequential Minimal Optimization (SMO) 22

CHƯƠNG 3: ĐỀ XUẤT MÔ HÌNH CẢI TIẾN DỰ BÁO XU HƯỚNG CỦA CHỈ SỐ VN-INDEX SỬ DỤNG KỸ THUẬT KHAI PHÁ VĂN BẢN 24

3.1 Đề xuất mô hình cải tiến 25

3.2 Nguồn dữ liệu: 26

3.3 Phương pháp kết hợp nội dung các tin tức 27

3.4 Gán nhãn tin tức để chuẩn bị dữ liệu cho giai đoạn huấn luyện 28

3.5 Loại bỏ các thành phần không cần thiết trong bài báo 29

3.6 Gán nhãn từ loại 29

3.7 Loại bỏ các từ dừng[4] 30

3.8 Lựa chọn đặc trưng [4, 12] 32

3.9 Biểu diễn các bài báo theo không gian vector 33

Trang 4

CHƯƠNG 4: XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM 35

4.1 Các module chính của chương trình thử nghiệm 35

4.2 Phương pháp đánh giá hiệu quả dự báo 35

4.3 Kết quả thử nghiệm: 36

4.3.1 Thử nghiệm 1: Áp dụng mô hình cải tiến đã đề xuất, dự báo xu hướng giá VN-INDEX, thử nghiệm trên tập dữ liệu 1 36

4.3.2 Thử nghiệm 2: Áp dụng mô hình cải tiến đã đề xuất, dự báo xu hướng giá VN-INDEX, thử nghiệm trên tập dữ liệu 2 38

4.3.3 Thử nghiệm 3: Áp dụng mô hình cải tiến đã đề xuất, dự báo xu hướng giá VN-INDEX, thử nghiệm trên tập dữ liệu 3 40

4.4 Tổng kết chương 4 42

CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 43

5.1 Kết luận 43

5.2 Hướng phát triển 43

TÀI LIỆU THAM KHẢO 45

Trang 5

Danh mục các thuật ngữ và ký hiệu

trợ)

toán tối tiểu tuần tự) VN-INDEX Là chỉ số thể hiện biến động giá cổ phiếu

giao dịch tại TTGDCK TP.HCM

hôm sau tăng so với ngày hôm trước Tin trung tính Tin tức làm cho giá VN-INDEX ngày

hôm sau không tăng, không giảm so với ngày hôm trước

hôm sau giảm so với ngày hôm trước

Trang 6

DANH MỤC BẢNG

Trang

Bảng 1.1: Thông tin về một số công trình nghiên cứu sử dụng text mining dự báo

chứng khoán trên thế giới 10

Bảng 3.1: Bảng số liệu các tin tức thu thập được từ các trang báo điện tử đã loại bỏ nhiễu và tin quá ngắn 26

Bảng 3.2: Bảng lịch sử giá của chỉ số VN-INDEX 26

Bảng 3.3: Bảng phân loại tin tức theo lịch sử giá 28

Bảng 3.4: Các biểu thức chính quy lấy các phần của tin tức VNEXPRESS 29

Bảng 3.5: Một số từ dừng trong văn bản tiếng Việt 30

Bảng 3.6: Trích một phần danh sách từ tiếng Việt [31] 31

Bảng 4.1: Các module chính của chương trình thử nghiệm 35

Bảng 4.2 Bảng phân chi tập dữ liệu huấn luyện và kiểm tra cho thử nghiệm 1 36

Bảng 4.3: Một số đặc trưng có thông tin tương hỗ cao đối với lớp tương ứng trong thử nghiệm 1 37

Bảng 4.4: Kết quả thử nghiệm 1 37

Bảng 4.5: Bảng phân chi tập dữ liệu huấn luyện và kiểm tra cho thử nghiệm 2 38

Bảng 4.6: Một số đặc trưng có thông tin tương hỗ cao đối với lớp tương ứng trong thử nghiệm 2 38

Bảng 4.7: Bảng kết quả thử nghiệm 2 39

Bảng 4.8: Bảng phân chi tập dữ liệu huấn luyện và kiểm tra cho thử nghiệm 3 40

Bảng 4.9: Một số đặc trưng có thông tin tương hỗ cao đối với lớp tương ứng trong thử nghiệm 3 40

Bảng 4.10: Bảng kết quả thử nghiệm 3 41

Trang 7

Danh mục hình vẽ và biểu đồ

DANH MỤC HÌNH VẼ

Trang

Hình 1.1: Tính liên ngành của ứng dụng text mining để dự báo thị trường[21] 4

Hình 1.2: Sơ đồ các thành phần chính của hệ thống dự báo thị trường[21] 7

Hình 1.3: Mô hình dự báo giá chứng khoán sử dụng dữ liệu Twitter [24] 8

Hình 1.4: Mô hình huấn luyện được đề xuất trong [23] sử dụng phân loại văn bản dự báo chỉ số VN-INDEX 9

Hình 1.5: Mô hình dự báo xu hướng giá VN-INDEX sử dụng phân loại văn bản được đề xuất trong [23] 9

Hình 2.1: Siêu phẳng phân chia tập mẫu huấn luyện [4] 16

Hình 2.2: Ví dụ về biên không tốt [4] 17

Hình 2.3: Ví dụ về biên tối ưu [4] 17

Hình 2.4: Siêu phẳng phân chia dữ liệu và các ràng buộc [4] 18

Hình 2.5: Trường hợp dữ liệu có nhiễu [4] 20

Hình 3.1: Sơ đồ xây dựng mô hình máy học sử dụng text mining dự báo VN-INDEX, cải tiến từ mô hình được đề xuất trong [23] 25

Hình 3.2: Sơ đồ dự báo xu hướng chỉ số VN-INDEX sử dụng mô hình máy học đã xây dựng 25

Hình 3.3: Sơ đồ phương pháp kết hợp các tin tức thành một văn bản duy nhất 28

Trang 8

Trong các quyết dịnh hàng ngày, chúng ta luôn bị chi phối bởi các thông tin mà chúng ta nghe thấy, nhìn thấy Một trong các nguồn thông tin mà chúng ta nghe thấy, nhìn thấy hàng ngày là các tin tức về tình hình kinh tế, xã hội trên các báo điện

tử

Các tin tức này tắc động đến hành vi mua bán, đầu tư của chúng ta, và đến lượt các hành vi mua bán, đầu tư của chúng ta tác động đến tình hình cung, cầu của thị trường và qua đó tác động đến giá cả thị trường

Góp phần vào các giải pháp dự báo thị trường chứng khoán tại Việt Nam, và đặc biệt là khảo sát sự liên hệ giữa các tin tức về tình hình kinh tế, tài chính trên các báo điện tử phổ biến ở Việt Nam và chỉ số VN-INDEX, trong luận văn này chúng tôi đề xuất và thử nghiệm mô hình dự báo thị trường chứng khoán Việt Nam bằng cách kết hợp các thuật toán khai phá văn bản và dữ liệu số

Nguồn dữ liệu văn bản của luận văn chính là các tin tức về tài chính, chứng khoán trên các báo điện tử phổ thông của Việt Nam như báo Tuổi trẻ, Thanh Niên, VNEXPRESS, Vietstock, và đối tượng dự báo của luận văn là chỉ số VN-INDEX Các kết quả thử nghiệm của luận văn đã cho kết quả khả quan và kết quả dự báo này là nguồn tham khảo khách quan và có giá trị cho các nhà quản lý và đầu tư trên thị trường chứng khoán trong các quyết định đầu tư của mình

Cấu trúc của luận văn gồm 5 chương như sau:

- Chương 1: Tổng quan về bài toán dự báo thị trường chứng khoán, các kỹ

Trang 9

MỞ ĐẦU

- Chương 2: Các phương pháp khai phá văn bản

- Chương 3: Đề xuất mô hình dự báo thị trường chứng khoán Việt Nam sử dụng các kỹ thuật khai phá văn bản

- Chương 4: Xây dựng chương trình thử nghiệm, kết quả và phân tích

- Chương 5: Kết luận và hướng phát triển

Trang 10

CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN DỰ BÁO THỊ TRƯỜNG CHỨNG KHOÁN, CÁC KỸ THUẬT VÀ CÁC CÔNG TRÌNH LIÊN

QUAN

Trong chương này chúng tôi trình bầy về mục tiêu, đối tượng, phạm vi của đề tài luận văn thạc sĩ Sau đó chúng tôi giới thiệu qua về bài toán dự báo thị trường chứng khoán, cuối cùng chúng tôi điểm qua một số kỹ thuật dự báo thị trường chứng khoán và một số công trình nghiên cứu liên quan đến luận văn ở trong nước

và trên thế giới trong thời gian gần đây

1.1 Mục tiêu, đối tượng, phạm vi của đề tài luận văn thạc sĩ

Mục tiêu nghiên cứu của đề tài

+ Tìm hiểu, phân tích các kỹ thuật dự báo chứng khoán hiện đại ở Việt Nam và trên thế giới

+ Đề xuất các cải tiến nhằm làm tăng độ chính xác trong việc dự báo thị trường chứng khoán sử dụng các kỹ thuật text mining

+ Xây dựng chương trình thử nghiệm

Đối tượng và phạm vi nghiên cứu của đề tài

+ Đối tượng nghiên cứu của luận văn là dự báo sự lên xuống (với ba mức tăng, không tăng-không giảm, giảm) của chỉ số chứng khoán VN-INDEX trước một ngày

+ Phạm vi nghiên cứu của luận văn là sử dụng kỹ thuật phân loại văn bản(SVM) áp dụng trên tập các tin tức tiếng Việt trong các chuyên mục tài chính, chứng khoán trên 4 trang báo điện tử phổ biến của Việt Nam

1.2 Giới thiệu bài toán dự báo thị trường chứng khoán

Dự báo thị trường chứng khoán từ lâu đã thu hút nhiều nghiên cứu từ các nhà kinh

tế học và các nhà khoa học máy tính Dự báo thị trường chứng khoán sử dụng text mining là một lĩnh vực mới nổi và thu hút nhiều nghiên cứu trên thế giới Đây là lĩnh vực liên ngành giữa ngôn ngữ học, học máy, và tài chính hành vi (xem Hình 1.1)

Trang 11

Chương 1: Tổng quan về bài toán dự báo TTCK, các kỹ thuật và các công trình liên quan

Hình 1.1: Tính liên ngành của ứng dụng text mining để dự báo thị trường[21]

1.3 Giả thiết thị trường hiệu quả [6, 30]

Giả thuyết thị trường hiệu quả (hay lý thuyết thị trường hiệu quả) (tiếng Anh:

efficient market hypothesis) là một giả thuyết của lý thuyết tài chính khẳng định

rằng các thị trường tài chính là hiệu quả (efficient), rằng giá của chứng khoán

(securities) trên thị trường tài chính, đặc biệt là thị trường chứng khoán, phản ánh đầy đủ mọi thông tin đã biết Do đó không thể kiếm được lợi nhuận bằng cách căn

cứ vào các thông tin đã biết hay những hình thái biến động của giá cả trong quá

khứ Có thể nói một cách ngắn gọn là các nhà đầu tư không thể khôn hơn thị trường

Có ba phiên bản của "lý thuyết thị trường hiệu quả": dạng yếu (weak form), dạng bán-mạnh (semi-strong form) và dạng mạnh (strong form) Phiên bản weak form của lý thuyết này cho rằng: giá chứng khoán phản ánh đầy đủ thông tin đã công bố trong quá khứ (nghĩa là dựa vào thông tin trong quá khứ thì nhà đầu cơ không thắng được thị trường) Phiên bản dạng semi-strong form của lý thuyết cho rằng: giá chứng khoán (chứng khoán ở đây được hiểu theo nghĩa rộng, không chỉ là cổ phiếu) đã chịu tác động đầy đủ của thông tin công bố trong quá khứ cũng như thông tin vừa công bố xong Nhà đầu cơ không thể dựa vào thông tin trong quá khứ cũng như thông tin vừa được công bố để có thể mua rẻ bán đắt chứng khoán, vì ngay khi thông tin được công bố, giá chứng khoán đã thay đổi phản ánh đầy đủ thông tin vừa công bố

Dạng strong form của lý thuyết này khẳng định mạnh mẽ hơn nữa về tính hiệu quả của thị trường tài chính, rằng giá của chứng khoán đã phản ánh tất cả thông tin công bố trong quá khứ, hiện tại, cũng như các thông tin nội bộ Cơ sở đứng sau lý thuyết này là: nếu có thông tin nội bộ, những người biết thông tin nội bộ sẽ mua bán ngay

Trang 12

chứng khoán để thu lợi nhuận, và như vậy giá chứng khoán sẽ thay đổi, đến khi nào người trong cuộc không còn kiếm lời được nữa

Lý thuyết thị trường hiệu quả được phát triển bởi Giáo sư Eugene Fama tại University of Chicago Booth School of Business trong luận văn tiến sỹ của mình

vào đầu những năm 1960s Lý thuyết này được chấp nhận rộng rãi cho đến

những năm 1990s thì bị đặt câu hỏi, khi kinh tế học tài chính hành vi nổi lên được chấp nhận rộng rãi

Những hạn chế này của giả thuyết thị trường hiệu quả đã thúc đẩy các nghiên cứu đưa đến lý thuyết kinh tế học hành vi nói chung và tài chính hành vi học nói riêng

1.4 Các bằng chứng chống lại giải thiết thị trường hiệu quả [6, tr 53-56]

Mặc dù có rất nhiều bằng chứng ủng hộ giả thiết thị trường hiệu quả, tuy nhiên, đã

có nhiều công trình nghiên cứu chỉ ra rằng thị trường hiệu quả không phải lúc nào cũng áp dụng được:

+ Hiệu ứng công ty nhỏ: Nhiều nghiên cứu đã chỉ ra rằng các công ty nhỏ có lợi

nhuận cao bất thường trong một thời gian dài, ngay cả khi rủi ro của các công ty này-thường lớn hơn rủi ro của các công ty khác- đã được tính đến

+ Hiệu ứng tháng Giêng: Trong một thời gian dài, giá cổ phiếu thường có khuynh hướng tăng cao một cách bất thường từ tháng 12 cho đến tháng Giêng

+ Phản ứng quá mức của thị trường: Các nghiên cứu gần đây cho thấy giá cổ phiếu thường có phản ứng quá mức trước các thông tin mới được công bố và các sai sót trong việc định giá được điểu chỉnh một cách chậm chạp

+ Sự đảo chiều: Một số nhà nghiên cứu đã phát hiện ra rằng lợi nhuận cổ phiếu có tính đảo chiều: nghĩa là cổ phiếu đang có lợi nhuận thấp ngày hôm nay thường có khuynh hướng đem lại lợi nhuận cao trong tương lai và ngược lại

Các bằng chứng trên đã làm cho thấy giả thuyết thị trường hiệu quả vẫn còn gây nhiều tranh cãi và trong phần sau chúng tôi xin trình bầy một số nghiên cứu cụ thể trong ngành khoa học máy tính về dự báo thị trường chứng khoán đã chứng minh

rằng giả thuyết thị trường hiệu quả không phải lúc nào cũng đúng

1.5 Tổng quan tình hình nghiên cứu trong nước và trên thế giới

Về phía các nghiên cứu từ ngành kinh tế, có thể kể đến luận án tiến sĩ kinh tế của Lê Đạt Chí[1], sử dụng mạng thần kinh nhân tạo được cài đặt trong phần mềm NeuralSolution 5.0 để dự báo chỉ số VN-INDEX, trong luận án, có phần tác giả sử

Trang 13

Chương 1: Tổng quan về bài toán dự báo TTCK, các kỹ thuật và các công trình liên quan

phát, tỉ giá, lãi suất, sản lượng công nghiệp, cán cân thương mại, cung tiền M2, tăng trưởng tín dụng để dự báo biến động của giá VN-INDEX theo tháng Trong luận án này, tác giả cũng chứng minh mô hình hồi quy truyền thống không có hiệu quả cao trong việc dự báo giá chứng khoán

Luận văn của Đặng Hồng Phú [8], nghiên cứu chuỗi thời gian chỉ số giá thị trường chứng khoán kết hợp với phân tích xu hướng bằng phân tích kỹ thuật Đồng thời luận văn cũng sử dụng thêm phân tích tâm lý thông qua khối lượng dư mua, dư bán Luận văn này dự báo VN-INDEX và các mã chứng khoán PMS, REE, SAM, SGC, TCM;

Luận văn của Nguyễn Tiến Thanh [11], luận văn này dự báo tỷ suất lợi nhuận trả về vượt mức so với các tỷ suất lãi xuất và thực hiện thử nghiệm đới với các chỉ số FTSE-500, S&P-500, VN-INDEX;

Luận văn của Đặng Thị Thanh Hương [3], kết hợp mạng neuron và thuật giải di truyền để dự báo chỉ số VN-INDEX và các mã chứng khoán REE và SAM trong ngắn hạn;

Luận văn của Tô Nguyễn Nhật Quang [10], sử dụng mô hình tuyến tính gọi là mô hình GAAR (GENETIC ALGORITHM-AUTOREGRESSIVE MODEL) và một mô hình phi tuyến phức tạp hơn gọi là mô hình ANFIS dự báo trong ngắn hạn giá trị tương lai của chỉ số VN-INDEX và của một số cổ phiếu có khối lượng giao dịch lớn tại thị trường chứng khoán TP.HCM như REE, SAM;

Phạm Thành Phước [9], sử dụng mạng neural dự báo giá chứng khoán tại trung tâm giao dịch chứng khoán TP HCM;

Trịnh Thanh Ngọc[7], dự đoán xu hướng thị trường chứng khoán bằng cách sử dụng Twitter, trong nghiên cứu này, tác giải ứng dụng kỹ thuật học máy hồi quy véctơ hỗ trợ (Support Vector Regression - SVR) vào bài toán dự báo xu thế của chứng khoán dựa trên tập dữ liệu Twitter Tập dữ liệu này được tải xuống trực tiếp từ trang web https://twitter.com Tác giả đã xây dựng chương trình dự báo giá cổ phiếu Apple;

Vũ Hữu Dũng [2], ứng dụng khai phá dữ liệu trong dự báo biến động thị trường chứng khoán Việt Nam, tác giả nghiên cứu mô hình GARCH, mô hình học máy (Mạng nơ ron nhân tạo, Hồi quy vector hỗ trợ) dự đoán biến động trên thị trường chứng khoán Việt Nam (VN-INDEX, HNXINDEX)

Như trên chúng ta đã thấy, các nghiên cứu trên chủ yếu sử dụng dữ liệu số để dự báo giá chứng khoán mà chưa xem xét đến sự tác động của các tin tức về tình hình kinh tế, tài chính đến xu hướng giá chứng khoán Lĩnh vực dự báo thị trường chứng

Trang 14

khoán luôn nhận được sự quan tâm to lớn của cộng đồng nghiên cứu trên thế giới

Đã có nhiều công trình nghiên cứu về dự báo chứng khoán Trong bài báo “Text

mining for market prediction: A systematic review”[21], các tác giả đã tổng kết

những công trình gần đây về việc áp dụng text mining để dự báo thị trường Trong

đó hầu hết các hệ thống được đề xuất trong các công trình nghiên cứu đều theo kiến trúc như sau (hình 1.2):

Hình 1.2: Sơ đồ các thành phần chính của hệ thống dự báo thị trường[21]

Về các công trình sử dụng kỹ thuật khai phá văn bản để dự báo các chỉ số chứng khoán, có thể kể đến một số nghiên cứu sau: công trình của Tien Thanh Vu, Shu Chang, Quang Thuy Ha and Nigel Collier [24], các tác giả đề xuất mô hình sau (hình 1.3) để dự báo sự lên xuống hàng ngày của giá chứng khoán của các công ty Apple (AAPL), Google (GOOG), Microsoft (MSFT) and Amazon (AMZN) trên sàn giao dịch chứng khoán NASDAQ

Trang 15

Chương 1: Tổng quan về bài toán dự báo TTCK, các kỹ thuật và các công trình liên quan

Hình 1.3: Mô hình dự báo giá chứng khoán sử dụng dữ liệu Twitter [24]

Các tác giả Hoang T P Thanh, Phayung Meesad[23] sử dụng cách tiếp cận kết hợp phân tích chuỗi thời gian và kỹ thuật phân loại văn bản với nguồn dữ liệu số được tải về từ trang web website http://indochinastock.vn và nguồn dữ liệu văn bản là các tin tức bằng tiếng anh tải về từ trang web http://vietnamnews.vn dự báo chỉ số chứng khoán VN-INDEX

Sau khi tác giả thu thập dữ liệu từ http://vietnamnews.vn thì chia làm hai tập dữ liệu, 1 tập dữ liệu dùng cho huấn luyện mô hình và một tập dùng cho kiểm thử mô hình

Bản chất của mô hình đề xuất trong [23] là tác giả sử dụng kỹ thuật phân loại văn bản để phân loại các tin tức thành 3 loại tin tốt, tin trung tính, tin xấu tương ứng với

xu hướng giá VN-INDEX là tăng, không tăng-không giảm, giảm

Mô hình đề xuất trong công trình số [23] bao gồm 2 pha, pha huấn luyện được mô

tả như trong hình 1.4, pha dự báo được mô tả như trong hình 1.5

Trang 16

Hình 1.4: Mô hình huấn luyện được đề xuất trong [23] sử dụng phân loại văn bản dự báo chỉ số VN-INDEX

Hình 1.5: Mô hình dự báo xu hướng giá VN-INDEX sử dụng phân loại văn bản được đề xuất trong [23]

Ngoài ra, còn có nhiều công trình nghiên cứu trên giới sử dụng kỹ thuật text mining dự báo các chỉ số chứng khoán khác nhau, bảng sau đây mô tả sơ lược

về các công trình này

Trang 17

Chương 1: Tổng quan về bài tốn dự báo TTCK, các kỹ thuật và các cơng trình liên quan

Bảng 1.1: Thơng tin về một sớ cơng trình nghiên cứu sử dụng text mining dự báo chứng khốn trên thế giới

Tên cơng trình

nghiên cứu Đối tượng dự báo

Nguồn dữ liệu

Kỹ thuật lựa chọn đặc trưng

Kỹ thuật text mining được

Hegnar online, Newsweb, and Thomson Reuters ONE

Chi-Square value, singular value

decomposition (SVD), LSI

Thuật tốn phân cụm K-Means và một sớ cải tiến, SVM [15] Mining

Các tin tức được cung cấp bởi trang web LexisNexis

IG, CHI K-nearest

neighbor classifier, Decision trees, Support vector machines (SVM)

Mỹ

Stock tweets:

Tập hợp các tweets từ trang web StockTwits

Từ loại, tần sớ

từ, trọng sớ

của đặc trưng

Nạve Bayes, Decision Tree (J48 in Weka), Support

Vector Machine

ty Microsoft, Apple, Google, IBM

Là các tin tức bằng văn bản, nhưng khơng

đề cập rõ nguồn

Industry ontology, company specific ontology, ontology news recall

Naive Bayes classifier, Support vector machines, Multivariate adaptive regression splines, Artificial neural networks, Random forest, Regression

Trang 18

trees

Tổng kết chương 1:

Như đã phân tích ở phần trên, hiện nay các công trình nghiên cứu về dự báo thị trường chứng khoán trong nước chủ yếu dựa trên các phương pháp khai phá dữ liệu dựa trên dữ liệu số đơn thuần, trên thế giới đã có nhiều nghiên cứu sử dụng các kỹ thuật khai phá văn bản để dự báo các chỉ số chứng khoán Đặc biệt trong công trình [23], các tác giả cũng đã đề xuất mô hình sử dụng kỹ thuật phân loại văn bản trên các tin tức bằng tiếng Anh để dự báo chỉ số VN-INDEX và cho kết quả khả quan Trong các chương sau, chúng tôi trình bầy sơ lược các kỹ thuật khai phá văn bản và trình bầy mô hình cải tiến của mô hình được đề xuất trong [23] và các kết quả thử nghiệm

Trang 19

Chương 2: Các kỹ thuật khai phá văn bản

CHƯƠNG 2: CÁC KỸ THUẬT KHAI PHÁ VĂN BẢN [4, 12]

Trong bài báo tổng kết các công trình về dự báo thị trường sử dụng các kỹ thuật text mining [21], các tác giả đã liệt kê các kỹ thuật, thuật toán được sử dụng nhiều nhất, trong số đó các phương pháp được sử dụng nhiều nhất là K-trung bình (K-means), cây quyết định (Decision tree), K-láng giềng gần nhất (K-nearest neighbors), phương pháp sử dụng các vector hỗ trợ SVM (Support Vector Machines)

Trong phần này chúng tôi điểm qua ý tưởng của các thuật toán này và giải thích vì sao chúng tôi chọn thuật toán SVM trong quá trình thử nghiệm cho luận văn

Các kỹ thuật khai phá văn bản chúng tôi trình bầy sau đây được tham khảo chủ yếu

từ luận văn của Bùi Nguyên Khởi [4]

2.1 Thuật toán K-Trung bình (K-means)[4]

Ý tưởng

Ý tưởng của thuật toán là chia m phần tử (m mẫu dữ liệu văn bản) thành n nhóm (n lớp) sao cho các phần tử trong cùng một nhóm sẽ gần tâm của nhóm đó nhất

Thuật toán K –Trung bình cổ điển

Giả sử ta muốn gom m mẫu dữ liệu đầu vào có các vector đặc trưng lần lượt là x1,

x2, … xm vào k nhóm (k<m) Trong đó Vi là vector đặc trưng n chiều của mẫu thứ i Đầu tiên ta khởi tạo các giá trị trung bình (hay có thể gọi là tâm) của k nhóm là các vector n chiều C1, C2, ….,Ck (thường là khởi tạo ngẫu nhiên) Sau đó tiến hành tính khoảng cách từ các mẫu đầu vào xi đối với từng tâm nhóm Cj, hay chính là việc xác định mối quan hệ thành viên của từng mẫu đầu vào xi bằng cách tính ||xi – Cj|| Đối với mỗi mẫu xi, khoảng cách tối thiểu sẽ xác định được mối quan hệ thành viên đối với nhóm tương ứng

Thuật toán:

- Bước 1: Khởi tạo tâm của k nhóm: C1, C2, ….,Ck

Trang 20

2.2 Thuật toán cây quyết định (Decision tree)[4]

Phương pháp cây quyết định được Mitchell đưa ra vào năm 1996 Nó được sử dụng rộng rãi nhất cho việc học quy nạp từ tập mẫu lớn Đây là phương pháp học xấp xỉ các hàm mục tiêu có giá trị rời rạc Mặt khác cây quyết định còn có thể chuyển sang

dạng biểu diễn tương đương dưới dạng cơ sở tri thức là các luật Nếu – Thì

Ý tưởng

Bộ phân lớp cây quyết định là một dạng cây mà mỗi nút được gán nhãn là một đặc trưng, mỗi nhánh là giá trị trọng số xuất hiện của đặc trưng trong văn bản cần phân lớp, và mỗi lá là nhãn của phân lớp tài liệu Việc phân lớp của một tài liệu dj sẽ được duyệt đệ quy theo trọng số của những đặc trưng có xuất hiện trong văn bản dj Thuật toán lặp đệ quy đến khi đạt đến nút lá và nhãn của dj chính là nhãn của nút lá tìm được Thông thường việc phân lớp văn bản nhị phân sẽ tương thích với việc dùng cây nhị phân

2.3 K-láng giềng gần nhất (K-Nearest Neighbor)[4]

Ý tưởng

Trang 21

Chương 2: Các kỹ thuật khai phá văn bản

Ý tưởng chính của thuật toán K-láng giềng gần nhất (K-NN) là so sánh độ phù hợp

của văn bản d với từng nhóm chủ đề, dựa trên k văn bản mẫu trong tập huấn luyện

mà có độ tương tự với văn bản d là lớn nhất

Có 2 vấn đề cần quan tâm khi phân lớp văn bản bằng thuật toán K- láng giềng gần

nhất là xác định khái niệm gần, công thức để tính mức độ gần; và làm thế nào để

tìm được nhóm văn bản phù hợp nhất với văn bản đó (nói cách khác là tìm được chủ

đề thích hợp để gán cho văn bản)

Khái niệm gần ở đây được hiểu là độ tương tự giữa các văn bản Có nhiều cách để xác định độ tương tự giữa hai văn bản, trong đó công thức Cosine trọng số được coi

là hiệu quả để đánh giá độ tương tự giữa hai văn bản Cho T={t 1 , t 2 , …, t n} là tập

hợp các thuật ngữ; W={w t1 , w t2 , …, w tn } là vector trọng số, w tilà trọng số của thuật

ngữ t i Xét hai văn bản X={x1, x2, …, xn} và Y={y1, y2, …, yn}, xi, yilần lượt là tần số xuất hiện của thuật ngữ titrong văn bản X, Y Khi đó độ tương tự giữa hai văn bản X và Y được tính theo công thức (2.1):

2 2

)(

)(

)(

)(

),,(cos),(

t t t

w y w

x

w y w x W

Y X ine Y

X

Trong vector X, Y các thành phần xi, yiđược chuẩn hoá theo tần số xuất hiện của thuật ngữ titrong các văn bản X và Y Vector W được xác định bằng tay hoặc được tính theo một thuật toán tham lam nào đó Một đề xuất đưa ra là tính vector W theo nghịch đảo tần suất văn bản IDF, khi đó văn bản được biểu diễn dưới dạng vector tần xuất TFxIDF

Có nhiều đề xuất để tìm nhãn phù hợp gán cho văn bản khi đã tìm được k văn bản gần nhất như gán nhãn văn bản gần nhất, gán nhãn theo số đông, gán nhãn theo độ phù hợp của chủ đề

Trang 22

2.4 Support Vector Machines (SVM)[4]

2.4.1 Giới thiệu

SVM là một phương pháp phân lớp xuất phát từ lý thuyết học thống kê, dựa trên nguyên tắc tối thiểu rủi ro cấu trúc (Structural Risk Minimisation) SVM sẽ cố gắng tìm cách phân lớp dữ liệu sao cho có lỗi xảy ra trên tập kiểm tra là nhỏ nhất (Test Error Minimisation) Ý tưởng của nó là ánh xạ (tuyến tính hoặc phi tuyến) dữ liệu vào không gian các vector đặc trưng (space of feature vectors) mà ở đó một siêu phẳng tối ưu được tìm ra để tách dữ liệu thuộc hai lớp khác nhau

SVM đã được ứng dụng rất nhiều trong việc nhận dạng mẫu như nhận dạng chữ viết tay, nhận dạng đối tượng, nhận dạng khuôn mặt trong ảnh, và trong các bài toán về

bản d i sẽ được biểu diễn bằng một vector dữ liệu x i =(w i1 , w i2 , …, w in ), w ij R là

trong phần này chúng tôi sẽ sử dụng đồng nhất các thuật ngữ : văn bản, vector dữ liệu, điểm dữ liệu

Dữ liệu huấn luyện của SVM là tập các văn bản đã được gán nhãn trước Tr={(x1,

y1), (x 2 , y 2 ), …, (x l , y l )}, trong đó, x i là vector dữ liệu biểu diễn văn bản d i (x i R n ),

Trang 23

Chương 2: Các kỹ thuật khai phá văn bản

Nếu coi mỗi văn bản d i được biểu diễn tương ứng với một điểm dữ liệu trong không gian Rn thì ý tưởng của SVM là tìm một mặt hình học (siêu phẳng) f(x) “tốt nhất”

phẳng phân chia dữ liệu được gọi là “tốt nhất”, nếu khoảng cách từ điểm dữ liệu gần

nhất đến siêu phẳng là lớn nhất Khi đó, việc xác định một tài liệu xTr có thuộc

phân lớp c hay không, tương ứng với việc xét dấu của f(x), nếu f(x)>0 thì xc, nếu f(x)0 thì xc

Trong hình 2.1, đường tô đậm là siêu phẳng tốt nhất và các điểm được bao bởi hình chữ nhật là những điểm gần siêu phẳng nhất, chúng được gọi là các vector hỗ trợ (support vector) Các đường nét đứt mà các support vector nằm trên đó được gọi là

Trang 24

phẳng quyết định càng tốt và việc phân lớp càng chính xác Mục đích của SVM là tìm được khoảng cách (biên) lớn nhất và lỗi tách sai là bé nhất

Hình 2.2: Ví dụ về biên không tốt [4]

Hình 2.3: Ví dụ về biên tối ưu [4]

Trang 25

Chương 2: Các kỹ thuật khai phá văn bản

Tập dữ liệu Tr có thể phân chia tuyến tính được mà không có nhiễu (nghĩa là tất cả các điểm được gán nhãn 1 thuộc về phía dương của siêu phẳng, tất cả các điểm được gán nhãn –1 thuộc về phía âm của siêu phẳng) thì chúng ta có thể tìm được

một siêu phẳng tuyến tính có dạng (2.2) để phân chia tập dữ liệu này:

0 x+b=

1

1

1}{

=+

=

y

y b

x w sign x

minw T x i +b =

hay y iw T.x i +b 1 , i = 1, ,l (2.5) Vấn đề đặt ra bây giờ là xác định các hệ số w và b như thế nào để siêu phẳng tìm

được là tốt nhất? Siêu phẳng tốt nhất là siêu phẳng mà có khoảng cách từ điểm dữ

Hình 2.4: Siêu phẳng phân chia dữ liệu và các ràng buộc [4].

Trang 26

liệu huấn luyện gần nhất đến siêu phẳng là xa nhất Mà khoảng cách từ một điểm dữ liệu xi đến siêu phẳng (2.2) là:

w

b x w x b w

T i

+

)

;,

b x

w T. i + : là giá trị tuyệt đối của biểu thức w T x i +b

w : là độ dài Ơcơlit của vector w

Giả sử h(w,b) là tổng của khoảng cách từ điểm dữ liệu gần nhất của lớp 1 đến siêu

phẳng và khoảng cách từ điểm dữ liệu gần nhất của lớp –1 đến siêu phẳng Ta có:

w

b x w b

x w w

w

b x w w

b x w

x b w d x

b w d b

w h

i T y x i

T y x

i T

y x i

T

y x

i y

x i y

x

i i i

i

i i i

i

i i i

i

2

.min

min

1

.min

.min

)

;,(min)

;,(min)

,(

1 , 1

,

1 , 1

,

1 , 1

Tập dữ liệu huấn luyện Tr có thể phân chia được tuyến tính nhưng có nhiễu (Hình

2.5) Trong trường hợp này, hầu hết các điểm trong tập dữ liệu được phân chia bởi siêu phẳng tuyến tính Tuy nhiên có một số ít điểm bị nhiễu, nghĩa là điểm có nhãn

=

l b

x w y

w w

Min

i T i

w

,1,i ,1).(

2

1)(

Trang 27

Chương 2: Các kỹ thuật khai phá văn bản

dương nhưng lại thuộc về phía âm của siêu phẳng, điểm có nhãn âm thuộc về phía dương của siêu phẳng

Trong trường hợp này, chúng ta thay ràng buộc y i(w T.x i+b)  1 bằng ràng buộc (2.9)

l b

x w

l i

b x w y

C w w

i

i i

T i

l

i i

, ,10

, ,1 ,1).(

2

1),(

M in

1 2

Trang 28

Tuy nhiên không phải tập dữ liệu nào cũng có thể phân chia tuyến tính được Trong

trường hợp này, chúng ta sẽ ánh xạ các vector dữ liệu x từ không gian n-chiều vào

một không gian m-chiều (m>n) , sao cho trong không gian m-chiều này tập dữ liệu

có thể phân chia tuyến tính được Giả sử  là một ánh xạ phi tuyến tính từ không gian Rn vào không gian Rm

m R

Rn →

:

l i

b x w y

C w w

i

i i

T i

l

i i

, ,10

, ,1 ,1))(.(

2

1),(

M in

1 2

Việc tính toán trực tiếp (x i ) là phức tạp và khó khăn Nếu biết hàm nhân (Kernel

function) K(x i , x j ), để tính tích vô hướng  ( xi)  ( xj)trong không gian m-chiều, thì chúng ta không cần làm việc trực tiếp với ánh xạ (x i )

) ( ) ( ) , (x i x j x i x j

Hàm nhân Kernel là những hàm trả về giá trị tích trong giữa các ảnh của các điểm

dữ liệu trong một vài không gian Việc lựa chọn K cũng chính là chọn  Các hàm kernel có thể được tính toán hiệu quả ngay cả trên không gian có rất nhiều chiều Một số hàm nhân hay dùng trong phân lớp văn bản là :

T i j

i x x x x

K( , )=

Ngày đăng: 23/12/2018, 06:19

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Lê Đạt Chí (2011), “Ứng dụng mô hình mạng thần kinh nhân tạo trong dự báo kinh tế - Trường hợp thị trường chứng khoán Việt Nam”, Luận án tiến sĩ kinh tế, Đại học Kinh tế TP.HCM Sách, tạp chí
Tiêu đề: Ứng dụng mô hình mạng thần kinh nhân tạo trong dự báo kinh tế - Trường hợp thị trường chứng khoán Việt Nam”
Tác giả: Lê Đạt Chí
Năm: 2011
2. Vũ Hữu Dũng (2013), “Ứng dụng khai phá dữ liệu trong dự báo biến động thị trường chứng khoán Việt Nam”, LVThs CNTT, Trường Đại học Công nghệ. Đại học Quốc gia Hà Nội Sách, tạp chí
Tiêu đề: Ứng dụng khai phá dữ liệu trong dự báo biến động thị trường chứng khoán Việt Nam
Tác giả: Vũ Hữu Dũng
Năm: 2013
3. Đặng Thị Thanh Hương (12/2009), “Ứng dụng khai phá dữ liệu để phân tích và dự đoán diễn biến của thị trường chứng khoán”. LVThs KHMT, ĐH CNTT, ĐH QG TPHCM Sách, tạp chí
Tiêu đề: Ứng dụng khai phá dữ liệu để phân tích và dự đoán diễn biến của thị trường chứng khoán
4. Bùi Nguyên Khởi (2009), “Nghiên cứu một số phương pháp phân lớp cải tiến, ứng dụng vào hệ truy tìm văn bản”, LVThs CNTT, Đại học quốc gia thành phố Hồ Chí Minh, Trường Đại học Công nghệ Thông tin.\ Sách, tạp chí
Tiêu đề: Nghiên cứu một số phương pháp phân lớp cải tiến, ứng dụng vào hệ truy tìm văn bản
Tác giả: Bùi Nguyên Khởi
Năm: 2009
5. Nguyễn Minh Kiều, Nguyễn Văn Điệp (2013), “Quan hệ giữa các yếu tố kinh tế vĩ mô và biến động thị trường chứng khoán: bằng chứng nghiên cứu từ thị trường Việt Nam”, SCIENCE &amp; TECHNOLOGY DEVELOPMENT, Vol 16, No.Q3- 2013 Sách, tạp chí
Tiêu đề: Quan hệ giữa các yếu tố kinh tế vĩ mô và biến động thị trường chứng khoán: bằng chứng nghiên cứu từ thị trường Việt Nam
Tác giả: Nguyễn Minh Kiều, Nguyễn Văn Điệp
Năm: 2013
7. Trịnh Thanh Ngọc (2013), “Dự đoán xu hướng thị trường chứng khoán bằng cách sử dụng Twitter”, LVThs CNTT, Trường Đại học Công nghệ.Đại học Quốc gia Hà Nội Sách, tạp chí
Tiêu đề: Dự đoán xu hướng thị trường chứng khoán bằng cách sử dụng Twitter
Tác giả: Trịnh Thanh Ngọc
Năm: 2013
8. Đặng Hồng Phú (06/2008), “Ứng dụng Microsoft Time Series xây dựng hệ thống dự báo thị trường chứng khoán Việt Nam”. LVThs KHMT, ĐH CNTT, ĐH QG TPHCM Sách, tạp chí
Tiêu đề: Ứng dụng Microsoft Time Series xây dựng hệ thống dự báo thị trường chứng khoán Việt Nam
9. Phạm Thành Phước (2013), “Mạng neural và ứng dụng trong dự báo giá chứng khoán tại trung tâm giao dịch chứng khoán tp. Hồ chí minh”, LVThs KHMT, HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Sách, tạp chí
Tiêu đề: Mạng neural và ứng dụng trong dự báo giá chứng khoán tại trung tâm giao dịch chứng khoán tp. Hồ chí minh
Tác giả: Phạm Thành Phước
Năm: 2013
10. Tô Nguyễn Nhật Quang (4/2007), “Ứng dụng giải thuật di tryuyền và Logic mờ trong dự báo thị trường chứng khoán”, LVThs KHMT, ĐH CNTT, ĐH QG TPHCM Sách, tạp chí
Tiêu đề: Ứng dụng giải thuật di tryuyền và Logic mờ trong dự báo thị trường chứng khoán
11. Nguyễn Tiến Thanh (06/2008), “Dự báo thị trường chứng khoán sử dụng mạng nơron kết hợp giải thuật di truyền”. LVThs KHMT, ĐH CNTT, ĐH QG TPHCM Sách, tạp chí
Tiêu đề: Dự báo thị trường chứng khoán sử dụng mạng nơron kết hợp giải thuật di truyền
12. Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2011), Giáo trình Khai phá dữ liệu web, Nhà XB GD VN.Tài liệu tham khảo tiếng Anh Sách, tạp chí
Tiêu đề: Giáo trình Khai phá dữ liệu web
Tác giả: Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú
Năm: 2011
13. Nikfarjam, A. ; Emadzadeh, E. ; Muthaiyah, S.(2010), “Text mining approaches for stock market prediction”. Computer and Automation Engineering (ICCAE), 2010 The 2nd International Conference on, Vol.4, 26-28 Feb. 2010, Singapore, IEEE, pp.256 – 260 Sách, tạp chí
Tiêu đề: Text mining approaches for stock market prediction
Tác giả: Nikfarjam, A. ; Emadzadeh, E. ; Muthaiyah, S
Năm: 2010
14. Kim-Georg Aase (2011), “Text Mining of News Articles for Stock Price Predictions”, Master Thesis. Norwegian University of Science and Technology, Department of Computer and Information Science Sách, tạp chí
Tiêu đề: Text Mining of News Articles for Stock Price Predictions
Tác giả: Kim-Georg Aase
Năm: 2011
15. Simon Bacher (Oct 2012), “Mining Unstructured Financial News to Forecast Intraday Stock Price Movements”, Master Thesis, University Mannheim Sách, tạp chí
Tiêu đề: Mining Unstructured Financial News to Forecast Intraday Stock Price Movements”
16. Shou-Hsiung Cheng(Jul 2010), “Forecasting the change of intraday stock price by using text mining news of stock”, Machine Learning and Cybernetics (ICMLC), 2010 International Conference on, Qingdao, Vol.5, IEEE, pp. 2605 – 2609 Sách, tạp chí
Tiêu đề: Forecasting the change of intraday stock price by using text mining news of stock
17. Brett DRury(2014), “A Text Mining System for Evaluating the Stock Market's response To News”, Doctoral Program in Computer Sciense of the Universities of Minho, Aveiro and Porto Sách, tạp chí
Tiêu đề: A Text Mining System for Evaluating the Stock Market's response To News
Tác giả: Brett DRury
Năm: 2014
18. T Fletcher(2009), "Support Vector Machines Explained", www.tristanfletcher.co.uk/SVM%20Explained.pdf, (05/2015) Sách, tạp chí
Tiêu đề: Support Vector Machines Explained
Tác giả: T Fletcher
Năm: 2009
19. Michael Hagenau, Michael Liebmann, Markus Hedwig, Dirk Neumann (2012), “Automated News Reading: Stock Price Prediction Based on Financial News Using Context-Specific Features”, 2012 45th Hawaii International Conference on System Sciences Sách, tạp chí
Tiêu đề: Automated News Reading: Stock Price Prediction Based on Financial News Using Context-Specific Features
Tác giả: Michael Hagenau, Michael Liebmann, Markus Hedwig, Dirk Neumann
Năm: 2012
25. Financial Predictor via Neural Network (03/2015), http://www.codeproject.com/Articles/175777/Financial-predictor-via-neural-network Link
27. Báo điện từ Tuổi Trẻ (05/2015), http://tuoitre.vn/tin/kinh-te 28. Báo điện tử Vietstock (05/2015), http://vietstock.vn/ Link

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w