ỨNG DỤNG TEXT MINING dự báo THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM

Góp phần vào các giải pháp dự báo thị trường chứng khoán tại Việt Nam, và đặc biệt là khảo sát sự liên hệ giữa các tin tức về tình hình kinh tế, tài chính trên các báo điện tử phổ biến ở

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

-

PHẠM XUÂN DŨNG

ỨNG DỤNG TEXT MINING DỰ BÁO THỊ TRƯỜNG

CHỨNG KHOÁN VIỆT NAM

LUẬN VĂN THẠC SĨ CAO HỌC NGÀNH: KHOA HỌC MÁY TÍNH

Mã số: 60.48.01.01

HƯỚNG DẪN KHOA HỌC:

GS.TSKH HOÀNG VĂN KIẾM

TP HỒ CHÍ MINH - 2015

Trang 2

Lời cam đoan:

Tôi xin cam đoan những nội dung trong luận văn này là do chính tôi tìm hiểu, tổng hợp và tự nghiên cứu Tất cả dữ liệu thử nghiệm đều là dữ liệu thực và các kết quả thử nghiệm được trình bầy trong luận văn là trung thực Những phần hay phương pháp sưu tầm từ các tài liệu khác đều được trích dẫn đầy đủ Tôi xin chịu mọi trách nghiệm về nội dung của luận văn này và chịu mọi hình thức kỷ luật nếu lời cam đoan này không trung thực

TP HCM, ngày 6 tháng 1 năm 2016

Học Viên

Phạm Xuân Dũng

Trang 3

MỤC LỤC

Trang CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN DỰ BÁO THỊ TRƯỜNG CHỨNG

KHOÁN, CÁC KỸ THUẬT VÀ CÁC CÔNG TRÌNH LIÊN QUAN 3

1.1 Mục tiêu, đối tượng, phạm vi của đề tài luận văn thạc sĩ 3

1.2 Giới thiệu bài toán dự báo thị trường chứng khoán 3

1.3 Giả thiết thị trường hiệu quả [6, 30] 4

1.4 Các bằng chứng chống lại giải thiết thị trường hiệu quả [6, tr 53-56] 5

1.5 Tổng quan tình hình nghiên cứu trong nước và trên thế giới 5

CHƯƠNG 2: CÁC KỸ THUẬT KHAI PHÁ VĂN BẢN [4, 12] 12

2.1 Thuật toán K-Trung bình (K-means)[4] 12

2.2 Thuật toán cây quyết định (Decision tree)[4] 13

2.3 K-láng giềng gần nhất (K-Nearest Neighbor)[4] 13

2.4 Support Vector Machines (SVM)[4] 15

2.4.1 Giới thiệu 15

2.4.2 Bài toán và cách giải quyết 15

2.4.3 Hàm nhân Kernel 21

2.4.4 Thuật toán Sequential Minimal Optimization (SMO) 22

CHƯƠNG 3: ĐỀ XUẤT MÔ HÌNH CẢI TIẾN DỰ BÁO XU HƯỚNG CỦA CHỈ SỐ VN-INDEX SỬ DỤNG KỸ THUẬT KHAI PHÁ VĂN BẢN 24

3.1 Đề xuất mô hình cải tiến 25

3.2 Nguồn dữ liệu: 26

3.3 Phương pháp kết hợp nội dung các tin tức 27

3.4 Gán nhãn tin tức để chuẩn bị dữ liệu cho giai đoạn huấn luyện 28

3.5 Loại bỏ các thành phần không cần thiết trong bài báo 29

3.6 Gán nhãn từ loại 29

3.7 Loại bỏ các từ dừng[4] 30

3.8 Lựa chọn đặc trưng [4, 12] 32

3.9 Biểu diễn các bài báo theo không gian vector 33

Trang 4

CHƯƠNG 4: XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM 35

4.1 Các module chính của chương trình thử nghiệm 35

4.2 Phương pháp đánh giá hiệu quả dự báo 35

4.3 Kết quả thử nghiệm: 36

4.3.1 Thử nghiệm 1: Áp dụng mô hình cải tiến đã đề xuất, dự báo xu hướng giá VN-INDEX, thử nghiệm trên tập dữ liệu 1 36

4.4 Tổng kết chương 4 42

CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 43

5.1 Kết luận 43

5.2 Hướng phát triển 43

TÀI LIỆU THAM KHẢO 45

Trang 5

Danh mục các thuật ngữ và ký hiệu

trợ)

toán tối tiểu tuần tự) VN-INDEX Là chỉ số thể hiện biến động giá cổ phiếu

giao dịch tại TTGDCK TP.HCM

hôm sau tăng so với ngày hôm trước Tin trung tính Tin tức làm cho giá VN-INDEX ngày

hôm sau không tăng, không giảm so với ngày hôm trước

hôm sau giảm so với ngày hôm trước

Trang 6

DANH MỤC BẢNG

Trang

Bảng 1.1: Thông tin về một số công trình nghiên cứu sử dụng text mining dự báo

chứng khoán trên thế giới 10

Bảng 3.1: Bảng số liệu các tin tức thu thập được từ các trang báo điện tử đã loại bỏ nhiễu và tin quá ngắn 26

Bảng 3.2: Bảng lịch sử giá của chỉ số VN-INDEX 26

Bảng 3.3: Bảng phân loại tin tức theo lịch sử giá 28

Bảng 3.4: Các biểu thức chính quy lấy các phần của tin tức VNEXPRESS 29

Bảng 3.5: Một số từ dừng trong văn bản tiếng Việt 30

Bảng 3.6: Trích một phần danh sách từ tiếng Việt [31] 31

Bảng 4.1: Các module chính của chương trình thử nghiệm 35

Bảng 4.2 Bảng phân chi tập dữ liệu huấn luyện và kiểm tra cho thử nghiệm 1 36

Bảng 4.3: Một số đặc trưng có thông tin tương hỗ cao đối với lớp tương ứng trong thử nghiệm 1 37

Bảng 4.4: Kết quả thử nghiệm 1 37

Bảng 4.5: Bảng phân chi tập dữ liệu huấn luyện và kiểm tra cho thử nghiệm 2 38

Bảng 4.7: Bảng kết quả thử nghiệm 2 39

Bảng 4.8: Bảng phân chi tập dữ liệu huấn luyện và kiểm tra cho thử nghiệm 3 40

Bảng 4.10: Bảng kết quả thử nghiệm 3 41

Trang 7

Danh mục hình vẽ và biểu đồ

DANH MỤC HÌNH VẼ

Trang

Hình 1.1: Tính liên ngành của ứng dụng text mining để dự báo thị trường[21] 4

Hình 1.2: Sơ đồ các thành phần chính của hệ thống dự báo thị trường[21] 7

Hình 1.3: Mô hình dự báo giá chứng khoán sử dụng dữ liệu Twitter [24] 8

Hình 1.4: Mô hình huấn luyện được đề xuất trong [23] sử dụng phân loại văn bản dự báo chỉ số VN-INDEX 9

Hình 1.5: Mô hình dự báo xu hướng giá VN-INDEX sử dụng phân loại văn bản được đề xuất trong [23] 9

Hình 2.1: Siêu phẳng phân chia tập mẫu huấn luyện [4] 16

Hình 2.2: Ví dụ về biên không tốt [4] 17

Hình 2.3: Ví dụ về biên tối ưu [4] 17

Hình 2.4: Siêu phẳng phân chia dữ liệu và các ràng buộc [4] 18

Hình 2.5: Trường hợp dữ liệu có nhiễu [4] 20

Hình 3.1: Sơ đồ xây dựng mô hình máy học sử dụng text mining dự báo VN-INDEX, cải tiến từ mô hình được đề xuất trong [23] 25

Hình 3.2: Sơ đồ dự báo xu hướng chỉ số VN-INDEX sử dụng mô hình máy học đã xây dựng 25

Hình 3.3: Sơ đồ phương pháp kết hợp các tin tức thành một văn bản duy nhất 28

Trang 8

Trong các quyết dịnh hàng ngày, chúng ta luôn bị chi phối bởi các thông tin mà chúng ta nghe thấy, nhìn thấy Một trong các nguồn thông tin mà chúng ta nghe thấy, nhìn thấy hàng ngày là các tin tức về tình hình kinh tế, xã hội trên các báo điện

tử

Các tin tức này tắc động đến hành vi mua bán, đầu tư của chúng ta, và đến lượt các hành vi mua bán, đầu tư của chúng ta tác động đến tình hình cung, cầu của thị trường và qua đó tác động đến giá cả thị trường

Góp phần vào các giải pháp dự báo thị trường chứng khoán tại Việt Nam, và đặc biệt là khảo sát sự liên hệ giữa các tin tức về tình hình kinh tế, tài chính trên các báo điện tử phổ biến ở Việt Nam và chỉ số VN-INDEX, trong luận văn này chúng tôi đề xuất và thử nghiệm mô hình dự báo thị trường chứng khoán Việt Nam bằng cách kết hợp các thuật toán khai phá văn bản và dữ liệu số

Nguồn dữ liệu văn bản của luận văn chính là các tin tức về tài chính, chứng khoán trên các báo điện tử phổ thông của Việt Nam như báo Tuổi trẻ, Thanh Niên, VNEXPRESS, Vietstock, và đối tượng dự báo của luận văn là chỉ số VN-INDEX Các kết quả thử nghiệm của luận văn đã cho kết quả khả quan và kết quả dự báo này là nguồn tham khảo khách quan và có giá trị cho các nhà quản lý và đầu tư trên thị trường chứng khoán trong các quyết định đầu tư của mình

Cấu trúc của luận văn gồm 5 chương như sau:

- Chương 1: Tổng quan về bài toán dự báo thị trường chứng khoán, các kỹ

Trang 9

MỞ ĐẦU

- Chương 2: Các phương pháp khai phá văn bản

- Chương 3: Đề xuất mô hình dự báo thị trường chứng khoán Việt Nam sử dụng các kỹ thuật khai phá văn bản

- Chương 4: Xây dựng chương trình thử nghiệm, kết quả và phân tích

- Chương 5: Kết luận và hướng phát triển

Trang 10

CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN DỰ BÁO THỊ TRƯỜNG CHỨNG KHOÁN, CÁC KỸ THUẬT VÀ CÁC CÔNG TRÌNH LIÊN

QUAN

Trong chương này chúng tôi trình bầy về mục tiêu, đối tượng, phạm vi của đề tài luận văn thạc sĩ Sau đó chúng tôi giới thiệu qua về bài toán dự báo thị trường chứng khoán, cuối cùng chúng tôi điểm qua một số kỹ thuật dự báo thị trường chứng khoán và một số công trình nghiên cứu liên quan đến luận văn ở trong nước

và trên thế giới trong thời gian gần đây

1.1 Mục tiêu, đối tượng, phạm vi của đề tài luận văn thạc sĩ

Mục tiêu nghiên cứu của đề tài

+ Tìm hiểu, phân tích các kỹ thuật dự báo chứng khoán hiện đại ở Việt Nam và trên thế giới

+ Đề xuất các cải tiến nhằm làm tăng độ chính xác trong việc dự báo thị trường chứng khoán sử dụng các kỹ thuật text mining

+ Xây dựng chương trình thử nghiệm

Đối tượng và phạm vi nghiên cứu của đề tài

+ Đối tượng nghiên cứu của luận văn là dự báo sự lên xuống (với ba mức tăng, không tăng-không giảm, giảm) của chỉ số chứng khoán VN-INDEX trước một ngày

+ Phạm vi nghiên cứu của luận văn là sử dụng kỹ thuật phân loại văn bản(SVM) áp dụng trên tập các tin tức tiếng Việt trong các chuyên mục tài chính, chứng khoán trên 4 trang báo điện tử phổ biến của Việt Nam

1.2 Giới thiệu bài toán dự báo thị trường chứng khoán

Dự báo thị trường chứng khoán từ lâu đã thu hút nhiều nghiên cứu từ các nhà kinh

tế học và các nhà khoa học máy tính Dự báo thị trường chứng khoán sử dụng text mining là một lĩnh vực mới nổi và thu hút nhiều nghiên cứu trên thế giới Đây là lĩnh vực liên ngành giữa ngôn ngữ học, học máy, và tài chính hành vi (xem Hình 1.1)

Trang 11

Chương 1: Tổng quan về bài toán dự báo TTCK, các kỹ thuật và các công trình liên quan

Hình 1.1: Tính liên ngành của ứng dụng text mining để dự báo thị trường[21]

1.3 Giả thiết thị trường hiệu quả [6, 30]

Giả thuyết thị trường hiệu quả (hay lý thuyết thị trường hiệu quả) (tiếng Anh:

efficient market hypothesis) là một giả thuyết của lý thuyết tài chính khẳng định

rằng các thị trường tài chính là hiệu quả (efficient), rằng giá của chứng khoán

(securities) trên thị trường tài chính, đặc biệt là thị trường chứng khoán, phản ánh đầy đủ mọi thông tin đã biết Do đó không thể kiếm được lợi nhuận bằng cách căn

cứ vào các thông tin đã biết hay những hình thái biến động của giá cả trong quá

khứ Có thể nói một cách ngắn gọn là các nhà đầu tư không thể khôn hơn thị trường

Có ba phiên bản của "lý thuyết thị trường hiệu quả": dạng yếu (weak form), dạng bán-mạnh (semi-strong form) và dạng mạnh (strong form) Phiên bản weak form của lý thuyết này cho rằng: giá chứng khoán phản ánh đầy đủ thông tin đã công bố trong quá khứ (nghĩa là dựa vào thông tin trong quá khứ thì nhà đầu cơ không thắng được thị trường) Phiên bản dạng semi-strong form của lý thuyết cho rằng: giá chứng khoán (chứng khoán ở đây được hiểu theo nghĩa rộng, không chỉ là cổ phiếu) đã chịu tác động đầy đủ của thông tin công bố trong quá khứ cũng như thông tin vừa công bố xong Nhà đầu cơ không thể dựa vào thông tin trong quá khứ cũng như thông tin vừa được công bố để có thể mua rẻ bán đắt chứng khoán, vì ngay khi thông tin được công bố, giá chứng khoán đã thay đổi phản ánh đầy đủ thông tin vừa công bố

Dạng strong form của lý thuyết này khẳng định mạnh mẽ hơn nữa về tính hiệu quả của thị trường tài chính, rằng giá của chứng khoán đã phản ánh tất cả thông tin công bố trong quá khứ, hiện tại, cũng như các thông tin nội bộ Cơ sở đứng sau lý thuyết này là: nếu có thông tin nội bộ, những người biết thông tin nội bộ sẽ mua bán ngay

Trang 12

chứng khoán để thu lợi nhuận, và như vậy giá chứng khoán sẽ thay đổi, đến khi nào người trong cuộc không còn kiếm lời được nữa

Lý thuyết thị trường hiệu quả được phát triển bởi Giáo sư Eugene Fama tại University of Chicago Booth School of Business trong luận văn tiến sỹ của mình

vào đầu những năm 1960s Lý thuyết này được chấp nhận rộng rãi cho đến

những năm 1990s thì bị đặt câu hỏi, khi kinh tế học tài chính hành vi nổi lên được chấp nhận rộng rãi

Những hạn chế này của giả thuyết thị trường hiệu quả đã thúc đẩy các nghiên cứu đưa đến lý thuyết kinh tế học hành vi nói chung và tài chính hành vi học nói riêng

1.4 Các bằng chứng chống lại giải thiết thị trường hiệu quả [6, tr 53-56]

Mặc dù có rất nhiều bằng chứng ủng hộ giả thiết thị trường hiệu quả, tuy nhiên, đã

có nhiều công trình nghiên cứu chỉ ra rằng thị trường hiệu quả không phải lúc nào cũng áp dụng được:

+ Hiệu ứng công ty nhỏ: Nhiều nghiên cứu đã chỉ ra rằng các công ty nhỏ có lợi

nhuận cao bất thường trong một thời gian dài, ngay cả khi rủi ro của các công ty này-thường lớn hơn rủi ro của các công ty khác- đã được tính đến

+ Hiệu ứng tháng Giêng: Trong một thời gian dài, giá cổ phiếu thường có khuynh hướng tăng cao một cách bất thường từ tháng 12 cho đến tháng Giêng

+ Phản ứng quá mức của thị trường: Các nghiên cứu gần đây cho thấy giá cổ phiếu thường có phản ứng quá mức trước các thông tin mới được công bố và các sai sót trong việc định giá được điểu chỉnh một cách chậm chạp

+ Sự đảo chiều: Một số nhà nghiên cứu đã phát hiện ra rằng lợi nhuận cổ phiếu có tính đảo chiều: nghĩa là cổ phiếu đang có lợi nhuận thấp ngày hôm nay thường có khuynh hướng đem lại lợi nhuận cao trong tương lai và ngược lại

Các bằng chứng trên đã làm cho thấy giả thuyết thị trường hiệu quả vẫn còn gây nhiều tranh cãi và trong phần sau chúng tôi xin trình bầy một số nghiên cứu cụ thể trong ngành khoa học máy tính về dự báo thị trường chứng khoán đã chứng minh

rằng giả thuyết thị trường hiệu quả không phải lúc nào cũng đúng

1.5 Tổng quan tình hình nghiên cứu trong nước và trên thế giới

Về phía các nghiên cứu từ ngành kinh tế, có thể kể đến luận án tiến sĩ kinh tế của Lê Đạt Chí[1], sử dụng mạng thần kinh nhân tạo được cài đặt trong phần mềm NeuralSolution 5.0 để dự báo chỉ số VN-INDEX, trong luận án, có phần tác giả sử

Trang 13

phát, tỉ giá, lãi suất, sản lượng công nghiệp, cán cân thương mại, cung tiền M2, tăng trưởng tín dụng để dự báo biến động của giá VN-INDEX theo tháng Trong luận án này, tác giả cũng chứng minh mô hình hồi quy truyền thống không có hiệu quả cao trong việc dự báo giá chứng khoán

Luận văn của Đặng Hồng Phú [8], nghiên cứu chuỗi thời gian chỉ số giá thị trường chứng khoán kết hợp với phân tích xu hướng bằng phân tích kỹ thuật Đồng thời luận văn cũng sử dụng thêm phân tích tâm lý thông qua khối lượng dư mua, dư bán Luận văn này dự báo VN-INDEX và các mã chứng khoán PMS, REE, SAM, SGC, TCM;

Luận văn của Nguyễn Tiến Thanh [11], luận văn này dự báo tỷ suất lợi nhuận trả về vượt mức so với các tỷ suất lãi xuất và thực hiện thử nghiệm đới với các chỉ số FTSE-500, S&P-500, VN-INDEX;

Luận văn của Đặng Thị Thanh Hương [3], kết hợp mạng neuron và thuật giải di truyền để dự báo chỉ số VN-INDEX và các mã chứng khoán REE và SAM trong ngắn hạn;

Luận văn của Tô Nguyễn Nhật Quang [10], sử dụng mô hình tuyến tính gọi là mô hình GAAR (GENETIC ALGORITHM-AUTOREGRESSIVE MODEL) và một mô hình phi tuyến phức tạp hơn gọi là mô hình ANFIS dự báo trong ngắn hạn giá trị tương lai của chỉ số VN-INDEX và của một số cổ phiếu có khối lượng giao dịch lớn tại thị trường chứng khoán TP.HCM như REE, SAM;

Phạm Thành Phước [9], sử dụng mạng neural dự báo giá chứng khoán tại trung tâm giao dịch chứng khoán TP HCM;

Trịnh Thanh Ngọc[7], dự đoán xu hướng thị trường chứng khoán bằng cách sử dụng Twitter, trong nghiên cứu này, tác giải ứng dụng kỹ thuật học máy hồi quy véctơ hỗ trợ (Support Vector Regression - SVR) vào bài toán dự báo xu thế của chứng khoán dựa trên tập dữ liệu Twitter Tập dữ liệu này được tải xuống trực tiếp từ trang web https://twitter.com Tác giả đã xây dựng chương trình dự báo giá cổ phiếu Apple;

Vũ Hữu Dũng [2], ứng dụng khai phá dữ liệu trong dự báo biến động thị trường chứng khoán Việt Nam, tác giả nghiên cứu mô hình GARCH, mô hình học máy (Mạng nơ ron nhân tạo, Hồi quy vector hỗ trợ) dự đoán biến động trên thị trường chứng khoán Việt Nam (VN-INDEX, HNXINDEX)

Như trên chúng ta đã thấy, các nghiên cứu trên chủ yếu sử dụng dữ liệu số để dự báo giá chứng khoán mà chưa xem xét đến sự tác động của các tin tức về tình hình kinh tế, tài chính đến xu hướng giá chứng khoán Lĩnh vực dự báo thị trường chứng

Trang 14

khoán luôn nhận được sự quan tâm to lớn của cộng đồng nghiên cứu trên thế giới

Đã có nhiều công trình nghiên cứu về dự báo chứng khoán Trong bài báo “Text

mining for market prediction: A systematic review”[21], các tác giả đã tổng kết

những công trình gần đây về việc áp dụng text mining để dự báo thị trường Trong

đó hầu hết các hệ thống được đề xuất trong các công trình nghiên cứu đều theo kiến trúc như sau (hình 1.2):

Hình 1.2: Sơ đồ các thành phần chính của hệ thống dự báo thị trường[21]

Về các công trình sử dụng kỹ thuật khai phá văn bản để dự báo các chỉ số chứng khoán, có thể kể đến một số nghiên cứu sau: công trình của Tien Thanh Vu, Shu Chang, Quang Thuy Ha and Nigel Collier [24], các tác giả đề xuất mô hình sau (hình 1.3) để dự báo sự lên xuống hàng ngày của giá chứng khoán của các công ty Apple (AAPL), Google (GOOG), Microsoft (MSFT) and Amazon (AMZN) trên sàn giao dịch chứng khoán NASDAQ

Trang 15

Hình 1.3: Mô hình dự báo giá chứng khoán sử dụng dữ liệu Twitter [24]

Các tác giả Hoang T P Thanh, Phayung Meesad[23] sử dụng cách tiếp cận kết hợp phân tích chuỗi thời gian và kỹ thuật phân loại văn bản với nguồn dữ liệu số được tải về từ trang web website http://indochinastock.vn và nguồn dữ liệu văn bản là các tin tức bằng tiếng anh tải về từ trang web http://vietnamnews.vn dự báo chỉ số chứng khoán VN-INDEX

Sau khi tác giả thu thập dữ liệu từ http://vietnamnews.vn thì chia làm hai tập dữ liệu, 1 tập dữ liệu dùng cho huấn luyện mô hình và một tập dùng cho kiểm thử mô hình

Bản chất của mô hình đề xuất trong [23] là tác giả sử dụng kỹ thuật phân loại văn bản để phân loại các tin tức thành 3 loại tin tốt, tin trung tính, tin xấu tương ứng với

xu hướng giá VN-INDEX là tăng, không tăng-không giảm, giảm

Mô hình đề xuất trong công trình số [23] bao gồm 2 pha, pha huấn luyện được mô

tả như trong hình 1.4, pha dự báo được mô tả như trong hình 1.5

Trang 16

Hình 1.4: Mô hình huấn luyện được đề xuất trong [23] sử dụng phân loại văn bản dự báo chỉ số VN-INDEX

Hình 1.5: Mô hình dự báo xu hướng giá VN-INDEX sử dụng phân loại văn bản được đề xuất trong [23]

Ngoài ra, còn có nhiều công trình nghiên cứu trên giới sử dụng kỹ thuật text mining dự báo các chỉ số chứng khoán khác nhau, bảng sau đây mô tả sơ lược

về các công trình này

Trang 17

Chương 1: Tổng quan về bài tốn dự báo TTCK, các kỹ thuật và các cơng trình liên quan

Bảng 1.1: Thơng tin về một sớ cơng trình nghiên cứu sử dụng text mining dự báo chứng khốn trên thế giới

Tên cơng trình

nghiên cứu Đối tượng dự báo

Nguồn dữ liệu

Kỹ thuật lựa chọn đặc trưng

Kỹ thuật text mining được

Hegnar online, Newsweb, and Thomson Reuters ONE

Chi-Square value, singular value

decomposition (SVD), LSI

Thuật tốn phân cụm K-Means và một sớ cải tiến, SVM [15] Mining

Các tin tức được cung cấp bởi trang web LexisNexis

IG, CHI K-nearest

neighbor classifier, Decision trees, Support vector machines (SVM)

Mỹ

Stock tweets:

Tập hợp các tweets từ trang web StockTwits

Từ loại, tần sớ

từ, trọng sớ

của đặc trưng

Nạve Bayes, Decision Tree (J48 in Weka), Support

Vector Machine

ty Microsoft, Apple, Google, IBM

Là các tin tức bằng văn bản, nhưng khơng

đề cập rõ nguồn

Industry ontology, company specific ontology, ontology news recall

Naive Bayes classifier, Support vector machines, Multivariate adaptive regression splines, Artificial neural networks, Random forest, Regression

Trang 18

trees

Tổng kết chương 1:

Như đã phân tích ở phần trên, hiện nay các công trình nghiên cứu về dự báo thị trường chứng khoán trong nước chủ yếu dựa trên các phương pháp khai phá dữ liệu dựa trên dữ liệu số đơn thuần, trên thế giới đã có nhiều nghiên cứu sử dụng các kỹ thuật khai phá văn bản để dự báo các chỉ số chứng khoán Đặc biệt trong công trình [23], các tác giả cũng đã đề xuất mô hình sử dụng kỹ thuật phân loại văn bản trên các tin tức bằng tiếng Anh để dự báo chỉ số VN-INDEX và cho kết quả khả quan Trong các chương sau, chúng tôi trình bầy sơ lược các kỹ thuật khai phá văn bản và trình bầy mô hình cải tiến của mô hình được đề xuất trong [23] và các kết quả thử nghiệm

Trang 19

Chương 2: Các kỹ thuật khai phá văn bản

CHƯƠNG 2: CÁC KỸ THUẬT KHAI PHÁ VĂN BẢN [4, 12]

Trong bài báo tổng kết các công trình về dự báo thị trường sử dụng các kỹ thuật text mining [21], các tác giả đã liệt kê các kỹ thuật, thuật toán được sử dụng nhiều nhất, trong số đó các phương pháp được sử dụng nhiều nhất là K-trung bình (K-means), cây quyết định (Decision tree), K-láng giềng gần nhất (K-nearest neighbors), phương pháp sử dụng các vector hỗ trợ SVM (Support Vector Machines)

Trong phần này chúng tôi điểm qua ý tưởng của các thuật toán này và giải thích vì sao chúng tôi chọn thuật toán SVM trong quá trình thử nghiệm cho luận văn

Các kỹ thuật khai phá văn bản chúng tôi trình bầy sau đây được tham khảo chủ yếu

từ luận văn của Bùi Nguyên Khởi [4]

2.1 Thuật toán K-Trung bình (K-means)[4]

Ý tưởng

Ý tưởng của thuật toán là chia m phần tử (m mẫu dữ liệu văn bản) thành n nhóm (n lớp) sao cho các phần tử trong cùng một nhóm sẽ gần tâm của nhóm đó nhất

Thuật toán K –Trung bình cổ điển

Giả sử ta muốn gom m mẫu dữ liệu đầu vào có các vector đặc trưng lần lượt là x1,

x2, … xm vào k nhóm (k<m) Trong đó Vi là vector đặc trưng n chiều của mẫu thứ i Đầu tiên ta khởi tạo các giá trị trung bình (hay có thể gọi là tâm) của k nhóm là các vector n chiều C1, C2, ….,Ck (thường là khởi tạo ngẫu nhiên) Sau đó tiến hành tính khoảng cách từ các mẫu đầu vào xi đối với từng tâm nhóm Cj, hay chính là việc xác định mối quan hệ thành viên của từng mẫu đầu vào xi bằng cách tính ||xi – Cj|| Đối với mỗi mẫu xi, khoảng cách tối thiểu sẽ xác định được mối quan hệ thành viên đối với nhóm tương ứng

Thuật toán:

- Bước 1: Khởi tạo tâm của k nhóm: C1, C2, ….,Ck

Trang 20

2.2 Thuật toán cây quyết định (Decision tree)[4]

Phương pháp cây quyết định được Mitchell đưa ra vào năm 1996 Nó được sử dụng rộng rãi nhất cho việc học quy nạp từ tập mẫu lớn Đây là phương pháp học xấp xỉ các hàm mục tiêu có giá trị rời rạc Mặt khác cây quyết định còn có thể chuyển sang

dạng biểu diễn tương đương dưới dạng cơ sở tri thức là các luật Nếu – Thì

Ý tưởng

Bộ phân lớp cây quyết định là một dạng cây mà mỗi nút được gán nhãn là một đặc trưng, mỗi nhánh là giá trị trọng số xuất hiện của đặc trưng trong văn bản cần phân lớp, và mỗi lá là nhãn của phân lớp tài liệu Việc phân lớp của một tài liệu dj sẽ được duyệt đệ quy theo trọng số của những đặc trưng có xuất hiện trong văn bản dj Thuật toán lặp đệ quy đến khi đạt đến nút lá và nhãn của dj chính là nhãn của nút lá tìm được Thông thường việc phân lớp văn bản nhị phân sẽ tương thích với việc dùng cây nhị phân

2.3 K-láng giềng gần nhất (K-Nearest Neighbor)[4]

Ý tưởng

Trang 21

Ý tưởng chính của thuật toán K-láng giềng gần nhất (K-NN) là so sánh độ phù hợp

của văn bản d với từng nhóm chủ đề, dựa trên k văn bản mẫu trong tập huấn luyện

mà có độ tương tự với văn bản d là lớn nhất

Có 2 vấn đề cần quan tâm khi phân lớp văn bản bằng thuật toán K- láng giềng gần

nhất là xác định khái niệm gần, công thức để tính mức độ gần; và làm thế nào để

tìm được nhóm văn bản phù hợp nhất với văn bản đó (nói cách khác là tìm được chủ

đề thích hợp để gán cho văn bản)

Khái niệm gần ở đây được hiểu là độ tương tự giữa các văn bản Có nhiều cách để xác định độ tương tự giữa hai văn bản, trong đó công thức Cosine trọng số được coi

là hiệu quả để đánh giá độ tương tự giữa hai văn bản Cho T={t 1 , t 2 , …, t n} là tập

hợp các thuật ngữ; W={w t1 , w t2 , …, w tn } là vector trọng số, w tilà trọng số của thuật

ngữ t i Xét hai văn bản X={x1, x2, …, xn} và Y={y1, y2, …, yn}, xi, yilần lượt là tần số xuất hiện của thuật ngữ titrong văn bản X, Y Khi đó độ tương tự giữa hai văn bản X và Y được tính theo công thức (2.1):

2 2

)(

),,(cos),(

t t t

w y w

x

w y w x W

Y X ine Y

X

Trong vector X, Y các thành phần xi, yiđược chuẩn hoá theo tần số xuất hiện của thuật ngữ titrong các văn bản X và Y Vector W được xác định bằng tay hoặc được tính theo một thuật toán tham lam nào đó Một đề xuất đưa ra là tính vector W theo nghịch đảo tần suất văn bản IDF, khi đó văn bản được biểu diễn dưới dạng vector tần xuất TFxIDF

Có nhiều đề xuất để tìm nhãn phù hợp gán cho văn bản khi đã tìm được k văn bản gần nhất như gán nhãn văn bản gần nhất, gán nhãn theo số đông, gán nhãn theo độ phù hợp của chủ đề

Trang 22

2.4 Support Vector Machines (SVM)[4]

2.4.1 Giới thiệu

SVM là một phương pháp phân lớp xuất phát từ lý thuyết học thống kê, dựa trên nguyên tắc tối thiểu rủi ro cấu trúc (Structural Risk Minimisation) SVM sẽ cố gắng tìm cách phân lớp dữ liệu sao cho có lỗi xảy ra trên tập kiểm tra là nhỏ nhất (Test Error Minimisation) Ý tưởng của nó là ánh xạ (tuyến tính hoặc phi tuyến) dữ liệu vào không gian các vector đặc trưng (space of feature vectors) mà ở đó một siêu phẳng tối ưu được tìm ra để tách dữ liệu thuộc hai lớp khác nhau

SVM đã được ứng dụng rất nhiều trong việc nhận dạng mẫu như nhận dạng chữ viết tay, nhận dạng đối tượng, nhận dạng khuôn mặt trong ảnh, và trong các bài toán về

bản d i sẽ được biểu diễn bằng một vector dữ liệu x i =(w i1 , w i2 , …, w in ), w ij R là

trong phần này chúng tôi sẽ sử dụng đồng nhất các thuật ngữ : văn bản, vector dữ liệu, điểm dữ liệu

Dữ liệu huấn luyện của SVM là tập các văn bản đã được gán nhãn trước Tr={(x1,

y1), (x 2 , y 2 ), …, (x l , y l )}, trong đó, x i là vector dữ liệu biểu diễn văn bản d i (x i R n ),

Trang 23

Nếu coi mỗi văn bản d i được biểu diễn tương ứng với một điểm dữ liệu trong không gian Rn thì ý tưởng của SVM là tìm một mặt hình học (siêu phẳng) f(x) “tốt nhất”

phẳng phân chia dữ liệu được gọi là “tốt nhất”, nếu khoảng cách từ điểm dữ liệu gần

nhất đến siêu phẳng là lớn nhất Khi đó, việc xác định một tài liệu xTr có thuộc

phân lớp c hay không, tương ứng với việc xét dấu của f(x), nếu f(x)>0 thì xc, nếu f(x)0 thì xc

Trong hình 2.1, đường tô đậm là siêu phẳng tốt nhất và các điểm được bao bởi hình chữ nhật là những điểm gần siêu phẳng nhất, chúng được gọi là các vector hỗ trợ (support vector) Các đường nét đứt mà các support vector nằm trên đó được gọi là

Trang 24

phẳng quyết định càng tốt và việc phân lớp càng chính xác Mục đích của SVM là tìm được khoảng cách (biên) lớn nhất và lỗi tách sai là bé nhất

Hình 2.2: Ví dụ về biên không tốt [4]

Hình 2.3: Ví dụ về biên tối ưu [4]

Trang 25

Tập dữ liệu Tr có thể phân chia tuyến tính được mà không có nhiễu (nghĩa là tất cả các điểm được gán nhãn 1 thuộc về phía dương của siêu phẳng, tất cả các điểm được gán nhãn –1 thuộc về phía âm của siêu phẳng) thì chúng ta có thể tìm được

một siêu phẳng tuyến tính có dạng (2.2) để phân chia tập dữ liệu này:

0 x+b=

1

1}{

=+

=

y

y b

x w sign x

minw T x i +b =

hay y iw T.x i +b 1 , i = 1, ,l (2.5) Vấn đề đặt ra bây giờ là xác định các hệ số w và b như thế nào để siêu phẳng tìm

được là tốt nhất? Siêu phẳng tốt nhất là siêu phẳng mà có khoảng cách từ điểm dữ

Hình 2.4: Siêu phẳng phân chia dữ liệu và các ràng buộc [4].

Trang 26

liệu huấn luyện gần nhất đến siêu phẳng là xa nhất Mà khoảng cách từ một điểm dữ liệu xi đến siêu phẳng (2.2) là:

w

b x w x b w

T i

+

)

;,

b x

w T. i + : là giá trị tuyệt đối của biểu thức w T x i +b

w : là độ dài Ơcơlit của vector w

Giả sử h(w,b) là tổng của khoảng cách từ điểm dữ liệu gần nhất của lớp 1 đến siêu

phẳng và khoảng cách từ điểm dữ liệu gần nhất của lớp –1 đến siêu phẳng Ta có:

w

b x w b

x w w

w

b x w w

b x w

x b w d x

b w d b

w h

i T y x i

T y x

i T

y x i

T

y x

i y

x i y

x

i i i

i

i i i

i

i i i

i

2

.min

min

1

.min

)

;,(min)

,(

1 , 1

,

1 , 1

,

1 , 1

Tập dữ liệu huấn luyện Tr có thể phân chia được tuyến tính nhưng có nhiễu (Hình

2.5) Trong trường hợp này, hầu hết các điểm trong tập dữ liệu được phân chia bởi siêu phẳng tuyến tính Tuy nhiên có một số ít điểm bị nhiễu, nghĩa là điểm có nhãn

=



l b

x w y

w w

Min

i T i

w

,1,i ,1).(

2

1)(

Trang 27

dương nhưng lại thuộc về phía âm của siêu phẳng, điểm có nhãn âm thuộc về phía dương của siêu phẳng

Trong trường hợp này, chúng ta thay ràng buộc y i(w T.x i+b)  1 bằng ràng buộc (2.9)

l b

x w

l i

b x w y

C w w

i

i i

T i

l

i i

, ,10

, ,1 ,1).(

2

1),(

M in

1 2

Trang 28

Tuy nhiên không phải tập dữ liệu nào cũng có thể phân chia tuyến tính được Trong

trường hợp này, chúng ta sẽ ánh xạ các vector dữ liệu x từ không gian n-chiều vào

một không gian m-chiều (m>n) , sao cho trong không gian m-chiều này tập dữ liệu

có thể phân chia tuyến tính được Giả sử  là một ánh xạ phi tuyến tính từ không gian Rn vào không gian Rm

m R

Rn →

:

l i

b x w y

C w w

i

i i

T i

l

i i

, ,10

, ,1 ,1))(.(

2

1),(

M in

1 2

Việc tính toán trực tiếp (x i ) là phức tạp và khó khăn Nếu biết hàm nhân (Kernel

function) K(x i , x j ), để tính tích vô hướng  ( xi)  ( xj)trong không gian m-chiều, thì chúng ta không cần làm việc trực tiếp với ánh xạ (x i )

) ( ) ( ) , (x i x j x i x j

Hàm nhân Kernel là những hàm trả về giá trị tích trong giữa các ảnh của các điểm

dữ liệu trong một vài không gian Việc lựa chọn K cũng chính là chọn  Các hàm kernel có thể được tính toán hiệu quả ngay cả trên không gian có rất nhiều chiều Một số hàm nhân hay dùng trong phân lớp văn bản là :

T i j

i x x x x

K( , )=

Định dạng
Số trang	57
Dung lượng	5,96 MB