Góp phần vào các giải pháp dự báo thị trường chứng khoán tại Việt Nam, và đặc biệt là khảo sát sự liên hệ giữa các tin tức về tình hình kinh tế, tài chính trên các báo điện tử phổ biến ở
Trang 1ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
-
PHẠM XUÂN DŨNG
ỨNG DỤNG TEXT MINING DỰ BÁO THỊ TRƯỜNG
CHỨNG KHOÁN VIỆT NAM
LUẬN VĂN THẠC SĨ CAO HỌC NGÀNH: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01
HƯỚNG DẪN KHOA HỌC:
GS.TSKH HOÀNG VĂN KIẾM
TP HỒ CHÍ MINH - 2015
Trang 2Lời cam đoan:
Tôi xin cam đoan những nội dung trong luận văn này là do chính tôi tìm hiểu, tổng hợp và tự nghiên cứu Tất cả dữ liệu thử nghiệm đều là dữ liệu thực và các kết quả thử nghiệm được trình bầy trong luận văn là trung thực Những phần hay phương pháp sưu tầm từ các tài liệu khác đều được trích dẫn đầy đủ Tôi xin chịu mọi trách nghiệm về nội dung của luận văn này và chịu mọi hình thức kỷ luật nếu lời cam đoan này không trung thực
TP HCM, ngày 6 tháng 1 năm 2016
Học Viên
Phạm Xuân Dũng
Trang 3MỤC LỤC
Trang CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN DỰ BÁO THỊ TRƯỜNG CHỨNG
KHOÁN, CÁC KỸ THUẬT VÀ CÁC CÔNG TRÌNH LIÊN QUAN 3
1.1 Mục tiêu, đối tượng, phạm vi của đề tài luận văn thạc sĩ 3
1.2 Giới thiệu bài toán dự báo thị trường chứng khoán 3
1.3 Giả thiết thị trường hiệu quả [6, 30] 4
1.4 Các bằng chứng chống lại giải thiết thị trường hiệu quả [6, tr 53-56] 5
1.5 Tổng quan tình hình nghiên cứu trong nước và trên thế giới 5
CHƯƠNG 2: CÁC KỸ THUẬT KHAI PHÁ VĂN BẢN [4, 12] 12
2.1 Thuật toán K-Trung bình (K-means)[4] 12
2.2 Thuật toán cây quyết định (Decision tree)[4] 13
2.3 K-láng giềng gần nhất (K-Nearest Neighbor)[4] 13
2.4 Support Vector Machines (SVM)[4] 15
2.4.1 Giới thiệu 15
2.4.2 Bài toán và cách giải quyết 15
2.4.3 Hàm nhân Kernel 21
2.4.4 Thuật toán Sequential Minimal Optimization (SMO) 22
CHƯƠNG 3: ĐỀ XUẤT MÔ HÌNH CẢI TIẾN DỰ BÁO XU HƯỚNG CỦA CHỈ SỐ VN-INDEX SỬ DỤNG KỸ THUẬT KHAI PHÁ VĂN BẢN 24
3.1 Đề xuất mô hình cải tiến 25
3.2 Nguồn dữ liệu: 26
3.3 Phương pháp kết hợp nội dung các tin tức 27
3.4 Gán nhãn tin tức để chuẩn bị dữ liệu cho giai đoạn huấn luyện 28
3.5 Loại bỏ các thành phần không cần thiết trong bài báo 29
3.6 Gán nhãn từ loại 29
3.7 Loại bỏ các từ dừng[4] 30
3.8 Lựa chọn đặc trưng [4, 12] 32
3.9 Biểu diễn các bài báo theo không gian vector 33
Trang 4CHƯƠNG 4: XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM 35
4.1 Các module chính của chương trình thử nghiệm 35
4.2 Phương pháp đánh giá hiệu quả dự báo 35
4.3 Kết quả thử nghiệm: 36
4.3.1 Thử nghiệm 1: Áp dụng mô hình cải tiến đã đề xuất, dự báo xu hướng giá VN-INDEX, thử nghiệm trên tập dữ liệu 1 36
4.3.2 Thử nghiệm 2: Áp dụng mô hình cải tiến đã đề xuất, dự báo xu hướng giá VN-INDEX, thử nghiệm trên tập dữ liệu 2 38
4.3.3 Thử nghiệm 3: Áp dụng mô hình cải tiến đã đề xuất, dự báo xu hướng giá VN-INDEX, thử nghiệm trên tập dữ liệu 3 40
4.4 Tổng kết chương 4 42
CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 43
5.1 Kết luận 43
5.2 Hướng phát triển 43
TÀI LIỆU THAM KHẢO 45
Trang 5Danh mục các thuật ngữ và ký hiệu
trợ)
toán tối tiểu tuần tự) VN-INDEX Là chỉ số thể hiện biến động giá cổ phiếu
giao dịch tại TTGDCK TP.HCM
hôm sau tăng so với ngày hôm trước Tin trung tính Tin tức làm cho giá VN-INDEX ngày
hôm sau không tăng, không giảm so với ngày hôm trước
hôm sau giảm so với ngày hôm trước
Trang 6DANH MỤC BẢNG
Trang
Bảng 1.1: Thông tin về một số công trình nghiên cứu sử dụng text mining dự báo
chứng khoán trên thế giới 10
Bảng 3.1: Bảng số liệu các tin tức thu thập được từ các trang báo điện tử đã loại bỏ nhiễu và tin quá ngắn 26
Bảng 3.2: Bảng lịch sử giá của chỉ số VN-INDEX 26
Bảng 3.3: Bảng phân loại tin tức theo lịch sử giá 28
Bảng 3.4: Các biểu thức chính quy lấy các phần của tin tức VNEXPRESS 29
Bảng 3.5: Một số từ dừng trong văn bản tiếng Việt 30
Bảng 3.6: Trích một phần danh sách từ tiếng Việt [31] 31
Bảng 4.1: Các module chính của chương trình thử nghiệm 35
Bảng 4.2 Bảng phân chi tập dữ liệu huấn luyện và kiểm tra cho thử nghiệm 1 36
Bảng 4.3: Một số đặc trưng có thông tin tương hỗ cao đối với lớp tương ứng trong thử nghiệm 1 37
Bảng 4.4: Kết quả thử nghiệm 1 37
Bảng 4.5: Bảng phân chi tập dữ liệu huấn luyện và kiểm tra cho thử nghiệm 2 38
Bảng 4.6: Một số đặc trưng có thông tin tương hỗ cao đối với lớp tương ứng trong thử nghiệm 2 38
Bảng 4.7: Bảng kết quả thử nghiệm 2 39
Bảng 4.8: Bảng phân chi tập dữ liệu huấn luyện và kiểm tra cho thử nghiệm 3 40
Bảng 4.9: Một số đặc trưng có thông tin tương hỗ cao đối với lớp tương ứng trong thử nghiệm 3 40
Bảng 4.10: Bảng kết quả thử nghiệm 3 41
Trang 7Danh mục hình vẽ và biểu đồ
DANH MỤC HÌNH VẼ
Trang
Hình 1.1: Tính liên ngành của ứng dụng text mining để dự báo thị trường[21] 4
Hình 1.2: Sơ đồ các thành phần chính của hệ thống dự báo thị trường[21] 7
Hình 1.3: Mô hình dự báo giá chứng khoán sử dụng dữ liệu Twitter [24] 8
Hình 1.4: Mô hình huấn luyện được đề xuất trong [23] sử dụng phân loại văn bản dự báo chỉ số VN-INDEX 9
Hình 1.5: Mô hình dự báo xu hướng giá VN-INDEX sử dụng phân loại văn bản được đề xuất trong [23] 9
Hình 2.1: Siêu phẳng phân chia tập mẫu huấn luyện [4] 16
Hình 2.2: Ví dụ về biên không tốt [4] 17
Hình 2.3: Ví dụ về biên tối ưu [4] 17
Hình 2.4: Siêu phẳng phân chia dữ liệu và các ràng buộc [4] 18
Hình 2.5: Trường hợp dữ liệu có nhiễu [4] 20
Hình 3.1: Sơ đồ xây dựng mô hình máy học sử dụng text mining dự báo VN-INDEX, cải tiến từ mô hình được đề xuất trong [23] 25
Hình 3.2: Sơ đồ dự báo xu hướng chỉ số VN-INDEX sử dụng mô hình máy học đã xây dựng 25
Hình 3.3: Sơ đồ phương pháp kết hợp các tin tức thành một văn bản duy nhất 28
Trang 8Trong các quyết dịnh hàng ngày, chúng ta luôn bị chi phối bởi các thông tin mà chúng ta nghe thấy, nhìn thấy Một trong các nguồn thông tin mà chúng ta nghe thấy, nhìn thấy hàng ngày là các tin tức về tình hình kinh tế, xã hội trên các báo điện
tử
Các tin tức này tắc động đến hành vi mua bán, đầu tư của chúng ta, và đến lượt các hành vi mua bán, đầu tư của chúng ta tác động đến tình hình cung, cầu của thị trường và qua đó tác động đến giá cả thị trường
Góp phần vào các giải pháp dự báo thị trường chứng khoán tại Việt Nam, và đặc biệt là khảo sát sự liên hệ giữa các tin tức về tình hình kinh tế, tài chính trên các báo điện tử phổ biến ở Việt Nam và chỉ số VN-INDEX, trong luận văn này chúng tôi đề xuất và thử nghiệm mô hình dự báo thị trường chứng khoán Việt Nam bằng cách kết hợp các thuật toán khai phá văn bản và dữ liệu số
Nguồn dữ liệu văn bản của luận văn chính là các tin tức về tài chính, chứng khoán trên các báo điện tử phổ thông của Việt Nam như báo Tuổi trẻ, Thanh Niên, VNEXPRESS, Vietstock, và đối tượng dự báo của luận văn là chỉ số VN-INDEX Các kết quả thử nghiệm của luận văn đã cho kết quả khả quan và kết quả dự báo này là nguồn tham khảo khách quan và có giá trị cho các nhà quản lý và đầu tư trên thị trường chứng khoán trong các quyết định đầu tư của mình
Cấu trúc của luận văn gồm 5 chương như sau:
- Chương 1: Tổng quan về bài toán dự báo thị trường chứng khoán, các kỹ
Trang 9MỞ ĐẦU
- Chương 2: Các phương pháp khai phá văn bản
- Chương 3: Đề xuất mô hình dự báo thị trường chứng khoán Việt Nam sử dụng các kỹ thuật khai phá văn bản
- Chương 4: Xây dựng chương trình thử nghiệm, kết quả và phân tích
- Chương 5: Kết luận và hướng phát triển
Trang 10CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN DỰ BÁO THỊ TRƯỜNG CHỨNG KHOÁN, CÁC KỸ THUẬT VÀ CÁC CÔNG TRÌNH LIÊN
QUAN
Trong chương này chúng tôi trình bầy về mục tiêu, đối tượng, phạm vi của đề tài luận văn thạc sĩ Sau đó chúng tôi giới thiệu qua về bài toán dự báo thị trường chứng khoán, cuối cùng chúng tôi điểm qua một số kỹ thuật dự báo thị trường chứng khoán và một số công trình nghiên cứu liên quan đến luận văn ở trong nước
và trên thế giới trong thời gian gần đây
1.1 Mục tiêu, đối tượng, phạm vi của đề tài luận văn thạc sĩ
Mục tiêu nghiên cứu của đề tài
+ Tìm hiểu, phân tích các kỹ thuật dự báo chứng khoán hiện đại ở Việt Nam và trên thế giới
+ Đề xuất các cải tiến nhằm làm tăng độ chính xác trong việc dự báo thị trường chứng khoán sử dụng các kỹ thuật text mining
+ Xây dựng chương trình thử nghiệm
Đối tượng và phạm vi nghiên cứu của đề tài
+ Đối tượng nghiên cứu của luận văn là dự báo sự lên xuống (với ba mức tăng, không tăng-không giảm, giảm) của chỉ số chứng khoán VN-INDEX trước một ngày
+ Phạm vi nghiên cứu của luận văn là sử dụng kỹ thuật phân loại văn bản(SVM) áp dụng trên tập các tin tức tiếng Việt trong các chuyên mục tài chính, chứng khoán trên 4 trang báo điện tử phổ biến của Việt Nam
1.2 Giới thiệu bài toán dự báo thị trường chứng khoán
Dự báo thị trường chứng khoán từ lâu đã thu hút nhiều nghiên cứu từ các nhà kinh
tế học và các nhà khoa học máy tính Dự báo thị trường chứng khoán sử dụng text mining là một lĩnh vực mới nổi và thu hút nhiều nghiên cứu trên thế giới Đây là lĩnh vực liên ngành giữa ngôn ngữ học, học máy, và tài chính hành vi (xem Hình 1.1)
Trang 11Chương 1: Tổng quan về bài toán dự báo TTCK, các kỹ thuật và các công trình liên quan
Hình 1.1: Tính liên ngành của ứng dụng text mining để dự báo thị trường[21]
1.3 Giả thiết thị trường hiệu quả [6, 30]
Giả thuyết thị trường hiệu quả (hay lý thuyết thị trường hiệu quả) (tiếng Anh:
efficient market hypothesis) là một giả thuyết của lý thuyết tài chính khẳng định
rằng các thị trường tài chính là hiệu quả (efficient), rằng giá của chứng khoán
(securities) trên thị trường tài chính, đặc biệt là thị trường chứng khoán, phản ánh đầy đủ mọi thông tin đã biết Do đó không thể kiếm được lợi nhuận bằng cách căn
cứ vào các thông tin đã biết hay những hình thái biến động của giá cả trong quá
khứ Có thể nói một cách ngắn gọn là các nhà đầu tư không thể khôn hơn thị trường
Có ba phiên bản của "lý thuyết thị trường hiệu quả": dạng yếu (weak form), dạng bán-mạnh (semi-strong form) và dạng mạnh (strong form) Phiên bản weak form của lý thuyết này cho rằng: giá chứng khoán phản ánh đầy đủ thông tin đã công bố trong quá khứ (nghĩa là dựa vào thông tin trong quá khứ thì nhà đầu cơ không thắng được thị trường) Phiên bản dạng semi-strong form của lý thuyết cho rằng: giá chứng khoán (chứng khoán ở đây được hiểu theo nghĩa rộng, không chỉ là cổ phiếu) đã chịu tác động đầy đủ của thông tin công bố trong quá khứ cũng như thông tin vừa công bố xong Nhà đầu cơ không thể dựa vào thông tin trong quá khứ cũng như thông tin vừa được công bố để có thể mua rẻ bán đắt chứng khoán, vì ngay khi thông tin được công bố, giá chứng khoán đã thay đổi phản ánh đầy đủ thông tin vừa công bố
Dạng strong form của lý thuyết này khẳng định mạnh mẽ hơn nữa về tính hiệu quả của thị trường tài chính, rằng giá của chứng khoán đã phản ánh tất cả thông tin công bố trong quá khứ, hiện tại, cũng như các thông tin nội bộ Cơ sở đứng sau lý thuyết này là: nếu có thông tin nội bộ, những người biết thông tin nội bộ sẽ mua bán ngay
Trang 12chứng khoán để thu lợi nhuận, và như vậy giá chứng khoán sẽ thay đổi, đến khi nào người trong cuộc không còn kiếm lời được nữa
Lý thuyết thị trường hiệu quả được phát triển bởi Giáo sư Eugene Fama tại University of Chicago Booth School of Business trong luận văn tiến sỹ của mình
vào đầu những năm 1960s Lý thuyết này được chấp nhận rộng rãi cho đến
những năm 1990s thì bị đặt câu hỏi, khi kinh tế học tài chính hành vi nổi lên được chấp nhận rộng rãi
Những hạn chế này của giả thuyết thị trường hiệu quả đã thúc đẩy các nghiên cứu đưa đến lý thuyết kinh tế học hành vi nói chung và tài chính hành vi học nói riêng
1.4 Các bằng chứng chống lại giải thiết thị trường hiệu quả [6, tr 53-56]
Mặc dù có rất nhiều bằng chứng ủng hộ giả thiết thị trường hiệu quả, tuy nhiên, đã
có nhiều công trình nghiên cứu chỉ ra rằng thị trường hiệu quả không phải lúc nào cũng áp dụng được:
+ Hiệu ứng công ty nhỏ: Nhiều nghiên cứu đã chỉ ra rằng các công ty nhỏ có lợi
nhuận cao bất thường trong một thời gian dài, ngay cả khi rủi ro của các công ty này-thường lớn hơn rủi ro của các công ty khác- đã được tính đến
+ Hiệu ứng tháng Giêng: Trong một thời gian dài, giá cổ phiếu thường có khuynh hướng tăng cao một cách bất thường từ tháng 12 cho đến tháng Giêng
+ Phản ứng quá mức của thị trường: Các nghiên cứu gần đây cho thấy giá cổ phiếu thường có phản ứng quá mức trước các thông tin mới được công bố và các sai sót trong việc định giá được điểu chỉnh một cách chậm chạp
+ Sự đảo chiều: Một số nhà nghiên cứu đã phát hiện ra rằng lợi nhuận cổ phiếu có tính đảo chiều: nghĩa là cổ phiếu đang có lợi nhuận thấp ngày hôm nay thường có khuynh hướng đem lại lợi nhuận cao trong tương lai và ngược lại
Các bằng chứng trên đã làm cho thấy giả thuyết thị trường hiệu quả vẫn còn gây nhiều tranh cãi và trong phần sau chúng tôi xin trình bầy một số nghiên cứu cụ thể trong ngành khoa học máy tính về dự báo thị trường chứng khoán đã chứng minh
rằng giả thuyết thị trường hiệu quả không phải lúc nào cũng đúng
1.5 Tổng quan tình hình nghiên cứu trong nước và trên thế giới
Về phía các nghiên cứu từ ngành kinh tế, có thể kể đến luận án tiến sĩ kinh tế của Lê Đạt Chí[1], sử dụng mạng thần kinh nhân tạo được cài đặt trong phần mềm NeuralSolution 5.0 để dự báo chỉ số VN-INDEX, trong luận án, có phần tác giả sử
Trang 13Chương 1: Tổng quan về bài toán dự báo TTCK, các kỹ thuật và các công trình liên quan
phát, tỉ giá, lãi suất, sản lượng công nghiệp, cán cân thương mại, cung tiền M2, tăng trưởng tín dụng để dự báo biến động của giá VN-INDEX theo tháng Trong luận án này, tác giả cũng chứng minh mô hình hồi quy truyền thống không có hiệu quả cao trong việc dự báo giá chứng khoán
Luận văn của Đặng Hồng Phú [8], nghiên cứu chuỗi thời gian chỉ số giá thị trường chứng khoán kết hợp với phân tích xu hướng bằng phân tích kỹ thuật Đồng thời luận văn cũng sử dụng thêm phân tích tâm lý thông qua khối lượng dư mua, dư bán Luận văn này dự báo VN-INDEX và các mã chứng khoán PMS, REE, SAM, SGC, TCM;
Luận văn của Nguyễn Tiến Thanh [11], luận văn này dự báo tỷ suất lợi nhuận trả về vượt mức so với các tỷ suất lãi xuất và thực hiện thử nghiệm đới với các chỉ số FTSE-500, S&P-500, VN-INDEX;
Luận văn của Đặng Thị Thanh Hương [3], kết hợp mạng neuron và thuật giải di truyền để dự báo chỉ số VN-INDEX và các mã chứng khoán REE và SAM trong ngắn hạn;
Luận văn của Tô Nguyễn Nhật Quang [10], sử dụng mô hình tuyến tính gọi là mô hình GAAR (GENETIC ALGORITHM-AUTOREGRESSIVE MODEL) và một mô hình phi tuyến phức tạp hơn gọi là mô hình ANFIS dự báo trong ngắn hạn giá trị tương lai của chỉ số VN-INDEX và của một số cổ phiếu có khối lượng giao dịch lớn tại thị trường chứng khoán TP.HCM như REE, SAM;
Phạm Thành Phước [9], sử dụng mạng neural dự báo giá chứng khoán tại trung tâm giao dịch chứng khoán TP HCM;
Trịnh Thanh Ngọc[7], dự đoán xu hướng thị trường chứng khoán bằng cách sử dụng Twitter, trong nghiên cứu này, tác giải ứng dụng kỹ thuật học máy hồi quy véctơ hỗ trợ (Support Vector Regression - SVR) vào bài toán dự báo xu thế của chứng khoán dựa trên tập dữ liệu Twitter Tập dữ liệu này được tải xuống trực tiếp từ trang web https://twitter.com Tác giả đã xây dựng chương trình dự báo giá cổ phiếu Apple;
Vũ Hữu Dũng [2], ứng dụng khai phá dữ liệu trong dự báo biến động thị trường chứng khoán Việt Nam, tác giả nghiên cứu mô hình GARCH, mô hình học máy (Mạng nơ ron nhân tạo, Hồi quy vector hỗ trợ) dự đoán biến động trên thị trường chứng khoán Việt Nam (VN-INDEX, HNXINDEX)
Như trên chúng ta đã thấy, các nghiên cứu trên chủ yếu sử dụng dữ liệu số để dự báo giá chứng khoán mà chưa xem xét đến sự tác động của các tin tức về tình hình kinh tế, tài chính đến xu hướng giá chứng khoán Lĩnh vực dự báo thị trường chứng
Trang 14khoán luôn nhận được sự quan tâm to lớn của cộng đồng nghiên cứu trên thế giới
Đã có nhiều công trình nghiên cứu về dự báo chứng khoán Trong bài báo “Text
mining for market prediction: A systematic review”[21], các tác giả đã tổng kết
những công trình gần đây về việc áp dụng text mining để dự báo thị trường Trong
đó hầu hết các hệ thống được đề xuất trong các công trình nghiên cứu đều theo kiến trúc như sau (hình 1.2):
Hình 1.2: Sơ đồ các thành phần chính của hệ thống dự báo thị trường[21]
Về các công trình sử dụng kỹ thuật khai phá văn bản để dự báo các chỉ số chứng khoán, có thể kể đến một số nghiên cứu sau: công trình của Tien Thanh Vu, Shu Chang, Quang Thuy Ha and Nigel Collier [24], các tác giả đề xuất mô hình sau (hình 1.3) để dự báo sự lên xuống hàng ngày của giá chứng khoán của các công ty Apple (AAPL), Google (GOOG), Microsoft (MSFT) and Amazon (AMZN) trên sàn giao dịch chứng khoán NASDAQ
Trang 15Chương 1: Tổng quan về bài toán dự báo TTCK, các kỹ thuật và các công trình liên quan
Hình 1.3: Mô hình dự báo giá chứng khoán sử dụng dữ liệu Twitter [24]
Các tác giả Hoang T P Thanh, Phayung Meesad[23] sử dụng cách tiếp cận kết hợp phân tích chuỗi thời gian và kỹ thuật phân loại văn bản với nguồn dữ liệu số được tải về từ trang web website http://indochinastock.vn và nguồn dữ liệu văn bản là các tin tức bằng tiếng anh tải về từ trang web http://vietnamnews.vn dự báo chỉ số chứng khoán VN-INDEX
Sau khi tác giả thu thập dữ liệu từ http://vietnamnews.vn thì chia làm hai tập dữ liệu, 1 tập dữ liệu dùng cho huấn luyện mô hình và một tập dùng cho kiểm thử mô hình
Bản chất của mô hình đề xuất trong [23] là tác giả sử dụng kỹ thuật phân loại văn bản để phân loại các tin tức thành 3 loại tin tốt, tin trung tính, tin xấu tương ứng với
xu hướng giá VN-INDEX là tăng, không tăng-không giảm, giảm
Mô hình đề xuất trong công trình số [23] bao gồm 2 pha, pha huấn luyện được mô
tả như trong hình 1.4, pha dự báo được mô tả như trong hình 1.5
Trang 16Hình 1.4: Mô hình huấn luyện được đề xuất trong [23] sử dụng phân loại văn bản dự báo chỉ số VN-INDEX
Hình 1.5: Mô hình dự báo xu hướng giá VN-INDEX sử dụng phân loại văn bản được đề xuất trong [23]
Ngoài ra, còn có nhiều công trình nghiên cứu trên giới sử dụng kỹ thuật text mining dự báo các chỉ số chứng khoán khác nhau, bảng sau đây mô tả sơ lược
về các công trình này
Trang 17Chương 1: Tổng quan về bài tốn dự báo TTCK, các kỹ thuật và các cơng trình liên quan
Bảng 1.1: Thơng tin về một sớ cơng trình nghiên cứu sử dụng text mining dự báo chứng khốn trên thế giới
Tên cơng trình
nghiên cứu Đối tượng dự báo
Nguồn dữ liệu
Kỹ thuật lựa chọn đặc trưng
Kỹ thuật text mining được
Hegnar online, Newsweb, and Thomson Reuters ONE
Chi-Square value, singular value
decomposition (SVD), LSI
Thuật tốn phân cụm K-Means và một sớ cải tiến, SVM [15] Mining
Các tin tức được cung cấp bởi trang web LexisNexis
IG, CHI K-nearest
neighbor classifier, Decision trees, Support vector machines (SVM)
Mỹ
Stock tweets:
Tập hợp các tweets từ trang web StockTwits
Từ loại, tần sớ
từ, trọng sớ
của đặc trưng
Nạve Bayes, Decision Tree (J48 in Weka), Support
Vector Machine
ty Microsoft, Apple, Google, IBM
Là các tin tức bằng văn bản, nhưng khơng
đề cập rõ nguồn
Industry ontology, company specific ontology, ontology news recall
Naive Bayes classifier, Support vector machines, Multivariate adaptive regression splines, Artificial neural networks, Random forest, Regression
Trang 18trees
Tổng kết chương 1:
Như đã phân tích ở phần trên, hiện nay các công trình nghiên cứu về dự báo thị trường chứng khoán trong nước chủ yếu dựa trên các phương pháp khai phá dữ liệu dựa trên dữ liệu số đơn thuần, trên thế giới đã có nhiều nghiên cứu sử dụng các kỹ thuật khai phá văn bản để dự báo các chỉ số chứng khoán Đặc biệt trong công trình [23], các tác giả cũng đã đề xuất mô hình sử dụng kỹ thuật phân loại văn bản trên các tin tức bằng tiếng Anh để dự báo chỉ số VN-INDEX và cho kết quả khả quan Trong các chương sau, chúng tôi trình bầy sơ lược các kỹ thuật khai phá văn bản và trình bầy mô hình cải tiến của mô hình được đề xuất trong [23] và các kết quả thử nghiệm
Trang 19Chương 2: Các kỹ thuật khai phá văn bản
CHƯƠNG 2: CÁC KỸ THUẬT KHAI PHÁ VĂN BẢN [4, 12]
Trong bài báo tổng kết các công trình về dự báo thị trường sử dụng các kỹ thuật text mining [21], các tác giả đã liệt kê các kỹ thuật, thuật toán được sử dụng nhiều nhất, trong số đó các phương pháp được sử dụng nhiều nhất là K-trung bình (K-means), cây quyết định (Decision tree), K-láng giềng gần nhất (K-nearest neighbors), phương pháp sử dụng các vector hỗ trợ SVM (Support Vector Machines)
Trong phần này chúng tôi điểm qua ý tưởng của các thuật toán này và giải thích vì sao chúng tôi chọn thuật toán SVM trong quá trình thử nghiệm cho luận văn
Các kỹ thuật khai phá văn bản chúng tôi trình bầy sau đây được tham khảo chủ yếu
từ luận văn của Bùi Nguyên Khởi [4]
2.1 Thuật toán K-Trung bình (K-means)[4]
Ý tưởng
Ý tưởng của thuật toán là chia m phần tử (m mẫu dữ liệu văn bản) thành n nhóm (n lớp) sao cho các phần tử trong cùng một nhóm sẽ gần tâm của nhóm đó nhất
Thuật toán K –Trung bình cổ điển
Giả sử ta muốn gom m mẫu dữ liệu đầu vào có các vector đặc trưng lần lượt là x1,
x2, … xm vào k nhóm (k<m) Trong đó Vi là vector đặc trưng n chiều của mẫu thứ i Đầu tiên ta khởi tạo các giá trị trung bình (hay có thể gọi là tâm) của k nhóm là các vector n chiều C1, C2, ….,Ck (thường là khởi tạo ngẫu nhiên) Sau đó tiến hành tính khoảng cách từ các mẫu đầu vào xi đối với từng tâm nhóm Cj, hay chính là việc xác định mối quan hệ thành viên của từng mẫu đầu vào xi bằng cách tính ||xi – Cj|| Đối với mỗi mẫu xi, khoảng cách tối thiểu sẽ xác định được mối quan hệ thành viên đối với nhóm tương ứng
Thuật toán:
- Bước 1: Khởi tạo tâm của k nhóm: C1, C2, ….,Ck
Trang 202.2 Thuật toán cây quyết định (Decision tree)[4]
Phương pháp cây quyết định được Mitchell đưa ra vào năm 1996 Nó được sử dụng rộng rãi nhất cho việc học quy nạp từ tập mẫu lớn Đây là phương pháp học xấp xỉ các hàm mục tiêu có giá trị rời rạc Mặt khác cây quyết định còn có thể chuyển sang
dạng biểu diễn tương đương dưới dạng cơ sở tri thức là các luật Nếu – Thì
Ý tưởng
Bộ phân lớp cây quyết định là một dạng cây mà mỗi nút được gán nhãn là một đặc trưng, mỗi nhánh là giá trị trọng số xuất hiện của đặc trưng trong văn bản cần phân lớp, và mỗi lá là nhãn của phân lớp tài liệu Việc phân lớp của một tài liệu dj sẽ được duyệt đệ quy theo trọng số của những đặc trưng có xuất hiện trong văn bản dj Thuật toán lặp đệ quy đến khi đạt đến nút lá và nhãn của dj chính là nhãn của nút lá tìm được Thông thường việc phân lớp văn bản nhị phân sẽ tương thích với việc dùng cây nhị phân
2.3 K-láng giềng gần nhất (K-Nearest Neighbor)[4]
Ý tưởng
Trang 21Chương 2: Các kỹ thuật khai phá văn bản
Ý tưởng chính của thuật toán K-láng giềng gần nhất (K-NN) là so sánh độ phù hợp
của văn bản d với từng nhóm chủ đề, dựa trên k văn bản mẫu trong tập huấn luyện
mà có độ tương tự với văn bản d là lớn nhất
Có 2 vấn đề cần quan tâm khi phân lớp văn bản bằng thuật toán K- láng giềng gần
nhất là xác định khái niệm gần, công thức để tính mức độ gần; và làm thế nào để
tìm được nhóm văn bản phù hợp nhất với văn bản đó (nói cách khác là tìm được chủ
đề thích hợp để gán cho văn bản)
Khái niệm gần ở đây được hiểu là độ tương tự giữa các văn bản Có nhiều cách để xác định độ tương tự giữa hai văn bản, trong đó công thức Cosine trọng số được coi
là hiệu quả để đánh giá độ tương tự giữa hai văn bản Cho T={t 1 , t 2 , …, t n} là tập
hợp các thuật ngữ; W={w t1 , w t2 , …, w tn } là vector trọng số, w tilà trọng số của thuật
ngữ t i Xét hai văn bản X={x1, x2, …, xn} và Y={y1, y2, …, yn}, xi, yilần lượt là tần số xuất hiện của thuật ngữ titrong văn bản X, Y Khi đó độ tương tự giữa hai văn bản X và Y được tính theo công thức (2.1):
2 2
)(
)(
)(
)(
),,(cos),(
t t t
w y w
x
w y w x W
Y X ine Y
X
Trong vector X, Y các thành phần xi, yiđược chuẩn hoá theo tần số xuất hiện của thuật ngữ titrong các văn bản X và Y Vector W được xác định bằng tay hoặc được tính theo một thuật toán tham lam nào đó Một đề xuất đưa ra là tính vector W theo nghịch đảo tần suất văn bản IDF, khi đó văn bản được biểu diễn dưới dạng vector tần xuất TFxIDF
Có nhiều đề xuất để tìm nhãn phù hợp gán cho văn bản khi đã tìm được k văn bản gần nhất như gán nhãn văn bản gần nhất, gán nhãn theo số đông, gán nhãn theo độ phù hợp của chủ đề
Trang 222.4 Support Vector Machines (SVM)[4]
2.4.1 Giới thiệu
SVM là một phương pháp phân lớp xuất phát từ lý thuyết học thống kê, dựa trên nguyên tắc tối thiểu rủi ro cấu trúc (Structural Risk Minimisation) SVM sẽ cố gắng tìm cách phân lớp dữ liệu sao cho có lỗi xảy ra trên tập kiểm tra là nhỏ nhất (Test Error Minimisation) Ý tưởng của nó là ánh xạ (tuyến tính hoặc phi tuyến) dữ liệu vào không gian các vector đặc trưng (space of feature vectors) mà ở đó một siêu phẳng tối ưu được tìm ra để tách dữ liệu thuộc hai lớp khác nhau
SVM đã được ứng dụng rất nhiều trong việc nhận dạng mẫu như nhận dạng chữ viết tay, nhận dạng đối tượng, nhận dạng khuôn mặt trong ảnh, và trong các bài toán về
bản d i sẽ được biểu diễn bằng một vector dữ liệu x i =(w i1 , w i2 , …, w in ), w ij R là
trong phần này chúng tôi sẽ sử dụng đồng nhất các thuật ngữ : văn bản, vector dữ liệu, điểm dữ liệu
Dữ liệu huấn luyện của SVM là tập các văn bản đã được gán nhãn trước Tr={(x1,
y1), (x 2 , y 2 ), …, (x l , y l )}, trong đó, x i là vector dữ liệu biểu diễn văn bản d i (x i R n ),
Trang 23Chương 2: Các kỹ thuật khai phá văn bản
Nếu coi mỗi văn bản d i được biểu diễn tương ứng với một điểm dữ liệu trong không gian Rn thì ý tưởng của SVM là tìm một mặt hình học (siêu phẳng) f(x) “tốt nhất”
phẳng phân chia dữ liệu được gọi là “tốt nhất”, nếu khoảng cách từ điểm dữ liệu gần
nhất đến siêu phẳng là lớn nhất Khi đó, việc xác định một tài liệu xTr có thuộc
phân lớp c hay không, tương ứng với việc xét dấu của f(x), nếu f(x)>0 thì xc, nếu f(x)0 thì xc
Trong hình 2.1, đường tô đậm là siêu phẳng tốt nhất và các điểm được bao bởi hình chữ nhật là những điểm gần siêu phẳng nhất, chúng được gọi là các vector hỗ trợ (support vector) Các đường nét đứt mà các support vector nằm trên đó được gọi là
Trang 24phẳng quyết định càng tốt và việc phân lớp càng chính xác Mục đích của SVM là tìm được khoảng cách (biên) lớn nhất và lỗi tách sai là bé nhất
Hình 2.2: Ví dụ về biên không tốt [4]
Hình 2.3: Ví dụ về biên tối ưu [4]
Trang 25Chương 2: Các kỹ thuật khai phá văn bản
Tập dữ liệu Tr có thể phân chia tuyến tính được mà không có nhiễu (nghĩa là tất cả các điểm được gán nhãn 1 thuộc về phía dương của siêu phẳng, tất cả các điểm được gán nhãn –1 thuộc về phía âm của siêu phẳng) thì chúng ta có thể tìm được
một siêu phẳng tuyến tính có dạng (2.2) để phân chia tập dữ liệu này:
0 x+b=
1
1
1}{
=+
=
y
y b
x w sign x
minw T x i +b =
hay y iw T.x i +b 1 , i = 1, ,l (2.5) Vấn đề đặt ra bây giờ là xác định các hệ số w và b như thế nào để siêu phẳng tìm
được là tốt nhất? Siêu phẳng tốt nhất là siêu phẳng mà có khoảng cách từ điểm dữ
Hình 2.4: Siêu phẳng phân chia dữ liệu và các ràng buộc [4].
Trang 26liệu huấn luyện gần nhất đến siêu phẳng là xa nhất Mà khoảng cách từ một điểm dữ liệu xi đến siêu phẳng (2.2) là:
w
b x w x b w
T i
+
)
;,
b x
w T. i + : là giá trị tuyệt đối của biểu thức w T x i +b
w : là độ dài Ơcơlit của vector w
Giả sử h(w,b) là tổng của khoảng cách từ điểm dữ liệu gần nhất của lớp 1 đến siêu
phẳng và khoảng cách từ điểm dữ liệu gần nhất của lớp –1 đến siêu phẳng Ta có:
w
b x w b
x w w
w
b x w w
b x w
x b w d x
b w d b
w h
i T y x i
T y x
i T
y x i
T
y x
i y
x i y
x
i i i
i
i i i
i
i i i
i
2
.min
min
1
.min
.min
)
;,(min)
;,(min)
,(
1 , 1
,
1 , 1
,
1 , 1
Tập dữ liệu huấn luyện Tr có thể phân chia được tuyến tính nhưng có nhiễu (Hình
2.5) Trong trường hợp này, hầu hết các điểm trong tập dữ liệu được phân chia bởi siêu phẳng tuyến tính Tuy nhiên có một số ít điểm bị nhiễu, nghĩa là điểm có nhãn
=
l b
x w y
w w
Min
i T i
w
,1,i ,1).(
2
1)(
Trang 27Chương 2: Các kỹ thuật khai phá văn bản
dương nhưng lại thuộc về phía âm của siêu phẳng, điểm có nhãn âm thuộc về phía dương của siêu phẳng
Trong trường hợp này, chúng ta thay ràng buộc y i(w T.x i+b) 1 bằng ràng buộc (2.9)
l b
x w
l i
b x w y
C w w
i
i i
T i
l
i i
, ,10
, ,1 ,1).(
2
1),(
M in
1 2
Trang 28Tuy nhiên không phải tập dữ liệu nào cũng có thể phân chia tuyến tính được Trong
trường hợp này, chúng ta sẽ ánh xạ các vector dữ liệu x từ không gian n-chiều vào
một không gian m-chiều (m>n) , sao cho trong không gian m-chiều này tập dữ liệu
có thể phân chia tuyến tính được Giả sử là một ánh xạ phi tuyến tính từ không gian Rn vào không gian Rm
m R
Rn →
:
l i
b x w y
C w w
i
i i
T i
l
i i
, ,10
, ,1 ,1))(.(
2
1),(
M in
1 2
Việc tính toán trực tiếp (x i ) là phức tạp và khó khăn Nếu biết hàm nhân (Kernel
function) K(x i , x j ), để tính tích vô hướng ( xi) ( xj)trong không gian m-chiều, thì chúng ta không cần làm việc trực tiếp với ánh xạ (x i )
) ( ) ( ) , (x i x j x i x j
Hàm nhân Kernel là những hàm trả về giá trị tích trong giữa các ảnh của các điểm
dữ liệu trong một vài không gian Việc lựa chọn K cũng chính là chọn Các hàm kernel có thể được tính toán hiệu quả ngay cả trên không gian có rất nhiều chiều Một số hàm nhân hay dùng trong phân lớp văn bản là :
T i j
i x x x x
K( , )=