Việc phân tích đánh giá quan điểm trong lĩnh vực tài chính cho phép tổng hợp phântích đánh giá tình hình hoạt động tốt hay xấu của các công ty, cô phiếu, từ đó giúp cho các nhà đầu tư, c
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
CAO QUÓC KIÊN
PHAN TÍCH QUAN DIEM TREN BẢN TIN TÀI CHÍNH
CHUYEN NGANH: KHOA HOC MAY TINH
MA SO: 8.48.01.01
TOM TAT LUAN VAN THAC Si KY THUAT
(Theo định hướng ứng dụng)
HÀ NỘI - 2019
Trang 2Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: TS Ngô Xuân Bách Phản biện 1: PGS.TS Trần Đình Quế
Phản biện 2: PGS.TS Đỗ Trung Tuấn
Luận văn sẽ được bảo vệ trước Hội đông châm luận văn thạc sĩ Học viện Công nghệ bưu chính Viên thông
Vào lúc: 08 giờ 20 phút ngày 27 tháng 07 năm 2019
Có thê tìm hiệu luận van tại:
Thư viện Học viện Công nghệ Bưu chính Viễn thông.
Trang 3MO DAU
Thị trường tài chính biến động liên tục và bị anh hưởng từ các hoạt động của các công
ty, các tô chức kinh tế Dựa vào các tin tức tình hình kinh tế tài chính, các nhà đầu tư có thể
phần nào dự đoán được xu hướng, phản ứng của thị trường, từ đó đưa ra các quyết định đầu
tư và thực hiện các chiến lược kinh doanh phù hợp và hiệu quả
Với sự phát triển của khoa học công nghệ nói chung và lĩnh vực học máy nói riêng,
phân tích quan điểm (sentiment analysis) là một trong những nhiệm vụ quan trọng trong xử
lý ngôn ngữ tự nhiên Việc nghiên cứu các phương pháp và mô hình học máy sẽ giúp tạo ra
các công cụ và cách thức dé thu thập và đánh giá các bản tin tài chính một cách tự động vànhanh chóng nhằm hỗ trợ kịp thời việc đưa ra các dự đoán cũng như quyết định cho chủ doanhnghiệp và nhà đầu tư
Việc phân tích đánh giá quan điểm trong lĩnh vực tài chính cho phép tổng hợp phântích đánh giá tình hình hoạt động tốt hay xấu của các công ty, cô phiếu, từ đó giúp cho các
nhà đầu tư, chủ doanh nghiệp hoặc bat kỳ người dùng quan tâm nào đều có thé có cái nhìntong quan về xu hướng và sự chuyên dịch, phản ứng của thị trường
Khả năng dự đoán hành vi, xu hướng của thị trường tài chính luôn là chủ đề hấp dẫncho các nhà nghiên cứu cũng như mang lại lợi ích to lớn cho các nhà đầu tư, chủ doanh nghiệp.Với sự phát triển của công nghệ thông tin, các tin tức tài chính phong phú, cập nhật thườngxuyên và nhanh chóng cùng với sự phát triển của lĩnh vực học máy luôn thúc đây các nhànghiên cứu đưa ra các phương pháp dé giải quyết bài toán Các nghiên cứu này có vai trò to
lớn và cũng góp một phần tác động vào sự phản ứng của thị trường
Trên thế giới cũng đã có nhiều nghiên cứu về phân tích quan điểm dựa trên các vănban, tin tức trong nhiều lĩnh vực khác nhau trong đó có tai chính Ví dụ tại SemEval-2017
Task 5 [31], [32], đã có 32 nhóm nghiên cứu đăng ký tham gia vào nhiệm vu, sử dụng các
phương pháp và cho ra các kết quả khác nhau như [5] Tuy nhiên tại Việt Nam chưa có nhiều
dự án được nghiên cứu, triển khai và áp dụng vào trong thực tế
Vì những lý do trên, cùng với mong muốn làm chủ công nghệ, làm chủ và mở rộngcác nghiên cứu về học máy ứng dụng vào bài toán phân tích quan điểm, dưới sự hướng dẫncủa thầy giáo: TS Ngô Xuân Bách, tôi quyết định chọn đề tài "Phân tích quan điểm trên bảntin tài chính su dụng học máy thống kê" nhăm mục đích sử dụng học máy dé đưa ra những
đánh giá phân tích trên các bản tin tài chính.
Trang 4Nội dung luận văn gồm 3 chương:
Chương 1: Tổng quan về phân tích quan điểm trên bản tin tài chínhNội dung chương này sẽ giới thiệu tổng quan về bài toán phân tích quan điểm nóichung và bài toán phân tích quan điểm trên bản tin tài chính nói riêng: phân tích quan điểm
là gì? Tổng quan bài toán phân tích quan điểm trên ban tin tài chính Tai sao phải phân tíchquan điểm người dùng, lợi ích, ý nghĩa? Nội dung chương này cũng trình bày tổng quan về
các nghiên cứu liên quan đến bài toán được thực hiện trên thế giới cũng như ở Việt Nam
Chương 2: Phân tích quan điểm trên bản tin tài chínhChương này đi vào nghiên cứu cụ thé bài toán phân tích quan điểm trên bản tin tài
chính, các phương pháp trích chọn đặc trưng ngôn ngữ (n-gram, tf-idf) và các mô hình, thuật toán học máy (Linear Regression — LR, Support Vector Regression — SVR) áp dụng cho bai toán.
Chương 3: Thực nghiệm, đánh giá và so sánh kết quả
Chương này tập trung vào xây dựng, cài đặt các công cụ, chương trình thực nghiệm Thực nghiệm trên các phương pháp trích chọn đặc trưng, mô hình học máy được lựa chọn và
cuối cùng thực hiện đánh giá, so sánh kết quả đạt được.
Kết luậnPhần này sẽ trình bày những kết quả đạt được của luận văn, đồng thời chỉ ra những
hạn chế và hướng phát triển tiếp theo
Trang 5CHƯƠNG 1: TONG QUAN VE PHAN TÍCH QUAN DIEM TREN
BAN TIN TAI CHINH
1.1 Tổng quan về phân tích quan điểm người dùng
Phân tích quan điểm (còn có một số tên gọi như phân tích chủ quan, khai phá quanđiểm, hay trích xuất đánh gid, [9]) là quá trình xác định xem một văn ban hay một mẫu tinmang ý nghĩa tích cực, tiêu cực hay trung tính Phân tích quan điểm sử dụng các kỹ thuật, tiễntrình khai phá dữ liệu dé xác định quan điểm khách quan cho một văn bản hoặc một tập cácvăn bản như bài viết, bài đánh giá, tin tức, truyền thông mạng xã hội, Phân tích quan diém
hay còn gọi là khai phá quan điểm được sử dụng để trích xuất và phân tích thông tin khách
quan trên web thông qua xử lý ngôn ngữ tự nhiên.
Phân tích quan điểm tự động là một công cụ mạnh mẽ, giúp cho con người thay vì phải
đọc và đánh giá một khối lượng lớn văn bản một cách thủ công thì có thé xử lý và đánh giá
một cách nhanh chóng và hiệu quả.
Thách thức lớn nhất đôi với nhiệm vụ phân tích quan điểm chính là xác định ý kiến
của đối tượng nghiên cứu và tính chủ quan
Mục tiêu của bài toán phân tích quan điểm có thé tong hợp bằng một số mục tiêu sau
đây:
Mục tiêu đầu tiên là việc tìm ra cách thức xác định ý kiến, quan điểm
Mục tiêu thứ hai là cho một văn bản chứa quan điểm và cần phải phân loại phân cực
cho văn bản: có thể là xác định một trong hai thái cực tình cảm đối lập hoặc xác định vi trí
trên phạm vi liên tục giữa hai thái cực.
1.2 Phân tích quan điểm trên bản tin tài chính
Phân tích quan điểm được áp dụng vào rất nhiều lĩnh vực khác nhau trong cuộc sống,trong đó có lĩnh vực tài chính Với một bản tin, tiêu đề của bản tin thường rất ngắn gọn nhưnglại xúc tích, hàm chứa đầy đủ các thông tin cần thiết mà bản tin đó muốn truyền tải Vì vậyphương pháp phân tích quan điểm trên tiêu đề của bản tin vẫn có thể đảm bảo đưa ra đượcnhững đánh giá đầy đủ, chính xác mà lai dé dang và nhanh chóng trong quá trình xử lý
Bài toán phân tích quan điểm trên tiêu đề bản tin tài chính sử dụng bộ dữ liệu huấnluyện bao gồm các thông tin: tên công ty, tiêu đề của bản tin tài chính về công ty đó và điểm
đánh gia Với moi dữ liệu dau vào mới qua quá trình xử lý sẽ đưa ra được quan điêm đánh giá
Trang 6về tình hình hoạt động của công ty thông qua một điểm số (Điểm số này nằm trong phạm vi
từ [-1,1] tương ứng -1: là rất xấu, 1: rất tốt)
Dau vào:
- company: Tên công ty
- title: Tiêu dé của bản tin tài chính
Đầu ra:
- sentiment score: Điểm đánh giá là số thực thuộc miền giá trị [- 1,1]
Bài toán phân tích quan điểm có thê sử dụng nhiều phương pháp và kỹ thuật khác nhau
dé xử lý như thiết lập mô hình dựa trên từ điển là một phương pháp đơn giản áp dung chobài toán Một phương pháp quan trọng khác dé giải quyết bài toán là sử dụng học máy Môhình này được cung cấp dữ liệu mẫu và huấn luyện dé đưa ra quan điểm đánh giá cho một
văn bản đầu vào mới Luận văn này tập trung vào dự đoán quan điểm sử dụng các mô hìnhhồi quy [4] trong học máy
1.3 Các nghiên cứu liên quan
Miền tài chính là một lĩnh vực khá đặc thù, phân tích quan điểm trên miền tài chínhthường gặp nhiều khó khăn và thách thức Ở Việt Nam có khá ít các nghiên cứu và đề tài thựchiện liên quan đến miễn tài chính
Trên thé giới có tương đối nhiều các nghiên cứu liên quan đến lĩnh vực phân tích quanđiểm trên miền tài chính, trong đó phải kê đến SemEval — viết tắt từ Semantic Evaluation, làmột hội thảo quốc tế về đánh giá ngữ nghĩa được tài trợ bởi SIGLEX và Microsoft Luận vănnày cũng dựa trên một nhiệm vụ được đưa ra tại SemEval-2017 và tập trung vào phần 2 của
nhiệm vụ 5 mang tên Fine-Grained Sentiment Analysis on Financial Microblogs and New.
Nhiệm vu có 32 nhóm nghiên cứu đăng ky tham gia, trong đó với phan 2 có 29 nhóm nghiên
cứu tham gia.
Tổng hợp từ các kết quả được gửi lên bởi các nhóm thực hiện, một số kỹ thuật và công
cụ thường được các nhóm nghiên cứu sử dụng:
- Quá trình tiễn xử lý dữ liệu: Một số các phương pháp chủ yếu như: Loại bỏ số,
ký tự đặc biệt, đường dẫn, thay thế tên công ty, loại bỏ từ dừng (stopwords - từ không có ýnghĩa), kỹ thuật chuẩn hóa từ về dạng nguyên thé (tokenization và lemmatization), chuyênđổi chữ thường và công cụ thường được dùng là NTLK, Stanford NER
- Ky thuật: Các kỹ thuật được các nhóm nghiên cứu sử dụng như:
©_ Kỹ thuật lai Hoc máy (Machine Learning) và kỹ thuật từ điển (Lexicon)
Trang 7©_ Kỹ thuật lai Học sâu (Deep Learning) và kỹ thuật từ điển (Lexicon)
o Kỹ thuật lai giữa Học sâu (Deep Learning) và bản thể hoc (Ontology)
©_ Kỹ thuật học máy
©_ Kỹ thuật học sâu
- Công cụ: Scikit-learn, Word2vec, Weka, GloVe, LIBSVM, LIBLINEAR, Keras,
XGBoost, Gensim, TensorFlow.
1.4 Kết luận
Trong chương này đã trình bày được tổng quan về bài toán phân tích quan điểm nói
chung và bài toán phân tích quan điểm trên bản tin tài chính nói riêng Nội dung chương cũng
thé hiện được vai trò và ý nghĩa của việc sử dụng các kỹ thuật, công nghệ trong việc phântích, đánh giá quan điểm của con người Ngoài ra chương này còn đưa ra các nghiên cứu liênquan trong lĩnh vực phân tích quan diém cả trong nước và trên thế giới
Trang 8CHƯƠNG 2: PHƯƠNG PHÁP XỬ LÝ BÀI TOÁN PHAN TÍCH
QUAN DIEM TREN BẢN TIN TÀI CHÍNH
2.1 Giới thiệu chung về phương pháp
Trong lĩnh vực học máy, với bài toán phân loại, phân cụm hay bài toán hồi quy, thông
thường sẽ được chia làm 2 giai đoạn xử lý:
Giai đoạn huấn luyện: là giai đoạn sử dụng tập đữ liệu huấn luyện thu thập được để
xây dựng ra một mô hình học máy Với giai đoạn này:
Đầu vào: Là tập dữ liệu huấn luyện thô ban đầu + kết quả đầu ra cho dit liệu Dữ liệu
này thường được thu thập từ thực tế hoặc các bài đo, bài thí nghiệm
Đầu ra: Là một mô hình sử dụng thuật toán phân lớp, phân cụm hoặc hôi quy trên tập
dữ liệu huấn luyện
Giai đoạn du đoán: là giai đoạn sử dụng mô hình đã đào tao ở giai đoạn trên dé dự
đoán kêt quả dau ra cho một dữ liệu mới chưa biệt.
Giai đoạn huan luyện
Dữ liệu Trích xuất Lựa chọn
cần dự đoán đặc trưng đặc trưng
Hình 2.1 Phương pháp chung cho bài toán học máy
Với bài toán phân tích quan điểm trên bản tin tài chính, phương pháp xây dựng sẽ
được tiên hành qua các bước sau:
Trang 9Hình 2.2 Các bước quy trình xử lý bài toán phân tích quan điểm
- Tiển xử lý: Tiền xử ly văn bản thô ban đầu như loại bỏ các từ không quan trọng,chuẩn hóa văn bản, chuyên chữ hoa, thường
- Vector hóa văn ban: Chuyên văn ban dang text thành các vector dang số dé các
thuật toán có thé hiểu
- Huấn luyện mô hình: Xây dựng mô hình sử dụng vector đầu vào và thuật toán tương
ứng.
- Đánh giá: Đánh gia độ chính xác, tính hiệu qua của mô hình Sau khi đánh giá có
thé hiệu chỉnh lại tham số, cách thức dé huấn luyện lại mô hình tốt nhất có thé
- Dự đoán: Sử dụng mô hình đã huấn luyện để dự đoán kết quả cho văn bản đầu vào
mới.
2.2 Các đặc trưng ngôn ngữ
Trong quá trình làm việc với các bài toán học máy thực tế, cơ bản chúng ta làm việcvới các dữ liệu đầu vào là các dit liệu thô chưa qua chỉnh sửa, chọn lọc Đề các thuật toán có
thé hiểu được cần phải tìm một phép biến đổi dé loại bỏ những dữ liệu nhiễu, chuyên dữ liệu
thô thành một dạng dữ liệu chuẩn Dữ liệu chuẩn mới này phải đảm bảo giữ được những thông
tin đặc trưng cho dữ liệu thô ban đầu Tùy vào từng bài toán, ta cần thiét kế những phép biến
đối để có những đặc trưng phù hợp Quá trình quan trọng này được gọi là trích chon đặc trưng
(Feature Extraction [9]).
Sau khi đã trích chọn được các đặc trưng từ nguồn dữ liệu thô ban đầu, ta có được mộttập các đặc trưng mang thông tin đại diện cho dt liệu Tuy nhiên trong thực tế, sỐ lượng đặctrưng có thé rất lớn do đó yêu cầu phải chọn ra một tập nhỏ các đặc trưng phù hợp với bàitoán cụ thê Kỹ thuật lựa chọn đặc trưng như vậy được gọi là Feature Selection [9]
Trong luận văn nay sử dụng 2 kỹ thuật trong việc biến đổi dữ liệu dang văn bản banđầu về dạng vector đặc trưng: TF-IDF và N-Gram
2.2.1 TF-IDF
Trong quá trình xử ly, các văn bản được biéu diễn dưới dạng vector với các chiều là
các trọng số của các từ Ở đây, luận văn bỏ qua thứ tự giữa các từ cũng như các van đề ngữ
pháp khác Dưới đây là phương pháp xác định trọng số từ:
Trang 10e N1asé lượng tai liệu trong tập dữ liệu huấn luyện.
e DF là số tài liệu mà một từ xuất hiện trong đó
- TF-IDF: Trọng số của từ là tích của tần suất từ TF và tần suất tài liệu nghịch dao
IDF của từ đó và được xác định bằng công thức:
N-gram là một chuỗi gồm n ký tự hoặc từ được trích xuất ra từ một văn bản N-gram
có thé được phân chia thành hai loại: ký tự và từ Một ký tự n-gram là một tập của n ký tựliên tiếp được trích xuất từ một từ Tương tự một từ n-gram là một tập n từ liên tiếp được tríchxuất từ một câu Các giá trị của n có thé là 1,2,3, tương ứng với unigram, bigram,trigram, Tùy vào bài toán cụ thể mà có thể lựa chọn giá trị n sao cho đạt được kết quả cao
- Unigram: sentiment, analysis, on, financial, news, headline, using, statistic, models.
- Bigram: sentiment analysis, analysis on, on financial, financial news, news headline, headline using, using statistic, statistic models.
- Trigram: sentiment analysis on, analysis on financial, on financial news, financial
news headline, news headline using, headline using statistic, using statistic models.
Trang 112.3 Các mô hình, thuật toán hồi quy
2.3.1 Mô hình hồi quy tuyến tính — Linear Regression
Tuyến tính hiéu một cách đơn giản là thăng, phẳng Trong không gian hai chiều, mộthàm số được gọi là tuyến tính nêu đồ thị của nó có dạng một đường thăng Trong không gian
ba chiều, một hàm số được gọi là tuyến tính nếu đồ thị của nó có dạng một mdt phẳng Còn
trong một không gian nhiều hơn 3 chiều, một khái niệm khác ra đời được gọi là siêu mặtphẳng (hyperplane)
Trước tiên, luận văn sẽ bắt đầu với mô hình hồi quy tuyến tính đơn giản (Simple LinearRegression — SLR), trong đó chỉ có 2 biến Mô hình được phát biéu như sau:
Y: Biến phụ thuộc (còn gọi là biến phản hồi, biến phụ thuộc, biến kết qua, ) và Yphải là biến liên tục
X: Biến độc lập (còn gọi là biến tién tổ, biến độc lập, ) và X có thé là bién liên tục
hoặc biến không liên tục (biến phân nhóm)
Khi đó:
Y=at+pxXt+e (2.1)
Trong đó:
- a: Giá trị khởi đầu của Ÿ khi X = 0 (intercept)
- 8: Độ dốc (gradient hay slope)-_£: Sai số ngẫu nhiên, thé hiện những giao động, khác biệt của Y trong giá trị của X
Mô hình phải tuân theo một số giả định sau:
- _ Mối liên quan giữa X và Y phải là tuyến tính về tham số
- X được đo chính xác (giá trị có định), không có sai số ngẫu nhiên Tuy nhiên trong
thực tế bao giờ cũng có sai số ngẫu nhiên
- Giá trị của Y độc lập nhau, tức là các giá trị y; không liên quan đến nhau
- Sai số ngay nhiên e phải:
o Phân bố chuẩn
o Có giá trị trung bình = 0.
o Có phương sai bat biến
Nhiệm vụ đặt ra là ước lượng giá trị 2 tham số ava B Vậy tiêu chuẩn dé tìm ra ước
số của ø va Ø là tìm ra công thức dé tính ước số của a va B sao cho tổng d? là nhỏ nhất
Tổng quát hóa, ta có mô hình hồi quy tuyến tính đa biến như sau:
Y=ưzư+,X; + f;X; + -+ ByXn + € (2.2)
Trang 12Uu điểm:
- _ Mô hình đơn giản, dễ hiểu, dé sử dụng nhưng hiệu qua trong việc tiên lượng cho
giá trị biến đầu ra nếu mối quan hệ giữa các biến là tuyến tính
Nhược điễm:
- LR rất nhạy cảm với nhiễu, chi cần một vài dữ liệu nhiễu có thé làm cho kết quả
sai lệch đi rất nhiều Chính vì vậy, trước khi áp dụng LR, cần thiết phải loại bỏ các
nhiễu.
- LR rất khó để biểu diễn được các mô hình phức tạp trong thực tế hoặc trường hợp
các biến không phải là mối quan hệ tuyến tính
2.3.2 Mô hình hồi quy vector hỗ trợ — Support Vector Regression
Support Vector Regression — SVR dựa trên chủ yếu các nguyên tắc và nền tảng toánhọc của SVM do đó luận văn sẽ trình bày về thuật toán SVM trước
Mô hình được phát biểu như sau:
Cho tập mẫu huấn luyện D = {(%¡, y¡), (xạ, y;), , Xn» y„)} trong đó:
- x; là vector đầu vào đa chiều trong miền số thực R
- _ yị: là giá trị đầu ra được gán nhãn, y; € {1,—1} tương ứng 1 là tích cực, -1 là tiêu