Phân tích quan điểm trên bản tin tài chính sử dụng học máy thống kê

Việc phân tích đánh giá quan điểm trong lĩnh vực tài chính cho phép tổng hợp phântích đánh giá tình hình hoạt động tốt hay xấu của các công ty, cô phiếu, từ đó giúp cho các nhà đầu tư, c

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

CAO QUÓC KIÊN

PHAN TÍCH QUAN DIEM TREN BẢN TIN TÀI CHÍNH

CHUYEN NGANH: KHOA HOC MAY TINH

MA SO: 8.48.01.01

TOM TAT LUAN VAN THAC Si KY THUAT

(Theo định hướng ứng dụng)

HÀ NỘI - 2019

Trang 2

Luận văn được hoàn thành tại:

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học: TS Ngô Xuân Bách Phản biện 1: PGS.TS Trần Đình Quế

Phản biện 2: PGS.TS Đỗ Trung Tuấn

Luận văn sẽ được bảo vệ trước Hội đông châm luận văn thạc sĩ Học viện Công nghệ bưu chính Viên thông

Vào lúc: 08 giờ 20 phút ngày 27 tháng 07 năm 2019

Có thê tìm hiệu luận van tại:

Thư viện Học viện Công nghệ Bưu chính Viễn thông.

Trang 3

MO DAU

Thị trường tài chính biến động liên tục và bị anh hưởng từ các hoạt động của các công

ty, các tô chức kinh tế Dựa vào các tin tức tình hình kinh tế tài chính, các nhà đầu tư có thể

phần nào dự đoán được xu hướng, phản ứng của thị trường, từ đó đưa ra các quyết định đầu

tư và thực hiện các chiến lược kinh doanh phù hợp và hiệu quả

Với sự phát triển của khoa học công nghệ nói chung và lĩnh vực học máy nói riêng,

phân tích quan điểm (sentiment analysis) là một trong những nhiệm vụ quan trọng trong xử

lý ngôn ngữ tự nhiên Việc nghiên cứu các phương pháp và mô hình học máy sẽ giúp tạo ra

các công cụ và cách thức dé thu thập và đánh giá các bản tin tài chính một cách tự động vànhanh chóng nhằm hỗ trợ kịp thời việc đưa ra các dự đoán cũng như quyết định cho chủ doanhnghiệp và nhà đầu tư

Việc phân tích đánh giá quan điểm trong lĩnh vực tài chính cho phép tổng hợp phântích đánh giá tình hình hoạt động tốt hay xấu của các công ty, cô phiếu, từ đó giúp cho các

nhà đầu tư, chủ doanh nghiệp hoặc bat kỳ người dùng quan tâm nào đều có thé có cái nhìntong quan về xu hướng và sự chuyên dịch, phản ứng của thị trường

Khả năng dự đoán hành vi, xu hướng của thị trường tài chính luôn là chủ đề hấp dẫncho các nhà nghiên cứu cũng như mang lại lợi ích to lớn cho các nhà đầu tư, chủ doanh nghiệp.Với sự phát triển của công nghệ thông tin, các tin tức tài chính phong phú, cập nhật thườngxuyên và nhanh chóng cùng với sự phát triển của lĩnh vực học máy luôn thúc đây các nhànghiên cứu đưa ra các phương pháp dé giải quyết bài toán Các nghiên cứu này có vai trò to

lớn và cũng góp một phần tác động vào sự phản ứng của thị trường

Trên thế giới cũng đã có nhiều nghiên cứu về phân tích quan điểm dựa trên các vănban, tin tức trong nhiều lĩnh vực khác nhau trong đó có tai chính Ví dụ tại SemEval-2017

Task 5 [31], [32], đã có 32 nhóm nghiên cứu đăng ký tham gia vào nhiệm vu, sử dụng các

phương pháp và cho ra các kết quả khác nhau như [5] Tuy nhiên tại Việt Nam chưa có nhiều

dự án được nghiên cứu, triển khai và áp dụng vào trong thực tế

Vì những lý do trên, cùng với mong muốn làm chủ công nghệ, làm chủ và mở rộngcác nghiên cứu về học máy ứng dụng vào bài toán phân tích quan điểm, dưới sự hướng dẫncủa thầy giáo: TS Ngô Xuân Bách, tôi quyết định chọn đề tài "Phân tích quan điểm trên bảntin tài chính su dụng học máy thống kê" nhăm mục đích sử dụng học máy dé đưa ra những

đánh giá phân tích trên các bản tin tài chính.

Trang 4

Nội dung luận văn gồm 3 chương:

Chương 1: Tổng quan về phân tích quan điểm trên bản tin tài chínhNội dung chương này sẽ giới thiệu tổng quan về bài toán phân tích quan điểm nóichung và bài toán phân tích quan điểm trên bản tin tài chính nói riêng: phân tích quan điểm

là gì? Tổng quan bài toán phân tích quan điểm trên ban tin tài chính Tai sao phải phân tíchquan điểm người dùng, lợi ích, ý nghĩa? Nội dung chương này cũng trình bày tổng quan về

các nghiên cứu liên quan đến bài toán được thực hiện trên thế giới cũng như ở Việt Nam

Chương 2: Phân tích quan điểm trên bản tin tài chínhChương này đi vào nghiên cứu cụ thé bài toán phân tích quan điểm trên bản tin tài

chính, các phương pháp trích chọn đặc trưng ngôn ngữ (n-gram, tf-idf) và các mô hình, thuật toán học máy (Linear Regression — LR, Support Vector Regression — SVR) áp dụng cho bai toán.

Chương 3: Thực nghiệm, đánh giá và so sánh kết quả

Chương này tập trung vào xây dựng, cài đặt các công cụ, chương trình thực nghiệm Thực nghiệm trên các phương pháp trích chọn đặc trưng, mô hình học máy được lựa chọn và

cuối cùng thực hiện đánh giá, so sánh kết quả đạt được.

Kết luậnPhần này sẽ trình bày những kết quả đạt được của luận văn, đồng thời chỉ ra những

hạn chế và hướng phát triển tiếp theo

Trang 5

CHƯƠNG 1: TONG QUAN VE PHAN TÍCH QUAN DIEM TREN

BAN TIN TAI CHINH

1.1 Tổng quan về phân tích quan điểm người dùng

Phân tích quan điểm (còn có một số tên gọi như phân tích chủ quan, khai phá quanđiểm, hay trích xuất đánh gid, [9]) là quá trình xác định xem một văn ban hay một mẫu tinmang ý nghĩa tích cực, tiêu cực hay trung tính Phân tích quan điểm sử dụng các kỹ thuật, tiễntrình khai phá dữ liệu dé xác định quan điểm khách quan cho một văn bản hoặc một tập cácvăn bản như bài viết, bài đánh giá, tin tức, truyền thông mạng xã hội, Phân tích quan diém

hay còn gọi là khai phá quan điểm được sử dụng để trích xuất và phân tích thông tin khách

quan trên web thông qua xử lý ngôn ngữ tự nhiên.

Phân tích quan điểm tự động là một công cụ mạnh mẽ, giúp cho con người thay vì phải

đọc và đánh giá một khối lượng lớn văn bản một cách thủ công thì có thé xử lý và đánh giá

một cách nhanh chóng và hiệu quả.

Thách thức lớn nhất đôi với nhiệm vụ phân tích quan điểm chính là xác định ý kiến

của đối tượng nghiên cứu và tính chủ quan

Mục tiêu của bài toán phân tích quan điểm có thé tong hợp bằng một số mục tiêu sau

đây:

Mục tiêu đầu tiên là việc tìm ra cách thức xác định ý kiến, quan điểm

Mục tiêu thứ hai là cho một văn bản chứa quan điểm và cần phải phân loại phân cực

cho văn bản: có thể là xác định một trong hai thái cực tình cảm đối lập hoặc xác định vi trí

trên phạm vi liên tục giữa hai thái cực.

1.2 Phân tích quan điểm trên bản tin tài chính

Phân tích quan điểm được áp dụng vào rất nhiều lĩnh vực khác nhau trong cuộc sống,trong đó có lĩnh vực tài chính Với một bản tin, tiêu đề của bản tin thường rất ngắn gọn nhưnglại xúc tích, hàm chứa đầy đủ các thông tin cần thiết mà bản tin đó muốn truyền tải Vì vậyphương pháp phân tích quan điểm trên tiêu đề của bản tin vẫn có thể đảm bảo đưa ra đượcnhững đánh giá đầy đủ, chính xác mà lai dé dang và nhanh chóng trong quá trình xử lý

Bài toán phân tích quan điểm trên tiêu đề bản tin tài chính sử dụng bộ dữ liệu huấnluyện bao gồm các thông tin: tên công ty, tiêu đề của bản tin tài chính về công ty đó và điểm

đánh gia Với moi dữ liệu dau vào mới qua quá trình xử lý sẽ đưa ra được quan điêm đánh giá

Trang 6

về tình hình hoạt động của công ty thông qua một điểm số (Điểm số này nằm trong phạm vi

từ [-1,1] tương ứng -1: là rất xấu, 1: rất tốt)

Dau vào:

- company: Tên công ty

- title: Tiêu dé của bản tin tài chính

Đầu ra:

- sentiment score: Điểm đánh giá là số thực thuộc miền giá trị [- 1,1]

Bài toán phân tích quan điểm có thê sử dụng nhiều phương pháp và kỹ thuật khác nhau

dé xử lý như thiết lập mô hình dựa trên từ điển là một phương pháp đơn giản áp dung chobài toán Một phương pháp quan trọng khác dé giải quyết bài toán là sử dụng học máy Môhình này được cung cấp dữ liệu mẫu và huấn luyện dé đưa ra quan điểm đánh giá cho một

văn bản đầu vào mới Luận văn này tập trung vào dự đoán quan điểm sử dụng các mô hìnhhồi quy [4] trong học máy

1.3 Các nghiên cứu liên quan

Miền tài chính là một lĩnh vực khá đặc thù, phân tích quan điểm trên miền tài chínhthường gặp nhiều khó khăn và thách thức Ở Việt Nam có khá ít các nghiên cứu và đề tài thựchiện liên quan đến miễn tài chính

Trên thé giới có tương đối nhiều các nghiên cứu liên quan đến lĩnh vực phân tích quanđiểm trên miền tài chính, trong đó phải kê đến SemEval — viết tắt từ Semantic Evaluation, làmột hội thảo quốc tế về đánh giá ngữ nghĩa được tài trợ bởi SIGLEX và Microsoft Luận vănnày cũng dựa trên một nhiệm vụ được đưa ra tại SemEval-2017 và tập trung vào phần 2 của

nhiệm vụ 5 mang tên Fine-Grained Sentiment Analysis on Financial Microblogs and New.

Nhiệm vu có 32 nhóm nghiên cứu đăng ky tham gia, trong đó với phan 2 có 29 nhóm nghiên

cứu tham gia.

Tổng hợp từ các kết quả được gửi lên bởi các nhóm thực hiện, một số kỹ thuật và công

cụ thường được các nhóm nghiên cứu sử dụng:

- Quá trình tiễn xử lý dữ liệu: Một số các phương pháp chủ yếu như: Loại bỏ số,

ký tự đặc biệt, đường dẫn, thay thế tên công ty, loại bỏ từ dừng (stopwords - từ không có ýnghĩa), kỹ thuật chuẩn hóa từ về dạng nguyên thé (tokenization và lemmatization), chuyênđổi chữ thường và công cụ thường được dùng là NTLK, Stanford NER

- Ky thuật: Các kỹ thuật được các nhóm nghiên cứu sử dụng như:

©_ Kỹ thuật lai Hoc máy (Machine Learning) và kỹ thuật từ điển (Lexicon)

Trang 7

©_ Kỹ thuật lai Học sâu (Deep Learning) và kỹ thuật từ điển (Lexicon)

o Kỹ thuật lai giữa Học sâu (Deep Learning) và bản thể hoc (Ontology)

©_ Kỹ thuật học máy

©_ Kỹ thuật học sâu

- Công cụ: Scikit-learn, Word2vec, Weka, GloVe, LIBSVM, LIBLINEAR, Keras,

XGBoost, Gensim, TensorFlow.

1.4 Kết luận

Trong chương này đã trình bày được tổng quan về bài toán phân tích quan điểm nói

chung và bài toán phân tích quan điểm trên bản tin tài chính nói riêng Nội dung chương cũng

thé hiện được vai trò và ý nghĩa của việc sử dụng các kỹ thuật, công nghệ trong việc phântích, đánh giá quan điểm của con người Ngoài ra chương này còn đưa ra các nghiên cứu liênquan trong lĩnh vực phân tích quan diém cả trong nước và trên thế giới

Trang 8

CHƯƠNG 2: PHƯƠNG PHÁP XỬ LÝ BÀI TOÁN PHAN TÍCH

QUAN DIEM TREN BẢN TIN TÀI CHÍNH

2.1 Giới thiệu chung về phương pháp

Trong lĩnh vực học máy, với bài toán phân loại, phân cụm hay bài toán hồi quy, thông

thường sẽ được chia làm 2 giai đoạn xử lý:

Giai đoạn huấn luyện: là giai đoạn sử dụng tập đữ liệu huấn luyện thu thập được để

xây dựng ra một mô hình học máy Với giai đoạn này:

Đầu vào: Là tập dữ liệu huấn luyện thô ban đầu + kết quả đầu ra cho dit liệu Dữ liệu

này thường được thu thập từ thực tế hoặc các bài đo, bài thí nghiệm

Đầu ra: Là một mô hình sử dụng thuật toán phân lớp, phân cụm hoặc hôi quy trên tập

dữ liệu huấn luyện

Giai đoạn du đoán: là giai đoạn sử dụng mô hình đã đào tao ở giai đoạn trên dé dự

đoán kêt quả dau ra cho một dữ liệu mới chưa biệt.

Giai đoạn huan luyện

Dữ liệu Trích xuất Lựa chọn

cần dự đoán đặc trưng đặc trưng

Hình 2.1 Phương pháp chung cho bài toán học máy

Với bài toán phân tích quan điểm trên bản tin tài chính, phương pháp xây dựng sẽ

được tiên hành qua các bước sau:

Trang 9

Hình 2.2 Các bước quy trình xử lý bài toán phân tích quan điểm

- Tiển xử lý: Tiền xử ly văn bản thô ban đầu như loại bỏ các từ không quan trọng,chuẩn hóa văn bản, chuyên chữ hoa, thường

- Vector hóa văn ban: Chuyên văn ban dang text thành các vector dang số dé các

thuật toán có thé hiểu

- Huấn luyện mô hình: Xây dựng mô hình sử dụng vector đầu vào và thuật toán tương

ứng.

- Đánh giá: Đánh gia độ chính xác, tính hiệu qua của mô hình Sau khi đánh giá có

thé hiệu chỉnh lại tham số, cách thức dé huấn luyện lại mô hình tốt nhất có thé

- Dự đoán: Sử dụng mô hình đã huấn luyện để dự đoán kết quả cho văn bản đầu vào

mới.

2.2 Các đặc trưng ngôn ngữ

Trong quá trình làm việc với các bài toán học máy thực tế, cơ bản chúng ta làm việcvới các dữ liệu đầu vào là các dit liệu thô chưa qua chỉnh sửa, chọn lọc Đề các thuật toán có

thé hiểu được cần phải tìm một phép biến đổi dé loại bỏ những dữ liệu nhiễu, chuyên dữ liệu

thô thành một dạng dữ liệu chuẩn Dữ liệu chuẩn mới này phải đảm bảo giữ được những thông

tin đặc trưng cho dữ liệu thô ban đầu Tùy vào từng bài toán, ta cần thiét kế những phép biến

đối để có những đặc trưng phù hợp Quá trình quan trọng này được gọi là trích chon đặc trưng

(Feature Extraction [9]).

Sau khi đã trích chọn được các đặc trưng từ nguồn dữ liệu thô ban đầu, ta có được mộttập các đặc trưng mang thông tin đại diện cho dt liệu Tuy nhiên trong thực tế, sỐ lượng đặctrưng có thé rất lớn do đó yêu cầu phải chọn ra một tập nhỏ các đặc trưng phù hợp với bàitoán cụ thê Kỹ thuật lựa chọn đặc trưng như vậy được gọi là Feature Selection [9]

Trong luận văn nay sử dụng 2 kỹ thuật trong việc biến đổi dữ liệu dang văn bản banđầu về dạng vector đặc trưng: TF-IDF và N-Gram

2.2.1 TF-IDF

Trong quá trình xử ly, các văn bản được biéu diễn dưới dạng vector với các chiều là

các trọng số của các từ Ở đây, luận văn bỏ qua thứ tự giữa các từ cũng như các van đề ngữ

pháp khác Dưới đây là phương pháp xác định trọng số từ:

Trang 10

e N1asé lượng tai liệu trong tập dữ liệu huấn luyện.

e DF là số tài liệu mà một từ xuất hiện trong đó

- TF-IDF: Trọng số của từ là tích của tần suất từ TF và tần suất tài liệu nghịch dao

IDF của từ đó và được xác định bằng công thức:

N-gram là một chuỗi gồm n ký tự hoặc từ được trích xuất ra từ một văn bản N-gram

có thé được phân chia thành hai loại: ký tự và từ Một ký tự n-gram là một tập của n ký tựliên tiếp được trích xuất từ một từ Tương tự một từ n-gram là một tập n từ liên tiếp được tríchxuất từ một câu Các giá trị của n có thé là 1,2,3, tương ứng với unigram, bigram,trigram, Tùy vào bài toán cụ thể mà có thể lựa chọn giá trị n sao cho đạt được kết quả cao

- Unigram: sentiment, analysis, on, financial, news, headline, using, statistic, models.

- Bigram: sentiment analysis, analysis on, on financial, financial news, news headline, headline using, using statistic, statistic models.

- Trigram: sentiment analysis on, analysis on financial, on financial news, financial

news headline, news headline using, headline using statistic, using statistic models.

Trang 11

2.3 Các mô hình, thuật toán hồi quy

2.3.1 Mô hình hồi quy tuyến tính — Linear Regression

Tuyến tính hiéu một cách đơn giản là thăng, phẳng Trong không gian hai chiều, mộthàm số được gọi là tuyến tính nêu đồ thị của nó có dạng một đường thăng Trong không gian

ba chiều, một hàm số được gọi là tuyến tính nếu đồ thị của nó có dạng một mdt phẳng Còn

trong một không gian nhiều hơn 3 chiều, một khái niệm khác ra đời được gọi là siêu mặtphẳng (hyperplane)

Trước tiên, luận văn sẽ bắt đầu với mô hình hồi quy tuyến tính đơn giản (Simple LinearRegression — SLR), trong đó chỉ có 2 biến Mô hình được phát biéu như sau:

Y: Biến phụ thuộc (còn gọi là biến phản hồi, biến phụ thuộc, biến kết qua, ) và Yphải là biến liên tục

X: Biến độc lập (còn gọi là biến tién tổ, biến độc lập, ) và X có thé là bién liên tục

hoặc biến không liên tục (biến phân nhóm)

Khi đó:

Y=at+pxXt+e (2.1)

Trong đó:

- a: Giá trị khởi đầu của Ÿ khi X = 0 (intercept)

- 8: Độ dốc (gradient hay slope)-_£: Sai số ngẫu nhiên, thé hiện những giao động, khác biệt của Y trong giá trị của X

Mô hình phải tuân theo một số giả định sau:

- _ Mối liên quan giữa X và Y phải là tuyến tính về tham số

- X được đo chính xác (giá trị có định), không có sai số ngẫu nhiên Tuy nhiên trong

thực tế bao giờ cũng có sai số ngẫu nhiên

- Giá trị của Y độc lập nhau, tức là các giá trị y; không liên quan đến nhau

- Sai số ngay nhiên e phải:

o Phân bố chuẩn

o Có giá trị trung bình = 0.

o Có phương sai bat biến

Nhiệm vụ đặt ra là ước lượng giá trị 2 tham số ava B Vậy tiêu chuẩn dé tìm ra ước

số của ø va Ø là tìm ra công thức dé tính ước số của a va B sao cho tổng d? là nhỏ nhất

Tổng quát hóa, ta có mô hình hồi quy tuyến tính đa biến như sau:

Y=ưzư+,X; + f;X; + -+ ByXn + € (2.2)

Trang 12

Uu điểm:

- _ Mô hình đơn giản, dễ hiểu, dé sử dụng nhưng hiệu qua trong việc tiên lượng cho

giá trị biến đầu ra nếu mối quan hệ giữa các biến là tuyến tính

Nhược điễm:

- LR rất nhạy cảm với nhiễu, chi cần một vài dữ liệu nhiễu có thé làm cho kết quả

sai lệch đi rất nhiều Chính vì vậy, trước khi áp dụng LR, cần thiết phải loại bỏ các

nhiễu.

- LR rất khó để biểu diễn được các mô hình phức tạp trong thực tế hoặc trường hợp

các biến không phải là mối quan hệ tuyến tính

2.3.2 Mô hình hồi quy vector hỗ trợ — Support Vector Regression

Support Vector Regression — SVR dựa trên chủ yếu các nguyên tắc và nền tảng toánhọc của SVM do đó luận văn sẽ trình bày về thuật toán SVM trước

Mô hình được phát biểu như sau:

Cho tập mẫu huấn luyện D = {(%¡, y¡), (xạ, y;), , Xn» y„)} trong đó:

- x; là vector đầu vào đa chiều trong miền số thực R

- _ yị: là giá trị đầu ra được gán nhãn, y; € {1,—1} tương ứng 1 là tích cực, -1 là tiêu

Tiêu đề	Phân tích quan điểm trên bản tin tài chính sử dụng học máy thống kê
Tác giả	Cao Quốc Kiên
Người hướng dẫn	TS. Ngô Xuân Bách, PGS.TS. Trần Đình Quế, PGS.TS. Đỗ Trung Tuấn
Trường học	Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành	Khoa học máy tính
Thể loại	Luận văn thạc sĩ kỹ thuật
Năm xuất bản	2019
Thành phố	Hà Nội

Định dạng
Số trang	24
Dung lượng	6,15 MB