1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng Dụng Kĩ Thuật Học Sâu Cho Phân Tích Sắc Thái Tình Cảm Trong Văn Bản Tài Chính Chứng Khoán.pdf

79 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng Kỹ thuật Học Sâu cho Phân Tích Sắc Thái Tình Cảm trong Văn Bản Tài Chính Chứng Khoán
Tác giả Nguyễn Duy Linh
Người hướng dẫn TS. Vũ Tiến Dũng
Trường học Đại học Quốc gia Hà Nội
Chuyên ngành Khoa học dữ liệu
Thể loại Luận văn Thạc sĩ
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 79
Dung lượng 1,52 MB

Nội dung

Một số lượng lớn nghiên cứu trong lĩnh vực dự đoán diễn biến giá cổ phiếuđược thực hiện đã chỉ ra rằng dữ liệu thu được từ các nguồn văn bản liên quan đến thịtrường chứng khoán có thể đươc

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

NGUYỄN DUY LINH

ỨNG DỤNG KỸ THUẬT HỌC SÂUCHO PHÂN TÍCH SẮC THÁI TÌNH CẢMTRONG VĂN BẢN TÀI CHÍNH CHỨNG KHOÁN

LUẬN VĂN THẠC SĨ

Ngành: Khoa học dữ liệuHà Nội - 2023

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

ỨNG DỤNG KỸ THUẬT HỌC SÂUCHO PHÂN TÍCH SẮC THÁI TÌNH CẢMTRONG VĂN BẢN TÀI CHÍNH CHỨNG KHOÁN

Trang 3

LỜI CAM ĐOAN

Em xin cam đoan rằng luận văn với đề tài Ứng dụng kỹ thuật học sâu cho phân tíchsắc thái tình cảm trong văn bản tài chính chứng khoán là nghiên cứu của riêng bản thândưới sự hướng dẫn của TS Vũ Tiến Dũng Đồng thời những dữ liệu được cung cấp từbáo cáo đều được lấy từ nguồn công ty cổ phần FiinGroup đã được xin phép và đâylà kết quả nghiên cứu hoàn toàn trung thực, không sao chép từ bất kì một công trìnhnghiên cứu khác nào Những tài liệu trích dẫn đều đã được ghi rõ nguồn gốc

Em xin chịu hoàn toàn trách nhiệm trước nhà trường nếu trường hợp phát hiện rabất cứ sai phạm hay vấn đề sao chép nào trong luận văn này

Hà Nội, ngày 21 tháng 12 năm 2023

Học viên

Nguyễn Duy Linh

Trang 4

LỜI CẢM ƠN

Trong quá trình nghiên cứu và hoàn thiện đề tài, luận văn đã nhận được rất nhiều sựquan tâm, hướng dẫn cũng như tạo mọi điều kiện từ nhà trường, thầy cô, bạn bè và đơnvị công tác Em xin gửi lời cảm ơn đến trường Đại học Khoa học Tự nhiên, Khoa Toán -Cơ - Tin học cùng thầy cô các bộ môn trong trương trình giảng dạy cao học ngành Khoahọc dữ liệu đã luôn tận tình giảng dạy và hướng dẫn em trong suốt quá trình học tập vànghiên cứu tại trường Em xin gửi lời cảm ơn đặc biệt đến thầy TS Vũ Tiến Dũng đãluôn nhiệt tình hướng dẫn em trong suốt quá trình thực hiện đề tài nghiên cứu để em cóthể hoàn thiện luận văn một cách tốt nhất Em cũng xin gửi lời cảm ơn tới công ty cổphần FiinGroup là đơn vị hỗ trợ dữ liệu cho em thực hiện đề tài nghiên cứu này cũngnhư có những tư vấn cho em các kiến thức chuyên môn sâu trên thị trường chứng khoán.Trong quá trình thực hiện nghiên cứu, em đã nỗ lực hoàn thiện tốt nhất cho đề tài,tuy nhiên vẫn không tránh khỏi những thiếu sót Em xin mong nhận được sự góp ý từphía thầy cô và hội đồng bảo vệ để đề tài nghiên cứ được hoàn thiện hơn

Em xin chân thành cảm ơn!

Trang 5

1.1 Đặt vấn đề 14

1.2 Cơ sở khoa học và tính thực tiễn 15

1.3 Mục tiêu và phương pháp nghiên cứu 16

1.4 Các nghiên cứu liên quan 17

1.5 Bài toán phân tích cảm xúc với học sâu 20

Trang 6

1.5.1 Phân tích cảm xúc trong học sâu là gì? 20

1.5.2 Ứng dụng phân tích cảm xúc trên thị trường tài chính chứng khoán 201.5.3 Các phương pháp xử lý phân tích cảm xúc trong trên thị trường tàichính chứng khoán 21

2 Cơ sở lý thuyết 242.1 Tách từ (Tokenization) 24

2.2 Trích chọn đặc trưng (Feature Extraction) 27

2.3 Các mô hình học sâu trong phân tích cảm xúc 34

2.3.1 Mạng Nơ-ron tích chập (Convolutional Neural Networks - CNN) 34

2.3.2 Mạng Nơ-ron hồi quy (Recurrent Neural Networks - RNN) 39

2.3.3 Mô hình BERT và PhoBERT 47

2.4 Đo lường hiệu suất 62

2.4.1 Phương pháp tối ưu và hàm mất mát (Loss Function) 63

Trang 7

4.1 Kết luận 744.2 Hướng phát triển tiếp theo 75

Trang 8

BẢNG KÝ HIỆU CÁC TỪ VIẾT TẮT

STT Ký hiệu Tiếng Anh Tiếng Việt1 DL Deep Learning Học sâu2 NB Naive Bayes Phân loại dựa trên xác suất

Bayes3 SVM Support Vector Machine Phân loại SVM4 NLP Natural Language Processing Phương pháp xử lý ngôn ngữ

tự nhiên5 AI Artificial Intelligence Trí tuệ nhân tạo6 RNN Recurrent Neural Network Mạng nơ ron hồi quy7 CNN Convolution Neural Network Mạng nơ ron tích chập8 LSTM Long Short-Term Memory Mạng bộ nhớ dài ngắn9 BiLSTM Bidirectional Long Short-Term

Memory

Mạng bộ nhớ dài ngắn haichiều

10 BERT Bidirectional Encoder

Representations fromTransformers

Mô hình biểu diễn mã hóa 2chiều dựa trên biến đổi

11 GPU Graphic Proccessing Unit Bộ xử lý đồ họa12 TPU Tensor Processing Unit Bộ xử lý Tensor13 MLP Multi-Layer Perceptron Mạng nơron truyền thẳng

nhiều lớp14 RF Random Fores Mô hình rừng cây ngẫu nhiên15 HAN Hierarchical attention network Mô hình cấu trúc phân cấp

Bảng 1: Ký hiệu các chữ viết tắt

Trang 9

khớp với tập huấn luyện

hình huấn luyện sẵn

Bảng 2: Chú giải các thuật ngữ

Trang 10

Danh sách bảng

1 Ký hiệu các chữ viết tắt 8

2 Chú giải các thuật ngữ 9

3.1 Bảng danh sách top 20 nguồn thu thập dữ liệu 67

3.2 Bảng mô tả trường dữ liệu 68

3.3 Bảng mô tả nhãn trong bộ dữ liệu 69

3.4 Các tham số khởi tạo mô hình 72

3.5 So sánh kết quả thực hiện các mô hình 73

Trang 11

Danh sách hình vẽ

2.1 Mô hình mô phỏng kiến trúc word2vec (Mikolov et al., 2013) 34

2.2 Ví dụ mô hình mô phỏng mạng CNN trong NLP 35

2.3 Cách thực hiện nhân lớp tích chập với bộ lọc 37

2.4 Minh họa mô hình mạng RNN 40

2.5 Minh họa một node trong mô hình mạng RNN 41

2.6 Kiến trúc module trong mạng LSTM 4 tầng ẩn 43

2.7 Sơ đồ cấu trúc bên trong một ô nhớ của mạng LSTM 44

2.8 Minh họa mô hình LSTM và BiLSTMM 46

2.9 Kiến trúc tổng quan BERT 48

2.10 Kiến trúc tổng quan TransformerM 49

2.11 Kiến trúc encoder trong Transformer 50

2.12 Minh họa việc tính toán trong seft attention 51

2.13 Kiến trúc decoder trong Transformer 53

2.14 Mô phỏng Multi-Head Attention 55

3.1 Minh họa bộ dữ liệu sử dụng trong luận văn 68

3.2 Quy trình gán nhãn bộ dữ liệu 69

3.3 Minh họa tách từ sử dụng VnCoreNLP 71

Trang 12

3.4 Bảng kết quả 10 epochs đầu tiên của các mô hình 72

Trang 13

LỜI NÓI ĐẦU

Dự báo diễn biến giá trên thị trường chứng khoán luôn là đề tài được thảo luận sôinổi trong cộng đồng đầu tư và cũng là đề tài vô cùng thú vị trong công cuộc nghiên cứukhoa học Một số lượng lớn nghiên cứu trong lĩnh vực dự đoán diễn biến giá cổ phiếuđược thực hiện đã chỉ ra rằng dữ liệu thu được từ các nguồn văn bản liên quan đến thịtrường chứng khoán có thể được sử dụng một cách thành công cho việc dự báo này Trongbài nghiên cứu trình bày dưới đây, em đã sử dụng dữ liệu trong gần một năm kết hợpviệc sử dụng các mô hình học máy trong việc phát hiện cảm xúc tin tức trên thị trườngtài chính, qua đó có thể nhận định xu hướng cũng như rủi ro ngắn hạn trên thị trườngchứng khoán Việt Nam Ngoài ra, nghiên cứu cũng đưa ra việc so sánh hiệu suất và lựachọn mô hình khác nhau để thu được kết quả tốt nhất đối với bài toán phân loại cảm xúcvăn bản tiếng Việt trong lĩnh vực tài chính Kết quả bài nghiên cứu chỉ ra rằng việc sửdụng các mô hình học sâu và mô hình pre-trained có thể cải thiện đáng kể độ chính xácvà hiệu suất khi so sánh với các mô hình cơ sở

Cấu trúc luận vănLuận văn được tổ chức gồm bốn chương:• Chương 1: Giới thiệu đề tài và các nghiên cứu liên quan,

• Chương 2: Cơ sở lý thuyết: Trình bày tổng quan các kiến trúc, kỹ thuật liên quantrong bài toán phân loại văn bản, các mô hình CNN, BiLSTM, PhoBERT

• Chương 3: Bài toán thực tiễn: Áp dụng các mô hình vào bài toán thực tế Đưa rakết quả và đánh giá kết quả trên bộ dữ liệu thực tế ,

• Chương 4: Kết luận và hướng phát triển

Trang 14

Chương 1Giới thiệu đề tài

Chương mở đầu tập trung vào việc đưa ra vấn đề gặp phải trong thực tế, qua đó phátbiểu bài toán cần thực hiện trong đề tài luận văn Đồng thời cũng nêu lên cơ sở khoa học,mục tiêu và phương pháp nghiên cứu áp dụng trong luận văn

Thị trường chứng khoán luôn đóng vai trò quan trọng trong nền kinh tế trong mỗiquốc gia nói chung và đang dần trở thành kênh đầu tư hấp dẫn đối với các nhà đầu tư tàichính nói riêng Việc thị trường chứng khoán Việt Nam phát triển mạnh mẽ trong nhữngnăm gần đây đã thu hút sự chú ý của nhiều nhà đầu tư mới tham gia vào thị trường Việctìm ra sự vận động của thị trường luôn là bài toán được nhiều chuyên gia cùng giới đầutư quan tâm trong suốt những năm qua

Tâm lý thị trường đề cập đến thái độ tổng thể của các nhà đầu tư đối với một thịtrường tài chính, chứng khoán Cụ thể đó là cảm giác, nhịp điệu của thị trường, hoặc tâmlý đám đông của nó, được thể hiện thông qua vận động giá chứng khoán giao dịch trênthị trường Nói một cách rộng hơn, thị trường tăng cho thấy tâm lý tích cực kỳ vọng chotương lai, trong khi thị trường giảm cho thấy tâm lý tiêu cực về kỳ vọng tương lai

Trang 15

Ta có thể thấy vận động trên thị trường chứng khoán phụ thuộc phần lớn vào tâm lýkỳ vọng của nhà đầu tư và một trong các yếu tố ảnh hưởng lớn đến tâm lý đó là các tintức, sự kiện kinh tế bao gồm:

• Thông tin kinh tế vĩ mô : lãi suất lạm phát, tốc độ tăng trưởng của nền kinh tế,chính sách kinh tế

• Thông tin doanh nghiệp: kết quả kinh doanh, chi trả cổ tức, mở rộng/thu hẹp sảnxuất,

• Thông tin xã hội: thông tin dịch bệnh covid, cách ly xã hội, thiên tai, giá hàng hóadịch vụ, giá nông sản, xăng dầu

Vì vậy việc phân tích sắc thái trong các văn bản liên quan tin tức trên thị trườngchứng khoán hoàn toàn có thể hỗ trợ tốt cho việc dự báo tâm lý nhà đầu tư, qua đó nắmbắt xu thế thị trường

Sự bùng nổ của công nghệ và khoa học dữ liệu đã hướng đến các nghiên cứu trên thịtrường chứng khoán thông qua các mô hình học máy dần trở nên phổ biến Các mô hìnhhọc sâu (Deep learning) ngày càng cho thấy sự hiệu quả trong các bài toán về phân loạivăn bản, cùng với đó là sự ra đời các mô hình pre-trained và sự hỗ trợ bởi thiết bị phầncứng (GPU, TPU) đã thu được kết quả với độ chính xác cao trên các tập dữ liệu vô cùnglớn

Nhờ có việc tích lũy kinh nghiệm học tập và làm việc cùng dữ liệu tài chính, nhómnghiên cứu đã nhận thấy mối tương quan lớn giữa tâm lý trên thị trường chứng khoán và

Trang 16

việc phân tích sắc thái tin tức Vì vậy nhóm nghiên cứu đã quyết định thực hiện đề tàinày với mong muốn tìm ra phương pháp hiệu quả nhất trong việc phân tích tâm lý trênthị trường chứng khoán và đóng góp nghiên cứu về các mô hình học máy trong bài toánphân tích phân tích cảm xúc tiếng Việt

Mục tiêu chung của nghiên cứu là đề xuất được mô hình cụ thể cho bài toán phântích cảm xúc ngôn ngữ tiếng Việt nói chung hiện nay và cụ thể cho bài toán dự báo xuhướng thị trường chứng khoán dựa trên các mô hình học máy Các mục tiêu cụ thể nhưsau:

• Áp dụng nhiều mô hình học sâu khác nhau cho bài phân tích cảm xúc tiếng Việt;

• Đánh giá được thực trạng việc sử dụng các mô hình học sâu trong tiếng Việt hiệnnay;

• Đề xuất được giải pháp tối ưu cho bài toán phân tích cảm xúc trong văn bản tiếngViệt,

• Áp dụng học sâu trong bài toán dự báo thị trường chứng khoán thông qua phântích xu hướng từ bộ dự liệu tin tức trên thị trường tài chính

Luận văn dựa trên 2 phương thức nghiên cứu chính:

• Phương thức lý thuyết: Nghiên cứu các tài liệu có liên quan đến các nội dung vềđặc trưng của ngôn ngữ tiếng Việt, biểu diễn và phân loại văn bản tiếng Việt, tríchchọn đặc trưng văn bản, các phương pháp học sâu sử dụng mạng nơ ron

Trang 17

• Phương thức thực nghiệm: Xây dựng và gán nhãn bộ dữ liệu sử dụng cho các môhình học máy Trên cơ sở lý thuyết các nghiên cứu liên quan, triển khai thực nghiệmviệc xây dựng và huấn luyện mô hình phân loại văn bản cho ngôn ngữ tiếng Việt.Đánh giá kết quả các mô hình và đưa ra các phương án đề xuất.

Ứng dụng học máy trong bài toán phân tích cảm xúc văn bản đã được áp dụng thànhcông vào những năm 90 của thế kỷ 20 [theo nghiên cứu của Joachims và Dumais vàonăm 1998] Đây là một trong những lĩnh vực nghiên cứu phát triển nhanh nhất trongngành khoa học máy tính Sự bùng nổ của phân tích cảm xúc trong văn bản diễn ra vàonhững năm 2004 tập chung vào việc phân tích các đánh giá sản phẩm qua các bài viết.Trong những năm gần đây các nghiên cứu đã chuyển sang các văn bản trên mạng xã hộinhư Twitter, facebook Nhiều chủ đề ngoài đánh giá sản phẩm như bầu cử, y học, chứngkhoán được mở rộng

Ứng dụng phân tích cảm xúc trong dự báo xu hướng thị trường chứng khoán tiếp tụclà một chủ đề được đông đảo các chuyên gia quan tâm nghiên cứu chúng ta có thể kểđến một vài nghiên cứu nổi bật trong nhứng năm gần đây như:

• "Stock market’s price movement prediction with LSTM neural networks"do Nelsonvà các cộng sự công bố vào cuối 2017 tập trung việc phân tích chỉ số kỹ thuật đượcxây dựng từ dữ liệu giá, khối lượng giao dịch (candlestick database) Thông quaso sánh mạng LSTM với các mô hình cơ bản như Multi-Layer Perceptron (MLP),Random Forest (RF), and a pseudo-random (PR), nhóm nghiên cứu đưa ra kết luậnmô hình LSTM giúp tăng độ chính xác và giảm thiểu rủi ro hơn so với các mô hình

Trang 18

còn lại.

• Năm 2018 Hu và nhóm nghiên cứu của mình đã sử dụng mô hình Hierarchicalattention network (HAN) trong đề tài "Listening to Chaotic Whispers: A DeepLearning Framework for News-oriented Stock Trend Prediction" Nhóm tác giả đãsử dụng bộ dữ liệu chứng khoán Trung Quốc bao gồm 2527 mã chứng khoán chính và425 250 tin tức online liên quan (chuỗi thời gian từ 2014-2017) Ý tưởng nghiên cứudựa trên 3 nguyên tắc: Sequential Context Dependency (tạm dịch là sự phụ thuộctheo tuần tự bối cảnh), Diverse Influence (sự ảnh hưởng đa dạng) và Effective andEfficient Learning (học hiệu quả và có ảnh hưởng) Nhờ vào khả năng ghi nhớ tuầntự, nhóm tác giả đã sử dụng mạng RNN cho việc đánh giá mức độ quan trọng củatin tức lên cổ phiếu với các tin tức gần Sau đó xử dụng mô hình HAN cho dự báoxu hướng cổ phiếu thông qua các tin tức liên quan

Đối với bài toán phân tích cảm xúc văn bản trong tiếng Việt, đã có nhiều bài viếtchuyên sâu, nghiên cứu chi tiết của các tác giả trong và ngoài nước về vấn đề này Cácbài nghiên cứu nói chung đã đề xuất các giải pháp khác nhau nhằm nâng cao chất lượng,trong đó bao gồm các giải pháp cải tiến mô hình và giải pháp cải tiến kho ngữ liệu phụcvụ việc học trong các mô hình học sâu Bên cạnh đó còn có nhiều thực nghiệm xây dựngbộ công cụ mã nguồn mở xử lý ngôn ngữ tiếng Việt như vn.vitk, pyvi hay gần đây nổi lênvới bộ thư viện Underthesea và Vncorenlp Một số bài nghiên cứu nổi bật có thể kể đếnnhư sau:

• SA2SL: From Aspect-Based Sentiment Analysis to Social Listening System forBusiness Intelligence (tạm dịch là SA2SL hệ thống phân tích cảm xúc dựa trên

Trang 19

lắng nghe phản hồi xã hội) của nhóm sinh viên đại học Công nghệ thông tin ĐHQGTP.Hồ Chí Minh được đăng tại hội nghị khoa học KSEM 2021 Nghiên cứu tập trungxây dựng bộ dữ liệu chuẩn gồm các ý kiến phản hồi của khách hàng về điện thoạithông minh trong tiếng Việt và sử dụng kiến trúc Bi-LSTM với word embeddingfastText cho bài toán phân tích cảm xúc thu được điểm F1 là 84.48% cho tác vụxác định khía cạnh và 63.06% cho tác vụ phát hiện cảm xúc.

• Fine-Tuning BERT for Sentiment Analysis of Vietnamese Reviews (tạm dịch làTinh chỉnh BERT trong phân tích cảm xúc nhận xét trong tiếng Việt) của nhómtác giả Nguyễn Quốc Thái và cộng sự đến từ ĐHQG TP Hồ Chí Minh được đăng tạiHội nghị phát triển khoa học quốc gia về khoa học máy tính (National Foundationfor Science and Technology Development Conference on Information and ComputerScience) Trong bài nghiên cứu, tác giả tập chung xử lý kiến trúc BERT thông quaviệc mã hóa bộ dữ nhận xét bằng tiếng Việt theo hai hướng: thứ nhất là chỉ sửdụng mã hóa [CLS] (sẽ được giải thích chi tiết ở phần sau) làm đầu vào cho tầngfeed-forwward của mạng nơ-ron, phương pháp thứ hai là sử dụng toàn bộ vectorđầu ra của BERT cho bài toán phân loại Kết quả chỉ ra rằng BERT thu được kếtquả tốt hơn so với các mô hình sử dụng Glove và FastText

Nhiều nghiên cứu khác cũng được thực hiện với các mục tiêu khác nhau, nhưng nhìnchung đều cho thấy kết quả được cải thiện qua việc thay đổi các cách thức học trên tậpdữ liệu, hay điều chỉnh các tham số của các mô hình khác nhau Các mô hình học sâucũng dần cho thấy khả năng vượt trội trong bài toán phân tích cảm xúc Bài nghiên cứusau đây sẽ đưa ra một cách nhìn đầy đủ nhất về các mô hình trong việc phân tích cảmxúc văn bản tiếng Việt

Trang 20

1.5Bài toán phân tích cảm xúc với học sâu

1.5.1Phân tích cảm xúc trong học sâu là gì?

Phân tích cảm xúc (Sentiment Analysis) trong học máy (Machine learning) là việc đolường cảm xúc trong thông điệp truyền tải từ câu văn (văn bản) theo thang điểm mặcđịnh trong hệ thống Thang điểm này có thể là giá trị từ 1 đến 5 hoặc các đánh giá: tíchcực, tiêu cực, trung tính Đây là bài toán nhỏ trong bài toán phân loại văn bản (textclassification) dựa vào kỹ thuật học có giám sát (Supervised learning), nó sử dụng cácthuật toán phức tạp để xử lý ngôn ngữ tự nhiên của con người (NLP)

Phân tích cảm xúc với học sâu là một phương pháp sử dụng các mô hình học máy đểxác định cảm xúc của văn bản Các mô hình học sâu có thể học được các mối quan hệphức tạp giữa các từ và ngữ cảnh, giúp cải thiện hiệu quả của phân tích cảm xúc so vớicác phương pháp truyền thống

Hiện nay, nhờ sự tiến bộ của các công nghệ thế hệ mới, cùng với lượng thông tin dữliệu dồi dào được thu thập, các thuật toán phân tích quan điểm ngày càng được nâng cấpvới độ chính xác cao, từ đó ứng dụng vào các sản phẩm thông minh hỗ trợ đắc lực việccải thiện chất lượng cuộc sống của con người

1.5.2Ứng dụng phân tích cảm xúc trên thị trường tài chính

chứng khoán

Thị trường tài chính chứng khoán là một thị trường phức tạp, nơi các nhà đầu tư đưara các quyết định dựa trên nhiều yếu tố, bao gồm các yếu tố kinh tế, chính trị và tâm lý.Tâm lý của các nhà đầu tư là một yếu tố quan trọng có thể ảnh hưởng đến giá cả của

Trang 21

các tài sản tài chính Phân tích cảm xúc có thể được sử dụng để hiểu tâm lý của các nhàđầu tư, từ đó đưa ra các quyết định đầu tư sáng suốt hơn Dưới đây là một số ứng dụngcủa phân tích cảm xúc trên thị trường tài chính chứng khoán:

• Dự đoán xu hướng thị trường: Phân tích cảm xúc có thể được sử dụng để dựđoán xu hướng thị trường Ví dụ, nếu phân tích cảm xúc cho thấy các nhà đầu tưđang trở nên tích cực hơn, điều này có thể là dấu hiệu cho thấy thị trường đangtrong xu hướng tăng

• Xác định các cơ hội đầu tư: Phân tích cảm xúc có thể được sử dụng để xác địnhcác cơ hội đầu tư Ví dụ, nếu phân tích cảm xúc cho thấy các nhà đầu tư đang trởnên tiêu cực đối với một cổ phiếu cụ thể, điều này có thể là dấu hiệu cho thấy cổphiếu đó đang bị định giá thấp

• Quản lý rủi ro: Phân tích cảm xúc có thể được sử dụng để quản lý rủi ro Ví dụ,nếu phân tích cảm xúc cho thấy các nhà đầu tư đang trở nên hoảng loạn, điều nàycó thể là dấu hiệu cho thấy thị trường đang trong giai đoạn nguy hiểm

1.5.3Các phương pháp xử lý phân tích cảm xúc trong trên thị

trường tài chính chứng khoán

Có nhiều cách tiếp cận khác nhau để xử lý việc phân tích cảm xúc trong trên thịtrường tài chính chứng khoán Tựu chung lại ta có thể chia thành một số loại chính nhưsau:

• Phân tích từ khóa: Phương pháp này sử dụng các từ khóa và cụm từ để xác địnhcảm xúc của văn bản Ví dụ, các từ như "vui mừng", "thất vọng"và "hoảng loạn"cóthể được sử dụng để xác định cảm xúc tích cực, tiêu cực và sợ hãi

Trang 22

• Phân tích ngữ cảnh: Phương pháp này xem xét ngữ cảnh của các từ trong vănbản để xác định cảm xúc Ví dụ, từ "vui mừng"có thể có nghĩa tích cực hoặc tiêucực tùy thuộc vào ngữ cảnh của nó.

• Phân tích phân loại: Phương pháp này sử dụng các mô hình học máy để phânloại văn bản thành các loại cảm xúc Ví dụ, một mô hình học máy có thể được đàotạo để phân loại văn bản thành các loại tích cực, tiêu cực và trung lập

• Phân tích cảm xúc sâu: Phương pháp này sử dụng các mô hình học sâu để xácđịnh cảm xúc của văn bản Các mô hình học sâu có thể học được các mối quan hệphức tạp giữa các từ và ngữ cảnh, giúp cải thiện hiệu quả của phân tích cảm xúcso với các phương pháp truyền thống

Mỗi phương pháp đều có những ưu điểm và nhược điểm riêng Phương pháp phân tíchtừ khóa là phương pháp đơn giản nhất, nhưng nó có thể không chính xác cao Phươngpháp phân tích ngữ cảnh có thể chính xác cao hơn, nhưng nó đòi hỏi sự hiểu biết sâu sắcvề ngữ nghĩa của ngôn ngữ Phương pháp phân loại và phương pháp phân tích cảm xúcsâu có thể linh hoạt và chính xác, nhưng nó đòi hỏi một lượng lớn dữ liệu được gán nhãncảm xúc để đào tạo

Trong thực tế, các nhà nghiên cứu thường kết hợp nhiều phương pháp phân tích cảmxúc khác nhau để đạt được độ chính xác cao nhất

Một vấn đề quan trọng trong bài toán phân tích cảm xúc trong văn bản nói chung vàphân tích cảm xúc trên thị trường tài chính chứng khoán nói riêng là việc xác định từ(từ đơn/ từ ghép) và ngữ nghĩa văn bản Do vậy ta cần lượng lớn dữ liệu đầu vào để xâydựng một mô hình để hiểu được ý nghĩa của từ, từ đó hiểu được ý nghĩa của câu văn và

Trang 23

sau cùng là đoạn văn thông qua ngôn ngữ máy Một nguồn để thu thập dữ liệu văn bảncho phân tích cảm xúc trên thị trường tài chính chứng khoán bao gồm:

• Các bài báo và tin tức tài chính: Các bài báo và tin tức tài chính thường phảnánh tâm lý của các nhà đầu tư

• Các bài đăng trên mạng xã hội: Các bài đăng trên mạng xã hội của các nhàđầu tư có thể cung cấp thông tin chi tiết về cảm xúc của họ

• Các cuộc trò chuyện trong phòng chat: Các cuộc trò chuyện trong phòng chatcủa các nhà đầu tư có thể cung cấp thông tin chi tiết về cảm xúc của họ

Trong khuôn khổ của luận văn, nhóm nghiên cứu tập trung vào việc sử dụng tiêu đềcủa các bài báo và tin tức tài chính cho bài toán nhận diện cảm xúc thông qua việc ápdụng các mô hình học máy và bộ từ điển tiếng Việt VNcoreNLP được phát triển bởi độingũ VinAI

Trang 24

Chương 2Cơ sở lý thuyết

Trong những năm gần đây, các mô hình học sâu (DL) ngày càng quan trọng do đãchứng minh được thành công của chúng trong việc giải quyết các vấn đề học phức tạp.Các mô hình DL đã được áp dụng hiệu quả cho các nhiệm vụ xử lý ngôn ngữ tự nhiên(NLP) Chương này tập trung vào việc đưa ra các cơ sở lý thuyết từ việc xử lý từ trongcâu, văn bản cho đến việc phân loại văn bản cho bài toán phân tích cảm xúc Đồng thờicũng đưa ra các ưu nhược điểm của các mô hình học sâu CNN, RNN, LSTM, Bi-LSTMBERT, PhoBERT áp dụng trong việc phân tích cảm xúc văn bản

Để làm việc với một lượng lớn dữ liệu văn bản có sẵn, tiền xử lý văn bản (textpre-processing) là quá trình cần thiết giúp cho việc khai thác văn bản một cách tốt hơn.Quá trình này bao gồm nhiều bước khác nhau và một trong những bước đó là tách từ(hay còn gọi là Tokenization) Tách từ là một bước quan trọng nhất trong quá trình tiềnxử lý văn bản Cho dù đang làm việc với các kỹ thuật NLP truyền thống hay sử dụng cáckỹ thuật học sâu nâng cao thì vẫn không thể bỏ qua bước này

Các văn bản đều được cấu thành từ đơn vị cơ sở là từ và cụm từ do đó để có thể hiểu

Trang 25

được ý nghĩa của câu văn hay đoạn văn chúng ta cần hiểu được ý nghĩa từ toàn bộ cáctừ và cụm từ trong văn bản đó Tách từ hay Tokenization được hiểu đơn giản là một kỹthuật có nhiệm vụ tách cụm từ, câu, đoạn văn thành các đơn vị nhỏ hơn (thường làđơn vị cơ sở từ - tokens) trong các mô hình NLP Các từ trong văn bản sẽ được sử dụngđể tạo các bộ từ điển (Dictionary), các bộ từ điển này sau đó sẽ được sử dụng cho cáclần tách từ tiếp theo và ngày càng có nhiều từ được thêm vào bộ từ điển Mỗi tokens cóthể là bất cứ thứ gì – một từ (word), một từ phụ (sub-word) hoặc thậm chí là một kýtự (character) Các thuật toán khác nhau tuân theo các quy trình khác nhau trong việcthực hiện mã hóa Để hiểu rõ hơn về 3 cách chia tokens chúng ta sẽ lấy ví dụ câu sau:They admire her remarkable career.

• Mã hóa dựa trên từ (word-based tokenization algorithm): sẽ chia câu thành cáctừ: [“They”, “admire”, “her”, “remarkable”, "career."]

Đây là kĩ thuật tokenization được sử dụng phổ biến trong phân tích văn bản Nóchia một đoạn văn bản thành các từ (ví dụ tiếng Anh) hoặc âm tiết (ví dụ tiếngViệt) dựa trên dấu phân cách Dấu phân cách hay được dùng chính là dấu cách.Tuy nhiên, cũng có thể tách văn bản không theo dấu phân cách Ví dụ tách từ trongtiếng Việt vì một từ trong tiếng Việt có thể chứa 2 hoặc 3 âm tiết được nối với nhaubởi dấu cách

Hạn chế của kỹ thuật này là nó dẫn đến một kho ngữ liệu khổng lồ và một lượngtừ vựng lớn, khiến mô hình cồng kềnh hơn và đòi hỏi nhiều tài nguyên tính toánhơn Bên cạnh đó, một hạn chế nữa là liên quan đến các từ sai chính tả Nếu khongữ liệu có từ “knowledge” viết sai chính tả thành “knowldge”, mô hình sẽ gán tokenOOV (Out-of-Vocabulary) cho từ sau đó Do đó, để giải quyết tất cả những vấn đề

Trang 26

này, các nhà nghiên cứu đã đưa ra kỹ thuật mã hóa dựa trên ký tự.

• Mã hóa dựa trên ký tự (character-based tokenization algorithm): sẽ chia câuthành các ký tự, ở đây là từng chữ cái một: [“T”, "h", "e", "y" ]

Mã hóa dựa trên ký tự chia văn bản thô thành các ký tự riêng lẻ Logic đằng saumã hóa này là một ngôn ngữ có nhiều từ khác nhau nhưng có một số ký tự cố định.Điều này dẫn đến một lượng từ vựng rất nhỏ Ví dụ tiếng Anh có 256 ký tự khácnhau (chữ cái, số, ký tự đặc biệt) trong khi chứa gần 170.000 từ trong vốn từ vựng.Do đó, mã hóa dựa trên ký tự sẽ sử dụng ít token hơn so với mã hóa dựa trên từ.Một trong những lợi thế chính của mã hóa dựa trên ký tự là sẽ không có hoặc rất íttừ không xác định hoặc OOV Do đó, nó có thể biểu diễn các từ chưa biết (nhữngtừ không được nhìn thấy trong quá trình huấn luyện) bằng cách biểu diễn cho mỗiký tự Một ưu điểm khác là các từ sai chính tả có thể được viết đúng chính tả lại,thay vì có thể đánh dấu chúng là mã thông báo OOV và làm mất thông tin.Một ký tự thường không mang bất kỳ ý nghĩa hoặc thông tin nào như một từ Ngoàira, tuy kỹ thuật này giúp giảm kích thước từ vựng nhưng lại làm tăng độ dài chuỗitrong mã hóa dựa trên ký tự Mỗi từ được chia thành từng ký tự và do đó, chuỗimã hóa dài hơn nhiều so với văn bản thô ban đầu Vì vậy, có thể thấy, dù đã giảiquyết được rất nhiều thách thức mà mã hóa dựa trên từ gặp phải, mã hóa dựa trênký tự vẫn có một số vấn đề nhất định

• Mã hóa dựa trên từ phụ (subword-based tokenization algorithm): sẽ chia câuthành các từ khóa phụ: [“They”, “admire”, “her”, “remark", "able”, "career."]Đây là một giải pháp nằm giữa mã hóa dựa trên từ và ký tự Ý tưởng chính là giải

Trang 27

quyết đồng thời các vấn đề của mã hóa dựa trên từ (kích thước từ vựng rất lớn, cónhiều tokens OOV, sự khác biệt trong ý nghĩa của các từ rất giống nhau) và mãhóa dựa trên ký tự (chuỗi rất dài và token riêng lẻ ít ý nghĩa hơn).

Mã hóa dựa trên từ khóa phụ cho phép mô hình có kích thước từ vựng phù hợp vàcũng có thể học các biểu diễn độc lập theo ngữ cảnh có ý nghĩa Mô hình thậm chícó thể xử lý một từ mà nó chưa từng thấy trước đây vì sự phân tách có thể dẫnđến các từ phụ đã biết

Thực tế, các mô hình NLP sử dụng các phương pháp tách từ phù hợp theo từng ngônngữ Tuỳ thuộc vào từng bài toán, mà cùng một văn bản có thể được xử lý dưới các loạitokens khác nhau Mỗi token thường có tính duy nhất và được biểu diễn bằng một ID,các ID này là một cách mã hoá hay cách định danh token trên không gian số

Không giống trong tiếng Anh, các từ đều là các từ đơn (một âm tiết), việc tách từ chỉcần phân tách nhau bằng dấu cách thì trong tiếng Việt các từ có thể có nhiều âm tiết.Trải qua rất nhiều thời gian nghiên cứu thì VinAI đã đưa ra bộ từ điển cho tiếng ViệtVnCoreNLP được viết trên ngôn ngữ java Đây được coi như là cơ sở vô cùng tốt cho việcphát triển việc xử lý văn bản trong Tiếng Việt Ngoài ra còn có các bộ từ điển khác trongTiếng Việt như pyvivn và underthesea hỗ trợ cho việc thực hiện Tokenization

Trong thực tế, các thuật toán học máy (machine learning algorithm) không thể làmviệc trực tiếp với văn bản thô nên do vậy văn bản cần phải được chuyển đổi thành số.Việc chuyển đổi dữ liệu thô thành các đặc trưng dưới dạng số trong học máy trong khivẫn đảm bảo thông tin của tập dữ liệu được gọi là trích chọn đặc trưng

Trang 28

Feature Extraction hay còn được gọi với tên khác là Feature Engineering được hiểu làquá trình chuyển đổi dữ liệu thô thành các đặc tính (feature - characteristics, properties,attributes) giúp biểu diễn tập dữ liệu và tương thích với các mô hình học máy.

Trong văn bản việc trích chọn đặc trưng sẽ thực hiện chuyển câu văn thành các khônggian vector (Vector space model - VSM) Các không gian vector này sẽ được lựa chọn vàchuẩn hóa theo các phương pháp khác nhau để thu được các đặc trưng nhất của văn bảnsử dụng cho các mô hình học máy Sau đây là hai phương pháp đang được sử dụng phổbiến cho việc trích chọn đặc trưng trong văn bản

1 Phương pháp sử dụng túi từ (Bags of words)Bags of words (BoW) là một biểu diễn đơn giản hóa được sử dụng trong xử lý ngônngữ tự nhiên và truy vấn thông tin (IR) Trong mô hình này, một văn bản (chẳnghạn như một câu hoặc một tài liệu) được thể hiện dưới dạng túi (multiset) chứacác từ của nó, không quan tâm đến ngữ pháp và thậm chí trật tự từ nhưng vẫn giữtính đa dạng Mô hình túi từ cũng đã được sử dụng cho thị giác máy tính

Để hiểu rõ hơn về cách thức hoạt động của BoW thực hiện tạo vector đặc trưngchúng ta sẽ lấy ví dụ ở hai câu sau:

(1) Linh thích xem phim Hằng cũng thích xem phim.(2) Long cũng thích xem các trận bóng đá

Dựa trên hai văn bản này, ta có danh sách các từ được sử dụng, được gọi là từ điểnvới 10 từ như sau:["Linh", "thích", "xem", "phim", "Hằng""cũng","Long", "các","trận", "bóng", "đá"]

Với mỗi văn bản, ta sẽ tạo ra một vector đặc trưng có số chiều bằng 10, mỗi phần

Trang 29

tử đại diện cho số từ tương ứng xuất hiện trong văn bản đó.Văn bản (1) có 1 từ“Phúc”, 2 từ “thích”, 2 từ “xem”, 2 từ “phim”, nên ta thu được hai vector biểudiễn tương ứng như sau

(1) [1, 2, 2, 2, 1, 1, 0, 0, 0, 0, 0](2) [0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1]Một câu hỏi đặt ra là BoW sẽ xử lý như thế nào trong trường hợp chúng ta gặpmột số từ rất ít khi xuất hiện và không có sẵn trong bộ từ điển đang sử dụng? Mộtcách thường được sử dụng là ta sẽ mở rộng vector đặc trưng thêm 1 phần tử, gọi làphẩn tử <Unknown> Mọi từ không có trong từ điền đều được coi là <Unknown>.Ưu điểm của BoW là khá đơn giản, không phải tính toán gì phức tạp chỉ cần có bộtừ điển để xác định cá giá trị các phần tử trong vector Tuy nhiên BoW gặp phảimột số vấn đề sau:

• Dễ dàng nhận thấy nhược điểm lớn nhất của BoW là nó không thể hiện đượcthứ tự của các từ trong câu Cũng như sự liên kết giữa các câu, các đoạn văntrong văn bản Ví dụ, ba câu sau đây: “sao nó bảo không đến?”, “Nó bảo saokhông đến?”, "Nó bảo không đến sao?" và “Nó đến, sao không bảo?” khi đượctrích chọn đặc trưng bằng BoW sẽ cho ra các vector giống hệt nhau, nhưng ýnghĩa khác hẳn nhau

• Trong thực tế bộ tử điển thường rất lớn (có thể lên đến hàng triệu từ), như vậysẽ tạo ra các vector đặc trưng rất dài, ảnh hưởng đến khả năng tính toán củacác mô hinh học máy.Trường hợp này còn gây ra việc có rất nhiều từ trong bộtừ điển không có trong câu văn hoặc đoạn văn cần trích chọn đặc trưng thì sẽ

Trang 30

tạo ra các vector có nhiều phần tử bằng 0 Các vector có nhiều phần tử bằngkhông này được gọi là vector thưa (sparse vector) Để lưu trữ hiệu quả hơn, takhông lưu tất cả vector đó mà chỉ lưu các phần tử khác 0 Tuy nhiên nếu cónhiều hơn 50% các phần tử là khác 0 thì việc này lại gây ảnh hưởng lớn đếnchất lượng của việc trích chọn đặc trưng.

• Với trường hợp câu văn có chứa từ không có trong bộ từ điển nhưng từ nàyđôi khi lại mang những thông tin quan trọng thì BoW lại không thể hiện đượcý nghĩa của từ đó Phương pháp cải tiến khác giúp khắc phục nhược điểm nàychính là TF-IDF (Term Frequency-Inverse Document Frequency) có thể xácđịnh mức độ quan trọng của một từ trong một văn bản dựa trên toàn bộ vănbản trong bộ cơ sở dữ liệu

2 Phương pháp TF-IDF (Term Frequency - Inverse Document Frequency)TF-IDF (Term Frequency – Inverse Document Frequency) là một thuật toán thốngkê phổ biến trong xử lý ngôn ngữ tự nhiên (NLP) và khai thác dữ liệu văn bản Ýtưởng của kĩ thuật này là việc vector hóa dữ liệu văn bản dựa vào đánh giá tầmquan trọng của một từ trong một tài liệu cụ thể so với cả tập tài liệu Nói đơn giản,nó cho biết một từ xuất hiện thường xuyên như thế nào trong một tài liệu và hiếmgặp như thế nào trong toàn bộ tập tài liệu Giá trị cao thể hiện độ quan trọng caovà nó phụ thuộc vào số lần từ xuất hiện trong văn bản nhưng bù lại bởi tần suấtcủa từ đó trong tập dữ liệu

Giá trị tf–idf tăng tỉ lệ thuận với số lần xuất hiện của một từ trong tài liệu và đượcbù đắp bởi số lượng tài liệu trong kho ngữ liệu có chứa từ, giúp điều chỉnh thực tế là

Trang 31

một số từ xuất hiện nói chung thường xuyên hơn tf-idf là một trong những lược đồ(scheme) tính trọng số phổ biến nhất hiện nay Một cuộc khảo sát được thực hiệnvào năm 2015 cho thấy 83% các hệ thống khuyến nghị dựa trên văn bản (text-basedrecommender systems) trong các thư viện số sử dụng tf-idf

TF: Term Frequency (Tần suất xuất hiện của từ) là số lần từ xuất hiện trong vănbản Vì các văn bản có thể có độ dài ngắn khác nhau nên một số từ có thể xuất hiệnnhiều lần trong một văn bản dài hơn là một văn bản ngắn Như vậy, term frequencythường được chia cho độ dài văn bản( tổng số từ trong một văn bản)[14]

tf pt, dq “ f pt, dq

maxtf pw, dq : w P du (2.1)Trong đó:

tf(t, d): tần suất xuất hiện của từ t trong văn bản df(t, d): Số lần xuất hiện của từ t trong văn bản dmax(f(w, d) : w P d): Số lần xuất hiện của từ có số lần xuất hiện nhiều nhất trongvăn bản d

IDF: Inverse Document Frequency (Tần số nghịch của một từ trong tập văn bản),giúp đánh giá tầm quan trọng của một từ Khi tính toán TF , tất cả các từ được coinhư có độ quan trọng bằng nhau Nhưng một số từ như “is”, “of” và “that” thườngxuất hiện rất nhiều lần nhưng độ quan trọng là không cao Như thế chúng ta cầngiảm độ quan trọng của những từ này xuống

idf pt, Dq “ log |D|

|td P D : t P du| (2.2)

Trang 32

Trong đó:

• idfpt, Dq: giá trị idf của từ t trong tập văn bản• |D|: Tổng số văn bản trong tập D

• |td P D : t P du|: thể hiện số văn bản trong tập D có chứa từ t

Cụ thể, chúng ta có công thức tính tf-idf hoàn chỉnh như sau:

tf idf pt, d, Dq “ tf pt, dq ˆ idf pt, Dq (2.3)

Ưu điểm của TF-IDF:

• Dễ hiểu và dễ tính toán.• Hiệu quả trong việc đánh giá mức độ quan trọng của từ.• Cải thiện hiệu quả chất lượng mô hình của các ứng dụng NLP khác

Nhược điểm của TF-IDF:

• Nhạy cảm với chiều dài tài liệu.• Không thể xử lý các từ đồng nghĩa và từ trái nghĩa.• Có thể bị ảnh hưởng bởi các từ dừng (stop words)

3 Word2vecWord2vec là một mô hình đơn giản và nổi tiếng giúp tạo ra các biểu diễn của từtrong một không gian có số chiều thấp hơn nhiều lần so với số từ trong từ điển.Khác với TF-IDF là một phương pháp tiếp cận dưới góc nhìn thống kê thì word2vec

Trang 33

là một phương pháp học máy dựa trên mối quan hệ giữa các từ trong ngữ cảnh Ýtưởng cơ bản của word2vec có thể được gói gọn trong các ý sau:

• Hai từ xuất hiện trong những văn cảnh giống nhau thường có ý nghĩa gần vớinhau

• Ta có thể đoán được một từ nếu biết các từ xung quanh nó trong câu Ví dụ,với câu “Hà Nội là của Việt Nam” thì từ trong dấu ba chấm khả năng caolà “thủ đô” Với câu hoàn chỉnh “Hà Nội là thủ đô của Việt Nam”, mô hìnhword2vec sẽ xây dựng ra embeding của các từ sao cho xác suất để từ trong dấuba chấm là “thủ đô” là cao nhất

Như tên gọi của nó, ý tưởng là cũng biểu diễn từ dưới dạng vector, cố gắng giảmthiểu những hạn chế được phát hiện trong các nghiên cứu trước đó Các vectorđược tạo ra trong trường hợp này thường được gọi là embedding từ Tên gọi ’wordembedding’ xuất phát từ việc chúng ta đang nhúng các từ vào một không gian thấpchiều có giá trị thực Về cơ bản, word embedding được sử dụng để ánh xạ các từhoặc cụm từ từ một từ vựng sang một vector tương ứng của các số thực Những lợithế chính so với kỹ thuật BoW được mô tả trước đó bao gồm: giảm chiều, giúp biểudiễn hiệu quả hơn và tương đồng ngữ cảnh, làm cho biểu diễn giàu tính biểu cảmhơn

Có hai mô hình Word2vec phổ biến là CBOW (Continuous Bag of Words) vàSkip-gram

• CBOW là mô hình học dự đoán từ thứ hai trong một ngữ cảnh từ hai từ Vídụ, với ngữ cảnh "cây xanh", CBOW sẽ học dự đoán từ "xanh"

Trang 34

• Skip-gram là mô hình học dự đoán các từ xung quanh một từ Ví dụ, với từ"xanh", Skip-gram sẽ học dự đoán các từ "cây", "trời", "lá", v.v.

Hình 2.1: Mô hình mô phỏng kiến trúc word2vec (Mikolov et al., 2013)

Ưu điểm của word2vec:

• Có thể xử lý các từ đồng nghĩa và từ trái nghĩa.• Không bị ảnh hưởng bởi các từ dừng (stop words).• Có thể học được các mối quan hệ ngữ nghĩa phức tạp giữa các từ

Nhược điểm của word2vec:

• Khó hiểu và khó tính toán.• Yêu cầu nhiều dữ liệu để huấn luyện

2.3.1Mạng Nơ-ron tích chập (Convolutional Neural Networks

- CNN)

Trang 35

1 Cơ sở lý thuyếtMạng Nơ-ron tích chập viết tắt CNN (hay ConvNet) là một trong những mô hìnhhọc sâu tiên tiến, được sử dụng nhiều trong lĩnh vực thị giác máy tính (computervision) Tuy nhiên gần đây mạng CNN đã được áp dụng vào các vấn đề về NLP vàkết quả thu được rất khả quan Ý tưởng của mạng CNN là sử dụng các lớp tíchchập chồng lên nhau và sử dụng các hàm kích hoạt phi tuyến (nonlinear activation)như ReLU và tanh để kích hoạt các trọng số trong các node Mỗi một lớp sẽ chuẩnhóa thông tin qua các hàm kích hoạt để tạo ra các thông tin đầu vào cho lớp tiếptheo [5].

Hình 2.2: Ví dụ mô hình mô phỏng mạng CNN trong NLP

Cấu trúc cơ bản của CNN trong NLP gồm bốn thành phần chính: lớp tích chập(Convolution layer), lớp gộp (Pooling Layer), lớp kích hoạt (Relu layer) và lớp tổnghợp (Fully connected layer)

Trang 36

Lớp tích chập (Convolution layer)Tích chập là lớp đầu tiên và là lớp quan trọng nhất trong mô hình CNN thực hiệnviệc trích xuất các tính năng từ ma trận đầu vào bằng cách nhân các ma trận đầuvào với bộ lọc (filter).

Trong xử lý ảnh CNN giữ tính chất không gian 2 chiều theo góc quan sát của máytính Trong NLP thay vì có 2 chiều, văn bản chỉ có 1 chiều là chuỗi các từ liên tiếp.Ở ví dụ hình 2.2 ta có đầu vào là một câu gồm 7 từ bao gồm cả ký tự "!" Giả sửta gọi d là số chiều của vector từ (word vector) Ở đây ta chọn số chiều d=5 tức làmỗi từ sẽ là một vector kích thước 1×5 và kích thước ma trận của cả câu văn nàylà 7 x 5 Do vậy để có thể thực hiện phép nhân ma trân của câu văn với bộ lọc tacần số chiều của bộ lọc cho phù hợp với số chiều của từ Như vậy bộ lọc của chúngta nên có kích thước (k x 5)

Chúng ta có thể sử dụng nhiều các bộ lọc với nhiều kích thước khác nhau, mỗi bộlọc có thể có nhiều bộ lọc con, mỗi bộ lọc con thực hiện tích chập lần lượt với matrận ban đầu , quá trình này được gọi là khớp đặc trưng (feature mapping) Như ởví dụ minh họa chúng ta sử dụng 6 bộ lọc, các bộ lọc được sử dụng có kích thước2 ,3 và 4 Cách thức thực hiện như sau:

Với giá trị đầu tiên, bộ lọc kích thước 2 x 5 thực hiện nhân từng thành phần vớitừng thành phần tương ứng 2 hàng đầu tiên của văn bản (I, like)

Cụ thể: 0.51 “ 0.6 ˆ 0.2 ` 0.5 ˆ 0.1 ` 0.2 ˆ 0.2 ` ` 0.1 ˆ 0.1giá trị thứ hai 0.53 “ 0.8 ˆ 0.2 ` 0.9 ˆ 0.1 ` ` 0.7 ˆ 0.1Cứ như vậy, ma trận bộ lọc sẽ lùi xuống một dòng cho đến khi hết ma trận văn

Trang 37

Hình 2.3: Cách thực hiện nhân lớp tích chập với bộ lọcbản Như vậy ma trận kết quả sẽ có kích thước là 6 x 1

Lớp gộp (Pooling layer)Pooling layer là lớp cuối cùng và có tác dụng làm đơn giản các thông tin đầu ra Cónghĩa là, sau khi đã hoàn tất tính toán và quét qua các lớp thì đến pooling layer đểlược bớt các thông tin không cần thiết

Pooling Layer được biết đến với hai loại phổ biến là: Max Pooling và AveragePooling Trong ví dụ hình 2.2 ta đang sử dụng 1 max pooling có nghĩa là mỗi matrận đầu ra của quá trình khớp đặc trưng ta lấy 1 giá gị max

Lớp kích hoạt (Relu layer)Để bảo đảm giá trị của đặc trưng không bị tuyến tính, chúng ta sử dụng mộthàm kích hoạt (activation function) kết hợp với ma trận đặc trưng và bộ lọc đểthu được các vector đầu ra Hàm kích hoạt được sử dụng là các hàm phi tuyếnnhư hàm ReLU, Tanh, Sigmoid, Maxout, Leaky ReLU Hàm ReLU (Công thức:f pxq “ maxp0, xq) đang được sử dụng nhiều trong những năm gần đây khi huấn

Trang 38

luyện các mạng nơ-ron nhờ việc hội tụ và tính toán nhanh ReLU đơn giản là lọccác giá trị < 0.

Lớp tổng hợp (Fully connected layer)Fully Connected Layer sử dụng để đưa ra các kết quả Sau khi áp dụng 1-maxpooling, chúng ta đã có những vector có kích thước cố định là 1×1 của 6 thànhphần (bằng số bộ lọc) Vector cố định kích thước này sau đó được đưa vào một hàmsoftmax (lớp fully-connected) để giải quyết việc phân loại

Hơn nữa, các độ đo lỗi ở giai đoạn phân loại này sau đó sẽ được đưa lại vào cáctham số đóng vai trò là một phần của quá trình học để cải thiện độ chính xác chomô hình

2 Cơ chế hoạt độngChúng ta có thể hiếu đơn giản mạng CNN là tập hợp nhiều lớp tích chập chồnglên nhau, sử dụng các hàm kích hoạt để kích hoạt các trọng số trong các node Ởmỗi lớp CNN, sau khi được các hàm kích hoạt sẽ tạo ra các thông tin mang nhiềuý nghĩa hơn cho những lớp tiếp theo Mỗi Layer kết tiếp sẽ là kết quả tích chập từLayer trước đó nên chúng ta có được các kết nối cục bộ Thông qua quá trình huấnluyện mạng, các lớp Layer CNN tự động học các giá trị được thể hiện qua các lớpFilter Do vậy việc lựa chọn số lớp tích chập hay bộ lọc là vô cùng quan trọng trongmạng CNN

Một số lưu ý khi lựa chọn tham số cho CNN với bài toán NLP

• Số lớp tích chập: càng nhiều các lớp tích chập thì hiệu năng càng được cảithiện nhưng đồng nghĩa với sự giảm sút các đặc trưng của ma trân ban đầu

Trang 39

Các bài toán thông thường sử dụng 3 hoặc 4 lớp tích chập.• Filter size: thường filter theo size 5×k hoặc 3×k (k là số lượng chiều của vector

đầu vào phụ thuộc vào văn bản)• Pooling size: Đối với các bài toán trong NLP lớp gộp thông thường được sử

dụng là 1 max - pooling• Thực hiện nhiều lần việc train test để chọn ra được tham số (parameter) tốt

nhấtCNN thích hợp với các bài toán phân lớp như: Phân tích cảm xúc (SentimentAnalysis), phát hiện spam (Spam Detection) hay Phân loại chủ đề (TopicCategorization) Các phép toán tích chập và max-pooling làm thất thoát thôngtin về thứ tự cục bộ giữa các từ (local order of words) Do đó, các tác vụ liênquan đến gán nhãn cho chuỗi (sequence tagging) như gán nhãn từ loại (POSTagging), nhận dạng thực thể (Entity Extraction) sẽ không phù hợp khi sửdụng kiến trúc của CNN

2.3.2Mạng Nơ-ron hồi quy (Recurrent Neural Networks - RNN)

1 Mạng Nơ-ron truy hồiMạng nơ-ron hồi quy (Recurrent Neural Network - RNN) là một lớp của mạngnơ-ron nhân tạo, được xây dựng cho các bài toán với loại dữ liệu dạng chuỗi tuầntự Trong mạng RNN, trạng thái ẩn tại mỗi bước thời gian sẽ được tính toán dựavào dữ liệu đầu vào tại các bước thời gian tương ứng và các thông tin có được từthời gian trước của mạng

Ngày đăng: 21/09/2024, 09:15

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN