Chuyên đề thực tập tốt nghiệp: Phân tích cảm xúc của người dùng trên trang Thương mại điện tử Foody

Bài nghiên cứu sẽ ung dụng các kỹ thuật Natural Language Processing NLP-Xử lý ngôn ngữ tự nhiên phô biến trong thống kê, khai phá dữ liệu và học sâu, nhằm phân tích các đặc trưng của các

Trang 1

TRUONG ĐẠI HOC KINH TE QUOC DÂN

KHOA THONG KE

CHUYEN DE THUC TAP TOT NGHIEP

Người hướng dẫn : TS Chu Thị Bich NgọcSinh viên thực hiện: Trần Ngọc Kiên

Lớp : Thống kê kinh tế 61A

Hà Nội-2023

Trang 2

Phụ lục

LOT CAM ĐOANN 5< 2.922.449.434 0771130 E202431 E972434 E9rAa1pEetrsdeeotrrsdee 4

LOT CẢM ƠNN 5< HH7 07034077944 97744 07744090941 929410294 prree 5

PHAN MỞ ĐẦU onsssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssesessssnssssssseesssssesess 6

Li do Chon dé 81 ) 6

Mục dich nghiÊn CỨU d d G6 5É 2 9 9999 99.99 998990 99980400090980500808906 8 7

Đối tượng & Phạm vi nghiên €ứu -. e- 2s s2 ssssssssssessessezssessessesssrsee 7

Phương pháp nghiÊn CỨU << 6 9< 5 9 9.9 99.909.000.000 06 7

Cá 8n 0Š 8

CHƯƠNG 1: LÝ LUẬN CHUNG VE ĐÁNH GIA CUA NGƯỜI DUNG TREN TRANG THUONG MAI DIEN TU VA CAC PHUONG PHAP XU LY NGON NGU TỰ NHIÊN sssssssssssssssssssssssssscssssssssseosesssssssecsssssssssecssssssssssssssssssnsessssssssssesenseess 10

1.1 Tổng quan về van đề nghiên cứu . -°ssssssss+ssszssessessesszssscsee 101.2 Đề xuất mô hình nghiên €ứu << s°s£ s£ se s£Ss£Ss£ss£se se se =sessesses 111.3 Những vấn đề chung về Thương mại điện (ử - se sesssssessee 12

L.3.1 Thuong mai 1g nan 12 1.3.2 Sàn thương MAI iN ÍÚ: .c- 5= sọ 9 vế 12

1.3.3 Nhà cung cấp trên sàn thương mại điện tử . . . 12

1.3.4 Người dùng trên sàn thương mại điỆN fÚ: <<<<<<<<< 13 1.3.5 Đánh Sid của Hgười đÙNHg «<< i ng 13

1.3.6 Nguôn dữ liệu trén ÏTH€TH€I e2 555 ©se©cecreerserserxeerseree 131.4 Những van đề chung về các phương pháp phân loại văn bản 14

1.4.1 Khoa NC dit ÏÏỆU c- << < << < 1 ve 14

1.4.2 Xử lý ngôn NUH CW TIÏIÏÊNH c- G5 Ă << St xi 1 91 193 99v ve 14

1.4.3 Bài toán Phân loại VGN ĐẲIH Si 1 1 ng 15

CHƯƠNG 2: QUY TRÌNH ĐÁNH GIÁ CẢM XÚC NGƯỜI DÙNG TRÊN

TRANG THƯƠNG MẠI ĐIỆN TỬ FOODY - 25s csecssessessersscssss 31

2.1 Các đặc trưng cơ bản về bộ dữ liệu .s s-s<ssssssecssesssssesserserssss 31

2.1.1 Thu thập và xử lý dit HIỆU << nh nung, 31

2.1.2 Phân bô về điêm của người đÙng co s1 se 33

Trang 3

2.1.3 Gán nhấn Aik LGU .-œ- 5-5 + 5 2 5 9 90900100 090040.080000550 34

2.2 Tiền xử lý đữ liệu 2s +©es+Y+se©E+e©Eke©EAAEEAAEEEAACEEAAeErkserrkerrrssee 38

2.2.1 Làm sạch dit liệu van ÙỈH o << <5 5= s9 38

2.2.2 Phân COM (Ù 5 << HH TH cọ TH TH ch 40

2.2.3 Đám NGY 10 HG ÍT s- < ì H H H HHÌ h nư nHngugờ 40

2.2.4 Vector NOG VAN ĐẲH - << 5= << ch 42

2.3 Các chỉ số đánh giá hiệu quả mô hình . 2 2s se ssessessesssessese 43

2.3.1 DG CHINN XIỐC << HH HH T I gg 43

2.3.2 Precision về ÏÑ€C(ÏÏ, ós- << họ Ti 44

"NT nẽ nh nh 44

2.3.4 Đường cong ÌÑOC - s- << sọ TH it ườ 45

2.4 Kết quả mô hình phân lớp 2 nhãn . 2-2-5 sssssesseseese=sessessess 46

2.4.1 Kết quả ứng dụng mô hình hồi quy Logistic . - 462.4.2 Kết quả ứng dụng mô hình Naive Bayes -« <«- 47

2.4.3 Kết quả ứng dụng mô hình SVM scessssessessesssessessesssessesesssessesees 48

2.4.4 Kết quả ứng dụng mô hình phoBE.RT . . -s scss se 492.5 Kết quả mô hình phân lớp 3 nhãn 2-2-2 s sssessese=se=sssessese 50

2.5.1 Kết quả ứng dụng mô hình hồi quy Logisti - - 50

2.5.2 Kết quả ứng dụng mô hình Naive Bayes - s5: 52

2.5.3 Kết quả ứng dụng mô hình SVM .ve.essesessecssessesessesssessessesseessesees 33

2.5.4 Kết quả ứng dụng mô hình phoBERT . c5 ©-scse- 54

KET LUẬN VÀ KIÊN NGHỊ, 2< << ©se£EsetxsEssersetssersserssrrssersee 56

TÀI LIEU THAM KHHẢO - 2-2-2 22s s2£Ess£SseEsseEsserssersersserssersee 60

Trang 4

LỜI CAM ĐOAN

Tôi tên là Trần Ngọc Kiên, mã số sinh viên 11192625, khóa 61, giảng viênhướng dẫn là TS Chu Thị Bích Ngọc Tôi xin cam đoan đề án: “Phân tích cảm xúc của

người dùng trên trang Thương mại điện tử Foody.” là một công trình nghiên cứu độc

lập dưới sự hướng dẫn của giảng viên hướng dẫn TS Chu Thị Bích Ngọc, ngoài ra

không có bat cứ sự sao chép của người khác Nghiên cứu này là sản pham mà tôi đã nỗlực thực hiện trong quá trình học tập Các số liệu, kết quả trình bày trong báo cáo là

hoàn toàn trung thực Tôi xin chân thành cảm ơn.

Hà Nội, ngày 12 tháng 04 năm 2023

Người cam đoan

Trần Ngọc Kiên

Trang 5

LOI CAM ON

Em xin bày tỏ long biết ơn tới Trường Dai học Kinh tế Quốc dân, tập thé thay

cô ở Khoa Thống kê đã tạo điều kiện hỗ trợ, giúp đỡ em trong suốt quá trình học tập vànghiên cứu Đặc biệt em xin gừi lời cảm ơn sâu sắc tới TS Chu Thị Bích Ngọc đã tậntình hướng dẫn và có nhiều ý kiến đóng góp quý báu dé tác giả có thé hoàn thành chuyên

đề thực tập này

Một lần nữa, xin cảm ơn gia đình, bạn bè, thầy cô trong trường và khoa đã luônủng hộ, động viên và chia sẻ khó khăn, cảm ơn thầy cô đã luôn tận tình chỉ dạy và hỗtrợ em trong suốt quá trình học tập và nghiên cứu

Sinh viên thực hiện

Trần Ngọc Kiên

Trang 6

PHAN MỞ DAU

Li do chon dé tai

Phân tích dữ liệu của khách hang là một bai toán không hề xa lạ với những ngườilàm thống kê, những chuyên viên về xử lý dit liệu Việc thu thập được thông tin, phảnhồi của khách hàng là một lợi thé tuyệt vời của các doanh nghiệp, tô chức; giúp họ nambắt được điểm mạnh, điểm yếu trong sản phẩm và dịch vụ của mình Từ đó có thể nhanhchóng năm bắt được tâm lý và nhu cầu của khách hàng, mang đến cho họ trải nghiệm

về sản phẩm và dịch vụ tốt nhất

Ngày nay, với sự tiến bộ của khoa học máy tính và công nghệ lưu trữ hay tínhtoán, nguồn dữ liệu đã và đang trở nên đa dạng và phong phú hơn bao giờ hết Hiện

nay, dữ liệu thu thập được của khách hàng không chỉ có những thông tin thu thập được

từ bảng hỏi, những dữ liệu số điện thoại, email có được khi khách mua hàng; mà còn

có những dữ liệu phi cấu trúc như ảnh, âm thanh, hay những bình luận của khách hàng

trên các nền tảng xã hội Việc lưu trữ và phân tích các loại dữ liệu này mang lại thửthách lớn hơn các kiểu dữ liệu cau trúc cổ điển rất nhiều, có thé phải sử dụng đến những

phương pháp hiện đại như Big Data (Dữ liệu lớn), Machine Learning (Học máy), Deep

Learning (Học sâu) Tuy nhiên nếu có thê tận dụng được, các doanh nghiệp hay tổ chức

sẽ thu được những lợi ích rất lớn, có thé quảng bá nhiều các sản phâm có khả năng hợpvới nhu cầu của khách hàng hơn, từ đó tăng được lượng mua của khách hàng, mang lạinhiều doanh thu hơn cho tổ chức

Do đó, em quyết định chọn đề tài Phân tích cảm xúc của người dùng trên trangthương mại điện tử Foody Đề tài nghiên cứu dựa trên dữ liệu trên sàn thương mại điện

tử Foody, một trang chuyên về đặt đồ ăn Dữ liệu được thu thập bao gồm hơn 40000

bình luận dạng văn bản kèm theo đánh giá về sản phẩm mà khách đặt Bài nghiên cứu

sẽ ung dụng các kỹ thuật Natural Language Processing (NLP-Xử lý ngôn ngữ tự nhiên)

phô biến trong thống kê, khai phá dữ liệu và học sâu, nhằm phân tích các đặc trưng của

các bình luận này và đưa ra dự đoán bình luận đó là tích cực, trung lập hay tiêu cực,

nhằm đem lại trải nghiệm tốt hơn cho người dùng ở những lần đặt hàng sau

Trang 7

Mục đích nghiên cứu

Mục tiêu của nghiên cứu này nhằm phân tích các đánh giá của người dùng về

chất lượng đồ ăn trên trang thương mại điện tử Foody từ đó đưa ra dự đoán phù hợp về

cảm xúc của người dùng khi mua hàng cho cả những bình luận thiếu mất phần điểm

đánh giá Dựa trên kết quả đó đưa ra những giải pháp và kiến nghị nhăm thúc đây quảng

bá sản phẩm phù hợp hơn với người tiêu dùng

Mục đích cụ thể:

- Nghiên cứu va áp dụng các mô hình tiền xử ly văn ban nham làm sạch, phânđoạn từ trên nền tảng Foody

- Hệ thống hóa cơ sở ly thuyết về thương mại điện tử cũng như thống kê, ứng dụng

mô hình PhoBERT nhằm vector hoá văn bản kết hợp phân tích và các thuật toán khai

phá dữ liệu như SVM, hồi quy Logistics, Naive Bayes, nhằm dự đoán thái độ tích

cực hay tiêu cực của người dùng.

- Xây dung mô hình va dự đoán cam xúc của người dùng biêu hiện qua đánh giá.

- Đề xuất và kiến nghị nhằm thúc day lượng mua của người dùng trên Foody

Đối tượng & Phạm vỉ nghiên cứu

Cảm xúc của người dùng khi đặt mua sản phẩm trên Foody thông qua các bình luận

trong năm 2021-2022.

‹ _ Đối tượng nghiệp cứu: Những bình luận về sản phẩm trên trang thương mại

điện tử Foody.

e Pham vi nghiên cứu: Việt Nam.

Phương pháp nghiên cứu

Thu thập dữ liệu

Dữ liệu cho chuyên đề được thu thập từ những đánh giá của người dùng trên trang

thương mại điện tử Foody Những người dùng sau khi sử dụng dịch vụ thường sẽ được

hệ thống đề xuất một phan quà nhỏ như mã giảm giá, điểm tích luỹ để viết bài đánh giákèm theo cho điểm Tuy nhiên, vì nhiều lý do như lỗi hệ thống, người dùng quên không

cho điểm, một phan các đánh giá trên Foody thiếu mat mục điểm số Các bình luận trênFoody hầu như đều có độ dài khá ôn, có tính xác thực khá cao, những đánh giá sai lệchcũng như spam thường sẽ bị kiểm duyệt và loại bỏ

Trang 8

Phân tích

Nghiên cứu tập trung vào tiền xử lý do tính phức tạp của mơ hình Trước hết là

sử dụng các cơng cụ tìm kiếm tích hợp trong các ngơn ngữ lập trình để làm sạch vănbản, sau đĩ dùng mơ hình RDRSegmenter tích hợp trong gĩi VNCoreNLP đề phân đoạn

các từ và cuối cùng sử dụng phương pháp TF-IDF nhằm vector hố văn ban dé tiễn

hành đưa vào chạy mơ hình.

Từ các vector được mã hố, nghiên cứu ứng dụng các mơ hình khai phá dữ liệu

đơn giản như hồi quy Logistic, Nạve Bayes, SVM nhằm tính tốn các đặc trưng của

vector mã hố và đưa ra dự đốn Ngồi ra, nghiên cứu cịn ứng dụng một mơ hình học

sâu khác nhằm mục đích tham khảo và so sánh: mơ hình PhoBERT cho bài tốn phânloại cảm xúc Bằng các mơ hình trên, nghiên cứu tiễn hành phân loại các bình luận thành

3 nhĩm: tích cực/trung lập/tiêu cực hoặc thành 2 nhĩm tích cực/tiêu cực và đưa ra các

mơ hình tốt nhất dựa trên việc chạy thực nghiệm các mơ hình trên các cách phân loại

nhãn khác nhau.

Kết cau đề tai

Dé án của nhĩm gơm những phân sau:

- Phan mở đầu: Giới thiệu tổng quát đề tài nghiên cứu, lý do chọn đề tài, mục tiêu,

đối tượng nghiên cứu và phạm vi

- _ Chương 1: Lý luận chung về đánh giá của người dùng trên trang thương mại điện

tử và các phương pháp xử lý ngơn ngữ tự nhiên Chương này tập trung giải thích

các khái niệm cĩ trong dé tài, đồng thời lý luận những van đề tơng quan, nêu ý

nghĩa của đề tài nghiên cứu và đề xuất phương pháp, mơ hình nghiên cứu

- Chương 2: Quy trình đánh giá cảm xúc của người dùng trên trang thương mai

điện tử Foody.

+ Vì bộ đữ liệu lấy trực tiếp từ những đánh giá trên Foody, hồn tồn chưa qua

xử lý nên ở chương này, nghiên cứu sẽ tiến hành tiền xử lý những đánh giá này

Đây là bước quan trọng trong những bài tốn NLP vì dữ liệu thu thập được

thường khơng được “đẹp” như dữ liệu dạng bảng, gồm rất nhiều từ viết tắt, email,

số điện thoại, hồn tồn cĩ thé gây anh hưởng lớn đến kết quả mơ hình về sau

+ Bên cạnh đĩ nghiên cứu sẽ phân tích qua các đặc điểm chung của bộ dữ liệudựa trên các từ ngữ phơ biến hay gặp và đánh giá của người dùng Dựa trên phânphối điểm và các bình luận cụ thể của từng nhĩm điểm, nghiên cứu sẽ gán nhãncho các đánh giá nhằm tiến hành chạy mơ hình cho phan sau

Trang 9

+ Sau cùng nghiên cứu sẽ tiến hành phân tích bằng các mô hình hay được sửdụng trong các bài toán phân lớp và tiễn hành dự đoán rồi đưa ra kết quả về hiệu

năng của mô hình tương ứng, so sánh giữa các mô hình và chọn ra mô hình tốt

nhất

Kết luận và kiến nghị Chương cuối cùng nghiên cứu đưa ra những so sánh về

mô hình, cách gán nhãn và thời gian chạy Từ đó đưa ra các kiến nghị dựa trênđặc điểm dit liệu cũng như đề xuất các mô hình phù hợp

Trang 10

CHUONG 1: LÝ LUẬN CHUNG VE ĐÁNH GIA CUA NGƯỜI DUNG TREN

TRANG THUONG MẠI ĐIỆN TU VÀ CÁC PHƯƠNG PHAP XỬ LÝ

NGÔN NGỮ TỰ NHIÊN

1.1 Tổng quan về vấn đề nghiên cứu

Thương mại điện tử trong những năm qua đã có sự bùng phát trên thị trường thếgiới và trở thành đòn bay cho sự tăng trưởng kinh tế và thương mại ở nhiều quốc giatrong môi trường toàn cầu hoá Có thé coi đây là một lĩnh vực giao thoa giữa thươngmại truyền thống và công nghệ thông tin đang càng ngày càng phát triển Trong thương

mại điện tử, các công tác người dùng hoá và marketing một mục tiêu, tương tác

một-một được đầu tư phát triển mạnh hơn nhiều so với thương mại truyền thống Bên cạnh

đó, lượng dữ liệu thu thập được trên các trang thương mại điện tử vô cùng dồi dào Mỗi

ngày có hàng triệu các đơn hàng được đặt từ các sản thương mại điện tử, kèm theo các

đánh giá, hình ảnh liên quan Tuy nhiên van đề nảy sinh ra là dit liệu trên những sànthương mại điện tử này hầu hết đều ở dang dữ liệu phi cau trúc (những loại dữ liệu vănbản, hình ảnh, âm thanh, ) khác biệt rất lớn so với dữ liệu bảng thông thường nên việcphân tích cũng như lưu trữ cũng gặp nhiều khó khăn, không thể sử dụng các cơ sở dữliệu quan hệ hay các phương pháp thống kê đơn giản để xử lý

Với sự phát triển của khoa học công nghệ, các phương pháp thống kê ngày càng

trở nên mạnh mẽ với sự kết hợp của toán học cũng như công nghệ tính toán Ngày nayvới sự trợ giúp của những thiết bị máy tính mạnh mẽ, chúng ta có thể thiết kế những môhình học máy với hàng tỷ các biến số với hiệu năng cao hơn nhiều so với các mô hìnhtoán và thong kê cổ điển Bài toán dự đoán thái độ của người dùng dựa trên phản hồiđánh giá không còn là đề tài quá mới mẻ trong phân tích dữ liệu Trong 10 năm trở lại

đây, có nhiều những nghiên cứu được xem là bước nhảy vọt trong xử lý ngôn ngữ tự nhiên như “Attention Is All You Neeđ” (tạm dịch là Sự chú ý là tất cả chúng ta cần) về

mô hình Transformers (mạng biến đổi) của Ashish Vaswani, Noam Shazeer, Niki

Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, Illia

Polosukhin là những nhà nghiên cứu từ Google nham cải thiện công nghệ dich máy của

mình và công nghệ đi ngay sau nó chuyên sâu hơn cho các bài toán phân loại văn bản

như trong đề tài nghiên cứu là “BERT: Pre-training of Deep Bidirectional Transformers

for Language Understanding” (tạm dịch là BERT: Mô hình biến đổi 2 chiều dùng trong

xử lý ngôn ngữ) cua Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova.

Ca 2 công nghệ trên ngay sau khi được công bố đều đem lại một làn sóng đột phá rấtlớn tới cộng đồng những nhà phân tích dữ liệu chuyên sâu về ngôn ngữ tự nhiên Ở Việt

Nam, VinAI cũng có một phiên ban BERT của riêng mình là “PhoBERT: Pre-trained

language models for Vietnamese” (PhoBERT: mô hình ngôn ngữ cho Tiếng Việt) củaDat Quoc Nguyen, Anh Tuan Nguyen với cái tên lay cảm hứng từ món ăn đặc trưng ởViệt Nam là “Phở” Rất nhiều những nghiên cứu sau này đều được tiễn hành dựa trên

10

Trang 11

các mô hình mạng biến đổi hay BERT với bài toán khá tương tự với dé tài nghiên như

“Vietnamese hate and offensive detection using PhoBERT-CNN and social media

streaming data” (tạm dịch: Phat hiện thai độ tiêu cực sử dung PhoBERT-CNN từ nền

tảng xã hội trực tuyến) từ Quoc Tran Khanh, Trong Nguyen An, Hoang Phu Gia, Luu

Canh Duc, Do Trong-Hop & Nguyen Kiet Van va A Text Classification for Vietnamese

Feedback via PhoBERT-Based Deep Learning (Phân loại văn bản cho các phan hồi

Tiếng Việt qua PhoBERT) của Cu Vinh Loc, Truong Xuan Viet, Tran Hoang Viet, Le

Hoang Thao & Nguyen Hoang Viet Do vay, em quyết định sử dung các bình luận trên

Foody dé đưa vào phân tích và đưa ra dự đoán phù hợp về đánh giá của người dùng sử

dụng PhoBERT nêu trên và một số các phương pháp khai phá đữ liệu cơ bản như SVM,

Hồi quy Logistics, Naive Bayes, nhằm so sánh hiệu quả của các mô hình dé chọn ra

mô hình tốt nhất

1.2 Đề xuất mô hình nghiên cứu

Dựa trên cơ sở các nghiên cứu nêu ở phân tông quan, nhóm nghiên cứu đê xuât

mô hình nghiên cứu như sau.

Vector

người dùng tính toán vê sản phâm

Bình luận của được Cảm xúc của người dùng

từ văn

bản

Biến độc lập Biến phụ thuộc

Bình luận của người dùng là dạng văn bản phi cấu trúc, do đó sẽ không thể trựctiếp đưa vào phân tích được Vì vậy sẽ phải mã hoá thành dạng véc tơ phù hợp bằng các

phương pháp vector hoá dùng phô biến trong xử lý ngôn ngữ tự nhiên là TF-IDF Từ

các véc tơ được mã hoá chứa thông tin của ngôn ngữ kết hợp với điểm dự đoán thu thập

được, ta sẽ đưa vào mô hình huấn luyện và dé tiến hành dự đoán thái độ của người dùng

về sản phâm đã đặt trước đó

11

Trang 12

3 Những vấn đề chung về Thương mại điện tử.

1.3.1 Thương mại điện tử.

Thuong mại điện tử (Electronic commerce hay eCommerce) là khái niệm được

dùng dé mô tả quá trình mua và bán hoặc trao đôi sản phẩm, dịch vụ thông qua manginternet Khái niệm trên là kết hợp của thuật ngữ “Thương mại” được hiểu rộng rãi là

quá trình trao đôi, giao dịch giữa các bên kinh doanh; và “điện tử” là các thiết bị điện

tử Do vậy, thương mại điện tử có thể hiểu đơn giản là mua và bán hàng hoá, dịch vụ ở

trên mạng, thông qua các phương thức điện tử.

Với sự phát triển của mạng máy tính, các phương thức thanh toán ngày càng trở

nên đa dạng và phô biến, thương mại điện tử là một trong những thuật ngữ, những ngành

nghề trở nên phổ biến những năm gần đây ở Việt Nam nói riêng hay toàn thế giới nóichung Những năm gần đây, những sàn thương mại điện tử ngày một mọc lên và phát

triển với tốc độ chóng mặt như Shopee, Lazada, Tiki, với hàng triệu giao dịch hàng

ngày Chính vì sự phát triển mạnh mẽ này kết hợp với cơ sở hạ tầng số ngày càng đượcđầu tư phát triển của nước ta hiện nay, các doanh nghiệp đã và đang giành sự quan tâmmạnh mẽ đến lĩnh vực này Hiện nay không khó bắt gặp các kênh bán của những thươnghiệu nồi tiếng trên thế giới như Samsung, NVIDIA, LG, trên các san thương mại điện

tử, một số bên còn có riêng sàn cho riêng mình Có thể nói, thương mại điện tử đã trởthành yếu tố xúc tác làm thay đổi cơ cấu hoạt động và quan lý của các tô chức

1.3.2 Sàn thương mại điện tử.

Sàn thương mại điện tử được hiểu là một không gian mạng được mở ra nhằmmục đích giao bán những sản phẩm dich vụ từ đa dang các nhà cung cấp một cách trựctiếp đến người tiêu dùng Mỗi ngày có đến hàng triệu các giao dịch được diễn ra trên

một sản thương mại điện tử lớn.

San thương mại điên tử mang đến nhiều loi ích cho người tiêu dùng Đồng thời với hệthống giao hàng công nghệ được phát triển song song mạnh mẽ, người mua hàng có thểnhận hàng ở nơi mình mong muốn mà không tốn công sức đi lại Chính vì vậy, đâychính là hình thức mua sắm được đây mạnh trong những năm vừa qua

1.3.3 Nhà cung cấp trên sàn thương mại điện tử

Nhà cung cấp trên sản thương mại điện tử là những các nhân hay tô chức cungcấp hàng hoá và tham gia bán hàng trên các sàn thương mại điện tử Các bên nhà cung

cấp sẽ phải đồng ý với những chính sách cũng như chỉ phí, thuế suất phải trả cho sàn và nhà nước, cũng như phải đảm bảo nguồn cung hàng hoá và cung cấp hàng đúng thời

hạn cho bên vận chuyền.

12

Trang 13

1.3.4 Người dùng trên sàn thương mại điện tử.

Nếu như nhà cung cấp trên sàn thương mại điện tử chính là người bán thì người

dùng trên sàn sẽ là người mua Người dùng trên sàn được định danh bằng tài khoản cánhân hoặc một số trường hợp có thể là tài khoản dành riêng cho doanh nghiệp Tàikhoản cá nhân của người dùng thông thường cần cung cấp đầy đủ các thông tin như têntuổi, số điện thoại, địa chỉ, email, số căn cước công dân, hộ chiếu hay mã số thuế tuỳ

vào các đối tượng khác nhau dé được hưởng day đủ chính sách của sàn Người dùngtrong sàn thương mại điện tử là một đối tượng có khả năng xem và mua hàng, nhắn tincho người ban và dé lại những đánh giá về sản phẩm

1.3.5 Đánh giá của người dùng.

Đánh giá của người dùng chính là những bình luận của người dùng về hàng hoáhay dịch vụ sau khi đã mua và trải nghiệm qua sản phẩm Thường thì đánh giá của ngườitiêu dùng sẽ được chia làm 2 phần: phần bình luận (dạng văn bản) và phần điểm đánh

giá (thang đo định khoảng từ 0-10).

1.3.6 Nguồn dữ liệu trên Internet

Với sự thúc day của Internet, nội dung do người dùng tạo (user-generated contenthay UI) ngày nay đã va dang phát triển nhanh chóng, đặc biệt là với sự lan rộng củaWeb 2.0 và ngày nay đã phát triển thành Web 3.0, ngoài việc chia sẻ kinh nghiệm của

họ, khách du lịch hiện có thé đưa ra các đề xuất cụ thé về khách sạn, nhà hàng và điểm

tham quan (Sotiriadis & van Zyl, 2013, Sparks & Browning, 2011; Vermeulen &

Seegers, 2009; Ye, Law, & Gu, 2009; Ye, Zhang, & Law, 2009) Do vay, đánh gia của

người dùng trực tuyến là một kênh quan trọng đã được chứng minh là một nguồn thôngtin có giá tri có thể hỗ trợ các nhà nghiên cứu xác định sở thích và nhu cầu của người

tiêu dùng (Chau & Xu, 2012; Chevalier & Mayzlin, 2006; Clemons, Gao, & Hitt, 2006;

Ghose & Ipeirotis, 2011; Liu, 2006; Ye, Law, Li, & Li, 2011) Các cá nhân mới có thédựa trực tiếp vào trải nghiệm của những người tiêu dùng trước đó khi mua sắm trựctuyến bằng cách bỏ qua các sản phẩm hoặc dịch vụ có đánh giá thấp hoặc mô tả không

rõ ràng, không chính xác, đặc biệt là đối với các sản phẩm có giá tri cao Hơn nữa, một

số công ty tích cực khuyến khích người dùng của họ gửi ý kiến trực tuyến về sản phamhoặc dịch vụ của mình của băng cách gửi tặng các phiếu thưởng hoặc phiếu giảm giá

Các ý kiến đánh giá của người dùng được coi là những phản hồi mang tính tựphát, “insightful” (sâu sắc) và “passionate” (đam mê) bởi người tiêu dùng, được cung

cấp rộng rãi, miễn phí hoặc chi phí thấp và có thé dé dàng truy cập moi lúc moi nơi

(guo2017) Các yếu tổ tiềm an từ người tiêu dùng có thé được nghiên cứu từ khối lượng

lớn các nội dung này Kết quả là, số lượng các nghiên cứu sử dụng các đánh giá trựctuyến của người tiêu dùng ngày càng tăng trong thập trong kỷ qua (Clemons và cộng

sự, 2006; Dellarocas, Zhang, & Awad, 2007; Ho-Dac, Carson, & Moore, 2013) Các

13

Trang 14

phương pháp khai thác ý kiến của người dùng đang được chuyên dần từ các phương

pháp điều tra/khảo sát tới tự động hoá dựa trên các đánh giá được người dùng cung cấp

trên mang Do đó, các đánh giá trực tuyến ngày càng trở thành nguồn thông tin hữu ích

cho các doanh nghiệp.

1.4 Những vấn đề chung về các phương pháp phân loại văn bản

1.4.1 Khoa học dữ liệu.

Khoa học dữ liệu là lĩnh vực nghiên cứu dữ liệu nhằm khai thác các khía cạnh

chuyên sâu của dữ liệu có ý nghĩa với các hoạt động kinh doanh Đây là một lĩnh vực

nghiên cứu kết hợp nhiều nguyên tắc và phương pháp của các lĩnh vực khác nhau, trong

đó chủ yếu là toán học, thống kê và khoa học máy tính Khoa học dữ liệu áp dụng cácnguyên lý, phép toán của đại số tuyến tính, giải tích và các nguyên lý xác suất thống kê;sau đó được lập trình và tính toán trên máy tính nhằm phân tích những tập dữ liệu lớn

và phức tạp.

Về cơ bản, thống kê học và khoa học dữ liệu đều giải quyết bài toán dữ liệu bằngcác mô hình kết hợp giữa toán và thống kê Tuy nhiên, các mô hình của thống kê sẽ đềcập nhiều hơn đến cả ý nghĩa của mô hình cũng như giải thích các khía cạnh của bộ dữ

liệu Mặt khác, các mô hình của khoa học dữ liệu thường áp dụng các thuật toán của

khoa học máy tính và được dựa trên nhiều giả định, sử dụng nhiều hàm ngẫu nhiên và

chỉ tập trung vào hiệu quả của mô hình.

1.4.2 Xử lý ngôn ngữ tự nhiên.

Xử lý ngôn ngữ tự nhiên (Natural Languge Processing hay NLP) là một thuật

ngữ dé mô tả một nhánh của khoa học dữ liệu, cụ thé hơn là nhánh về trí tuệ nhân tạo(Artificial Intelligence hay AI), nghiên cứu về việc xây dựng các mô hình hiểu được dữliệu dạng văn bản và lời nói giống với cách con người có thé hiểu được Một số mô hình

ngôn ngữ phổ biến hiện nay như GPT3.0 (sử dụng cho ChatGPT) hay BERT (mô hình

xử lý ngôn ngữ được Google công bố năm 2018), đã cho thấy tiềm năng của lĩnh vực

này.

NLP là sự kết hợp của thuật ngữ máy tính — các mô hình dựa theo quy luật củangôn ngữ con người, với thống kê, học máy và các mô hình học sâu Những công nghệnày kết hợp lại giúp cho máy tính có thé xử lý được ngôn ngữ con người dưới định dạngvan bản (báo chí, bình luận, ) hay định dạng âm thanh (giọng nói) dé có thé hiểu đượcngữ nghĩa, từ đó đưa ra câu đối thoại thích ứng hay phân tích thái độ của người nói hay

việt.

14

Trang 15

NLP có nhiều ứng dụng khác nhau như dịch đoạn văn bản này sang ngôn ngữkhác (bài toán dịch máy); phản hồi lại cuộc hội thoại (bài toán chat bot); đánh giá thái

độ của các đánh giá, phản hồi của người dùng (bài toán phân tích cảm xúc) hay sinh ra

đoạn thơ, văn bản từ các cụm từ gợi ý của người dùng (bài toán sinh ngôn ngữ).

1.4.3 Bài toán Phân loại văn bản.

Phân loại văn ban (Text classification) là một bài toán trong bài toán phân tích

thái độ của NLP Sự phát triển của các mô hình ngôn ngữ mạnh như BERT hay GPT đãkhiến NLP trở thành một công cụ quan trọng trong việc khai phá những khía cạnh quantrọng của dữ liệu từ các bài viết trên trang mạng xã hội, từ các phản hồi, đánh giá, nhận

xét, Từ đó có thể nắm bắt cảm xúc của người dùng nhằm đưa ra các chiến lược xúc

tiễn, các thông tin giúp doanh nghiệp cải thiện sản phẩm, nam bat tép khach hang tiém

năng và hơn thê nữa.

Đề có thể xây dựng được một mô hình phân loại văn bản hoàn chỉnh, trước hết dữliệu cần được xử lý chin chu và được mã hoá chính xác Bài toán phân loại văn bản gồm

các bước chính như sau:

- _ Tiền xử lý dữ liệu: chuẩn hoá văn bản, loại bỏ những ký tự và thông tin không

cần thiết (tên, số điện thoại, đường dan, ), phân đoạn từ,

- Vector hoá văn bản: đưa văn ban dạng chuỗi ký tự thành dang vector số thực mã

hoá các đặc trưng về ngữ nghĩa, chuỗi thứ tự

- _ Xây dựng mô hình: nghiên cứu và thử nghiệm nhằm đưa ra mô hinh tốt nhất dé

phân loại văn bản thành các nhãn khác nhau (tích cực/tiêu cực hay tích cực/trung

tuân theo thì biểu thức mới nhận diện được Do vậy, RegEx hay được sử dụng để tìmkiếm các ký tự, chuỗi đặc biệt trong một chuỗi văn bản như số điện thoại, email, đườngdẫn URL, Đó là những thông tin không thực sự quan trọng với mô hình NLP và cần

được loại bỏ đi dé tránh nhiễu mô hình, quá tải bộ nho,

15

Trang 16

1.4.3.1.2 RDRsegmenter

Phân đoạn từ là một trong những bước đầu tiên và quan trọng nhất trong xử lý

ngôn ngữ Tiếng Việt Không như tiếng Anh, dấu cách trong tiếng Việt không phải làmột dau hiệu rõ ràng dé ngăn cách các từ, bởi vì khi trong ngôn ngữ của chúng ta, nócòn được dùng dé cách giữa các âm tiết riêng biệt dé tạo thành một từ Ví dụ, trong cụm

từ Trường Đại học Kinh tế Quốc dân, tiếng anh là National Economics University

Tiếng Việt có tổng cộng 7 âm tiết ghép thành 4 từ (Trường / Dai_hoc / Kinh tế /

Quốc_ dân), tuy nhiên với tiếng Anh chỉ có 3 âm tiết ghép thành đúng 3 từ National /

Economics / University Cu thé, tiéng Việt có đến 85% từ là tổ hợp của it nhất 2 âm tiết

và hơn 80% âm tiết có nghĩa khi đứng một minh (theo nghiên cứu của Quang Thang

Dinh va cộng sự (2008) và Oanh Thi Tran, Cuong Anh Le, Thuy Quang Ha (2010)).

Điều này khiến cho việc xử lý các văn bản tiếng Việt gặp nhiều khó khăn trở ngại

Nhiều nghiên cứu trước kia đã được công bố dé giải quyết bài toán phân đoạn từtiếng Việt, tuy nhiên vì còn hạn chế về nhân lực cũng như công nghệ thời bây giờ nên

chưa đạt được nhiều hiệu quả cao Mô hình RDRsegmenter được công bố năm 2018 và

là một mô hình mã nguồn mở thuận tiện cho việc nghiên cứu và phát triển Mô hìnhphân đoạn RDRsegmenter được sử dụng trong nhiều dự án NLP ở Việt Nam và điểnhình nhất được sử dụng trong phoBERT — mô hình BERT được VinAI phát triển nhằmgiải quyết các bài toán NLP tiếng Việt RDRsegmenter xây dựng cây phân loại lớp theo

quy tắc gon xuống (Single Classification Ripple Down Rules tree — SCRDR tree) được

phatt rién bới Compton va Jansen vào năm 1990 nhằm sửa lai các phân đoạn bị sai bang

hệ thống khớp phân đoạn từ dài nhất Trên bảng so sánh kết quả trong nghiên cứu của

Nguyễn và cộng sự (2009), kết quả thực nghiệm cho thấy mô hình RDRsegmenter chođược kết quả tốt hơn cả về tốc độ lẫn độ chính xác so với phương pháp JvnSegmenter

(Nguyễn và cộng sự - 2006), vnTokenizer (Lê và cộng sự - 2008), DongDu (Luu và Kazuhide — 2012) và UETsegmenter (Nguyễn và Lê — 2016).

RDRsegmenter sử dụng một cây SCRDR tự động dé sửa cái phân đoạn sai đượctạo ra từ một công cụ phân đoạn gốc Dựa theo nghiên cứu của Nguyen và cộng sự(2006) và Tran và cộng sự (2010), mô hình được đưa về dưới dạng tác vụ gán nhãn chocác âm tiết Cụ thể, mỗi âm tiết được gán nhãn bằng B (Begin of a word-bắt đầu một

từ) hoặc I (Inside of a word-trong một từ).

16

Trang 17

Mô hình được huấn luyện trên bộ dữ liệu bao gồm các từ đã được phân đoạn thủcông, ví dụ như “thuế _thu_nhập cá nhân” và được gan nhãn B/I như đã mô tả ở trên(ví dụ "thué/B thư/I nhập/I cá/B nhân/I") Sau đó, các nhà nghiên cứu trích xuất các âm

tiết để xây dựng bộ dữ liệu thô (không có các nhãn phân đoạn B và I và sẽ trông giống

như "thuê thu nhập cá nhân").

Tan Initial Initialized

removal segmenter corpus

Hình 1 Sơ do về quy trình xây dung cây SCRDR của phương pháp RDRSegmenter

Dữ liệu phân đoạn sốc sau khi được gán nhãn sẽ được so sánh với bộ dữ liệuđược khởi tạo từ mô hình dé tạo ra một chuỗi ngữ cảnh với 5 âm tiết mà mỗi cap giá tribao gom một chuỗi cửa số 5 âm tiết chạy theo văn bản cần phân đoạn được dự đoánnhãn B/I và một nhãn B/I chuẩn

Bang 1 Bang minh hoạ chuỗi ngữ cảnh với 5 âm tiết liền nhau

Tuple as key Value

co," thuế B.thu,B nhập D | BV

Trang 18

Hinh 2 Cay SCRDR duoc khoi tao ban dau

Sau khi thuc hién du doan bang cây khởi tao, mô hình sẽ tự xem xét và cap nhậpđiều kiện trong các nút và thêm nút mới, dựa trên bộ điều kiện sốc (rule templates) vàtrình chọn điều kiện (rule selector, được lập trình dựa trên các nguyên tắc cập nhật điều

kiện mà nhóm nghiên cứu đặt ra)

Với cây SCRDR đã được huấn luyện, mô hình RDRsegmenter thực hiện phân

đoạn từ trên văn bản chưa được phân đoạn như sau: Bộ phân đoạn ban dau sẽ lay văn

bản chưa được phân đoạn để tạo ra một văn bản khởi tạo dạng B/I Tiếp theo, bang cachtrượt một cửa số có 5 van từ trái sang phải, một bộ giá tri được tạo ra cho mỗi van trongvăn bản khởi tạo; sau đó, cây SCRDR đã học sẽ lay bộ giá tri đó lam đầu vào dé trả vềmột nhãn phân đoạn cuối cùng cho vần tương ứng Cuối cùng, đầu ra của quá trình gánnhãn này được chuyền đổi sang dạng biéu diễn truyền thống dựa trên dấu gạch dưới dé

phân cách các âm tiết trong từ, ví dụ “Trường Đại học Kinh tế Quốc dân” sau khi phânđoạn sẽ thành “Truong Dai_hoc Kinh tế Quốc dân”

1.4.3.2 Vector hoá van bản với TF-IDF.

Vector hoá văn bản, hay nhúng văn ban (Word embedding) là một nhóm các kỹ

thuật đặc biệt trong xử lý ngôn ngữ tự nhiên nhăm ánh xạ một từ hay cụm từ trong một

bộ từ vựng đến một vector số thực Các vector được mã hoá tốt có thể thể hiện được

ngữ nghĩa của từ, thể hiện được cả những mối liên hệ về ngữ nghĩa (đồng nghĩa, trái

nghĩa, ) Hiện nay đã có nhiều mô hình phô biến dé vector hoá văn bản như xây dựng

ma trận đồng xuất hiện, mạng thần kinh nhân tạo (Neural Network) với fast-text hayword2vec; mô hình xác suất thống kê như TF-IDF

TF-IDF (term frequency — inverse document frequency) là một phương pháp

thong kê dùng dé tính trọng số thé hiện mức độ quan trong của một từ trong một vanbản mà văn bản đang xét lại năm trên một tập hợp các văn bản

Đây là một phương pháp xuất pháp từ thực tế rang trong bat kỳ ngôn ngữ nào,cũng có một nhóm các từ tuy ít những tần suất sử dụng lại rất nhiều Phương pháp chỉ

18

Trang 19

đơn giản tính toán và kết hợp 2 trọng số TF (term frequency) va IDF (inverse document

frequency) Trong đó:

- TF: dùng dé ước lượng tần xuất xuất hiện của từ trong văn bản Tuy nhiên với

mỗi văn ban thì có độ dài khác nhau, vì thế số lần xuất hiện của từ có thé nhiềuhơn Vì vậy số lần xuất hiện của từ sẽ được chia độ dài của văn bản (tong số tir

trong văn ban đó).

- IDF: dùng dé ước lượng mức độ quan trọng của từ đó như thế nào Khi tính tan

số xuất hiện tf thì các từ đều được coi là quan trọng như nhau Tuy nhiên có một

số từ thường được được sử dụng nhiều nhưng không quan trọng dé thể hiện ý

nghĩa của đoạn van , ví dụ : Từ nối: và, nhưng, tuy nhiên, vì thế, vì vậy, ; giới

từ: ở, trong, trên, ; từ chỉ định: ay, đó, nhi,

Vì vậy ta cần giảm di mức độ quan trọng của những từ đó bang cách sử dung

TF-IDF = TF x IDF

Phương pháp trên thoạt nhìn có vẻ đơn giản và nhiều khuyết điểm tuy nhiên hiệu quathực tế lại cao trên nhiều tệp dữ liệu khác nhau, ngoài ra tốc độ nhanh do độ phúc tạpcủa thuật toán thấp nên được ứng dụng nhiều trong thực tế

1.4.3.3 Các mô hình Phân loại văn bản.

Trong đó P(X) là xác suất xảy ra biến cố X, P(Y) là xác suất xảy ra biến cé Y,

P(XIY) là xác suất xảy ra Y khi biết Y, P(YIX) là xác suất xảy ra biến cố Y khi biết X

19

Trang 20

Trong bài tốn phân lớp, nêu biệt được xác suât xảy ra biên mục tiêu y = c từ các biên độc lap x, tức là tính được xác suât đê dau ra là lớp c khi biệt vector dau vào x, bài tốn sẽ được giải quyết.

p(x|c)p(c)

p(x)

Việc tinh P(X) va P(Y) cũng vơ cùng dé dang vì đã cĩ đầy đủ dit liệu cần thiết.Tuy nhiên việc tính xác suất pŒIc) lại phức tạp hon nhiều do X là một biến ngẫu nhiênnhiều chiều và rất khĩ ước lượng phân phối Do đĩ, dé tiện cho việc tính tốn, mơ hình

Naive Bayes được sinh ra với một giả định đơn giản:

c = are max‹ p(clx) = arg max = arg max, p(xlc)p(c)

Trong lớp thứ k, các thành phan của biến ngẫu nhiên X là hồn tồn độc lập

Giả thiết trên là vơ cùng khĩ chấp nhận vì ít nhiều, các thành phần trong vector

X vẫn cĩ sự tương quan với nhau Tuy nhiên trên thực tế, mơ hình này vẫn được sửdụng rộng rãi vì tính đơn giản và vẫn cĩ hiệu quả trên một số bộ đữ liệu nhất định Vớigiả định trên, xác suất P(XIc) cĩ thể được tính như sau:

p(xlc) = p(X1,X2, ,Xal €) = a p(x;\|c)

Các xác suất p(xilc) trong mơ hình được tính tốn bang phương pháp ước lượnghợp lý tối da (maximum likelihood estimation) Cĩ 3 cách tính tốn xác suất phố biếnhay được sử dụng là Gaussian Naive Bayes (Naive Bayes theo phân phối chuẩn),Multinomial Nạve Bayes (Nạve Bayes theo phân phối đa thức) và Bernoulli NạveBayes (Naives Bayes theo phân phối Bernoulli)

1.4.3.3.2 Hoi quy Logistic

Phương trình hồi quy tương quan thơng thường chỉ cĩ thé được sử dụng khi biếnđầu ra là dạng tiêu thức số lượng Tuy nhiên trong thực tế cĩ nhiều trường hợp mà kết

quả chỉ nhận 2 giá trị nhị phân là 0 và 1 Ví dụ trong bài tốn dự đốn cảm xúc của người dùng dựa trên đánh giá trên Foody, biến kết quả chỉ nhận giá trị khơng hài lịng

và hài lịng với dịch vụ bán hàng Do vậy, dé giải quyết bài tốn phân loại văn bản, cần

sử dụng đến mơ hình hồi quy Logistic.

Phương trình hồi quy don Logistic cĩ dạng:

log(T——) = bạ + byx

hay cĩ thé biến đổi thành dang:

20

Trang 21

p(X) = 1+ebotbix

Trong đó bo, b; là các tham số trong phương trình

Xác suât p(X) là xác suât mà biên cô y=1 xảy ra khi biệt bộ tham sô mô hình và

dữ liệu dau vào x.

Trên thực tế có nhiều biến độc lập nên việc tính toán các tham số trong hồi quyLogistic là rất khó khăn Dé tìm ra các tham số trong mô hình hồi quy Logistic, phươngpháp thường được sử dụng là ước lượng hợp lý tối đa và được tối ưu bằng thuật toángradient descent (suy giảm đạo ham) Mô hình hồi quy Logistic thường được tính toántrên các phần mềm thống kê như SPSS, R, STATA, hay các công cụ lập trình phân

tích dữ liệu như Python, Java, R,

SVM là mô hình phát triển của một mô hình cơ bản là maximal margin classifier(Phân lớp tối đa đường cận biên)

Phân lớp tối đa đường cận biên

21

Trang 22

Ý tưởng của bài toán này là tìm một siêu mặt phăng (một không gian con dạng

phăng của một không gian p chiều với kích thước p-1) sao cho siêu mặt phang đó phân

tách dữ liệu ra làm 2 phần khác nhau tương ứng với 2 nhãn trong bộ dữ liệu

Na

Hình 3 Hình minh hoa đường phân lớp trong bài toán dữ liệu phân cách tuyến tính

Ở vi dụ trên, dé thấy đường thang 1 + 2X1 +3X2 = 0 chính là siêu mặt phắngphân tách điểm dữ liệu đỏ và xanh trong bộ dit liệu Trên thực tế, mô hình phân lớp tối

đa đường cận biên được đưa về bài toán tối ưu đối ngẫu dé giải ra phương trình của siêumặt phẳng phân cách 2 điểm, sao cho khoảng cách của các điểm gần siêu mặt phăng tới

siêu mặt phăng là lớn nhất Giả sử xét bộ đữ liệu 2 chiều với 2 nhãn sau đây:

22

Trang 23

Hình 4 Hình minh hoạ phương pháp tối đa đường cận biên

WIxI + w2x2 + b chính là phương trình của đường thang phân cách 2 nhãn xanh

đỏ trong bộ dữ liệu với w = (w1,w2) là vector chứa các tham số cần tìm và b là hằng số

tự đo Ta có thê thay với điểm dữ liệu Xa = (xn,ya) bat kỳ, khoảng cách từ điểm đó đếnsiêu mặt phang là:

= arg TnaXwp { MiNn Vn (W' Xn + bt

Việc giải trực tiếp bai toán này khá phức tạp, tuy nhiên có thé biến nó về thành

dạng đơn giản hơn như sau:

23

Trang 24

(Ww, b) = arg min,» 5 |Iwilổ

Với điều kiện: 1 — y,(w7x, + b) < 0,Vn = 1,2,3, ,N

Ở đây, hàm mục tiêu đã trở thành hàm khả vi và là một norm của một vector, do

đó là một hàm lôi, các hàm bat đăng thức ràng buộc cũng là hàm lồi do là tuyến tínhtheo w và b Bài toán trở thành một bài tối ưu lỗi dạng quy hoạch toàn phương(Quadratic Programming) Việc giải thủ công bài toán này vẫn rất khó khăn, tuy nhiên

có thé sử dụng những công cu tìm nghiệm như excel, hay các thư viện của các ngôn

ngữ lập trình.

Phương pháp phân lớp tối đa đường cận biên có một nhược điểm vô cùng lớn là

chỉ áp dụng được cho các bài toán mà dữ liệu phân cách tuyến tính (tức là tồn tại mộtsiêu mặt phẳng phân tách được 2 nhãn của bộ dữ liệu) Tuy nhiên, phần lớn bộ dữ liệu

trong thực tế đều không như vậy, nhất là các bộ dữ liệu nhiều biến, nhiều chiều Mặc

dù sau này đã có phương pháp soft-margin (cận biên mềm) giúp hỗ trợ giải bài toán trênvới bộ dữ liệu gần phân cách tuyến tính, tuy nhiên nhiều bộ dữ liệu có mối quan hệ phi

tuyến vẫn không thé giải quyết được bang phương pháp này Do đó, các nhà nghiên cứuđưa ra kỹ thuật kernel — một ham sỐ thay thế cho các điểm đữ liệu trong bộ dữ liệu, tạo

ra một bộ dữ liệu mới với mỗi vector X được thay thé bằng ®(X) với ®Q là hàm số

kernel, sao cho sau khi sang không gian mới, dữ liệu trở nên gần phân biệt tuyến tính

Lúc này, nghiệm của Phương pháp phân lớp cận biên lớn nhất sẽ cho ra một bộ phânlớp tốt hơn Phương pháp này được gọi là Kernel SVM Sau đây là một số hàm Kernelthông dụng hay được sử dụng tuỳ vào nhu cầu bài toán và kiểm thử thực nghiệm như:

o_ x và z là 2 điểm dữ liệu trong bộ dữ liệu

o dla bậc cua đa thức.

or và g là các siêu tham số-hyperparameters được điều chỉnh trong quá

trình chạy mô hình.

1.4.3.3.4 BERT.

BERT (Bidirectional Encoder Representations from Transformers - Mô hình

biến đồi 2 chiều dùng trong xử lý ngôn ngữ) là một mô hình dai diện ngôn ngữ (language

24

Trang 25

representation) được google công bố vào đầu thang 11 năm 2018 BERT được thiết kế

để tạo ra các vector đại diện cho ngôn ngữ văn bản thông qua ngữ cảnh 2 chiều (trái và

phải) của chúng Các vector đại diện cho dt liệu van bản được sinh ra từ mô hình BERT

được tinh chỉnh với các lớp đầu ra b6 sung nhằm tạo ra các mô hình cải tiễn đáng ké

hơn cho các tác vụ xử lý ngôn ngữ tự nhiên như trả lời câu hỏi, phân loại văn bản,

Mô hình BERT ứng dụng kiến trúc mạng noron Transformers (mang bién déi)

được sử dung trong nhiều mô hình kiến trúc hiện dai, điển hình nhất là BERT như trên

và GPT (Generative Pre-training Transformers), là mô hình chatbot nổi tiếng gây ảnhhưởng mạnh đến cộng đồng gần đây Mô hình BERT là một mô hình đơn giản và cótính ứng dụng cao, nó đã thu được kết quả 80.4% (cải thiện 7.6% so với mô hình tốtnhất trước đó) trên bảng xếp hạng kết quả GLUE Benchmark và bộ dữ liệu SquAD v.1.1

cho tác vụ trả lời câu hỏi với điểm F1 trên tập dữ liệu test lên 93.2% (cải thiện 1.5%)

và tốt hơn 2% so với con người Mô hình BERT thường được sử dụng theo 2 cách: lấy

mã nguồn về phát triển trên tập dữ liệu và nhu cầu riêng dựa trên kiến trúc cơ bản củaBERT (phoBERT, RoBERTa) hay fine-tuning (tinh chỉnh) mô hình dé nó học đượcthêm cách xử lý tác vụ cần thiết

Mô hình BERT là một kiến trúc đa tầng gồm nhiều lớp Bidirectional Transformerencoder (lớp mã hoá biến đổi 2 chiều) dựa trên bản sốc được mô tả bởi Vaswani vacộng sự (2017) và được lấy trong thư viện tensor2tenssor

Trong nghiên cứu gốc về BERT, kích thước mô hình được mô tả như sau:

Mô hình BERTsasr có cùng kích thước với mô hình GPT của OpenAI nhằm mục

đích so sánh Mạng biến đổi trong BERT có khác biệt là sử dung mạng attention 2 chiều

trong khi Mạng biến đổi trong GPT (6 các phiên ban đầu tiên) là một chiều Day có thécoi là một cải tiễn do trong một số câu, ý nghĩa của từ còn ảnh hưởng bởi ngữ cảnh sau

nó Ví dụ 2 câu sau:

- Tdi tìm “trường” cho con hoc.

- _ Tôi tìm “trường” trong bảng dữ liệu.

Chúng ta dé thay từ “trường” trong 2 câu trên có ý nghĩa hoàn toàn khác nhau

(“trường” trong “trường học” và “trường” để tạo cột trong một bảng của cơ sở dữ liệu)

và nếu chỉ đơn giản xét ngữ cảnh phía bên trái (như cơ chế biến đổi 1 chiều) thì từ

“trường” sẽ chỉ có được một ý nghĩa nhất định Do đó cần phải xét cả ngữ cảnh bên phải

25

Trang 26

thì mô hình mới có khả năng sinh ra 2 vector biểu diễn riêng biệt cho 2 từ “trường” như

trên.

Mô hình BERT được đào tạo trên bộ dữ liệu BooksCorrpus (800 triệu từ) (Zhu

và cộng sự, 2015) va English Wikipedia (2500 triệu từ), tổng cộng là 16GB dữ liệu Với

bộ dữ liệu Wikipedia, các nhà nghiên cứu bóc tách phần văn bản và bỏ qua các danhsách đề mục hay bảng tiêu đề

Việc đào tạo BER TbBAs được thực hiện trên 4 Cloud TPUs với tổng cộng 16 chipTPUs BERTiIAnoe được đào tạo trên 16 Cloud TPUs và tổng cộng 64 chip Thời gianhuấn luyện vào khoảng 4 ngày Bên cạnh đó, việc tinh chỉnh mô hình BERT so với việchuấn luyện lại toàn bộ thi tốn ít phan cứng hay chi phí hơn Toàn bộ các kết quả của bàinghiên cứu về BERT được chạy trong vòng | tiếng trên 1 Cloud TPU, cần it dit liệu vànhân lực hơn rất nhiều

1.4.3.3.5 RoBERTa.

Mô hình RoBERTa (Robustly Optimized BERT Pretraining Approach — tạm

dịch là Phuong pháp tiếp cận tiền đào tạo BERT được tối ưu vượt trội) là một mô hìnhcải tiến của BERT được xây dựng bởi Facebook với một s6 các thay đổi như sau:

(i) Mô hình được huấn luyện lâu hơn, với nhiều dữ liệu và batches lớn hơn

(ii) Loại bỏ phan dự đoán câu tiếp theo của BERT

(ii) Huan luyện trên các chuỗi dài hơn

(iv) _ Chỉnh sửa phần các mẫu 4n đi trong phan Mô hình ngôn ngữ an

Ngoài ra, bộ dữ liệu dùng dé huấn luyện mô hình RoBERTa cũng lớn hơn so với

BERT với các bộ dữ liệu sau được sử dụng:

- BookCorpus (Zhu và cộng sự, 2015) và Wikipedia tiếng Anh Day là phần dữ

liệu dùng dé huấn luyện BERT (16GB)

- CC-News, được thu thập từ phần dữ liệu tiếng Anh từ Bộ dữ liệu báo

CommonCrawl (Nagel, 2016) Bộ dữ liệu bao gồm 63 triệu đầu báo tiếng Anh

từ tháng 9/2016 đến tháng 2/2019 (76GB)

- OpenWebText (Gokaslan và Cohen, 2019), là bộ dữ liệu mã nguồn mở lấy từ bộ

WebText (Radford và cộng sự, 2019) Dữ liệu được trích xuất từ các bài đăngđược chia sẻ trên mạng xã hội Reddit với 3 upvotes đồ lên (38GB)

- Stories, bộ dữ liệu được công bồ với Trinh và Le (2018), chứa một phần của bộ

dữ liệu CommonCrawl gồm những văn bản gần với những câu truyện (31GB)

Tổng cộng bộ dữ liệu để huấn luyện RoBERTa lên đến hơn 160GB dữ liệu vănbản Mô hình được huấn luyện sau khi thay đôi một chút về kiến trúc mô hình BERTnhư đã nêu ở trên cùng với tinh chỉnh các siêu tham số của thuật toán tối ưu Adam, cụthé giảm 2 xuống 0.98 dé tăng sự 6n định khi huấn luyện với kích cỡ batch lớn hơn

26

Trang 27

Ngoài ra khác với BERT, RoBERTa không huấn luyện bang cách sử dụng những câungắn hay giảm chiều dài của câu đi mà huấn luyện thăng với những câu đầy đủ độ dài.RoBERTa được huấn luyện trên hệ thống máy tính DGX-1, mỗi máy có 8 GPU Nvidia

VI00 với dung lượng 32GB, được kết nối với nhau bang giao thức Infiniband

(Micikevicius và cộng sự, 2018).

RoBERTa chứng minh sự vượt trội cua mình so với mô hình tiền nhiệm BERT

và đạt được kết quả cao hơn rất nhiều Dưới đây là một số kết quả của BERT và

RoBERTa trên một số bài toán NLP quan trọng:

e GLUE Benchmark: BERT đã đạt được kết quả tốt nhất trên GLUE

benchmark khi ra mắt và RoBERTa đã cải thiện kết quả của BERT trêntất cả các tác vụ trong GLUE Cụ thể, BERT đã đạt được độ chính xác

80,4% trên GLUE và RoBERTa đã đạt được 88,5%.

® SQuAD: SQuAD là một tập dữ liệu về hỏi đáp dựa trên văn bản và đòi

hỏi mô hình trả lời các câu hỏi dựa trên thông tin có trong văn bản BERT

đã đạt được kết quả tốt nhất trên SQuAD với độ chính xác 93,2%, còn

RoBER Ta đã đạt được 96,4% độ chính xác trên SQUAD.

e SuperGLUE: SuperGLUE là một tập dữ liệu lớn hơn GLUE và bao gồm

các tác vụ phức tạp hơn BERT đã đạt được độ chính xác 88,4% trên SuperGLUE và RoBERTa đã dat được 90,9% độ chính xác.

1.4.3.3.6 PhoBERT.

PhoBERT (“Phở” BERT) là phiên ban BERT được xây dung cho các tác vụ xử

lý ngôn ngữ dành riêng cho tiêng Việt và được dựa trên kiến trúc của mô hình ROBERTacủa VinAI công bố vào năm 2020 Cũng giống như BERT, PhoBERT có 2 phiên ban

PhoBERTpasz và PhoBERTLAnor Theo như tác giả Dat Quoc Nguyen và Anh Tuan

Nguyen, có 2 khó khăn khi xây dựng bộ mô hình ngôn ngữ tiếng Việt:

- Wikipedia tiếng Việt là bộ dir liệu duy nhất để huấn luyện mô hình đơn ngôn

ngữ (Vu và cộng sự, 2019), và đó cũng là bộ dit liệu tiếng Việt duy nhất được sửdụng đề huấn luyện các mô hình đa ngôn ngữ trên thế giới (trừ XLM-r) Rõ ràng

là không đáng ké do bộ dữ liệu Wikipedia tiếng Việt rat nhỏ (chỉ khoảng 1GB —theo bài nghiên cứu về PhoBERT, so với khoảng 18.9 GB là kích thước của bộ

dữ liệu Wikipedia tiếng Anh — số liệu lay từ tháng 12/2020 trên Google) Trongkhi cần nhiều dữ liệu hơn dé tăng kết quả của mô hình ngôn ngữ

- _ Tiếng Việt có nhiều phần có cấu trúc phức tạp hơn so với tiếng Anh Điển hình

là dau cách trong tiếng Việt còn dùng dé phân cách các âm tiết trong 1 từ, khôngphải là công cụ phân tách các từ mạnh như trong tiếng Anh (như đã đề cập ở mục

Phân đoạn từ) Do đó nêu không tiến hành phân đoạn từ, sẽ rất khó dé huấn luyệnđược một mô hình đơn ngôn ngữ tốt dành riêng cho tiếng Việt

27

Trang 28

Nhăm giải quyết van dé đầu tiên, nhóm của tác giả sử dụng thêm một bộ dữ liệuđược lẫy từ các trang tin tức của Việt Nam sau khi loại bỏ các tiêu đề trùng lặp (khoảng19GB), kết hợp với bộ dữ liệu từ Wikipedia tiếng Việt (1GB) Tổng cộng là 20GB dữliệu, phù hợp cho quá trình huấn luyện mô hình ngôn ngữ Tiếp đến là vấn đề phân

đoạn, PhoBERT sử dụng RDRSegmenter (Nguyen và cộng sự, 2018) trong gói

VnCoreNLP (Vu và cộng sự, 2018) được mô tả ở phần trên Tác giả tiễn hành phân

đoạn từ cho khoảng 145 triệu câu (khoảng 3 ty token từ) Khác với RoBERTa,

PhoBERT áp dụng fastBPE (Sennrich và cộng sự, 2016) để phân khúc các câu với cácphụ từ Bộ từ điển được dùng bao gồm 64000 phụ từ Trung bình mỗi câu có khoảng

24.4 phụ từ.

Mô hình PhoBERT được triển khai dựa trên mô hình RoBERTa trước đó được

phát triển bởi Facebook Mô hình được tối ưu bởi thuật toán Adam dựa theo nghiên cứucủa Liu và cộng sự (2019) với kích thước batch là 1024 và tốc độ học tối đa = 0.0004cho PhoBERTsasz ; bên cạnh đó, kích thước batch là 512 với tốc độ học tối đa = 0.0002cho PhoBERT;arce Mô hình được huấn luyện trên 4 chiếc GPU V100 (dung lượng

16GB mỗi chiếc) với 40 epochs (vòng lặp) Mô hình PhoBERTaase được huấn luyệntrong 3 tuần và PhoBERTLano được huấn luyện trong 5 tuần

PhoBERT là một phiên bản tiếng Việt của mô hình BERT được dao tạo trên mộttập dữ liệu tiếng Việt lớn PhoBERT đã đạt được kết quả rất ấn tượng trên nhiều bài

toán tiếng Việt, trong đó bao gồm các bộ dữ liệu sau:

e VNTC: VNTC là một tập dữ liệu lớn về phân loại văn bản tiếng Việt

PhoBERT đã đạt được độ chính xác 92,1% trên VNTC, vượt qua kết quảcủa các mô hình tiếng Việt khác

e VLSP 2018: VLSP 2018 là một cuộc thi phân loại ý kiến tiếng Việt trên

các bài báo điện tử PhoBERT đã đạt được kết quả tốt nhất trên VLSP

2018, với độ chính xác 90,2%.

e XNLI Việt Nam: XNLI là một tập dữ liệu về dịch máy đa ngôn ngữ XNLI

Việt Nam là phiên bản tiếng Việt của XNLI PhoBERT đã đạt được độchính xác 81,4% trên XNLI Việt Nam, vượt qua kết quả của các mô hình

đa ngôn ngữ khác.

e PMB-QA: PMB-QA là một tập dữ liệu về hỏi đáp văn bản tiếng Việt

PhoBERT đã dat được kết quả tốt nhất trên PMB-QA, với độ chính xác

Trang 29

nhà nghiên cứu cũng như phát triển trí tuệ nhân tạo PyTorch cung cấp nhiều giải phápcho các mô hình học sâu (deep learning) với kiểu đữ liệu tensor phù hợp trong việc lưu

trữ các mảng dữ liệu lớn Chính vì vậy, PyTorch đã nhanh chóng trở thành một trong

những bộ công cụ mạnh mẽ nhất cho các nhà phát triển khoa học dữ liệu và trí tuệ nhân

tạo, bên cạnh Keras hay Tensorflow.

PyTorch tích hợp các lớp trong các mạng noron cơ bản như LSTM, CNN, ReLU,

Sigmoid, Softmax Regression, Đồng thời tự động tính toán các trọng số bằng cách

sử dụng tài nguyên máy tính như GPU (Graphic Processing Unit - Bộ xử lý đồ hoạ,CPU (Central Processing Unit - Bộ xử lý trung tâm) Hiện nay ở Việt Nam có nhiềudoanh nghiệp lớn sử dụng PyTorch trong quá trình nghiên cứu cũng như phát triển sảnphẩm của mình như Viettel, VinAI, VinBigData, FPT,

1.4.3.4.2 Scikit-learn.

Nếu như PyTorch là công cụ tích hợp nhiều các mô hình hay kiểu dữ liệu phục

vụ cho trí tuệ nhân tạo thì Scikit-learn tích hợp các mô hình học máy và khai phá dữ

liệu như Decison Tree (cây quyết định), hồi quy Logistic, SVM, KNN Scikit-learn

là một bộ công cụ mã nguồn mở đơn giản và hiệu quả cho phân tích dữ liệu và có thểđược sử dụng cho nhiều các bối cảnh khác nhau Scikit-learn được xây dựng dựa trên

các thư viên Numpy (thư viện chuyên về xử lý dit liệu dạng mang), SciPy (thư viện vềtoán học) và Matplotlib (thư viện về trực quan hoá dữ liệu) Tất cả đều được xây dựng

trên nền ngôn ngữ C/C++ hoặc Matlab dé tối ưu tốc độ tính toán nhưng van sử dụngcấu trúc câu lệnh Python đơn giản

1.4.3.4.3 Hugging Face.

Hugging Face là một hệ sinh thái tích hop các mô hình NLP đã huấn luyện sẵnnhư BERT, RoBERTA, phoBERT, Đây là một hệ sinh thái mã nguồn mở hoàn toànmiễn phí được đón nhận và sử dụng rộng rãi trong cộng đồng nghiên cứu về NLP với

đa dang các mô hình nổi tiếng liên quan tới mô hình transformers (mô hình biến đôi),nhiều các bộ dữ liệu công khai, công cụ tách từ được tích hợp san, và các tinh năng hỗtrợ tăng tốc mô hình tích hợp với PyTorch, sử dụng phần cứng như CPU hay GPU déhuấn luyện

Các mô hình huấn luyện sẵn trên Hugging Face có thé sử dụng dé tinh chỉnh(fine-tuning: sử dụng sẵn kiến thức từ mô hình này và tinh chỉnh lại để giúp mô hìnhhọc được một tác vụ tương đồng) hay học chuyền giao (transfer learning: sử dụng kiénthức từ mô hình này va bô sung dtr liệu khác dé giúp mô hình hoc được tác vu khác).Trong bài nghiên cứu này, kỹ thuật fine-tuning sẽ được sử dụng nhằm giúp mô hình

29

Trang 30

phoBERT được huấn luyện sẵn bởi VinAI “học” thêm kỹ năng dự đoán thái độ củangười dùng từ những đánh giá trên trang đặt đồ ăn Foody.

30

Định dạng
Số trang	60
Dung lượng	15,93 MB

Tiêu đề	Phân tích cảm xúc của người dùng trên trang Thương mại điện tử Foody
Tác giả	Trần Ngọc Kiên
Người hướng dẫn	TS. Chu Thị Bích Ngọc
Trường học	Trường Đại Học Kinh Tế Quốc Dân
Chuyên ngành	Thống kê kinh tế
Thể loại	Chuyên đề thực tập tốt nghiệp
Năm xuất bản	2023
Thành phố	Hà Nội