Bài nghiên cứu sẽ ung dụng các kỹ thuật Natural Language Processing NLP-Xử lý ngôn ngữ tự nhiên phô biến trong thống kê, khai phá dữ liệu và học sâu, nhằm phân tích các đặc trưng của các
Trang 1TRUONG ĐẠI HOC KINH TE QUOC DÂN
KHOA THONG KE
CHUYEN DE THUC TAP TOT NGHIEP
Người hướng dẫn : TS Chu Thị Bich NgọcSinh viên thực hiện: Trần Ngọc Kiên
Lớp : Thống kê kinh tế 61A
Hà Nội-2023
Trang 2Phụ lục
LOT CAM ĐOANN 5< 2.922.449.434 0771130 E202431 E972434 E9rAa1pEetrsdeeotrrsdee 4
LOT CẢM ƠNN 5< HH7 07034077944 97744 07744090941 929410294 prree 5
PHAN MỞ ĐẦU onsssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssesessssnssssssseesssssesess 6
Li do Chon dé 81 ) 6
Mục dich nghiÊn CỨU d d G6 5É 2 9 9999 99.99 998990 99980400090980500808906 8 7
Đối tượng & Phạm vi nghiên €ứu -. e- 2s s2 ssssssssssessessezssessessesssrsee 7
Phương pháp nghiÊn CỨU << 6 9< 5 9 9.9 99.909.000.000 06 7
Cá 8n 0Š 8
CHƯƠNG 1: LÝ LUẬN CHUNG VE ĐÁNH GIA CUA NGƯỜI DUNG TREN TRANG THUONG MAI DIEN TU VA CAC PHUONG PHAP XU LY NGON NGU TỰ NHIÊN sssssssssssssssssssssssssscssssssssseosesssssssecsssssssssecssssssssssssssssssnsessssssssssesenseess 10
1.1 Tổng quan về van đề nghiên cứu . -°ssssssss+ssszssessessesszssscsee 101.2 Đề xuất mô hình nghiên €ứu << s°s£ s£ se s£Ss£Ss£ss£se se se =sessesses 111.3 Những vấn đề chung về Thương mại điện (ử - se sesssssessee 12
L.3.1 Thuong mai 1g nan 12 1.3.2 Sàn thương MAI iN ÍÚ: .c- 5= sọ 9 vế 12
1.3.3 Nhà cung cấp trên sàn thương mại điện tử . . . 12
1.3.4 Người dùng trên sàn thương mại điỆN fÚ: <<<<<<<<< 13 1.3.5 Đánh Sid của Hgười đÙNHg «<< i ng 13
1.3.6 Nguôn dữ liệu trén ÏTH€TH€I e2 555 ©se©cecreerserserxeerseree 131.4 Những van đề chung về các phương pháp phân loại văn bản 14
1.4.1 Khoa NC dit ÏÏỆU c- << < << < 1 ve 14
1.4.2 Xử lý ngôn NUH CW TIÏIÏÊNH c- G5 Ă << St xi 1 91 193 99v ve 14
1.4.3 Bài toán Phân loại VGN ĐẲIH Si 1 1 ng 15
CHƯƠNG 2: QUY TRÌNH ĐÁNH GIÁ CẢM XÚC NGƯỜI DÙNG TRÊN
TRANG THƯƠNG MẠI ĐIỆN TỬ FOODY - 25s csecssessessersscssss 31
2.1 Các đặc trưng cơ bản về bộ dữ liệu .s s-s<ssssssecssesssssesserserssss 31
2.1.1 Thu thập và xử lý dit HIỆU << nh nung, 31
2.1.2 Phân bô về điêm của người đÙng co s1 se 33
Trang 32.1.3 Gán nhấn Aik LGU .-œ- 5-5 + 5 2 5 9 90900100 090040.080000550 34
2.2 Tiền xử lý đữ liệu 2s +©es+Y+se©E+e©Eke©EAAEEAAEEEAACEEAAeErkserrkerrrssee 38
2.2.1 Làm sạch dit liệu van ÙỈH o << <5 5= s9 38
2.2.2 Phân COM (Ù 5 << HH TH cọ TH TH ch 40
2.2.3 Đám NGY 10 HG ÍT s- < ì H H H HHÌ h nư nHngugờ 40
2.2.4 Vector NOG VAN ĐẲH - << 5= << ch 42
2.3 Các chỉ số đánh giá hiệu quả mô hình . 2 2s se ssessessesssessese 43
2.3.1 DG CHINN XIỐC << HH HH T I gg 43
2.3.2 Precision về ÏÑ€C(ÏÏ, ós- << họ Ti 44
"NT nẽ nh nh 44
2.3.4 Đường cong ÌÑOC - s- << sọ TH it ườ 45
2.4 Kết quả mô hình phân lớp 2 nhãn . 2-2-5 sssssesseseese=sessessess 46
2.4.1 Kết quả ứng dụng mô hình hồi quy Logistic . - 462.4.2 Kết quả ứng dụng mô hình Naive Bayes -« <«- 47
2.4.3 Kết quả ứng dụng mô hình SVM scessssessessesssessessesssessesesssessesees 48
2.4.4 Kết quả ứng dụng mô hình phoBE.RT . . -s scss se 492.5 Kết quả mô hình phân lớp 3 nhãn 2-2-2 s sssessese=se=sssessese 50
2.5.1 Kết quả ứng dụng mô hình hồi quy Logisti - - 50
2.5.2 Kết quả ứng dụng mô hình Naive Bayes - s5: 52
2.5.3 Kết quả ứng dụng mô hình SVM .ve.essesessecssessesessesssessessesseessesees 33
2.5.4 Kết quả ứng dụng mô hình phoBERT . c5 ©-scse- 54
KET LUẬN VÀ KIÊN NGHỊ, 2< << ©se£EsetxsEssersetssersserssrrssersee 56
TÀI LIEU THAM KHHẢO - 2-2-2 22s s2£Ess£SseEsseEsserssersersserssersee 60
Trang 4LỜI CAM ĐOAN
Tôi tên là Trần Ngọc Kiên, mã số sinh viên 11192625, khóa 61, giảng viênhướng dẫn là TS Chu Thị Bích Ngọc Tôi xin cam đoan đề án: “Phân tích cảm xúc của
người dùng trên trang Thương mại điện tử Foody.” là một công trình nghiên cứu độc
lập dưới sự hướng dẫn của giảng viên hướng dẫn TS Chu Thị Bích Ngọc, ngoài ra
không có bat cứ sự sao chép của người khác Nghiên cứu này là sản pham mà tôi đã nỗlực thực hiện trong quá trình học tập Các số liệu, kết quả trình bày trong báo cáo là
hoàn toàn trung thực Tôi xin chân thành cảm ơn.
Hà Nội, ngày 12 tháng 04 năm 2023
Người cam đoan
Trần Ngọc Kiên
Trang 5LOI CAM ON
Em xin bày tỏ long biết ơn tới Trường Dai học Kinh tế Quốc dân, tập thé thay
cô ở Khoa Thống kê đã tạo điều kiện hỗ trợ, giúp đỡ em trong suốt quá trình học tập vànghiên cứu Đặc biệt em xin gừi lời cảm ơn sâu sắc tới TS Chu Thị Bích Ngọc đã tậntình hướng dẫn và có nhiều ý kiến đóng góp quý báu dé tác giả có thé hoàn thành chuyên
đề thực tập này
Một lần nữa, xin cảm ơn gia đình, bạn bè, thầy cô trong trường và khoa đã luônủng hộ, động viên và chia sẻ khó khăn, cảm ơn thầy cô đã luôn tận tình chỉ dạy và hỗtrợ em trong suốt quá trình học tập và nghiên cứu
Sinh viên thực hiện
Trần Ngọc Kiên
Trang 6PHAN MỞ DAU
Li do chon dé tai
Phân tích dữ liệu của khách hang là một bai toán không hề xa lạ với những ngườilàm thống kê, những chuyên viên về xử lý dit liệu Việc thu thập được thông tin, phảnhồi của khách hàng là một lợi thé tuyệt vời của các doanh nghiệp, tô chức; giúp họ nambắt được điểm mạnh, điểm yếu trong sản phẩm và dịch vụ của mình Từ đó có thể nhanhchóng năm bắt được tâm lý và nhu cầu của khách hàng, mang đến cho họ trải nghiệm
về sản phẩm và dịch vụ tốt nhất
Ngày nay, với sự tiến bộ của khoa học máy tính và công nghệ lưu trữ hay tínhtoán, nguồn dữ liệu đã và đang trở nên đa dạng và phong phú hơn bao giờ hết Hiện
nay, dữ liệu thu thập được của khách hàng không chỉ có những thông tin thu thập được
từ bảng hỏi, những dữ liệu số điện thoại, email có được khi khách mua hàng; mà còn
có những dữ liệu phi cấu trúc như ảnh, âm thanh, hay những bình luận của khách hàng
trên các nền tảng xã hội Việc lưu trữ và phân tích các loại dữ liệu này mang lại thửthách lớn hơn các kiểu dữ liệu cau trúc cổ điển rất nhiều, có thé phải sử dụng đến những
phương pháp hiện đại như Big Data (Dữ liệu lớn), Machine Learning (Học máy), Deep
Learning (Học sâu) Tuy nhiên nếu có thê tận dụng được, các doanh nghiệp hay tổ chức
sẽ thu được những lợi ích rất lớn, có thé quảng bá nhiều các sản phâm có khả năng hợpvới nhu cầu của khách hàng hơn, từ đó tăng được lượng mua của khách hàng, mang lạinhiều doanh thu hơn cho tổ chức
Do đó, em quyết định chọn đề tài Phân tích cảm xúc của người dùng trên trangthương mại điện tử Foody Đề tài nghiên cứu dựa trên dữ liệu trên sàn thương mại điện
tử Foody, một trang chuyên về đặt đồ ăn Dữ liệu được thu thập bao gồm hơn 40000
bình luận dạng văn bản kèm theo đánh giá về sản phẩm mà khách đặt Bài nghiên cứu
sẽ ung dụng các kỹ thuật Natural Language Processing (NLP-Xử lý ngôn ngữ tự nhiên)
phô biến trong thống kê, khai phá dữ liệu và học sâu, nhằm phân tích các đặc trưng của
các bình luận này và đưa ra dự đoán bình luận đó là tích cực, trung lập hay tiêu cực,
nhằm đem lại trải nghiệm tốt hơn cho người dùng ở những lần đặt hàng sau
Trang 7Mục đích nghiên cứu
Mục tiêu của nghiên cứu này nhằm phân tích các đánh giá của người dùng về
chất lượng đồ ăn trên trang thương mại điện tử Foody từ đó đưa ra dự đoán phù hợp về
cảm xúc của người dùng khi mua hàng cho cả những bình luận thiếu mất phần điểm
đánh giá Dựa trên kết quả đó đưa ra những giải pháp và kiến nghị nhăm thúc đây quảng
bá sản phẩm phù hợp hơn với người tiêu dùng
Mục đích cụ thể:
- Nghiên cứu va áp dụng các mô hình tiền xử ly văn ban nham làm sạch, phânđoạn từ trên nền tảng Foody
- Hệ thống hóa cơ sở ly thuyết về thương mại điện tử cũng như thống kê, ứng dụng
mô hình PhoBERT nhằm vector hoá văn bản kết hợp phân tích và các thuật toán khai
phá dữ liệu như SVM, hồi quy Logistics, Naive Bayes, nhằm dự đoán thái độ tích
cực hay tiêu cực của người dùng.
- Xây dung mô hình va dự đoán cam xúc của người dùng biêu hiện qua đánh giá.
- Đề xuất và kiến nghị nhằm thúc day lượng mua của người dùng trên Foody
Đối tượng & Phạm vỉ nghiên cứu
Cảm xúc của người dùng khi đặt mua sản phẩm trên Foody thông qua các bình luận
trong năm 2021-2022.
‹ _ Đối tượng nghiệp cứu: Những bình luận về sản phẩm trên trang thương mại
điện tử Foody.
e Pham vi nghiên cứu: Việt Nam.
Phương pháp nghiên cứu
Thu thập dữ liệu
Dữ liệu cho chuyên đề được thu thập từ những đánh giá của người dùng trên trang
thương mại điện tử Foody Những người dùng sau khi sử dụng dịch vụ thường sẽ được
hệ thống đề xuất một phan quà nhỏ như mã giảm giá, điểm tích luỹ để viết bài đánh giákèm theo cho điểm Tuy nhiên, vì nhiều lý do như lỗi hệ thống, người dùng quên không
cho điểm, một phan các đánh giá trên Foody thiếu mat mục điểm số Các bình luận trênFoody hầu như đều có độ dài khá ôn, có tính xác thực khá cao, những đánh giá sai lệchcũng như spam thường sẽ bị kiểm duyệt và loại bỏ
Trang 8Phân tích
Nghiên cứu tập trung vào tiền xử lý do tính phức tạp của mơ hình Trước hết là
sử dụng các cơng cụ tìm kiếm tích hợp trong các ngơn ngữ lập trình để làm sạch vănbản, sau đĩ dùng mơ hình RDRSegmenter tích hợp trong gĩi VNCoreNLP đề phân đoạn
các từ và cuối cùng sử dụng phương pháp TF-IDF nhằm vector hố văn ban dé tiễn
hành đưa vào chạy mơ hình.
Từ các vector được mã hố, nghiên cứu ứng dụng các mơ hình khai phá dữ liệu
đơn giản như hồi quy Logistic, Nạve Bayes, SVM nhằm tính tốn các đặc trưng của
vector mã hố và đưa ra dự đốn Ngồi ra, nghiên cứu cịn ứng dụng một mơ hình học
sâu khác nhằm mục đích tham khảo và so sánh: mơ hình PhoBERT cho bài tốn phânloại cảm xúc Bằng các mơ hình trên, nghiên cứu tiễn hành phân loại các bình luận thành
3 nhĩm: tích cực/trung lập/tiêu cực hoặc thành 2 nhĩm tích cực/tiêu cực và đưa ra các
mơ hình tốt nhất dựa trên việc chạy thực nghiệm các mơ hình trên các cách phân loại
nhãn khác nhau.
Kết cau đề tai
Dé án của nhĩm gơm những phân sau:
- Phan mở đầu: Giới thiệu tổng quát đề tài nghiên cứu, lý do chọn đề tài, mục tiêu,
đối tượng nghiên cứu và phạm vi
- _ Chương 1: Lý luận chung về đánh giá của người dùng trên trang thương mại điện
tử và các phương pháp xử lý ngơn ngữ tự nhiên Chương này tập trung giải thích
các khái niệm cĩ trong dé tài, đồng thời lý luận những van đề tơng quan, nêu ý
nghĩa của đề tài nghiên cứu và đề xuất phương pháp, mơ hình nghiên cứu
- Chương 2: Quy trình đánh giá cảm xúc của người dùng trên trang thương mai
điện tử Foody.
+ Vì bộ đữ liệu lấy trực tiếp từ những đánh giá trên Foody, hồn tồn chưa qua
xử lý nên ở chương này, nghiên cứu sẽ tiến hành tiền xử lý những đánh giá này
Đây là bước quan trọng trong những bài tốn NLP vì dữ liệu thu thập được
thường khơng được “đẹp” như dữ liệu dạng bảng, gồm rất nhiều từ viết tắt, email,
số điện thoại, hồn tồn cĩ thé gây anh hưởng lớn đến kết quả mơ hình về sau
+ Bên cạnh đĩ nghiên cứu sẽ phân tích qua các đặc điểm chung của bộ dữ liệudựa trên các từ ngữ phơ biến hay gặp và đánh giá của người dùng Dựa trên phânphối điểm và các bình luận cụ thể của từng nhĩm điểm, nghiên cứu sẽ gán nhãncho các đánh giá nhằm tiến hành chạy mơ hình cho phan sau
Trang 9+ Sau cùng nghiên cứu sẽ tiến hành phân tích bằng các mô hình hay được sửdụng trong các bài toán phân lớp và tiễn hành dự đoán rồi đưa ra kết quả về hiệu
năng của mô hình tương ứng, so sánh giữa các mô hình và chọn ra mô hình tốt
nhất
Kết luận và kiến nghị Chương cuối cùng nghiên cứu đưa ra những so sánh về
mô hình, cách gán nhãn và thời gian chạy Từ đó đưa ra các kiến nghị dựa trênđặc điểm dit liệu cũng như đề xuất các mô hình phù hợp
Trang 10CHUONG 1: LÝ LUẬN CHUNG VE ĐÁNH GIA CUA NGƯỜI DUNG TREN
TRANG THUONG MẠI ĐIỆN TU VÀ CÁC PHƯƠNG PHAP XỬ LÝ
NGÔN NGỮ TỰ NHIÊN
1.1 Tổng quan về vấn đề nghiên cứu
Thương mại điện tử trong những năm qua đã có sự bùng phát trên thị trường thếgiới và trở thành đòn bay cho sự tăng trưởng kinh tế và thương mại ở nhiều quốc giatrong môi trường toàn cầu hoá Có thé coi đây là một lĩnh vực giao thoa giữa thươngmại truyền thống và công nghệ thông tin đang càng ngày càng phát triển Trong thương
mại điện tử, các công tác người dùng hoá và marketing một mục tiêu, tương tác
một-một được đầu tư phát triển mạnh hơn nhiều so với thương mại truyền thống Bên cạnh
đó, lượng dữ liệu thu thập được trên các trang thương mại điện tử vô cùng dồi dào Mỗi
ngày có hàng triệu các đơn hàng được đặt từ các sản thương mại điện tử, kèm theo các
đánh giá, hình ảnh liên quan Tuy nhiên van đề nảy sinh ra là dit liệu trên những sànthương mại điện tử này hầu hết đều ở dang dữ liệu phi cau trúc (những loại dữ liệu vănbản, hình ảnh, âm thanh, ) khác biệt rất lớn so với dữ liệu bảng thông thường nên việcphân tích cũng như lưu trữ cũng gặp nhiều khó khăn, không thể sử dụng các cơ sở dữliệu quan hệ hay các phương pháp thống kê đơn giản để xử lý
Với sự phát triển của khoa học công nghệ, các phương pháp thống kê ngày càng
trở nên mạnh mẽ với sự kết hợp của toán học cũng như công nghệ tính toán Ngày nayvới sự trợ giúp của những thiết bị máy tính mạnh mẽ, chúng ta có thể thiết kế những môhình học máy với hàng tỷ các biến số với hiệu năng cao hơn nhiều so với các mô hìnhtoán và thong kê cổ điển Bài toán dự đoán thái độ của người dùng dựa trên phản hồiđánh giá không còn là đề tài quá mới mẻ trong phân tích dữ liệu Trong 10 năm trở lại
đây, có nhiều những nghiên cứu được xem là bước nhảy vọt trong xử lý ngôn ngữ tự nhiên như “Attention Is All You Neeđ” (tạm dịch là Sự chú ý là tất cả chúng ta cần) về
mô hình Transformers (mạng biến đổi) của Ashish Vaswani, Noam Shazeer, Niki
Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, Illia
Polosukhin là những nhà nghiên cứu từ Google nham cải thiện công nghệ dich máy của
mình và công nghệ đi ngay sau nó chuyên sâu hơn cho các bài toán phân loại văn bản
như trong đề tài nghiên cứu là “BERT: Pre-training of Deep Bidirectional Transformers
for Language Understanding” (tạm dịch là BERT: Mô hình biến đổi 2 chiều dùng trong
xử lý ngôn ngữ) cua Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova.
Ca 2 công nghệ trên ngay sau khi được công bố đều đem lại một làn sóng đột phá rấtlớn tới cộng đồng những nhà phân tích dữ liệu chuyên sâu về ngôn ngữ tự nhiên Ở Việt
Nam, VinAI cũng có một phiên ban BERT của riêng mình là “PhoBERT: Pre-trained
language models for Vietnamese” (PhoBERT: mô hình ngôn ngữ cho Tiếng Việt) củaDat Quoc Nguyen, Anh Tuan Nguyen với cái tên lay cảm hứng từ món ăn đặc trưng ởViệt Nam là “Phở” Rất nhiều những nghiên cứu sau này đều được tiễn hành dựa trên
10
Trang 11các mô hình mạng biến đổi hay BERT với bài toán khá tương tự với dé tài nghiên như
“Vietnamese hate and offensive detection using PhoBERT-CNN and social media
streaming data” (tạm dịch: Phat hiện thai độ tiêu cực sử dung PhoBERT-CNN từ nền
tảng xã hội trực tuyến) từ Quoc Tran Khanh, Trong Nguyen An, Hoang Phu Gia, Luu
Canh Duc, Do Trong-Hop & Nguyen Kiet Van va A Text Classification for Vietnamese
Feedback via PhoBERT-Based Deep Learning (Phân loại văn bản cho các phan hồi
Tiếng Việt qua PhoBERT) của Cu Vinh Loc, Truong Xuan Viet, Tran Hoang Viet, Le
Hoang Thao & Nguyen Hoang Viet Do vay, em quyết định sử dung các bình luận trên
Foody dé đưa vào phân tích và đưa ra dự đoán phù hợp về đánh giá của người dùng sử
dụng PhoBERT nêu trên và một số các phương pháp khai phá đữ liệu cơ bản như SVM,
Hồi quy Logistics, Naive Bayes, nhằm so sánh hiệu quả của các mô hình dé chọn ra
mô hình tốt nhất
1.2 Đề xuất mô hình nghiên cứu
Dựa trên cơ sở các nghiên cứu nêu ở phân tông quan, nhóm nghiên cứu đê xuât
mô hình nghiên cứu như sau.
Vector
người dùng tính toán vê sản phâm
Bình luận của được Cảm xúc của người dùng
từ văn
bản
Biến độc lập Biến phụ thuộc
Bình luận của người dùng là dạng văn bản phi cấu trúc, do đó sẽ không thể trựctiếp đưa vào phân tích được Vì vậy sẽ phải mã hoá thành dạng véc tơ phù hợp bằng các
phương pháp vector hoá dùng phô biến trong xử lý ngôn ngữ tự nhiên là TF-IDF Từ
các véc tơ được mã hoá chứa thông tin của ngôn ngữ kết hợp với điểm dự đoán thu thập
được, ta sẽ đưa vào mô hình huấn luyện và dé tiến hành dự đoán thái độ của người dùng
về sản phâm đã đặt trước đó
11
Trang 123 Những vấn đề chung về Thương mại điện tử.
1.3.1 Thương mại điện tử.
Thuong mại điện tử (Electronic commerce hay eCommerce) là khái niệm được
dùng dé mô tả quá trình mua và bán hoặc trao đôi sản phẩm, dịch vụ thông qua manginternet Khái niệm trên là kết hợp của thuật ngữ “Thương mại” được hiểu rộng rãi là
quá trình trao đôi, giao dịch giữa các bên kinh doanh; và “điện tử” là các thiết bị điện
tử Do vậy, thương mại điện tử có thể hiểu đơn giản là mua và bán hàng hoá, dịch vụ ở
trên mạng, thông qua các phương thức điện tử.
Với sự phát triển của mạng máy tính, các phương thức thanh toán ngày càng trở
nên đa dạng và phô biến, thương mại điện tử là một trong những thuật ngữ, những ngành
nghề trở nên phổ biến những năm gần đây ở Việt Nam nói riêng hay toàn thế giới nóichung Những năm gần đây, những sàn thương mại điện tử ngày một mọc lên và phát
triển với tốc độ chóng mặt như Shopee, Lazada, Tiki, với hàng triệu giao dịch hàng
ngày Chính vì sự phát triển mạnh mẽ này kết hợp với cơ sở hạ tầng số ngày càng đượcđầu tư phát triển của nước ta hiện nay, các doanh nghiệp đã và đang giành sự quan tâmmạnh mẽ đến lĩnh vực này Hiện nay không khó bắt gặp các kênh bán của những thươnghiệu nồi tiếng trên thế giới như Samsung, NVIDIA, LG, trên các san thương mại điện
tử, một số bên còn có riêng sàn cho riêng mình Có thể nói, thương mại điện tử đã trởthành yếu tố xúc tác làm thay đổi cơ cấu hoạt động và quan lý của các tô chức
1.3.2 Sàn thương mại điện tử.
Sàn thương mại điện tử được hiểu là một không gian mạng được mở ra nhằmmục đích giao bán những sản phẩm dich vụ từ đa dang các nhà cung cấp một cách trựctiếp đến người tiêu dùng Mỗi ngày có đến hàng triệu các giao dịch được diễn ra trên
một sản thương mại điện tử lớn.
San thương mại điên tử mang đến nhiều loi ích cho người tiêu dùng Đồng thời với hệthống giao hàng công nghệ được phát triển song song mạnh mẽ, người mua hàng có thểnhận hàng ở nơi mình mong muốn mà không tốn công sức đi lại Chính vì vậy, đâychính là hình thức mua sắm được đây mạnh trong những năm vừa qua
1.3.3 Nhà cung cấp trên sàn thương mại điện tử
Nhà cung cấp trên sản thương mại điện tử là những các nhân hay tô chức cungcấp hàng hoá và tham gia bán hàng trên các sàn thương mại điện tử Các bên nhà cung
cấp sẽ phải đồng ý với những chính sách cũng như chỉ phí, thuế suất phải trả cho sàn và nhà nước, cũng như phải đảm bảo nguồn cung hàng hoá và cung cấp hàng đúng thời
hạn cho bên vận chuyền.
12
Trang 131.3.4 Người dùng trên sàn thương mại điện tử.
Nếu như nhà cung cấp trên sàn thương mại điện tử chính là người bán thì người
dùng trên sàn sẽ là người mua Người dùng trên sàn được định danh bằng tài khoản cánhân hoặc một số trường hợp có thể là tài khoản dành riêng cho doanh nghiệp Tàikhoản cá nhân của người dùng thông thường cần cung cấp đầy đủ các thông tin như têntuổi, số điện thoại, địa chỉ, email, số căn cước công dân, hộ chiếu hay mã số thuế tuỳ
vào các đối tượng khác nhau dé được hưởng day đủ chính sách của sàn Người dùngtrong sàn thương mại điện tử là một đối tượng có khả năng xem và mua hàng, nhắn tincho người ban và dé lại những đánh giá về sản phẩm
1.3.5 Đánh giá của người dùng.
Đánh giá của người dùng chính là những bình luận của người dùng về hàng hoáhay dịch vụ sau khi đã mua và trải nghiệm qua sản phẩm Thường thì đánh giá của ngườitiêu dùng sẽ được chia làm 2 phần: phần bình luận (dạng văn bản) và phần điểm đánh
giá (thang đo định khoảng từ 0-10).
1.3.6 Nguồn dữ liệu trên Internet
Với sự thúc day của Internet, nội dung do người dùng tạo (user-generated contenthay UI) ngày nay đã va dang phát triển nhanh chóng, đặc biệt là với sự lan rộng củaWeb 2.0 và ngày nay đã phát triển thành Web 3.0, ngoài việc chia sẻ kinh nghiệm của
họ, khách du lịch hiện có thé đưa ra các đề xuất cụ thé về khách sạn, nhà hàng và điểm
tham quan (Sotiriadis & van Zyl, 2013, Sparks & Browning, 2011; Vermeulen &
Seegers, 2009; Ye, Law, & Gu, 2009; Ye, Zhang, & Law, 2009) Do vay, đánh gia của
người dùng trực tuyến là một kênh quan trọng đã được chứng minh là một nguồn thôngtin có giá tri có thể hỗ trợ các nhà nghiên cứu xác định sở thích và nhu cầu của người
tiêu dùng (Chau & Xu, 2012; Chevalier & Mayzlin, 2006; Clemons, Gao, & Hitt, 2006;
Ghose & Ipeirotis, 2011; Liu, 2006; Ye, Law, Li, & Li, 2011) Các cá nhân mới có thédựa trực tiếp vào trải nghiệm của những người tiêu dùng trước đó khi mua sắm trựctuyến bằng cách bỏ qua các sản phẩm hoặc dịch vụ có đánh giá thấp hoặc mô tả không
rõ ràng, không chính xác, đặc biệt là đối với các sản phẩm có giá tri cao Hơn nữa, một
số công ty tích cực khuyến khích người dùng của họ gửi ý kiến trực tuyến về sản phamhoặc dịch vụ của mình của băng cách gửi tặng các phiếu thưởng hoặc phiếu giảm giá
Các ý kiến đánh giá của người dùng được coi là những phản hồi mang tính tựphát, “insightful” (sâu sắc) và “passionate” (đam mê) bởi người tiêu dùng, được cung
cấp rộng rãi, miễn phí hoặc chi phí thấp và có thé dé dàng truy cập moi lúc moi nơi
(guo2017) Các yếu tổ tiềm an từ người tiêu dùng có thé được nghiên cứu từ khối lượng
lớn các nội dung này Kết quả là, số lượng các nghiên cứu sử dụng các đánh giá trựctuyến của người tiêu dùng ngày càng tăng trong thập trong kỷ qua (Clemons và cộng
sự, 2006; Dellarocas, Zhang, & Awad, 2007; Ho-Dac, Carson, & Moore, 2013) Các
13
Trang 14phương pháp khai thác ý kiến của người dùng đang được chuyên dần từ các phương
pháp điều tra/khảo sát tới tự động hoá dựa trên các đánh giá được người dùng cung cấp
trên mang Do đó, các đánh giá trực tuyến ngày càng trở thành nguồn thông tin hữu ích
cho các doanh nghiệp.
1.4 Những vấn đề chung về các phương pháp phân loại văn bản
1.4.1 Khoa học dữ liệu.
Khoa học dữ liệu là lĩnh vực nghiên cứu dữ liệu nhằm khai thác các khía cạnh
chuyên sâu của dữ liệu có ý nghĩa với các hoạt động kinh doanh Đây là một lĩnh vực
nghiên cứu kết hợp nhiều nguyên tắc và phương pháp của các lĩnh vực khác nhau, trong
đó chủ yếu là toán học, thống kê và khoa học máy tính Khoa học dữ liệu áp dụng cácnguyên lý, phép toán của đại số tuyến tính, giải tích và các nguyên lý xác suất thống kê;sau đó được lập trình và tính toán trên máy tính nhằm phân tích những tập dữ liệu lớn
và phức tạp.
Về cơ bản, thống kê học và khoa học dữ liệu đều giải quyết bài toán dữ liệu bằngcác mô hình kết hợp giữa toán và thống kê Tuy nhiên, các mô hình của thống kê sẽ đềcập nhiều hơn đến cả ý nghĩa của mô hình cũng như giải thích các khía cạnh của bộ dữ
liệu Mặt khác, các mô hình của khoa học dữ liệu thường áp dụng các thuật toán của
khoa học máy tính và được dựa trên nhiều giả định, sử dụng nhiều hàm ngẫu nhiên và
chỉ tập trung vào hiệu quả của mô hình.
1.4.2 Xử lý ngôn ngữ tự nhiên.
Xử lý ngôn ngữ tự nhiên (Natural Languge Processing hay NLP) là một thuật
ngữ dé mô tả một nhánh của khoa học dữ liệu, cụ thé hơn là nhánh về trí tuệ nhân tạo(Artificial Intelligence hay AI), nghiên cứu về việc xây dựng các mô hình hiểu được dữliệu dạng văn bản và lời nói giống với cách con người có thé hiểu được Một số mô hình
ngôn ngữ phổ biến hiện nay như GPT3.0 (sử dụng cho ChatGPT) hay BERT (mô hình
xử lý ngôn ngữ được Google công bố năm 2018), đã cho thấy tiềm năng của lĩnh vực
này.
NLP là sự kết hợp của thuật ngữ máy tính — các mô hình dựa theo quy luật củangôn ngữ con người, với thống kê, học máy và các mô hình học sâu Những công nghệnày kết hợp lại giúp cho máy tính có thé xử lý được ngôn ngữ con người dưới định dạngvan bản (báo chí, bình luận, ) hay định dạng âm thanh (giọng nói) dé có thé hiểu đượcngữ nghĩa, từ đó đưa ra câu đối thoại thích ứng hay phân tích thái độ của người nói hay
việt.
14
Trang 15NLP có nhiều ứng dụng khác nhau như dịch đoạn văn bản này sang ngôn ngữkhác (bài toán dịch máy); phản hồi lại cuộc hội thoại (bài toán chat bot); đánh giá thái
độ của các đánh giá, phản hồi của người dùng (bài toán phân tích cảm xúc) hay sinh ra
đoạn thơ, văn bản từ các cụm từ gợi ý của người dùng (bài toán sinh ngôn ngữ).
1.4.3 Bài toán Phân loại văn bản.
Phân loại văn ban (Text classification) là một bài toán trong bài toán phân tích
thái độ của NLP Sự phát triển của các mô hình ngôn ngữ mạnh như BERT hay GPT đãkhiến NLP trở thành một công cụ quan trọng trong việc khai phá những khía cạnh quantrọng của dữ liệu từ các bài viết trên trang mạng xã hội, từ các phản hồi, đánh giá, nhận
xét, Từ đó có thể nắm bắt cảm xúc của người dùng nhằm đưa ra các chiến lược xúc
tiễn, các thông tin giúp doanh nghiệp cải thiện sản phẩm, nam bat tép khach hang tiém
năng và hơn thê nữa.
Đề có thể xây dựng được một mô hình phân loại văn bản hoàn chỉnh, trước hết dữliệu cần được xử lý chin chu và được mã hoá chính xác Bài toán phân loại văn bản gồm
các bước chính như sau:
- _ Tiền xử lý dữ liệu: chuẩn hoá văn bản, loại bỏ những ký tự và thông tin không
cần thiết (tên, số điện thoại, đường dan, ), phân đoạn từ,
- Vector hoá văn bản: đưa văn ban dạng chuỗi ký tự thành dang vector số thực mã
hoá các đặc trưng về ngữ nghĩa, chuỗi thứ tự
- _ Xây dựng mô hình: nghiên cứu và thử nghiệm nhằm đưa ra mô hinh tốt nhất dé
phân loại văn bản thành các nhãn khác nhau (tích cực/tiêu cực hay tích cực/trung
tuân theo thì biểu thức mới nhận diện được Do vậy, RegEx hay được sử dụng để tìmkiếm các ký tự, chuỗi đặc biệt trong một chuỗi văn bản như số điện thoại, email, đườngdẫn URL, Đó là những thông tin không thực sự quan trọng với mô hình NLP và cần
được loại bỏ đi dé tránh nhiễu mô hình, quá tải bộ nho,
15
Trang 161.4.3.1.2 RDRsegmenter
Phân đoạn từ là một trong những bước đầu tiên và quan trọng nhất trong xử lý
ngôn ngữ Tiếng Việt Không như tiếng Anh, dấu cách trong tiếng Việt không phải làmột dau hiệu rõ ràng dé ngăn cách các từ, bởi vì khi trong ngôn ngữ của chúng ta, nócòn được dùng dé cách giữa các âm tiết riêng biệt dé tạo thành một từ Ví dụ, trong cụm
từ Trường Đại học Kinh tế Quốc dân, tiếng anh là National Economics University
Tiếng Việt có tổng cộng 7 âm tiết ghép thành 4 từ (Trường / Dai_hoc / Kinh tế /
Quốc_ dân), tuy nhiên với tiếng Anh chỉ có 3 âm tiết ghép thành đúng 3 từ National /
Economics / University Cu thé, tiéng Việt có đến 85% từ là tổ hợp của it nhất 2 âm tiết
và hơn 80% âm tiết có nghĩa khi đứng một minh (theo nghiên cứu của Quang Thang
Dinh va cộng sự (2008) và Oanh Thi Tran, Cuong Anh Le, Thuy Quang Ha (2010)).
Điều này khiến cho việc xử lý các văn bản tiếng Việt gặp nhiều khó khăn trở ngại
Nhiều nghiên cứu trước kia đã được công bố dé giải quyết bài toán phân đoạn từtiếng Việt, tuy nhiên vì còn hạn chế về nhân lực cũng như công nghệ thời bây giờ nên
chưa đạt được nhiều hiệu quả cao Mô hình RDRsegmenter được công bố năm 2018 và
là một mô hình mã nguồn mở thuận tiện cho việc nghiên cứu và phát triển Mô hìnhphân đoạn RDRsegmenter được sử dụng trong nhiều dự án NLP ở Việt Nam và điểnhình nhất được sử dụng trong phoBERT — mô hình BERT được VinAI phát triển nhằmgiải quyết các bài toán NLP tiếng Việt RDRsegmenter xây dựng cây phân loại lớp theo
quy tắc gon xuống (Single Classification Ripple Down Rules tree — SCRDR tree) được
phatt rién bới Compton va Jansen vào năm 1990 nhằm sửa lai các phân đoạn bị sai bang
hệ thống khớp phân đoạn từ dài nhất Trên bảng so sánh kết quả trong nghiên cứu của
Nguyễn và cộng sự (2009), kết quả thực nghiệm cho thấy mô hình RDRsegmenter chođược kết quả tốt hơn cả về tốc độ lẫn độ chính xác so với phương pháp JvnSegmenter
(Nguyễn và cộng sự - 2006), vnTokenizer (Lê và cộng sự - 2008), DongDu (Luu và Kazuhide — 2012) và UETsegmenter (Nguyễn và Lê — 2016).
RDRsegmenter sử dụng một cây SCRDR tự động dé sửa cái phân đoạn sai đượctạo ra từ một công cụ phân đoạn gốc Dựa theo nghiên cứu của Nguyen và cộng sự(2006) và Tran và cộng sự (2010), mô hình được đưa về dưới dạng tác vụ gán nhãn chocác âm tiết Cụ thể, mỗi âm tiết được gán nhãn bằng B (Begin of a word-bắt đầu một
từ) hoặc I (Inside of a word-trong một từ).
16
Trang 17Mô hình được huấn luyện trên bộ dữ liệu bao gồm các từ đã được phân đoạn thủcông, ví dụ như “thuế _thu_nhập cá nhân” và được gan nhãn B/I như đã mô tả ở trên(ví dụ "thué/B thư/I nhập/I cá/B nhân/I") Sau đó, các nhà nghiên cứu trích xuất các âm
tiết để xây dựng bộ dữ liệu thô (không có các nhãn phân đoạn B và I và sẽ trông giống
như "thuê thu nhập cá nhân").
Tan Initial Initialized
removal segmenter corpus
Hình 1 Sơ do về quy trình xây dung cây SCRDR của phương pháp RDRSegmenter
Dữ liệu phân đoạn sốc sau khi được gán nhãn sẽ được so sánh với bộ dữ liệuđược khởi tạo từ mô hình dé tạo ra một chuỗi ngữ cảnh với 5 âm tiết mà mỗi cap giá tribao gom một chuỗi cửa số 5 âm tiết chạy theo văn bản cần phân đoạn được dự đoánnhãn B/I và một nhãn B/I chuẩn
Bang 1 Bang minh hoạ chuỗi ngữ cảnh với 5 âm tiết liền nhau
Tuple as key Value
co," thuế B.thu,B nhập D | BV
Trang 18Hinh 2 Cay SCRDR duoc khoi tao ban dau
Sau khi thuc hién du doan bang cây khởi tao, mô hình sẽ tự xem xét và cap nhậpđiều kiện trong các nút và thêm nút mới, dựa trên bộ điều kiện sốc (rule templates) vàtrình chọn điều kiện (rule selector, được lập trình dựa trên các nguyên tắc cập nhật điều
kiện mà nhóm nghiên cứu đặt ra)
Với cây SCRDR đã được huấn luyện, mô hình RDRsegmenter thực hiện phân
đoạn từ trên văn bản chưa được phân đoạn như sau: Bộ phân đoạn ban dau sẽ lay văn
bản chưa được phân đoạn để tạo ra một văn bản khởi tạo dạng B/I Tiếp theo, bang cachtrượt một cửa số có 5 van từ trái sang phải, một bộ giá tri được tạo ra cho mỗi van trongvăn bản khởi tạo; sau đó, cây SCRDR đã học sẽ lay bộ giá tri đó lam đầu vào dé trả vềmột nhãn phân đoạn cuối cùng cho vần tương ứng Cuối cùng, đầu ra của quá trình gánnhãn này được chuyền đổi sang dạng biéu diễn truyền thống dựa trên dấu gạch dưới dé
phân cách các âm tiết trong từ, ví dụ “Trường Đại học Kinh tế Quốc dân” sau khi phânđoạn sẽ thành “Truong Dai_hoc Kinh tế Quốc dân”
1.4.3.2 Vector hoá van bản với TF-IDF.
Vector hoá văn bản, hay nhúng văn ban (Word embedding) là một nhóm các kỹ
thuật đặc biệt trong xử lý ngôn ngữ tự nhiên nhăm ánh xạ một từ hay cụm từ trong một
bộ từ vựng đến một vector số thực Các vector được mã hoá tốt có thể thể hiện được
ngữ nghĩa của từ, thể hiện được cả những mối liên hệ về ngữ nghĩa (đồng nghĩa, trái
nghĩa, ) Hiện nay đã có nhiều mô hình phô biến dé vector hoá văn bản như xây dựng
ma trận đồng xuất hiện, mạng thần kinh nhân tạo (Neural Network) với fast-text hayword2vec; mô hình xác suất thống kê như TF-IDF
TF-IDF (term frequency — inverse document frequency) là một phương pháp
thong kê dùng dé tính trọng số thé hiện mức độ quan trong của một từ trong một vanbản mà văn bản đang xét lại năm trên một tập hợp các văn bản
Đây là một phương pháp xuất pháp từ thực tế rang trong bat kỳ ngôn ngữ nào,cũng có một nhóm các từ tuy ít những tần suất sử dụng lại rất nhiều Phương pháp chỉ
18
Trang 19đơn giản tính toán và kết hợp 2 trọng số TF (term frequency) va IDF (inverse document
frequency) Trong đó:
- TF: dùng dé ước lượng tần xuất xuất hiện của từ trong văn bản Tuy nhiên với
mỗi văn ban thì có độ dài khác nhau, vì thế số lần xuất hiện của từ có thé nhiềuhơn Vì vậy số lần xuất hiện của từ sẽ được chia độ dài của văn bản (tong số tir
trong văn ban đó).
- IDF: dùng dé ước lượng mức độ quan trọng của từ đó như thế nào Khi tính tan
số xuất hiện tf thì các từ đều được coi là quan trọng như nhau Tuy nhiên có một
số từ thường được được sử dụng nhiều nhưng không quan trọng dé thể hiện ý
nghĩa của đoạn van , ví dụ : Từ nối: và, nhưng, tuy nhiên, vì thế, vì vậy, ; giới
từ: ở, trong, trên, ; từ chỉ định: ay, đó, nhi,
Vì vậy ta cần giảm di mức độ quan trọng của những từ đó bang cách sử dung
TF-IDF = TF x IDF
Phương pháp trên thoạt nhìn có vẻ đơn giản và nhiều khuyết điểm tuy nhiên hiệu quathực tế lại cao trên nhiều tệp dữ liệu khác nhau, ngoài ra tốc độ nhanh do độ phúc tạpcủa thuật toán thấp nên được ứng dụng nhiều trong thực tế
1.4.3.3 Các mô hình Phân loại văn bản.
Trong đó P(X) là xác suất xảy ra biến cố X, P(Y) là xác suất xảy ra biến cé Y,
P(XIY) là xác suất xảy ra Y khi biết Y, P(YIX) là xác suất xảy ra biến cố Y khi biết X
19
Trang 20Trong bài tốn phân lớp, nêu biệt được xác suât xảy ra biên mục tiêu y = c từ các biên độc lap x, tức là tính được xác suât đê dau ra là lớp c khi biệt vector dau vào x, bài tốn sẽ được giải quyết.
p(x|c)p(c)
p(x)
Việc tinh P(X) va P(Y) cũng vơ cùng dé dang vì đã cĩ đầy đủ dit liệu cần thiết.Tuy nhiên việc tính xác suất pŒIc) lại phức tạp hon nhiều do X là một biến ngẫu nhiênnhiều chiều và rất khĩ ước lượng phân phối Do đĩ, dé tiện cho việc tính tốn, mơ hình
Naive Bayes được sinh ra với một giả định đơn giản:
c = are max‹ p(clx) = arg max = arg max, p(xlc)p(c)
Trong lớp thứ k, các thành phan của biến ngẫu nhiên X là hồn tồn độc lập
Giả thiết trên là vơ cùng khĩ chấp nhận vì ít nhiều, các thành phần trong vector
X vẫn cĩ sự tương quan với nhau Tuy nhiên trên thực tế, mơ hình này vẫn được sửdụng rộng rãi vì tính đơn giản và vẫn cĩ hiệu quả trên một số bộ đữ liệu nhất định Vớigiả định trên, xác suất P(XIc) cĩ thể được tính như sau:
p(xlc) = p(X1,X2, ,Xal €) = a p(x;\|c)
Các xác suất p(xilc) trong mơ hình được tính tốn bang phương pháp ước lượnghợp lý tối da (maximum likelihood estimation) Cĩ 3 cách tính tốn xác suất phố biếnhay được sử dụng là Gaussian Naive Bayes (Naive Bayes theo phân phối chuẩn),Multinomial Nạve Bayes (Nạve Bayes theo phân phối đa thức) và Bernoulli NạveBayes (Naives Bayes theo phân phối Bernoulli)
1.4.3.3.2 Hoi quy Logistic
Phương trình hồi quy tương quan thơng thường chỉ cĩ thé được sử dụng khi biếnđầu ra là dạng tiêu thức số lượng Tuy nhiên trong thực tế cĩ nhiều trường hợp mà kết
quả chỉ nhận 2 giá trị nhị phân là 0 và 1 Ví dụ trong bài tốn dự đốn cảm xúc của người dùng dựa trên đánh giá trên Foody, biến kết quả chỉ nhận giá trị khơng hài lịng
và hài lịng với dịch vụ bán hàng Do vậy, dé giải quyết bài tốn phân loại văn bản, cần
sử dụng đến mơ hình hồi quy Logistic.
Phương trình hồi quy don Logistic cĩ dạng:
log(T——) = bạ + byx
hay cĩ thé biến đổi thành dang:
20
Trang 21p(X) = 1+ebotbix
Trong đó bo, b; là các tham số trong phương trình
Xác suât p(X) là xác suât mà biên cô y=1 xảy ra khi biệt bộ tham sô mô hình và
dữ liệu dau vào x.
Trên thực tế có nhiều biến độc lập nên việc tính toán các tham số trong hồi quyLogistic là rất khó khăn Dé tìm ra các tham số trong mô hình hồi quy Logistic, phươngpháp thường được sử dụng là ước lượng hợp lý tối đa và được tối ưu bằng thuật toángradient descent (suy giảm đạo ham) Mô hình hồi quy Logistic thường được tính toántrên các phần mềm thống kê như SPSS, R, STATA, hay các công cụ lập trình phân
tích dữ liệu như Python, Java, R,
SVM là mô hình phát triển của một mô hình cơ bản là maximal margin classifier(Phân lớp tối đa đường cận biên)
Phân lớp tối đa đường cận biên
21
Trang 22Ý tưởng của bài toán này là tìm một siêu mặt phăng (một không gian con dạng
phăng của một không gian p chiều với kích thước p-1) sao cho siêu mặt phang đó phân
tách dữ liệu ra làm 2 phần khác nhau tương ứng với 2 nhãn trong bộ dữ liệu
Na
Hình 3 Hình minh hoa đường phân lớp trong bài toán dữ liệu phân cách tuyến tính
Ở vi dụ trên, dé thấy đường thang 1 + 2X1 +3X2 = 0 chính là siêu mặt phắngphân tách điểm dữ liệu đỏ và xanh trong bộ dit liệu Trên thực tế, mô hình phân lớp tối
đa đường cận biên được đưa về bài toán tối ưu đối ngẫu dé giải ra phương trình của siêumặt phẳng phân cách 2 điểm, sao cho khoảng cách của các điểm gần siêu mặt phăng tới
siêu mặt phăng là lớn nhất Giả sử xét bộ đữ liệu 2 chiều với 2 nhãn sau đây:
22
Trang 23Hình 4 Hình minh hoạ phương pháp tối đa đường cận biên
WIxI + w2x2 + b chính là phương trình của đường thang phân cách 2 nhãn xanh
đỏ trong bộ dữ liệu với w = (w1,w2) là vector chứa các tham số cần tìm và b là hằng số
tự đo Ta có thê thay với điểm dữ liệu Xa = (xn,ya) bat kỳ, khoảng cách từ điểm đó đếnsiêu mặt phang là:
= arg TnaXwp { MiNn Vn (W' Xn + bt
Việc giải trực tiếp bai toán này khá phức tạp, tuy nhiên có thé biến nó về thành
dạng đơn giản hơn như sau:
23
Trang 24(Ww, b) = arg min,» 5 |Iwilổ
Với điều kiện: 1 — y,(w7x, + b) < 0,Vn = 1,2,3, ,N
Ở đây, hàm mục tiêu đã trở thành hàm khả vi và là một norm của một vector, do
đó là một hàm lôi, các hàm bat đăng thức ràng buộc cũng là hàm lồi do là tuyến tínhtheo w và b Bài toán trở thành một bài tối ưu lỗi dạng quy hoạch toàn phương(Quadratic Programming) Việc giải thủ công bài toán này vẫn rất khó khăn, tuy nhiên
có thé sử dụng những công cu tìm nghiệm như excel, hay các thư viện của các ngôn
ngữ lập trình.
Phương pháp phân lớp tối đa đường cận biên có một nhược điểm vô cùng lớn là
chỉ áp dụng được cho các bài toán mà dữ liệu phân cách tuyến tính (tức là tồn tại mộtsiêu mặt phẳng phân tách được 2 nhãn của bộ dữ liệu) Tuy nhiên, phần lớn bộ dữ liệu
trong thực tế đều không như vậy, nhất là các bộ dữ liệu nhiều biến, nhiều chiều Mặc
dù sau này đã có phương pháp soft-margin (cận biên mềm) giúp hỗ trợ giải bài toán trênvới bộ dữ liệu gần phân cách tuyến tính, tuy nhiên nhiều bộ dữ liệu có mối quan hệ phi
tuyến vẫn không thé giải quyết được bang phương pháp này Do đó, các nhà nghiên cứuđưa ra kỹ thuật kernel — một ham sỐ thay thế cho các điểm đữ liệu trong bộ dữ liệu, tạo
ra một bộ dữ liệu mới với mỗi vector X được thay thé bằng ®(X) với ®Q là hàm số
kernel, sao cho sau khi sang không gian mới, dữ liệu trở nên gần phân biệt tuyến tính
Lúc này, nghiệm của Phương pháp phân lớp cận biên lớn nhất sẽ cho ra một bộ phânlớp tốt hơn Phương pháp này được gọi là Kernel SVM Sau đây là một số hàm Kernelthông dụng hay được sử dụng tuỳ vào nhu cầu bài toán và kiểm thử thực nghiệm như:
o_ x và z là 2 điểm dữ liệu trong bộ dữ liệu
o dla bậc cua đa thức.
or và g là các siêu tham số-hyperparameters được điều chỉnh trong quá
trình chạy mô hình.
1.4.3.3.4 BERT.
BERT (Bidirectional Encoder Representations from Transformers - Mô hình
biến đồi 2 chiều dùng trong xử lý ngôn ngữ) là một mô hình dai diện ngôn ngữ (language
24
Trang 25representation) được google công bố vào đầu thang 11 năm 2018 BERT được thiết kế
để tạo ra các vector đại diện cho ngôn ngữ văn bản thông qua ngữ cảnh 2 chiều (trái và
phải) của chúng Các vector đại diện cho dt liệu van bản được sinh ra từ mô hình BERT
được tinh chỉnh với các lớp đầu ra b6 sung nhằm tạo ra các mô hình cải tiễn đáng ké
hơn cho các tác vụ xử lý ngôn ngữ tự nhiên như trả lời câu hỏi, phân loại văn bản,
Mô hình BERT ứng dụng kiến trúc mạng noron Transformers (mang bién déi)
được sử dung trong nhiều mô hình kiến trúc hiện dai, điển hình nhất là BERT như trên
và GPT (Generative Pre-training Transformers), là mô hình chatbot nổi tiếng gây ảnhhưởng mạnh đến cộng đồng gần đây Mô hình BERT là một mô hình đơn giản và cótính ứng dụng cao, nó đã thu được kết quả 80.4% (cải thiện 7.6% so với mô hình tốtnhất trước đó) trên bảng xếp hạng kết quả GLUE Benchmark và bộ dữ liệu SquAD v.1.1
cho tác vụ trả lời câu hỏi với điểm F1 trên tập dữ liệu test lên 93.2% (cải thiện 1.5%)
và tốt hơn 2% so với con người Mô hình BERT thường được sử dụng theo 2 cách: lấy
mã nguồn về phát triển trên tập dữ liệu và nhu cầu riêng dựa trên kiến trúc cơ bản củaBERT (phoBERT, RoBERTa) hay fine-tuning (tinh chỉnh) mô hình dé nó học đượcthêm cách xử lý tác vụ cần thiết
Mô hình BERT là một kiến trúc đa tầng gồm nhiều lớp Bidirectional Transformerencoder (lớp mã hoá biến đổi 2 chiều) dựa trên bản sốc được mô tả bởi Vaswani vacộng sự (2017) và được lấy trong thư viện tensor2tenssor
Trong nghiên cứu gốc về BERT, kích thước mô hình được mô tả như sau:
e© BERTsase: L=12, H=768, A=12, tong cộng 110 triệu tham số trong mô
Mô hình BERTsasr có cùng kích thước với mô hình GPT của OpenAI nhằm mục
đích so sánh Mạng biến đổi trong BERT có khác biệt là sử dung mạng attention 2 chiều
trong khi Mạng biến đổi trong GPT (6 các phiên ban đầu tiên) là một chiều Day có thécoi là một cải tiễn do trong một số câu, ý nghĩa của từ còn ảnh hưởng bởi ngữ cảnh sau
nó Ví dụ 2 câu sau:
- Tdi tìm “trường” cho con hoc.
- _ Tôi tìm “trường” trong bảng dữ liệu.
Chúng ta dé thay từ “trường” trong 2 câu trên có ý nghĩa hoàn toàn khác nhau
(“trường” trong “trường học” và “trường” để tạo cột trong một bảng của cơ sở dữ liệu)
và nếu chỉ đơn giản xét ngữ cảnh phía bên trái (như cơ chế biến đổi 1 chiều) thì từ
“trường” sẽ chỉ có được một ý nghĩa nhất định Do đó cần phải xét cả ngữ cảnh bên phải
25
Trang 26thì mô hình mới có khả năng sinh ra 2 vector biểu diễn riêng biệt cho 2 từ “trường” như
trên.
Mô hình BERT được đào tạo trên bộ dữ liệu BooksCorrpus (800 triệu từ) (Zhu
và cộng sự, 2015) va English Wikipedia (2500 triệu từ), tổng cộng là 16GB dữ liệu Với
bộ dữ liệu Wikipedia, các nhà nghiên cứu bóc tách phần văn bản và bỏ qua các danhsách đề mục hay bảng tiêu đề
Việc đào tạo BER TbBAs được thực hiện trên 4 Cloud TPUs với tổng cộng 16 chipTPUs BERTiIAnoe được đào tạo trên 16 Cloud TPUs và tổng cộng 64 chip Thời gianhuấn luyện vào khoảng 4 ngày Bên cạnh đó, việc tinh chỉnh mô hình BERT so với việchuấn luyện lại toàn bộ thi tốn ít phan cứng hay chi phí hơn Toàn bộ các kết quả của bàinghiên cứu về BERT được chạy trong vòng | tiếng trên 1 Cloud TPU, cần it dit liệu vànhân lực hơn rất nhiều
1.4.3.3.5 RoBERTa.
Mô hình RoBERTa (Robustly Optimized BERT Pretraining Approach — tạm
dịch là Phuong pháp tiếp cận tiền đào tạo BERT được tối ưu vượt trội) là một mô hìnhcải tiến của BERT được xây dựng bởi Facebook với một s6 các thay đổi như sau:
(i) Mô hình được huấn luyện lâu hơn, với nhiều dữ liệu và batches lớn hơn
(ii) Loại bỏ phan dự đoán câu tiếp theo của BERT
(ii) Huan luyện trên các chuỗi dài hơn
(iv) _ Chỉnh sửa phần các mẫu 4n đi trong phan Mô hình ngôn ngữ an
Ngoài ra, bộ dữ liệu dùng dé huấn luyện mô hình RoBERTa cũng lớn hơn so với
BERT với các bộ dữ liệu sau được sử dụng:
- BookCorpus (Zhu và cộng sự, 2015) và Wikipedia tiếng Anh Day là phần dữ
liệu dùng dé huấn luyện BERT (16GB)
- CC-News, được thu thập từ phần dữ liệu tiếng Anh từ Bộ dữ liệu báo
CommonCrawl (Nagel, 2016) Bộ dữ liệu bao gồm 63 triệu đầu báo tiếng Anh
từ tháng 9/2016 đến tháng 2/2019 (76GB)
- OpenWebText (Gokaslan và Cohen, 2019), là bộ dữ liệu mã nguồn mở lấy từ bộ
WebText (Radford và cộng sự, 2019) Dữ liệu được trích xuất từ các bài đăngđược chia sẻ trên mạng xã hội Reddit với 3 upvotes đồ lên (38GB)
- Stories, bộ dữ liệu được công bồ với Trinh và Le (2018), chứa một phần của bộ
dữ liệu CommonCrawl gồm những văn bản gần với những câu truyện (31GB)
Tổng cộng bộ dữ liệu để huấn luyện RoBERTa lên đến hơn 160GB dữ liệu vănbản Mô hình được huấn luyện sau khi thay đôi một chút về kiến trúc mô hình BERTnhư đã nêu ở trên cùng với tinh chỉnh các siêu tham số của thuật toán tối ưu Adam, cụthé giảm 2 xuống 0.98 dé tăng sự 6n định khi huấn luyện với kích cỡ batch lớn hơn
26
Trang 27Ngoài ra khác với BERT, RoBERTa không huấn luyện bang cách sử dụng những câungắn hay giảm chiều dài của câu đi mà huấn luyện thăng với những câu đầy đủ độ dài.RoBERTa được huấn luyện trên hệ thống máy tính DGX-1, mỗi máy có 8 GPU Nvidia
VI00 với dung lượng 32GB, được kết nối với nhau bang giao thức Infiniband
(Micikevicius và cộng sự, 2018).
RoBERTa chứng minh sự vượt trội cua mình so với mô hình tiền nhiệm BERT
và đạt được kết quả cao hơn rất nhiều Dưới đây là một số kết quả của BERT và
RoBERTa trên một số bài toán NLP quan trọng:
e GLUE Benchmark: BERT đã đạt được kết quả tốt nhất trên GLUE
benchmark khi ra mắt và RoBERTa đã cải thiện kết quả của BERT trêntất cả các tác vụ trong GLUE Cụ thể, BERT đã đạt được độ chính xác
80,4% trên GLUE và RoBERTa đã đạt được 88,5%.
® SQuAD: SQuAD là một tập dữ liệu về hỏi đáp dựa trên văn bản và đòi
hỏi mô hình trả lời các câu hỏi dựa trên thông tin có trong văn bản BERT
đã đạt được kết quả tốt nhất trên SQuAD với độ chính xác 93,2%, còn
RoBER Ta đã đạt được 96,4% độ chính xác trên SQUAD.
e SuperGLUE: SuperGLUE là một tập dữ liệu lớn hơn GLUE và bao gồm
các tác vụ phức tạp hơn BERT đã đạt được độ chính xác 88,4% trên SuperGLUE và RoBERTa đã dat được 90,9% độ chính xác.
1.4.3.3.6 PhoBERT.
PhoBERT (“Phở” BERT) là phiên ban BERT được xây dung cho các tác vụ xử
lý ngôn ngữ dành riêng cho tiêng Việt và được dựa trên kiến trúc của mô hình ROBERTacủa VinAI công bố vào năm 2020 Cũng giống như BERT, PhoBERT có 2 phiên ban
PhoBERTpasz và PhoBERTLAnor Theo như tác giả Dat Quoc Nguyen và Anh Tuan
Nguyen, có 2 khó khăn khi xây dựng bộ mô hình ngôn ngữ tiếng Việt:
- Wikipedia tiếng Việt là bộ dir liệu duy nhất để huấn luyện mô hình đơn ngôn
ngữ (Vu và cộng sự, 2019), và đó cũng là bộ dit liệu tiếng Việt duy nhất được sửdụng đề huấn luyện các mô hình đa ngôn ngữ trên thế giới (trừ XLM-r) Rõ ràng
là không đáng ké do bộ dữ liệu Wikipedia tiếng Việt rat nhỏ (chỉ khoảng 1GB —theo bài nghiên cứu về PhoBERT, so với khoảng 18.9 GB là kích thước của bộ
dữ liệu Wikipedia tiếng Anh — số liệu lay từ tháng 12/2020 trên Google) Trongkhi cần nhiều dữ liệu hơn dé tăng kết quả của mô hình ngôn ngữ
- _ Tiếng Việt có nhiều phần có cấu trúc phức tạp hơn so với tiếng Anh Điển hình
là dau cách trong tiếng Việt còn dùng dé phân cách các âm tiết trong 1 từ, khôngphải là công cụ phân tách các từ mạnh như trong tiếng Anh (như đã đề cập ở mục
Phân đoạn từ) Do đó nêu không tiến hành phân đoạn từ, sẽ rất khó dé huấn luyệnđược một mô hình đơn ngôn ngữ tốt dành riêng cho tiếng Việt
27
Trang 28Nhăm giải quyết van dé đầu tiên, nhóm của tác giả sử dụng thêm một bộ dữ liệuđược lẫy từ các trang tin tức của Việt Nam sau khi loại bỏ các tiêu đề trùng lặp (khoảng19GB), kết hợp với bộ dữ liệu từ Wikipedia tiếng Việt (1GB) Tổng cộng là 20GB dữliệu, phù hợp cho quá trình huấn luyện mô hình ngôn ngữ Tiếp đến là vấn đề phân
đoạn, PhoBERT sử dụng RDRSegmenter (Nguyen và cộng sự, 2018) trong gói
VnCoreNLP (Vu và cộng sự, 2018) được mô tả ở phần trên Tác giả tiễn hành phân
đoạn từ cho khoảng 145 triệu câu (khoảng 3 ty token từ) Khác với RoBERTa,
PhoBERT áp dụng fastBPE (Sennrich và cộng sự, 2016) để phân khúc các câu với cácphụ từ Bộ từ điển được dùng bao gồm 64000 phụ từ Trung bình mỗi câu có khoảng
24.4 phụ từ.
Mô hình PhoBERT được triển khai dựa trên mô hình RoBERTa trước đó được
phát triển bởi Facebook Mô hình được tối ưu bởi thuật toán Adam dựa theo nghiên cứucủa Liu và cộng sự (2019) với kích thước batch là 1024 và tốc độ học tối đa = 0.0004cho PhoBERTsasz ; bên cạnh đó, kích thước batch là 512 với tốc độ học tối đa = 0.0002cho PhoBERT;arce Mô hình được huấn luyện trên 4 chiếc GPU V100 (dung lượng
16GB mỗi chiếc) với 40 epochs (vòng lặp) Mô hình PhoBERTaase được huấn luyệntrong 3 tuần và PhoBERTLano được huấn luyện trong 5 tuần
PhoBERT là một phiên bản tiếng Việt của mô hình BERT được dao tạo trên mộttập dữ liệu tiếng Việt lớn PhoBERT đã đạt được kết quả rất ấn tượng trên nhiều bài
toán tiếng Việt, trong đó bao gồm các bộ dữ liệu sau:
e VNTC: VNTC là một tập dữ liệu lớn về phân loại văn bản tiếng Việt
PhoBERT đã đạt được độ chính xác 92,1% trên VNTC, vượt qua kết quảcủa các mô hình tiếng Việt khác
e VLSP 2018: VLSP 2018 là một cuộc thi phân loại ý kiến tiếng Việt trên
các bài báo điện tử PhoBERT đã đạt được kết quả tốt nhất trên VLSP
2018, với độ chính xác 90,2%.
e XNLI Việt Nam: XNLI là một tập dữ liệu về dịch máy đa ngôn ngữ XNLI
Việt Nam là phiên bản tiếng Việt của XNLI PhoBERT đã đạt được độchính xác 81,4% trên XNLI Việt Nam, vượt qua kết quả của các mô hình
đa ngôn ngữ khác.
e PMB-QA: PMB-QA là một tập dữ liệu về hỏi đáp văn bản tiếng Việt
PhoBERT đã dat được kết quả tốt nhất trên PMB-QA, với độ chính xác
Trang 29nhà nghiên cứu cũng như phát triển trí tuệ nhân tạo PyTorch cung cấp nhiều giải phápcho các mô hình học sâu (deep learning) với kiểu đữ liệu tensor phù hợp trong việc lưu
trữ các mảng dữ liệu lớn Chính vì vậy, PyTorch đã nhanh chóng trở thành một trong
những bộ công cụ mạnh mẽ nhất cho các nhà phát triển khoa học dữ liệu và trí tuệ nhân
tạo, bên cạnh Keras hay Tensorflow.
PyTorch tích hợp các lớp trong các mạng noron cơ bản như LSTM, CNN, ReLU,
Sigmoid, Softmax Regression, Đồng thời tự động tính toán các trọng số bằng cách
sử dụng tài nguyên máy tính như GPU (Graphic Processing Unit - Bộ xử lý đồ hoạ,CPU (Central Processing Unit - Bộ xử lý trung tâm) Hiện nay ở Việt Nam có nhiềudoanh nghiệp lớn sử dụng PyTorch trong quá trình nghiên cứu cũng như phát triển sảnphẩm của mình như Viettel, VinAI, VinBigData, FPT,
1.4.3.4.2 Scikit-learn.
Nếu như PyTorch là công cụ tích hợp nhiều các mô hình hay kiểu dữ liệu phục
vụ cho trí tuệ nhân tạo thì Scikit-learn tích hợp các mô hình học máy và khai phá dữ
liệu như Decison Tree (cây quyết định), hồi quy Logistic, SVM, KNN Scikit-learn
là một bộ công cụ mã nguồn mở đơn giản và hiệu quả cho phân tích dữ liệu và có thểđược sử dụng cho nhiều các bối cảnh khác nhau Scikit-learn được xây dựng dựa trên
các thư viên Numpy (thư viện chuyên về xử lý dit liệu dạng mang), SciPy (thư viện vềtoán học) và Matplotlib (thư viện về trực quan hoá dữ liệu) Tất cả đều được xây dựng
trên nền ngôn ngữ C/C++ hoặc Matlab dé tối ưu tốc độ tính toán nhưng van sử dụngcấu trúc câu lệnh Python đơn giản
1.4.3.4.3 Hugging Face.
Hugging Face là một hệ sinh thái tích hop các mô hình NLP đã huấn luyện sẵnnhư BERT, RoBERTA, phoBERT, Đây là một hệ sinh thái mã nguồn mở hoàn toànmiễn phí được đón nhận và sử dụng rộng rãi trong cộng đồng nghiên cứu về NLP với
đa dang các mô hình nổi tiếng liên quan tới mô hình transformers (mô hình biến đôi),nhiều các bộ dữ liệu công khai, công cụ tách từ được tích hợp san, và các tinh năng hỗtrợ tăng tốc mô hình tích hợp với PyTorch, sử dụng phần cứng như CPU hay GPU déhuấn luyện
Các mô hình huấn luyện sẵn trên Hugging Face có thé sử dụng dé tinh chỉnh(fine-tuning: sử dụng sẵn kiến thức từ mô hình này và tinh chỉnh lại để giúp mô hìnhhọc được một tác vụ tương đồng) hay học chuyền giao (transfer learning: sử dụng kiénthức từ mô hình này va bô sung dtr liệu khác dé giúp mô hình hoc được tác vu khác).Trong bài nghiên cứu này, kỹ thuật fine-tuning sẽ được sử dụng nhằm giúp mô hình
29
Trang 30phoBERT được huấn luyện sẵn bởi VinAI “học” thêm kỹ năng dự đoán thái độ củangười dùng từ những đánh giá trên trang đặt đồ ăn Foody.
30