Tìm hiểu phương pháp phân loại quan điểm trong mạng xã hội dựa trên học máy

Trang 1 BO GIAO DUC VA DAO TAO DAI HOC HUE TRUONG DAI HOC KHOA HOC NGUYEN CUU MINH TRAN TIM HIEU PHUONG PHAP PHAN LOAI QUAN DIEM TRONG MANG XA HOI DUA TREN HOC MAY LUAN VAN THAC Si KHOA

Trang 1

BO GIAO DUC VA DAO TAO

DAI HOC HUE

TRUONG DAI HOC KHOA HOC

NGUYEN CUU MINH TRAN

TIM HIEU PHUONG PHAP PHAN LOAI

QUAN DIEM TRONG MANG XA HOI

DUA TREN HOC MAY

LUAN VAN THAC Si KHOA HOC MAY TINH

Thừa Thiên Huế, 2020

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC HUÉ

TRƯỜNG ĐẠI HỌC KHOA HỌC

NGUYEN CUU MINH TRAN

TIM HIEU PHUONG PHAP PHAN LOAI

QUAN DIEM TRONG MANG XA HOI DUA

TREN HOC MAY

CHUYEN NGANH: KHOA HOC MAY TiNH MA SO: 8.48.01.01

LUAN VAN THAC Si KHOA HOC DINH HUONG UNG DUNG

NGUOI HUONG DAN KHOA HOC PGS.TS VO VIET MINH NHAT

Thừa Thiên Huế, 2020

Trang 3

Sentiment analysis methods Machine leaming-based| methods

LInupervised learning- Supervised learning- Semi-supenvised based methods based methods learning-based methods

Support Vector Machine Naive-Bayes Neural-Network Bayesian Network Hình 1.3 Một số giải thuật phân loại quan điểm dựa trên học máy 1.2.6 Phương pháp lai

Để cải thiện hiệu suất của phân loại tình cảm, một số nhà nghiên cứu đề nghị kết

hợp học tập với phương pháp dựa trên từ vựng Là sự kết hợp phương pháp dựa trên từ vựng và phương pháp học máy Phương pháp lai cũng có thể và được sử dụng để khắc phục những thiếu sót của các kỹ thuật riêng lẻ

1.2.7 Các cấp độ phân tích quan điểm

Phương pháp tiếp cận cũng có thể được phân biệt dựa trên mức độ phân tích khác nhau, về cơ bản gồm các cấp độ [ 18]

1.2.7.1 Phân tích cấp độ tài liệu

Nhằm xác định và phân loại các định hướng hoặc phân cực tình cảm trong toàn bộ tài liệu Nó đã được áp dụng chủ yếu để xác định quan điểm tích cực hoặc tiêu cực của

văn bản trong các hệ thống trả lời câu hỏi, thảo luận điễn đàn, blog và đánh giá trực tuyến và đã được chứng minh hữu ích cho các công ty, hệ thống đề xuất và các trang web biên

Trang 4

LOI CAM ON

Dé hoàn thành luận văn này, ngoài sự nỗ lực của bản thân còn có sự hướng dẫn tận tình của Thầy Võ Viết Minh Nhật, Ban Đảo tạo và Công tác sinh viên - Đại học Huế Từ

tận đáy lòng mình tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất đến Thây

Đồng thời tôi cũng xin gửi lời cảm ơn đến Ban Giám hiệu, Phòng Đào tạo Sau đại

học, Khoa Công nghệ Thông tin - Trường Đại học Khoa học, Đại học Huế , quý Thay, Cô

đã tham gia giảng dạy cùng tất cả bạn bè, đồng nghiệp đã giúp đỡ tôi trong suốt thời gian qua

Do điều kiện về năng lực bản thân còn hạn chế, luận văn chắc chắn không tránh khỏi

những thiếu sót Tôi rất mong nhận được sự đóng góp ý kiến của quý Thây, Cô trong hội

đồng Khoa học và bạn bè đề luận văn được hoàn thiện hơn

Một lần nữa tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất đến quý Thây, Cô, đồng nghiệp, gia đình và người thân đã động viên, giúp đỡ tơi hồn thành luận văn này

Học viên

Nguyễn Cửu Minh Trân

Trang 5

MUC LUC Trang 09090 000909077 7Š i 0899 90 ii )/0/909 9 - ), ).))à)H),),H, ÔỎ iii DJ 0028/10/909.(08:70 ca ÔỎ vii DANH MUG CACHING sccsccsereccnssepveseeenser cavsecrnenacnmeuereercaaepuveseeeareserennneaw eee, viii DANH MỤC CÁC CHỮ VIẾƑT TẮTT 2 5£ ©5£©+££Ex££Ex££ExtEkeerxerrkeerkerrkerrs ix

eT ABEND EELS sce ecenzcrcerensre cere asmnnnzsmetraecesmcansercaemremrenerns 2

1.2 TONG QUAN VE PHAN TICH QUAN DIEM csccsscesccsscssessesssesseteessseeeen 3

1.2.1 Phan tich quan điểm -22222222221222112111211121121121121 2 e6 3 1.2.2 Phan tích quan điểm bình luận -©-2222222222E222122212221222222ee 4 1.243 Phương pháp phân loại quan điểm -2222222222E2221222222222222ee 3 1.2.4 Phương pháp tử vựng —L€XICON St vn nhe 6 1.2.5 Các phương pháp học máy— machine learning - : :+s: +: 9 1.2.6 Phương pháp lai -cSc St S21 nhà HH Hà HH 10 1.2.7 Các cấp độ phân tích quan điểm 2-©2222222221222122122122122 22 10

1.2.7.1 Phân tích cấp độ tài liệu - 222 222222122212221222222.22 xe 10 1.2.7.2 Phân tích cấp độ câu 2-S22122122212221211221122122.2 xe 11 1.2.7.3 Phân tich cAp dO cum tht oo cccccce cess esse esse tesetseeteeseeseneseeeees 12

Trang 6

1.2.7.5 Phân tích dựa trén mito dO cam XUC 000 cece eee ceeeeceeneeeenteeeeees 13

12:8; Khó Khăn và thách thỨGsesaessssơasgstitrtotegniytittpaitigtbdusagtstaaoawaiia 13 12.9 Ứng dụng phân lớp quan điểm bình luận 2-22 22z+22z+2zz>ze2 15

1.3 BÀI TOÁN PHÂN LỚP DỰA TRÊN MÁY HỌC - l6

13.1 Kiến trúc chung của một hệ thống học máy .-.-2¿+2s22z2zz>ze2 17

1.3.2 Dữ liệu và tiền xử lý dữ liệu văn bản bình luận :-: 17 1.3.3 Trích chọn đặc trưng 5 St vn nh H Hành Hang 19 13.4 Kiến trúc chung cho các mơ hình học máyy -©-s¿22s+2zz2zzzze2 19 1.3.5 Hàm mất mát và tham sỐ 22522221 nrrrrrrerae 20 0190045092009) chôn 21 Chương 2 MỌT SÓ PHƯƠNG PHAP PHAN LOAI QUAN DIEM DUA TREN 2,71, ABRIL TEILE Geren smrensenncesmnrcncemmenmmnrceemerensrenoncesmnecnceoanemmmmnscemaramcenncans 22 2.2.MÁY VECTOR HỖ TRỢ 2222222222211 re 23

2.2.1 Khoảng cách từ một điểm tới một siêu mặt phẳng -¿ 23 2.2.2 Xây dựng bài toán tối wu cho may vector hỗ trợ -2s-s2scc2 24 2.2.3 Bài toán đối ngẫu của máy vector hỗ trợ -©2s22222222222222.z2xxe2 27

Trang 7

224.5 Xây dựng hàm mất mát -2- 2s 222225122512211221121112111212 xe 35

2.3.SGDC- STOCHASTIC GRADIENT DESCENT CLASSIFICATION 36 2.3.1 Ý tưởng của bộ phân lớp SGDC 22 22 2222222225122312112221.222-e 36 2.3.2 Phân tích toán học cho giải thuật phân lớp - SGDC 36

2.4 TRÍCH CHỌN ĐẶC TRUNG CHO BAI TOAN PHAN LOAI QUAN DIEM "<< 38 2.4.1 Giới thiệu 2222222212222 22222222 38

2.4.2 Phương pháp tính trọng số TE-IDF -2- 222222 22222252225122222212222-e2 39 243 Mé hinhngdén nett Nesram expences cess nncemenmcnue nner 40

2.5 TIỂU KÉT CHƯƠNG 2 ©2222222212251225122112111211121112111211211221 2e 42 Chương 3 CÀI ĐẶT MƠ PHỎNG VÀ PHÂN TÍCH KẾT QUẢ 43 3.1.PHÁT BIEU BAI TỐN -©222222221222121122112112112212222.2 re 43 3.2 CÀI ĐẶT 2 212212211221121121121122112222222222 2e 43

3.2.1 Môi trường, ngôn ngữ và thư viện lập trình -.-s:55ccccccxssc+2 43 3.2.1.1 Môi trường Anaconda và ngôn ngữ lập trình Python 43

3.⁄2.1⁄2 Thư viện - 2 22222212222222222 re 44 3.2.2 Dữ liệu và tiền xử lý dữ liệu 2-222122122212221221221121122222 xe 45 3.2.2.1 Chuẩn bị dữ liệu -.-:©222: 2222 22112221122212211 221121122 e 45 3.2.2.2 Tiền xử lý đữ liệu -222221222122212221222.21.22 re 45

3.2.3 Trích chọn và vector hóa đặc trưng - ¿ccccc ctsnnninrerrrreree 47

3.2.4 Cài đặt mô hình phân lớp và lựa chọn tham Am 53

Trang 8

3.4 TIỂU KET CHUONG 3 ooecceccecccceccsscssessessessesesvssvesesevssesssssetsstsetsevsetsssesseeees

TAI LIEU THAM KHAO

Trang 9

DANH MUC CAC BANG

Bảng 3.1 Kết quả đánh giá chéo 5-fold cia SVM Bảng 3.2 Kết quả đánh giá chéo 5-fold của SGDC Bảng 3.3 So sánh kết quả đánh giá SVM và SGDC

Trang 10

DANH MỤC CÁC HÌNH

Trang Hình 1.1 Các phương pháp phân loại quan điểm - 2222222222E22x22x-ee 6 Hình 1.2 Mô hình phân loại từ vựng .- - c3 S2 v2 S nh Hrrrerreerre 7

Hình 1.3 Một số giải thuật phân loại quan điểm dựa trên máy hOQC:esszsơaoesauodes 10

Hình 1.4 Kiến trúc chung trong các bài tốn máy học -2-©2222z22zc22xsze2 19 Hình 2.1 Phan tinh vé SVM - các mặt phân cách hai lớp 2-©2s¿22z+2zzcsze¿ 23

Hình 2.2 Ý tưởng của SVM 222 222221222122112212212212222222 re 24

Hình 2.3 Phân tích bài toán SVM HH HH Hee 25 Hinh 2.4 Hai trường hợp khi SVM /#uẩn làm việc không hiệu quả 29

Hình 2.5 Giới thiệu các biến lỏng lẻo ÿín 2222222222222222122221.2 xe 31 Hình 2.6 Mắt mát bản lề (màu xanh) và mất mát không — một (nét đen) 34

Hình 2.7 Minh họa ý tưởng đạo hàm xuống dốc của SGDC -. -:52zscs¿ 38 Hình 3.1 Tổng quan về dữ liệu -2- 22 22222212221221221222121121121122121 2 te 45

Hình 3.2 Chuẩn hóa từ 5: 2222222222222 2 12.2 eereree 46

Hình 3.3 Minh họa thực hiện tách từ bằng Underthesea 75552222 c+ssx 47

Hình 3.4 Mô hình trích rút đặc trưng kết hop tf-idf và n-gram ooo 48 Hình 3.5 Số lượng, phân bố và số hóa các từ theo ]-gram -22c2zzsze2 48 Hình 3.6 Số lượng, phân bố và số hóa các từ theo 2-gram -©22-22zc22zcsze2 49 Hình 3.7 Số lượng, phân bố và số hóa các từ theo 3-gram 22-22 22zc2zzcsze2 49

Hình 3.8 Số lượng, phân bố và số hóa các từ theo 1,2,3-gram -+cssce¿ 50

Hình 3.9 Giá trị Idf các từ trong kho dữ liệu kết hợp 1, 2, 3-gram 51 Hình 3.10 Giá trị TF-IDF của bình luận đầu tiên 5 S522 12212155121551555552xxe2 52 Hình 3.11 Giá trị TE-IDF của các từ trong cả ba bình luận -:s:+5++s+ 53

Trang 11

Viết tắt NLP AI SVM TF IDF SGDC ML GD SGD DANH MUC CAC CHU VIET TAT Tiéng Anh Natural Language Processing Artificial Intelligence Support Vector Machine Term Frequency Term Frequency—Inverse Document Frequency Stochastic Gradient Descent Classification Machine Learning Gradient Descent Stochastic Gradient Descent 1X Tiếng Việt Xử lý ngôn ngữ tự nhiên Trí Tuệ Nhân Tạo Máy vec-tơ hỗ trợ Tần suất từ

Tần số tài liệu nghịch đảo

Trang 12

MO DAU

Cộng đồng người dùng Internet ngày càng phát triển phong phú với nhiều hình

thức kết nối, chia sẻ đa dạng như các diễn đàn, trang tin tức, trang thương mại, mạng xã hội như facebook, twitter Sự phát triển này kéo theo một hình thức mới trong trao đổi

thông tin, đó là việc cộng đồng mạng tăng cường chia sẻ cảm nghĩ, nhận xét, đánh giá,

nói chung là quan điểm của mỗi người đối với các vấn đề, sự kiện xã hội, kinh tế, chính trị hay kinh nghiệm về một sản phẩm, dịch vụ mà mình từng sử dụng

Trên thế giới trong khoảng hơn 10 năm trở lại đây, trong lĩnh vực khai phá thông tin và tri thức đã phát triển một bài toán nghiên cứu mới là khai phá và phân tích quan điểm (opinion mining and sentiment analysis) Với sự trợ giúp của các hệ thống phân tích, thông tin phi cấu trúc này có thê được tự động chuyền thành dữ liệu có cấu trúc về ý kiến,

quan điểm công chúng về sản phẩm, dịch vụ, thương hiệu, chính trị hoặc bất kỳ chủ dé

nào mà mọi người có thể bày tỏ ý kiến.Thông tin văn bản có thể được phân chia hai loại

chính: sự kiện và ý kiến Dữ liệu này rất hữu ích cho nghiên cứu xã hội học, các ứng dụng

thương mại như: phân tích tiếp thị, quan hệ công chúng, đánh giá sản phẩm, chấm điểm quảng cáo mạng, phản hồi sản phẩm và dịch vụ khách hàng

Trang 13

Chuong 1 TONG QUAN VE PHAN LOP QUAN DIEM VA CAC HUONG

TIEP CAN

1.1 GIOI THIEU

Xử lý ngôn ngi tu nhién (natural language processing-NLP) là một nhánh của trí tuệ nhân tạo tên (artificial intelligence -AI), là một kĩ thuật quan trọng nhằm giúp máy tính hiểu được ngôn ngữ của con người, qua đó hướng dẫn máy tính thực hiện và giúp đỡ con người trong những công việc có liên quan đến ngôn ngữ NLP được sử dụng cho hàng loạt các ngành công nghiệp đề giải quyết những bài toán mấu chốt như cung cấp những thông tin giá trị và rõ ràng từ nguồn tài liệu phi cấu trúc Thông qua các thuật toán tiên

tién, NLP chi ra duoc ai, cái gì khi nào, và ở đâu trong những nội dung phi cấu trúc, từ

đó có thể cung cấp các cấp độ hiệu biết cao hơn

Thế giới đang số hóa từng ngày trong tất cả các lĩnh vực, rất nhiều dữ liệu được tạo ra bởi người đùng mạng xã hội và Internet đóng vai trò thiết yếu trong việc ra quyết định Điều này đã cho phép mọi người không chỉ chia sẻ thông tin trên đó dưới dạng các bình

luận hay các bài viết mà còn là nơi thể hiện tình cảm về tất cả các vấn đề Nội dung do

người dùng tạo ra có thể được đăng tải trực tuyến một cách để dàng và nhanh chóng trong khi các cá nhân, đoanh nghiệp, các tổ chức và chính phủ quan tâm đến quan điểm, ý kiến và thái độ đằng sau những nội dung này của người dùng Việc khai phá để có thể hiểu được thông tin chủ quan này có giá trị rất lớn cho tất cả người dùng Tình cảm có thê

được định nghĩa là một thái độ, suy nghĩ hoặc phán đoán được thúc day boi cam xtic hoặc một quan điểm hoặc ý kiến cụ thể được tổ chức hoặc cá nhân bày tỏ về một vấn đề

nao do (Merriam-Webster, 2016; Cambridge English Dictionary, 2016), Oxford English Dictionary, 2016) Trong đó, ý kiến hay kinh nghiệm của mọi người ảnh hưởng đến người dùng trong bối cảnh cần đưa ra quyết định Phân tich tinh cam (Sentiment Analysis -SA)

là một quá trình xác định và phân loại ý kiến thể hiện trong một phần hay toàn bộ nội dung văn bản Đặc biệt trong việc xem xét thái độ, quan điểm của người viết đối với một chu dé, san phẩm hoặc vấn dé cu thé Thông thường, việc sử dụng phan tích tinh cam là

dé trích xuất những gì chúng ta cđm thấy hoặc ngĩ về những điều khác nhau từ văn bản

Trang 14

bình luận Việc đọc hết tất cả văn bản hay đọc toàn bộ văn bản là điều không khả thị, vì

vậy phân tích tình cảm giúp dễ dàng cung cấp tính phân cực cho văn bản và phân loại văn

bản thành các lớp tích cực và tiêu cực Nhiệm vụ phân loại có thể được thực hiện bằng cách sử dụng các thuật toán khác nhau dẫn đến một mức độ chính xác khác nhau

Trong bối cảnh ra quyết định, chúng ta luôn quan tâm đến những gì người khác nghĩ, những ý kiến khác hay trái chiều là phần thông tin quan trọng nhất đối với hầu hết chúng ta Một trong những nhiệm vụ phù hợp nhất là phân cực của nguồn văn bản bình luận và không có kết luận nhất quán về phương pháp phân lớp quan điểm nào là tốt nhất Trong giới hạn nội dung luận văn này, tôi tiếp cận bài toán phân tích quan điểm như là

một nhiệm vụ phân lớp các văn bản bình luận theo hướng tích cực hay tiêu cực dựa trên nội dung các bình luận sử dụng một số mô hình học máy

1.2 TONG QUAN VE PHAN TICH QUAN DIEM

1.2.1 Phân tích quan điển

Phân tích quan điểm nói chung và bài toán phân loại quan điểm nói riêng là khai thác theo ngữ cảnh của văn bản xác định để trích xuất thông tin chủ quan trong tài liệu nguồn Ở cấp độ cơ bản, tình cảm có hai thành phần gồm ý &iến và mục tiêu mà nó hướng đến Tuy nhiên, một ý kiến phức tạp hơn [1] [2] [3] liên quan đến năm thành phần, để hiểu được quan điểm bao gồm:

1 Thực thể đích mà nó liên quan đến;

2 Khía cạnh thực thể, mục tiêu cụ thể mà ý kiến để cập đến;

3 Người giữ ý kiến;

4 Thời điểm ý kiến được đưa ra;

5 Tính phân cực của ý kiến liên quan đến khía cạnh thực thê

Không phải tất cả các ý kiến đều có năm thành phần này Hơn nữa, tình cảm có thể được thê hiện bằng các thuật ngữ so sánh hay theo những cách ngdm nghĩa bóng hoặc trong trường hợp 74 mai trái ngược với những gì mà người ta trình bày trong nội dung văn bản Tất cả những đặc điểm này làm cho tình cảm phức tạp về mặt ngôn ngữ và do đó

Trang 15

Hai khía cạnh của tình cảm là mối quan tâm chính: định hướng tình cảm (senfimenf orientation) và cường độ tình cảm (sentiment intensity) Dinh huong tình cảm còn được gọi là định hướng phân cực hoặc ngữ nghĩa [3] Trong khi những định hướng tích cực và tiêu cực cho thấy mọi ý kiến và cảm xúc chủ quan, định hướng trung lập thường có nghĩa là không có tình cảm [2] Cường độ cho thấy xu hướng tỉnh cảm có mức độ thê hiện ở các

mức khác nhau, có thể được xác định thong qua cac tir tinh cảm với những mức độ khác

nhau hoặc các từ chỉ sự tăng cường và giảm dân

Cac wir tinh cam (sentiment words) la cOng cụ để xác định định hướng và cường độ tình cam [2], [3] Có hai loại từ riêng lẻ: Zờ /oạ7 cơ sở được sử dụng để xem xét tình cảm

thông thường và từ so sánh được sử dụng để xác định tình cảm phức tạp hơn về mặt ngữ

nghĩa [3] Các từ riêng lẻ loại cơ sở bao gồm các fính từ, trạng từ, danh từ và động từ [4] [5] Tính từ là những từ phổ biến nhất được sử dụng để xác định tìm cảm tích cực (ví dụ: tốt đẹp, tuyệt vời) và tỉnh cảm tiêu cực (ví dụ: xấu, kém) Một trạng từ được sử dụng dé biểu thị tình cảm đối với động từ mà nó sửa đổi Ngược lại, động từ phức tạp hơn vì

chúng có thê được sử dụng theo cách trực tiếp hoặc gián tiếp [4] [6] Ngoài các từ tình

cảm kiểu cơ sở, các từ so sánh cùng với các từ so sánh nhất, như tốt hơn, tệ hơn, v.v., được sử dụng để bày tỏ ý kiến Tình cảm cũng có thể được thể hiện trong cac cum tr, hon nữa các từ và hình thức thể hiện tình cảm có thể khác nhau giữa các lĩnh vực chủ để khác

nhau

1.2.2 Phân tích quan điểm bình luận

Phân tích quan điểm (sentinment analysis) hay khai phá tình cảm (opinion mining)

là một loại khai thác văn bản đặc biệt với trọng tâm là xác định các tuyén bồ chủ quan và

chứa ý kiến và tỉnh cảm, đặc biệt là trong nội dung văn bản do người dùng tạo ra trên Internet [7] Thay vì cỗ gắng phát hiện các chủ để, phân lớp quan điểm tập trung vào việc

xác định các ý kiến, cảm xúc và đánh giá tích cực và tiêu cực được thể hiện bằng ngôn

ngữ tự nhiên [8] Có nhiều hướng nghiên cứu, tiếp cận khác nhau trong việc phân lớp quan điểm văn bản:

e_ Phân tích tình cảm, hoặc khai thác ý kiến, nhằm mục đích nắm bắt thái độ của

người dùng bằng cách điều tra, phân tích và trích xuất các văn bản chủ quan liên

Trang 16

quan đến ý kiến, sở thích và tình cảm của người dùng [9]

e Phan tich tinh cam liên quan đến việc xác định các biểu hiện ý kiến, tính phân cực và mức độ biểu hiện của chúng, cũng như mối quan hệ của chúng với chủ đề

[5]

e Phan tich tinh cam là nhiệm vụ xác định các ý kiến, cảm xúc và đánh giá tích cực

và tiêu cực Phân tích tình cảm đề cập đến lĩnh vực nghiên cứu phân tích ý kiến,

đánh giá, thái độ và cảm xúc của mọi người đối với các thực thể được thể hiện bằng văn bản Các thực thể có thể là sản phẩm, dịch vụ, tổ chức, cá nhân, sự kiện, vấn để hoặc chủ đề [10]

e Phan tich tinh cam nhim muc dich đánh gia tinh cam duoc thé hién trong một văn bản chủ quan, có khả năng phân biệt tình cảm tích cực, tiêu cực hoặc thậm chí tinh té hon, chang hạn như tức giận, đau buồn hoặc niềm vui Nó chủ yếu liên

quan đến hai nhiệm vụ tiếp theo: xác định thông tin chủ quan / khách quan và phân loại tình cảm của thông tin chủ quan [9]

Phân tích tình cảm liên quan đến cả hai cực và mức độ tình cảm, cung cấp một

phương pháp để xử lý tính toán đữ liệu phi cấu trúc [11] Văn bản được phân tích có thé

là toàn bộ tài liệu, một câu hoặc một phan của câu, có hoặc không có siêu dữ liệu nhúng

Phân tích tình cảm thường bao gồm xử lý trước văn bản bằng các công cụ ngôn ngữ [12] bao gồm các bước: 1 Chủ quan / phát hiện ý kiến; 2 Phát hiện phân cực; 3 Phát hiện mức độ tình cảm; 4 Phát hiện cảm xúc cụ thể; 5 Phát hiện khía cạnh tình cảm

Chất lượng của các hệ thống phân tích tình cảm thường được đánh giá bằng cách so sánh kết quả với kết quả của nhiều phương pháp

1.2.3 Phương pháp phân loại quan điểm

Về cơ bản có ba cách tiếp cận để phân loại quan điểm: Phương pháp dựa trên ứ

Trang 17

vung (lexicon) và phương pháp dựa trên hoc may (machine learning-ML) Phuong phap tiếp cận dựa trên từ vựng yêu cầu có sẵn hoặc xây dựng một bộ từ vựng phù hợp trong khi phương pháp học máy tự động phân loại văn bản nhưng thường yêu cầu các tập dữ liệu được thu thập và tiền xử lý Ngoài ra, còn có phương pháp lai là sự kết hợp phương pháp dựa trên từ vựng và phương pháp học máy

Các nhà nghiên cứu chủ yếu sử dụng phương pháp học máy và phương pháp dựa trên từ vung, cả hai đều có những ưu điểm và hạn chế Phương pháp lai cũng có thê và được sử dụng để khắc phục những thiếu sót của các kỹ thuật riêng lẻ Sentiment analysis methods

ant Machine learning-based :

Lexicon-based methods nh Hybrid methods

Corpus-based Dictionary-based Machine learning and

methods methods lexicon-based methods

Unupervised learning- | | Supervised learning- Semi-supervised based methods based methods learning-based methods

Statistical Semantic Proposed method

methods methods (CSK)

Support Vector Machine Naive-Bayes Neural-Network = Bayesian Nelwork

Hình 1.1 Các phương pháp phân loại quan điểm

1.2.4 Phương pháp tw vung —Lexicon

Phương pháp tiếp cận dựa trên fừ vựng sử dụng /ừ vựng fình cảm với thông tin về từ

và cụm tử nào là tích cực và tử nảo là tiêu cực [9] Trước tiên, tạo ra một từ vựng tinh cảm thông qua việc biên soạn danh sách từ tình cảm và sau đó xác định mức độ chủ quan của một đơn vị văn bản dựa trên các chỉ số tích cực và tiêu cực được xác định bởi từ vựng

[13] Người ta có thê sử đụng các phương pháp tiếp cận thủ công, phương pháp từ vựng và phương pháp tiếp cận dựa trên văn bản đề tạo ra một từ vựng tình cảm [3]

Trang 18

nó có thê áp đụng cho bất kỳ lĩnh vực nào [13] Hơn nữa, nó có thể dễ dàng được mở rộng và cải thiện - nếu xây ra lỗi, người ta có thể sửa một số quy tắc hiện có hoặc thêm quy tắc

mới vào co sở quy tắc của hệ thống Mặt khác, một văn bản thường được coi là một tập

hợp các từ mà không xem xét bất kỳ mối quan hệ nào giữa các từ riêng lẻ được giới hạn

để xác định tình cảm ngữ nghĩa hoặc so sánh Bên cạnh đó, nó cũng cần một sự đầu tư lớn

về thời gian và nỗ lực để xây dựng nền tảng kiến thức ban đầu về từ vựng, mô hình và quy tắc = 2 -based o LEXICON-DaSe O S Ort nnrereereze~~=rer==r=erer=e=ereereeeeeeemeemeeee © : | had nightmares all night long last night :( oo Bố ẢỐỮ.DỐÚỎ L < Sentiment Lexicon _ ` reat ,cc°”

gre 3 800q Text Processing

ove wrong Algorithm

|

2, horrible „ww ` eo"

mistake :

~~ _ an Negative

Hình 1.2 Mô hình phân loại từ vựng

Hiện nay, có ba cách tiếp cận chính để tổng hợp danh sách các từ tình cảm hoặc từ

vựng được gọi là từ vựng tình cảm: cách tiếp cận thủ công (manual approach), cách tiếp cận từ vựng (lexical approach) và cách tiếp cận dựa trên văn bản (corpus-based approach)

[3]

Cách tiếp cận thủ công: Cách tiếp cận thủ công liên quan đến xử lý thủ công của con người và đo đó tốn nhiều công sức và thời gian Tuy nhiên, nó đảm bảo nắm bắt các sắc thái và ý nghĩa của miễn cụ thể Phương pháp này tốn thời gian và giới hạn trong một số

tu vựng, độ chính xác không cao Đề làm cho nó hiệu quả hơn, nó được kết hợp với hai

phương pháp tự động khác

Cách tiếp cận dựa trên từ điền: Một tập hợp các từ ý kiến được thu thập bằng tay

với cực đã biết Các từ mới được tìm thấy sau đó được thêm vào danh sách và lặp lại Quá

Trang 19

trình này tiếp tục cho đến khi không tìm thấy từ mới Tài nguyên có sẵn được sử dụng đề

xác định các từ tỉnh cảm Từ vựng là một kho các thuật ngữ thuộc về một chủ để hoặc

ngôn ngữ cụ thể Từ vựng có thể được biên dịch thủ công cung cấp từ đồng nghĩa và từ trái nghĩa cho mỗi từ Ưu điểm của phương pháp dựa trên từ điển là người ta có thể đễ dàng và nhanh chóng tìm thấy một số lượng lớn các từ tình cảm với định hướng quan điểm của chúng Tuy nhiên, định hướng tỉnh cảm của các từ được thu thập theo cách này là chung hoặc độc lập theo từng lĩnh vực với bối cảnh Đây là một vấn đề vì đôi khi trong nhiều lĩnh vực du lịch, tình cảm được nhúng hay ngầm hiểu trong các cụm từ và ý nghĩa

cụ thể của từng lĩnh vực

Cách tiếp cận dựa trên Corpis (kho đữ liệu): Phương pháp dựa trên Corpus thường

được thiết kế để tạo ra từ vựng có miễn giá trị ngữ nghĩa cụ thể của một bộ sưu tập văn bản cụ thể

Cách tiếp cận từ vựng

Việc dự đoán cảm xúc dựa vào việc tìm kiếm các từ cảm xúc riêng lẻ, xác định điểm số cho các từ tích cực, tiêu cực và sau đó tổng hợp các điểm số này lại theo một độ đo xác

định để quyết định xem văn bản mang màu sắc cảm xúc gì Độ chính xác của mô hình

phụ thuộc vào bộ tử điển các từ cảm xúc Nhưng lại có ưu điểm là dễ thực hiện, chi phí

tính toán nhanh, chỉ mất công sức trong việc xây đựng bộ từ điển các từ cảm xúc Cách tiếp cận dựa trên Corpus

Cách tiếp cận này chủ yếu được áp đụng theo hai cách:

Đưa ra một danh sách các từ tình cảm đã biết, khám phá các từ tình cảm khác và

định hướng của chúng từ một kho chứa một lĩnh vực, chuyên ngành nào đó

Điều chỉnh một danh sách các từ tình cảm đã biết sang một từ mới bằng cách sử

dụng một lĩnh vực, chuyên ngành cụ thể nào đó

Cu thé hon, cach đầu tiên là khai thác các quy tắc hoặc quy ước ngôn ngữ trên các kết nối để xác định đồng thời các từ tình cảm và xác định định hướng của chúng trong một kho văn bản nhất định Cách thứ hai là sử dụng các quan hệ cú pháp của các ý kiến

Trang 20

Phương pháp tiếp cận dựa trên Corpus rất hữu ích dé xác định các từ cụ thể theo chủ

dé, lĩnh vực và định hướng tỉnh cảm trong chủ đề, lĩnh vực cụ thể nào đó Tuy nhiên, các cách tiếp cận bị hạn chế về mặt xác định các chủ thể và tình cảm theo ngữ cảnh ở cấp độ cụm từ hoặc biểu thức Tình cảm theo ngữ cảnh có nghĩa là mặc dù một từ hoặc cụm từ trong từ vựng được đánh dấu là tích cực hoặc tiêu cực, trong bối cảnh của biểu thức câu, nó có thể không có tình cảm hoặc có tình cảm ngược lại [3]

1.2.5 Cac phuwong phap hoc may- machine learning

Phương pháp tiếp cận học máy được sử dụng để xây dựng các thuật tốn và xây

dựng mơ hình bằng cách lựa chọn tính năng và bằng cách học hỏi từ các bộ dữ liệu đào

tạo được dán nhãn [14], [15] Các phương pháp nỗi tiếng bao gồm máy vectơ hỗ trợ

(SVM), Naive Bayes , tat cả đều được sử dụng dé phan loai tinh cam [16]

Tuy nhiên, các kỹ thuật học máy đòi hỏi dữ liệu học chất lượng và có tính đại diện,

thường rất tổn kém và mất thời gian Một số nghiên cứu sử dụng các phương pháp đựa trên quy tắc dé tự động hóa quá trình chú thích đữ liệu học nhưng chúng không xem xét ngữ cảnh của thuật ngữ và do đó có thể không tạo ra dữ liệu học chất lượng cao và đáng

tin cậy cần thiết cho học máy tập Vì các phương pháp học máy dựa vào dữ liệu học, một bộ phân loại tỉnh cảm được học từ dữ liệu được gắn nhãn trong một miễn thường không hoạt động trong một miền khác Học máy là đào tạo máy tính sao cho nó có khả năng tự đưa ra quyết định Trình phân loại học tập được giám sát sử dụng tập huấn luyện để học và tự đào tạo và hiệu suất của trình phân loại được kiểm tra bằng cách sử dụng tập dữ liệu

kiểm tra Có nhiều loại phân loại theo học tập có giám sát; phổ biến nhất trong số đó là phân loại xác suất và phân loại tuyến tính:

Phân loại xác suất là một mô hình tông quát và hỗn hợp trong đó mỗi lớp là thành phần Nó xác định xác suất lấy mẫu cho thành phần đó

Trang 21

Sentiment analysis methods Machine leaming-based| methods

LInupervised learning- Supervised learning- Semi-supenvised based methods based methods learning-based methods

Support Vector Machine Naive-Bayes Neural-Network Bayesian Network Hình 1.3 Một số giải thuật phân loại quan điểm dựa trên học máy 1.2.6 Phương pháp lai

Để cải thiện hiệu suất của phân loại tình cảm, một số nhà nghiên cứu đề nghị kết

hợp học tập với phương pháp dựa trên từ vựng Là sự kết hợp phương pháp dựa trên từ vựng và phương pháp học máy Phương pháp lai cũng có thể và được sử dụng để khắc phục những thiếu sót của các kỹ thuật riêng lẻ

1.2.7 Các cấp độ phân tích quan điểm

Phương pháp tiếp cận cũng có thể được phân biệt dựa trên mức độ phân tích khác nhau, về cơ bản gồm các cấp độ [ 18]

1.2.7.1 Phân tích cấp độ tài liệu

Nhằm xác định và phân loại các định hướng hoặc phân cực tình cảm trong toàn bộ tài liệu Nó đã được áp dụng chủ yếu để xác định quan điểm tích cực hoặc tiêu cực của

văn bản trong các hệ thống trả lời câu hỏi, thảo luận điễn đàn, blog và đánh giá trực tuyến và đã được chứng minh hữu ích cho các công ty, hệ thống đề xuất và các trang web biên

Trang 22

rất hữu ích dé phân loại ý kiến tổng thể về văn bản Phân tích cấp độ tài liệu tập trung hạn chế vào các ý kiến về một chủ để (ví dụ: một sản phẩm) và do đó không thé 4p dung cho một tài liệu hoặc thậm chí là một phần của tài liệu đánh giá hoặc so sánh nhiều chủ đề

[18]

Những hạn chế khác của phân tích cấp độ tài liệu có liên quan đến việc bỏ qua tình cảm trung lập và bối cảnh Hầu hết phân tích tình cảm ở cấp độ tài liệu bỏ qua lớp trung

tính, chủ yếu vì khó thực hiện phân loại ba lớp (nghĩa là tích cực, trung lập, tiêu cực) một

cách chính xác Tuy nhiên, trên phương tiện truyền thông xã hội, người dùng thường đặt câu hỏi và trao đổi thông tin, và văn bản như vậy chỉ có thể chứa đựng tình cảm trung lập do phân tích cấp độ tài liệu quá thô để thực hiện phân tích ngôn ngữ tự nhiên chuyên sâu vượt ra ngoài phân loại văn bản

1.2.7.2 Phân tích cấp độ câu

Mục tiêu của phân tích cấp độ câu là xác định các phân cực tỉnh cảm trong một câu nhất định Nó đã được áp dụng rộng rãi để xác định tình cảm của các bài đánh giá trực

tuyến và bài đăng trên blog Tập trung vào phân loại chủ quan, phân biệt các câu (nghĩa là câu khách quan) thể hiện thông tin thực tế với các câu thê hiện quan điểm và ý kiến chủ quan (tức là câu chủ quan) Điều này có nghĩa là không giống như phân tích cấp độ tài liệu thường bỏ qua lớp trung tính Lớp trung tính không thể bị bỏ qua trong phân tích cấp

độ câu vì một tài liệu có thể chứa nhiều câu thể hiện tình cảm không tích cực hoặc tiêu

cực Hơn nữa, phân tích cấp độ câu đi xa hơn phân loại cấp độ tài liệu khi nó tiến gần hơn đến các mục tiêu ý kiến và tình cảm về các mục tiêu Mặc dù có những ưu điểm này, phân tích cấp độ câu có một vài hạn chế ứng đụng của nó trên phương tiện truyền thông xã hội

Phân tích ở cấp độ câu chỉ có thể xác định các ý kiến thông thường được truyền đạt trong các câu đơn giản và không thể áp dụng khi xác định các ý kiến ngữ nghĩa được thê hiện trong các câu ghép và phức Phân tích ở cấp độ câu cũng không thể xử lý các ý kiến

hoặc tỉnh cảm trong các câu so sánh Hạn chế này đặt ra một vấn để để xác định tình cảm

của người tiêu đùng phức tạp trên phương tiện truyền thông xã hội Rất có khả năng những ý kiến này được thể hiện thông qua các đánh giá, so sánh và giải thích

Ngoài ra, phân tích ở cấp độ câu không có khả năng xác định tình cảm trong ba

Trang 23

trường hợp sau: (1) Không có mẫu quan điểm tương ứng được xác định trước; (2) Câu không đầy đủ; (3) Lỗi trình phân tích củ pháp do thiếu dấu câu hoặc sai chính tả Giới hạn đầu tiên đặt ra hai vấn để khi tiến hành phân tích tình cảm trên phương tiện truyền thông xã hội với mức độ lớn của dữ liệu và mô hình ngôn ngữ | 18]

Người ta nhận ra rằng việc sử dụng phương ngữ, tiếng lóng và biểu tượng cảm xúc trên phương tiện truyền thông xã hội cao hơn nhiều so với các lĩnh vực khác Do đó, rất

có thể các mẫu tình cảm được xác định trước xuất phát từ việc học các mục giới hạn

không thể xác định được lượng dữ liệu không lồ Các hạn chế thứ hai và thứ ba đặt ra

những thách thức cho việc tiến hành phân tích tình cảm trên phương tiện truyền thông xã hội với các đặc điểm riêng biệt của các bài đăng trên phương tiện truyền thông xã hội Mặc dù các đoạn văn bản lớn hơn nhưng đánh giá trực tuyến thê hiện suy nghĩ tóm tắt của các tác giả, một số bài đăng trên phương tiện truyền thông xã hội ngắn hơn và giản dị hơn, chúng thường được đăng từ nhiều phương tiện khác nhau như điện thoại di động

1.2.7.3 Phân tích cấp độ cụm từ

Nhằm xác định các phân cực tình cảm dựa trên các cụm từ nhất định trong mỗi câu của một văn bản Mặc dù nó được xem là một phương pháp hữu ích trong việc thực hiện

các nhiệm vụ chỉ tiết nhưng nó cũng có những hạn chế đáng kể Phân tích cấp độ cụm từ không xem xét từ phân cực theo ngữ cảnh - phân cực của biểu thức là biêu thức trong đó

một từ xuất hiện và phân cực ngữ cảnh từ ngữ đặt bối cảnh của câu vào xem xét Các từ

thường có cùng cực và theo ngữ cảnh và phân cực theo ngữ cảnh khác nhau Nói cách khác, có nhiều yếu tố trong câu hạn chế khả năng sử dụng tính phân cực của các từ và cụm từ để phân tích tình cảm Một số cụm từ có chứa các từ phú định tăng cường hơn là

thay đổi phân cực Một từ tỉnh cảm tích cực hoặc tiêu cực có thể có định hướng ngược lại

trong các lĩnh vực ứng dụng khác nhau Một câu có chứa các từ tình cảm có thể không thể hiện bất kỳ tình cảm nào, thường xảy ra trong các câu hỏi và điều kiện [18]

Phân tích cấp độ cụm từ cũng bị giới hạn về mặt xác định tình cảm mà không sử dụng từ tình cảm, vì nhiều câu trong số này là những câu thực sự được sử dụng để diễn đạt một số thông tin thực tế bên cạnh tình cảm Một khía cạnh quan trọng khác của sự

phân cực theo ngữ cảnh là quan điểm của người thé hiện tình cảm

Trang 24

1.2.7.4 Phan tích dựa trên khía cạnh

Còn được gọi là phân tích dựa trên tính năng, dựa trên chủ để, dựa trên thực thể và dựa trên mục tiêu, nhằm xác định mục tiêu tình cảm và gán tỉnh cảm cho các mục tiêu Thay vì nhìn vào các cầu trúc ngôn ngữ (tức là tài liệu, đoạn văn, câu, mệnh để, cụm từ),

phân tích cấp độ khía cạnh trực tiếp nhìn vào chính ý kiến

Phân tích dựa trên khía cạnh bao gồm các thành phan cốt lõi sau: Đẩu fiên, trích xuất và phân loại thực thể liên quan đến miễn tình cảm, chang han nhu san phẩm cụ thể Thứ hai, khai thác và phân loại khía cạnh nhằm xác định tất cả các chủ để liên quan đến thực thể, chang hạn như màu sắc và giá của sản phẩm Thứ ba, phân loại tình cảm khía cạnh nhằm xác định xem một ý kiến về một khía cạnh là tích cực, tiêu cực hay trung tính

Các thành phần khác được để cập trong phân tích dựa trên khía cạnh là trích xuất thời gian và tiêu chuẩn hóa, xác định chủ sở hữu ý kiến và tạo ra ý kiến [ 18]

Trái ngược với phân tích cấp độ tài liệu, cấp độ câu và cấp độ cụm từ, phân tích cấp độ khía cạnh được ghi nhận vì khả năng thực hiện phân tích chỉ tiết vì nó phát hiện ra

chính xác những gì người tiêu dùng thích và không thích Phân tích cấp độ khía cạnh có

thể xác định hai loại tình cảm, tức là y kién thường xuyên và so sánh Mặt khác, phân tích cấp độ khía cạnh cũng có những hạn chế đặt ra thách thức cho việc tiến hành phân tích

tình cảm trên phương tiện truyền thông xã hội Vấn để của phân tích cấp độ khía cạnh là

trích xuất và phân loại các biểu thức khía cạnh - khía cạnh liên quan đến một từ hoặc cụm

từ xuất hiện trong văn bản được trình bày theo những cách khác nhau và đôi khi là ân

1.2.7.5 Phân tích dựa trên mức độ cảm xúc

Phân tích mức độ cảm xúc cố gắng phát hiện các biểu hiện của các loại cảm xúc

khác nhau Kiểu phân tích này vượt ra ngoài phát hiện phân cực đơn giản và đòi hỏi một kỹ thuật chỉ tiết hơn nhiều, thường phụ thuộc vào các phương pháp dựa trên từ vựng [18]

1.2.8 Khó khăn và thách thức

Sự tăng trưởng về số lượng thông tin chủ quan, có ý kiến và các phương tiện đặc biệt mà nó được truyền tải trên phương tiện truyền thông xã hội đã mang lại những thách thức quan trọng cho phân tích tình cảm [17] Điều đầu tiên liên quan đến giao tiếp đa

Trang 25

phương thức có sẵn trên phương tiện truyền thông xã hội - người dùng có thể xuất bản

văn bản, video, hình ảnh và biểu tượng cảm xúc Hàng ngày một lượng rất lớn dữ liệu văn bản thô, ít bị ràng buộc về các yêu cầu văn pham được chia sẻ dưới dạng các bình luận

chủ quan của người dùng trên mạng xã hội với cách hành văn tự do Phân tích tâm lý của

đối tượng là một chủ để thách thức trong học máy Mọi người thể hiện cảm nhận của

mình thông qua ngôn ngữ tự nhiên có bản chất nhập nhằng, mơ hồ đã gây không ít khó

khăn cho việc xử lý dé may tinh co thể hiểu Chưa kể, các bình luận có sử dụng các cách

chơi chữ, Ân ý hay các kí hiệu cảm xúc Phân lớp quan điểm bình luận với đầu vào là các

văn bản bình luận, có đặc điểm là ít tuân thủ về mặt cú pháp ngữ nghĩa và diễn đạt ngôn

từ Có tính nhập nhằng cao ở tất cả các mức bao gồm mức từ vựng, cú pháp, ngữ nghĩa và

mức văn bản Ngoài ra, có rất nhiều lượt bình luận trên các trang thương mại điện tử lớn, có thể lên tới hàng chục triệu lượt bình luận chỉ trong một thời gian ngắn, vì thế việc phân

lớp bằng tay là điều không thẻ

Thách thức khác liên quan đến giao tiếp đa phương thức là xác định tình cảm được thê hiện thông qua biểu tượng cảm xúc và biểu tượng đồ họa Ngoài việc sử dụng biểu tượng cảm xúc để truyền đạt biểu cảm khuôn mặt, cơ sở công nghệ tiên tiến của phương tiện truyền thông xã hội cung cấp cho người dùng một lượng lớn biểu tượng cảm xúc biểu

hiện cử chỉ động học và biểu tượng dé hoa cung cap nội dung thông tin, biểu tượng và tham chiếu Đặc biệt, các biểu tượng tham chiếu đại diện cho các tham chiếu cụ thể và

truyền đạt nội dung ngữ nghĩa Các biểu tượng bối cảnh hoặc văn hóa cụ thể này đòi hỏi các nhà nghiên cứu không chỉ có kỹ năng phân tích thành thạo, mà còn hiểu biết nội tại về bối cảnh văn hóa và xã hội của các văn bản truyền thông xã hội

Việc xác định tình cảm được gửi qua văn bản liên văn bản cũng là một thách thức

Các hình thức liên văn bản bao gồm văn bản: 1) Siêu liên kết dẫn đến một trang web khác

(tức là siêu liên kết); 2) Xuất bản một bài viết thông qua chỉnh sửa một tin nhắn trước đó;

3) Đăng lại và lặp lại các bài viết trước; 4) Xuất bản một bài đăng với các thành phần văn bản và hình ảnh kết hợp Tất cả chúng đều đóng một vai trò lớn trong quá trình tạo ý nghĩa và ý nghĩa đó không tổn tại trong một văn bản, mà mỗi văn bản đều có ý nghĩa của nó do sự nhúng của nó trong nhiều lớp văn bản Điều này có nghĩa là việc phân tích văn

Trang 26

ban lién van ban vuot xa phan tich xem biểu hiện tình cảm là tai liệu, câu, cụm từ hoặc các khía cạnh cụ thể

Một thách thức khác liên quan đến việc xác định tình cảm trong một không gian truyền thông xã hội đa liên kết và đa chiều Những thách thức quan trọng không kém khác bao gồm phân tích tình cảm đa nền tảng, phân tích tình cảm theo thời gian thực và khả năng chỉnh sửa được cung cấp bởi phương tiện truyền thông xã hội Do đó, tình cảm có thê không nhất quán trên các nền tảng khác nhau Cuối cùng, khả năng chỉnh sửa đề cập đến khả năng người dùng sửa đổi hoặc sửa đổi nội dung mà họ đã đăng, bao gồm sửa đổi và xóa nội dung

1.2.9 Ứng dụng phân lớp quan điểm bình luận

Trong học máy và xử lý ngôn ngữ tự nhiên, phân lớp văn bản là một bài toán xử lý

văn bản cổ điển, gán các nhãn phân loại lên một văn bản mới dựa trên mức độ tương tự

của văn bản đó so với các văn bản đã được gán nhãn trong tập huấn luyện Chúng ta đang sống trong kỷ nguyên số, đặc biệt những năm gần đây nỗi lên với mạng xã hội, với hàng triệu người dùng trên thế giới, với lượng thông tin nội đung được người đùng tạo ra hằng ngày cực kỳ lớn, với đa dạng các hình thức như dòng trạng thái, hình ảnh, video Mạng xã hội có những đặc điểm là: thông tin đo người đùng tạo ra, mang tính cá nhân cho nên chất

lượng nội dung hay tính đúng đăn, xác thực là tương đối; một thông tin mới được tạo lại

có sức lan tỏa nhanh đến đông đảo các người dùng khác, so với các kênh thông tin truyền thống như truyền hình, truyền thành, báo chí, điễn đàn, blog Các ứng dụng của phân lớp văn bản thường rất đa dạng như:

Khi người tiêu đùng phải đưa ra quyết định hoặc lựa chọn liên quan đến sản phẩm, một thông tin quan trọng là danh tiếng của sản phẩm đó, xuất phát từ ý kiến của người khác Phân tích quan điểm có thể tiết lộ những gì người khác nghĩ về một sản phẩm Do đó, ứng dụng đầu tiên của phân tích tình cảm là đưa ra chỉ đẫn và khuyến nghị trong việc

lựa chọn sản phẩm theo sự khôn ngoan của đám đông Khi chúng ta chọn một sản phẩm,

chúng ta thường bị thu hút bởi các khía cạnh cụ thể của sản phẩm.Phân tích tình cảm có thê tập hợp lại ý kiến của người đánh giá và ước tính xếp hạng về các khía cạnh nhất định của sản phẩm Một tiện ích khác của phân tích tình cảm là dành cho các công ty muốn

Trang 27

biét y kiến của khách hàng về sản phẩm của họ Sau đó, họ có thể cải thiện các khía cạnh

mà khách hàng thấy không hài lòng Phân tích tình cảm cũng có thể xác định khía cạnh nào quan trọng hơn cho khách hàng

Ngày nay, chúng ta có lẽ đã gặp những hiện tượng này nhiều lần: Youtube tự động chuyển các clip liên quan đến clip bạn đang xem Youtube cũng tự gợi ý những clip mà có thể chúng ta sẽ thích Khi chúng ta mua một món hàng trên Amazon, hệ thống sẽ tự động gợi ý “Frequently bought together”, hoặc nó biết bạn có thê thích món hàng nào dựa trên lịch sử mua hàng của chúng ta Facebook hiền thị quảng cáo những sản phẩm có liên quan đến từ khoá chúng ta vừa tìm kiếm Facebook gợi ý kết bạn Netflix tự động gợi ý phim cho người dùng Và rất nhiều ví dụ khác mà hệ thống có khả năng tự động gợi ý cho người dùng những sản phẩm họ có thê thích Bằng cách quảng cáo hướng đúng đối tượng như thế này, hiệu quả của việc marketing cũng sẽ tăng lên Những thuật toán đằng sau những ứng dụng này là những thuật toán liên quan đến phân tích quan điểm sử dụng các thuật toán học máy có tên gọi chung là hệ fhồng gợi ÿ

Phân tích quan điểm được sử dụng rộng rãi trong thương mại điện tử, du lịch và

khách sạn để hiểu ý kiến truyền thông xã hội của người dùng Trong nghiên cứu điểm đến

du lịch, lựa chọn sản phẩm thì phân tích tình cảm đã được để xuất như một công cụ để

theo đối các thương hiệu nỗi tiếng Phân tích tình cảm áp dụng cho nhận xét về đánh giá

trực tuyến đã được xác định là cần thiết để tạo chiến lược phù hợp cho quản lý dịch vụ

khách hàng

Cuối cùng phân tích quan điểm đã được để xuất như là một thành phần của các công nghệ khác Một ý tưởng là cải thiện việc khai thác thông tin trong phân tích văn bản bằng cách loại trừ phần chủ quan nhất của tài liệu hoặc tự động để xuất quảng cáo trên internet cho các sản phâm phù hợp với ý kiến của người xem (và loại bỏ phần khác) biết những gì mọi người nghĩ mang lại nhiều khả năng trong miễn giao diện người và máy

1.3 BAI TOAN PHAN LỚP DỰA TREN MAY HOC

Phân loại hay phân lớp (classsification) là một trong những bài toán được nghiên cứu trong máy học Trong bài toán này, chương trình được yêu cầu xác định /ớp/ nhãn

Trang 28

(class/ label) của một điểm dữ liệu trong số C nhãn khác nhau Cặp (dữ liệu, nhãn) được

ký hiệu là (x,y) với y nhận một trong C giá trị trong tập đích “ Trong bài toán này, việc xây dựng mô hình phân lớp học máy tương đương với việc đi tìm hàm số ƒ ánh xạ một điểm đữ liệu x vào một phần tử y € %:y = ƒ()

Việc phân lớp về cơ bản có thê có nhiều kỹ thuật, trong kỹ thuật học máy tổng quát

đều thực hiện các bước sau:

1 Dữ liệu và tiền xử lý dữ liệu;

2 Trích xuất đặc trưng (feature vector); 3 Mô hình phân lớp;

4 Hậu xử lý kết quả

Bài toán phân loại quan điểm bình luận được phát hiểu như sau: Dựa vào bộ dữ liệu các bình luận thu thập được, sử dụng các mô hình học máy xác định một danh sách các câu bình luận là tích cực hay tiêu cực

1.3.1 Kiến trúc chung của một hệ thông học máy

Một thuật toán học máy là một thuật toán có khả năng học tập từ dữ liệu Đề xây dựng một chương trình máy tính có khả năng học, ta cần xác định rõ ba yếu tố: nhiệm vụ,

phép đánh giá, và nguồn đữ liệu huấn luyện Các nhiệm vụ trong học máy được mô tả thông qua việc một hệ thống xử lý một điểm đữ liệu đầu vào như thế nào Để chương

trình máy tính có thể học được, các điểm dữ liệu thường được đưa về dạng tập hợp các con số mà mỗi số được gọi là một đặc rưng (feature) Kinh nghiém trong học máy là bộ dữ liệu được sử dụng dé xây dựng mô hình

Ví đu: Bài toán phân cực quan điểm của các bình luận trên mạng xã hội trong luận

văn này

e_ N”hiệm vụ: Xác định nhãn của một bình luận là tích cực/ tiêu cực

e_ Phép đánh giá: Số lượng bình luận được gán nhãn đúng

e Kinhnghiém: Tap dữ liệu gồm các cặp (bình luận, nhãn) biết trước

1.3.2 Dữ liệu và tiền xử lý dữ liệu văn bản bình luận

Trang 29

Bước đầu tiên và không thê thiếu trong việc xử lý ngôn ngữ tự nhiên là tiền xử lý đữ

liệu Trong xử lý văn bản bình luận, thường phải làm các công việc như sau: Tách fừ, lọc

bỏ sfopwordšs (những từ xuất hiện nhiều nhưng không mang nhiều ý nghĩa), chuẩn hóa từ Các công việc này không nhất thiết phải thực hiện đồng thời, tùy vào mục tiêu của bài toán cụ thể khác nhau

Tách từ là một quá trình xử lý nhằm mục đích xác định ranh giới của các từ trong câu văn, cũng có thể hiểu đơn giản rằng tách từ là quá trình xác định các từ đơn, từ ghép có trong câu Đối với xử lý ngôn ngữ, để có thê xác định cấu trúc ngữ pháp của

câu, xác định từ loại của một từ trong câu, yêu cầu nhất thiết đặt ra là phải xác định được

đâu là từ trong câu Vấn để này tưởng chừng đơn giản với con người nhưng đối với máy

tính, đây là bài toán rất khó giải quyết Chính vì lý do đó tách từ được xem là bước xử lý

quan trọng đối với các hệ thống xử lý ngôn ngữ tự nhiên, đặc biệt là đối với các ngôn ngữ thuộc vùng Đông Á theo loại hình ngôn ngữ đơn lập, ví dụ: tiếng Trung Quốc, tiếng Nhật, tiếng Thái, và tiếng Việt

Với các ngôn ngữ thuộc loại hình này, ranh giới từ không chỉ đơn giản là những khoảng trắng như trong các ngôn ngữ thuộc loại hình hòa kết như tiếng Anh, mà có sự

liên hệ chặt chế giữa các tiếng với nhau, một từ có thể cầu tạo bởi một hoặc nhiều tiếng

Vì vậy đối với các ngôn ngữ thuộc vùng Đông Á, vấn đề của bài toán tách từ là khử được sự nhập nhằng trong ranh giới từ Trong tiếng Việt, dấu cách (space) không được sử dụng như một kí hiệu phân tách từ, nó chỉ có ý nghĩa phân tách các âm tiết với nhau Vì thế, để xử lý tiếng Việt, công đoạn tách từ (word segmentation) là một trong những bài toán cơ bản và quan trọng bậc nhất

Trong quá trình xây dựng mô hình, bộ dữ liệu thường được chia ra làm ba tập dữ

liệu không giao nhau: tập huấn luyện, tập kiểm tra, và tập xác thực

Tập huấn luyện (training set) bao gồm các điểm dữ liệu được sử dụng trực tiếp trong việc xây dựng mô hình Tập kiểm tra (test set) gồm các dữ liệu được dùng để đánh giá hiệu quả của mô hình Để đảm bảo tính phố quát, dữ liệu kiểm tra không được sử dung trong quá trình xây dựng mô hình Để tăng hiệu quả của mô hình trên đữ liệu kiểm tra,

Trang 30

Tap xac thuc nay duoc str dung trong viéc lua chon cac siéu tham số mô hình

1.3.3 Trích chọn đặc trưng

Khi làm việc với các bài toán học máy thực tế, nhìn chung chúng ta chỉ có được dữ liệu thô chưa qua chỉnh sửa, chọn lọc Chúng ta cần phải tìm một phép biến đổi để loại ra những dỡ liệu nhiễu (noise), va để đưa dữ liệu thô với số chiều khác nhau về cùng một

chuẩn (cùng là các vector hoặc ma trận) Dữ liệu chuẩn mới này phải đảm bảo giữ được những thông tin đặc trưng (features) cho dữ liệu thô ban đầu Không những thế, tùy vào từng bài toán, chúng ta can thiét kế những phép biến đổi để có những đặc trưng phù hợp Quá trình quan trọng này được gọi là ích chọn đặc trưng.Những đặc trưng này dùng để

huấn luyện các thuật toán học máy cho bài toán phân loại quan điểm bình luận

1.3.4 Kiến trúc chung cho các mô hình học máy

Có hai pha lớn trong mỗi bai toan hoc may gém pha hudn luyén (training phase) va pha kiểm tra (test phase) Pha huấn luyện xây dựng mô hình dựa trên dữ liệu huấn luyện

Phần lớn các mô hình học máy có thể được minh họa theo hình sau đây: Pha huấn luyện TT huận Hụệa Ta oe Yer) : Ỳ

[Dữ liệu huấn luyện| Đặc trưng

thô (đầu vào) được trích “Thuật toán

Bộ trích chọn chon (Xtrain) phan loai,

dae trung hoi quy,

hh phan cum

Y Y

Dữ liệu kiểm tra Đặc trưng

tho (dau vao) duge trich Thuật toán

Bộ trích chọn chọn (Xe) phân loại,

đặc trưng hồi quy, li phan cum Ỷ :ả Đầu ra dự đoán Pha kiếm tra (¥test)

Hình 1.4 Kiến trúc chung trong các bài toán học máy

Trang 31

đặc trưng cho mỗi điểm dữ liệu đầu vào Vector đặc trưng này thường có kích thước như nhau

2 Pha kiểm tra: Ở pha kiểm tra, vector đặc trưng của một điểm dữ liệu thô mới được tạo bởi bộ trích chọn đặc trưng thu được từ pha huấn luyện Vector đặc trưng này được đưa vào thuật toán chính đã tìm được để đưa ra quyết định

1.3.5 Hàm mất mát và tham số

Mỗi mô hình học máy được mô tả bởi bộ các tham số mô hình (model parameter) Công việc của một thuật toán học máy là đi tìm các tham số mô hình tối ưu cho mỗi bài

toán Việc đi tìm các tham số mô hình có liên quan mật thiết đến các phép đánh giá Mục đích chính là đi tìm các tham số mô hình sao cho các phép đánh giá đạt kết quả cao nhất

Trong bài toán phân loại, kết quả tốt có thể được hiểu là ít có điểm đữ liệu bị phân

loại sai Quan hệ giữa một phép đánh giá và các tham số mô hình được mô tả thông qua một hàm số gọi là hàm mất mát (loss function hoặt cost function) Hàm số này thường có giá trị nhỏ khi phép đánh giá cho kết quả tốt và ngược lại Việc đi tìm các tham số mô hình sao cho phép đánh giá trả về kết quả tốt tương đương với việc tối thiêu hàm mất mát

Như vậy, việc xây dựng một mô hình học máy chính là việc đi giải một bài toán tối ưu

Quá trình đó duoc coi 1a qua trinh /earning cia machine

Tap hop cac tham số mô hình được kí hiệu bằng 6, hàm mắt mát của mô hình được

ký hiệu là £(Ø) hoặc J(Ø) Bài toán đi tìm tham số mô hình tương đương với bài toán tối thiểu hàm mất mát Ø” = arg mịn £(8)

Trong đó ký hiệu arg min £(Ø) được hiểu là giá trị của Ø để hàm số £(Ø) đạt giá trị

nhỏ nhất Biến số được ghi dưới đấu argmin là biến đang được tối ưu Biến số này cần

được chỉ rõ trừ khi hàm mất mát chỉ phụ thuộc vào một biến duy nhất Ký hiệu argmax cũng được sử dụng một cách tương tự khi cần tìm giá †rỊ của các biến số để hàm số đạt gia

trị lớn nhất.Hàm số £(Ø) có thể không có chặn dưới hoặc đạt giá trị nhỏ nhất tại nhiều giá trị Ø khác nhau Thậm chí, việc tìm giá trị nhỏ nhất của hàm số này đôi khi không kha thi

Trong các bài toán tối ưu thực tế, việc chỉ cần tìm ra một bộ tham số Ø khiến hàm mất mát đạt giá trị nhỏ nhất hoặc thậm chí một gia tri cue tiểu cũng có thể mang lại các kết quả

Trang 32

kha quan

1.4 TIEU KET CHUONG 1

Phân tích cảm xúc của đối tượng hay bài toán phân loại các quan điểm bình luận là một chủ để thách thức trong học máy Chúng ta thể hiện cảm nhận của mình thông qua ngôn ngữ tự nhiên Ngôn ngữ tự nhiên có bản chất nhập nhằng, mơ hồ đã gây không ít khó khăn cho việc xử lý cho máy tính

Phân loại quan điểm bình luận là một trong những bài toán phân loại văn bản (text classification) của lĩnh vực xử lý ngôn ngữ tự nhiên và được ứng dụng rất nhiều trong thực tế Có rất nhiều phương pháp được nghiên cứu và ứng dụng Trong loại bài toán phân tích cảm xúc được phân thành các bài toán có độ khó khác nhau như sau: Đơn giản: Phân tích cảm xúc trong văn bản thành hai lớp: tích cực (positive) và tiêu cực (negative) Phức tạp hơn: Xếp hạng cảm xúc trong văn bản K”ó: Phát hiện mục tiêu, nguỗn gốc của cảm xúc hoặc các loại cảm xúc phức tạp

Trong phạm vi và mục tiêu nghiêu cứu của luận văn này, tôi tiếp cận vấn để này như

là một nhiệm vụ phát hiện tính phân cực nhằm phân lớp các văn bản theo hướng tích cực hay tiêu cực dựa trên nội dung các văn bản bình luận sử dụng một số mô hình học máy

Trang 33

Chuong 2 MOT SO PHUONG PHAP PHAN LOAI QUAN DIEM DỰA

TREN HOC MAY

2.1 GIỚI THIẾU

Xử lý ngôn ngữ tự nhiên là một nhánh của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ tự nhiên của con người Đây là một trong những phần khó nhất vi nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ và không có một công cụ nào hoàn hảo nhất để cho máy tính có thê hiểu được tư đuy và giao tiếp của con người thông qua ngôn

ngữ

Trong những năm gần đây, phương pháp học máy đang trở thành một phần không thé thiếu trong quá trình xử lý ngôn ngữ tự nhiên Từ việc xây dựng các tập quy tắc bằng tay đòi hỏi rất nhiều công sức và thời gian, các nghiên cứu đang hướng đến việc sử đụng cơ sở dữ liệu lớn đề tự động (hoặc bán tự động) sinh ra các quy tắc đó Phương pháp này đã, đang thu được những kết quả vô cùng khả quan trong nhiều lĩnh vực khác nhau của NLP Có rất nhiều phương pháp tiếp cận cho bài toán phân loại quan điểm với đầu vào là các văn bản bình luận trên các phương tiện truyền thông mạng xã hội Như đã giới thiệu và phân tích trong nội dung Chương 1 của luận văn này, các phương pháp tiếp cận có những ưu điểm và nhược điểm khác nhau Phương pháp tiếp cận trên học máy cho các bài toán cụ thê sẽ có những cách thức tiếp cận tương ứng mang lại hiệu quả Ngoài ra các kỹ thuật trích xuất đặc trưng hiệu quả riêng với những bộ dữ liệu khác nhau hay theo những mục tiêu tiếp cận khác nhau của bài toán Nói cách khác, không có phương pháp vạn năng nào có thê xử lý tốt tất cả các bài toán thực tế

Thế giới đang từng ngày số hóa, trong lĩnh vực mạng xã hội và phương tiện truyền

thông có rất nhiều lượt bình luận Có thể lên tới hàng chục triệu lượt bình luận chỉ trong

một thời gian ngắn, vì thế việc phân lớp bằng tay các văn bản bình luận là điều không thẻ Đây chính là lúc các mô hình phân lớp học máycó khả năng online learning thé hiện sức

mạnh

Trang 34

2.2 MAY VECTOR HO TRO

May vector hé tro (support vector machine, SVM) la mét trong nhiing thuat toán phân loại phổ biến và hiệu qua cho bai toán phân loại quan điểm bình luận Ý tưởng đứng sau SVM khá đơn giản nhưng việc giải bài toán tối ưu SVM liên quan nhiều đến kiến thức về tối ưu và đối ngẫu 7rong phạm vỉ và giới hạn nghiên cứu của luận văn này, tôi không di sau trình bày các kiến thức liên quan đến việc giải bài toán tối tu

2.2.1 Khoảng cách từ một điểm tới một siêu mặt phẳng

Trong không gian hai chiều, khoảng cách từ một điểm có tọa độ (xo, yạ) tới đường thẳng có phương trình wx + w;y + b = 0 được xác định bởi:

|wox + Woy + dl W2 +w;ˆ2

Trong không gian ba chiều, khoảng cách từ một điểm có tọa độ (Xọ, yọ, Zạ) tới một mặt phẳng có phương trình W¡x + wxy + +WsZ + b = 0 được xác định bởi:

|Wox + Woy + Woz + DI J Wy? + Wo? + W532

Nếu bỏ dấu trị tuyệt đối ở tử số, ta có thể xác định được điểm đó nằm về phía nào

của đường thẳng hay mặt phẳng đang xét

Hình 2.1 Phân tính về SVM - các mặt phân cách hai lớp

Hai lớp dữ liệu vuông và iròn là tách biệt tuyến tính.Có vô số đường thẳng có thể phân loại chính xác hai lớp dữ liệu này.Những điểm làm cho biểu thức trong dấu tuyệt đối mang đấu dương nằm về cùng một phía (tạm gọi là phía đương), những điểm làm cho giá trị này mang dấu âm nằm về phía còn lại (gọi là phí âm) Những điểm làm cho tử số

Trang 35

bằng không sẽ nằm trên đường thẳng/ mặt phẳng phân chia

Các công thức này có thể được tổng quát hóa lên cho trường hợp không gian đ chiều Khoảng cách từ một điểm (vector) có tọa độ (Xio,%ao, ,ao) tới siêu phăng WXị + W2#; + -'' + Wsx„ + b = 0 được xác định bởi:

|WoX19 + WoxX29 +++ WoXao + b| — |w'xo + bl

Wy? + We? + + Wa? llwll;

VOI Xy = [%19) X20) 6) Xao |” W = [Wy Wy, Wal” 2.2.2 Xây dựng bài toán tỗi ưu cho máy vector hỗ trợ T2 (a) (b) Hình 2.2 Ý tưởng của SVM

Lễ của một lớp được định nghĩa là khoảng cách từ các điểm gần nhất của lớp đó tới mặt phân chia.Lễ của hai lớp phải bằng nhau và lớn nhất có thé

Giả sử các cặp dữ liệu huấn luyện là các cặp (vector đặc trưng, nhãn):

(X:,¡) (Xạ,¿) (X„w, yy) nhãn bằng +1 hoặc -1 và X là số điểm dữ liệu Không mất

Trang 36

Hinh 2.3 Phan tich bai toan SVM

Giả sử mặt phân chia có phương trình WTx + b = 0 Không mất tính tổng quát, bằng cách nhân hệ số w và b với các hằng số phù hợp, ta có thể giả sử rằng điểm gần nhất của lớp vuông tới mặt này thỏa mãn WTx + b = 1 Khi đó, điểm gần nhất của lớp tròn thỏa mãn WŸx + b = —1

Ngoài ra, lớp hình vuông nằm về phía dương, lớp hình tròn nằm về phía âm của mặt phân chia Nếu xây ra điều ngược lại, ta chỉ cần đổi dấu của w và b Bài toán tối ưu SVM sẽ là bài toán đi tìm các tham số mô hình W và b

ney ~ 1A Á ^ 2 z ` ne ° a : › Tn(WTxu+b)

Với cặp dữ liệu (X„, y„) bât kỳ, khoảng cách từ X„ tới mặt phân chia là els

3

Điều này xây ra ta đã giả sử y„ cùng dấu với phía của X„ Từ đó suy ra y„ cùng dấu với (W*“x„ + b) và tử số luôn là một đại lượng không âm Với mặt phân chia này, lề được tinh là khoảng cách gần nhất từ một điểm (trong cả hai lớp, vì cuối cùng lề của hai lớp bằng nhau) tới mặt phân chia:

Bài toán tối ưu của SVM đi tìm w và b sao lề đạt gia tri lon nhất:

Yn (wT xn + b)

lwll2 } = argmax { — min y„(WTX„ + b)} (2.1)

(wid) = aremay {min ®% UMls nm

Trang 37

y„(WwTx„+b) =1

Với những điểm nằm gần mặt phân chia nhất (được khoanh rỏn trong Hình 2.3)

Như vậy, với mọi ? ta luôn có: yn(w'x, +b) >1 Bài toán tối ưu (2.1) co thể được đưa về bài toán tối ưu ràng buộc có dạng: 1 (Ww,b) = argmax——— Ob ||W|l; thỏa mãn: y„(WTx„ + b) > 1;Vn = 1,2, ,N (2.2) Bằng một biến đổi đơn giản, ta có thể tiếp tục đưa bài toán này về dạng: 1 (w,b) = argmin w,b 2 = ||W|| thỏa mãn: 1 — y„(WTx„ + b) < 0; Vn = 1,2, ,N (2.3)

Ở đây, ta đã lay nghịch đảo hàm mục tiêu, bình phương nó để được một hàm kha vi, và nhân với i dé biểu thức đạo ham đẹp hơn

Trong bài toán (2.3), hàm mục tiêu là một chuẩn có dạng toàn phương Các hàm bất phương trinh rang budc la affine Vay bai toan (2.3) là một bài tốn quy hoạch tồn phương Hơn nữa, hàm mục tiêu là lồi chặc vì |Iwll£ = wTIw và I là ma trận đơn vị - một ma trận xác định dương Từ đây có thê suy ra nghiệm của SVM là duy nhất

Đến đây, bài toán này có thê giải được bằng các công cụ hồ trợ giải quyết quy hoạch toàn phương, ví dụ CVOPT Tuy nhiên, việc giải bài toán này trở nên phức tạp khi số chiều đ của không gian dữ liệu và số điểm đữ liệu N lớn Thay vào đó, người ta thường giải bài toán đối ngẫu của bài toán này Thứ nhất, bài toán đối ngẫu có những tính chất khiến nó được giải một cách hiệu quả hon Thir hai, trong quá trình xây dựng bài toán đối ngẫu, người ta thấy rằng SVM có thể được áp dụng cho những bài toán mà dữ liệu không nhất thiết tách biệt tuyến tính Tôi tiếp tục làm rỏ các vấn đề này ở các phân tiếp theo trong luận văn này

Xác định lóp cho một điểm dữ liệu mới

Trang 38

Sau khi đã tìm được mặt phân chia w’x, + b = 0, nhãn của một điểm bất kỳ sẽ

được xác định đơn giản bằng

class(x) = sgn(w’x,, + b)

2.2.3 Bai todn doi ngẫu của máy vector hỗ trợ

Bài toán tối ưu (2.3) là một bài toán lỗi Chúng ta biết rằng: nếu một bài toán lỗi thoả mãn tiêu chuân Slater thì đổi ngấu mạnh thoả mãn Và nếu đổi ngâu mạnh thoả mãn

thì nghiệm của bài toán chính là nghiệm của hệ điều kiện Karush-Kuhn-Tucker (KKT)

Kết hợp hàm đối ngẫu Lagrange và các điều kiện ràng buộc của » (vector nhân tử Lagrange) ta sẽ thu được bài toán đối ngẫu Lagrange của bài toán (2.3) của bài toán SVM:

x= argmax g(A)

thỏa mãn:»> 0, WN, Yn = 0 (2.4)

trong dé, g(\) = argmin L(w,b,r) gọi là hàm đối ngẫu Lagrange của bài toán SVM

Biến tối ưu trong bài toán đối ngẫu là », là một vector W chiều tương ứng với số điểm đữ liệu Trong khi đó, số tham số phải tìm trong bài toán tối ưu (2.3) là đ + 1, chính là tổng số chiều của w và b, tức số chiều của mỗi điểm dữ liệu cộng thêm 1 Trong rất nhiều trường hợp, số điểm đữ liệu trong tập huấn luyện lớn hơn số chiều dữ liệu Nếu giải trực tiếp bằng các công cụ giải quy hoạch toàn phương, bài toán đối ngẫu có thể phức tạp hơn bài toán gốc Tuy nhiên, bài toán đối ngẫu này đến từ cấu trúc đặc biệt của hệ điều kiện KKT 7rong phạm vì của luận văn tôi không đi sâu giải hệ KKT như thể nào mà chỉ áp đụng nó vào bài toán

2.2.3.1 Điều kiện KKT

Bài toán (2.3) là một bài toán tối ưu lỗi thoả mãn tiêu chuẩn đối ngẫu mạnh, nghiệm của bài toán thỏa mãn hệ điều kiện KKT sau đây với biến số W,b và »:

1— y;(WTX„ + b) <0; Vn = 1,2, ,N (2.5) Anz 0; Vn = 1,2, ,N (2.6)

Trang 39

Xn (1 —yn(w' x, + b)) = 0; Vn = 1,2, ,N (2.7) N W= Dru IX (2.8) n=1 N » „=0 (29) n=1

Tir diéu kién (2.7) ta c6 thé suy ra X,,= 0 hodc (1 — y„(WŸX„ + b)) = 0 với n bất kỳ.Trường hợp thứ hai tương ứng với:

wTXx„+b = V„ (2.10)

Những điểm thỏa mãn (2.10) chính là những điểm nằm gần mặt phân chia nhất (những điểm được khoanh trong trong Hình 2.3 Hai đường thắng WÏx„ + b = +1 fựa lên các vector thỏa mãn (2.10) Những vector thỏa mãn (2.10) được gọi là vector hỗ trợ (support vector) Tên gọi z„áy hỗ trợ xuất phát từ đây

Số lượng điểm thỏa mãn (2.10) thường chiếm một lượng nhỏ trong số Ñ điểm dữ

liệu huấn luyện Chỉ cần dựa trên những vector hỗ trợ này, chúng ta hoàn toàn có thể xác định được mặt phân cách cần tìm Nói cách khác, hầu hết các Xn bang khong, tire > la một vector thưa Máy hỗ trợ vì vậy cũng được coI là một mô hình thưa (sparse model)

Trang 40

trong đó đặc S = {n: ,,# 0} va Ng la s6 phan ti cia S

Dé xác định một điểm x thuộc vào lớp nào, ta cần tìm dấu của biểu thức:

wx, +b = » xixtt -— >)» x! x

S

mes nes mes

Biểu thức này phụ thuộc vào cách tính tích vô hướng giữa x va ting x,, € S Nhan xét này giúp ích cho chúng ta ở trong các bộ phân lớp SVM Kernel Trong luận văn này tôi không trình bay SVM Kernel 2.2.4 Máy hỗ trợ vector lé mém 2.2.4.1 Đặt vấn đề Một cách tự nhiên, chúng ta cũng mong muốn SVM có thể làm việc với dữ liệu gần tách biệt tuyến tính

(a) Khi có nhiễu nhỏ (b) Khi dữ liệu gan linearly separable

Hình 2.4 Hai trường hợp khi SVM thudn lam viéc khong hiéu qua

(a) Hai lớp vẫn tách biệt tuyến tính nhưng một điểm thuộc lớp này quá gần lớp kia, điểm này có

thể là nhiễu (b) Dữ liệu hai lớp gần tách biệt tuyến tính

Xét hai ví dụ trong Hình 2.4 Có hai trường hợp dễ nhận thấy SVM làm việc không

hiệu quả thậm chí không làm việc:

Tiêu đề	Tìm Hiểu Phương Pháp Phân Loại Quan Điểm Trong Mạng Xã Hội Dựa Trên Học Máy
Tác giả	Nguyễn Cửu Minh Trân
Người hướng dẫn	PGS.TS. Võ Viết Minh Nhật
Trường học	Đại học Huế
Chuyên ngành	Khoa học máy tính
Thể loại	luận văn thạc sĩ
Năm xuất bản	2020
Thành phố	Thừa Thiên Huế

Định dạng
Số trang	70
Dung lượng	31,96 MB