1. Trang chủ
  2. » Luận Văn - Báo Cáo

(Luận Văn Thạc Sĩ Công Nghệ Thông Tin) Phân Tích Quan Điểm Trong Lĩnh Vực Thức Ăn Trẻ Em Sử Dụng Kỹ Thuật Học Máy

64 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 64
Dung lượng 1,46 MB

Nội dung

Māc tiêu h°ãng đÃn cÿa phân tích quan điÇm là xây dăng các há tháng tă đáng xác đánh các quan điÇm, tình cÁm, đánh giá, thái đá và cÁm xúc cÿa con ng°åi cho các thăc thÇ hoặc các thuác t

Trang 1

Đ¾I HâC QUàC GIA HÀ NàI

TR¯äNG Đ¾I HâC CÔNG NGHÆ

NGUY ÄN THà LIÊN

PHÂN TÍCH QUAN ĐIÂM TRONG L)NH VĂC THĀC N TR¾ EM

S þ DĀNG KĀ THU¾T HâC MÁY

LU ¾N VN TH¾C S) CÔNG NGHÆ THÔNG TIN

NG¯äI H¯âNG DÀN KHOA HâC: TS NGUYÄN VN VINH

Hà N ái 2021

Trang 2

Đ¾I HâC QUÞC GIA HÀ NàI

TR¯äNG Đ¾I HâC CÔNG NGHà

NGUY ÄN THà LIÊN

PHÂN TÍCH QUAN ĐIÂM TRONG L)NH VĂC THĀC N TR¾

EM S þ DĀNG KĀ THU¾T HâC MÁY

NGÀNH: CÔNG NGH Æ THÔNG TIN CHUYÊN NGÀNH: H Æ THÞNG THÔNG TIN

MÃ S Þ: 60480104

LU ¾N VN TH¾C S) CÔNG NGHÆ THÔNG TIN

NG¯äI H¯âNG DÀN KHOA HâC: TS NGUYÄN VN VINH

Hà N ái 2021

Trang 3

M ĀC LĀC

DANH MĀC CÁC KÝ HIàU VÀ CHĀ VIÂT TÂT v

DANH MĀC CÁC BÀNG BIỈU vi

DANH MĀC CÁC HÌNH VÀ, Đâ THà vii

LäI CAM ĐOAN&& viii

LäI CÀM ¡N&&& ix

Mỉ ĐÀU&&&&& 1

1 Lý do chãn đÅ tài 1

2 Māc tiêu và nhiám vā cÿa luÁn vn 2

3 Bá cāc luÁn vn 2

CH¯¡NG 1: TäNG QUAN VÄ BÀI TỐN PHÂN TÍCH QUAN ĐIỈM 3

1.1 Giãi thiáu 3

1.2 Đánh nghĩa và khái niám trong phân tích quan điÇm 4

1.2.1 Các thành phÁn cÿa mát quan điÇm 4

1.2.2 Các nhiám vā cÿa phân tích quan điÇm 7

1.3 Nhāng thách thāc trong lĩnh văc phân tích quan điÇm 10

1.4 Các āng dāng cÿa phân tích quan điÇm 12

1.5 Phân lãp quan điÇm 13

KÃt luÁn ch°¢ng 14

CH¯¡NG 2: CÁC KĀ THUÀT HâC MÁY TRONG BÀI TỐN PHÂN TÍCH QUAN ĐIỈM 15

2.1 Các ph°¢ng pháp tiÃp cÁn cÿa phân tích quan điÇm 15

2.1.1 Ph°¢ng pháp tiÃp cÁn dăa trên luÁt 15

2.1.2 Ph°¢ng pháp tiÃp cÁn dăa vào hãc máy 16

2.2 Ph°¢ng pháp Nạve Bayes 16

2.3 Ph°¢ng pháp Support Vector Machine (SVM) 18

2.4 Ph°¢ng pháp Hãi quy Logistic (Logistic regression) 21

2.4.1 Giãi thiáu 21

2.4.2 Mơ hình Logistic 21

Trang 4

2.4.3 Hàm Logistic và các tß lá 23

2.5 Ph°¢ng pháp tiÃp cÁn hãc sâu (Deep Learning) 25

2.5.1 M¿ng Neural hãi quy RNN 26

2.5.2 M¿ng Long Short-Term Memory 28

KÃt luÁn ch°¢ng 32

CH¯¡NG 3: ĀNG DĀNG PHÂN TÍCH QUAN ĐIÆM VâI DĀ LIàU THĀC N TR¾ EM 33

3.1 Há tháng phân tích quan điÇm 33

3.2 Đặc điÇm cÿa dā liáu thāc n tr¿ em 34

3.3 TiÅn xÿ lý dā liáu và gán nhãn 35

3.3.1 TiÅn xÿ lý dā liáu 35

3.3.2 Gán nhãn dā liáu 36

3.4 Trích chãn đặc tr°ng 39

3.5 Xây dăng và lăa chãn mô hình 41

3.6 Ph°¢ng pháp đánh giá mô hình 42

CH¯¡NG 4: THĂC NGHIàM VÀ ĐÁNH GIÁ 45

4.1 Môi tr°ång thăc nghiám: 45

4.2 Xây dăng và lăa chãn mô hình 45

4.3 Hu¿n luyán mô hình 48

4.4 KÃt quÁ thăc nghiám 48

4.5 Đánh giá thăc nghiám 51

KÃt luÁn ch°¢ng&&&&&&&&&&&&&&&&&&&&&.52 KÂT LUÀN&&&&&& 53

Tài liáu tham khÁo& 54

Trang 5

DANH M ĀC CÁC KÝ HIÆU VÀ CHĀ VI¾T TÀT

Vi ¿t tÁt ĐÁy đÿ ti¿ng anh Ý ngh*a ti¿ng viÇt

thuÁt toán

LSTM Long Short Term Memory M¿ng bá nhã thuÁt ngā ngÃn

dài NLP Natural Language Processing Xÿ lý ngôn ngā tă nhiên

SVM Support Vector Machine Máy véc-t¢ hß trÿ

TF-IDF Term Frequency – Inverse

Document Frequency

TÁn su¿t tài liáu nghách đÁo thuÁt ngā

Trang 6

DANH M ĀC CÁC BÀNG BIÂU

BÁng 3 1: Mát sá từ dừng trong tiÃng Viát 36

BÁng 4 1: KÃt quÁ hu¿n luyán mô hình vãi đá đo ACC 48

BÁng 4 2: KÃt quÁ đá chính xác theo cỡ cÿa dā liáu hu¿n luyán 49

BÁng 4 3: Thåi gian hu¿n luyán cÿa các tÁp dā liáu 50

Trang 7

DANH M ĀC CÁC HÌNH VÀ, Đà THà

Hình 2 1: SVM tìm dòng tát nh¿t phân tách hai lãp 19

Hình 2 2: Ví dā vÅ siêu phẳng trong SVM 19

Hình 2 3: Siêu phẳng phân chia lÅ xa nh¿t 21

Hình 2 4: Đã thá cÿa hàm Logistic khi t thuác (-6,6) 23

Hình 2 5: M¿ng RNN có vòng lặp 27

Hình 2 6: Mô đun lặp l¿i trong RNN 28

Hình 2 7: Mô đun lặp l¿i trong mát LSTM 28

Hình 2 8: Ct cÿa LSTM 29

Hình 2 9: Cång tr¿ng thái LSTM 30

Hình 2 10: Cång quên LSTM 30

Hình 2 11: Cång vào it cÿa tanh �㔶�㕡 ̃ 31

Hình 2 12: Giá trá state Ct 31

Hình 2 13: KÃt quÁ trÁ vÅ ht 31

Hình 3 1: KiÃn trúc há tháng phân tích quan điÇm 34

Hình 3 2: TÁp dā liáu thāc n tr¿ em 35

Hình 3 3: NhÁp dā liáu cÁn gán nhãn 37

Hình 3 4: Thăc hián gán nhãn dā liáu 38

Hình 3 5: TÁp dā liáu thāc n tr¿ em sau khi đ°ÿc gán nhãn 38

Hình 3 6: Tß lá tÁp dā liáu đã đ°ÿc gán nhãn 39

Hình 3 7: Mô hình phân lãp hãc máy truyÅn tháng 42

Hình 4 1: Táp dā liáu sau khi đ°ÿc tÁi 46

Hình 4 2: Ch°¢ng trình lo¿i bß nhāng nhãn lãn h¢n 1 và nhß h¢n 5 47

Hình 4 3: KÃt quÁ đánh giá các mô hình sÿ dāng đá đo ACC 48

Hình 4 4: KÃt quÁ đánh giá đá lãn cÿa dā liáu vãi đá đo ACC 49 Hình 4 5: Mát sá bình luÁn dă đoán sai nhãn khi dùng LTSM&&&&&51

Trang 8

L äI CAM ĐOAN

Em xin cam đoan nái dung trình bày trong luÁn vn này là do em tă nghiên cāu tìm hiÇu d°ãi să h°ãng d¿n cÿa giÁng viên TS.NguyÅn Vn Vinh Mãi tham khÁo các tài liáu, công trình nghiên cāu cÿa mát sá tác giÁ, em đã ghi rõ tên tài liáu, nguãn gác tài liáu, tên tác giÁ trong <TÀI LIàU THAM KHÀO= ç cuái luÁn vn Mãi sao chép không hÿp lá hay gian lÁn em xin hoàn toàn cháu trách nhiám

Ng°åi cam đoan

Nguy Ån Thá Liên

Trang 9

L äI CÀM ¡N

Tr°ãc hÃt em xin gÿi låi cÁm ¢n và bày tß lòng biÃt ¢n sâu sÃc đÃn thÁy

Nguy Ån Vn Vinh, ng°åi đã đánh h°ãng đÅ tài, cung c¿p cho em nhāng kiÃn thāc,

nhāng tài liáu và tÁn tình h°ãng d¿n chß bÁo em trong suát quá trình thăc hián đÅ tài luÁn vn

Em cũng xin chân thành cÁm ¢n các thÁy, cô giáo cÿa khoa Công nghá thông tin – Tr°ång Đ¿i hãc Công nghá - Đ¿i hãc Quác gia Hà Nái đã d¿y bÁo, truyÅn thā kiÃn thāc, t¿o điÅu kián tát nh¿t trong suát quá trình em hãc tÁp t¿i tr°ång

Em cũng xin chân thành cÁm ¢n b¿n bè đãng nghiáp, các b¿n hãc viên K24

đã ÿng há và khuyÃn khích tôi trong suát quá trình hãc tÁp t¿i tr°ång

Cuái cùng, Em xin gÿi låi cÁm ¢n sâu sÃc nh¿t đÃn gia đình, ng°åi thân luôn káp thåi đáng viên và giúp đỡ tôi v°ÿt qua nhāng khó khn trong hãc tÁp cũng nh° trong cuác sáng

Hãc viên

Nguy Ån Thá Liên

Trang 10

M æ ĐÀU

1 Lý do chãn đÁ tài

Hián nay să phát triÇn nhanh chóng cÿa khoa hãc, công nghá đã có nhāng đóng góp quan trãng, làm thay đåi c¢ bÁn mãi mặt cÿa đåi sáng kinh tà - xã hái Să ra đåi, phát triÇn cÿa m¿ng Internet đã t¿o nên nhāng đát phá trong kÃt nái, chia s¿ thông tin, thúc đẩy phát triÇn kinh tÃ, giao l°u vn hóa Bên c¿nh đó, să phát triÇn bùng nå cÿa các trang dißn đàn, m¿ng xã hái, các trang web l¿y ý kiÃn ng°åi dùng chính là cÁu nái đÇ mãi ng°åi dß dàng thÇ hián quan điÇm cá nhân vÅ nhāng să kián nåi bÁt đáng quan tâm, nhāng thông tin kinh tÃ, nhāng trao đåi vÅ các lĩnh văc cÿa đåi sáng xã hái, thá tr°ång, sÁn phẩm và dách vā

GÁn đây, bài toán phân tích quan điÇm đã đ°ÿc āng dāng ráng rãi trong các lĩnh văc: du lách, khách s¿n, các dách vā tài chính cho đÃn tiêu dùng, chm sóc sāc khße Khi xã hái ngày càng phát triÇn thì các bÁc phā huynh ngày càng quan tâm nhiÅu đÃn t°¢ng lai con em mình, trong đó māc tiêu hàng đÁu chính là bå sung thêm các ch¿t dinh d°ỡng nhằm phát triÇn chiÅu cao, trí thông minh cho các

Ngày nay, thay vì sÿ dāng cách thu thÁp đánh giá, phát phiÃu thm dò cũng nh° hßi trăc tiÃp, tr°ng cÁu ý kiÃn qua các trang web, các cá nhân hay tå chāc đã phân tích tă đáng l°ÿng dā liáu đánh giá lãn từ các trang m¿ng xã hái, các dißn đàn, các trang đánh giá sÁn phẩm nhằm tÁn dāng nguãn thông tin hāu ích giúp tiÃt kiám phÁn nào chi phí

Các tå chāc doanh nghiáp, các công ty có thÇ l¿y ý kiÃn đánh giá vÅ sÁn phẩm

và dách vā cÿa hã qua các bình luÁn trên các trang m¿ng Viác thu thÁp các ý kiÃn đánh giá r¿t quan trãng cho các doanh nghiáp và tå chāc vì hã luôn mong muán tìm kiÃm xem ng°åi tiêu dùng có nhÁn xét gì vÅ sÁn phẩm và dách vā cÿa hã, nhå

đó hã có thÇ xây dăng các chiÃn l°ÿc bán hàng và phát triÇn sÁn phẩm Ngoài ra ng°åi tiêu dùng cũng mong muán tham khÁo các ý kiÃn đánh giá vÅ sÁn phẩm hay dách vā mà hã quan tâm tr°ãc khi hã đ°a ra quyÃt đánh trong viác mua, bán hay

sÿ dāng các sÁn phẩm hoặc dách vā đó

V¿n đÅ đặt ra là làm thà nào biÃt đ°ÿc mát chÿ đÅ hoặc mát să kián có bao nhiêu đánh giá tiêu căc hay tích căc, trong khi sá l°ÿng đánh giá r¿t lãn, v°ÿt qua khÁ nng cÿa con ng°åi Chính vì vÁy bài toán phân tích quan điÇm đ°ÿc đặt ra

đÇ giÁi quyÃt v¿n đÅ trên Hián nay, có nhiÅu kā thuÁt cho bài toán nh°ng hiáu quÁ nh¿t là sÿ dāng kā thuÁt hãc máy

Trang 11

Chính vì lý do đó hãc viên đã lăa chãn đÅ tài: <Phân tích quan điểm trong

lĩnh vực thức ăn trẻ em sử dụng kỹ thuật học máy=

2 Māc tiêu và nhiÇm vā cÿa lu¿n vn

LuÁn vn đánh h°ãng tìm hiÇu các ph°¢ng pháp phân tích quan điÇm, trên c¢

sç đó đÅ xu¿t ph°¢ng pháp và thÿ nghiám các kā thuÁt hãc máy trong bài toán phân tích quan điÇm, cā thÇ là dā liáu thāc n tr¿ em, từ nhāng dā liáu thu thÁp đ°ÿc trên website, các dißn đàn đánh giá sÁn phẩm, các m¿ng xã hái, hãc viên xin đ°ÿc đÅ xu¿t nghiên cāu và đ°a ra mô hình āng dāng Mô hình bao gãm các b°ãc

từ thu thÁp dā liáu, tiÅn xÿ lý dā liáu, vect¢ hóa dā liáu đÃn lăa chãn mô hình hãc máy và hu¿n luyán Cuái cùng là đ°a ra nhāng đánh giá hiáu quÁ cÿa thuÁt toán,

bá dā liáu, kÃt quÁ đ¿t đ°ÿc và đánh giá vÅ tính khÁ thi āng dāng mô hình

3 Bß cāc lu¿n vn

LuÁn vn đ°ÿc bá trí thành bán ch°¢ng có nái dung nh° sau:

Ch°¢ng 1: Giãi thiáu tång quan vÅ bài toán phân tích quan điÇm trong

lĩnh văc thāc n tr¿ em Ch°¢ng này tìm hiÇu tång quan: đánh nghĩa, khái niám, các nhiám vā, thách thāc trong phân tích quan điÇm, tiÃp đó bài toán chuẩn hóa trên tÁp dā liáu thāc n tr¿ em đ°ÿc giãi thiáu

Ch °¢ng 2: Các kā thuÁt hãc máy trong bài toán phân tích quan điÇm æ

ch°¢ng này nghiên cāu, tìm hiÇu các ph°¢ng pháp hãc máy cho bài toán phân tích quan điÇm

Ch °¢ng 3: Āng dāng kā thuÁt hãc máy đÇ phân tích quan điÇm trong lĩnh

văc thāc n tr¿ em

Ch°¢ng 4: Thăc nghiám và đánh giá Xây dăng cài đặt mô hình, hu¿n

luyán mô hình tiÃn hành thÿ nghiám, đánh giá mô hình

K ¿t lu¿n tång kÃt quá trình thăc hián luÁn vn, nhāng kÃt quÁ đ¿t đ°ÿc và

đánh h°ãng phát triÇn bài toán trong t°¢ng lai

Trang 12

CH¯¡NG 1: TâNG QUAN VÀ BÀI TOÁN PHÂN TÍCH QUAN ĐIÂM

Phân tích quan điÇm là mát lĩnh văc đ°ÿc các nhà nghiên cāu và các nhà phát triÇn trong lĩnh văc Internet dành nhiÅu să quan tâm trong thÁp niên vừa qua Māc tiêu h°ãng đÃn cÿa phân tích quan điÇm là xây dăng các há tháng tă đáng xác đánh các quan điÇm, tình cÁm, đánh giá, thái đá và cÁm xúc cÿa con ng°åi cho các thăc thÇ hoặc các thuác tính cÿa chúng đ°ÿc thÇ hián trong các vn bÁn bằng ngôn ngā tă nhiên

1.1 Giãi thiÇu

Các thăc thÇ mà phân tích quan điÇm quan tâm r¿t ráng Nó có thÇ là các thông tin vÅ thá tr°ång, các sÁn phẩm hoặc dách vā, các să kián nåi bÁt, nhāng thông tin vÅ kinh tà - chính trá Các thăc thÇ này th°ång đ°ÿc thÇ hián qua các cuác thÁo luÁn, tin tāc, bình luÁn, phÁn hãi đánh giá ĐÇ há tháng có thÇ tă đáng thăc hián các nhiám vā đÅ ra, phân tích quan điÇm dăa trên ngôn ngā tính toán, khai thác vn bÁn, truy v¿n thông tin, xÿ lý ngôn ngā tă nhiên, tháng kê, phân tích

dă đoán và hãc máy

Phân tích quan điÇm th°ång sÿ dāng kÃt hÿp giāa các giÁi pháp xÿ lý ngôn ngā tă nhiên và ph°¢ng pháp trong hãc máy đÇ phân lãp, trích xu¿t và xác đánh quan điÇm đ°ÿc thÇ hián trong vn bÁn hoặc tài liáu

Nhāng dā liáu đánh giá này thăc să hāu ích cho cÁ các nhà sÁn xu¿t, nhà ho¿ch đánh chiÃn l°ÿc cũng nh° ng°åi tiêu dùng Đái vãi nhà sÁn xu¿t và nhà ho¿ch đánh chiÃn l°ÿc, các thông tin hāu ích giúp hã có thÇ nÃm bÃt thông tin, ý kiÃn cÿa khách hàng hài lòng hay th¿t vãng vÅ sÁn phẩm, dách vā cÿa hã, qua đó káp thåi điÅu chßnh, cÁi tiÃn sÁn phẩm, nâng c¿p dách vā đÇ đáp āng nhu cÁu cÿa khách hàng cũng nh° có các đái sách và quyÃt đánh phù hÿp nhằm xÿ lý các v¿n

đÅ liên quan Ngoài ra, đái vãi ng°åi sÿ dāng, hã có thêm thông tin hāu ích giúp đánh giá vÅ các sÁn phẩm và dách vā đ°ÿc quan tâm đÇ có thÇ đ°a ra các quyÃt đánh đúng đÃn cho mình

Dā liáu phân lãp quan điÇm có thÇ đ°ÿc thu thÁp từ nhiÅu nguãn nh°: website, các trang m¿ng xã hái, blog, các cáng đãng Đặc điÇm cÿa dā liáu d¿ng này th°ång là các đánh giá theo thang điÇm, c¿p đá hoặc là mát cām câu ngÃn tång kÃt tính nng cÿa sÁn phẩm hoặc dách vā cā thÇ đ°ÿc thÇ hián bằng ngôn ngā tă nhiên Từ đó, có thÇ th¿y dā liáu đ°ÿc thu thÁp đÅu có kiÇu không tÁp trung, vān vặt, đa d¿ng và đặc biát là thuÁn vn bÁn

V¿n đÅ là tÁp dā liáu đ°ÿc thu thÁp là khång lã, r¿t đa d¿ng vÅ các khía c¿nh quan tâm cÿa ng°åi sÿ dāng, h¢n nāa các ý kiÃn đ°ÿc viÃt theo ngôn ngā

Trang 13

tă nhiên th°ång không có c¿u trúc hay đúng ngā pháp, các bài spam khiÃn viác trích lãc thông tin hāu ích khó khn, tán thåi gian và chi phí

Nh° vÁy, nhiám vā quan trãng là phân lãp quan điÇm cÿa ng°åi sÿ dāng

từ tÁp dā liáu đÁu vào nhằm đ°a ra kÃt quÁ mong muán Đây chính là nái dung trãng tâm mà luÁn vn sÁ nghiên cāu tìm hiÇu và giÁi quyÃt

1.2 Đánh ngh*a và khái niÇm trong phân tích quan điÃm

Phân tích quan điÇm (Opinion Analysis – OA) hay phân tích biÇu cÁm (Sentiment Analysis –SA) là lĩnh văc nghiên cāu phân tích các quan điÇm, thái

đá, biÇu cÁm, tình cÁ và cÁm xúc cÿa con ng°åi vÅ thăc thÇ và các thuác tính thÇ hián trong vn bÁn nhằm māc đích phát hián quan điÇm tiêu căc hoặc tích căc Các thăc thÇ có thÇ là các sÁn phẩm, dách vā, să kián nåi bÁt, să vÁt, să viác [4,8]

1.2.1 Các thành phÁn cÿa mát quan điÃm

Trong nghiên cāu, nhiÅu nhà khoa hãc đã đ°a ra c¿u trúc tång quan cÿa mát quan điÇm [3,4,9,11] LuÁn vn sÿ dāng bài đánh giá vÅ sāa bát Dialac đÇ giãi thiáu v¿n đÅ (Các câu trong bài đánh giá đ°ÿc đánh sá cho tián cho viác tham khÁo)

Ng°åi bình luÁn: Nguyßn Thá A

Ngày:11/05/2020

<Tôi có mua một hộp sữa Dialac 123 cho con mình 3 tháng trước (1) Con

Từ ví dā trên ta th¿y:

1 Bài đánh giá có mát sá ý kiÃn cÁ tích căc và tiêu căc vÅ sāa bát Dialac

123 Câu (2) bày tß ý kiÃn tích căc vÅ vá ngon cÿa sāa Câu (3) bày tß ý kiÃn tích căc vÅ sāa Dialac 123 Câu (4) bày tß ý kiÃn tích căc vÅ thành phÁn cÿa sāa theo tìm hiÇu cÿa chuyên gia Câu (5) bày tß ý kiÃn trái chiÅu vÅ giá cÿa sÁn phẩm Từ nhāng ý kiÃn này, ta có thÇ đ°a ra nhÁn xét quan trãng sau:

Theo quan sát: Mát quan điÇm bao gãm hai thành phÁn chính: Māc tiêu g

và cÁm nhÁn vÅ māc tiêu s tāc cặp <g, s> Trong đó,

 g có thÇ là b¿t kỳ thăc thÇ hay khía c¿nh cÿa thăc thÇ mà quan điÇm

Trang 14

đã đ°ÿc thÇ hián

 s là cÁm nhÁn vÅ māc tiêu g s có thÇ là đánh giá theo kiÇu phân căc nh°: tiêu căc, tích căc hoặc trung tính; hay đánh giá theo thang điÇm

từ 1 đÃn 5 sao

Trong ví dā trên, māc tiêu cÿa quan điÇm trong câu (2) là vá sāa Dialac 123

và māc tiêu cÿa quan điÇm câu (3) là sāa Dialac 123 Māc tiêu cũng đ°ÿc gãi là chÿ đÅ trong bài đánh giá hoặc tài liáu chāa đánh giá

2 Trong ví dā trên, có hai ng°åi đ°a ra đánh giá là ng°åi con và Nguyßn Thá A Hai đái t°ÿng này đ°ÿc gãi là nguãn quan điÇm hoặc ng°åi đ°a

ra đánh giá [3,5] Ng°åi đ°a ra đánh giá trong câu (2) là con cÿa tác giÁ còn các câu (3), (4), (5) là chính tác giÁ

3 Thåi gian đ°a ra đánh giá là ngày 11/05/2020 Thông tin này r¿t quan trãng trong thăc tà vì thông th°ång nhà sÁn xu¿t r¿t muán biÃt các đánh giá sÁ thay đåi ra sao theo thåi gian và xu h°ãng cÿa các quan điÇm VÁy, từ ví dā trên ta có thÇ đánh nghĩa quan điÇm trong các mô hình māc tài liáu hay māc câu gãm 4 thành phÁn nh° sau:

Đánh ngh*a 1.1: Quan điÃm (Opinion)

Là mát bá gãm 4 thành phÁn: <gi, sj, hk, tl> trong đó:

 gi là māc tiêu i cÿa biÇu cÁm hay quan điÇm

 sj là biÇu cÁm cÿa các ý kiÃn vÅ māc tiêu gi sj có thÇ là mát đánh giá

từ 1 đÃn 5 sao hoặc chia thành các căc cÿa v¿n đÅ nh° tiêu căc, tích căc và trung tính

 hk là ng°åi hoặc tå chāc giā quan điÇm

 tl là thåi gian khi các quan điÇm đ°ÿc thÇ hián

Trong c¿u trúc trên, cÁ 4 thành phÁn đÅu r¿t cÁn thiÃt Ví dā, thành phÁn ng°åi giā quan điÇm r¿t quan trãng Ý kiÃn cÿa chuyên gia dinh d°ỡng sÁ đ°ÿc đánh giá cao h¢n ý kiÃn cÿa mát ng°åi bình th°ång vÅ lĩnh văc dinh d°ỡng Hay, nhân tá thåi gian th°ång r¿t quan trãng trong thăc tà vì ý kiÃn cÿa ngày hôm nay

có thÇ khác so vãi các nm tr°ãc đây

Mßi mát quan điÇm phÁi có māc tiêu đánh giá cÁn xác đánh vì trong mát câu hoặc mát tài liáu có thÇ có nhiÅu māc tiêu đánh giá Chúng th°ång đ°ÿc xác đánh bçi danh từ hoặc cām danh từ Vì vÁy, điÅu chúng ta cÁn thăc hián là xác

đánh từng māc tiêu cā thÇ và từng đánh giá cho māc tiêu này Ví dā, <Cháo dinh

dưỡng tốt cho trẻ em nhưng cửa hàng này nấu chưa được chuẩn= ta có thÇ th¿y

Trang 15

có 2 māc tiêu đ°ÿc xác đánh <cháo dinh dưỡng= và <cửa hàng= Trong đó, māc

tiêu <cháo dinh dưỡng= đ°ÿc đánh giá tích căc còn māc tiêu <cửa hàng= bá đánh

giá tiêu căc Các từ hoặc cām từ chẳng h¿n: <tốt=, <xấu=, <đẹp=, <ngon=, <dở=,

<hư hỏng=,& thÇ quan điÇm hoặc đánh giá cÿa chÿ thÇ vÅ māc tiêu Nó th°ång

hay có cú pháp xác đánh và vì thà có thÇ cho phép trích xu¿t cÁ māc tiêu l¿n đánh giá cÿa chúng [4,6,13]

Tuy nhiên, có mát sá tr°ång hÿp có thÇ mát trong 4 thành phÁn bá khuyÃn thiÃu Ví dā, trong câu <Sữa bột Dialac rất tốt cho trẻ sơ sinh= thì thành phÁn bá khuyÃt thiÃu là thåi gian tl Vì vÁy, trong quá trình phân tích quan điÇm cÁn l°u ý các cú pháp câu nhằm phāc vā māc đích tách và trích rút dā liáu đ°ÿc chính xác

Đánh nghĩa 1.1 tuy khá ngÃn gãn tuy nhiên không dß sÿ dāng trong thăc tÃ, đặc biát là trong lĩnh văc đánh giá trăc tuyÃn vÅ sÁn phẩm, dách vā và th°¢ng hiáu

vì mô tÁ đÁy đÿ vÅ māc tiêu có thÇ phāc t¿p và thÁm chí thÇ không xu¿t hián trong cùng mát câu Ví dā, trong câu (2) māc tiêu đánh giá thăc să là <vá cÿa sāa Dialac= hay trong câu (4) māc tiêu đánh giá là <hàm l°ÿng vi ch¿t trong sāa= Hai câu này chß đÅ cÁp đÃn mát khía c¿nh cÿa sāa Dialac chā không phÁi bÁn thân thăc thÇ là sāa Dialac Trong thăc tÃ, māc tiêu th°ång có thÇ đ°ÿc phân tích và mô tÁ theo cách có c¿u trúc vãi nhiÅu c¿p đá ĐiÅu này t¿o điÅu kián thuÁn lÿi cho cÁ viác phân tích ý kiÃn và sau đó sÿ dāng kÃt quÁ ý kiÃn đã đ°ÿc phân tích Ví dā, <vá cÿa sāa Dialac= có thÇ đ°ÿc phân tách thành mát thăc thÇ và mát thuác tính cÿa thăc thÇ và có thÇ đ°ÿc biÇu dißn d°ãi d¿ng mát cặp,

<Sāa Dialac 123, vá sāa>

Chúng ta hãy sÿ dāng thuÁt ngā thăc thÇ đÇ biÇu thá đái t°ÿng māc tiêu đã đ°ÿc đánh giá Thăc thÇ có thÇ đ°ÿc đánh nghĩa nh° [4,6]

Đánh ngh*a 1.2: Thăc thà (entity)

Mát thăc thÇ e là mát sÁn phẩm, dách vā, chÿ đÅ, v¿n đÅ, con ng°åi, tå chāc hoặc să kián Nó đ°ÿc mô tÁ vãi mát cặp, e: (T, W), trong đó T là há tháng phân c¿p cÿa các bá phÁn, bá phÁn con và W là tÁp hÿp các thuác tính cÿa e Mßi bá phÁn hoặc bá phÁn con cũng có tÁp hÿp các thuác tính riêng

Ví dā 1: Mát lo¿i sāa cā thÇ là mát thăc thÇ, ví dā Dialac 123 Nó có mát tÁp hÿp các thuác tính, ví dā: Màu sÃc, trãng l°ÿng, công thāc và mát tÁp các bá phÁn ví dā: tem mác, vß háp, bát sāa KiÇu dáng cũng có tÁp hÿp các thuác tính riêng, ví dā: kiÇu háp gi¿y, háp sÃt, màu sÃc&

Đánh nghĩa này vÅ c¢ bÁn mô tÁ mát thành phÁn phân c¿p cÿa thăc thÇ dăa

Trang 16

trên quan há bá phÁn Nút gác là tên cÿa thăc thÇ, ví dā: Dialac 123 trong bài đánh giá ç trên T¿t cÁ các nút khác là các bá phÁn và các bá phÁn con, v.v Mßi ý kiÃn đ°ÿc thÇ hián trên b¿t kỳ nút nào và b¿t kỳ thuác tính nào

Ví dā 2: Trong bài đánh giá ví dā cÿa chúng tôi ç trên, câu (3) bày tß ý kiÃn tích căc vÅ toàn thÇ sāa bát Dialac 123 Câu (2) bày tß ý kiÃn tích căc vÅ thuác tính vá cÿa bát sāa Rõ ràng, ng°åi ta cũng có thÇ bày tß ý kiÃn vÅ các bá phÁn hoặc thành phÁn cÿa sāa bát Dialac 123

Thăc thÇ này vãi t° cách là mát há tháng phân c¿p cÿa b¿t kỳ sá c¿p nào cÁn có mát mái quan há lãng nhau đÇ biÇu dißn nó, điÅu này th°ång quá phāc t¿p đái vãi các āng dāng Lý do chính là vì xÿ lý ngôn ngā tă nhiên (Natural Language Processing - NLP) không hÅ đ¢n giÁn Viác nhÁn biÃt các bá phÁn và thuác tính cÿa mát thăc thÇ ç các māc đá chi tiÃt khác nhau gặp nhiÅu khó khn Tuy nhiên, hÁu hÃt các āng dāng cũng không cÁn phân tích phāc t¿p nh° vÁy Do

đó, ta có thÇ đ¢n giÁn hoá há tháng phân c¿p thành hai c¿p và sÿ dāng các thuÁt ngā đÇ biÇu thá hai thành phÁn khía c¿nh và thuác tính Trong cây đ¢n giÁn hóa, nút gác v¿n là chính thăc thÇ, nh°ng các nút c¿p hai (cũng là c¿p lá) là các khía c¿nh khác nhau cÿa thăc thÇ Khung đ¢n giÁn hóa này th°ång đ°ÿc sÿ dāng trong các há tháng phân tích biÇu cÁm thăc tÃ

L°u ý rằng trong các tài liáu nghiên cāu, các thăc thÇ còn đ°ÿc gãi là đái t°ÿng, và các khía c¿nh cũng đ°ÿc gãi là đặc điÇm (nh° trong tính nng sÁn phẩm) Tuy nhiên, các tính nng ç đây có thÇ gây nhÁm l¿n vãi các tính nng đ°ÿc

sÿ dāng trong hãc máy, trong đó mát tính nng có nghĩa là mát thuác tính dā liáu

ĐÇ tránh nhÁm l¿n, các khía c¿nh đã trç nên phå biÃn h¢n trong nhāng nm gÁn đây L°u ý rằng mát sá nhà nghiên cāu cũng sÿ dāng các khía c¿nh thuÁt ngā, thuác tính và chÿ đÅ, và trong các āng dāng cā thÇ, các thăc thÇ và khía c¿nh cũng

có thÇ đ°ÿc gãi bằng các tên khác dăa trên quy °ãc miÅn āng dāng

Sau khi phân tích māc tiêu ý kiÃn, chúng ta có thÇ xác đánh l¿i mát ý kiÃn [4-6] Từ đó, có mát đánh nghĩa quan điÇm dùng trong māc khía c¿nh:

1.2.2 Các nhiÇm vā cÿa phân tích quan điÃm

Vãi các đánh nghĩa māc 1.2.1, ta có thÇ đi vào các māc tiêu và nhiám vā chính cÿa phân tích quan điÇm [4,6]

M āc tiêu cÿa phân tích quan điÃm: Đ°a ra mát vn bÁn đánh giá d, phân

tích t¿t cÁ các bá đánh giá (ei, aij, sijkl, hk, tl) trong d

Nhiám vā chính đ°ÿc bÃt nguãn từ bá 5 thành phÁn ĐÁu tiên là thăc thÇ

Trang 17

Māc tiêu cÿa ta cÁn thăc hián là trích xu¿t các thăc thÇ Nhiám vā này t°¢ng tă nh° nhÁn d¿ng thăc thÇ đ°ÿc đặt tên (NER) trong khai thác thông tin [4-6] Vì vÁy, bÁn thân viác phân tích là mát v¿n đÅ Sau khi trích xu¿t, chúng ta cũng cÁn phÁi phân lãp các thăc thÇ đ°ÿc trích xu¿t Trong vn bÁn ngôn ngā tă nhiên, ng°åi ta th°ång viÃt cùng mát thăc thÇ theo nhāng cách khác nhau Ví dā, Dialac

123 có thÇ đ°ÿc viÃt là Dia 123 và Dialac 123 Chúng ta cÁn nhÁn ra rằng t¿t cÁ chúng đÅu đÅ cÁp đÃn cùng mát thăc thÇ

Đánh ngh*a 2.4: Danh māc thăc thà và biÃu thāc thăc thÃ

Mát danh māc thăc thÇ đ¿i dián cho mát thăc thÇ duy nh¿t, trong khi mát biÇu thāc thăc thÇ là mát từ thăc tà hoặc cām từ thăc tà xu¿t hián trong vn bÁn chß ra mát danh māc thăc thÇ

Mßi danh māc thăc thÇ (hoặc đ¢n giÁn là thăc thÇ) phÁi có mát tên duy nh¿t trong mát āng dāng cā thÇ Quá trình nhóm các biÇu thāc thăc thÇ thành các lo¿i thăc thÇ đ°ÿc gãi là phân lãp thăc thÇ

Đánh ngh*a 2.5: Danh māc khía c¿nh và biÃu thāc khía c¿nh

Mát danh māc khía c¿nh cÿa mát thăc thÇ đ¿i dián cho mát khía c¿nh duy nh¿t cÿa thăc thÇ, trong khi mát biÇu thāc khía c¿nh là mát từ hoặc cām từ thăc

tà xu¿t hián trong vn bÁn chß ra mát lo¿i khía c¿nh

Mßi danh māc khía c¿nh (hoặc đ¢n giÁn là khía c¿nh) cũng nên có mát tên duy nh¿t trong mát āng dāng cā thÇ Quá trình nhóm các biÇu thāc khía c¿nh thành các lo¿i khía c¿nh (khía c¿nh) đ°ÿc gãi là phân lãp khía c¿nh

BiÇu thāc khía c¿nh th°ång là danh từ và cām danh từ nh°ng cũng có thÇ

là đáng từ, cām đáng từ, tính từ và tr¿ng từ

Đánh ngh*a 2.6: BiÃu thāc khía c¿nh t°ång minh

Ví dā: <mùi vá= trong < Mùi vá cÿa sāa Dialac 123 r¿t tuyát våi= là mát biÇu thāc khía c¿nh t°ång minh

Đánh ngh*a 2.7: BiÃu thāc khía c¿nh không t°ång minh

Ví dā, khía c¿ch <kích th°ãc= trong câu <háp sāa này h¢i nhß= là mát khía

Trang 18

c¿nh không t°ång minh Vì đánh giá này không rõ ng°åi sÿ dāng đ°a ra ý kiÃn là phù hÿp hay không phù hÿp

Thành phÁn thā ba trong đánh nghĩa 2.3 là quan điÇm Nhiám vā này phân lãp quan điÇm trên khía c¿nh nào đó là tích căc, tiêu căc hay trung tính Thành phÁn thā t° và thành phÁn thā nm lÁn l°ÿt là ng°åi giā ý kiÃn và thåi gian Chúng cũng cÁn đ°ÿc trích xu¿t và phân lãp đái vãi các thăc thÇ và khía c¿nh L°u ý rằng ng°åi có ý kiÃn (còn đ°ÿc gãi là nguãn quan điÇm [16]) có thÇ là mát cá nhân hoặc tå chāc đã bày tß mát ý kiÃn Đái vãi đánh giá sÁn phẩm và blog, ng°åi

có ý kiÃn th°ång là tác giÁ cÿa bài đng Ng°åi nÃm giā ý kiÃn quan trãng h¢n đái vãi các bài báo vì hã th°ång nêu rõ cá nhân hoặc tå chāc đ°a ra ý kiÃn Tuy nhiên, trong mát sá tr°ång hÿp, viác xác đánh nhāng ng°åi có quan điÇm cũng có thÇ quan trãng trong ph°¢ng tián truyÅn thông xã hái, ví dā: xác đánh ý kiÃn từ các nhà quÁng cáo hoặc nhāng ng°åi trích d¿n quÁng cáo cÿa các công ty

Dăa trên các thÁo luÁn trên, chúng ta có thÇ xác đánh mô hình thăc thÇ và

mô hình tài liáu quan điÇm [4,6]

Đánh ngh*a 2.8: Mô hình cÿa thăc thÃ

h ữu hạn các khía cạnh A i = {a i1 , a i2 ,…, a in }.; e i có th ể được biểu diễn với bất kỳ

m ột trong số hữu hạn các biểu thức thực thể của nó {ee i1 , ee i2 ,…, ee is } M ỗi khía

bi ểu thức khía cạnh hữu hạn của nó {ae ij1 , ae ij2 ,…, ae ijm }

Đánh ngh*a 2.9: Mô hình tài liÇu quan điÃm

người có ý kiến {h 1 , h 2 ,…, h p } t ại một thời điểm cụ thể

Cuái cùng, đÇ đ°a ra đ°ÿc mát bá tài liáu quan điÇm D, phân tích quan điÇm bao gãm 6 nhiám vā [4] chính sau:

Nhi Çm vā 1 (trích xu¿t và phân lãp thăc thÃ): Trích xu¿t t¿t cÁ các biÇu

thāc thăc thÇ trong D và phân lãp hoặc nhóm các biÇu thāc thăc thÇ đãng nghĩa thành các cām thăc thÇ (hoặc danh māc) Mßi cām biÇu thāc thăc thÇ chß ra mát

ei thăc thÇ duy nh¿t

Nhi Çm vā 2 (trích xu¿t và phân lãp khía c¿nh): Trích xu¿t t¿t cÁ các biÇu

thāc khía c¿nh cÿa các thăc thÇ và phân lãp các biÇu thāc khía c¿nh này thành các

Trang 19

cām Mßi cām biÇu thāc khía c¿nh cÿa thăc thÇ ei đ¿i dián cho mát khía c¿nh duy nh¿t aij

Nhi Çm vā 3 (trích xu¿t và phân lãp ý ki¿n): Trích xu¿t ý kiÃn cũ đÇ l¿y

ý kiÃn từ vn bÁn hoặc dā liáu có c¿u trúc và phân lãp chúng Nhiám vā t°¢ng tă vãi hai nhiám vā trên

Nhi Çm vā 4 (trích xu¿t và chu¿n hóa thåi gian): Trích xu¿t các thåi điÇm

mà các ý kiÃn đ°ÿc đ°a ra và chuẩn hóa các đánh d¿ng thåi gian khác nhau

Nhi Çm vā 5 (phân lãp quan điÃm theo khía c¿nh): Xác đánh xem mát

quan điÇm trên mát khía c¿nh aij là tích căc, tiêu căc hay trung tính hoặc chß đánh xÃp h¿ng quan điÇm bằng sá cho khía c¿nh đó

Nhi Çm vā 6 (t¿o nhóm ý ki¿n): Đ°a ra t¿t cÁ các nhóm ý kiÃn (ei, aij, sijkl,

hk, tl) đ°ÿc thÇ hián trong tài liáu d dăa trên kÃt quÁ cÿa các nhiám vā trên

1.3 Nhāng thách thāc trong l*nh văc phân tích quan điÃm

Bài toán vÅ lĩnh văc phân tích quan điÇm là mát lĩnh văc thu hút nhiÅu să quan tâm cÿa các nhà nghiên cāu Nhāng kÃt quÁ nghiên cāu trong lĩnh văc này

đã và đang áp dāng trong lĩnh văc công nghiáp nhằm māc đích phát triÇn các dách

vā cÿa mình Tuy nhiên, bên đó, có mát sá thách thāc phÁi đái mặt Theo Tài liáu tham khÁo [4,5,11,13,16], các kā thuÁt hián t¿i chß là s¢ khai đÇ xác đánh và trích xu¿t các ý kiÃn và so sánh Chÿ yÃu nhāng thách thāc này liên quan đÃn tính xác thăc cÿa dā liáu đ°ÿc trích xu¿t và các ph°¢ng pháp đ°ÿc sÿ dāng trong đó Trong thăc tÃ, các bình luÁn đánh giá hay quan điÇm đ°ÿc đ°a ra bçi nhāng ng°åi khác nhau nên sÁ có phong cách viÃt khác nhau từ cách thāc sÿ dāng ngôn ngā, chā viÃt tÃt đÃn cách biÇu đ¿t quan điÇm Mãi ng°åi đÅu không bày tß ý kiÃn theo cùng mát cách

Mát thách thāc quan trãng trong bài toán phân tích quan điÇm là quan điÇm

sÁ thay đåi theo thåi gian T¿i thåi điÇm này mát quan điÇm vÅ sÁn phẩm có thÇ

là tát nh¿t nh°ng theo mát thåi gian sau nó không phÁi là tát nh¿t nāa, ng°åi ta

sÁ có nhiÅu să lăa chãn h¢n khi các sÁn phẩm mãi tát h¢n vÅ giá cÁ và ch¿t l°ÿng Tuy nhiên, cũng có nhāng sÁn phẩm ban đÁu đ°a ra ngoài thá tr°ång ch°a đ°ÿc tát và đánh giá cao nh°ng qua thåi gian, quá trình cÁi thián ch¿t l°ÿng cÿa sÁn phẩm hoặc dách vā đ°ÿc ng°åi tiêu dùng đánh giá cao h¢n

Ví dā: Nm 2012 Iphone 5 đ°ÿc ng°åi tiêu dùng đánh giá là tích căc nh°ng t¿i thåi điÇm này có nhāng đánh giá tiêu căc vì có nhiÅu nhāng dòng sÁn phẩm mãi

Trang 20

đã ra đåi

Đá m¿nh cÿa quan điÇm là mát trong nhāng thách thāc trong phân tích quan điÇm đÇ xác đánh các yÃu tá quyÃt đánh sāc m¿nh cÿa mát ý kiÃn trong mát bái cÁnh nào đó Bå sung thêm viác phân lãp các từ thành các māc đá xu h°ãng quan điÇm khác nhau, mát sá từ bå nghĩa có thÇ đ°ÿc dùng đÇ xác đánh đá m¿nh cÿa

quan điÇm (<rất=, <một chút=, <hết sức=, <hơi=, ) Cām từ <rất hài lòng= và

<hơi hài lòng= sÁ đ°ÿc phân lãp thành r¿t tích căc và kém tích căc nÃu <rất= và

<hơi= đ°ÿc phân tích và sÿ dāng đÇ xác đánh māc đá đái lÁp

Mát thách thāc lãn trong phân tích quan điÇm là các câu đánh giá có să pha trán đã xu¿t hián khi mãi ng°åi thÇ hián đánh giá hai quan điÇm (tích căc và tiêu căc) trong cùng mát câu Mãi ng°åi có nhiÅu ý kiÃn khác nhau trong cùng mát câu hay nhāng bình luÁn mang quan điÇm trung tính cũng có thÇ gây khó khn đÇ phân tích cú pháp hoặc phân tích quan điÇm Các câu mang quan điÇm tích căc, tiêu căc hay trung tính đÅu quan trãng khi hu¿n luyán các mô hình phân tích quan điÇm Vì dā liáu gÃn th¿ yêu cÁu các tiêu chí phÁi nh¿t quán, nên cÁn phÁi có mát đánh nghĩa tát vÅ v¿n đÅ xác đánh các vn bÁn trung tính nh° nhāng vn bÁn khách quan không chāa tình cÁm rõ ràng hay nhāng låi chúc, nhāng mong muán (<tôi

°ãc sÁn phẩm tát h¢n; < tôi °ãc sāa này có nhiÅu ch¿t dinh d°ỡng=) là nhāng câu khó phân lo¿i

Ngày nay, xu h°ãng ng°åi tiêu dùng sÿ dāng dách vā hoặc mua sÃm đã thay đåi so vãi các ph°¢ng thāc truyÅn tháng Viác tham khÁo ý kiÃn, các đánh giá hay nhÁn xét ngày càng đ°ÿc nhÁn đ°ÿc să quan tâm từ ng°åi tiêu dùng cũng nh° nhà sÁn xu¿t và các chuyên gia Vì vÁy, NhiÅu ng°åi đã lÿi dāng các yÃu tá này nhằm trāc lÿi bằng cách đ°a ra các nhÁn xét tát cho sÁn phẩm cÿa hã hoặc đ°a ra các đánh giá x¿u cho các sÁn phẩm cÿa đái thÿ Nhāng ho¿t đáng này đ°ÿc gãi là giÁ m¿o quan điÇm hoặc lừa đÁo [6] Vãi să phát triÇn m¿nh mÁ cÿa m¿ng xã hái, viác lan truyÅn thông tin ngày càng dß dàng Các bình luÁn có thÇ đ°ÿc chia s¿ mát cách nhanh chóng và hÁu nh° thiÃu să kiÇm soát từ các c¢ quan chāc nng

và các nhà quÁn lý m¿ng Từ đó, các thông tin giÁ m¿o các ý kiÃn đánh giá ngày càng trç nên tinh vi và khó kiÇm soát, đây là mát thách thāc lãn đái vãi viác phát hián chúng

Xÿ lý ngôn ngā tă nhiên trong câu quan điÇm: Các ý kiÃn mà mãi ng°åi bày

tß trên các trang m¿ng xã hái th°ång viÃt theo ngôn ngā tă nhiên, các đánh giá cÿa ng°åi tiêu dùng cũng th°ång dùng các ngôn ngā vn bÁn không chính thāc

và không theo quy tÃc ngā pháp, có thÇ hã viÃt tÃt hoặc dùng các biÇu t°ÿng cÁm

Trang 21

xúc Mßi ng°åi khác nhau sÁ có cách viÃt khác nhau Vì vÁy, v¿n đÅ xÿ lý ngôn ngā tă nhiên trong viác xÿ lý các ý kiÃn đánh giá là mát thách thāc lãn

1.4 Các āng dāng cÿa phân tích quan điÃm

Quan điÇm vÅ sÁn phẩm đã luôn là mát phÁn quan trãng trong viác cung c¿p thông tin cho quá trình ra quyÃt đánh Tr°ãc khi Internet trç nên phå biÃn nÃu chúng ta muán mua mát sÁn phẩm nào chúng ta th°ång hßi ý kiÃn b¿n bè, ng°åi thân vÅ v¿n đÅ chúng ta đang quan tâm nh°ng nh° thà tham khÁo đ°ÿc r¿t ít thông tin, th°ång không hiáu quÁ nhiÅu Ngày nay viác tiÃp cÁn vãi các đánh giá cÿa khách hàng vÅ các sÁn phẩm, dách vā mà chúng ta quan tâm đã dß dàng Và khách hàng th°ång tìm kiÃm să tin cÁy trong nhāng låi khuyên, t° v¿n trăc tuyÃn là r¿t nhiÅu nên nhu cÁu có mát há tháng āng dāng đÇ hß trÿ ng°åi tiêu dùng tìm kiÃm thông tin là cÁn thiÃt cho cÁ khách hàng và doanh nghiáp

Nghiên cāu thá tr°ång dành cho ng°åi mua và bán Thông tin quan điÇm đái vãi mát sÁn phẩm cā thÇ có vai trò r¿t quan trãng Khi chúng ta muán mua mát sÁn phẩm nào đó, chúng ta không biÃt đ°ÿc lo¿i sÁn phẩm đó có phù hÿp hay không, cÿa hàng nào dách vā khách hàng tát, giá bán ç đâu r¿ h¢n, ch¿t l°ÿng ç đâu tát h¢n đÇ đ°a ra các quyÃt đánh chính xác vì vÁy các quan điÇm vÅ sÁn phẩm cÿa nhāng ng°åi dùng tr°ãc là mát kênh thông tin quan trãng chúng ta th°ång quan tâm tãi ý kiÃn cÿa ng°åi khác đái vãi sÁn phẩm đó, theo d¿ng nh° <Nhāng ng°åi khác đã nghĩ và đánh giá vÅ sÁn phẩm đó nh° thà nào ?= Ví dā khi chúng

ta muán mua mát háp sāa cho bé chúng ta sÁ hßi b¿n bè ng°åi thân hoặc tìm hiÇu trên các dißn đàn m¿ng xã hái nhāng bình luÁn, đánh giá cÿa ng°åi dùng tr°ãc vÅ các dòng sÁn phẩm cÿa các hãng sāa phù hÿp vãi thÇ tr¿ng tr¿ em Viát Nam v.v= Nh° vÁy quan điÇm cÿa ng°åi khác giúp các cá nhân có thêm thông tin tr°ãc khi quyÃt đánh mát v¿n đÅ Ngoài ra khi biÃt đ°ÿc thông tin quan điÇm đái vãi mát sÁn phẩm, dách vā từ các khách hàng thì rõ ràng nó giúp mang l¿i các thông tin hāu ích cho các công ty, tå chāc thay đåi hoặc cÁi tiÃn dòng sÁn phẩm, dách vā cÿa mình

CÁi thián ch¿t l°ÿng cÿa sÁn phẩm, dách vā: Dăa vào quan điÇm cÿa ng°åi dùng, các nhà sÁn xu¿t có thÇ thay đåi mát sá tính nng cÿa sÁn phẩm, dách vā theo h°ãng tích căc nhằm phāc vā nhu cÁu cÿa khách hàng

Phân tích quan điÇm cũng có vai trò quan trãng nh° mát công nghá hß trÿ cho các há tháng khác Mát āng dāng tiÅm nng đó là há tháng gÿi ý giúp ta có thÇ áp dāng phân tích quan điÇm trong các há tháng khuyÃn cáo, giúp cho há tháng đ°a ra các gÿi ý vÅ các sÁn phẩm cho ng°åi dùng có khÁ nng quan tâm cao nh¿t

Trang 22

nhằm māc đích tng lÿi nhuÁn cho doanh nghiáp Ngoài ra há tháng còn có thÇ xác đánh sç thích cÿa khách hàng vÅ sÁn phẩm đÇ đ°a ra các chiÃn l°ÿc kinh doanh tát h¢n nhằm phāc vā khách hàng, tng doanh thu cho các doanh nghiáp

Mát d¿ng āng dāng vô cùng hāu ích đái vãi các chính trá gia đó là há tháng

hß trÿ thông minh cho chính phÿ Chẳng h¿n nh° khi mát luÁt chuẩn bá đ°ÿc ban hành, Quác Hái r¿t muán lÃng nghe, l¿y ý kiÃn cÿa nhân dân vÅ dă thÁo luÁt đÇ xem nó có hÿp lý hay không, nhân dân có nhāng phÁn āng nh° thà nào Hay đái vãi các cuác bÁu tång tháng, chÿ tách n°ãc, thÿ t°ãng thì nhāng ý kiÃn đánh giá cÿa ng°åi dân giā mát vai trò căc kỳ quan trãng đái vãi kÃt quÁ cÿa cuác bÁu cÿ

1.5 Phân lãp quan điÃm

Phân tích quan điÇm cho toàn bá vn bÁn là bài toán c¢ bÁn nh¿t trong phân tích quan điÇm giáng vãi bài toán phân lãp vn bÁn thông th°ång Cho tr°ãc mát tÁp các vn bÁn đánh giá sÁn phẩm, đái vãi từng vn bÁn đÁu vào, bài toán yêu cÁu tính điÇm (phân lãp) quan điÇm chung cho nó Dăa trên điÇm quan điÇm đã đ¿t đ°ÿc, từng vn bÁn sau đó đ°ÿc gán các nhãn quan điÇm hoặc các h¿ng t°¢ng āng Các nhãn có thÇ đ°ÿc gán nh° nhãn tích căc (Positive), tiêu căc (Negative) hoặc trung tính Trong tr°ång hÿp cÁn xÃp h¿ng quan điÇm chi tiÃt cho vn bÁn thì h¿ng đ°ÿc gán cho vn bÁn là <1 sao= (có nghĩa là r¿t tiêu căc) hoặc <2 sao= (tiêu căc māc trung bình) hoặc <3 sao= (trung tính) hoặc <4 sao= (tích căc) hoặc

<5 sao= (r¿t tích căc) Viác phân tích quan điÇm theo lo¿i bài toán này th°ång ç māc tài liáu và không quan tâm tãi v¿n đÅ chi tiÃt h¢n nh° ng°åi đánh giá sÁn phẩm thích hay không thích khía c¿nh nào cÿa sÁn phẩm

Phân tích quan điÇm ç māc câu gÁn giáng vãi māc tài liáu Tuy nhiên, do câu th°ång chāa l°ÿng thông tin ít h¢n r¿t nhiÅu ç māc tài liáu Trong mát sá tr°ång hÿp, mßi câu chß chāa mát ý kiÃn hay quan điÇm vÅ mát thăc thÇ Các tr°ång hÿp phāc t¿p h¢n, mát câu có thÇ có nhiÅu quan điÇm hay đánh giá vÅ các khía c¿nh khác nhau cÿa mát đái t°ÿng hoặc thÁm chí có thÇ có să thay đåi vÅ quan điÇm trong cùng mát câu [5,6,13] Phân tích quan điÇm māc đá câu r¿t gÁn vãi bài toán phân lãp chÿ quan và khách quan, trong đó chúng ta cÁn phân lãp xem mát câu đã cho là chÿ quan (có quan điÇm, ý kiÃn riêng) hay khách quan (câu chß đ°a ra thông tin) Tuy nhiên, các câu khách quan cũng có thÇ từ đó suy ra quan điÇm Trong māc này, các câu thÇ hián quan điÇm đÃn thăc thÇ sÁ dß dàng gán nhãn h¢n Phân lo¿i quan điÇm theo khía c¿nh

Phân lãp quan điÇm ç māc tài liáu hay māc câu theo các đánh h°ãng phân căc là tích căc, tiêu căc hay trung tính không thÇ hián hÃt ý nghĩa trong hÁu hÃt

Trang 23

các āng dāng bçi vì các phân lãp này không xác đánh đ°ÿc đánh giá hoặc māc tiêu đánh giá hoặc gán vãi các đánh giá vãi các māc tiêu Trong tr°ång hÿp khi mát tài liáu đánh giá cho mát thăc thÇ duy nh¿t là tích căc thì không có nghĩa là mãi ý kiÃn đánh giá cho mãi khía c¿nh cÿa nó đÅu là tích căc Trên thăc tÃ, chúng

ta th¿y mát thăc thÇ có thÇ đ°ÿc đánh giá ç nhiÅu khía c¿nh khác nhau, và mßi khía c¿nh có thÇ đ°ÿc đánh giá vãi nhiÅu māc đá khác nhau Do đó, đÇ có thÇ phân tích chi tiÃt đánh giá vÅ mát thăc thÇ, chúng ta cÁn xác đánh vãi mßi khía c¿nh cÿa nó đ°ÿc đánh giá là tích căc, tiêu căc hay trung tính Đây chính là māc tiêu cÿa bài toán phân tích quan điÇm theo khía c¿nh, có hai nhiám vā chính: Trích các khía c¿nh trong các thăc thÇ đ°ÿc đánh giá và phân lãp quan điÇm theo khía c¿nh là nhiám vā xác đánh các quan điÇm vÅ mát khía c¿nh đã đ°ÿc trích theo các căc: tiêu căc, trung tính hay tích căc hoặc đánh giá theo māc 1 đÃn 5 sao

Phân tích quan điÃm trong l*nh văc thāc n tr¿ em đang trç nên r¿t quan

trãng nhằm māc đích phát hián nhāng quan điÇm, tình cÁm tích căc hoặc tiêu căc trong các câu bình luÁn cÿa khách hàng Qua đó, doanh nghiáp sÁ có nhāng chính sách cÁi tiÃp tiÃn sÁn phẩm, nâng c¿p dách vā đÇ đáp āng nhu cÁu cÿa khách hành, Không nhāng thÇ khách hàng có thÇ tham khÁo nhāng bình luÁn đÇ có thÇ đ°a ra nhāng quyÃt đánh đúng đÃn khi lăa chãn sÁn phẩm

ĐÁu vào: Cho mát câu (đo¿n vn bÁn) thuác miÅn dā liáu thāc n tr¿ em ĐÁu ra: Dă đoán câu bình luÁn r¿t tích căc (5), tích căc (4), trung tính (3),

tiêu căc (2) hay r¿t tiêu căc (1)

Ví dā ta có bình luÁn: <Sữa Pediasure này rất tốt cho trẻ em= Câu bình luÁn này r¿t tích căc, dă đoán trÁ vÅ giá trá 5

K ¿t lu¿n ch°¢ng

Ch°¢ng 1 luÁn vn đã trình bày nhāng v¿n đÅ c¢ bÁn nh¿t vÅ phân tích quan điÇm cũng nh° các thành phÁn, nhiám vā, thách thāc, xu h°ãng và āng dāng cÿa phân tích quan điÇm Từ đó, đặt ra bài toán phân tích quan điÇm trong lĩnh văc thāc n tr¿ em, āng dāng các mô hình hãc máy đÇ xây dăng mô hình phân lãp quan điÇm nhằm māc tiêu t¿o ra các lãp quan điÇm theo các tiêu chí sÃp xÃp và phân lãp mà ng°åi sÿ dāng đã đÅ cÁp trong vn bÁn Từ đó, đánh giá đ°ÿc ý kiÃn cÿa ng°åi sÿ dāng qua các lãp đã phân

Trang 24

CH¯¡NG 2: CÁC KĀ THU¾T HâC MÁY TRONG BÀI TOÁN

PHÂN TÍCH QUAN ĐIÂM

Phân tích quan điÇm sÿ dāng các kā thuÁt xÿ lý ngôn ngā tă nhiên (Natural Language Processing – NLP) đÇ xác đánh xem vn bÁn có ý nghĩa là tích căc, tiêu căc hay trung tính Phân tích quan điÇm th°ång đ°ÿc thăc hián trên vn bÁn đánh giá, nhÁn xét, bình luÁn, & nhằm giúp doanh nghiáp tă đáng phân tích phÁn hãi cÿa khách hàng đÇ thu thÁp đ°ÿc thông tin nhÁn xét đánh giá sÁn phẩm, dách vā

2.1 Các ph°¢ng pháp ti¿p c¿n cÿa phân tích quan điÃm

Các kā thuÁt phân tích quan điÇm có thÇ chÿ yÃu đ°ÿc chia thành cách tiÃp cÁn dăa trên từ văng (Lexicon Based Approach) và cách tiÃp cÁn hãc máy (Machine Learning Approach) Các kā thuÁt hãc máy đ°ÿc áp dāng trong lĩnh văc phân tích quan điÇm có thÇ đ°ÿc chia thành ph°¢ng pháp hãc có giám sát, hãc không giám sát và gÁn đây là tiÃp cÁn dăa trên hãc sâu (Deep Learning Approach) là cách tiÃp cÁn hián đ¿i h¢n, có thÇ tă đáng trích xu¿t đặc tr°ng và biÇu dißn dā liáu ç māc nhiÅu thông tin, giàu ngā nghĩa Tuy nhiên chi phí thåi gian hu¿n luyán cho các mô hình này là r¿t lãn

Hãc không giám sát không có đÁu ra māc tiêu rõ ràng liên quan đÃn đÁu vào và nó là hãc thông qua quan sát Māc đích là đÇ máy hãc mà không đ°a ra b¿t kỳ h°ãng d¿n rõ ràng nào Cách tiÃp cÁn nåi tiÃng trong hãc tÁp không giám sát là phân cām, trong đó tìm ra điÇm t°¢ng đãng cÿa các yÃu tá trong dā liáu hu¿n luyán Tham sá đá t°¢ng tă cām đ°ÿc xác đánh dăa trên các chß sá nh° khoÁng cách Euclide K-means, Hierarchical, mô hình hßn hÿp Gaussian, BÁn đã

tă tå chāc, và mô hình Markov ẩn là mát sá thuÁt toán phân cām [10,14]

Hãc có giám sát là ph°¢ng pháp sÿ dāng tÁp dā liáu đã biÃt đÇ đ°a ra dă đoán kÃt quÁ đÁu ra Viác hãc có giám sát yêu cÁu hai bá tài liáu: bá hu¿n luyán

và bá kiÇm thÿ ĐÇ hãc các thuác tính khác nhau cÿa tài liáu, tÁp hu¿n luyán đ°ÿc

sÿ dāng và đÇ đánh giá tÁp kiÇm tra trình phân lãp hiáu su¿t đ°ÿc sÿ dāng

2.1.1 Ph°¢ng pháp ti¿p c¿n dăa trên lu¿t

Các há tháng này tă đáng thăc hián phân tích quan điÇm dăa trên mát tÁp hÿp các luÁt đ°ÿc t¿o thÿ công do con ng°åi t¿o ra giúp xác đánh tính chÿ quan, quan điÇm tích căc, quan điÇm tiêu căc, trung tính hoặc chÿ đÅ cÿa mát ý kiÃn Các luÁt này có thÇ bao gãm các kā thuÁt NLP khác nhau đ°ÿc phát triÇn trong ngôn ngā hãc tính toán nh° t¿o mã nguãn, mã hóa, phân tích cú pháp và dăa vào danh sách từ điÇn và từ văng (Lexicons) C¢ chà ho¿t đáng c¢ bÁn cÿa há tháng

Trang 25

dăa trên luÁt:

1. Xác đánh hai danh sách các từ phân căc, các từ tiêu căc nh° quá xấu, quá

th ật tuyệt &

2 ĐÃm sá từ tích căc và tiêu căc xu¿t hián trong mát vn bÁn nh¿t đánh

3 NÃu sá lÁn xu¿t hián từ tích căc nhiÅu h¢n sá lÁn xu¿t hián từ tiêu căc, há tháng sÁ trÁ vÅ cÁm xúc tích căc và ng°ÿc l¿i NÃu các con sá là chẵn, há tháng sÁ trÁ vÅ mát cÁm giác trung tính

Các há tháng dăa trên luÁt r¿t đ¢n giÁn vì chúng khơng tính đÃn cách các từ đ°ÿc kÃt hÿp theo mát trình tă T¿t nhiên, các kā thuÁt xÿ lý nâng cao h¢n cĩ thÇ đ°ÿc sÿ dāng và các luÁt mãi đ°ÿc thêm vào đÇ hß trÿ các cách dißn đ¿t và từ văng mãi Tuy nhiên, viác thêm các luÁt mãi cĩ thÇ Ánh h°çng đÃn các kÃt quÁ tr°ãc đĩ và tồn bá há tháng cĩ thÇ trç nên r¿t phāc t¿p Vì các há tháng dăa trên luÁt th°ång yêu cÁu tinh chßnh và bÁo trì, chúng cũng sÁ cÁn đÁu t° th°ång xuyên

2.1.2 Ph°¢ng pháp ti¿p c¿n dăa vào hãc máy

Các ph°¢ng pháp tiÃp cÁn dăa vào hãc máy khơng dăa trên các luÁt đ°ÿc t¿o thÿ cơng, mà dăa trên các kā thuÁt máy hãc Mát nhiám vā phân tích quan điÇm th°ång đ°ÿc mơ hình hĩa nh° mát bài tốn phân lãp, theo đĩ mát bá phân lãp đ°ÿc cung c¿p đÁu vào là mát vn bÁn và trÁ vÅ đÁu ra là mát danh māc, ví dā: tích căc, tiêu căc hoặc trung tính

Mát bá phân lãp hãc máy cĩ thÇ đ°ÿc phát triÇn nÃu nĩ đ°ÿc xây dăng dăa trên kho ngā liáu hu¿n luyán cĩ chāa nhãn chính xác cho mßi đÁu vào

Mát sá ph°¢ng pháp tiÃp cÁn hãc máy là sÿ dāng tÁp dā liáu đã biÃt đÇ đ°a

ra dă đốn kÃt quÁ đÁu ra Các kā thuÁt truyÅn tháng yêu cÁu hai bá tài liáu: bá hu¿n luyán và bá kiÇm thÿ ĐÇ hãc các thuác tính khác nhau cÿa tài liáu, tÁp hu¿n luyán đ°ÿc sÿ dāng và đÇ đánh giá tÁp kiÇm tra trình phân lãp hiáu su¿t đ°ÿc sÿ dāng Các thuÁt tốn hãc máy đ°ÿc sÿ dāng phå biÃn trong bài tốn phân tích quan điÇm: Nạve Bayes, Maximum Entropy, Support Vector Machine (SVM), Logistic Regression, Deep Learning Các thuÁt tốn này cĩ hiáu quÁ trong bài tốn phân tích quan điÇm

2.2 Ph°¢ng pháp Nạve Bayes

Bá phân lãp quan điÇm Nạve Bayes [7] đ°ÿc xây dăng dăa trên lý thuyÃt Bayes vÅ xác su¿t cĩ điÅu kián đÇ phân lãp quan điÇm:

Trang 26

(2.1) Māc tiêu là tìm đ°ÿc phân lãp c sao cho P(c|d) là lãn nh¿t hay xác su¿t cÿa tài liáu d thuác lãp c là lãn nh¿t

Ta cĩ thÇ nhÁn th¿y từ cơng thāc trên P(d) khơng đĩng vai trị gì trong viác quyÃt đánh phân lãp c  P(c|d) lãn nh¿t ⟺ P(c).P(d|c) lãn nh¿t

ĐÇ cĩ thÇ x¿p xß giá trá cÿa P(d|c), thuÁt tốn Nạve Bayes giÁ sÿ rằng: các vector đặc tr°ng fi cÿa mát tài liáu khi đã biÃt phân lãp là đác lÁp vãi nhau Từ đĩ

ta cĩ cơng thāc:

(2.2) Trong đĩ f là các vector đặc tr°ng cho tài liáu d

Khi tiÃn hành hu¿n luyán, thuÁt tốn sÿ dāng ph°¢ng pháp x¿p xß hÿp lý căc đ¿i MLE (Maximum Likelihood Estimation) đÇ x¿p xß P(c) và P(fi|c) cùng thuÁt tốn làm mán add-one (add-one smoothing) Ta cĩ:

(2.3) Trong đĩ Nc là sá vn bÁn đ°ÿc phân lo¿i vào lãp c; N là tång sá vn bÁn trong tÁp hu¿n luyán

(2.4) Trong đĩ Ncfi là sá lÁn xu¿t hián cÿa vector đặc tr°ng i trong tài liáu thuác

phân lãp c

Đánh giá bá phân lãp sÿ dāng thuÁt tốn Naive Bayes, ta nhÁn th¿y:

¯u điÃm: Đ¢n giÁn, dß cài đặt, bá phân lãp ch¿y nhanh và cÁn ít bá nhã

l°u trā Khơng cÁn nhiÅu dā liáu hu¿n luyán đÇ x¿p xß đ°ÿc bá tham sá

Trang 27

Nh°ÿc điÃm: Các đặc tr°ng đÁu vào phÁi đác lÁp, điÅu này khĩ xÁy ra

trong thăc tà làm giÁm ch¿t l°ÿng cÿa mơ hình

Trong nhiÅu bài tốn cịn phā thuác vào dā liáu đÇ lăa chãn các mơ hình Naive Bayes Bao gãm 3 mơ hình đ°ÿc đ°a ra d°ãi đây:

o Gaussian : Mơ hình Gaussian giÁ đánh rằng các đái t°ÿng đáa lý tuân theo

phân phái chuẩn ĐiÅu này cĩ nghĩa là nÃu các bá dă đốn nhÁn các giá trá liên tāc thay vì råi r¿c, thì mơ hình giÁ đánh rằng các giá trá này đ°ÿc l¿y m¿u từ phân phái Gaussian

o Multiomial : Bá phân lãp Nạve Bayes đa lãp đ°ÿc sÿ dāng khi dā liáu

đ°ÿc phân phái đa lãp Nĩ chÿ yÃu đ°ÿc sÿ dāng cho các v¿n đÅ phân lãp tài liáu, nĩ cĩ nghĩa là mát tài liáu cā thÇ thuác vÅ danh māc nào nh° tích căc, tiêu căc, r¿t tích căc, tiêu căc hoặc trung tính Trình phân lãp sÿ dāng tÁn su¿t từ cho các yÃu tá dă đốn

o Bernoulli : Bá phân lãp Bernoulli ho¿t đáng t°¢ng tă nh° bá phân lãp Đa

thāc, nh°ng các biÃn dă báo là các biÃn Booleans đác lÁp Chẳng h¿n nh° nÃu mát từ cā thÇ cĩ trong tài liáu hay khơng Mơ hình này cũng nåi tiÃng vãi các nhiám vā phân lãp tài liáu

2.3 Ph°¢ng pháp Support Vector Machine (SVM)

Support Vector Machines (SVM) là ph°¢ng pháp hãc cĩ giám sát bao gãm phân tích dā liáu và phát hián m¿u, đ°ÿc sÿ dāng cho phân lãp và phân tích hãi quy ThuÁt tốn SVM đ°ÿc Vladimir Vapnik đÅ xu¿t vào nm 1995[10]

Cách dß nh¿t đÇ hiÇu SVM là sÿ dāng mát bài tốn phân lãp nhá phân Hai lãp đ°ÿc hiÇn thá bằng hai màu khác nhau SVM tìm dịng tát nh¿t phân tách hai lãp Ta th¿y dā liáu đ°ÿc biÇu dißn d°ãi d¿ng các ch¿m trên mặt phẳng 2D Dā liáu thuác hai lãp khác nhau đ°ÿc biÇu thá bằng màu sÃc cÿa các d¿u ch¿m xanh

và ch¿m đß.Đái vãi phân tích quan điÇm, điÅu này sÁ là tích căc và tiêu căc Mát cách đÇ hãc cách phân biát giāa hai lãp là vÁ mát đ°ång phân chia khơng gian 2D thành hai phÁn Hu¿n luyán há tháng chß đ¢n giÁn là tìm dịng Khi đã hu¿n luyán

há tháng (tāc là đã tìm th¿y đ°ång thẳng), cĩ thÇ biÃt liáu mát điÇm dā liáu mãi thuác lãp màu xanh hay màu đß bằng cách chß cÁn kiÇm tra xem nĩ nằm ç phía nào cÿa đ°ång thẳng

Trang 28

Hình 2 1: SVM tìm dòng tát nh¿t phân tách hai lãp Trong ví dā hình 2.2 trên, rõ ràng là dong L1 không phÁi là mát lăa chãn tát

vì nó không tách biát hai lãp L2 và L3 đÅu tách biát hai lãp, nh°ng trăc quan chúng ta biÃt L3 là lăa chãn tát h¢n L2 vì nó phân tách rõ ràng h¢n hai lãp

Ý t°çng chính cÿa thuÁt toán này là cho tr°ãc mát tÁp hu¿n luyán đ°ÿc biÇu dißn trong không gian vector, trong đó mßi tài liáu là mát điÇm trong không gian

n chiÅu và từ các dā liáu hu¿n luyán ban đÁu đ°ÿc gán nhãn sÁ tìm ra mát siêu phẳng phân lãp chính xác các dā liáu

Hình 2 2: Ví dā vÅ siêu phẳng trong SVM

Trang 29

Ch¿t l°ÿng cÿa siêu phẳng đ°ÿc quyÃt đánh bçi khoÁng cách cÿa điÇm dā liáu gÁn nh¿t cÿa mßi lãp đÃn mặt phẳng KhoÁng cách biên càng lãn thì mặt phẳng quyÃt đánh càng tát, đãng thåi viác phân lãp càng chính xác Māc đích cÿa thuÁt toán là tìm đ°ÿc khoÁng cách biên lãn nh¿t đÇ t¿o ra kÃt quÁ phân lãp tát

Trong ví dā trên siêu phẳng tái °u phân chia dā liáu thành hai lãp màu xanh

và màu đß Các điÇm gÁn nh¿t là các vector hß trÿ đ°ÿc tô đÁm Hai bên cÿa siêu

phẳng là hai lÅ chāa các vector hß trÿ – tāc là các điÇm dā liáu gÁn siêu phẳng nh¿t SVM thăc ch¿t là bài toán tái °u, māc tiêu cÿa thuÁt toán này là tìm đ°ÿc mát không gian siêu phẳng khi Vect¢ hß trÿ có khoÁng cách lãn nh¿t có thÇ từ ranh giãi quyÃt đánh (tāc là tách siêu phẳng) và hai lãp nằm trên các mặt khác nhau cÿa siêu phẳng

Xét mát tÁp dā liáu m¿u:

�㖟= ( x1, y1), ,( xl,yl)}, x ∈ ℝn , y ∈{-1,1} (2.5)

Trong đó xi là mát véc t¢ đặc tr°ng hay mát điÇm (trong không gian n chiÅu

i x ∈ ℝn) bißu dißn tÁp m¿u d i cặp (xi , y i) biÇu dißn rằng vãi mát vector đặc tr°ng

x i thì đ°ÿc gán nhãn là yi t°¢ng āng trong đó y ∈{-1,1} hay nói cách khác vãi tÁp m¿u di sÁ đ°ÿc gán nhãn cho tr°ãc là yi Ta có ph°¢ng trình mát siêu phẳng

Trong đó wx là tích vô h°ãng giāa véc t¢ x và véc t¢ pháp tuyÃn w∈ℝn đ°ÿc biÇu dißn trong không gian n chiÅu, và b ∈ ℝ là há sá tă do

Thăc tÃ, các dā liáu ban đÁu có thÇ sinh ra vô sá các siêu phẳng khác nhau

đÇ phân lãp dā liáu tuy nhiên bài toán đặt ra là trong mát không gian n chiÅu vãi các tÁp dā liáu m¿u nh° vÁy làm thà nào đÇ tìm đ°ÿc mát siêu phẳng luôn đÁm bÁo să phân chia dā liáu mát cách tát nh¿t, ta có thÇ hiÇu mát siêu phẳng tát là mát siêu phẳng mà khoÁng cách từ các điÇm dā liáu đ°ÿc phân lãp gÁn nh¿t vãi siêu phẳng đó là lãn nh¿t Ph°¢ng trình chāa các điÇm dā liáu này đ°ÿc gãi là các

lÅ, nh° vÁy siêu phẳng tát là siêu phẳng mà khoÁng cách giāa nó và lÅ càng xa càng tát

Trang 30

Hình 2 3: Siêu phẳng phân chia lÅ xa nh¿t

¯u điÃm cÿa ph°¢ng pháp SVM: Thích hÿp vãi bài toán phân tích quan

điÇm, các đặc tr°ng lãn, có thÇ giao nhau hoặc phā thuác nhau NhiÅu đặc tr°ng nh°ng ch¿y khá nhannh vì hãc trên Vect¢ hß trÿ

2.4 Ph°¢ng pháp Hái quy Logistic (Logistic regression)

2.4.1 Giãi thiÇu

Mát thuÁt toán r¿t nåi tiÃng trong tháng kê đ°ÿc sÿ dāng đÇ dă đoán mát

sá giá trá (Y) cho mát tÁp hÿp các tính nng (X)

ThuÁt toán Hãi quy Logistic thuác hãc máy có giám sát đÇ phân lo¿i dā liáu Mô hình hãi quy Logistic áp dāng cho biÃn phā thuác là biÃn đánh tính hoặc đánh l°ÿng chß có hai giá trá (có hoặc không) hay nhá phân là 0 hoặc 1 ĐiÅu này phù hÿp vãi bài toán phân lo¿i bình luÁn ng°åi dùng cā thÇ là phân tích quan điÇm ĐÁu ra cÿa bài toán đó là xác đánh bình luÁn đó là tích căc hay tiêu căc

2.4.2 Mô hình Logistic

ĐÁu tiên, ta sÁ xem xét mô hình logistic nh° sau: Hãy xem xét mát mô hình

có hai yÃu tá dă đoán, x1 và x2, và mát biÃn phÁn hãi nhá phân Y, mà chúng tôi biÇu thá p = P (Y = 1) GiÁ đánh mái quan há tuyÃn tính giāa các biÃn dă đoán và

tÿ lá c°ÿc log cÿa să kián Y = 1 Mái quan há tuyÃn tính này có thÇ đ°ÿc viÃt d°ãi d¿ng toán hãc sau (trong đó ℓ là tÿ lá c°ÿc log, b là c¢ sá cÿa logarit và  là các thông sá cÿa mô hình):

Trang 31

0 1 1 2 2log

    ý

p mà Y = 1 Trong hÁu hÃt các āng dāng, c¢ sá b cÿa lôgarit th°ång đ°ÿc coi là

e Tuy nhiên, trong mát sá tr°ång hÿp, viác truyÅn đ¿t kÃt quÁ có thÇ dß dàng h¢n bằng cách làm viác trong c¢ sç 2 hoặc c¢ sç 10

Chúng tôi xem xét mát ví dā vãi b = 10 và các há sá 0 ý 3,1 ý1,2 ý2

 0 ý  là chặn y Đó là tÿ lá c°ÿc cÿa să kián Y = 1, khi các yÃu tá 3

dă đoán x1ý ý Bằng cách tính lũy thừa, chúng ta có thÇ th¿y rằng x2 0khi x1ý ý tÿ lá c°ÿc cÿa tr°ång hÿp Y = 1 là x2 01/ (1000 1) 1/1001 ý T°¢ng tă, xác su¿t cÿa să kián Y = 1 khi

1 2 0

x ý ý có thÇ đ°ÿc tính là x 1/ (1000 1) 1/1001  ý

  1 ý 1có nghĩa là tng x1 lên 1 sÁ làm tng tÿ lá lên 1 Vì vÁy, nÃu x1 tng 1, tÿ lá c°ÿc rằng Y = 1 tng theo há sá cÿa 101 L°u ý rằng xác su¿t cÿa Y = 1 cũng đã tng lên, nh°ng nó không tng nhiÅu vì tÿ lá

Trang 32

c°ÿc đã tng lên

  ý 2 2có nghĩa là tng x2 lên 1 sÁ làm tng tÿ lá lên 2 Vì vÁy, nÃu x2 tng 1, tÿ lá c°ÿc rằng Y = 1 sÁ tng theo há sá cÿa 102 L°u ý rằng Ánh h°çng cÿa x2 lên tÿ lá c°ÿc đng nhÁp lãn g¿p đôi Ánh h°çng cÿa x1, nh°ng Ánh h°çng đÃn tÿ lá c°ÿc lãn h¢n 10 lÁn Nh°ng Ánh h°çng đÃn xác su¿t cÿa Y = 1 không lãn h¢n 10 lÁn, nó chß Ánh h°çng đÃn tÿ lá c°ÿc lãn h¢n 10 lÁn

ĐÇ °ãc tính các tham sá  từ dā liáu, ng°åi ta phÁi thăc hián hãi quy logistic

2.4.3 Hàm Logistic và các tß lÇ

2.4.3.1 Đánh ngh*a hàm logistic

Mát hàm Logistic chuẩn là mát hàm Sigmoid, nhÁn b¿t kỳ đÁu vào thăc t

và xu¿t ra giá trá từ 0 đÃn 1 Đái vãi logit, điÅu này có nghĩa là vãi b¿t kỳ tß lá logit đÁu vào sÁ có đÁu ra là xác su¿t Hàm Logistic chuẩn đ°ÿc đánh nghĩa nh° sau:

1( )

1 1

t

e t

  (2.11) Minh hãa, tr°ång hÿp t liên tāc trong khoÁng từ -6 đÃn 6 ta có hình

Hình 2 4: Đã thá cÿa hàm Logistic khi t thuác (-6,6) GiÁ sÿ t là mát hàm tuyÃn tính mát biÃn x khi đó ta có:

Ngày đăng: 14/05/2024, 17:03

HÌNH ẢNH LIÊN QUAN

Hình 2. 1: SVM tìm dòng tát nh¿t phân tách hai lãp - (Luận Văn Thạc Sĩ Công Nghệ Thông Tin) Phân Tích Quan Điểm Trong Lĩnh Vực Thức Ăn Trẻ Em Sử Dụng Kỹ Thuật Học Máy
Hình 2. 1: SVM tìm dòng tát nh¿t phân tách hai lãp (Trang 28)
Hình 2. 2: Ví dā vÅ siêu phẳng trong SVM - (Luận Văn Thạc Sĩ Công Nghệ Thông Tin) Phân Tích Quan Điểm Trong Lĩnh Vực Thức Ăn Trẻ Em Sử Dụng Kỹ Thuật Học Máy
Hình 2. 2: Ví dā vÅ siêu phẳng trong SVM (Trang 28)
Hình 2. 3: Siêu phẳng phân chia lÅ xa nh¿t - (Luận Văn Thạc Sĩ Công Nghệ Thông Tin) Phân Tích Quan Điểm Trong Lĩnh Vực Thức Ăn Trẻ Em Sử Dụng Kỹ Thuật Học Máy
Hình 2. 3: Siêu phẳng phân chia lÅ xa nh¿t (Trang 30)
Hình 2. 4: Đã thá cÿa hàm Logistic khi t thuác (-6,6)  GiÁ sÿ t là mát hàm tuyÃn tính mát biÃn x khi đó ta có: - (Luận Văn Thạc Sĩ Công Nghệ Thông Tin) Phân Tích Quan Điểm Trong Lĩnh Vực Thức Ăn Trẻ Em Sử Dụng Kỹ Thuật Học Máy
Hình 2. 4: Đã thá cÿa hàm Logistic khi t thuác (-6,6) GiÁ sÿ t là mát hàm tuyÃn tính mát biÃn x khi đó ta có: (Trang 32)
Hình 2. 5: M¿ng RNN có vòng lặp - (Luận Văn Thạc Sĩ Công Nghệ Thông Tin) Phân Tích Quan Điểm Trong Lĩnh Vực Thức Ăn Trẻ Em Sử Dụng Kỹ Thuật Học Máy
Hình 2. 5: M¿ng RNN có vòng lặp (Trang 36)
Hình 2. 7: Mô đun lặp l¿i trong mát LSTM - (Luận Văn Thạc Sĩ Công Nghệ Thông Tin) Phân Tích Quan Điểm Trong Lĩnh Vực Thức Ăn Trẻ Em Sử Dụng Kỹ Thuật Học Máy
Hình 2. 7: Mô đun lặp l¿i trong mát LSTM (Trang 37)
Hình 2. 6: Mô đun lặp l¿i trong RNN - (Luận Văn Thạc Sĩ Công Nghệ Thông Tin) Phân Tích Quan Điểm Trong Lĩnh Vực Thức Ăn Trẻ Em Sử Dụng Kỹ Thuật Học Máy
Hình 2. 6: Mô đun lặp l¿i trong RNN (Trang 37)
Hình 2. 8: C t  cÿa LSTM - (Luận Văn Thạc Sĩ Công Nghệ Thông Tin) Phân Tích Quan Điểm Trong Lĩnh Vực Thức Ăn Trẻ Em Sử Dụng Kỹ Thuật Học Máy
Hình 2. 8: C t cÿa LSTM (Trang 38)
Hỡnh 2. 10: Cồng quờn LSTM - (Luận Văn Thạc Sĩ Công Nghệ Thông Tin) Phân Tích Quan Điểm Trong Lĩnh Vực Thức Ăn Trẻ Em Sử Dụng Kỹ Thuật Học Máy
nh 2. 10: Cồng quờn LSTM (Trang 39)
Hỡnh 2. 9: Cồng tr¿ng thỏi LSTM - (Luận Văn Thạc Sĩ Công Nghệ Thông Tin) Phân Tích Quan Điểm Trong Lĩnh Vực Thức Ăn Trẻ Em Sử Dụng Kỹ Thuật Học Máy
nh 2. 9: Cồng tr¿ng thỏi LSTM (Trang 39)
Hình 2. 12: Giá trá state C t - (Luận Văn Thạc Sĩ Công Nghệ Thông Tin) Phân Tích Quan Điểm Trong Lĩnh Vực Thức Ăn Trẻ Em Sử Dụng Kỹ Thuật Học Máy
Hình 2. 12: Giá trá state C t (Trang 40)
Hỡnh 2. 11: Cồng vào i t  cÿa tanh  �㔶 �㕡  ̃ - (Luận Văn Thạc Sĩ Công Nghệ Thông Tin) Phân Tích Quan Điểm Trong Lĩnh Vực Thức Ăn Trẻ Em Sử Dụng Kỹ Thuật Học Máy
nh 2. 11: Cồng vào i t cÿa tanh �㔶 �㕡 ̃ (Trang 40)
Hình 2. 13: KÃt quÁ trÁ vÅ h t - (Luận Văn Thạc Sĩ Công Nghệ Thông Tin) Phân Tích Quan Điểm Trong Lĩnh Vực Thức Ăn Trẻ Em Sử Dụng Kỹ Thuật Học Máy
Hình 2. 13: KÃt quÁ trÁ vÅ h t (Trang 40)
Hình 3. 1: KiÃn trúc há tháng phân tích quan điÇm - (Luận Văn Thạc Sĩ Công Nghệ Thông Tin) Phân Tích Quan Điểm Trong Lĩnh Vực Thức Ăn Trẻ Em Sử Dụng Kỹ Thuật Học Máy
Hình 3. 1: KiÃn trúc há tháng phân tích quan điÇm (Trang 43)
Hình 3. 2: TÁp dā liáu thāc n tr¿ em - (Luận Văn Thạc Sĩ Công Nghệ Thông Tin) Phân Tích Quan Điểm Trong Lĩnh Vực Thức Ăn Trẻ Em Sử Dụng Kỹ Thuật Học Máy
Hình 3. 2: TÁp dā liáu thāc n tr¿ em (Trang 44)
Hình 3. 3: NhÁp dā liáu cÁn gán nhãn - (Luận Văn Thạc Sĩ Công Nghệ Thông Tin) Phân Tích Quan Điểm Trong Lĩnh Vực Thức Ăn Trẻ Em Sử Dụng Kỹ Thuật Học Máy
Hình 3. 3: NhÁp dā liáu cÁn gán nhãn (Trang 46)
Hình 3. 4: Thăc hián gán nhãn dā liáu - (Luận Văn Thạc Sĩ Công Nghệ Thông Tin) Phân Tích Quan Điểm Trong Lĩnh Vực Thức Ăn Trẻ Em Sử Dụng Kỹ Thuật Học Máy
Hình 3. 4: Thăc hián gán nhãn dā liáu (Trang 47)
Hình 3. 5: TÁp dā liáu thāc n tr¿ em sau khi đ°ÿc gán nhãn - (Luận Văn Thạc Sĩ Công Nghệ Thông Tin) Phân Tích Quan Điểm Trong Lĩnh Vực Thức Ăn Trẻ Em Sử Dụng Kỹ Thuật Học Máy
Hình 3. 5: TÁp dā liáu thāc n tr¿ em sau khi đ°ÿc gán nhãn (Trang 47)
Hỡnh 3. 6: Tò lỏ tÁp dā liỏu đó đ°ÿc gỏn nhón - (Luận Văn Thạc Sĩ Công Nghệ Thông Tin) Phân Tích Quan Điểm Trong Lĩnh Vực Thức Ăn Trẻ Em Sử Dụng Kỹ Thuật Học Máy
nh 3. 6: Tò lỏ tÁp dā liỏu đó đ°ÿc gỏn nhón (Trang 48)
Hình 3. 7: Mô hình phân lãp hãc máy truyÅn tháng  2 - (Luận Văn Thạc Sĩ Công Nghệ Thông Tin) Phân Tích Quan Điểm Trong Lĩnh Vực Thức Ăn Trẻ Em Sử Dụng Kỹ Thuật Học Máy
Hình 3. 7: Mô hình phân lãp hãc máy truyÅn tháng 2 (Trang 51)
Hình 4. 1: Táp dā liáu sau khi đ°ÿc tÁi - (Luận Văn Thạc Sĩ Công Nghệ Thông Tin) Phân Tích Quan Điểm Trong Lĩnh Vực Thức Ăn Trẻ Em Sử Dụng Kỹ Thuật Học Máy
Hình 4. 1: Táp dā liáu sau khi đ°ÿc tÁi (Trang 55)
Hỡnh 4. 2: Ch°Âng trỡnh lo¿i bò nhāng nhón lón hÂn 1 và nhò hÂn 5 - (Luận Văn Thạc Sĩ Công Nghệ Thông Tin) Phân Tích Quan Điểm Trong Lĩnh Vực Thức Ăn Trẻ Em Sử Dụng Kỹ Thuật Học Máy
nh 4. 2: Ch°Âng trỡnh lo¿i bò nhāng nhón lón hÂn 1 và nhò hÂn 5 (Trang 56)
Hình 4. 3: KÃt quÁ đánh giá các mô hình sÿ dāng đá đo ACC - (Luận Văn Thạc Sĩ Công Nghệ Thông Tin) Phân Tích Quan Điểm Trong Lĩnh Vực Thức Ăn Trẻ Em Sử Dụng Kỹ Thuật Học Máy
Hình 4. 3: KÃt quÁ đánh giá các mô hình sÿ dāng đá đo ACC (Trang 57)
Hình 4. 4: KÃt quÁ đánh giá đá lãn cÿa dā liáu vãi đá đo ACC - (Luận Văn Thạc Sĩ Công Nghệ Thông Tin) Phân Tích Quan Điểm Trong Lĩnh Vực Thức Ăn Trẻ Em Sử Dụng Kỹ Thuật Học Máy
Hình 4. 4: KÃt quÁ đánh giá đá lãn cÿa dā liáu vãi đá đo ACC (Trang 58)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN