1. Trang chủ
  2. » Luận Văn - Báo Cáo

0014 xây dựng mô hình phân tích cảm xúc người dùng đánh giá sản phẩm bằng phương pháp phân tích từ vựng kết hợp với học máy luận văn tốt nghiệp

84 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 84
Dung lượng 755,68 KB

Cấu trúc

  • 1.1. Tổngquan đềtài (12)
    • 1.1.1. Phátbiểu bài toán (12)
    • 1.1.2. Mụctiêu của đềtài (13)
    • 1.1.3. Môhình tổng quan (18)
  • 1.2. Tổngquantìnhhìnhnghiêncứutrongnướcvàtrênthếgiới (19)
    • 1.2.1. Trongnước (19)
    • 1.2.2. Nướcngoài (20)
  • 1.3. Bốcụcluận văn (22)
  • 2.1. Bộtừ điển cảmxúc SO-CAL tiếng Anh (23)
  • 2.2. Phươngphápphânloạichủ quan (27)
    • 2.2.1. Câu có từ hàmchứa cảmxúc (27)
    • 2.2.2. Cáctrườnghợpngoại lệ (27)
  • 2.3. Phươngphápphânloại cảmxúc (29)
    • 2.3.1. Giátrị cảmxúc của câu phụ thuộc vào từhàmchứacảmxúc (29)
    • 2.3.2. Giátrịcảmxúccủacâuphụthuộcvàotừtăngcường (30)
    • 2.3.3. Giátrị cảmxúc của câu phụ thuộc vào từ phủ định (31)
    • 2.3.4. Giá trị cảmxúc của câu phụ thuộc vào từ khiếmkhuyết (31)
    • 2.3.5. Giátrịcảmxúccủacâucóxuhướngtíchcực (32)
  • 2.4. PhươngphápphânlớpSupportVectorMachine(SVM) (32)
    • 2.4.1. Ýtưởng (33)
    • 2.4.2. Cơsởlý thuyết (35)
  • 3.1. Giớithiệu (38)
  • 3.2. Bộtừ điển cảmxúc SO-CAL tiếng Việt (39)
  • 3.3. Thuthập dữ liệu (44)
  • 3.4. Tiềnxửlýdữliệuvà rúttríchđặctrƣng (48)
  • 3.5. Bộdữ liệu huấn luyện (50)
    • 3.5.1. Gánnhãn câu bằng tay (50)
    • 3.5.2. Môtảbộ dữ liệu huấn luyện (52)
  • 3.6. Phươngphápphânloạichủquan (53)
  • 3.7. Phươngphápphânloạicảmxúc (56)
  • 3.8. Giaodiện hệthốngthực nghiệm (64)
  • 4.1. Bộdữ liệu thử nghiệm (67)
  • 4.2. Kếtquảđánhgiáphươngphápphânloạichủquan (68)
  • 4.3. Kếtquảđánhgiáphươngphápphânloạicảmxúc (68)
  • 4.4. Kếtquảphântíchbìnhluậncủakháchthamquantạitrungtâmkhám phákhoa học (68)
  • 5.1. Kếtquảđạtđƣợc (70)
  • 5.2. Hướngpháttriển.....................................................................................61 DANH MỤC TÀI LIỆU THAM (70)

Nội dung

Tổngquan đềtài

Phátbiểu bài toán

Kể từ năm 2000, cùng với sự lớn mạnh của truyền thông xã hội trênmạng Internet nhƣ diễn đàn, blog và đặc biệt là mạng xã hội (Facebook,Google plus, Twitter, Instagram,…), phân tích cảm xúc (Sentiment Analysis)đã phát triển nhanh chóng và trở thành lĩnh vực nghiên cứu sôi động nhấttrong chuyên ngành xử lý ngôn ngữ tự nhiên Mạng xã hội ngày càng có tầmảnhhưởngkhôngchỉvớidoanhnghiệp màcònvớitoànxãhội. Ý kiến là trung tâm của hầu hết các hoạt động và có ảnh hưởng lớn đếnhành vi của con người Thông thường khi cần phải đưa ra quyết định, chúngtathườngthamkhảoýkiếncủangườikhác.Đốivớicánhân,họthườngthamkhảo người thân, bạn bè hay mọi người xung quanh Mặc khác đối với các tổchức,họ thamkhảo ý kiếncủa các hội đồng, củanhân viên,khách hàng,…

Chẳng hạn, có một cô gái trẻ đang đọc các tin tức trên bảng tin của mộtmạng xã hội nào đó Bất chợt cô ấy thấy một chiếc điện thoại mới đƣợc giớithiệu kèm theo nhiều tính năng hiện đại với mức giá cực kỳ hấp dẫn. Nhƣngngaylậptức,côấyliềnđặtcâuhỏi:“Chiếcđiệnthoạinày cótốtnhƣnhữnggìnhà sản xuất quảng cáo không?” Cô ấy phải vất vả đọc thủ công từng bìnhluận chia sẻ của người dùng Sau đó tổng hợp lại và đƣa ra đánh giá cuốicùng Công việc vô cùng đơn giản với năm hay mười bình luận Nhưng nếusố lượng bình luận lên đến năm mươi, một trăm hay vài trăm thì công việcnày trở nên phức tạp hơn nhiều Liệu rằng cô gái trẻ có nhớ và tổng hợp hếtnhữngbình luậnđómộtcách chính xác trongthời gianngắn hay không?

Một ví dụ khác: Mỗi năm một công ty kinh doanh hàng hóa bỏ ra mộtlượnglớnthờigian,côngsứcvàtiềnbạcđểkhảosátxuhướngthịtrườnghay nói cách khác là họ tìm hiểu xem thị hiếu của người dùng hiện tại là gì? Việckhai thác các hoạt động của người dùng trên mạng xã hội hay cụ thể hơn làcác bình luận,đánh giá củahọsẽgiúp cho côngty thực hiện việck h ả o s á t mộtcáchdễdàngcũngnhƣtiếtkiệmđƣợcnhiềuchiphí.

Mụctiêu của đềtài

Mục tiêu của đề tài là phát hiện những cảm xúc của người dùng thôngqua việc phân tích những bình luận, đánh giá của họ đối với thông tin đƣợcđăng tải hay chia sẻ về các dịch vụ, sản phẩm tại Trung tâm Khám phá khoahọc Để thực hiện đƣợc mục tiêu này, tôi đã chia thành mục tiêu thành 3 mụctiêuthành phần Đólà:

- Xây dựng bộ từđiển cảmxúc.

- Phântích,đánhgiácảmxúccủangườidùngvềsảnphẩm. a) Thu thập thông tin, dữ liệu từ các bình luận, đánh giá về sản phẩm củangườidùng

Chúng ta có thể nhận thấy khối lƣợng dữ liệu trên các trang mạng xãhội là vô cùng lớn Tuy nhiên, không phải tất cả thông tin đó đều có ích vàtheo dạng chuẩn của ngôn ngữ tiếng Việt Do đó, bài toán đặt ra ba vấn đề cầngiảiquyết, đó là:

Hiện nay, có hai phương pháp tiếp cận chính để giải quyết vấn đề tríchxuất cảm xúc tự động Cách đầu tiên dựa vào các từ vựng thông qua việc tínhtoán giá trị ngữ nghĩa (semantic orientation) của các từ hay cụm từ trong tàiliệu.Cáchtiếpcậnthứhaisửdụngmộtphươngphápthốngkêhoặcmáyhọc đểgiảiquyếtvấnđề.[5]

Sau nhiều thời gian nghiên cứu, tôi quyết định sử dụng phương phápdựa vào từ vựng thông qua việc tính toán giá trị ngữ nghĩa của các từ hay cụmtừtrongtàiliệu.Bướcđầutiênđểtínhtoánđượccácgiátrịngữnghĩacầndựatrên một tập hợp các từ và giá trị ngữ nghĩa của chúng hay còn gọi là từ điểncảmxúc.

Theo khảo sát cá nhân, hiện tại chƣa có một bộ từ điển cảm xúc chotiếng Việt nào đƣợc công bố chính thức Việc xây dựng một bộ từ điển cầnđầut ƣ n h i ề u t h ờ i g i a n , k i n h p h í v à n h ấ t l à c ầ n c ó s ự h ợ p t á c c ủ a n h ữ n g chuyên gia về ngôn ngữ học Vì vậy, tôi đã sử dụng bộ từ điển cảm xúc tiếngAnh có tên từ điển SO-CAL [19] (Dictionaries for the Semantic OrientationCALculator) của nhóm tác giả Maite Taboada [4] và dịch bộ từ điển này sangtiếng Việt Từ điển cảm xúc SO-CAL có khoảng 6600 từ chia thành năm từđiểnn h ỏ g ồ m có:t ừ đ i ể n d a n h t ừ , t ừ đ i ể n đ ộ n g t ừ , t ừ đ i ể n t í n h t ừ , từđ i ể n động từ và từ điển từ tăng cường (intensifier) Mỗi từ điển bao gồm một danhsáchcác từ cảmxúc và các giá trị SO kèmtheo. c) Phântích,đánhgiácảmxúc

Sau khi xây dựng xong từ điển cảm xúc, mục tiêu cuối cùng sẽ là phântích đánh giá cảm xúc dựa vào những bình luận đƣợc thu thập trên mạng xãhội.Đểphântíchcảmxúccóhaivấnđềcầngiảiquyếtlàphânloạicâucócảmxúchaykhô ngcócảmxúcvàphânloạicâucócảmxúctíchcựchaytiêucực.

Theo Bing Luu [5], phân tích cảm xúc hiện đƣợc tập trung nghiên cứuchủyếu ở3 mứcđộ:

- Phântíchcảmxúc mức vănbản(document level):

Mục tiêu ở mức độ này là phân loại xem quan điểm tổng thể của vănbản diễn tả một cảm xúc tiêu cực haytích cực Phân tích cảm xúcm ứ c v ă n bảngiảđịnhrằng mỗivăn bảnthểhiệnquan điểmvề một thựcthểduy nhất.

Có nhiều phương pháp đã và đang được nghiên cứu ở mức này nhưphương pháp học máy có giám sát, phương pháp học máy không giám sát(Support Vector Machine, Maximum Entropy, K-Nearest Neighbors, NạveBayes,Centroid Classification), v.v

- Phântích cảmxúcmức câu (sentencelevel): Ở mức độ này sẽ tập trung vào các câu và xác định xem chúng bày tỏmộtq u a n đ i ể m t í c h c ự c , t i ê u c ự c h a y t r u n g t í n h T h e o W i e b e , B r u c e v à O'Hara [6], khi phân loại chủ quan một câu đƣợc chia làm hai loại là câu chủquan (câu có cảm xúc) và câu khách quan (câu không có cảm xúc) Câu kháchquanthểhiệnmộtsốthôngtinthựctếcòncâuchủquanthườngmangđếngócnhìn hay ý kiến cá nhân Trong thực tế, câu chủ quan có thể diễn ta nhiều loạithông tin nhƣkiến, đánh giá, cảm xúc, niềm tin, suy đoán, phán đoán, cáobuộc,… Để đánh giá trạng thái cảm xúc của câu chủ quan, người ta chia nóthành hai loại là câu có cảm xúc tích cực (nhƣ vui, thích, yêu, hƣng phấn, tựtin)vàcâucócảmxúctiêucực(nhƣchán,ghét,hận,tứcgiận,sợhãi).

- Phân tích cảm xúc mức thực thể và khía cạnh của thực thể (Entityand Aspect level):

Cả hai mức độ văn bản và câu đều không phát hiện đƣợc chính xácnhữngquanđiểmcủangườiviết.Mứcthựcthểvàkhíacạnhcủathựcthểthựchiện phân tích sâu và chi tiết hơn Thay vì nhìn vào cấu trúc ngôn ngữ (nhƣvăn bản, đoạn văn, câu văn, mệnh đề hay cụm từ), mức này tập trung trực tiếpvào ý kiến, quan điểm của người viết Nó dựa trêntưởng rằng một ý kiến,quan điểm bao gồm một cảm xúc (tích cực hoặc tiêu cực) và một mục tiêu cụthể Mục tiêu này giúp chúng ta phân tích cảm xúc tốt hơn Trong nhiều ứngdụng, mục tiêu của quan điểm, ý kiến đƣợc mô tả dựa vào các thực thể và cáckhía cạnh của chúng Nhƣ vậy, mục tiêu của mức phân tích này là xác địnhcảmxúc vềcácthực thểvà/hoặc các khía cạnh củacác thực thểđó.

Ví dụ: “Thời lượng pin và chất lượng cuộc gọi của Iphone rất tốtnhưngkhả năng bắt sóng Wificủa nó kém.”

Ví dụ trên đƣa rakiến về ba khía cạnh là thời lƣợng pin, chất lƣợngcuộcgọivàkhảnăngbắtsóngWificủathựcthểIphone.Khíacạnhthờilƣợngpin và chất lƣợng cuộc gọi nhận đƣợc cảm xúc tích cực còn khía cạnh bắtsóng Wifi nhận đƣợc cảm xúc tiêu cực Căn cứ vào các thông tin đƣợc thuthập từ mức độ này, một bản tổng hợp ý kiến, quan điểm về các thực thể vàkhía cạnh của thực thể sẽ đƣợc xây dựng phục vụ cho việc biến văn bản phicấutrúcthànhdữliệucócấutrúc.Saunày,cóthểdùngcácdữliệunàyđ ểtiếnhànhcácphân tíchđịnhtính địnhlƣợng.

Nếu mức văn bản và mức câu đã là những thử thách khó thì mức thựcthể và khía cạnh thậm chí còn khó hơn Đòi hỏi nhiều thời gian điều tra, khảosát và tổng hợp để xây dựng đƣợc tập các thực thể và khía cạnh của chúng.Đồng thời mức thực thể và khía cạnh đƣa ra các bài toán đòi hỏi năng lực xửlý ngôn ngữ tự nhiên sâu và chi tiết hơn Do thời gian và chi phí có hạn củamột luận văn thạc sỹ, tôi quyết định chỉ dừng lại ở phân tích cảm xúc mức câuvàsẽdànhmức thựcthểvà khía cạnhcho những nghiên cứusau này.

Cảm xúc của con người rất phức tạp Phân tích cảm xúc mức văn bảnchứa nhiều quan điểm về nhiều đối tƣợng thì quá thô đối với hầu hết các ứngdụng Phân tích cảm xúc mức câu đơn giản hơn, thường chỉ chứa một quanđiểmduynhất Ởmức này, có hai vấn đề cần giải quyết:

• Vấn đề đầu tiên là phân loại xem câu có chứa cảm xúc hay không chứacảmxúc(thườngđượcgọilàphânloạichủquan).

Khó khăn ở vấn đề này: Một câu khi được viết hay nói thường sẽ có mộtmục đích nói nhất định: trần thuật (dùng để miêu tả, kể hay giới thiệu về mộtsự vật, sự việc), nghi vấn(dùng để hỏi), cầu khiến (dùng để đề nghị, yêu cầu),cảmthán(dùngđểbộclộcảmxúc),…Hoànthànhphânloạimụcđíchnóisẽ giúpphân loại chủ quan dễdàng vàchính xác hơn.

(3) NếuIphonecóthiếtkếxấuthìmọingườisẽkhôngmuanó. Ở ba vídụ trên,có thể dễdàng nhận thấycâu (1)mangcảm xúc( t í c h cực) về thiết kế của Iphone Câu (2) và (3) không mang cảm xúc Câu (2) đặtra câu hỏi nghi ngờ về chất lƣợng của Iphone còn câu (3) đặt ra một giả địnhchƣachắc cóthực.

• Vấn đề thứh a i l à p h â n l o ạ i n h ữ n g c â u c h ứ a c ả m x ú c l à t í c h c ự c h a y tiêucực(thườngđượcgọilàphânloạicảmxúc).

Môhình tổng quan

Hình 1-1Mô hìnhtổng quanhệthốngphân tíchcảmxúcdựavào bìnhluận cùangườidùng

Mô hình tổng quan củahệthốngphân tíchcảmxúc gồmba phần:

- Hệthống phân tích cảmxúc:Gồmcó bốn hoạt động chính

- Đầu ra: Tập bình luận tiếng Việt sau khi đƣợc hệ thống phân tích cảmxúc đã đƣợc phân thành 3 loại: Không có cảm xúc, có cảm xúc tích cựcvà có cảmxúc tiêu cực. Đầu tiên dữ liệu đầu vào sẽ là tập các bình luận tiếng Việt “thô” trênmạngxãhội.Đánhgiácácbìnhluậnnày“thô”bởivìtrướckhicóthểsửdụngđược, chúng ta cần phải giải quyết nhiều vấn đề nhƣ xử lý lỗi tiếng Việt códấu, xử lý biểu tƣợng cảm xúc, xử lý “stop words”,… gọi chung là tiền xử lý.Saukhitiềnxửlýxongthuđƣợctậpbìnhluậnđãđƣợcchuẩnhoá,hệthống bắt đầu rút trích các đặc trƣng của từng câu dựa vào từ điển cảm xúc và cácyếutốảnhhưởngđếncảmxúctrongcâu.Từcácđặctrưngthuđượctiếnhànhphân loại chủ quan và phân loại cảm xúc tập bình luận đểc u ố i c ù n g x u ấ t r a tập các câu bình luận đƣợc phân thành ba loại: không có cảm xúc, có cảm xúctíchcực và có cảmxúc tiêu cực.

Tổngquantìnhhìnhnghiêncứutrongnướcvàtrênthếgiới

Trongnước

Theo khảo sát cá nhân, trong nước hiện nay có rất ít đề tài nghiên cứuvềchủđềđánhgiácảmxúcngườidùng.Dướiđâylàmộtsốđềtàinổibật:

- Nhóm tác giả Lê Hồng Phương xây dựng công cụ “vnTokenizer” [20]dùng để tách từ trong văn bản Tiếng Việt Công cụ này là sự kết hợpgiữa từ điển Tiếng Việt và giải thuật ngram cho kết quả với độ chínhxáccao khoảng 96% đến 98%.

- Công cụ “vnTagger” [21] dùng để phân loại từ Tiếng Việt Xây dựngtrên phương pháp gán nhãn từ loại tiếng Việt với độ chính xác caokhoảng96%.

- Sentiment classification using Enhanced Contextual Valence Shifters[3] Nhóm tác giả Võ Ngọc Phú và Phan Thị Tươitrình bàymộtphương pháp phân loại cảm xúc tiếng Việt dựa vào giá trị cảm xúc vàngữ cảnh của văn bản Nhóm đã xây dựng bộ từ điển cảm xúc TiếngViệt và liệt kê các ngữ cảnh ảnh hưởng đến giá trị cảm xúc của các từvà câu văn trong văn bản Trong hầu hết các ngữc ả n h , n h ó m t á c g i ả đều đưa ra phương pháp giải quyết cụ thể góp phần nâng cao độ chínhxáccủa quá trình tính toán giá trịcảmxúc trong văn bản tiếngViệt.

- Tómt ắ t ý k i ế n t r ê n c ơ s ở p h â n l o ạ i c ả m x ú c [ 1 6 ] T á c g i ả N g u y ễ n NgọcDuyđãxâydựngmôhìnhtómtắtcácýkiếntrêncơsởphânloại cảm xúc từ ý kiến của bạn đọc trên các trang báo mạng và của ngườidùngt r ê n c á c t r a n g m ạ n g x ã h ộ i t i ế n g V i ệ t K h o n g ữ l i ệ u c ủ a n h ó m gồm 220 ý kiến từ hai chủ đề là xã hội và kinh doanh, mô hình của tácgiảđã đạt những kết quảtích cực.

Nướcngoài

Bài toán phát hiện, trích xuất và phân tích thông tin trên mạng xã hộiđƣợc quan tâm bởi rất nhiều nhà khoa học và nghiên cứu sinh trên toàn thếgiới Đề tài liên quan đến việc phân tích thông tin, cảm xúc từ mạng xã hội đãđược nghiên cứu nhiều năm ở nhiều nước với nhiều ngôn ngữ khác nhau,trong đó phổ biến nhất vẫn là dữ liệu bằng tiếng Anh Việc tìm hiểu, thamkhảov àđ á n h g i á thànhc ô n g c ũ n g nhƣ hạ nc h ế c ủ a nhữngn g h i ê n c ứ u n ày trênthếgiới cung cấp cái nhìn tổng quan vềđềtài.

Dưới đây là một số bài báo liên quan đến đề tài mà tôi đã tìm hiểu vàthamkhảo: a) ASentimentalEducation:SentimentAnalysisUsingSubjectiveSummarizat ionBased on Minimum Cuts[7]

Phân tích tâm lý, tình cảm là phương pháp tìm cách xác định nhữngquan điểm nằm bên dưới một chuỗi ký tự Để xác định được tình cảm này,nhómtác g i ả đ ể x u ấ t m ộ t p h ƣ ơ n g p h á p h ọ c m á y m à á p d ụ n g c á c k ỹ t h u ậ t phân loại văn bản để chỉ ra các phần chủ quan của tài liệu Phương pháp nàytạo thuận lợi lớn cho việc phân tích dữ liệu sử dụng câu trong từng ngữ cảnhcụthể, xác định. b) Large-ScaleSentimentAnalysisforNewsandBlogs [8]

Các cơ quan truyền thông: báo, công ty truyền thông, truyền hình v.v… thể hiện ý kiến của họ về những sự vật, hiện tƣợng của mình thông qua nhữngbài viết Tác giả trình bày một hệ thống gán điểm cho thấy quan điểm tích cựchaytiêucựcchotừngđốitƣợngriêngbiệttrongngữliệuvănbản.Hệthống đƣợc xây dựng bao gồm một giai đoạn xác định tâm lý cộng với việc bày tỏ ýkiến với từng đối tƣợng có liên quan, và một tập hợp những tâm lý đƣợc ghilại cụ thể qua từng giai đoạn, trong đó điểm số mỗi thực thể liên quan đếnnhững người dùng khác nhau trong cùng một chủ đề đƣợc đề cập Cuối cùng,nhómtácgiảđánhgiátầmquantrọngcủakỹthuậtnàylênmộtbộngữliệ ulớncáctintứcvàbàiviếtđƣợccôngkhaitrênInternet. c) SentimentAnalysis:A CombinedApproach[9]

Phân tích tâm lý, cảm xúc là một lĩnh vực nghiên cứu quan trọng và cóýnghĩaứngdụng.Tácgiảsử dụngphươngpháphọcmáy cógiámsát đểphânloại cảm xúc Phương pháp này được thử nghiệm trên đánh giá phim, đánhgiá sản phẩm và ý kiến của người dùng trên “MySpace” Kết quả cho thấyphươngphápnàycóthểnângcaohiệuquảphânloại. d) SentimentAnalysis:Adjectives and Adverbs are betterthanAdjectivesAlone [10]

Hầu hết các nghiên cứu trước đây về việc phân tích cảm xúc chủ yếuđƣợcxácđịnhquacáctừloại:tínhtừ,độngtừvàdanhtừ.Tácgiảđểxu ấtmột kỹt h u ậ t p h â n t í c h t â m l ý A A C ( s ử d ụ n g k ế t h ợ p t r ạ n g t ừ , t í n h t ừ ) d ự a trênv i ệ c s ử d ụ n g m ộ t p h â n t í c h n g ô n n g ữ c ủ a p h ó t ừ c h ỉ m ứ c đ ộ T á c g i ả định nghĩa một tập hợp các tiên đề chung (dựa trên phân loại phó từ chỉ mứcđộ thành 5 loại) Thay vì tính tổng điểm của cả hai trạng từ và tính từ, tác giảđềxuấtmộtphươngphápphânloạingônngữcủatrạngtừ. e) TwitterSentimentAnalysis[11]

Những dòng trạng thái của người dùng Twitter được gọi là tweet.Những tweets đôi khi bày tỏ ý kiến về các chủ đề khác nhau Mục đích của dựán là xây dựng một thuật toán mà có thể phân loại chính xác các thông điệpTwitter là tích cực hay tiêu cực, đối với một thuật ngữ truy vấn mới Giả thiếtcủatácgiảlàdựavàocáckỹthuậthọcmáyđểxâydựngthuậttoáncóđƣợc độc h í n h x á c c a o t r o n g v i ệ c p h â n l o ạ i c ả m x ú c t r o n g c á c t i n n h ắ n T w i t t e r Việc phân tích cảm xúc rất có ích cho doanh nghiệp để nghiên cứu một sảnphẩmhoặcdịchvụ,hoặclấyýkiếnđánhgiácủadƣluậncủacôngtyhọ. f) TwitterSentiment Analysis:The GoodtheBadand theOMG![12]

Tác giả thực hiện một điều tra các tiện ích của tính năng ngôn ngữ đểphát hiện cảm xúc của các thông điệp trên mạng xã hội Twitter Sau đó,họđánh giá tính hữu ích của các nguồn tài nguyên từ vựng hiện tại cũng nhƣ cáctính năng mà nắm bắt thông tin về các ngôn ngữ chính thức và sáng tạo trongsử dụng microblogging.Tác giả có một cách tiếp cận khác là tập trung vàonhững“hashtags” trongcácdữliệuTwitterđểxây dựngdữliệuhuấnluyện.

Bốcụcluận văn

Luậnvăngồmcó05chươngvàcóbốcụcnhưsau:Chương1:Tổngqu anvềđềtài

Chương 2: Trình bày cơ sở lý thuyết.Chương3:Xâydựnghệthốngthửnghiệ m.Chương4:Trìnhbàykếtquảthửnghiệm.

Trong chương này tôi sẽ trình bày cơ sở lý thuyết mà tôi đã áp dụng đểxây dựng hệ thống thực nghiệm nhằm phân tích cảm xúc dựa vào nguồn dữliệutrênmạngxãhội.Đồngthời,hướngđimàtôilựachọnkhitiếpcậnvấnđề đó là chia bài toán lớn thành 02 bài toán thành phần Bài toán thứ nhất làphân biệt câu có (hoặc không có) hàm ý cảm xúc Bài toán thứ hai là từ nhữngcâu có cảm xúc đó làm thế nào để nhận biết câu có hàm ý cảm xúc gì (hàmchứa cảm xúc tích cực hay hàm chứa cảm xúc tiêu cực)? Do đó, tôi sẽ trìnhbàyvề04vấnđềđƣợcápdụngđểgiảiquyếtbàitoántrên.Baogồm:

Bộtừ điển cảmxúc SO-CAL tiếng Anh

BộtừđiểnSO-CAL[19]baogồm5bộtừđiểnnhỏlà:từđiểndanhtừ,từđiển động từ, từ điển tính từ, từ điển trạng từ và từ điển từ tăng cường(intensifier).Sốlượngtừcủacácbộtừđiểndanhtừ,độngtừ,tínhtừvàtrạngtừlầnlượtlà 1142từ,903từ,2252từ,745từvàkèmtheomỗitừlàmộtsốnguyênthể hiện giá trị SO tương ứng trong phạm vi từ -5 cho hết sức tiêu cực đến +5cho hết sức tích cực và không có từ nào có giá trị

SO là 0 Các từ trong bộ từđiểnnàyđƣợclấytừnhiềunguồnkhácnhauvà3nguồnlớnnhấtlà:

- Epinions 1: bộ sưu tập gồm 400 văn bản về 8 chủ đề khác nhau: sách,xe hơi, máy vi tính, đồ nấu nướng, khách sạn, phim ảnh, âm nhạc vàđiệnthoại,vàđƣợcchiađềumộtnửatiêucựcvàmộtnửatíchcực[22].

- Một tập hợp con 100 văn bản chứa 2000 bình luận phim trong tập dữliệuPolarity(Pang,Lee,andVaithyanathan2002;PangandLee2004,

- Từ tích cực và tiêu cực từ từ điển General Inquirer (Stone et al. 1966;Stone 1997).

Từ điển từ tăng cường gồm hơn 200 từ được chia làm thành 2 loại lànhững từ làm tăng mức độ ngữ nghĩa (amplifiers) và những từ làm giảm mứcđộngữ nghĩa(downtoners).

Very rất +0.25 extraordinarily cực kỳ +0.5

Ví dụ: Từ “sleazy” (nhếch nhác) có giá trị SO là -3 thì “pretty sleazy”(khá nhếch nhác) có giá trị SO là -3*(1 – 0,1) = -2.7 Từ “excellent” (xuấtsắc) có giá trị SO là 5 thì “most excellent” (xuất sắc nhất) có giá trị SO là5*(1+1).

- Switchnegation (từ phủđịnh chuyển đổi)

 Các từ Switch negation nhƣ not (không), never (không bao giờ),nobody (không ai),… chỉ đơn giản là đảo ngƣợc cực của một từhay dễhiểu hơn là đổidấu giá trị SO củatừ.

 Ví dụ: “Tốt”cógiátrịSOlà +3thì“khôngtốt”có giátrịSOlà

- Shiftnegation(từ phủđịnh thay đổi)

 Nếu sử dụng Switch negation thì “xuất sắc” sẽ có giá trị SO là 5,“không xuất sắc” sẽ có giá trị SO là -5 Tương tự “không tốt” sẽcó giá trị SO là -3 Trên thực tế, thì “không xuất sắc” sẽ có cảmxúc tích cực hơn “không tốt” Để tránh trường hợp đó, Shiftnegation sẽ thay đổi giá trị SO của từ phủ định cho phù hợp vớithựctế.

 Ví dụ: Cruise là không tốt (giá trị cảm xúc: 4 - 4 = 0), nhưng tôiphảithừanhậnôngkhôngphảixấutính(giátrịcảmxúc:-3+4

 Epinions1:Bộ sƣ u tậpgồm 400v ă n bảnđánhgiá v ề sách,xe h ơi, máy tính, nấuăn, kháchsạn,phim, âmnhạc vàđiệnthoại.

 Epinions2:Bộsưutậpmớitừ400vănbảnởtrangwebepinions.comt ƣơngtựnhƣEpinions1.

 TừđiểnMaryland(Mohammad,Dorr,vàDunne2009)làmộtbộsưutậ prấtlớnkhoảng70000từvàcụmtừ.

 TừđiểnSentiWordNet (EsuliandSebastiani2006;Baccia nella,Esuli,and Sebastiani 2010).

C A L đầy đủ (SO-CAL-Full). o Từ điển SO-CAL cơ bản bao gồm 4 bộ từ điển cơ bản là từđiểndanh từ, động từ, tính từ và trạng từ. o Từ điển SO-CAL đầy đủ bao gồm cả 4 bộ từ điển cơ bảncộng thêm từ điển Intensifier, từ điển từ phủ định và cáctínhnăngđặcbiệtcủaSO-CALnhƣIrrealisBlocking(ngăn chặn phi thực tế), negative weighting (tăng 50% giátrị SO của từ tiêu cực), repetition weighting (sự xuất hiệnlần thứ n của một từ trong văn bản có giá trị SO là (giá trịSOcủa từ đó) / n).

- Sosánhhiệusuấtcủacác bộtừđiển khácnhau vớitừđiểnSO-CAL

Phươngphápphânloạichủ quan

Câu có từ hàmchứa cảmxúc

Hiện nay trên thế giới cũng như trong nước, việc phân loại chủ quanchủ yếu dựa vào phương pháp so khớp với bộ từ điển cảm xúc Do đó, tôi lựachọnphươngphápsokhớptừvớibộtừđiểncảmxúcSO-CAL.

- “Ngôi nhà màu xanh”là một câu khách quan vì nó không có từ hàmchứa cảmxúc trong đó.

- “Ngôi nhà đẹp”là một câu chủ quan vì nó có từ hàm chứa cảm xúc làtừ“đẹp”. Đây là phương pháp cơ bản và đơn giản nhất để phân loại một câu làchủ quan hay khách quan Theo đó, việc lựa chọn những đặc trƣng tốt nhất đểđánhgiácâuchủquanlàviệctôicầnnghiêncứuđểcóđượckếtquảtốiưu.

Cáctrườnghợpngoại lệ

Phương pháp phân loại câu dựa vào từ hàm chứa cảm xúc là phươngpháp chủ đạo để phân loại câu chủ quan Tuy nhiên, mức độ chính xác chưacao bởi vì có những trường hợp ngoại lệ là những trường hợp câu có từ hàmchứa cảm xúc nhƣng không thể hiện cảm xúc Cụ thể, đó là câu nghi vấn vàcâuđiều kiện.

- Đặc trưng cơ bản của câu nghi vấn là thường có những từ “gì”,

“nhƣthế nào”, “thế nào”, “vì sao”, “tại sao”, “là sao” Những câu này dù cótừhàmchứacảmxúcnhƣngnóvẫnlàcâukhôngcócảmxúc.

 “Tại sao bạn lại mặc bộ đồ thiếu tinh tế đến vậy?”là một câunghi vấn và không có xảm xúc Mặc dù trong câu có từ hàm chứacảm xúc “tinh tế” nhƣng thực tế câu này không hề có cảm xúc.Đóchỉlàmộtnghivấnmàngườinóiyêucầungườinghetrảlời.

- Đặc trưng của câu điều kiện là thường có những từ: “nếu…thì…”,

“giánhư… thì …”,… Ở cả hai trường hợp thì câu đều không chứa cảm xúcmặcdù chúng chứa từ cảmxúc.

 “Nếu ngày mai trời mưa thì tôi sẽ rất buồn.” Trong câu có từ“rất buồn” có giá trị SO là (-2)*(1+0.2) = (-2.4) nhƣng câu trênchưachắcdiễnratrongthựctếmàchỉlàsuyđoáncủangườinói.Cóthển gàymaitrờimưanhưngngườinóichưachắcchắnbuồn.Nêncâusẽkhôngcó cảmxúc.

 “Giá như con học giỏi thì mẹ sẽ cho con đi chơi.” Trong câu cótừ “giỏi” có giá trị SO là (+3) nhƣng sự việc trên đã không diễnra.Vìvậycâu trên sẽ không có cảmxúc.

Ngoài những trường hợp bên trên, tôi nhận thấy một câu có chứa cảmxúc nếu đó là một câu dài Thông thường, những câu ngắn chỉ là những danhtừ (người, vật, địa điểm,…), động từ hoặc trạng từ và các câu này thườngkhông hàm chứa cảm xúc Khi người nói đã có ý thể hiện một câu dài thì hầuhết sẽ đặt yếu tố cảm xúc trong đó Tuy nhiên, việc đánh giá một câu nhƣ thếnào là đủ dài và mang yếu tố cảm xúc thì cần thời gian thực nghiệm hơn và cócác nghiên cứu riêng về vấn đề này Trong phạm vi luận văn, tôi lựa chọn giátrị5 đơn vị từ đểlàmmốcchomộtcâu dài và ngắn.

Phươngphápphânloại cảmxúc

Giátrị cảmxúc của câu phụ thuộc vào từhàmchứacảmxúc

Từ hàm chứa cảm xúc (sentimentw o r d ) l à t h à n h p h ầ n c ó ả n h h ƣ ở n g lớn nhất đến giá trị cảm xúc của câu Hiểu đơn giản, từ hàm chứa cảm xúc làtừ chứa cảm xúc và thường được sử dụng để thể hiện cảm xúc tiêu cực hoặctích cực Chẳng hạn các từ “tốt”, “tuyệt vời”, “đẹp” là những từ chứa cảm xúctích cực và “xấu xí”, “kinh khủng”, “tệ hại” là những từ chứa cảm xúc tiêucực. Ngoài những từ riêng lẻ, còn có cụm từ chứa cảm xúc nhƣ “không thể tinđƣợc”, “nhƣ một giấc mơ”,… Một danh sách các từ và cụm từ nhƣ vậy đƣợcgọilà từ điển cảmxúc.

Cách đơn giản nhất để tính giá trị cảm xúc của một câu là tính tổng giátrị cảmxúc của các từ hàmchứacảmxúc trong câu đó.

- “Anhấ y t h ô n g m i n h v à đ ẹ p t r a i ”.T ừ “ t h ô n g m i n h ” c ó g i á t r ị S O l à (+4) và “đẹp trai” có giá trị SO là (+4) nên tổng giá trị SO của câu là(+8).

- “Chiếc áo này hợp thời trang” Câu trên chỉ có một cụm từ mang cảmxúclà“hợpthờitrang”nêntổnggiátrịSOcủacâucũngbằnggiá trịSOcủa từ nàylà (+2).

Mặcdùtừđiểncảmxúclàthànhphầnquantrọngtrongquátrìnhtínhtoángiá trị cảm xúc của câu nhƣng chỉ sử dụng nó thôi là chƣa đủ Cảm xúc conngườirấtphứctạp.Cónhiềutrườnghợpmàchỉsửdụngtừđiểncảmxúckhông thểđánhgiáchínhxácgiátrịcảmxúctrongcâu.Mộtsốtrườnghợpcụthể:

- Từmanggiátrịcảmxúcchịuảnhhưởngcủatừtăngcường.Vídụnhư,“đẹp”, “hơi đẹp”, “rất đẹp” và “đẹp nhất” nếu chỉ dựa vào từ điển cảmxúc thì những từ, cụm từ trên sẽ có giá trị SO nhƣ nhau Nhƣng trênthực tế lại không nhƣ vậy Tất cả chúng đều mang cảm xúc tích cựcnhƣng đƣợc xếp theo giá trị cảm xúc tăng dần lần lƣợt là “hơi đẹp”,“đẹp”,“rất đẹp”,“đẹp nhất”.

- Dễ nhầm lẫn giữa tích cực và tiêu cực Một số từ có khả năng làm đổicực của từ hay cụm từ cảm xúc nhƣ “không”, “không đƣợc”,

“khôngphải”, “không bao giờ”,… Ví dụ: từ “tốt” mang cảm xúc tích cực thì“khôngtốt”mangcảmxúc tiêu cực. Đểgiảiquyếtnhữngvấnđềnêutrêncầnđisâuphântíchtiếptụccácđặcđiểmkháccủ acâu.Mỗiđặcđiểmsẽdầndầngiảiquyếttừngvấnđềcụthể.

Giátrịcảmxúccủacâuphụthuộcvàotừtăngcường

Từtăngcường(intensifier)đượcchiathànhhailoạilàlàmtăngmứcđộngữ nghĩa (amplifiers) và làm giảm mức độ ngữ nghĩa (downtoners) [5] Năm2006, một số nhà nghiên cứu xử lý ngôn ngữ tự nhiên (Kennedy và Inkpen;Polanyi và Zaenen) đã sử dụng từ tăng cường để đơn giản sự tăng và giảm giátrị cảm xúc Trong SO-CAL cũng bổ sung từ điển từ tăng cường Những từchịuảnhhưởngbởicáctừtăngcườngsẽcógiátrịcảmxúcthayđổituỳthuộcvàogiátrịt ănghay giảmmứcđộngữnghĩacủatừtăngcườngđó.

- Từ“mệt mỏi”mang giá trị SO (-3) Nhưng nếu phía trước nó có từtăng cường“hơi”(-0.5) thì giá trị SO của“hơi mệt mỏi”là: (-3)*(1-0.5)= (- 1.5).

- Từ“đẹp”manggiá trịSO là(+4) thì“rấtđẹp”cógiá trịSO là:

- Từ“giỏi”mang giátrị SOlà (+3)thì“giỏinhất”cógiá trịSO là:

Giátrị cảmxúc của câu phụ thuộc vào từ phủ định

Tươngtựnhưviệctăngcườnggiátrịcảmxúckhitừhàmchứacảmxúcchịu ảnh hưởng của từ nằm trong từ điển từ tăng cường thì việc từ cảm xúcchịu ảnh hưởng của những từ phủ định cũng làm thay đổi giá trị cảm xúc củatừ hàm chứa cảm xúc đó Lúc nói hoặc viết, chúng ta thường dùng các từ phủđịnh bao gồm: “không”, “không đƣợc”, “không phải”,… để thể hiện một mứcđộcảmxúc đốinghịch so vớitừ hàmchứa cảmxúc theo sautừ phủ định đó.

Do đó, đối với các từ cảm xúc mà đằng trước có từ phủ định thì giá trịcảm xúc từ đó sẽ đƣợc đảo ngƣợc cực hay dễ hiểu hơn là đổi dấu giá trị cảmxúccủa từ.

- Từ“tốt”cógiá trịSO là(+3) thì“không tốt”có giátrị SOlà (-3).

- Từ“bịa đặt”có giá trị SO là (-2) thì“không bịa đặt”có giá trị SO là(+2).

Giá trị cảmxúc của câu phụ thuộc vào từ khiếmkhuyết

Nhữngt ừ k h i ế m k h u y ế t b a o g ồ m : “ n ê n ” , “ p h ả i ” v à “ c ó t h ể ” N h ữ n g câu có chứa từ khiếm khuyết thường thể hiện mức độ cảm xúc giảm nhẹ hơnsovớinhữngcâutươngtựnhưngkhôngchứatừkhiếmkhuyết.

Rõ ràng ta có thể dễ dàng nhận thấy câu:“Bạn có thể làm tốt”thì đốitƣợng đƣợc nói đến ở đây thực sự chƣa làm tốt nhất khả năng của mình, và ýnghĩa cảm xúc sẽ giảm hơn so với câu:“Bạn làm tốt” Dó đó, việc lựa chọnmột mức độ giảm nhẹ cảm xúc trong câu có từ khiếm khuyết là thực tế cầnquan tâm, tuy nhiên giá trị giảm nhẹ đó là bao nhiêu là thích hợp thì cần thờigian để khảo sát và nghiên cứu thêm Trong đề tài này, giá trị giảm nhẹ mà tôilựachọnlà50%.Theođó,nhữngcâucóchứatừkhiếmkhuyếtthìgiátrịcảm xúc của câu giảm 50% so với giá trị cảm xúc của tất cả các từ mang ý nghĩacảmxúc trong câu.

Dưới đây là một số ví dụ cụ thể về việc tính toán giá trị cảm xúc trongcâu có từ khiếmkhuyết:

- Câu“Bạn có thể làm tốt hơn.” Cụm từ “tốt hơn” có giá trị SO là (+2)nhƣng trong câu có từ khiếm khuyết “có thể” nên giá trị SO của

- Câu“Chúng ta phải thật mạnh mẽ.” Cụm từ “thật mạnh mẽ” có giá trịSO là (+2)*(1 + 0.3) = (+2.6) nhƣng trong câu có từ khiếm khuyết“phải”nên giá trịSO của “thậtmạnhmẽ”sẽcòn (+1.3).

Giátrịcảmxúccủacâucóxuhướngtíchcực

Phân loại cảm xúc dựa vào từ điển cảm xúc thường cho thấy một xuhướng tích cực (Kennedy and Inkpen, 2006) [14] Trên thực tế thì con ngườicó xu hướng sử dụng từ ngữ tích cực nhiều hơn Để cân bằng giữa tích cực vàtiêu cực có rất nhiều cách Trong đó, việc tăng giá trị cảm xúc của từ manghàm ý tiêu cực đƣợc cho là có hiệu quả hơn cả Tôi đã thử nghiệm nhiều mứcđộ gia tăng giá trị cảm xúc của từ mang hàm ý tiêu cực và kết quả trả về khităng50% giá trị cảmxúc của từ tiêu cực là tốt nhất.

Ví dụ:Câu “Hôm nay giá vàng tăng và giá đô la giảm” Từ “giảm” cógiátrịSOlà(-2)sẽđƣợctăng50%giátrịthành(-2)*(1+0.5)=(-3).

Vì vậy, trong phạm vi đề tài tôi lựa chọn phương pháp tăng 50% giá trịcảmxúccủatừtiêucựcđểxâydựngtrongchươngtrìnhthửnghiệm.

PhươngphápphânlớpSupportVectorMachine(SVM)

Ýtưởng

Ýtuởngchínhcủathuạttoánnàylàchotruớcmọttạphuấnluyẹnđuợcbiểu diễn trong không gian vector trong đó mỗi tài liẹ u là mọ t điểm, phu ongphápnàytìmramọtmạtphẳnghquyếtđịnhtốtnhấtcóthểchiacácđiểmtrênkhônggiann àythànhhailớpriêngbiẹttuongứnglớp+vàlớp-.Chấtluợngcủasiêumạtphẳngnà yđuợcquyếtđịnhbởi khoảngcách(gọilàbiên)của điểm dữ liẹ u gần nhất của mỗi lớp đến mạ t phẳng này Khoảng cách biêncàng lớn thì mạ t phẳng quyết định càng tốt đồng thời viẹ c phân loại càngchính xác Mục đích thuạ t toán SVM tìm ra đu ợc khoảng cách biên lớn nhấtđể tạo kết quảphân lớp tốt.

Hình 2-1 Siêu phẳng h phân chia dữ liẹu huấn luyẹn thành 2 lớp “+” và

Các điểm gần h nhất là các Support Vector Xem dữ liệu đầu vào nhƣhai tập vector n chiều, một SVM sẽ xây dựng một mặt phẳng riêng biệt trongkhông gian đó sao cho nó tối đa hóa biên lề giữa hai tập dữ liệu. Đểt í n h l ề , hai siêu phẳng song song đƣợc xâydựng, mỗi cáin ằ m ở 1 p h í a c ủ a s i ê u phẳngphânbiệtvàchúngđƣợcđẩyvềphíahaitậpdữliệu.

Sau quá trình huấn luyẹ n nếu hiẹ u suất tổng quát hoá của bọphânlớpcao thì thuạ t toán huấn luyẹ n đu ợc đánh giá là tốt Hiẹ u suất tổng quáthoáphụthuọcvàohaithamsốlàsai số huấn luyẹnhayvànanglựccủamáyhọc.Trongđósaisốhuấnluyẹnlàtỷlẹl ỗ i phânlớptr êntạpdữliẹuhuấnluyẹn.Cònn a n g l ự c c ủ a m á y h ọ c đ u ợ c x á c đ ị n h b ằ n g k í c h t h u ớ c Vapnik- Chervonenkis (kích thu ớc VC) Kích thu ớc VC là mọ t khái niẹ mquan trọng đối với mọ t họ hàm phân tách (hay là tạ p phân lớp) Đại lu ợngnày đu ợc xác định bằng số điểm cực đại mà họ hàm có thể phân tách hoàntoàntrongkhông i i i gianđốituvợng.Mọttạpphânlớptốtlàtạpphânlớpcónanglựcthấpnhất(cónghĩa là đovn giản nhất) và đảmbảosaisố huấn luyẹn nhỏ.

Cơsởlý thuyết

Trongđómẫulàcácvectorđốituvợngđuvợcphânlớpthànhcácmẫu duvovng vàmẫuâm nhuvtrong hình 3.1:

Thựcchấtphuvovngphápnàylàmọtbàitoántốiuvu,mụctiêulàtìmramọ t không gian H và siêu mạ t phẳng quyết định h trên H sao cho sai số phânlớp làthấp nhất.

Trongtruvờnghợpnày,tạpphânlớpSVMlàmạtsiêuphẳngphântáchcácmẫ u duvovng khỏi cácmẫuâmvớiđọchênhlẹch cực đại, trong đó đọchênhlẹch– còngọilàLề(margin)xácđịnhbằngkhoảngcáchgiữacácmẫuduvovngvàcác mẫ uâ mg ần m ạ tsiêup hẳ ng nhất(hình 1) Mạ tsiêuphẳng n ày đuvợcgọi làmạtsiêu phẳng lề tối uvu.

Cácmạtsiêu phẳng trong không gian đối tuvợng có phuvovng trình là:

C  w i x i  0 i1 làbọh ẹ s ố s i ê u phẳnghaylàvector trọngsố,Clàđọdịch,khithayđổiwvàCthìhuvớngvàkhoảngcáchtừgốctoạ

Tạp phân lớpSVMđuvợcđịnh nghĩa nhuvsau: f  x  sin  C  n ii  

 i1  sin  z  1nế u z0. Nếu f  x  1 thìxthuọcvềlớpduvovng(lĩnhvựcđuvợcquantâm),và nguvợc lại,nếu f  x  1 t h ì xthuọcvềlớpâm(cáclĩnhvựckhác). a) Bàitoán phânhailớp SVM

Bàito án đạ tr a l à xác đị nh hà m phânl ớp để ph ân l ớ p cá cm ẫu tr on g tươnglai,nghĩalàvớimọtmẫudữliẹumới x i phân vào lớp +1 hay lớp-1. thìcầnphảixácđịnh x i đƣợc Để xác định hàm phân lớp dựa trên phương pháp SVM, ta sẽ tiến hànhtìm hai siêu phẳng song song sao cho khoảng cách y giữa chúng là lớn nhất cóthể để phân tích hai lớp này ra làm hai phía Hàm phân tách tương ứng vớiphương trình siêu phẳng nằm giữa hai siêu phẳng tìm đƣợc Việc phân táchnày đƣợcgọi làphântách tuyếntính.

Cácđiểmnàysẽquyết địnhđến hàmphântách dữliệu. i i i b) Bàitoánphânnhiều lớpvớiSVM

Việc phân nhiều lớp với SVM thì cũng giống nhƣ quá trình chia khônggian thành 2 phần và quá trình này đƣợc lặp lại nhiều lần Khi đó hàm quyếtđịnhphân lớp dữ liệu vàolớp thứ i của tập n2-lớp sẽlà: f  x  wTxb

Trong đó fi  x  1 n ế u thuộclớpi, fi  x  1 nếuthuộccáclớpcònlại.

Như vạ^y, bài toán phân nhiều lớp sử dụng phương pháp SVM hoàntoàn có thể thực hiẹ^n giống nhƣ bài toán hai lớp Bằng cách sử dụng chiếnlƣợc"mọ^tđốimọ^t”(one-against-one).Giảsửbàitoáncầnphânloạicók lớp(k2 ) , chiếnlƣợc"mọ^tđốimọ^t”sẽtiếnhành k  k  1 

2 lầnphânlớpnhị phânsửdụngphươngphápSVM.Mỗilớpsẽtiếnhànhphântáchvới k-1lớpcòn lại để xác định k - 1 hàm phân tách dựa vào bài toán phân hai lớp bằngphươngpháp SVM.

Facebook Fan Pages Dữ liệu thô

Giớithiệu

Dựavàonhữngnghiêncứulýthuyếtvàthựctếngườidùngmạngxã hội thực tại ở Việt Nam Tôi xây dựng một hệ thống thực nghiệm phân tích,đánh giá cảm xúc dựa vào bình luận trên mạng xã hội Facebook Cụ thể, dướiđây là mô hình hệthốngthực nghiệmmà tôi đãxâydựng:

- Thut h ậ p d ữ l i ệ u : t h u t h ậ p d ữ l i ệ u l à n h ữ n g c â u b ì n h l u ậ n t i ế n g V i ệ t trên mạng xã hộiFacebook.

- Phân loại chủ quan (subjectivity classification): dựa vào đặc trƣng đãđƣợc phân tích, đánh giá bình luận là chủ quan (có cảm xúc) hay kháchquan(không có cảmxúc).

- Phânloạicảmxúc(sentimentclassification):saukhiđánhgiábìnhluậnlàcó cảm xúc, dựa vào đặc trƣng đƣợc phân tích bên trên, đánh giá bìnhluậnđólàhàmchứacảmxúctíchcựchayhàmchứacảmxúctiêucực.

Bộtừ điển cảmxúc SO-CAL tiếng Việt

Để dịch bộ từ điển SO-CAL tiếng Anh tôi đã sử dụng kết hợp hai bộ từđiểnViettien Dictionary [18]và Google Translate.

- Viettien Dictionary đƣợc Nguyễn Việt Khoa – Viện ngoại ngữ, Đại họcBách khoa Hà Nội công bố bản đầu tiên v1.0 vào tháng 8/2010 và bảncậpn h ậ t m ớ i n h ấ t t í n h đ ế n t h á n g 3/2015 l à p h i ê n b ả n v 4 0 b c ô n g b ố vào tháng 7/2014 trên nền tảng Mac OS cũng chính là phiên bản mà tôisử dụng Tính đến thời điểm 7/2014, bộ từ điển Anh-Việt của Viettienđãcóhơn390,000từ.CơsởdữliệucủaViettienđƣợcbổsun g,biêntậpvàchỉnhsửa từnhiềunguồn nhƣ:

- Google Translate: Dịch vụ này đã hỗ trợ hầu hết ngôn ngữ trên thế giớitrong đó có tiếng Việt Chất lƣợng dịch ban đầu của Google Translatekhông được tốt Nhưng do được trang bị tính năng tương tác giúp mọingười có thế thay đổi nghĩa của từ cho phù hợp nhất nên chất lượng đãngàyc à n g c ả i t h i ệ n T ố c đ ộ d ị c h c ủ a G o o g l e l à r ấ t t ố t s o v ớ i c á c d ị c h vụ trực tuyến tương tự khác dành cho người Việt và nhất là ở khả năngdịchvăn bản dài.

Tôi dựa vào hai từ điển Anh-Việt trên để dịch bộ từ điển SO-CAL tiếngAnh sang tiếng Việt Quá trình dịch từ điển đƣợc thực hiện tuần tự từ đầu đếncuối mỗi từ điển trong bộ từ điển SO-CAL. Những trường hợp xảy ra trongquá trìnhdịch:

- Một từ tiếng anh chỉ có một nghĩa tiếng Việt: Tôi sẽ thêm nghĩa tiếngViệtvà giátrị cảmxúccủa từnàyvào từđiển SO-CALtiếng Việt.

Ví dụ:Cụm từ “mega-star” (+3) đƣợc dịch sang tiếng Việt thành“siêu sao” (+3) Cụm từ “queen-sized” (+3) đƣợc dịch sang tiếng Việtthành“cỡlớn” (+3).

- Một từ tiếng Anh có nhiều nghĩa tiếng Việt: Tôi sẽ chọn nghĩa tiếngViệt thường được sử dụng và ngắn gọn dễ hiểu nhất để thêm vào từđiểnS O -

C A L t i ế n g V i ệ t N ế u t r o n g c á c n g h ĩ a c ò n l ạ i c ó n g h ĩ a n g ắ n gọn và đồng nghĩa với nghĩa được chọn trước đó thì tôi cũng thêmnghĩa đó vào từ điển SO-CAL tiếng Việt Các nghĩa được chọn thườngcó độ dài ngắn từ một đến ba từ và sau khi được thêm vào bộ từ điểncảm xúc SO-CAL tiếng Việt thì chúng sẽ giữ nguyên giá trị cảm xúccủatừtiếngAnhđƣợcdịchtrongbộtừđiểnSO-CALtiếngAnh.

“xuất chúng” (+5) và “vƣợt trội” (+5).Từ “glorious” đƣợc dịch sangtiếngViệt thành “vẻvang” (+5) và “vinh quanh” (+5).

- Một từ hay cụm từ tiếng Anh không có trong từ điển Anh-Việt hoặcđƣợc ghép từ nhiều từ dẫn tới có nghĩa tiếng Việt quá dài: Khi có mộttừ tiếng Anh nào không có trong cả hai bộ từ điển Anh-Việt ở trên thìtôisẽ b ỏ q u a t ừ t i ế n g A n h đ ó C ò n k h i g ặ p m ộ t t ừ h a y c ụ m từt i ế n g Anh đƣợc ghép bởi nhiều từ dẫn tới có nghĩa tiếng Việt quá dài, tôi sẽcố gắng rút ngắn nghĩa của chúng xuống ngắn nhất có thể Nếu khôngđƣợctôisẽbỏtừhaycụmtừđó đi.

Ví dụ: Từ“ritz-carlton”khôngcótrongcảhaitừđiểnAnh- Việtởtrênnêntôibỏquacụmtừnày.Từ“all-too-rare”đƣợcdịchthành“tấtcả quá hiếm” quá dài nên tôi bỏ qua cụm từ này.Từ “well-fitting” (+4)đƣợcdịchsangtiếngViệtthành“vừavặn”(+4).

- Từ hay cụm từ tiếng Việt đƣợc thêm đã có trong bộ từ điển SO- CALtiếngViệt:KhicótừhaycụmtừtiếngViệtđƣợcthêmđãcótrongbộtừđiểnS O-CAL tiếng Việt thìtôi sẽbỏ từ đó.

Ví dụ:Từ “perfect” có nghĩa là “hoàn hảo” nhưng trước nó có từ“impeccable” được dịch là “hoàn hảo” trước rồi Nên cụm từ “hoànhảo” của từ “perfect” không đƣợc thêm vào từ điển SO-CAL tiếng Việtnữa.

- Ngoài ra để phù hợp với ngữ pháp tiếng Việt và cách viết ngắn gọn củacácbìnhluậntrênmạngxãhội,tôibổsungthêmmộtsốtừvàcụmtừc ó số từ ít hơn nhƣng vẫn đồng nghĩa với các từ hay cụm từ trong từđiểnSO-CAL tiếng Việt.

Ví dụ:Tôi thấy từ “may” có số từ ít hơn nhƣng vẫn đồng nghĩavới từ “may mắn” (+2) nên tôi thêm từ “may” (+2) vào từ điểnSO-CALtiếng Việt.

Sau khi dịch xong bộ từ điển SO-CAL tiếng Anh sang tiếng Việt, tôi đãthu đƣợc bộ từ điển SO-CAL tiếng Việt bao gồm 5 bộ từ điển nhỏ: Từ điểndanh từ (1544 từ), từ điển động từ (1105 từ), từ điển tính từ (2357 từ), từ điểntrạngtừ(749từ)vàtừđiểntừtăngcường(intensifier)(185từ).

Dưới đây là một số từ trong các từ điển trong bộ từ điển SO-CAL tiếngViệtmà tôi xâydựng.

Bảng3-1mộtsố từtrong bộ từđiểndanh từ

Danhtừ Giá trị cảmxúc hoàn hảo 5 lộng lẫy 4 chiến thắng 3 phướclành 2 độc lập 1 tội phạm -1 điểmyếu -2 taiương -3 thảmhọa -4 kỳquái -5

- Mộtsố từtrong bộtừ điểnđộng từ.

Bảng3-2 Mộtsố từtrong bộ từđiểnđộngtừ Độngtừ Giá trị cảmxúc tôn kính 4 hoanhỉ 4 thành công 3 sángtạo 2 tăng 1 vùi dập -1 xấu hổ -2 nguyền rủa -3 ghét -4 ghê tởm -5

- Mộtsố từtrong bộtừ điểntính từ.

Bảng3-3 Mộtsố từtrong bộ từđiển tínhtừ

Tính từ Giá trị cảmxúc tuyệt vời 5 caocấp 4 bổ ích 3 chặt chẽ 2 hợp lý 1 cũ -1 đần độn -2 bẩn -3 tai hại -4 thảmkhốc -5

Bảng3-4 Mộtsố từtrong bộ từđiển trạngtừ

Trạngtừ Giá trị cảmxúc thúvị 5 huyhoàng 4 giỏi 3 tươi 2 sạch 1 kỳquặc -1 thô -2 kémcỏi -3 tàn bạo -4 khiếp -5

Từtăngcường Giá trịcảmxúc ít -1.5 chút ít -0.9 hơi -0.5 khá -0.2 chắc 0.2 siêu 0.4 hoàn toàn 0.5 nhất 1

Thuthập dữ liệu

Mạng xã hội mà tôi tiếp cận để thu thập dữ liệu là Facebook Hiện nay,Facebook là mạng xã hội phổ biến nhất ở Việt Nam Do đó nguồn dữ liệu ởđây vô cùng phong phú Để giúp các nhà phát triển dễ dàng khai thác và xâydụng các chương trình liên quan đến nguồn dữ liệu này, Facebook cung cấpmộtcông cụ hỗ trợcó tên là Graph API.

Graph API là cách cơ bản để lấy ra và đƣa dữ liệu vào social graph củaFacebook Đó là một API HTTP-based cấp thấp sử dụng để truy vấn dữ liệu,cập nhật trạng thái, tải lên các bức ảnh và nhiều hành động liên quan khác.Graph API có nhiều phiên bản Tôi sử dụng phiên bản Graph API v2.2 – làphiênbảnmớinhấttínhtừtháng3/2015trởvềtrước.GraphAPIđượcđặttêndựatheoý tưởng“socialgraph”.ThôngtintrongFacebookgồm3phần:

 Cácnode– đầumút(nhữngthứcơbảnnhưlàngườidùng,hìnhảnh,trang,bình luận).

 Cácedge– cạnh(nhữngmốiliênkếtgiữacácthứcơbảnởtrênvídụnhƣcáchìnhảnh củatrang,hoặcmộthìnhảnhcủacácbìnhluận)

 Các field (thông tin về các node như ngày sinh của người dùng, tên củamộttrang).

Graph API dựa trên HTTP do đó nó hoạt động với các ngôn ngữ có thƣviện HTTP nhƣ là cURL, url lib Để truy cập vào API này, chúng ta sẽ tạo racác HTTP GET request để truy cập tới các đầu mút hoặc các cạnh của đầumút Ngoại trừ việc tải lên video sử dụng graph.video.facebook.com còn lạicácrequest đều sử dụng graph.facebook.com

Trước khi sử dụng Graph API, ta cần lấy quyền truy cập (get accesstoken).ĐơngiảnnhấtlàtruycậpvàoGraphAPIExplorertrêntranghttps:// developers.facebook.comđể lấy quyền truy cập Cách này giúp nhanhchóng lấy đƣợc quyền truy cập nhƣng có một nhƣợc điểm là chỉ tồn tại trongthờigiannhấtđịnhnêntôiđãchọncáchphứctạphơnlàtạomộtứngdụ ngtrên tranghttps://developers.facebook.com Sau đóxin quyền truyc ậ p c ủ a ứng dụng này Tuy cách này tốn thời gian và công sức hơn nhƣng đổi lại sẽlấy đƣợcmộtquyềntruy cập(accesstoken)tĩnh.

Sau khi lấy đƣợc quyền truy cập, ta có thể đọc đƣợc tất cả các node vàedge trong Graph API bằng các câu lệnh HTTP request với endpoint thíchhợp.

Vídụdướiđây làquátrìnhtôilấy dữliệutừtrangtrang VnExpress.net.Tôi muốn lấy tất cả tin tức kèm ngày tháng, người like, các bình luận, củatrangVnExpress.net

 Đầu tiên tôi sử dụng graph

API:https://graph.facebook.com/congdongvnexpress/posts? access_tokeny2661064152453|lsO-FOihVUkXtL9eUVPlom3XbMQ

 Côngviệckếtiếplàsửdụngmộtngônngữlậptrìnhđểlấynhữngdữliệu cần thiết từ file json này.

Dữ liệu thử nghiệm tôi lựa chọn là những bình luận tiếng Việt từ cáctrang(fanpage)trênmạngxãhộiFacebooknhƣVnExpress.net,CGVCinemas Vietnam, Mann up,

Các bài viết sẽ chứa rất nhiều thông tin: nội dung bài viết, số lƣợt thích,tác giả, thời gian, các bình luận, tên người viết bình luận, Nhưng hệ thốngchỉ cần lựa chọn mã bài viết (ID post) để từ đó lấy đƣợc nội dung các bìnhluậncủa những bài viết đó.

Hình 3-4 Những bình luận của trang VnExpress.net trênmạngxã hộiFacebook

Từ những bài viết nhƣ thế này, tôi xử lý dữ liệu lấy về để trích xuấtnhữngbìnhluậnvàlấy đó làdữliệucơbản nhấtchohệthốngthựcnghiệm.

Tiềnxửlýdữliệuvà rúttríchđặctrƣng

Trong quá trình thực hiện đề tài, tôi nhận thấy có 02 vấn đề dẫn tới lỗitrong chương trình, đó là việc gán nhãn trong câu văn có biểu tượng cảm xúcvà một lỗi khác liên quan đếnlỗi tiếng Việt có dấu.

Hình 3-6Vídụ dữliệudạngmãUNICODETH ĐâylàdữliệudạngmãUNICODETH.Dođó,trướctiêntôitiếnhànhchuyển mã củatất cảdữ liệu vềdạngmã UNICODE.

TôisửdụngthƣviệnmãnguồnmởvnTagger[19]đểgánnhãntừloạitiếngV iệt cho dữ liệu.

Ví dụ: Đốivớimộtbìnhluậnnhƣsau:“Bạnthậttuyệt.Tôithíchbạn.

Kết quả của quá trình tiền xử lý là một tập tin có cấu trúc html mô tả sựgánnhãntừloại.Tôigọitậptinnàylàtậptintagger,tứclàtậptinđãđƣợcgá n nhãn Từ tập tin này, chương trình tiếp tục quá trình rút trích các đặctrưngcủatừngcâuvănđểphântíchtrongcácbướctiếptheo.

Sau khi thực hiện việc gán nhãn từ loại cho câu, công việc kế tiếp cầnthực hiện đó là từ dữ liệu hiện tại chương trình cần rút trích đặc trưng chotừng câu theo danh sách đặc trưng được lựa chọn trước đó Danh sách đặctrƣng đƣợc tôi trình bày trong phần kế tiếp Ở đây, tôi sẽ chỉ trình bày kết quảcủaquátrìnhrúttríchđặctrƣngnàyđốivớivídụbêntrên. Đốivớicâuđầutiênlà“Bạnthậttuyệt”,kếtquảrútđặctrƣngđốivới quá trình phân tích chủ quan là:

Bộdữ liệu huấn luyện

Gánnhãn câu bằng tay

Để xây dựng bộ dữ liệu huấn luyện Tôi tiến hành gán nhãn cho câu.Đây là quá trình mang tính chủ quan của từng cá nhân Cảm xúc của conngười rất phức tạp Phân tích cảm xúc mức văn bản chứa nhiều quan điểm vềnhiều đối tƣợng thì quá thô đối với hầu hết các ứng dụng Phân tích cảm xúcmức câu đơn giản hơn, thường chỉ chứa một quan điểm duy nhất Ở mức này,cóhai vấn đềcầngiải quyết:

 Vấn đề đầu tiên là phân loại xem câu có chứa cảm xúc haykhôngchứacảmxúc (thườngđượcgọi làphânloạichủ quan)

Khó khăn ở vấn đề này: Một câu khi được viết hay nói thường có mộtmục đích nói nhất định: trần thuật (dùng để miêu tả, kể hay giới thiệu về mộtsự vật, sự việc), nghi vấn (dùng để hỏi), cầu khiến (dùng để đề nghị, yêu cầu),cảm thán (dùng để bộc lộ cảm xúc),… Hoàn thành phân loại mục đích nói sẽgiúpphân loại chủ quan dễdàng vàchính xác hơn.

Quá trình gán nhãn câu chủ quan và câu khách quan: Dựa theo địnhnghĩa câu chủ quan, câu khách quan ở mục phân tích cảm xúc mức câu củachương tổng quan đề tài và phương pháp phân loại chủ quan của chương cơsở lý thuyết, tôi thực hiện gán nhãn câu chủ quan và câu khách quan bằng tay.Câu không chứa từ hàm chứa cảm xúc và chỉ miêu tả một số thông tin thực tếlà câu khách quan Câu hỏi hay câu điều kiện dù chứa từ hàm chứa cảm xúcvẫn là câu khách quan. Câu chứa từ hàm chứa cảm xúc và không phải câu hỏihay câu cầu khiến là câu chủ quan Câu chủ quan thường mang tới góc nhìnhay ýkiến cánhâncủa ngườiviết.

(3) NếuIphonecó thiếtkếxấu thìmọi ngườisẽkhông muanó. Ởbavídụtrên,cóthểdễdàngnhậnthấycâu(1)mangcảmxúc(tíchcực)vềthiếtkếcủaI phone.Câu(2)và(3)khôngmangcảmxúc.Câu(2)đặtracâuhỏinghingờvềchấtlƣợngcủaI phonecòncâu(3)đặtramộtgiảđịnhchƣachắccóthực.Nêncâu(1)làcâuchủquanvàcâu(2), (3)làcâukháchquan.

 Vấn đề thứ hai là phân loại những câu chứa cảm xúc là tíchcựchay tiêu cực(thườngđượcgọilà phânloại cảmxúc)

Nếu câu chỉ có những từ thông thường không mang cảm xúc và nhữngtừ mang cảm xúc tích cực hay tiêu cực thôi thì vấn đề này sẽ đƣợc giải quyếtdễ dàng Nhƣng trong thực tế, câu còn có thêm những từ phủ định (negation),từ làm tăng mức độ ngữ nghĩa (amplifiers), từ làm giảm mức độ ngữ nghĩa(downtoners), động từ khiếm khuyết,… Làm sao đánh giá ảnh hưởng của cáctừ này đến cảm xúc trong câu đồng thời kết hợp chúng với các từ cảm xúc đểđƣa ra kết luận chính xác nhất là câu mang cảm xúc tiêu cực hay tích cực làkhókhăn gặp phải ởvấn đềnày.

Quátrì nh g á n nh ãn c â u c hứ a c ả m x ú c t í c h c ự c v à c â u c hứ a c ả m xú ctiêucực:Cáccâu trongnhữngbìnhluậntrênmạngxã hộithườngngắngọnvàchứa một quan điểm duy nhất Nếu câu chỉ chứa một quan điểm, ý kiến duynhất thì tôi xác định xem quan điểm hayý kiến đó là tích cực hayt i ê u c ự c Sau đó, gán nhãn câu chứa quan điểm tích cực là câu tích cực và câu chứaquanđiểmtiêucựclàcâutiêucực.Ngoài racòncómộtsố câuchứa nh iềuhơn một quan điểm hay ý kiến Tôi sẽ dựa vào phương pháp phân loại cảmxúc ở chương cơ sở lý thuyết sau đó xét đến tất cả các yếu tố ảnh hưởng đếnmức độ cảm xúc tích cực và tiêu cực Cuối cùng, tổng hợp lại để đánh giátrong câu quan điểm tích cực hay quan điểm tiêu cực có mức độ cảm xúc lớnhơn.Từ đó gán nhãn câu dựa vào quan điểmcómứcđộ cảmxúc lớn hơn.

(6) Trong hoàn cảnh khó khăn, anh ấy vẫn cố gắng vượt qua và gặt háinhiềuthành công.

Câu (4) mang cảm xúc tích cực Chỉ cần thêm một từ phủ định

“không”vào trước từ “hay” ở câu (4), câu (5) đã mang cảm xúc tiêu cực Câu (6) quanđiểm tích cực “cố gắng vượt qua” và

“gặt hái nhiều thành công” có mức độcảm xúc lớn hơn quan điểm tiêu cực “hoàn cảnh khó khăn” nên câu (6) là câumangcảmxúc tích cực.

Môtảbộ dữ liệu huấn luyện

Tôi quyết định lựa chọn 3 bộ dữ liệu ở 3 chủ đề: giáo dục, phim ảnh vàthểthao[PhụlụcII].Mỗibộdữliệubaogồmtừhơn250cho350bìnhluậnvề cácchủđềtrên.Sauđó,từ03bộdữliệutrêntôigộptấtcảcácchủđềlạiđể xây dựng một bộ dữ liệu huấn luyện lớn hơn gồm 885 câu Đây là bộ dữliệutổng hợp. Đầu tiên tôi thực hiện phân loại chủ quan bằng tay với các bộ dữ liệutrên.Kếtquảphânloạichủquanbằngtayđƣợcthểhiệntrongbảngsau:

Sau khi phân loại chủ quan, tôi lựa chọn những câu chủ quan (có cảmxúc) để tiếp tục phân loại cảm xúc Kết quả phân loại đƣợc trình bày theobảngsau:

Phươngphápphânloạichủquan

Từ tập tin tagger và từ điển SO-CAL tiếng Việt, tôi tiến hành rút tríchcác đặc trƣng dựa vào những cơ sở lý thuyết đã đƣợc trình bày ở mục 2.3.Theo đó, để đánh giá một câu có hay không có cảm xúc tôi lựa chọn nhữngđặctrƣng sau:

- Đặc trưng số 1: số lƣợng từ trong câu Số lƣợng từ trong câu cũng thểhiện cảm xúc mà người nói, người viết muốn biểu lộ với người nghe,ngườiđọc.Nếusốlượngtừlớnthôngthườngđósẽlàmộtcâucócảm xúcvìngườinói,ngườiviếtđãđầutưmộtcôngsứcđángkểvàrõrànglà họ quan tâm đến chủ đề đang đƣợc nhắc đến Ngƣợc lại, nếu sốlượngtừquáítthìcóthểđólàmộtdanhtừchỉngười,chỉvật,v.v

- Đặc trưng số 2, 3, 4 và 5: tổng giá trị cảm xúc của các từ loại: tính từ,trạng từ, danh từ và động từ trong câu Giá trị cảm xúc trong câu phụthuộc vào loại từ và giá trị cảm xúc của loại từ đó đƣợc so khớp với bộtừđiểnSO-

CAL tiếng Việt.Tôinhận thấy,giátrị cảm xúctrongcâuchủ yếu phụ thuộc vào các loại từ sau: trạng từ, tính từ, danh từ và độngtừ Theo đó, ứng với tổng giá trị cảm xúc của mỗi loại từ tôi chọn thànhmộtđặc trƣng.

 Tổng giá trị cảm xúc của trạng từ trong câu Sau khi đƣợc gánnhãn, những thẻ trạng từ đƣợc duyệt và so khớp với từ điển trạngtừtrongbộtừđiểnSO-

CALtiếngViệt.Nếugiốngnhauthìgiátrị này đƣợc cộng dồn vào tổng giá trị cảm xúc trạng từ Nếutrong câu không có trạng từ hoặc không khớp với từ điển, giá trịnày mặc định bằng 0.

 Hoàn toàn tương tự đối với tính từ, danh từ và động từ. Nhữngthẻ loại từ này trùng khớp với từ điển tương ứng trong bộ từ điểnSO-CAL tiếng Việt.Nếu không có giá trị nào trùng khớp hoặccâukhông chứa những loại từ này,giá trịmặc định sẽlà 0.

- Đặc trưng số 6: tổng giá trị cảm xúc của câu Đặc trƣng này thể hiệntổngg iá tr ị c ả m xúcc ủ a c â u G i á trịc ủa đ ặ c t r ƣ n g n à y v ề c ơ bả nlàtổng của 04 đặc trưng phía trên mà tôi xây dựng Mặc dù chúng có liênquan với nhau và tưởng chừng giá trị này dƣ thừa, nhƣng thực tế việctính tổng này là hết sức cần thiết vì nếu tổng những giá trị phía trênbằng 0 thì việc đánh giá chủ quan còn chƣa chắc chắn là đúng đắn.Ngoàir a , g i á t r ị c ả m x ú c t r o n g m ộ t c â u k h ô n g c h ỉ p h ụ t h u ộ c v à o t ừ

Input:tập tin taggervàbộ từđiểnSO-CAL tiếngViệt.

Output:tập tincócấutrúcvector,vớimỗidònglà01vectorđặctrƣng.

Các thao tác áp dụng:

Vớimỗi câutrong bộdữ liệu,rút tríchcácgiátrị

2) Tổnggiá trị cảmxúccủa cáctính từ.

3) Tổnggiá trị cảmxúccủa cáctrạng từ.

Nếu câu thuộc câu nghi vấn hoặc câu điều hiện thì trả về 0Ngượclại,trảvềtổngcủacác đặctrưngsố 2,3,4 và 5.

Trảvềvectorđặctrƣng hàmchứacảmxúc,mộtcâuchủquancònphụthuộcvàoloạicâucủanó nữa Nếu là một câu nghi vấn hoặc một câu cầu khiến thì câu đóhoàn toàn khôngc ó g i á t r ị c ả m x ú c D o đ ó , t ổ n g g i á t r ị c ả m x ú c c ủ a câu còn có thể bằng 0 nếu nhƣ câu đó thuộc một trong hai loại câu bêntrên. Kháiquátphươngphápphânloạichủquan:

Từt ậ p t i n k ế t q u ả c ủ a q u á t r ì n h r ú t t r í c h đ ặ c t r ƣ n g b ê n t r ê n T ô i s ử dụng phương pháp phân lớp SVM được trình bày ở mục 2.5 với bộ dữ liệuhuấn luyện được trình bày ở mục 3.6 để tiến hành phân lớp Chương trình sẽtiếnhà nh p h â n l ớ p c h o t ừn gv e c t o r b ằ n g p h ƣ ơ n g p há p h ọ c m á y S V M

K ế t quả trả về của quá trình này là kết quả phân lớp cho câu văn vào 02 lớp: chủquan(subjectivity)và khách quan (objective). Ởđây,tôichỉsửdụngnhữngthôngsốcơbảncủaphươngphápSVMđểphâ n lớp.

Câu“Cô ấy vừa đẹp mà vừa học giỏi nữa.”sẽ đƣợc rút trích đặc trƣngvà trả về các giá trị nhƣ sau:“1:9.0 2:7.0 3:0.0 4:0.0 5:0.0 6:7.0” Các giá trịnày cóý nghĩanhƣ sau:

- Đặc trƣng số 2, 3, 4 và 5 lần lƣợt là tổng giá trị cảm xúc của các loạitính từ, trạng từ, danh từ và động từ trong câu Tổng giá trị cảm xúc củacác tính từ trong câu là 7.0, bao gồm: “đẹp” mang giá trị (+4) và

“giỏi”(+3).T ổ n g g i á t r ị c ả m x ú c c á c l o ạ i t ừ : t r ạ n g t ừ , d a n h t ừ v à đ ộ n g t ừ trongcâu nàybằng 0vì câu khôngcó trạng từ, danhtừ và động từ.

- Đặc trƣng số 6 là tổng giá trị cảm xúc của tất cả các loại từ ở các đặctrƣng2,3,4và5.Giátrịnàylà7.0baogồm:tínhtừ(+7.0),trạngtừ

(0), danh từ(0) và động từ (0).

Từ những đặc trƣng trên, câu“Cô ấy vừa đẹp mà vừa học giỏi nữa.”làmột câu chủ quancó hàmchứa cảm xúc.

Câu“Nếu học tốt hơn thì tôi sẽ đăng ký kỳ thi tới.”sau khi đƣợc rúttrích đặc trƣng sẽ có kết quả nhƣ sau: “1:10.0 2:3.0 3:0.0 4:0.0 5:0.0 6:0.0”.Mặc dù câu trên có giá trị cảm xúc của tính từ là (+3) nhƣng tổng giá trị cảmxúc lại là (0) vì đây là một câu điều kiện Do đó, đây là một câu khách quankhông hàmchứacảmxúc.

Phươngphápphânloạicảmxúc

Sau khi phân loại những câu chủ quan có hàm chứa cảm xúc. Chươngtrìnhsẽtiếp tục việc phân loạicảmxúc cho những câu này.

Từ những câu chủ quan có hàm chứa cảm xúc, tôit i ế n h à n h g á n n h ã n từloạimộtlầnnữachonhữngcâunàyđểthànhmộttậptintaggermới. Sauđó từ tập tin taggerm ớ i b ê n t r ê n v à b ộ t ừ đ i ể n S O - C A L t i ế n g V i ệ t đ ể p h â n loạicảmxúc.Việcphânloạicảmxúccủamộtcâuthựctếlàviệclựachọnbộ đặctrƣngtốtđểđạtđƣợcđộchínhxáccao.Bộđặctrƣngsauđâytôilựachọnđƣợckếthừat ừphươngphápphântíchcảmxúcởtiếngAnhđượctrìnhbàyởmục 2.4 đồng thời có sự phát triển và chỉnh sửa cho phù hợp với đặc trƣngngônngữ tiếng Việt.

Giá trị cảmxúccủa câu phụ thuộc vào từhàmchứa cảmxúc:

- Đầu tiên, những đặc trưng cơ bản nhất là sự kế thừa từ phương phápphântíchchủ quan Bao gồm:

 Giátrịcảmxúccủacácloạitừtrongcâu:tínhtừ,trạngtừ,danhtừvà động từ.

 Tổnggiá trịcảmxúccủa tấtcảcácloại từ bêntrên.

- Đặc trưng tiếp theo là giá trị cảm xúc trong câu chịu ảnh hưởng của từtăng cường Hệ thống sẽ duyệt tìm những từ trong câu trùng khớp vớitừđiểntừtăngcường.Sauđó,nhữngtừliềnkềtrướcvàliềnkềsaucủatừ tăng cường đó được duyệt theo những bộ từ điển: từ điển tính từ, từđiển trạng từ, từ điển danh từ và từ điển động từ Nếu những từ nàytrùng khớp với từ thuộc bộ từ điển bên trên thì giá trị cảm xúc của nóđƣợctínhtheo côngthức:

Giátrị cảmxúc =giá trị từtăng cường* giátrị cảmxúccủa từ

- Tổng những giá trị này sẽ là giá trị cảm xúc mới của câu sau khi xét từtăngcường.Trongtrườnghợpkhôngcótừtăngcườngtrongcâu,giátrịnày chính là giá trị của tổng giá trị cảm xúc của tất cả các loại từ trongcâu.

Giátrị cảmxúccủa câuphụ thuộc vàotừphủ định:

- Tương tự như đặc trưng về từ tăng cường trong câu Hệ thống cũng sẽduyệttìmnhữngtừnằmtrongdanhsáchtừphủđịnh(baogồm:“không”,“ k h ô n g c ó ” , “ k h ô n g p h ả i ” , “ k h ô n g đ ƣ ợ c ” , “ c h ẳ n g ” , “ c h ẳ n g có” và “chẳng phải”) sau đó xét các từ liền kề sau của những từ phủđịnh nàyxem chúng có xuất hiệntrong từ điển cảm xúck h ô n g ?

Giátrịcảm xúc=(-1)*giá trịcảm xúc củatừ

- Trong trường hợp câu không có từ phủ định thì giá trị này chính là giátrịcủa tổng giá trịcảmxúc của cácloại từ trong câu.

- Trong trường hợp này, hệ thống chỉ duyệt xem trong câu có chứa từkhiếmkhuyết h a y k h ô n g N ế u c ó t h ì g i á t r ị c ả m xúct r o n g c â u đ ƣ ợ c tínhtheo công thức:

Giátrị cảmxúccủa câu =(0.5)*tổng giátrị cảm xúccácloại từtrong câu

- Trong thực tế và văn hóa Việt Nam Việc sử dụng từ ngữ nói giảm, nóitránh để thể hiện cảm xúc là hết sức phổ biến Người dùng thườngtránh nói ra những từ ngữ tiêu cực, do đó dẫn đến việc những từ ngữtiêu cực thường ít gặp hơn so với từ tích cực Đặc trưng này đƣợc xâydựng từ lý do trên Theo đó, những từ ngữ hàm chứa cảm xúc tiêu cực(manggiátrịcảmxúcâm)sẽđƣợc tínhtheocôngthức:

Giátrị cảmxúc =(1 +0.5)*giá trịcảmxúccủa từ

- Trongtrườnghợpcâukhôngcótừhàmchứacảmxúctiêucựcthìgiátrịnà ychínhlàgiá trị củatổng giá trị cảmxúc của cácloại từ trong câu.

Ngoài những đặc trƣng cơ bản bên trên, tôi còn xây dựng thêm một đặctrưng khác dựa vào đặc điểm sử dụng ngôn ngữ của người dùng mạng xã hộitạiViệtNam.Đólàđặctrƣngvềcâucótừliênkếtmangýnghĩatráingƣợc

Input:tập tin taggervà bộtừ điểnSO-CALtiếng Việt.

Output:tập tincócấutrúcvector,vớimỗidònglà01vectorđặctrƣng.

Các thao tác áp dụng:

Vớimỗi câutrong bộdữ liệu,rút tríchcácgiátrị

1) Tổnggiá trị cảmxúccủa cáctính từ.

2) Tổnggiá trị cảmxúccủa cáctrạng từ.

10) Giátrị cảmxúc phụthuộc vàotừphủ địnhthay đổi.

(baogồm:“nhƣng”,“nhƣngmà”,“mà”và“cơmà”). Đối với những câu có chứa những từ liên kết mang ý nghĩa trái ngƣợcđƣợc nêu bên trên thìgiá trịcảm xúcc ủ a c â u k h ô n g p h ả i l à g i á t r ị c ủ a t ổ n g giá trị cảm xúc các loại từ trong câu mà chỉ là giá trị cảm xúc của về phía sautừ liên kết đó Do đó, tôi đánh giá giá trị cảm xúc của loại câu này bằng cáchbỏđiphầngiátrịcảmxúccủavếphíatrướctừliênkết.

Sauđó,tươngtựnhưphươngphápphânloạichủquan.Hệthốngdựa vào đặc trưng được rút trích sẽ sử dụng phương pháp học máy với bộ dữ liệuhuấn luyện bên trên để phân lớp cho từng câu: lớp tích cực (positive) và lớptiêucực(negative).Kếtquảcuốicùngnhậnđƣợcđólàdữliệuđƣợcphânloạithành02 loại: tích cực và tiêu cực.

Dướiđâylàvídụtổngquátvềquátrìnhphânloạicảmxúccho mộtcâubìnhluận.Đểcóthểphânloạicảmxúc,trướcđóphảiphânloạichủquanxem câu văn có hàm chứa cảm xúc hay không Do đó, ở ví dụ này tôi trình bày cả02 phần phân loại chủ quan và phân loại cảm xúc để có cái nhìn tổng quannhấtvềtoànbộquátrìnhthựcthicủachương trình.

Phân tích cảm xúc đối với bình luận:“Chúc mừng em một nhân tàitrong tương lai Hãy cố gắng học tốt nhất, để trở thành nhân tài cho đất nướcViệtNamnhé.”.Saukhitiềnxửlývàgánnhãndữliệutrảvềnhƣsau:

Sau khitiền xửlý,hệthốngtiếnhành rúttríchđặc trung.Dữliệu trảvề làđặctrƣngcủatừngcâutrongbìnhluậntrênnhƣsau. Đốivớicâu:“Chúcmừngem mộtnhântài trongtươnglai.”.

 Đặctrƣngsố1(đặctrƣngvềsốtừtrongcâu)cógiátrịlà6.0vìcâucó6 từ.

 Cácđặctrƣngsố2,3,4và5lầnlƣợtlàtổnggiátrịcảm xúccủacácloại từ trong câu theo thứ tự sau: o Đặctrƣngsố2và3đềucógiátrịlà0.0vìtrongcâukhôngcótính từ (thẻA)và trạng từ (thẻR). o Đặctrƣngsố4cógiátrịlà3.0.Danhtừ(thẻN)“nhântài”trongcâu có giá trị cảmxúc là 3.0. o Đặct r ƣ n g s ố 5 c ó g i á t r ị l à 1 0 Đ ộ n g t ừ ( t h ẻ V ) “ c h ú c mừng” có giá trị cảmxúc là 1.0.

 Đặc trƣng số 6 (đặc trƣng về tổng giá trị cảm xúc của cả câu) có giátrị là 4.0 (0.0 + 0.0 + 3.0 + 1.0) Ta thấy, đây là một câu bìnhthườngvàkhôngthuộcvàonhữngtrườnghợpngoạilệ.Dođótổnggiát rịcảmxúctrongcâubằngtổnggiátrịcảmxúccủacácloạitừtrong câu Tức là trong trường hợp này giá trị của đặc trưng số 6bằngtổnggiátrịcủacácđặctrƣngsố2,3,4và5cộnglại.

 Kết quả phân loại chủ quan trả về đây là một câu chủ quan cóhàmchứa cảmxúc.

- Sau khi phân loại câu trên là mộc câu chủ quan có hàm chứa cảm xúc,chươngtrìnhtiếptụcrúttríchđặctrưngđốivớiquátrìnhphânloạicảmxúc là:

 Các đặc trƣng số 1, 2, 3, 4 và 5 đƣợc kế thừa từ các đặc trƣng số2,3, 4, 5 và 6ở phần phân tíchchủ quan.

 Sau khi phân tích, câu văn bên trên không có các yếu tố đặc biệtnhư: từ tăng cường, từ liên kết mang nghĩa trái ngược, từ khiếmkhuyết, từ tiêu cực và từ phủ định thay đổi Do đó các đặc trƣngsố6,7,8,9và10đềucógiátrịlà4.0vàbằnggiátrịđặctrƣngsố

5 Tức là, giá trị cảm xúc của câu văn này chỉ phụ thuộc vào từhàmchứa cảmxúc chứ không phụ thuộc vào các yếu tố khác.

 Kết quả phân loại cảm xúc trả về cho câu này là một câu tích cựcvìcácđặctrưngđềumanggiátrịdương.

Tương tự, đối với câu“Hãy cố gắng học tốt nhất, để trở thành nhân tàichođấtnướcViệtNamnhé.”,kếtquảlầnlƣợtlà:

 Đặctrƣngsố1(đặctrƣngvềsốtừtrongcâu)cógiátrịlà12.0vìcâucó12 từ.

 Cácđặctrƣngsố2,3,4và5lầnlƣợtlàtổnggiátrịcảm xúccủacácloại từ trong câu theo thứ tự sau: o Đặctrƣngsố2cógiátrịlà3.0.Tínhtừ(thẻA)“tốt”cógiátrị cảmxúc là 3.0. o Đặctrƣngsố3cógiátrịlà0.0vìtrongcâucótrạngtừ(thẻR)“nhất”n hƣngkhôngkhớpvớitừđiểntrạngtừ. o Đặctrƣngsố4cógiátrịlà3.0.Danhtừ(thẻN)“nhântài”trongcâu có giá trị cảmxúc là 3.0. o Đặctrƣngsố5cógiátrịlà2.0.Độngtừ(thẻV)“cốgắng” cógiá trị cảmxúclà 2.0.

 Đặc trƣng số 6 (đặc trƣng về tổng giá trị cảm xúc của cả câu) có giátrị là 8.0 (3.0 + 0.0 + 3.0 + 2.0) Ta thấy, đây là một câu bìnhthườngvàkhôngthuộcvàonhữngtrườnghợpngoạilệ.Dođótổnggiát rịcảmxúctrongcâubằngtổnggiátrịcảmxúccủacácloạitừtrong câu Tức là trong trường hợp này giá trị của đặc trưng số 6bằngtổnggiátrịcủacácđặctrƣngsố2,3,4và5cộnglại.

 Kết quả phân loại chủ quan trả về đây là một câu chủ quan cóhàmchứa cảmxúc.

- Sau khi phân loại câu trên là mộc câu chủ quan có hàm chứa cảm xúc,chươngtrìnhtiếptụcrúttríchđặctrưngđốivớiquátrìnhphânloạicảmxúc là:

 Các đặc trƣng số 1, 2, 3, 4 và 5 đƣợc kế thừa từ các đặc trƣng số2,3, 4, 5 và 6ở phần phân tích chủ quan.

Giaodiện hệthốngthực nghiệm

Hình3-9Giaodiệnphânloạicảm xúc,đánhgiámứcđộquantâm củangườidùng

Ngoàinhữnggiaodiệnchonhữngchứcnăngchínhtrên,chươngtrìnhcòn một sốcácgiao diệnhiển thị thôngtinkhác, baogồm:

Hình 3-12 Giao diệnmàn hình bắtđầu

Bộdữ liệu thử nghiệm

Tôithuthập3bộdữliệutừ3chủđề:giáodục,phimảnhvàthểthao.

Mỗibộ dữ liệubao gồmhơn250 câu bìnhluận vềcácchủ đề:

- Giáo dục: gồm 405 câu bình luận thu thập ở tin “Phạm Minh Hiếu (19tuổi) vừa đƣợc Stanford University (Mỹ), đứng thứ tƣ trong danh sáchđại học hàng đầu thế giới, đồng ý cấp học bổng Đại học Chicago,Columbia(top15thếgiới)cũngmờiHiếusanghọc.”trêntrangVnE xpress.netcủamạng xã hộifacebook.

- Phim ảnh: gồm 379 câu bình luận thu thập chủ yếu từ tin “Cha là ngườihùng đầu tiên của con trai và là tình yêu đầu tiên của con gái” về phim“LaVitaeBella”,tin“Thếgiớiquancủamỗiconngườiđềuhạnhẹp, ai cũng đầy trong tâm tưởng những định kiến về một phần còn lại củathế giới.” về phim

“Intouchables” trên trang “Mann up” và một số tintrêntrang“CGVCinemasVietnam” của mạngxãhội facebook.

- Thể thao: gồm 500 câu bình luận thu thập từ tin “Nếu tôi hài lòng vớinhững gì đã đạt đƣợc, tôi là kẻ thất bại ngay từ bây giờ, chứ không phảichờ tới ngày mai.” về vận động viên Ánh Viên và tin “Điều mà nhà vôđịch điền kinh SEA Games năm nào cần bây giờ là chữa khỏi cái lƣng,đi lại đƣợc và tiếp tục công tác huấn luyện, để chăm sóc cho cậu út vẫncòn bệnh tật và trả nợ cho ngôi nhà.” về vận động viên Vũ Bích Hườngtrêntrang VnExpress.net của mạngxã hộifacebook.

Tươngtựnhưbộdữliệuhuấnluyện,tôitổnghợpcácchủđểtrênđểxây dựng bộ dữ liệu lớn hơn bao gồm707 câu.

Sauđó,tôitiếnhành phânloạichủ quan vàphânloạicảmxúcbằngtay.

Kếtquảđánhgiáphươngphápphânloạichủquan

Từ bộ dữ liệu thử nghiệm phân loại bằng tay, phương pháp phân lớpSVM và bộ dữ liệu huấn luyên ở mục 3.6 tôi tiến hành kiểm tra độ chính xáccủaphươngphápphânloạichủquan.Kếtquảđánhgiámứcđộchínhxáctheobảngsa u:

STT Chủ đề Kếtquả thử nghiệm(độchính xác:%)

Kếtquảđánhgiáphươngphápphânloạicảmxúc

Tôi tiếp tục tiến hành đánh giá độ chính xác của phương pháp phân loạicảmxúc.Kếtquả đƣợctrìnhbàytrongbảng sau:

STT Chủ đề Kếtquả thử nghiệm(độchính xác:%)

Kếtquảphântíchbìnhluậncủakháchthamquantạitrungtâmkhám phákhoa học

QUANTẠITRUNG TÂM KHÁM PHÁ KHOA HỌC

DonhiềuyếutốkháchquannhƣTrungtâmKhámphákhoahọcchƣa chính thức khánh thành, dịch covid-19,… nên quá trình thu thập ý kiến, bìnhluậnđ á n h g i á c ủ a k h á c h t h a m q u a n d i ễ n r a r ấ t k h ó k h ă n T ô i c h ỉ t h u t h ậ p đƣợc 111 bình luận từ khách tham quan để tổng hợp đƣa vào phân tích Phầnmềm đã phân loại đƣợc 111 bình luận này ra 62 bình luận khách quan và 49bình luận chủ quan. Sau đó phân tích tiếp những bình luận chủ quan này đƣợc42bình luận tích cực và 7 bình luận tiêu cực.

Các kết quả trên nằm ngoài mong đợi của tôi vì với bộ từ điển chỉ đượcdịch trong thời gian ngắn và gặp nhiều khó khăn trong quá trình thực hiện.Qua đó chứng tỏ phương pháp của tôi lựa chọn là có hiệu quả và có khả năngứngdụngthực tếtrong tươnglai.

Chương5.KẾTL UẬN VÀHƯ ỚN G PHÁTTRIỂ N

Kếtquảđạtđƣợc

Xuyên suốt quá trình thực hiện, tôi đƣợc tiếp cận với nhiều nghiên cứuliên quan cả trong và ngoài nước Điều đó giúp cho tôi hiểu được rộng hơn,sâuhơn và kỹcàng hơn vềđềtài.

Tôiđãcốgắngxâydựngmộtphươngphápkhảthiđểphântíchcảmxúctrên ngôn ngữ tiếng Việt dựa vào những đặc trƣng sử dụng ngôn từ của ngườidùngmạnginternet.Tuynhiên,vớigiớihạncủamộtluậnvăntốtnghiệptôimớichỉxây dựngđượcmộtmôhìnhphânloạicảmxúccódựavàophươngthứchọcmáy một cách rập khuôn mà chƣa xét đến các vấn đề về xử lý ngôn ngữ tựnhiên.Đóchínhlàgiớihạndễthấynhấtcủađềtàimàtôithựchiện.

Ngoài ra, việc dịch bộ từ điển cảm xúc từ bộ từ điển tiếng Anh thì độchínhxácsẽkhông caonhƣng vớithờigian cóhạnnêntôichỉcóthểthự chiệnởmức độ này.

Mặc dù còn gặp nhiều khó khăn nhưng với sự hướng dẫn tận tình củangười hướng dẫn – TS Hồ Văn Lâm và những chia sẻ chân thành của cửnhân Nguyễn Thành Lưu, tôi đã đạt được kết quả hết sức khả quan trên cảmong đợi ban đầu Với kết quả này, tôi hyv ọ n g c ó t h ể p h á t t r i ể n đ ề t à i l ê n một mức cao hơn và áp dụng vào thực tiễn cuộc sống cũng nhƣ đóng góp vàocácnghiên cứu khoa học kháccó liên quan.

Hướngpháttriển 61 DANH MỤC TÀI LIỆU THAM

Việc có thể phát triển một phương pháp phân tích cảm xúc tiếng Việt,đặc biệt là đối với dữ liệu từ mạng xã hội vốn đã không phải là dạng dữ liệuchuẩn tiếng Việtthì còn cần nhiềuc ả i t i ế n v à n h i ề u n g h i ê n c ứ u k h á c : x â y dựngbột ừ đ i ể n cảmxúcđủl ớ n và độ c h í n h xá c cao,x ây d ự n g bộ dữl i ệ u huấnluyệnvàbộdữliệuthửnghiệmđạtchuẩnvềđộlớnvàđộchínhxác,áp dụng các phương pháp xử lý ngôn ngữ tự nhiên, phương pháp chuẩn hóa dữliệu từ mạng xã hội, giải quyết bài toán big data khi chương trình thực thi trênbộ dữ liệu lớn, v.v… nhằm đạt đƣợc độ chính xác tốt hơn và hiệu năng hệthốngtốthơnđốivớikhốilƣợng dữliệulớnhơn. Đồng thời, khi đƣợc cải tiến và nâng cấp hệ thống thực nghiệm, tôi hyvọng đề tài có thể đƣợc áp dụng trong thực tiễn cuộc sống và đóng góp chocác nghiên cứu khác có liên quan Thiết thực nhất là việc đánh giá ý kiếnkháchhàng trong lĩnh vực kinh tế.

[1] SonTrinh,LuuNguyen,MinhVo,“CombiningLexicon-BasedandLearning-

[2] Son Trinh, Luu Nguyen, Minh Vo, Phuc Do, “Lexicon-Based

SentimentAnalysis of Facebook Comments in Vietnamese Language”,RecentDevelopmentsinIntelligentInformationandDatabaseS ystems,2016.

[3] VoNgocPhuandPhanThiTuoi,“SentimentclassificationusingEnhancedContextua lValenceShifters”,ProceedingsofInternationalConferenceonAsianLangu ageProcessing,Malaysia,2014.

[4] MaiteTaboada,JulianBrooke,MilanTofiloski,KimberlyVollandManfredSted e, “Lexicon-Based Methods forSentiment

[5] Bing Liu, “Sentiment Analysis and Opinion Mining”,Morgan &

[6] Wiebe,Janyce,RebeccaF.Bruce,andThomasP.O'Hara,“Developmentanduseof agold-standarddatasetforsubjectiveclassifications”,Proceedings of the Association for Computational Linguistics (ACL-1999),1999.

[7] Bo Pang and Lillian Lee, “A Sentimental Education: Sentiment

ScaleSentiment Analysis for News and Blogs”, ICWSM ’2007 Boulder,Colorado, USA [9]

Rudy Prabowo and Mike Thelwall,

“SentimentAnalysis:ACombinedApproach”,JournalofInformetricsVol ume3,Issue2,Pages143–157,April2009.

[10] Farah Benamara, Carmine Cesarano and Diego Reforgiato,

“SentimentAnalysis: Adjectives and Adverbs are better than Adjectives Alone”,ICWSM’2006Boulder,COUSA,2006.

[11] AGo,LHuang,RBhayani–Entropy,“TwitterSentimentAnalysis”,

[12] Efthymios Kouloumpis, Theresa Wilson and Johanna Moore,

[13] Thanh Ho, Duy Doan and Phuc Do, “Discovering Hot Topics On

ComputerScience:anInternationalJournal,Vol.3,Issue3,No.9,May2014.

[14] Kennedy,AlistairandDianaInkpen,“Sentimentclassificationofmovieandprodu ct reviews using contextual valence shifters”,ComputationalIntelligence,2006.

[15] Mrutyunjaya Panda, Satchidananda Dehuri and Gi-Nam Wang,

“SocialNetworkingMining,Visualization,andSecurity”,SpringerInternat ionalPublishing,Switzerland,2014.

[16] NguyễnNgọcDuy,“Luậnvănthạcsĩ khoahọc:Tómtắtý kiêntrêncơsởphânloạicảmxúc”,ngànhKhoahọcmáytính,ĐạihọcBáchkhóa HồChíMinh,2014.

[17] PolarityDataset,www.cs.cornell.edu/People/pabo/movie-review-data/

[18] VIETTIENDictionaryforMac,http://nguyenvietkhoa.edu.vn/?page_id46

OrientationCALculator,https://github.com/DrOttensooser/BiblicalNLPworks/ tree/master/SkyDrive/NLP/

CommonWorks/Data/Opion-Lexicon-English/SO-CAL,

[20] vnTokenizer,http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTokenizer

[21] vnTagger,http://mim.hus.vnu.edu.vn/phuonglh/softwares/ vnTagger[22]Epinions 1, https://www.sfu.ca/~mtaboada/research/SFU_Review_

Mộtsố từtrong cácbộ từđiển từloại

Danhtừ Độngtừ Tính từ Trạngtừ kiệt tác 5 cảmphục 4 vƣợttrội 5 lộng lẫy 5 cực điểm 4 hoan hỉ 4 xuấtsắc 5 xuấtsắc 5 kỳquan 4 thành đạt 3 nổi bật 5 sángchói 5 thiên tài 4 hân hoan 3 ƣuviệt 4 thần kỳ 4 công lao 3 đăng quang 3 thông minh 4 tuyệt hảo 4 cống hiến 3 thắng 2 sôinổi 4 tích cực 3 huychương 3 quyết tâm 2 thuận lợi 3 nhộn nhịp 3 chiến công 2 hợp tác 2 tế nhị 3 nhất quán 2 học bổng 2 cảmơn 2 nổi tiếng 3 phù hợp 2 phúc lợi 2 tốtnghiệp 1 trẻ 2 lôi cuốn 2 niềmtin 2 miễnphí 1 tinh xảo 2 khiêmtốn 1 ấntƣợng 1 giúp đỡ 1 trongsáng 1 mãnhliệt 1 độc lập 1 chán -1 hợp lý 1 nhiệt tình 1 vậnmay 1 hủy -1 thích hợp 1 tồi tệ -1 cô lập -1 đói -2 yêu ớt -1 nặng nề -1 kẻcướp -1 buồn -2 mờmịt -1 khó chịu -2 bạo lực -2 ámsát -2 tồi -2 ngu ngốc -2 ácmộng -3 hối tiếc -3 thô bỉ -3 thôthiển -3 rácrưởi -3 đánh -3 ngu -3 quanh co -3

Từtăng cường Giátrị ít nhất -3 vài -2 thấp -2 vài -2 hầunhƣ -1.5 ít hơn -1.5 chỉ -0.5 mộtchút -0.5 mộtphần -0.3 tươngđối -0.3 vừa phải -0.3 chắcchắn 0.2 ngay 0.1 chính 0.2 đáng kinh ngạc 0.3 tuyệt 0.3 khó tin 0.4 quáchừng 0.4 rất đỗi 0.4 vô cùng 0.4 khổng lồ 0.5 nhiều hơn 0.5 phithường 0.5 tuyệt đối 0.5 hếtsức 0.5

Cònngày nay, sinhviên rađi duhọc làkhôngmuốn quayvềđất nướcnữa connhàngườitalàđây

Họcxongcốgắngởbênđócôngtác chúcemsau nàysẽlà 1 công dânMỹthành đạt

Thật là giỏi, khâmphục bạn

Hyvọngđấtnướctakhôngphải"chảymáuchấtxám" cố lên pháttriểnsựnghiệpđổimớichonướcngườita nướcngoàihọluônbiếtcáchtrọngdụngnhântài

Quảnlý viếtvăn lủngcủng quá Đọcbìnhluận mà buồn xấu trai

Chúcemhọcthànhtài m a i sa u dựngxây đ ấ t nướcthế m ớ i gọi là mộtngườicótàicótâmemnhé

NguyễnAnhTú hồi đấy tao rarạp để xemphimnàyluôn đấy. Ýkiến riêng tôi

Cóbạn nàonghiện bảnnhạcphimnàygiống mìnhkhông? aicóđườngdẫnxemphimkhông? phimnàycon xemcũng khoảng 4lần.

Thìra"AnhDaĐen"từ đây màra.

Chủ quan bộphimhaynhấttừng xem. phimnàyhay,mìnhxemkhôngdưới5lầnvànhớđếntừngchitiết, cả phimabout timenữa. Đây là một trongnhữngbộ phimtôi thích. Đúng.

Nóithiệt là emyêu giọng văn củamấycái anh quảnlý trang này quá à.

Vừalãng mạn vừacó chiềusâu đôi khi lạirất đángyêu.

Phimtệ quá nghỉđi nhânvật đọclời thoạichậmthậtkhông cómạchlạc.

Tích cực bộphimhaynhấttừng xem. phimnàyhay,mìnhxemkhôngdưới5lầnvànhớđếntừngchitiết, cả phimabout timenữa. Đây là một trongnhữngbộ phimtôi thích.

Nói thiệtlàemyêu giọngvăn của mấycái anhquảnlýtrang này quá à.

Vừalãng mạn vừacó chiềusâuđôikhilại rấtđángyêu.

VớiDrissanhk xem Philliplà1người tàntậtmàđối xửvớiông như1ngườibìnhthường. Điềuđóđãgắnkếthọvớinhaubằng1tìnhbạngiữanhữngkẻđang tìmcho bản thân mình 1 lẽ sống !

Khách quan ánhviên+côngphƣợng=côngviên

Chủ quan đây là tínhcách của1 nhàvô địch,Ánh Viênsẽ còn tiếnxa. xinchúc mừngÁnhViên,chúcmừngViệtNam

Thay vìsuốtngàytậptrungvàomấy hotgirlhotboyca sĩdiễnviên suốtngàytrƣng"hàng"khoetàisản,giớitrẻViệtNamnênthầntƣợngbản lĩnhvàýchícủacôgáitrẻnày

Viênđẹp từ trong chính tâmhồn của em, không cần phải trang điểm điểmtô

Xemcácvậnđộngviênthiđấusướngthật Đề dài, chỉ sợ viết không kịp chứ mình cảm thấy đề không khó lắmCácsĩ tửlàm bàinhư thếnào rồi nhỉ

Họrèn luyện,hi sinh nhiềuthứ chỉ đểtỏa sáng trongkhoảnh khắc

Cáinghiệp bạc bẽo nhấtlà nghiệp thể thao.

Tích cực đây là tínhcáchcủa 1nhàvôđịch, ÁnhViênsẽ còntiến xa. xinchúc mừngÁnhViên,chúcmừngViệtNam

Viênđẹptừ tr o n g c hí nh tâmhồnc ủ a e m, không c ầ n ph ải m a k e u p điểmtô

Họrèn luyện,hi sinh nhiềuthứ chỉ đểtỏa sáng trongkhoảnh khắc

Manglạivinhquangchotổquốc,chogiađìnhvàÁnhViênlàniềm tựhào của dân tộc

Thậtsự rất yêu quývà khâmphục chị!

Phântíchbìnhluận“Đềdài,chỉsợviếtkhôngkịpchứmìnhcảmthấyđề không khó lắm.Các sĩtửlàm bài như thếnàorồinhỉ?”

 Đặc trƣng số 1 là tổng số từ trong câu có giá trị là 14.0 vì câu có14 từ.

 Đặc trƣngsố2là tổnggiátrịcảmxúccủacác tínhtừcógiátrịlà

-2.0do trong câucómột tính từ chứa cảmxúc là“khó”(-2).

 Đặc trƣng số 3 là tổng giá trị cảm xúc của các trạng từ có giá trịlà-2.0 do trongcâu cómộttrạng từ chứacảmxúc là“chỉ” (-2).

 Đặc trƣng số 4 là tổng giá trị cảm xúc của các danh từ có giá trịlà0.0 vì trong câu không có danh từ nào chứa cảmxúc.

 Đặc trƣng số 5 là tổng giá trị cảm xúc của các động từ có giá trịlà-1.0 vìtrong câu có một độngtừchứa cảmxúc là“sợ” (-1).

 Đặc trƣng số 6 là tổng giá trị cảm xúc trong câu có giá trị là (- 5.0) Ta thấy, đây là một câu bình thường và không thuộc vàonhững trường hợp ngoại lệ Do đó tổng giá trị cảm xúc trong câubằng tổng giá trị cảm xúc của các loại từ trong câu hay nói cáchkhác bằng tổng giá trị của các đặc trƣng số 3, 4, 5 và 6 cộng lại:(-2) +(-2) +(0)+(-1) =(- 5).

 Câu:“Cácsĩtửlàm bàinhư thếnàorồi nhỉ”

 Đặctrƣngsố2,3,4,5đềucógiátrịlà0.0vìtrongcâukhôngcótínhtừ, trạng từ,danh từ hayđộngtừ nào chứa cảmxúc.

 Đặctrƣngsố6cógiátrịlà0.0dođâylàmộtcâunghivấn(vìcócụmtừ“nh ƣthếnào”)nêntổnggiátrịcảmxúccủacảcâusẽlà0.

 Câu:“Đề dài, chỉ sợ viết không kịp chứ mình cảm thấy đề khôngkhólắm”

 Các đặc trƣng số 1, 2, 3 và 4 đƣợc kế thừa từ các đặc trƣng số 3,4,5 và 6ở phần phân tích chủ quan.

 Đặc trƣng số 5 có giá trị bằng tổng giá trị của các đặc trƣng 1, 2,3và 4 cộng lại là (-5.0)

 Đặc trƣng số 6 là giá trị cảm xúc của câu sau khi hệ thống xéttrường hợp có từ tăng cường Đặc trưng số 6 có giá trị là - 4.5 vìtrong câu có từ “chỉ” mang giá trị cảm xúc là (-0.5) trong từ điểntừ tăng cường và từ “sợ” mang giá trị cảm xúc là (-1) Do đó, giátrịcảmxúctrongcảcâuđƣợctínhnhƣsau:(-2)+(-0.5)*(-1)+(-1)+ (-2) = (-4.5).

 Đặc trƣng số 7 là giá trị cảm xúc của câu khi tôi xét đến trườnghợp giá trị cảm xúc trong câu thay đổi nếu câu có 2 vế và liên kếtvới nhau bằng từliên kếtmangn g h ĩ a p h ủ đ ị n h

T r o n g c â u t r ê n có từ liên kết mang nghĩa phủ định là

“không” và tính từ “khó”mang giá trị cảm xúc là (-2) ở sau nên giá trị cảm xúc của câuđƣợctínhnhƣsau:(-1)+(-2)+(-1)*(-2)=(- 1).Vìvậyđặctrƣngsố 7 có giá trị là (-1.0).

 Đặc trưng số 8 là giá trị cảm xúc của câu khi tôi xét trường hợpgiátrịcảmxúccủacâuthayđổikhichịuảnhhưởngcủatừkhiếmkhuyết. Câu này không có từ khiếm khuyết cho nên giá trị cảmxúccủanókhôngthayđổivàbằngvớigiátrịcủađặctrƣngsố5.

 Đặc trưng số 9 là giá trị cảm xúc của câu khi tôi xét trường hợpgiátrịcảmxúctrongcâuthayđổikhităng50%giátrịcảmxú c

Ngày đăng: 30/08/2023, 14:59

HÌNH ẢNH LIÊN QUAN

Hình 1-1Mô hìnhtổng quanhệthốngphân tíchcảmxúcdựavào bìnhluận - 0014 xây dựng mô hình phân tích cảm xúc người dùng đánh giá sản phẩm bằng phương pháp phân tích từ vựng kết hợp với học máy luận văn tốt nghiệp
Hình 1 1Mô hìnhtổng quanhệthốngphân tíchcảmxúcdựavào bìnhluận (Trang 18)
Hình 2-1 Siêu phẳng h phân chia dữ liẹu huấn luyẹn thành 2 lớp “+” và - 0014 xây dựng mô hình phân tích cảm xúc người dùng đánh giá sản phẩm bằng phương pháp phân tích từ vựng kết hợp với học máy luận văn tốt nghiệp
Hình 2 1 Siêu phẳng h phân chia dữ liẹu huấn luyẹn thành 2 lớp “+” và (Trang 34)
Hình 3-1Mô hìnhhệthống thựcnghiệm - 0014 xây dựng mô hình phân tích cảm xúc người dùng đánh giá sản phẩm bằng phương pháp phân tích từ vựng kết hợp với học máy luận văn tốt nghiệp
Hình 3 1Mô hìnhhệthống thựcnghiệm (Trang 38)
Hình 3-2Môhình GraphAPI - 0014 xây dựng mô hình phân tích cảm xúc người dùng đánh giá sản phẩm bằng phương pháp phân tích từ vựng kết hợp với học máy luận văn tốt nghiệp
Hình 3 2Môhình GraphAPI (Trang 44)
Hình 3-11Giaodiệnhiểnthịtừđiển - 0014 xây dựng mô hình phân tích cảm xúc người dùng đánh giá sản phẩm bằng phương pháp phân tích từ vựng kết hợp với học máy luận văn tốt nghiệp
Hình 3 11Giaodiệnhiểnthịtừđiển (Trang 66)
Hình 3-12 Giao diệnmàn hình bắtđầu - 0014 xây dựng mô hình phân tích cảm xúc người dùng đánh giá sản phẩm bằng phương pháp phân tích từ vựng kết hợp với học máy luận văn tốt nghiệp
Hình 3 12 Giao diệnmàn hình bắtđầu (Trang 66)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w