0014 xây dựng mô hình phân tích cảm xúc người dùng đánh giá sản phẩm bằng phương pháp phân tích từ vựng kết hợp với học máy luận văn tốt nghiệp

84 1 0
0014 xây dựng mô hình phân tích cảm xúc người dùng đánh giá sản phẩm bằng phương pháp phân tích từ vựng kết hợp với học máy luận văn tốt nghiệp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘGIÁODỤCVÀĐÀOTẠO TRƢỜNGĐẠIHỌCQUYNHƠN VÕLÊ MINH XÂY DỰNG MƠ HÌNH PHÂN TÍCH CẢM XÚCNGƢỜI DÙNGĐÁNHGIÁSẢNPHẨM BẰNGPHƢƠNGPHÁPPHÂNTÍCHTỪVỰNG KẾTHỢPVỚIHỌCMÁY Chunngành:Khoahọc máy tính Mãsố:8480101 Ngƣờihƣớngdẫn:TS.HồVănLâm LỜICAMĐOAN Tôi xin cam đoan đề tài “ Xây dựng mơ hình phân tích cảm xúc người dùngđánh giá sản phẩm phương pháp phân tích từ vựng kết hợp với họcmáy” cơng trình nghiên cứu riêng tơi Các kết khảo sát, nghiên cứu trongLuậnvănlàtrungthựcvàchƣatừngđƣợccơngbốtrongbấtkỳcơngtrìnhnàokhác BìnhĐịnh, ngày08t h n g 11năm 2021 Tácgiả LỜICẢMƠN Để hoàn thành luận văn này, xin chân thành xin gửi lời cảmơn chân thành đến quý thầy cô trƣờng Đại học Quy Nhơn, bạn bètrongvàngồitrƣờng,…đãchỉbảo,quantâm,giúpđỡtậntìnhtrongsuốtqtrình thực hiệnđềtài.Nhờđótơiđãcóthêmnhiềukinhnghiệmđểxửlýnhữngkhó khăn gặp phải hồn thành tốt đềtài Tơixi n gửi đế n l ời cá m ơnsâu s ắc đ ế n Tiếns ĩ H V ă n Lâmđãtrự c tiếp hƣớng dẫn, định hƣớng chuyên mơn, quan tâm giúp đỡ tận tình vàtạo điềukiệnthuậnlợi trongq trình thựchiện luậnvăn Trongthờigianlàmluậnvăn,tơiđãcónhữngtrảinghiệmbổích.Tơiđã đƣợchọctập,tìmhiểunhiềukiếnthứcmớimẻ.Hơnhết,tơiđƣợctiếpcậnvới thành tựu nghiên cứu liên quan đến đề tài nƣớc.Đồng thời, đƣợc hƣớng dẫn tận tình cách làm việc chuyên nghiệp củangƣời hƣớng dẫn – TS Hồ Văn Lâm, tơi tích lũy đƣợc nhiều kinh nghiệmchobản thân, phục vụcho công việc nhữngđềtài nghiên cứu saunày Mặc dù cố gắng nỗ lực để hồn thành tốt luận văn mình,nhƣngkhótránhkhỏisaisót,rấtmongnhậnđƣợcsựgópývàchỉbảocủaqThầy,C ơđểđềtài đƣợctốthơn Lời cuối cùng, tơi muốn nói cảm ơn tất ngƣời, ngƣời đãgiúpchotơi cóđƣợc ngày hơmnay Bình Định, ngày08 tháng11 năm2021 Sinhviên thực VõLê Minh MỤCLỤC LỜICAMĐOAN LỜICẢMƠN DANH MỤC CÁC CHỮ VIẾT TẮTDANHMỤC CÁCBẢNG DANH MỤC CÁC HÌNHTĨMTẮT MỞĐẦU Chƣơng1.TỔNGQUANVỀ ĐỀTÀI .3 1.1 Tổngquan đềtài .3 1.1.1 Phátbiểu toán 1.1.2 Mụctiêu đềtài 1.1.3 Mơhình tổng quan 1.2 Tổngquantìnhhìnhnghiêncứutrongnƣớcvàtrênthếgiới 10 1.2.1 Trongnƣớc 10 1.2.2 Nƣớcngoài 11 1.3 Bốcụcluận văn .13 Chƣơng2.CƠSỞLÝ THUYẾT .14 2.1 Bộtừ điển cảmxúc SO-CAL tiếng Anh 14 2.2 Phƣơngphápphânloạichủ quan 18 2.2.1 Câu có từ hàmchứa cảmxúc 18 2.2.2 Cáctrƣờnghợpngoại lệ 18 2.3 Phƣơngphápphânloại cảmxúc .20 2.3.1 Giátrị cảmxúc câu phụ thuộc vào từhàmchứacảmxúc 20 2.3.2 Giátrịcảmxúccủacâuphụthuộcvàotừtăngcƣờng 21 2.3.3 Giátrị cảmxúc câu phụ thuộc vào từ phủ định 22 2.3.4 Giá trị cảmxúc câu phụ thuộc vào từ khiếmkhuyết 22 MỤCLỤC 2.3.5 Giátrịcảmxúccủacâucóxuhƣớngtíchcực 23 2.4 PhƣơngphápphânlớpSupportVectorMachine(SVM) 23 2.4.1 Ýtƣởng 24 2.4.2 Cơsởlý thuyết 26 Chƣơng3.XÂYDỰNGHỆ THỐNGTHỬNGHIỆM 29 3.1 Giớithiệu .29 3.2 Bộtừ điển cảmxúc SO-CAL tiếng Việt 30 3.3 Thuthập liệu 35 3.4 Tiềnxửlýdữliệuvà rúttríchđặctrƣng .39 3.5 Bộdữ liệu huấn luyện 41 3.5.1 Gánnhãn câu tay 41 3.5.2 Môtảbộ liệu huấn luyện 43 3.6 Phƣơngphápphânloạichủquan 44 3.7 Phƣơngphápphânloạicảmxúc .47 3.8 Giaodiện hệthốngthực nghiệm 55 Chƣơng4.KẾTQUẢTHỬNGHIỆM .58 4.1 Bộdữ liệu thử nghiệm 58 4.2 Kếtquảđánhgiáphƣơngphápphânloạichủquan 59 4.3 Kếtquảđánhgiáphƣơngphápphânloạicảmxúc .59 4.4 Kếtquảphântíchbìnhluậncủakháchthamquantạitrungtâmkhám phákhoa học 59 Chƣơng5.KẾTLUẬNVÀHƢỚNGPHÁTTRIỂN 61 5.1 Kếtquảđạtđƣợc 61 5.2 Hƣớngpháttriển 61 DANH MỤC TÀI LIỆU THAM KHẢOPHỤLỤC QUYẾTĐỊNHGIAOĐỀTÀILUẬNVĂNTHẠCSĨ(BẢNSAO) DANHMỤCCÁCCHỮVIẾTTẮT AAC (Adverb-Adjective Combinations)API(ApplicationProgrammin gInterface) cURL (Client for Uniform Resource Locator)HTTP(The HypertextTransfer Protocol) ID (Identification)TS( Tiến sĩ) SO(SemanticOrientation) SO-CAL (the Semantic Orientation CALculator)SRM(StructuralRisk Minimization) SVM (Support Vector Machines)STT(Số thứ tự) url lib (Uniform Resource Locator Library)VC(Vapnik-Chervonenkis) Wifi(WirelessFidelity) DANHMỤCBẢNG Bảng2-1Mộtsốtừtăngcƣờng 15 Bảng2-2BảngsosánhhiệusuấtcủacácbộtừđiểnkhácnhauvớitừđiểnSO-CAL.17 Bảng3-1 Mộtsố từtrong từđiểndanhtừ .33 Bảng3-2 Mộtsố từtrong từđiểnđộngtừ 33 Bảng3-3 Một sốtừ bộtừ điểntínhtừ .34 Bảng3-4 Mộtsố từtrong từđiểntrạngtừ 34 Bảng3-5Mộtsốtừtrongbộtừđiểntừtăngcƣờng 34 Bảng3-6Kếtquảphânloạichủ quanbằngtay .44 Bảng3-7Kết quảphân loạicảmxúcbằng tay 44 Bảng4-1 Kếtquảbộ dữliệu thửnghiệm 59 Bảng4-2Kếtquảđánhgiáđộchínhxácphƣơngphápphânloạichủquan 59 Bảng4-3Kếtquảđánhgiáđộchínhxácphƣơngphápphânloạicảmxúc 59 DANHMỤCHÌNHVẼ Hình1 M h ì n h t ổ n g q u a n h ệ t h ố n g p h â n t í c h c ả m x úc d ự a v o b ì n h luậntrên mạngxã hội Hình3-1 Mơ hình hệthống thực nghiệm 29 Hình3-2 Mơ hình Graph API 35 Hình3-3Vídụvềdữliệuthơchƣaxửlý 37 Hình3-4NhữngbìnhluậncủatrangVnExpress.nettrênmạngxãhộiFacebook 38 Hình35Nộidungcácbìnhluậnđƣợclấyvềt h n g q u a t h ƣ v i ệ n Fac ebookGraph API 38 Hình3-6 Vídụ dữliệu dạng mã UNICODETH .39 Hình3-7Ví dụdữ liệusau khichuyển mã 39 Hình3-8 Giao diệnđánh giá độchính xác dữliệu thử nghiệm 55 Hình3 9Giaodiệnphânloạicảmxúc,đánhgiá mứcđộquantâmcủ a ngƣờidùng 56 Hình3-10 Giaodiện thu thậpdữ liệu .56 Hình3-11Giaodiệnmànhìnhbắt đầu 57 Hình3-12 Giaodiện hiển thịtừ điển 57 TĨMTẮT Mạng internet cơng cụ giúpm ọ i n g ƣ i c ó t h ể k ế t n ố i v i n h a u dễ dàng thông qua những chia sẻ, thơng điệp, bình luận hay ý kiếncánhânvềtấtcảsựvật,sựviệcdiễnrahằngngày.Từđó,mọingƣờisẽcócáinhìn tổng quan, thông tin cần thiết hỗ trợ việc đánh giá đƣa quyếtđịnhđối v i m ọ i v ấ n đềdi ễn r at r o ng cuộcsống.Đi ềunày k h ô n g chỉđ ú n g trênphƣơngdiệncánhânmàcònđƣợccáctổchứcsửdụngrộngrãi Việc thu thập, tổng hợp phân tích bình luận làm theophƣơngphápthủcơngsẽtốnrấtnhiềuthờigiancũngnhƣchiphíđểthựchiện Nếu có hệ thống tự động xử lý, phân loại chúng dựa cảm xúccủangƣờidùngsẽgiúp tiếtkiệmvềnhiều mặt Đã có nhiềuàiáo, cơng trình nghiên cứu có liên quan đến đề tài nàynhƣnghầuhếtchúngđƣợcsửdụngchotiếngAnh.Hầuhếtcáccơngtrìnhnàyđều thu đƣợcnhiềukếtquảkhảquan.Tuynhiên,bàibáovàcơngtrìnhnghiêncứutƣơngtựbằngtiếngViệtcịnrấthạnchế.Hiệnnay, vớisựpháttriểnmạnh mẽ truyền thơng mạng xã hội nhu cầu thu thập ý kiến sựvật,sựviệcdiễnraxungquanhchúngta,hƣớngnghiêncứunàydầnđƣợcchúýnhiều hơnởViệt Nam Trong khố luận này, tơi nghiên cứu lý thuyết, giải thuật giúp phânloại cảm xúc tìm hiểu đặc tính cơả n c ủ a v ă n p h m t i ế n g V i ệ t T xây dựng mơ hình phân tích cảm xúc tiếng Việt áp dụng trực tiếp trêncác bình luận mạng xã hội Ngồi tơi cịn sử dụng số kỹ thuật xử lýngơnngữ tựnhiên hỗ trợcho việc phântích liệuhiệu quảvànhanh chóng Cuốicùng,tơitổnghợpkếtquảđãđạtđƣợcvàđƣaranhữngđánhgiávềmơhìnhphân tích cảm xúc tiếng Việt dựa vào bình dùng.Sauđó,đềrahƣớngpháttriểncủađềtàitrongtƣơnglai luận ngƣời MỞĐẦU Với phát triển mạnh mẽ mạng Internet cộng với bùng nổthơng tin tồn cầu,m n g xã hội đƣợc sử dụng r ộ n g r ã i v d ầ n t r thànhmộtphầnkhông thể thiếu cuộcsống conngƣờiđặc biệt làgiới trẻ - ngƣời quan tâm cập nhật tin tức thƣờng xuyên Những tintức, bình luận, đánh giá nhiều lĩnh vực đƣợc chia sẻ nhanh chóng từ lúc sựviệcđangdiễnravàngay lậptứcđƣợclantruyềnđếnmọinơi Phân loại tâm lý, cảm xúc khai thác ý kiến, đánh giá sản phẩm hỗtrợ cho việc nghiên cứu, phân tích cảm xúc, đánh giá thái độ ngƣời dùngđối với sản phẩm, chủ đề đƣợc chia sẻ Đây lĩnhvực đƣợc nghiên cứu rộng rãi khai thác liệu Big Data, đồng thời có ýnghĩaquantrọngtrongngànhkhoahọcxửlýngơnngữtựnhiên.Trongthựctế, mức độ ảnh hƣởng ngày đƣợc coi trọng tỷ lệ thuận với sựbùngnổ thông tintrênmạng Internet Chẳng hạn nhƣ muốn mua sản phẩm đó, muốnbiết tốt hay không? Những lời quảng cáo hoa mỹ nhà sản xuất chƣa đủthuyếtphục,chúngtamuốnnghenhữnglờiđánhgiáchânthựctừnhữngngƣời sử dụng có hiểu biết sản phẩm Hay tổ chức,những số khô khan doanh thu sản phẩm khơng đủ để họ hài lịng Họmuốnbiếtnhữ ng đánh giácủakháchhàngvàngƣời dùng vềsảnphẩmc ủahọ Những khía cạnh tốt đƣợc trì, phát huy mặt xấu, khơngtốtsẽđƣợchọcảithiệnđểdầnhồnthiệnchấtlƣợngsảnphẩmvềmọimặt Từ lý này, lựa chọn đề tài:“Xây dựngm ô h ì n h p h â n t í c h c ả m xúc ngƣời dùng đánh giá sản phẩm phƣơng pháp phân tích từ vựng kếthợp với máy học” nhằm phát triển phƣơng pháp nghiên cứu phân tíchcảmxúctrênngơnngữtiếngViệtdựatrênđặctrƣngnguồndữ liệutừbì nh

Ngày đăng: 30/08/2023, 14:59

Tài liệu cùng người dùng

Tài liệu liên quan