Luận văn tìm hiểu về phương pháp trích và sắp xếp các đặc trưng sản phẩm trong tài liệu chứa quan điểm

39 5 0
Luận văn tìm hiểu về phương pháp trích và sắp xếp các đặc trưng sản phẩm trong tài liệu chứa quan điểm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MỤC LỤC GIỚI THIỆU .2 CHƢƠNG 1: BÀI TỐN PHÂN TÍCH QUAN ĐIỂM 1.1 Nhu cầu thông tin quan điểm nhận xét .4 1.2 Lịch sử phân tích quan điểm khai thác quan điểm 1.3 Nhiệm vụ phân tích quan điểm CHƢƠNG 2: PHƢƠNG PHÁP TRÍCH VÀ SẮP XẾP ĐẶC TRƢNG SẢN PHẨM .9 2.1 Giới thiệu khai thác đặc trưng 2.2 Một số phương pháp khai thác đặc trưng 10 2.3 Phương pháp trích xếp đặc trưng quan điểm sản phẩm 12 2.3.1 Double propagation 16 2.3.2 Mối quan hệ phận - toàn (Part-whole relation) .20 2.3.2.1 Mẫu cụm từ (Phrases pattern) 21 2.3.2.2 Mẫu câu (Sentence pattern) .21 2.3.3 Mẫu “No” 22 2.3.4 Đồ thị hai nhánh thuật toán HITS .23 2.3.5 Sắp xếp đặc trưng .25 2.4 Kết thảo luận 26 2.4.1 Tập liệu 26 2.4.2 Đánh giá số liệu 26 2.4.3 Kết thử nghiệm 27 CHƢƠNG 3: THỰC NGHIỆM 30 3.1 Công cụ gán nhãn từ loại Stanford Parser .30 3.1.1 Giới thiệu 30 3.1.2 Cách sử dụng 31 3.2 Chương trình thực nghiệm .31 3.2.1 Bài toán 31 3.2.1.1 Bộ liệu 32 3.2.1.2 Phương pháp 32 3.2.2 Kết 33 KẾT LUẬN .37 TÀI LIỆU THAM KHẢO .39 Th■ah■■ng Mang Luôn 123doc thu■n l■icam s■ tr■ h■u k■t s■ nghi■m t■im■t d■ng s■website mang kho m■i th■ m■ l■i d■n CH■P vi■n nh■ng cho ■■u kh■ng ng■■i NH■N quy■n chia dùng, l■ CÁC s■l■i v■i và■I■U t■t công h■n mua nh■t 2.000.000 ngh■ bán KHO■N cho tàihi■n ng■■i li■u TH■A tài th■ hàng li■u dùng hi■n THU■N ■■u ■ t■t Khi ■■i, Vi■t c■ khách b■n l■nh Nam Chào online hàng v■c: Tác m■ng tr■ khơng tài phong thành b■n khác chun ■■n thành tíngì d■ng, v■i so nghi■p, viên 123doc v■i cơng c■a b■n hồn ngh■ 123doc g■c h■o, thơng B■n và■■ n■p có tin, cao th■ ti■n ngo■i tính phóng vào ng■, Khách trách tài to,kho■n nhi■m thu nh■ c■a ■■i hàng tùy123doc, v■i ý cót■ng th■b■n d■ ng■■i dàng s■ dùng ■■■c tra c■u M■c h■■ng tàitiêu li■u nh■ng hàng m■t■■u quy■n cáchc■a l■i123doc.net sau xác,n■p nhanh ti■n tr■ chóng thành website th■ vi■n tài li■u online l■n nh■t Vi■t Nam, cung c■p nh■ng tài li■u ■■c không th■ tìm th■y th■ tr■■ng ngo■i tr■ 123doc.net Nhi■u event thú v■, event ki■m ti■n thi■t th■c 123doc luôn t■o c■ h■i gia t■ng thu nh■p online cho t■t c■ thành viên c■a website Mangh■n Luôn Th■a Xu■t Sau Nhi■u 123doc h■■ng phát thu■n l■i event cam s■ nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thơng dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p khơng tài phong v■c cao thành b■n email nh■t tài online khác chuyên ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n hoàn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thông B■n 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mơ ngun b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t Lnh■n 123doc Sau Th■a Xu■t h■■ng phát thu■n cam nh■n m■t t■k■t s■ t■i ýxác n■m t■■ng d■ng s■ nh■n website mang ■■i, t■o t■l■i c■ng ■■ng d■n 123doc CH■P nh■ng ■■u ■■ng h■ NH■N ■ã quy■n th■ng chia t■ng ki■m CÁC s■s■ l■i b■■c ti■n vàchuy■n ■I■U t■t mua online kh■ng nh■t bán KHO■N sang b■ng cho tài ■■nh ng■■i li■u ph■n tài TH■A v■ li■u hàng thơng dùng tríTHU■N hi■u c■a ■■u tin Khi qu■ Vi■t xác khách nh■t, minh Nam Chào hàng uy tài l■nh Tác m■ng tín kho■n tr■ phong v■c cao thành b■n email nh■t tàichuyên ■■n li■u thành b■n Mong v■i nghi■p, viên kinh ■ã 123doc 123doc.net! mu■n ■■ng c■a doanh hoàn mang 123doc kýonline v■i h■o, Chúng l■ivà 123doc.netLink cho Tính ■■ n■p tơi c■ng cao ■■n cung ti■n tính ■■ng th■i vào c■p trách xác tài ■i■m D■ch xãkho■n th■c nhi■m h■itháng V■ m■t s■ c■a (nh■ ■■i ■■■c ngu■n 5/2014; 123doc, v■i ■■■c g■i t■ng tài 123doc v■ mô nguyên b■n ng■■i ■■a t■s■ v■■t d■■i tri dùng ■■■c ch■ th■c m■c ■ây) email M■c h■■ng quý 100.000 cho b■n tiêu báu, b■n, nh■ng ■ã hàng phong l■■t tùy ■■ng ■■u quy■n truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau vuingày, n■p lòng “■i■u giàu ti■n s■ ■■ng tr■ giá Kho■n h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t Lnh■n Th■a Xu■t Sau Nhi■u 123doc Mang h■■ng phát thu■n l■i event cam s■ nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thơng dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p khơng tài phong v■c cao thành b■n email nh■t tài online khác chun ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n cơng ■■ng c■a c■ doanh b■n hồn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thơng B■n 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mô nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i không t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t u■t phát Nhi■u Mang Luôn 123doc Th■a Xu■t Sau h■n h■■ng phát thu■n l■i event s■ cam nh■n t■ m■t tr■ t■ h■u ýk■t s■ thú nghi■m t■i ýt■■ng xác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event t■o kho m■i ■■i, t■o t■ c■ng th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■ng ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia ki■m t■ng ki■m dùng, l■ CÁC s■ th■c ti■n s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công online h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N b■ng sang b■ng cho tài ■■nh hi■n tài ng■■i li■u ph■n tài TH■A li■u tài v■ th■ li■u hàng t■o li■u thông dùng trí hi■u hi■n THU■N hi■u c■ c■a ■■u ■ tin qu■ t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia nh■t, b■n nh■t, minh l■nh Nam t■ng Chào online uy hàng uy tài v■c: l■nh thu Tác tín m■ng tín kho■n tr■ cao nh■p khơng tài phong v■c cao thành b■n nh■t email nh■t tài online khác chun ■■n li■u thành tín Mong b■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã mu■n t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n mang hoàn mang ngh■ 123doc ký g■c online thành v■i l■i h■o, Chúng l■i thông B■n cho 123doc.netLink cho viên Tính ■■ n■p có c■ng tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i ■■ng tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác xã tài ■i■m D■ch xã to,h■i kho■n th■c nhi■m h■i thum■t tháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ngu■n ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cótài g■i t■ng th■ tài 123doc nguyên v■ mô nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t tri d■■i tri dùng ■■■c ch■ th■c tra th■c m■c ■ây) email c■u quý M■c h■■ng quý 100.000 cho tài báu, b■n tiêu báu, li■u b■n, nh■ng phong ■ã hàng phong m■t l■■t tùy ■■ng ■■u phú, quy■n cách truy thu■c phú, ky, c■a c■p ■a ■a l■i b■n vào d■ng, 123doc.net m■i d■ng, sau xác, vuingày, n■p giàu lòng “■i■u nhanh giàu ti■n giá s■ ■■ng tr■ giá Kho■n chóng h■u tr■ thành tr■ nh■p ■■ng 2.000.000 website ■■ng Th■a th■ email th■i vi■n th■i Thu■n mong c■a thành mong tài v■ li■u mu■n viên mu■n S■ online ■■ng D■ng t■o click t■o l■n ■i■u ký, D■ch ■i■u vào nh■t l■t link ki■n ki■n V■” vào Vi■t 123doc cho top sau cho Nam, cho 200 ■ây cho ■ã cung các (sau g■i users website c■p users ■âynh■ng có ■■■c cóph■ thêm thêm tài bi■n g■i thu thu li■u t■t nh■p nh■t nh■p ■■c T■it■i Chính khơng t■ng Chính Vi■tth■i vìth■ Nam, vìv■y v■y ■i■m, tìm 123doc.net t■123doc.net th■y l■chúng tìm ki■m tơi th■ racó ■■i thu■c ■■i tr■■ng th■ nh■m nh■m c■p top ngo■i ■áp 3nh■t ■áp Google ■ng tr■ ■KTTSDDV ■ng 123doc.net nhu Nh■n nhuc■u c■u ■■■c chia theo chias■ quy■t danh s■tàitài hi■u li■u li■uch■t ch■t c■ng l■■ng l■■ng ■■ng vàvàki■m bình ki■mch■n ti■n ti■nonline online website ki■m ti■n online hi■u qu■ uy tín nh■t Nhi■u Mang Ln 123doc Th■a Xu■t Sau h■n h■■ng phát thu■n l■i event s■ cam nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thơng dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p khơng tài phong v■c cao thành b■n email nh■t tài online khác chuyên ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n hoàn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thông B■n 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mơ nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t Đồ án tốt nghiệp Ngành: Công nghệ thông tin GIỚI THIỆU Ngày nay, với phát triển mạnh mẽ Internet, hình thức kết nối chia sẻ thông tin cộng đồng mạng ngày phát triển thu hút lượng lớn người dùng tham gia Qua đó, họ dễ dàng trao đổi, chia sẻ thông tin, thảo luận vấn đề sở thích quan tâm Một số mạng xã hội phổ biến giới như: Facebook, Twitter, Việt Nam như: Zing, Go.vn có số lượng người tham gia ngày đơng đảo Các nhận xét diễn đàn, trang dịch vụ trang tin tức hình thức thể khác phát triển ớng, quan điểm cộng đồng việc đánh giá vấn đề Các quan điểm, xu hướng có tác động mạnh mẽ đến định hướng, quan điểm người dùng khác Ví dụ người mua máy tính tìm hiểu thơng tin sản phẩm mạng, thông thường ý đến loại sản phẩm mà đa số người sử dụng đánh giá tốt, loại sản phẩm đề cập nhiều; người du lịch chọn khách sạn có tiêu chí quan tâm cộng đồng đánh giá tích cực thống kê quan điểm, xu hướng ngườ ẽ giúp nhà sản xuất, nhà cung cấp dịch vụ hoạch định sách cần thiết để phát triển sản phẩm đáp ứng phù hợp nhu cầu thị trường Đặng Thị Ngọc Thanh CT1201 -2- Đồ án tốt nghiệp Ngành: Công nghệ thông tin ản phẩm, dịch vụ có ý nghĩa ề sản phẩm, quan trọ dịch vụ mà người dùng hay nhà sản xuất quan tâm Cũng lý đó, đồ án này, em nghiên cứu phương pháp trích xếp đặc trưng sản phẩm, từ xác định quan điểm hay nhận xét tới đặc trưng sản phẩm đó, phục vụ cho bước xử lý quan điểm Nội dung đồ án bao gồm chương Chương 1: Giới thiệu tốn phân tích quan điểm Chương 2: Một số phương pháp trích xếp đặc trưng Chương 3: Giới thiệu chương trình thực nghiệm kết Cuối phần kết luận Đặng Thị Ngọc Thanh CT1201 -3- Đồ án tốt nghiệp Ngành: Công nghệ thơng tin CHƢƠNG 1: BÀI TỐN PHÂN TÍCH QUAN ĐIỂM 1.1 Nhu cầu thông tin quan điểm nhận xét "Những người khác nghĩ" ln ln phần quan trọ giới thiệu thợ khí tự động yêu cầu tài liệu tham khảo liên quan đến xin việc từ đồng nghiệp, tư vấ ngườ ộng lớn Và ngược lạ Theo hai khảo sát 2000 người Mỹ trưởng thành mỗi: 81% người dùng Internet (hoặc 60% người Mỹ) thực hiệ ực tuyến sản phẩm lần; 20% (15% tất người Mỹ) làm ngày Trong số độc giả đánh giá trực tuyến nhà hàng, khách sạ ịch vụ khác (ví dụ như, quan du lịch bác sĩ), 73% 87% báo cáo đánh giá có ảnh hưởng đáng kể mua hàng họ; Người tiêu dùng sẵn sàng trả từ 20% đến 99% mụ cao so với mục đánh giá 32% cung cấp đánh giá sản phẩm, dịch vụ thông qua hệ thống xếp hạng trực tuyến, có 18% cơng dân trực tuyến cao cấp, có đăng bình luận trực tuyến xem xét sản phẩm hay dịch vụ ịch vụ động nhấ ặc thể hiệ ực tuyế Ví dụ, khảo sát 2500 người Mỹ trưởng thành, Rainie Horrigan Đặng Thị Ngọc Thanh CT1201 -4- Đồ án tốt nghiệp Ngành: Công nghệ thông tin 31% người Mỹ - 60 triệu người - 2006 ngườ nghiên , người thu thập thông tin bầu cử năm 2006 trực tuyến trao đổ Trong số này: • 28% nói rằ hoạt động trực tuyế ể ợc quan điểm từ bên cộng đồng họ, 34% cho biết lý để ợc quan điểm từ bên cộng đồng họ • 27% xem đánh giá trực tuyến cho tán thành xếp hạng tổ chức bên ngồi • 28% cho biết hầu hết trang web mà họ sử dụng để chia sẻ quan điểm, 29% nói phần lớn trang web mà họ sử dụng thách thức quan điểm họ, nhiều người không đơn giản tìm kiế xác nhậ ực tuyến bình luận trị riêng họ ằng đa số người sử dụng internet Mỹ ệm tích cự ực tuyến, 58% cho thơng tin trực tuyế t , khó hiể Vì vậ ự quan tâm mà ngườ ng ý kiến trực tuyến sản phẩm dịch vụ ảnh hưở , diễn đàn thảo luận, Với bùng nổ tả peer-to-peer mạng, loại khác củ Đặng Thị Ngọc Thanh CT1201 -5- Đồ án tốt nghiệp Ngành: Công nghệ thông tin • Thống kê Facebook: có 500 triệu người dùng trạng thái hoạt động (active) người có trung bình 130 bạn (friends), trao đổi qua lại 900 triệu đối tượng • Twitter (5/2011): có 200 triệu người dùng Một ngày có 300 nghìn tài khoản mới, trung bình 190 triệu tin nhắn, xử lý trung bình khoảng 1,6 tỷ câu hỏi • Ở Việt Nam: mạng xã hội zing.vn, go.vn … thu hút đông đảo người dùng tham gia ền chia sẻ kinh nghiệm ý kiến riêng họ cực hay tiêu cực Khi công ty lớn ngày nhận ra, tiếng nói người tiêu dùng vận dụng lớn ảnh hưởng việc hình thành ý kiến ngườ ệu ết định mua, vận động cho thương hiệu họ Cơng ty họ đáp ứng với nhữ ời tiêu dùng mà họ tạ ện truyền thông xã hội phân Tuy nhiên, nhà phân tích ngành cơng nghiệp lưu ý việc tận dụng phương tiện truyền thơng cho mụ ình ảnh sản phẩm đòi ệ hỏ Các nhà tiếp thị luôn cần giám sát phương tiện truyền thông cho thông tin liên quan đến thương hiệu cho dù hoạt động quan hệ cơng chúng, vi phạm gian lận, tình báo cạnh tranh Nhưng phân mảnh phương tiện truyề ổi hành vi ngườ ền thống Technorati ước tính 75.000 blog tạo ngày, với 1,2 triệu viết n ều ý kiến người tiêu dùng thảo luận sản phẩm dịch vụ Đặng Thị Ngọc Thanh CT1201 -6- Đồ án tốt nghiệp Ngành: Cơng nghệ thơng tin Vì vậ ệ thống có khả tự độ người tiêu dùng 1.2 Lịch sử phân tích quan điểm khai thác quan điểm (opinion mining) gần thu hút quan tâm rộ ấ ộng nhận thức vấn đề nghiên cứu hộ : • Sự gia tăng phương pháp học máy, xử lý ngôn ngữ tự nhiên khôi phục thông tin • Sự sẵn có củ ữ liệ Internet, cụ thể ật tốn họ ự phát triể • Thực thách thức trí tuệ, thương mại ứng dụ lý tập hợp kết tìm kiếm cho mộ định, sinh danh sách thuộc tính sản phẩm (chất lượ vv) c tổng hợ , ) ụm từ song song củ "ở khía cạnh đị " biểu thị lĩnh vực nghiên cứu 1.3 Nhiệm vụ phân tích quan điểm Phân tích quan điể Có hai hướng : (Sentiment Extraction) Đặng Thị Ngọc Thanh CT1201 -7- Đồ án tốt nghiệp Ngành: Công nghệ thông tin ỹ thuật để : văn bả (tích cực, tiêu cực hay trung lập) : bao gồm nhiệm vụ là: ) Đặng Thị Ngọc Thanh CT1201 -8- Đồ án tốt nghiệp Ngành: Công nghệ thông tin CHƢƠNG 2: PHƢƠNG PHÁP TRÍCH VÀ SẮP XẾP ĐẶC TRƢNG SẢN PHẨM 2.1 Giới thiệu khai thác đặc trƣng Một nhiệm vụ để khai thác quan điểm người biểu thị đặc trưng thực thể Làm để khai thác đặc trưng từ kho ngữ liệu vấn đề quan trọng Đã có số nghiên cứu khai thác đặc trưng ( Hu Liu, 2004; Popescu Etzioni, 2005; Kobayashi v.v , 2007; Scaffidi v.v , 2007; Stoyanov Cardie, 2008; Wong v.v , 2008; Qiu v.v , 2009) Phương pháp Double propagation (truyền kép) (Qiu v.v , 2009) kỹ thuật không giám sát tiên tiến cho việc giải vấn đề Nó chủ yếu trích đặc trưng danh từ, hoạt động tốt ngữ liệu có kích thước trung bình Tuy nhiên, phương pháp nhiều liệu thừa (độ xác thấp), bỏ lỡ đặc trưng quan trọng Để đối phó với hai vấn đề này, Zhang cộng đề xuất phương pháp khai thác đặc trưng Họ cải tiến cho phương pháp Qiu cộng sự., 2009 dựa mẫu phận – toàn mẫu “No” giới thiệu để tăng độ hồi tưởng Bộ phận toàn hay meronymy quan hệ ngữ nghĩa quan trọng NLP, mà nhiều đối tượng phần đối tượng khác Quan hệ hữu ích cho khai thác đặc trưng, biết đối tượng phần lớp sản phẩm, đối tượng cần phải đặc trưng Mẫu “No” mẫu khai thác Dạng từ “No” theo sau danh từ/cụm danh từ Mọi người thường biểu thị bình luận ngắn hay quan điểm họ đặc trưng sử dụng mẫu Cả hai kiểu mẫu giúp tìm thấy đặc trưng bị lan truyền Đối với vấn đề độ xác thấp, họ giới thiệu đặc trưng cấp phương pháp tiếp cận để giải Họ xếp đặc trưng ứng cử viên dựa vào quan trọng họ bao gồm hai yếu tố: mức độ liên quan tần suất Đặng Thị Ngọc Thanh CT1201 -9- Đồ án tốt nghiệp Ngành: Công nghệ thông tin đặc trưng Ý tưởng xếp tầm quan trọng đặc trưng ứng cử viên đặc trưng xác thường xuyên đề cập kho ngữ liệu, cần phải xếp cao, khơng phải kết xếp thấp kết cuối Tần suất đặc trưng tần suất xuất đặc trưng kho ngữ liệu, mà dễ dàng để tồn Tuy nhiên, đánh giá thích hợp đặc trưng thách thức Họ mẫu hóa vấn đề đồ thị hai nhánh sử dụng trang Web tiếng sử dụng giải thuật HITS (Kleinberg, 1999) tới tìm kiếm tầm quan trọng đặc trưng xếp đặc trưng Thử nghiệm họ kết cho thấy trình diễn vượt trội Trong thực tế ứng dụng, họ tin xếp quan trọng khai thác đặc trưng xếp giúp người sử dụng khám phá đặc trưng quan trọng từ hàng trăm kết ứng cử viên có đặc trưng hiệu 2.2 Một số phƣơng pháp khai thác đặc trƣng Hu Liu (2004) áp dụng việc gán nhãn từ loại kĩ thuật xử lý ngôn ngữ tự nhiên nhằm rút tính từ từ quan điểm Ý tưởng người thường sử dụng từ ngữ giống họ bình luận đặc trưng sản phẩ : - Định nghĩa câu mà chứa hay nhiều dấu hiệu sản phẩm từ quan điểm xem câu quan điểm - ỗi câu liệu quan điểm, rút tất tính từ coi từ quan điểm - Kết thực nghiệm việc rút câu đánh giá quan điểm có độ xác (precision) khoảng 64.2% recall 69.3% - Sử dụng WordNet (Fellbaum, 1998) để xác định tính từ rút mang chiều hướng tích cực (positive) hay tiêu cực (negative) Đặng Thị Ngọc Thanh CT1201 - 10 - Đồ án tốt nghiệp Ngành: Công nghệ thông tin nhánh Ý tưởng ứng cử viên đặc trưng có điểm quyền hạn cao, phải đặc trưng có liên quan cao Nếu dẫn đặc trưng có điểm trung tâm cao, phải dẫn đặc trưng tốt Hình 2: Mối quan hệ số đặc trưng đặc trưng 2.3.5 Sắp xếp đặc trƣng Mặc dù thuật tốn HITS xếp đặc trưng dựa vào thích hợp đặc trưng, xếp cuối khơng xác định dựa vào thích hợp Tần suất đặc trưng nhân tố quan trọng khác ảnh hưởng đến thứ hạng cuối Mong muốn cao để xếp chúng xác đặc trưng thường xuyên nằm trên, chúng quan trọng so với đặc trưng xảy khai thác quan điểm (hoặc chí ứng dụng khác) Với ý kiến này, tác giả đặt tất chúng với để trình bày thuật toán mà họ sử dụng Họ sử dụng hai bước: Bƣớc 1: Tính tốn điểm đặc trưng sử dụng HITS mà không cần xem xét tần suất Khởi tạo, họ sử dụng ba dẫn đặc trưng để xác định ứng cử viên đặc trưng, từ tạo thành đồ thị hai nhánh Mỗi ứng cử viên đặc trưng đóng vai trị nút quyền hạn đồ thị, dẫn đặc trưng đóng vai trị nút trung tâm Đối với nút s đồ thị, họ cho HS điểm trung tâm AS điểm quyền hạn Sau đó, họ khởi tạo HS AS từ đến tất nút đồ thị Họ cập nhật điểm HS AScho đến chúng hội tụ Đặng Thị Ngọc Thanh CT1201 - 25 - Đồ án tốt nghiệp Ngành: Công nghệ thông tin cách sử dụng vịng lặp Cuối cùng, họ chuẩn hóa AS tính tốn điểm S cho đặc trưng Bƣớc 2: Hàm điểm cuối xem xét tần suất đặc trưng đưa phương trình (6) Trong freq(f) đếm tần suất đặc trưng f, S(f) số điểm quyền hạn ứng cử viên đặc trưng f Ý tưởng đẩy vào đặc trưng ứng cử viên thường xuyên cách nhân với logarit tần suất Giá trị logarit sử dụng để giảm ảnh hưởng số đếm tần suất lớn 2.4 Kết thảo luận 2.4.1 Tập liệu Họ sử dụng bốn tập liệu khác để đánh giá kỹ thuật đề xuất Chúng thu từ công ty thương mại cung cấp dịch vụ khai thác quan điểm Bảng cho thấy lĩnh vực số câu liệu Dữ liệu "Cars" "Mattress" nhận xét sản phẩm trích từ số trang web nhận xét trực tuyến "Phone" "LCD" thảo luận diễn đàn rút từ số trang web diễn đàn trực tuyến Họ chia nhỏ nhận xét/bài viết thành câu câu được gán nhãn từ loại cách sử dụng Brill's tagger (Brill, 1995) Các câu dán nhãn đầu vào cho hệ thống tác giả Các tập liệu Cars Mattress Phone LCD Số câu 2223 13233 15168 1783 Bảng Thử nghiệm tập liệu 2.4.2 Đánh giá số liệu Bên cạnh độ xác hồi tưởng, họ áp dụng độ xác số liệu (precision@N metric) cho đánh giá thử nghiệm (Liu, 2006) Nó cung cấp tỷ lệ Đặng Thị Ngọc Thanh CT1201 - 26 - Đồ án tốt nghiệp Ngành: Cơng nghệ thơng tin đặc trưng xác nằm số N ứng cử viên đặc trưng hàng đầu danh sách xếp Họ so sánh phương pháp họ với kết phương pháp double propagation mà ứng cử viên trích tần xuất xuất 2.4.3 Kết thử nghiệm Đầu tiên họ so sánh kết họ với double propagation hồi tưởng độ xác cho kích thước kho ngữ liệu khác Kết trình bày Bảng 3, 4, cho bốn tập hợp liệu Họ đưa độ xác hồi tưởng 1000, 2000, 3000 câu từ tập liệu Họ khơng thử nhiều tự kiểm tra tay hồi tưởng xác trở nên khó khăn Có 3000 câu cho tập liệu "Cars" "LCD" Vì vậy, cột cho "Cars" "LCD" rỗng Bảng Trong bảng, "DP" đại diện cho phương pháp double propagation; "Ours" đại diện cho phương pháp đề xuất họ; "Pr" đại diện cho xác, "Re" đại diện hồi tưởng Cars Mattress Phone LCD Pr Re Pr Re Pr Re Pr Re DP 0.79 0.55 0.79 0.54 0.69 0.23 0.68 0.43 Ours 0.78 0.56 0.77 0.64 0.68 0.44 0.66 0.55 Bảng Kết 1000 câu Cars Mattress Phone LCD Pr Re Pr Re Pr Re Pr Re DP 0.70 0.65 0.70 0.58 0.67 0.42 0.64 0.52 Ours 0.66 0.69 0.70 0.66 0.70 0.50 0.62 0.56 Bảng Kết 2000 câu Đặng Thị Ngọc Thanh CT1201 - 27 - Đồ án tốt nghiệp Ngành: Công nghệ thông tin Cars Mattress Phone Pr Re Pr Re DP 0.65 0.59 0.64 0.48 Ours 0.66 0.67 0.62 0.51 LCD Bảng Kết 3000 câu Từ bảng, thấy tất miền, phương pháp họ thực tốt double propagation hồi tưởng với mát nhỏ xác Trong tập liệu cho "Phone" "Mattress", độ xác chí cịn tốt Họ thấy với gia tăng kích thước liệu, khoảng cách độ hồi tưởng hai phương pháp trở nên nhỏ dần độ xác hai phương pháp giảm Tuy nhiên, trường hợp này, xếp đặc trưng đóng vai trị quan trọng phát đặc trưng quan trọng So sánh xếp hai phương pháp thể Bảng 6, 7, 8, cung cấp độ xác kết 50, 100 200 tương ứng Lưu ý thực nghiệm báo cáo bảng chạy toàn tập liệu Khơng có nhiều kết cho liệu "LCD" vượt tốp 200 có số giới hạn đặc trưng thảo luận liệu Vì vậy, cột "LCD" Bảng rỗng Họ xếp ứng cử viên đặc trưng trích dựa tần suất cho phương pháp double propagation (DP) Sử dụng tần suất xuất cách tự nhiên để xếp đặc trưng Một đặc trưng thường xuyên xuất kho ngữ liệu, quan trọng Tuy nhiên, xếp dựa tần suất giả thuyết ứng cử viên trích đặc trưng xác Các bảng cho thấy phương pháp đề xuất họ (Ours) nhanh so với double propagation đáng kể Lý số ứng cử viên đặc trưng có tần suất xuất thường xun cao trích double propagation khơng phải đặc trưng Phương pháp họ xem xét liên quan đặc trưng nhân tố quan trọng Vì vậy, cho xếp Đặng Thị Ngọc Thanh CT1201 - 28 - Đồ án tốt nghiệp Ngành: Công nghệ thông tin tốt Cars Mattress Phone LCD DP 0.84 0.81 0.64 0.68 Ours 0.94 0.90 0.76 0.76 Bảng Độ xác top 50 Cars Mattress Phone LCD DP 0.82 0.80 0.65 0.68 Ours 0.88 0.85 0.75 0.73 Bảng Độ xác top 100 Cars Mattress Phone DP 0.75 0.71 0.70 Ours 0.80 0.79 0.76 LCD Bảng Độ xác top 200 Đặng Thị Ngọc Thanh CT1201 - 29 - Đồ án tốt nghiệp Ngành: Công nghệ thông tin CHƢƠNG 3: THỰC NGHIỆM 3.1 Công cụ gán nhãn từ loại Stanford Parser 3.1.1 Giới thiệu Phân tích cú pháp ngơn ngữ tự nhiên chương trình hoạt động dựa vào cấu trúc ngữ pháp câu, ví dụ, với nhóm từ (như “phrases”) với từ chủ đề đối tượng động từ Xác xuất phân tích cú pháp sử dụng kiến thức ngơn ngữ có từ phân tích câu thủ cơng để tìm cách sản suất phân tích có khả câu Thống kê phân tích cú pháp số sai lầm, thường làm việc tốt Phát triển họ bước đột phá lớn việc xử lý ngôn ngữ tự nhiên năm 1990 Stanford biểu diễn kiểu phụ thuộc thiết kế để cung cấp mô tả đơn giản mối quan hệ ngữ pháp câu dễ dàng hiểu hiệu sử dụng người khơng có chun mơn ngơn ngữ học, người muốn trích xuất văn quan hệ Gói sản phẩm cài đặt Java xác suất phân tích cú pháp ngơn ngữ tự nhiên, PCFG tối ưu hố cao phân tích cú pháp từ vựng phụ thuộc, phân tích cú pháp từ vựng PCFG Các phiên gốc phân tích cú pháp chủ yếu viết Dan Klein, với mã hỗ trợ phát triển ngữ pháp ngôn ngữ Christopher Manning Mở rộng thêm công việc (quốc tế mẫu ngôn ngữ cụ thể, đầu vào / đầu linh hoạt, ngữ pháp nén chặt, mạng tinh thể phân tích cú pháp, k-phân tích cú pháp tốt nhất, đánh máy phụ thuộc đầu ra, hỗ trợ người dùng, vv) thực Roger Levy, Christopher Manning, TeG Grenager, Galen Andrew, Marie-Catherine de Marneffe, Bill MacCartney, Anna Rafferty, Spence Green, Huihsin Tseng, Pi-Chuan Chang, Wolfgang Maier, Jenny Finkel Phiên phân tích cú pháp yêu cầu Java (JDK1.6) phiên sau (Bạn tải phiên cũ phân tích cú Đặng Thị Ngọc Thanh CT1201 - 30 - Đồ án tốt nghiệp Ngành: Công nghệ thông tin pháp, phiên 1.4, chạy theo JDK 1.4 phiên 2.0 mà chạy theo JDK 1.5, nhiên phiên cũ hỗ trợ) Phân tích cú pháp đòi hỏi dung lượng hợp lý nhớ (tại 100MB để chạy phân tích cú pháp PCFG câu lên đến 40 từ chiều dài, thường khoảng 500MB nhớ để phân tích cú pháp tương tự điển hình-của-Newswire câu cách sử dụng mẫu yếu tố) 3.1.2 Cách sử dụng ết kế sử dụng từ dịng lệnh lậ Có thể sử dụng phương pháp sau: Trên hệ thống Windows, bạn chạy giao diện phân tích cú pháp cách nhấp đúp vào biểu tượng lexparser-gui.bat, đưa lệnh lexparser-gui thư mục từ dấu nhắc lệnh  Nhấp Load File, Browse, điều hướng đến chọn testsent.txt  Nhấp Load Parser, Browse chọn thư mục tương tự mẫu jar Từ mẫu jar chọn englishPCFG.ser.gz  Nhấp Parser để bắt đầu phân tích câu Trên hệ thống Ubuntu, đưa lệnh lexparser thư mục từ dấu nhắc lệnh: sh lexparser.sh file_dữ_liệu_nguồn > file_đích 3.2 Chƣơng trình thực nghiệm 3.2.1 Bài toán Input: Cho tập hợp câu văn đánh giá có quan điểm sản phẩm đối tượng Output: Tập từ quan điểm đặc trưng trích chọn xếp Đặng Thị Ngọc Thanh CT1201 - 31 - Đồ án tốt nghiệp Ngành: Công nghệ thông tin 3.2.1.1 Bộ liệu 500 nhận xét để trích đặc trưng quan điểm đặc trưng sản phẩm 3.2.1.2 Phương pháp Khai thác đặc trưng cho thực thể nhiệm vụ quan trọng nhiệm vụ khai thác quan điểm Thuật toán gồm bước: Gán nhãn từ loại công cụ stanford parser Xác định câu có chứa hay nhiều dấu hiệu sản phẩm hay từ quan điểm xem câu quan điểm Trích chọn đặc trưng  Với câu liệu quan điểm, rút tất danh từ / cụm danh từ coi từ đặc trưng tính từ coi từ quan điểm.Các quan điểm đặc trưng trích sử dụng để xác định quan điểm đặc trưng Quá trình lặp lặp lại khơng thể tìm thấy từ quan điểm hay đặc trưng kết thúc  Dựa vào mối quan hệ ngữ nghĩa quan điểm đặc trưng để xác định đặc trưng quan điểm liệu Áp dụng phân tích cú pháp phụ thuộc dựa vào ngữ pháp phụ thuộc Sử dụng luật Qiu cộng sự, 2009: - R1i để trích từ quan điểm (s) sử dụng từ quan điểm words (Si) - R2i để trích từ quan điểm (s) sử dụng đặc trưng (F) Đặng Thị Ngọc Thanh CT1201 - 32 - Đồ án tốt nghiệp Ngành: Công nghệ thông tin - R3i để trích đặc trưng (f) sử dụng từ quan điểm (S) - R4i để trích đặc trưng (f) sử dụng đặc trưng trích (Fi) Sắp xếp đặc trưng sản phẩm áp dụng giải thuật HITS  Các đặc trưng đóng vai điểm quyền hạn số đặc trưng đóng vai điểm trung tâm Khác từ thuật tốn HITS chung, đặc trưng có điểm quyền hạn đặc trưng có điểm trung tâm trường hợp họ  Hình thành đồ thị hai nhánh định hướng Chạy thuật toán HITS đồ thị hai nhánh Ý tưởng ứng cử viên đặc trưng có điểm quyền hạn cao, phải đặc trưng có liên quan Nếu đặc trưng có số điểm trung tâm cao, phải số đặc trưng tốt 3.2.2 Thực nghiệm Các luật, mẫu dựa mối quan hệ hai từ sử dụng để trích từ quan điểm hay đặc trưng: - conjunctions (word1_JJ, word2_JJ) Vd: Here 's the brief synopsis : the phone is tiny , cute , feels kind of " plastic-like " ( as if it might break ) , but seems pretty sturdy conj_but(tiny_JJ, sturdy_JJ) - {MR} (word1_JJ/NN, word2_JJ/NN) Trong đó: {MR} bao gồm mối quan hệ phụ thuộc mô tả mối quan hệ, thí dụ như: mod, subj, obj,  Vd: I am a business user who heavily depend on mobile service amod(service_NN, mobile_JJ) Đặng Thị Ngọc Thanh CT1201 - 33 - Đồ án tốt nghiệp Ngành: Công nghệ thông tin  Vd: After years with that carrier 's expensive plans and horrible customer service , portability seemed heaven-sent amod(plans_NNS, expensive_JJ); amod(service_NN, horrible_JJ); nsubj(heaven-sent_NN, portability_NN) - conjunctions (word1_NN, word2_NN) Vd: My favorite features , although there are many , are the speaker phone , the radio and the infrared conj_and(phone_NN, radio_NN); conj_and(phone_NN, infrared_NN) - NP + Prep + CP : danh từ / cụm từ danh từ (NP) chứa đựng từ phận cụm khái niệm lớp (CP) có chứa từ tồn Chúng nối giới từ (Prep), thí dụ, “of”, “in”, “on”, “about”,… Vd: There is much which has been said in other reviews about the features of this phone , it is a great phone , mine worked without any problems right out of the box prep_in(said, reviews); prep_about(said, features); prep_of(features, phone); prep_without(worked, problems); … - CP + with + NP: CP cụm khái niệm lớp, NP cụm danh từ / danh từ Chúng nối với từ "with" Vd: The speaker phone is very functional and i use it in the car , very audible even with freeway noise prep_with(audible_JJ, noise_NN) - NP CP hay CP NP: danh từ / cụm danh từ (NP) cụm khái niệm lớp (CP) tạo thành từ ghép Ví dụ, "mattress pad" "Pad" đặc trưng "mattress" - CP Verb NP: CP cụm khái niệm lớp có chứa từ tồn bộ, NP cụm danh từ có chứa từ phận động từ có giới hạn xác Đặng Thị Ngọc Thanh CT1201 - 34 - Đồ án tốt nghiệp Ngành: Công nghệ thông tin định Sử dụng động từ thể để tìm quan hệ phận - tồn câu, thí dụ, "has", "have" "include" "contain" "consist", “comprise”,… 3.2.3 Kết Chương trình thử nghiệm trích đặc trưng sản phẩm nhận xét cho đặc trưng dựa theo luật mẫu phận – tồn Giao diện chương trình Mở file liệu: Đặng Thị Ngọc Thanh CT1201 - 35 - Đồ án tốt nghiệp Ngành: Công nghệ thơng tin Trích đặc trưng: Đặng Thị Ngọc Thanh CT1201 - 36 - Đồ án tốt nghiệp Ngành: Công nghệ thông tin KẾT LUẬN ề ểm vấn đề đặt với tốn Tìm hiểu kỹ phương pháp trích xếp đặc trưng sản phẩm tài liệu chứa quan điểm tìm hiểu đặc trưng ngơn ngữ dùng cho tốn trích đặc trưng như: phân tích cú pháp, gán nhãn từ loại cho ngôn ngữ ắp xếp đặc trưng sản phẩm tài liệu chứa quan điểm 500 nhận xét để trích đặc trưng quan điểm đặc trưng sản phẩm ặ xếp đặ Đặng Thị Ngọc Thanh ắp xế CT1201 - 37 - Đồ án tốt nghiệp Ngành: Công nghệ thông tin ! Đặng Thị Ngọc Thanh CT1201 - 38 - Đồ án tốt nghiệp Ngành: Công nghệ thông tin TÀI LIỆU THAM KHẢO Tiếng Việt: Ths Nguyễn Thị Xuân Hương Ths Lê Thuỵ, Phân tích quan điểm số tiếp cận, Hội nghị khoa học CNTT lần thứ nhất, 2012 Nguyễn Mạnh Đức, Tìm hiểu khai thác quan điểm phân loại quan điểm mức câu, Khoá luận tốt nghiệp hệ đại học ngành Công nghệ thông tin, Đại học Dân lập Hải Phòng, 2011 Tiếng Anh: Extracting and Ranking Product Features in Opinion Documents Lei Zhang, Bing Liu, Suk Hwan Lim and Eamonn O’Brien-Strai, 2010 Expanting Domain Sentiment Lexicon through Double Propagation Guang Qiu, Bing Liu, Jiajun Bu and Chun Chen, 2009 http://nlp.stanford.edu/software/lex-parser.shtml http://www.cs.uic.edu/~liub/FBS/FBS.html http://nlp.stanford.edu/software/stanford-dependencie s.shtml Đặng Thị Ngọc Thanh CT1201 - 39 - ... vấn đề đặt với tốn Tìm hiểu kỹ phương pháp trích xếp đặc trưng sản phẩm tài liệu chứa quan điểm tìm hiểu đặc trưng ngơn ngữ dùng cho tốn trích đặc trưng như: phân tích cú pháp, gán nhãn từ loại... điểm .Các quan điểm đặc trưng trích sử dụng để xác định quan điểm đặc trưng Quá trình lặp lặp lại khơng thể tìm thấy từ quan điểm hay đặc trưng kết thúc  Dựa vào mối quan hệ ngữ nghĩa quan điểm đặc trưng. .. cú pháp, gán nhãn từ loại cho ngôn ngữ ắp xếp đặc trưng sản phẩm tài liệu chứa quan điểm 500 nhận xét để trích đặc trưng quan điểm đặc trưng sản phẩm ặ xếp đặ Đặng Thị Ngọc Thanh ắp xế CT1201

Ngày đăng: 05/08/2021, 22:04

Tài liệu cùng người dùng

Tài liệu liên quan