Tóm tắt văn bản trên cơ sở phân loại ý kiến độc giả của báo mạng tiếng Việt

9 6 0
Tóm tắt văn bản trên cơ sở phân loại ý kiến độc giả của báo mạng tiếng Việt

Đang tải... (xem toàn văn)

Thông tin tài liệu

Muốn biết ý kiến của người dùng về một mặt hàng, hoặc của cộng đồng về một vấn đề nóng trong xã hội,…, cách tốt nhất trong thời đại bùng nổ thông tin trên internet và mạng xã hội, là khai thác thông tin một cách hiệu quả từ những nguồn này. Mỗi ý kiến không chỉ là một thông tin đơn thuần, mà còn chứa cả cảm xúc của người viết.

TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 19, SỐ K5- 2016 Tóm tắt văn sở phân loại ý kiến độc giả báo mạng tiếng Việt  Nguyễn Ngọc Duy  Phan Thị Tươi Học viện Cơng nghệ Bưu Viễn thơng Cơ sở Tp.HCM Trường Đại học Bách khoa, ĐHQG-HCM (Bản nhận ngày 01 tháng 03 năm 2016, hoàn chỉnh sửa chữa ngày 06 tháng 09 năm 2016) ABSTRACT Muốn biết ý kiến người dùng mặt vấn đề tóm tắt thông tin cần nghiên cứu giải hàng, cộng đồng vấn đề nóng xã hội,…, cách tốt thời đại bùng quyết, khía cạnh quan điểm cảm xúc ý kiến nổ thông tin internet mạng xã hội, khai thác thông tin cách hiệu từ nguồn Mỗi ý kiến không thơng tin đơn thuần, mà cịn chứa cảm xúc người viết Do đó, chúng tạo nên luồng dư luận tác động đến cộng đồng mạng Đây thật nguồn tài nguyên khổng lồ, có ý nghĩa to lớn nhiều lĩnh vực – từ kinh tế, trị đến văn hóa xã hội – có phương pháp khai thác thơng tin hiệu Một hệ thống tự động để phân loại ý kiến dựa cảm xúc cần thiết để khai thác hiệu nguồn tài nguyên Để hỗ trợ Hướng đến mục tiêu khai thác hiệu nguồn tài nguyên, báo giới thiệu mô hình tóm tắt văn bản, khơng dựa vào ngữ nghĩa mà dựa yếu tố cảm xúc Chúng tơi xây dựng mơ hình tổng qt để giải toán Từ phương pháp phân tích ý kiến tóm tắt văn mà nhiều cơng trình nghiên cứu sử dụng, báo kết hợp phát triển phương pháp để tóm tắt văn tiếng Việt sở phân loại cảm xúc Các văn tóm tắt trang báo mạng tiếng Việt người sử dụng khai thác thơng tin hiệu hơn, Từ khóa: phân loại ý kiến, phân tích ý kiến, tóm tắt ý kiến, tóm tắt văn GIỚI THIỆU Internet mạng xã hội phát triển mang lại lĩnh vực liên quan đến cộng đồng trước nhiều lợi ích cho người dùng Trên mạng xã hội người thể ý kiến, cảm xúc, định Nếu nhận diện ý kiến cộng đồng đối tượng, vấn đề chúng mà bị ràng buộc yêu cầu chuẩn mực từ văn phạm Đó nguồn tài nguyên lớn để khai ta có định hiệu hoạt động kinh tế, trị, xã hội, … Khai thác thác cho cá nhân, tổ chức hoạt động nguồn tài nguyên cần có hỗ trợ khoa Trang 53 SCIENCE & TECHNOLOGY DEVELOPMENT, Vol 19, No.K5- 2016 học, công nghệ với công cụ tự động thống kê tóm tắt thơng tin, hỗ trợ hiệu hòa) negative, dựa vào tính từ gắn với đặc tính kỹ thuật Sau đó, thống kê ý kiến trình định Từ nhu cầu đó, chúng tơi nghiên cứu xây dựng hệ thống “Tóm tắt ý kiến lớp cho đặc tính kỹ thuật điện thoại [5] có kết tốt: độ xác đạt sở phân loại cảm xúc” Đối tượng chúng 56.60% - 77.12%, độ truy hồi (recall) đạt 48% - xử lý ý kiến độc giả trang báo mạng 78.23% độ F đạt 52.30% - 77.45% tùy loại điện thoại Tuy nhiên, [4] [5] dừng lại Phần báo tổ chức sau: Phần chúng tơi thảo luận cơng trình liên quan; phần nói phương pháp tiếp cận chúng tơi để tóm tắt ý kiến dựa phân tích cảm xúc; phần kết thử nghiệm; phần 5, chúng tơi có kết luận đưa hướng phát triển CÔNG TRÌNH LIÊN QUAN việc thống kê theo kết phân cực cảm xúc, chưa hỗ trợ khai thác thông tin hiệu việc tóm tắt đánh giá dựa cảm xúc TĨM TẮT Ý KIẾN TRÊN CƠ SỞ PHÂN LOẠI Ý KIẾN 3.1 Phân loại ý kiến Ý kiến (cảm xúc) thường thể Nội dung báo liên quan đến nhiều vấn đề nghiên cứu giới Phân cách tinh tế, nên xác định cảm xúc khó xác định chủ đề văn Khơng đơn giản xác loại văn bản, tóm tắt văn nghiên cứu nhiều, có tiếng Việt Tương tự toán định cảm xúc mà dựa vào câu, hay thành phần văn Việc xác định cảm gán nhãn, xác định đối tượng văn bản, xúc thường không dựa vào tần suất xuất … Hướng phân tích ý kiến (cảm xúc) quan tâm Hướng nghiên cứu với tiếng thực thể cảm xúc, mà dựa nhiều yếu tố từ loại, ngữ cảnh xuất chúng, … Anh đầu năm 2000, có nhiều kết tốt [1] Các lĩnh vực nghiên cứu theo hướng giải trí (bình phim), thương mại (bình sản phẩm), xã hội (việc làm), … Bài báo đề xuất mơ hình tóm tắt ý kiến sở phân loại cảm xúc, hình Các ý kiến văn thể suy nghĩ chủ quan độc giả vấn đề đối tượng Bài Các tác giả [2] thực nghiệm phân thành ba báo Các văn chuẩn mực từ mức (cao, trung bình thấp) cho cảm xúc: tích cực, tiêu cực (positive, negative) Kho ngữ văn phạm Vì vậy, mơ hình phải tiến hành chuẩn hóa văn cho Tập văn thông tin tách liệu [2] 51 blog tiếng Anh Kết có độ xác cao, 90% Hệ phân tích cảm câu mơ đun Tiền xử lý Sau đó, chúng rút trích đặc trưng cảm xúc Mơ đun Phân xúc hệ tóm tắt văn tách biệt, xử lý phân tích cảm xúc trước tóm tắt loại cảm xúc phân chúng vào lớp cảm xúc positive, negative neutral Giá trị cảm xúc cần Cơng trình [4] [5] thực phân loại cảm xúc văn tiếng Việt [5] cải tiến [4], phân loại đánh giá cho đặc tính kỹ thuật (mạng, hình, giá, …) số điện thoại thông minh (smartphone) Các đánh giá phân vào lớp positive, neutral (trung Trang 54 khai thác positive negative Mô đun Tóm tắt tóm tắt ý kiến thuộc hai lớp dựa đặc trưng cảm xúc chúng, kết hợp đặc trưng ngữ nghĩa rút trích dựa theo Bài báo Bài báo kết hợp đặc trưng cảm xúc đặc trưng ngữ nghĩa để TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 19, SỐ K5- 2016 tóm tắt có súc tích bên cạnh chiều cảm xúc, giúp khai thác hiệu thông tin Do ý kiến độc giả khác nhau, tóm tắt độc lập ý kiến, khơng liên hệ chúng với ngữ nghĩa, cảm xúc Hệ thống đề xuất q trình khép kín, nên mơ đun Tóm tắt xử lý tóm tắt văn (ý kiến) phân cực cảm xúc, mà khơng xét tính đắn q trình phân cực Tập văn thông tin Tiền xử lý Rút trích đặc trưng Tập ý kiến “positive” Phân loại cảm xúc Tập ý kiến “negative” 3.1.1 Từ điển cảm xúc Đây thành phần quan trọng hệ thống phân tích cảm xúc Tuy nhiên, việc xây dựng từ điển cảm xúc cơng việc cần nhiều Tóm tắt Bài báo công sức thời gian Hiện chưa có từ điển cảm xúc tiếng Việt chuẩn dùng cho nghiên cứu Tập văn tóm tắt, tổng hợp Để có từ điển cảm xúc, chúng tơi chuyển ngữ sang tiếng Việt từ điển cảm xúc tiếng Anh cơng trình [3], có mở rộng từ điển Hình 1: Mơ hình hệ thống Tóm tắt ý kiến sở phân loại cảm xúc q trình thực nghiệm Từ điển có 21.000 mục từ gán trọng số cảm xúc 3.1.3 Phân loại cảm xúc 3.1.2 Rút trích đặc trưng cảm xúc loại cảm xúc phương pháp Nạve Bayes Sau đó, mơ hình hóa tập đặc trưng cảm xúc Để rút trích đặc trưng cảm xúc, báo thực phương pháp Đối sánh thực thể dài (Maximum Matching) [6] Đây phương pháp tương đối dễ cài đặt, tốc độ cao, độ xác chấp nhận được, với đối tượng văn không chuẩn ý kiến mạng xã hội Phương pháp dựa từ điển tiếng Việt, gồm từ cụm từ sau gọi chung thực thể Có hai phương pháp Đối sánh thực thể dài đối sánh từ trái qua phải đối sánh từ phải qua trái Bài báo sử dụng phương pháp Đối sánh thực thể dài từ phải qua trái, dựa vào từ điển mô tả 3.1.1 Qua thực nghiệm, phương pháp cho thấy hiệu với tiếng Việt Đầu tiên, câu ý kiến phân câu thành vector Tiếp theo, chuẩn hóa vector chiều, tổng hợp thành vector đặc trưng cho lớp cảm xúc cách tính tổng vector Cuối xây dựng vector đặc trưng cảm xúc cho văn Quá trình chuẩn hóa ba vector:  Vector tổng (G): vector chứa tất đặc trưng cảm xúc ý kiến Các phần tử cảm xúc G có thứ tự văn gốc  Vector lớp tích cực P (positive): vector tập hợp tất đặc trưng cảm xúc có thứ tự văn gốc, phần tử vector lớp negative suy biến  Vector lớp tiêu cực N (negative): vector Trang 55 SCIENCE & TECHNOLOGY DEVELOPMENT, Vol 19, No.K5- 2016 tập hợp tất đặc trưng cảm xúc có thứ tự văn gốc, phần tử Khi tóm tắt văn cảm xúc, chúng tơi đánh giá độ quan trọng câu không trọng vector lớp positive suy biến số cảm xúc mục từ từ điển cảm xúc, mà thành phần ngữ nghĩa xem xét Mô Để phân cực cảm xúc cho văn bản, tính độ tương đồng G, P N theo cặp: Sim(G, P) Sim(G, N) theo công thức (3.1): X Y Sim( X ,Y ) Co sin( X ,Y )   | X |.|Y | n  xi yi i 1 n n  xi  yi i 1 i 1 (3.1) Trong X, Y vector với: X = {x1, x2, …, xn}, Y = {y1, y2, …, yn} So sánh hai giá trị độ tương đồng cặp vector để xác định G tương đồng với P N Vector G tương đồng với vector thành phần có giá trị độ tương đồng lớn Nếu hai giá trị xếp ý kiến vào lớp trung hịa (neutral) 3.2 Tóm tắt văn Mỗi ý kiến độc giả khác thường ngắn gọn Nhưng số lượng ý kiến lớn Do đó, việc tóm tắt ý kiến cần thiết cho khai thác thông tin Chúng dùng phương pháp tóm tắt rút trích (Extract Summarization) để tóm tắt ý kiến Việc lượng giá độ quan trọng hình đề xuất thử nghiệm phương pháp kết hợp yếu tố cảm xúc yếu tố ngữ nghĩa (nội dung) ý kiến để đánh giá độ quan trọng câu ý kiến Từ đó, mơ hình chọn câu quan trọng cho tóm tắt Để xác định yếu tố ngữ nghĩa, thực thể quan trọng Bài báo rút trích phương pháp mô tả phần 3.1.2 Các thực thể rút trích đối tượng có tên thực thể xem quan trọng, xuất từ lần trở lên, làm thành tập thực thể có yếu tố ngữ nghĩa, đặc trưng cho đối tượng chủ đề dùng cho tóm tắt ý kiến khía cạnh nội dung Rút trích đối tượng có tên tốn phức tạp Chúng xem báo văn chuẩn mực Tức là, xác suất cao đối tượng có tên viết hoa Do đó, chúng tơi rút trích đối tượng đặt tên theo nguyên tắc từ viết hoa Do đặc trưng đặt gọi tên tiếng Việt, đối tượng có tên cụm từ gọi hai từ sau cùng, tính từ phải qua trái dựa theo trọng số thực thể đặc trưng cảm xúc đặc trưng ngữ nghĩa Bản tóm tắt Ví dụ: Đối tượng “Vũ Lê Ngơ” gọi “Ngơ”, “Lê Ngơ”, hay đầy đủ “Vũ Lê câu có độ quan trọng cao, số lượng câu tùy Ngơ” Do đó, với đối tượng có tên, chúng tơi tạo tập gồm từ cụm từ kết hợp thuộc tỷ lệ rút gọn thiết lập cho hệ thống 3.3 Tóm tắt ý kiến dựa phân loại cảm xúc từ phải qua trái Cụ thể, với “Vũ Lê Ngơ” tập {“Ngơ”, “Lê Ngơ”, “Vũ Lê Ngơ”} Theo mơ hình hình 1, mơ đun Tóm tắt làm việc sau q trình phân cực cảm xúc Mơ đun Để rút trích câu có nội dung quan trọng rút gọn ý kiến có nội dung dài, đế khai thác chúng hiệu hơn, mà không làm thay đổi kết phân lớp q trình trước Trang 56 cho tóm tắt, chúng tơi dựa vào hai tiêu chí: Tiêu chí ngữ nghĩa thực thể  Các đại từ như: anh, chị, ông, bà, anh ấy, ông ấy, chúng nó, họ, …được bổ sung vào tập TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 19, SỐ K5- 2016 thực thể đặc trưng cho đối tượng có tên Bài báo Cùng với đối tượng có tên, đại từ xuất câu làm nội dung ý kiến hướng đến đối tượng chủ đề rõ ràng  Chúng không quan tâm đến tần suất xuất thực thể ngữ nghĩa ý kiến Mỗi thực thể xuất gán giá trị (1) vào tập thực thể đặc trưng ngữ nghĩa câu  Các câu có nhiều yếu tố nội dung (liên kết đến báo chủ đề) cần đánh giá cao chọn lựa để rút trích Tiêu chí trọng số cảm xúc Do trọng số cảm xúc thực thể có giá trị âm dương, nên tóm tắt, câu có nhiều thực thể cảm xúc (dương âm), ưu tiên chọn Tiêu chí đạt hệ thống lấy độ lớn trọng số cảm xúc Cụm từ có mức cảm xúc cao quan trọng Chủ đề nhấn mạnh xuất thường xuyên từ khóa định, cịn cảm xúc tổng thể khơng tăng lên lặp lại xuất số thực thể Do đó, câu có số lượng thực thể cảm xúc, chúng lại có vai trò lớn (trọng số cảm xúc cao) cần chọn cho tóm tắt để cung cấp thêm thơng tin cảm xúc Để hệ thống ghi nhận yếu tố này, cần khuếch đại trọng số cảm xúc phép bình phương trọng số cảm xúc trước tính tổng Từ tiêu chí phân tích trên, báo đề xuất cơng thức (3.2) tính độ quan trọng câu: Gọi: x1, x2, …, xn trọng số ngữ nghĩa thực thể câu, y1, y2, …, yn trọng số cảm xúc thực thể câu Độ quan trọng câu xác định theo công thức:   n n W   xi   yi2 i 1 i 1 (3.2) Xét ý kiến ví dụ điện thoại Passport hãng BlackBerry: “Chiếc Passport ấn tượng từ nhìn Phong cách thiết kế lịch lãm, hút cá tính làm cho BlackBerry không lẫn với ” Các đặc trưng ngữ nghĩa, cảm xúc trọng số chúng câu ý kiến sau:  Câu 1: x1 = (“Passport”), y1 = (“cực kỳ ấn tượng”)  Câu 2: x1 = (“BlackBerry”); y1 = (“lịch lãm”), y2 = (“cuốn hút”), y3 = (“cá tính”) Tổng trọng số đặc trưng hai câu 4; tổng trọng số đặc trưng cảm xúc hai câu Độ quan trọng tính cơng thức (3.2) cho câu là: W1 = 10, W2 = Độ quan trọng câu cao thực thể cảm xúc “cực kỳ ấn tượng” có trọng số thể vai trò khuếch đại Sau tính độ quan trọng cho tất câu ý kiến, chúng xếp theo thứ tự giảm dần trọng số W Hệ thống chọn từ xuống số câu theo tỷ lệ tóm tắt người dùng mong muốn Với ý kiến có câu chọn, khơng cần qua mơ đun Tóm tắt KẾT QUẢ THỰC NGHIỆM Với mơ hình trình bày hình Chúng tiến hành thử nghiệm tập liệu gồm 220 ý kiến báo thuộc chủ đề Kinh doanh chủ đề Xã hội, phân loại trang VNExpress, địa http://www.vnexpress.net Đây trang báo mạng có lượng người đọc Trang 57 SCIENCE & TECHNOLOGY DEVELOPMENT, Vol 19, No.K5- 2016 lớn Với vấn đề quan tâm, có báo hàng nghìn độc giả đưa ý kiến tranh luận Bảng trình bày kết thực nghiệm: Bảng Kết đánh giá ý kiến 4.1 Nguồn ngữ liệu thực nghiệm Số liệu liệu thử nghiệm bảng Lớp Độ đắn (%) Độ xác (%) Độ truy hồi (%) 80,41 75,73 68,18 50,00 65,63 38,89 Positive Bảng Số liệu nguồn ngữ liệu thực nghiệm Neutral 74,57 Số lượng Số ý kiến Chủ đề xã hội 79 Từ bảng 2, chúng tơi có số nhận xét sau: Chủ đề doanh 141 thấy mô hình đề xuất hiệu Kết hợp Nạve 220 Bayes Vector Space Model mơ hình triển vọng cho phân tích cảm xúc Bài báo kinh Tổng Negative  Độ đắn (Accuracy) đạt 74,57% cho Bài báo có nhiều ý kiến 59, 14 ý kiến Trung bình báo có khoảng 30 ý kiến Lượng liệu thử nghiệm khơng  Độ xác (Precision) lớp có kết tốt, 65% Độ xác lớp negative thấp nhiều so với lớp positive lớn, phù hợp để kiểm nghiệm kỹ vận hành hệ thống giai đoạn đầu tốt Lớp neutral negative có kết 4.2 Phương pháp đánh giá thực nghiệm thấp, negative Để đánh giá hiệu mơ hình đề xuất, chúng tơi sử dụng độ xác độ truy hồi * Độ xác (Precision) c Được tính cơng thức: precision  b  Độ truy hồi (Recall) lớp position có kết  Nguyên nhân Precision Recall thấp từ điển cảm xúc hạn chế, chưa phủ đầy đủ cách diễn đạt cảm xúc, dạng phủ định  Khi xét riêng chủ đề, kết thực nghiệm thể bảng bảng (4.1) Bảng Kết đánh giá ý kiến chủ đề kinh * Độ truy hồi (Recall) Được tính cơng thức: recall  doanh c a Lớp (4.2) Với a số câu tóm tắt (theo Độ Độ Độ truy đắn (%) xác (%) hồi (%) 82,50 61,11 64,71 57,89 66,67 48,65 Positive tập tóm tắt mẫu), b số câu tóm tắt máy tính thực c số câu giao a b 4.3 Phân loại cảm xúc Trang 58 Neutral Negative 72,28 TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 19, SỐ K5- 2016 Bảng Kết đánh giá ý kiến chủ đề xã hội Lớp Độ đắn (%) Positive Neutral Negative 77,78 bình phương trước tính tổng Ngun tắc tương đương cơng thức 3.2, triệt tiêu yếu   ) Kết thể bảng Độ xác (%) Độ truy hồi (%) 78,95 91,84 Bảng Kết đánh giá q trình tóm tắt ý 80,00 36,36 kiến kết hợp ngữ nghĩa cảm xúc 60,00 17,65 tố ngữ nghĩa ( Các kết thể hiện: nhiều, đến 5.5% Có thể ngun nhân dẫn đến điều phù hợp từ điển Chủ đề xã hội 128 Chủ đề kinh doanh Tổng hợp cảm xúc chủ đề Bên cạnh đó, với chủ đề xã hội, nhận thấy độc giả thể cảm nhiều so với lớp positive neutral Nguyên nhân chúng tơi nói (mục 4.3) yếu tố trường hợp b P (%) c 82 84 R (%) 76 90,48 92,68 247 165 167 150 88,76 90,91 375 247 251 226 90,04 91,50 kiến dựa vào cảm xúc chủ đề kinh doanh nói điện thoại thơng minh (smartphone), máy tính mới, nên thu hút nhiều  Độ truy hồi hai chủ đề thấp Trong đó, độ truy hồi lớp negative thấp a Bảng Kết đánh giá q trình tóm tắt ý xúc nhiều so với chủ đề kinh doanh Bài báo độc giả trẻ Còn vấn đề xã hội có nhiều thành phần độ tuổi khác quan tâm Số câu Bài báo  Độ đắn phân cực cảm xúc ý kiến chủ đề xã hội tốt chủ đề kinh doanh n  xi i 1 Bài báo Số câu Chủ đề xã hội 128 82 84 73 86,90 89,02 Chủ đề kinh doanh 247 165 167 146 87,43 88,48 Tổng hợp 375 247 251 219 87,25 88,66 a b c P (%) R (%) 4.4 Tóm tắt sở phân loại cảm xúc Tóm tắt văn thường dùng hai phép đo Thực nghiệm tóm tắt ý kiến theo tỷ lệ rút gọn 50% Trong đó, ý kiến có câu phổ biến để đánh giá hiệu độ xác (P) độ truy hồi (R) (công thức 4.1 4.2) giữ nguyên, khơng qua mơ đun Tóm tắt để xử lý Một số nhận xét từ kết hai bảng Chúng dùng hai độ đo để đánh giá hiệu mơ đun Tóm tắt Kết trình bày bảng Để đánh giá hiệu phương pháp đề xuất với công thức 3.2, thử nghiệm với phương pháp trên, báo cịn thử nghiệm tóm tắt dựa yếu tố cảm xúc Độ quan trọng câu lượng giá trọng số thực thể cảm xúc Các trọng số cảm xúc 6:  Số câu tóm tắt a khơng đổi tập liệu khơng đổi Số câu tóm tắt máy tính thực b không thay đổi thiết lập tỷ lệ rút gọn ý kiến  Thành phần c, trường hợp đánh giá, có kết cao kết hợp yếu tố cảm xúc yếu tố ngữ nghĩa (bảng 5) so với Trang 59 SCIENCE & TECHNOLOGY DEVELOPMENT, Vol 19, No.K5- 2016 trường hợp sử dụng yếu tố cảm xúc (bảng 6)  Mơ hình đề xuất đánh giá độ quan trọng tóm tắt Kết thu từ thực nghiệm cho thấy cách tiếp cận triển vọng cho nhu câu phần 3.3, với công thức 3.2 (bảng 5) cho kết tốt trường hợp Bằng cầu khai thác ý kiến cách hiệu với đối tượng, vấn đề mạng kết thực nghiệm kết luận phương pháp Trong tương lai, nâng cao khả đề xuất báo trình bày có tính hiệu phân loại cảm xúc cách phân chia nhiều mức lớp cảm xúc Khả tóm KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Bài báo đưa cách tiếp cận tóm tắt ý kiến dựa phân tích cảm xúc cách kết hợp hai mô đun độc lập Phân loại cảm xúc Tóm tắt cho văn tiếng Việt Với mơ đun Tóm tắt, báo đề xuất tiêu chí đánh giá độ quan trọng tắt ý kiến cải thiện việc khai thác ngữ nghĩa thực thể kết hợp với xác định cảm xúc cách hiệu Vấn đề rút trích quan tâm nghiên cứu hướng đến đặc trưng ngôn ngữ tiếng Việt nhằm nâng cao hiệu mơ hình đề xuất câu dựa ngữ nghĩa thực thể trọng số cảm xúc câu (mục 3.3) để rút trích cho Text summarization based on sentiment classification of comments from online Vietnamese newspaper  Nguyen Ngoc Duy  Phan Thi Tuoi Posts and Telecommunications Institute of Technology Ho Chi Minh city University of Technology,VNU-HCM ABSTRACT To know opinions of consumers regarding products or public about important problems in and social network Today is an era of information explosion through Internet and society, then the best and most effective way is to social networking, so we are able to exploit exploit information of community from Internet effectively information from the huge sources Trang 60 TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 19, SỐ K5- 2016 The opinion of individuals is not only objective especially on side of the views and sentiments of information but also contains emotions of the each opinion author It through Internet has big power to make a stream of public opinion that will impact on network community This is really an enormous subjective information resource, then it will have great meaning for many areas, such as economics, politics, society and culture if we have methods and techniques to exploit it effectively An automatic system classifying comments based on sentiment is really necessary to exploit efficiently this resource In order to support users have more concise and appropriate information, then question of summary information should be studied and solved, To exploit the resource effectively to summary information, the paper will propose a text Vietnamese summary model, not only based on semantics but also based on sentiment features We have built a base model to solve this problem We have exploited and developted methods summarizing and sentiment analysing for our proposed model Our system can draw Vietnamese comments from online Vietnamese newspaper, analyze the sentiments of comments, classify them and make a summary of opinions effectively Keywords: Sentiment Analysis, Opinion Mining, Text Summarization, Sentiment Classification TÀI LIỆU THAM KHẢO [1] Bo Pang and Lillian Lee, "Opinion mining Opinion Mining Model on Product Reviews and sentiment analysis", Foundations and Trends in Information Retrieval, 2, 1-2, 1– in Vietnamese”, Workshop on Semantic Methods for Knowledge Discovery and 135 (2008) Communication, 23-33 (2011) [2] Balahur, A.; Kabadjov, M.;Steinberger, J.; [5] Quang-Thuy Ha, Tien-Thanh Vu, Huyen- A., Trang Pham, Cong-To Luu, “An Upgrading "Summarizing Opinions in Blog Threads", Proceedings of the 23rd Pacific Asia Feature-based Opinion Mining Model on Vietnamese Product Reviews”, Proceedings Conference on Language, Information and Computation (PACLIC), 606-613 (2009) of the 7th International Conference on Active Media Technology, 173-185 (2011) [3] Vo Ngoc Phu, Phan Thi Tuoi, “Sentiment [6] Tung-Hui Chiang, Jing-Shin Chang, Ming- Classification using enhanced Contextual Valence Shifters”, Proceedings of Yu Lin, Keh-Yih Su, “Statistical Models for Word Segmentation and Unknown Word International Conference on Asian Language Processing, Malaysia (2014) Resolution”, Proceedings of 1992 R.O.C Computational Linguistics Conference Steinberger, R.; Montoyo, [4] Tien-Thanh Vu, Huyen-Trang Pham, CongTo Luu, Quang-Thuy Ha, “A Feature-based (ROCLING V), 121-146 (1992) Trang 61 ... CƠNG TRÌNH LIÊN QUAN việc thống kê theo kết phân cực cảm xúc, chưa hỗ trợ khai thác thơng tin hiệu việc tóm tắt đánh giá dựa cảm xúc TÓM TẮT Ý KIẾN TRÊN CƠ SỞ PHÂN LOẠI Ý KIẾN 3.1 Phân loại ý. .. đun Tóm tắt xử lý tóm tắt văn (ý kiến) phân cực cảm xúc, mà khơng xét tính đắn q trình phân cực Tập văn thơng tin Tiền xử lý Rút trích đặc trưng Tập ý kiến “positive” Phân loại cảm xúc Tập ý kiến. .. Khả tóm KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Bài báo đưa cách tiếp cận tóm tắt ý kiến dựa phân tích cảm xúc cách kết hợp hai mô đun độc lập Phân loại cảm xúc Tóm tắt cho văn tiếng Việt Với mơ đun Tóm tắt,

Ngày đăng: 18/05/2021, 16:20

Tài liệu cùng người dùng

Tài liệu liên quan