BÁO CÁO BÀI TẬP LỚN HỌC PHẦN XỬ LÝ NGÔN NGỮ TỰ NHIÊN NGHIÊN CỨU VỀ KỸ THUẬT PHÂN TÍCH TÌNH CẢM CỦA DỮ LIỆU TWITTER

34 14 0
BÁO CÁO BÀI TẬP LỚN HỌC PHẦN XỬ LÝ NGÔN NGỮ TỰ NHIÊN NGHIÊN CỨU VỀ KỸ THUẬT PHÂN TÍCH TÌNH CẢM CỦA DỮ LIỆU TWITTER

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

(IJACSA) Tạp chí Quốc tế Ứng dụng Khoa học Máy tính Tiên tiến, Vol 10, số 2, 2019 ĐẠI HỌC QUY NHƠN KHOA CÔNG NGHỆ THÔNG TIN -o0o BÁO CÁO BÀI TẬP LỚN HỌC PHẦN XỬ LÝ NGÔN NGỮ TỰ NHIÊN NGHIÊN CỨU VỀ KỸ THUẬT PHÂN TÍCH TÌNH CẢM CỦA DỮ LIỆU TWITTER Sinh viên thực hiện: Lớp: Giảng viên hướng dẫn: Lê Thị Minh Tâm Khoa học máy tính K41 TS Lê Quang Hùng Quy nhơn tháng 10 năm 2021 (IJACSA) Tạp chí Quốc tế Ứng dụng Khoa học Máy tính Tiên tiến, Vol 10, số 2, 2019 MỤ C LỤ C I GIỚI THIỆU II ĐỊNH NGHĨA VÀ ĐỘNG LỰC .4 III TẦM QUAN TRỌNG VÀ BỐI CẢNH .5 IV KỸ THUẬT PHÂN LOẠI V DOCUMENT-LEVEL SENTIMENT ANALYSIS APPROACHES VI CÁCH TIẾP CẬN PHÂN TÍCH NHẬN THỨC CẤP ĐỘ CÂU 10 VII THẢO LUẬN VÀ KẾT QUẢ 22 VIII KẾT LUẬN 29 REFERENCES .30 (IJACSA) Tạp chí Quốc tế Ứng dụng Khoa học Máy tính Tiên tiến, Vol 10, số 2, 2019 Tóm tắt: Tồn giới biến đổi nhanh chóng đổi Internet trở thành tảng yêu cầu người việc sử dụng web lĩnh vực Với gia tăng nhanh chóng ứng dụng mạng xã hội, người sử dụng tảng để nói lên ý kiến họ liên quan đến vấn đề ngày Thu thập phân tích phản ứng việc mua sản phẩm, dịch vụ công cộng người điều thiết yếu Phân tích cảm xúc (hoặc khai thác ý kiến) công việc phổ biến nhiệm vụ chuẩn bị đối thoại nhằm mục đích khám phá tình cảm đằng sau ý kiến văn chủ đề khác Trong năm gần đây, nhà nghiên cứu lĩnh vực phân tích tình cảm quan tâm đễn việc phân tích ý kiến chủ đề khác nhau, chẳng hạn phim, sản phẩm thương mại vấn đề xã hội ngày Twitter blog nhỏ phổ biến mà khách hàng nói lên ý kiến họ Điều tra ý kiến iệu Twitter lĩnh vực ý nhiều thập kỷ qua liên quan đến việc mổ xẻ “tweet” (bình luận) nội dung diễn đạt Bài báo khám phá phân tích tình cảm khác áp dụng cho liệu Twitter kết chúng I GIỚI THIỆU Phân tích cảm xúc gọi “khai thác ý kiến” trí tuệ nhân tạo cảm xúc” ám đến việc sử dụng xử lý ngôn ngữ tự nhiên (NLP), khai thác văn bản, ngơn ngữ học tính tốn phép đo sinh học để nhận biết, ngoại suy, đánh giá, kiểm tra cách có phương pháp trạng thái cảm xúc thông tin chủ quan Phân tích tình cảm thường quan tâm đến tiếng nói tài liệu khách hàng; ví dụ, khảo sát đánh giá web mạng xã hội dựa web Theo quy luật, phân tích tình cảm cố gắng xác định quan điểm diễn giả, người viết tiểu luận đối tượng khác chủ đề thông qua phản hồi xúc động say mê kho lưu trữ, tin tức truyền đạt Bố cục nhận định đánh giá, đầy cảm xúc (nói cách khác, điều kiện đam mê người sáng tạo diễn giả) mong đợi phản hồi nhiệt tình (nói cách khác, tác động người tạo người mua dự định) Trên web ngày có nhiều khải sát đề xuất khách hàng tất chủ đề đánh giá bao gồm khảo sát hạng mục khách hàng phát lỗi phim… Cuộc khảo sát mở rộng nhanh chóng, sở cá nhân muốn cung cấp quan điểm họ web Có thể truy cập số lượng lớn khảo sát mục riêng lẻ, điều khiến khách hàng gặp khó khăn họ phải xem xét mục để đưa lựa chọn Sau đó, khai thác thơng tin này, phân biệt đánh giá khách hàng tổ chức chúng công việc quan trọng Khai thác cảm xúc (IJACSA) Tạp chí Quốc tế Ứng dụng Khoa học Máy tính Tiên tiến, Vol 10, số 2, 2019 nhiệm vụ tận dụng phương pháp tiếp cận NLP trích xuất thơng tin (IE) để phân tích số lượng lớn tài liệu lưu trữ nhằm thu thập ý kiến nhận xét tác giả khác [1, 2] Quá trình kết hợp nhiều chiến lược khác nhau, bao gồm tính tốn truy xuất thơng tin (IR) [2] Ý tưởng điểu tra tình cảm phát tính phân cực tài liệu văn câu ngắn phân loại chúng Phân tích cảm xúc gồm loại, “tích cực”, “tiêu cực” “công bằng” (trung lập) Điều quan trọng làm bậc thực tế khai thác cảm xúc thực ba cấp độ sau  Phân loại tình cảm cấp độ tài liệu: Ở cấp độ này, tài liệu phân loại "tích cực", Tiêu cực" "trung lập"  Phân loại tình cảm cấp độ câu: Ở cấp độ này, câu phân loại “tích cực”, “tiêu cực” khơng thiên vị  Phân loại tình cảm cấp độ khía cạnh đặc điểm: Ở cấp độ này, câu/tài liệu phân loại “tích cực”, “tiêu cực” “khơng thiên vị” dựa khía cạnh định câu/tài liệu lưu trữ thường gọi “nhóm đánh giá cấp độ quan điểm” Mục tiêu báo nghiên cứu phương pháp phân tích tình cảm có liệu Twitter cung cấp so sánh lý thuyết phương pháp tiếp cận đại Bài viết tổ chức sau: hai phần giải thích định nghĩa, động lực kỹ thuật phân loại sử dụng phân tích tình cảm Một số phương pháp phân tích tình cảm cấp độ tài liệu phương pháp phân tích tình cảm cấp độ câu thể Các phương pháp phân tích tình cảm khác sử dụng cho Twitter mô tả bao gồm tiếp cận có giám sát, khơng giám sát, từ vựng kết hợp Cuối cùng, thảo luận so sánh sau nêu bật II ĐỊNH NGHĨA VÀ ĐỘNG LỰC Phân tích tình cảm chiến lược để kiểm tra đánh giá người nhóm; ví dụ: phận người theo dõi thương hiệu khách hàng cá nhân thư từ với đại diện hỗ trợ khách hàng Liên quan đến chế tính điểm, phân tích cảm xúc theo dõi thảo luận đánh giá ảnh hưởng đối thoại giọng nói để đánh giá tâm trạng cảm xúc, đặc biệt cảm xúc liên quan đến doanh nghiệp, sản phẩm dịch vụ chủ đề Phân tích cảm xúc phương tiện đánh giá ngôn ngữ viết ngơn ngữ nói để định xem việc phát âm tíc cực, tiêu cực hay trung tính Hiện cơng cụ phân tích thị trường giải lượng lớn lời bình phẩm khách hàng cách đáng tin cậy xác Cùng với việc điều tra nội dung, phân (IJACSA) Tạp chí Quốc tế Ứng dụng Khoa học Máy tính Tiên tiến, Vol 10, số 2, 2019 tích tình cảm khám phá ý kiến khách hàng chủ đề khác nhau, bao gồm việc mua mặt hàng, cung cấp dịch vụ giới thiệu chương trình khuyến Hầu hết giao tiếp mạng xã hội dựa web khách hàng tạo phân phối liên tục hình thức khảo sát, tạp chí trực tuyến, bình luận, diễn thuyết, hình ảnh ghi âm Những thư từ mang lại hội để thu thập hiểu rõ quan điểm khách hàng chủ đề tình tiết cung cấp liệu trang bị để làm rõ dự đoán tin tức kinh doanh xã hội, chẳng hạn chào hàng sản phẩm [4], lợi nhuận cổ phiếu [5], kết định trị [6] Tổng thể khapr sát việc đánh giá quan điểm trao đổi khách hàng trao đổi nội dung họ “Khảo sát quan điểm” lĩnh vực nghiên cứu động thiết kế để nâng cao hiểu biết cảm xúc truyền đạt nội dung máy tính, với gia tăng việc triển khai, thúc đẩy việc sử dụng liệu suy luận mạnh mẽ Trong số tảng mạng xã hội dựa web khác nhau, Twitter sở hữu lượng khách hàng lớn phát triển nhanh chóng khối lượng thư từ Twitter blog với quy mô nhỏ, nơi khách hàng tạo 'tweet' thông báo cho người hâm mộ họ cho khách hàng khác Vào năm 2016, Twitter có 313 triệu khách hàng động tháng định, bao gồm 100 triệu khách hàng hàng ngày [7] Nguồn gốc khách hàng phổ biến rộng rãi, với 77% nằm bên Hoa Kỳ, tạo 500 triệu tweet ngày [8] Trang Twitter đứng thứ mười hai toàn cầu hoạt động vào năm 2017 [9] phản ứng với 15 tỷ lệnh gọi API ngày [10] Tương tự, nội dung Twitter xuất triệu trang web bên [8] Phù hợp với phát triển to lớn này, Twitter trở thành chủ đề nhiều quan tâm, Tweet thường xuyên thể cảm xúc khách hàng vấn đề gây tranh cãi Trong bối cảnh truyền thơng xã hội, phân tích tình cảm khai thác ý kiến nhiệm vụ có tính thách thức cao, điều lượng thông tin khổng lồ tạo người máy móc [11] III TẦM QUAN TRỌNG VÀ BỐI CẢNH Quan điểm tảng cho hành động người họ người có ảnh hưởng đến thực tiễn Tại thời điểm phải định lựa chọn, cần biết suy nghĩ người khác Trên thực tế, tổ chức hiệp hội có nhu cầu khám phá cảm xúc phổ biến người dùng mặt hàng dịch vụ họ Khách hàng sử dụng loại tảng trực tuyến khác để tham gia xã hội bao gồm trang web mạng xã hội dựa web; ví dụ, Facebook Twitter Thông qua mạng xã hội dựa web này, tham gia người mua diễn Loại kết nối mở cảnh cửa kiến thức quảng cáo Các cá nhân thuộc quốc tịch, giới tính, chủng tộc tầng lớp sử dụng web để chia sẻ (IJACSA) Tạp chí Quốc tế Ứng dụng Khoa học Máy tính Tiên tiến, Vol 10, số 2, 2019 gặp gỡ ấn tượng hầu hết đặc điểm sống họ Ngoài việc soạn tin nhắn, viết blog để lại nhận xét trang web công ty, nhiều cá nhân sử dụng điểm đến tổ chức khơng thức để ghi lại ý kiến, bày tỏ cảm xúc khám phá hiểu biết sâu sắc sống hàng ngày họ Các cá nhân soạn thư hầu hết thứ, bao gồm phim, thương hiệu muộn phiền xã hội Những nhật ký lưu hành khắp nhóm trực tuyến tụ họp ảo, nơi người mua sắm tác động đến người khác Đối với nhà quảng cáo, nhật ký cung cấp đoạn thông tin chi tiết sâu sắc khuynh hướng hành vi người mua mang đến hội liên tục để tìm hiểu cảm xúc nhận xét khách hàng Những bùng nổ gần nội dung khách hàng sản xuất trang web xã hội gây khó khăn đặc biệt việc nắm bắt, kiểm tra dịch nội dung in thơng tin bị phân tán, nhầm lẫn bị chia cắt [12] Điều tra ý kiến phương pháp khai thác thơng tin khắc phục khó khăn cách tách mổ xẻ thơng tin dựa web cách có phương pháp mà không gây chậm trễ Với việc kiểm tra kết luận, nhà quảng cáo liên tục khám phá cảm xúc trạng thái tâm trí người mua sắm, bất chấp khó khăn cấu trúc khối lượng thơng tin Sự nhiệt tình nghiên cứu nhằm sử dụng phân tích tình cảm phương tiện để thúc đẩy công cụ nghiên cứu gấp đơi Phân tích cảm xúc khuyến khích tổ chức xác định mức độ thích khơng thích khách hàng sản phẩm hình ảnh cơng ty Ngồi ra, đóng vai trị quan trọng việc phân tích liệu ngành tổ chức để hỗ trợ họ đưa định kinh doanh IV KỸ THUẬT PHÂN LOẠI Trong lĩnh vực học máy, phương pháp phân loại phát triển, sử dụng chiến lược khác để phân loại liệu không gắn nhãn Bộ phân loại yêu cầu liệu đào tạo Ví dụ phân loại học máy Naive Bayes, Maximum Entropy Support Vector Machine [14] [15, 16] Đây phân loại phương pháp học máy có giám sát chúng u cầu liệu đào tạo Điều quan trọng cần đề cập đào tạo phân loại hiệu giúp cho dự đoán tương lai trở nên dễ dàng A Naive Bayes Đây phương pháp phân loại dựa Định lý Bayes với giả định tính độc lập đặc trưng Bộ phân loại Naive Bayes kỳ vọng mức độ gần gũi đối tượng cụ thể (phần tử) lớp bị ngắt kết nối với mức độ gần gũi số phần tử khác Ví dụ, loại trái hữu (IJACSA) Tạp chí Quốc tế Ứng dụng Khoa học Máy tính Tiên tiến, Vol 10, số 2, 2019 coi táo có màu đỏ, hình trịn có chiều rộng khoảng inch Bất kể đặc điểm phụ thuộc vào hay phụ thuộc vào diện đặc điểm khác, phân loại Nạve Bayes coi đặc tính độc lập điều có khả loại trái tự nhiên táo Cùng với nỗ lực, Naive Bayes biết đến thực tốt chiến lược loại Giả thuyết Bayes phương pháp tính tốn để phân biệt khả xảy P (a | b) với P (a), P (b) P (b | a) sau: a b b a Trong p( ) xác suất a biết b p( ¿ xác suất b có a Xác suất lớp a biểu thị p(a) xác suất lớp b biểu thị p(b) Naive Bayes sử dụng rộng rãi nhiệm vụ phân loại văn thành nhiều lớp gần sử dụng để phân loại phân tích tình cảm B Maximum Entropy Bộ phân loại Maximum Entropy (MaxEnt) ước tính phân phối có điều kiện lớp đánh dấu ghi b cho cách sử dụng loại họ hàm mũ với trọng số cho ràng buộc Mơ hình maximum entropy mơ a b hình họ tham số pMaxEnt( ) để tối đa hóa khả xảy Các phương pháp chia tỷ lệ lặp lại tối ưu hóa gần Newton thường sử dụng để giải vấn đề tối ưu hóa Mơ hình đại diện điều sau đây: Trong a lớp, b dự đoán Trọng lượng vectơ biểu thị αi C Support Vector Machine Máy vectơ hỗ trợ (SVM) biết hoạt động tốt phân tích tình cảm [13] SVM điều tra thông tin, mô tả giới hạn lựa chọn sử dụng thành phần để tính tốn, thực khơng gian đầu vào [18] Thơng tin quan trọng trình bày theo hai cách xếp vectơ, kích thước m Tại thời điểm này, liệu (được biểu thị dạng véc tơ) xếp thành lớp Tiếp theo, máy xác định ranh giới hai lớp mẫu huấn luyện [19] Như trình bày [20], SVM chứng minh hoạt động hiệu trình phân loại Nạve Bayes vấn đề phân loại văn khác V DOCUMENT-LEVEL SENTIMENT ANALYSIS APPROACHES Sharma cộng [2] đề xuất hệ thống phân tích tình cảm dựa tài liệu khơng giám sát xác định hướng tình cảm tài liệu văn dựa (IJACSA) Tạp chí Quốc tế Ứng dụng Khoa học Máy tính Tiên tiến, Vol 10, số 2, 2019 tính phân cực chúng Hệ thống [2] phân loại tài liệu tích cực tiêu cực [2, 3, 19] trích xuất từ tình cảm từ sưu tập tài liệu, phân loại chúng theo cực chúng Hình cho thấy trường hợp khai thác ý kiến dựa tài liệu Chiến lược dựa từ điển không giám sát sử dụng phần hệ thống này, quan tâm đến việc phủ định Mạng từ từ vựng sử dụng để xác định từ vựng quan điểm, từ tương đương chúng từ trái nghĩa [2] Trong nghiên cứu cụ thể này, phê bình phim thu thập để sử dụng làm đầu vào nhằm phát tình cảm phân cực tài liệu Hệ thống phân loại tài liệu thành kết tổng hợp tích cực, tiêu cực tạo khách quan, trình bày tổng số tài liệu tích cực, tiêu cực trung lập Do đó, báo cáo tóm tắt hệ thống tạo giúp ích cho người định Với hệ thống này, phân cực tình cảm tài liệu định dựa phần lớn từ vựng quan điểm xuất tài liệu Chunxu Wu [21] đề xuất phương pháp tổng hợp định hướng ngữ nghĩa ý kiến phụ thuộc vào ngữ cảnh mà xác định cách sử dụng Mạng từ Phương pháp đề xuất sử dụng để định tình cảm quan điểm cách sử dụng biện pháp gần gũi ngữ nghĩa Cách tiếp cận dựa biện pháp để xác định hướng đánh giá khơng có đủ thơng tin liên quan Thí nghiệm thực Chunxu Wu [21] chứng minh quy trình đề xuất hiệu (IJACSA) Tạp chí Quốc tế Ứng dụng Khoa học Máy tính Tiên tiến, Vol 10, số 2, 2019 Taboada cộng [22] sử dụng kỹ thuật dựa từ vựng để phát phân loại tài liệu dựa tình cảm chúng Để đạt điều cách thích hợp, từ điển từ tích cực tiêu cực sử dụng Ngồi ra, máy tính định hướng ngữ nghĩa (SO-CAL) đề xuất, dựa tăng cường phủ định Phương pháp SO-CAL đạt độ xác 76,37% liệu đánh giá phim Harb cộng [18] đề xuất phương pháp chiết xuất tình cảm cấp độ tài liệu, tập trung vào ba giai đoạn Trong giai đoạn đầu, tập liệu bao gồm tài liệu chứa ý kiến tự động trích xuất từ Internet Thứ hai, tính từ tích cực tiêu cực trích xuất từ liệu học tập Trong giai đoạn thứ ba, kiểm tra tài liệu phân loại dựa danh sách tính từ thu thập giai đoạn thứ hai Nhiều thử nghiệm thực liệu thực cách tiếp cận Harb et al đề xuất [18] đạt điểm F1 0,717 để xác định tài liệu tích cực điểm F1 0,622 cho việc nhận biết hồ sơ tiêu cực Zagibalov cộng [23] đề cập đến vấn đề phân loại tình cảm đánh giá sản phẩm viết tiếng Trung Quốc Cách tiếp cận họ dựa phân loại không giám sát tự dạy cách tăng hạt giống từ vựng Ban đầu bao gồm từ (tốt) gắn thẻ tích cực Các hạt giống ban đầu đào tạo lại lặp lặp lại để phân loại tình cảm Tiêu chí mật độ ý kiến sử dụng để tính tốn tỷ lệ tình cảm cho tài liệu Các thử nghiệm cho thấy trình phân loại đào tạo đạt 87% cho khả phát phân cực cảm xúc sau 20 lần lặp lại Tripathy cộng [24] cố gắng phân loại đánh giá theo cực chúng cách sử dụng thuật toán học tập có giám sát Nạve Bayes, SVM, andom forest linear discriminant analysis Để đạt điều này, cách tiếp cận đề xuất bao gồm bốn bước Đầu tiên, bước tiền xử lý thực để loại bỏ stop words, số ký tự đặc biệt Thứ hai, đánh giá văn chuyển đổi thành ma trận số Thứ ba, vectơ tạo sử dụng làm đầu vào cho bốn phân loại khác Kết thu cách phân loại hai liệu Sau đó, số liệu khác nhau, chẳng hạn độ xác, độ thu hồi, độ đo f độ xác phân loại, tính tốn để đánh giá hiệu suất phương pháp đề xuất Đối với liệu phân cực IMDb, phân loại random forest hoạt động tốt phân loại khác Saleh cộng [25] áp dụng SVM cho ba liệu khác để phân loại đánh giá tài liệu Một số chương trình n-gram sử dụng để đánh giá tác động SVM việc phân loại tài liệu Các nhà nghiên cứu sử dụng ba phương pháp tiếp cận trọng số để tạo vectơ đặc trưng: cụ thể là, Tần suất tài (IJACSA) Tạp chí Quốc tế Ứng dụng Khoa học Máy tính Tiên tiến, Vol 10, số 2, 2019 liệu nghịch đảo tần số thuật ngữ (TFIDF), Lần xuất nhị phân (BO) Lần xuất kỳ hạn (TO) Nhiều thí nghiệm sau tiến hành để đo lường kết hợp có phương pháp tiếp cận trọng lượng n-gam khác Đối với tập liệu Taboada, kết có độ xác tốt thu sử dụng kết hợp SVM với TFIDF trigram Đối với kho liệu Pang, kết tốt thu sử dụng BO trigram Liên quan đến kho tài liệu SINAI, Saleh cộng [25] cho thấy phân loại SVM đạt điểm xác cao kết hợp với TFIDF bigram VI CÁCH TIẾP CẬN PHÂN TÍCH NHẬN THỨC CẤP ĐỘ CÂU Phân tích tập trung vào việc phân loại câu thành loại tích cực, tiêu cực hay trung tính Phân tích tình cảm Twitter coi ví dụ phân tích tình cảm cấp độ câu Phần khám phá phương pháp phân tích tình cảm Twitter Các phương pháp học máy sử dụng phương pháp phân loại để phân loại văn thành nhiều loại khác Chủ yếu có hai loại chiến lược học máy: supervised learning ensemble Có bốn phương pháp phân tích tình cảm Twitter bao gồm phương pháp dựa máy học có giám sát, phương pháp tổng hợp, dựa từ vựng kết hợp Bốn cách tiếp cận mô tả sau: A Phân tích cảm xúc Twitter cách sử dụng phương pháp học máy có giám sát Nó phụ thuộc vào tập liệu gắn nhãn cung cấp cho mơ hình học máy q trình đào tạo Các tập liệu gắn nhãn sử dụng để huấn luyện mơ hình nhằm thu kết đầu mong muốn Trong hệ thống học máy, cần có hai liệu: đào tạo kiểm tra Các phương pháp tiếp cận máy học phân loại sử dụng để phát cảm xúc Twitter Hiệu suất phân loại tình cảm Twitter chủ yếu dựa vào số lượng liệu đào tạo đặc trưng trích xuất Các chiến lược phân tích tình cảm Twitter dựa phương pháp học máy phổ biến hơn, đặc biệt phân loại SVM NB Hình minh họa quy trình phương pháp tiếp cận học máy có giám sát để phân tích tình cảm Twitter Quy trình phân tích tình cảm Twitter bao gồm ba bước Đầu tiên, phân loại đào tạo cách sử dụng tập liệu bao gồm tweet tích cực, tiêu cực trung tính Ví dụ tweet hiển thị bên dưới:  Các tweet sau ví dụ tweet tích cực: 1) PM@narendramodi Tổng thống Ghana, Nana Akufo-Addo có gặp tuyệt vời Các hội đàm họ bao gồm 10 (IJACSA) Tạp chí Quốc tế Ứng dụng Khoa học Máy tính Tiên tiến, Vol 10, số 2, 2019 OMD sử dụng làm liệu cho thí nghiệm tiến hành Khung ESSA thu độ xác phân loại 0,726 STS 0,692 liệu OMD Kết chứng minh tính hữu ích khung ESSA so với kỹ thuật khác Azzouza, Noureddine cộng [46] trình bày kiến trúc thời gian thực để phát quan điểm liệu Twitter Hệ thống họ dựa kỹ thuật học máy không giám sát để khám phá tweet phát phân cực chúng Kỹ thuật phân loại sử dụng cách tiếp cận dựa từ điển để xác định tính phân cực quan điểm tweet kiến trúc chúng [46] bao gồm nhiều mô-đun Tweet thu thập cách sử dụng mô-đun thu nhận tweet kết nối với API Twitter để truy xuất tweet cách sử dụng truy vấn đặt Văn mã hóa cách sử dụng mơ-đun riêng biệt Sau đó, sửa từ vựng, chuẩn hóa mã thơng báo cú pháp xác giai đoạn khác mơ-đun xử lý tweet Các nhà nghiên cứu giới thiệu mơ-đun phân tích ý kiến để tính tốn giá trị ý kiến cho biểu tượng cảm xúc, từ ngữ giá trị trung bình giá trị ý kiến Các thử nghiệm tiến hành dựa tập liệu SemEval để đo chất lượng kiến trúc thời gian thực Đối với tập liệu SemEval-2013, hệ thống đề xuất đạt điểm xác 0,559 so với 0,50 hệ thống SSA-UO Ortega et al đề xuất [47] Hơn nữa, kiến trúc đề xuất [46] đạt độ xác 0,533 so với 0,539 nhóm nghiên cứu GTI thu cho tập liệu SemEval-2016 Paltoglou Thelwall [48] sử dụng phương pháp dựa từ vựng để ước tính mức độ cường độ cảm xúc để đưa dự đoán Cách tiếp cận thích hợp để phát văn bày tỏ quan điểm chủ quan phân loại cực cảm xúc để định xem văn cho tích cực hay tiêu cực Phương pháp dựa từ vựng đề xuất đạt điểm F1 76,2, 80,6 86,5 cho liệu Digg, MySpace Twitter vượt trội tất phân loại giám sát Masud cộng [49] áp dụng hệ thống dựa từ vựng để phân loại tình cảm, mơ tả tweet tích cực, tiêu cực trung tính Hệ thống [49] phân biệt cho điểm tiếng lóng sử dụng tweet Các kết thử nghiệm chứng minh khung đề xuất hoạt động tốt khung có, đạt độ xác 92% xác định đặc tính kép 87% phân nhóm nhiều lớp Khn khổ cần thiết để tăng cường độ xác trường hợp tiêu cực để xem xét trường hợp trung lập Asghar cộng [50] đề xuất phân loại tình cảm dựa từ vựng cải tiến kết hợp trình phân loại dựa quy tắc Nó nhằm mục đích giảm bớt thưa thớt liệu cải thiện độ xác việc phân loại tình 20 (IJACSA) Tạp chí Quốc tế Ứng dụng Khoa học Máy tính Tiên tiến, Vol 10, số 2, 2019 cảm Các phân loại, chẳng hạn phân loại sử dụng biểu tượng cảm xúc phủ định bổ sung, phân loại dựa SWN theo miền cụ thể, kết hợp để phân loại tweet cách xác dựa phân cực cảm xúc chúng Kỹ thuật đề xuất đạt điểm F1 0,8, 0,795 0,855 cho ba liệu đánh giá thuốc, xe khách sạn tương ứng D Phân tích tình cảm Twitter phương pháp kết hợp Balage Filho Pardo [51] giới thiệu hệ thống kết hợp để phát tình cảm diện tweet Hơn nữa, hệ thống họ kết hợp ba phương pháp phân loại: học máy, dựa quy tắc dựa từ vựng Balage Filho Pardo [51] sử dụng từ vựng SentiStrength trình phân loại SVM phương pháp học máy Kết thu từ thí nghiệm cho thấy hệ thống lai tốt phân loại riêng lẻ, đạt Fmeasure 0,56 so với 0,14, 0,448 0,49 thu phân loại dựa quy tắc, dựa từ vựng SVM Một phương pháp lai khác đề xuất Ghiassi et al [52] người sử dụng API Twitter để thu thập tweet Họ cố gắng kết hợp tính ngram với phương pháp phân tích tâm lý mạng nơ-ron nhân tạo động (DAN2) Các tính Unigram, bigram trigram xác định Ghiassi cộng [52] phát triển từ vựng Twitter rút gọn sử dụng với phương pháp phân loại tình cảm Các mơ hình phân loại DAN2 SVM đào tạo để phát cảm xúc tweet Các kết thu thập cho thấy phương pháp học tập DAN2 hoạt động tốt chút so với trình phân loại SVM kết hợp từ vựng dành riêng cho Twitter Đối với lớp tiêu cực, DAN2 đạt độ xác trung bình 92,5 so với SVM, đạt độ xác 91,45 Đối với lớp tích cực, DAN2 thu độ xác phân loại trung bình 68,2 so với SVM, đạt độ xác 67,6 Khan cộng [53] đề xuất khuôn khổ khai thác ý kiến Twitter (TOM) để phân loại tình cảm tweet Sơ đồ kết hợp đề xuất [53] bao gồm phân tích SentiWordNet, phân tích biểu tượng cảm xúc phân loại phân cực nâng cao Bộ phân loại đề xuất giảm thiểu vấn đề thưa thớt cách sử dụng phương pháp xử lý trước nhiều phương pháp khác Các thí nghiệm thực cách sử dụng sáu liệu chứng minh thuật toán đề xuất đạt trung bình 83,3% Gần đây, Zainuddin et al [54] đề xuất khung phân tích tình cảm dựa khía cạnh (ABSA), bao gồm hai nhiệm vụ Nhiệm vụ sử dụng trích xuất đặc điểm dựa khía cạnh để xác định khía cạnh thực thể nhiệm vụ thứ hai sử dụng phân loại tình cảm dựa khía cạnh Bộ liệu HCTS, STS 21 (IJACSA) Tạp chí Quốc tế Ứng dụng Khoa học Máy tính Tiên tiến, Vol 10, số 2, 2019 STC sử dụng để đánh giá hiệu suất mơ hình kết hợp đề xuất Mơ hình kết hợp quy tắc sau khai thác chúng phương pháp khai thác đặc trưng Các khía cạnh đơn đa từ xác định dựa kỹ thuật khai thác quy tắc với kết hợp heuristic mẫu POS Hơn nữa, trình phân tích cú pháp Stanford (SDP) sử dụng để phát phụ thuộc khía cạnh quan điểm Các phương pháp phân tích thành phần (PCA), phân tích ngữ nghĩa tiềm ẩn (LSA) phương pháp lựa chọn đặc trưng chiếu ngẫu nhiên (RP) áp dụng thí nghiệm Mơ hình kết hợp kết hợp khung ABSA, từ vựng SentiWordNet, PCA trình phân loại SVM hoạt động tốt so với đường sở có để phân loại tình cảm Độ xác phân loại 76,55 đạt tập liệu STS; 71,62 cho liệu HCTS; độ xác 74,24 cho tập liệu STC Asghar cộng [55] đề xuất hệ thống phân loại tình cảm Twitter kết hợp kết hợp bốn phân loại: phân loại tiếng lóng (SC), phân loại biểu tượng cảm xúc (EC), phân loại tình cảm cho mục đích chung (GPSC) phân loại miền cụ thể cải tiến (IDSC) Kỹ thuật họ lấy cảm hứng từ nghiên cứu trước Khan et al [53] Asghar et al [50], phân loại tweet sử dụng nhiều mơ hình phân loại có giám sát khơng giám sát Khung đề xuất xác định cảm xúc tweet sau phát diện tiếng lóng biểu tượng cảm xúc Kết cho thấy việc tính tốn điểm tình cảm biểu thức tiếng lóng giúp cải thiện độ xác việc phân loại tình cảm tweet Về nghiên cứu tác động SC, khung đề xuất Asghar et al [55] đạt điểm F 0,92 so với 0,85 Masud et al [49] Kết cho thấy diện biểu tượng cảm xúc tâm lý Twitter làm tăng độ xác phân loại từ 79% lên 85% VII THẢO LUẬN VÀ KẾT QUẢ Trong phần nghiên cứu, nỗ lực thực để so sánh kỹ thuật kết khác hiệu suất thuật tốn Bảng tóm tắt phương pháp tiếp cận máy học có giám sát khác để phân tích tình cảm Twitter Điều quan trọng cần đề cập SVM dựa unigram thường coi tiêu chuẩn để đo lường so sánh chiến lược đề xuất [11] Từ Bảng 1, rõ ràng việc tích hợp nhiều tính dẫn đến cải thiện độ xác phân loại, đặc biệt kết hợp biểu tượng đơn sắc biểu đồ sinh học trình bày Go et al [26] Malhar Ram [28] Ngược lại, Anton Andrey [29] chứng minh phân loại SVM kết hợp với tính unigram hoạt động tốt tính lai Theo Saif et al [33], kết cho thấy việc kết hợp ngữ nghĩa với tính unigram tạo hiệu suất tốt so với lựa chọn tính sở 22 (IJACSA) Tạp chí Quốc tế Ứng dụng Khoa học Máy tính Tiên tiến, Vol 10, số 2, 2019 Theo cách tương tự, Hamdan et al [34] cho thấy việc thêm nhiều tính DBpedia, WordNet SentiWordNet dẫn đến cải tiến độ xác phân loại tình cảm Theo Vishal cộng [17], phương pháp học máy NB, Max Entropy SVM hoạt động tốt chút với tính bigram so với mơ hình tính khác unigram trigrams BẢNG I CÁCH TIẾP CẬN HỌC MÁY CÓ GIÁM SÁT ĐỂ PHÂN TÍCH TÌNH CẢM TWITTER Study Go et al [26] Methods Supervised ML Algorithms NB, MaxEnt, and SVM classifiers Malhar and Ram [28] Supervised ML NB, SVM, MaxEnt, and ANN classifiers Anton and Supervised Andrey [29] ML Pak and Paroubek [31] Supervised ML Kouloumpi s et al [32] Supervised ML Saif et al [33] Supervised ML Features Unigrams, bigrams, POS Unigrams, bigrams, hybrids (unigrams+ bigrams) NB and Unigrams, SVM bigrams, classifiers hybrids (unigrams+ bigrams) Multinomial Unigrams, NB and bigrams, SVM trigrams classifiers AdaBoost Unigrams, classifier bigrams, lexicon, POS features, and microblogging features NB Unigrams, POS features, sentiment23 Datasets Tweets thu thập cách sử dụng API Twitter Outcomes MaxEnt với unigram bigram đạt độ xác 83% so với NB với độ xác 82,7% Tweet SVM sử dụng lựa chọn thu thập tính lai đạt độ API Twitter xác 88% Ngồi ra, SVM với PCA đạt độ xác 92% Tweet SVM với unigram đạt thu thập điểm xác 81% hệ thống trực điểm thu hồi 74% tuyến Sentiment140 Tweet NB đa thức với bigram thu thập đạt hiệu suất tốt API Twitter so với unigrams trigrams Thẻ bắt đầu Đo lường F 0,68 # đạt (HASH) HASH Ngoài ra, số đo biểu tượng F 0,65 cảm xúc AdaBoost thu (EMOT) cho liệu HASH dạng tập EMOT với kết liệu đào hợp n-gram, từ tạo vựng tính tiểu blog Bộ liệu Các tính ngữ STS, HCR nghĩa vượt trội so OMD với unigram POS (IJACSA) Tạp chí Quốc tế Ứng dụng Khoa học Máy tính Tiên tiến, Vol 10, số 2, 2019 topic features semantic features Tuy nhiên, cách tiếp cận chủ đề tình cảm hoạt động tốt chút so với cách tiếp cận ngữ nghĩa trường hợp liệu HCR OMD Hamdan et Supervised NB, SVM Unigrams, Bộ liệu Các thử nghiệm cho al [34] ML DBpedia SemEvalthấy việc thêm wordNet 2013 tính SentiWordNe DBpedia, WordNet t SentiWordNet làm tăng độ xác F-Measure chút Tỷ lệ cải thiện nhỏ khoảng 2% với SVM 4% với NB Bảng minh họa cách tiếp cận tổng hợp khác để phân tích tình cảm Twitter Đối với liệu HCR, phương pháp tổng hợp đề xuất da Silva cộng [38] kết hợp LR, RF, SVM MNB với tính BOW từ điển đạt điểm F1 76,99 Để so sánh, Fouad cộng [42] cho thấy phương pháp tổng hợp biểu đa số với phương pháp lựa chọn tính thu thập thơng tin đạt độ xác 84,75 Điều chứng tỏ phương pháp tổng thể đề xuất Fouad cộng [42] vượt trội so với phương pháp tập hợp đề xuất da Silva cộng [38] Điều kết hợp thu thập thông tin phương pháp lựa chọn tính Saif cộng [33] cho thấy phân loại NB đạt điểm F1 68,15 cho tập liệu HCR So với phương pháp tổng hợp đề xuất da Silva cộng [38] kết hợp LR, RF, SVM MNB đạt điểm F1 63,75 cho tập liệu HCR Hơn nữa, da Silva cộng [38] thu chút cải tiến sử dụng MNB với đặc trưng BOW từ vựng, tạo điểm F1 68,20 so với 68,15 phân loại NB Saif et al đề xuất [33] So với phương pháp tổng hợp đề xuất da Silva cộng [38] kết hợp LR, RF, SVM MNB đạt điểm F1 63,75 cho tập liệu HCR Hơn nữa, da Silva cộng [38] thu chút cải tiến sử dụng MNB với tính BOW từ vựng, tạo điểm F1 68,20 so với 68,15 phân loại NB Saif cộng đề xuất [33] Theo Fouad cộng [42], hiệu suất phương pháp tổng hợp họ tốt chút so với phân loại SVM cho tập liệu Sanders, thể 24 (IJACSA) Tạp chí Quốc tế Ứng dụng Khoa học Máy tính Tiên tiến, Vol 10, số 2, 2019 Bảng Điều cho ý tưởng biểu đa số sử dụng để xác định ý kiến cuối tweet Tuy nhiên, tập liệu HCR, NB với lựa chọn tính thu thập thơng tin đạt điểm xác cao 85,09 so với phương pháp tổng hợp Fouad cộng đề xuất [42] phương pháp đề xuất da Silva cộng [38] tạo số điểm 76,99 BẢNG II CÁC CÁCH TIẾP CẬN CẦN THIẾT ĐỂ PHÂN TÍCH TÌNH CẢM Study Lin and Kolcz [37] Methods Ensemble Algorithms Logistic regression classifier Features Datasets Hashed byte Bộ liệu 4-grams quy mô lớn da Silva et al [38] Ensemble Logistic regression classifier BOW, lexicon, and feature hashing Tập liệu Stanford (STS), Sanders, OMD HCR Hagen, Ensemble Matthias, et al [39] NRC, GUMLT-LT, KLUE, and TeamX Đào tạo bán kết năm 2013 MartınezCáma Ensemble The ranking n-grams, ALLCAPS, parts of speech, polarity dictionaries, punctuation marks, emoticons, word lengthening, clustering, negation, stems The ranking 25 General Outcomes Đối với 100 triệu trường hợp, phương pháp tổng hợp đạt điểm xác 0,81 số lượng phân loại 21 Một phân loại tổng hợp đạt độ xác cao hai tính BOW từ vựng sử dụng Phương pháp đề xuất đạt điểm xác 76,99, 81,06, 84,89 76,81 cho liệu HCR, STS, Sanders OMD Phương pháp tổng hợp đạt điểm F 64,84 cho nhiệm vụ phụ B Cuộc thi bán kết năm 2015 (Nhiệm vụ 10) Phương pháp tổng hợp (IJACSA) Tạp chí Quốc tế Ứng dụng Khoa học Máy tính Tiên tiến, Vol 10, số 2, 2019 ra, Eugenio, et al.[40] Chalothorn and Ellman [41] Ensemble Fouad et al [42] Ensemble algorithm and skip-gram scorer, Word2Vec, and linguistic resources-based approach The majority vote, SVM, NB, SentiStrength and Stacking SVM, NB, and LR algorithm and skipgram scorer Corpus of the TASS competition đạt điểm số F1 62,98% Tuy nhiên, thuật toán xếp hạng skip-gam thu điểm số F1 macro 61,60% Sentiment SemEvallexicons and 2013 BOW features Bộ phân loại tổng hợp nhận điểm F 86,05% cho nhiệm vụ 2A Various combination s of BOW, lexiconbased features, emoticonbased and POS features Đối với liệu Sanders, phân loại tổng hợp (bỏ phiếu theo đa số) đạt điểm xác 93,94 so với 92,71 mà SVM đạt Đối với tập liệu Stanford -1K, phân loại nhóm biểu đa số đạt điểm xác từ 78,70 đến 78,10 SVM thu Đối với HCR, NB đạt điểm xác 85,09 so với phương pháp tổng hợp phiếu bầu theo đa số đề xuất, thu điểm 84,75 Stanford (STS), Sanders, and HCR Bảng tóm tắt thuật tốn dựa từ vựng khác khảo sát báo Xia et cộng [45] phương pháp cảm tính dựa từ vựng họ đạt độ xác phân loại 0,692 cho tập liệu OMD so với điểm xác phân loại 76,81 đạt phương pháp tổng hợp da Silva cộng đề xuất [38] Điều quy cho việc sử dụng phân loại nhóm biểu đa số kết hợp từ vựng với tính BOW Bảng cho thấy thuật toán kết hợp khám phá khảo sát Phương pháp đề xuất Zainuddin cộng [54] đạt điểm xác 26 (IJACSA) Tạp chí Quốc tế Ứng dụng Khoa học Máy tính Tiên tiến, Vol 10, số 2, 2019 76,55% tập liệu STS vượt trội so với phương pháp dựa từ vựng đề xuất Xia cộng [45] đạt điểm xác 72,6% cho tập liệu Ngồi ra, phương pháp tổng hợp bỏ phiếu theo đa số Fouad cộng đề xuất [42] đạt số điểm 78,70% Kết tốt đạt da Silva et al [38] phương pháp tổng hợp họ đạt độ xác 81,06% tập liệu STS BẢNG III CÁC PHƯƠNG PHÁP DỰA TRÊN LEXICON ĐỂ PHÂN TÍCH TÌNH CẢM TWITTER Study Methods Algorith Features ms Khám phá Unigrams từ ngữ tình cảm tiếng lóng Phân tích cảm xúc (ESSA) POS features Xia et al [45] Unsupervised method (lexiconbased) Azzouza, Nouredd ine, et al [46] Unsupervised method Paltoglo u and Thelwall [48] Unsupervised method (lexiconbased) Từ điển cảm xúc Masud et al [49] Unsupervised method Lexicon từ điển Unigrams 27 Datasets Outcomes Bộ liệu STS OMD Đã đạt độ xác phân loại 0,726 cho tập liệu STS 0,692 cho tập liệu OMD SemEval-2013, SemEval-2014, SemEval-2015, SemEval-2016 Đối với tập liệu SemEval-2013, hệ thống đề xuất đạt điểm xác 0,559 so với 0,50 SSA-UO thu Đối với tập liệu SemEval-2016, hệ thống đề xuất đạt điểm xác 0,533 so với 0,539 GTI thu Tập liệu Phương pháp từ vựng Digg, MySpace đề xuất đạt Twitter điểm F1 76,2, 80,6 86,5 cho tập liệu Digg, MySpace Twitter liệu riêng Phương pháp tích hợp lexicon từ điển (IJACSA) Tạp chí Quốc tế Ứng dụng Khoa học Máy tính Tiên tiến, Vol 10, số 2, 2019 (lexiconbased) Asghar et al [50] LexiconenhancedRule -based Bộ phân loại dựa quy tắc Emoticonhan dling features and an enhanced feature weighting scheme Ba tập liệu đánh giá đề xuất đạt độ xác 92% phân loại nhị phân 87% phân loại nhiều lớp Đối với tập liệu thứ hai, kỹ thuật đề xuất đạt độ đo F1 0,795 [56] đạt điểm F 0,76 Đối với tập liệu thứ ba, phương pháp đề xuất đạt điểm F 0,855 so với điểm F 0,77 thu [56] BẢNG IV CÁC PHƯƠNG PHÁP HYBRID ĐỂ PHÂN TÍCH TÌNH CẢM Study Balage Filho and Pardo [51] Metho ds Hybrid Ghiassi et al.[52] Hybrid Khan et al [53] Hybrid Algorithms Features Datasets Outcomes SVM làm trình BOW phân loại học máy SentiStrength trình phân loại dựa từ vựng trình phân loại dựa quy tắc Từ vựng dành Trigrams riêng cho Twitter and bigrams trình phân loại DAN2 Tập Mơ hình lai đạt điểm F liệu 0,563 so với 0,499 SVM nhiệm vụ SemEval -2013 Trình phân loại biểu tượng cảm xúc nâng cao (EEC), Trình Bộ liệu riêng Biểu tượng cảm xúc SentiWordN et, từ ngữ 28 Bộ liệu riêng Đối với lớp tiêu cực, DAN2 đạt độ xác trung bình 92,5 so với 91,45 SVM thu Đối với lớp tích cực, DAN2 thu độ xác trung bình 68,2 so với độ xác 67,6 mà SVM đạt Đạt độ xác 85,7%, độ xác 85,3% thu hồi 82,2 (IJACSA) Tạp chí Quốc tế Ứng dụng Khoa học Máy tính Tiên tiến, Vol 10, số 2, 2019 Zainuddi Hybrid n et al [54] Asghar Hybrid et al [55] VIII phân loại phân cực cải tiến (IPC) Trình phân loại SentiWordNet (SWNC) Phân tích thành phần (PCA) phân loại SVM tình cảm Phương pháp khai thác quy tắc kết hợp (ARM), POS trình phân tích cú pháp phụ thuộc Stanford (SDP) Bộ phân loại SC, EC, (SentiWordNet) IDSC Bộ liệu STS, HCTS STC Mơ hình kết hợp đề xuất hoạt động tốt phân loại khác cho liệu STS, HCTS STC với độ xác 76,55, 71,62 74,24% Bộ liệu riêng Bộ phân loại lai đề xuất đạt Điểm F 0,88 so với 0,81 đạt [49] KẾT LUẬN Trong viết này, kỹ thuật cho phương pháp phân tích tình cảm Twitter thảo luận, bao gồm học máy, phương pháp tiếp cận tổng hợp phương pháp tiếp cận dựa từ điển (từ vựng) Ngoài ra, kỹ thuật phân tích tình cảm Twitter kết hợp tổng hợp khám phá Kết nghiên cứu chứng minh kỹ thuật học máy; ví dụ, SVM MNB tạo độ xác cao nhất, đặc biệt có nhiều đặc trưng bao gồm Các phân loại SVM xem chiến lược học tập tiêu chuẩn, kỹ thuật dựa từ điển (từ vựng) khả thi, địi hỏi nỗ lực kho lưu trữ người đánh dấu Các thuật toán học máy, chẳng hạn The Naive Bayes, Maximum Entropy SVM, đạt độ xác khoảng 80% sử dụng mơ hình n-gram bigram Các thuật tốn phân tích tình cảm Twitter dựa tập hợp kết hợp có xu hướng hoạt động tốt kỹ thuật học máy giám sát, chúng đạt độ xác phân loại xấp xỉ 85% Nói chung, người ta mong đợi phương pháp phân tích tình cảm Twitter tổng hợp hoạt động tốt thuật tốn học máy có giám sát, chúng kết hợp nhiều phân loại đơi đặc trưng mơ hình khác Tuy nhiên, phương pháp kết hợp hoạt động tốt thu điểm số 29 (IJACSA) Tạp chí Quốc tế Ứng dụng Khoa học Máy tính Tiên tiến, Vol 10, số 2, 2019 xác phân loại hợp lý, chúng tận dụng lợi công cụ phân loại học máy phương pháp phân tích tình cảm dựa từ vựng Twitter Một khó khăn lớn gặp phải xác định cách tiếp cận tốt để phát cảm xúc liệu Twitter so sánh cách tiếp cận khác nhiệm vụ khó khăn thiếu tiêu chuẩn thống Do đó, khó khăn khơng có tiêu chuẩn xác định rõ ràng giải [10] giảm thiểu cách dựa vào tập liệu sử dụng để đánh giá thuật toán khác thi tình cảm tiểu blog tập liệu SemEval’13 Lĩnh vực thú vị cho nghiên cứu tương lai bao gồm dao động hiệu suất thuật tốn phân tích cảm xúc trường hợp có nhiều đặc trưng xem xét Nói cách khác, việc kết hợp đặc trưng khác dẫn đến cải thiện hiệu suất hầu hết trường hợp, hiệu suất không đạt tiêu chuẩn trường hợp khác Do đó, việc khám phá nguyên nhân bất ổn hiệu suất hướng hấp dẫn cho cơng trình tương lai Một phương pháp khác điều tra vấn đề thưa thớt liệu cách sử dụng hai phương pháp tiếp cận tổng hợp kết hợp Mục đích đằng sau điều để đo lường mức độ mạnh mẽ phương pháp tiếp cận tình cảm Twitter khác thưa thớt liệu Một lĩnh vực nghiên cứu khác việc sử dụng kỹ thuật học tập tích cực để phát cảm xúc Twitter để tăng tin tưởng người định REFERENCES [1] R Xia, C Zong, and S Li, "Ensemble of feature sets and classification algorithms for sentiment classification," Information Sciences, vol 181, no 6, pp 1138-1152, 2011/03/15/ 2011 [2] R Sharma, S Nigam, and R Jain, "Opinion mining of movie reviews at document level," arXiv preprint arXiv:1408.3829, 2014 [3] R Sharma, S Nigam, and R Jain, "Polarity detection at sentence level," International Journal of Computer Applications, vol 86, no 11, 2014 [4] D Factiva, "Quick Study: Direct Correction Established Between Social Meidia Engagement and Strong Financial Performance," PR News, 2009 [5] S R Das and M Y Chen, "Yahoo! for Amazon: Sentiment extraction from small talk on the web," Management science, vol 53, no 9, pp 1375-1388, 2007 [6] A Tumasjan, T O Sprenger, P G Sandner, and I M Welpe, "Predicting elections with twitter: What 140 characters reveal about political sentiment," Icwsm, vol 10, no 1, pp 178-185, 2010 30 (IJACSA) Tạp chí Quốc tế Ứng dụng Khoa học Máy tính Tiên tiến, Vol 10, số 2, 2019 [7] I Twitter, "Second Quarter 2016 Report," ed, 2016 [8] I Twitter, "Twitter IPO Prospectus," ed, 2013 [9] Alexa.com, "Website Traffic Ranking," ed, 2017 [10] A DuVander, "Which APIs are handling billions of requests per day?," Programmable Web, 2012 [11] A Giachanou and F Crestani, "Like It or Not: A Survey of Twitter Sentiment Analysis Methods," ACM Comput Surv., vol 49, no 2, pp 1-41, 2016 [12] A M Kaplan and M Haenlein, "Users of the world, unite! The challenges and opportunities of Social Media," Business horizons, vol 53, no 1, pp 59-68, 2010 [13] A Abirami and V Gayathri, "A survey on sentiment analysis methods and approach," in Advanced Computing (ICoAC), 2016 Eighth International Conference on, 2017: IEEE, pp 72-76 [14] K P Murphy, "Naive bayes classifiers," University of British Columbia, vol 18, 2006 [15] A L Berger, V J D Pietra, and S A D Pietra, "A maximum entropy approach to natural language processing," Comput Linguist., vol 22, no 1, pp 39-71, 1996 [16] A S Nugroho, A B Witarto, and D Handoko, "Support vector machine," Teori dan Aplikasinya dalam Bioinformatika, Ilmu Komputer com, Indonesia, 2003 [17] V Kharde and P Sonawane, "Sentiment analysis of twitter data: A survey of techniques," arXiv preprint arXiv:1601.06971, 2016 [18] A Harb, M Plantié, G Dray, M Roche, F Trousset, and P Poncelet, "Web Opinion Mining: How to extract opinions from blogs?," in Proceedings of the 5th international conference on Soft computing as transdisciplinary science and technology, 2008: ACM, pp 211-217 [19] B Pang, L Lee, and S Vaithyanathan, "Thumbs up?: sentiment classification using machine learning techniques," in Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10, 2002: Association for Computational Linguistics, pp 79-86 [20] J Khairnar and M Kinikar, "Machine learning algorithms for opinion mining and sentiment classification," International Journal of Scientific and Research Publications, vol 3, no 6, pp 1-6, 2013 [21] C Wu, L Shen, and X Wang, "A new method of using contextual information to infer the semantic orientations of context dependent opinions," in Artificial Intelligence and Computational Intelligence, 2009 AICI'09 International Conference on, 2009, vol 4: IEEE, pp 274-278 31 (IJACSA) Tạp chí Quốc tế Ứng dụng Khoa học Máy tính Tiên tiến, Vol 10, số 2, 2019 [22] M Taboada, J Brooke, M Tofiloski, K Voll, and M Stede, "Lexiconbased methods for sentiment analysis," Computational linguistics, vol 37, no 2, pp 267307, 2011 [23] T Zagibalov and J Carroll, "Unsupervised classification of sentiment and objectivity in Chinese text," in Proceedings of the Third International Joint Conference on Natural Language Processing: Volume-I, 2008 [24] A Tripathy and S K Rath, "Classification of sentiment of reviews using supervised machine learning techniques," International Journal of Rough Sets and Data Analysis (IJRSDA), vol 4, no 1, pp 56-74, 2017 [25] M R Saleh, M T Martín-Valdivia, A Montejo-Ráez, and L UraLópez, "Experiments with SVM to classify opinions in different domains," Expert Systems with Applications, vol 38, no 12, pp 14799- 14804, 2011 [26] [26] A Go, R Bhayani, and L Huang, "Twitter sentiment classification using distant supervision," CS224N Project Report, Stanford, vol 1, no 2009, p 12, 2009 [27] J Read, "Using emoticons to reduce dependency in machine learning techniques for sentiment classification," in Proceedings of the ACL student research workshop, 2005: Association for Computational Linguistics, pp 43-48 [28] M Anjaria and R M R Guddeti, "Influence factor based opinion mining of Twitter data using supervised learning," in 2014 Sixth International Conference on Communication Systems and Networks (COMSNETS), 2014, pp 1-8 [29] A Barhan and A Shakhomirov, "Methods for Sentiment Analysis of twitter messages," in 12th Conference of FRUCT Association, 2012 [30] P.-W Liang and B.-R Dai, "Opinion mining on social media data," in Mobile Data Management (MDM), 2013 IEEE 14th International Conference on, 2013, vol 2: IEEE, pp 91-96 [31] A Pak and P Paroubek, "Twitter as a corpus for sentiment analysis and opinion mining," in LREc, 2010, vol 10, no 2010 [32] E Kouloumpis, T Wilson, and J D Moore, "Twitter sentiment analysis: The good the bad and the omg!," Icwsm, vol 11, no 538-541, p 164, 2011 [33] H Saif, Y He, and H Alani, "Semantic sentiment analysis of twitter," in International semantic web conference, 2012: Springer, pp 508-524 [34] H Hamdan, F Béchet, and P Bellot, "Experiments with DBpedia, WordNet and SentiWordNet as resources for sentiment analysis in micro-blogging," in Second Joint Conference on Lexical and Computational Semantics (* SEM), Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013), 2013, vol 2, pp 455-459 32 (IJACSA) Tạp chí Quốc tế Ứng dụng Khoa học Máy tính Tiên tiến, Vol 10, s 2, 2019 [35] F Akba, A Uỗan, E A Sezer, and H Sever, "Assessment of feature selection metrics for sentiment analyses: Turkish movie reviews," in 8th European Conference on Data Mining, 2014, vol 191, pp 180-184 [36] H Saif, Y He, and H Alani, "Alleviating data sparsity for twitter sentiment analysis," 2012: CEUR Workshop Proceedings (CEUR-WS org) [37] J Lin and A Kolcz, "Large-scale machine learning at twitter," in Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data, 2012: ACM, pp 793-804 [38] N F F da Silva, E R Hruschka, and E R Hruschka, "Tweet sentiment analysis with classifier ensembles," Decision Support Systems, vol 66, pp 170179, 2014/10/01/ 2014 [39] M Hagen, M Potthast, M Büchner, and B Stein, "Webis: An ensemble for twitter sentiment detection," in Proceedings of the 9th international workshop on semantic evaluation (SemEval 2015), 2015, pp 582-589 [40] E Martınez-Cámara, Y Gutiérrez-Vázquez, J Fernández, A MontejoRáez, and R Munoz-Guillena, "Ensemble classifier for Twitter Sentiment Analysis," 2015 [41] T Chalothom and J Ellman, "Simple Approaches of Sentiment Analysis via Ensemble Learning," Berlin, Heidelberg, 2015: Springer Berlin Heidelberg, pp 631-639 [42] M M Fouad, T F Gharib, and A S Mashat, "Efficient Twitter Sentiment Analysis System with Feature Selection and lassifier Ensemble," in International Conference on Advanced Machine Learning Technologies and Applications, 2018: Springer, pp 516-527 [43] C Musto, G Semeraro, and M Polignano, "A comparison of lexiconbased approaches for sentiment analysis of microblog posts," Information Filtering and Retrieval, vol 59, 2014 [44] J Silge and D Robinson, Text Mining with R: A Tidy Approach O'Reilly Media, 2017 [45] X Hu, J Tang, H Gao, and H Liu, "Unsupervised sentiment analysis with emotional signals," in Proceedings of the 22nd international conference on World Wide Web, 2013: ACM, pp 607-618 [46] N Azzouza, K Akli-Astouati, A Oussalah, and S A Bachir, "A realtime Twitter sentiment analysis using an unsupervised method," in Proceedings of the 7th International Conference on Web Intelligence, Mining and Semantics, 2017: ACM, p 15 33 (IJACSA) Tạp chí Quốc tế Ứng dụng Khoa học Máy tính Tiên tiến, Vol 10, số 2, 2019 [47] R Ortega, A Fonseca, and A Montoyo, "SSA-UO: unsupervised Twitter sentiment analysis," in Second joint conference on lexical and computational semantics (* SEM), 2013, vol 2, pp 501-507 [48] G Paltoglou and M Thelwall, "Twitter, MySpace, Digg: Unsupervised sentiment analysis in social media," ACM Transactions on Intelligent Systems and Technology (TIST), vol 3, no 4, p 66, 2012 [49] F M Kundi, A Khan, S Ahmad, and M Z Asghar, "Lexicon-based sentiment analysis in the social web," Journal of Basic and Applied Scientific Research, vol 4, no 6, pp 238-48, 2014 [50] M Z Asghar, A Khan, S Ahmad, M Qasim, and I A Khan, "Lexiconenhanced sentiment analysis framework using rule-based classification scheme," PloS one, vol 12, no 2, p e0171649, 2017 [51] P Balage Filho and T Pardo, "NILC_USP: A hybrid system for sentiment analysis in twitter messages," in Second Joint Conference on Lexical and Computational Semantics (* SEM), Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013), 2013, vol 2, pp 568-572 [52] M Ghiassi, J Skinner, and D Zimbra, "Twitter brand sentiment analysis: A hybrid system using n-gram analysis and dynamic artificial neural network," Expert Systems with applications, vol 40, no 16, pp 6266-6282, 2013 [53] F H Khan, S Bashir, and U Qamar, "TOM: Twitter opinion mining framework using hybrid classification scheme," Decision Support Systems, vol 57, pp 245-257, 2014 [54] N Zainuddin, A Selamat, and R Ibrahim, "Hybrid sentiment classification on twitter aspect-based sentiment analysis," Applied Intelligence, pp 1-15, 2017 [55] M Z Asghar, F M Kundi, S Ahmad, A Khan, and F Khan, "T ‐SAF: Twitter sentiment analysis framework using a hybrid classification scheme," Expert Systems, vol 35, no 1, 2018 [56] F M Kundi, S Ahmad, A Khan, and M Z Asghar, "Detection and scoring of internet slangs for sentiment analysis using SentiWordNet," Life Science Journal, vol 11, no 9, pp 66-72, 2014 34 ... loại sử dụng để phát cảm xúc Twitter Hiệu suất phân loại tình cảm Twitter chủ yếu dựa vào số lượng liệu đào tạo đặc trưng trích xuất Các chiến lược phân tích tình cảm Twitter dựa phương pháp học... Ứng dụng Khoa học Máy tính Tiên tiến, Vol 10, số 2, 2019 [7] I Twitter, "Second Quarter 2016 Report," ed, 2016 [8] I Twitter, "Twitter IPO Prospectus," ed, 2013 [9] Alexa.com, "Website Traffic... tạo 500 triệu tweet ngày [8] Trang Twitter đứng thứ mười hai toàn cầu hoạt động vào năm 2017 [9] phản ứng với 15 tỷ lệnh gọi API ngày [10] Tương tự, nội dung Twitter xuất triệu trang web bên [8]

Ngày đăng: 24/11/2021, 20:46

Hình ảnh liên quan

BẢNG I. CÁCH TIẾP CẬN HỌC MÁY CĨ GIÁM SÁT ĐỂ PHÂN TÍCH TÌNH CẢM TWITTER - BÁO CÁO BÀI TẬP LỚN HỌC PHẦN XỬ LÝ NGÔN NGỮ TỰ NHIÊN NGHIÊN CỨU VỀ KỸ THUẬT PHÂN TÍCH TÌNH CẢM CỦA DỮ LIỆU TWITTER
BẢNG I. CÁCH TIẾP CẬN HỌC MÁY CĨ GIÁM SÁT ĐỂ PHÂN TÍCH TÌNH CẢM TWITTER Xem tại trang 23 của tài liệu.
Bảng 2 minh họa các cách tiếp cận tổng hợp khác nhau để phân tích tình cảm trên Twitter - BÁO CÁO BÀI TẬP LỚN HỌC PHẦN XỬ LÝ NGÔN NGỮ TỰ NHIÊN NGHIÊN CỨU VỀ KỸ THUẬT PHÂN TÍCH TÌNH CẢM CỦA DỮ LIỆU TWITTER

Bảng 2.

minh họa các cách tiếp cận tổng hợp khác nhau để phân tích tình cảm trên Twitter Xem tại trang 24 của tài liệu.
Bảng 2. Điều này được cho là do ý tưởng biểu quyết đa số được sử dụng để xác định ý kiến cuối cùng của các tweet - BÁO CÁO BÀI TẬP LỚN HỌC PHẦN XỬ LÝ NGÔN NGỮ TỰ NHIÊN NGHIÊN CỨU VỀ KỸ THUẬT PHÂN TÍCH TÌNH CẢM CỦA DỮ LIỆU TWITTER

Bảng 2..

Điều này được cho là do ý tưởng biểu quyết đa số được sử dụng để xác định ý kiến cuối cùng của các tweet Xem tại trang 25 của tài liệu.
Bảng 3 tĩm tắt các thuật tốn dựa trên từ vựng khác nhau được khảo sát trong bài báo này - BÁO CÁO BÀI TẬP LỚN HỌC PHẦN XỬ LÝ NGÔN NGỮ TỰ NHIÊN NGHIÊN CỨU VỀ KỸ THUẬT PHÂN TÍCH TÌNH CẢM CỦA DỮ LIỆU TWITTER

Bảng 3.

tĩm tắt các thuật tốn dựa trên từ vựng khác nhau được khảo sát trong bài báo này Xem tại trang 26 của tài liệu.
Mơ hình lai đạt được điểm F là 0,563 so với 0,499 của SVM. - BÁO CÁO BÀI TẬP LỚN HỌC PHẦN XỬ LÝ NGÔN NGỮ TỰ NHIÊN NGHIÊN CỨU VỀ KỸ THUẬT PHÂN TÍCH TÌNH CẢM CỦA DỮ LIỆU TWITTER

h.

ình lai đạt được điểm F là 0,563 so với 0,499 của SVM Xem tại trang 28 của tài liệu.
BẢNG IV. CÁC PHƯƠNG PHÁP HYBRID ĐỂ PHÂN TÍCH TÌNH CẢM - BÁO CÁO BÀI TẬP LỚN HỌC PHẦN XỬ LÝ NGÔN NGỮ TỰ NHIÊN NGHIÊN CỨU VỀ KỸ THUẬT PHÂN TÍCH TÌNH CẢM CỦA DỮ LIỆU TWITTER
BẢNG IV. CÁC PHƯƠNG PHÁP HYBRID ĐỂ PHÂN TÍCH TÌNH CẢM Xem tại trang 28 của tài liệu.
Mơ hình kết hợp được đề xuất hoạt động tốt hơn các bộ phân  loại khác cho bộ dữ liệu STS,  HCTS và STC với độ chính xác  lần lượt là 76,55, 71,62 và  74,24% - BÁO CÁO BÀI TẬP LỚN HỌC PHẦN XỬ LÝ NGÔN NGỮ TỰ NHIÊN NGHIÊN CỨU VỀ KỸ THUẬT PHÂN TÍCH TÌNH CẢM CỦA DỮ LIỆU TWITTER

h.

ình kết hợp được đề xuất hoạt động tốt hơn các bộ phân loại khác cho bộ dữ liệu STS, HCTS và STC với độ chính xác lần lượt là 76,55, 71,62 và 74,24% Xem tại trang 29 của tài liệu.

Mục lục

    II. ĐỊNH NGHĨA VÀ ĐỘNG LỰC

    III. TẦM QUAN TRỌNG VÀ BỐI CẢNH

    IV. KỸ THUẬT PHÂN LOẠI

    V. DOCUMENT-LEVEL SENTIMENT ANALYSIS APPROACHES

    VI. CÁCH TIẾP CẬN PHÂN TÍCH NHẬN THỨC CẤP ĐỘ CÂU

    VII. THẢO LUẬN VÀ KẾT QUẢ

Tài liệu cùng người dùng

  • Đang cập nhật ...