1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tài liệu Phân tích cảm xúc trên cơ sở trị cảm xúc chuyển dịch theo ngữ cảnh

27 20 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 811,08 KB

Nội dung

tai lieu, luan van1 of 98.ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA TRẦN KHẢI THIỆN PHÂN TÍCH CẢM XÚC TRÊN CƠ SỞ TRỊ CẢM XÚC CHUYỂN DỊCH THEO NGỮ CẢNH CHO TIẾNG VIỆT Ngành: Khoa học máy tính Mã số ngành: 62.48.01.01 TĨM TẮT LUẬN ÁN TIẾN SĨ TP HỒ CHÍ MINH - NĂM 2021 document, khoa luan1 of 98 tai lieu, trình luan van2 of 98 Cơng hồn thành Trường Đại học Bách Khoa – ĐHQG-HCM Người hướng dẫn 1: GS TS Phan Thị Tươi Người hướng dẫn 2: Phản biện độc lập 1: Phản biện độc lập 2: Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng đánh giá luận án họp vào lúc ngày tháng năm Có thể tìm hiểu luận án thư viện: - Thư viện Trường Đại học Bách Khoa – ĐHQG-HCM - Thư viện Đại học Quốc gia Tp.HCM - Thư viện Khoa học Tổng hợp Tp.HCM document, khoa luan2 of 98 tai lieu, luan van3 of 98 DANH MỤC CƠNG TRÌNH ĐÃ CƠNG BỐ Tạp chí quốc tế [CT01] Trần Khải Thiện & Phan Thị Tươi, "Capturing Contextual Factors in Sentiment Classification: An Ensemble Approach," in IEEE Access, vol 8, pp 116856-116865, 2020, SCIE, Q1 [CT02] Trần Khải Thiện & Phan Thị Tươi, “Deep Learning Application to Ensemble Learning—The Simple, but Effective, Approach to Sentiment Classifying,” Appl Sci 2019, 9, 2760 SCIE, Q2 [CT03] Trần Khải Thiện & Phan Thị Tươi, “A hybrid approach for building a Vietnamese sentiment dictionary,” J Intell Fuzzy Syst., vol.35, no.1, pp 967–978, 2018 SCIE, Q3 [CT04] Trần Khải Thiện & Phan Thị Tươi, “Towards a sentiment analysis model based on semantic relation analysis,” International Journal of Synthetic Emotions (IJSE) (2) 2018, pp 54-75 [CT05] Trần Khải Thiện & Phan Thị Tươi, “Mining opinion targets and opinion words from online reviews,” International Journal of Information Technology (3) 2017, pp 239-249 [CT06] Trần Khải Thiện & Phan Thị Tươi, “Multi-Class Opinion Classification for Vietnamese Hotel Reviews,” IJITAS, vol.9, no.1, pp – 18, 2015 Tạp chí nước [CT12] Trần Khải Thiện & Phan Thị Tươi, “Xây dựng mơ hình phân tích cảm xúc dựa mối quan hệ phụ thuộc ngữ nghĩa,” Tạp Chí Phát Triển KH&CN, Tập 20, Số K7-2017 Kỷ yếu hội nghị quốc tế [CT07] Trần Khải Thiện & Phan Thị Tươi, “Toward Contextual Valence Shifters in Vietnamese Reviews,” ROCLING 2017, pp 152-159 [CT08] Trần Khải Thiện & Phan Thị Tươi, “Computing Sentiment Scores of Verb Phrases for Vietnamese,” ROCLING 2016, pp 204-213 [CT09] Trần Khải Thiện & Phan Thị Tươi, “Computing Sentiment Scores of Adjective Phrases for Vietnamese,” MIWAI, Springer, 2016, pp 288–296 [CT10] Trần Khải Thiện & Phan Thị Tươi, “Constructing sentiment ontology for vietnamese reviews,” (iiWAS '15) ACM, New York, NY, USA, 2015 [CT11] Trần Khải Thiện & Phan Thị Tươi, “An upgrading SentiVoice - a system for querying hotel service reviews via phone,” IALP 2015, pp 115–118 Đề tài nghiên cứu khoa học Phan Thị Tươi (chủ nhiệm), Trần Khải Thiện, Lê Thị Thủy Nghiên cứu tốn phân tích quan điểm tiếng Việt xây dựng ứng dụng tra cứu thông tin nhận xét khách sạn ĐHQG-HCM 2016 document, khoa luan3 of 98 tai lieu, luan van4 of 98 GIỚI 1.1 THIỆU Đề xuất nghiên cứu Nhiều công trình, cơng cụ ứng dụng phân tích cảm xúc phát triển để khai thác ý kiến nội dung người dùng tạo trang mạng Tuy nhiên, hiệu hệ thống chưa cao phức tạp ngôn ngữ tự nhiên nhiều nghiên cứu cho thấy phân tích cảm xúc toán phức tạp so với phân lớp văn theo chủ đề Các cơng trình chưa hiệu việc xử lý số tượng ngôn ngữ, chẳng hạn phủ định, tượng dịch chuyển cảm xúc, văn mang ý kiến hỗn hợp Luận án thực để giải hai vấn đề nghiên cứu sau: 1) Làm để xác định giá trị cảm xúc từ cụm từ mang sắc thái tình cảm văn nhận xét tiếng Việt? 2) Làm để phân lớp cảm xúc cách hiệu ý kiến nhận xét tiếng Việt số lượng lớn đánh giá sản phẩm dịch vụ? Vấn đề liên quan đến cần thiết phải xác định thang độ cảm xúc đơn vị nhỏ mang nghĩa hồn chỉnh văn bản, mức từ cụm từ Vấn đề nghiên cứu thứ hai xác định xu hướng cảm xúc toàn văn nhận xét, từ giúp cá nhân đưa định mua hàng sáng suốt cung cấp cho nhà sản xuất cách nhìn sâu sắc để cải thiện sản phẩm dịch vụ họ 1.2 Mục đích nghiên cứu Luận án nghiên cứu đặc trưng ngôn ngữ tượng dịch chuyển cảm xúc văn tiếng Việt, từ đề xuất phương pháp nhằm cải thiện hiệu suất toán phân lớp cảm xúc Để phục vụ cho mục đích này, có hai mục tiêu mà nghiên cứu cần đạt được: – Thứ nhất, xây dựng từ điển cảm xúc cho tiếng Việt để phục vụ phân tích cảm xúc Điểm đặc biệt từ điển từ, cụm từ tiếng Việt xác định giá trị cảm xúc dựa sở kết hợp từ điển cảm xúc tiếng Anh document, khoa luan4 of 98 tai lieu, luan van5 of 98 SentiWordnet, phương pháp hồi quy phương pháp tính tốn hiệu luận án đề xuất Phương pháp đề xuất xác định giá trị cảm xúc cho cụm từ dựa vào luật mờ, đặc trưng ngôn ngữ, trường hợp gây dịch chuyển cảm xúc ngôn ngữ tiếng Việt Mục tiêu trả lời cho vấn đề nghiên cứu – Thứ hai, xây dựng, khai thác phát triển phương pháp hướng đến ngữ nghĩa kết hợp với kỹ thuật học máy, mơ hình học sâu cho tốn phân tích cảm xúc Trong phương pháp hướng đến ngữ nghĩa sử dụng để tính tốn giá trị cảm xúc dựa tình dịch chuyển cảm xúc ngữ cảnh văn tiếng Việt Tiếp cận học máy tận dụng sức mạnh mơ hình tính tốn, thống kê việc tìm đặc trưng tốt Mơ hình học sâu nhằm trích xuất tự động đặc trưng liệu ngôn ngữ Việc khai thác kết hợp điểm mạnh phương pháp chìa khóa để hệ thống có kết xác Mục tiêu giải vấn đề nghiên cứu thứ hai 1.3 Các đóng góp luận án – Xây dựng từ điển cảm xúc cho từ cụm từ tiếng Việt: Thơng qua phân tích đặc trưng ngơn ngữ dịch chuyển cảm xúc nhận xét tiếng Việt, luận án tiến hành chuyển ngữ sang tiếng Việt từ cảm xúc tiếng Anh dựa từ điển cảm xúc SentiWordnet; sử dụng hồi quy logistic áp dụng tính tốn mờ Zadeh đề xuất để đưa mơ hình hiệu cho việc xác định độ đo cảm xúc từ cụm từ tiếng Việt Luận án điều chỉnh hàm mờ cho việc tính tốn độ đo cảm xúc cụm từ dựa cấu trúc cú pháp cụm từ tiếng Việt để phù hợp với đặc trưng ngôn ngữ tiếng Việt [CT03], [CT04, CT5] [CT07, CT08, CT09, CT10] – Đề xuất mơ hình học tổ hợp (ensemble learning) hiệu với học thành phần học tập liệu khai thác nhiều đặc trưng khác tiếng Việt: Các đặc trưng khác tập liệu xác định bằng phương pháp hướng đến ngữ nghĩa học sâu Việc lựa chọn mơ hình nhúng từ Word2Vec phương pháp học sâu cho học thành phần mô document, khoa luan5 of 98 tai lieu, luan van6 of 98 hình học tổ hợp làm cho hiệu mơ hình phân lớp cảm xúc cải thiện Mơ hình đề xuất luận án áp dụng tốt cho ngơn ngữ tiếng Anh [CT01, CT02] PHÂN TÍCH CẢM XÚC VÀ SỰ DỊCH CHUYỂN CẢM XÚC 2.1 Phân tích cảm xúc Quan điểm thể ý kiến chủ quan, tình cảm, hay cảm xúc người hướng đến thực thể hay kiện Phân tích quan điểm (phân tích cảm xúc, phân tích ý kiến) lĩnh vực nghiên cứu tương đối mới, có vị trí quan trọng thu hút quan tâm không giới nghiên cứu mà doanh nghiệp, tổ chức Trong kinh doanh, phân tích cảm xúc sử dụng nhiều, từ sản xuất đến quảng cáo, tiếp thị Cơng trình Mishne Glance năm 2006 nghiên cứu quan điểm khách hàng qua trang mạng phim trước sau khởi chiếu, kết thu giúp cho việc dự đoán số lượng vé bán cho phim yếu tố khác Về trị, nhiều tổ chức sử dụng phân tích cảm xúc để phân tích quan điểm ý kiến liên quan đến sách, luật pháp, tổ chức phủ Tumasjan cộng sử dụng đoạn tweets Twiter để dự đoán kết bầu cử, kết sai khác nhỏ so với kết thực có sau Trong lĩnh vực tâm lý, tác giả Turney cộng sử dụng phân tích cảm xúc để phân tích giấc mơ, phân loại thành giấc mơ tích cực hay tiêu cực Theo B Liu, cảm xúc hay quan điểm định nghĩa bằng gồm thành phần bởi: (ei, aij, hk, tl, sijkl) (1.1) với: ei tên thực thể, aij khía cạnh ei, hk chủ thể thể ý kiến, tl thời điểm thể ý kiến chủ thể hk, sijkl ý kiến cảm xúc khía cạnh aij thực thể ei cho bởi chủ thể hk thời điểm tl, document, khoa luan6 of 98 tai lieu, luan van7 of 98 Dựa định nghĩa quan điểm, phân tích quan điểm (hay phân tích cảm xúc) nhắm tới việc phát cảm xúc văn tốn phân tích cảm xúc sinh xoay quanh việc phát khai thác năm thành phần cảm xúc với hai cách tiếp cận phương pháp hướng đến ngữ nghĩa (semantic orientation) phương pháp học máy 2.2 Sự dịch chuyển cảm xúc vấn đề cần nghiên cứu Ngồi việc mơ tả kiện cách khách quan, văn thường truyền đạt thông tin thái độ khác người viết người tham gia kiện mơ tả Thái độ tình cảm thể qua lựa chọn từ ngữ cách xếp từ ngữ văn người viết Mặc dù số từ vựng văn ln thể hóa giá trị cảm xúc tích cực tiêu cực, số từ khác có khả bị thay đổi hóa trị theo ngữ cảnh ảnh hưởng từ đứng gần chúng văn bản, tổ chức đặt từ văn Có hai hướng giải cho tốn phân tích cảm xúc, tiếp cận theo hướng ngữ nghĩa tiếp cận theo học máy Phương pháp học máy tỏ ưu nhờ vào nguồn liệu huấn luyện ngày phong phú nguồn liệu thường phải thuộc miền ứng dụng với mục tiêu toán Tuy nhiên, phương pháp học máy hay gặp khó khăn tốn phân lớp cảm xúc theo nhiều thang độ, điều thường xuất ý kiến nhận xét, bởi thực tế người dùng hay đưa ý kiến theo nhiều cung bậc tình cảm khác Một vấn đề mà phương pháp học máy gặp khó khăn trường hợp liệu chứa tình gây dịch chuyển cảm xúc ngữ cảnh Ngược lại, phương pháp tiếp cận theo hướng ngữ nghĩa có khả giải trường hợp phân lớp cảm xúc nhiều thang độ phát nhiều trường hợp dịch chuyển cảm xúc ngữ cảnh ngôn ngữ Tuy vậy, việc định nghĩa luật để phủ hết tình xảy liệu ngôn ngữ không khả thi Đặc biệt tiếng Việt nguồn liệu cho phân tích cảm xúc chưa sẵn sàng, ví dụ chưa có WordNet hay từ điển đủ lớn SentiWordnet cho tiếng Việt document, khoa luan7 of 98 tai lieu, luan van8 of 98 XÁC ĐỊNH SỰ DỊCH CHUYỂN TRỊ CẢM XÚC CỦA TỪ VÀ CỤM TỪ Quá trình xác định từ cảm xúc lõi điểm số cảm xúc từ cụm từ trình bày Hình 3.1 Luận án sử dụng từ điển cảm xúc tiếng Anh SentiWordNet công cụ chuyển ngữ Vdict.com để xây dựng từ điển cảm xúc tiếng Việt Để xác định điểm số cảm xúc từ, luận án sử dụng hồi quy logistic kết hợp với từ điển SentiWordNet Các luật mờ sau áp dụng để tính tốn điểm số cảm xúc cho cụm tính từ, động từ dựa cấu trúc đặc trưng chúng Hình 3.1: Xác định tính tốn giá trị cảm xúc từ cụm từ mang cảm xúc 3.1 Xác định trị cảm xúc cho từ Việc xây dựng tập từ cảm xúc lõi thực theo bước sau document, khoa luan8 of 98 tai lieu, luan van9 of 98  Bước 1: Sử dụng từ điển trực tuyến Vdict.com để chuyển ngữ từ tiếng Anh SentiWordnet sang tiếng Việt  Bước 2: Gán giá trị cảm xúc từ tiếng Việt vừa có ở Bước bằng với giá trị cảm xúc từ tiếng Anh tương ứng SentiWordnet  Bước 3: Nếu từ tiếng Việt có nhiều trị cảm xúc, chọn trị cảm xúc có sai khác bé so với trị xác định bằng phương pháp hồi quy logistic từ 3.2 Xác định giá trị cảm xúc cho cụm từ Ở mức cú pháp, cụm từ hình thành từ từ, kết hợp với theo quan hệ cú pháp Phạm vi luận án quan tâm đến cụm từ, bao gồm cụm tính từ (kết hợp với phó từ) cụm động từ (kết hợp với phó từ)  Phó từ Dựa vào đặc trưng tiếng Việt, có năm thang độ cảm xúc cho phó từ, từ nhấn mạnh (intensifier), nâng lên (booster), hạ bớt (diminisher), tối thiểu (minimizer), phủ định (modifier) Với phó từ thang độ, thuộc vào năm mức intensifier, booster, diminisher, minimizer, modifier Các phó từ loại số lượng khơng nhiều tần số xuất tương đối cao tiếng Việt giữ vai trò quan trọng việc biểu thị mức độ sắc thái tình cảm văn  Luật mờ cho cụm tính từ Độ đo cảm xúc cụm tính từ tính tốn nhờ vào luật mờ áp dụng tính từ (ký hiệu x) phó từ (ký hiệu y) xuất cụm từ Luận án sử dụng hàm mờ để đo lường độ ảnh hưởng phó từ cụm tính từ Trong đó, độ đo cảm xúc tính từ gán cho giá trị mờ, kí hiệu 𝜇(x) Tương tự đề xuất Zadeh tính từ cảm xúc có phó từ trước độ đo cụm tính từ điều chỉnh theo cơng thức (3.7) 𝑓(𝜇(𝑥)) = − (1 − 𝜇(𝑥)) 𝛿𝑦 (3.7) Dựa vào đặc trưng ngơn ngữ tiếng Việt, có năm thang độ cảm xúc cho phó từ, luận án chọn 𝛿𝑦 = 4, 2, 1/2, hay 1/4 phó từ y intensifier, document, khoa luan9 of 98 tai lieu, luan van10 of 98 booster, diminisher, hay minimizer trường hợp đặc biệt phó từ phủ định theo công thức (3.9) Lúc công thức (3.7) trở thành (3.8) − 4√1 − 𝜇 (𝑥) − √1 − 𝜇 (𝑥) 𝑓(𝜇(𝑥), 𝑦) = − (1 − 𝜇(𝑥)) 𝑦 ∈ 𝑀𝑖𝑚𝑖𝑛𝑖𝑧𝑒𝑟 𝑦 ∈ 𝐷𝑖𝑚𝑖𝑛𝑖𝑠ℎ𝑒𝑟 (3.8) 𝑦 ∈ 𝐵𝑜𝑜𝑠𝑡𝑒𝑟 {1 − (1 − 𝜇(𝑥)) 𝑦 ∈ 𝐼𝑛𝑡𝑒𝑛𝑠𝑖𝑓𝑖𝑒𝑟 Với ƒ(𝜇(x),y) độ đo cảm xúc cụm tính từ, x tính từ, y phó từ 𝜇(x) độ đo cảm xúc tính từ x Bảng 3.5 biểu diễn ví dụ cụm tính từ độ đo cảm xúc tương ứng Bảng 3.5: Ví dụ độ đo cảm xúc cụm tính từ tính theo công thức (3.8) 𝝁(x) f(𝝁(x),y) y∈ Intensifier (tốt) y∈ Booster (tốt) y∈ Diminisher (tốt) y∈ Minimizer (tốt) x = tốt 0.99 0.98 0.65 0.41 0.875 tốt Các trường hợp ngoại lệ a) Phủ định Với tính từ đạo đức, tư cách, phẩm chất tâm lý, nhà ngôn ngữ học Diệp Quang Ban cho rằng phủ định tính từ giá trị nghịch đảo chúng tính từ mang nghĩa tích cực, ngược lại phủ định trung tính Luận án đề xuất công thức (3.9) − 𝜇(𝑥) 𝑥 ∈ 𝑀𝑜𝑟𝑎𝑙𝑖𝑡𝑦 𝐴𝑁𝐷 𝑥 𝑖𝑠 𝑝𝑜𝑠𝑡𝑖𝑣𝑒 𝑓(𝜇(𝑥), 𝑦 ∈ 𝑀𝑜𝑑𝑖𝑓𝑖𝑒𝑟) = { 𝑥 ∉ 𝑀𝑜𝑟𝑎𝑙𝑖𝑡𝑦 𝑂𝑅 𝑥 𝑖𝑠 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒 (3.9) Ví dụ: ƒ(khơng, 𝜇(đẹ𝑝)) = 0, ƒ(khơng, 𝜇(𝑡ớ𝑡)) = - 𝜇(tốt)= - 0.875 b) Vị trí tương đối tính từ phó từ câu Nếu vị trí tính từ đứng trước phó từ làm gia tăng tính cảm xúc tính từ Ví dụ: ƒ(𝜇(đẹ𝑝), cực kỳ) > f(cực kỳ, 𝜇(đẹ𝑝)) f(hay, 𝜇(𝑡𝑢𝑦ệ𝑡)) > f(𝜇(𝑡𝑢𝑦ệ𝑡),hay) Trong trường hợp này, luận án đề xuất trị ƒ(𝜇(x),y) bằng trung bình cộng độ đo ban đầu (độ đo trường hợp tính từ đứng sau phó từ) độ đo mức công thức (3.8) Nếu độ đo ban đầu độ đo cao nhất, document, khoa luan10 of 98 10 tai lieu, luan van13 of 98 Luận án đề xuất mơ hình rút trích khía cạnh từ mang cảm xúc khía cạnh cho tốn phân tích cảm xúc mức khía cạnh, ký hiệu ABSA (Aspect-Based Sentiment Analysis) Mơ hình có thành phần sau: – Từ điển cảm xúc tiếng Việt (VNSD) – giúp xác định từ mang cảm xúc tra cứu trị cảm xúc từ, cụm từ – Ontology cho miền chuyên biệt – giúp xác định quan hệ ngữ nghĩa khía cạnh để phục vụ việc gom nhóm khái cạnh – Luật rút trích – nhằm rút trích cặp từ, cụm từ (cảm xúc – khía cạnh) 4.2 Tập luật rút trích khía cạnh từ mang cảm xúc tươmg ứng Luận án xét tất mối quan hệ có từ loại tiếng Việt xác định cặp từ loại kết hợp với gồm danh từ - tính từ, danh từ - động từ, danh từ - danh từ, tính từ - tính từ, động từ - động từ, phó từ - tính từ, phó từ - động từ Dựa kết hợp này, có 12 mẫu luật luận án đề xuất cài đặt, trình bày Bảng 4.1 Bảng 4.1: Tập luật rút trích đề xuất Luật rút trích Ví dụ Luật 1: Nếu có cụm danh từ chủ ngữ (subject) liên quan trực tiếp đến tính từ mang cảm xúc rút trích cặp từ Input: bãi xe q nhỏ Output: (nhỏ - bãi xe) Luật : Nếu có cụm danh từ chủ ngữ (subject) chủ thể trực tiếp động từ mang cảm xúc rút trích cặp từ Input: học phí tăng hồi Output: (tăng – học phí) Luật 3: Nếu có cụm danh từ T subject từ H H có mối quan hệ verb modifier (vmod) với từ mang cảm xúc S rút trích cặp từ (S-T) Input: lớp học nhìn Output: (sạch – lớp học) Luật 4: Nếu có cụm danh từ T subject từ H H có mối quan hệ direct object (dob) với từ mang cảm xúc S rút trích cặp từ (S-T) Input: máy chiếu hay gặp cố Output: (sự cố - máy chiếu) Luật 5: Nếu tính từ mang cảm xúc có mối liên hệ noun modifier (nmod) với cụm danh từ rút trích cặp từ Input: trường có sở vật chất tốt Output: (tốt – sở vật chất) Luật 6: Nếu cụm danh từ có mối liên hệ verb modifier với động từ mang cảm xúc rút trích cặp từ Input: chúng em khơng cần thành tích Output: (khơng cần – thành tích) Luật 7: Nếu nhiều khía cạnh nối bởi liên từ “và”, “hoặc”, “hay”… trích chọn khía cạnh từ mang cảm xúc đề cập đến chúng document, khoa luan13 of 98 13 Input: tơi thích cảnh vật người nơi Output: (thích – cảnh vật), tai lieu, luan van14 of 98 Output: (thích – người) Luật 8: Nếu nhiều từ mang cảm xúc nối bởi từ “nhưng”, “tuy”, “tuy nhiên” … trích chọn từ đích (target) mà chúng đề cập đến Input: trường nhỏ đẹp Output: (nhỏ - trường), Output: (đẹp – trường) Luật 9: Nếu câu có động từ mang cảm xúc có mối liên hệ vmod với động từ khác rút trích hai động từ khía cạnh mà chúng đề cập đến Input: trường cần giảm học phí Output: (cần giảm – học phí) Luật 10: Nếu câu xuất phó từ (phụ từ, adv) trích từ từ cảm xúc mà bổ nghĩa Input: trường ổn Output: (khá ổn – trường) Luật 11: Nếu câu xuất mẫu “khơng” rút trích cặp “không” cụm danh từ Input: không máy lạnh, không quạt Output: (không - máy lạnh) (không - quạt) Luật 12: Nếu ngữ danh từ có mối liên hệ dob với tính từ mang cảm xúc rút trích cặp từ Input: tơi thích khách sạn Output: (thích – khách_sạn) Ý nghĩa ký hiệu Bảng 3.11 sau: - S: từ mang cảm xúc T: đối tượng mà cảm xúc đến - S-Dep (hoặc T-Dep): quan hệ phụ thuộc S (hoặc T) - POS(S) POS(T): nhãn từ loại S T - N, A, V, R: tương ứng động từ, tính từ, danh từ, phó từ - sub, amod, dob, nmod, conj, coord: nhãn quan hệ phụ thuộc Trong đó, sub nhãn chức chủ ngữ; dob nhãn chức đối tượng trực tiếp; amod tính từ bổ ngữ; nmod danh từ bổ ngữ; conj coord liên từ 4.3 Xây dựng ontology để gom nhóm khía cạnh Luận án xây dựng ontology cung cấp biểu diễn tri thức trường đại học Có nhóm đối tượng phạm vi đánh giá trường Đại học: Chương trình đào tạo; Con người; Cơ sở vật chất; Hoạt động đào tạo; Hỗ trợ tư vấn; Tài chính; Tổ chức; Vui chơi giải trí Sau rút trích cặp (từ mang cảm xúc-khía cạnh) dựa tập luật đề xuất, luận án tiến hành gom nhóm khía cạnh Ví dụ, nhóm đối tượng "phịng”, "máy lạnh”, "thang máy"… vào "cơ sở vật chất” Công việc thực nhờ vào hỗ trợ ontology document, khoa luan14 of 98 14 tai lieu, luan van15 of 98 4.4 Thực nghiệm Các độ đo đánh giá: Luận án sử dụng ba độ đo kinh điển độ xác Precision (P), độ bao phủ Recall (R), độ F-measure (F1) Dữ liệu thực nghiệm: Để chứng minh tính hiệu mơ hình, luận án tiến hành thử nghiệm liệu thực Luận án xem xét sở liệu trường Đại học Ngoại ngữ - Tin học TPHCM (HUFLIT) để đánh giá, gồm 320 nhận xét tiếng Việt 08 nhóm đối tượng sau: Chương trình đào tạo; Con người; Cơ sở vật chất; Hoạt động đào tạo; Hỗ trợ tư vấn; Tài chính; Tổ chức; Vui chơi giải trí Cơ sở liệu thực thời gian từ 01/10/2015 đến 10/01/2016, tiền xử lý trước để loại bỏ trường hợp sai tả, từ viết tắt, ngôn ngữ teen, ký tự đặc biệt, gán nhãn tích cực hay tiêu cực Bảng 4.3: Kết thực nghiệm mơ hình rút trích khía cạnh từ mang cảm xúc (ABSA) tập liệu nhận xét sinh viên đại học GT T GT∩T P R F1 453 395 320 81,01% 70,06% 75,14% So sánh với phương pháp biểu thức quy Luận án tiến hành so sánh tính hiệu phương pháp đề xuất với phương pháp sử dụng biểu thức quy dùng ba mẫu luật cài đặt GATE/JAPE1 sau: -  - ()* -  Luận án đánh giá hiệu hai phương pháp thông qua việc xác định từ cảm xúc khía cạnh tương ứng dựa liệu kiểm thử 430 ý kiến dịch vụ khách sạn, lấy ngẫu nhiên khoảng thời gian từ 01/6/2013 đến 01/3/2014 web agoda.vn, mytour.vn, chudu24.com 1document, khoa luan15 of 98 https://gate.ac.uk/sale/tao/splitch8.html 15 taiBảng lieu, luan van16 98 4.4: Soofsánh kết hai phương pháp Biểu thức quy quan hệ ngữ nghĩa phụ thuộc tập liệu nhận xét khách sạn Phương pháp Precision (P) Recall (R) F-measure (F1) Biểu thức quy 73% 71% 72% Quan hệ ngữ nghĩa phụ thuộc 72% 74% 73% 4.5 Ứng dụng Luận án xây dựng hệ thống tra cứu thông tin nhận xét người dùng hệ thống khách sạn nước Kịch tra cứu thông tin hệ thống sau: Người dùng: Xin cho thông tin khách sạn ABC Nha Trang? Hệ thống: Khách sạn ABC Nha Trang có 234 reviews, đó:  Về giá cả: có 100 nhận xét tích cực 65 nhận xét tiêu cực;  Về phịng ốc: có 155 nhận xét tích cực 40 nhận xét tiêu cực;  Về cảnh quan: có 56 nhận xét tích cực 36 nhận xét tiêu cực Để thực kịch trên, hệ thống cần có thành phần thể ở Hình 4.4 Hình 4.4: Kiến trúc hệ thống tra cứu thông tin nhận xét khách sạn Xây dựng sở trí thức khách sạn Luận án xây dựng crawler sử dụng ngôn ngữ JavaScript để thu thập tự động 14.460 nhận xét 120 khách sạn Các thông tin nhận xét đăng agoda.vn mytour.vn khoảng thời gian từ 02/8/2010 đến 29/6/2017 - Luật rút trích: sử dụng phương pháp rút trích trình bày ở mục 4.2 - Từ điển cảm xúc: sử dụng từ điển cảm xúc xây dựng chương - Ontology khách sạn: ứng dụng sử dụng ontology khách sạn Xây dựng xử lý ngôn ngữ tiếng Việt document, khoa luan16 of 98 16 tai lieu, luan van17 of 98 Thành phần xử lý ngôn ngữ tiếng Việt cài đặt tập qui tắc cú pháp định nghĩa theo văn phạm mệnh đề xác định (Definite Clause Grammar - DCG Bảng 4.7: Cấu trúc ngữ nghĩa câu truy vấn Dạng câu truy vấn Stt Biểu diễn ngữ nghĩa Khách sạn ở có sao? query(hotel, place, aspect) Khách sạn ở sao? query(hotel, place) Khách sạn sao? query(hotel) Khách sạn ở có khơng? query(hotel, place, characteris) Khách sạn có khơng? query(hotel, characteris) Các biểu diễn ngữ nghĩa chuyển thành câu lệnh SQL nhằm truy xuất sở liệu Các mơ hình đề xuất ở chương đánh giá phản biện thông qua công bố hội nghị tạp chí uy tín [CT04], [CT05], [CT10], [CT11], [CT12] ĐỀ XUẤT PHƯƠNG PHÁP HỌC TỔ HỢP CHO PHÂN LỚP CẢM XÚC CÁC NHẬN XÉT TIẾNG VIỆT Đề xuất học tổ hợp cho phân lớp cảm xúc dựa chuyển giá trị cảm xúc đặc trưng tiềm ẩn 5.1 Các mơ hình học máy khác có khả khác nhau, thực tốt loại công việc khác Khi kết hợp mô hình cách thích hợp tạo thành mơ hình liên kết mạnh so với việc dùng đơn lẻ 5.1.1 Phát đặc trưng gây dịch chuyển giá trị cảm xúc đặc trưng tiềm ẩn Trích xuất đặc trưng nhằm tạo tập liệu huấn luyện cho phân lớp thành phần nhiệm vụ trọng tâm toán áp dụng học tổ hợp Luận án tiến hành rút trích hai loại đặc trưng sau: bề mặt tiềm ẩn  Rút trích đặc trưng bề mặt “surface feature” Thống kê weighted log-likelihood ratio cho xếp hạng từ mang cảm xúc: Độ đo WLLR thể độ tương quan từ ti lớp cj theo: document, khoa luan17 of 98 17 tai lieu, luan van18 of 98 𝑟𝑡 (𝑡𝑖 ) = 𝑟(𝑡𝑖 , +) − 𝑟(𝑡𝑖 , −) (5.1) 𝑟(𝑡𝑖 , 𝑐𝑗 ) = 𝑝(𝑡𝑖 , 𝑐𝑗 ) log 𝑝(𝑡𝑖 , 𝑐𝑗 ) 𝑝(𝑡𝑖 , 𝑐𝑗 ) : xác suất từ 𝑡𝑖 thuộc lớp 𝑐𝑗 𝑝(𝑡𝑖 , 𝑐̅) 𝑗 𝑝(𝑡𝑖 , 𝑐̅) 𝑗 : xác xuất từ 𝑡𝑖 thuộc lớp khác 𝑐𝑗 WLLR áp dụng để xác định câu mâu thuẫn cảm xúc, cho bởi công thức (5.2) |𝑠𝑖 | ℎ(𝑠𝑖 ) = 𝑦 ∑ 𝑟𝑡 (𝑡𝑗 ) (5.2) 𝑗=0 y: nhãn văn 𝑠𝑖 : câu 𝑠𝑖 văn |𝑠𝑖 |: số từ 𝑠𝑖 𝑟𝑡 (𝑡𝑖 ): cho (4.1) ℎ(𝑠𝑖 ) < 0: câu mâu thuẫn cảm xúc, ngược lại khơng có dịch chuyển cảm xúc Các đặc trưng tạo cấu trúc phủ định (negation dataset): Việc xác định cấu trúc phủ định thực bằng cách kiểm tra xuất từ phủ định “không”, “chẳng”, “chả” câu Các câu đưa vào tập Dnegation chứa câu phủ định Sau xác định vị trí từ phủ định câu thuộc tập Dnegation, từ phủ định loại bỏ, đồng thời từ mang cảm xúc nằm phía sau từ phủ định thay bởi từ mang cảm xúc ngược lại theo cách tính điểm WLLR ở cơng thức (5.2) Các đặc trưng tạo cấu trúc đối lập (contrast dataset): Được chia thành hai nhóm fore-contrast “nhưng”, “tuy nhiên” post-contrast “mặc dù”, “dù” Nếu mệnh đề xuất từ fore-contrast, chuyển dịch cảm xúc xảy ở câu nằm trước từ này, ngược lại mệnh đề có chứa post-contrast chuyển dịch cảm xúc ở mệnh đề Các câu đối lập đưa vào tập Dcontrast Các đặc trưng tạo tượng mâu thuẫn (inconsistency dataset): Câu ước lượng chuyển dịch cực cảm xúc bằng công thức (5.2): i) h(si) < 0, câu đưa vào tập Dincosistency chứa câu mâu thuẫn cảm xúc, ii) h(si) ≥ 0, câu đưa vào tập Dno_shift chứa câu không bị chuyển dịch cảm xúc document, khoa luan18 of 98 18 tai lieu, luan van19 of 98 Các đặc trưng toàn tập liệu (processed): Ngồi luận án cịn sử dụng toàn tập ngữ liệu, đặt tên processed cho học thành phần  Rút trích đặc trưng tiềm ẩn “deep feature” Học sâu thuật toán học máy dựa việc học tầng biểu diễn khác liệu Nhiều mơ hình học sâu xử lý ngôn ngữ tự nhiên sử dụng đặc trưng đầu vào dạng nhúng từ (word embedding) - kỹ thuật học thông tin đại diện từ không gian vector với số chiều nhỏ Luận án biểu diễn liệu huấn luyện dạng Word2Vec làm đầu vào cho mạng Long Short-Term Memory (LSTM) 5.1.2 Các học thành phần học tổ hợp Các kỹ thuật học máy kinh điển Logistic Regression sử dụng để huấn luyện tập liệu chứa đặc trưng dạng bề mặt negation, contrast, inconsistancy, no_shift, processed Song song đó, mơ hình học sâu chọn để huấn luyện tồn tập liệu nhằm phát đặc trưng dạng tiềm ẩn cho học tổ hợp Giá trị đầu học thành phần xác suất mẫu thuộc vào lớp tích cực lớp tiêu cực Các xác suất sử dụng làm liệu học tăng cường ở bước kết hợp 5.1.3 Mơ hình học tổ hợp cho phân lớp cảm xúc nhận xét tiếng Việt Hình 5.6: Kiến trúc mơ hình phân lớp cảm xúc dựa học tổ hợp document, khoa luan19 of 98 19 tai lieu, luan van20nghiệm of 98 5.1.4 Thực  Thực nghiệm với tập liệu tiếng Việt Tập liệu: Luận án thử nghiệm hai tập liệu nhận xét sinh viên trường đại học UIT-VSFC nhận xét khách sạn ở Việt Nam (HOTELReviews) Các thông tin nhận xét khách sạn người dùng đăng mytour.vn khoảng thời gian từ 02/8/2010 đến 29/6/2017 Bảng 5.5 Thông tin hai tập liệu thực nghiệm Tập liệu HOTEL-Reviews UIT-VSFC Dữ liệu huấn luyện Ý kiến tích Ý kiên tiêu cực cực 932 932 2.570 2.570 Dữ liệu kiểm thử Ý kiến tích cực Ý kiến tiêu cực 932 2.570 932 2.570 Luận án so sánh: - Mơ hình CEM(4C-WLLR): gồm phân loại cảm xúc contrast classifier, inconsistency classifier, negation classifier, no_shift classifier - Mơ hình CEM(5C-WLLR): gồm phân loại cảm xúc thành phần, có thêm full chassifier - Mơ hình CEM(6C-LSTM-WLLR): gồm phân loại cảm xúc thành phần, có thêm full chassifier, LSTM classifier Kết thực nghiệm đánh giá bằng độ xác, thể Bảng 5.6 Bảng 5.6 Kết thực nghiệm hai tập liệu Mơ hình/Phương pháp SVM-based LSTM-based CEM(4C-WLLR) CEM(5C-WLLR) CEM(6C-LSTM-WLLR) HOTEL-Reviews 94,15% 92,75% 91,84% 93,07% 94,36% UIT-VSFC 92,11% 94,50% 90,60% 96,65% 97,03% 5.1.5 Đánh giá - Trong mơ hình đề xuất có mơ hình CEM(6C-WLLR) rút trích đặc trưng tiềm ẩn cho kết tốt mô hình cịn lại với hai tập liệu thử nghiệm, đặc biệt so sánh với mơ hình có bốn phân loại cảm xúc thành phần CEM(4C-WLLR) mơ hình học máy baseline SVM document, khoa luan20 of 98 20 tai lieu, luan van21 of 98 Mơ hình học tổ hợp với tập huấn luyện chứa đặc trưng tiềm ẩn - đặc trưng bề mặt tác động đến dịch chuyển cảm xúc cho kết phân loại cảm xúc tốt áp dụng mơ hình học sâu đại LSTM Kích thước tập liệu ảnh hưởng đến hiệu mơ hình Với - kích thước liệu hạn chế HOTEL-Reviews, mơ hình SVM chứng tỏ phương pháp phân loại văn hiệu so với mơ hình LSTM tỏ khơng thua so với mơ hình luận án đề xuất CEM(6C-WLLR) Mơ hình học tổ hợp hướng đến ngữ cảnh cho phân lớp cảm xúc 5.2 Trong phần này, luận án đề xuất mơ hình phân lớp cảm xúc kết hợp nhiều phân lớp thành phần học nhiều tập liệu khác Mơ hình trọng việc phát học liệu chứa thông tin ngữ cảnh nhằm mục đích đưa dự đốn phân lớp xác Hình 5.15: Mơ hình học tổ hợp quan tâm hướng đến ngữ cảnh 5.2.1  Thực nghiệm Tập liệu Bảng 5.8: Mô tả chi tiết ba tập liệu tham gia huấn luyện kiểm thử Dữ liệu huấn luyện Ý kiên tiêu Ý kiến tích cực document, khoa luan21 of 98 cực Tập liệu 21 Dữ liệu kiểm thử Ý kiên tiêu cực Ý kiến tích cực tai lieu, luan van22 of 98 HOTEL-Reviews UIT-VSFC FOODY-Reviews  932 2.570 10.000 932 2.570 10.000 932 2.570 10.000 932 2.570 10.000 Các mơ hình thực nghiệm Để chứng minh tính hiệu mơ hình đề xuất, số biến thể mơ hình tiến hành thử nghiệm, cụ thể sau: - Mơ hình SVM-based: phân loại cảm xúc sử dụng phương pháp học máy SVM với đặc trưng biểu diễn ở dạng uni-gram theo mơ hình Bag of Words - Mơ hình LSTM-based: phân loại cảm xúc sử dụng LSTM với hidden layers, 64-units, đặc trưng biểu diễn ở dạng Word2Vec, với số chiều onehot vector 40.000, giảm xuống 300 sau áp dụng Word Embedding - Mơ hình BiLSTM-based với phân loại cảm xúc sử dụng mạng bidirectional LSTM để mô hình hóa thơng tin ngữ cảnh, bao gồm 128-units, đặc trưng biểu diễn ở dạng Word2Vec, với số chiều one-hot vector 40.000, giảm xuống 300 sau áp dụng Word Embedding - Mơ hình Attention(BiLSTM): Mơ hình sử dụng chế attention áp dụng ở đầu tầng học sâu Bi-LSTM - Mơ hình BERT(MLP): Luận án sử dụng mơ hình tinh chỉnh nhóm tác giả Nguyen2 đề xuất, mơ hình cho cho kết tốt mơ hình thắng thi phân lớp cảm xúc AIViVN's sentiment classification contest3 - Mơ hình CEM(5C-WLLR): gồm năm phân loại cảm xúc thành phần contrast classifier, inconsistency classifier, negation classifier, no_shift classifier, processed chassifier - Mơ hình CEM(6C-LSTM-WLLR): gồm sáu phân loại cảm xúc thành phần, có thêm LSTM classifier - Mơ hình CEM(6C-ATT-WLLR): gồm sáu phân loại cảm xúc thành phần, có thêm attention classifier - Mơ hình CEM(6C-ATT-VNSD): gồm sáu phân loại cảm xúc thành phần, có thêm attention chassifier sử dụng VNSD thay WLLR https://github.com/suicao/PhoBert-Sentiment-Classification khoa luan22 of 98 https://www.aivivn.com/contests/6 3document, 22 tai lieu, luan van23 of 98 Bảng 5.9: Kết thực nghiệm ba tập liệu Mô hình/Phương pháp SVM-based LSTM-based BiLSTM-based Attention(BiLSTM) BERT(MLP) CEM(5C-WLLR) CEM(6C-LSTM-WLLR) CEM(6C-ATT-WLLR) CEM(5C-VNSD) CEM(6C-ATT-VNSD) 5.2.2 – HOTEL-Reviews 94,15% 92,75% 93,59% 93,29% 89,84% 93,07% 94,36% 96,03% 93,61% 94,63% UIT-VSFC 92,11% 94,50% 93,76% 93,81% 94,55% 96,65% 97,03% 98,68% 94,19% 97,07% FOODY-REVIEWS 87,71% 86,34% 86,40% 86,36% 91,02% 85,32% 91,71% 91,74% 87,68% 93,60% Kết thực nghiệm HOTEL-Reviews tập liệu nhỏ, dạng ngôn ngữ mạng xã hội Qua kết thực nghiệm tính theo độ đo accuracy, thể Bảng 5.9, mô hình học sâu địi hỏi nhiều liệu huấn luyện tỏ không hiệu so với phương pháp học máy truyền thống SVM Các mơ hình học tổ hợp có chế Attention cho kết phân lớp cảm xúc tốt CEM(6CATT-WLLR) cho kết cao nhất, CEM(6C-ATT-VNSD) tốt từ 0.3%–1.7% so với mơ hình CEM(6C-LSTM-WLLR) – UIT-VSFC tập liệu cỡ vừa, viết tương đối chuẩn Qua kết thực nghiệm theo độ đo accuracy, thể ở Bảng 5.9, mơ hình học sâu (LSTM-based, BiLSTM-based, Attention(BiLSTM), BERT(MLP)) tỏ hiệu so với phương pháp học máy truyền thống SVM Các mô hình có chế Attention CEM(6C-ATT-WLLR) CEM(6C-ATTVNSD) cho kết phân lớp cảm xúc tốt, độ xác cao 1,65% so với mơ hình CEM(6C-LSTM-WLLR) – FOODY-Reviews tập liệu tương đối lớn, ngôn ngữ mạng xã hội Qua kết thực nghiệm theo độ đo accuracy, thể ở Bảng 5.9, phương pháp học máy truyền thống SVM tỏ hiệu so với mơ hình học sâu BiLSTM-based, LSTM-based, Attention(BiLSTM) mơ hình dựa BERT Các mơ hình học tổ hợp cho kết phân lớp cảm khoa xúcluan23 tốt document, of 98.tập liệu tương đối lớn CEM(6C-LSTM-WLLR), 23 tai lieu, luan van24 of 98 CEM(6C-ATT-WLLR) CEM(6C-ATT-VNSD) Trong đó, CEM(6CATT-WLLR) tốt 1,89% so với mơ hình CEM(6C-LSTM-WLLR) Kết thực nghiệm chứng tỏ hệ thống dựa mơ hình ngơn ngữ BERT hoạt động tốt có liệu huấn luyện đủ lớn 5.2.3 Nhận xét - Đánh giá Một số quan sát rút từ kết thực nghiệm ba tập liệu sau – Khi thêm vào mơ hình học tổ hợp, mơ hình học sâu giúp mơ hình học máy kết hợp có kết tốt so với mơ hình với năm phân lớp thành phần Bảng 4.9 cho thấy so sánh mơ hình đề xuất CEM(5CWLLR), CEM(6C-LSTM-WLLR), CEM(6C-ATT-WLLR), CEM(6CATT-VNSD) Kết cho thấy khả tạo đặc trưng tự động học sâu góp phần cải thiện hiệu hệ thống – Việc sử dụng chế attention mơ hình CEM(6C-ATT-WLLR), thay LSTM CEM(6C-LSTM-WLLR), giúp hệ thống học tổ hợp cho kết phân lớp tốt thân phương pháp học sâu theo chế attention lại không tốt bằng mơ hình LSTM (LSTM-based) việc phân lớp cảm xúc, số liệu thể Bảng 5.9 – Việc tích hợp từ điển cảm xúc vào mơ hình học tổ hợp CEM(6C-ATTVNSD), thay phương pháp thống kê WLLR CEM(6C-LSTMWLLR), giúp hệ thống cho kết phân lớp tốt Từ điển cảm xúc cung cấp độ đo cảm xúc xác so với thống kê WLLR, giúp nâng cao hiệu hệ thống – Mơ hình BERT(MLP) cho kết tốt mơ hình học sâu khác tập liệu thử nghiệm lớn Ngược lại với tập liệu nhỏ (HOTEL-Reviews), BERT(MLP) cho độ xác thấp Khi liệu huấn luyện lớn, kết phân lớp cảm xúc mơ hình dựa BERT gần tương đương với mơ hình đề xuất (CEM) – Với ý kiến viết theo ngôn ngữ mạng xã hội, luận án nhận thấy phương pháp học máy truyền thống SVM cho kết tốt so với học sâu LSTM, BiLSTM, chế attention document, khoa luan24 of 98 24 tai lieu, luan van25 of 98 – Mô hình học tổ hợp có tích hợp từ điển cảm xúc CEM(6C-ATT-VNSD) cho kết phân lớp tốt với liệu huấn luyện đủ lớn văn ý kiến đủ dài Ngược lại, CEM(6C-ATT-WLLR) cho kết tốt CEM(6C-ATTVNSD) Phân mục 5.2 giới thiệu mơ hình học tổ hợp hiệu cho phân lớp cảm xúc Hệ thống nhận biết thông tin ngữ cảnh ý kiến nhận xét bởi kết hợp phương pháp dựa luật phương pháp học sâu Luận án tận dụng biểu diễn nhúng từ chế attention với mẫu luật định nghĩa từ điển cảm xúc nhằm xác định nhiều trường hợp gây dịch chuyển cảm xúc văn Mặc dù có độ phức tạp tính tốn lớn việc lựa chọn nhiều mơ hình học (học máy, học sâu) nhiều tập liệu khác nhằm tạo tính đa dạng (diversity) đặc trưng, mơ hình đề xuất luận án cho kết phân lớp cao phương pháp khác Các mơ hình đề xuất ở chương đánh giá phản biện thông qua công bố hội nghị quốc tế [CT07], hai tạp chí uy tín thuộc SCIE [CT01], [CT02] KẾT LUẬN Luận án bao gồm năm chương, giới thiệu trình bày phương pháp đề xuất hiệu cho việc xử lý toán phân tích cảm xúc mức từ, cụm từ, (khía cạnh), mức văn cho nhận xét tiếng Việt Nội dung luận án nghiên cứu chi tiết bằng phương pháp đại, gồm giai đoạn xác định vấn đề, xác định phạm vi nghiên cứu, thiết kế phát triển, thực nghiệm đánh giá Chương nêu vấn đề phân tích cảm xúc đề xuất cần thiết việc xử lý phân tích cảm xúc Chương giới thiệu nghiên cứu tiêu biểu, khó khăn, thách thức cho phân tích cảm xúc, phải kể đến tượng dịch chuyển giá trị cảm xúc ngữ cảnh văn bản, văn tiếng Việt Từ đó, hình thành hai vấn đề nghiên cứu mà luận án phải giải quyết: document, khoa luan25 of 98 25 tai lieu, luan van26 of 98 1) Làm để xác định giá trị cảm xúc từ cụm từ mang sắc thái tình cảm văn nhận xét tiếng Việt? 2) Làm để phân lớp cảm xúc cách hiệu ý kiến nhận xét tiếng Việt số lượng lớn đánh giá sản phẩm dịch vụ? Hướng tới việc xử lý hai vấn đề nghiên cứu nêu trên, chương 3, chương 4, chương đề xuất mơ hình giải hiệu hai vấn đế Ngồi ra, để tăng tính ứng dụng nghiên cứu, luận án thực chương trình tra cứu thơng tin nhận xét người dùng dịch vụ khách sạn bằng ngôn ngữ tự nhiên (trong tiếng Việt), chi tiết trình bày ở chương Các đóng góp Luận án sau: Về mặt phương pháp: Luận án trình bày khái niệm giới thiệu hướng tiếp cận việc xử lý tốn phân tích cảm xúc nêu hạn chế Từ luận án nghiên cứu phát thêm trường hợp xảy tượng dịch chuyển cảm xúc ngôn ngữ tiếng Việt, đồng thời quan tâm đến việc khai thác tự động yếu tố ngữ cảnh, đặc trưng gây dịch chuyển cảm xúc văn tiếng Việt Nghiên cứu nhận định dịch chuyển cảm xúc phân tích cảm xúc quan trọng việc phân tích cảm xúc cần nghiên cứu khai thác Ngoài ra, luận án đề cập đến yếu tố đặc trưng tiềm ẩn ngôn ngữ ảnh hưởng đến giá trị cảm xúc văn Từ đó, luận án đề xuất phương pháp trích xuất đặc trưng cách tự động xác Về mặt kỹ thuật: Để để khai thác trường hợp dịch chuyển cảm xúc, luận án tiến hành việc phân tích đặc trưng ngôn ngữ tiếng Việt đề xuất công thức mờ để tính giá trị cảm xúc cụm từ mang cảm xúc văn tiếng Việt Bên cạnh đó, với phát triển mạnh mẽ mơ hình học sâu, luận án khai thác sức mạnh kỹ thuật để trích xuất cách tự động yếu tố mang đặc trưng tiềm ẩn ngôn ngữ, giúp tăng hiệu suất phân lớp cảm xúc Ngoài ra, việc kết hợp nhiều phương pháp với hệ thống để document, khoa luan26 of 98 26 tai lieu, luan van27 of 98 nâng cao tính hiệu tiếp cận nghiên cứu đắn Luận án sử dụng phương pháp học tổ hợp nhiều loại đặc trưng khác đặc trưng gây dịch chuyển cảm xúc đặc trưng tiềm ẩn có từ việc thực thi mơ hình học sâu Về tính ứng dụng: Kết luận án ứng dụng thực tế Luận án xây dựng ứng dụng cho phép người dùng tra cứu thông tin nhận xét dịch vụ khách sạn bằng ngôn ngữ tiếng Việt Ứng dụng cho kết tin cậy rõ ràng so với thông tin rời rạc trang web cung cấp dịch vụ Liên quan đến hướng phát triển, kết nghiên cứu luận án giải số vấn đề việc xử lý tốn phân tích cảm xúc, nhiên luận án cần thực nghiên cứu tiếp để cải thiện chất lượng cơng trình: Thực nghiên cứu sâu dịch chuyển cảm xúc, áp dụng vào tốn phân tích cảm xúc Mặc dù điều thách thức lớn liên quan nhiều đến lĩnh vực ngơn ngữ học Ví dụ câu nhận xét mỉa mia ln tốn hóc búa xử lý ngôn ngữ tự nhiên lại hay xuất nhận xét người dùng Bên cạnh đó, cần tiếp tục nghiên cứu xử lý triệt để trường hợp xuất từ phủ định, động từ khiếm khuyết, từ tăng cường-giảm nhẹ, tượng tương phản, tượng không quán (khơng tương thích) câu, đoạn văn Xem xét nâng cấp số công cụ tiền xử lý phân tích cú pháp văn phạm phục thuộc Đây cơng cụ gây ảnh hưởng lớn đến độ xác hệ thống Việc quan tâm xử lý danh từ cụm danh từ mở rộng từ điển cảm xúc nghiên cứu công việc thiết yếu mà nguồn liệu cho phân tích cảm xúc tiếng Việt hạn chế Trọng tâm luận án xử lý cho ngôn ngữ tiếng Việt ý tưởng phương pháp thực mơ hình mà luận án đề xuất áp dụng cho ngơn ngữ khác, tiếng Anh document, khoa luan27 of 98 27 ... đề phân tích cảm xúc đề xuất cần thiết việc xử lý phân tích cảm xúc Chương giới thiệu nghiên cứu tiêu biểu, khó khăn, thách thức cho phân tích cảm xúc, phải kể đến tượng dịch chuyển giá trị cảm. .. liệu chứa tình gây dịch chuyển cảm xúc ngữ cảnh Ngược lại, phương pháp tiếp cận theo hướng ngữ nghĩa có khả giải trường hợp phân lớp cảm xúc nhiều thang độ phát nhiều trường hợp dịch chuyển cảm. .. đến ngữ nghĩa kết hợp với kỹ thuật học máy, mơ hình học sâu cho tốn phân tích cảm xúc Trong phương pháp hướng đến ngữ nghĩa sử dụng để tính tốn giá trị cảm xúc dựa tình dịch chuyển cảm xúc ngữ cảnh

Ngày đăng: 18/01/2022, 23:10

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w