Lay ví dụ quy trình thực hiện lắng nghe xã hội của Buzzmetries [5], công cụ social listening nổi tiếng tại nước ta: e_ Bước 1: Thu thập dữ liệu có giá trị từ các nguồn khách hàng yêu cầu
TONG QUAN 225222222222 2222122213112 ri 20 1.1 Giới thiệu khoá luận 2222++2222222212222222211112 22222111 xe 20 1.2 Tính ứng dụng của khoá luận -5- ees 5+2sc2xererxerrrrerxrrrrree 20 Chương2 GIỚI THIỆU CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
Công trình nghiên cứu về dit liệu . +¿++222++ceEEExrrrrrrtrerrres 22 2.2 Các công trình nghiên cứu về mô hình giải quyết bài toán nhận dién
Được xem như nguồn tai sản, tài nguyên không thé bỏ lỡ của bat kì doanh nghiệp, tô chức, đữ liệu đã và đang đóng một vai trò đưa ra quyết định trong nhiều lĩnh vực hiện nay Từ xã hội, giáo dục, sáng tạo cho đến một số nhóm ngành đặc thù như trí tuệ nhân tạo, khoa học dữ liệu, nguồn dữ liệu đóng vai trò quyết định dự án có thành công hay không Một nguồn dữ liệu chất lượng sẽ giúp đảm bảo được hiệu suất, đầu ra của các mô hình học máy Quan trọng là vậy nhưng các nghiên cứu về các bộ dữ liệu có chat lượng cao với tiếng Việt van còn hạn chế Tính tới thời điểm khoá luận này được thực hiện, chi có một vài bộ dữ liệu tiếng Việt nằm rải rác ở nhiều chủ đề khác nhau Với mục đích nhận diện chuỗi xúc phạm và phan cảm sẽ có hai bộ ViHSD [12] và HSD-VLSP [13]; mục đích phân tích tính độc hại hay tính xây dựng trên bình luận mạng xã hội sẽ có bộ
UIT-ViCTSD [14]; hay bộ ViHOS phục vụ cho bài toán nhận diện chuỗi xúc phạm va phản cảm.
Với bải toán phân tích quan điểm dựa trên khía cạnh đối với Anh ngữ, có một sé bộ dit liệu được ghi nhận như nền tang cho các nghiên cứu như bộ dit liệu MAMS [15] có nội dung về đánh giá nhà hàng được thực hiện bởi Qingnan Jiang và các đồng tác giả vào năm 2019 Hoặc bộ dữ liệu SemEval-2014 [16] với nội dung bao gồm các đánh giá nhà hàng và máy tính xách tay Hoặc bộ dữ liệu Twitter [17] do tác giả Li Dong và cộng sự với nội dung bao gồm các tweet trên mạng xã hội Twitter Với bài toán trên nội dung tiếng Việt, các bộ dữ liệu cũng được thực hiện nhưng với một con số tương đối khiêm tốn Ví dụ bộ dữ liệu đánh giá điện thoại thông minh [18] do tác giả Long Mai và Bắc
Lê chỉ gồm có 2,098 câu bình luận Bộ dữ liệu UIT-VISED [19] do tác giả Luong Phan cho thiết bị di động trên các nên tảng thương mại điện tử gồm 11,122 bình luận được sử dụng phương pháp đánh dau dữ liệu Và gần đây nhất, được kế thừa từ bộ dit liệu UIT- VISFD là UIT-VISD4SA phục vụ cho bài toán phân tích quan điểm dựa trên khía cạnh.
UIT-ViSD4SA bao gồm 35,396 chuỗi bình luận trên 10 khía cạnh sản phẩm và 3 tính chất bình luận.
2.2 _ Các công trình nghiên cứu về mô hình giải quyết bài toán nhận diện
Xử lý ngôn ngữ tự nhiên là một lĩnh vực rộng trong mảng khoa học dữ liệu bao gồm nhiều bài toán khác nhau như dịch tự động, tóm tắt văn bản, trích xuất thông tin, hệ trả lời tự động Mỗi bài toán đều có được đặt ra với mục đích giúp tự động hoá và giải quyết các van dé của người dùng Các nghiên cứu trên thé giới cũng tập trung từng ngách nhỏ của từng bài toán khác nhau, và bài toán phân tích quan điểm (sentiment analysis) cũng thu hút được rất nhiều sự quan tâm của giới nghiên cứu.
Phân tích quan điểm được hiéu như một phương pháp giúp cho máy học từ dit liệu để tìm ra các đặc điểm, cảm xúc, thái độ của một đoạn văn bản, âm thanh là tích cực hay tiêu cực Tính ứng dụng của bài toán phân tích quan điểm là rất rộng khi nó được sử dụng trong đa dạng lĩnh vực như lắng nghe xã hội, trợ lý thông minh, hỗ trợ người dùng Bài toán phân tích quan điểm lại được chia ra làm nhiều bài toán con Một số dạng phổ biến được nghiên cứu nhiều là phân tích chỉ tiết, phân tích khía cạnh, phân tích cảm xúc và phân tích ý định. Để tiếp cận với bài toán phân tích quan điểm, tính đến thời điểm hiện tại có rất nhiều cách tiếp cận khác nhau Trong nghiên cứu của tác giả V Singh và cộng sự đã có hướng tiếp cận dựa trên phương pháp từ vựng [20] Hướng tiếp cận sử dụng học máy cũng có nhiều nghiên cứu với kết quả thu được rất khả quan Từ việc sử dụng các mô hìn học máy cơ bản như Logistic Regression, Suport Vector Machine hoặc Random
Forest Một số mô hình học sâu như RNNs hoặc CNNs cũng được sử dụng cho bài toán này Mạng nơ-ron Transformers được phát triển và tin dùng, chúng đã dần thay thế những kiến trúc trước đó bởi kết quả thu được tích cực hơn nhiều so với các mô hình trước đó. Các mô hình như BERT [21], GPT [22], RoBERTa [23] đã đang phủ sóng trên nhiều lĩnh vực khác nhau bởi hiệu suất ấn tượng mà chúng mang lại.
Chương 3 BO DU LIEU UIT-ViSD4SA VÀ CÁC PHƯƠNG PHAP DE
3.1 Giới thiệu bộ dữ liệu UIT-ViSD4SA
UIT-ViSD4SA — “Vietnamese smartphone feedback dataset for ABSA and span detection” là bộ dữ liệu tiếng Việt được sử dụng cho bài toán phân tích quan điểm dựa trên khía cạnh UIT-ViSD4SA là một nguồn đữ liệu uy tín trên tiếng Việt được thực hiện với các quy trình gán nhãn dữ liệu, kiểm tra chất lượng và được cộng đồng nghiên cứu khoa học trên toàn cầu công nhận là một nguồn đáng tin cậy cho bài toán phân tích quan điểm dựa trên khía cạnh.
3.1.1 Nền tảng và nguồn gốc bộ dữ liệu UIT-ViSD4SA
Bộ dữ liêu UIT-ViSD4SA được phat triển dựa trên bộ dữ liệu có sẵn “Vietnamese Smartphone Feedback Dataset” - UIT-ViSFD bao gồm các phản hồi sản phẩm được thu thập trên các nền trang bán lẻ trực tuyến lớn tại Việt Nam như thegioididong, fptshop, shopee, tiki và lazada UIT-ViSED là bộ dit liệu chất lượng cao về phản hồi chất lượng điện thoại di động tại Việt Nam, là bộ dữ liệu lớn và đa dạng hơn so với bộ dữ liệu
Vietnamese ABSA chỉ gồm có 2,098 điểm dữ liệu.
Bộ dữ liệu UIT-ViSFD bao gồm 11,122 bình luận, với 5 trường lần lượt là index (số dong), comment (bình luận), n_ star (số sao đánh giá từ khách hang), date_time (thời gian bình luận) và label (thuộc tính và nhãn của bình luận) Bộ dữ liệu được chia thành
3 tập train:dev:test với tỉ lệ lần lượt là 7:1:2 Số lượng nhãn cho từng thuộc tính được thé hiện ở Bang 1 bên dưới.
Tiêu chi Train Dev Test Tong
Pos | Neu | Neg | Pos | Neu | Neg | Pos | Neu | Neg
Bang 1 Bang thong kê các tiêu chi theo từng tập dữ liệu
UIT-ViSD4SA, từ nguồn di liệu uy tín, được xây dựng dựa hoàn toàn trên nền tảng bộ dữ liệu UIT-ViSFD với 35,396 đoạn bình câu đánh giá từ dữ liệu góc. luận về các tiêu chí dựa trên 11,122
- Đầu vào: Một câu đánh giá sản phẩm tiếng Việt được trực tiếp thu thập từ trang bán lẻ trực tuyến.
- Đầu ra: Đánh giá 10 tiêu chí của sản phẩm — điện thoại di động — dựa trên 3 mức độ.
BATTERY Bình luận đánh giá mô ta dung lượng hoặc chất lượng của pin điện thoại
CAMERA Bình luận đánh giá chất lượng của camera điện thoại, chống rung, độ trễ, bắt nét, màu ảnh DESIGN Bình luận đánh giá mô tả thiết kế điện thoại
FEATURES Bình luận đánh giá các chức năng điện thoại như cảm biến vân tay, kết nối wifi, nhận diện khuôn mặt
GENERAL Bình luận đánh giá về tổng thê điện thoại
PERFORMANCE | Bình luận đánh giá hiệu năng điện thoại như dung lượng ram, vi xử lí, độ mượt của sản phẩm PRICE Bình luận đánh giá về giá thành của điện thoại
SCREEN Bình luận đánh giá về màn hình của điện thoại như chất lượng, kích thước, độ bao phủ màu, công nghệ tắm nền SER&ACC Bình luận về chất lượng dịch vụ khi mua sản phẩm như tư vấn ban hàng, đóng gói phụ kiện đi kèm với điện thoại
STORAGE Bình luận đánh giá mô tả dung lượng bộ nhớ điện thoại, hỗ trợ mở rộng bộ nhớ ngoài Bang 2: Các tiêu chí đánh giá trong bộ dữ liệu UIT-ViSD4SA
POSITIVE Nhãn tích cực cho chuỗi bình luận.
NEGATIVE Nhãn tiêu cực cho chuỗi bình luận.
NEUTRAL Nhãn trung tính cho chuỗi bình luận.
Bang 3: Các mức độ đánh giá sản phẩm trong bộ dữ liệu UIT-WiSD4SA
May đẹp, sangprsicnsrosirive, Sử thì rất là 6orxrnai sposirive Hay
Hm Pin sd cũng rất lâu mới hết, nhiều khi cả ngày và qua luôn ngày hôm sau mới sạc, sạc rất nhanh khoảng chừng 1 tiếng 5 phút là day rồi, ko lâu như iPhones mắt gần 3 đến
4 tiếng đầynxrrcvzposrrive Chi sd dé lướt web, facebook, youtube.
Nghe nhạc rất hay đặc biệt là nghe bằng tai nghe AKG Rất xứng đẳng với số tiền bỏ Faocxrratrostrivr 5 thang Ai Tin]
Beautifull phone, luxuriousprsicnsposrrive, use very ok