1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận dạng các minh chứng cho bài toán phân tích quan điểm dựa trên khía cạnh tiếng Việt

53 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nhận dạng các minh chứng cho bài toán phân tích quan điểm dựa trên khía cạnh tiếng Việt
Tác giả Nguyên Đình Quốc Bảo
Người hướng dẫn ThS. Nguyễn Văn Kiệt
Trường học Trường Đại học Công nghệ Thông tin - ĐHQG-HCM
Chuyên ngành Khoa học Dữ liệu
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2023
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 53
Dung lượng 20,9 MB

Cấu trúc

  • Chương 1 TONG QUAN.............................--225222222222 2222122213112... ri 20 1.1. Giới thiệu khoá luận..................................--2222++2222222212222222211112 22222111. xe 20 1.2. Tính ứng dụng của khoá luận................................---- -5- ees 5+2sc2xererxerrrrerxrrrrree 20 Chương2 GIỚI THIỆU CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN (0)
    • 2.1. Công trình nghiên cứu về dit liệu.........................------+¿++222++ceEEExrrrrrrtrerrres 22 2.2. Các công trình nghiên cứu về mô hình giải quyết bài toán nhận dién (20)
      • 3.1.1. Nền tảng và nguồn gốc bộ dữ liệu UIT-ViSD4SA (22)
      • 3.1.2. Tóm lược về quy trình gán nhãn của UIT-ViSD4SA (25)
      • 3.1.3. Phân tích bộ dữ liệu..............................22222222222VVEEEEEEEEt2ttttttrrtttrrrrxkkkkkrrrre 29 3.2. Các phương pháp đề xuất (27)
      • 3.2.1. Phương pháp làm sạch dif liệu............................... -- - - ¿+55 Sx+xsxevrvrrrerererrrseree 31 3.3. Ki thuật hoc chuyén tiếp (Transfer learning) (29)

Nội dung

Lay ví dụ quy trình thực hiện lắng nghe xã hội của Buzzmetries [5], công cụ social listening nổi tiếng tại nước ta: e_ Bước 1: Thu thập dữ liệu có giá trị từ các nguồn khách hàng yêu cầu

TONG QUAN 225222222222 2222122213112 ri 20 1.1 Giới thiệu khoá luận 2222++2222222212222222211112 22222111 xe 20 1.2 Tính ứng dụng của khoá luận -5- ees 5+2sc2xererxerrrrerxrrrrree 20 Chương2 GIỚI THIỆU CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

Công trình nghiên cứu về dit liệu . +¿++222++ceEEExrrrrrrtrerrres 22 2.2 Các công trình nghiên cứu về mô hình giải quyết bài toán nhận dién

Được xem như nguồn tai sản, tài nguyên không thé bỏ lỡ của bat kì doanh nghiệp, tô chức, đữ liệu đã và đang đóng một vai trò đưa ra quyết định trong nhiều lĩnh vực hiện nay Từ xã hội, giáo dục, sáng tạo cho đến một số nhóm ngành đặc thù như trí tuệ nhân tạo, khoa học dữ liệu, nguồn dữ liệu đóng vai trò quyết định dự án có thành công hay không Một nguồn dữ liệu chất lượng sẽ giúp đảm bảo được hiệu suất, đầu ra của các mô hình học máy Quan trọng là vậy nhưng các nghiên cứu về các bộ dữ liệu có chat lượng cao với tiếng Việt van còn hạn chế Tính tới thời điểm khoá luận này được thực hiện, chi có một vài bộ dữ liệu tiếng Việt nằm rải rác ở nhiều chủ đề khác nhau Với mục đích nhận diện chuỗi xúc phạm và phan cảm sẽ có hai bộ ViHSD [12] và HSD-VLSP [13]; mục đích phân tích tính độc hại hay tính xây dựng trên bình luận mạng xã hội sẽ có bộ

UIT-ViCTSD [14]; hay bộ ViHOS phục vụ cho bài toán nhận diện chuỗi xúc phạm va phản cảm.

Với bải toán phân tích quan điểm dựa trên khía cạnh đối với Anh ngữ, có một sé bộ dit liệu được ghi nhận như nền tang cho các nghiên cứu như bộ dit liệu MAMS [15] có nội dung về đánh giá nhà hàng được thực hiện bởi Qingnan Jiang và các đồng tác giả vào năm 2019 Hoặc bộ dữ liệu SemEval-2014 [16] với nội dung bao gồm các đánh giá nhà hàng và máy tính xách tay Hoặc bộ dữ liệu Twitter [17] do tác giả Li Dong và cộng sự với nội dung bao gồm các tweet trên mạng xã hội Twitter Với bài toán trên nội dung tiếng Việt, các bộ dữ liệu cũng được thực hiện nhưng với một con số tương đối khiêm tốn Ví dụ bộ dữ liệu đánh giá điện thoại thông minh [18] do tác giả Long Mai và Bắc

Lê chỉ gồm có 2,098 câu bình luận Bộ dữ liệu UIT-VISED [19] do tác giả Luong Phan cho thiết bị di động trên các nên tảng thương mại điện tử gồm 11,122 bình luận được sử dụng phương pháp đánh dau dữ liệu Và gần đây nhất, được kế thừa từ bộ dit liệu UIT- VISFD là UIT-VISD4SA phục vụ cho bài toán phân tích quan điểm dựa trên khía cạnh.

UIT-ViSD4SA bao gồm 35,396 chuỗi bình luận trên 10 khía cạnh sản phẩm và 3 tính chất bình luận.

2.2 _ Các công trình nghiên cứu về mô hình giải quyết bài toán nhận diện

Xử lý ngôn ngữ tự nhiên là một lĩnh vực rộng trong mảng khoa học dữ liệu bao gồm nhiều bài toán khác nhau như dịch tự động, tóm tắt văn bản, trích xuất thông tin, hệ trả lời tự động Mỗi bài toán đều có được đặt ra với mục đích giúp tự động hoá và giải quyết các van dé của người dùng Các nghiên cứu trên thé giới cũng tập trung từng ngách nhỏ của từng bài toán khác nhau, và bài toán phân tích quan điểm (sentiment analysis) cũng thu hút được rất nhiều sự quan tâm của giới nghiên cứu.

Phân tích quan điểm được hiéu như một phương pháp giúp cho máy học từ dit liệu để tìm ra các đặc điểm, cảm xúc, thái độ của một đoạn văn bản, âm thanh là tích cực hay tiêu cực Tính ứng dụng của bài toán phân tích quan điểm là rất rộng khi nó được sử dụng trong đa dạng lĩnh vực như lắng nghe xã hội, trợ lý thông minh, hỗ trợ người dùng Bài toán phân tích quan điểm lại được chia ra làm nhiều bài toán con Một số dạng phổ biến được nghiên cứu nhiều là phân tích chỉ tiết, phân tích khía cạnh, phân tích cảm xúc và phân tích ý định. Để tiếp cận với bài toán phân tích quan điểm, tính đến thời điểm hiện tại có rất nhiều cách tiếp cận khác nhau Trong nghiên cứu của tác giả V Singh và cộng sự đã có hướng tiếp cận dựa trên phương pháp từ vựng [20] Hướng tiếp cận sử dụng học máy cũng có nhiều nghiên cứu với kết quả thu được rất khả quan Từ việc sử dụng các mô hìn học máy cơ bản như Logistic Regression, Suport Vector Machine hoặc Random

Forest Một số mô hình học sâu như RNNs hoặc CNNs cũng được sử dụng cho bài toán này Mạng nơ-ron Transformers được phát triển và tin dùng, chúng đã dần thay thế những kiến trúc trước đó bởi kết quả thu được tích cực hơn nhiều so với các mô hình trước đó. Các mô hình như BERT [21], GPT [22], RoBERTa [23] đã đang phủ sóng trên nhiều lĩnh vực khác nhau bởi hiệu suất ấn tượng mà chúng mang lại.

Chương 3 BO DU LIEU UIT-ViSD4SA VÀ CÁC PHƯƠNG PHAP DE

3.1 Giới thiệu bộ dữ liệu UIT-ViSD4SA

UIT-ViSD4SA — “Vietnamese smartphone feedback dataset for ABSA and span detection” là bộ dữ liệu tiếng Việt được sử dụng cho bài toán phân tích quan điểm dựa trên khía cạnh UIT-ViSD4SA là một nguồn đữ liệu uy tín trên tiếng Việt được thực hiện với các quy trình gán nhãn dữ liệu, kiểm tra chất lượng và được cộng đồng nghiên cứu khoa học trên toàn cầu công nhận là một nguồn đáng tin cậy cho bài toán phân tích quan điểm dựa trên khía cạnh.

3.1.1 Nền tảng và nguồn gốc bộ dữ liệu UIT-ViSD4SA

Bộ dữ liêu UIT-ViSD4SA được phat triển dựa trên bộ dữ liệu có sẵn “Vietnamese Smartphone Feedback Dataset” - UIT-ViSFD bao gồm các phản hồi sản phẩm được thu thập trên các nền trang bán lẻ trực tuyến lớn tại Việt Nam như thegioididong, fptshop, shopee, tiki và lazada UIT-ViSED là bộ dit liệu chất lượng cao về phản hồi chất lượng điện thoại di động tại Việt Nam, là bộ dữ liệu lớn và đa dạng hơn so với bộ dữ liệu

Vietnamese ABSA chỉ gồm có 2,098 điểm dữ liệu.

Bộ dữ liệu UIT-ViSFD bao gồm 11,122 bình luận, với 5 trường lần lượt là index (số dong), comment (bình luận), n_ star (số sao đánh giá từ khách hang), date_time (thời gian bình luận) và label (thuộc tính và nhãn của bình luận) Bộ dữ liệu được chia thành

3 tập train:dev:test với tỉ lệ lần lượt là 7:1:2 Số lượng nhãn cho từng thuộc tính được thé hiện ở Bang 1 bên dưới.

Tiêu chi Train Dev Test Tong

Pos | Neu | Neg | Pos | Neu | Neg | Pos | Neu | Neg

Bang 1 Bang thong kê các tiêu chi theo từng tập dữ liệu

UIT-ViSD4SA, từ nguồn di liệu uy tín, được xây dựng dựa hoàn toàn trên nền tảng bộ dữ liệu UIT-ViSFD với 35,396 đoạn bình câu đánh giá từ dữ liệu góc. luận về các tiêu chí dựa trên 11,122

- Đầu vào: Một câu đánh giá sản phẩm tiếng Việt được trực tiếp thu thập từ trang bán lẻ trực tuyến.

- Đầu ra: Đánh giá 10 tiêu chí của sản phẩm — điện thoại di động — dựa trên 3 mức độ.

BATTERY Bình luận đánh giá mô ta dung lượng hoặc chất lượng của pin điện thoại

CAMERA Bình luận đánh giá chất lượng của camera điện thoại, chống rung, độ trễ, bắt nét, màu ảnh DESIGN Bình luận đánh giá mô tả thiết kế điện thoại

FEATURES Bình luận đánh giá các chức năng điện thoại như cảm biến vân tay, kết nối wifi, nhận diện khuôn mặt

GENERAL Bình luận đánh giá về tổng thê điện thoại

PERFORMANCE | Bình luận đánh giá hiệu năng điện thoại như dung lượng ram, vi xử lí, độ mượt của sản phẩm PRICE Bình luận đánh giá về giá thành của điện thoại

SCREEN Bình luận đánh giá về màn hình của điện thoại như chất lượng, kích thước, độ bao phủ màu, công nghệ tắm nền SER&ACC Bình luận về chất lượng dịch vụ khi mua sản phẩm như tư vấn ban hàng, đóng gói phụ kiện đi kèm với điện thoại

STORAGE Bình luận đánh giá mô tả dung lượng bộ nhớ điện thoại, hỗ trợ mở rộng bộ nhớ ngoài Bang 2: Các tiêu chí đánh giá trong bộ dữ liệu UIT-ViSD4SA

POSITIVE Nhãn tích cực cho chuỗi bình luận.

NEGATIVE Nhãn tiêu cực cho chuỗi bình luận.

NEUTRAL Nhãn trung tính cho chuỗi bình luận.

Bang 3: Các mức độ đánh giá sản phẩm trong bộ dữ liệu UIT-WiSD4SA

May đẹp, sangprsicnsrosirive, Sử thì rất là 6orxrnai sposirive Hay

Hm Pin sd cũng rất lâu mới hết, nhiều khi cả ngày và qua luôn ngày hôm sau mới sạc, sạc rất nhanh khoảng chừng 1 tiếng 5 phút là day rồi, ko lâu như iPhones mắt gần 3 đến

4 tiếng đầynxrrcvzposrrive Chi sd dé lướt web, facebook, youtube.

Nghe nhạc rất hay đặc biệt là nghe bằng tai nghe AKG Rất xứng đẳng với số tiền bỏ Faocxrratrostrivr 5 thang Ai Tin]

Beautifull phone, luxuriousprsicnsposrrive, use very ok

Ngày đăng: 02/10/2024, 03:53

HÌNH ẢNH LIÊN QUAN

Bảng 2: Các tiêu chí đánh giá trong bộ dữ liệu UIT-VISD4SA..........................- 55-55-5552 26 - Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận dạng các minh chứng cho bài toán phân tích quan điểm dựa trên khía cạnh tiếng Việt
Bảng 2 Các tiêu chí đánh giá trong bộ dữ liệu UIT-VISD4SA..........................- 55-55-5552 26 (Trang 7)
Hình 3-1:Vi dụ về bộ dit liệu UIT-ViSD4SA [1] - Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận dạng các minh chứng cho bài toán phân tích quan điểm dựa trên khía cạnh tiếng Việt
Hình 3 1:Vi dụ về bộ dit liệu UIT-ViSD4SA [1] (Trang 25)
Hình 3-2 Độ đông thuận trong quy trình gan nhãn dit liệu [1] - Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận dạng các minh chứng cho bài toán phân tích quan điểm dựa trên khía cạnh tiếng Việt
Hình 3 2 Độ đông thuận trong quy trình gan nhãn dit liệu [1] (Trang 26)
Hình 3-3 Thống kê xu hướng bình luận của người dùng theo các tiêu chí san phẩm [1] - Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận dạng các minh chứng cho bài toán phân tích quan điểm dựa trên khía cạnh tiếng Việt
Hình 3 3 Thống kê xu hướng bình luận của người dùng theo các tiêu chí san phẩm [1] (Trang 27)
Bảng 4 Thong kê các nhăn bình luận theo từng tập dữ liệu - Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận dạng các minh chứng cho bài toán phân tích quan điểm dựa trên khía cạnh tiếng Việt
Bảng 4 Thong kê các nhăn bình luận theo từng tập dữ liệu (Trang 28)
Hình 3-4 Phương pháp dé xuất trong khoá luận - Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận dạng các minh chứng cho bài toán phân tích quan điểm dựa trên khía cạnh tiếng Việt
Hình 3 4 Phương pháp dé xuất trong khoá luận (Trang 28)
Hình 3-5 So sánh hai phương pháp tiếp cận học sâu và học chuyển tiếp - Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận dạng các minh chứng cho bài toán phân tích quan điểm dựa trên khía cạnh tiếng Việt
Hình 3 5 So sánh hai phương pháp tiếp cận học sâu và học chuyển tiếp (Trang 31)
Hình 4-2 Kiến trúc thuật toán Random forest - Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận dạng các minh chứng cho bài toán phân tích quan điểm dựa trên khía cạnh tiếng Việt
Hình 4 2 Kiến trúc thuật toán Random forest (Trang 36)
Hình 4-3 Kiến trúc mô hình XLM-R - Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận dạng các minh chứng cho bài toán phân tích quan điểm dựa trên khía cạnh tiếng Việt
Hình 4 3 Kiến trúc mô hình XLM-R (Trang 37)
Hình 4-4 Kiến trúc mô hình BiLSTM-CRF - Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận dạng các minh chứng cho bài toán phân tích quan điểm dựa trên khía cạnh tiếng Việt
Hình 4 4 Kiến trúc mô hình BiLSTM-CRF (Trang 38)
Hình 4-5 Kiến trúc mô hình PhoBERT - Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận dạng các minh chứng cho bài toán phân tích quan điểm dựa trên khía cạnh tiếng Việt
Hình 4 5 Kiến trúc mô hình PhoBERT (Trang 39)
Bảng 6 Một số két quả bị mô hình PhoBERT  dự đoán sai - Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận dạng các minh chứng cho bài toán phân tích quan điểm dựa trên khía cạnh tiếng Việt
Bảng 6 Một số két quả bị mô hình PhoBERT dự đoán sai (Trang 43)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w