1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo cuối kỳ mô hình phát hin văn phong bạo lực học phần xử lý ngôn ngữ tự nhiên

45 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Báo cáo cuối kỳ mô hình phát hiện văn phòng bạo lực
Tác giả Nguyễn Thị Thu Hà, Thỏi Thị Kim Yến
Người hướng dẫn ThS. Trần Quang Huy
Trường học Trường Đại Học Sư Phạm Thành Phố Hồ Chí Minh
Chuyên ngành Xử lý ngôn ngữ tự nhiên
Thể loại báo cáo
Năm xuất bản 2024
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 45
Dung lượng 3,33 MB

Nội dung

Đặc biệt, với sự tiền bộ của các công nghệ Trí tuệ nhân tạo AI - Artifcial Intelligence và Xử ly ngôn ngữ tự nhiên NLP — Natural Language Processing, việc xây dựng các hệ thông tự động d

Trang 1

BAO CAO CUOI KY

MO HINH PHAT HIEN VAN PHONG BAO LUC

Học phần: Xử lý ngôn ngữ tự nhiên

Thái Thị Kim Yến - 47.01.104.250

Giảng viên hướng dẫn: ThS Trần Quang Huy

Thành phố Hỗ Chí Minh, ngày 28 tháng 05 năm 2024

Trang 2

BO GIAO DUC VA DAO TAO TRUONG DAI HOC SU PHAM THANH PHO HO CHI MINH

KHOA CONG NGHE THONG TIN

BAO CAO CUOI KY

MO HINH PHAT HIEN VAN PHONG BAO LUC

Học phần: Xử lý ngôn ngữ tự nhiên

Thái Thị Kim Yến - 47.01.104.250

Giảng viên hướng dẫn: ThS Trần Quang Huy

Thành phố Hỗ Chí Minh, ngày 28 tháng 05 năm 2024

Trang 3

LOI CAM ON

Chúng em xin gởi lời cám on chan thanh dén thay ThS Tran Quang Huy Chúng em xin bảy tỏ lòng biết ơn đến tất cả các thầy cô trong khoa Công NghệThông Tĩn, các thầy cô đã chia sẻ kiến thức và kinh nghiệm của mình để chúng em tiến xahơn trong hành trình học tập

Chúng em cũng xin gửi lời tri ân đặc biệt đến gia đình, bạn bè, người thân đã luônđồng hành, ủng hộ và động viên chúng em trong suốt thời gian học tập và nghiên cứu

Thanh pho Hô Chi Minh, 28/05/2024

Nguyễn Thị Thu Ha Thái Thị Kim Yến

Trang 4

MUC LUC

DANH MUC CAC BANG BIEU essccscsessscsssescscssseecececacessessnensacecatssacsessnensacasitaseaesenenes 7 IM.9\028Ẻ10/9/9.Ye0:ini:7 7a .ƠỊƠỎ 8 DANH MUC CAC TU VIET na vi ớyn 9

2.1.1 Quá trình tiền xử lí văn bảnn -5- +55 +2+<+<£s£+eee+seeeezreerereererera 14

2.1.2 Thư viện NLUTK (Natural Lanpuage TooÏlkIt) - < << <<<s+ 15 2.1.3 Thur vid 08T .e 16

2.1.4 Biéu thre chin Quy .cccccccsccscsesseecsseecsesseeeecsesscscseecaesesscasenesaeseeeeaeees 17

2.2 Tăng cường dtr GU oo cee ceeeecseeeneeeaeeeaeeeeaeeeaeeeaeeeeaeeeaaeeeseeeseeeeeeeeseseeeeeeeeeees 18 PIN} (2 V/À 0 ae 19 2.3.1 Cơ chế hoạt động của Word2 VGC ng kh kg 19

2.3.2 Ưu điểm và ứng dụng của WOrd2 Vc -ccscsscx sex reerrersreee 19

b0 Chia ca 20

P0 ca nh etteeenneeniees 20

2.4.2 Cơ chế hoạt động - -+- 22+ +2+2++E+tv xxx +eEerrkererrrrrsreerrrerre 21

2.4.3 Ứng dụng của Mơ hình NB trong NLP: .- -5-s<+c<c+<+<zs2 22 2.4.4 Ưu điểm và Nhược điểm của Mơ hình NB: .c + s<ccc<cc<sscc+s 22

2.5.1 Cơ chế hoạt động của Mơ hình biLSTMI: - 5 2 «5< c+s£sx+ecsess2 23

Trang 5

2.6 Mô hình Hierarchical BERÏT” - - c << c- Ăn nen xa 24 2.6.1 Cơ chế hoạt Ộng nọ kh xà 25 2.6.2 Ứng dụng của Mô hình hBERT trong NLP: -5-5-s<<5<<+- 26

SN" chẽ .A H,)H,AHH 33

“IS e 34

8000 8a °53 ÔÒ 35

4.4 Hierarchical BEERT - - + c3 S39 ng kg ng ng ky xen 36

5.1 Môi trường thực nghiỆm: ST nh kh 38 1S n0 38

Trang 6

5.4 Hierarchical BERT

5.4.1 Cac 86 LGU ccescsesssscsessssesesecscsesesecaesssececsenecacsssececsasacaesseecsseescasenseeasiees 4l 5.4.2 Kt WA 8n HẬH))), 42 CHUONG 6 KET LUAN VA HUONG PHAT TRIEN oeessscscssssssssesescsesesssseeseseneaseees 43

IV 000i9009:79)004 9 .dA ddHH 45

Trang 7

DANH MUC CAC BANG BIEU

Bang | - Bang két qua m6 hinh Naive Bayes .ccsssscssesesseecseseeseecseeceeseeeeeeseeees 38

Bang 2 - Bang két qua m6 hinh Bi-LSTM .c.cccsssscsceeseecsesecsesceececseseeeeetecaeseenes 39

Bảng 3 - Bảng kết quả mô hình Hiearchical BERT 5- 5s <5<5s<<<<=s2 4I

Trang 8

DANH MUC CAC HINH ANH

Hinh 1 - M6 hinh Naive Bayes (NB)[A] .cccecceeceeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeneeeneees 21

0.009 1111.88.10 0 Bn "'A.: ƠỊỎ 23 Hình 3 - Mơ hình BiLS'TM [6] - - 5-2-5252 <+2*+E+£e£EvEeEeeeerereverrerrerrsrsrxcee 24 Hình 4 - Phân bổ dữ liệu trên các nhãn của tập dữ liệu VITE - 29 Hình 5 - Phân bổ dữ liệu trên các nhãn của tập dữ liệu VILLANOS 30 Hình 6 - Phân bổ dữ liệu trên các nhãn của tập dữ liệu VITE sau xử lý 31 Hình 7 - Phân bỗ dữ liệu trên các nhãn của tập dữ liệu VILLANOS sau xử lý .32

Hình 8 - Sơ đồ tổng quan về các mơ hình được sử dụng - -«-s<s 33 Hinh 9 - Mơ hình Nafve Bayes nh KH KH KH Ho Họ kg 34

Hình L0 - Mơ hình BI-LS TÌM - Q ĂS H* HnnnH k Hn ọ H kKh 35

Hình 11 - Mơ hình HIerarchical BERTỈ 2222213111 nh key 36 Hinh 12 - Report cua Nạve Bayes với VITÏE - ch ket 38 Hình 13 - Report của Nạve Bayes với VILLANOS nh hH*k HH 38 Hinh 14 - Report của Nạve Bayes với VITE+VILLUANOS xe 39 Hình 15 - Report của Bi-LSTM với VITTE c Ăn kh 40 Hinh 16 - Report của Bi-LSTM với VILUANOS cành re 40 Hình 17 - Report của Bi-LSTM với VITEtVILLUANOS << x 40 Hinh 18 - Report của Hiearchical BERT với VIÍTE - Ăn 41 Hinh 19 - Report cua Hiearchical BERT với VILUANOS ààằẰSeằ 41 Hinh 20 - Report cua Hiearchical BERT với VITE+VILLANOS 4l

Trang 9

DANH MUC CAC TU VIET TAT

CBOW Continuous Bag of Words

HiBERT Hierarchical Bidirectional Transformer

LSTM Long Short-Term Memory

NB Naive Bayes

NLP Natural Language Processing

NLTK Natural Language Toolkit

Trang 10

CHUONG 1 TONG QUAN 1.1 Giới thiệu về đề tài

Trong thời đại số hóa hiện nay, sự bùng nỗ của công nghệ thông tin và truyền thông

đã thay đổi cách thức con người giao tiếp và tương tác với nhau Các nền tảng trực tuyến như mạng xã hội, điễn đàn, và các ứng dụng nhắn tin đã trở thành một phần không thể thiếu trong đời sống hàng ngày của hàng tỷ người trên khắp thế giới Những nền tảng nay mang lại nhiều tiện ích, giúp kết nối con người, chia sẻ thông tin và ý tưởng một cách nhanh chóng và hiệu quả Tuy nhiên, bên cạnh những lợi ích đó, cũng tồn tại nhiều vấn đề tiêu cực, đặc biệt là sự gia tăng của các hành vi sử dụng ngôn từ bạo lực Ngôn từ bạo lực (Violent Language) là các từ ngữ, câu chữ, hoặc văn bản có tính chất bạo lực, đe dọa, hoặc khuyến khích hành vi bạo lực Các loại ngôn từ này thường chứa các từ vựng hoặc câu trích dẫn có liên quan đến việc tân công, hành hung, gây tổn thương, hoặc đe dọa về hành vi bạo lực đôi với một cá nhân, nhóm người, hoặc tô chức Ngôn từ bạo lực có thể xuất hiện trong nhiều ngữ cảnh khác nhau, từ giao tiếp cá nhân đến nền tảng trực tuyến, từ các cuộc tranh luận công cộng đến các văn bản chính thức Các từ ngữ bạo lực có thể bao gồm các lời de doa, lời chửi rủa, lời lẽ kích động, hoặc mô tả chỉ tiết về các hành vi bạo lực

Việc sử dụng ngôn từ bạo lực không chỉ gây tốn thương tâm lý cho người tiếp nhận

mà còn có thể tạo ra một môi trường g1ao tiếp tiêu cực và đe dọa Do đó, việc nhận diện

và ngăn chặn sự lan truyền của ngôn từ bạo lực trở thành một phần quan trọng trong việc xây dựng một môi trường giao tiếp an toàn và lành mạnh Trong bối cảnh đó, việc nghiên cứu và phát triển các mô hình phát hiện văn phong bạo lực trở thành một nhụ

cầu cấp thiết Các mô hình này không chỉ giúp nhận diện và ngăn chặn kịp thời các hành

vi tiêu cực mà còn góp phần xây dựng một môi trường trực tuyến an toàn và lành mạnh Đặc biệt, với sự tiền bộ của các công nghệ Trí tuệ nhân tạo (AI - Artifcial Intelligence)

và Xử ly ngôn ngữ tự nhiên (NLP — Natural Language Processing), việc xây dựng các

hệ thông tự động dé phát hiện và ngăn chặn ngôn từ bạo lực đang trở thành một lĩnh vực nghiên cứu có tiềm năng phát triển mạnh trong tương lai

Mục tiêu của đề tài này là xây dựng một mô hình hiệu quả để phát hiện và ngăn

chặn các hành vi sử dụng ngôn từ bạo lực bằng cách áp dụng các phương pháp xử lý

Trang 11

ngôn ngữ tự nhiên, học máy và các kỹ thuật phân tích dữ liệu Mô hình được đề xuất không chỉ cần đạt độ chính xác cao trong việc nhận diện ngôn từ bạo lực mà còn phải

có khả năng tông quát hóa tốt, tức là có thể áp dụng trên nhiều nền tảng và ngữ cảnh khác nhau

Một số nhiệm vụ cụ thê của đề tài bao gôm:

© Phát triển mô hình học máy: Sử dụng các phương pháp học máy cô điển và các phương pháp học sâu tiên tiễn đề huấn luyện mô hình tự động nhận diện ngôn từ bạo lực Các phương pháp này bao gồm các mô hình Naive Bayes (NB), Bi-directional Long Short-Term Memory (BiLSTM), va Hierarchical Bidirectional Transformer (HiBERT) Danh giá hiệu quả của các mô hình này thông qua các thí nghiệm và so sánh với các phương pháp truyền thống

se 7riển khai mô hình: Triền khai mô hình trên các nền tảng trực tuyến đề thử

nhiệm và đánh giá hiệu quả của mô hình trên các dữ liệu thực tế mà mô hình chưa được học

© Đánh giá và cải tiến liên tục: Tôi ưu hóa mô hình để đảm bảo độ chính xác

và hiệu suất tốt khi áp dụng trong thực tế Thực hiện các biện pháp đánh giá

và cải tiến liên tục để đảm bảo mô hình luôn được cập nhật và phủ hợp với các thay đôi trong ngôn ngữ và hành vi người dùng

Băng việc thực hiện các nhiệm vụ trên, đề tài này hy vọng sẽ đóng góp vào việc tạo ra một môi trường gø1ao tiệp trực tuyên an toản và tích cực, giúp bảo vệ người dùng khỏi các tác động tiêu cực của ngôn từ bạo lực và thúc đây sự phát triên bên vững của

xã hội số hóa

1.2, Tông quan tỉnh hình nghiên cứu

Nghiên cứu về phát hiện văn phong bạo lực đã được thực hiện trong nhiều năm qua, với sự phát triển của các công nghệ Xử lý ngôn ngữ tự nhiên và học máy (Machine Learning) Những tiễn bộ này đã mang lại nhiều giải pháp hiệu quả trong việc phát hiện

và ngăn chặn các hành vi sử dụng ngôn từ bạo lực trên các nền tảng trực tuyến Trong nghiên cứu “Deep Neural Network for Gender-Based Violence Detection

on Twitter Messages” Carlos M Castorena và các cộng sự [I] vào năm 2021 đã giới thiệu một ứng dụng mạng nơ-ron học sâu để nhận diện bạo lực giới tính trong các tin

11

Trang 12

nhan trén Twitter Téng cộng có 1.857.450 tin nhắn từ Twitter (tạo ra tại Mexico) đã được tải xuống và 61.604 tin nhắn trong số đó được các tình nguyện viên gán nhãn thủ công là tiêu cực, tích cực hoặc trung lập để làm dữ liệu huấn luyện và kiểm tra Kết quả cho thay mô hình mạng nơ-ron học sâu được đề suất đạt khoảng §0% trong việc phat

hiện bạo lực giới tính Đóng góp chính của nghiên cứu là bộ dữ liệu được tiền xử lý tối

thiểu, chỉ loại bỏ các trạng từ, liên từ và giới từ, và chuyển đổi tin nhắn gốc thành vectơ

số dựa trên tần suất từ xuất hiện Nghiên cứu này góp phần đối phó với bạo lực giới tính

ở Mexico, một vẫn đề cần được giải quyết ngay lập tức

Nghiên cứu “Arabic Text Classification using Feature-Reduction Techniques for Detecting Violence on Social Media” cua Hissah ALSaif và các cộng sự [2] vào năm

2019 da phat triển mô hình phân loại văn bản được xây dựng dé phat hién bao lire trong cac phuong ngit tiéng A Rap trén Twitter bằng cách sử dụng các phương pháp giảm đặc trưng khác nhau Thí nghiệm sử dụng các kỹ thuật bagøing, K-nearest neighbors (KNN),

và Bayesian boosting với các đặc trưng trích xuất như stemming gốc tir, stemming nhe,

và n-prams Ngoài ra, nghiên cứu ap dụng các kỹ thuật giảm đặc trưng nhu SVM, Chi- squared, chỉ số Gini, tương quan, luật, gain thông tin (IG), độ lệch, độ không chắc chắn đối xứng, và tỷ lệ IG Kết quả cho thấy phương pháp bapging với tri-gram đạt độ chính

xác cao nhất là 86.6 1%, và sự kết hợp giữa IG với SVMI đạt độ chính xác 90.59%,

Năm 2021, Udoy Das và các cộng sự đã công bố công trình nghiên cứu

“EmptyMind at BLP-2023 Task 1: A Transformer-based Hierarchical-BERT Model for Bangla Violence-Inciting Text Detection” [3] nham phat hién van ban kich déng bao lire bằng tiếng Bangla từ nội dung mạng xã hội Hội thảo Xử lý Ngôn ngữ Bangla lần thứ nhất (BLP - Bangla Language Processing) đã tô chức một cuộc thi về phát hiện văn bản kích động bạo lực, cung cấp tập dữ liệu VITD với ba loại: không bạo lực, bạo lực thụ động và bạo lực trực tiếp Nghiên cứu đã triển khai ba mô hình học máy (RE, SVM, XGBoost), hai mô hình học sâu (LSTM BILSTM) và hai m6 hinh transformer (BanglaBERT, Hierarchical-BERT) Qua so sánh, Hierarchical-BERT cho kết quả tốt nhất với Fl-score là xấp xỉ 0.74% trên tập kiểm tra và xếp thứ 9 trong cuộc thi của Hội thảo BLP cùng EMNLP 2023

Trang 13

1.3 Một số thách thức

I Thiếu dữ liệu và mất cân bằng đữ liệu:

- Các tập đữ liệu dùng để huấn luyện các mô hình phát hiện văn bản bạo lực

thường nhỏ và mất cân bằng Sự mắt cân bằng này dẫn đến việc các mô hình

bị lệch về phía lớp đa số, thường là nội dung không bạo lực Ví dụ, tập dữ liệu VITD trong nghiên cứu về tiếng Bangla rất mất cân bằng, ảnh hưởng đến hiệu suất của mô hình và đòi hỏi các chiến lược xử lý mắt cân bằng hiệu quả

- Tương tự, tập dữ liệu GBV trong tiếng Tây Ban Nha Mexico có sự mất cân

bang đáng kề với chi 1,604 tweet GBV trong tong s6 1,857,450 tin nhan, can

các kỹ thuật tăng cường như ROS va SMOTE để cải thiện hiệu suất mô hình

2 Biến thể ngôn ngữ và khu vực:

- _ Các khu vực và ngôn ngữ khác nhau có các biểu đạt và tiếng lóng độc đáo, làm cho việc phát triển một mô hình phủ hợp với tat cả trở nên khó khăn Nghiên cứu về phát hiện văn bản kích động bạo lực tiếng Ả Rập Saudi nhân mạnh cần xem xét các phương ngữ và biểu đạt khu vực để cải thiện độ chính xác

3 Xw ly van bản bạo lực thụ động:

- Phát hiện các dạng bạo lực thụ động hoặc tính vi đặc biệt khó khăn Nghiên cứu tiếng Bangla ghi nhận hạn chế trong việc phát hiện hiệu quả bạo lực thụ động, cho thấy cần các kỹ thuật tiên tiễn hơn đề xử lý những phức tạp này

4 Ngôn ngữ thay đổi và phát triển:

- _ Ngôn ngữ trên mạng xã hội thay đôi nhanh chóng, làm khó khăn trong việc duy trì các mô hình cập nhật Nhu cầu liên tục cập nhật các tập dữ liệu huấn luyện

dé phan anh sy thay đổi hiện tại là một thách thức liên tục

13

Trang 14

CHUONG 2 CO SO LY THUYET

2.1 Tiền xử lí văn bản

2.1.1 Quá trình tiền xử lí văn bản

Tiền xử lý văn bản (Text preprocessing) là bước quan trọng trong Xử lý ngôn ngữ

tự nhiên và các ứng dụng liên quan đến đữ liệu văn bản Mục tiêu chính của tiền xử lý văn bản là chuẩn hóa và làm sạch dữ liệu văn bản để nó có thể được sử dụng hiệu quả trong các quy trình phân tích, khai thác thông tin, hay huấn luyện mô hình máy học Khi làm việc với đữ liệu văn bản, chúng ta thường gặp phải nhiều vấn đề như sự không chuẩn hoá của văn bản, sự xuất hiện của các yếu tố nhiễu như dấu câu, số, ký tự đặc biệt, cũng như sự đa dạng về cách viết của từng người Quá trình tiền xử lý văn bản giúp giải quyết những vấn đề này bằng cách biến đổi đữ liệu văn bản ban đầu thành dữ liệu chuẩn, gọn gàng và đễ dàng đề hiểu

Một trong những mục tiêu quan trọng của tiền xử lý văn bản là chuân hóa đữ liệu Điều này bao gồm việc chuyên đổi các từ viết hoa thành chữ thường, loại bỏ các ký tự đặc biệt và dấu câu không cần thiết, cũng như loại bỏ các yếu tố nhiễu như số, URL, hashtag hay tag người dùng trong các mạng xã hội Bằng cách nảy, chúng ta tạo ra một

dữ liệu văn bản đồng nhất và dễ dàng xử lý hơn

Ngoài ra, tiền xử lý văn bản cũng nhằm mục đích làm giảm sự đa dạng của từ trong văn bản Điều này thường được thực hiện thông qua các kỹ thuật như lemmatisation và stemming Lemmatisation giúp chuyển đổi các từ về dạng gốc của chúng, trong khi stemming loại bỏ các phần tiền tố và hậu tô của từ Qua đó, chúng ta giảm bớt sự đa dạng của từ và tăng khả năng nhận diện từ gốc, từ đồng nghĩa hay từ trái nghĩa trong văn bản

Một bước quan trọng khác trong tiền xử lý văn bản là loại bỏ các từ dừng (stopwords), những từ không mang ý nghĩa đặc biệt và thường xuất hiện rất nhiều trong

dữ liệu văn bản như "and", "the", "In" Việc loại bỏ các từ dừng giúp giảm kích thước của từ điển và tập trung vào các từ quan trọng hơn trong văn bản, từ đó cải thiện hiệu suât của các mô hình và ứng dụng sau này

Trang 15

Tiền xử lý văn bản cũng bao gồm việc chuẩn hóa đữ liệu văn bản như việc chuẩn hóa các biến thê của từ như viết tắt, từ viết hoa Bằng cách này, chúng ta tạo ra một dit liệu văn bản đồng nhất và nhất quán, từ đó tăng tính nhất quán và khả năng so sánh giữa các văn bản

Quá trình tiền xử lý văn bản đóng vai trò quan trọng trong việc làm sạch và chuẩn hóa dữ liệu văn bản, từ đó tạo ra một dữ liệu văn bản dễ dàng sử dụng và hiệu quả trong các quy trình phân tích, khai thác thông tin, và huấn luyện mô hình máy học trong lĩnh vực NLP và các ứng dụng liên quan

2.1.2 Thư viện NLTK (Natural Language Toolkit)

Thu vign NLTK (Natural Language Toolkit) la mét trong nhitng céng cu quan trọng và phô biến nhất được sử dụng trong lĩnh vực Xử lý ngôn ngữ tự nhiên trong Python Được phát triển bởi nhóm nghiên cứu ngôn ngữ tự nhiên tại Đại học Pennsylvania, NLTK cung cấp một loạt các công cụ và tài nguyên để thực hiện các nhiệm vụ phức tạp từ việc tiền xử lý đữ liệu văn bản đến việc phân tích ngôn ngữ tự

nhiên và huấn luyện mô hình máy học

Các tính năng chính của NLTK bao gồm:

1 Tokenization (Tach te):

- NLTK cung cap các công cụ mạnh mẽ để chia văn bản thành các từ hoặc câu riêng biệt Quá trình này là bước quan trọng trong tiền xử lý văn bản, giúp chúng ta biến đổi đữ liệu văn bản thành các đơn vị nhỏ hơn đề dễ dàng xử lý

2 Stemming va Lemmatization:

- Stemming: NLTK cung cap cac thuật toan stemming nhw Porter Stemmer va Snowball Stemmer dé loai bo cdc phần hậu tổ của từ và chuyên đôi chúng về dạng gốc

- Lemmatization: Cung voi stemming, NLTK cũng hỗ trợ lemmatization, một phương pháp mạnh mẽ hơn đề chuyên đổi các từ về dạng gốc của chúng, sử dụng từ điển từ vựng

3 Loại bỏ SfopWords:

15

Trang 16

- NLTK cung cap danh sach cac tir dig pho bién trong tiéng Anh va cho phép loại bỏ chúng từ văn bản Việc loại bỏ stopwords giúp giảm kích thước của văn bản và tập trung vào các từ quan trọng hơn

4 Phân tích ngôn ngữ tự nhiên:

- _ NLTK cung cấp các công cụ đề phân tích ngôn ngữ tự nhiên như phân tích cú pháp phân tích ngữ nghĩa, và phân loại văn bản

- _ Các công cụ này giúp hiểu cấu trúc và ý nghĩa của văn bản, từ đó hỗ trợ trong việc xây dựng các ứng dụng NLP phức tạp

3 Tài liệu và tài nguyên NLIP:

- NLTK đi kèm với một loạt tài liệu hướng dẫn và tài nguyên NLP, bao gồm các tập dữ liệu, sách giáo trình, và các ví dụ minh họa Điều này giúp người dùng học và nghiên cứu về lĩnh vực NLP một cách hiệu quả

Trong tông thé, NLTK là một công cụ mạnh mẽ và linh hoạt cho việc xử lý ngôn ngữ tự nhiên trong Python Với các tính năng đa dạng và các tài nguyên phong phú, NLTK đã trở thành một trong những công cụ hàng đầu trong cộng đồng NLP, được sử dụng rộng rãi trong nghiên cứu, giáo dục và ứng dụng thực tiến

2.1.3 Thư viện spaCy

Thư viện spaCy đã nổi lên như một công cụ quan trọng và hiệu quả trong lĩnh vực

Xử ly ngôn ngữ tự nhiên trong Python Với sự đa dạng và tính toàn diện của các tính năng, spaCy không chỉ là một công cụ mạnh mẽ mà còn là một lựa chọn lý tưởng cho

cả những ứng dụng thương mại và nghiên cứu

Một trong những điểm nôi bật của spaCy là tinh dé str dung va hiệu suất cao Thư viện này được thiết kế để cung cấp các công cụ mạnh mẽ đề xử lý và phân tích văn bản một cách nhanh chóng và hiệu quả Dưới đây là một số tính năng chính của spaCy: l 7okerizafion: spaCy cung cấp một công cụ tokenization hiệu quả, cho phép chia văn bản thành các đơn vị nhỏ như từ hoặc câu một cách chính xác

2 Part-of-Speech Tagging (POS): spaCy co kha năng gắn nhãn cho từng từ trong văn bản với các loại từ loại như danh từ, động từ, tính từ, trạng từ, giúp hiểu được vai trò và chức năng của tử trong câu

Trang 17

3 Named Entity Recognition (NER): Tinh nang nay cua spaCy cho phép nhan dạng và phân loại các thực thể có tên trong văn bản như tên riêng, địa danh,

tổ chức, ngày tháng, số lượng, v.v

4 Dependency Parsing: spaCy cung cấp công cụ phân tích phụ thuộc để xác định các mối quan hệ cú pháp giữa các từ trong câu, từ đó giúp hiểu cấu trúc câu và mối liên hệ giữa các thành phần trong câu

Tính linh hoạt và tính toàn diện của spaCy đã khiến nó trở thành một công cụ ưa thích trong cả cộng đồng nghiên cứu và ứng dụng thương mại Tính năng và hiệu suất cao của spaCy làm cho việc xử lý văn bản và phân tích ngôn ngữ tự nhiên trở nên dễ dàng và hiệu quả hơn bao giờ hết Điều này giúp giảm thời gian và công sức cần thiết cho việc xây dựng các ứng dụng NLP phức tạp, đồng thời tạo ra những giải pháp thông minh và tiên tiễn cho thi trường

2.1.4 Biểu thức chính quy

Biểu thức chính quy (Regular Expression hay Regex) là một công cụ không thê thiếu trong việc xử lý và phân tích chuỗi văn bản trong lập trình, đặc biệt là trong lĩnh vực Xử lý ngôn ngữ tự nhiên Regex cung cấp một cách tiếp cận mạnh mẽ và linh hoạt

đề thực hiện các thao tác như tìm kiếm, thay thế, và phân tích cú pháp của các mẫu trong chuỗi văn bản, giúp đơn giản hóa quá trình tiền xử lý văn bản

Dưới đây là một số điểm cụ thê về tính chất và ứng dụng của Regex trong việc xử

lý văn bản:

- Tim kiém (Search): Regex cho phép ban tim kiém các mẫu hoặc chuỗi cụ thé trong văn bản Bằng cách sử dụng các biểu thức phù hợp, bạn có thể tìm kiếm các từ, ký tự hoặc cụm tử theo các quy tắc cụ thể

- _ Thay thế (Replace): Regex cũng cho phép bạn thực hiện các thay thế trong văn bản Bằng cách xác định các mẫu cần thay thế và các giá trị thay thế tương ứng, bạn có thê thực hiện các thay đổi như loại bỏ, thay thế hoặc sửa đổi nội dung của văn bản

- _ Phân tích cú pháp (Parsing): Regex có thê được sử dụng đề phân tích cú pháp của các mầu trong văn bản Băng cách xác định các mẫu cú pháp và sử dụng

17

Trang 18

các ký tự đặc biệt và toán tử, bạn có thé phân tích cú pháp của các thành phần trong văn bản, từ đó hiểu được cấu trúc và ý nghĩa của chúng

- _ Biểu diễn các quy tắc phức tạp: Regex cho phép bạn mô tả các quy tắc phức tạp cho việc tìm kiếm và xử lý chuỗi Bằng cách kết hợp các ký tự đặc biệt, toán tử và nhóm biêu thức, bạn có thê biểu diễn một loạt các mẫu phức tạp như thời gian, địa chỉ emaIl, số điện thoại, v.v

Với sự linh hoạt và mạnh mẽ của mình, Regex là một công cụ quan trọng và không thê thiêu trong quá trình tiên xử lý văn bản và các nhiệm vụ phân tích ngôn ngữ tự nhiên Tuy nhiên, việc sử dụng Regex cân phải cân thận và có kiên thức vững về cú pháp của

nó đề đảm bảo tính chính xác và hiệu quả trong quá trình xử lý văn bản

2.2 Tăng cường dữ liệu

Quá trình tăng cường đữ liệu là một kỹ thuật phố biến trong máy học, nhằm tạo ra các phiên bản mới của dữ liệu huấn luyện từ dữ liệu sốc, nhằm cải thiện hiệu suất của các mô hình học máy

Mục tiêu của việc tăng cường đữ liệu là giúp giảm thiểu sự phụ thuộc vào lượng

dữ liệu huấn luyện lớn và tăng cường khả năng tổng quát hóa của các mô hình học máy, đặc biệt là khi dữ liệu huấn luyện có kích thước nhỏ hoặc không cân bang Đồng thời, việc tăng cường đữ liệu cũng giúp giảm thiểu hiện tượng overftting và cải thiện hiệu suất của mô hình trên dữ liệu kiểm tra

EasyDataAugmenter là một thư viện Python được phát triển để hỗ trợ quá trình tăng cường dữ liệu trong các tác vụ học máy và Xử lý ngôn ngữ tự nhiên Thư viện EasyDataAugmenter cung cấp một bộ các phương pháp tăng cường dữ liệu dễ sử dụng

và hiệu quả Các phương pháp này bao gồm thay đổi từ vựng, chèn từ đồng nghĩa, xáo trộn từ và xóa từ trong câu Bằng cách áp dụng các phương pháp này, người dùng có thé tạo ra các phiên bản mới của dữ liệu huấn luyện một cách tự động và linh hoạt Các kỹ thuật chính bao gồm:

-_ Thay đổi tte vung (Word Level Augmentation): Thay déi mét sé tir trong cau bằng các từ đồng nghĩa hoặc từ tương đồng để tạo ra các biến thê mới của câu

- _ Chèn từ đồng nghĩa (Synonym Insertion): Chèn các từ đồng nghĩa vào câu để

mở rộng tử vựng và tạo ra các câu mới có ý nghĩa tương tự

Trang 19

- _ Xáo trộn từ (Random Swap): Hoán đôi ngẫu nhiên vị trí của các từ trong câu

để tạo ra các biến thể mới của câu

- X6a tit (Random Deletion): Xóa ngẫu nhiên một số từ trong câu để tạo ra các câu mới có độ ngắn gọn hơn

Các kỹ thuật này không chỉ giúp tăng cường đữ liệu mà còn giúp giảm thiêu hiện tượng overftting và cải thiện khả năng tông quát hóa của mô hình

2.3 Word2Vec

Word2 Vec la mot công cụ quan trọng trong lĩnh vực Xử lý ngôn ngữ tự nhiên, p1úp biểu diễn từ vựng dưới đạng các vectơ số thực trong không gian nhiều chiều Mô hình

này đã mang lại nhiều tiện ích trong việc hiểu biết và khai thác thông tin từ đữ liệu văn

bản, đồng thời cũng tạo ra các ứng dụng mạnh mẽ trong nhiều lĩnh vực như tìm kiếm thông tin, phân loại văn bản, gợi ý và dịch máy

2.3.1 Cơ chế hoại dong cua Word2Vec

Word2Vec hoạt động dựa trên nguyên tắc rằng các từ có xu hướng xuất hiện cùng nhau trong ngữ cảnh tương tự sẽ có ý nghĩa tương tự Đề thực hiện điều này, Word2Vec

sử dụng một mạng nơ-ron để học các biểu diễn từ vựng từ dữ liệu văn bản lớn Phương pháp chính của Word2Vec bao gồm:

1 Continuous Bag of Words (CBOW):

- CBOW cé gang dự đoán từ hiện tại dựa trên các từ xung quanh nó trong một cửa số có định

- Muc tiêu là dự đoán từ trung tâm (target word) dựa trên các ngữ cảnh (context words) xung quanh nó

2 Skip-gram:

- Skip-gram nguoc lại, cỗ gắng dự đoán các từ xung quanh dựa trên từ hiện tại

- Muc tiêu là dự đoán các ngữ cảnh xung quanh tử trung tâm

2.3.2 Ưu điểm và ứng dụng của Word2Vec

Một trong những ưu điểm lớn của Word2Vec là khả năng biểu diễn từng từ dưới dạng các vectơ có ý nghĩa Các từ có biểu diễn vector gần nhau trong không gian vector

19

Trang 20

thường có ý nghĩa tương tự, giúp tái tạo được mỗi quan hệ ngữ nghĩa giữa chúng Các ứng dụng chính của Word2Vec bao gồm:

Phân loại văn bản: Các biêu điễn từ của Word2Vec có thê được sử dụng đề phân loại văn bản thành các nhãn khác nhau

Tim kiếm và gơi ý văn bản: Word2Vec cô thê được sử dụng để tạo ra các vectơ biểu diễn cho các văn bản, từ đó giúp tìm kiếm và gợi ý các văn bản tương tự Dịch máy: Biêu diễn từ của Word2Vec cũng có thê được sử dụng để cải thiện chất lượng của các hệ thông dịch máy

2.3.3 Nhược điểm và lưu ý

Tuy Word2Vec mang lại nhiều lợi ích, nhưng cũng có nhược điểm Một trong số

đó là khả năng hạn chế trong biểu diễn mối quan hệ ngữ nghĩa phức tạp giữa các từ, cũng như khả năng xử ly các từ mới mà nó chưa học được tử dữ liệu huấn luyện Đồng thời, việc huấn luyện mô hình Word2Vec cũng yêu cầu một lượng lớn dữ liệu văn bản

đủ lớn để đạt được các biểu diễn từ vựng chất lượng cao

2.4 Mô hình Naive Bayes

Mô hình Naive Bayes (NB) là một thuật toán máy học phổ biến được sử dụng rộng rãi nhờ tính đơn giản và khả thi Mô hình NB là một phương pháp dựa trên xác suất thống kê, cụ thể nó được phát triển dựa trên nguyên lý của định lý Bayes Mô hình được

sử dụng chủ yếu trong các bài toán phân loại dữ liệu Ở các nhiệm vụ cơ bản của lĩnh vực Xử lí ngôn ngữ tự nhiên, mô hình được sử dụng cho tác vụ như phân loại văn ban, phát hiện thư rác, và phân loại cảm xúc

Trang 21

1 Huấn luyện:

- Tinh toán xác suat:

2

Mô hình NB học từ dữ liệu huấn luyện bằng cách tính toán xác suất của các

từ hoặc đặc trưng trong văn bản và xác suất của các lớp hoặc nhãn tương ứng với văn bản

Dựa trên dữ liệu huấn luyện, mô hình tính toán các xác suất liên quan và sử

dụng chúng để xây dựng một mô hình thống kê

Tự đoán:

- _ Tính toán xác suât dự đoán:

Khi có một văn bản mới cân phân loại, mô hình NB tính toán xác suât của mối lớp cho van bản đó

Mô hình sử dụng các xác suât này đề dự đoán lớp có xác suat cao nhat lam nhãn dự đoán cho văn bản

21

Trang 22

2.4.3 Ứng dụng của Mô hình NB trong NLP:

Mô hình NB được sử dụng rộng rãi trong nhiều ứng dụng trong lĩnh vực Xử lý Ngôn ngữ tự nhiên, bao gồm:

- _ Phân loại văn bản: Mô hình NB có thể phân loại văn bản vào các lớp hoặc chủ

đề khác nhau dựa trên nội dung của chúng

- _ Phân loại tin tức: Mô hình NB có thể tự động phân loại các bài báo, tin tức vào các chủ đề như thể thao, kinh doanh, giải trí, v.v

- _ Phát hiện thư rác (spam): Mô hình NB có thê phát hiện các email rác dựa trên nội dung của chúng

- _ Phân loại cảm xúc: Mô hình NB có thể phân loại ý kiến hoặc cảm xúc trong các bình luận, đánh giá sản phẩm, v.v

2.4.4 Uu diém và Nhược điểm của Mô hình NB:

- Ưuđiểm:

e©_ Đơn giản và dễ triển khai: Mô hình NB dễ hiểu và triển khai, thường có

hiệu suất tốt trên các tập dữ liệu lớn

e© - Hiệu suất tốt với dữ liệu lớn: Mô hình NB hoạt động tốt với các tập dữ liệu

lớn có nhiều đặc trưng

- Nhược điểm:

e_ Giả định ngây thơ không chính xác: Giả định rằng các đặc trưng là độc lập

có điều kiện với nhau không phản ánh hoàn toàn thực tế trong mọi trường hợp

e Yéu cầu dữ liệu huấn luyện lớn: Đề đạt được hiệu suất tốt, mô hình NB yêu cầu một lượng lớn dữ liệu huấn luyện

e_ Không xử lý được từ mới: Mô hình NB không thê xử lý các từ mới mà nó chưa học được từ dữ liệu huấn luyện

Ngày đăng: 18/01/2025, 23:04

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Castorena, Carlos M., et al. "Deep neural network for gender-based violence detection on Twitter messages." Mathematics 9.8 (2021): 807 Sách, tạp chí
Tiêu đề: Deep neural network for gender-based violence detection on Twitter messages
Tác giả: Castorena, Carlos M., et al. "Deep neural network for gender-based violence detection on Twitter messages." Mathematics 9.8
Năm: 2021
[5] "Long short-term memory." Wikipedia, Wikimedia Foundation, 21 May 2024, https://en.wikipedia.org/wiki/Long_short-term_memory#:~:text=Long%o20short™%o2 Dterm%20memory%20(LSTM,a nd%20other%20sequence%20learning%20methods Sách, tạp chí
Tiêu đề: Long short-term memory
[6] "What is the difference between TensorFlow's LSTM and BiLSTM?" AlMind, 2024, _ https://pub.aimind.so/what-is-the-difference-between- tensorflows-lstm-and-bilstm-d7b 1 15d8c772 Sách, tạp chí
Tiêu đề: What is the difference between TensorFlow's LSTM and BiLSTM
[7] Saha, Sourav, et al. "Blp-2023 task 1: Violence inciting text detection (vitd)." Proceedings of the First Workshop on Bangla Language Processing (BLP-2023). 2023 Sách, tạp chí
Tiêu đề: Blp-2023 task 1: Violence inciting text detection (vitd)
[8] Botella-Gil, Beatriz, et al. "Semi-automatic dataset annotation applied to automatic violent message detection.” IEEE Access (2024) Sách, tạp chí
Tiêu đề: Semi-automatic dataset annotation applied to automatic violent message detection
[2] ALSaif, Hissah, and Taghreed Alotaibi. “Arabic text classification using feature-reduction techniques for detecting violence on social media.&#34 Khác