Phương pháp xác định độ tương tự giữa hai văn bản

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIÊN THÔNG KHOA CÔNG NGHỆ THONG TIN I

DO AN

TOT NGHIEP DAI HOC

DE TAI NGHIEN CUU:

“PHƯƠNG PHÁP XÁC ĐỊNH ĐỘ TƯƠNG TU GIỮA HAI VĂN BẢN.”

Giảng viên hướng dẫn : TS NGUYÊN DUY PHƯƠNG Sinh vién thuc hién : NGUYEN THỊ HONG

Trang 2

SN TT

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG KHOA CÔNG NGHỆ THÔNG TIN I

DE TAI NGHIEN CUU:

“PHƯƠNG PHÁP XÁC ĐỊNH ĐỘ TƯƠNG TU GIỮA HAI VAN BẢN.”

Giảng viên hướng dẫn : TS NGUYEN DUY PHƯƠNG Sinh vién thuc hién : NGUYEN THỊ HONG

Trang 3

NHAN XÉT

(Của giảng viên phản biện)

Trang 4

NHAN XÉT, ĐÁNH GIA, CHO DIEM

(Của giảng viên hướng dẫn)

Điểm: (bằng chữ: ccccSà, )

Hà Nội, ngày 22 tháng 12 năm 2021

Giảng viên hướng dẫn

Trang 5

Đồ án tốt nghiệp đại học

LỜI CẢM ƠN

Lời đầu tiên, em xin gửi lời cảm ơn sâu sắc đến các thầy cô giảng viên Khoa Công nghệ thông tin I nói riêng và các thầy cô giảng viên Học viện Công nghệ Bưu chính Viễn thông nói chung Trong suốt quá trình học tập tại Học viện, thầy cô đã là người chi bảo, giảng dạy cho em rất nhiều kiến thức, kinh nghiệm quý bau dé em có

được một hành trang vững bước trong tương lai.

Bên cạnh đó, em xin được đặc biệt gửi lời cảm ơn đến thay Nguyễn Duy

Phương, người đã luôn hướng dẫn, chỉ bảo em tận tình trong suốt quá trình học tập,

nghiên cứu, xây dựng và hoàn thiện đồ án này.

Em cũng xin gửi lời cảm ơn tới bố mẹ, người thân và bạn bè đã luôn bên cạnh chăm lo, quan tâm, giúp đỡ và động viên em trong suốt những tháng năm đại học.

Với điều kiện thời gian cũng như kinh nghiệm của em về lĩnh vực này còn hạn chế nên đồ án không thể tránh được những thiếu sót Vì thế, em rất mong nhận được sự chỉ bảo và đóng góp ý kiến của các thầy, cô dé em có thé bổ sung và nâng cao kiến

thức của mình hơn nữa.

Cuối cùng, em xin kính chúc quý thầy cô một năm mới dồi dao sức khỏe, an

khang, thịnh vượng và thành công hơn nữa trong sự nghiệp.

Em xin chân thành cảm ơn!

Hà Nội, ngày 01 tháng 01 năm 2022Sinh viên

Nguyễn Thi Hong

Nguyễn Thị Hồng - D17CNPM04

Trang 6

4 Phương pháp nghiên cứu 25 N6i dung nghiên cứu 2

CHUONG 1: TONG QUAN VE ĐỘ TƯƠNG TỰ GIỮA HAI VĂN BẢN 3

1.1 Giới thiệu về văn bản 3

1.2 Giới thiệu về ngôn ngữ tự nhiên 3

1.2.1 Ngôn ngữ tự nhiên (NLP) 3

1.2.2 Tam quan trong và một số ứng dung của xử ly ngôn ngữ tự nhiên 71.2.3 Một số thuật ngữ phổ biến trong NLP 111.2.4 Vấn đề về độ tương tự trong văn bản 151.2.5 Các bài toán xử lý trong tiếng Việt 16

CHƯƠNG 2: CÁC PHƯƠNG PHÁP XÁC ĐỊNH MỨC ĐỘ TƯƠNG TỰ GIỮA

HAI VAN BAN 18

2.1 Bai toán so sánh văn ban tiếng Việt 182.1.1 Phát biếu về bài toán 182.1.2 Đặc điểm của ngôn ngữ tiếng Việt 182.1.2.1 Cấu tạo từ tiếng Việt 182.1.2.2 Từ dong nghĩa 192.1.2.3 Từ đồng âm khác nghĩa 192.1.2.4 Đặc điểm chính tả 202.1.2.5 Tiền xử ly văn bản 212.1.2.6 Biểu diễn văn bản 252.2 Độ tương đồng văn bản về mặt từ ngữ (Text Similarity) 252.2.1 Các thuật toán chuyển đổi văn bản sang Embedding 25

2.2.1.1 Bag of Words (BoW) 262.2.1.2 TF-IDF 262.2.1.3 Word2vec 27

Nguyễn Thị Hồng - D17CNPM04 6

Trang 7

2.2.1.4 Doc2Vec 30

2.2.2 Cac thước do khoảng cách, độ tương tự trong Machine Learning 322.2.2.1 Độ tương đồng văn bản dựa trên tập từ chung 33

3.2 Ứng dụng của BERT vào độ tương tự giữa hai văn bản 59

3.2.1 Quá trình xây dựng hệ thong 593.2.1.1 Thiết lập hệ thong 593.2.1.2 Bộ cơ sở dữ liệu huấn luyện 603.2.1.3 Huấn luyện dữ liệu và xây dựng ứng dụng 603.2.2 Kết quả thực nghiệm và đánh giá 64

KET LUẬN 67

TÀI LIỆU THAM KHẢO 68

Trang 8

DANH MỤC TU VIET TAT Ký hiệu chữ viết tắt | Chữ viết đầy đủ

ASR Automatic Speech Recognition

BERT Bidirectional Encoder Representations from TransformersBoW Bag of Words

CBOW Continuous Bag-of-Words

GLU score General Language Understanding Evaluation score

NER Named Entity

NLG Natural Language Generation

NLI Natural Language Inference

NLP Natural Language ProcessingNLTK Natural Language Toolkit

NLU Natural Language UnderstandingNSP Next Sentence Prediction

OCR Optical Character Recognition

Trang 9

DANH MỤC HÌNH ẢNH

Hình 1.1: Xử lý ngôn ngữ tự nhiên trong giao tiếp 3

Hình 1.2: Các lĩnh vực của xử ly ngôn ngữ tự nhiên (NLP) 5

Hình 1.3: Mô hình nhận dạng tiếng nói (ASR) 7 Hình 1.4: Mô hình tổng hợp tiếng nói (TTS) 8 Hình 1.5: Mô hình nhận dạng chữ viết (OCR) 8 Hinh 1.6: So dé phuong phap trich xuat trong van ban (Extrative) 10 Hình 1.7: Sơ đồ phương pháp tóm lược ý trong văn bản (Abstractive) 10

Hình 1.8: Các kỹ thuật tach từ trong xử ly ngôn ngữ tự nhiên 13

Hình 2.10: Cosine Similarity trong Python 39

Hinh 2.11: Vi du vé Euclidean Distance 40

Hinh 2.12: Euclidean Distance trong Python 41Hinh 2.13: Manhattan distance trong Python 42

Hình 3.1: Vi du về độ tương đồng ngữ nghĩa trong văn ban 43

Hình 3.2: Các phương pháp Typological/Knowledge-based Methods 44

Hình 3.3: Vi dụ về Node-based/Information Content Approach 45 Hình 3.4: Sơ đồ kiến trúc Transformer 47

Hình 3.5: Minh họa Position Encoding 48

Hinh 3.6: M6 hinh Encoder 49Hinh 3.7: M6 hinh Self Attention Layer 50

Hinh 3.8: M6 hinh Multi Head Attention 51

Hình 3.9: Mô hình của Decoder 52

Trang 10

Hình 3.10: Mô hình BERT 55

Hinh 3.11: M6 hinh Masked LM 56Hình 3.12: Cac bước tao input của Next Sentence Prediction 57

Hình 3.13: Các bước lay output của Next Sentence Prediction 57 Hình 3.14 : Tiến trình pre-training va fine-tuning của BERT 58

Hình 3.15: Co sở dữ liệu dưới dạng tệp CSV 60

Trang 11

Đồ án tốt nghiệp đại học Tổng quan đề tài

TONG QUAN DE TÀI 1 Ly do chọn đề tài

Ngày nay, với sự phát triển nhanh chóng và vượt bậc của khoa học công nghệ

đặc biệt là máy tính và mạng Internet thì thông tin dưới dạng văn bản đã trở nên phong

phú và đa dạng hơn Với sự trợ giúp đắc lực của các công cụ thì chỉ với một vai thao tác đơn giản ta có thé nhận được rất nhiều những thông tin mà chúng ta tìm kiếm Cũng chính vì thế mà sự chọn lọc thông tin mới, hữu ích ngày càng trở nên khó khăn

Natural Language Processing (NLP) hay còn được gọi là xử lý ngôn ngữ tự

nhiên - là một lĩnh vực nghiên cứu có sự kết hợp giữa công nghệ thông tin và ngôn

ngữ học Trong đó, vai trò của công nghệ thông tin ngày càng chứng tỏ sức mạnh và

tầm quan trong trong các nghiên cứu cũng như kết quả ứng dụng vào thực tế Hiện nay, có rất nhiều nghiên cứu đã áp dụng kết quả vào triển khai ứng dụng thực tiễn đem lại hiệu quả cao như các bài toán tóm tắt văn bản, trích xuất tự động, dịch tự động, Đặc biệt là bài toán tính độ tương đồng giữa hai văn bản đang là đề tài đáng được chú ý và quan tâm Cho đến thời điểm hiện tại, có nhiều phương pháp đã được đề xuất cho

bài toán này, tuy nhiên đối với các văn bản tiếng Việt, việc nghiên cứu và áp dụng đang còn hạn chế, đa số các phương pháp đã đề xuất sử dụng cho văn bản tiếng Anh do đặc diém cau tạo của ngôn ngữ tiêng Việt có nhiêu diém khác biệt.

2 Mục dich của đề tài

Nghiên cứu các phương pháp xác định độ tương đồng văn bản không những về mặt từ ngữ mà còn cả về mặt ngữ nghĩa, từ đó làm tiền đề để xây dựng mô hình hệ

thống đánh giá sự tương đồng văn.

3 Đổi tượng

- Cac van đê vê độ tương tự giữa hai văn ban và các bai toán xử lý trong tiêngViệt.

Trang 12

Đồ án tốt nghiệp đại học Tổng quan đề tài

Các phương pháp xác định mức độ tương tự trong văn bản về mặt cú pháp như

mức độ câu, từ, đoạn văn,

Các mô hình, phương pháp xác định mức độ tương tự văn bản về mặt ngữ nghĩa và ứng dụng trong so sánh văn bản.

4 Phương pháp nghiên cứu

Tìm kiếm, thu thập và hệ thống hóa các phương pháp nghiên cứu đã có về van đề độ tương đồng trong văn bản.

Nghiên cứu lí thuyết về mô hình xác định mức độ tương tự trong văn bản làm tiền đề cho việc xây dựng ứng dụng và đề xuất hướng giải quyết tối ưu cho bài

5 Nội dung nghiên cứu

Tìm hiểu tổng quan về các van đề trong việc xử lý ngôn ngữ tự nhiên Nghiên cứu tìm hiểu bài toán so sánh văn bản.

Nghiên cứu các phương pháp, mô hình biểu diễn văn bản.

Tìm hiểu các phương pháp xác định mức độ tương tự trong văn bản.

Xây dựng ứng dụng so sánh văn bản.

Nguyễn Thị Hồng - D17CNPM04

Trang 13

Đồ án tốt nghiệp đại học Chương 1 Tổng quan về độ tương tự giữa hai văn bản

CHƯƠNG 1: TONG QUAN VE ĐỘ TƯƠNG TỰ GIỮA HAI VAN

1.1 Giới thiệu về văn bản

Văn bản là một loại hình phương tiện dé ghi nhận, lưu giữ va truyền đạt các

thông tin từ chủ thể này sang chủ thé khác băng kí hiệu gọi là chữ viết Nó gồm tập hợp các câu có tính trọn vẹn về nội dung, hoản chỉnh về hình thức, có tính liên kết chặt

chẽ và hướng tới một mục tiêu giao tiếp nhất định Hay nói cách khác, văn bản là một dạng sản phẩm của hoạt động giao tiếp bằng ngôn ngữ được thê hiện ở dạng viết trên

một chất liệu nào đó ( giấy, bia đá, ) Văn bản bao gồm các tài liệu, tư liệu, giấy tờ có pháp lý nhất định được sử dụng trong hoạt động của các cơ quan Nhà nước, các tổ chức chính trị, chính trị - xã hội, các tổ chức kinh tế như các văn bản pháp luật, các công văn, tài liệu, giấy tờ.

1.2 Gidi thiệu về ngôn ngữ tự nhiên

1.2.1 Ngôn ngữ tự nhiên (NLP)

Natural Language Processing (NLP) hay xử lý ngôn ngữ tự nhiên được con

người sử dụng dé giao tiếp và phát triển một cách tự nhiên Xử lý ngôn ngữ tự nhiên là

một lĩnh vực khoa học máy tính và ngôn ngữ học liên quan đến sự tương tác giữa máy tính và với ngôn ngữ của con người Các hệ thống tạo ngôn ngữ tự nhiên chuyền đổi thông tin từ cơ sở đữ liệu máy tinh sang ngôn ngữ con người có thé đọc được.

Ngôn ngữ tự nhiên đề cập đến cách chúng ta, con người giao tiếp với nhau Cụ thé là bài phát biểu hay văn bản Mỗi ngày chúng ta đều tiếp xúc với rất nhiều các loại

văn bản như: tin nhắn, email, các trang web, thực đơn, hợp đồng Với tầm quan trọng của loại dir liệu này, chúng ta phải có các phương pháp dé hiểu và lập luận về ngôn ngữ tự nhiên giống như chúng ta làm với các loại đữ liệu khác.

Trang 14

Hình 1.1: Xử by ngôn ngữ tự nhiên trong giao tiếp.

NLP đề cập đến nhánh của khoa học máy tính và cụ thể hơn là nhánh của trí tuệ nhân tạo hoặc AI — liên quan đến việc cung cấp cho máy tinh khả năng hiểu văn bản

và lời nói theo cách giống như con người có thé Nó kết hợp ngôn ngữ học tính toán —

mô hình dựa trên nguyên tắc của ngôn ngữ con người — với các mô hình thống kê, học

máy và học sâu Cùng với nhau, các công nghệ nay cho phép máy tính xử ly ngôn ngữ

của con người dưới dang dit liệu văn bản hoặc giọng nói và hiểu ý nghĩa day đủ của

nó, hoàn chỉnh với ý định và cảm xúc của người nói hoặc người viết.

Xử lý ngôn ngữ tự nhiên cung cấp nhiều kỹ thuật giải thích ngôn ngữ khác nhau Có các thuật toán học máy, mô hình thống kê và các phương pháp tiếp cận mô hình dựa trên các bộ phận quy tắc Sự kết hợp của các kỹ thuật này được sử dụng dé giúp các hệ thống máy tính xử lý dữ liệu ngôn ngữ của con người.

NLP được tạo ra với mục đích chia nhỏ các tập hợp lớn dữ liệu ngôn ngữ của

con người thành các thành phần nhỏ hơn, ngắn hơn va logic hơn được xây dựng dé hiểu mục đích ngữ nghĩa và cú pháp của ngôn ngữ nói và viết của chúng ta Mục đích bao quát là lay đầu vào ngôn ngữ và sử dụng các thuật toán dé chuyền đôi điểm giá trị

của dt liệu thành một thứ gì đó lớn hơn.

Như chúng ta đã biết, máy tính được cấu tạo từ những con số do đó nó chỉ có thé đọc được dit liệu số mà thôi Trong NLP thì dé xử lý dữ liệu text chúng ta phải chuyển dữ liệu từ text sang numeric, tức là đưa nó vào một không gian mới, người ta

thường gọi là embedding Trước đây, người ta mã hóa theo kiểu one-hot coding — tức là tạo một vocabulary cho di liệu và mã hóa các word trong document thành những vector Nếu word đó có trong document thì mã hóa là “1”, còn không có sẽ là “0” Kết

quả tao ra một sparse matrix, tức là matrix hầu hết là “0” Các mã hóa này có nhiều nhược điểm như: thứ nhất là số chiều của nó rất lớn (NxM,N là số document, M là số vocabulary), thứ hai các word không có quan hệ với nhau Điều đó dẫn đến người ta

nghĩ ra một model mới có tên là word embedding, ở đó các cặp word sẽ có quan hệ với

nhau về ngữ nghĩa, ví dụ như paris-tokyo, man-woman, boy-girl, những cặp từ này sẽ

có khoảng cách gần nhau hơn trong word embedding space Ví dụ điển hình mà ta thấy

Trang 15

đó là phương trình king — queen = man — woman Cái ưu điêm thứ hai của nó là sô

Hình 1.2: Các lĩnh vực của xu ly ngôn ngữ tự nhiên (NLP)

Xử lý ngôn ngữ tự nhiên bao gồm: Managing Human — Computer Dialog

System, Machine Perception, Natural Language Understanding, Natural LanguageClassifier, Natural Language Generation.

- Machine Perception: Nhận thức máy móc Là khả năng của một hệ thống máy

tính để giải thích dữ liệu theo cách tương tự như cách con người sử dụng các

giác quan của mình để liên quan đến thế giới xung quanh Bất kỳ loại công

nghệ nào mô phỏng bất kỳ loại giác quan nào của con người cho dù đó là thị giác, thính giác, vị giác, xúc giác hay cảm giác đều có thé được dan nhãn nhận

thức máy

- Natural Language Understanding (NLU): Sự hiểu biết ngôn ngữ tự nhiên bao gồm 4 bước:

o Phan tích hình vị: là sự nhận biết, phân tích và miêu tả cau trúc của

những hình vị trong một ngôn ngữ cho trước và các đơn vị ngôn ngữ

Trang 16

khác như từ gốc, biên từ, từ loại, Có hai loại bài toán điển hình trong phần này, bao gồm bài toán tách từ (word segmentation) và gán nhãn từ

loại (POS).

o Phan tích cú pháp: là quy trình phân tích một chuỗi các biểu tượng ở

dạng ngôn ngữ tự nhiên hoặc ngôn ngữ máy tính tuân theo văn phạmhình thức Văn phạm hình thức thường được dùng trong phân tích cú

pháp của ngôn ngữ tự nhiên bao gồm Văn phạm phi ngữ cảnh

(context-free grammar: CFG) và Văn phạm phụ thuộc (dependency

grammar: DG) Dau vào của quá trình phân tích là một câu gồm một chuỗi từ và nhãn từ loại của chúng và đầu ra là một cây phân tích thé hiện cấu trúc cú pháp của câu đó Các thuật toán phân tích cú pháp phổ

biến bao gồm CKY, Earley, Chart và GLR.

o Phân tích ngữ nghĩa: là quá trình liên hệ cấu trúc ngữ nghĩa, từ cấp độ

cụm từ, mệnh đề, câu và đoạn đến cấp độ toàn bai viết với ý nghĩa độc

lập của chúng Nói cách khác, việc này nhằm tim ra ngữ nghĩa đầu vào của ngôn từ Phân tích ngữ nghĩa bao gồm hai mức độ: ngữ nghĩa từ vựng biểu hiện các ý nghĩa của những từ thành phan và phân biệt nghĩa của từ, ngữ nghĩa thành phan liên quan đến cách thức các từ liên kết với nhau đề hình thành nghĩa rộng hơn.

o Phân tích diễn ngôn: Ngữ dụng học là môn nghiên cứu về những mối quan hệ giữa ngôn ngữ và ngữ cảnh sử dụng (context-of-use) Ngữ cảnh sử dụng bao gồm danh tính của người hoặc vật, vì thế ngữ dụng học bao

gồm những nghiên cứu về các ngôn ngữ được dùng đề đề cập (hoặc tái

đề cập) tới người hoặc vật Ngữ cảnh sử dụng bao gồm ngữ cảnh diễn

ngôn, vì vậy ngữ dụng học cũng bao gồm những nghiên cứu về các thức cấu tạo nên diễn ngôn và các người nghe hiểu người đang đối thoại với

- Natural Language Generation (NLG) là phát triển ngôn ngữ tự nhiên NLG

đóng vai trò quan trọng trong việc tạo ra ngôn ngữ tự nhiên từ một hệ thống biểu diễn máy như một cơ sở tri thức hoặc một dạng logic NLG được ứng dung

Trang 17

trong các lĩnh vực như tạo cuộc đối thoại, tương tác giữa con người và máy tính, dịch máy và tóm tắt văn bản tự động Trong NLP có 2 quan điểm cơ bản là

xử lý các từ ngữ bằng máy tính và làm cho máy tính hiểu được ngôn ngữ Hiện tại cả 2 van đề này đều đang được nghiên cứu và phát triển.

1.2.2 Tâm quan trong và một số ứng dụng của xử ly ngôn ngữ tự nhiên

Tầm quan trọng của NLP:

- Giúp máy tinh phân tích dữ liệu nhanh hon: May móc được trang bị thuật

toán ML (Machine Learning) có thé phân tích và hiểu nhiều di liệu ngôn ngữ hơn con người vì chúng có khả năng học hỏi từ các mẫu được tìm thấy

trong dữ liệu được lưu trữ.

- Phat triển công nghệ nhanh chóng: Hệ thống NLP được phát triển để giúp mang lại hiểu biết ngữ nghĩa để giao tiếp giữa con người với máy móc có

thể dẫn đến các tương tác tích cực và hợp lý Các hệ thống NLP giúp giải

quyết ngôn ngữ khó hiểu, mơ hồ băng cách thêm cấu trúc vào dữ liệu mà

chúng nhận được.

Một số ứng dụng phô biến của NLP như:

- Nhận dang tiếng nói (Automatic Speech Recognition — ASR, hoặc Speech To Text - STT): từ sóng nói, nhận biết và chuyén đổi ngôn ngữ từ dang tiếng nói sang dạng văn bản tương ứng Giúp thao tác của con người trên các thiết bị nhanh hơn và đơn giản hơn, chăng hạn như thay vì phải gd một tài liệu

nao đó ta có thé đọc nó lên và trình soạn thảo sẽ tự ghi nó ra Nó khả năng hỗ trợ rất nhiều cho người khiếm thị.

Trang 18

- _ Tổng hợp tiếng nói (Speech synthesis hoặc Text to Speech — TTS): từ dữ liệu dạng văn bản, phân tích và chuyên đổi thành tiếng nói Thay vì phải tự đọc một cuốn sách hay nội dung của một trang web thì nó sẽ tự động đọc cho chúng ta.

allie — @® —-Ï

Automatic Speech Natural Language Text to

Recognition Processing Speech

Hình 1.4: Mô hình tổng hợp tiếng nói (TTS)

- _ Nhận dang chữ viết (Optical Character Recognition — OCR): từ một văn ban

in trên giấy, nhận biết từng chữ cái và chuyên chúng thành một tệp văn bản

trên máy tính Có hai kiểu nhận dang, đầu tiên là nhận dạng chữ in như việc nhận dạng chữ trên sách giáo khoa rồi chuyên nó thành dạng văn bản điện tử như dưới định dạng docx của Microsoft Word Thứ hai là nhận dạng chữ

viết tay, ở dạng này gây ra nhiều khó khăn hơn vì chữ viết tay không có

khuôn dang rõ rang và thay đôi tùy thuộc vào mỗi đối tượng khác nhau Ứng

Nguyễn Thị Hồng — D17CNPM04 8

Trang 19

dụng cho việc nhận dạng chữ in ta có thể chuyên hàng ngàn đầu sách trong

thư viện thành văn bản điện tử trong một thời gian ngắn Còn việc nhận

dạng chữ viết thì được ứng dụng trong các lĩnh vực như khoa học hình sự,

ngân hàng, bảo mật thông tin (nhận dạng chữ ký điện tử).

Hình 1.5: Mô hình nhận dang chữ viết (OCR)

- Truy xuất thông tin (Information Retrieval — IR): có nhiệm vụ tìm các tài liệu đưới dạng không có cấu trúc (thường là văn ban) đáp ứng nhu cầu về thông tin từ những nguồn tổng hợp lớn như Google, Yahoo hay Big search, Thông tin ngày càng tăng lên theo cấp số nhân, đặc biệt với sự trợ

giúp của internet việc tiếp cận thông tin trở nên dé dang hơn Việc khó khăn

là tìm thông tin mình cần chính xác nhất giữa vô vàn những kết quả được tìm thấy và thông tin này phải đáng tin cậy Nổi bật của công nghệ này là Google, một trong những trang web tìm kiếm thông tin phổ biến đối với

chúng ta hiện nay.

- _ Trích chọn thông tin (Information Extraction — IE): từ một nguồn rất nhiều tệp văn bản hay tiếng nói, tìm ra những đoạn bên trong một số tệp liên quan đến một vấn đề (câu hỏi) ta cần biết hay trả lời Khác với truy xuất thông tin trả về danh sách các văn bản hợp lệ thì IE trả về chính xác thông tin mà

người dùng cần Những thông tin này có thé là về con người, địa điểm, tổ chức, ngày tháng hoặc thậm chí tên công ty, mẫu sản phâm, Một hệ trích

chọn thông tin có thé lần vào từng trang web liên quan, phân tích bên trong và trích ra các thông tin cần thiết, nói gọn trong tiếng Anh đề phân biệt với tìm kiếm thông tin là “find things but not pages”.

Trang 20

- Tra lời câu hỏi (Question Answering — QA): có khả năng tự động trả lời câu

hỏi của con người ở dạng ngôn ngữ tự nhiên băng cách truy xuất thông tin

từ một tập hợp tải liệu Một hệ thống QA đặc trưng bao gồm 3 mô-đun:

+ Mô đun xử lý truy vấn (Query Processing Module): tiến hành phân loại câu hỏi và mở rộng truy vấn.

+ Mô đun xử lý tài liệu (Document Processing Module): tiến hành truy

xuất thông tin dé tìm ra tài liệu thích hợp.

+ Mô hình xử lý câu trả lời (Answer Processing Module): trích chọn câu

trả lời từ tài liệu đã được truy xuất.

- Tom tắt văn ban tự động (Text Summarization): từ một văn bản dai tom tắt thành một văn bản ngắn hơn theo mong muốn nhưng vẫn chứa nội dung quan trọng nhất của văn bản đó.

Có hai phương pháp chính trong tóm tắt văn bản là phương pháp trích xuất (extrative) và phương pháp tóm lược ý (abstractive) Tóm tắt trích xuất được hình

thành bằng cách ghép một số câu được lấy y nguyên từ văn bản cần được thu gọn Tóm lược ý thường truyền đạt những thông tin chính của đầu vào và có thể sử dụng lại những cụm từ hay mệnh đề trong đó, nhưng nhìn chung chúng đều được thể hiện ở

ngôn ngữ của người tóm tat.

Trang 21

Hình 1.6: Sơ đô phương pháp trích xuất trong văn bản (Extrative)

Hình 1.7: Sơ đồ phương pháp tóm lược ý trong van ban (Abstractive)

Phát hiện tri thức và khai phá dữ liệu văn bản (Knowledge discovery and text data mining): từ những nguồn thông tin, văn bản hay không có liên quan gì với nhau nó có thê tìm ra được những thông tin mới chưa được phát

hiện Trên thực tế để làm được việc này rất khó, nó gần như mô phỏng quá

trình học tập, khám phá khoa học của con người Hiện tại, đây vẫn là một

van đề phức tạp đang được các chuyên gia nghiên cứu trên thế giới.

Chatbot là việc chương trình máy tính có khả năng trò chuyện (chat), hỏi

đáp với con người qua hình thức hội thoại dưới văn bản (text) Chatbot

hường được sử dụng trong ứng dụng hỗ trợ khách hàng, giúp người dùng

ìm kiếm thông tin sản phẩm hoặc giải đáp thắc mắc.

Dịch máy (Machine Translation — MT): là việc sử dụng máy tính để tự động

hóa một phần hoặc toàn bộ quá trình dịch từ ngôn ngữ này sang ngôn ngữ khác Các phương pháp dịch máy phổ biến bao gồm dich máy dựa trên vi dụ

(example-based machine translation — EBMT), dịch máy dựa trên luật

(rule-based machine translation —- RBMT), dich máy thống kê (statistical

machine translation — SMT), dich may và sử dụng mạng nơ-ron (neural

machine translation).

Kiém 16i chinh ta tu động là việc sử dung máy tính để tự động phát hiện các

lỗi chính tả trong văn bản (lỗi từ vựng, lỗi ngữ pháp, lỗi ngữ nghĩa) và gợi ý

đưa ra cach sửa lỗi.

Trang 22

1.2.3 Một số thuật ngữ phổ biến trong NLP

e Corpus

Corpus — tiếng Latinh có nghĩa là phan thân - là một thuật ngữ dùng dé chi phan

nội dung của văn bản Hình thức số nhiều của corpora.

Nó có thể có một hoặc nhiều ngôn ngữ và có thể ở dạng ngôn ngữ nói hoặc ngôn ngữ viết Corpora có thể có một chủ đề cụ thể hoặc có thể là một văn bản khái

quát Dù ở dang nao thi corpora được sử dụng cho việc phân tích ngôn ngữ thống kê và ngôn ngữ tính toán Trong python, Gensim có thé giúp chúng ta xây dựng corpora từ wiki hoặc các bài viết dựa trên wiki.

e Stemming

Trong NLP, stemming là một kỹ thuật được sử dung dé tìm ra từ gốc bang cách

loại bỏ tất cả những tiền tố, phụ tố và hậu tố Mục đích chính của stemming là để tạo

cho thuật toán khả năng tìm kiếm và trích xuất những thông tin hữu ích từ một nguồn

không lồ như trên internet hoặc dữ liệu lớn Các thuật toán khác nhau được sử dụng dé

thực hiện stemming bao gồm:

- Bang tra cứu: một biểu mẫu có tất cả các biến thê có thé có của tất cả các từ (tương tự như từ điển).

- _ Loại bỏ các hậu tố: loại bỏ các hậu tổ khỏi từ dé xây dựng dạng gốc của tw.

- M6 hình ngẫu nhiên: một thuật toán duy nhất hiểu các quy tắc ngữ pháp của hậu tô và sử dụng quy tắc đó dé trích xuất nguồn gốc của một từ mới.

Chúng ta có thể thực hiện stemming trong Python bằng cách sử dụng các

phương thức được xác định trước trong gói NLTK.

e Lemmatization

Stemming là một giải pháp tốt cho việc trích xuất nguồn gốc từ, nhưng đôi khi việc loại bỏ các yếu tô của từ không thể xác định được chính xác nguồn gốc của từ Ví dụ, nếu sử dụng stemming dé có được từ gốc cua từ paid, thì kết quả sẽ trả về pai, một kết quả không hề chính xác.

Nhược điểm của stemming thường xuất hiện khi gặp những từ bất quy tắc, không theo bất kỳ một quy tắc ngữ pháp chuẩn nào Đây là lúc cần đến lemmatization.

Trang 23

Cụ thé chúng ta đưa về thé từ điển, còn được gọi là lema hay morphology Với lemmatization ta có thể chuyển từ “paid” thành từ “pay” là dạng nguyên thể của nó.

NLTK cũng cung cấp các phương pháp có thể được sử dụng để trích xuất lema của

một từ.

e Tokenization

Tokenization là một qua trình chia nhỏ một câu thành các từ hoặc thành các

token Trong quá trình hình thành các token, dau cham câu hoặc những ký tự đặc biệt

thường được loại bỏ.

Các token được xây dựng từ một phần văn ban, cụ thé được sử dụng dé phan tích và xử ly thống kê Điều đáng nói là một token không nhất thiết phải là một từ: vi dụ như “rock ‘n’ roll”, “3-D printer” đều là những token Và chúng được xây dung từ

nhiều từ Ngoài ra, token có thể là ký tự hoặc subword Nói một cách đơn giản thì tokenization là một kỹ thuật được sử dụng để đơn giản hóa một kho đữ liệu để chuẩn bị cho giai đoạn xử lý tiếp theo.

Trong python, gói NLTK cũng cung cấp các phương thức để thực hiện tokenization, chăng han như sent tokenize và word tokenize Ngoài ra, NLTK còn

cung cap các ngôn ngữ khác ngoài tiêng Anh.

CÁC KỸ TH UẬT TÁCH TU :

TRONG XU LÝ NGÔN NGỮ TỰ NHIÊN

“Let”, “us”, “Let”, “us”, “learn”,

“learn”, “token”, “ization.”“tokenization.”

MA HOA THEO TU MA HOA THEO TU PHU MA HOA THEO KY TU

Nguyễn Thị Hồng — D17CNPM04 13

Trang 24

Hình 1.8: Các kỹ thuật tach từ trong xử ly ngôn ngữ tự nhiên

e Lexicon

Khi nhắc đến nhiệm vụ xử ly ngôn ngữ tự nhiên, chúng ta cần xem xét nhiều thứ hơn ngoài ngôn ngữ Chúng ta phải xem xét các thuật ngữ này có thê được sử dụng trong một ngữ cảnh cụ thé dé có nghia cu thé Vi dụ như những từ “chan sút”, “việt vi” là những thuật ngữ được sử dụng để miêu tả những khía cạnh khác nhau trong bóng

da Lexicon là một tap hợp các từ của một ngôn ngữ hay một nhánh tri thức.

Dé có một kết quả chính xác hơn từ các mô hình NLP thi Lexicon là rất cần thiết Ví dụ, khi bạn phân tích cảm xúc của một s6 tweet (là các mau tin nhỏ, một dạng blog có giới hạn tối đa 280 kí tự trên trang mạng xã hội trực tuyến Twitter) và muốn tìm hiểu những chủ đề xung quanh các tweet thì một phương thức chung dé biểu diễn

câu từ là bắt buộc.

e Word Embeddings

May tinh không hiểu từ ngữ, vì vay nếu ta muốn chúng phân tích và sử dung ngôn ngữ một cách chính xác thì ta phải trình bày những ngôn ngữ đó dé máy tính có thé hiểu được Ngoài ra, việc phân tích văn bản có thé trở thành một khó khăn và việc

sử dụng các con số có thé dé dang hơn cho thuật toán và máy tính.

Trong NLP, nhúng từ là một kỹ thuật được sử dụng dé chuyền các từ thành

vector số thực cho mục đích phân tích Khi những vector này được hình thành, chúng có thê được sử dụng dé huấn luyện các mô hình, xây dựng mạng nơron cũng như các

kỹ thuật machine learning khác.

e N-gram

Trong việc phân tích văn ban, N-gram mang ham ý cho việc chuyển dữ liệu thành các khối n từ Các khối này thường được xây dựng bằng cách di chuyên từng từ

một Khi n=1, chúng ta sử dụng thuật ngữ unigram thay vì l-gram Trong trường hợp

n=2, chúng ta gọi là bigram và khi n=3 thì được gọi là trigram.

Trong python, việc viết một hàm tạo n-gram cho một câu tương đối đơn giản Nhưng nếu không muốn tự thực hiện, ta có thể sử dụng các gói NLTK và textrob sẽ

Trang 25

cung cấp các phương thức giúp chúng ta có thể tạo n-gram tự động.

Khi chúng ta muốn phân tích văn ban cho bất kỳ mục đích nào, quá trình phan tích có thể chính xác hơn nhiều nếu văn bản chúng ta đang sử dụng có định dạng

chuẩn Việc đặt văn bản ở định dạng chuẩn được gọi là chuẩn hóa Ví dụ, nếu chúng ta

thực hiện tìm kiếm trong văn bản thì toàn bộ văn bản được viết hoa hoặc viết thường

sẽ tốt hơn.

Quá trình chuẩn hóa thường được tiến hành sau khi mã hóa một đoạn văn và một truy vấn Tiếp theo, chúng ta có thé sẽ có hai cụm từ tương tự nhưng không giống nhau 100% ví dụ như USA va U.S.A, nhưng bạn muốn mô hình của mình khớp hai thuật ngữ này với nhau dù có bat kì sự khác biệt nào.

Chuẩn hóa một văn bản có thê có cả tác động tốt và không tốt đến mô hình xử lý ngôn ngữ tự nhiên Một mặt, việc chuẩn hóa có thé tạo sự kết hợp tốt hơn trong các tác vụ tìm kiếm Mặt khác, việc chuyên đôi mọi thứ thành chữ thường hoặc chữ hoa có

thé ảnh hưởng đến độ tin cậy của ứng dụng tong thé.

e Named Entity (NER)

Trong bat kỳ tac vu NLP nao, chúng ta thường được yêu cau doc, lam sach va

phân tích một kho đữ liệu không lồ Đó là lý do tại sao hau hết các thuật ngữ trong danh sách này là các kỹ thuật có thé giúp phân tích dé dang và hiệu quả hơn.

Trang 26

NER là một kỹ thuật NLP khác giúp trích xuất thêm thông tin về một số văn bản băng cách gán nhãn các từ khác nhau thành các danh mục được xác định trước như: người, địa điểm, thời gian, email, Việc thực hiện NER có thể giúp phân tích văn bản chính xác hơn Trong Python có thé thực hiện NER bang cách sử dụng các gói

Spacy và NLTK.

e Parts-of-speech (POS) Tagging

POS Tagging là một kỹ thuật phân tích hữu ich xác định từ loại của các thành

phần trong một văn bản hoặc một câu cụ thé Việc gan thẻ POS giúp tao ra một danh

sách các từ và thẻ từ loại cua nó (danh từ, động từ, tính từ ).

Trong hầu hết các ứng dụng, ban đầu chúng ta thường sử dụng một trình POS Tag cơ bản và sau đó có thể nâng cao lên Gói NLTK cung cấp một trình gắn thẻ mặc định, cho phép chúng ta gắn thẻ cho bất kỳ văn bản nào.

1.2.4 Vấn đề về độ tương tự trong văn bản

Ngôn ngữ đóng một vai trò rất quan trọng như một phương tiện giao tiếp giữa các cá nhân Nó phân biệt con người với các sinh vật sống khác Nói chung, ngôn ngữ (băng văn bản hay lời nói) mang thông tin rất lớn Khi chúng ta nói hoặc viết một điều gì đó, nó chỉ ra một chủ đề có chứa một số từ, các quy tắc ngữ pháp, tín hiệu của âm điệu, Mỗi và mọi phan của ngôn ngữ đều cung cấp một số thông tin Nếu cố gắng

phân tích những thông tin đó, chúng ta có thé nhận được thông tin kết hợp chỉ ra một số hành động hoặc điều gì đó tương tự nhau.

Trên thực tế, mỗi cá nhân có thể tạo ra hàng nghìn từ và câu Ngoài ra, cấu trúc

câu và phong cách của những người khác nhau cũng khác nhau Vì thế dé tìm ra bat kỳ cách phô biến nao dé biểu diễn dữ liệu là điều không thé Tat cả những điều này là vi

dụ về đữ liệu phi cấu trúc Những kĩ thuật này có thé dé dang được bộ não con người nhận ra và xử lý Ngày nay, một số kĩ thuật hiện đại như học máy, khoa học đữ liệu đã làm được điều đó.

Độ tương tự trong văn bản là một trong những chủ đề được nghiên cứu và ứng

dụng tích cực trong Xử lý ngôn ngữ tự nhiên Dé tìm câu trả lời cho câu “ Hai từ, cụm

từ, đoạn văn, tài liệu giông nhau như thê nào?” là một chủ đê quan trọng đê nghiên cứu

Trang 27

và ứng dụng trong NLP Độ tương tự giữa hai từ, cụm từ, đoạn văn, tài liệu là tính toán

xem giữa chúng gần nhau như thế nào Sự gần gũi đó có thể là từ vựng hoặc ngữ

Sự giống nhau về ngữ nghĩa là sự gần gũi về ngữ nghĩa Sự tương đồng về mặt từ vựng là sự gần gũi của tập hợp từ.

Vi dụ ta có hai cụm từ sau:

- The dog bites the man

- The man bites the dog

Theo sự tương đồng về từ vựng thi hai cụm từ nay rất gần va gần như là giống hệt nhau vì chúng có cùng một bộ từ Còn đối với sự giống nhau về ngữ nghĩa, chúng ta hoàn toàn khác nhau vì chúng có nghĩa khác nhau mặc dù bộ từ của chúng giống

Trong một số trường hợp, việc đo độ tương tự giữa hai đoạn văn bản là việc sử dụng so khớp giữa các từ với nhau ở đoạn văn đầu vào Vì thế, việc chúng ta cần làm

là loại bỏ các từ dừng, gán nhãn từ loại, so khớp tập con dài nhất cũng như trọng số và các nhân tố khác đều có thé được tích hợp dé mang lại kết quả tốt nhất.

Cho đến nay, vấn đề đánh giá độ tương đồng văn bản đã được nghiên cứu và ứng dụng trong nhiều bài toán khác nhau từ mức độ thấp đến mức độ cao và đã có nhiều phương pháp giải quyết hiệu quả Trong các bài toán như trích chọn thông tin,

tóm tắt văn bản, đều cần đến phương pháp tính độ tương tự văn bản Ngoài ra, việc xác định mức độ tương tự còn ứng dụng cho việc chống sao chép, đạo văn dé bảo vệ bản quyên.

1.2.5 Các bài toán xử lý trong tiếng Việt

a Phan tách từ tiếng Việt

Tách từ là bài toán cơ bản đầu tiên trong việc xử lý và hiểu ngôn ngữ Trong

các ngôn ngữ thông dụng, việc tách từ khá đơn giản vì giữa các đơn vi từ thường được

viết cách nhau băng kí tự trắng hoặc bằng các dấu câu Tuy nhiên, nhiều ngôn ngữ

không có kí hiệu đánh dấu biên của các từ, điều này làm cho việc tách từ không phải là việc dé dang Chang hạn như tiếng Việt là một ngôn ngữ don lập điển hình, kí tự trang

Trang 28

không được dùng dé tách các từ mà chỉ được dùng dé tách các âm tiết, trong khi đó một từ có thé chứa nhiều âm tiết Việc giải quyết vấn dé này được gọi là bài toán phân

tách từ.

Tiêu chí quan trọng nhất trong bài toán tách từ là độ chính xác Hiện tại, người ta đã đạt được độ chính xác lên đến 97% tính theo từ Tuy nhiên, nếu tính theo câu (số câu được tách hoàn toàn đúng/tổng số câu) thì độ chính xác chỉ khoảng 50% Đây là

một van đề ảnh hưởng nghiêm trọng đến các bước xử lý sau như phân tích ngữ pháp, ngữ nghĩa vì một từ bị tách sai có ảnh hưởng toàn bộ đến cách phân tích cả câu.

Ngoài ra tiêu chí độ chính xác của tách từ mới cũng quan trọng với các ứng

dụng thực tế vì nó luôn luôn biến đổi theo thời gian Các từ mới thuần Việt cũng như vay muon được tạo ra hàng ngày Vì thé, ta cần xử lý được những van dé này dé ứng

dụng đạt được hiệu năng tốt hơn b Phân tách câu tiếng Việt

Word Segmentation hay phân tách câu là một phan khá cơ bản trong các kỹ thuật xử lý của NLP Nhiệm vụ chính của phân tách câu là tách một đoạn, một chuỗi

các ký tự (text) thành những từ (word hay token) riêng lẻ.c Phương pháp mô hình ngôn ngữ

Một mô hình ngôn ngữ cố nắm bắt trực giác của con người về một câu “tự nhiên” hoặc “không tự nhiên” do đó mô hình ngôn ngữ có thể coi là giải pháp tối hậu

cho bai toán tách từ Số cách tách từ cho một câu có thé rất lớn do tổ hợp lớn nên cần có một bước xử lý để lọc ra một số lượng vừa đủ các cách tách từ làm đầu vào cho mô

hình ngôn ngữ Ví dụ như vnTokenizer sử dụng phương pháp đồ thị hóa trước khi áp

dụng mô hình ngôn ngữ.

d Tự động thêm dau

Chữ viết tiếng Việt là chữ viết có dau thanh Do đó, trong nhiều trường hợp như tìm kiếm, người dùng thông thường không gõ dấu thanh hay gõ sai dấu sẽ gây ra những khó khăn cho việc máy tính hiểu ý nghĩa của chúng.

Trang 29

Đồ án tốt nghiệp đại học Chương 2 Các phương pháp xác định mức độ

CHƯƠNG 2: CÁC PHƯƠNG PHÁP XÁC ĐỊNH MỨC ĐỘ TƯƠNG

TỰ DỰA TRÊN TỪ NGỮ

2.1 Bai toán so sánh văn bản tiếng Việt 2.1.1 Phát biểu về bài toán

Ngày nay, công nghệ càng phát triển thì máy tính càng trở thành một công cụ hỗ trợ đắc lực đối với mỗi cá nhân trong công việc và học tập và do đó việc quản lý dữ liệu văn bản dưới dạng điện tử cũng gây ra nhiều khó khăn Trước tình trạng này, một

van đề được đặt ra là làm thế nào dé so sánh được giữa các văn ban này là giống hay khác nhau Từ đó, bai toán so sánh độ tương đồng văn ban ra đời nham giải quyết van

đề trên Trong xử lý ngôn ngữ tự nhiên, đã có nhiều nghiên cứu, ứng dụng xây dựng hệ thống đánh giá độ tương tự giữa các văn bản tiếng Anh đạt được thành tựu cao Các ứng dụng, hệ thống hữu ích trong việc phát hiện sự vi phạm bản quyền tác giả như

Turnitin, Writecheck, Grammarly, Plagium

Đối với xử ly ngôn ngữ tiếng Việt, hiện nay cũng đã xuất hiện các nghiên cứu chúng song tỉ lệ này vẫn chiếm khá ít Trong tiếng Anh, kho ngữ liệu hay mạng từ

tiếng Anh đã và đang phát triển rất tốt nên hiệu quả của các hệ thống so sánh đã cài đặt là rất cao Do đặc điểm của ngôn ngữ tiếng Việt có nhiều điểm khác với tiếng Anh nên việc xử lý văn bản và xây dựng được kho ngữ liệu chuẩn và đầy đủ là một vấn đề khó

khăn Cho đến nay, các phương pháp đánh giá độ tương tự văn bản vẫn đang được

nghiên cứu va phát trién.

2.1.2 Đặc điểm của ngôn ngữ tiếng Việt 2.1.2.1 Cấu tạo từ tiếng Việt

Nguyên tắc tách từ cho tiếng Việt xét các loại đơn vị từ vựng sau đây:

- Tiéng: là don vị cơ sở để cấu tạo nên từ, là don vị nhỏ nhất có nội dung

được thể hiện Về mặt ý nghĩa, các tiếng có thê chia thành các loại như tiếng

tự thân nó đã có ý nghĩa, tự thân nó không có ý nghĩa và thường đi với một

tiếng khác có nghĩa và làm thay đổi sắc thái của tiếng đó hay tiếng tự thân

Trang 30

nó không có ý nghĩa nhưng có thé ghép cặp với nhau dé tạo thành từ có

- Tu, cụm từ:

Từ là đơn vị nhỏ nhất, cau tạo ôn định, mang nghĩa hoàn chỉnh được dùng dé cấu thành nên câu Từ có thé làm tên gọi của sự vật (danh từ), chỉ các

hoạt động (động từ), trạng thái, tinh chat (tính từ), Từ là công cụ biểu thị khái niệm của con người đối với hiện thực.

Từ là don vị ngôn ngữ độc lập, có san, là chỉnh thể gồm hai mặt âm và nghĩa Từ được cau tạo từ một tiếng được gọi là từ đơn, từ được cau tao bởi nhiều tiếng là từ ghép, giữa các tiếng có mối quan hệ về nghĩa.

Cụm từ là những kiến trúc gồm hai từ trở lên kết hợp với nhau theo những quan hệ nhất định Ví dụ:

+ Từ “mặt” là từ gồm một tiếng

+ Từ “mặt trời” là từ gồm 2 tiếng

+ Cụm từ “khoa học xã hội” gồm2 từ hay 4 tiếng.

- _ Câu: là một tập hợp từ, ngữ kết hợp với nhau theo những quan hệ cú pháp xác định, được tạo ra trong quá trình tư duy, giao tiếp, có giá trị thông báo

va gan liên với mục đích giao tiệp.

2.1.2.2 Từ dong nghĩa

Từ đồng nghĩa là những từ có nghĩa giống nhau hoặc gần giống nhau Có thể chia từ đồng nghĩa thành 2 loại:

- Từ đồng nghĩa hoàn toàn (đồng nghĩa tuyệt đối): là những từ có nghĩa giống nhau, được dùng như nhau va có thé thay déi cho nhau trong lời nói.

- Tw đồng nghĩa không hoàn toàn (đồng nghĩa tương đối, đồng nghĩa sắc thái): Là các từ tuy cùng nghĩa nhưng vẫn khác nhau phan nào sắc thái biểu cảm (biểu thị cảm xúc, thái độ) hoặc cách thức hành động Khi dùng những từ này cần cân nhắc lựa chọn cho phù hợp.

2.1.2.3 Từ dong âm khác nghĩa

Trang 31

Từ đồng âm khác nghĩa là những từ giống nhau về ngữ âm nhưng khác nhau về ý nghĩa của nhiều đơn vị ngôn ngữ riêng biệt Hiện tượng đồng âm có thé xảy ra ở

nhiều cấp độ khác nhau như ở cấp độ câu, cụm, từ nhưng pho bién hon 1a hién tuong đồng âm ở cấp độ từ vì đơn vi ngôn ngữ càng ở cấp độ đơn giản thì hiện tượng đồng

âm càng dễ xảy ra.

Ở cấp độ từ vựng, hai từ được gọi là đồng âm khi chúng có hình thức ngữ âm

giống nhau và nghĩa khác nhau Ví dụ: đá (đá bóng), đá (hòn đá),

Phân loại các từ đồng âm: căn cứ vào chỗ khác nhau về nghĩa từ vựng và phạm trù ngữ pháp, từ đồng âm tiếng Việt được chia làm 2 loại:

- _ Từ đồng âm từ vựng: đường (đi), đường (ăn).

- Tir đồng âm từ vựng - ngữ pháp: câu (cá), câu (nói).

Căn cứ vào nguồn góc, từ đồng đồng âm được chia làm 3 loại:

- Twi đồng âm ngẫu nhiên.

- _ Từ đồng âm tạo ra do sự diễn biến ngữ âm.

- _ Từ đồng âm tạo nên do sự phát triển và tách rời nghĩa của từ đa nghĩa.

Hiện tượng đồng âm nói chung hay từ đồng âm nói riêng là một hiện tượng khá phô biến trong tiếng Việt.

2.1.2.4 Đặc điểm chính ta

Chính tả là sự chuẩn hóa hình thức chữ viết của ngôn ngữ Đó là một hệ thống

các quy tắc về cách viết các âm vị, âm tiết, từ, cách dùng dấu câu, lối viết hoa, Đặc

điểm chính tả tiếng Việt có ý nghĩa rất quan trọng trong các hệ thống xử lý dữ liệu văn

bản Một số đặc điềm chính tả tiếng Việt cần quan tâm như:

- Cac tiếng đồng âm: ki/ kỹ, li/ lý, thường được sử dụng lẫn lộn nhau như kĩ

thuật, kỹ thuật, vat lý, vật li,

- Cac từ địa phương: một số từ địa phương thường được sử dụng thay cho các từ phô thông như: ló/lúa, lạc/đậu phộng, dứa/thơm

- Vi trí dau thanh: theo quy dinh danh dau trong tiéng Việt thì dau được đặt trên nguyên âm có điểm cao nhất Tuy nhiên khi soạn thảo văn bản nhiều bộ gõ không tuân thủ nguyên tắc này nên có hiện tượng dấu được đặt ở các vị trí khác nhau, chăng hạn như thúy, thuý, toán, tóan,

Trang 32

- _ Cách viết hoa: theo quy định chữ cái đầu tiên và tên riêng phải viết hoa, tuy nhiên vẫn còn một số trường hợp viết hoa không đúng quy tắc.

- _ Phiên âm nước ngoài: tồn tại các cách viết giữ nguyên gốc tiếng nước ngoài

và phiên âm ra tiếng Việt Ví dụ như vector/véc tơ, motor/m6 to,

- Từ gach nối: do cách viết đấu gạch nối tùy tiện, không phân biệt được nối

giữa tên riêng hay chú thích.

- Kytu ngắt câu: sử dụng nhiều các loại ký tự đặc biệt như “.”, “,” , “!”, “2”,

“ ”” ngăn cách giữa các câu hoặc các về trong câu ghép.

Hiện nay có khá nhiều cách mã hóa các kí tự tiếng Việt khác nhau, dẫn đến có nhiều bảng mã khác nhau được sử dụng khi trình bay văn bản va mỗi bang mã có các bộ phông chữ tương ứng Do các bảng mã chưa có sự thống nhất khi biểu diễn trên máy tính nên việc thu thập, khai thác xử lý tiếng Việt gặp nhiều khó khăn, đòi hỏi các

hệ thông xử lý tiếng Việt cần phải có bước tiền xử lý để nhận dang và quy chuẩn các ki

tự về một bảng mã chung.

2.1.2.5 Tiên xử lý văn bản

Văn bản trước khi đưa vào mô hình xử lý cần được tiền xử lý Quá trình này sẽ

giúp nâng cao hiệu quả của mô hình và giảm độ phức tạp của thuật toán được cài đặt

vì nó có nhiệm vụ làm giảm số từ có trong biểu dién văn bản Các bước xử lý văn bản

gồm: tách từ, loại bỏ từ có tần số thấp và xác định từ đồng nghĩa a) Tách từ

Trong tiếng Việt, dấu cách (space) không được sử dụng như 1 kí hiệu để phân

tách từ, nó chỉ có ý nghĩa phân tách các âm tiết với nhau Vì thế để xử lý tiếng Việt,

công đoạn tach từ là 1 trong những bài toán cơ bản và quan trọng nhất.

Ví dụ, từ “đất nước” được tạo ra từ 2 âm tiết “đất” và “nước”, cả 2 âm tiết này đều có nghĩa riêng khi chúng độc lập nhưng khi ghép lại sẽ mang một nghĩa khác Do đó, tách từ trở thành một bài toán tiền đề cho các bài toán xử lý ngôn ngữ tự nhiên khác như phân loại văn bản, so sánh văn bản, tom tắt văn bản, máy dịch tự động.

Tách từ chính xác là một việc rất quan trọng, nếu không chính xác rất có thể

dẫn đến câu được hiểu sai ý nghĩa và ảnh hưởng đến tính chính xác của chương trình.

Trang 33

Việc nay có nhiệm vụ xác định các từ có trong văn bản và đưa ra một tập các từ riêng

biệt Các trường hợp như số, dấu ngoặc, dấu chấm câu thường bị loại ra trong khi phân tích vì một mình nó không mang lại ý nghĩa nào cho tài liệu (ngoại trừ một số trường

hợp đặc biệt, ví dụ như thu thập thông tin về lĩnh vực lịch sử) Tuy nhiên trong một số

trường hợp như đối với những từ ghép nói (state-of-art) không được phép bỏ dấu “-“ vì sẽ làm thay đối nghĩa của từ.

Hiện nay, đã có nhiều công trình nghiên cứu xây dựng mô hình tách từ tiếng Việt và đã đạt được kết quả chính xác cao như mô hình tách từ bằng WFST (Weighted

Finite-State Transducers) và mang Neural đã được sử dụng trong công trình của tác gia

Đình Điền (2021) Công cụ tách từ JvnTextPro hay vnTokenizer Bài toán tách từ gồm

hai hướng đó là dựa trên từ và dựa trên kí tự.

Tach từ

Dựa trên ký tự Dựa trên từ

Uni-gram N-gram Thống kê Từ dién Hybrid

Hình 2.1: Các phương pháp tách từ

- _ Hướng tiếp cận dựa trên từ: hướng tiếp cận này với mục tiêu tách được các

từ hoàn chỉnh trong câu.

o Hướng tiếp cận dựa trên thống kê: dựa trên các thông tin thống kê

như tần số xuất hiện của từ trong tập huấn luyện ban đầu Hướng tiếp cận này đặc biệt dựa trên tập ngữ liệu huấn luyện Vì thế mà nó trở

nên linh hoạt và hữu dụng trong nhiều lĩnh vực khác nhau.

o Hướng tiếp cận dựa trên từ điển: ý tưởng của hướng tiếp cận này là

những cụm từ được tách ra từ văn bản phải được so khớp với các từ

Trang 34

trong từ điển Do đó trong hướng tiếp cận này đòi hỏi từ điển riêng

cho từng lĩnh vực quan tâm.

o Hướng tiếp cận theo Hybrid: với mục đích kết hợp các hướng tiếp cận khác nhau dé thừa hưởng được các ưu điểm của nhiều kỹ thuật và các hướng tiếp cận khác nhau nhằm nâng cao kết quả Hướng tiếp

cận này thường kết hợp giữa hướng dựa trên thống kê và dựa trên từ điển nhằm tận dụng các mặt mạnh của các phương pháp này Tuy nhiên, hướng tiếp cận Hybrid lại mất nhiều thời gian xử lý, không gian đĩa và đòi nhiều chỉ phí.

- Hướng tiếp cận dựa trên kí tự: có thể được chia làm 2 nhóm nhỏ là uni-gram

va n-gram.

o Trong tiếng Việt, hình vị nhỏ nhất là “tiếng” được hình thành bởi nhiều kí tự trong bảng chữ cái Hướng tiếp cận này đơn thuần rút trích ra một số lượng nhất định các tiếng trong văn bản như rút trích từ 1 ký tự (uni-gram) hay nhiều ký tự (n-gram) Theo nghiên cứu thì hướng tiếp cận dựa trên nhiều ký tự có ưu điểm nổi bật hơn Nó đơn giản, dé ứng dụng, ngoài ra còn đỡ tốn chi phí cho thao tác tạo chỉ mục và xử lý nhiều câu truy vấn.

- _ Một số phương pháp tach từ hiện nay:

o Phương pháp Maximum Matching: Forward/Backward

Phương pháp khớp tối da (MM — Maximum Matching): ở phương pháp này,

chúng ta sẽ duyệt một ngôn ngữ hoặc một câu từ trái sang phải và chon tit có nhiều âm

tiết nhất có mặt trong từ điển và cứ thực hiện lặp như vậy cho đến hết câu.

Dạng đơn giản của phương pháp dùng dé giải quyết sự nhập nhang từ đơn Gia sử chúng ta có một chuỗi ký tự C¡, Cs, C, Chúng ta sẽ áp dụng phương pháp từ đầu chuỗi Đầu tiên kiểm tra xem C; có phải là từ hay không, sau đó kiểm tra xem C,C, có phải là từ hay không Tiếp tục thực hiện như thế cho đến khi tìm được từ dài nhất.

Dạng phức tạp: quy tắc của dạng này là phân đoạn từ Thông thường người ta

chọn phân đoạn 3 từ có chiều dài tối đa Thuật toán bắt đầu từ dạng đơn giản, cụ thể là

nếu phát hiện ra những cách tách từ gây nhập nhang, như vi dụ ở trên, giả sử C, là từ

Trang 35

và C¡C; cũng là một từ, khi đó chúng ta kiểm tra ký tự kế tiếp trong chuỗi C¡, C, C, dé tìm tất cả các đoạn có 3 từ bắt đầu với C, hoặc C,C;.

Phương pháp này thực hiện tách từ đơn giản, nhanh và chỉ cần dựa vào từ điển dé thực hiện Và vì độ chính xác khi thực hiện tách từ phụ thuộc hoàn toàn vào tính đủ, tính chính xác của từ điển nên nó cũng trở thành một vấn đề đáng quan tâm.

o Phương pháp Transformation-based Learning (TBL)

Phương pháp nay tiếp cận dựa trên tập ngữ liệu đã đánh dau Theo cách tiếp cận này dé cho máy tinh có thể nhận biết ranh giới giữa các từ dé có thé tách từ chính xác, chúng ta sẽ cho máy học các câu mẫu trong tập ngữ liệu đã được đánh dấu ranh giới giữa các từ đúng Với phương pháp này, chúng ta chỉ cần cho máy học tập các mẫu câu và sau đó máy sẽ tự rút ra quy luật của ngôn ngữ và dé từ đó sẽ áp dụng chính xác khi

có những câu đúng theo quy luật mà máy đã rút ra Và rõ ràng dé tách từ được hoàn

toàn chính xác trong mọi trường hợp thì đòi hỏi cần phải có một tập ngữ liệu tiếng Việt thay day đủ và phải được huấn luyện lâu dé có thé rút ra các luật đầy đủ.

o_ Mô hình tách từ bằng WEST va mang Neural

Mô hình mạng chuyển dịch trạng thái hữu hạn có trọng số WEST — Weighted Finite-State Transducers đã được áp dung trong tach từ từ năm 1996 Y tưởng cơ ban là áp dụng WFST với trọng số là xác suất xuất hiện của mỗi từ trong kho ngữ liệu Dùng WFST để duyệt qua các câu cần xét, khi đó từ có trọng số lớn nhất là từ được chọn để tách Phương pháp này cũng đã được sử dụng trong công trình đã được công

bố của tác gia Đình Điền, tác giả đã sử dụng WFST để tach từ và xử lý các vấn đề liên quan đến một số đặc thù riêng của ngôn ngữ tiếng Việt như từ lay, tên riêng và tang

mang Neural dung dé khử nhập nhằng về ngữ nghĩa sau khi đã tách từ.

o Phuong pháp tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di truyền

Phương pháp tách từ tiếng Việt dựa trên thống kê từ Internet và thuật toán giải thuật di truyền — IGATEC (Internet and Genetics Algorithm based Text Categorization for Documents in VietNamese) do H.Nguyén dé xuất năm 2005 như một hướng tiếp

cận mới trong tách từ với mục dich phân loại văn ban mà không cân dùng đên một từ

Trang 36

điển hay tập ngữ liệu học nào Trong hướng tiếp cận này, tác giả kết hợp giữa thuật toán di truyền với đữ liệu thông kê được lấy từ Internet.

o Sự nhập nhằng trong tách từ tiếng Việt

Nhập nhằng chồng chéo: chuỗi “abcd” được gọi là nhập nhằng chồng chéo nếu như từ “abc”, “bed” đều xuất hiện trong từ điển, ví dụ trong câu “Chiếc ô tô màu đỏ”

thì chuỗi “Chiếc ô tô” nhập nhằng chồng chéo vì các từ “chiếc ô” và “tô màu” đều có trong từ điền.

Nhập nhằng kết hợp: chuỗi “abcđ” gọi là nhập nhằng kết hợp nếu các từ thành

phần “ab”, “cd”, “abcd” đều xuất hiện trong từ điển. b) Loại bỏ từ dừng (stop words)

Từ dừng là những từ xuất hiện nhiều trong ngôn ngữ tự nhiên, tuy nhiên lại

AY? 66

không mang nhiều ý nghĩa Trong tiếng Việt từ dừng là những từ như: “như vậy”, “sau

đó”, “một số”, “chi”,

Có rất nhiều cách để loại bỏ từ dừng nhưng có 2 cách chính là dùng từ điển và

dựa theo tần suất xuất hiện của từ.

Với phương pháp dùng từ điển: cách này đơn giản nhất, chúng ta tiễn hành việc lọc văn bản, loại bỏ những từ xuất hiện trong StopWords.

Với phương pháp dựa theo tần suất xuất hiện của từ chúng ta tiến hành đếm số lần xuất hiện của từng từ trong data, sau đó sẽ loại bỏ những từ xuất hiện nhiều lần

Từ đồng nghĩa là những từ tương đương về nghĩa trong một số ngữ cảnh nào đó Với bài toán so sánh trong văn bản thì việc nhận ra các từ đồng nghĩa có ý nghĩa quan trọng bởi trong các câu, các đoạn văn luôn có các từ đồng nghĩa sẽ làm nâng cao tính chính xác khi so sánh về độ tương đồng ngữ nghĩa giữa các đơn vị văn bản.

2.1.2.6 Biểu diễn văn ban

Trang 37

Sau khi văn bản được tiền xử ly ta sử dụng các phương pháp dé biểu diễn đặc trưng của văn bản Tùy theo thuật toán được áp dụng để so sánh văn bản mà ta lựa

chọn cách biểu diễn phù hợp Phổ biến nhất là phương pháp biểu diễn văn ban bang

2.2 Độ tương đồng van bản về mặt từ ngữ (Text Similarity) 2.2.1 Các thuật toán chuyển đỗi văn bản sang Embedding.

Word Embedding — Vector hóa văn bản: là một bước quan trọng trong bat kỳ bài toán nào của NLP Thông thường, máy tính không thể hiểu được ý nghĩa của các từ Vì vay, dé xử lý được ngôn ngữ tự nhiên, ta cần có một phương pháp dé biéu diễn văn bản dưới dang mà máy tính có thé hiểu được Phương pháp tiêu chuẩn để biểu

diễn văn bản đó là biểu diễn các văn bản theo dạng vector Trong đó, các từ, cụm từ

thuộc kho tài liệu ngôn ngữ ánh xạ thành những vector trên hệ không gian số thực Ta

có thê chia các phương pháp Vector hóa văn bản thành hai nhóm chính: phương pháp

Word Embedding cổ điển và Neural Embedding (Vector hóa văn bản theo phương

pháp mạng nơ-ron).

- Phương pháp Word Embedding cô điển: Bag of Words (BoW), TF-IDF,

Distributional Embedding.

- Phuong phap Neural Embedding: Word2Vec, Glove, FastText

2.2.1.1 Bag of Words (BoW)

Đây là cách biểu diễn vector truyền thống phổ biến nhất được sử dung, mỗi từ

hoặc n-gram từ sẽ được mô tả là một vector có số chiều bằng đúng số từ trong bộ từ vựng Tại vi trí tương ứng với vi tri cua từ đó trong túi từ, phần tử vector đó sẽ được đánh dấu là “1” Những vị trí còn lại sẽ được đánh dấu là “0”.

2.2.1.2 TH-IDF

TF-IDF là viết tắt của Term frequency-inverse document frequency Nó là một công cụ vector văn bản chuyển văn bản thành dang vector Nó là sự kết hợp của tan

suất thuật ngữ và tần suất tải liệu nghịch đảo.

TF-IDF được tinh theo công thức sau:

Trang 38

TFIDF(t, d, D) = TF(t, d) x IDF(t, D)

TF (Term frequency) của một từ là tần suất của một từ (tức là số lần nó xuất

hiện) trong một tài liệu.

TF(t, d) =O

Trong đó: TF(t, d): Giá tri này sẽ thuộc trong khoảng [0, 1]. f(t, đ): số lần xuất hiện của từ t trong văn bản d.

N: tong số từ trong văn bản d

IDE (Inverse Document Frequency) của một từ là thước đo mức độ quan trọng

của thuật ngữ đó trong toàn bộ ngữ liệu, tập văn bản (corpus) Mỗi từ chỉ có một giá trị

IDF duy nhất trong tập văn bản.

{de D:te d}|IDF(t, D) = log

Trong đó: |D| : tổng số văn bản trong tập D

|lýdD: te đ)| : số văn bản chứa từ nhất định, với điều kiện t xuất hiện trong văn bản Nếu từ đó không xuất hiện ở bất cứ một văn bản nào trong tập thì mẫu số sẽ bang 0 phép chia cho 0 không hợp lệ, lúc đó người ta thường thay mẫu bang biểu thức: 1 + |{deD: te đ)|.

Ví dụ: Nếu từ “thương mại” xuất hiện 50 lần trong tài liệu 1000 từ Và nếu có

10000 tải liệu, từ “thương mại” xuất hiện trong 500 tải liệu Thì lúc này:

TF của “thương mại” là: 50/1000 = 0.05IDF: log(10000/500) = 1.3

TF-IDF cua “thương mai” là: 0.05*1.3 = 0.065.

Những từ có giá trị TF-IDF cao là những từ xuất hiện nhiều trong văn bản này và ít xuất hiện trong văn bản khác Việc này giúp lọc ra những từ phổ biến và giữ lại

những từ có giá tri cao ( từ khóa của văn ban đó).

TF-IDF được nghiên cứu dựa trên logic rằng nếu từ một cu thé có tần suất xuất

hiện rất cao hoặc xuất hiện rất thấp, thì trong cả hai trường hợp này từ đó không có ý

nghĩa đối với việc tìm kiếm bắt kỳ thông tin có ý nghĩa nào Vì vậy, giá trị cao hơn của TF-IDF mô tả ý nghĩa cao hơn của các từ trong khi giá trị thấp hơn biểu thị ý nghĩa thấp hơn.

2.2.1.3 Word2vec

Trang 39

Word2vec là một loại mô hình nhúng từ sử dụng mạng nơ-ron dé lay biểu diễn nhúng của các từ trong kho ngữ liệu (tập hợp tài liệu) Word2vec có khả năng nam bắt

rất tốt ý nghĩa ngữ cảnh của các từ Nhúng từ (word embedding) là một biểu diễn vector n chiều của một thuật ngữ sao cho thuật ngữ tương tự có không gian vector tương tự dựa trên dữ liệu huấn luyện.

Word2vec chủ yếu sử dụng hai loại kiến trúc dé tạo biéu diễn vector của các từ

đó là CBOW và Skip-gram Cả hai phương pháp này đều lấy đầu vào là biểu diễn mã hóa duy nhất của các từ Dé có được biểu diễn này, ban chỉ cần xây dựng một vector có kích thước băng số từ duy nhất trong kho ngữ liệu của bạn, sau đó mỗi từ sẽ được biểu diễn dưới dạng một vị trí cụ thể và các số không ở tất cả các vị trí khác của

Vi dụ: gia sử kho ngữ liệu của chúng ta chỉ có 3 từ: 6 tô, hoa, cà phê Ta có thé

đại diện cho chúng là:

6 tô: [1, 0, 0]hoa: [0, 1, 0]

ca phé: [0, 0, 1]

Trong word2vec không quan tâm đến đầu ra của mô hình mà chi quan tâm đến trọng số của lớp an Các trọng số đó sẽ là các phần nhúng của các từ.

Ý tưởng cơ bản của word2vec có thê được gói gọn trong các ý sau:

o Hai từ xuất hiện trong những văn cảnh giống nhau thường có ý nghĩa

gần với nhau.

o Có thé đoán được một từ nếu biết các từ xung quanh nó trong câu Ví dụ, với câu “Con hồ là một loài ăn thịt” thì từ trong dấu ba chấm có khả

năng cao là “động vật” Với câu hoàn chỉnh “Con hồ là một loài động vật

ăn thịt”, mô hình word2vec sẽ xây dựng ra embedding của các từ sao cho

xác suất dé từ trong dấu ba cham là “động vật” là cao nhất.

Trong ví dụ trên, “động vật” đang được xét và được gọi là target word hay từđích Những từ xung quanh nó còn được gọi là context words hay từ ngữ cảnh Với

mỗi từ đích trong một câu của cơ sở dữ liệu, các từ ngữ cảnh được định nghĩa là các từ

Trang 40

trong cùng câu có vị trí cách từ đích một khoảng không quá C/2 với C là một số tự

nhiên dương.

Cách truyền thống dé thé hiện một từ là dùng one-hot vector.

“a “abbreviations” “zoology”

Hinh 2.2: Vi du vé one-hot vector o Độ lớn vector đúng bằng số lượng từ vung.

o Word2vec giải quyết cho van đề làm thé nào dé thể hiện mối quan hệ giữa các từ, tính tương đồng thế nào.

- CBOW (Continuous Bag-of-Words): hay còn được gọi là túi từ liên tục, dựa

vào những từ ngữ cảnh dé dự đoán từ đích.

Trong kiến trúc CBOW, mô hình dự đoán từ nào tương tự nhất trong ngữ cảnh

được cung cấp Do đó, các từ có nhiều khả năng xuất hiện hơn được coi là tương tự và do đó biểu thi gần hơn không gian vector Các vector đại diện cho các từ tương tự nam

gần nhau bởi các khoảng cách khác nhau và các quan hệ số đóng gói một cách bổ

CBOW phù hợp với các bộ dữ liệu lớn khi mà số mẫu huấn luyện được tạo ra từ ngữ cảnh (chỉ là một) ít hơn nhiều so với Skip-gram (tỉ lệ với kích thước cửa số ngữ cảnh) CBOW biểu dién tốt hơn các từ xảy ra thường xuyên.

Tiêu đề	Phương pháp xác định độ tương tự giữa hai văn bản
Tác giả	Nguyễn Thị Hồng
Người hướng dẫn	TS. Nguyễn Duy Phương
Trường học	Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành	Công nghệ thông tin
Thể loại	Đồ án tốt nghiệp đại học
Năm xuất bản	2021
Thành phố	Hà Nội

Định dạng
Số trang	85
Dung lượng	23,49 MB