Phát hiện kế thừa văn bản trên dữ liệu Twitter (Luận văn thạc sĩ)

Phát hiện kế thừa văn bản trên dữ liệu TwitterPhát hiện kế thừa văn bản trên dữ liệu TwitterPhát hiện kế thừa văn bản trên dữ liệu TwitterPhát hiện kế thừa văn bản trên dữ liệu TwitterPhát hiện kế thừa văn bản trên dữ liệu TwitterPhát hiện kế thừa văn bản trên dữ liệu TwitterPhát hiện kế thừa văn bản trên dữ liệu TwitterPhát hiện kế thừa văn bản trên dữ liệu TwitterPhát hiện kế thừa văn bản trên dữ liệu TwitterPhát hiện kế thừa văn bản trên dữ liệu TwitterPhát hiện kế thừa văn bản trên dữ liệu TwitterPhát hiện kế thừa văn bản trên dữ liệu TwitterPhát hiện kế thừa văn bản trên dữ liệu TwitterPhát hiện kế thừa văn bản trên dữ liệu TwitterPhát hiện kế thừa văn bản trên dữ liệu TwitterPhát hiện kế thừa văn bản trên dữ liệu Twitter

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Trang 2

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Trang 3

LỜI CAM ĐOAN

Để có được kết quả học tập đến ngày hôm nay, em xin chân thành gửi đến

các thầy cô giáo trong khoa Công Nghệ Thông Tin – Học Viện Công Nghệ Bưu Chính Viễn Thông nói riêng và các thầy cô giáo của trường Học Viện Công Nghệ Bưu Chính Viễn Thông nói chung lời cảm ơn chân thành nhất Các thầy cô luôn

luôn nhiệt huyết truyền đạt cho em những kiến thức về bộ môn và những kinh nghiệm trong thực tế

Và đặc biệt để hoàn thành luận văn này, em xin chân thành cảm ơn thầy TS Ngô Xuân Bách đã tận tâm hướng dẫn em thực hiện và tìm hiểu mọi vấn đề Nếu

không có những chỉ dẫn của thầy thì rất khó để em có thể tự mình hoàn thành luận văn này Một lần nữa em xin gửi lời cảm ơn chân thành nhất tới thầy

Bên cạnh đó, em xin gửi lời cảm ơn đến gia đình và những người bạn đã luôn tạo điều kiện tốt nhất và luôn hỗ trợ giúp đỡ em khi gặp khó khăn

Luận văn được thực hiện trong khoảng 2 tháng Đây cũng là bước đầu em đi sâu tìm hiểu, nghiên cứu và thực nghiệm một đề tài của ngành công nghệ thông tin

về xử lý ngôn ngữ tự nhiên Do vậy, sẽ còn nhiều thiếu sót, em rất mong nhận được những ý kiến đóng góp của quý Thầy Cô và các bạn để em có thể hoàn thiện luận văn một cách tốt nhất

Em xin chân thành cảm ơn!

Trang 4

LỜI CẢM ƠN

Trước tiên, tôi xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo trong khoa

sau Đại Học nói riêng và các thầy cô giáo của trường Học Viện Công Nghệ Bưu Chính Viễn Thông nói chung lời cảm ơn chân thành nhất

Đặc biệt, tôi xin gửi lời cảm ơn sâu sắc tới TS Ngô Xuân Bách người đã tận

tình chỉ bảo, hướng dẫn tôi trong suốt quá trình tìm hiểu, nghiên cứu để hoàn thành luận văn tốt nghiệp của mình Nếu không có những hỗ trợ về kiến thức chuyên môn của thầy thì chắc chắn tôi không thể hoàn thành đúng thời hạn

Đồng thời, tôi xin cảm ơn tới gia đình, những người thân yêu luôn bên cạnh, động viên, giúp đỡ tôi trong suốt quá trình học tập Bên cạnh đó tôi cũng xin

gửi lời cảm ơn đến các anh chị và các bạn trong lớp M17CQIS01-B đã chia sẻ

những kinh nghiệm, kiến thức quý báu cho tôi trong quá trình nghiên cứu thực hiện luận văn

Thời gian thực hiện luận văn còn khá ngắn, kinh nghiệm về lĩnh vực xử lý ngôn ngữ tự nhiên của bản thân còn hạn chế, luận văn cũng còn nhiều thiếu sót rất mong nhận được những ý kiến đóng góp của quý Thầy Cô và các bạn để tôi có thể hoàn thiện luận văn một cách tốt nhất

Xin trân trọng cảm ơn!

Hà Nội, ngày 13 tháng 02 năm 2019

Tác giả

Đặng Ngọc Tú

Trang 5

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

BẢNG DANH MỤC THUẬT NGỮ TIẾNG ANH v

BẢNG DANH SÁCH TỪ VIẾT TẮT vi

MỤC LỤC HÌNH ẢNH vii

MỤC LỤC BẢNG BIỂU viii

LỜI MỞ ĐẦU 1

CHƯƠNG 1 TỔNG QUAN BÀI TOÁN KẾ THỪA VĂN BẢN TRÊN DỮ LIỆU TWITTER Error! Bookmark not defined 1.1 Giới thiệu về xử lý ngôn ngữ tự nhiên 4

1.2 Khát quát về kế thừa văn bản 5

1.2.1 Khái niệm kế thừa văn bản 5

1.2.2 Khái niệm kế thừa văn bản 6

1.2.3 Phát biểu bài toàn phát hiện kế thừa văn bản 7

1.3 Phát hiện kế thừa văn bản trên dữ liệu Twitter 8

1.3.1 Khái niệm 8

1.3.2 Phát biểu bài toàn phát hiện kế thừa văn bản trên dữ liệu Twitter 9

1.4 Các nghiên cứu liên quan 11

1.5 Kết luận chương 1 12

CHƯƠNG 2 PHƯƠNG PHÁP PHÁT HIỆN KẾ THỪA VĂN BẢN SỬ DỤNG THUẬT TOÁN PHÂN LỚP 13

2.1 Giải pháp phát hiện kế thừa văn bản trên dữ liệu Twitter 13

2.2 Tiền xử lý dữ liệu 17

2.3.1 Jaro-Winkler distance 18

2.3.2 Levenshtein distance 19

2.3.3 Euclidean distance 20

2.3.4 Cosine similarity 20

2.3.5 N-gram distance 21

Trang 6

2.3.6 Matching coefficient 23

2.3.7 Dice coefficient 23

2.3.8 Jaccard coefficient 23

3.1 Các phương pháp học máy 24

3.1.1 Máy vector hỗ trợ SVM (Support Vector Machine) 24

3.1.2 Thuật toán IBK 28

3.1.3 Các phương pháp cây quyết định 29

CHƯƠNG 3 THỰC NGHIỆM VÀ KẾT QUẢ 33

3.1 Dữ liệu thực nghiệm 33

3.1.1 Mô tả dữ liệu thực nghiệm 33

3.1.2 Trích chọn đặc trưng 36

3.2 Thiết lập thực nghiệm 37

3.2.1 Yêu cầu cho thực nghiệm 37

3.2.3 Phương pháp đánh giá tập dữ liệu 38

3.2.3 Chọn công cụ thực nghiệm 41

3.2.4 Giới thiệu chuẩn dữ liệu đầu vào cho thực nghiệm (ARFF) 45

3.3 Tiến hành thực nghiệm và đánh giá kết quả thực nghiệm 47

3.3.1 Kết quả thực nghiệm với các thuật toán cho ba nhãn 47

3.3.2 Thực nghiệm với sự kết hợp các đặc trưng 49

3.3.3 Thực nghiệm so sánh giữa thuật toán J48 với các phương pháp học máy khác 50

KẾT LUẬN 52

DANH MỤC TÀI LIỆU THAM KHẢO 54

DANH MỤC WEBSITE THAM KHẢO 56

PHỤ LỤC 57

Trang 7

BẢNG DANH MỤC THUẬT NGỮ TIẾNG ANH

Accuracy Mức độ dự đoán (phân lớp) chính xác của hệ thống Atrribute Regation File

Format Định dạng tập tin thuộc tính liên quan

Natural Language Processing Xử lý ngôn ngữ tự nhiên

N-grams Là tần suất xuất hiện của n kí tự ( hoặc từ ) liên

tiếp nhau có trong dữ liệu Precision Độ chính xác trong tập dữ liệu tìm được thì bao

nhiêu cái (phân loại) đúng Random Forest Thuật toán Random forest

Recall Độ hồi tưởng trong số các tồn tại, tìm ra được bao

nhiêu cái (phân loại)

Support Vector Machine Máy vector hỗ trợ (SVM)

Tweets Trạng thái người dùng trên mạng xã hội Twitter

Trang 8

BẢNG DANH SÁCH TỪ VIẾT TẮT

Conference

Hiểu tài liệu

IE Information Extraction Trích xuất thông tin

algorithm

Thuật toán láng giềng

NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên

PP Paraphrase Acquisition Thu thập diễn giải

TAC Text Analysis Conference Phân tích tài liệu

Trang 9

MỤC LỤC HÌNH ẢNH

Hình 1.1: Số lượng người sử dụng một số mạng xã hội lớn 9

Hình 1.2 Sơ đồ giả thiết bài toán 11

Hình 2.1: Mô hình giai đoạn huấn luyện 14

Hình 2.2: Mô hình giai đoạn phân lớp 16

Hình 2.3: Ánh xạ dữ liệu từ không gian gốc sang không gian đặc trưng cho phép phân chia dữ liệu bởi siêu phẳng 25

Hình 2.4: Siêu phẳng với lề cực đại cho phép phân chia các hình vuông khỏi các hình tròn trong không gian đặc trọng 25

Hình 2.5: Minh họa bài toán phân 2 lớp bằng phương pháp SVM 27

Hình 2.6: Ví dụ cây quyết định 30

Hình 2.7: Mã giải của thuật toán phân lớp dựa trên cây quyết định 31

Hình 3.1: Dữ liệu thực nghiệm lấy file XML trong bộ dữ liệu của Twitter 34

Hình 3.2: Dữ liệu được bóc tách thành cặp văn bản(T) và giả thuyết(H) 35

Hình 3.3: Hình ảnh stopword 35

Hình 3.4: Trích chọn đặc trưng theo 08 phương pháp 36

Hình 3.5: Minh họa K-fold cross validation 39

Hình 3.6: Giao diện weka ver 3.8.3 43

Hình 3.7 Màn hình Weka Explorer 43

Hình 3.9: Giao diện weka khi tiến hành thực nghiệm 45

Hình 3.10: Khuân dạng của tập dữ liệu dạng chuẩn Arff 46

Hình 3.11: Ví dụ minh họa một phần biểu diễn của ARFF linh hoạt 47

Trang 10

MỤC LỤC BẢNG BIỂU

Bảng 1.1: Ví dụ về kế thừa văn bản 7

Bảng 1.2: Ví dụ kế thưa với ba nhãn 10

Bảng 3.1: Bộ dữ liệu thực nghiệm 37

Bảng 3.2: Bảng ma trận nhầm lẫn 41

Bảng 3.3: Kết quả thực nghiệm độ đo chạy trên thuật toán tree J48 48

Bảng 3.4: Kết quả thực nghiệm giữa độ đo của thuật toán chạy trên tree J48 48

Bảng 3.5: Bảng kết quả thực nghiệm với sự kết hợp đặc trưng 49

Bảng 3.6: Bảng kết quả thực nghiệm sử dụng công cụ weka với các thuật toán 50

Bảng 3.7: Bảng biểu đồ so sánh các phương pháp SVM 51

Trang 11

LỜI MỞ ĐẦU

Trong những năm vừa qua, lĩnh vực xử lý ngôn ngữ tự nhiên đã thu hút được

sự quan tâm đặc biệt của các nhà nghiên cứu và đạt được nhiều thành tựu đáng kể Trong đó, thành công của nhiều ứng dụng ngôn ngữ tự nhiên tự động là do hiểu chính xác ngữ nghĩa của văn bản dự theo cấu trúc cú phát bằng cách sử dụng máy tính Điều này đã trở thành thách thức với những văn bản cùng diễn đạt một ý nghĩa nhưng sử dụng các cấu trúc và từ ngữ khác nhau Các ứng dụng ngôn ngữ tự nhiên tự động đã tận dụng các thành phần được làm mịn để xử lý hiệu quả hơn các văn bản có cấu trúc phức tạp Một trong nhưng bài toán xử lý văn bản là việc suy luận ngữ nghĩa của một đoạn văn bản từ một đoạn trích trong văn bản tiềm năng khác Bài toán này trở thành một hướng nghiên cứu trong lĩnh vực xử lý ngôn ngữ

tự nhiên và được biết đến như bài toán phát hiện kế thừa văn bản (Recognixing Textual Entailment: RTE) Bài toán phát hiện kế thừa văn bản lần đầu tiên được Degan và Glickman đề xuất [3] Cho hai đoạn văn bản bài toán phát hiện kế thừa văn bản có mục định xác định xem nghĩa của văn bản này có thể được suy luận (kế thừa) từ văn bản còn lại hay không

Từ nhu cầu thực tế của các lĩnh vực khác trong xử lý ngôn ngữ tự nhiên, bài toán phát hiện kế thừa văn bản đã nhận được sự quan tâm của các nhà khoa học và các nhóm nghiên cứu trên thế giới Từ năm 2004 đến này, hội nghị RTE đã tổ chức thường niên hàng năm nhằm mục đích so sánh và tổng hợp lại các phương pháp phát hiện kế thừa văn bản tốt Hội nghị RTE tiến hành trong khuôn khổ các hội nghị thường niên Hiểu tài liệu (DUC: Document Understanding Conference, 2001-2007)

và Phân tích xử lý văn bản (TAC: Text Analysis Conference, từ năm 2008 tới nay)

Gần đây, một trong nhưng thách thức của bài toán phát hiện kế thừa văn bản

là phát hiện mối quan hệ kế thừa cho những văn bản được viết bằng các ngôn ngữ khác nhau:Anh, Tây Ban Nha, Pháp,…Chính vì thế, bài toán phát hiện kế thừa văn trên dữ liệu Twitter

Với sự phát triển nhanh chóng và mạnh mẽ của những mạng xã hội hiện đại như ngày nay như: facebook, google +, twitter, v.v Việc ứng dụng phát hiện kế

Trang 12

thừa văn bản trong hệ hỏi đáp (QA), trích xuất thông tin (IE), tóm tắt văn bản (Summarization), và đánh giá dịch máy MT) cần một mô hình cho hiện tượng biến đổi này để phát hiện xem một ý nghĩa cụ thể nào đó có được suy luận ra từ các biến thể văn bản khác nhau Đã có nhiều công trình nghiên cứu liên quan đến bài toán phát hiện kế thừa văn bản theo các phương pháp khác nhau từ nhiều nguồn dữ liệu

mà Twitter là một nguồn dữ liệu phổ biến

Vì những lý do trên, cùng với mong muốn làm chủ công nghệ, làm chủ và

mở rộng các nghiên cứu về học máy ứng dụng vào bài toán phát hiện kế thừa văn

bản, dưới sự hướng dẫn của TS Ngô Xuân Bách và thông qua tìm hiểu, phương

pháp kế thừa văn bản trên tập dữ liệu Twitter, tôi đã mạnh dạn tìm hiểu đề tài “Phát

hiện kế thừa văn bản trên dữ liệu Twitter” nhằm mục đích sử dụng học máy để

đưa ra phát hiện kế thừa văn bản trong việc tự động trả lời của con người dưới dạng ngôn ngữ tự nhiên bằng cách truy suất thông tin từ một tập hợp dữ liệu Luận văn tập trung vào bài toán phát hiện kế thừa văn bản trên dữ liệu Twitter, phân loại làm

ba nhãn là: liên quan(Entailment), mâu thuẫn(Contradiction), không liên quan (Unknown)

Các đặc trưng này sẽ được biểu diễn dưới dạng vector và làm đầu vào cho các thuật toán Sau khi thu được kết quả của các mô hình phân lớp: Decision tree

(J48, Random forest) [30] , Support vector machine(SVM) [8] và IBK [4], luận văn

sử dụng phương pháp lập sơ đồ để kiểm tra và lựa chọn kết quả tốt nhất Kết quả thực nghiệm tốt nhất đạt được khi sử dụng thuật toán Decision tree (J48) Cụ thể kết

quả thực nghiệm cho kết quả tốt nhất với bài toán “ Phát hiện kế thừa văn bản trên

dữ liệu Twitter ”

Nội dung của luận văn gồm 03 chương:

Chương 1: Giới thiệu tổng quát khái quát về bài toán phát hiện kế thừa văn bản

Luận văn giới thiệu khái niệm kế thừa văn bản, phát biểu bài toán phát hiện

kế thừa văn bản, sau đó, luận văn giới thiệu về bài toán phát hiện kế thừa văn bản trên dữ liệu Twitter

Trang 13

Chương 2: Phương pháp phát hiện kế thừa văn bản sử dụng thuật toán phân lớp

Nội dung của chương là trình bày một số phương pháp trích chọn lấy đặc trưng để giải quyết bài toán, các phương pháp học máy thống kê được sử dụng để tiến hành thực nghiệm cho bài toán phát hiện kế thừa văn bản dựa trên dữ liệu mạng

xã hội Twitter

Chương 3: Thực nghiệm và đánh giá

Nội dung chương nhằm nêu rõ và chi tiết các bước trong quá trình giải quyết bài toán Trong chương này cũng sẽ trình bày quá trình thực hiện và thực nghiệm, đưa ra một số đánh giá, nhận xét các kết quả thu được

Kết luận và định hướng phát triển tiếp theo: Tóm lược kết quả đã đạt được của

luận văn, chỉ ra những khuyết điểm cần khắc phục và đưa ra định hướng nghiên cứu tiếp theo

Trang 14

CHƯƠNG 1 TỔNG QUAN BÀI TOÁN KẾ THỪA VĂN BẢN TRÊN DỮ LIỆU

TWITTER

Chương này của luận văn trình bày nội dung chính là:

Giới thiệu chung về lĩnh vực xử lý ngôn ngữ tự nhiên và các ứng dụng trong thực tế

Giới thiệu về bài toán phát hiện kế thừa văn bản và phát hiện kế thừa văn bản trên dữ liệu Twitter

Giới thiệu về mạng xã hội Twitter và tổng quan về bài toán phát hiện kế thừa văn bản trên dữ liệu Twitter

Các nghiên cứu liên quan đến bài toán dã được thực hiện và đưa ra trên thế giới cũng như ở Việt Nam

Trình bày các nội dung sẽ thực hiện trong luận văn để đạt được mục tiêu đặt

ra, các nghiên cứu, đóng góp của luận văn

1.1 Giới thiệu về xử lý ngôn ngữ tự nhiên

Xử lý ngôn ngữ tự nhiên (natural language processing – NLP) [4] [9] là một lĩnh vực nghiên cứu của trí tuệ nhân tạo, tập trung vào nghiên cứu các phương pháp,

kỹ thuật cho phép xử lý ngôn ngữ tự nhiên bằng máy tính, từ đó xây dựng các chương trình, hệ thống máy tính xử lý ngôn ngữ của con người

Xử lý ngôn ngữ tự nhiên được áp dụng trong nhiều bài toán và ứng dụng thực tế, trong nhiều lĩnh vực:

Nhận dạng chữ viết: Có hai kiểu nhận dạng Thứ nhất là nhận dạng chữ in,

thứ hai, phức tạp hơn là nhận dạng chữ viết tay, có khó khăn bởi vì chữ viết tay không có khuôn dạng rõ ràng và thay đổi từ người này sang người khác Với chương trình nhận dạng chữ viết in có thể chuyển hàng ngàn đầu sách trong thư viện thành văn bản điện tử trong thời gian ngắn Nhận dạng chữ viết của con người

có ứng dụng trong khoa học hình sự và bảo mật thông tin (nhận dạng chữ ký điện tử)

Trang 15

Nhận dạng tiếng nói: Nhận dạng tiếng nói rồi chuyển chúng thành văn bản

tương ứng Giúp thao tác của con người trên các thiết bị nhanh hơn và đơn giản hơn Đây cũng là bước đầu tiên cần phải thực hiện trong ước mơ thực hiện giao tiếp giữa con người với robot Nhận dạng tiếng nói có khả năng trợ giúp người khiếm thị rất nhiều

Tổng hợp tiếng nói: Từ một văn bản tự động tổng hợp thành tiếng nói

Giống như nhận dạng tiếng nói, tổng hợp tiếng nói là sự trợ giúp tốt cho người khiếm thị, nhưng ngược lại nó là bước cuối cùng trong giao tiếp giữa robot với người

Dịch máy (machine translate): Như tên gọi đây là chương trình dịch tự động

từ ngôn ngữ này sang ngôn ngữ khác

Tìm kiếm và truy xuất thông tin: Đặt câu hỏi và chương trình tự tìm ra nội

dung phù hợp nhất Thông tin ngày càng đầy lên theo cấp số nhân, đặc biệt với sự trợ giúp của internet việc tiếp cận thông tin trở lên dễ dàng hơn bao giờ hết Việc khó khăn lúc này là tìm đúng nhất thông tin mình cần giữa bề bộn tri thức và đặc biệt thông tin đó phải đáng tin cậy

Tóm tắt văn bản: Từ một văn bản dài tóm tắt thành một văn bản ngắn hơn

theo mong muốn nhưng vẫn chứa những nội dung thiết yếu nhất

Khai phá dữ liệu: Từ rất nhiều tài liệu khác nhau phát hiện ra tri thức mới

Thực tế để làm được điều này rất khó, nó gần như là mô phỏng quá trình học tập, khám phá khoa học của con người, đây là lĩnh vực đang trong giai đoạn đầu phát triển

1.2 Khát quát về kế thừa văn bản

Trong cuộc sống hằng ngày, bằng việc sử dụng ngôn ngữ tự nhiên, chúng ta có thể diễn đạt một vấn đề theo nhiều cách khác nhau với các từ ngữ

và cấu trúc cú pháp khác nhau Vấn đề biến đổi này trong biểu diễn ngữ nghĩa

có thể được xem như là vấn đề nhập nhằng trong ngôn ngữ tự nhiên Các ứng dụng trong xử lý ngôn ngữ tự nhiên như: hệ hỏi đáp (QA), trích xuất thông tin (IE), tóm tắt văn bản (Summarization), và đánh giá dịch máy MT) cần một

Trang 16

mô hình cho hiện tượng biến đổi này để phát hiện xem một ý nghĩa cụ thể nào

đó có được suy luận ra từ các biến thể văn bản khác nhau hay không

Vào năm 2004, phát hiện kế thừa văn bản (RTE) đã được đề xuất như một bài toán tổng quát để thu thập các nhu cầu liên quan đến suy luận ngữ nghĩa trên nhiều ứng dụng xử lý ngôn ngữ tự nhiên Từ năm 2004 đến nay, hội nghị RTE đã tổ chức thường niênhàng năm (RTE-1 đến RTE-8) nhằm mục đích đánh giá, so sánh các phương pháp tiếp cận của các nhà nghiên cứu Ba hội nghị RTE đầu tiên (RTE-

1 năm 2005, RTE-2 năm 2006 và RTE-3 năm 2007) được tổ chức tại chuỗi PASCAL (Pattern Analysis, Statistical Modeling and Computational Learning) Các hội nghị RTE còn lại (RTE-4 năm 2008,RTE-5 năm 2009, RTE-6 năm 2010, RTE-7 năm 2011 và RTE-8 năm 2012) được tổ chức thuộc hội nghị Phân tích xử lý văn bản (TAC: Text Analysis Conference) của NIST (National Institute of Standards and Technology) Hội nghị Phân tích và xử lý văn bản TAC được tổ chức để khuyến khích nghiên cứu xử lý ngôn ngữ tự nhiên và các ứng dụng liên quan bằng cách cung cấp tập các dữ liệu kiểm thử lớn, các thủ tục đánh giá và một diễn đàn để các nhóm nghiên cứu chia sẻ kết quả của họ

1.2.2 Khái niệm kế thừa văn bản

Hiện nay, khái niệm kế thừa văn bản có thể định nghĩa theo nhiều cách khác nhau Theo Glickman và Dagan [3], kế thừa văn bản là một mối quan hệ giữa một văn bản T nhất quán T với một thể hiện ngôn ngữ của nó – giả thuyết H (H là một

hệ quả của T), ký hiệu là T → H nếu như ý nghĩa của H, đặt vào ngữ cảnh của T thì

có thể suy ra ý nghĩa của H Một cách chung nhất thì văn bản T được gọi là kế thừa giả thuyết H nếu như sự thật về H có thể suy luận được từ T Điều này có nghĩa là T bao hàm ý nghĩa của H khi đọc cả hai Do vậy, ta có thể nói T kế thừa H khi một số biểu diễn của H có thể trùng khớp (qua một số bước chuyển đổi bảo toàn ngữ nghĩa) với một số (hoặc một phần của) các biểu diễn của T, ở một cấp độ chi tiết và trừu tượng nhất định

Trang 17

Dưới đây là một số ví dụ minh họa để giải thích về khái niệm kế thừa văn bản

Bảng 1.1: Ví dụ về kế thừa văn bản

1.2.3 Phát biểu bài toán phát hiện kế thừa văn bản

Bài toán phát hiện kế thừa văn bản là bài toán xác định quan hệ kế thừa giữa văn bản T và giả thuyết H Việc phân loại mối quan hệ kế thừa giữa văn bản và giả thuyết có thể theo 2 cách dựa trên số nhãn kế thừa mà hệ thống gán cho một cặp văn bản giả thuyết Phân loại kế thừa 3 lớp bao gồm các nhãn :

 Kế thừa: Khi T kế thừa H

1

Bountiful đã tới saiu khi chiến tranh kết

thúc, cập vịnh San Francisco vào ngày 21

tháng 8 năm 1945.Bountiful sau đó được chỉ

định làm tài bệnh viện ở Yokosuka, khởi

hành từ San Francisco vào ngày 1 tháng 11

năm 1945

Bountiful đã tới San Francisco vào tháng 8 năm 1945

YES

2

Tập đoàn Boeing đặt tại Chicago đã hủy bỏ

ba đơn hang vào năm 2006 mà Air Canada

đã đặt

Trụ sở của tập đoàn Boeing năm ở Canada

NO

3

Dưới tiêu đề “Greed instead of quanlity”,

Die Tageszeitung của Đưucs nói chẳng có

điều tốt đẹp việc thâu tóm xuất bản Berliner

Verlag của hai quỹ đầu tư của Anh và Mỹ

Hai quỹ đầu tư của Anh và Mỹ đã thâu tóm Berliner Verlag

YES

4

Scott Island đã được thuyền trưởng William

Colbeck người chỉ huy của Morning, con tài

cứu viện cho cuộc viễn chinh của thuyền

trưởng Robert F.Scott, tìm ra vào tháng 12

năm 1902

Thuyền trưởng Scott

đã đặt chân tới đảo Scott Island vào tháng 12 năm 1902

NO

5

Chiếc xe hơi đã và vào hòm thư thuộc về

James Clark, 68 tuổi, một người quen của

gia đình James Jones

Clark là người họ

Trang 18

 Mâu thuẫn: Khi T không kế thừa H

 Không xác định: Khi không có đủ điều kiện để xác định xem T kế

thừa H hay không

Phân loại kế thừa 2 lớp: Trong phân loại 2 lớp, mối quan hệ mâu thuẫn và không xác định đều được phân vào lớp “Không kế thừa” 2 lớp sử dụng là:

 Kế thừa: Khi T kế thừa H

 Không kế thừa: Khi nội dung trong T mẫu thuẫn với nội dung trong

H hoặc không xác định được quan hệ giữa T và H

Hiện nay, đa số các hệ thống phát hiện kế thừa sử dụng sự phân lớp nhị phân (hai nhãn) Việc phán quyết kế thừa được gán nhãn là YES/NO (YES: trong trường hợp kế thừa và NO nếu ngược lại) Trong khóa luận này, em tiến hành thực nghiệm theo nhãn nhị phân như trên

Dựa trên tiếp cận về quan hệ kế thừa trên, bài toán được phát biểu như sau:

Đầu vào: Tập các cặp câu văn bản T và giả thuyết H thuộc cùng một chủ

đề

Đầu ra: Gán nhãn kế thừa YES/NO với từng cặp

1.3 Phát hiện kế thừa văn bản trên dữ liệu Twitter

1.3.1 Khái niệm

Sự bùng nổ thông tin được viết bằng các ngôn ngữ khác nhau trên web đã giúp cho người sử dụng có cơ hội tiếp cận và truyền tải thông tin về một chủ đề bằng ngôn ngữ của họ Với sự phát triển nhanh chóng và mạnh mẽ của những mạng

xã hội hiện đại như ngày nay như: facebook, google +, twitter, v.v Việc ứng dụng phát hiện kế thừa văn bản trong hệ hỏi đáp (QA), trích xuất thông tin (IE), tóm tắt văn bản (Summarization), và đánh giá dịch máy MT) cần một mô hình cho hiện tượng biến đổi này để phát hiện xem một ý nghĩa cụ thể nào đó có được suy luận ra

từ các biến thể văn bản khác nhau Đã có nhiều công trình nghiên cứu liên quan đến bài toán phát hiện kế thừa văn bản theo các phương pháp khác nhau từ nhiều nguồn

dữ liệu mà Twitter là một nguồn dữ liệu phổ biến

Trang 19

Hình 1.1: Số lượng người sử dụng một số mạng xã hội lớn[17]

Bài toán kế thừa văn bản dữ liệu trên mạng xã hội Twitter là một bài toán

nhằm phát hiện sự kế thừa về thực thể trên mạng xã hội Twitter Tuy nhiên, việc kế

thừa văn bản với dữ liệu Twitter gặp khá nhiều khó khăn và thách thức Khác với

các văn bản truyền thống, các tweet rất ngắn (tối đa 140 ký tự) Có thể nói mỗi

tweet chỉ là một câu hoặc một tiêu đề hơn là một tài liệu Hơn nữa các tweet có rất

nhiều từ viết tắt, từ nóng, từ sai chính tả và viết không đúng cú pháp, chất lượng và

độ tin cậy thấp Những yếu tố này làm giảm hiệu quả kế thừa văn bản dựa trên cách

xử lý truyền thống

1.3.2 Phát biểu bài toán phát hiện kế thừa văn bản trên dữ liệu Twitter

Phát hiện kế thừa văn bản là bài toán phát hiện mối quan hệ kế thừa giữa văn

bản T và giả thuyết H.[2] Bài toán được phát biểu như sau:

 Đầu vào: Tập các cặp văn bản – giả thuyết <T, H> thuộc cùng một chủ đề

 Đầu ra: Tập các cặp văn bản – giả thuyết đã được gán nhãn kế thừa “Entailment” /

“Contradiction”/“Unknown”

- “Entailment”: tương ứng với trường hợp văn bản (T) kế thừa giả thuyết (H)

Trang 20

- “Contradiction”: tương ứng với trường hợp văn bản (T) mâu thuẫn kế thừa giả

12 người hiện đã chết vì tay súng đã tấn

công Paris HQ của tạp chí Charlie Hebdo

URL

11 người chết vì một vụ tấn công Tạp chí Paris URL CharlieHebdo URL

Contradiction

2

URL

Tạp chí Charlie Hebdo URL đưa ra con số là 12 người chết bởi một vụ bổ súng

Entailment

3

URL

Vụ nổ đánh bom tại Paris làm nhiều người chết và bị thương do khủng

bố của IS

Unknown

Trang 21

Hình 1.2 Sơ đồ giả thiết bài toán 1.4 Các nghiên cứu liên quan

Kế thừa văn bản giúp việc hiểu ngôn ngữ tự nhiên được tốt hơn Ngoài ra, phát hiện kế thừa văn bản được ứng dụng rộng rãi trong rất nhiều lĩnh vực của xử lý ngôn ngữ tự nhiên như: Hệ thống hỏi đáp, trích chọn thông tin, tự động tóm tắt văn bản, đánh giá dịch máy, so sánh tài liệu (Comparable Documents), đọc hiểu (Reading omprehension), đồng bộ hóa nội dung tự động (Automatic Content Synchronization)

Trong hệ thống hỏi đáp, phát hiện kế thừa văn bản được sử dụng để xác định những câu trả lời có quan hệ kế thừa và đưa ra gợi ý về câu trả lời được mong muốn

từ câu hỏi của người dùng Ví dụ, với câu hỏi được đặt ra: “Ai là người vẽ bức tranh

Mona Lisa?” thì đoạn văn bản “Bức tranh nàng Mona Lisa của Leonardo Da Vinci

đã tạo cảm hứngcho rất nhiều nhà phân tích, từ nghệ thuật tới khoa học, từ phân tích quang học tới phân tích tâm lý học.” hay đoạn văn bản “Da Vinci bắt đầu vẽ Mona Lisa vào khoảng năm 1503, trong Thời Phục hưng Italia và theo Vasari.” kế

thừa câu trả lời mong muốn là “Leonardo Da Vinci là người vẽ bức tranh Mona

Lisa” Trong trích chọn thông tin (Information Extraction), các thông tin được trích

chọn nên kế thừa văn bản

Trong tóm tắt văn bản, kế thừa văn bản được sử dụng để xác định hoặc rút gọn lượng thông tin kế thừa trong văn bản cần tóm tắt, từ đó so sánh với văn bản khác Điều này được sử dụng để tránh dư thừa thông tin khi trong một văn bản có

Liên quan, mâu thuẫn, không liên quan

Văn bản T

(Đoạn văn thứ nhất)

Văn bản H (Đoạn văn thứ hai)

Trang 22

những đoạn là kế thừa tri thức của nhau Áp dụng điều này, tóm tắt văn bản sử dụng quan hệ kế thừa để bỏ qua những thông tin không cần thiết giúp rút ngắn độ dài văn bản mà vẫn giữ được những thông tin quan trọng

1.5 Kết quả đạt và đóng góp của luận văn

Luận văn đã đem lại một số đóng góp cơ bản như sau:

- Nghiên cứu các đặc trưng ngôn ngữ, các phương pháp trích chọn đặc trưng với các mô hình, thuật toán học máy để phân lớp(mô hình phân lớp)

- Thực nghiệm bài toán với các phương pháp, kỹ thuật lựa chọn, đưa ra kết quả, đánh giá và so sánh

Phát hiện kế thừa văn bản được ứng dụng rộng rãi trong nhiều lĩnh vực của

xử lý ngôn ngữ tự nhiên như: Hệ thống hỏi đáp, trích chọn thong tin, tự động tóm tắt văn bản, đánh giá dịch máy, so sánh tài liệu, đọc hiểu, đồng bộ hóa nội dung Kết quả của thực nghiệm là tiền đề cho xây dựng các công cụ, ứng dụng hỗ trợ nhận biết văn bản, trả lời văn bản tự động trên mạng xã hội Twitter

1.6 Kết luận chương 1

Trong chương một, luận văn đã trình bày một số nội dung liên quan đến kế thừa văn bản như khái niệm phát hiện kế thừa văn bản, khái niệm phát hiện kế thừa văn bản trên dữ liệu Twitter và phát biểu bài toán, cuối cùng luận văn trình bày về các ứng dụng của phát hiện kế thừa văn bản trong lĩnh vực xử lý ngôn ngữ tự nhiên

Chương tiếp theo sẽ trình bày chi tiết các hướng tiếp cận cho bài toán kế thừa văn trên dữ liệu Twitter

Trang 23

CHƯƠNG 2 PHƯƠNG PHÁP PHÁT HIỆN KẾ THỪA VĂN BẢN SỬ DỤNG

THUẬT TOÁN PHÂN LỚP

Chương này đi vào trình bày phân tích bài toán, phương pháp phân lớp phát hiện kế thừa văn bản dựa trên học máy nói chung và áp dụng vào phát hiện kế thừa văn bản trên dữ liệu Twitter nói riêng Chương này cũng nói về các phương pháp trích chọn đặc trưng được sử dụng trong luận văn Cuối cùng, chương này trình bày về thuật toán học máy SVM cũng như cách áp dụng vào bài toán phân lớp

2.1 Giải pháp phát hiện kế thừa văn bản trên dữ liệu Twitter

Qua quá trình nghiên cứu, tập hợp dữ liệu của Twitter [15] của 500 bài viết của 70 tuyên bố bao gồm 21836 paris, phân phối trên bốn sự kiện gần đây được báo cáo trong báo chí Những cặp đôi này được dán nhãn quan hệ liên quan( Entailment), quan hệ mâu thuẫn (Contradiction), quan hệ không liên quan( Unknow)

Với mỗi cặp văn bản – giả thuyết (T, H), các tác giả coi mỗi câu như là một túi các từ và tính toán trọng số tương tự giữa các câu Hệ thống đưa ra phán quyết kế thừa bằng cách so sánh trọng số tương tự đó với một ngưỡng kế thừa cho trước Đầu tiên, các câu văn bản giả thuyết (T) được tiến hành tiền xử lý: tách câu, tách từ Sau

đó, các tác giả sử dụng những chuỗi từ này làm đầu vào cho thuật toán Độ chính xác của thuật toán phần lớn phụ thuộc vào việc xác định các tham số như: độ đo tương tự

Để giải quyết bài toán trên, quá trình phát hiện kế thừa văn bản trên dữ liệu Twitter gồm 2 giai đoạn:

 Giai đoạn huấn luyện

 Giai đoạn phân lớp

Trang 24

a) Giai đoạn huấn luyện

Giai đoạn này nhận dầu vào là tập dữ liệu huấn luyện gồm các nội dung dưới dạng văn bản đã được gán nhãn, sau khi xử lý dữ liệu và áp dụng các thuật toán huấn luyện sẽ cho đầu ra là mô hình Các bước thực hiện của giai đoạn huấn luyện được biểu diễn như hình 2.1 như dưới:

Hình 2.1: Mô hình giai đoạn huấn luyện

Văn bản T (Đoạn văn bản thứ

nhất)

Tiền xử lý dữ liệu

Trích chọn đặc trưng

Chuyển đổi thành vector đặc trưng

Thuật toán huấn luyện

Giả thuyết H (Đoạn văn bản thứ

hai)

Mô hình

Trang 25

Trong đó các bước cụ thể:

 Tiền xử lý dữ liệu: Chuyển đổi cặp văn bản T và giả thuyết H trong

tập dữ liệu thành một hình thức phù hợp để phát hiện kế thừa Lọc bỏ phần dữ liệu nhiễu, loại bỏ các thông tin dư thừa

 Trích chọn đặc trưng: Trích xuất ra các đặc trưng từ cặp văn bản sau khi dữ liệu được xử lý dữ liệu là văn bản (T) và giả thuyết (H)

 Chuyển đổi thành vector đặc trưng: Mã hóa cặp văn bản bao gồm:

văn bản (T) và giả thuyết (H) bởi mô hình trọng số

 Thuật toán huấn luyện: Thủ tục huấn luyện để tìm ra các phương

pháp tối ưu, có thể sử dụng các thuật toán khác nhau, trong phạm vi luận văn chúng tôi sử dụng 04 thuật toán học máy gồm: Máy vector hỗ trợ

(SVM), K-Nearest neighbors(IBK ), Decision tree (J48, Randoom

forest)

b) Giai đoạn phân lớp

Nhận đầu vào là cặp văn bản dưới dạng ngôn ngữ tự nhiên, sau quá trình

xử lý và áp dụng mô hình sẽ cho ra nhãn phân loại của văn bản đầu vào, cụ thể biểu diễn dưới dạng sơ đồ 2.2 sau:

Trang 26

Hình 2.2: Mô hình giai đoạn phân lớp

Tương tự các bước huấn trong giai đoạn huấn luyện, giai đoạn phân lớp có nhiệm vụ cụ thể như sau:

 Tiền xử lý dữ liệu: Chuyển đổi cặp văn bản là văn bản (T) và giả

thuyết (H) trong tập dữ liệu thành một hình thức phù hợp như: lọc nhiễu, loại bỏ từ không mang ý nghĩa

 Trích chọn đặc trưng: Trích xuất ra các đặc trưng lấy độ đo của 2 cặp

văn bản là: văn bản (T) và giả thuyết (H) bằng các đặc trưng 08 độ đo: Jaro-Winkler distance, Levenshtein distance, Manhattan distance, Euclidean distance, Cosine similarity, N-gram distance (n=3), Matching coefficient, Dice coefficient, Jaccard coefficient

Văn bản T (Đoạn văn bản thứ nhất)

Trang 27

 Mô hình phân lớp: Sử dụng các thuật toán khác nhau như : máy

vector hỗ trợ (SVM), Nearest neighbors( IBK ), Decision tree(J48,

Radom forest) để tiến hành phân lớp nhãn kế thừa

Dựa vào sơ đồ 2.1 và 2.2 trên ta có thể dễ dàng nhận thấy:

Mô hình kiến trúc hệ thống tổng quát cho bài toán phát hiện kế thừa văn bản trên dữ liệu Twitter gồm ba bước chính Sau đây chúng tôi sẽ giới thiệu chi tiết các thành phần quan trọng trong bài toàn phát hiện kế thừa văn bản nói riêng và phát hiện kế thừa văn bản trên dữ liệu Twitter nói chung cho tập dữ liệu chúng tôi thu thập được trên mạng xã hội Twitter

2.2 Tiền xử lý dữ liệu

Trong qui trình khai phá dữ liệu, công việc xử lý dữ liệu trước khi đưa vào các mô hình là rất cần thiết, bước này làm cho dữ liệu có được ban đầu qua thu thập

dữ liệu có thể áp dụng được với các mô hình khai phá dữ liệu cụ thể Quá trình này

xử lý dữ liệu thô/gốc nhằm cải thiện chất lượng dữ liệu và do đó, cải thiện chất lượng của kết quả phân loại Không có dữ liệu tốt thì không thể có kết quả khai phá tốt Phần lớn công việc xây dựng một kho dữ liệu là trích chọn, làm sạch và chuyển đổi dữ liệu

Dữ liệu thô ban đầu chứa nhiều thông tin không liên quan đến quá trình cũng như kết quả đầu ra của hệ thống như: ID của tweet, Thời gian, Query, Người dùng v.v Trong bước này loại bỏ những thông tin dư thừa không cần thiết, chỉ giữ lại các thông tin có ích Phần còn lại là phần văn bản và phần mang quan điểm tương ứng của phần văn bản đó

Bởi vì ý nghĩa của các từ viết hoa và viết thường là giống nhau, hơn nữa, nếu không xử lý các từ viết hoa thành từ viết thường, bộ từ điển sẽ tăng nhiều, không gian xử lý cũng tăng lên đáng kể Điều này sẽ làm tăng yêu cầu tài nguyên xử lý, chất lượng của hệ thống thấp hơn Chính vì vậy, chúng tôi đã chuyển tất cả các từ trong bộ dữ liệu thành từ viết thường để đạt được mục đích trên Tiền xử lý dữ liệu

sẽ được nói kỹ hơn trong phần thực nghiệm

Trang 28

2.3 Trích xuất đặc trưng và vector hóa dữ liệu

Để xác định hai văn bản có kế thừa hay không, chúng tôi sử dụng 08 độ đo

sự tương đồng giữa 2 văn bản Dưới đây là 08 độ đo đánh giá sự tương đồng

2.3.1 Jaro-Winkler distance

Khoảng cách Jaro-Winkler [11] là khoảng cách giữa 2 chuỗi ký tự Khoảng cách Jaro-Winkler càng cao thì độ tương tự hay tương đồng giữa 2 chuỗi đó càng cao

Khoảng cách Jaro dj của chuỗi s1 và s2 được định nghĩa là:

Trong đó:

- m là số kí tự liên kết giữa 2 chuỗi

- t là một nửa số lượng dịch chuyển (Để tính t, ta loại bỏ tất cả các kí tự not_matching giữa và đếm số lượng vị trí trong 2 xâu kết quả mà không chứa kí tự giống nhau t = một nửa số lượng đó)

Hai ký tự từ s1 và s2 tương ứng, được coi là phù hợp nếu chúng giống nhau

và không xa hơn

Mỗi ký tự s1 được so sánh với tất cả các ký tự phù hợp của nó trong s2 Số

ký tự trùng khớp(nhưng thứ tự khác nhau) chi cho 2 xác định số lần chuyển đổi Ví

dụ, khi so sánh CRATE với TRACE, chỉ có ‘R’’A’’E’ là ký tự trùng khớp, tức là m=3 Mặc dù ‘C’,’T’ xuất hiện trong hai chuỗi, chúng nằm xa hơn 1, tức là tầng(5/2)-1=1 Do đó, t=0

Khoảng cách Jaro-Winkler là:

Trang 29

Trong đó:

- dj là khoảng cách Jaro

- l là chiều dài của tiền tố chung khi bắt đầu chuỗi lên đến tối đa 6 kí tự

- p thường lấy giá trị chuẩn là 0.1

- Trong một số thực hiện của Jaro-Winkler, phần tiền tố thêm chỉ được thêm vào khi chuỗi so sánh có khoảng cách Jaro lớn hơn ngưỡng

bt Ngưỡng này trong thực hiện Winkler là 0.7

Có thể áp dụng đánh giá này với cặp chuỗi có chứa thẻ gán nhãn hay một đoạn thẻ tốt hơn là áp dụng với cặp chuỗi với các kí tự

2.3.2 Levenshtein distance

Khoảng cách Levenshtein [28] thể hiện sự khác biệt giữa 2 chuỗi kí tự Khoảng cách Levenshtein giữa chuỗi s và chuỗi t là số bước ít nhất để biến chuỗi s thành chuỗi t thông qua 3 phép biến đổi là:

- xóa 1 kí tự

- thêm 1 kí tự

- thay kí tự này bằng kí tự khác

khái niệm này vào năm 1965 Nó được sử dụng trong việc tính toán sự giống và khác nhau giữa 2 chuỗi, như chương trình kiểm tra lỗi chính tả của winword spellchecker Ví dụ: Khoảng cách Levenshtein giữa 2 chuỗi "kitten"

và "sitting" là 3, vì phải dùng ít nhất 3 lần biến đổi

1 kitten -> sitten (thay "k" bằng "s")

2 sitten -> sittin (thay "e" bằng "i")

3 sittin -> sitting (thêm ký tự "g")

Để tính khoảng cách Levenshtein ta sử dụng thuật toán quy hoạch động, tính toán trên mảng 2 chiều (n+1)*(m+1) với n, m là độ dài của chuỗi cần tính

Trang 30

Khoảng cách Euclidean được xác định bởi công thức:

Cosine Similarity thường được sử dụng cho các không gian vector nhiều chiều dương Ví dụ, trong việc thu thập thông tin và khai phá văn bản, mỗi một khái niệm được gán cho một chiều trong không gian vector và một văn bản được biêu diễn bởi một vector có các giá trị của mỗi chiều là số lần xuất hiện của một khái niệm tương ứng trong văn bản Cosine Similarity là một thước đo hiệu quả trong việc so sánh độ tương đồng giữa hai văn bản

Trang 31

Một trong những lý do quan trọng để phương pháp Cosine Similarity trở thành một phương pháp được sử dụng phổ biến là vì nó rất hiệu quả cho việc ước lượng, đặc biệt là cho các vector thưa dữ liệu

Độ tương đồng Cosine được xác định bởi công thức:

 Với n = 1 và tính trên kí tự, ta có thông tin về tần suất xuất hiện nhiều nhất của các chữ cái Điều này ứng dụng để làm keyboard : các phím hay xuất hiện nhất sẽ ở những vị trí dễ sử dụng nhất

 Với n = 2, ta gọi bigram: là mô hình được sử dụng nhiều trong phân tích các hình thái cho ngôn ngữ

 Với n = 3, ta gọi trigram: với n càng cao thì độ chính xác càng cao tuy nhiên đi kèm với đó là độ phức tạp càng lớn

Gram ở đây là đơn vị nhỏ nhất – hay nói cách khác trong câu thì nó chỉ bao gồm một từ Một cụm n-grams là một dãy con gồm n- yếu tố liên tiếp nhau của một dãy các từ cho trước N-gram còn được áp dụng trong rất nhiều lĩnh vực của xử lý ngôn ngữ tự nhiên như: kiểm lỗi chính tả, dịch máy hay phân đoạn từ, phân loại văn bản Chính vì vậy, N-grams được dùng để ước lượng xác suất xuất hiện của một yếu tố dựa vào các yếu tố xung quanh nó trong câu Do đó, N-grams có thể áp dụng

Trang 32

trong nhiều lĩnh vực xử lý ngôn ngữ tự nhiên như: các hệ thống tách từ, gán nhãn từ loại, dịch máy hay phân đoạn từ, phát hiện lỗi chú giải từ loại, v.v

Mô hình ngôn ngữ N-gram [31]

Nhiệm vụ của mô hình ngôn ngữ là cho biết xác suất của một câu

w1w2 wm là bao nhiêu Theo công thức Bayes: P(AB) = P(B|A) * P(A), thì:

P(w1w2…wm) = P(w1) * P(w2|w1) * P(w3|w1w2) *…* P(wm|w1w2…wm-1)

Theo công thức này, mô hình ngôn ngữ cần phải có một lượng bộ nhớ vô cùng lớn để có thể lưu hết xác suất của tất cả các chuỗi độ dài nhỏ hơn m Rõ ràng, điều này là không thể khi m là độ dài của các văn bản ngôn ngữ tự nhiên (m có thể tiến tới vô cùng) Để có thể tính được xác suất của văn bản với lượng bộ nhớ chấp nhận được, ta sử dụng xấp xỉ Markov bậc n:

P(wm|w1,w2,…, wm-1) = P(wm|wm-n,wn-m+1, …,wm-1)

Nếu áp dụng xấp xỉ Markov, xác suất xuất hiện của một từ (wm) được coi như chỉ phụ thuộc vào n từ đứng liền trước nó (wm-nwm-n+1…wm-1) chứ không phải phụ thuộc vào toàn bộ dãy từ đứng trước (w1w2…wm-1) Như vậy, công thức tính xác suất văn bản được tính lại theo công thức:

P(w1w2…wm) = P(w1) * P(w2|w1) * P(w3|w1w2) *…* n-1wm-n …wm-2)* P(wm|wm-nwm-n+1…wm-1)

P(wm-1|wm-Với công thức này, ta có thể xây dựng mô hình ngôn ngữ dựa trên việc thống

kê các cụm có ít hơn n+1 từ Mô hình ngôn ngữ này gọi là mô hình ngôn ngữ gram

N-Một cụm N-gram là 1 dãy con gồm n phần tử liên tiếp nhau của 1 dãy các phần tử cho trước

Trang 33

Hệ số Dice được xác định bởi công thức: =

Hệ số Jaccard được sử dụng để đo sự giống nhau giữa các bộ mẫu hữu hạn,

và được định nghĩa là số lượng tập các giao điểm chia cho số lượng tập hợp của 2

Định dạng
Số trang	67
Dung lượng	1,62 MB