Chuyên đề tách từ Tiếng Việt

Mô tả chi tiết về phương pháp tách từ Tiếng Việt, kiến thức và kĩ năng tách từ Tiếng Việt. Hỗ trợ trong việc học môn học Khai phá dữ liệu. Bài toán xử lý văn bản Các vấn đề trong xử lý văn bản Mô hình hóa bài toán Tình hình nghiên cứu trên thế giới và ở Việt Nam

Trang 1

VIETNAMESE WORD

SEGMENTATION PROBLEM

Trang 2

NỘI DUNG

1 TỔNG QUAN VỀ BÀI TOÁN XỬ LÝ VĂN BẢN

Bài toán xử lý văn bản Các vấn đề trong xử lý văn bản

Mô hình hóa bài toán Tình hình nghiên cứu trên thế giới và ở Việt Nam

2 BÀI TOÁN TÁCH TỪ (PHÂN ĐOẠN TỪ) TIẾNG VIỆT

Vai trò trong tổng thể bài toán xử lý văn bản Những khó khăn đối với bài toán tách từ Tiếng Việt

3 GIẢI PHÁP CHO BÀI TOÁN TÁCH TỪ TIẾNG VIỆT

Các hướng tiếp cận chính Giới thiệu các thuật toán đại diện: MM, N-Gram model Chương trình demo tách từ tự động sử dụng vnTokenizer API.

Trang 3

1 TỔNG QUAN BÀI TOÁN XỬ LÝ

VĂN BẢN

Trang 4

BÀI TOÁN XỬ LÝ VĂN BẢN (1/3)

Xử lý thông tin là quá trình biến đổi dữ liệu từ dạng này

thành dạng khác để có thể thu được thông tin và tri thức.

Trang 5

Xử lý văn bản (Text Processing Problem) là một phần

trong bài toán xử lý thông tin khi đầu vào là dữ liệu ngôn ngữ “văn bản”.

Trang 6

 Sự ra đời của Internet và sự bùng nổ thông tin.

 Các dữ liệu liên quan đến ngôn ngữ viết (text) đang trở

thành kiểu dữ liệu chính con người có và lưu trữ.

 Đặc điểm chính của các kiểu dữ liệu này là không có cấu trúc (non-structured) và bán cấu trúc (semi-structured).

 Nhu cầu tìm kiếm và thu thập tri thức của con người.

 Ngày càng cao.

 Ngày càng phức tạp.

Trang 7

CÁC BÀI TOÁN XỬ LÝ VĂN BẢN

Phân tích hình thái

(Morpholigical analysis)

Phân tích cú pháp (Grammar analysis)

Kiểm lỗi chính tả (Check spelling)

Phân loại văn bản

(Document Clustering)

Tóm tắt văn bản (Text Summarization)

Khai phá văn bản và WEB (Text & Web Mining)

Trang 8

BIỂU DIỄN VĂN BẢN (1/5)

 Mỗi văn bản được biểu diễn bằng một vector Boolean hoặc

vector số.

 Các vector này sau đó được nhúng(được biểu diễn) trong một không gian, mỗi chiều tương ứng với một từ mục trong tập các văn bản.

Trang 9

Doc1: Computing is not about computers anymore It is about live.

Doc2: To live is to compute.

Từ mục Vector 1 Vector 2

about any compute is it live more not to

212211110

001101002

Trang 10

Corpus D gồm m văn bản: D = {d1, d2, dm}

Mỗi văn bản là một vector từ mục T: T = {t1, t2, tn}

W = (wij) là ma trận trọng số, trong đó wij là giá trị của từ

mục ti trong văn bản dj.

Sinh ma trận W theo hai mô hình:

- Mô hình Boolean (Boolean model)

- Mô hình tần số (Frequency Model)

Trang 11

0 0 1 1 0 1 0 0 1

Trang 12

 tf – Term Frequency

Đối với mỗi từ mục t trong văn bản d:

 idf – Inverse Document Frequency

Trang 13

TÌNH HÌNH NGHIÊN CỨU BÀI TOÁN

- Nghiên cứu tập trung

hướng khai phá văn bản

và khai phá Web và kết

hợp với Web ngữ nghĩa

(Semantic Web)

Trang 14

TÌNH HÌNH NGHIÊN CỨU BÀI TOÁN

XỬ LÝ VĂN BẢN (2/2)

- 2005 trở về trước: Tập trung

chủ yếu vào nhận diện văn bản,

bộ gõ chữ Việt, Việt hóa PM…

- 2006 đến nay: Hướng nghiên

cứu được mở rộng, và đạt

được một số thành tựu

- Các bài toán cơ bản còn chưa

có giải pháp hiệu quả.

- Web & Text Mining được quan

tâm Tuy nhiên chỉ dừng ở mức

nghiên cứu.

Trang 15

2 BÀI TOÁN TÁCH TỪ TIẾNG VIỆT

(VIETNAMESE WORD SEGMENTATION)

Trang 16

BÀI TOÁN TÁCH TỪ TIẾNG VIỆT (1/4)

 Từ(word – term) là đơn vị nhỏ nhất trong chuỗi lời nói (Hy Lạp cổ

đại).

 Từ là đơn vị cơ bản của ngôn ngữ, có thể tách khỏi các đơn vị

khác của lời nói để vận dụng một cách độc lập và là một khối

hoàn chỉnh về mặt ý nghĩa và cấu tạo (Theo Nguyễn Kim Thản)

(*) Theo Lê Hồng Phương (A Hybrid Approach to Word Segmentation of Vietnamese Text)

Trang 17

- Trong hầu hết các bài toán xử lý văn bản, tách từ là một

trong những khâu đầu tiên phải thực hiện.

- Tách từ tốt tạo điều kiện cho các bước sau được thực hiện hiệu quả và chính xác

Trang 18

 Cho một đoạn văn bản tiếng Việt

 Tìm và chia đoạn văn bản thành các từ tiếng Việt.

 Đếm tần suất xuất hiện của mỗi từ trong đoạn văn bản đó.

Trang 19

 Không như nhiều nước cùng hệ ngôn ngữ Latin, từ trong câu tiếng Việt không được phân cách bởi dấu cách trắng.

 Nhập nhằng về ranh giới các từ trong câu:

 Nhập nhằng chéo (Chưa có cách giải quyết hữu hiệu)

VD: Con ngựa đá đá con ngựa đá; Bàn là công cụ học tập.

 Nhập nhằng chồng (Phổ biến hơn nhiều)

VD: Tốc độ truyền thông tin ngày càng cao

 Chưa xây dựng được nguồn ngữ liệu chuẩn.

Trang 20

3 GIẢI PHÁP CHO BÀI TOÁN TÁCH

TỪ TIẾNG VIỆT

Trang 21

CÁC HƯỚNG TIẾP CẬN

Trang 22

TIẾP CẬN DỰA TỪ ĐIỂN

Mô tả Duyệt câu đầu vào tuần tự

từ trái sang phải, chọn từ dài nhất nếu từ đó có trong từ điển

Tạo ra tât cả các phân đoạn có thể cho một câu bất kỳ, sau đó câu được chọn là câu có ít từ nhất

Ưu điểm Đơn giản, rất dễ cài đặt Đơn giản, rất dễ cài đặt.Nhược điểm Sai các TH nhập nhằng:

Đó là cách truyền_thông tin

Khi có nhiều cách phân chia cùng số từ

Học_sinh học sinh_học.Học sinh_học sinh_học

Trang 23

TIẾP CẬN DỰA THỐNG KÊ (1/2)

- Mô hình ngôn ngữ N-Gram thể hiện khá tốt mối quan hệ của ngữ cảnh

Trong mô hình này, mỗi từ được coi là phụ thuộc xác suất vào n-1 từ trước nó

- Đối với mỗi câu, phân đoạn từ là tốt nhất là phân đoạn có xác suất P(W) lớn nhất Bài toán đưa về tìm ước lượng giá trị cực đại cho P(W)

- Vấn đề là chọn N sao cho thích hợp, và tìm độ đo tốt trong ngữ liệu thống

kê (tần suất xuất hiện…)

Trang 24

TIẾP CẬN DỰA THỐNG KÊ (2/2)

- Nhược điểm: phụ thuộc quá nhiều vào ngữ liệu huấn luyện

- Việc xây dựng ngữ liệu lớn không hề đơn giản

Mô hình N-Gram

Trang 26

TIẾP CẬN LAI (2/4)

Bước 1: Xây dựng Ôtômát âm tiết và sau đó là Ôtômát từ vựng

(*) Theo Lê Hồng Phương (A Hybrid Approach to Word Segmentation of Vietnamese Text)

Trang 27

TIẾP CẬN LAI (3/4)

Bước 2: Tìm đường đi ngắn nhất trên Ôtômát từ vựng vừa xây dựng

- Dựa trên một nhận xét rằng: “trong thực tế thì cách phân đoạn câu đúng đắn nhất thường ứng với đường đi qua ít cung trên đồ thị nhất”.

- Bài toán phân đoạn từ theo so khớp cực đại (MM) được quy về bài toán tìm đường đi

ngắn nhất trên đồ thị có hướng không có trọng số.

Trang 29

CHƯƠNG TRÌNH DEMO

vnTokenizer 4.1.1c (04/08/2010)

•Download: Binary, Source [Userguide]

•This is the core package of vnTokenizer, it has no GUI

•A program for evaluating the accuracy of a tokenizer is vnTokenizerTester

Trang 30

XIN CHÂN THÀNH CẢM ƠN!

Định dạng
Số trang	30
Dung lượng	3,47 MB