Mô tả chi tiết về phương pháp tách từ Tiếng Việt, kiến thức và kĩ năng tách từ Tiếng Việt. Hỗ trợ trong việc học môn học Khai phá dữ liệu. Bài toán xử lý văn bản Các vấn đề trong xử lý văn bản Mô hình hóa bài toán Tình hình nghiên cứu trên thế giới và ở Việt Nam
Trang 1VIETNAMESE WORD
SEGMENTATION PROBLEM
Trang 2NỘI DUNG
1 TỔNG QUAN VỀ BÀI TOÁN XỬ LÝ VĂN BẢN
Bài toán xử lý văn bản Các vấn đề trong xử lý văn bản
Mô hình hóa bài toán Tình hình nghiên cứu trên thế giới và ở Việt Nam
2 BÀI TOÁN TÁCH TỪ (PHÂN ĐOẠN TỪ) TIẾNG VIỆT
Vai trò trong tổng thể bài toán xử lý văn bản Những khó khăn đối với bài toán tách từ Tiếng Việt
3 GIẢI PHÁP CHO BÀI TOÁN TÁCH TỪ TIẾNG VIỆT
Các hướng tiếp cận chính Giới thiệu các thuật toán đại diện: MM, N-Gram model Chương trình demo tách từ tự động sử dụng vnTokenizer API.
Trang 31 TỔNG QUAN BÀI TOÁN XỬ LÝ
VĂN BẢN
Trang 4BÀI TOÁN XỬ LÝ VĂN BẢN (1/3)
Xử lý thông tin là quá trình biến đổi dữ liệu từ dạng này
thành dạng khác để có thể thu được thông tin và tri thức.
Trang 5BÀI TOÁN XỬ LÝ VĂN BẢN (2/3)
Xử lý văn bản (Text Processing Problem) là một phần
trong bài toán xử lý thông tin khi đầu vào là dữ liệu ngôn ngữ “văn bản”.
Trang 6BÀI TOÁN XỬ LÝ VĂN BẢN (3/3)
Sự ra đời của Internet và sự bùng nổ thông tin.
Các dữ liệu liên quan đến ngôn ngữ viết (text) đang trở
thành kiểu dữ liệu chính con người có và lưu trữ.
Đặc điểm chính của các kiểu dữ liệu này là không có cấu trúc (non-structured) và bán cấu trúc (semi-structured).
Nhu cầu tìm kiếm và thu thập tri thức của con người.
Ngày càng cao.
Ngày càng phức tạp.
Trang 7CÁC BÀI TOÁN XỬ LÝ VĂN BẢN
Phân tích hình thái
(Morpholigical analysis)
Phân tích cú pháp (Grammar analysis)
Kiểm lỗi chính tả (Check spelling)
Phân loại văn bản
(Document Clustering)
Tóm tắt văn bản (Text Summarization)
Khai phá văn bản và WEB (Text & Web Mining)
Trang 8BIỂU DIỄN VĂN BẢN (1/5)
Mỗi văn bản được biểu diễn bằng một vector Boolean hoặc
vector số.
Các vector này sau đó được nhúng(được biểu diễn) trong một không gian, mỗi chiều tương ứng với một từ mục trong tập các văn bản.
Trang 9BIỂU DIỄN VĂN BẢN (2/5)
Doc1: Computing is not about computers anymore It is about live.
Doc2: To live is to compute.
Từ mục Vector 1 Vector 2
about any compute is it live more not to
212211110
001101002
Trang 10BIỂU DIỄN VĂN BẢN (3/5)
Corpus D gồm m văn bản: D = {d1, d2, dm}
Mỗi văn bản là một vector từ mục T: T = {t1, t2, tn}
W = (wij) là ma trận trọng số, trong đó wij là giá trị của từ
mục ti trong văn bản dj.
Sinh ma trận W theo hai mô hình:
- Mô hình Boolean (Boolean model)
- Mô hình tần số (Frequency Model)
Trang 11BIỂU DIỄN VĂN BẢN (4/5)
0 0 1 1 0 1 0 0 1
Trang 12BIỂU DIỄN VĂN BẢN (5/5)
tf – Term Frequency
Đối với mỗi từ mục t trong văn bản d:
idf – Inverse Document Frequency
Trang 13TÌNH HÌNH NGHIÊN CỨU BÀI TOÁN
- Nghiên cứu tập trung
hướng khai phá văn bản
và khai phá Web và kết
hợp với Web ngữ nghĩa
(Semantic Web)
Trang 14TÌNH HÌNH NGHIÊN CỨU BÀI TOÁN
XỬ LÝ VĂN BẢN (2/2)
- 2005 trở về trước: Tập trung
chủ yếu vào nhận diện văn bản,
bộ gõ chữ Việt, Việt hóa PM…
- 2006 đến nay: Hướng nghiên
cứu được mở rộng, và đạt
được một số thành tựu
- Các bài toán cơ bản còn chưa
có giải pháp hiệu quả.
- Web & Text Mining được quan
tâm Tuy nhiên chỉ dừng ở mức
nghiên cứu.
Trang 152 BÀI TOÁN TÁCH TỪ TIẾNG VIỆT
(VIETNAMESE WORD SEGMENTATION)
Trang 16BÀI TOÁN TÁCH TỪ TIẾNG VIỆT (1/4)
Từ(word – term) là đơn vị nhỏ nhất trong chuỗi lời nói (Hy Lạp cổ
đại).
Từ là đơn vị cơ bản của ngôn ngữ, có thể tách khỏi các đơn vị
khác của lời nói để vận dụng một cách độc lập và là một khối
hoàn chỉnh về mặt ý nghĩa và cấu tạo (Theo Nguyễn Kim Thản)
(*) Theo Lê Hồng Phương (A Hybrid Approach to Word Segmentation of Vietnamese Text)
Trang 17BÀI TOÁN TÁCH TỪ TIẾNG VIỆT (2/4)
- Trong hầu hết các bài toán xử lý văn bản, tách từ là một
trong những khâu đầu tiên phải thực hiện.
- Tách từ tốt tạo điều kiện cho các bước sau được thực hiện hiệu quả và chính xác
Trang 18BÀI TOÁN TÁCH TỪ TIẾNG VIỆT (3/4)
Cho một đoạn văn bản tiếng Việt
Tìm và chia đoạn văn bản thành các từ tiếng Việt.
Đếm tần suất xuất hiện của mỗi từ trong đoạn văn bản đó.
Trang 19BÀI TOÁN TÁCH TỪ TIẾNG VIỆT (4/4)
Không như nhiều nước cùng hệ ngôn ngữ Latin, từ trong câu tiếng Việt không được phân cách bởi dấu cách trắng.
Nhập nhằng về ranh giới các từ trong câu:
Nhập nhằng chéo (Chưa có cách giải quyết hữu hiệu)
VD: Con ngựa đá đá con ngựa đá; Bàn là công cụ học tập.
Nhập nhằng chồng (Phổ biến hơn nhiều)
VD: Tốc độ truyền thông tin ngày càng cao
Chưa xây dựng được nguồn ngữ liệu chuẩn.
Trang 203 GIẢI PHÁP CHO BÀI TOÁN TÁCH
TỪ TIẾNG VIỆT
Trang 21CÁC HƯỚNG TIẾP CẬN
Trang 22TIẾP CẬN DỰA TỪ ĐIỂN
Mô tả Duyệt câu đầu vào tuần tự
từ trái sang phải, chọn từ dài nhất nếu từ đó có trong từ điển
Tạo ra tât cả các phân đoạn có thể cho một câu bất kỳ, sau đó câu được chọn là câu có ít từ nhất
Ưu điểm Đơn giản, rất dễ cài đặt Đơn giản, rất dễ cài đặt.Nhược điểm Sai các TH nhập nhằng:
Đó là cách truyền_thông tin
Khi có nhiều cách phân chia cùng số từ
Học_sinh học sinh_học.Học sinh_học sinh_học
Trang 23TIẾP CẬN DỰA THỐNG KÊ (1/2)
- Mô hình ngôn ngữ N-Gram thể hiện khá tốt mối quan hệ của ngữ cảnh
Trong mô hình này, mỗi từ được coi là phụ thuộc xác suất vào n-1 từ trước nó
- Đối với mỗi câu, phân đoạn từ là tốt nhất là phân đoạn có xác suất P(W) lớn nhất Bài toán đưa về tìm ước lượng giá trị cực đại cho P(W)
- Vấn đề là chọn N sao cho thích hợp, và tìm độ đo tốt trong ngữ liệu thống
kê (tần suất xuất hiện…)
Trang 24TIẾP CẬN DỰA THỐNG KÊ (2/2)
- Nhược điểm: phụ thuộc quá nhiều vào ngữ liệu huấn luyện
- Việc xây dựng ngữ liệu lớn không hề đơn giản
Mô hình N-Gram
Trang 26TIẾP CẬN LAI (2/4)
Bước 1: Xây dựng Ôtômát âm tiết và sau đó là Ôtômát từ vựng
(*) Theo Lê Hồng Phương (A Hybrid Approach to Word Segmentation of Vietnamese Text)
Trang 27TIẾP CẬN LAI (3/4)
Bước 2: Tìm đường đi ngắn nhất trên Ôtômát từ vựng vừa xây dựng
- Dựa trên một nhận xét rằng: “trong thực tế thì cách phân đoạn câu đúng đắn nhất thường ứng với đường đi qua ít cung trên đồ thị nhất”.
- Bài toán phân đoạn từ theo so khớp cực đại (MM) được quy về bài toán tìm đường đi
ngắn nhất trên đồ thị có hướng không có trọng số.
Trang 29CHƯƠNG TRÌNH DEMO
vnTokenizer 4.1.1c (04/08/2010)
•Download: Binary, Source [Userguide]
•This is the core package of vnTokenizer, it has no GUI
•A program for evaluating the accuracy of a tokenizer is vnTokenizerTester
Trang 30XIN CHÂN THÀNH CẢM ƠN!