Chuyên đề tách từ Tiếng Việt

30 1K 7
Chuyên đề tách từ Tiếng Việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mô tả chi tiết về phương pháp tách từ Tiếng Việt, kiến thức và kĩ năng tách từ Tiếng Việt. Hỗ trợ trong việc học môn học Khai phá dữ liệu. Bài toán xử lý văn bản Các vấn đề trong xử lý văn bản Mô hình hóa bài toán Tình hình nghiên cứu trên thế giới và ở Việt Nam

VIETNAMESE WORD SEGMENTATION PROBLEM NỘI DUNG TỔNG QUAN VỀ BÀI TỐN XỬ LÝ VĂN BẢN Bài tốn xử lý văn Các vấn đề xử lý văn Mơ hình hóa tốn Tình hình nghiên cứu giới Việt Nam BÀI TOÁN TÁCH TỪ (PHÂN ĐOẠN TỪ) TIẾNG VIỆT Vai trò tổng thể tốn xử lý văn Những khó khăn toán tách từ Tiếng Việt GIẢI PHÁP CHO BÀI TOÁN TÁCH TỪ TIẾNG VIỆT Các hướng tiếp cận Giới thiệu thuật tốn đại diện: MM, N-Gram model Chương trình demo tách từ tự động sử dụng vnTokenizer API TỔNG QUAN BÀI TOÁN XỬ LÝ VĂN BẢN BÀI TOÁN XỬ LÝ VĂN BẢN (1/3) Xử lý thơng tin q trình biến đổi liệu từ dạng thành dạng khác để thu thông tin tri thức BÀI TOÁN XỬ LÝ VĂN BẢN (2/3) Xử lý văn (Text Processing Problem) phần toán xử lý thông tin đầu vào liệu ngôn ngữ “văn bản” BÀI TOÁN XỬ LÝ VĂN BẢN (3/3)  Sự đời Internet bùng nổ thông tin  Các liệu liên quan đến ngôn ngữ viết (text) trở thành kiểu liệu người có lưu trữ  Đặc điểm kiểu liệu khơng có cấu trúc (non-structured) bán cấu trúc (semi-structured)  Nhu cầu tìm kiếm thu thập tri thức người  Ngày cao  Ngày phức tạp CÁC BÀI TỐN XỬ LÝ VĂN BẢN Phân tích hình thái (Morpholigical analysis) Phân tích cú pháp (Grammar analysis) Kiểm lỗi tả (Check spelling) Phân loại văn (Document Clustering) Tóm tắt văn (Text Summarization) Khai phá văn WEB (Text & Web Mining) BIỂU DIỄN VĂN BẢN (1/5)  Mỗi văn biểu diễn vector Boolean vector số  Các vector sau nhúng(được biểu diễn) khơng gian, chiều tương ứng với từ mục tập văn BIỂU DIỄN VĂN BẢN (2/5) Doc1: Computing is not about computers anymore It is about live Doc2: To live is to compute Từ mục Vector Vector about any compute is it live more not to 2 1 1 0 1 0 BIỂU DIỄN VĂN BẢN (3/5) Corpus D gồm m văn bản: D = {d1, d2, dm} Mỗi văn vector từ mục T: T = {t1, t2, tn} W = (wij) ma trận trọng số, wij giá trị từ mục ti văn dj Sinh ma trận W theo hai mơ hình: - Mơ hình Boolean (Boolean model) - Mơ hình tần số (Frequency Model) BÀI TOÁN TÁCH TỪ TIẾNG VIỆT (1/4)  Từ(word – term) đơn vị nhỏ chuỗi lời nói (Hy Lạp cổ đại)  Từ đơn vị ngơn ngữ, tách khỏi đơn vị khác lời nói để vận dụng cách độc lập khối hoàn chỉnh mặt ý nghĩa cấu tạo (Theo Nguyễn Kim Thản) (*) Theo Lê Hồng Phương (A Hybrid Approach to Word Segmentation of Vietnamese Text) BÀI TOÁN TÁCH TỪ TIẾNG VIỆT (2/4) - Trong hầu hết toán xử lý văn bản, tách từ khâu phải thực - Tách từ tốt tạo điều kiện cho bước sau thực hiệu xác BÀI TỐN TÁCH TỪ TIẾNG VIỆT (3/4)  Cho đoạn văn tiếng Việt  Tìm chia đoạn văn thành từ tiếng Việt  Đếm tần suất xuất từ đoạn văn BÀI TỐN TÁCH TỪ TIẾNG VIỆT (4/4)  Không nhiều nước hệ ngôn ngữ Latin, từ câu tiếng Việt không phân cách dấu cách trắng  Nhập nhằng ranh giới từ câu:  Nhập nhằng chéo (Chưa có cách giải hữu hiệu) VD: Con ngựa đá đá ngựa đá; Bàn công cụ học tập  Nhập nhằng chồng (Phổ biến nhiều) VD: Tốc độ truyền thông tin ngày cao  Chưa xây dựng nguồn ngữ liệu chuẩn GIẢI PHÁP CHO BÀI TOÁN TÁCH TỪ TIẾNG VIỆT CÁC HƯỚNG TIẾP CẬN TIẾP CẬN DỰA TỪ ĐIỂN Longest Matching - LM Maximal Matching - MM Mô tả Duyệt câu đầu vào từ trái sang phải, chọn từ dài từ có từ điển Tạo tât phân đoạn cho câu bất kỳ, sau câu chọn câu có từ Ưu điểm Đơn giản, dễ cài đặt Đơn giản, dễ cài đặt Nhược điểm Sai TH nhập nhằng: Khi có nhiều cách phân chia số từ Học_sinh học sinh_học Học sinh_học sinh_học Đó cách truyền_thơng tin TIẾP CẬN DỰA THỐNG KÊ (1/2) - Mơ hình ngơn ngữ N-Gram thể tốt mối quan hệ ngữ cảnh Trong mơ hình này, từ coi phụ thuộc xác suất vào n-1 từ trước - Đối với câu, phân đoạn từ tốt phân đoạn có xác suất P(W) lớn Bài tốn đưa tìm ước lượng giá trị cực đại cho P(W) - Vấn đề chọn N cho thích hợp, tìm độ đo tốt ngữ liệu thống kê (tần suất xuất hiện…) TIẾP CẬN DỰA THỐNG KÊ (2/2) - Nhược điểm: phụ thuộc nhiều vào ngữ liệu huấn luyện - Việc xây dựng ngữ liệu lớn khơng đơn giản Mơ hình N-Gram TIẾP CẬN LAI (1/4) Mơ hình tổng quan hướng tiếp cận kết hợp MM & N-Gram (*) Theo Lê Hồng Phương (A Hybrid Approach to Word Segmentation of Vietnamese Text) TIẾP CẬN LAI (2/4) Bước 1: Xây dựng Ơtơmát âm tiết sau Ơtơmát từ vựng (*) Theo Lê Hồng Phương (A Hybrid Approach to Word Segmentation of Vietnamese Text) TIẾP CẬN LAI (3/4) Bước 2: Tìm đường ngắn Ơtơmát từ vựng vừa xây dựng - Dựa nhận xét rằng: “trong thực tế cách phân đoạn câu đắn thường ứng với đường qua cung đồ thị nhất” - Bài tốn phân đoạn từ theo so khớp cực đại (MM) quy tốn tìm đường ngắn đồ thị có hướng khơng có trọng số TIẾP CẬN LAI (4/4) Bước 3: Ước lượng xác suất cho cách phân đoạn sử dụng giả thuyết Markov -1 Xác suất N-Gram: Xấp xỉ mơ hình dựa vào giả thuyết Markov-1: Ước lượng cực đại Maximum LikeliHood: CHƯƠNG TRÌNH DEMO Vietnamese Word Segmentation Demo vnToolkit - A General Framework for Processing of Vietnamese Texts vnTokenizer 4.1.1c (04/08/2010) •Download: Binary, Source [Userguide] •This is the core package of vnTokenizer, it has no GUI •A program for evaluating the accuracy of a tokenizer is vnTokenizerTester XIN CHÂN THÀNH CẢM ƠN! ... TOÁN TÁCH TỪ TIẾNG VIỆT (2/4) - Trong hầu hết toán xử lý văn bản, tách từ khâu phải thực - Tách từ tốt tạo điều kiện cho bước sau thực hiệu xác BÀI TOÁN TÁCH TỪ TIẾNG VIỆT (3/4)  Cho đoạn văn tiếng. .. đoạn văn tiếng Việt  Tìm chia đoạn văn thành từ tiếng Việt  Đếm tần suất xuất từ đoạn văn BÀI TỐN TÁCH TỪ TIẾNG VIỆT (4/4)  Không nhiều nước hệ ngôn ngữ Latin, từ câu tiếng Việt không phân... văn Các vấn đề xử lý văn Mơ hình hóa tốn Tình hình nghiên cứu giới Việt Nam BÀI TOÁN TÁCH TỪ (PHÂN ĐOẠN TỪ) TIẾNG VIỆT Vai trị tổng thể tốn xử lý văn Những khó khăn tốn tách từ Tiếng Việt GIẢI

Ngày đăng: 06/10/2014, 14:40

Mục lục

  • VIETNAMESE WORD SEGMENTATION PROBLEM

  • NỘI DUNG

  • 1. TỔNG QUAN BÀI TOÁN XỬ LÝ VĂN BẢN

  • BÀI TOÁN XỬ LÝ VĂN BẢN (1/3)

  • BÀI TOÁN XỬ LÝ VĂN BẢN (2/3)

  • BÀI TOÁN XỬ LÝ VĂN BẢN (3/3)

  • CÁC BÀI TOÁN XỬ LÝ VĂN BẢN

  • BIỂU DIỄN VĂN BẢN (1/5)

  • BIỂU DIỄN VĂN BẢN (2/5)

  • BIỂU DIỄN VĂN BẢN (3/5)

  • BIỂU DIỄN VĂN BẢN (4/5)

  • BIỂU DIỄN VĂN BẢN (5/5)

  • TÌNH HÌNH NGHIÊN CỨU BÀI TOÁN XỬ LÝ VĂN BẢN (1/2)

  • TÌNH HÌNH NGHIÊN CỨU BÀI TOÁN XỬ LÝ VĂN BẢN (2/2)

  • 2. BÀI TOÁN TÁCH TỪ TIẾNG VIỆT (VIETNAMESE WORD SEGMENTATION)

  • BÀI TOÁN TÁCH TỪ TIẾNG VIỆT (1/4)

  • BÀI TOÁN TÁCH TỪ TIẾNG VIỆT (2/4)

  • BÀI TOÁN TÁCH TỪ TIẾNG VIỆT (3/4)

  • BÀI TOÁN TÁCH TỪ TIẾNG VIỆT (4/4)

  • 3. GIẢI PHÁP CHO BÀI TOÁN TÁCH TỪ TIẾNG VIỆT

Tài liệu cùng người dùng

Tài liệu liên quan