Microsoft Word Kien ver1 doc 1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Trung Kiên PHÂN ĐOẠN TỪ TIẾNG VIỆT SỬ DỤNG MÔ HÌNH CRFs KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI Ngành Công nghệ[.]
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Trung Kiên PHÂN ĐOẠN TỪ TIẾNG VIỆT SỬ DỤNG MƠ HÌNH CRFs KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI Ngành: Cơng nghệ thơng tin HÀ NỘI - 2006 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Trung kiên PHÂN ĐOẠN TỪ TIẾNG VIỆT SỬ DỤNG MƠ HÌNH CRFs KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI Ngành: Cơng nghệ thơng tin Cán hướng dẫn: TS Hà Quang Thụy Cán đồng hướng dẫn: TS Nguyễn Lê Minh HÀ NỘI - 2006 Lời cảm ơn Trước tiên, em muốn gửi lời cảm ơn sâu sắc đến thầy giáo, TS Hà Quang Thụy, TS Nguyễn Lê Minh, ThS Phan Xuân Hiếu CN Nguyễn Cẩm Tú, CN Nguyễn Việt Cường, người tận tình hướng dẫn em suốt q trình nghiên cứu Khoa học làm khóa luận tốt nghiệp Em xin bày tỏ lời cảm ơn sâu sắc đến thầy cô giáo giảng dạy em bốn năm qua, kiến thức mà em nhận giảng đường đại học hành trang giúp em vững bước tương lai Em muốn gửi lời cảm ơn đến anh chị thầy nhóm seminar “Khai phá liệu” cho em lời khuyên bổ ích chun mơn q trình nghiên cứu Cuối cùng, em muốn gửi lời cảm ơn sâu sắc đến tất bạn bè, đặc biệt cha mẹ chị gái, người kịp thời động viên giúp đỡ em vượt qua khó khăn sống Sinh viên Nguyễn Trung Kiên i Tóm tắt Phân đoạn từ bước trích chọn thơng tin từ văn xử lý ngôn ngữ tự nhiên Trong tiếng Việt, tốn phân đoạn từ dùng cho máy tìm kiếm tiếng Việt, dịch tự động, kiểm tra tả tiếng Việt…Hiện toán phân đoạn từ tiếng Việt nghiên cứu, triển khai nhiều cá nhân, tổ chức ngồi nước Trong khóa luận này, em xin trình bày giải pháp cho tốn phân đoạn từ tiếng Việt Sau tìm hiểu đặc điểm từ vựng tiếng Việt, xem xét phương pháp phân đoạn từ tiếng Việt nay, em chọn phương pháp tiếp cận học máy cách xây dựng hệ thống phân đoạn từ tiếng Việt dựa mơ hình Conditional random fields (CRFs - Laferty, 2001) Ưu điểm mơ hình mạnh xử lý liệu dạng chuỗi, với khả tính hợp nhiều đặc điểm khác rút từ tập liệu, hỗ trợ tốt cho toán phân đoạn từ Kết thử nghiệm văn ii Mục lục Lời cảm ơn i Tóm tắt ii Mục lục iii Bảng từ viết tắt vi Lời nói đầu Bài toán phân đoạn từ tiếng Việt Mục tiêu khóa luận Ý nghĩa đóng góp khóa luận Cấu trúc khóa luận Chương Phân đoạn từ tiếng Việt 1.1 Từ vựng tiếng Việt 1.1.1 Tiếng – đơn vị cấu tạo lên từ 1.1.1.1 Khái niệm 1.1.1.2 Phân loại 1.1.1.3 Mơ hình tiếng tiếng Việt thành tố 1.1.2 Cấu tạo từ .6 1.1.2.1 Từ đơn 1.1.2.2 Từ ghép 1.1.2.3 Từ láy 1.1.3 Nhập nhằng 1.2 Phân đoạn từ tiếng Việt máy tính .8 1.2.1 Phương pháp Maximum Matching 1.2.2 Phương pháp TBL 10 1.2.3 Phương pháp WFST 11 1.3 Phương pháp tiếp cận khóa luận 13 1.4 Tổng kết chương .14 Chương Conditional Random Field .15 iii 2.1 Định nghĩa CRF 16 2.2 Huấn luyện CRF .19 2.3 Suy diễn CRF 21 2.4 Tổng kết chương .22 Chương Phân đoạn từ tiếng Việt với mơ hình CRF .23 3.1 Mô tả toán phận đoạn từ tiếng Việt 23 3.1.1 Thu thập liệu 23 3.1.2 Chuẩn bị liệu 24 3.1.3 Đầu vào đầu mô hình CRFs 25 3.2 Lựa chọn thuộc tính 26 3.2.1 Mẫu ngữ cảnh từ điển .27 3.2.2 Mẫu ngữ cảnh từ vựng .27 3.2.3 Mẫu ngữ cảnh phát tên thực thể 28 3.2.4 Mẫu ngữ cảnh phát từ láy 28 3.2.5 Mẫu ngữ cảnh âm tiết tiếng Việt 28 3.2.6 Mẫu ngữ cảnh dạng regular expression .28 3.3 Cách đánh giá 29 3.3.1 Phương pháp đánh giá 29 3.3.2 Các đại lượng đo độ xác 29 3.4 Tổng kết chương .31 Chương Thử nghiệm đánh giá 32 4.1 Môi trường thử nghiệm 32 4.1.1 Phần cứng 32 4.1.2 Phần mềm 32 4.2 Mô tả thử nghiệm 32 4.2.1 Thiết lập tham số 32 4.2.2 Mô tả thử nghiệm .33 4.3 Kết thử nghiệm 34 4.3.1 Thử nghiệm .34 4.3.2 Thử nghiệm .35 iv 4.3.2.1 Kết lần thử nghiệm 35 4.3.2.2 Lần thử nghiệm cho kết tốt 35 4.3.2.3 Trung bình lần thực nghiệm .36 4.3.3 Thử nghiệm .37 4.3.2.1 Kết lần thử nghiệm 37 4.3.2.2 Lần thử nghiệm cho kết tốt 38 4.3.2.3 Trung bình lần thực nghiệm .39 4.3.4 Thử nghiệm .39 4.3.2.1 Kết lần thử nghiệm 39 4.3.2.2 Lần thử nghiệm cho kết tốt 39 4.3.2.3 Trung bình lần thực nghiệm .39 4.3.5 Thử nghiệm .39 4.3.2.1 Kết lần thử nghiệm 39 4.3.2.2 Lần thử nghiệm cho kết tốt 40 4.3.2.3 Trung bình lần thực nghiệm .40 4.4 Phân tích thảo luận kết thử nghiệm .40 4.5 Tổng kết chương .40 Phần kết luận 41 Tổng kết công việc làm đóng góp luận văn 41 Hướng nghiên cứu 41 Tài liệu tham khảo 43 v Bảng từ viết tắt Từ cụm từ Viết tắt Conditional Random Field CRF Mơ hình Markov cực đại hóa entropy MEMM Limited-memory Broyden-FletcherGoldfarb-Shanno L-BFGS vi Lời nói đầu Trong năm gần đây, với bùng nổ thơng tin tồn cầu, lượng thơng tin văn web tiếng Việt tăng lên nhanh chóng Đây thực nguồn thơng tin đầy tiềm cần khai thác Nếu sử dụng chúng để xây dựng sơ tri thức tiếng Việt ta có sở tri thức có giá trị Song việc tới thách thức Trong nỗ lực xây dựng sở tri thức tiếng Việt việc hiểu văn tiếng Việt, tóm tắt văn tiếng Việt, hay phân loại văn tiếng Việt…là cơng việc khơng thể thiếu Chính lý đó, Bộ Khoa học - Cơng nghệ phê duyệt đề tài cấp nhà nước với tên gọi "Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt" năm 2006 Một dạng điển hình kết đề tài công cụ dùng để xử lý văn (tiếng Việt) kiểm lỗi tả, phân tách từ, xác định loại từ, phân tích cú pháp Cơng việc có tính tiên phân đoạn từ tiếng Việt Ý thức lợi ích việc xây dựng sở tri thức tiếng Việt nói chung tốn phân đoạn từ tiếng Việt nói riêng, em chọn hướng nghiên cứu khóa luận xây dựng hệ thống phân đoạn từ tiếng Việt Bài tốn phân đoạn từ tiếng Việt Ta hiểu đơn giản toán phân đoạn từ tiếng Việt cho trước văn tiếng Việt, ta cần xác định văn ranh giới từ câu Nhưng khác với số tiếng nước tiếng Anh, tiếng Việt ranh giới từ nhiều trường hợp dấu cách trống Ví dụ, câu nói “phân đoạn từ tiếng Việt tốn quan trọng”, thấy dấu cách trống dấu hiệu để nhận ranh giới từ Mục tiêu khóa luận Trong khóa luận này, mục tiêu đưa hệ thống phân đoạn từ với độ xác cao Hệ thống phải thể ưu điểm so với phương pháp có đưa vào ứng dụng được, nhằm vào mục tiêu xây dựng sở tri thức tiếng Việt Để làm điều đó, trước hết ta cần xây dựng convert liệu dạng chuẩn phục vụ việc học máy Đó chuỗi trình xử lý liệu: từ việc ghi lại từ internet nguồn khác, trính rút nội dung chính, phân đoạn từ bán tự động, đến việc chuyển liệu xử lý dạng chuẩn iob2 Tiếp theo mục tiêu khóa luận phải đưa lựa chọn thuộc tính tốt cho học máy Đó việc áp dụng mơ hình CRFs với đặc điểm riêng tiếng Việt, hồn tồn khác với mơ hình có tiếng Anh, tiếng Trung, Thái Lan… Ý nghĩa đóng góp khóa luận Trong khóa luận đưa hướng tiếp cận cho toán phân đoạn từ tiếng Việt Và nên tảng cho phương pháp sau Ta tiếp tục phát triển, cải tiến kết khóa luận Ngồi kết khóa luận dùng để so sánh với phương pháp khác để thấy tính vượt trội phương pháp Cũng khóa luận này, em xây dựng liệu chuẩn phong phú Dữ liệu khơng dùng khóa luận mà nhóm nghiên cứu khác tận dụng nhằm tăng đán kể lượng liệu dùng cho học máy Hơn nữa, ta xây dựng hệ thống phân đoạn tiếng Việt tốt để hỗ trợ nhiều lĩnh vực khác • Hỗ trợ máy tìm kiếm tiếng Việt: máy tìm kiếm thường phải xác định từ quan trọng văn Việc phân đoạn từ tiếng Việt giúp máy tìm kiểm trả lại kết xác cho người dùng • Xử lý ngơn ngữ tự nhiên, ví dụ dịch tự động Chúng ta biết từ đơn vị xử lý ngôn ngữ tự nhiên, nên việc phân đoạn từ bước xử lý Trong dịch tự động, cần phải xác định ranh giới từ văn cần dịch, từ tiến hành xử lý cần thiết để dịch sang ngôn ngữ khác Recall = c N Precision = F= (4.1) c n (4.2) x Recall x Precision Recall + Precision (4.3) Trong • Kí hiệu c số lượng từ hệ thống phân đoạn • Kí hiệu N số lượng từ văn • Kí hiệu n số lượng từ hệ thống phân đoạn Sau có độ đo, ta tính kết trung bình cho độ đo bước lặp tương ứng Có loại kết trung bình Avg1 Avg2: • Kết trung bình loại Avg1 cho độ đo số tính trung bình cộng độ đo tương ứng • Kết trung bình loại Avg2 kết tính kết tổng thể Trong tường hợp độ đo tính dựa từ kết trung bình loại Avg2 kết trung bình loại Avg1 Ví dụ ta cần phân đoạn văn có 100 từ, hệ thống phân đoạn 102 từ có 90 từ phân đoạn độ đo tính là: Recall = 90 = 90% 100 Precision = F= 90 = 88% 102 × 90% × 88% = 88,98 % 90% + 88% Trong tốn phân đoạn từ ta đánh giá độ xác dựa nhãn dựa từ Độ xác dựa nhãn tính đến độ xác việc gán nhãn cho âm tiết Độ xác dựa từ đánh giá tính xác hệ thống việc phân đoạn từ, số dựa từ có ý nghĩa tốn phân đoạn Ví 30 dụ: từ “bộ giáo dục” gán nhãn “B_W B_W O” nhãn phải “B_W B_W I_W” độ xác tính theo nhãn 2/3, độ xác theo từ 1/2 3.4 Tổng kết chương Chương trình bày trình chuẩn bị liệu việc xây dựng ngữ cảnh lựa chọn thuộc tính cho mơ hình CRF, đồng thời đưa cách đánh giá mơ hình Chương trình bày kết việc áp dụng mơ hình CRF vào toán phân đoạn từ tiếng Việt 31 Chương Thử nghiệm đánh giá Việc xây dựng hệ thống phân đoạn từ tiếng Việt góp phần quan trọng vào việc xây dựng sở tri thức tiếng Việt Tuy toán phân đoạn từ toán xử lý ngôn ngữ tự nhiên, tiếng Việt lại tốn khơng đơn giản Mặc dù khó khăn đặc thù tiếng Việt, thử nghiệm ban đầu em cho tiếng Việt đạt số kết đáng khích lệ 4.1 Mơi trường thử nghiệm 4.1.1 Phần cứng Máy tính IBM, chip Intel Pentium CPU 2.40GHz, RAM 382 MB 4.1.2 Phần mềm FlexCRFs CRF Framework cho toán gán nhãn liệu liệu dạng chuỗi POS tagger, Noun Phrase Chunking, Word Segmentation Đây công cụ mã nguồn mở phát triển ThS Phan Xuân Hiếu TS Nguyễn Lê Minh (Viện JAIST-Nhật Bản) WordMatching phần mềm phân đoạn từ tiếng Việt sử dụng phương pháp Maximum Matching với từ điển Phần mềm phát triển CN Nguyễn Cẩm Tú (ĐH Công Nghệ, ĐH Quốc Gia HN) 4.2 Mô tả thử nghiệm 4.2.1 Thiết lập tham số Các tham số tùy chọn dùng FlexCRFs Framework thiết lập sau Bảng 10: Các tham số huấn luyện dùng tron FlexCRFs Tham số Giá trị init_lamda_val num_iterations 150 Ý nghĩa Giá trị khởi tạo cho tham số mơ hình Số bước lặp huấn luyện 32 f_rare_threshold cp_rare_threshold eps_log_likelihood Chỉ có thuộc tính có tần số xuất lớn giá trị tích hợp vào mơ hình CRF Chỉ có mẫu vị từ ngữ cảnh có tần số xuất lớn giá trị tích hợp vào mơ hình CRF 0.01 Giá trị cho ta điều kiện dừng vòng lặp huấn luyện, |log_likelihood(t)log_likelihood(t-1)|