Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 15 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
15
Dung lượng
672,24 KB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH Trường Đại Học Công Nghệ Thông Tin BÀI THU HOẠCH Môn: Khai phá liệu kho liệu Tìm hiểu vài phương pháp tách từ văn tiếng việt Giảng viên: PGS.TS Đỗ Phúc Sinh viên thực hiện: Nguyễn Xuân Nghĩa – CH1101108 HCM Tháng 11 năm 2012 Trang Mục lục Tổng quan I Đặt vấn đề Tách từ tiếng Việt Các phương pháp tách từ II Vấn đề tách từ tiếng Việt a So sánh tiếng Anh tiếng Việt b Nhận xét Các hướng tiếp cận kĩ thuật tách từ tiếng Việt c Hướng tiếp cận dựa từ (Word-based approaches) d Hướng tiếp cận dựa kí tự Một số phương pháp tách từ tiếng Việt a So khớp từ dài (Longest Matching) b Học dựa cải biến (Transformation-based Learning -TBL) c Chuyển đổi trạng thái trọng số hữu hạn (Weighted- Finite State Transducer- WFST) d Phương pháp tách từ dựa thống kê từ Internet giải thuật di truyền (Internet and Genetics Algorithm-based Text Categorization for Documents in Vietnamese - IGATEC) Kết luận 11 Demo chương trình tách từ văn tiếng việt 12 III a Chuyển đổi từ file: 12 b Chuyển đổi nhiều file cùng thư mục: 14 Trang I Tổng quan Đặt vấn đề Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) nhánh trí tuệ nhân tạo tập trung vào ứng dụng ngơn ngữ người Trong trí tuệ nhân tạo xử lý ngơn ngữ tự nhiên phần khó liên quan đến việc phải hiểu ý nghĩa ngơn ngữ-cơng cụ hồn hảo tư giao tiếp Thực chất xử lý ngôn ngữ tự nhiên chuyển đổi âm thành ngữ nghĩa Với mục đích hiểu ngơn ngữ, ý nghĩa Các bước phân tích xử lý ngơn ngữ tự nhiên: • Phân tích hình thái học (Morphology): cách từ xây dụng, tiền tố hậu tố • Phân tích cú pháp (Syntax): mối liên hệ cấu trúc ngữ pháp từ ngữ • Phân tích ngữ nghĩa (Semantics ): nghĩa từ, cụm từ cách diễn đạt • Diễn ngơn (Discourse): quan hệ ý câu • Thực chứng: mục đích phát ngơn, cách sử dụng ngơn ngữ giao tiếp • Tri thức giới: Các tri thức giới vá tri thức ngầm Trong phân tích hình thái học từ phân tích ký tự khơng phải chữ (như dấu câu) tách khỏi từ Trong tiếng Anh nhiều ngôn ngữ khác, từ phân tách với dấu cách Tuy nhiên tiếng Việt, dấu cách dùng để phân tách tiếng (âm tiết) từ Cùng với ngôn ngữ tiếng Trung, tiếng Hàn, tiếng Nhật, phân tách từ tiếng Việt công việc không đơn giản Tách từ tiếng Việt Đối với tiếng Anh ngôn ngữ không đơn lập khác “từ nhóm kí tự có nghĩa tách biệt khoảng trắng câu” việc tách từ trở nên đơn giản Còn ngôn ngữ đơn lập tiếng Việt, tiếng Hán, tiếng Thái … lại tốn khó Bởi đặc tính ngơn ngữ đơn lập sau: • Từ dạng nguyên thể, hình thức ý nghĩa từ độc lập với cú pháp • Từ cấu trúc từ tiếng • Từ bao gồm từ đơn từ phức (bao gồm từ láy từ ghép) Phương pháp tách tách từ tiếng Việt dựa thống kê từ Internet hướng tiếp cận tách từ với mục đích phân loại văn mà không cần dùng đến từ điển hay tập ngữ liệu học Trang II Các phương pháp tách từ Vấn đề tách từ tiếng Việt a So sánh tiếng Anh tiếng Việt Những đặc điểm tiếng anh tiếng Việt: Tiếng Việt ➢ ➢ ➢ ➢ ➢ Tiếng Anh - Là ngơn ngữ đơn lập (isolate) hay cịn ➢ - Là ngơn ngữ khơng đơn lập- loại hình gọi loại hình phi hình thái, khơng biến biến cách hay cịn gọi loại hình chiết hình, đơn âm tiết khuất - Từ khơng biến đổi hình thái, ý nghĩa ➢ - Từ có biến đổi hình thái, ý nghĩa ngữ ngữ pháp nằm từ pháp nằm từ - Phương thức ngữ pháp chủ yếu : trật tự ➢ - Phương thức ngữ pháp chủ yếu phụ từ hư từ tố - Ranh giới từ không xác định mặc ➢ - Kết hợp hình vị chặt chẽ, nhiên khoảng trắng khó xác định, nhận diện - Tồn loại từ đặc biệt “từ loại” khoảng trắng dấu câu hay cịn gọi phó danh từ loại kèm ➢ - Hiện tượng cấu tạo từ ghép thêm theo với danh từ phụ tố (affix) vào từ gốc phổ biến - Có tượng láy nói lái tiếng ➢ việt ➢ b Nhận xét • Tiếng Việt loại hình phi hình thái nên việc phân loại từ (danh từ, động từ, tính từ… ) ý nghĩa từ khó khăn, cho dù có sử dụng từ điển • Việc tiền xử lý văn (tách từ, tách đoạn, tách câu…) thêm phức tạp với phần xử lý hư từ, phụ từ, từ láy… • Phương thức ngữ pháp chủ yếu trật tự từ nên áp dụng phương pháp tính xác xuất xuất từ khơng xác mong đợi • Ranh giới từ không xác định mặc định khoảng trắng Điều khiến cho việc phân tích hình thái (tách từ) tiếng Việt trỏe nên khó khăn Việc nhận diện ranh giới từ quan trọng làm tiền đề cho xử lý sau như: kiểm tra lỗi tả, gán nhãn từ loại, thống kê tần suất từ • Vì tiếng Anh tiếng Việt có điểm khác biệt nên khơng thể áp dụng y nguyên thuật toán tiếng Anh cho tiếng Việt Các hướng tiếp cận kĩ thuật tách từ tiếng Việt Dựa vào kĩ thuật tách từ tiếng Hán, điểm tương đồng tiếng Việt tiếng Hán Chúng ta xây dựng sơ đồ hướng tiếp cận kĩ thuật tách từ tiếng Việt: Trang Vietnamese segmentation Word-based Statistic Dictionary Component Shortest Match Character-based Hybrid Unigram N-gram Full word/ Phrase Longest Match Overlap Match c Hướng tiếp cận dựa từ (Word-based approaches) Hướng tiếp cận dựa từ với mục tiêu tách từ hoàn chỉnh câu Hướng tiếp cận chia theo hướng : dựa thống kê (statistics based), dựa từ điển ( dictionary – based) hydrid ( kết hợp nhiều phương pháp) • Hướng tiếp cận dựa thống kê (statistic-based): dựa thông tin tần số xuất từ tập huấn luyện ban đầu • Hướng tiếp cận dựa từ điển (dictionary- based): ý tưởng hướng tiếp cận cụm từ tách từ văn phải so khớp với từ từ điển Trang • Tùy thuộc vào loại từ điển sử dụng để so khớp lại có hướng tiếp cận: full word/ pharse component Trong full word/ pharse cần sử dụng từ điển hồn chỉnh Cịn component sử dụng từ điển thành phần • Tùy theo cách chọn so khớp từ (match) hướng tiếp cận ‘full word/ pharse’ chia làm loại: so khớp dài (longest match), so khớp ngắn (shortest match) so khớp kết hợp (overlap) Trong so khớp kết hợp chuỗi phát sinh từ văn chồng lấp lên chuỗi khác chuỗi có từ điển • Hiện hướng tiếp cận so khớp dài xem phương pháp quan trọng có hiệu hướng tiếp cận dựa từ điển • Hướng tiếp cận hybrid:Với mục đích kết hợp hướng tiếp cận khác để thừa hưởng ưu điểm nhiều kỹ thuật hướng tiếp cận khác nhằm nâng cao kết qủa Hướng tiếp cận thường kết hợp hướng dựa thống kê dựa từ điển nhằm tận dụng mặt mạnh phương pháp Tuy nhiên hướng tiếp cận Hybrid lại nhiều thời gian xử lý, khơng gian đĩa địi hỏi nhiều chi phí d Hướng tiếp cận dựa kí tự Trong tiếng việt, hình vị nhỏ “tiếng” hình thành nhiều ký tự bảng chữ Hướng tiếp cận đơn rút trích số lượng định tiếng văn rút trích từ ký tự (unigram) hay nhiều ký tự (n-gram) mang lại số kết qủa định minh chứng thông qua số cơng trình nghiên cứu cơng bố, tác giả Lê An Hà [2003] xây dựng tập ngữ liệu thô 10MB cách sử dụng phương pháp qui hoạch động để cực đại hóa xác suất xuất ngữ Rồi cơng trình nghiên cứu H Nguyễn[2005] làm theo hướng tiếp cận thay sử dụng ngữ liệu thơ, cơng trình tiếp cận theo hướng xem Internet kho ngữ liệu khổng lồ, sau tiến hành thống kê sử dụng thuật giải di truyền để tìm cách tách từ tối ưu nhất, số cơng trình số tác giả khác Khi so sánh kết qủa tác giả Lê An Hà H Nguyễn thấy cơng trình H Nguyễn cho kết tốt tiến hành tách từ, nhiên thời gian xử lý lâu Ưu điểm bật hướng tiếp cận dựa nhiều ký tự tính đơn giản, dễ ứng dụng, ngồi cịn có thuận lợi tốn chi phí cho thao tác tạo mục xử lý nhiều câu truy vấn Qua nhiều cơng trình nghiên cứu tác giả công bố, hướng tiếp cận tách từ dựa nhiều ký tự, cụ thể cách tách từ hai ký tự cho lựa chọn thích hợp Một số phương pháp tách từ tiếng Việt a So khớp từ dài (Longest Matching) Longest Matching thuật tốn dựa tử tưởng tham lam Nó xét tiếng từ trái qua phải, tiếng dài mà xuất từ điển tách làm từ Thuật toán dừng xét hết tiếng Thuật toán khơng có nhập nhằng tiếng đầu tù sau ghép với từ trước tạo thành từ có từ điển Giải thuật: V danh sách tiếng chưa xét T từ điển Trang While V≠⍉ Begin Wmax= từ đầu danh sách V; // từ dài Foreach (v thuộc từ gồm tiếng bắt đầu V) If(length(v)> length(Wmax) and v thuộc T) then Wmax= v; Loại tiếng Wmax đầu danh sách V; End Ví dụ : Tôi công dân nước Việt Nam Bước Từ dài Các tiếng cịn lại Tơi công dân nước Việt Nam Là công dân nước Việt Nam công dân nước Việt Nam nước Việt Nam Việt Nam Ưu điểm: • Tách từ nhanh đơn giản cần dựa vào từ điển • Độ xác tương đối cao Hạn chế: • Độ xác phụ thuộc vào hồn tồn vào tính đầy đủ xác từ điển Phương pháp không đạt kết cuối từ trước có liên hệ với từ sau Ví dụ : ông quan tài giỏi => ||ông|| quan tài|| giỏi b Học dựa cải biến (Transformation-based Learning -TBL) Đây cách tiếp cận dựa ngữ liệu đánh dấu Theo cách tiếp cận này, để huấn luyện cho máy tính biết cách nhận diện ranh giới từ tiếng Việt, ta cho máy “học” ngữ liệu hàng vạn câu tiếng Việt đánh dấu ranh giới từ Sau học xong, máy xác định tham số (các xác suất) cần thiết cho mơ hình nhận diện từ Ưu điểm: • • • • Đặc điểm phương pháp khả tự rút quy luật ngơn ngữ Nó có ưu điểm cách tiếp cận dựa luật khác phục khuyết điểm việc xây dựng luật cách thủ công chuyên gia Các luật thử nghiệm chỗ để đánh giá độ xác hiệu luật (dựa ngữ liệu huấn luyện) Có khả khử số nhập nhằng mơ hình ngơn ngữ theo kiểu thống kê Hạn chế: • Phương pháp “dùng ngữ liệu có gán nhãn ngơn ngữ để học tự động quy luật đó” Mà việc xây dựng tập ngữ liệu đạt đầy đủ tiêu chí Trang tập ngữ liệu tiếng Việt điểu khó, tốn nhiều mặt thời gian cơng sức • Hệ phải trải qua thời gian huấn luyện lâu để rút luật tương đối đầy đủ • Cài đặt phức tạp c Chuyển đổi trạng thái trọng số hữu hạn (Weighted- Finite State Transducer- WFST) Mơ hình mạng chuyển dịch trạng thái hữu hạn có trọng số WFST đề xuất năm 1996 Ý tưởng áp dụng WFST kết hợp với trọng số xác suất xuất từ ngữ liệu Dùng WFST để duyệt qua câu cần xét Cách duyệt có trọng số lớn cách tách từ chọn Phương pháp sử dụng cơng trình cơng bố tác giả Đinh Điền [2001], tác giả sử dụng WFST kèm với mạng Neural để khử nhập nhằng tách từ, cơng trình tác giả xây dựng hệ thống tách từ gồm tầng WFST để tách từ xử lý vấn đề liên quan đến số đặc thù riêng ngôn ngữ tiếng Việt từ láy, tên riêng, tầng mạng Neural dùng để khử nhập nhằng ngữ nghĩa sau tách từ (nếu có) Sơ đồ bước sử lý WFST ➢ Tầng WFST: gồm bước ✓ Xây dựng từ điển trọng số: theo mơ hình WFST, việc phân tách từ xem chuyển dịch trạng thái có xác suất (Stochastic Transduction) Chúng ta miêu tả từ điển D đồ thị biên độ trạng thái hữu hạn có trọng số Giả sử: - H: tập từ tả tiếng Viêt (cịn gọi “tiếng”) - P: từ loại từ (POS: part - Of – Speech) Mỗi cung D là: - Từ phần từ H tới phần từ H, Từ З (ký hiệu kết thúc từ) tới phần từ P Các nhãn D biểu thị chi phí ước lượng (estimated cost) công thức: Cost = - log(f/N) - Với f: tần số từ, N: kích thước tập mẫu Đối với trường hợp từ chưa gặp, tác giả áp dụng xác suất có điều kiện Goog – Turning (Baayen) để tính tốn trọng số ✓ Xây dụng khả phân đoạn từ: để giảm bớt bùng nổ tổ hợp sinh dãy từ từ dãy tiếng câu, tác giả đề xuất phương pháp kết hợp dùng từ điển để hạn chế sinh bùng nổ tổ hợp Khi phát thấy cách phân đoạn từ khơng phù hợp (khơng có từ điển, từ láy, danh từ riêng…) tác giả loại bỏ nhánh xuất phát từ cách phân đoạn từ Trang ✓ Lựa chọn khả phân đoạn từ tối ưu: Sau danh sách cách phân đoạn từ có câu, tác giả chọn trường hợp phân đoạn có trọng số bé sau: - Ví dụ: input = “Tốc độ truyền thơng tin cao” Bắt đầu Tiền xử lý Tiền xử lý “tốc độ” 68 “truyền” 12 31 “truyền thông” 12 31 t [nước] [rơi] [tí tách] • Xuất dạng XML: định dạng văn chuẩn XML Trang 14 Kết chương trình thực ứng với đoạn văn bản: Châu Âu Nga hợp tác chinh phục Hỏa Các quốc gia thành viên Cơ quan vũ trụ châu Âu (ESA) thông qua thỏa thuận coi Nga đối tác quan trọng sứ mệnh thám hiểm Hỏa vào năm 2016 2018 Sau Mỹ từ chối tham gia dự án thăm dò Hỏa ExoMars ESA, Nga được lựa chọn làm đối tác thay Dự án ExoMars bao gồm phóng vệ tinh tìm kiếm khí mê tan khác bầu khí Hỏa vào năm 2016 sau phóng tàu thăm dị lên bề mặt hành tinh đỏ vào năm 2018 Hôm 19/11 vừa qua, quốc gia thành viên ESA thông qua thỏa thuận hợp tác với Nga sứ mệnh thăm dò Hỏa tới, dự định bên ký kết vào cuối năm Sự hợp tác giúp dự án ExoMars ESA triển khai tiến độ dư kiến “Chúng tơi có hội khác để xem xét hợp tác, sứ mệnh thăm dò Mộc ESA phát triển tàu thăm dò Juice để khám phá Mộc, khi, Nga có kế hoạch phát triển tàu vũ trụ Ganymede để thăm dị hành tinh này”, ơng Frederic Nordlund, giám đốc quan hệ quốc tế ESA, cho biết BBC Ngồi ra, ơng Frederic Nordlund cho biết châu Âu Nga hợp tác sứ mệnh thăm dị Mặt trăng Bởi Nga phóng tàu thăm dị Mặt trăng Luna-Glob Luna-Resurs Theo thỏa thuận hợp tác Nga châu Âu, Nga đối tác cung cấp tên lửa Proton cho sứ mệnh dự án ExoMars Nga cung cấp thiết bị cho vệ tinh tàu thăm dị ESA Ngồi ra, nhà khoa học bên tiến hành khai thác liệu từ sứ mệnh Châu_Âu Nga hợp_tác chinh_phục Hỏa Các quốc_gia thành_viên Cơ_quan vũ_trụ châu Âu ( ESA ) thông_qua thỏa_thuận coi Nga đối_tác quan_trọng sứ_mệnh thám_hiểm Hỏa vào năm 2016 2018 Sau Mỹ từ_chối tham_gia dự_án thăm_dò Hỏa_Exo Mars ESA , Nga được lựa_chọn làm đối_tác thay_thế Dự_án ExoMars bao_gồm phóng vệ_tinh tìm_kiếm khí mê tan khác bầu khí_quyển Hỏa vào năm 2016 sau phóng tàu thăm_dị lên bề_mặt hành_tinh đỏ vào năm 2018 Hôm 19/11 vừa_qua , quốc_gia thành_viên ESA thông_qua thỏa_thuận hợp_tác với Nga sứ_mệnh thăm_dò Hỏa tới , dự_định bên ký_kết vào cuối năm Sự hợp_tác giúp dự_án ExoMars ESA triển_khai tiến_độ dư kiến “ Chúng_tôi có cơ_hội khác để xem_xét hợp_tác , sứ_mệnh thăm_dò Mộc ESA phát_triển tàu thăm_dò Juice để khám_phá Mộc , , Nga có kế_hoạch phát_triển tàu_vũ_trụ Ganymede để thăm_dị hành_tinh ” , ông Frederic_Nordlund , giám_đốc quan_hệ quốc_tế ESA , cho_biết BBC Ngồi_ra , ơng Frederic_Nordlund cho_biết châu Âu Nga có_thể hợp_tác sứ_mệnh thăm_dị Mặt_trăng Bởi_vì Nga phóng tàu thăm_dò Mặt_trăng Luna-Glob Luna-Resurs Theo thỏa_thuận hợp_tác Nga châu Âu , Nga có_thể đối_tác cung_cấp tên_lửa Proton cho sứ_mệnh dự_án ExoMars Nga cung_cấp thiết_bị cho vệ_tinh tàu thăm_dị ESA Ngồi_ra , nhà_khoa_học bên tiến_hành khai_thác dữ_liệu từ sứ_mệnh Trang 15 ... nghĩa từ độc lập với cú pháp • Từ cấu trúc từ tiếng • Từ bao gồm từ đơn từ phức (bao gồm từ láy từ ghép) Phương pháp tách tách từ tiếng Việt dựa thống kê từ Internet hướng tiếp cận tách từ với... loại văn mà khơng cần dùng đến từ điển hay tập ngữ liệu học Trang II Các phương pháp tách từ Vấn đề tách từ tiếng Việt a So sánh tiếng Anh tiếng Việt Những đặc điểm tiếng anh tiếng Việt: Tiếng Việt. .. I Đặt vấn đề Tách từ tiếng Việt Các phương pháp tách từ II Vấn đề tách từ tiếng Việt a So sánh tiếng Anh tiếng Việt b Nhận xét