Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 24 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
24
Dung lượng
355,5 KB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ************************************ BÀI TẬP LỚN XỬ LÝ NGÔN NGỮ TỰ NHIÊN ĐỀ TÀI: : Xây dựng bộ tách từ Tiếng Việt Hà Nội – 05/2012 Giáo viên hướng dẫn : PGS.Lê Thanh Hương Sinh viên thực hiện : Trần QuangHưng - 20071489 Nguyễn Nam Thanh - 20072552 Đỗ Quang Trường - 20063382 Võ Hải Nam - 20073735 Lớp : HTTT K52 MỤC LỤC 1 MỞ ĐẦU 3 1.1 GIỚI THIỆU 3 1.2 MỘT SỐ ĐẶC ĐIỂM CHÍNH TRONG TIẾNG VIỆT 3 1.3 ĐẶT VẤN ĐỀ 6 2 CÁC PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN 7 2.1 PHƯƠNG PHÁP MAXIMUM MATCHING : FORWARD/ BACKWARD 7 2.2 PHƯƠNG PHÁP GIẢI THUẬT HỌC CẢI BIẾN (TRANSFORMATION-BASED LEARNING,TBL). .8 2.3 MÔ HÌNH TÁCH TỪ WFST VÀ MẠNG NEURAL 9 2.4 PHƯƠNG PHÁP QUY HOẠCH ĐỘNG (DYNAMIC PROGRAMMING) 12 2.5 PHƯƠNG PHÁP TÁCH TỪ TIẾNG VIỆT DỰA TRÊN THỐNG KÊ TỪ INTERNET VÀ THUẬT TOÁN DI TRUYỀN 13 2.6 PHƯƠNG PHÁP CONDITIOANL RANDOM FIELDS 15 2.7 PHƯƠNG PHÁP TÁCH TỪ KẾT HỢP GIỮA Ô-TÔ-MÁT VÀ XÁC SUẤT THỐNG KÊ 17 3 CÀI ĐẶT 19 4 THỬ NGHIỆM VÀ ĐÁNH GIÁ 21 5 KẾT LUẬN 24 6 TÀI LIỆU THAM KHẢO 24 Phân chia công việc : Võ Hải Nam – Kiểm thử hệ thống và đưa ra giải pháp tối ưu 1 MỞ ĐẦU 1.1 GIỚI THIỆU Tách từ là một quá trình xử lý nhằm mục đích xác định ranh giới của các từ trong câu văn, cũng có thể hiểu đơn giản rằng tách từ là quá trình xác định các từ đơn, từ ghép… có trong câu. Đối với xử lý ngôn ngữ, để có thể xác định cấu trúc ngữ pháp của câu, xác định từ loại của một từ trong câu, yêu cầu nhất thiết đặt ra là phải xác định được đâu là từ trong câu. Vấn đề này tưởng chừng đơn giản với con người nhưng đối với máy tính, đây là bài toán rất khó giải quyết. Chính vì lý do đó tách từ được xem là bước xử lý quan trọng đối với các hệ thống Xử Lý Ngôn Ngữ Tự Nhiên, đặc biệt là đối với các ngôn ngữ thuộc vùng Đông Á theo loại hình ngôn ngữ đơn lập, ví dụ: tiếng Trung Quốc, tiếng Nhật, tiếng Thái, và tiếng Việt. Với các ngôn ngữ thuộc loại hình này, ranh giới từ không chỉ đơn giản là những khoảng trắng như trong các ngôn ngữ thuộc loại hình hòa kết như tiếng Anh…, mà có sự liên hệ chặt chẽ giữa các tiếng với nhau, một từ có thể cấu tạo bởi một hoặc nhiều tiếng. Vì vậy đối với các ngôn ngữ thuộc vùng Đông Á, vấn đề của bài toán tách từ là khử được sự nhập nhằng trong ranh giới từ. Một số ví dụ : -Nếu nhà máy nghỉ thì ta đi về -Ông già đi nhanh quá -Sống, chiến đấu, lao động, học tập theo gương Bác Hồ vĩ đại 1.2 MỘT SỐ ĐẶC ĐIỂM CHÍNH TRONG TIẾNG VIỆT 1.2.1 TIẾNG Về mặt ngữ âm, tiếng là âm tiết. Âm tiết bao gồm những đơn vị ở bậc thấp hơn gọi là âm vị. Mỗi âm vị được ghi bằng một ký tự gọi là chữ Trần QuangHưng - Xây dựng và code chính cho hệ thống Nguyễn Nam Thanh – Tìm hiểu các phương pháp tách từ Đỗ Quang Trường – Xây dựng cập nhật bộ từ điển Về mặt ngữ nghĩa, tiếng là đơn vị nhỏ nhất có nghĩa, nhưng cũng có một số tiếng không có nghĩa. Về mặt giá trị ngữ pháp, tiếng là đơn vị cấu tạo từ. Sử dụng tiếng việt để tạo thành từ, ta có hai trường hợp như sau: • Từ một tiếng: gọi là từ đơn. Trường hợp này một từ chỉ có duy nhất một tiếng. Ví dụ: ông, bà… • Từ hai tiếng trở lên: gọi là từ phức. Trường hợp này một từ có thể có hai hay nhiều tiếng trở lên. Ví dụ: xã hội, an ninh, hợp tác xã… 1.2.2 TỪ Có rất nhiều quan niệm về từ trong tiếng Việt , từ nhiều quan niệm về từ tiếng Việt khác nhau đó chúng ta có thể thấy đặc trưng cơ bản của "từ " là sự hoàn chỉnh về mặt nội dung, từ là đơn vị nhỏ nhất để đặt câu. Người ta dùng "từ" kết hợp thành câu chứ không phải dùng "tiếng" do đó quá trình lập chỉ mục bằng cách tách câu thành các "từ" cho kết qua tốt hơn là tách câu bằng “tiếng”. Theo trung tâm từ điển Vietlex 1 thì từ vựng trong tiếng việt có 40,181 từ, nó ngày càng được mở rộng dùng trong giao tiếp, báo chí và văn học. Những từ đó được tạo thành bởi 7,729 tiếng. Có một vài điều thú vị khi thống kê độ dài của từ với thước đo là số âm tiết như Bảng 2 -1 dưới đây. Đầu tiên có khoảng 81.55% tiếng tạo ra từ, người ta gọi đó là từ đơn; 15,69% từ là từ đơn âm tiết. Thứ hai, có 70,72% từ ghép được tạo ra từ hai âm tiết. Cuối cùng, có 13,59% từ được ghép từ ít nhất ba âm tiết; chỉ có khoảng 1,04% là trên 4 âm tiết. Độ dài Tổng số (từ) Chiếm tỷ lệ (%) 1 6,303 15,69 2 28,416 70,72 3 2,589 5,62 4 2,784 6,93 ≥5 419 1,04 1 http://www.vietlex.com.vn Tổng cộng 40,181 100 Bảng 2-1 Độ dài từ với thước đo là số âm tiết Từ một số đặc điểm giữa tiếng Việt và tiếng Anh ta có bảng so sánh dưới đây: Đặc điểm của Tiếng Việt Đặc điểm của Tiếng Anh • Được xếp là loại hình đơn lập (isolate) hay còn gọi là loại hình phi hình thái, không biến hình, đơn tiết • Từ không biến đổi hình thái, ý nghĩa ngữ pháp nằm ở ngoài từ Ví dụ : Chị ngã em nâng và Em ngã chị nâng • Phương thức ngữ pháp chủ yếu:trật tự từ và hư từ. Ví dụ: Gạo xay và Xay gạo; đang học và học rồi ; “nó bảo sao không tới”, “sao không bảo nó tới”, “sao không tới bảo nó” • Ranh giới từ không được xác định mặc nhiên bằng khoảng trắng • Tồn tại loại từ đặc biệt “ từ chỉ loại” (classifier) hay còn gọi là phó danh từ chỉ loại kèm theo với danh từ, như: cái bàn, cuốn sách, bức thư, con chó, con • Là loại hình biến cách (flexion) hay còn gọi là loại hình khuất chiết • Từ có biến đổi hình thái, ý nghĩa ngữ pháp nằm ở trong từ. Ví dụ: I see him và He sees me. • Phương thức ngữ pháp chủ yếu là : phụ tố. Ví dụ: studying và studied • Kết hợp giữa các hình vị là chặt chẽ, khó xác định, được nhận diện bằng khoảng trắng hoặc dấu câu. • Hiện tượng cấu tạo bằng từ ghép thêm phụ tố (affix) vào gốc từ là rất phổ biến. Ví dụ: anticomputerizational ( anticompute-er-ize-ation-al) sông,vì sao… • Có hiện tượng láy và nói lái trong tiếng Việt Ví dụ: lấp lánh, lung linh Hiện đại -> hại điện, thầy giáo-> tháo giầy… Bảng 2-2 So sánh tiếng Việt và tiếng Anh Nhận xét: • Tiếng Việt là loại hình phi hình thái nên việc phân biệt loại từ (danh từ, động từ, tính từ …) và ý nghĩa từ là rất khó, cho dù có sử dụng từ điển. • Việc tiền xử lý văn bản (tách từ, tách đoạn, tách câu…) sẽ thêm phức tạp với phần xử lý các hư từ, phụ từ, từ láy… • Phương thức ngữ pháp chủ yếu là trật tự từ nên nếu áp dụng phương pháp tính xác suất xuất hiện của từ có thể không chính xác như mong đợi • Ranh giới từ không được xác định mặc nhiên bằng khoảng trắng. Điều này khiến cho việc phân tích hình thái (tách từ) tiếng Việt trở nên khó khăn. Việc nhận diện ranh giới từ là quan trọng làm tiền đề cho các xử lý tiếp theo sau đó, như: kiểm lỗi chính tả, gán nhãn từ loại, thống kê tần suất từ,… • Vì giữa tiếng Anh và tiếng Việt có nhiều điểm khác biệt nên chúng ta không thể áp dụng y nguyên các thuật toán tiếng Anh cho tiếng Việt 1.3 ĐẶT VẤN ĐỀ Nhập vào một câu Tiếng Việt hoặc một văn bản Tiếng Việt bất kỳ, chương trình trả ra những đơn vị từ vựng của câu 2 CÁC PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN 2.1 PHƯƠNG PHÁP MAXIMUM MATCHING : FORWARD/ BACKWARD 2.1.1 NỘI DUNG Phương pháp khớp tối đa (Maximum Matching) còn gọi là Left Right Maximum Matching (LRMM). Theo phương pháp này, ta sẽ duyệt một cụm từ hoặc câu từ trái sang phải và chọn từ có nhiều âm tiết nhất có mặt trong từ điển, rồi cứ thể tiếp tục cho từ kế tiếp cho đến hết câu. Dạng đơn giản được dùng giải quyết nhập nhằng từ đơn. Giả sử có một chuỗi ký tự (tương đương với chuỗi âm tiết trong tiếng Việt) C1, C2, , Cn. Ta bắt đầu từ đầu chuỗi. Đầu tiên kiểm tra xem C1, có phải là từ hay không, sau đó kiểm tra xem C1C2 có phải là từ hay không. Tiếp tục tìm cho đến khi tìm được từ dài nhất. Từ có vẻ hợp lý nhất sẽ là từ dài nhất. Chọn từ đó, sau đó tìm tiếp như trên cho những từ còn lại cho đến khi xác định được toàn bộ chuỗi từ. Dạng phức tạp: Quy tắc của dạng này là phân đoạn có vẻ hợp lý nhất là đoạn ba từ với chiều dài tối đa. Thuật toán bắt đầu như dạng đơn giản. Nếu phát hiện ra những cách tách từ gây nhập nhằng (ví dụ, C1 là từ và C1C2 cũng là từ), ta xem các chữ kế tiếp để tìm tất cả các đoạn ba từ có thể có bắt đầu với C1 hoặc C1C2. Ví dụ ta được những đoạn sau: C1C2 C3 C4 C1C2 C3 C4 C5 C1C2 C3 C4 C5 C6 Chuỗi dài nhất sẽ là chuỗi thứ ba. Vậy từ đầu tiên của chuỗi thứ ba (C1C2) sẽ được chọn. Thực hiện lại các bước cho đến khi được chuỗi từ hoàn chỉnh. 2.1.2 ƯU ĐIỂM • Với cách này, ta dễ dàng tách được chính xác các ngữ/câu như “ hợp tác xã ||mua bán”, “thành lập || nước || Việt Nam || dân chủ || cộng hòa” • Cách tách từ đơn giản, nhanh, chỉ cần dựa vào từ điển • Trong tiếng Hoa, cách này đạt được độ chính xác 98,41% Error: Reference source not found 2.1.3 NHƯỢC ĐIỂM • Độ chính xác của phương pháp phụ thuộc hoàn toàn vào tính đủ và tính chính xác của từ điển • Phương pháp này sẽ tách từ sai trong các trường hợp “ học sinh || học sinh|| học”, “một || ông || quan tài || giỏi”, “trước || bàn là || một || ly || nước”… 2.2 PHƯƠNG PHÁP GIẢI THUẬT HỌC CẢI BIẾN (TRANSFORMATION-BASED LEARNING,TBL) 2.2.1 NỘI DUNG Đây là cách tiếp cận dựa trên ngữ liệu đã đánh dấu. Theo cách tiếp cận này, để huấn luyện cho máy tính biết cách nhận diện ranh giới từ tiếng Việt, ta có thể cho máy “học” trên ngữ liệu hàng vạn câu tiếng Việt đã được đánh dấu ranh giới từ đúng. Sau khi học xong, máy sẽ xác định được các tham số (các xác suất) cần thiết cho mô hình nhận diện từ. 2.2.2 ƯU ĐIỂM • Đặc điểm của phương pháp này là khả năng tự rút ra quy luật của ngôn ngữ. • Nó có những ưu điểm của cách tiếp cận dựa trên luật vì cuối cùng nó cũng dựa trên luật được rút ra) nhưng nó khắc phục được khuyết điểm của việc xây dựng các luật một cách thủ công bởi các chuyên gia. • Các luật được thử nghiệm tại chỗ để đánh giá độ chính xác và hiệu quả của luật (dựa trên ngữ liệu huấn luyện) • Có khả năng khử được một số nhập nhằng như “The singer sang a lot of a??as”, thì hệ có thể xác định được “a??as” là “arias” (dân ca) thay vì “areas” (khu vực) của các mô hình ngôn ngữ theo kiểu thống kê. 2.2.3 NHƯỢC ĐIỂM • Phương pháp này “dùng ngữ liệu có gán nhãn ngôn ngữ để học tự động các qui luật đó” Error: Reference source not found. Việc xây dựng một tập ngữ liệu đạt được đầy đủ các tiêu chí của tập ngữ liệu trong tiếng Việt là một điều rất khó, tốn kém nhiều về mặt thời gian và công sức. • Hệ phải trải qua một thời gian huấn luyện khá lâu để có thể rút ra các luật tương đối đầy đủ • Cài đặt phức tạp 2.3 MÔ HÌNH TÁCH TỪ WFST VÀ MẠNG NEURAL 2.3.1 NỘI DUNG Mô hình mạng chuyển dịch trạng thái hữu hạn có trọng số WFST (Weighted finit–state Transducer) đã được Richard W Sproat et al Error: Reference source not found áp dụng để tách từ tiếng Trung Quốc. Ý tưởng cơ bản là áp dụng WFST kết hợp với trọng số là xác suất xuất hiện của mỗi từ trong ngữ liệu. Dùng WFST để duyệt qua câu cần xét. Cách duyệt có trọng số lớn nhất (hay bé ???) sẽ là cách tách từ được chọn. Giải pháp này cũng đã được áp dụng trong Error: Reference source not found kèm với mạng neutral để khử nhập nhằng. Hệ thống tách từ tiếng Việt của Đinh Điền et al Error: Reference source not found gồm hai tầng: tầng WFST ngoài việc tách từ còn xử lý thêm các vấn đề liên quan đến đặc thù của tiếng Việt như từ láy, tên riêng… và tầng mạng neural dùng để khử nhập nhằng nếu có. Tầng WFST :gồm có ba bước Xây dựng từ điển trọng số : theo mô hình WFST, việc phân đoạn từ được xem như là một sự chuyển dịch trạng thái có xác suất (Stochastic Transduction). Chúng ta miêu tả từ điển D là một đồ thị biến đổi trạng thái hữu hạn có trọng số. Giả sử: • H: là tập các từ chính tả tiếng Việt (còn gọi là “tiếng”) • P: là từ loại của từ (POS: Part – Of – Speech). Mỗi cung của D có thể là: • Từ một phần tử của H tới một phần tử của H, hoặc • Từ ε (ký hiệu kết thúc từ) tới một phần tử của P Các nhãn trong D biểu thị một chi phí ước lượng (estimated cost) bằng công thức : Cost = - log(f/N) • Với f: tần số của từ, N: kích thước tập mẫu. Đối với các trường hợp từ mới chưa gặp, tác giả áp dụng xác suất có điều kiện Goog-Turning (Baayen) để tính toán trọng số. Xây dựng các khả năng phân đoạn từ : Để giảm sự bùng nổ tổ hợp khi sinh ra các dãy các từ có thể từ một dãy các tiếng trong câu, tác giả đề xuất một phương pháp mới là kết hợp dùng từ điển để hạn chế sinh ra các bùng nổ tổ hợp. Khi phát hiện thấy một cách phân đoạn từ nào đó không phù hợp (không có trong từ điển, không phải là từ láy, không phải là danh từ riêng…) thì tác giả loại bỏ các nhánh xuất phát từ cách phân đoạn từ đó. Lựa chọn khả năng phân đoạn từ tối ưu : Sau khi được một danh sách các cách phân đoạn từ có thể có của câu, tác giả chọn trường hợp phân đoạn từ có trọng số bé nhất như sau: • Ví dụ: input = “Tốc độ truyền thông tin sẽ tăng cao” [...]... -Tìm từ trong từ điển : ta tách mỗi câu thành danh sách các từ, với mỗi từ tìm kiếm trong từ điển với độ dài tối đa là 5 Xác định từ có thể nằm trong file dữ liệu từ điển tương ứng nào và tìm kiếm Lưu tất cả các kết quả tìm 20 được trong từ điển vào danh sách, bao gồm thông tin : từ, vị trí bắt đầu, vị trí kết thúc, danh sách các từ loại của từ -Xác định các câu từ danh sách các từ tìm được :... ĐIỂM • Trong thí nghiệm, tác giả chỉ dừng lại ở việc tách các từ có ba tiếng bởi vì tập ngữ liệu đầu vào vẫn còn khá nhỏ • Xác suất từ đúng là 51%, xác suất từ chấp nhận được 65% Error: Reference source not found Xác suất này tương đối thấp so với các phương pháp tách từ khác đã đề cập ở trên 2.5 PHƯƠNG PHÁP TÁCH TỪ TIẾNG VIỆT DỰA TRÊN THỐNG KÊ TỪ INTERNET VÀ THUẬT TOÁN DI TRUYỀN 2.5.1 NỘI DUNG Phương... định, có thể đưa ra tất cả các từ ghép có trong phần đầu của xâu vào 23 5 KẾT LUẬN Sau thời gian nghiên cứu và cài đặt chương trình tách từ cho văn bản tiếng Việt sử dụng kỹ thuật Ô-tô-mát kết hợp với xác suất thống kê, em đã có thêm rất nhiều kiến thức về bài toán tách từ tiếng việt, hiểu được bản chất của kỹ thuật Ô-tô-mát và mô hình n-gram Hệ thống tìm kiếm tài liệu tiếng Việt theo lĩnh vực chuyên sâu... nhóm chúng em sẽ sử dụng phương pháp so khớp cực đại Các bước giải quyết : -Xây dựng từ điển -Tìm từ trong từ điển : xác định tất cả các từ có trong câu - Liệt kê tất cả các câu có thể -Phân giải nhập nhằng : sử dụng phương pháp so khớp cực đại đưa ra câu có số từ ít nhất Xây dựng từ điển : bao gồm một tập các file dữ liệu từ điển dưới dạng chuẩn XML được tổ chức như sau : ... thập tài liệu Với hệ thống đã xây dựng, chúng em đã bảo vệ thành công và đạt giải nhì sinh viên nghiên cứu khoa học năm 2010, Kết quả nghiên cứu cũng đã được gửi tham gia hội nghị IEEE-RIVF 1010 Để tiếp tục nâng cao hiệu quả cho bộ tách từ, hướng phát triển tiếp theo sẽ là • Tiếp tục nghiên cứu lựa chọn ra thông số cắt cụm từ để tăng tốc độ tách từ lên một cách nhanh nhất • Tìm hiểu các phương pháp tách. .. automata) được biết đến như là sự biểu diễn tốt nhất của một từ vựng Chúng không chỉ nhỏ gọn mà còn tối ưu hóa thời gian truy cập vào tập dữ liệu Từ điển tiếng Việt được sẽ được xây dựng bằng các sử dụng một Ô-tô-mát tối thiểu để mã hóa theo giải thuật được phát triển bởi J.Daciuk et al Error: Reference source not found 2 Khi đó từ vựng tiếng việt sẽ được biểu diễn bởi một MDFA Định nghĩa một Ô-tô-mát... nhập nhằng khi các từ có câu có cùng số từ vựng -Độ chính xác của hệ thống phụ thuộc nhiều vào phong phú của từ điển -Không xử lý được các tổ hợp từ cố định, ví dụ : “ông chẳng bà chuộc”… Một số giải pháp đề xuất : -Về vấn đề xử lý nhập nhằng, có thể áp dụng thêm một số phương pháp như xử lý cú pháp, xác suất thống kê để xử lý các trường hợp nhập nhằng -Đối với các vấn đề các tổ hợp từ cố định, có thể... quan sát đầu vào 2.6.2 ƯU ĐIỂM Đạt độ chính xác khá cao (94%) 2.6.3 NHƯỢC ĐIỂM • Phải xây dựng tập huấn luyện và các model rất công phu và phức tạp Hơn nữa cách xây dựng không được nhóm tác giả đề cập tới • Thời gian load dữ liệu vào bộ nhớ tương đối lâu do tập ngữ liệu huấn luyện tương đối lớn 2.7 PHƯƠNG PHÁP TÁCH TỪ KẾT HỢP GIỮA Ô-TÔ-MÁT VÀ XÁC SUẤT THỐNG KÊ 2.7.1 NỘI DUNG Ô-tô-mát hữu hạn trạng thái... tách ngữ đó Cách tách cuối cùng là cách tách là cho cụm từ đó có xác suất cao nhất Ý tưởng của cách tách từ này cho một ngữ cần tách từ, ta phải tìm ra các tổ hợp từ tạo nên ngữ đó sao cho tổ hợp đó đạt được xác suất tối đa Tuy nhiên trong phương pháp tính toán này, tác giả gặp phải vấn đề bùng nổ tổ hợp và phân tích ngữ liệu thô Để giải quyết vấn đề trên, tác giả đã sử dụng phương pháp quy hoạch động... tách từ mới, hoặc kết hợp những phương pháp đã nêu để tăng độ chính xác và rút ngắn thời gian thực hiện 6 TÀI LIỆU THAM KHẢO • • • • Slide bài giảng môn xử lý ngôn ngữ tự nhiên ( cô Lê Thanh Hương ) http://www.loria.fr/~lehong/softwares.php ( Trang web của Lê Hồng Phương) http://vlsp.vietlp.org:8080/demo/?page=resources : một số tài nguyên cho xử lý văn bản tiếng Việt Và một số tài liệu khác từ internet . cấu tạo từ. Sử dụng tiếng việt để tạo thành từ, ta có hai trường hợp như sau: • Từ một tiếng: gọi là từ đơn. Trường hợp này một từ chỉ có duy nhất một tiếng. Ví dụ: ông, bà… • Từ hai tiếng trở. So sánh tiếng Việt và tiếng Anh Nhận xét: • Tiếng Việt là loại hình phi hình thái nên việc phân biệt loại từ (danh từ, động từ, tính từ …) và ý nghĩa từ là rất khó, cho dù có sử dụng từ điển. •. là từ phức. Trường hợp này một từ có thể có hai hay nhiều tiếng trở lên. Ví dụ: xã hội, an ninh, hợp tác xã… 1.2.2 TỪ Có rất nhiều quan niệm về từ trong tiếng Việt , từ nhiều quan niệm về từ tiếng