Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
7,47 MB
Nội dung
Header Page of 161 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA - NGUYỄN TOÀN ANH NGHIÊNCỨUCÁCGIẢIPHÁPTẠONGUỒNTÀINGUYÊNDỮLIỆULỚNPHỤCVỤXỬLÝNGÔNNGỮTỰ NHIÊN Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 Khoá: K30 TÓM TẮT LUẬN VĂN THẠC SĨ Đà Nẵng, tháng 12 năm 2016 Footer Page of 161 Header Page of 161 Công trình hoàn thành TRƯỜNG ĐẠI HỌC BÁCH KHOA Người hướng dẫn khoa học: PGS.TS Huỳnh Công Pháp Phản biện 1: TS Nguyễn Văn Hiệu Đại học Bách khoa - Đại học Đà Nẵng Phản biện 2: PGS.TS Lê Văn Sơn Đại học Sư phạm - Đại học Đà Nẵng Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ ngành Khoa học máy tính họp Trường Đại học Bách khoa Đà Nẵng vào ngày tháng năm 2017 Có thể tìm hiểu luận văn tại: - Trung tâm học liệu, Đại học Đà Nẵng trường Đại học Bách Khoa - Thư viện khoa Công nghệ thông tin, trường Đại học Bách Khoa - ĐHĐN Footer Page of 161 Header Page of 161 MỞ ĐẦU Lý chọn đề tài Ngày nay, bên cạnh hội nhập với Quốc tế đất nước chúng ta, Công nghệ thông tin không ngừng phát triển Với đời máy tính điện tử kết nối toàn cầu thông qua Internet tạo lượng thông tin khổng lồ với nhiều ngônngữ khác nhau, đặc biệt tiếng Anh Tuy nhiên, rào cản mặt ngônngữ khối lượng lớn thông tin chưa xửlý triệt để, chưa cấu trúc lại, hệ thống lại để tạo thành nguồntàinguyênliệungônngữtự nhiên nhằm phụcvụ cho việc đào tạo, dạy học, nghiêncứu xỷ lýngônngữXửlýngônngữtự nhiên kĩ thuật quan trọng nhằm giúp máy tính hiểu ngônngữ người, qua hướng dẫn máy tính thực giúp đỡ người công việc có liên quan đến ngônngữ như: dịch thuật, phân tích liệu văn bản, phân loại văn bản, tóm tắc văn bản, tìm kiếm thông tin,… Xửlýngônngữtự nhiên đóng vai trò quan trọng việc đẩy mạnh phát triển Công Nghệ Thông Tin Việt Nam Tuy nhiên, xửlýngônngữtự nhiên vấp phải khó khăn, mà khó khăn lớn phải nói đến nguồntàinguyênliệungôn ngữ, đặc biệt nguồntàinguyên song ngữCácnguồntàinguyên thường không đủlớn mang tính cục bộ, sử dụng lĩnh vực hay nơi Chưa kể đến nguồntàinguyên tồn dạng website song ngữ, website phụcvụ cho mục đích đọc người dùng, chưa sử dụng khai thác để xửlýngônngữtự nhiên Ngoài có nhiều nguyên nhân khác như: Hệ thống dịch chất lượng, kích thước từ điển hạn chế Hiện tồn nhiều từ điển Tiếng Việt chưa đặt hiệu việc xửlýngôn ngữ, từ mà từ điển lại có cách hiểu khác Hệ thống dịch có câu dịch được, có câu dịch không cho dù có hay liệu Chính chất lượng hệ thống nên mục tiêu đề tài xây dựng nguồntàinguyênliệu lớn, phụcvụ cho việc phát triển hệ thống xửlýngônngữtự nhiên đạt chất lượng hiệu Đề tài tập trung vào đề xuất giảipháp xây dựng nguồntàinguyênliệulớntừnguồntàinguyên tồn kho ngữliệu hay từliệu thô chưa khai thác website song ngữ Để góp phần giải vấn đề trên, xin chọn đề tài: “Nghiên cứugiảipháptạonguồntàinguyênliệulớnphụcvụxửlýngônngữtự nhiên” Footer Page of 161 Header Page of 161 2 Mục đích ý nghĩa đề tài a Mục đích Đề xuất số giảipháp để xây dựng hệ thống tạotàinguồnnguyênliệu lớn, nhằm phục vụ, chia sẽ, sử dụng việc nghiêncứungônngữtự nhiên, tìm kiếm thông tin đa ngôn ngữ, dịch thuật học tập b Ý nghĩa khoa học - Nắm vững vận dụng tốt kỹ thuật lấy liệutừ văn bản, website… Nắm vững thành phần cú pháp câu tiếng Việt, tiếng Anh Nắm vững giảipháptạonguồntàinguyênliệu Kết phụcvụ cho việc xửlýngônngữtự nhiên c Ý nghĩa thực tiễn Đề xuất số giảipháp áp dụng thực tiễn để tạonguồntàinguyênliệulớnphụcvụ cho việc xửlýngônngữtự nhiên Mục tiêu nhiệm vụ a Mục tiêu Mục tiêu mà đề tài hướng đến nghiêncứu xây dựng hệ thống tạonguồntàinguyênliệu chứa cặp từ, cặp câu Anh – Việt từnguồntàiliệu thô chưa khai thác như: trang web song ngữ, sách, báo,… nhiều định dạng khác như: XML, TXT, DOC,… b Nhiệm vụ Để đặt mục tiêu nhiệm vụ đặt đề tài là: - Nghiêncứu thành phần, cú pháp, trật tựtừ câu tiếng Việt tiếng Anh Nghiêncứu ánh xạ gióng hàng văn song ngữ Anh-Việt Nghiêncứu kỹ thuật lấy liệutừ văn nhiều định dạng khác Phát biếu, phân tích cài đặt hệ thống đặt Đối tượng phạm vi nghiêncứu Trong khuôn khổ luận văn thuộc loại nghiêncứu ứng dụng, giới hạn nghiêncứu vấn đề sau: - Thành phần, cú pháp câu tiếng Việt tiếng Anh Tạonguồntàinguyênliệulớngiảipháp xây dựng nguồntàinguyênliệutừtàiliệu thô song song Ánh xạ gióng hàng văn song ngữ Anh-Việt Hợp kho ngữliệu song ngữ Anh-Việt Footer Page of 161 Header Page of 161 Phương phápnghiêncứu - Tiến hành thu thập nghiêncứutàiliệu có liên quan đến đề tàiNghiêncứulý thuyết ngônngữtự nhiên nói chung song ngữ Anh – Việt nói riêng Nghiêncứugiảipháptạonguồntàinguyênliệu Nhận xét đánh giá kết đạt Phương tiện, công cụ triễn khai - Môi trường Microsoft Visual C# Môi trường Microsoft SQL Server Công cụ Stanford POS tagger Footer Page of 161 Header Page of 161 CHƯƠNG I: NGHIÊNCỨU TỔNG QUAN 1.1 CƠ SỞ LÝ THUYẾT 1.1.1 NguồntàinguyênliệuNguồntàinguyênliệu thành phần sở hạ tầng công nghệ thông tin, đại diện cho tất liệu có sẵn lĩnh vực Để phụcvụ cho việc xửlýngônngữtự nhiên, cần phải có nguồntàinguyênliệu mặt ngônngữNguồntàinguyên gồm: Kho ngữ liệu, từ điển, treebank 1.1.1.1 Kho ngữliệuNgữliệu (Corpus) liệu tập hợp văn bản, ngônngữ số hóa, thường gọi kho ngữliệu Chúng sử dụng để phân tích, thống kê kiểm tra quy tắc ngônngữngônngữ cụ thể 1.1.1.2 Dữliệutừ điển Từ điển thiết bị, công cụ cho phép lưu trữ thông tin mà qua đó, dựa vào từ, cụm từ đơn giản, ta tìm nghĩa giải thích, thông tin liên quan nhanh chóng 1.1.1.3 Tree bank Treebank tập hợp câu ngữliệu phân tích thích cú pháp, thường biểu diễn dạng cấu trúc 1.1.2 Cấu trúc, định dạng, kích thước 1.1.2.1 Kho ngữliệu Chuẩn CES TEI dựa SGML(Standard Generalized Markup Language) 1.1.2.2 Dữliệutừ điển Đối với liệutừ điển, có định dạng phổ biến là: dict.tab dict.ord 1.1.2.3 Treebank Treebank thường biễu diễn dạng cấu trúc cây, có thích cú pháp, bổ sung thêm nhãn từ loại 1.1.3 Các vấn đề tồn nguồntàinguyênliệu 1.1.3.1 Số lượng vốn từ 1.1.3.2 Chưa thuận tiện người dùng 1.1.3.3 Nguồntàinguyênliệu nằm rải rác Footer Page of 161 Header Page of 161 1.1.4 Ứng dụng tàinguyênliệu 1.1.4.1 Ứng dụng ngônngữ học – thống kê 1.1.4.2 Ứng dụng ngônngữ học so sánh 1.1.4.3 Ứng dụng giảng dạy ngoại ngữ 1.1.4.4 Ứng dụng việc nghiêncứu dịch thuật 1.2 CÁC PHƯƠNG PHÁP, GIẢIPHÁP XÂY DỰNG NGUỒNTÀINGUYÊNDỮLIỆU 1.2.1 Giảipháp thu thập từnguồnliệu thô Hình 1.4: Các bước thực giảipháp thu thập từnguồnliệu thô Footer Page of 161 Header Page of 161 1.2.2 Giảipháp trích từtừ điển điện tử Hình 1.5: Các bước thực giảipháp trích từtừ điển điện tử 1.2.3 Giảipháp hợp kho ngữliệu Hình 1.6: Các bước thực giảipháp hợp kho ngữliệu Footer Page of 161 Header Page of 161 1.3 CÁC CÔNG TRÌNH NGHIÊNCỨU TƯƠNG TỰ 1.3.1 Các công trình nghiêncứu giới 1.3.2 Các công trình nghiêncứu nước CHƯƠNG II: ĐỀ XUẤT GIẢIPHÁP XÂY DỰNG NGUỒNTÀINGUYÊNDỮLIỆU 2.1 ĐẶT VẤN ĐỀ 2.2 MÔ HÌNH TỔNG QUÁT CỦA GIẢIPHÁP Hình 2.1: Mô hình tổng quát giảipháp Footer Page of 161 Header Page 10 of 161 2.3 THU THẬP DỮLIỆU 2.4 TIỀN XỬLÝDỮLIỆU Hình 2.2: Sơ đồ đồng liệu đầu vào 2.5 GIẢIPHÁP THU THẬP CÁCNGUỒNDỮLIỆU THÔ SONG SONG 2.5.1 Các bước thực Hình 2.3: Các bước thực giảipháp thu thập từnguồnliệu thô song ngữ Footer Page 10 of 161 Header Page 12 of 161 10 Bảng 2.5: Các luật ràng buộc Penn Treebank cho câu “The race was finished” Từ Tập nhãn Các luật ràng buộc liên quan The|race DT | NN,VB,VBP DT|NN race|was NN,VB,VBP | VBD NN|VBD, VBP|VBD was|finished VBD | VBD,VBN VBD|VBN Kết việc gán nhãn vừa là: The/DT race/NN was/VBD finished/VBN 2.5.4 Phân tách từ có nghĩa câu tiếng Việt Giả sử câu ban đầu dãy gồm n chữ c1,c2,…,cn Bước 1: Duyệt từtạo thành từ dãy chữ từ c1 đến ck với k chạy từ n Sau kiểm tra từtạo có tồn tại, có nghĩa kho ngữliệu tiếng Việt không Nếu tồn từ tạo, lưu lại giá trị k cao Nếu không tồn từ nào, lưu giá trị k = Bước 2: Căn vào giá trị k, ta phân tách từ c1…ck có nghĩa ngônngữ tiếng Việt Tách từ với phần lại câu quai lại thực Bước với phần lại câu gồm n-k chữ c1,…,cn-k Quá trình phân tách từ kết thúc phần lại câu tiếng Việt không chữ Bảng 2.6: Ví dụ minh hoạ phân tách từ có nghĩa câu tiếng Việt Câu cho Giá trị k Những sách ông nội em Những | sách ông nội em Những | cuốn_sách ông nội em Những | cuốn_sách | ông nội em Những | cuốn_sách | | ông nội em Những | cuốn_sách | | | Lần Footer Page 12 of 161 Kết Header Page 13 of 161 11 ông nội em Những | cuốn_sách | | | | ông_nội em Những | cuốn_sách | | | | ông_nội | em Kết thúc Với cách tiếp cân trên, vấn đề phân tách từ vựng câu tiếng Việt giải 2.5.5 Xây dựng ánh xạ gióng hàng song ngữ Anh-Việt 2.5.5.1 Sự khác biệt ranh giới từ 2.5.5.2 Hình thức từ tiếng Anh tiếng Việt Bảng 2.7: Luật hậu tố biến cách Tiếng Anh Tiếng Việt Ngữpháp Phụ tố Danh từ số nhiều Động từ số N-s V-s Ví dụ books, Từ hư Ví dụ teachers những, những/các sách những/các giáo viên He sleeps, Ø It runs anh ngủ chạy Sở hữu cách X’s Y teacher’s books sách giáo viên Hiện phân từ V-ing sleeping đang ngủ Quá khứ, khứ phân từ V-ed worked đã, làm việc So sánh Adj-er shorter ngắn Adv-er slower Adj-est shortest So sánh Adv-est slowest Footer Page 13 of 161 chậm ngắn chậm Header Page 14 of 161 12 Bảng 2.8: Luật hậu tố dẫn xuất tiếng Anh Hậu tố Nghĩa tiếng việt Loại từ Ví dụ -able Adj …… readable -al Adj (thuộc về) …… national -ate V làm cho …… fascinate -ed Adj,V2,V3 (đã / bị) …… closed door -en Adj làm …… golden -er N người / máy teacher, printer -ing V-Ger (đang) …… running car -ise/-ize V …… hóa normalise -ity N …… activity 10 -less Adj …… careless 11 -like Adj giống …… humanlike 12 -ly Adv (một cách) …… strongly 13 -ness N …… brightness 14 -tion N …… solution Bảng 2.9: Luật tiền tố dẫn xuất tiếng Anh Tiền tố Loại từ Nghĩa tiếng Việt Ví dụ anti N chống…… / kháng…… antivirus co N đồng…… / liên…… coworker dis V khử…… discharge in, il, im, ir Adj không…… / bất…… / vô …… illegal, impartient Footer Page 14 of 161 Header Page 15 of 161 13 re V ……lại recalculate un Adj,V không…… unhappy 2.5.5.3 Sự khác biệt trật tựtừ tiếng Anh tiếng Việt a) Cụm danh từ Hình 2.4: Chuyển đổi trật tựtừ cụm danh từ (a) Trước đổi (b) Sau đổi Hình 2.5: Chuyển đổi trật tựtừ danh từ Hình 2.6: Chuyển đổi trật tựtừ tính từ Footer Page 15 of 161 Header Page 16 of 161 14 Hình 2.7: Chuyển đổi trật tựtừ danh từ đại từ sở hữu b) Cụm tính từ Hình 2.8: Ví dụ chuyển đổi trật tựtừ cụm tính từ c) Cụm động từ Hình 2.9: Một số ví dụ luật cụm động từ Footer Page 16 of 161 Header Page 17 of 161 15 2.5.5.4 Các luật xây dựng ánh xạ gióng hàng - Luật hậu tố biến cách Luật tiền tố hậu tố dẫn xuất Luật chuyển đổi trật tựtừ cụm từ Hình 2.10: Ví dụ ánh xạ gióng hàng song ngữ Anh-Việt 2.6 GIẢIPHÁP HỢP NHẤT CÁC KHO NGỮLIỆU SONG NGỮ Hình 2.11: Hợp kho ngữliệu song ngữ Footer Page 17 of 161 Header Page 18 of 161 16 2.6.1 Tồn cặp ngữliệu hai kho ngữliệu Hình 2.12: Các cặp ngữliệu tồn hai kho ngữliệu 2.6.1.1 Giống hoàn toàn Trong trình hợp mà hai kho ngữliệu có cặp từ mà ngữ nghĩa chúng giống hoàn toàn trường hợp việc hợp lấy ngữliệutừ kho ngữliệu để bổ sung vào nguồntàinguyênliệu 2.6.1.2 Khác ngữ nghĩa Hình 2.13: Cặp ngữliệu khác ngữ nghĩa Giảipháp để hợp trường hợp sau: - Giữ nguyên lại ngữ nghĩa mà hai kho ngữliệu mô tả Footer Page 18 of 161 Header Page 19 of 161 - 17 Đối với ngữ nghĩa tồn hai kho ngữ liệu, lấy tất ngữ nghĩa để làm ngữ nghĩa mô tả cho ngữliệunguồntàinguônliệu chung 2.6.2 Cặp ngữliệu tồn hai kho ngữliệu Hình 2.14: Cặp ngữliệu tồn hai kho ngữliệu Khi thu thập liệutừ nhiều nguồn khác nhau, phân tích ban đầu nguồnliệu có số lượng vốn ngữliệu định Vì vậy, kho ngữliệu chắn tồn cặp ngữliệu mà kho ngữliệu có mà kho ngữliệu ngược lại Nhiệm vụ việc hợp trường hợp phải lấy tất ngữliệu tồn hai kho ngữliệu để bổ sung vào nguồntàinguyênliệu chung Qua làm cho số lượng vốn ngữliệunguồntàinguyênliệu chung trở nên nhiều chất lượng Footer Page 19 of 161 Header Page 20 of 161 18 2.6.3 Thuật toán hợp kho ngữliệu song ngữ Hình 2.15: Lưu đồ thuật toán hợp kho ngữliệu song ngữ Footer Page 20 of 161 Header Page 21 of 161 19 2.7 KẾT LUẬN Ở trình phân tích giảipháp đưa ra, hoàn toàn mở rộng để xây dựng hệ thống tạonguồntàinguyênliệulớn để phù hợp với ứng dụng thực tiễn Qua trình phân tích, hầu hết liệu thô thực tế kho ngữliệu phân tích tổ chức lại nhằm tạonguồntàinguyênliệulớn Tuy nhiên, việc nhận định nguồnliệu thô khác làm Qua ta thấy việc xây dựng nguồntàinguyênliệulớn trình bán tự động người trung tâm trình Trong chương phân tích qui trình việc xây dựng nguồntàinguyênliệu Bên cạnh luận văn sâu vào việc phân tích đưa giảipháp cho trường hợp cụ thể trình xây dựng Qua hiểu rõ vấn đề gặp phải vào thực thực tế Chính sở phân tích làm tiền đề để xây dựng hệ thống tạonguồntàinguyênliệulớn hoàn chỉnh CHƯƠNG III: CÀI ĐẶT VÀ THỬ NGHIỆM 3.1 TỔNG QUAN VỀ HỆ THỐNG Hình 3.1: Tổng quan hệ thống thử nghiệm Footer Page 21 of 161 Header Page 22 of 161 20 3.2 MỘT SỐ CÔNG CỤ CẦN THIẾT 3.2.1 Tổng quan SQL Server 3.2.1.1 Một số đặt tính SQL Server 3.2.1.2 Một số khái niệm SQL Server 3.2.2 Tổng quan Microsoft Visual Studio 3.2.2.1 Cácngônngữ lập trình Visual Studio 3.2.2.2 Các tính Visual Studio 3.3 PHÂN TÍCH THIẾT KẾ 3.3.1 Biểu đồ Usecase Hình 3.2: Biểu đồ Usecase 3.3.2 Đặc tả Usecase 3.4 XÂY DỰNG HỆ THỐNG 3.4.1 Môi trường cài đặt 3.4.2 Thiết kế sở liệu Footer Page 22 of 161 Header Page 23 of 161 21 Hình 3.3: Mối quan hệ bảng 3.5 RÚT TRÍCH XỬLÝ NỘI DUNG TỪCÁCNGUỒNDỮLIỆU THÔ 3.5.1 Rút trích từ website sử dụng HTML Agility Pack 3.5.2 Rút trích từ văn sử dụng Word Application 3.5.3 Tách đoạn, tách câu 3.6 THỰC NGHIỆM 3.6.1 Chuẩn bị liệu Thử nghiệm lần đầu thực với tập liệu thực nghiệm gồm 150 cặp câu song song Nguồnliệu thử nghiệm rút trích từ khoảng 10 trang tin tức trung tâm anh ngữ CEP[14] số văn song ngữ thu thập 3.6.2 Một số hình ảnh thực nghiệm 3.6.3 Kết thực nghiệm Với liệu thử nghiệm trên, áp dụng phương pháp ánh xạ gióng hàng song ngữ Anh-Việt trình bày chương thu kết sau: Bảng 3.6: Kết thực nghiệm gióng hàng mức câu, mức từ Tổng số cặp Số cặp gióng hàng Tỉ lệ Mức câu 150 143 95,3% Mức từ 2000 1824 91.2% Độ xác Footer Page 23 of 161 86,9% Header Page 24 of 161 22 Độ xác đánh giá bằng: [tỉ lệ mức câu] * [tỉ lệ mức từ] Trong đó: [tỉ lệ mức câu] tính [số cặp câu gióng hàng đúng] / [tổng số cặp câu] [tỉ lệ mức từ] tính băng [số cặp từ gióng hàng đúng] / [tổng số cặp từ] Ngoài ra, kiểm tra thời gian chạy tập liệu thử nghiệm hệ thống với 150 câu song ngữ Tập liệu thử nghiệm chia làm phần 30 câu, 50 câu 70 câu Bảng 3.7: Kết thực nghiệm thời gian chạy(đơn vị giây/câu) Phần Số câu Thời gian câu 30 28.48 50 29.94 70 31.08 Thời gian trung bình 29.83 3.6.4 Nhận xét Theo học máy thống kê số lượng liệu thực nghiệm nhiều độ xác giảipháp xác Từ bảng 3.6 thấy rằng, độ xác 86.9% cho thấy rằng, độ xác không phụ thuộc vào giảipháp mà phụ thuộc vào nguồnliệu thô thu thập Cụ thể, tỉ lệ gióng hàng mức câu không gióng hoàn toàn cặp câu song ngữ dịch 1-1 Hay tỉ lệ gióng hàng mức từ vậy, cặp câu song ngữ dịch bị thoát ý, dịch tóm lượt dịch diễn dãi Kết thực nghiệm đánh giá theo hướng chủ quan cá nhân Nghĩa là, sau thực gióng hàng cho trang tin tức hay văn trực tiếp xem kết hiển thị xem cặp câu, cặp từ sai Sau thống kê lại đưa kết Mặt khác, kết thực nghiệm sử dụng giảipháp thu thập từnguồnliệu thô song ngữ Do tính chất chia sẻ kho ngữliệu gần chưa có nên giải phải hợp kho ngữliệu song ngữ dừng lại đề xuất Footer Page 24 of 161 Header Page 25 of 161 23 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong luận văn này, trình bày thực trạng nguồntàinguyênliệu nay, qua thấy vấn đề cần thiết mà nguồntàinguyênliệu mạng lại cho người sử dụng Từ đó, đề xuất số giảipháp nhằm để nâng cao chất lượng nguồntàinguyênliệu để tiết kiếm thời gian công sức trình xây dựng nguồntàinguyênliệu Qua đề xuất, phân tích trình bày giảipháptạonguồntàinguyênliệulớntừnguồnliệu thô khác Thông qua giảipháp này, thấy việc xây dựng hệ thống tạonguồntàinguyênliệu không nâng cao chất lượng nguồntàinguyênliệu cặp ngônngữ đó, áp dụng để tạo thêm nguồntàinguyênliệu cho cặp ngônngữ hoàn toàn mới, hay nói áp dụng để tích hợp thêm nhiều ngônngữ khác vào nguồntàinguyênliệulớn Để kiểm chứng cho giảipháp đưa ra, xây dựng hệ thống để kiếm chứng cho tính khả thi Kết rằng, hoàn toàn tạo hệ thống tạonguồntàinguyênliệulớn để phụcvụ cho xửlýngônngữtự nhiên học tập nghiêncứu Việc thực nghiệm cho kết mong đợi nhiên thực nghiệm dừng việc kiểm nghiệm số giảipháp để nâng cao chất lượng cho nguồntàinguyênliệu mà chưa trọng đến việc phụcvụ cho người sử dụng Bên cạnh đó, việc kiểm nghiệm dừng việc thu thập từnguồnliệu thô website văn Microsoft Word Hướng phát triển đề tàinghiêncứu thêm nhiều nguồnliệu thô nhiều định dạng khác, hoàn thiện phần website để đáp ứng cho nhu cầu người sử dụng Ngoài nên tạo thêm dịch vụ để chia nguồnliệu xây dựng cho tổ chức, cá nhân cần sử dung để phụcvụ cho công việc học tập nghiêncứu Footer Page 25 of 161 Header Page 26 of 161 Footer Page 26 of 161 ... để tạo thành nguồn tài nguyên liệu ngôn ngữ tự nhiên nhằm phục vụ cho việc đào tạo, dạy học, nghiên cứu xỷ lý ngôn ngữ Xử lý ngôn ngữ tự nhiên kĩ thuật quan trọng nhằm giúp máy tính hiểu ngôn ngữ. .. kho ngữ liệu hay từ liệu thô chưa khai thác website song ngữ Để góp phần giải vấn đề trên, xin chọn đề tài: Nghiên cứu giải pháp tạo nguồn tài nguyên liệu lớn phục vụ xử lý ngôn ngữ tự nhiên”... Tuy nhiên, xử lý ngôn ngữ tự nhiên vấp phải khó khăn, mà khó khăn lớn phải nói đến nguồn tài nguyên liệu ngôn ngữ, đặc biệt nguồn tài nguyên song ngữ Các nguồn tài nguyên thường không đủ lớn