Bài viết nghiên cứu nhằm tạo điều kiện thuận lợi cho cộng đồng nghiên cứu về lĩnh vực này nhằm nâng cao và phát huy hơn nữa hiệu quả quá trình nghiên cứu.
ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 49 NGHIÊN CỨU VÀ XÂY DỰNG MÔI TRƯỜNG QUẢN LÝ, TRUY CẬP TÀI NGUYÊN PHỤC VỤ XỬ LÝ TIẾNG VIỆT VÀ TIẾNG DÂN TỘC THIỂU SỐ RESEARCHING AND BUILDING AN ENVIRONMENT FOR ACCESSING AND MANAGING RESOURCES FOR VIETNAMESE AND ETHNIC MINORITY LANGUAGE PROCESSING Huỳnh Công Pháp, Văn Đỗ Cẩm Vân Trường Cao đẳng Công nghệ Thông tin, Đại học Đà Nẵng; hcphap@gmail.com; van156dnvn@gmail.com Tóm tắt - Xử lý tiếng Việt (TV) tiếng dân tộc thiểu số (TDTTS) lĩnh vực nghiên cứu quan tâm cấp bách Việt Nam Vấn đề đặt làm để tạo điều kiện thuận lợi cho cộng đồng nghiên cứu lĩnh vực nhằm nâng cao phát huy hiệu trình nghiên cứu Bởi lẽ, nguồn tài nguyên phục vụ xử lý TV TDTTS lưu trữ phân tán, nên việc khai thác nguồn tài nguyên gặp nhiều khó khăn Do đó, ý tưởng giải pháp báo trước hết tập hợp xây dựng hệ thống truy cập tập trung tài nguyên phục vụ xử lý TV TDTTS Sau đó, hợp chúng, tạo nên nguồn liệu lớn Cuối cùng, xây dựng hệ thống hoạt động theo kiến trúc hướng dịch vụ (SOA) cho việc truy xuất khai thác tài nguyên công cụ xử lý TV TDTTS dễ dàng hiệu Abstract - Nowadays, processing Vietnam ese and ethnic minority languages is an urgent and interesting issue for m any organizations and individuals However, the resources which are available to the research of processing Vietnamese language as well as som e languages of m inorities were stored in a discrete way This is the reason why the exploitation and the inheritance of these resources meet a lot of difficulties Therefore, the paper proposes som e measures to im prove the situation Firstly, collecting and constructing a centralized system of scientific documents on this field Secondly, merging them in order to create the bigger resources Finally, constructing the service – oriented architecture system which allows users to access and exploit the tools of processing Vietnam ese and m inority languages effectively Từ khóa - xử lý tiếng Việt; xử lý tiếng dân tộc thiểu số; tập hợp; môi trường quản lý; hợp nhất; khai thác Key words - process Vietnam ese language; process m inority languages; collect; m anagem ent environm ent; m erge; exploit Đặt vấn đề Tổng quan tình hình nghiên cứu xử lý TV TDTTS Xử lý tiếng Việt (TV) tiếng dân tộc thiểu số (TDTTS) nhiệm vụ hướng nghiên cứu quan trọng phát triển ngành Công nghệ thông tin Trước xu này, nhiều nguồn tài nguyên bao gồm tài liệu khoa học, liệu, công cụ phục vụ xử lý TV TDTTS xây dựng phát triển Tuy nhiên, vấn đề lớn tồn nguồn tài nguyên tồn cách rời rạc, dạng khác nhau, dẫn đến việc sử dụng khai thác chúng trở nên khó khăn, chí khơng thể truy cập Thật vậy, nhiều tài liệu nghiên cứu báo khoa học, luận văn thạc sỹ… xử lý TV TDTTS công bố, chúng lưu trữ quản lý rải rác, khơng có hệ thống, nên việc truy cập nghiên cứu chúng trở nên khó khăn Tương tự, liệu phục vụ xử lý TV TDTTS kho ngữ liệu, liệu từ điển xây dựng, cấu trúc, định dạng khác biệt chúng dẫn đến việc khai thác chúng trở nên không hiệu Ngoài ra, nhiều tổ chức, cá nhân nghiên cứu phát triển công cụ phục vụ xử lý TV TDTTS cách đơn lẻ, rời rạc, đôi lúc trùng lặp từ điển, gõ, công cụ tách đoạn, tách từ, gióng hàng, làm giàu thơng tin… nên việc sử dụng, kế thừa công cụ khó khăn hạn chế Từ vấn đề nêu trên, nhằm cho phép khai thác hiệu nguồn tài nguyên phục vụ xử lý TV TDTTS có, giải pháp cấp bách cần phải nghiên cứu xây dựng môi trường quản lý, truy cập tài nguyên xử lý TV TDTTS cách tập trung, có hệ thống Với giải pháp này, nguồn tài nguyên xử lý TV TDTTS tập hợp, quản lý tổ chức cách có hệ thống, cho phép việc truy cập khai thác dễ dàng hiệu Trước chủ trương, sách quan tâm đặc biệt Việt Nam nghiên cứu xử lý TV TDTTS máy tính, nhiều nhà khoa học tổ chức nước nghiên cứu, phát triển nhiều nguồn tài nguyên xử lý TV TDTTS 2.1 Tổng quan nhóm nghiên cứu xử lý TV TDTTS Trong số nhiều tổ chức cá nhân nghiên cứu xử lý TV TDTTS, kể đến số nhóm nghiên cứu bật, là: Nhóm nghiên cứu xử lý Trung tâm DATIC – Khoa Công nghệ thông tin Trường Đại học Bách khoa trường thành viên Đại học Đà Nẵng; Trung tâm CNTT-TT Sở Thông tin Truyền thông Gia Lai; Công ty TNHH Công nghệ Tin học tuổi trẻ Lạc Việt; Phịng Nhận dạng Cơng nghệ tri thức, Viện Công nghệ Thông tin Hà Nội; Trung tâm MICA, Đại học Bách khoa Hà Nội; Nhóm nghiên cứu Khoa CNTT, Trường Đại học Khoa học Tự nhiên TPHCM… Các nhóm nghiên cứu thực nhiều cơng trình nghiên cứu, hướng dẫn nhiều luận văn thạc sĩ tiến sĩ, cơng bố nhiều cơng trình nghiên cứu phát triển nhiều sản phẩm, công cụ xử lý TV TDTTS [2], [8], [9], [10] 2.2 Tổng quan tài nguyên xử lý TV TDTTS Như đề cập phần mở đầu, tài nguyên xử lý TV TDTTS chia thành loại: tài liệu khoa học xử lý TV TDTTS; Dữ liệu phục vụ xử lý TV TDTTS; công cụ sản phẩm xử lý TV TDTTS 2.2.1 Tài liệu khoa học xử lý TV TDTTS Xử lý TV TDTTS lĩnh vực nghiên cứu quan tâm Việt Nam Chính vậy, ngày có 50 Huỳnh Công Pháp, Văn Đỗ Cẩm Vân nhiều tài liệu, công trình nghiên cứu lĩnh vực Theo kết thống kê từ hệ thống tìm kiếm Google, có khoảng 24.500 tài liệu loại xử lý TV 2.000 tài liệu xử lý TDTTS máy tính Trong đó, đáng kể số lượng tài liệu xử lý tiếng Êđê (1.100 tài liệu) So với nguồn tài liệu nghiên cứu lĩnh vực khác, số lượng tài liệu nghiên cứu lĩnh vực cịn khiêm tốn Trong đó, nguồn tài liệu lại lưu trữ cách rải rác, riêng lẻ, không thuận tiện cho việc nghiên cứu Do vậy, tập hợp nguồn tài liệu nghiên cứu quản lý tập trung hệ thống tra cứu dùng chung chắn hữu ích cho cộng đồng người làm nghiên cứu lĩnh vực 2.2.2 Dữ liệu phục vụ xử lý TV TDTTS Dữ liệu phục vụ xử lý ngơn ngữ tự nhiên nói chung, TV TDTTS nói riêng quan trọng Xử lý ngôn ngữ tự nhiên lĩnh vực nghiên cứu rộng, bao gồm nhiều vấn đề xử lý khác như: Tóm tắt văn bản, dịch máy, tách đoạn, nhận dạng thực thể có tên, gán nhãn, phân tích liệu, hỏi đáp tự động, tìm kiếm, xử lý tiếng nói, từ điển, đánh giá chất lượng dịch… Để phục vụ vấn đề khác lĩnh vực xử lý ngơn ngữ tự nhiên nêu trên, địi hỏi phải xây dựng nhiều loại liệu khác Có nhiều cách để phân loại liệu theo tiêu chí, mục đích quan điểm Tuy nhiên, xét mặt tổng quan, liệu phục vụ xử lý ngôn ngữ tự nhiên chủ yếu gồm kho ngữ liệu, liệu từ điển, treebank (ngân hàng câu giải cú pháp), ontology a Kho ngữ liệu TV TDTTS Kho ngữ liệu loại liệu quan trọng phổ biến lĩnh vực xử lý ngôn ngữ tự nhiên Kho ngữ liệu tồn nhiều dạng khác nhau, có cấu trúc dịnh dạng đa dạng Hiện nay, giới có nhiều kho ngữ liệu, tiếng phải kể đến kho ngữ liệu EuroParl [1], BTEC [16], ANC [18], ICE [17],… Cùng với đó, nhiều kho ngữ liệu tiếng Việt TDTTS xây dựng, đóng vai trị đáng kể lĩnh vực nghiên cứu Một số kho ngữ liệu tiếng Việt TDTTS phổ biến như: Kho ngữ liệu Vietlex (80 triệu từ); Kho ngữ liệu Sketch (94 triệu từ) [15]; VietTreebank [3], Kho ngữ liệu dự án VLPS [5]; kho ngữ liệu trung tâm nghiên cứu DATIC, MICA; kho ngữ liệu tiếng dân tộc Êđê, Chăm, Khơ-me b Dữ liệu từ điển TV TDTTS Từ điển xem công cụ đắc lực cần thiết số công cụ phục vụ xử lý ngôn ngữ tự nhiên máy tính Chính vậy, có nhiều từ điển TV TDTTS xây dựng dạng khác phần mềm độc lập, ứng dụng web, ứng dụng thiết bị cầm tay Một số từ điển TV TDTTS phổ biến Lạc Việt, VDict.com, Babylon, VnDic, Hellochao, Google, từ điển Việt - Chăm, từ điển Việt - Khme, từ điển Việt - Bhnông, từ điển Việt - Eđê… Mỗi từ điển có sở liệu với cách tổ chức định dạng liệu riêng Mặc dù tồn nhiều từ điển khác nhau, từ điển gồm tập hợp từ vựng cặp ngơn ngữ giới hạn Do đó, hợp loại từ điển lại với tạo từ điển với liệu đầy đủ số cặp ngôn ngữ đa dạng 2.2.3 Công cụ sản phẩm xử lý TV TDTTS Như đề cập phần trên, xử lý ngôn ngữ tự nhiên bao gồm nhiều vấn đề xử lý khác Do đó, tồn nhiều sản phẩm công cụ xử lý TV TDTTS khác Trong số nhiều loại sản phẩm công cụ xử lý TV TDTTS, sản phẩm bật quan trọng gồm: a Các mã gõ TV TDTTS Một sản phẩm quan trọng xử lý TV TDTTS máy tính cần kể đến, gõ TV TDTTS Các gõ TV phổ biến Vietkey, Unikey, VNKey; gõ TDTTS gõ tiếng dân tộc Bahnar, M’nông, Êđê [11], gõ TayNguyenKey [12] phục vụ cho việc soạn thảo loại chữ viết dân tộc thiểu số Êđê, Jơrai, Bahnar, Sê đăng, Kơ Ho Mơ Nơng Nổi bật hơn, nỗ lực đưa mã TV vào bảng mã Unicode việc tích hợp bàn phím ảo TV vào hệ điều hành máy tính điện thoại di động b Các công cụ hỗ trợ chuyển đổi TV TDTTS Các công cụ hỗ trợ chuyển đổi TV TDTTS kể đến gồm hệ thống từ điển hệ thống dịch tự động Như đề cập phần trên, có nhiều hệ thống từ điển với số lượng từ cặp ngôn ngữ khác Các từ điển phổ biến kể đến: Lạc Việt từ điển: hệ thống từ điển TV phổ biến hai dạng phần mềm cài đặt máy tính phiên web, gồm 300.000 từ cụm từ với cặp ngôn ngữ ViêtAnh, Việt-Pháp, Việt-Hàn, Việt-Nhật, Việt-Trung Từ điển VDict.com: hệ thống từ điển TV trực tuyến phổ biến, gồm khoảng 400.000 từ với cặp ngôn ngữ Việt-Anh, Việt-Pháp, Việt-Hán Từ điển VnDic.net: hệ thống từ điển TV trực tuyến lớn, gồm gần 400.000 từ cụm từ với nhiều cặp ngôn ngữ Bên cạnh từ điển TV tiếng nước ngồi, có số từ điển TV – tiếng dân tộc thiểu số Việt Nam từ điển Việt-Eđê, Việt-Chăm, ViệtKhmer…Tuy nhiên, đa số từ điển dạng phần mềm máy tính, chưa chia sử dụng phổ biến hệ thống từ điển trực tuyến Cùng với từ điển TV TDTTS hệ thống dịch tự động Mặc dù hệ thống dịch tự động TV có chất lượng thấp, nhiên chúng có ích định người sử dụng Một số hệ thống dịch tự động có hỗ trợ TV như: Hệ thống dịch Google: Đây hệ thống dịch tự động lớn nay, với số lượng 90 ngôn ngữ, có TV Hệ thống dịch tự động Vietgle: Hỗ trợ dịch TV sang tiếng Anh tương đối tốt Ngồi ra, cịn có hệ thống EVTrans, HelloChao cho phép dịch TV sang tiếng Anh c Các công cụ xử lý văn TV khác Trong số cơng cụ xử lý TV, kể đến nhóm cơng cụ sau: Cơng cụ tách đoạn văn TV ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN VnTokenizer công cụ viết Java dựa kĩ thuật so khớp tối đa, kết hợp sử dụng biểu thức quy Độ xác trung bình hệ thống đạt gần 94%[9] PVnSeg công cụ viết Perl, sử dụng kĩ thuật so khớp tối đa biểu thức quy tương tự vnTokenizer Điểm khác hệ thống sử dụng thuật toán quay lui để tăng hiệu Chương trình khơng xử lí nhập nhằng mà chọn phương án ngẫu nhiên Độ xác trung bình hệ thống đạt gần 97%[9] JVnSegmenter công cụ viết Java, sử dụng cách tiếp cận khác: mơ hình hố tốn tách từ thành tốn gán nhãn, âm tiết gán ba nhãn (BW - bắt đầu từ, IW – từ, O - loại khác), sau sử dụng phương pháp học máy để thực nhiệm vụ gán nhãn Độ xác trung bình hệ thống đạt thực phương pháp đánh giá chéo tập liệu tách từ mẫu nhỉnh 95% [9], [5], [6] Dữ liệu Dịch vụ Hình Cấu trúc thành phần JvnTagger Công cụ phân loại từ TV Phân loại từ nhằm xác định từ loại cho từ văn Phần mềm JvnTagger cho phép gán nhãn từ loại TV xây dựng dựa phương pháp học máy thống kê MaxEnt, CRFs viết Java Công cụ phân tích cú pháp TV Phân tích cú pháp nhằm giúp cho máy tính xác định thành phần câu, từ máy tính hiểu văn đưa vào Phần mềm phân tích cú pháp TV BKParser sử dụng văn phạm HPSG (Head-Driven Phrase Structure Grammar, Pollard and Sag, 1994) Phần mềm BKParser dạng mã nguồn mở để người dùng xây dựng ứng dụng hay tích hợp ứng dụng dễ dàng [5] 51 thống xây dựng phương pháp dịch máy dựa xác suất thống kê [9] Công cụ tách từ tự động tiếng Jrai Công cụ làm tiền đề để tiếp tục nghiên cứu xây dựng hệ thống xử lý tiếng Jrai dịch thuật tự động, tìm kiếm thơng tin [8] Kho liệu song ngữ Việt – Cơ Tu phục vụ tra cứu văn hóa dân tộc Cơ Tu [13] Ý tưởng giải pháp xây dựng môi trường quản lý tập trung tài nguyên xử lý TV TDTTS Như trình bày trên, nguồn tài nguyên xử lý TV TDTTS quan tâm xây dựng phát triển Nhiều tài liệu khoa học công bố, nhiều nguồn liệu xây dựng nhiều loại công cụ, sản phẩm xử lý TV TDTTS phát triển Vấn đề việc khai thác nguồn tài nguyên chưa thật hiệu quả, lẽ chúng lưu trữ quản lý cách phân tán với đa dạng cấu trúc, định dạng chúng Do đó, để khai thác hiệu nguồn tài nguyên này, ý tưởng giải pháp trước hết tập hợp nguồn tài nguyên để xây dựng môi trường quản lý truy cập tập trung, sau tiến hành hợp phép việc quản lý truy cập chúng theo cách thức đồng hiệu Để xây dựng môi trường vậy, cần xây dựng giải pháp cụ thể sau: Trước hết, nguồn tài nguyên tài liệu khoa học lĩnh vực xử lý TV TDTTS: Giải pháp cụ thể loại tài nguyên tìm kiếm, tập hợp xây dựng hệ thống quản lý tập trung tài liệu khoa học lĩnh vực Trong đó, cần phải tổ chức, phân loại tài liệu theo chủ đề, lĩnh vực hẹp cung cấp chức hiệu nhằm hỗ trợ cách thuận lợi cho người dùng khai thác nghiên cứu tài liệu Cụ thể, cần xây dựng giải pháp tổ chức liệu cách thơng minh, phân loại nhóm tài liệu theo lĩnh vực hẹp, chủ đề, tác giả…, cần nghiên cứu trích rút đặc trưng từ tài liệu để tổ chức liệu theo hướng ngữ nghĩa, cần cung cấp chức tìm kiếm thơng minh, chức tóm tắt văn bản, thống kê… Giải pháp được thể qua mơ hình đây: Ngồi nhóm tài ngun xử lý TV DTTS nêu trên, cịn có số nguồn tài nguyên phát triển giai đoạn thử nghiệm gồm: Kho ngữ vựng đa ngữ Việt – Ê đê gán nhãn theo ngữ cảnh, kho ngữ liệu đa ngữ Việt - Ê đê với phông chữ Unicode có xử lý nhập nhằng từ đa ngữ nghĩa, cách gán nhãn theo ngữ cảnh thuộc lĩnh vực giáo dục giáo dục chăn ni, trồng trọt, bảo vệ rừng, chăm sóc sức khoẻ, v.v… cho đồng bào dân tộc thiểu số Việt Nam [10] Kho ngữ liệu song ngữ Việt – Ê đê xử lý tiếng Ê đê [14] Từ điển điện tử phương ngữ Jrai – Việt Trung tâm CNTT Sở Thông tin Truyền thông Gia Lai Công ty TNHH Công nghệ thông tin Tuổi trẻ Lạc Việt xây dựng Từ điển cho phép tra nghĩa theo từ Hệ thống dịch tự động Jrai – Việt Việt – Jrai Hệ Hình Mơ hình tìm kiếm, tập hợp xây dựng hệ thống quản lý tập trung tài liệu khoa học Bước 1: Nhận diện website xử lý TV TDTTS Từ website Internet, ta sử dụng PHPCrawl (là thư viện phát triển cho việc crawling/spidering websites viết ngôn ngữ PHP) để lấy liệu tự động website, tiến hành nhận diện website tài liệu cần tập hợp Thư viện cung cấp địa chỉ: http://phpcrawl.cuab.de/ Bước ta hình dung xây dựng robot 52 Huỳnh Cơng Pháp, Văn Đỗ Cẩm Vân tự động dị tìm vơ số website thơng qua từ khóa metadata trang web có, sau nhận dạng đâu website xử lý TV TDTTS (a) Lấy URL đầu vào người dùng nhập kèm theo thông tin độ sâu Độ sâu cho phép xác định số lần tìm kiếm xử lý URL mã nguồn trang web lấy được, tính từ URL gốc (b) Từ URL có, lấy mã nguồn HTML trang web tương ứng (c) Tìm URL mã nguồn HTML vừa tìm (d) Chọn lưu trữ URL có chứa từ khóa file định dạng cần tìm Bước 2: Nhận diện tài nguyên trích xuất tài nguyên Xử lý URL Bước tìm Mỗi URL HTML chứa thẻ liên kết với cú pháp: Nội dung hiển thị Có nhiều giải pháp để lấy tất URL mã nguồn trang web: Sử dụng biểu thức quy (regular expression) để quét tất đoạn văn có cú pháp vừa nêu, chẳng hạn biểu thức quy có dạng sau: ]*)href=\"([^\"]*)\"(?:[^>]*)>(?:[^setURL($model->link) Yêu cầu tài nguyên file download là: *.rar, *.zip, *.pdf, *.doc, … Các file chứa đựng thẻ với thuộc tính "href" Vì vậy, lấy nội dung file thuộc tính "href" nguyên tồn dễ dàng thuận lợi Thứ ba, nguồn tài nguyên công cụ sản phẩm xử lý TV DTTS: Một thực trạng loại tài nguyên chúng xây dựng phát triển dạng khác ứng dụng độc lập, ứng dụng web, đoạn script Vấn đề gặp phải người dùng cần phải cài đặt tìm hiểu chúng cách kỹ lưỡng trước sử dụng Do đó, phép sử dụng khai thác loại tài nguyên hiệu hơn, ý tưởng giải pháp cần xây dựng hệ thống hoạt động theo kiến trúc hướng dịch vụ (SOA), cho việc truy xuất khai thác công cụ xử lý TV TDTTS dễ dàng suốt với người sử dụng Thật vậy, ý tưởng giải pháp xuất phát từ mơ hình điện tốn đám mây nay, thay người dùng phải cài đặt phần mềm để sử dụng sử dụng phần mềm dịch vụ thông qua môi trường internet Xây dựng môi trường quản lý, truy cập tập trung tài nguyên xử lý TV TDTTS Từ giải pháp đề xuất phần trên, tiến hành xây dựng môi trường quản lý tập trung tài nguyên xử lý TV TDTTS tập trung Hệ thống xây dựng tảng web, dạng môi trường cộng tác, cho phép người dùng truy xuất khai thác tài nguyên mà cho phép người dùng đóng góp chia tài nguyên Để thực giải pháp cụ thể nêu phần trình dài hơi, chúng tơi chọn chiến lược thực theo giải pháp Ở giai đoạn này, thực phần lớn giải pháp nguồn tài nguyên tài liệu khoa học liệu Xây dựng giao diện tìm kiếm cung cấp thông tin Người dùng sử dụng hệ thống để tra cứu, tìm kiếm tài liệu tổng hợp theo chủ đề, trao đổi, bình luận tài liệu quan tâm Đối với tài nguyên tài liệu khoa học, hệ thống xây dựng ngôn ngữ PHP hệ quản trị sở liệu SQL Server 2008 Chức trích rút tài liệu chức quan trọng hệ thống Chức cho phép dị tìm tài liệu xử lý TV TDTTS trang web cho trước với từ khóa định nghĩa Sau dị tìm, kết việc trích rút hiển thị file *.rar, *.zip, *.doc, *.pdf … gridview Hình Ngồi ra, hệ thống cịn cho phép người dùng tìm kiếm, download tài liệu phân loại theo chủ đề Đồng thời, người dùng upload tài liệu lên hệ thống, làm cho nguồn tài nguyên hệ thống phong phú đa dạng Thứ hai, nguồn tài nguyên liệu phục vụ xử lý TV TDTTS: Giải pháp cụ thể loại tài nguyên tập hợp tìm cách hợp chúng để tạo nên nguồn liệu lớn Cụ thể, kho ngữ liệu, sở liệu từ điển có định dạng, cấu trúc cặp ngơn ngữ khác Do đó, phép việc khai thác sử dụng nguồn tài nguyên cách hiệu quả, giải pháp cần thiết hợp chúng lại với nhau, có nghĩa tìm cách trộn, liên kết nguồn liệu lại với để tạo thành nguồn liệu đa ngữ, đồng mặt định dạng cấu trúc Một cách cụ thể, cần phải nghiên cứu định dạng cấu trúc loại tài nguyên này, tìm đặc điểm chung riêng, để từ đề xuất cấu trúc định dạng chuẩn Sau có cấu trúc định dạng chuẩn việc xây dựng nguồn tài nguyên đồng từ việc tập hợp chuyển đổi nguồn tài Đối với nguồn tài nguyên liệu, hệ thống cho phép tập hợp hợp số loại kho ngữ liệu cung cấp số chức xử lý Bước 3: Hiển thị Hình Kết việc trích rút tài liệu ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN ngơn ngữ tự nhiên nói chung, xử lý TV TDTTS nói riêng truy xuất dạng dịch vụ web Dưới số kết môi trường quản lý, truy cập tập trung tài xử lý ngun ngơn ngữ tự nhiên nói chung xử lý TV TDTTS nói riêng Hình Chức nạp hợp kho ngữ liệu Hình chức cho phép nạp hợp kho ngữ liệu để tạo thành nguồn liệu đa ngữ, lớn 53 công cụ/sản phẩm xử lý TV TDTTS Kết có vai trị quan trọng cho cộng đồng người nghiên cứu lĩnh vực tham khảo có nhìn tổng qt lĩnh vực Đóng góp thứ hai báo đề xuất giải pháp cụ thể cho vấn đề làm tập hợp nguồn tài nguyên phép người dùng truy cập khai thác cách thuận lợi hiệu Đóng góp thứ ba báo bước đầu xây dựng môi trường, thực phần lớn giải pháp hợp tài nguyên liệu cung cấp số chức xử lý TV TDTTS dạng dịch vụ web Để đạt mục tiêu giải pháp tổng thể đề xuất, thời gian đến tiếp tục nghiên cứu triển khai giải pháp hợp loại tài nguyên khác liệu từ điển tiếp tục tích hợp nhiều chức khác để có mơi trường quản lý cho phép truy cập tài nguyên xử lý TV TDTTS hoàn chỉnh, góp phần thúc đẩy việc nghiên cứu phát triển lĩnh vực xử lý TV TDTTS máy tính TÀI LIỆU THAM KHẢO [1] [2] [3] Hình Nhóm chức truy xuất dạng dịch vụ web Bên cạnh chức hợp nguồn tài nguyên kho ngữ liệu, tiến hành tích hợp nhiều chức xử lý tài nguyên liệu chức đánh giá, hiển thị, chỉnh sửa (post-edit), so sánh dạng dịch vụ web [4] [5] [6] [7] Adam Kilgarriff, Phuong Le-Hong, “VietnameseWord Sketches”, In Workshop on Vietnamese Language and Speech Processing (IEEERIVF 9), 2012 PGS TS Lương Chi Mai, Báo cáo tổng hợp nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt, Viện Công nghệ Thông tin, Viện Khoa học Công nghệ Việt Nam, 2009 Nguyễn Phương Thái cộng sự, Báo cáo kết sản phẩm SP 7.3 – Kho ngữ liệu tiếng Việt có giải, KC01/01, Dự án VLSP, 2009 TS Nguyễn Thị Minh Huyền, Báo cáo kết sản phẩm SP 8.2 – Nghiên cứu xây dựng công cụ phân đoạn từ Việt, KC01/01, Dự án VLSP, 2009 TS Lê Thanh Hương, Báo cáo kết sản phẩm SP 8.5 – Nghiên cứu xây dựng cơng cụ phân tích câu Việt, KC01/01, Dự án VLSP, 2009 Nguyễn Cẩm Tú, Phan Xuân Hiếu, JVnSegmenter: A Java-based Vietnamese Word Segmentation Tool, http://jvnsegmenter.sourceforge.net, 2007 Hồ Tú Bảo, Lương Chi Mai, Về xử lý tiếng Việt Công nghệ Thông tin, Viện Công nghệ Thông tin, Viện Khoa học Công nghệ tiên tiến Nhật Bản Nguyễn Thanh Tịnh, Huỳnh Công Pháp, “Nghiên cứu xây dựng công cụ tách từ tự động tiếng Jrai”, Hội thảo Khoa học Quốc gia, Số 5, Từ trang 307-312, 2013 [9] Huỳnh Công Pháp, Đỗ Thị Thuận, “Nghiên cứu xây dựng hệ thống dịch tự động Jrai – Việt Việt - Jrai”, Tạp chí Khoa học Cơng nghệ Đại học Đà Nẵng, Số 12(61), Từ trang 97-102, 2012 [10] Hoàng Thị Mỹ Lệ, Phan Huy Khánh, “Giải pháp xây dựng kho ngữ liệu đa ngữ Việt – Ê đê gán nhãn theo ngữ cảnh”, Tạp chí Khoa học Công nghệ Đại học Đà Nẵng, Số 1(74), Từ trang 38 – 41, 2014 [8] Hình Chức gióng hàng Ngồi ra, chúng tơi tích hợp chức gióng hàng văn vào hệ thống Kết luận Xử lý TV TDTTS lĩnh vực nghiên cứu quan tâm cấp bách Việt Nam Vấn đề đặt làm để tạo điều kiện thuận lợi cho cộng đồng nghiên cứu lĩnh vực nhằm nâng cao phát huy hiệu trình nghiên cứu Kết báo đóng góp phần quan trọng nhằm giải vấn đề đặt Đóng góp thứ báo kết nghiên cứu tổng quan nguồn tài nguyên gồm tài liệu khoa học, liệu [11] Trương Đình Tú, Xây dựng gõ tiếng dân tộc, Cuộc thi trí tuệ Việt Nam, 2003 [12] Y Ghi Niê, KS Võ Ngọc Hiệp, ThS Trần Cát Lâm, Phần mềm gõ chữ dân tộc, Sở Khoa học Công nghệ tỉnh DakLak, 2003 [13] Đỗ Gia Trinh, Xây dựng kho liệu song ngữ Việt – Cơ Tu phục vụ tra cứu văn hóa dân tộc Cơ Tu, Luận văn Thạc sỹ Kỹ thuật, Đà Nẵng, 2013 [14] Phan Thị Thu Nhân, Xây dựng kho ngữ vựng song ngữ Việt – Ê đê xử lý tiếng Ê đê, Luận văn Thạc sỹ Kỹ thuật, Đà Nẵng, 2013 [15] Phan Thị Hà, Nguyễn Thị Minh Huyền, Lê Hồng Phương, Adam Kilgarriff, Siva Reddy, “Nghiên cứu từ vựng tiếng Việt với hệ thống Sketch Engine”, Tạp chí Tin học Và Điều khiển học, Số 3(27), 2011 [16] Võ Trung Hùng, “Phương pháp công cụ đánh giá tự động hệ thống dịch tự động mạng”, Tạp chí Khoa học Công nghệ, Đại học Đà Nẵng, Số (18), Từ trang 37- 42, 2007 [17] Kho Ngữ liệu quốc tế Anh Quốc, http://ice-corpora.net/ice [18] Kho Ngữ liệu quốc gia Hoa Kỳ, http://www.anc.org (BBT nhận bài: 04/08/2015, phản biện xong: 19/12/2015) ... dịch vụ thông qua môi trường internet Xây dựng môi trường quản lý, truy cập tập trung tài nguyên xử lý TV TDTTS Từ giải pháp đề xuất phần trên, tiến hành xây dựng môi trường quản lý tập trung tài. .. thác hiệu nguồn tài nguyên này, ý tưởng giải pháp trước hết tập hợp nguồn tài nguyên để xây dựng môi trường quản lý truy cập tập trung, sau tiến hành hợp phép việc quản lý truy cập chúng theo... nghiên cứu xây dựng hệ thống xử lý tiếng Jrai dịch thuật tự động, tìm kiếm thông tin [8] Kho liệu song ngữ Việt – Cơ Tu phục vụ tra cứu văn hóa dân tộc Cơ Tu [13] Ý tưởng giải pháp xây dựng môi trường