XÂY DỰNG từ điển CỘNG tác THUẬT NGỮ ANH – VIỆT LĨNH vực CÔNG NGHỆ THÔNG TIN và TRUYỀN THÔNG

Trang 1 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƢỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN HUỲNH SƠN LÂM XÂY DỰNG TỪ ĐIỂN CỘNG TÁC THUẬT NGỮ ANH – VIỆT LĨNH VỰC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠN

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

HUỲNH SƠN LÂM

XÂY DỰNG TỪ ĐIỂN CỘNG TÁC THUẬT NGỮ ANH – VIỆT LĨNH VỰC CÔNG NGHỆ THÔNG TIN VÀ

TRUYỀN THÔNG

LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH

TP HỒ CHÍ MINH – Năm 2017

Trang 2

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

HUỲNH SƠN LÂM

XÂY DỰNG TỪ ĐIỂN CỘNG TÁC THUẬT NGỮ

ANH – VIỆT LĨNH VỰC CÔNG NGHỆ THÔNG TIN VÀ

Trang 3

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi, được thực hiện dưới sự hướng dẫn khoa học của TS Nguyễn Lưu Thùy Ngân Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công

trình nào khác

Người viết luận văn

Huỳnh Sơn Lâm

Trang 4

LỜI CẢM ƠN

Em xin chân thành gửi lời cảm ơn đến các thầy, cô giáo khoa Khoa học máy tính, Trường Đại học Công nghệ thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh đã giảng dạy, giúp đỡ em trong suốt quá trình học tập tại Trường

Em xin gửi lời cảm ơn sâu sắc tới cô giáo, TS Nguyễn Lưu Thùy Ngân, người

đã trực tiếp hướng dẫn, chỉ bảo, giúp đỡ em hoàn thành luận văn này

Em xin chân thành cảm ơn!

Trang 5

MỤC LỤC

LỜI CAM ĐOAN 1

LỜI CẢM ƠN 2

MỤC LỤC 3

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT 6

DANH SÁCH BẢNG BIỂU 7

DANH SÁCH HÌNH VẼ 8

MỞ ĐẦU 9

1 Lý do chọn đề tài 9

2 Mục tiêu nghiên cứu 10

3 Đối tượng, phạm vi nghiên cứu 10

4 Nội dung luận văn 10

Chương 1: TỔNG QUAN VỀ ĐỀ TÀI 12

1.1 Bài toán rút trích thuật ngữ 12

1.2 Bài toán xây dựng từ điển cộng tác thuật ngữ Anh – Việt lĩnh vực ICT 13

1.3 Tiểu kết chương 1 19

Chương 2: CƠ SỞ LÝ THUYẾT 20

2.1 Các khái niệm liên quan 20

2.1.1 Thuật ngữ lĩnh vực công nghệ thông tin và truyền thông 20

2.1.2 Từ điển cộng tác 21

2.2 Một vài thuật toán thường sử dụng trong bài toán rút trích thuật ngữ 22

2.2.1 Sử dụng độ đo cục bộ TF 22

2.2.2 Kết hợp độ đo cục bộ TF và độ đo toàn cục IDF 23

Trang 6

2.2.3 Kết hợp độ đo cục bộ chi bình phương với độ đo tồn cục IDF 24

2.2.4 K - láng giềng gần nhất 25

2.2.5 Nạve Bayes 26

2.2.6 S3VM 27

2.3 Một vài mơ hình ứng dụng từ điển cộng tác 29

2.3.1 VocBench 29

2.3.2 MediaWiki 33

Chương 3: MƠ HÌNH ĐỀ XUẤT 39

3.1 Phương pháp rút trích thuật ngữ ICT 39

3.1.1 Yêu cầu bài tốn 39

3.1.2 Phương pháp 39

3.2 Phương pháp xây dựng từ điển cộng tác 41

3.2.1 Các phân nhĩm thuật ngữ sử dụng trong từ điển 41

3.2.2 Cơ chế cộng tác 43

3.2.3 Dữ liệu từ điển 44

Chương 4: THỬ NGHIỆM VÀ ĐÁNH GIÁ 46

4.1 Bài tốn rút trích thuật ngữ ICT 46

4.1.1 Dữ liệu thử nghiệm 46

4.1.2 Các kết quả thử nghiệm 46

4.2 Ứng dụng từ điển cộng tác thuật ngữ Anh – Việt lĩnh vực ICT 49

4.2.1 Giới thiệu ứng dụng 49

4.2.2 Đánh giá chức năng chính của ứng dụng 52

4.2.3 Đánh giá tính hữu ích của ứng dụng 53

Trang 7

Chương 5: KẾT LUẬN VÀ KHUYẾN NGHỊ 55

5.1 Kết quả đạt được 55

5.2 Hạn chế 55

5.3 Hướng phát triển 55

TÀI LIỆU THAM KHẢO 57

PHỤ LỤC 1: PHIẾU KHẢO SÁT 59

Trang 8

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Trang 9

DANH SÁCH BẢNG BIỂU

Trang 10

DANH SÁCH HÌNH VẼ

01 Hình 1.1 Giao diện tra từ của Bamboo tra từ

02 Hình 1.2 Giao diện chính của Glosbe.com

03 Hình 1.3 Giao diện tra từ của rung.vn

04 Hình 2.1 Giao diện chính của công cụ VocBench

05 Hình 2.2 Biểu trƣng của Wikipedia

06 Hình 2.3 Biểu trƣng của Wikimedia Commons

08 Hình 3.1 Mô hình cơ cấu tổ chức khoa và bộ môn của UIT

tin theo Danh mục giáo dục đào tạo cấp IV

10 Hình 3.3 Các phân nhóm thuật ngữ sử dụng trong từ điển

11 Hình 3.4 Sơ đồ cơ chế cộng tác của từ điển

12 Hình 4.1 Màn hình tra cứu thuật ngữ

13 Hình 4.2 Màn hình thêm mới thuật ngữ

14 Hình 4.3 Màn hình cập nhật thuật ngữ

15 Hình 4.4 Màn hình thêm mới file thuật ngữ

16 Hình 4.5 Màn hình Quản trị nội dung từ điển

Trang 11

MỞ ĐẦU

1 Lý do chọn đề tài

Phát triển nền kinh tế tri thức đang là một yêu cầu lớn được đặt ra trong toàn

bộ sự phát triển kinh tế và xã hội Việc đẩy mạnh ứng dụng công nghệ thông tin và truyền thông đã được xác định là động lực to lớn nhất để thúc đẩy nền kinh tế tri

thức phát triển Có thể hiểu rằng, công nghệ thông tin và truyền thông là một ngành nghề rộng lớn có ảnh hưởng tới nhiều ngành nghề khác nhau của xã hội, nhất là

những xã hội phát triển có sử dụng hàm lượng tri thức cao

Ngày 17/10/2000, Bộ Chính trị, Ban Chấp hành Trung ương Đảng Cộng sản

Việt Nam (Khóa VIII) đã ban hành Chỉ thị số 58-CT/ TW về “Đẩy mạnh ứng dụng

và phát triển công nghệ thông tin phục vụ sự nghiệp công nghiệp hóa, hiện đại hóa” (Chỉ thị 58) Dưới sự chỉ đạo của Đảng và điều hành của Chính phủ, trong 10 năm qua, công nghệ thông tin và truyền thông Việt Nam đã đạt được nhiều thành tựu

quan trọng và đáp ứng được những mục tiêu đề ra Công nghiệp Công nghệ thông

tin đã trở thành ngành kinh tế quan trọng, có tốc độ phát triển hàng năm cao so với các khu vực khác, có tỷ lệ đóng góp cho tăng trưởng GDP của cả nước ngày càng

tăng

Cùng với sự phát triển đó, nhu cầu nguồn nhân lực công nghệ thông tin và truyền thông chất lượng cao cũng không ngừng tăng cao trong những năm qua Theo định hướng quy hoạch quốc gia đến năm 2020, Việt Nam cần khoảng 1 triệu lao động ngành Công nghệ thông tin Vì lẽ đó, số người giam gia học tập, nghiên

cứu trong lĩnh vực công nghệ thông tin và truyền thông không ngừng tăng cao trong những năm qua Một vấn đề đặt ra trong quá trình học tập và nghiên cứu là nhu cầu tra cứu từ vựng, thuật ngữ tiếng Anh chuyên ngành Để đáp ứng nhu đó, nhiều bộ từ điển đã ra đời dưới nhiều dạng khác nhau như: từ điển giấy, từ điển trực tuyến, ứng dụng từ điển trên các thiết bị di động, … nhưng vẫn chưa thể đáp ứng tốt được yêu cầu tra cứu của đa số người sử dụng vì lĩnh vực công nghệ thông tin và truyền thông

là một trong các lĩnh vực luôn không ngừng phát triển với một tốc độ rất nhanh, số thuật ngữ mới cũng xuất hiện rất nhiều và nhanh chóng

Trang 12

Để giải quyết vấn đề này một giải pháp đã được đề ra trong những năm gần đây là xây dựng từ điển thuật ngữ theo dạng cộng tác Giải pháp này được xây dựng dựa trên ý tưởng chính là huy động tối đa tri thức cộng đồng để xây dựng một bộ từ điển dần hoàn thiện từng ngày và đáp ứng nhu cầu của người sử dụng Tuy nhiên, thực tế cho thấy những bộ từ điển thuật ngữ Anh – Việt chuyên ngành hiện tại vẫn chưa đáp ứng được đầy đủ nhu cầu sử dụng

Với những lý do nêu trên, chúng tôi chọn đề tài “Xây dựng từ điển cộng tác thuật ngữ Anh – Việt lĩnh vực công nghệ thông tin và truyền thông” để thực hiện

2 Mục tiêu nghiên cứu

- Nghiên cứu kỹ thuật rút trích thuật ngữ bằng Tiếng Anh tự động từ các bài báo khoa học về lĩnh vực công nghệ thông tin và truyền thông (ICT) để bổ sung vào

từ điển

- Xây dựng từ điển cộng tác thuật ngữ Anh - Việt cho lĩnh vực ICT với khoảng

1500 từ vựng ban đầu

3 Đối tượng, phạm vi nghiên cứu

Trong khuôn khổ luận văn, chúng tôi thực hiện các nội dung sau:

- Tìm hiểu khái niệm và cách thức tổ chức, hoạt động của một bộ từ điển cộng tác trực tuyến

- Tìm hiểu bài toán rút trích và một số thuật toán rút trích phổ biến hiện nay

- Tìm hiểu công cụ VocBench

- Xây dựng từ điển cộng tác thuật ngữ Anh - Việt cho lĩnh vực ICT với khoảng

1500 từ vựng ban đầu

- Nghiên cứu và đề xuất kỹ thuật rút trích thuật ngữ bằng Tiếng Anh một cách

tự động từ các bài báo khoa học về lĩnh vực ICT để bổ sung vào từ điển

4 Nội dung luận văn

Nội dung của luận văn được trình bày trong 05 chương:

Chương 1: Tổng quan về đề tài

Giới thiệu tổng quan về đề tài bao gồm bài toán rút trích thuật ngữ; bài toán xây dựng từ điển thuật ngữ Anh – Việt cho lĩnh vực ICT

Trang 13

Chương 2: Cơ sở lý thuyết

Trình bày các khái niệm liên quan đến đề tài; các công trình liên quan về từ điển cộng tác; tổng quan về bài toán rút trích và một số thuật toán rút trích phổ biến Chương 3: Mô hình đề xuất

Đề xuất mô hình tổ chức lưu trữ bộ từ điển thuật ngữ Anh – Việt lĩnh vực ICT

và xây dựng phương pháp rút trích thuật ngữ từ bài báo chuyên ngành bằng tiếng Anh để làm dữ liệu bổ sung từ vựng cho từ điển

Chương 4: Thử nghiệm và đánh giá

Giới thiệu việc xây dựng, cài đặt bộ từ điển cộng tác trên nền tảng web cộng tác; triển khai thử nghiệm và khảo sát tính hữu ích của hệ thống đối với người sử dụng

Chương 5: Kết luận và khuyến nghị

Tổng kết những kết quả đạt được của đề tài; hạn chế của đề tài; đồng thời đề

ra hướng phát triển của đề tài

Trang 14

Chương 1: TỔNG QUAN VỀ ĐỀ TÀI

1.1 Bài toán rút trích thuật ngữ

Theo từ điển Tiếng Việt (Hoàng Phê, 2010), Thuật ngữ là Từ ngữ biểu thị một khái niệm xác định thuộc hệ thống những khái niệm của một ngành khoa học nhất

định Ngoài ra, theo B Q Zadeh và S Handschuh [11] thì Thuật ngữ là những đơn

vị từ vựng xác định, đại diện cho một kiến thức cơ bản nhất của một lĩnh vực tri

thức Như vậy, Thuật ngữ (Terminology) là một từ hay một cụm từ diễn tả một khái niệm thuộc một ngành khoa học nhất định

Rút trích thuật ngữ (Terminology extraction) là một trong những hướng nghiên cứu rút trích thông tin từ văn bản phổ biến hiện nay Rút trích thuật ngữ từ

một hay nhiều văn bản tức là tìm kiếm và lấy ra tất cả các từ, cụm từ được xác định

là thuật ngữ Thuật ngữ được trích ra có thể là thuật ngữ đã từng xuất hiện trong văn bản khoa học nào đó, hoặc đó có thể là một thuật ngữ hoàn toàn mới được công bố Hiện nay, đã có nhiều nghiên cứu và tìm ra các kỹ thuật, phương pháp để giải

quyết bài toán rút trích thuật ngữ Đã có nhiều phương pháp, thuật toán được đề xuất và thử nghiệm trên nhiều bộ dữ liệu huấn luyện khác nhau, tuy nhiên những

kết quả thu được chỉ ở mức chấp nhận được và vẫn cần có sự can thiệp thủ công của con người để có thể tăng thêm độ tin cậy và chính xác của kết quả

Một số công trình nghiên cứu có thể kể đến như:

- Công trình “Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc” [6] đề xuất xác định từ mới dựa trên độ quan trọng của

từ được tính theo công thức kết hợp của độ đo cục bộ và độ đo toàn cục Theo đó,

một thuật toán đánh giá từ khóa dựa trên sự kết hợp của độ đo cục bộ và độ đo toàn

cục là TF.IDF (Term Frequency - Inverse Document Frequency) cho một kết quả

khá tốt (51,98%) trên bộ dữ liệu mẫu

- Theo báo cáo khoa học “Automatic Term Extraction Based on Perplexity of

Compound Words” [16] đề xuất rút trích thuật ngữ dựa trên phương pháp kết hợp

loại và tần số qua entropy (Combining Types and Frequencies via Entropy) Nhóm

tác giả đã áp dụng phương pháp này với tập các bài báo và tóm tắt trên Mainichi

Trang 15

Web News từ 04/2011 đến 3/2012 Kết quả đạt được trên 40% với các bài báo thuộc lĩnh vực kinh tế, thế giới, xã hội, chính trị

- Một hướng tiếp cận khác cho rút trích là dựa trên mô hình ontology (Chau và Tuoi, 2009) Nhóm tác giả Chau và Tuoi [14] đã sử dụng phương pháp đề xuất trên tập dữ liệu TREC (Text REtrieval Conference) (http://trec.nist.gov/data/): TREC-07 (446 câu hỏi); TREC-06 (492 câu hỏi) và TREC-02 (440 câu hỏi) đã được dịch sang tiếng Việt Kết quả đạt được độ chính xác xấp xỉ 74,6%

- Một hướng tiếp cận rút trích khác là dựa trên lý thuyết về dãy con chung dài nhất (Longest Common Subquence – LCS) [15] Áp dụng rút trích multi-word Expression (MWE) kết hợp heuristic và phát hiện Embebbed Base Phrase (EBP) trên tập mẫu 8000 câu Kết quả đạt xấp xỉ 36% với N-gram

1.2 Bài toán xây dựng từ điển cộng tác thuật ngữ Anh – Việt lĩnh vực ICT

Hiện nay, công nghệ thông tin và truyền thông là một trong những ngành đang trong thời kỳ phát triển bùng nổ, thu hút một lượng lớn người học tập, nghiên cứu các chuyên ngành trong lĩnh vực

Do vậy, để đáp ứng nhu cầu tra cứu phục vụ cho mục đích học tập và nghiên

cứu của đa số người sử dụng, đã có không ít ấn bản từ điển thuật ngữ của các chuyên ngành thuộc lĩnh vực công nghệ thông tin và truyền thông đã ra đời Tuy

nhiên, hầu hết đều chưa đáp ứng được nhu cầu thực tế của đa số người sử dụng Đa

số các lý do được đưa ra đều xoay quanh 3 vấn đề tồn tại tiêu biểu của một ấn bản

từ điển thuật ngữ chuyên ngành là:

(1) Khó khăn và tốn nhiều thời gian trong việc tra cứu một cách thủ công, không có tính di động cao, chưa đáp ứng được nhu cầu tra cứu lập tức, một nhu cầu luôn tồn tại đối với những cá nhân hoạt động trong lĩnh vực công nghệ thông tin và truyền thông;

(2) Đa số từ điển chưa được phân loại theo từng chuyên ngành cụ thể trong

cùng lĩnh vực;

(3) Số lượng thuật ngữ trong từng bộ từ điển còn hạn chế, hầu hết đều không

có khả năng cập nhật kịp thời những thuật ngữ mới trong lĩnh vực, nhất là lĩnh vực

Trang 16

công nghệ thông tin và truyền thông là một trong các lĩnh vực có sự xuất hiện, bổ

sung và cập nhật thuật ngữ với tốc độ rất cao

Từ đó, ý tưởng về việc xây dựng bộ từ điển thuật ngữ lĩnh vực công nghệ thông tin và truyền thông đã ra đời Đã có không ít các bộ từ điển thuật ngữ chuyên

ngành đã ra đời với mong muốn đáp ứng nhu cầu tra cứu của đa số người dùng nhằm phục vụ nhu cầu học tập và nghiên cứu của họ

Một số ứng dụng từ điển được xây dựng dưới dạng ứng dụng web hiện nay có thể kể đến như:

Bamboo tra từ

Hình 1.1 Giao diện tra từ của Bamboo tra từ

Bamboo tra từ (tratu.soha.vn) là trang từ điển trực tuyến đa chuyên ngành, được Công ty Cổ phần Truyền thông Việt Nam VC Corp phát triển dựa trên nền

tảng mở mediawiki cho phép người dùng tra cứu nghĩa của từ trong các lĩnh vực

khác nhau Nội dung của Bamboo tra từ tuân thủ Giấy phép Creative Commons Attribution ShareAlike

Cơ sở dữ liệu được kế thừa nguồn dữ liệu từ trang từ điển trực tuyến Vietdic,

cộng với việc thường xuyên bổ sung các nguồn dữ liệu từ việc mua lại các từ điển

có bản quyền như Prodic và Javidic, Bamboo Tra từ hiện đang sở hữu một nguồn

dữ liệu khổng lồ và quý giá Nhưng điều tạo nên sự khác biệt giữa Bamboo Tra từ

và các trang từ điển khác, đó chính là những đóng góp của cộng đồng các thành

Trang 17

viên Bamboo Tra từ trong việc xây dựng nguồn dữ liệu từ điển Hiện nay số lượng

thành viên của Bamboo tra từ đã lên đến con số hơn 30,000

Bên cạnh tính năng chính hỗ trợ cho việc tra cứu và dịch thuật, Bamboo tra từ còn được tích hợp thêm nhiều tiện ích để người dùng có thể sử dụng một cách dễ

dàng và nhanh chóng nhất

(1) Box Hỏi – Đáp dành cho người dùng

Ngoài tính năng tra từ thân thiện và dễ sử dụng, Box Hỏi – Đáp chính là điểm

đến thú vị nhất đối với những người thường xuyên truy cập Bamboo tra từ Với sự

tham gia của rất nhiều thành viên tích cực, trong đó có cả những người làm công tác dịch thuật chuyên nghiệp, Box Hỏi – Đáp luôn là nơi giải đáp tốt nhất những thắc

mắc về học tập ngoại ngữ và dịch thuật của các thành viên cộng đồng Bamboo Tra

từ

(2) Tra từ Add-on cho Firefox dành cho người dùng

Với mục đích trợ giúp cho người dùng sử dụng các trình duyệt đang được ưa chuộng nhất hiện nay trong việc tra cứu, nhóm phát triển Bamboo tra từ đã cho ra

đời add-on tra từ dành cho Firefox với giao diện đơn giản, dễ sử dụng và tính tương tác cao

(3) Tra từ Bookmarklet dành cho người dùng

Ban đầu là một tiện ích được nhóm phát triển Bamboo tra từ cho ra đời nhằm

đáp ứng yêu cầu của đa số người dùng Internet Explorer Nhưng Tra từ Bookmarklet dần cho thấy sự ưu việt bằng khả năng tương tác với tất cả các trình

duyệt phổ biến hiện nay

(4) Forum Bamboo tra từ dành cho người dùng

Forum Bamboo tra từ là một không gian cộng đồng khác của Bamboo Tra từ

bên cạnh Box Hỏi – Đáp Với nhiều không gian dành cho giải trí hơn, các thành

viên sẽ có được khoảng thời gian thư giãn sau giờ học tập làm việc căng thẳng

(5) Tiện ích nhúng tra cứu nhanh trên website dành cho Webmaster

Bamboo tra từ hiện cho phép tích hợp tính năng tra cứu lên trang web của bạn Chỉ cần vài thao tác đơn giản, đã có thể khai thác được nguồn dữ liệu khổng lồ Bamboo tra từ, với các bộ từ điển lớn: Anh – Pháp – Việt – Nhật,… và hơn 20 từ

điển chuyên ngành khác

Trang 18

(6) Module Bamboo tra từ cho Joomla dành cho Webmaster

Module Bamboo tra từ là tính năng mới mà Bamboo tra từ phát triển dành riêng cho mã nguồn mở Joomla Đây là module hỗ trợ người dùng tra cứu từ điển

trực tiếp ngay trên web

Mặc dù có nhiều tính năng ưu việt, nhưng Bamboo tra từ chưa thực sự phù

hợp dành cho các cá nhân đang học tập và nghiên cứu các chuyên ngành thuộc lĩnh vực công nghệ thông tin và truyền thông vì:

(1) Số lượng thuật ngữ lĩnh vực này còn khá hạn chế (chưa có chuyên mục

riêng);

(2) Chưa hỗ trợ giải thích khái niệm thuật ngữ mà chỉ mới dừng lại ở mức hỗ trợ ngữ nghĩa từ vựng

Glosbe.com – the multilingual online dictionary

Hình 1.2 Giao diện chính của Glosbe.com

Glosbe.com là một ứng dụng từ điển được xây dựng trên mô hình web cộng

tác với sự hỗ trợ tra cứu ngữ nghĩa từ vựng trên nhiều ngôn ngữ khác nhau Glosbe.com cung cấp một dữ liệu từ điển lớn nhằm đáp ứng nhu cầu tra cứu của

người dùng Đồng thời Glosbe.com cũng rất trân trọng và hoan nghên tất cả các đóng góp của người dùng thông qua môi trường cộng tác công khai trên giao diện

Trang 19

ứng dụng web của từ điển Một số dữ liệu của Glosbe.com hiện có đƣợc cấp phép với CC-BY-SA, một số là FDL, một số có giấy phép tùy chỉnh

Tuy nhiên, Glosbe.com đƣợc đánh giá là một bộ từ điển đáp ứng khá tốt những nhu cầu tra cứu phổ thông, nhƣng chƣa đáp ứng đầy đủ nhƣ cầu tra cứu các thuật ngữ chuyên ngành nói chung và những thuật ngữ lĩnh vực công nghệ thông tin

và truyền thông nói riêng

Rung.vn

Hình 1.3 Giao diện tra từ của rung.vn

Trang 20

Rung.vn là một ứng dụng từ điển trực tuyến, một ứng dụng dành cho cộng đồng dịch thuật mở với mục tiêu Dịch thuật tương tác - Dịch thuật không giới hạn Rung.vn cung cấp cho người dùng các bộ từ điển trực tuyến miễn phí, có hình minh hoạ, có phiên âm nhiều thứ tiếng Anh, Việt, Trung, Hàn, Nhật, Pháp, Viết tắt, Hiện tại Rung.vn mới bổ sung thêm 2 bộ từ điển nữa là Anh - Nhật và Nhật – Anh Bên cạnh đó, Rung.vn cũng đã bổ sung thêm ứng dụng bookmarklet hỗ trợ tra cứu

và dịch đoạn văn bản trên mọi trình duyệt tại các trang mà bạn đang xem

Trong lúc tra từ, chúng ta thường copy qua lại những văn bản để tra thì chúng

ta vô tình copy luôn những ký tự hoặc từ không mong muốn, do đó rung.vn đã hiểu

và phát triển cho bạn một từ điển thông minh Dù bạn copy hay gõ dư hay thiếu từ,

hở đầu hở đuôi thì kết quả cũng gần như từ bạn mong muốn, và bao gồm các từ gợi

ý giúp chúng ta có thêm nhiều lựa chọn

Rung.vn được xây dựng trên nền tảng Mã nguồn mở nên nội dung của từ đều

có thể thêm hoặc sửa lại theo đúng nghĩa bởi cộng đồng Rung.vn rất hoan nghênh

sự đóng góp của cộng đồng tham gia vào việc chỉnh sửa này để tạo nên một bộ từ

điển hoàn thiện và hoàn toàn miễn phí cho cộng đồng

Nhận xét

So với các ấn bản từ điển đã phát hành thì những bộ từ điển thuật ngữ trực

tuyến hiện đại đã bước đầu có được một số ưu điểm vượt trội có thể kể đến như sau: (1) Có tính di động cao, được hỗ trợ trên nhiều thiết bị, được truy cập thông

qua các thiết bị hỗ trợ, đáp ứng nhu cầu tra cứu nhanh;

(2) Có khả năng cập nhật và bổ sung nhanh chóng nhờ vào các cơ chế quản lý ứng dụng của nhà phân phối;

(3) Đa số các bộ từ điển này đều có sự kế thừa, tổng hợp từ các ấn bản từ điển

đã được phát hành, có số lượng các thuật ngữ là tương đối lớn so với các ấn bản từ điển giấy

Tuy nhiên, những ứng dụng từ điển này vẫn có một số vấn đề còn tồn tại và

cần được giải quyết Hầu hết những ứng dụng từ điển này đều được xây dựng dưới hình thức một ứng dụng web, một chương trình ứng dụng trên máy tính hay một

ứng dụng trên các thiết bị di động Nhưng thực tế là những ứng dụng này chỉ tổng hợp tất cả thuật ngữ cùng phần chú giải vào dữ liệu từ điển của ứng dụng chứ chưa

Trang 21

có một sự phân loại tổ chức từ điển theo từng chuyên ngành trong lĩnh vực công

nghệ thông tin và truyền thông Một vấn đề còn tồn tại nữa đó là những từ điển này chưa thật tận dụng có hiệu quả được sự cộng tác của người dùng trực tiếp thông qua ứng dụng

Mô hình từ điển thuật ngữ dựa trên cơ sở ứng dụng web cộng tác cùng với một

mô hình tổ chức phân loại phù hợp cho từ điển thật sự là một giải pháp phù hợp cho nhu cầu tra cứu thuật ngữ phục vụ việc học tập và nghiên cứu của các cá nhân đang hoạt động trong lĩnh vực Mô hình ứng dụng web cộng tác là một mô hình có thể

tận dụng tối ưu nhất sự đóng góp của tất cả các cá nhân sử dụng từ điển nhằm cùng góp phần xây dựng từ điển ngày càng hoàn thiện hơn Bên cạnh đó mô hình web

cộng tác là một mô hình phù hợp nhất cho việc kịp thời cập nhật những thuật ngữ

mới bằng việc tận dụng những tri thức của người dùng được đóng góp cho từ điển thông qua các hoạt động cộng tác xây dựng từ điển

Trang 22

Chương 2: CƠ SỞ LÝ THUYẾT

2.1 Các khái niệm liên quan

2.1.1 Thuật ngữ lĩnh vực công nghệ thông tin và truyền thông

Theo Từ điển Oxford, Thuật ngữ là một từ hoặc cụm từ được sử dụng như tên của một đối tượng nào đó trong một ngôn ngữ cụ thể; là từ ngữ chuyên môn của

một vấn đề riêng biệt Công nghệ thông tin và truyền thông (Information and Communications Technology – ICT) là ngành học nghiên cứu về việc sử dụng máy tính, internet, video và các công nghệ khác như là một môn tại các trường học

Theo từ điển Tiếng Việt (Hoàng Phê, 2010), Thuật ngữ là từ ngữ biểu thị một khái niệm xác định thuộc hệ thống những khái niệm của một ngành khoa học nhất

định

Theo bộ từ điển mở Wiktionaty thì Thuật ngữ là Từ ngữ biểu thị một khái niệm xác định thuộc hệ thống những khái niệm của một ngành khoa học nhất định Theo các định nghĩa về thuật ngữ như trên, ta xác định được các đặc điểm chính của thuật ngữ là:

- Thuật ngữ khác với từ ngữ phổ thông

- Mỗi thuật ngữ thuộc một lĩnh vực khoa học công nghệ chỉ biểu thị một khái

niệm và ngược lại mỗi khái niệm trong lĩnh vực đó chỉ được biểu hiện bằng một

thuật ngữ duy nhất

- Thuật ngữ không có tính biểu cảm

Theo bộ bách khoa toàn thư mở Wikipedia thì Công nghệ thông tin và truyền thông, thường được gọi là ICT, là cụm từ thường dùng như từ đồng nghĩa rộng hơn cho công nghệ thông tin (IT), nhưng thường là một thuật ngữ chung để nhấn mạnh vai trò của truyền thông hợp nhất và sự kết hợp của viễn thông (đường dây điện

thoại và tín hiệu không dây), hệ thống quản lý tòa nhà thông minh và hệ thống nghe-nhìn trong công nghệ thông tin hiện đại "ICT" được sử dụng như là một thuật ngữ chung cho tất cả các loại công nghệ cho phép người dùng tạo, truy cập và thao tác với thông tin ICT là một sự kết hợp của công nghệ thông tin và công nghệ truyền thông

Trang 23

Như vậy, thuật ngữ lĩnh vực công nghệ thông tin và truyền thông là những từ, cụm từ biểu thị một khái niệm cụ thể thuộc lĩnh vực công nghệ thông tin và truyền thông, nghiên cứu máy tính, internet, video và các công nghệ liên quan khác Đa số thuật ngữ thường chỉ tập trung xuất hiện trong các văn bản khoa học trong cùng lĩnh vực

Từ các định nghĩa và đặc điểm đã nêu của một từ được cho là thuật ngữ, ta có thể xác định được một số dấu hiệu nhận biết giúp xác định một từ có khả năng là

thuật ngữ lĩnh vực công nghệ thông tin và truyền thông trong văn bản khoa học thuộc lĩnh vực công nghệ thông tin và truyền thông như sau:

- Thường chỉ xuất hiện trong các văn bản khoa học và tài liệu chuyên ngành

trong cùng lĩnh vực (Công nghệ thông tin và truyền thông)

- Là từ khóa trong văn bản (đa số là bài báo khoa học)

- Là danh ngữ, thường là danh từ hay cụm danh từ

- Là từ mới, thường có giải thích khái niệm đi kèm

- Là từ được viết tắt trong văn bản, thường là những thuật ngữ được sử dụng nhiều lần trong văn bản

nguyên, cách sử dụng hay các câu ví dụ, trích dẫn Từ điển là nơi giải thích thông

tin về ngôn ngữ của con người một cách dễ hiểu và khách quan nhất Thông thường

từ điển được trình bày dưới dạng sách Ngày nay, từ điển còn được số hóa và cung cấp dưới dạng phần mềm máy tính, ứng dụng trên nền web hay ứng dụng trên di

động,

Cộng tác là quá trình trao đổi, trợ giúp, phối hợp giữa một nhóm người nhằm đạt được một mục tiêu xác định Việc cộng tác đã được con người thực hiện từ rất lâu và đây chính là cơ sở cho sự phát triển và hình thành nên xã hội loài người, giúp con người phát triển từ giai đoạn bầy đàn sang giai đoạn xã hội Hoạt động cộng tác

Trang 24

của con người được thể hiện dưới nhiều hình thức khác nhau: Cộng tác trong công việc, cộng tác trong việc truyền đạt tri thức

Từ điển cộng tác là một loại từ điển cho phép các cá nhân sử dụng có thể sửa chữa, góp ý xây dựng để bộ từ điển ngày càng hoàn thiện và chính xác Từ

điển công tác thường được xây dựng dưới dạng các bộ từ điển trực tuyến, miễn phí cho tất cả người sử dụng

Một bộ từ điển cộng tác trực tuyến thường đi kèm một cơ chế cộng tác Một

cơ chế cộng tác hiệu quả là một cơ chế cộng tác có khả năng vừa kích thích sự cộng tác của cá nhân, vừa hạn chế những ý kiến đóng góp không chính xác Một cơ chế

cộng tác hợp lý sẽ giúp xây dựng một ứng dụng cộng tác phát triển và thật sự hữu

ích cho người dùng

2.2 Một vài thuật toán thường sử dụng trong bài toán rút trích thuật ngữ

2.2.1 Sử dụng độ đo cục bộ TF

TF - Term Frequency, độ đo cục bộ (local weight) là độ đo thống kê giá trị

thông tin của một từ trong một văn bản theo tần số xuất hiện của từ đó trong văn

bản Theo đó, một từ được cho là từ khóa, là từ có chứa độ lợi thông tin càng cao thì

số lần xuất hiện của từ trong văn bản càng cao và giá trị TF càng lớn

Giá trị TF, tần số xuất hiện của một từ trong một văn bản được tính bằng thương của số lần xuất hiện của một từ trong văn bản và số lần xuất hiện nhiều nhất của một từ bất kỳ trong văn bản đó, giá trị sẽ thuộc khoảng [0, 1] Cụ thể như sau:

* ( ) +Trong đó:

- f(t,d): số lần xuất hiện từ t trong văn bản d

- max{f(w,d):w d}: số lần xuất hiện nhiều nhất của một từ bất kỳ trong văn

Trang 25

và thường được sử dụng kết hợp với độ đo toàn cục (global weight) hay các độ đo

khác nhằm tăng độ tin cậy cho phương pháp

2.2.2 Kết hợp độ đo cục bộ TF và độ đo toàn cục IDF

Hướng tiếp cận này thường sử dụng thông tin thống kê tần số xuất hiện để chọn lựa các từ khóa quan trọng trong văn bản Ưu điểm chính của các hướng tiếp

cận dựa trên thống kê này là có thể áp dụng dễ dàng cho nhiều ngôn ngữ

Thông tin thống kê này thường bao gồm hai loại: Độ đo cục bộ và độ đo toàn

cục Độ đo cục bộ là độ đo thống kê của một từ trong nội bộ văn bản cần rút trích từ khóa Trong khi đó độ đo toàn cục là độ đo thống kê của từ đó trong một tập hợp

nhiều văn bản khác nhau cho trước

Một số độ đo thống kê cục bộ thông dụng có thể được sử dụng để lựa chọn các

từ khóa quan trọng như: tần số xuất hiện (TF), độ phân bố chi bình phương (χ2 ), độ lợi thông tin (IG), thông tin tương hỗ (MI), hoặc độ mạnh của thuật ngữ (TS) Còn

về độ đo thống kê toàn cục thì có thể kể đến độ đo IDF (Inverse Document Frequency), dùng để đo nghịch đảo sự phổ biến của một từ trong một tập hợp văn

bản cho trước Cần phải có một tập dữ liệu văn bản lớn cho trước để có thể sử dụng

độ đo toàn cục

Hiện nay một thuật toán rút trích từ khóa dựa trên sự kết hợp của độ đo cục bộ

và toàn cục là TF.IDF cũng cho kết quả khá tốt Cách tiếp cận của TF.IDF sẽ ước

lượng được độ quan trọng của một từ đối với một văn bản trong danh sách tập tài

liệu văn bản cho trước

Nguyên lý cơ bản của TF.IDF [6] là: độ quan trọng của một từ sẽ tăng lên cùng với số lần xuất hiện của nó trong văn bản và sẽ giảm xuống nếu từ đó xuất

hiện trong nhiều văn bản khác Do đó độ đo sự quan trọng của một từ t trong tài liệu

f sẽ được tính bằng: TF*IDF, với TF là độ phổ biến của từt trong tài liệu f và IDF là

nghịch đảo độ phổ biến của từt trong các tài liệu còn lại của tập tài liệu Công thức

Trang 26

Trong đó:

Ns(t) : Số lần xuất hiện của từ t trong tài liệu f

∑w: Tổng số các từ trong tài liệu f

∑d= tổng số tài liệu d:t d : số tài liệu có chứa từ t

Ví dụ, nếu chúng ta có một văn bản gồm 100 từ, trong đó từ “computer” xuất hiện 5 lần thì ta có độ phổ biến: TF(“computer”) = 5/100 = 0.05 Bây giờ giả sử

chúng ta có 1000 tài liệu, trong đó có 200 tài liệu chứa từ “computer” Lúc này ta sẽ tính được IDF(“computer”) = ln(1000/200) = 1.61 Như vậy ta tính được độ đo TF.IDF = TF * IDF = 0.05 * 1.61 = 0.0805

Độ đo này của từ càng cao thì khả năng là từ khóa càng lớn Hướng tiếp cận

độ đo TF.IDF này rất thông dụng hiện nay

2.2.3 Kết hợp độ đo cục bộ chi bình phương với độ đo toàn cục IDF

Hướng tiếp cận này dựa vào thông tin thống kê trong nội bộ văn bản (độ phân

bố chi bình phương - ) và thông tin thống kê với tập dữ liệu bên ngoài văn bản (IDF) [8] Trọng số (độ quan trọng) W của mỗi từ ứng viên t bằng cách kết hợp hai

độ đo này theo công thức:

Với:

- freq(w, c) là số lần xuất hiện cùng nhau của từ w và nhóm c

- là tổng số từ có trong các câu mà w xuất hiện

- là tần suất xuất hiện của nhóm c

phân bố của một từ trong văn bản Độ đo này được xem như độ quan trọng của từ trong văn bản Độ đo này càng cao thì khả năng là từ cần rút trích càng nhiều

Trang 27

Độ đo toàn cục IDF của một từ t trong tập văn bản D được tính như sau:

Với:

- |D| là số tài liệu trong tập tài liệu D

- |{d:t d}| là số tài liệu trong D có chứa từ t

Độ đo W(t) = (t).IDF(t) của từ có giá trị càng cao thì khả năng là từ cần rút trích càng cao

2.2.4 K - láng giềng gần nhất

Thuật toán K – láng giềng gần nhất [5] (K-Nearest Neighbors algorithm, K-NN) được sử dụng rất phổ biến trong lĩnh vực Data Mining K-NN là phương pháp để phân lớp các đối tượng dựa vào khoảng cách gần nhất giữa đối tượng cần xếp lớp (Query Point) và tất cả các đối tượng trong Training Data

Một đối tượng được phân lớp dựa vào K láng giềng của nó K là số nguyên

dương được xác định trước khi thực hiện thuật toán

Một số công thức tính khoảng cách thường được dùng trong K-NN:

Thuật toán K-NN được mô tả như sau:

- Bước 1 Xác định giá trị tham số K (số láng giềng gần nhất)

Trang 28

- Bước 2 Tính khoảng cách giữa các Query Point với tất cả các đối tượng trong Training Data (thường sử dụng khoảng cách Euclid)

- Bước 3 Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K láng giềng gần nhất với Query Point

- Bước 4 Lấy tất cả các lớp của K láng giềng gần nhất đã xác định

- Bước 5 Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp cho

Query Point

2.2.5 Nạve Bayes

Định lý Bayes

Cho X, C là các biến bất kỳ (rời rạc, liên tục, cấu trúc) Mục tiêu của ta là dự

đốn C từ X Từ mơ hình Bayes ta cĩ thể lượng giá các tham số của P(X|C), P(C)

trực tiếp từ tập huấn luyện Sau đĩ, ta sử dụng định lý Bayes để tính P(C|X=x)

Độc lập điều kiện (conditional independence): X độc lập điều kiện với Y khi

cho Z nếu phân bố xác suất trên X độc lập với các giá trị của Y khi cho các giá trị

của Z Ta thường viết P(X|Y,Z) = P(X|Z)

Giả sử D là tập huấn luyện gồm các mẫu biểu diễn dưới dạng X =< x1, …, xn>

Ci,D là tập các mẫu của D thuộc lớp Ci(i = {1, …, m}) Các thuộc tính x1, …, xn độc lập điều kiện đơi một với nhau khi cho lớp C

Trường hợp X là giá trị rời rạc

Giả sử X =< x 1, …, xn> Trong đĩ, xi nhận các giá trị rời rạc Khi đĩ, lượng

Trang 29

( ) | |

| |

với m là số lớp, r là số giá trị rời rạc của thuộc tính

Trường hợp X là giá trị liên tục

Nếu thuộc tính nhận giá trị liên tục thì xác suất P(X_k|C_i) thường được tính dựa theo phân bố Gauss với giá trị trung bình mu và độ lệch sigma:

( )

√

( )

2.2.6 S3VM

Thuật toán S3VM [5] (Semi-supervised support vector machine) có mục đích nhằm xây dựng một máy hỗ trợ vector sử dụng tập dữ liệu huấn luyện là một lượng nhỏ các dữ liệu đã gán nhãn (training set) và một lượng lớn chưa gán nhãn (working set) Bài toán truyền dẫn sẽ dự đoán giá trị của một hàm phân lớp tới các điểm đã cho trong tập dữ liệu chưa gán nhãn

Thuật toán S3VM được xây dựng để sử dụng hỗn hợp dữ liệu huấn luyện là dữ liệu đã gán nhãn và chưa gán nhãn với mục đích là gán các nhãn cho dữ liệu trong tập dữ liệu huấn luyện chưa gán nhãn một các tốt nhất có thể Sau đó sử dụng hỗn

Trang 30

hợp dữ liệu đã gán nhãn cho trước và dữ liệu vừa được gán nhãn để huấn luyến và phân lớp những dữ liệu mới

Ta nhận thấy rằng nếu toàn bộ dữ liệu huấn luyện đã được gán nhãn thì bài

toán này lại trở thành bài toán học có giám sát SVM (Support vector machine) Ngược lại nếu toàn bộ dữ liệu huấn luyện chưa được gán nhãn thì bài toán lại trở thành bài toán học không giám sát

Nội dung thuật toán

Cụ thể hơn ta có bài toán sau:

}

Vấn đề ở đây là ta cần phải xác định y j trong tập dữ liệu chưa được gán nhãn

Ta thực hiện tìm kiếm một siêu phẳng w và ghi nhãn một trong những ví dụ không

có nhãn, do đó hàm mục tiêu SVM được giảm thiểu, và bị ràng buộc bởi một r phần nhỏ của dữ liệu không có nhãn được phân loại tích cực Ta có:

Trang 31

∑ ( ( ))

Tập dữ liệu chưa gán nhãn sau khi đã gán nhãn sẽ được đưa vào tập dữ liệu

huấn luyện, tiếp theo đó sẽ sử dụng thuật toán SVM để học tạo ra SVM mới, SVM này chính là S3VM có một siêu phẳng mới Sau đó áp dụng siêu phẳng này để phân lớp các mẫu dữ liệu mới được đưa vào

Vậy giải thuật S3VM chính là một phương pháp cải tiến của giải thuật SVM, giải thuật đã tận dụng được những ưu điểm của học có giám sát là có độ chính xác cao và đã tận dụng được nguồn dữ liệu huấn luyện không gán nhãn rất sẵn có nhằm giải quyết bài toán phân lớp một cách tối ưu Tuy nhiên vì giải thuật được xây dựng trên nền tảng là giải thuật SVM nên nó vẫn gặp phải những vấn đề của giải thuật

SVM như sự bùng nổ tổ hợp, độ phức tạp cao, giải quyết bài toán tối ưu khó, …

2.3 Một vài mô hình ứng dụng từ điển cộng tác

2.3.1 VocBench

VocBench [10] là một ứng dụng web mã nguồn mở, đa ngôn ngữ, hỗ trợ biên tập và quản lý từ vựng, chú giải bằng SKOS và SKOS-XL VocBench được phát

triển bởi FAO (Food and Agriculture Organization) và các đối tác, và được thiết kế

để đáp ứng các nhu cầu của web ngữ nghĩa và các môi trường liên kết dữ liệu VocBench cung cấp công cụ và chức năng tạo điều kiện cho việc hợp tác chỉnh sửa thuật ngữ đa ngôn ngữ Nó cũng bao gồm quản lý và quản lý nhóm tính năng cho

phép chỉnh sửa một cách linh hoạt

VocBench là kết quả của một nỗ lực chung của nhóm ART, Đại học Rome Tor Vergata Trong phiên bản 2.0, VocBench đã trải qua một cải tiến lớn, với sự hỗ trợ của RDF từ hệ thống Semantic Turkey, với các tính năng mới và cải tiến đáng

kể

Trang 32

Giao diện người dùng

Hình 2.1 Giao diện chính của công cụ VocBench

VocBench đã được xây dựng dưới dạng một ứng dụng web, được truy cập thông qua bất kỳ trình duyệt nào Do đó giúp người dùng giảm đi việc cài đặt phần mềm và cấu hình Giao diện người dùng bao gồm nhiều tab, mỗi một liên kết với

thông tin và các chức năng cụ thể Hình 2.1 cho ta thấy được giao diện làm việc của VocBench một cách tổng quát nhất, với cây khái niệm trên bên trái, và mô tả các

khái niệm được chọn ở bên phải, tập trung vào các tab giới hạn Các khái niệm trong cây có thể được thể hiện qua nhãn của chúng trong tất cả các ngôn ngữ được lựa chọn để hiển thị Một tùy chọn Toggles giữa một điểm của chỉ nhãn được lựa

chọn trước, và tất cả các nhãn Các đặc tính đa ngôn ngữ của VocBench không hạn chế để quản lý nội dung, giao diện của nó cũng được địa lý hóa trong các ngôn ngữ khác nhau, hiện nay: tiếng Anh, tiếng Tây Ban Nha, Hà Lan và Thái Lan

Điều khiển truy cập dựa trên vai trò

VocBench thúc đẩy sự phân công trách nhiệm thông qua một cơ chế kiểm soát truy cập dựa trên vai trò, kiểm tra phân quyền người dùng cho các chức năng yêu

cầu thông qua vai trò mà người dùng chấp nhận VocBench hỗ trợ phân quyền người dùng với 4 vai trò cơ bản: Quản trị viên (Administrators), chỉnh sửa ontology

Trang 33

(Ontology editors), chỉnh sửa thuật ngữ (Term editors), người phê duyệt (Validators) và người xuất bản (Publishers)

Truy vấn SPARQL

VocBench hỗ trợ thống kê một vài số liệu liên quan đến bộ từ điển xây dựng

và các quy trình làm việc hợp tác Ngoài ra, VocBench còn hỗ trợ người dùng tự

truy vấn/cập nhật qua SPARQL 1.1 Người dùng có thể sử dụng bộ công cụ được

dựa trên mã nguồn mở là Flint SPARQL Editor Openup/FlintSparqlEditor) để thực hiện các truy vấn SPARQL

(https://github.com/TSO-Một vài từ điển cộng tác được xây dựng trên nền tảng VocBench có thể kể đến như sau:

Agrovoc - Multilingual agricultural thesaurus

Agrovoc [12] là một bộ từ vựng được xây dựng, kiểm soát và phát triển bởi Tổ chức Nông nghiệp và Lương thực Liên Hợp Quốc (FAO) và Ủy ban Cộng đồng Châu Âu vào đầu năn 1980, được cập nhật thường xuyên và sử dụng rộng rãi để lập chỉ mục và lấy dữ liệu trong hệ thống thông tin nông nghiệp Agrovoc được sử dụng trên toàn thế giới bởi các nhà nghiên cứu, cán bộ thư viện, quản lý thông tin và những người khác, để lập chỉ mục, lấy và tổ chức dữ liệu trong hệ thống thông tin

nông nghiệp Từ năm 2004, Agrovoc đã được làm sạch và giàu ngữ nghĩa Cho tới

nay, Agrovoc đã có hơn hơn 32,000 khái niệm có tổ chức trong một hệ thống phân

cấp Mỗi khái niệm có thể được hỗ trợ lên đến trên 27 ngôn ngữ gồm: Arabic, Burmese, Chinese, Czech, English, French, German, Hindi, Hungarian, Italian, Japanese, Khmer, Korean, Lao, Malay, Moldovian, Persian, Polish, Portuguese, Russian, Slovak, Spanish, Telugu, Thai, Turkish, Ukrainian, Vientamese Nó không chỉ chứa thuật ngữ của ngành nông nghiệp, mà còn các thuật ngữ trong lâm nghiệp, thủy sản, thực phẩm và các lĩnh vực khác Những thuật ngữ được sử dụng để xác

định rõ ràng các nguồn lực Thật vậy, những kiến thức có trong vốn từ vựng cho

phép quá trình lập chỉ mục tiêu chuẩn hóa, làm cho việc tìm kiếm đơn giản và hiệu

quả hơn

Biotech - FAO Glossary of Biotechnology for Food and Agriculture

Biotech là một bộ từ điển Công nghệ sinh học trong lĩnh vực thực phẩm và

nông nghiệp; là một bản nâng cấp, bổ sung từ bộ từ điển Công nghệ sinh học và Kỹ

Trang 34

thuật di truyền được công bố bởi FAO vào năm 1999 Ban đầu, ý tưởng về một tập hợp các thuật ngữ liên quan đến lĩnh vực công nghệ sinh học và di truyền ra đời khi

sự trao đổi và thảo luận về chuyên môn giữa các quốc gia trở nên khó khăn Sự khác biệt trong cách giải thích các thuật ngữ có nguy cơ làm cho các cuộc đàm phán bị

thất bại Từ đó ý tưởng về việc xây dựng một bộ từ điển giải thích thuật ngữ Công nghệ sinh học và kỹ thuật di truyền đã ra đời Bộ từ điển ra đời đã cung cấp một tập hợp các thuật ngữ và các từ viết tắt được sử dụng thường xuyên trong lĩnh vực công nghệ sinh học cho thực phẩm và nông nghiệp Đây là một nguồn tài liệu tham khảo

có giá trị vô cùng to lớn cho các nhà nghiên cứu và kỹ thuật viên Bản công bố đầu tiên đã nhận được sự quan tâm của đông đảo người dùng trên toàn thế giới; thông

qua sự đóng góp của đông đảo người dùng, Biotech dần trở nên hoàn thiện Bản

công bố lần thứ hai đã được cập nhật khoảng 3,196 thuật ngữ và định nghĩa liên

quan; Phiên bản thứ hai này cũng đã được dịch sang nhiều ngôn ngữ khác nhau nhằm đáp ứng nhu cầu sử dụng của người dùng Đến 2012, một hệ thống quản lý

thuật ngữ mới đã được giới thiệu, cho phép bổ sung và cập nhật các thuật ngữ có

trong từ điển với sự hỗ trợ trên nhiều ngôn ngữ khác nhau Đến nay, bộ từ điển bao gồm khoảng trên 3,190 thuật ngữ và định nghĩa trong các ngôn ngữ sau: Arabic,

Chinese, English, French, Kazakh, Polish, Russian, Serbian, Spanish and Vietnamese (http://fao.org/biotech/biotech-glossary/en/)

GEMET - GEneral Multilingual Environmental Thesaurus

GEMET (https://eionet.europa.eu/gemet/) là một bộ từ vựng, thuật ngữ trong

lĩnh vực môi trường với hơn 11,179 định nghĩa trong hơn 20 ngôn ngữ khác nhau

và được công bố bởi European Environment Agency Bộ từ điển được xây dựng trên nền tảng của SKOS, hệ thống tổ chức cơ bản và cũng là tiêu chuẩn đăng ký

Trang 35

siêu dữ liệu, ISO 11.179 Cơ sở của từ điển chính là một SKOS ontology đưa ra các mối quan hệ giữa tất cả các thuật ngữ trong một tập tin có cấu trúc RDF, ngoài ra còn có một phần dành cho dữ liệu từ điển

UAT - Unified Astronomy Thesaurus

UAT (http://astrothesaurus.org/thesaurus/) là một bộ từ điển hợp nhất về lĩnh vực thiên văn học và được phát triển Institute of Physics Publishing, the American Institute of Physics và SPIE UAT là một bộ từ điển mở, tương thích và hỗ trợ cộng đồng UAT là một bản tổng hợp các từ vựng riêng lẻ, đa dạng và khác nhau về thiên văn học thành một bộ từ điển thống nhất, miễn phí, chất lượng cao, chính thức hóa các khái niệm và mội quan hệ giữa chúng UAT được xây dựng dựa trên IAU với sự

bổ sung các thuật ngữ từ triển Institute of Physics Publishing, the American

Institute of Physics và SPIE

2.3.2 MediaWiki

MediaWiki (https://www.mediawiki.org/wiki/MediaWiki/vi) là phần mềm wiki dựa trên máy chủ, được thiết kế để sử dụng trong các website phạm vi lớn MediaWiki là phần mềm nguồn mở, miễn phí, được sử dụng rộng rãi cho một số lượng các website nổi tiếng, bao gồm, Wikipedia và Wikimedia Commons Một trong những tính năng chính của MediaWiki là tạo và hiển thị nội dung đa dạng,

bao gồm cả các công thức toán học thông qua LaTeX, các tập tin đa phương tiện, bao gồm các nội dung do người sử dụng tải lên MediaWiki có thể được sử dụng cả trong mạng nội bộ tổ chức được kết nối mạng, hoặc bên ngoài trên Internet

Wikipedia đã sử dụng MediaWiki, cùng với những tính năng ưu việt của các phần mềm trước MediaWiki, khi nó dừng sử dụng UseModWiki vào các năm 2002/2003 Nhiều công việc phát triển trên MediaWiki xuất xứ từ các yêu cầu về tính năng và chức năng bổ sung từ những người sử dụng và những người vận hành Tính mở rộng phạm vi, đặc biệt là các yêu cầu cho nhân bản cơ sở dữ liệu xuyên

khắp các cụm nhiều máy chủ, đã biến MediaWiki thành một công cụ cộng tác chuyên nghiệp, phù hợp một cách lý tưởng cho các môi trường chia sẻ tri thức Sự đưa vào các phương pháp có suy tính thận trọng để mở rộng chức năng, được biết như là các mở rộng, đang tích cực cho phép các nhà sáng tạo và phát triển nội dung gia tăng phạm vi và khả năng của MediaWiki

Trang 36

MediaWiki đã chứng tỏ là là công cụ tốt nhất trong số các công cụ wiki mã

nguồn mở hiện tại Việc đang được Internet Journal bình chọn làm công cụ wiki tốt nhất là một sự công nhận thành quả đã hỗ trợ cho MediaWiki, nhưng vẫn còn thực

tế lớn hơn là không chỉ MediaWiki được chọn là công cụ cho các công ty như Intel® và Novell, mà còn có phần mềm cung cấp wiki lớn nhất thế giới: Wikipedia MediaWiki cung cấp một số tính năng quan trọng so với các công cụ wiki khác, được mô tả cụ thể trong Bảng 2.1 bên dưới

Bảng 2.1 Một số tính năng chính của MediaWiki

Hỗ trợ đa ngôn ngữ Hiện nay, MediaWiki hỗ trợ 140 ngôn ngữ khác nhau

cụ thể thông qua các nguồn cung cấp RSS

Các trang báo cáo

đặc biệt

Những người dùng có thể định vị các số liệu thống kê trang Web, danh sách người sử dụng, các bài viết mới tạo ra, tất cả các trang theo tiêu đề, các bài viết ưa thích nhất, các bài viết phổ biến và các báo cáo khác giúp họ chuyển qua các nội dung

Các danh sách thảo

luận

Người dùng có thể theo dõi và tham gia vào các cuộc thảo luận liên quan đến nội dung của một bài viết thông qua trang thảo luận

Phân biệt các sửa

đổi

Những người dùng có thể so sánh các sửa đổi được chỉ ra bên cạnh với những thay đổi được đánh dấu

Định dạng
Số trang	73
Dung lượng	1,58 MB