1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Xây dựng từ điển cộng tác thuật ngữ Anh – Việt lĩnh vực công nghệ thông tin và truyền thông

73 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây dựng từ điển cộng tác thuật ngữ Anh - Việt lĩnh vực công nghệ thông tin và truyền thông
Tác giả Huỳnh Sơn Lâm
Người hướng dẫn TS. Nguyễn Lưu Thùy Ngân
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Khoa học máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2017
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 73
Dung lượng 29,85 MB

Nội dung

nhưng vẫn chưa thé đáp ứng tốt được yêu cầu tra cứu của đa số người sử dụng vì lĩnh vực công nghệ thông tin và truyền thông là một trong các lĩnh vực luôn không ngừng phát triển với một

Trang 1

ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINHTRUONG ĐẠI HỌC CONG NGHỆ THONG TIN

HUYNH SON LAM

XÂY DUNG TỪ DIEN CONG TÁC THUẬT NGỮ

ANH - VIỆT LĨNH VỰC CÔNG NGHỆ THÔNG TIN VÀ

TRUYÈN THÔNG

LUẬN VĂN THẠC SĨNGÀNH KHOA HỌC MÁY TÍNH

TP HO CHÍ MINH - Năm 2017

Trang 2

ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINHTRUONG ĐẠI HỌC CONG NGHỆ THONG TIN

HUYNH SON LAM

XÂY DUNG TỪ DIEN CONG TÁC THUẬT NGU

ANH - VIỆT LĨNH VUC CÔNG NGHỆ THONG TIN VA

TRUYÈN THÔNG

NGÀNH: KHOA HỌC MÁY TÍNH

MÃ SO: 60.48.01.01

LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS NGUYEN LƯU THUY NGAN

TP HO CHÍ MINH - Năm 2017

Trang 3

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi, được thực hiện

dưới sự hướng dẫn khoa học của TS Nguyễn Lưu Thùy Ngân Các số liệu, kết quả

nêu trong luận văn là trung thực và chưa từng được ai công bố trong bat kỳ công

trình nào khác.

Người viết luận văn

Huỳnh Sơn Lâm

Trang 4

LỜI CẢM ƠN

Em xin chân thành gửi lời cảm ơn đến các thầy, cô giáo khoa Khoa học máy

tính, Trường Đại học Công nghệ thông tin, Đại học Quốc gia Thành phố Hồ ChíMinh đã giảng dạy, giúp đỡ em trong suốt quá trình học tập tại Trường

Em xin gửi lời cảm ơn sâu sắc tới cô giáo, TS Nguyễn Lưu Thùy Ngân, người

đã trực tiếp hướng dẫn, chỉ bảo, giúp đỡ em hoàn thành luận văn này

Em xin chân thành cảm ơn!

Trang 5

LỜI CAM ĐOAN.

LỜI CẢM ƠN

MỤC LỤC

DANH MỤC CÁC KÝ HIỆU VÀ CHU VIET TAT

DANH SÁCH BANG BIEU

DANH SÁCH HÌNH VẼ

2 Mục tiêu nghiên cứu

3 Đối tượng, phạm vi nghiên cứu

4 Nội dung luận văn

Chương 1: TONG QUAN VE DE TÀI

1.1 Bài toán rút trích thuật ngữ

1.2 Bài toán xây dựng từ điển cộng tác thuật ngữ Anh — Việt lĩnh vực ICT 131.3 Tiểu kết chương 1

Chương 2: CƠ SỞ LÝ THUYET

2.1 Các khái niệm liên quan

2.1.1 Thuật ngữ lĩnh vực công nghệ thông tin và truyén thông

Trang 6

2.2.3 Kết hợp độ đo cục bộ chi bình phương Z2 với độ đo toàn cục IDF 24

3.1 Phương pháp rút trích thuật ngữ ICT

3.1.1 Yêu cầu bài toán

3.1.2 Phương pháp

3.2 Phương pháp xây dựng từ điền cộng tác

3.2.1 Các phân nhóm thuật ngữ sử dụng trong từ điên

3.2.2 Cơ chế cộng tác

3.2.3 Dữ liệu từ điên

3.3 Tiểu kết chương 3

Chương 4: THỬ NGHIỆM VÀ ĐÁNH GIÁ

4.1 Bài toán rút trích thuật ngữ ICT

4.1.1 Dữ liệu thử nghiệm

4.1.2 Các kết quả thử nghiệm

4.2 Ứng dung từ điển cộng tác thuật ngữ Anh — Việt lĩnh vực ICT

4.2.1 Giới thiệu ứng dụng

4.2.2 Đánh giá chức năng chính của ứng dụng

4.2.3 Đánh giá tính hữu ích của ứng dụng

Trang 7

TÀI LIỆU THAM KHẢO

PHY LUC I: PHIẾU KHẢO SÁT

Trang 8

DANH MỤC CÁC KÝ HIỆU VÀ CHU VIET TAT

FAO IT ICT IDF TF K-NN CC-BY-SA-3.0

TREC LCS MWE EBP MVC

Y nghia

Association for Computational Linguistics

Food and Agriculture Organization

Công nghệ thông tin

Công nghệ thông tin và truyền thông

Inverse Document Frequency Term Frequency

K-Nearest Neighbors Creative Commons Attribution-ShareAlike 3.0

Text REtrieval Conference

Longest Common Subquence multi-word Expression

Embebbed Base Phrase

Model View Controller

Trang 9

Bảng 2.1 Một số tinh năng chính của MediaWiki

Bang 4.1 Minh họa hết quả thử nghiệm với TF.IDF

Bang 4.2 Minh họa hết quả thử nghiệm với K-NN

Bảng 4.3 Minh họa hết quả thử nghiệm với y?.IDF

Bảng 4.4 So sánh các kết quả thử nghiệm

Bảng 4.5 Tổng hợp ý kiến đáng giá về tính hữu ích của ứng dụng

Trang 10

Hình 1.2 Giao diện chính của Glosbe.com

Hình 1.3 Giao diện tra từ của rung.vn

Hình 2.1 Giao diện chính của công cụ VocBench

Hình 2.2 Biểu trưng của Wikipedia

Hình 2.3 Biểu trưng của Wikimedia Commons

Hình 3.1 Mô hình cơ cấu tổ chức khoa và bộ môn của UIT

Hình 3.2 Phân loại nhóm ngành và ngành Máy tính và Công nghệ thông

tin theo Danh mục giáo dục đào tạo cấp IV

Hình 3.3 Các phân nhóm thuật ngữ sử dụng trong từ điển

Hình 3.4 Sơ dé cơ chế cộng tác của từ điển

Hình 4.1 Màn hình tra cứu thuật ngữ

Hình 4.2 Màn hình thêm mới thuật ngữ

Hình 4.3 Màn hình cập nhật thuật ngữ

Hình 4.4 Màn hình thêm mới file thuật ngữ

Hình 4.5 Màn hình Quản trị nội dung từ điển

Trang 11

MỞ DAU

1 Lý đo chọn đề tài

Phát triển nền kinh tế tri thức đang là một yêu cầu lớn được đặt ra trong toàn

bộ sự phát triển kinh tế và xã hội Việc day mạnh ứng dụng công nghệ thông tin vàtruyền thông đã được xác định là động lực to lớn nhất để thúc đây nền kinh tế trithức phát triển Có thể hiểu rằng, công nghệ thông tin và truyền thông là một ngành

nghề rộng lớn có ảnh hưởng tới nhiều ngành nghề khác nhau của xã hội, nhất là

những xã hội phát triển có sử dụng hàm lượng tri thức cao

Ngày 17/10/2000, Bộ Chính trị, Ban Chấp hành Trung ương Đảng Cộng sảnViệt Nam (Khóa VIII) đã ban hành Chi thị số 58-CT/ TW về “Đẩy mạnh ứng dụng

và phát triển công nghệ thông tin phục vụ sự nghiệp công nghiệp hóa, hiện đại hóa”(Chỉ thị 58) Dưới sự chỉ đạo của Đảng và điều hành của Chính phủ, trong 10 năm

qua, công nghệ thông tin và truyền thông Việt Nam đã đạt được nhiều thành tựu

quan trọng và đáp ứng được những mục tiêu đề ra Công nghiệp Công nghệ thôngtin đã trở thành ngành kinh tế quan trọng, có tốc độ phát triển hàng năm cao so với

các khu vực khác, có tỷ lệ đóng góp cho tăng trưởng GDP của cả nước ngày càng

tăng.

Cùng với sự phát triển đó, nhu cầu nguồn nhân lực công nghệ thông tin vàtruyền thông chất lượng cao cũng không ngừng tăng cao trong những năm qua.Theo định hướng quy hoạch quốc gia đến năm 2020, Việt Nam cần khoảng 1 triệu

lao động ngành Công nghệ thông tin Vì lẽ đó, số người giam gia học tập, nghiên

cứu trong lĩnh vực công nghệ thông tin và truyền thông không ngừng tăng cao trongnhững năm qua Một vấn đề đặt ra trong quá trình học tập và nghiên cứu là nhu cầutra cứu từ vựng, thuật ngữ tiếng Anh chuyên ngành Đề đáp ứng nhu đó, nhiều bộ từđiển đã ra đời dưới nhiều dang khác nhau như: từ điển giấy, từ điển trực tuyến, ứngdụng từ điển trên các thiết bị di động, nhưng vẫn chưa thé đáp ứng tốt được yêu

cầu tra cứu của đa số người sử dụng vì lĩnh vực công nghệ thông tin và truyền thông

là một trong các lĩnh vực luôn không ngừng phát triển với một tốc độ rất nhanh, sốthuật ngữ mới cũng xuất hiện rất nhiều và nhanh chóng

Trang 12

Để giải quyết vấn đề này một giải pháp đã được đề ra trong những năm gầnđây là xây dựng từ điển thuật ngữ theo dạng cộng tác Giải pháp này được xây dựng

dựa trên ý tưởng chính là huy động tối da tri thức cộng đồng dé xây dựng một bộ từ

điển dan hoàn thiện từng ngày va đáp ứng nhu cầu của người sử dụng Tuy nhiên,thực tế cho thấy những bộ từ điển thuật ngữ Anh — Việt chuyên ngành hiện tại vẫn

chưa đáp ứng được đầy đủ nhu cầu sử dụng

Với những lý do nêu trên, chúng tôi chọn đề tài “Xây dựng từ điển cộng tácthuật ngữ Anh — Việt lĩnh vực công nghệ thông tin và truyền thông” để thực hiện

2 Mục tiêu nghiên cứu

- Nghiên cứu kỹ thuật rút trích thuật ngữ bằng Tiếng Anh tự động từ các bàibáo khoa học về lĩnh vực công nghệ thông tin và truyền thông (ICT) đề bé sung vào

từ điền

- Xây dựng từ điển cộng tác thuật ngữ Anh - Việt cho lĩnh vực ICT với khoảng

1500 từ vựng ban đầu

3 Đối tượng, phạm vi nghiên cứu

Trong khuôn khổ luận văn, chúng tôi thực hiện các nội dung sau:

- Tìm hiểu khái niệm và cách thức tô chức, hoạt động của một bộ từ điển cộng

tác trực tuyến

- Tìm hiểu bài toán rút trích và một số thuật toán rút trích phô biến hiện nay

- Tìm hiểu công cụ VocBench

- Xây dựng từ điển cộng tác thuật ngữ Anh - Việt cho lĩnh vực ICT với khoảng

1500 từ vựng ban đầu

- Nghiên cứu và đề xuất kỹ thuật rút trích thuật ngữ bằng Tiếng Anh một cách

tự động từ các bài báo khoa học về lĩnh vực ICT dé bổ sung vào từ điển

4 Nội dung luận văn

Nội dung của luận văn được trình bày trong 05 chương:

Chương 1: Tổng quan về đề tài

Giới thiệu tổng quan về đề tài bao gồm bài toán rút trích thuật ngữ; bài toánxây dựng từ điển thuật ngữ Anh — Việt cho lĩnh vực ICT

Trang 13

Chương 2: Cơ sở lý thuyết

Trình bày các khái niệm liên quan đến dé tài; các công trình liên quan về từ

điển cộng tác; tổng quan về bài toán rút trích và một số thuật toán rút trích phổ biến

Chương 3: Mô hình đề xuất

Đề xuất mô hình tô chức lưu trữ bộ từ điển thuật ngữ Anh — Việt lĩnh vực ICT

và xây dựng phương pháp rút trích thuật ngữ từ bài báo chuyên ngành bằng tiếng

Anh để làm dữ liệu bổ sung từ vựng cho từ điển

Chương 4: Thử nghiệm và đánh giá

Giới thiệu việc xây dựng, cài đặt bộ từ điển cộng tác trên nên tảng web cộngtác; triển khai thử nghiệm và khảo sát tính hữu ích của hệ thống đối với người sử

dụng.

Chương 5: Kết luận và khuyến nghị

Tông kết những kết quả đạt được của đề tài; hạn chế của dé tài; đồng thời đề

ra hướng phát triển của đề tài

Trang 14

-I1-Chương 1: TONG QUAN VE DE TÀI

1.1 Bai toán rút trích thuật ngữ

Theo từ điển Tiếng Việt (Hoàng Phê, 2010), Thuật ngữ là Từ ngữ biểu thị mộtkhái niệm xác định thuộc hệ thống những khái niệm của một ngành khoa học nhất

định Ngoài ra, theo B Q Zadeh và S Handschuh [11] thì Thuật ngữ là những don

vị từ vựng xác định, đại diện cho một kiến thức cơ bản nhất của ột lĩnh vực tri

thức Nhu vậy, Thuật ngữ (Terminology) là một từ hay một cụm từ diễn tả một khái

niệm thuộc một ngành khoa học nhất định

Rút trích thuật ngữ (Terminology extraction) là một trong những hướng

nghiên cứu rút trích thông tin từ văn bản phô biến hiện nay Rút trích thuật ngữ từmột hay nhiều văn bản tức là tìm kiếm và lấy ra tất cả các từ, cụm từ được xác định

là thuật ngữ Thuật ngữ được trích ra có thé là thuật ngữ đã từng xuất hiện trong văn

bản khoa học nào đó, hoặc đó có thê là một thuật ngữ hoàn toàn mới được công bố

Hiện nay, đã có nhiều nghiên cứu và tìm ra các kỹ thuật, phương pháp dé giảiquyết bài toán rút trích thuật ngữ Đã có nhiều phương pháp, thuật toán được đềxuất và thử nghiệm trên nhiều bộ dữ liệu huấn luyện khác nhau, tuy nhiên nhữngkết quả thu được chỉ ở mức chấp nhận được và vẫn cần có sự can thiệp thủ công củacon người dé có thé tăng thêm độ tin cậy và chính xác của kết quả

Một số công trình nghiên cứu có thể kẻ đến như:

- Công trình “Xây dựng hệ thống rút trích các nội dung chính của văn bảnkhoa học dựa trên cấu trúc” [6] đề xuất xác định từ mới dựa trên độ quan trọng của

từ được tính theo công thức kết hợp của độ đo cục bộ và độ đo toàn cục Theo đó,

một thuật toán đánh giá từ khóa dựa trên sự kết hợp của độ đo cục bộ và độ đo toàn

cục là TF.IDF (Term Frequency - Inverse Document Frequency) cho một kết quảkhá tốt (51,98%) trên bộ dữ liệu mẫu

- Theo báo cáo khoa hoc “Automatic Term Extraction Based on Perplexity of

Compound Words” [16] đề xuất rút trích thuật ngữ dựa trên phương pháp kết hợp

loại và tần số qua entropy (Combining Types and Frequencies via Entropy) Nhóm

tác giả đã áp dụng phương pháp này với tập các bài báo và tóm tắt trên Mainichi

Trang 15

'Web News từ 04/2011 đến 3/2012 Kết quả đạt được trên 40% với các bài báo thuộclĩnh vực kinh tế, thế giới, xã hội, chính trị.

- Một hướng tiếp cận khác cho rút trích là dựa trên mô hình ontology (Chau vàTuoi, 2009) Nhóm tác giả Chau và Tuoi [14] đã sử dụng phương pháp đề xuất trên

tập dữ liệu TREC (Text REtrieval Conference) (http://trec.nist.gov/data/): TREC-07

(446 câu hoi); TREC-06 (492 câu hỏi) và TREC-02 (440 câu hoi) đã được dich sang

tiếng Việt Kết qua đạt được độ chính xác xắp xi 74,6%

- Một hướng tiếp cận rút trích khác là dựa trên lý thuyết về dãy con chung dàinhất (Longest Common Subquence — LCS) [15] Ap dụng rút trích multi-wordExpression (MWE) kết hợp heuristic và phát hiện Embebbed Base Phrase (EBP)trên tập mẫu 8000 câu Kết quả đạt x4p xi 36% với N-gram

1.2 Bài toán xây dựng từ điển cộng tác thuật ngữ Anh - Việt lĩnh vực ICT

Hiện nay, công nghệ thông tin và truyền thông là một trong những ngành đang

trong thời kỳ phát triên bùng nỗ, thu hút một lượng lớn người học tập, nghiên cứucác chuyên ngành trong lĩnh vực.

Do vậy, để đáp ứng nhu cầu tra cứu phục vụ cho mục đích học tập và nghiên

cứu của đa số người sử dụng, đã có không ít ấn bản từ điển thuật ngữ của các

chuyên ngành thuộc lĩnh vực công nghệ thông tin và truyền thông đã ra đời Tuynhiên, hầu hết đều chưa đáp ứng được nhu cầu thực tế của đa số người sử dụng Đa

số các lý do được đưa ra đều xoay quanh 3 vấn đề tồn tại tiêu biểu của một ấn bản

từ điển thuật ngữ chuyên ngành là:

(1) Khó khăn và tốn nhiều thời gian trong việc tra cứu một cách thủ công,không có tính di động cao, chưa đáp ứng được nhu cầu tra cứu lập tức, một nhu cầuluôn tồn tại đối với những cá nhân hoạt động trong lĩnh vực công nghệ thông tin vàtruyền thông;

(2) Đa số từ điển chưa được phân loại theo từng chuyên ngành cụ thể trong

cùng lĩnh vực;

(3) Số lượng thuật ngữ trong từng bộ từ điển còn hạn chế, hầu hết đều không

có khả năng cập nhật kịp thời những thuật ngữ mới trong lĩnh vực, nhất là lĩnh vực

Trang 16

-13-công nghệ thông tin và truyền thông là một trong các lĩnh vực có sự xuất hiện, bổ

sung và cập nhật thuật ngữ với tốc độ rat cao

Từ đó, ý tưởng về việc xây dựng bộ từ điển thuật ngữ lĩnh vực công nghệ

thông tin và truyền thông đã ra đời Đã có không ít các bộ từ điển thuật ngữ chuyênngành đã ra đời với mong muốn đáp ứng nhu cầu tra cứu của đa số người dùngnhằm phục vụ nhu cầu học tập và nghiên cứu của họ

Một số ứng dụng từ điển được xây dựng dưới dạng ứng dụng web hiện nay cóthể kể đến như:

Bamboo tra tir

Btratu E Datamining amv” EDD

nguyen Tuan Hy, en

Tintin bi omglecon Timiển|

eG 60cae

Hình 1.1 Giao diện tra từ của Bamboo tra từ

Bamboo tra từ (tratu.soha.vn) là trang từ điển trực tuyến đa chuyên ngành,được Công ty Cổ phần Truyền thông Việt Nam VC Corp phát triển dựa trên nền

tảng mở mediawiki cho phép người dùng tra cứu nghĩa của từ trong các lĩnh vực

khác nhau Nội dung của Bamboo tra từ tuân thủ Giấy phép Creative Commons

Attribution ShareAlike.

Cơ sở dữ liệu được kế thừa nguồn đữ liệu từ trang từ điển trực tuyến Vietdic,cộng với việc thường xuyên bổ sung các nguồn dữ liệu từ việc mua lại các từ điển

có bản quyền như Prodic và Javidic, Bamboo Tra từ hiện đang sở hữu một nguồn

dé liệu khổng lồ và quý giá Nhưng điều tạo nên sự khác biệt giữa Bamboo Tra từ

và các trang từ điền khác, đó chính là những đóng góp của cộng đồng các thành

Trang 17

viên Bamboo Tra từ trong việc xây dựng nguồn dữ liệu từ điển Hiện nay số lượngthành viên của Bamboo tra từ đã lên đến con số hơn 30,000.

Bên cạnh tính năng chính hỗ trợ cho việc tra cứu và dịch thuật, Bamboo tra từ

còn được tích hợp thêm nhiều tiện ích để người dùng có thê sử dụng một cách dễdàng và nhanh chóng nhất

(1) Box Hỏi - Đáp dành cho người dùng

Ngoài tính năng tra từ thân thiện và dễ sử dụng, Box Hỏi — Đáp chính là điểmđến thú vị nhất đối với những người thường xuyên truy cập Bamboo tra từ Với sựtham gia của rất nhiều thành viên tích cực, trong đó có cả những người làm công tácdich thuật chuyên nghiệp, Box Hỏi — Đáp luôn là nơi giải đáp tốt nhất những thắcmắc về học tập ngoại ngữ và dịch thuật của các thành viên cộng đồng Bamboo Tra

từ.

(2) Tra từ Add-on cho Firefox dành cho người dùng

Với mục đích trợ giúp cho người dùng sử dụng các trình duyệt đang được ưa

chuộng nhất hiện nay trong việc tra cứu, nhóm phát triển Bamboo tra từ đã cho ra

đời add-on tra từ dành cho Firefox với giao diện đơn giản, dễ sử dụng và tính tương

tác cao.

(3) Tra từ Bookmarklet dành cho người dùng.

Ban đầu là một tiện ích được nhóm phát triển Bamboo tra từ cho ra đời nhằm

đáp ứng yêu cầu của đa số người dùng Internet Explorer Nhưng Tra từ

Bookmarklet dan cho thấy sự ưu việt bằng khả năng tương tác với tất cả các trìnhduyệt phổ biến hiện nay

(4) Forum Bamboo tra từ dành cho người dùng

Forum Bamboo tra từ là một không gian cộng đồng khác của Bamboo Tra từbên cạnh Box Hỏi — Đáp Với nhiều không gian dành cho giải trí hơn, các thành

viên sẽ có được khoảng thời gian thư giãn sau giờ học tập làm việc căng thăng.

(5) Tiện ích nhúng tra cứu nhanh trên website dành cho Webmaster

Bamboo tra từ hiện cho phép tích hợp tính năng tra cứu lên trang web của bạn.

Chỉ cần vài thao tác đơn giản, đã có thể khai thác được nguồn dữ liệu khổng lồBamboo tra từ, với các bộ từ điển lớn: Anh — Pháp — Việt — Nhật, và hơn 20 từ

điển chuyên ngành khác

eS:

Trang 18

(6) Module Bamboo tra từ cho Joomla dành cho Webmaster

Module Bamboo tra từ là tính năng mới mà Bamboo tra từ phát triển dànhriêng cho mã nguồn mở Joomla Đây là module hỗ trợ người dùng tra cứu từ điểntrực tiếp ngay trên web

Mặc dù có nhiều tính năng ưu việt, nhưng Bamboo tra từ chưa thực sự phù

hợp dành cho các cá nhân đang học tập và nghiên cứu các chuyên ngành thuộc lĩnh

vực công nghệ thông tin và truyền thông vì:

(1) Số lượng thuật ngữ lĩnh vực này còn khá hạn chế (chưa có chuyên mục

Lon nhat tir dién Hoạt động gan đây Xã hội

Hình 1.2 Giao diện chính của Glosbe.com

Glosbe.com là một ứng dụng từ điển được xây dựng trên mô hình web cộngtác với sự hỗ trợ tra cứu ngữ nghĩa từ vựng trên nhiều ngôn ngữ khác nhau.Glosbe.com cung cấp một dữ liệu từ điển lớn nhằm đáp ứng nhu cầu tra cứu của

người dùng Đồng thời Glosbe.com cũng rất trân trọng và hoan nghên tất cả các

đóng góp của người dùng thông qua môi trường cộng tác công khai trên giao diện

Trang 19

ứng dụng web của từ điển Một số dữ liệu của Glosbe.com hiện có được cấp phépvới CC-BY-SA, một số là FDL, một số có giấy phép tùy chỉnh.

Tuy nhiên, Glosbe.com được đánh giá là một bộ từ điển đáp ứng khá tốt

những nhu cau tra cứu phổ thông, nhưng chưa đáp ứng đầy đủ như cầu tra cứu các

thuật ngữ chuyên ngành nói chung và những thuật ngữ lĩnh vực công nghệ thông tin

và truyền thông nói riêng

Thuật ngữ (những từ chuyên môn của một vấn đề ring biệt)

"Hệ thống thuật ngữ của một ngành chuyên môn

“Cách đồng iêng các từ để làm tên gọ làm ký hiệu

Trang 20

Rung.vn là một ứng dụng từ điển trực tuyến, một ứng dụng dành cho cộngđồng dich thuật mở với mục tiêu Dịch thuật tương tác - Dịch thuật không giới hạn.

Rung.vn cung cấp cho người dùng các bộ từ điển trực tuyến miễn phí, có hình minh

hoạ, có phiên âm nhiều thứ tiếng Anh, Việt, Trung, Hàn, Nhật, Pháp, Viết tắt, Hiện tại Rung.vn mới bổ sung thêm 2 bộ từ điển nữa là Anh - Nhật và Nhật — Anh.Bên cạnh đó, Rung.vn cũng đã bổ sung thêm ứng dụng bookmarklet hỗ trợ tra cứu

và dịch đoạn văn bản trên mọi trình duyệt tại các trang mà bạn đang xem.

Trong lúc tra từ, chúng ta thường copy qua lại những văn bản dé tra thì chúng

ta vô tình copy luôn những ký tự hoặc từ không mong muốn, do đó rung.vn đã hiểu

và phat triển cho bạn một từ điển thông minh Dù bạn copy hay gõ dư hay thiếu từ,

hở đầu hở đuôi thì kết quả cũng gần như từ bạn mong muốn, và bao gồm các từ gợi

ý giúp chúng ta có thêm nhiều lựa chọn

Rung.vn được xây dựng trên nền tảng Mã nguồn mở nên nội dung của từ đều

có thể thêm hoặc sửa lại theo đúng nghĩa bởi cộng đồng Rung.vn rất hoan nghênh

sự đóng góp của cộng đồng tham gia vào việc chỉnh sửa này để tạo nên một bộ từđiển hoàn thiện và hoàn toàn miễn phí cho cộng đồng

(2) Có khả năng cập nhật và bổ sung nhanh chóng nhờ vào các cơ chế quản lý

ứng dụng của nhà phân phối;

(3) Đa số các bộ từ điển này đều có sự kế thừa, tổng hợp từ các ấn bản từ điển

đã được phát hành, có số lượng các thuật ngữ là tương đối lớn so với các ấn bản từđiển giấy

Tuy nhiên, những ứng dụng từ điển này vẫn có một số vấn đề còn tồn tại vàcần được giải quyết Hầu hết những ứng dụng từ điển này đều được xây dựng dưới

hình thức một ứng dụng web, một chương trình ứng dụng trên máy tính hay một

ứng dụng trên các thiết bị di động Nhưng thực tế là những ứng dụng này chỉ tổng

hợp tat cả thuật ngữ cùng phan chú giải vào dữ liệu từ điển của ứng dụng chứ chưa

Trang 21

có một sự phân loại tổ chức từ điển theo từng chuyên ngành trong lĩnh vực côngnghệ thông tin và truyền thông Một van đề còn tồn tại nữa đó là những từ điển này

chưa thật tận dụng có hiệu quả được sự cộng tác của người dùng trực tiếp thông qua

ứng dụng.

Mô hình từ điển thuật ngữ dựa trên cơ sở ứng dụng web cộng tác cùng với một

mô hình tô chức phân loại phù hợp cho từ điển thật sự là một giải pháp phù hợp chonhu cầu tra cứu thuật ngữ phục vụ việc học tập và nghiên cứu của các cá nhân đanghoạt động trong lĩnh vực Mô hình ứng dụng web cộng tác là một mô hình có thểtận dụng tối ưu nhất sự đóng góp của tất cả các cá nhân sử dụng từ điển nhằm cùnggóp phần xây dựng từ điển ngày càng hoàn thiện hơn Bên cạnh đó mô hình webcộng tác là một mô hình phù hợp nhất cho việc kịp thời cập nhật những thuật ngữ

mới bằng việc tận dụng những tri thức của người dùng được đóng góp cho từ điển

thông qua các hoạt động cộng tác xây dựng từ điền

1.3 Tiểu kết chương 1

Chương | đã trình bày một cách tổng quan về dé tài Phát biéu 2 bài toántương ứng với 2 mục tiêu của đề tài bao gồm: bài toán rút trích thuật ngữ và bàitoán xây dựng từ điển cộng tác thuật ngữ Anh — Việt lĩnh vực ICT

Trang 22

-19-Chương 2: CƠ SỞ LÝ THUYET

2.1 Các khái niệm liên quan

2.1.1 Thuật ngữ lĩnh vực công nghệ thông tin và truyền thông

Theo Từ điển Oxford, Thuật ngữ là một từ hoặc cụm từ được sử dụng như têncủa một đối tượng nào đó trong một ngôn ngữ cụ thể; là từ ngữ chuyên môn củamột vấn đề riêng biệt Công nghệ thông tin và truyền thông (Information and

Communications Technology — ICT) là ngành học nghiên cứu về việc sử dụng máy

tính, internet, video và các công nghệ khác như là một môn tại các trường học.

Theo từ điên Tiếng Việt (Hoàng Phê, 2010), Thuật ngữ là từ ngữ biểu thị mộtkhái niệm xác định thuộc hệ thống những khái niệm của một ngành khoa học nhất

- Thuật ngữ khác với từ ngữ phô thông

- Mỗi thuật ngữ thuộc một lĩnh vực khoa học công nghệ chỉ biểu thị một kháiniệm và ngược lại mỗi khái niệm trong lĩnh vực đó chỉ được biêu hiện bằng mộtthuật ngữ duy nhất

- Thuật ngữ không có tính biểu cảm

Theo bộ bách khoa toàn thư mở Wikipedia thi Công nghệ thông tin và truyền

thông, thường được gọi là ICT, là cụm từ thường dùng như từ đồng nghĩa rộng hơncho công nghệ thông tin (IT), nhưng thường là một thuật ngữ chung để nhấn mạnh

vai trò của truyền thông hợp nhất và sự kết hợp của viễn thông (đường dây điện

thoại và tín hiệu không dây), hệ thống quản lý tòa nhà thông minh và hệ thống

nghe-nhin trong công nghệ thông tin hiện đại "ICT" được sử dụng như là một thuật

ngữ chung cho tat cả các loại công nghệ cho phép người dùng tạo, truy cập và thaotác với thông tin ICT là một sự kết hợp của công nghệ thông tin và công nghệtruyền thông

Trang 23

Như vậy, thuật ngữ lĩnh vực công nghệ thông tin và truyền thông là những từ,

cụm từ biểu thị một khái niệm cụ thể thuộc lĩnh vực công nghệ thông tin và truyền

thông, nghiên cứu máy tính, internet, video và các công nghệ liên quan khác Đa sốthuật ngữ thường chỉ tập trung xuất hiện trong các văn bản khoa học trong cùng lĩnh

vue.

Từ các định nghĩa và đặc điểm đã nêu của một từ được cho là thuật ngữ, ta cóthể xác định được một số dấu hiệu nhận biết giúp xác định một từ có khả năng làthuật ngữ lĩnh vực công nghệ thông tin và truyền thông trong văn bản khoa họcthuộc lĩnh vực công nghệ thông tin và truyền thông như sau:

- Thường chỉ xuất hiện trong các văn bản khoa học và tài liệu chuyên ngànhtrong cùng lĩnh vực (Công nghệ thông tin và truyền thông)

- Là từ khóa trong văn bản (đa số là bài báo khoa học)

- Là danh ngữ, thường là danh từ hay cụm danh từ

- Là từ mới, thường có giải thích khái niệm đi kèm

- Là từ được viết tắt trong văn bản, thường là những thuật ngữ được sử dụngnhiều lần trong văn bản

2.1.2 Từ điển cộng tác

Từ điển là danh sách các từ ngữ được sắp xếp thành các từ vị chuẩn (lemma)

Một từ điền thông thường cung cấp các giải nghĩa các từ ngữ đó hoặc các từ ngữ

tương đương trong một hay nhiều thứ tiếng khác Ngoài ra còn có thể có thêm thôngtin về cách phát âm, các chú ý ngữ pháp, các dạng biến thé của từ, lịch sử hay từnguyên, cách sử dụng hay các câu ví dụ, trích dẫn Từ điển là nơi giải thích thôngtin về ngôn ngữ của con người một cách dễ hiểu và khách quan nhất Thông thường

từ điển được trình bày dưới dạng sách Ngày nay, từ điển còn được số hóa và cung

cấp dưới dạng phần mềm máy tính, ứng dụng trên nền web hay ứng dụng trên di

động,

Cộng tác là quá trình trao đổi, trợ giúp, phối hợp giữa một nhóm người nhằm

đạt được một mục tiêu xác định Việc cộng tác đã được con người thực hiện từ rấtlâu và đây chính là cơ sở cho sự phát triển và hình thành nên xã hội loài người, giúp

con người phát triển từ giai đoạn bầy đàn sang giai đoạn xã hội Hoạt động cộng tác

Trang 24

-21-của con người được thể hiện dưới nhiều hình thức khác nhau: Cộng tác trong côngviệc, cộng tác trong việc truyền đạt tri thức.

Từ điển cộng tác là một loại từ điển cho phép các cá nhân sử dụng có thểsứa chữa, góp ý xây dựng để bộ từ điển ngày càng hoàn thiện và chính xác Từđiển công tác thường được xây dựng dưới dạng các bộ từ điển trực tuyến, miễn phícho tat cả người sử dụng

Một bộ từ điển cộng tác trực tuyến thường đi kèm một cơ chế cộng tác Một

cơ chế cộng tác hiệu quả là một co chế cộng tác có khả năng vừa kích thích sự cộngtác của cá nhân, vừa hạn chế những ý kiến đóng góp không chính xác Một cơ chếcộng tác hợp lý sẽ giúp xây dựng một ứng dụng cộng tác phát triển và thật sự hữu

ích cho người dùng.

2.2 Một vài thuật toán thường sử dụng trong bài toán rút trích thuật ngữ

2.2.1 Sử dụng độ đo cục bộ TE

TF - Term Frequency, độ đo cục bộ (local weight) là độ đo thống kê giá trị

thông tỉn của một từ trong một văn bản theo tần số xuất hiện của từ đó trong văn

bản Theo đó, một từ được cho là từ khóa, là từ có chứa độ lợi thông tin càng cao thì

số lần xuất hiện của từ trong văn bản càng cao và giá trị TF càng lớn

Giá trị TF, tần số xuất hiện của một từ trong một văn bản được tính bằngthương của số lần xuất hiện của một từ trong văn bản và số lần xuất hiện nhiều nhất

của một từ bat ky trong van bản đó, giá trị sẽ thuộc khoảng [0, 1] Cụ thể như sau:

f(t, d

bốnTrong đó:

- f(t,d): số lần xuất hiện từ t trong văn bản d

- max{f(w,d):w€d}: số lần xuất hiện nhiều nhất của một từ bất kỳ trong văn

Trang 25

và thường được sử dụng kết hợp với độ đo toàn cục (global weight) hay các độ đokhác nhằm tăng độ tin cậy cho phương pháp.

2.2.2 Kết hợp độ đo cục bộ TF và độ đo toàn cục IDF

an để

Hướng tiếp cận này thường sử dụng thông tin thống kê tần số xuất

chọn lựa các từ khóa quan trọng trong văn bản Ưu điểm chính của các hướng tiếp

cận dựa trên thông kê này là có thể áp dụng dễ dàng cho nhiều ngôn ngữ

Thong tin thống kê này thường bao gồm hai loại: Độ đo cục bộ và độ đo toàncục Độ đo cục bộ là độ đo thống kê của một từ trong nội bộ văn bản cần rút trích từkhóa Trong khi đó độ đo toàn cục là độ đo thống kê của từ đó trong một tập hopnhiều văn bản khác nhau cho trước

Một số độ đo thống kê cục bộ thông dụng có thể được sử dụng đề lựa chọn các

từ khóa quan trọng như: tần số xuất hiện (TF), độ phân bó chỉ bình phương (7 ), độlợi thông tin (IG), thông tin tương hỗ (MD, hoặc độ mạnh của thuật ngữ (TS) Còn

về độ đo thống kê toàn cục thì có thé kể đến độ đo IDF (Inverse DocumentFrequency), dùng để đo nghịch đảo sự phổ biến của một từ trong một tập hợp văn

bản cho trước Cần phải có một tập dữ liệu văn bản lớn cho trước đề có thể sử dụng

độ đo toàn cục.

Hiện nay một thuật toán rút trích từ khóa dựa trên sự kết hợp của độ đo cục bộ

và toàn cục là TF.IDF cũng cho kết quả khá tốt Cách tiếp cận của TF.IDF sẽ ướclượng được độ quan trọng của một từ đối với một văn bản trong danh sách tập tài

liệu văn bản cho trước.

Nguyên lý cơ bản của TF.IDF [6] là: độ quan trọng của một từ sẽ tăng lên

cùng với số lần xuất hiện của nó trong văn bản và sẽ giảm xuống nếu từ đó xuấthiện trong nhiều văn bản khác Do đó độ đo sự quan trọng của một từ t trong tài liệu

f sẽ được tính bằng: TF*/DF, với TF là độ phé biến của từt trong tài liệu f và IDF là

nghịch đảo độ phổ biến của từt trong các tài liệu còn lại của tập tài liệu Công thứctổng quát như sau:

Weight,; = TF * IDF Với:

TF =Ns()/ Sw

IDF = log(Sd/(d:ted))

Trang 26

-23-Trong đó:

Ns() : Số lần xuất hiện của từ t trong tài liệu f

Yw: Tổng số các từ trong tài liệu f

Yd= tổng sé ti

d:téd : số

liệu

liệu có chứa từ t

Vi dụ, nếu chúng ta có một văn bản gồm 100 từ, trong đó từ “computer” xuất

hiện 5 lần thì ta có độ phổ biến: TF(“computer”) = 5/100 = 0.05 Bay giờ giả sử

chúng ta có 1000 tài liệu, trong đó có 200 tài liệu chứa từ “computer” Lúc này ta sẽ

tính được IDF(“computer”) = In(1000/200) = 1.61 Như vậy ta tính được độ do

TF.IDF = TF * IDF = 0.05 * 1.61 = 0.0805.

Độ đo này của từ càng cao thì kha năng là từ khóa càng lớn Hướng tiếp cận

độ đo TF.IDF này rất thông dụng hiện nay

2.2.3 Kết hợp độ đo cục bộ chỉ bình phương x? với độ đo toàn cục IDF

Hướng tiếp cận này dựa vào thông tin thống kê trong nội bộ văn bản (độ phân

bố chỉ bình phương - x”) và thông tin thống kê với tập dữ liệu bên ngoài văn bản(IDF) [8] Trọng số (độ quan trọng) W của mỗi từ ứng viên t bằng cách kết hợp hai

độ đo này theo công thức:

- freq(w, c) là số lần xuất hiện cùng nhau của từ w và nhóm c

- My là tổng số từ có trong các câu mà w xuất hiện

- p là tần suất xuất hiện của nhóm c

Độ đo cục bộ chỉ bình phương _z? là một loại độ đo thống kê, thống kê độ

phân bố của một từ trong văn bản Độ đo này được xem như độ quan trọng của từ

trong văn bản Độ đo này càng cao thì khả năng là từ cần rút trích càng nhiều

Trang 27

D6 do toàn cục IDF của một từ t trong tập văn bản D được tính như sau:

D

IDF(t) = eT

Với:

- IDI là số tài liệu trong tập tài liệu D

~l{d:t€d)I là số tài liệu trong D có chứa từ t

Độ đo W(t) = x?().IDF() của từ có giá trị càng cao thì khả năng là từ cần rút

trích càng cao.

2.2.4 K - láng giềng gần nhất

Thuật toán K - láng giềng gần nhất [5] (K-Nearest Neighbors algorithm,K-NN) được sử dung rất phổ biến trong lĩnh vực Data Mining K-NN là phươngpháp dé phân lớp các đối tượng dựa vào khoảng cách gần nhất giữa đối tượng cần

xếp lớp (Query Point) và tat cả các đối tượng trong Training Data

Một đối tượng được phân lớp dựa vào K láng giềng của nó K là số nguyên

dương được xác định trước khi thực hiện thuật toán.

M6t số công thức tính khoảng cách thường được dùng trong K-NN:

dij) = I(r — xa + |xi2 — Xe _ #ip = xl)

Thuật toán K-NN được mô tả như sau:

- Bước 1 Xác định giá trị tham số K (số láng giềng gần nhất)

Trang 28

-25 Bước 2 Tính khoảng cách giữa các Query Point với tất cả các đối tượng

trong Training Data (thường sử dụng khoảng cách Euclid)

- Bước 3 Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K láng giéng

gần nhất với Query Point

- Bước 4 Lay tat cả các lớp của K láng giềng gần nhất đã xác định

- Bước 5 Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp cho

Query Point

2.2.5 Naive Bayes

Dinh lý Bayes

Cho X, C là các biến bất kỳ (rời rạc, liên tục, cấu trúc) Mục tiêu của ta là dự

đoán C từ X Từ mô hình Bayes ta có thê lượng giá các tham số của P(XIC), P(C)trực tiếp từ tập huấn luyện Sau đó, ta sử dụng định ly Bayes dé tính P(CIX=x)

Độc lập điều kiện (conditional independence): X độc lập điều kiện với Y khi

cho Z nếu phân bố xác suất trên X độc lập với các giá trị của Y khi cho các giá trịcủa Z Ta thường viết P(XIY,Z) = P(XIZ)

Giả sử D là tập huấn luyện gồm các mẫu biểu diễn dưới dạng X =< x), , X„>

€¡p là tập các mẫu của D thuộc lớp C,(i = {1, , m}) Các thuộc tinh x), , xạ độc

lập điều kiện đôi một với nhau khi cho lớp C

Trường hợp X là giá trị rời rạc

Giả sử X =< x), , xạ> Trong đó, x; nhận các giá trị rời rac Khi đó, lượng giá P(C;) và lượng giá P(x,|C;) theo công thức:

Trang 29

với m là số lớp, r là số giá trị rời rac của thuộc tinh.

Trường hợp X là giá trị liên tục

Nếu thuộc tính nhận giá trị liên tục thì xác suất P(X_kIC_i) thường được tính

dựa theo phân bố Gauss với giá trị trung bình mu và độ lệch sigma:

Thuật toán S3VM [Š] (Semi-supervised support vector machine) có mục đích

nhằm xây dựng một máy hỗ trợ vector sử dụng tập dữ liệu huấn luyện là một lượng

nhỏ các dữ liệu đã gán nhãn (training set) và một lượng lớn chưa gán nhãn (working

set) Bài toán truyền dẫn sẽ dự đoán giá trị của một hàm phân lớp tới các điểm đã

cho trong tập dữ liệu chưa gán nhãn.

Thuật toán S3VM được xây dựng đê sử dụng hỗn hợp dữ liệu huấn luyện là dir

liệu đã gán nhãn và chưa gán nhãn với mục đích là gán các nhãn cho dữ liệu trong

tập dữ liệu huấn luyện chưa gán nhãn một các tốt nhất có thể Sau đó sử dụng hỗn

Trang 30

-27-hợp dữ liệu đã gán nhãn cho trước và dữ liệu vừa được gán nhãn để huấn luyến và

phân lớp những dữ liệu mới.

Ta nhận thấy rằng nếu toàn bộ dữ liệu huấn luyện đã được gán nhãn thì bài

toán này lại trở thành bài toán học có giám sát SVM (Support vector machine).

Ngược lại nếu toàn bộ dữ liệu huấn luyện chưa được gán nhãn thì bài toán lại trở

thành bài toán học không giám sát.

Nội dung thuật toán

Đầu vào:

D: Tập dữ liệu có nhãn và chưa có nhãn.

D= {(x;, yi) Ì xị € RỲ, yị €{-I,0, 1},¡= 1,2, ,n}

L: Tập dữ liệu đã gán nhãn trong D gồm | dữ liệu

Cuc tiéu hoa 5 lIwll? theo b, w, y;

Giải bài toán tôi ưu y(wx, +b) >1, = 1, 1

yi(wx, +b) > 1,i= 1, u

Cụ thê hơn ta có bài toán sau:

1 u

fa 1 A

a, {ia + ad, max(0,1 — y,(w x; + b)) + mà, max (0,1 ~ y,(w x) + 5)

Vấn đề ở đây là ta cần phải xác định yj trong tập dữ liệu chưa được gan nhãn

Ta thực hiện tìm kiếm một siêu phẳng w và ghi nhãn một trong những ví dụ không

có nhãn, do đó hàm mục tiêu SVM được giảm thiêu, và bị ràng buộc bởi một r phần

nhỏ của dữ liệu không có nhãn được phân loại tích cực Ta có:

Trang 31

max (0, sign (w xy + b))

Tập dữ liệu chưa gán nhãn sau khi đã gán nhãn sẽ được đưa vào tập dữ liệu

huấn luyện, tiếp theo đó sẽ sử dụng thuật toán SVM để học tạo ra SVM mới, SVMnày chính là S3VM có một siêu phẳng mới Sau đó áp dụng siêu phẳng này để phânlớp các mẫu đữ liệu mới được đưa vào

Vậy giải thuật S3VM chính là một phương pháp cải tiến của giải thuật SVM,giải thuật đã tận dụng được những ưu điểm của học có giám sát là có độ chính xác

cao và đã tận dụng được nguồn dữ liệu huấn luyện không gán nhãn rất sẵn có nhằm

giải quyết bài toán phân lớp một cách tối ưu Tuy nhiên vì giải thuật được xây dựngtrên nền tảng là giải thuật SVM nên nó vẫn gặp phải những vấn đề của giải thuậtSVM như sự bùng né tổ hợp, độ phức tạp cao, giải quyết bài toán tối ưu khó,

2.3 Một vài mô hình ứng dụng từ điển cộng tác

2.3.1 VocBench

VocBench [10] là một ứng dụng web mã nguồn mở, đa ngôn ngữ, hỗ trợ biêntập và quản lý từ vựng, chú giải bằng SKOS và SKOS-XL VocBench được pháttriển bởi FAO (Food and Agriculture Organization) và các đối tác, và được thiết kế

để đáp ứng các nhu cầu của web ngữ nghĩa và các môi trường liên kết dữ liệu

VocBench cung cấp công cụ và chức năng tạo điều kiện cho việc hợp tác chỉnh sửathuật ngữ đa ngôn ngữ Nó cũng bao gồm quản lý và quản lý nhóm tính năng cho

phép chỉnh sửa một cách linh hoạt.

VocBench là kết quả của một nỗ lực chung của nhóm ART, Đại học Rome

Tor Vergata Trong phiên bản 2.0, VocBench đã trải qua một cải tiến lớn, với sự hỗ

trợ của RDF từ hệ thống Semantic Turkey, với các tính năng mới và cải tiến đáng

kê.

Trang 32

-20-Giao diện người dùng

Hình 2.1 Giao diện chính của công cụ VocBench

VocBench đã được xây dựng dưới dạng một ứng dụng web, được truy cập

thông qua bat kỳ trình duyệt nào Do đó giúp người dùng giảm đi việc cài đặt phần

mềm và cấu hình Giao diện người dùng bao gồm nhiều tab, mỗi một liên kết với

thông tin và các chức năng cụ thé Hình 2.1 cho ta thấy được giao diện làm việc củaVocBench một cách tông quát nhất, với cây khái niệm trên bên trái, và mô tả các

khái niệm được chọn ở bên phải, tập trung vào các tab giới hạn Các khái niệm

trong cây có thể được thể hiện qua nhãn của chúng trong tất cả các ngôn ngữ đượclựa chọn đề hiền thị Một tùy chon Toggles giữa một điểm của chỉ nhãn được lựachọn trước, và tất cả các nhãn Các đặc tính đa ngôn ngữ của VocBench không hạnchế để quản lý ¡ dung, giao diện của nó cũng được địa lý hóa trong các ngôn ngữ

khác nhau, hiện nay: tiếng Anh, tiếng Tây Ban Nha, Hà Lan và Thái Lan

Điều khiển truy cập dựa trên vai trò

VocBench thúc day sự phân công trách nhiệm thông qua một cơ chế kiểm soát

truy cập dựa trên vai trò, kiểm tra phân quyền người dùng cho các chức năng yêu

cầu thông qua vai trò mà người dùng chấp nhận VocBench hỗ trợ phân quyền

người dùng với 4 vai trò cơ bản: Quản trị viên (Administrators), chỉnh sửa ontology

Trang 33

(Ontology editors), chỉnh sửa thuật ngữ (Term editors), người phê duyệt

(Validators) và người xuất bản (Publishers)

Truy vấn SPARQL

VocBench hỗ trợ thống kê một vài số liệu liên quan đến bộ từ điển xây dựng

và các quy trình làm việc hợp tác Ngoài ra, VocBench còn hỗ trợ người dùng tự

truy vắn/cập nhật qua SPARQL 1.1 Người dùng có thé sử dụng bộ công cụ đượcdựa trên mã nguồn mở là Flint SPARQL Editor (https://github.com/TSO-Openup/FlintSparqlEditor) dé thực hiện các truy vấn SPARQL

Một vài từ điển cộng tác được xây dựng trên nền tảng VocBench có thể kể đến

như sau:

Agrovoc - Multilingual agricultural thesaurus

Agrovoc [12] là một bộ từ vung được xây dựng, kiểm soát và phát triển bởi Tổchức Nông nghiệp và Lương thực Liên Hợp Quốc (FAO) và Ủy ban Cộng đồngChâu Âu vào đầu nan 1980, được cập nhật thường xuyên va sử dụng rộng rãi dé lậpchỉ mục và lấy dữ liệu trong hệ thống thông tin nông nghiệp Agrovoc được sử dụngtrên toàn thế giới bởi các nhà nghiên cứu, cán bộ thư viện, quản lý thông tin và

những người khác, để lập chỉ mục, lấy và tô chức dữ liệu trong hệ thống thông tin

nông nghiệp Từ năm 2004, Agrovoc đã được làm sạch và giàu ngữ nghĩa Cho tới

nay, Agrovoc đã có hơn hơn 32,000 khái niệm có tổ chức trong một hệ thống phâncấp Mỗi khái niệm có thé được hỗ trợ lên đến trên 27 ngôn ngữ gồm: Arabic,

Burmese, Chinese, Czech, English, French, German, Hindi, Hungarian, Italian,

Japanese, Khmer, Korean, Lao, Malay, Moldovian, Persian, Polish, Portuguese,

Russian, Slovak, Spanish, Telugu, Thai, Turkish, Ukrainian, Vientamese Nó không chỉ chứa thuật ngữ của ngành nông nghiệp, mà còn các thuật ngữ trong lâm nghiệp,

thủy sản, thực phẩm và các lĩnh vực khác Những thuật ngữ được sử dụng dé xácđịnh rõ ràng các nguồn lực Thật vậy, những kiến thức có trong vốn từ vựng chophép quá trình lập chỉ mục tiêu chuẩn hóa, làm cho việc tìm kiếm đơn giản và hiệu

quả hơn.

Biotech - FAO Glossary of Biotechnology for Food and Agriculture

Biotech là một bộ từ điển Công nghệ sinh học trong lĩnh vực thực phẩm vanông nghiệp; là một bản nâng cấp, bổ sung từ bộ từ điển Công nghệ sinh học và Kỹ

Trang 34

-31-thuật di truyền được công bố bởi FAO vào năm 1999 Ban đầu, ý tưởng về một tập

hợp các thuật ngữ liên quan đến lĩnh vực công nghệ sinh học và di truyền ra đời khi

sự trao đổi và thảo luận về chuyên môn giữa các quốc gia trở nên khó khăn Sự khác

biệt trong cách giải thích các thuật ngữ có nguy cơ làm cho các cuộc đàm phán bị

thất bại Từ đó ý tưởng về ién giải thích thuật ngữ Côngxây dựng một bộ từ

nghệ sinh học và kỹ thuật di truyền đã ra đời Bộ từ điển ra đời đã cung cấp một tậphợp các thuật ngữ và các từ viết tắt được sử dụng thường xuyên trong lĩnh vực côngnghệ sinh học cho thực phẩm và nông nghiệp Đây là một nguồn tài liệu tham khảo

có giá trị vô cùng to lớn cho các nhà nghiên cứu và kỹ thuật viên Bản công bố đầutiên đã nhận được sự quan tâm của đông đảo người dùng trên toàn thế giới; thôngqua sự đóng góp của đông đảo người dùng, Biotech dần trở nên hoàn thiện Bản

công bố lần thứ hai đã được cập nhật khoảng 3,196 thuật ngữ và định nghĩa liên

quan; Phiên bản thứ hai này cũng đã được dịch sang nhiều ngôn ngữ khác nhaunhằm đáp ứng nhu cầu sử dụng của người dùng Đến 2012, một hệ thống quản lýthuật ngữ mới đã được giới thiệu, cho phép bd sung và cập nhật các thuật ngữ cótrong từ điển với sự hỗ trợ trên nhiều ngôn ngữ khác nhau Đến nay, bộ từ điển bao

gồm khoảng trên 3,190 thuật ngữ và định nghĩa trong các ngôn ngữ sau: Arabic,

Chinese, English, French, Kazakh, Polish, Russian, Serbian, Spanish and

Vietnamese (http://fao.org/biotech/biotech-glossary/en/)

EUROVOC

EuroVoc (http://eurovoc.europa.eu/drupal/) là một bộ từ điên toàn thư đa ngôn

ngữ, đa ngành về các hoạt động của EU Bộ từ điển bao gồm các thuật ngữ được

định nghĩa trong 23 ngôn ngữ của cộng đồng EU gồm: Bulgarian, Croatian, Czech,

Danish, Dutch, English, Estonian, Finnish, French, German, Greek, Hungarian, Italian, Latvian, Lithuanian, Maltese, Polish, Portuguese, Romanian, Slovak, Slovenian, Spanish and Swedish.

GEMET - GEneral Multilingual Environmental Thesaurus

GEMET (https://eionet.europa.eu/gemet/) là một bộ từ vựng, thuật ngữ trong

lĩnh vực môi trường với hơn 11,179 định nghĩa trong hơn 20 ngôn ngữ khác nhau

và được công bố bởi European Environment Agency Bộ từ điển được xây dựng

trên nền tảng của SKOS, hệ thống tổ chức cơ bản và cũng là tiêu chuẩn đăng ký

Trang 35

siêu dữ liệu, ISO 11.179 Cơ sở của từ điền chính là một SKOS ontology đưa ra cácmối quan hệ giữa tất cả các thuật ngữ trong một tập tin có cầu trúc RDF, ngoài ra

còn có một phần dành cho đữ liệu từ điền

UAT - Unified Astronomy Thesaurus

UAT (http://astrothesaurus.org/thesaurus/) là một bộ từ điển hợp nhất về lĩnh

vực thiên văn học và được phát triển Institute of Physics Publishing, the American

Institute of Physics và SPIE UAT là một bộ từ điển mở, tương thích và hỗ trợ cộngđồng UAT là một bản tổng hợp các từ vựng riêng lẻ, đa dạng và khác nhau về thiênvăn học thành một bộ từ điên thống nhất, miễn phí, chất lượng cao, chính thức hóa

các khái niệm và mdi quan hệ giữa chúng UAT được xây dựng dựa trên IAU với sự

bổ sung các thuật ngữ từ triển Institute of Physics Publishing, the American

Institute of Physics và SPIE.

2.3.2 MediaWiki

MediaWiki (https://www.mediawiki.org/wiki/MediaWiki/vi) là phần mềmwiki dựa trên máy chủ, được thiết kế để sử dụng trong các website phạm vi lớn.MediaWiki là phần mềm nguồn mở, miễn phí, được sử dụng rộng rãi cho một số

lượng các website nổi tiếng, bao gồm, Wikipedia và Wikimedia Commons Một

trong những tính năng chính của MediaWiki là tạo và hiển thị nội dung đa dạng,bao gồm cả các công thức toán học thông qua LaTeX, các tập tin đa phương tiện,bao gồm các nội dung do người sử dụng tải lên MediaWiki có thé được sử dụng cảtrong mạng nội bộ tổ chức được kết nối mạng, hoặc bên ngoài trên Internet

Wikipedia đã sử dụng MediaWiki, cùng với những tính năng ưu việt của các

phần mềm trước MediaWiki, khi nó dừng sử dụng UseModWiki vào các năm

2002/2003 Nhiều công việc phát triển trên MediaWiki xuất xứ từ các yêu cầu về

tính năng và chức năng bô sung từ những người sử dụng và những người vận hành.

Tính mở rộng phạm vi, đặc biệt là các yêu cầu cho nhân bản cơ sở dữ liệu xuyênkhắp các cụm nhiều máy chủ, đã biến MediaWiki thành một công cụ cộng tác

chuyên nghiệp, phù hợp một cách lý tưởng cho các môi trường chia sẻ tri thức Sự

đưa vào các phương pháp có suy tính thận trọng để mở rộng chức năng, được biếtnhư là các mở rộng, đang tích cực cho phép các nhà sáng tạo và phát triển nội dung

gia tăng phạm vi và khả năng của MediaWiki.

Trang 36

-33-MediaWiki đã chứng tỏ là là công cụ tốt nhất trong số các công cụ wiki mãnguồn mở hiện tại Việc đang được Internet Journal bình chọn làm công cụ wiki tốt

nhất là một sự công nhận thành quả đã hỗ trợ cho MediaWiki, nhưng vẫn còn thực

tế lớn hơn là không chỉ MediaWiki được chọn là công cụ cho các công ty nhưIntel® và Novell, mà còn có phần mềm cung cấp wiki lớn nhất thế giới: Wikipedia

MediaWiki cung cấp một số tính năng quan trọng so với các công cụ wiki

khác, được mô tả cụ thể trong Bảng 2.1 bên dưới

Bảng 2.1 Một số tính năng chính của MediaWiki

Tính năng Mô tả

Thay vì lưu trữ cơ sở dit liệu trong tập tin văn ban, MediaWiki

Dựa vào cơ sở dữ ,

" dùng MySQL hoặc PostgreSQL Điêu này cho phép tat cả các liệu Ề f

sửa đôi của bài việt sẽ được lưu giữ.

Hỗ trợ đa ngôn ngữ |Hiện nay, MediaWiki hỗ trợ 140 ngôn ngữ khác nhau

Khả năng điều|Bồ sung lớn nhất của MediaWiki- Wikipedia - có hơn

chỉnh 1,000,000 bài viết

Chỉnh sửa từng Những người dùng có thé chỉnh sửa các phần bài viết thay vi

phần phải tải (chỉnh sửa) toàn bộ bài viết

RSS Những người dùng có thé theo doi các thay đồi với nội dung

cụ thể thông qua các nguồn cung cấp RSS

Những người dùng có thé định vị các số liệu thống kê trang

Web, danh sách người sử dụng, các bài viêt mới tạo ra, tat cả

Các trang báo cáo : De Lok

các trang theo tiêu đê, các bài viét ưa thích nhât, các bài viétđặc biệt mm ;: '

phô biên và các báo cáo khác giúp họ chuyên qua các nội

dung.

Người dùng có thể theo dõi và tham gia vào các cuộc thảo

Các danh sách thảo : Lo sk

ia luận liên quan đên nội dung của một bài việt thông qua trang

luận

thảo luận.

Phân biệt các sửa _ |Những người dùng có thé so sánh các sửa đồi được chỉ ra bênđổi cạnh với những thay đổi được đánh dấu

Ngày đăng: 08/11/2024, 17:39

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN