1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nhận dạng và phân loại các thực thể có tên cho văn bản tiếng Việt

61 967 6

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 61
Dung lượng 20,99 MB

Nội dung

Két quả phục vụ thực tế các sản phấm công nghệ, khả năng áp dụng thực tế C húng tôi đã nghiên cứu và phát triển m ột hệ thống nhận dạng thực thể có tên cho tiếng Việt đạt kết quả khá khả

Trang 1

Đ Ạ I H Ọ C Q U Ố C GIA HÀ NỘ I

****

NHẬN DẠNG VÀ PHÂN LOẠI CÁC THựC THẺ CÓ TÊN

CHO VẪN BẢN TIÉNG VIỆT

M ã số: Q C 09.08

C hủ nhiệm đề tài: Phạm Bảo Sơn

Ị 0AIMOC Q Ị1'* G 'c Hí f\: 1 l.\ ■It V* «*-• 1- 'n\» Iho »if N

Hà N ộ i - 2 0 1 0

Trang 2

M ỤC LỤC

BÁO CÁO TỔNG KẾT 2

1 Giới th iệ u 2

2 Thách th ứ c 3

3 Tổng quan các vấn đề nghiên c ứ u 4

3.1 Các phương pháp phổ b iể n 4

3.2 G iới thiệu về G A T E 5

4 Xây dựng C orpus cho tiếng V iệt 7

5 Xây dựng hệ thống N E R cho tiếng V iệ t 9

5.1 T iền xử l ý 10

5.2 B ộ từ đ iể n 11

5.3 B ộ lu ậ t 12

6 Thực n g h iệ m 14

6.1 Các bước tiến hành thực n g h iệm 14

6.2 K ết quả thực n g h iệ m 15

7 Kết lu ậ n 18

Tài liệu tham k h ả o 19

Trang 3

Danh sách những người tham gia thực hiện đề tài (học hàm, học vị, cơ quan công tác)

Chủ trì đề tài:

• TS Phạm B ảo Sơn

Những người thực hiện:

Trang 4

Danh mục các hình

Hình 3.1 - Kiến trúc tổng quát của GATE 6

Hình 4.1 - Mô hỉnh các bước phát triển của hệ thống 8

Hình 5.1 - Mô tả chi tiết hệ thống nhận dạng thực thể trong văn bản tiếng V iệt 9

Hình 5.2 - Một ví dụ cho quá trình nhận dạng thông minh 14

Trang 5

Danh mục các bảng số liệu

Bảng 6.1 - Kết quả nhận dạng trên tập huấn luyện 15Bàng 6.2 - Bàng kết quả nhận dạng trên tập kiểm ừ a Ị 6Bảng 6.3 - Kêt quả nhận dạng trên tập kiểm ừa với tiêu chí “lòng” ( lenient evaluation) 17Bàng 6.4 - Kết quả thực nghiệm cùa một số hệ thống nhận dạng thực thể trong văn bản tiểng Việt 17

Trang 6

1 T ó m t ắ t c á c k ế t q u ả n g h iê n c ứ u c h ín h c ủ a đ ề tà i

Kêt quà vé khoa học (những đóng góp của đề tài, các công trình khoa học đã công bố)

2 bài báo đăng tại các hội nghị quốc tế chuyên ngành (đăng bởi IEEE CS)

D ang D ue Pham , G iang Binh Tran and Son Bao Pham “A H ybrid Approach to

International Conference on Knowledge and Systems Engineering (K SE 2009)

• Dai Quoc N guyen, Dat Quoc N guyen and Son Bao Pham “A Vietnamese Question

Systems Engineering (K SE 2009)

Két quả phục vụ thực tế (các sản phấm công nghệ, khả năng áp dụng thực tế)

C húng tôi đã nghiên cứu và phát triển m ột hệ thống nhận dạng thực thể có tên cho tiếng Việt đạt kết quả khá khả quan, song song với đó là một bộ dữ liệu đã được gán nhãn chuẩn và tài liệu định nghĩa các loại thực thể Tất cả hệ thống và các tài liệu liên quan sẽ được m ở cho cộng đồng sử dụng và phát triển

Kết quả đào tạo (sẻ lượng sinh viên, số lượng học viên cao học, nghiên cứu sinh tham gia thực hiện làm việc trong đề tài, so khóa luận, luận vân đã hoàn thành và bảo vệ)

3 khóa luận tốt nghiệp CNTT:

' • D at B a N guyen, "Named Entity Recognition fo r Vietnamese ”, K hóa luận tốt nghiệp đại học, T rường Đ ại học C ông N ghệ, 2009

• Dai Q uoc N guyen, “Phương pháp xây dựng hệ thong hỏi đáp tiếng Việt dựa trên

O ntology”, K hóa luận tốt nghiệp đại học, T rường Đại học Công N ghệ, 2009

• Dat Q uoc N guyên, “Phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt ”,

K hóa luận tốt nghiệp đại học, Trường Đại học C ông N ghệ, 2009

Kết quả nâng cao tiềm lực khoa học (năng cao trình độ cán bộ và trang thiết bị hợc phần mềm đã xây dựng được giao nộp đưa vào sử dụng tại đơn vị):

Nâng cao năng lực chuyên m ôn cùa cán bộ phòng thí nghiệm về các lĩnh vực xử lý ngôn n»ừ

tự nhiên và trí tuệ nhân tạo

Trang 7

BÁO CÁO TỔNG KẾT

1 G ió i th iệu

Với sự bùng nổ của nguồn dữ liệu trên Internet, những bài toán về xử lý thông tin như: trích chọn thông tin, tóm tát nội dung văn bản v v ra đời như một nhu cầu tất yếu Bài toán nhận dạng thực thể là m ột bài toán khá cơ bản trong nhóm các bài toán trích chọn thông tin N ó có nhiệm vụ tìm kiểm và rút ra những thông tin liên quan đến thực thể (m ột đối tượng hoặc một tập hợp đối tư ợ ng của thế giới tự nhiên) trong văn bản, thông thường là loại thực thể Có thế tùy theo từng bài toán, từng lĩnh vực cụ thể, người ta đưa ra danh sách những loại thực thể được nhận dạng khác nhau Các hệ thống nhận dạng thực thể trong văn bản [4], [8] thường nhận m ột số loại thực thể:

• Thực th ể chỉ người (Person)

• Thực th ể chỉ tổ chức (O rganization)

• Thực thể chỉ địa điểm (Location)

• Thực thể chỉ ngày (Date)

• Thực thể chỉ thời gian (Time)

Thực th ể chi các đơn vị tiền tệ (M oney).

• Thực thể chi phần tràm (Percent)

Trong đó, loại thực thể chi ngày (D ate), thực thể chỉ thời gian (T im e), thực thể chi các đcm vị tiền tệ (M oney), thực thể chi phần trăm (Percent) thường ít m ang tính nhập nhầng, không khó để nhận dạng N goài ra tùy từng lĩnh vực, người ta cỏ thể chú ý thêm vào những loại thực thể khác đặc thù Ví dụ hệ thống nhận dạng thực thể trong văn bản với lĩnh vực y tế[14] sẽ nhận những thực thể chỉ tên thuốc, hoặc c á c io ạ i bệnh v v như những loại thực thể chính

Là m ột bài toán khá quan trọng và cơ bàn nhưng hiện nay vẫn chưa có nhiều nghiên cứu

về bài toán n hận dạng thực thể trong văn bản đối với tiếng Việt H ơn nữa những hệ thống hiện thời kh ô n g phải là nguồn m ở nên rất khó để tiếp cận sứ dụng và phát triển [4], [11] Chính vì vậy chúng tôi quyết định xây dựng m ột hệ thống nhận dạng thực thể sử dụng hệ luật cho văn bản tiếng V iệt trên nguồn m ở của khung làm việc G A T E (G eneral A rchitecture for Text E n g in eerin g )1 Toàn bộ hệ thống sẽ được m ở cho cộng đồng sử dụng và phát triển

1 W ebsite chính thức của GATE: htìp://gate.ac.uk/downỉoad/index.html

Trang 8

Song song với việc p h át triển hệ thống, chúng tôi cũng xây dựng m ột bộ tài liệu bao gồm : định nghĩa các thực thể, các loại thực thể, cùng với m ột tập dừ liệu được gán nhãn chuẩn cho bài toán nhận dạng thực thể trong văn bản tiếng V iệt.

2 T h á c h th ứ c

Có những thách thức m à phải vượt qua để giải quyết được bài toán này:

• T iếng V iệt m ang nhiều đặc trưng ngôn n g ữ riêng khiến nó trở nên phức tạp so với tiếng A nh v à m ộ t số ngôn ngữ khác N hữ ng khó khăn đó xuất phát từ m ột trong những đặc điểm sau:

o Phân biệt các từ không xác định bằng dấu cách bởi m ột từ có thể bao gồm nhiều

âm tiết v à chỉ m ỗi âm tiết mới phân cách nhau bởi dấu cách Đ iều này dẫn đến nhập nhằng ữ o n g phân đoạn từ tiếng V iệt Ví dụ: “H ọc sinh học sinh học ” có thể được p h ân đ oạn từ thành “Học sinh học s in h ỳ iọ c” hoặc cũng có thể là “Học_sinh học sinh học

o N gữ pháp V iệt N am phức tạp cùng với hiện tượng đồn g âm khác nghĩa, từ dồng nghĩa hay đảo trật tự câu và các phép tu từ dẫn đến nhập nhằng trong xác định ý nghĩa của câu, từ

• C hưa có corpus (tập cơ sở dữ liệu gán nhãn tiếng V iệt) công bố với kích thước đủ lớn

để tiến hành thí nghiệm và đánh giá hiệu năng của phương pháp

• C hưa có nhiều nghiên cứu tiền đề về vấn đề ph át nhận dạng thực thể có tên trong văn bản tiếng Việt

• Đ ặc thù tiến g V iệt khó có thể áp dụng ngay những kết quả nghiên cứu trên thế giới với tiếng A nh, Ả -R ập để đạt được kết quả cao

3

Trang 9

3 T ổ n g q u a n cá c v ấ n đ ề n g h iên cứ u

3.1 C ác p h ư ong pháp phổ biến

Có ba hướng tiếp cận chính cho bài toán nhận dạng thực thể trong văn bản: hướng tiếp cận

sử dụng hệ luật được xây dựng bởi chuyên gia [4], [9], hướng tiếp cận sử dụng các phương pháp học máy [8] và hướng tiếp cận lai [5]

Sử dụng chuyên gia xây dựng hệ luật là phương pháp truyền thống, có thể nói là được áp dụng sớm nhất trong các bài toán xử lý ngôn ngữ tự nhiên nói chung và bài toán nhận dạng thực thể trong văn bản nói riêng Hệ luật là m ột tập hợp các luật do con người đặt ra nhằm những mục đích nhất định, ở đây là việc nhận dạng các thực thể trong văn bản M ột hệ thống nhận dạng thực thể sử dụng hệ luật thông thường sỗ có các các thành phần chính như: từ loại (danh từ, động từ v.v )> ngữ cảnh (từ đứng trước, từ đứng sau v v ) và một số thuộc tính (viết hoa, viết thường v v ) kết hợp với m ột bộ từ điển để viết thành các luật [3] Ví dụ với câu sau đây:

“President Bush said M o nd ay’s talks will include discussion on security, a timetable

fo r Ư.Sforces to leave Iraq."

Trong ví dụ này tò “B u sh ” đứng sau từ “President” sẽ được nhận là một tên người (Person),

“Iraq ” đứng sau động từ “ leave” sẽ dược nhận là tên chi địa điểm (Location) M U SE (M ulti source entity finder) được phát triển trên nền G A TE, là hệ thống nhận dạng thực thể có tên dựa trên hệ luật thu được kết quả khá cao 9 3 -9 4 % [9] Đối với tiến g Việt, hệ thống V N -K ỈM cũng thu được những kết quả khá khả quan khoảng 81% cho các loại tên: O rganization, Location, Person, D ate, Tim e, M oney and Percent [4],

Các phương pháp học m áy như: máy vector hồ trợ (SV M ), cây quyết định, mô hình

m arkov ẩn, C RF v v thường xuyên được áp dụng và thu được kết quả khá cao trong các bài toán về xử lý ngôn ngữ tự nhiên Với hệ thống nhận dạng thực thể trong văn bàn sử dụng các phương pháp học m áy, vấn đề nhận dạng thực thể (N ER - N am ed Entities R ecognition)được chuyển đối thành bài toán phân loại Đ ầu tiên sử dụng mô hình IOB đế gán nhãn chocác từ theo tiêu chí:

• I: nếu từ nằm trong cụm thực thể đang xét

• O: nếu từ nằm ngoài cụm thực thể đang xét

• B: nếu từ là vị trí bát đầu cụm thực thể đang xét

4

Trang 10

Sau đó dựa trên những thông tin về nhãn cùa từ thu được qua m ô hình IO B, cùng với từ loại và loại thực thể (nam ed entity) v v để trích chọn đặc trưng làm đầu vào cho các mô hình phân loại sử dụng các phương pháp học máy.

Đối với tiếng V iệt, m ột trong những nghiên cứu đầu tiên là của tác giả N guyễn với hệ thống nhận dạng thực thể trong văn bản dựa trên m ô hình C onditional R andom Fields (C R F)

để xác định 8 loại thực thể: thực thể chỉ người (Person), thực thể chỉ địa danh (L ocation), thực thể chi tổ chức (O rganization), phần trăm, thời gian (Tim e), số (N um ber), tiền tệ (M oney) [11] Tác giả tiến hành thực nghiệm sử dụng công cụ F lex C R F s2, sử dụng dữ liệu gồm 50 bài báo lĩnh vực kinh doanh (khoảng gần 1400 câu) lấy từ nguồn báo điện tử vnexpress B iểu đồ ở hình 2.1 thể hiện kết quả cùa 10 lần thử nghiệm với F-m easure trung bình khoảng 8 0 - 8 1 %

“Hệ thống lai” là hệ thống kết hợp giữa hai hướng tiếp cận truyền thống, là sử dụng hệ luật và các phươ ng pháp học m áy, nhằm sử dụng được ưu điểm cùa cà hai hướng tiếp cận này Tuy chưa có m ột nghiên cứu nào về hướng tiếp cận này đối với tiếng V iệt, nhưng cũng

đã có m ột vài nghiên cứu đạt kết quả khá khả quan với tiếng T rung Q uốc được xem là khá gần gũi với tiếng Việt Sirhari và X Fang cùng đưa ra những hệ thống lai kết hợp giữa các phương pháp học máy và hệ luật [16], [5] Đặc biệt hệ thống của X F ang đã thu được những kết quả khá cao cho văn bản tiếng Trung Tuy chưa có nhiều nghiên cứu về hướng tiếp cận này cho bài toán nhận dạn g thực thể trong văn bàn tiếng Việt, nhưng với những kết quả khả quan như vậy có thể nó sẽ là hướng quan trọng trong tương lai

3.2 G iới thiệu về G A TE

GA TE là m ột khung làm việc m ã nguồn m ở cho các bài toán xử lý văn bản do nhóm giáo sư Cunningham thuộc trư ờng đại học Sheffield - A nh phát triển C ó thể dow nload phiên bản mới nhất của G A TE m iễn phí tại địa chi: http://gate.ac.uk7do\vnload/index.htm ỉ

M ô hình kiến trúc tổng quát của G A TE được m ô tả trong hình 3.1 T rong đó:

• Tầng hiển thị (ID E GUI Layer): có nhiệm vụ hiển thị giao diện trực quan tương tác với người dùng

• Tầng ứng dụng (A pplication Layer): gồm các ứng dụng khác nhau n h ư bộ A N N IE (có sẵn trong G A T E ) hay các thành phần tích hợp (Plugin) mới v v

http://flexcrfs.sourceforge.net' - website chính thức của công cụ FlexCRFs.

2

5

Trang 11

• Tầng xử lý định dạng văn bản (D ocum ent Form at layer): có nhiệm vụ xử lv cho từng định dạng văn bản khác nhau.

• Tầng dữ liệu (C orpus Layer): K ho tài liệu gồm nhiều thành phần khác nhau như: tập

dữ liệu (C o rp u s) chứa các văn bản (D ocum ent), nội dung văn bản (D ocum ent

C ontent) gồm các bộ nhãn (A nnotation Set), nhãn (A nnotation) gồm các đặc trưng (Feature M ap) (các khái niệm sẽ được giải thích rõ trong m ục 3.2)

• Tầng xử lý (P rocessing Layer): G ồm các thành phần xử lý khác nhau như: tách từ (w ord segm entation), gán nhãn từ loại (PO S), nhận dạng thực thể (N E) v v

• Tầng nguồn ngôn ngữ (L anguage R esource Layer): gồm các kho dừ liệu khác nhau như: tập từ điển (gazetteers), tập từ vựng (lexicon) v v

• T ầng lưu trữ (D ataStore Layer): L u n trữ dữ liệu ờ các dạng khác nhau

Hình 3.1 - Kiển trúc tồng quái cùa GA TE

6

Trang 12

Trong nghiên cứu này, chúng tôi sẽ tập trung nghiên cứu vào tầng dữ liệu (corpus), tầng nguồn ngôn ngữ (gazetteer) và tầng xử lý (w ord segm entation, part o f speech, nam ed entity recognition).

4 X â y d ự n g C o r p u s c h o tiế n g V iệ t

Tham khảo từ m ột số tài liệu liên quan [7], chúng tôi quyết định đưa ra danh sách các loại thực thể có tên sẽ được nhận dạng: Person, O rganization, Facility, Location, N ationality, and Religion Các loại tên khác như: Percent, M oney, D ate có thể khá dễ dàng để nhận ra và các

hệ thống hiện thời cũng đã đạt được những kết quả rất tốt nên sẽ không được đề cập tới trong nghiên cứu này của chúng tôi

N goài ra khi nhận dạng thực thể trong văn bản ta phải đảm bảo quy tắc: không có các tên lồng nhau M ột tên m ới chỉ được nhận khi tên cũ đã kết thúc (không bao giờ có hai tên có phần chung) T rong trư ờng hợp có sự lồng nhau giữa các tên, chỉ m ột tên dài nhất được nhận (longest m atching - dài thì thắng)

Ví dụ trong câu:

“Phòng Giáo dục hicyện M ỹ Đ ức đang họp giao ban ”

ta chỉ nhận “Phòng G iáo dục huyện Mỳ Đ ức” là thực thể chỉ các tổ chức (O rganization) và

bỏ qua thực thể chỉ địa điểm “M ỹ Đ ức”

Tuy không cần th iế t có m ột tập dữ liệu được gán nhãn lớn để dùng trong giai đoạn huấn luyện như những hệ th ố ng sử dụng các phương pháp học máy, nhưng với mục đích xây dựng thêm m ột bộ dữ liệu chuẩn, cùng với những khó khăn trong vấn đề nhập nhằng ngôn ngữ khi viết luật, chúng tôi q uyết định xây dựng song song hệ thống nhận dạng thực thể và tập dữ liệu được gán nhân chuẩn, trong đó tập văn bản ban đầu được lấy tò đề tài: “Nghiên cứu phát

/06-10 Q uá trình phát triển đồng thời hai thành phần như vậy mang lại rất nhiều lợi ích như:

• T iết kiệm thời gian và công sức so với việc hoàn toàn gán nhãn bằng tay cho tập dữ liệu

• Q uá trình chuẩn hóa lại tập thực thể được nhận sai của hệ thống đem lại cho chúng tôi nhiều kinh nghiệm để hoàn thiện bộ luật cũng như bộ từ điển trong hệ thống

M ô hình của hệ thống được m ô tả quá trình phát triển của hệ thống trong hình 4.1

7

Trang 13

Hình 4.1 - Mô hình các bước ph át triển cùa hệ thống

Đ ầu tiên chúng tôi xây dựng rất nhanh m ột hệ thống nhận dạng thực thể sử dụng bộ luật Jape cho văn bản tiến g V iệt có thể dùng được Sau khi hệ thống đã hình thành, chúng tôi sử dụng nó để gán nhãn tự động cho văn bản (m ột tập văn bản) Tập văn bản được gán nhãn tựđộng này còn m ang nhiều lỗi, được chúng tôi chuẩn hóa thành những văn bản được gán nhãnchuẩn và thêm nó vào tập dừ liệu (corpus) Tuy đã tiết kiệm được khá nhiều thời gian và công sức nhờ m ô hình gán nhãn tự động nhưng việc chuẩn hóa lại cũng gặp phải một số khó khăn như:

• M ang tính chủ quan, dễ m ắc sai sót

• N hiều trư ờ n g hợp nhập nhằng rất khó để phân loại

Chính vì n h ữ ng lý do trên, chúng tôi chia ra làm hai đội, gán nhãn lại độc lập với nhau Sau đó sử dụng bộ công cụ C oltech.N E tool do nhóm tự xây dựng dựa trên các bộ công cụ

8

Trang 14

quản lý chất lượng của G A T E (A nnotation Diff, Corpus B enchm ark tool) để so khớp và thong nhất Q uá trình chuẩn hóa và phân tích lỗi giúp chúng tôi tiếp tục hoàn thiện hệ thống nhận dạng thực thể C ác bước cứ được tiến hành như vậy cho đến khi hệ thống nhận dạng thực thể đạt hiệu quả n h ư m ong m uốn.

5 X â y d ự n g h ệ th ố n g N E R c h o tiế n g V iệ t

Chúng tôi quyết định xây dự ng hệ thổng nhận dạng thực thể trong văn bản tiếng V iệt như

m ột thành phần tích hợp (Plugin) trên GA TE nhàm tận dụng những un điểm m à G A TE m ang lại Tham khảo kiến trúc của bộ A N N IE (một thành phần tích hợp có sằn trong G A TE) chúng tôi đưa ra kiến trúc hệ thống như hình 5.1

Hình 5.1 - Mô tả chi tiết hệ thống nhận dạng thực thể trong vãn bản tiếng Việt

Trang 15

các thực thể bàng phép so khớp (m atching) Cuối cùng bộ luật nhận dạng lại các thực thể, gán nhãn cho từng thực thể trong văn bản, và trả ra kết quả.

5.1 Tiền xử lý

M ột nét đặc trưng rất khác biệt của tiếng V iệt so với tiếng Anh đó là vấn đề tách từ (w ord segm entation) Trong tiếng A nh các từ được phân biệt bởi dấu trống, tuy nhiên từ trong tiếng Việt thì không như vậy M ột từ có thể bao gồm m ột, hai, ba hoặc nhiều hơn các tiếng M ột tiếng có thể liên kết với từ đứng trước nó, hoặc đứng sau nó để tạo thành từ Ví dụ như câu:

là từ, hoặc cụm từ m ang ý nghĩa C húng ta không thể nhận m ột cụm các tiếng không m ang

m ột ý nghĩa gì làm thực thể Vậy yêu cầu đầu tiên của giai đoạn tiền xử lý cho bài toán nhận dạng thực thể là bài toán tách từ trong tiếng Việt M ột hệ thống nhận dạng thực thể chi có thể tốt khi có m ột bộ tách từ hoạt động tốt Lấy câu sau đây làm ví dụ:

“Anh Hùng lái xe trên đại lộ 5 ”

N ếu bộ tách từ hoạt động chính xác, câu đó sẽ được tách thành:

T ừ “H ùng” đứng sau tiền tố nhận dạng “A nh ” sẽ được nhận là thực thể chi người <Person>

và chính xác Tuy nhiên nếu bộ tách từ hoạt động không chính xác và câu được tách thành:

“Anh H ùng lái_xe trên đại_lộ 5.”

Khi đó trong tập các từ hoàn toàn không có tò “H ùng” và việc nhận ra “ H ùng” là thực thể tên người sẽ trở nên rất khó khăn

N goài yêu cầu bắt buộc về m ột bộ tách từ, chúng tôi còn sử dụng thêm bộ gán nhãn từ loại trong giai đoạn tiền xử lý cúa hệ thống, nhàm cung cấp được nhiều thống tin cho các giai đoạn xử lý tiếp theo C húng tôi đóng gói bộ W S& PT.2IN 1.4V N (Phạm 2009) thành plugin

10

Trang 16

C oltech.N L P.tokenizer trong khung làm việc G A TE N hờ đó bộ tách từ và gán nhãn từ loại

có thể dễ dàng thay đổi, cải tiến m à không làm ảnh hưởng đến kiến trúc của hệ thống

5.2 Bộ từ điển

Bộ từ điển (V N E gazetteer) được tạo từ nhiều từ điển với các tiêu chí khác nhau, nhằm nhận dạng được m ột lớp các thực thể nhờ quá trinh so khớp, cũng như cung cấp những thông tin cần thiết cho quá trình nhận dạng trong bộ luật M ồi từ điển gồm các từ m ang cùng m ột ý nghĩa nào đó, có thể là chứa các thực thể cùng loại như: tên người, tên tổ chức v v hay chứa các từ, cụm từ đóng những vai trò giống nhau về m ặt cú pháp, ngừ nghĩa, hoặc chi đơn giản là để sử dụng cho m ột luật nào đó trong bộ luật Bộ từ điển được chúng tôi xây dựng nhờ những kinh nghiệm có được trong quá trình gán nhãn bằng tay, và vẫn đang được tiếp tục phát triển

Có thể chia bộ tò điển thành những nhóm sau:

• N hững từ điển chứa các tên các thực thể được nhận dạng

o T ừ điển tên người:

■ C hứa các tên đầy đủ: Hồ Chí M inh, N guyễn Tấn D ũng v v

■ C hứa các tên viết tắt: Sơn, Duy, Đại, Đ ạt v v

■ C hứa các tên đặc biệt: Bà Trưng, Bà Triệu v v

o T ừ điển tên tổ chức: chứa tên các tổ chức như O PEC, G 8, G7 v v

o T ừ điển tên địa điếm: gồm 3 từ điển nhỏ

’ ■ T ừ điển tên nước: V iệt N am , Pháp, C anada v v

■ T ừ điển tên các thành phố trên thế giới: NevvYork, Paris v v

■ T ừ điển tên các vùng miền: m iền Bắc, m iền Anh, châu Á v v

o T ừ điển tên các công trình đặc biệt như: K im tự tháp, B igB en v v

o T ừ điển tên các tổ chức tôn giáo: Hội Phật Giáo, T hiên C húa G iáo v v

• N hững từ điển dùng cho việc nhận dạng trong bộ luật:

o T ừ điển các từ đứng trước tên người: anh, cô, chú, ông v v

o T ừ điển các động từ thường đứng sau tên người: cười, khóc, nói v v

Trang 17

o Từ điển các từ đứng trước tên tổ chức: công ty, tập đoàn, bệnh viện v v

o T ừ điển các từ đứng trước tên địa điểm: đảo, biển, thành phố, quận, huyện

v v

o Từ điển các tò đứng trước thực thể chỉ quốc gia: người, chính phủ v v

o Từ điển các từ đứng trước các công trình: cầu, tòa nhà, càng v v

• Từ điển chứa các từ gây ra sự nhập nhằng:

o Từ điển các từ nhập nhằng giữa tổ chức và công trình như: Lầu Nẳm Góc, N hà Trắng v v

o Từ điển các từ nhập nhằng giữa tên người, tên địa điểm và quốc gia: Anh, M ỹ,

N ga, N hật v v

5.3 Bộ luật

Song song với quá trình xây dựng bộ từ điển (V N Egazetteer) chúng tôi tiến hành xây dụng

bộ luật (V N E transducer) - thành phần quan trọng nhất trong hệ thống của chúng tôi Bộ luật

sử dụng các thông tin do các thành phần khác ữ o n g hệ thống (bộ tách từ, bộ gán nhãn từ loại,

bộ tò điển) cung cấp để nhận dạng các thực thể (thực thể và loại thực thể) Có thể m ô tả các bước hoạt động của bộ luật đo chúng tôi xây dựng như sau:

• Tiền xử lý: loại bỏ các nhãn “L ookup” không cần thiết, hoặc có thể đưa những thông tin sai cho quá trình nhận dạng

o N hận dạng các thực thể chi các tổ chức tôn giáo <R eligion>

o N hận dạng các thực thể chi người <Person>

o Sử dụng ngữ cảnh và quá trình nhận dạng thông minh

Trang 18

B ước đầu tiên của bộ luật là loại bỏ đi những nhãn Lookup chi là tiếng không phải là từ, không m ang đúng n g ữ nghĩa trong văn cảnh Ví dụ trong câu:

“Thị trường Việt Nam thật ảm đảm trong thời kỳ khủng h o ả n g ”.

T iếng “trường” trong trư ờ n g hợp này không thể được hiểu theo nghĩa “trư ờng học” vì nó nằm ừ o n g từ “thị trư ờ n g ” Vì vậy annotation L ookup ở tiếng “trư ờ n g ” sẽ bị xóa bỏ để tránh nhập nhằng trong quá trình nhận dạng tiếp theo N goài ra trong phần tiền xử lý, chúng tôi cũng đồng thời tạo ra những annotation mới - N am eP hrase - gộp những từ, cụm từ viết hoa

ở cạnh nhau để thuận tiện cho việc nhận dạng

T rong các bướ c tiếp theo, các cặp Facility và O rganization, L ocation và N ationality m ang nhiều sự nhập nhằng được x ử lý Q uá trình này chưa sử dụng các yếu tố ngừ cành vì thế vẫn còn nhiều lỗi trong quá trình nhận dang

Tên người ỉà m ột trong những loại thực thể khó được nhận dạng nhất, bời bất kỳ từ nào cũng có thể được dùng như m ột tên người D ưới đây là m ột luật đơn giản được sử dụng để nhận dạng tên người:

Rule: PersonA fterTitle

(

{Lookup m ajorTupe == “ titIeperson” }({N am ePhrase}):nam e

) >

:nam e.Person = {kind = “Person” , sure = “90” , rule = “P ersonA fterT itle” }

N goài ra chúng tôi đã áp dụng khá nhiều kỹ thuật nhằm tăng độ chính xác đối với loại thực thể này

Cuối cùng chúng tôi sử dụng các yếu tố ngữ cành vào quá trình nhận dạng Ví dụ đoạn văn

“Bà Nùng vừa hút tẩu thuốc vừa kể: "Đời thằng A Lưới khổ lẳm Nhà chẳng còn ai, lao động quần quật cả năm mà vẫn không đủ ăn Không biết đời nó bao giờ mới có vợ " Ẩy thế

mà niềm vui bất ngờ đã đến với A Lưới, anh gặp Hoa, cô giảo miền xuôi m ới lên bàn.''

N hờ có cụm “thằng A L ư ớ i” nên “A L ư ới” được nhận là thực thể chỉ người với độ chắc chấn cao N hờ đó từ “A L ư ớ i” ở câu dưới cũng được nhận là thực thể chi người Hình 5.2 là kết quả chạy của hệ thống đối với đoạn văn trên

13

Trang 19

H v ử a húi tíu tnuấc vử» k ỉ: T)đl trtỉng H I Nhà ehẳno còn

*1, lao đíno quần quật c i n im mà v ỉn khíng 90 in. KMng biết đđl nó bao

g li mỂrt có yợ "Ấy mế m ì niềm vul b ít n g đ đ ỉ đến VỚI m u anh gặp

cỏ giáo miền ÍUỎI mớl lên bén. r S M H B B i

n n n a n s

► O r i g i n a l m a r i o i p t

Hình 5.2 - M ột ví dụ cho quá trình nhận dạng thông minh

6 T h ự c n g h iệm

6.1 Các bước tiến hành thực nghiệm

• Bước 1: Sử dụng hệ thống nhận dạng thực thể trong văn bản tiếng V iệt do chúng tôi

• Bước 2: So sánh tập dữ liệu được gán nhãn tự động và tập dữ liệu chuẩn được gánnhãn bằng tay, qua đó đưa ra các thông số đánh giá chất lượng cùa hệ thống(Precision, R ecall, F-m easure) T rong đó:

Trang 20

o N 2: T ổng số thực thể được nhận ra.

o N 3 : Số thực thể thực tế

6.2 K ết quả thự c nghiệm

C húng tôi đánh giá kết quả thực nghiệm qua hai tiêu chí:

• Tiêu chí chặt (strict): m ột thực thể được nhận dạng đúng khi trùng khớp hoàn toàn (về

vị trí), v à cùng kiểu với thực thể trong tập dừ liệu chuẩn.

• T iêu chí lỏng (lenient): m ột thực thể được nhận dạng đúng khi nó có phần chung vàcùng kiểu với thực thể trong tập dữ liệu chuẩn

Với tiêu chí đánh giá chặt, ta thu được các kết quả sau:

K et quả nhận dạng trên tập huấn luyện (bảng 6.1) m ới chi dừng lại ờ F-m easure đạt 89.90% , hứa hẹn chúng tôi sẽ còn cải tiến được nhiều trong tương lai

Bảng 6.1 - Kết quả nhận dạng trên tập huấn luyện

SỐ thực thể

Sô thực thể được nhận dạng

Sô thực thể được nhận đúng

Trang 21

Bảng 6.2 - Bảng kết quả nhận dạng trên lập kiểm tra

SỐ

th ự c thể

Sô thực thể được nhận dạng

Sô thực thể được nhận đúng

N am đôi khi khá dài, khó nhận diện, đặc biệt khi chủng không được viết hoa Ví dụ câu sau:

"Công ty Hợp tác lao động nước ngoài - L O D, thuộc Bộ GTVT "

C âu trên gồm 3 th ự c thể chỉ tổ chức: “C ông ty Hợp tác lao động nước ngoài”, “LO D ” và “Bộ

G T V T ” Tuy nhiên hệ thống chi nhận được thực thể “C ông ty H ợp tá c ” (nhận sai) và “ Bộ

G T V T ” (nhận đúng) Tuy nhận sai nhưng việc nhận ra m ột phần cùa thực thể “Công ty Hợp tác lao động nước n g o à i” cũng có ý nghĩa, bởi thật khó để nhận đượ c thực thể này C húng tôi thử đánh giá lại ch ất lượng của hệ thống theo tiêu chí “ lỏng” hơn (lenient evaluation) Ket quả thu được n h ư sau:

16

Trang 22

Bảng 6.3 - Két quả nhận dạng trên tập kiểm tra với tiêu ch í “lỏng” ( lenient valu ation )

Số thực thể

Sô thực thể được nhận dạng

Sô thực thể được nhận đúng

từ điển, cải tiến bộ luật để sử dụng tốt hơn những yếu tố văn cảnh v v chúng tôi tin rằng hệ thống của chúng tôi sẽ là nền tàng để phát triển thành những hệ thống nhận dạng thực thể trong văn bản tiếng V iệt đạt hiệu quả cao

Bảng 6 4 - Kết quả thực nghiệm cùa m ột số hệ thống nhộn dạng thực th ể trong văn bàn tiếng Việt

Trang 23

7 K ế t lu ậ n

T rong nghiên cửu này, chúng tôi đã xây dựng được m ột hệ thống nhận dạng thực thể có tên trong văn bản tiếng V iệt đạt kết quả khá khả quan (82% ) Ngoài ra chúng tôi cũng đã xây dựng được m ột tập dữ liệu đã được gán nhãn chuẩn tiếng Việt và m ột tài liệu đĩnh nghĩa và phân loại các loại thực thể có tên T ất cả hệ thống và những tài liệu liên quan sê được mở cho cộng đồng sử dụng và phát triển

Ị rPỤN-V- U iu l IHQN G IIN ỉ H ự VIỆN

ị Ọ Ọ O ỷ O O O O O ± l

18

Trang 24

T à i liệu th a m k h ả o ■

1 Bikel, D., Miller, s., Schwartz, R., Weischedel, R.: A High- Perform ance L earning

Narae-finder Proceedings o f the Fifth Conference on Applied Natural Language Processing, pp 194-201 (1998)

2 Borthwick, A., Sterling, J., Agichtein, E., Grishman, R.: Exploiting Diverse Knowledge

Sources via Maximum Entropy in Named Entity Recognition Proceedings o f the

Sixth Workshop on Very Large Corpora, Montreal, Canada (1998)

3 Budi, I., Bressan, s.: Association Rules Mining for Name Entity Recognition Proceedings

o f the Fourth International Conference on Web Information Systems Engineering (2003)

4 Nguyen, V.T.T., Cao, T.H.: Automatic Extraction of Vietnamese Named-Entities on the

Web Proceedings o f the Journal o f New Generation Computing, Ohmsha, Ltd and Springer (2007)

5 Fang, X., Sheng, H.: A Hybrid Approach for Chinese Named Entity Recognition

Proceedings o f the Fifth International Conference on Discovery Science (2002)

6 Kim, J., Kang, I., Choi, K.: Unsupervised Named Entity Classification Models and their

Ensembles Proceedings o f the Nineteenth International Conference on Computational Linguistics (2002)

7 Mai, T D.: Named Entity Guideline for Vietnamese Bachelor thesis, College o f

Technology, Vietnam National University, Hanoi (2008)

8 Mansouri, A., Affendey, L., Mamat, A.: Named Entity Recognition Using a New Fuzzy

S u p p o rt V ector M achine Proceedings o f the International Journal o f Computer Science and Network Security, IJCSNS, vol 8, n 2, pg 320-325 (2008)

9 Maynard, D., Tablan, V., Ursu, c , Cunningham, H., Wilks, Y.: Named Entity Recognition

from Diverse Text Types Proceedings Recent Advances in Natural Language Processing

2001 Conference, Tzigov Chark, Bulgaria (2001)

10 Maynard, D., Bontcheva, K., Cunningham, H.: T ow ards a Sem antic Extraction of Named

Entities Proceedings Recent Advances in Natural Language Processing, Borovets, Bulgaria (2003)

11 Nguyen, T.C., Tran, O.T., Phan, H.X., Ha, T.Q.: Named Entity Recognition in Vietnamese

Free-Text and Web Documents Using Conditional Random Fields Proceedings o f the

Eighth Conference on Some Selection Problems of Information Technology and Telecommunication, Hai Phong, Viet Nam (2005)

19

Trang 25

12 Nguyen, T.P., Vu, L.X., Nguyen, Nguyen, H.V., Le, P.H.: Building a Large

Syntactically-A nnotated C orpus of Vietnamese Proceedings of the Third Linguistic Annotation Workshop (LAW) at ACL-IJCNLP 2009 (2009)

13 Pastra, K., Maynard, D., Hamza, o , Cunningham, H., Wilks, Y.: How Feasible is the Reuse

of G ra m m a rs for Named Entity Recognition? Proceedings o f the Conference on Language Resources and Evaluation (LREC’02) (2002)

14 Pham, T., Kawazoe, A., Dinh, D., Collier, N.: Construction of Vietnam ese C orpora for

Named Entity Recognition Conference RIA02007, Pittsburgh PA, U.S.A May 30-June

1, 2007 - Copyright C.I.D Paris, France (2007)

15 Pham, D.D., Tran, G.B., Pham, S.B.: Vietnamese Word Segmentation Using Part of

Speech Tags Proceedings o f the First International Conference on Knowledge and Systems Engineering, Hanoi, Vietnam (2009)

16 Srihari, R., Niu, c , Li, w.: A Hybrid Approach for Named Entity and Sub-Type

Tagging Proceedings o f the Sixth Conference on Applied Natural Language Processing

( 2000)

17 Wu, Y., Fan, T., Lee, Y., Yen, s.: E xtracting N am ed Entities Using Support V ector

M achines Proceedings o f the International Workshop on Knowledge Discovery in Life Science Literature (2006)

2 0

Trang 26

định sò 600/T C C B n ẹù v 01 thản% IU nám 2001 cua Đ ại học Oitôc g ia Hù i\'ội (ỊIII đình quyên hụii cua hiệu triĩưìĩ% c á c trirờiig đ ạ i học thành viên;

- Căn cứ Thông báo s o 1 9 7 Ì/T B -K H C N n g à v 03 thủng 6 năm 2009 cua G iám đ ố c Đ ạ i học Ouoc %ia

- Cân c ứ đế cư ơng nghiên cim cu a đ é tà i đ ã đư ợc ph ê duyệt.

Chúng tôi oồm:

Bên giao nhiệm vụ (gọi là bên A): T ru ô n g Đại học Công nghộ - Đ IIQ G 1 là Nội

Bên nhận nhiệm vụ (gọi là bên B)

Đơn vị cõna tác: Khoa Công nghệ Thông tin Trường Dại học Cỏni2 nghệ

Ký hợp dona thực hiện đề tài nghiên cứu khoa học cấp Dại học Ọuôc íiia Hà Nội"

Tên đè tài: "N hân dạng và phân loại các thực thê có tên cho tien« Việt

Mã số: QC.09.08

Với những điêu khoan thoa thuận như sau:

Điểu 1; Bên B chịu trách nhiệm tồ chức triền khai thực hiện các nội dune nghiên cửu của dề tài theo dúns liến độ thực hiện đã đăng ký trong đè cương nghiên cửu dã dược phê duyệt

Diêu 2: Bên B báo cáo kết quả thực hiện đề tài và giao nộp các sán phâm cua đê tái cho bôn

A theo đúng các qui định hiện hành của Đại học Quôc gia Hà Nội và cua Trườna Đại học Công nghệ trước nRày 20/06/2010, bao gồm:

- 01 báo cáo khoa học trình bày tại hội thảo quốc tế.

- 02 khỏa luận tốt nghiệp

- l ồng quan vê đê tài kèm theo file điện tử ('Một ban bắng liêng Việt, mộl Dan bàngtiếng Anh Highlight; mồi bán dài khoane 400 từ trên một trang giây khô A4 font Time New Roman, cỡ chữ 13pt cách dòng đơn; Nội duna: Tóm tai mục tiêu, plurơnỵ pháp và nội dung nghiên cứu kết quá đạt được, đánh £Ìá ỷ nghĩa và tác dỏng khoahọc công nghệ của các kết quà đạt dược cĩing nhu cùa việc thực hiện đe tài)

Trang 27

Dieu 3: Tone kinh phi cua đẽ tài đâ được phê duyệt là: 30.000.000 đòna

(B ủ n g chừ : B a m ư ơ i tr iệ u đ ô n g chăn.)

Chi phí cụ thể như trong dự toán của bản dụ trù kinh phí

Diêu 4: Bèn B có trách nhiệm sứ dụng kinh phí được câp theo đúns mục đich đúng chế độ tài chính hiện hành, quyết toán với phòng Tài vụ - Ke toán và thực hiện việc nghiệm thu đê tài theo đúng qui định cua Đại học Quốc 2Ía Hà Nội

Điều 5 : Bên A giữ quyền sờ hữu trí tuệ đối với các kết quá khoa học của đề tài Tất ca các cônạ bố liên quan đến nội dung khoa học của đề tải phải ghi rõ nguồn tài trợ kinh phi nghiên cừu theo mã số cúa đề tài như sau:

- Dối'với bài báo báo cáo khoa học: “Còng trinh này được tài trợ một phân từ đề tài mang m ã số: QC.09.08, Đại học Quốc gia Hà Nội"

- Đối với luận văn (khóa luận ): “Luận văn (khóa luận ) này được thực hiện trong khuôn khổ đề tài mang mã số: QC.09.08 Đại học Quốc gia Hà Nội

- Đối với bài báo báo cáo đãng ở tạp chi kv yếu hội nghị quốc tế {tiếng Anh): "This work is (partly) supported by the research project No QC.09.08 aranted by Vietnam

National University Hanoi"

JDieu 6: Hai bên cam kết thực hiện đúng các điều khoán đã ghi trono hợp đồng Trong quá trình tlụrc hiện hợp đồng, hai bên có trách nhiệm thông báo kịp thời cho nhau những vấn đề vưởng mac và cùng nhau bàn bạc, tích cực tìm biện pháp giai quyết Hợp đồng tự động dược thanh lý sau khi có biên bàn họp hội đông khoa học đánh giá nghiệm thu đề tái vói kết qua đáp ímg các qui định hiện hành

Diều 7: H ạp đồn« làm thành 05 bàn, mỗi bên giữ 01 bản 02 bán gửi cho phòng TV-KT, 01 han lưu tại phòng TC-HC

DẠI DIỆN BÊN B

Trang 28

ĐẠI H Ọ C Q U Ố C G IẠ H À N Ộ I CỘNG HÒA XÃ HỘI CHÌ' NGHĨA M Ệ T NAMTRUỜNG ĐẠI HỌC CÓNG NGHỆ Ị ) ộ c Ịập _ 7ự do - H ạ n h p h ú c

■Tiếng Việt: N hận dạng và phân loại các thực thể có tên cho tiếng Việt.

T iê n g A n h : N a m e d E n tite s R ec o g n itio n f o r Vietnam ese.

2 T h ờ i gian th ự c hiện: 12 tháng (từ tháng 03/2009 đến tháne 03/2010)

3 Đề tài th u ộ c lĩnh vực ưu tiên: Công nghệ thông tin - hướng: X ử lý ngôn n<?ĩr tự nhiên

4 T ín h độc đáo (originality) cùa đề tài: Đề tài c trùng lặp với một đề tài hoặc một nội dung nghiên cứu đã hoặc đang thực hiện khônóg? Nếu có, cần giải thích rõ sự trùng lặp và sự khác biệt; Giải thích lý do cần đăng ký thực hiện đề tài

Không

5 T h ô n g tin về chủ nhiệm đề tài:

- Ngành, chuyển ngành đào tạo: Công nghệ thông tin

- H ọc hàm, học vị: Tiến sỳ

- Chức danh: G iảng viên

- Đơn vị công tác (Khoa, Trung tăm): Khoa Cóng nghệ thông tin

- Địa chi liên hệ: E3, ì 44 Xuân Thủy, Hà Nội

Số Fax:

S ố điện th oại: C ơ quan: 7547812; N hà riên g: 7164559 ; D i động: 0 9 3 6413663

- Tóm tắt hoại động nghiên cíni của chủ nhiệm để tài:

(Các chương trình, đề tài K H C N đã chủ trì, tham gia thực hiện, các cóng trình đã công bô gân đây liên quan lới hướng nghiên cứu của để tài, liệt kẻ theo bàng dưới đây)

Thời eian Tên đê tài/công trình Tư cách tham aia Cấp quàn lý/Nơi công bố

2006

Effective Knowledge Acquisition fo r Extracting Temporal Relations

Tác già chính

2006 European Conference on Artificial Intelligence (ECAI), Italy.

6 C ơ quan phối họp và các cộng tác viên chính của đề tài

• Các cơ quan phổi hợp chính

Trang 29

1T Tên địa chì cỡ-quar: phó: hợp

Cơ quan công tác

7 M ục tiêu của đề tài:

M ục tiêu của đề tài là xây dựng kho ngữ liệu gán nhãn và phân loại các cụm thực thétên riêng cho văn bản tiếng Việt từ đó phát triển công cụ để tự động nhận dạng và phânloại tên riêng cho các văn bàn tiếng Việt

8 Tóm tất nội dung nghiên cứu của đề tài:

Bài toán nhận dạng và phân loại tên riêng là một bài toán rất quan trọng trons lĩnh vực

xừ lý ngôn ngừ tự nhiên và được rât nhiều nhóm nghiên cứu lớn trên thế giới quan tâm Đây cũng là một bước quan trọng đê có thể xây dựng các hệ thống Information Extraction, Information Retrieval hay Question Answering hiệu quà Đặc biệt nhận dạng và phàn loại tên riêng đóng vai trò quan rrọng trong các hệ thống dịch tự động Tầm quan trọng của vấn để này được thể hiện bằng việc có nhiều hội thảo và các cuộc thi quốc tế chi tập trung vào Named Entities recognition

Tuy nhiên, đa số các nghiên cứu cũng như các kho ngữ liệu dành cho việc nhận dạng

và phân loại tên riêng chỉ có cho tiếng Anh và các ngôn ngữ quốc tế thông dụng Đối với tiếng Việt, đây còn là một vấn đề mới mẻ, chưa có nhiều nghiên cửu

Đê tài này sẽ tập trung xây dựng kho ngừ liệu gán nhãn củng với các phương pháp đê

có thể quản lý được chất lượng của kho ngữ liệu Tiếp dếr đề tài sẽ tập trung nghiên cứu nhằm xây dựng các công cụ để nhận dạng và phân loại tên riêng một cách tự động cho vãn bàn tiếng Việt

9 C ác chuyên đề nghiên cứu d ự kiến của đề tài

• X ây dựng kho ngữ liệu có gán nhãn phân loại tên riêng

• Nghiên cửu các phương pháp quản lý chất lượng cùa việc xây dụng kho ngữ liệu

Trang 30

• Nghiên cửu các phương pháp nhận dạng vả phân loại tự độne các cụm tén riêng.

10 Cấu trúc d ự kiến báo cáo kết quả của đề tài (chi tiết hoá các chươns mục):

• Chương 1: Giới thiệu chung về nhận dạng và phân loại tên riêng

• Chương 2: Xáy dựng kho ngữ liệu gán nhãn các loại tên riêng

• Chương 3: Nhận dạng và phân loại tên riêng dùne phương pháp học máy

• Chương 4: Nhận dạng và phân loại tên riêng dùng phương pháp viết luật

• Chương 5: Kết luận

11 Tính đa ngành và liên ngành cùa đề tài:

- Đe tài thuộc và liên quan đến ngành/chuyên nsành nào?

Ngành Công nghệ thông tin, chuyên ngành xừ ]v ngôn ngữ tự nhiên

- Tính đa/liên ngành thể hiện như thế nào trong nội dung và quá trình triển khai thực hiện của đề tài?

- Đề tài được thực hiện trong nhóm nghiên cứu nào, theo hướng nghiên cứu cụ thể nào Trong định hướng nahiên cứu chung của bộ môn/khoa/trường?

12 Phương p h áp luận và p h ư ơ n g pháp khoa học sử dụng tro n g đề tài:

Phương pháp tư duy tồng họp về logic, các thuật toán để nghiên círu giải quyết các vấn

đe nêu ra X ây dựng kho neữ liệu có eán nhãn các văn bản tiếng Việt Tổ chức seminar chuyên đề và tham gia hội nghị, hội thảo đề trao đổi ý tưỏng, kết quà khoa học

13 T ran g thiết bị, phương tiện nghiên cứu được sử dụng:

01 m áy tính

14 K hả năng hợp tác quốc tế

- Quan hệ và nội dung hợp tác đâ/đang thực hiện (ghi rõ tên tổ chức và lĩnh vựchợp tác, nội dung nghiên cứu, kết quá hợp tác về nghiên cứu đào tạo đã đạtđược, đặc biệt các quan hệ họp tác liên quan đến lĩnh vực và nội đunạ nghiên cứu của đề tài):

- Quan hệ hợp tác dự kiến sẽ được thiết lập trong khi thực hiện đê tài (tên tổ chức

và lĩnh vực, nội dunạ dự kiến họp tác):

15 Các hoạt động nghiên cứu của đê tài

- Thiết kế, xây dựng thí nghiệm ♦

- Thực hiện thí nghiệm, đo đạc ♦

- Tổ chức, tham gia hội thào khoa học ♦

Ngày đăng: 19/03/2015, 09:30

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w