Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 765 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
765
Dung lượng
30,86 MB
Nội dung
BỘ KHOA HỌC VÀ CÔNG NGHỆ TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN CHƢƠNG TRÌNH KHCN CẤP NHÀ NƢỚC KC01 BÁO CÁO TỔNG HỢP KẾT QUẢ KHOA HỌC CÔNG NGHỆ ĐỀ TÀI/DỰ ÁN NGHIÊNCỨU,XÂYDỰNGMỘTSỐHỆTHỐNGKHAITHÁCTHÔNGTINĐA PHƢƠNG TIỆNCÓHỖTRỢTIẾNGVIỆT KC01.16/06-10 Cơ quan chủ trì đề tài : Trƣờng ĐH Khoa học Tự nhiên TP.HCM Chủ nhiệm đề tài : PGS.TS. Dƣơng Anh Đức TP.HCM 12 - 2010 BỘ KHOA HỌC VÀ CÔNG NGHỆ TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN CHƢƠNG TRÌNH KHCN CẤP NHÀ NƢỚC KC01 BÁO CÁO TỔNG HỢP KẾT QUẢ KHOA HỌC CÔNG NGHỆ ĐỀ TÀI/DỰ ÁN NGHIÊNCỨU,XÂYDỰNGMỘTSỐHỆTHỐNGKHAITHÁCTHÔNGTINĐA PHƢƠNG TIỆNCÓHỖTRỢTIẾNGVIỆT KC01.16/06-10 Chủ nhiệm đề tài/dự án Cơ quan chủ trì đề tài/dự án: (ký tên) (ký tên và đóng dấu) PGS.TS Dƣơng Anh Đức TS. Lâm Quang Vinh TP.HCM 12 - 2010 Trang: 3 MỤC LỤC BÁO CÁO THỐNG KÊ 8 I. THÔNGTIN CHUNG 8 Tên đề tài/dự án: 8 Mã số đề tài, dự án: KC01.16/06-2010 8 Chủ nhiệm đề tài/dự án: 8 Tổ chức chủ trì đề tài/dự án: 8 II. TÌNH HÌNH THỰC HIỆN 9 Thời gian thực hiện đề tài/dự án: 9 Kinh phí và sử dụng kinh phí: 9 Các văn bản hành chính trong quá trình thực hiện đề tài/dự án: 10 (1) (Liệt kê các quyết định, văn bản của cơ quan quản lý từ công đoạn xác định nhiệm vụ, xét chọn, phê duyệt kinh phí, hợp đồng, điều chỉnh (thời gian, nội dung, kinh phí thực hiện nếu có); văn bản của tổ chức chủ trì đề tài, dự án (đơn, kiến nghị điều chỉnh nếu có) 10 Tổ chức phối hợp thực hiện đề tài, dự án: 10 Cá nhân tham gia thực hiện đề tài, dự án: 10 Tình hình hợp tác quốc tế: 11 Tình hình tổ chức hội thảo, hội nghị: 11 Tóm tắt các nội dung, công việc chủ yếu: 11 III. SẢN PHẨM KH&CN CỦA ĐỀ TÀI, DỰ ÁN 20 Sản phẩm KH&CN đã tạo ra: 20 Đánh giá về hiệu quả do đề tài, dự án mang lại: 26 Tình hình thực hiện chế độ báo cáo, kiểm tra của đề tài, dự án: 27 CHƢƠNG 1. TỔNG QUAN VỀ ĐỀ TÀI 3 CHƢƠNG 2. TÓM TẮT KẾT QUẢ ĐẠT ĐƢỢC 3 Trang: 4 2.1. NHÁNH A: HỆTHỐNG TRUY VẤN THÔNGTIN VĂN BẢN HƯỚNG NGỮ NGHĨA 35 2.1.1. Đây là một nhánh đề tài thực hiện nghiên cứu về xâydựnghệthốngkhaithácthôngtin hƣớng ngữ nghĩa trong văn bản tiếng Việt. 35 2.1.2. Trang thôngtin giới thiệu đề tài http://nlp.hcmut.edu.vn/KC01.htm 35 2.1.3. Nghiên cứu và xâydựnghệthốngkhaithácthôngtin hƣớng ngữ nghĩa gồm: 35 2.1.3.1. Phân hệ 1: Hệthống truy vấn thôngtin hƣớng đến ngữ nghĩa (VIRS). 35 2.1.3.1.1. http://nlp.hcmut.edu.vn/vietirs/virs/clir_default.aspx 35 2.1.3.1.2. http://nlp.hcmut.edu.vn/vietirs/virs/sir_default.aspx 35 2.1.3.2. Phân hệ 2: Hệthống hỏi đáp hƣớng đến ngữ nghĩa (VQAS) 35 2.1.3.2.1. http://nlp.hcmut.edu.vn/vietirs/vqas/default.aspx 35 2.1.3.3. Phân hệ 3: Cơsở tri thức tiếngViệt (VKB) để phục vụ việc hiện thực hệthống VIRS và VQAS 35 2.1.4. Nhóm nghiên cứu 35 2.1.5. Sản phẩm đăng ký và đạt đƣợc 36 2.1.5.1. Sản phẩm 1: 36 2.1.5.2. Sản phẩm 2: 36 2.1.5.3. Sản phẩm 3: 36 2.1.5.4. Đăng ký bằng độc quyền giải pháp hữu ích: 37 2.1.5.5. Bài báo: 37 2.1.5.6. Đào tạo: 38 2.1.6. Kết quả chi tiết của các sản phẩm đạt đƣợc: 38 2.1.6.1. Phƣơng pháp đánh giá kết quả 38 2.1.6.2. Chƣơng trình máy tính: Hệthống truy vấn thôngtin hƣớng đến ngữ nghĩa (VIRS) 38 2.1.6.2.1. [A] Tiền xử lý truy vấn tiếngViệt đầu vào để phục vụ khaithácthôngtin văn bản và khaithácthôngtin video. 38 Trang: 5 2.1.6.2.2. [B] Truy vấn thôngtin (dạng tiếng Anh, hay dạng tiếngViệt theo cách so trùng từ chính xác) trên Internet (Web) bởi kết hợp với một động cơ tìm kiếm thôngtin sẵn có trên Internet (Google, Yahoo…). Đầu vào là truy vấn tiếngViệt của ngƣời dùng dạng câu đơn/cụm danh từ đơn/từ khóa đơn. Đầu ra là danh mục các kết quả cần tìm trả về bởi công cụ tìm kiếm thôngtinđã dùng. 39 2.1.6.2.3. [C] Truy vấn thôngtin (tiếng Anh) trên kho tài liệu tiếng Anh xác định trƣớc (các bài báo khoa học có cấu trúc quy ƣớc). Đầu vào là truy vấn tiếng Anh của ngƣời dùng dạng cụm danh từ đơn/từ khóa đơn. Đầu ra là danh mục tài liệu tiếng Anh tìm đƣợc 41 2.1.6.3. Chƣơng trình máy tính: Hệthống hỏi đáp hƣớng đến ngữ nghĩa (VQAS) 42 2.1.6.4. Chƣơng trình máy tính: Cơsở tri thức tiếngViệt (VKB) để phục vụ việc hiện thực hệthống VIRS và VQAS 43 2.1.6.4.1. Huấn luyện VKB từ kho dữ liệu các bài báo khoa học ACM, Science-Direct, IEEE, Springer-Velag – 31.679 bài báo (tổng dung lƣợng 149MB) và danh mục sách từ thƣ viện Đại học Bách khoa TpHCM với kết quả chi tiết: 43 2.1.6.4.2. VKB – Tổ chức & số lƣợng 43 2.1.6.4.3. Khaithác VKB để phục vụ hệthống VIRS 44 2.1.6.4.4. Khaithác VKB để phục vụ hệthống VQAS 45 2.1.7. Hƣớng dẫn ngƣời dùng 46 2.1.7.1. Chƣơng trình máy tính: Hệthống truy vấn thôngtin hƣớng ngữ nghĩa (VIRS) 46 2.1.7.1.1. Mô-đun: Chƣơng trình tìm kiếm thôngtin bài báo khoa học 46 2.1.7.1.2. Mô-đun: Chƣơng trình truy xuất thôngtin xuyên ngôn ngữ 52 2.1.7.2. Chƣơng trình máy tính: Hệthống hỏi đáp thôngtin hƣớng ngã nghĩa (VIRS) 56 2.2. NHÁNH B: HỆTHỐNGKHAITHÁCTHÔNGTIN VIDEO 62 Trang: 6 2.2.1. Tóm tắt kết quả đạt đƣợc nhánh đề tài hệthốngkhaithácthongtin video hƣớng ngữ nghĩa 62 2.2.1.1. Giới thiệu đề tài 62 2.2.1.2. Sản phẩm đăng ký 63 2.2.1.3. Sản phẩm hoàn thành 64 2.2.1.3.1. Mƣời bảy báo cáo chi tiết các chuyên đề 65 2.2.1.3.2. Báo cáo tổng hợp về đề tài 66 2.2.1.3.3. Chƣơng trình SEClassification 67 2.2.1.3.4. Chƣơng trình SERetrieval 67 2.2.1.3.5. Chƣơng trình SESummarization 68 2.2.1.3.6. Hai bài báo khoa học 69 2.2.1.4. Hƣớng dẫn ngƣời dùng 69 2.2.1.4.1. Phần mềm SEClassification 69 2.2.1.4.2. Phần mềm SESummarization 74 2.2.1.4.3. Phần mềm SERetrieval 78 2.2.2. Tóm tắt kết quả đạt đƣợc của nhánh đề tài xâydựnghệthống truy vấn video dựa vào văn bản trích 80 2.2.2.1. Tổng quan 80 2.2.2.2. Sản phẩm đã đăng ký và kết quả đạt đƣợc 80 2.2.2.2.1. Sản phẩm phần mềm 80 2.2.2.2.2. Tài liệu kỹ thuật và bài báo khoa học 82 2.2.2.3. Kết luận 83 2.2.2.4. Hƣớng dẫn ngƣời dung 83 2.2.2.4.1. Giao diện chính của chƣơng trình: 84 2.2.2.4.2. Tab “Video” 84 2.2.2.4.3. Tab “News” 85 2.2.2.4.4. Tab “Voice” 85 2.2.2.4.5. Tab “Video_Emotion” 87 2.2.3. Tóm tắt kết quả đạt đƣợc của nhánh đề tài hệthống truy vấn chuyển động 87 Trang: 7 2.2.3.1. Tổng quan 87 2.2.3.2. Các sản phẩm đã đăng ký và đã đạt đƣợc 88 2.2.3.2.1. Sản phẩm phần mềm 88 2.2.3.2.2. Tài liệu kỹ thuật và bài báo khoa học 90 2.2.3.3. Mộtsố kết quả mở rộng khác 91 2.2.3.4. Kết luận 92 2.2.3.5. Hƣớng dẫn ngƣời dùng 93 2.2.3.5.1. Theo vết đơn đối tƣợng trong video thể thao (single object tracking): 93 2.2.3.5.2. Phát hiện cầu thủ trên sân bóng đá (multi-player detection): 94 2.2.3.5.3. Theo vết cầu thủ trên sân bóng đá (multi-player tracking): 96 Trang: 8 ĐẠI HỌC QUỐC GIA TP.HCM TRƢỜNG ĐH KHOA HỌC TỰ NHIÊN __________________ CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc TP.HCM, ngày 8 tháng 12 năm 2010 BÁO CÁO THỐNG KÊ KẾT QUẢ THỰC HIỆN ĐỀ TÀI/DỰ ÁN SXTN I. THÔNGTIN CHUNG Tên đề tài/dự án: Mã số đề tài, dự án: KC01.16/06-2010 Thuộc: - Chƣơng trình (tên, mã số chƣơng trình): Nghiêncứu, phát triển và ứng dụng Công nghệ Thôngtin & Truyền thông, KC01. - Dự án khoa học và công nghệ (tên dự án): Nghiêncứu,xâydựngmộtsốhệthốngkhaithácthôngtinđa phƣơng tiệncóhỗtrợtiếng Việt. - Độc lập (tên lĩnh vực KHCN): Chủ nhiệm đề tài/dự án: Họ và tên: Dƣơng Anh Đức Ngày, tháng, năm sinh: 24/08/1968 Nam/ Nữ: Nam Học hàm, học vị: PGS.TS Chức danh khoa học: Chức vụ: Phó Hiệu trƣởng Điện thoại: Tổ chức: 38355269 Nhà riêng: Mobile: 0903937827 Fax: 38350096 E-mail: daduc@hcmus.edu.vn Tên tổ chức đang công tác: Trƣờng ĐH Khoa học Tự nhiên TP.HCM Địa chỉ tổ chức: 227 Nguyễn Văn Cừ, Quận 5. Địa chỉ nhà riêng: 68/10B Trần Quang Khải, P. Tân Định, Q. 1 Tổ chức chủ trì đề tài/dự án: Tên tổ chức chủ trì đề tài: Trƣờng ĐH Khoa học Tự nhiên TP.HCM Điện thoại: 38353193 Fax: 38350096 E-mail: Trang: 9 Website: www.hcmus.edu.vn Địa chỉ: 227Nguyễn Văn Cừ, Quận 5. Họ và tên thủ trƣởng tổ chức: Dƣơng Ái Phƣơng Số tài khoản: 931.01.05.00005, Trƣờng ĐH Khoa học tự nhiên Tại: Kho bạc Nhà nƣớc quận 5, TP.HCM Tên cơ quan chủ quản đề tài: Đại học Quốc gia TP.Hồ Chí Minh II. TÌNH HÌNH THỰC HIỆN Thời gian thực hiện đề tài/dự án: - Theo Hợp đồng đã ký kết: từ tháng 01/2009 đến tháng 12/ 2010 - Thực tế thực hiện: từ tháng 01/2009 đến tháng 12/2010 - Đƣợc gia hạn (nếu có): không Kinh phí và sử dụng kinh phí: a) Tổng số kinh phí thực hiện: 2300 tr.đ, trong đó: + Kính phí hỗtrợ từ SNKH: 2300 tr.đ. + Kinh phí từ các nguồn khác: 0 tr.đ. + Tỷ lệ và kinh phí thu hồi đối với dự án (nếu có): b) Tình hình cấp và sử dụng kinh phí từ nguồn SNKH: Số TT Theo kế hoạch Thực tế đạt được Ghi chú (Số đề nghị quyết toán) Thời gian (Tháng, năm) Kinh phí (Tr.đ) Thời gian (Tháng, năm) Kinh phí (Tr.đ) 1 03/2009 840 840 840 2 10/2009 360 360 360 3 03/2010 770 770 770 4 10/2010 330 330 330 c) Kết quả sử dụng kinh phí theo các khoản chi: Đối với đề tài: Đơn vị tính: Triệu đồng Số TT Nội dung các khoản chi Theo kế hoạch Thực tế đạt được Tổng SNKH Nguồn khác Tổng SNKH Nguồn khác 1 Trả công lao động (khoa học, phổ thông) 1870 1870 1870 1870 2 Nguyên, vật liệu, 50 50 50 50 Trang: 10 năng lƣợng 3 Thiết bị, máy móc 40 40 40 40 4 Xây dựng, sửa chữa nhỏ 5 Chi khác 340 340 280 280 Tổng cộng 2300 2300 2240 2240 - Lý do thay đổi (nếu có): Các văn bản hành chính trong quá trình thực hiện đề tài/dự án: (1) (Liệt kê các quyết định, văn bản của cơ quan quản lý từ công đoạn xác định nhiệm vụ, xét chọn, phê duyệt kinh phí, hợp đồng, điều chỉnh (thời gian, nội dung, kinh phí thực hiện nếu có); văn bản của tổ chức chủ trì đề tài, dự án (đơn, kiến nghị điều chỉnh nếu có) Số TT Số, thời gian ban hành văn bản Tên văn bản Ghi chú 1 2 … Tổ chức phối hợp thực hiện đề tài, dự án: Số TT Tên tổ chức đăng ký theo Thuyết minh Tên tổ chức đã tham gia thực hiện Nội dung tham gia chủ yếu Sản phẩm chủ yếu đạt được Ghi chú* 1 Trƣờng ĐH Bách Khoa TP.HCM Trƣờng ĐH Bách Khoa TP.HCM Theo thuyết minh Theo thuyết minh - Lý do thay đổi (nếu có): Cá nhân tham gia thực hiện đề tài, dự án: (Ngƣời tham gia thực hiện đề tài thuộc tổ chức chủ trì và cơ quan phối hợp, không quá 10 ngƣời kể cả chủ nhiệm) Số TT Tên cá nhân đăng ký theo Thuyết minh Tên cá nhân đã tham gia thực hiện Nội dung tham gia chính Sản phẩm chủ yếu đạt được Ghi chú* 1 Dƣơng Anh Đức Dƣơng Anh Đức Theo thuyết minh Theo thuyết minh 2 Phan Thị Tƣơi Phan Thị Tƣơi _nt_ _nt_ 3 Ng. Chán Thành Ng Chánh Thành _nt_ _nt_ [...]... Sơ đồ Hệthống truy vấn thôngtinđa phƣơng tiện (mức ngữ nghĩa) Truy vấn tiếngViệt Bộ xử lý truy vấn Hệthống truy vấn thôngtin văn bản (VIRS, VAQS) VKB HệthốngkhaithácthôngtinđaphươngtiệncóhỗtrợtiếngViệtHệthống truy vấn thôngtin video dựa trên ngữ nghĩa Kết quả Hình 2: (b) Sơ đồ Hệthống truy vấn thôngtinđa phƣơng tiện (mức kết hợp) Trang: 32 Chúng ta thử hình dung trong một tƣơng... 2.1 NHÁNH A: HỆTHỐNG TRUY VẤN THÔNGTIN VĂN BẢN HƯỚNG NGỮ NGHĨA 2.1.1 Đây là một nhánh đề tài thực hiện nghiên cứu về xâydựnghệthốngkhaithácthôngtin hướng ngữ nghĩa trong văn bản tiếngViệt 2.1.2 Trang thôngtin giới thiệu đề tài http://nlp.hcmut.edu.vn/KC01.htm 2.1.3 Nghiên cứu và xây dựnghệthống khai thácthôngtin hướng ngữ nghĩa gồm: 2.1.3.1 Phân hệ 1: Hệthống truy vấn thôngtin hƣớng đến... thức tiếngViệt (VKB) nhằm hỗtrợ truy xuất thôngtin hƣớng đến ngữ nghĩa và Trang: 35 triển khai ứng dụng trong các lĩnh vực có liên quan - Thiết kế và xâydựnghệthống con VIRS Nguyễn Quang Châu, NCS ĐH CN Tp.HCM - Thiết kế và xâydựng mô hình hệthống truy vấn thôngtin hƣớng đến ngữ nghĩa hỗtrợtiếngViệt (VietSIRS) - Xâydựngcơsở tri thức tiếngViệt (VKB) nhằm hỗtrợ truy xuất thôngtin hƣớng... ở trên, có thể nói, nghiên cứu và xây dựnghệthống truy vấn thôngtinđa phƣơng tiện là đồng thời thực hiện các nghiên cứu về: Trang: 30 - Xây dựnghệthống truy vấn thôngtin văn bản dựa trên ngữ nghĩa, lấy đó làm làm nền tảng làm khung sƣờn cho các hệthống khác - Xây dựnghệthống truy vấn thôngtin video (hình ảnh, âm thanh, chuyển động) ở mức ngữ nghĩa, bao gồm hai tác vụ chính là xâydựng mô... các nghiên cứu để xây dựng: - Hệthống truy xuất thôngtin Anh -Việt trực tuyến (VIRS); - Hệthống hỏi đáp tiếngViệt trực tuyến (Question - Answerring, VQAS); - Cơsở tri thức tiếngViệt (VKB) Nhánh thứ hai bao gồm các nghiên cứu để xây dựng: Hệthống truy vấn thôngtin video dựa trên ngữ nghĩa, có khả năng kết hợp thôngtin văn bản, âm thanh, hình ảnh, chuyển động để nâng cao hiệu quả tìm kiếm Hệ thống. .. khi truy vấn mộtthôngtin nào đấy, bên cạnh văn bản kết quả về thôngtin đó, còn có thể có đoạn video liên quan với những hình ảnh và âm thanh đi kèm Con ngƣời có thể cảm thụ đƣợc thôngtin tìm đƣợc với thị giác, thính giác và lý trí Các nội dungnghiên cứu của đề tài do vậy cũng đƣợc triển khai bao gồm hai nhánh chính: - Hệthốngkhaithácthôngtin văn bản - Hệthốngkhaithácthôngtin video Nhánh... gia vấn thôngtin hƣớng đến ngữ nghĩa hỗtrợtiếngViệt (VietSIRS) gồm hệthống con VIRS và VQAS -Chủ trì thực hiện đề tài nhánh Nguyễn Dân, GS.TS Đức ĐH KHXH&NV Nghiên cứu thẩm định các giải pháp và chuẩn dữ liệu liên quan tiếngViệt Tp.HCM Nguyễn Chánh ĐHBK - Thiết kế và xâydựng mô hình hệthống truy vấn Thành, thôngtin hƣớng đến ngữ nghĩa hỗtrợtiếngViệt ThS.NCS Tp.HCM (VietSIRS) - Xâydựng cơ... Dạng I: không có b) Sản phẩm Dạng II: Số TT Tên sản phẩm Yêu cầu khoa học cần đạt Theo kế hoạch Trang: 20 Ghi chú Thực tế đạt đƣợc A HỆTHỐNGKHAITHÁCTHÔNGTIN VĂN BẢN HƢỚNG NGỮ NGHĨA 1 Chƣơng trình VIRS thực hiện các chức năng máy tính: Hệ sau: thống truy [A] Tiền xử lý truy vấn tiếng vấn thôngtinViệt đầu vào để phục vụ khai hƣớng đến thácthôngtin văn bản và khai ngữ nghĩa thácthôngtin video (VIRS)... phƣơng thức khaitháccơsở tri thức tiếngViệt phục vụ hệthống VIRS và VQAS -Hiện thực các giải pháp kỹ thuật khaithác dữ liệu VKB và thử nghiệm 1.4 BÁO CÁO NGHIỆM THU Đề TÀI LIÊN QUAN ĐẾN HỆTHỐNG TRUY VẤN THÔNGTIN VĂN BẢN HƢỚNG NGỮ NGHĨA 9/201012/2010 ĐHBK (P.T.Tƣơi, N.C.Thành, N.Q.Châu) ĐH Cần Thơ (P.P.Lan) ĐH XHNV (N.Đ.Dân) B HỆTHỐNGKHAITHÁCTHÔNGTIN VIDEO B1 Hệthống truy vấn thôngtin video... và triển khai ứng dụng trong các lĩnh vực có liên quan - Thiết kế và xây dựnghệthống con VQAS Phan Phƣơng Lan, ThS Thay đổi bằng ThS.Vũ Chí Hiếu ThS.Huỳnh Thị Ngọc Thúy ĐH Cần Thơ - Xâydựngcơsở tri thức tiếngViệt (VKB) nhằm hỗtrợ truy xuất thôngtin hƣớng đến ngữ nghĩa và triển khai ứng dụng trong các lĩnh vực có liên quan - Nghiên cứu khả năng ứng dụngtiếngViệt của các công nghệ hỗtrợ (GATE, . mã số chƣơng trình): Nghiên cứu, phát triển và ứng dụng Công nghệ Thông tin & Truyền thông, KC01. - Dự án khoa học và công nghệ (tên dự án): Nghiên cứu, xây dựng một số hệ thống khai thác. A: HỆ THỐNG TRUY VẤN THÔNG TIN VĂN BẢN HƯỚNG NGỮ NGHĨA 35 2.1.1. Đây là một nhánh đề tài thực hiện nghiên cứu về xây dựng hệ thống khai thác thông tin hƣớng ngữ nghĩa trong văn bản tiếng Việt. . Hệ thống hỏi đáp thông tin hƣớng ngã nghĩa (VIRS) 56 2.2. NHÁNH B: HỆ THỐNG KHAI THÁC THÔNG TIN VIDEO 62 Trang: 6 2.2.1. Tóm tắt kết quả đạt đƣợc nhánh đề tài hệ thống khai thác thong tin