Xây dựng tự động cơ sở dữ liệu về cộng đồng nghiên cứu công nghệ thông tin Xây dựng tự động cơ sở dữ liệu về cộng đồng nghiên cứu công nghệ thông tin Xây dựng tự động cơ sở dữ liệu về cộng đồng nghiên cứu công nghệ thông tin luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ĐỖ BÁ LÂM Đỗ Bá Lâm CÔNG NGHỆ THÔNG TIN XÂY DỰNG TỰ ĐỘNG CƠ SỞ DỮ LIỆU VỀ CỘNG ĐỒNG NGHIÊN CỨU CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SĨ KHOA HỌC CƠNG NGHỆ THƠNG TIN KHĨA 2010 Hà Nội – 2011 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Đỗ Bá Lâm XÂY DỰNG TỰ ĐỘNG CƠ SỞ DỮ LIỆU VỀ CỘNG ĐỒNG NGHIÊN CỨU CÔNG NGHỆ THÔNG TIN Chuyên ngành : CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SĨ KHOA HỌC CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC : TS Lê Thanh Hương Hà Nội – 2011 MỤC LỤC Lời cam đoan iv Lời cảm ơn v Danh mục kí hiệu, chữ viết tắt vi Danh mục hình vẽ .vii Danh mục bảng ix I MỞ ĐẦU I.1 Lý chọn đề tài I.2 Lịch sử nghiên cứu I.3 Mục đích nghiên cứu luận văn, đối tƣợng, phạm vi nghiên cứu I.4 Tóm tắt đọng luận điểm đóng góp tác giả I.5 Phƣơng pháp nghiên cứu II NỘI DUNG CHƢƠNG TỔNG QUAN VỀ BÀI TOÁN TRÍCH RÚT THƠNG TIN 1.1 Giới thiệu chung 1.1.1 Các ứng dụng 1.1.2 Phân loại tốn trích rút thơng tin 1.1.3 Các thách thức 13 1.2 Trích rút thực thể: phƣơng pháp dựa luật 15 1.2.1 Cách biểu diễn luật 15 1.2.2 Tổ chức tập luật 19 i 1.3 Trích rút thực thể: phƣơng pháp thống kê 20 1.3.1 Các mơ hình mức token 21 1.3.2 Các mơ hình mức phân đoạn 23 1.3.3 Các mơ hình dựa văn phạm 23 1.4 Trích rút quan hệ 25 1.4.1 Dự đoán quan hệ cặp thực thể đƣợc đƣa 26 1.4.2 Trích rút cặp thực thể cho loại quan hệ đƣa 29 CHƢƠNG XÂY DỰNG CƠ SỞ DỮ LIỆU VỀ CỘNG ĐỒNG NGHIÊN CỨU CNTT 34 2.1 Tìm hiểu hệ thống ArnetMiner 34 2.2 Tìm hiểu hệ thống CiteSeerX 39 2.3 Tìm hiểu hệ thống DBLP 43 2.4 Cơ sở lý thuyết xây dựng hệ thống ITVN 47 2.4.1 Gán nhãn liệu 48 2.4.2 Giải trùng lặp tên file cá nhân 58 2.4.3 Cập nhật liệu từ file gán nhãn 61 2.4.4 Cập nhật liệu từ hệ thống DBLP 62 CHƢƠNG CÀI ĐẶT VÀ THỬ NGHIỆM 65 3.1 Kiến trúc chung hệ thống 65 3.2 Thu thập liệu 66 3.3 Gán nhãn liệu 67 3.4 Cập nhật liệu 82 ii III KẾT LUẬN 85 III.1 Kết luận chung 85 III.1.1 Đóng góp luận văn 85 III.1.2 Những hạn chế 85 III.2 Hƣớng phát triển 86 TÀI LIỆU THAM KHẢO 87 iii Lời cam đoan Tôi – Đỗ Bá Lâm – cam kết Luận văn tốt nghiệp Cao học cơng trình nghiên cứu thân tơi, dƣới hƣớng dẫn TS Lê Thanh Hương Các kết nêu luận văn trung thực, chép tồn văn cơng trình khác iv Lời cảm ơn Để có đƣợc thành nhƣ ngày hôm nay, muốn gửi lời cảm ơn chân thành đến tập thể thầy giáo, cô giáo Viện Công nghệ thông tin Truyền thông, Trƣờng Đại học Bách Khoa Hà Nội, ni dƣỡng niềm đam mê học tập, tìm tịi, nghiên cứu khoa học Các thầy, cô với tận tụy, tâm huyết tài gƣơng sáng cho học tập noi theo Tơi xin gửi cảm ơn tới cô giáo TS Lê Thanh Hƣơng hƣớng dẫn thực đề tài từ việc xác định định hƣớng tới nội dung luận văn Tôi muốn gửi lời cảm ơn tới TS Nguyễn Thị Oanh cho tơi nhiều góp ý, cảm ơn bạn Nguyễn Thành Trung, Trần Thị Hƣơng chia sẻ, giúp đỡ thời gian thực luận văn Lời cuối cùng, xin cảm ơn gia đình Gia đình nguồn động viên, quan tâm vô bờ bến thân Hà Nội, ngày 11 tháng 11 năm 2011 Học viên Đỗ Bá Lâm v Danh mục kí hiệu, chữ viết tắt Thuật ngữ, từ viết tắt ACE – Acknowledge Ý nghĩa Content Một chƣơng trình phát triển cơng Extraction nghệ trích rút nội dung tự động CNTT Công nghệ thông tin CRF – Conditional Random Field Trƣờng ngẫn nhiên có điều kiện CSDL Cơ sở liệu FlexCRFs- Flexible Contiditional Một công cụ gán nhãn liệu dựa Random Fields mô hình CRF HMM – Hiden Makov Model Mơ hình Markov ẩn IE – Information Extraction Trích rút thơng tin LP2 Một giải thuật học luật IE MCU - Message Understanding Một hội thảo trích rút thơng tin Conference MEMM – Maximum Entropy Markov Mơ hình Markov với Entropy lớn Model vi Danh mục hình vẽ Hình 1.1 Trích rút quan hệ tên thực thể từ văn Hình 1.2 Phân chia văn từ ghi địa Hình 1.3 Một số luật để xác định tên công ty từ nhận dạng tên thực thể 18 GATE 18 Hình 1.4 Phân tách hai câu thành chuỗi token 21 Hình 1.5 Một phân đoạn câu 23 Hình 1.6 Một phân tích cú pháp 28 Hình 1.7 Đồ thị phụ thuộc câu 28 Hình 2.1 Lƣợc đồ Profile nhà nghiên cứu 36 Hình 2.2 Trang cá nhân nhà nghiên cứu 37 Hình 2.3 Thơng tin nhà nghiên cứu trang DBLP 38 Hình 2.4 Profile thu đƣợc 38 Hình 2.5 Kiến trúc hệ thống CiteSeerX 40 Hình 2.6 Một số bảng liệu hệ thống CiteSeerX 42 Hình 2.7 Ví dụ mơ hình Markov ẩn thời tiết 50 Hình 2.8 Mơ hình Markov ẩn 50 Hình 2.9 Đồ thị phụ thuộc mơ hình HMM (a) MEMM (b) 52 vii Hình 2.10 Vấn đề label bias 53 Hình 3.1 Kiến trúc chung hệ thống 65 Hình 3.2 Mối liên hệ bảng hệ thống 82 viii Bảng trình bày danh sách đặc trƣng mà hệ thống sử dụng để phục vụ cho việc xác định nhãn Kí hiệu Vị trí Word w 0, 01, -10, -1, Dành cho từ AllCap acap 0, -1, Tất viết hoa => tên ngƣời tên viết tắt hội thảo Degree deg 0, -2, -1, 1, Chức danh: TS, ThS, KS, Dr, PhD PageStart page 0, -1 Đầu trang (1-2 dòng đầu) MarkUni m_u 0, -2, -1 Dành cho trƣờng: Department, Faculty, School, University Uni MarkAddress m_a 0, -2, -1 Đánh dấu địa chỉ: Address, Nơi làm việc Address PhoneOrZip num 0, -1, Số phone hay mã zip MarkPhone m_ph 0, -2, -1 Đánh dấu bắt đầu số điện thoại: Phone, Mobile, Số điện thoại, Tel MarkFax m_fax 0, -2, -1 Đánh dấu bắt đầu fax: Fax Email email 0, Biểu thức quy cho Email Tên Ý nghĩa Nhãn Per Phone Email MarkEmail m_e 0, -2, -1 Đánh dấu bắt đầu Email: email, e-mail MarkInterest m_i 0, -2, -1 Đánh dấu hƣớng nghiên cứu: Research, Interest, LineStart start 0, -1, -2 Đầu dòng LineEnd end 0, Cuối dòng 4-Digit year 0, -1, chữ số - Năm Month month 0, -1, Tháng Jan, Nov, … - Tháng MarkPaper m_pp 0, -2, -1 Đánh dấu bắt đầu báo: Publications, journal… MarkTitle m_title -1, 0, Đánh dấu bắt đầu tên báo: dấu nháy kép MarkAbb m_abb 0, -1, Đánh dấu tên viết tắt hội thảo: gồm chữ viết hoa năm nhƣ SoICT2011, FAIR'07 Bảng 3.4 Danh sách đặc trưng sử dụng 74 Interest Paper Ví dụ tổng hợp từ file text đầu vào xây dựng file token, file feature File text: KS Nguyễn Văn A Email: nguyenvana@mail.hut.edu.vn Hƣớng nghiên cứu - học máy Các cơng trình NC công bố Nguyễn Văn A, "A Method for evaluation of selected quality properties in rejuvenation systems using Markov model" Tạp chí Khoa học Cơng nghệ Năng lƣợng, Bộ Thơng tin truyền thơng, số – 2010 Bảng 3.5 Ví dụ file text đầu vào KS trình in Nguyễn NC rejuvenation Văn systems A công bố using Markov Email: Nguyễn model nguyenvana@mail.hut.edu.vn Văn " 75 A Hƣớng , Tạp nghiên " chí cứu A Khoa Method học - for Công học evaluation nghệ máy of Năng selected lƣợng Các quality , công properties 2010 Bảng 3.6 File token sau tách thành đơn vị Lƣu ý: nội dung file dài nên lƣu trữ nội dung dòng lần lƣợt vào cột 1, Sau nội dung file đặc trƣng tƣơng ứng: w:0:KS ww:0:1:KS:Nguyễn w:1:Nguyễn page:0 start:0 w:0:Nguyễn w:-1:KS ww:-1:0:KS:Nguyễn ww:0:1:Nguyễn:Văn w:1:Văn page:0 start:0 w:0:Văn w:-1:Nguyễn ww:-1:0:Nguyễn:Văn ww:0:1:Văn:A w:1:A acap:1 page:0 start:0 end:0 w:0:A w:-1:Văn ww:-1:0:Văn:A acap:0 page:0 end:0 w:0:Email= ww:0:1:Email=:nguyenvana@mail.hut.edu.vn 76 w:1:nguyenvana@mail.hut.edu.vn page:0 email:1 m_e:0 start:0 end:0 w:0:nguyenvana@mail.hut.edu.vn w:-1:Email= ww:- 1:0:Email=:nguyenvana@mail.hut.edu.vn page:0 email:0 m_e:-1 start:0 end:0 w:0:Hƣớng ww:0:1:Hƣớng:nghiên w:1:nghiên start:0 w:0:nghiên w:-1:Hƣớng ww:-1:0:Hƣớng:nghiên ww:0:1:nghiên:cứu w:1:cứu start:0 end:0 w:0:cứu w:-1:nghiên ww:-1:0:nghiên:cứu m_i:0 start:0 end:0 w:0:- ww:0:1:-:học w:1:học m_i:-1 start:0 w:0:học w:-1:- ww:-1:0:-:học ww:0:1:học:máy w:1:máy m_i:-2 start:0 end:0 w:0:máy w:-1:học ww:-1:0:học:máy start:0 end:0 w:0:Các ww:0:1:Các:cơng w:1:cơng start:0 w:0:cơng w:-1:Các ww:-1:0:Các:cơng ww:0:1:cơng:trình w:1:trình start:0 w:0:trình w:-1:cơng ww:-1:0:cơng:trình ww:0:1:trình:NC w:1:NC acap:1 start:0 w:0:NC w:-1:trình ww:-1:0:trình:NC ww:0:1:NC:đã w:1:đã acap:0 w:0:đã w:-1:NC ww:-1:0:NC:đã ww:0:1:đã:cơng w:1:cơng acap:-1 w:0:công w:-1:đã ww:-1:0:đã:công ww:0:1:công:bố w:1:bố end:0 w:0:bố w:-1:công ww:-1:0:công:bố end:0 O w:0:Nguyễn ww:0:1:Nguyễn:Văn w:1:Văn start:0 w:0:Văn w:-1:Nguyễn ww:-1:0:Nguyễn:Văn ww:0:1:Văn:A w:1:A acap:1 start:0 w:0:A w:-1:Văn ww:-1:0:Văn:A ww:0:1:A:, w:1:, acap:0 start:0 77 w:0:, w:-1:A ww:-1:0:A:, ww:0:1:,:" w:1:" acap:-1 title:1 w:0:" w:-1:, ww:-1:0:,:" ww:0:1:":A w:1:A acap:1 title:0 w:0:A w:-1:" ww:-1:0:":A ww:0:1:A:Method w:1:Method acap:0 title:-1 w:0:Method w:-1:A ww:-1:0:A:Method ww:0:1:Method:for w:1:for acap:-1 w:0:for w:-1:Method ww:-1:0:Method:for ww:0:1:for:evaluation w:1:evaluation w:0:evaluation w:-1:for ww:-1:0:for:evaluation ww:0:1:evaluation:of w:1:of w:0:of w:-1:evaluation ww:-1:0:evaluation:of ww:0:1:of:selected w:1:selected w:0:selected w:-1:of ww:-1:0:of:selected ww:0:1:selected:quality w:1:quality w:0:quality w:-1:selected ww:-1:0:selected:quality ww:0:1:quality:properties w:1:properties w:0:properties w:-1:quality ww:-1:0:quality:properties ww:0:1:properties:in w:1:in w:0:in w:-1:properties ww:-1:0:properties:in ww:0:1:in:rejuvenation w:1:rejuvenation w:0:rejuvenation w:-1:in ww:-1:0:in:rejuvenation ww:0:1:rejuvenation:systems w:1:systems w:0:systems w:-1:rejuvenation ww:-1:0:rejuvenation:systems ww:0:1:systems:using w:1:using w:0:using w:-1:systems ww:-1:0:systems:using ww:0:1:using:Markov w:1:Markov w:0:Markov w:-1:using ww:-1:0:using:Markov ww:0:1:Markov:model w:1:model w:0:model w:-1:Markov ww:-1:0:Markov:model ww:0:1:model:" w:1:" title:1 w:0:" w:-1:model ww:-1:0:model:" ww:0:1:": w:1: title:0 w:0: w:-1:" ww:-1:0:": ww:0:1:.:Tạp w:1:Tạp title:-1 w:0:Tạp w:-1: ww:-1:0:.:Tạp ww:0:1:Tạp:chí w:1:chí 78 w:0:chí w:-1:Tạp ww:-1:0:Tạp:chí ww:0:1:chí:Khoa w:1:Khoa w:0:Khoa w:-1:chí ww:-1:0:chí:Khoa ww:0:1:Khoa:học w:1:học m_u:0 w:0:học w:-1:Khoa ww:-1:0:Khoa:học ww:0:1:học:Công w:1:Công m_u:-1 w:0:Công w:-1:học ww:-1:0:học:Công ww:0:1:Công:nghệ w:1:nghệ m_u:-2 w:0:nghệ w:-1:Công ww:-1:0:Công:nghệ ww:0:1:nghệ:Năng w:1:Năng w:0:Năng w:-1:nghệ ww:-1:0:nghệ:Năng ww:0:1:Năng:lƣợng w:1:lƣợng w:0:lƣợng w:-1:Năng ww:-1:0:Năng:lƣợng ww:0:1:lƣợng:, w:1:, w:0:, w:-1:lƣợng ww:-1:0:lƣợng:, ww:0:1:,:2010 w:1:2010 end:0 year:1 w:0:2010 w:-1:, ww:-1:0:,:2010 end:0 year:0 Bảng 3.7 File đặc trưng tương ứng Để giải thích mối liên hệ tập đặc trƣng bảng 3.4, file token bảng 3.6 để tạo file đặc trƣng bảng 3.7, học viên trình bày cách xây dựng nhƣ sau - Lần lƣợt đơn vị - tƣơng ứng với dòng file token đƣợc xác định đặc trƣng Mỗi đơn vị chắn có đặc trƣng “đơn vị” đƣợc kí hiệu dạng w w:0 có nghĩa cho biết đơn vị gì, w:1 cho biết đơn vị (nếu có) nó, ww:0:1 cho biết đơn vị vị trí gì…Do dịng với đơn vị “KS” có đặc trƣng w:0:KS ww:0:1:KS:Nguyễn w:1:Nguyễn - Hệ thống phải đánh dấu số dấu hiệu nhận dạng nhãn - Để đánh dấu quan công tác, hệ thống kiểm tra xem “đơn vị” w:0 có phải thuộc danh sách dấu hiệu quan hay không Danh sách đƣợc lƣu file text Nếu đúng, tạo đặc trƣng uni:0 với có nghĩa đơn vị dấu hiệu quan Nếu đơn vị dấu hiệu quan ta có đặc 79 trƣng uni:1 với có nghĩa đơn vị Nếu đơn vị trƣớc dấu hiệu quan ta có đặc trƣng uni:-1 Các dấu hiệu quan nhƣ: School, Faculty, University…Tƣơng tự nhƣ vậy, ngƣời đọc hiểu rõ việc đánh dấu email, số điện thoại, fax… - Để nhận dạng email, hệ thống sử dụng biểu thức quy cho email đầy đủ biểu thức quy cho phần email Hai biểu thức quy là: "^[A-Z0-9._%+-]+@[A-Z0-9.-]+\\.[A-Z]{2,4}$" cho email đầy đủ \\.[AZ]{2,4}$ cho đuôi email - Việc nhận biết hƣớng nghiên cứu Đây điều khó hƣớng nghiên cứu thƣờng đƣợc nằm dòng riêng, dòng liệt kê danh sách hƣớng nghiên cứu Do interest:-1 có ý nghĩa dịng trƣớc dấu hiệu hƣớng nghiên cứu thay ý nghĩa đơn vị trƣớc dấu hiệu hƣớng nghiên cứu Điều xảy với nhãn công bố nghiên cứu – pubication Để thực huấn luyện liệu, học viên cần phải gán nhãn thủ công thông tin file feature để hệ thống học đƣa đƣợc mơ hình tốt Do cơng việc gán nhãn file cá nhân vất vả thơng tin trang cá nhân nhiều, số lƣợng nhãn cần gán lớn, dễ sai sót nên đến thời điểm nộp luận văn, học viên với hỗ trợ ngƣời bạn thông qua công cụ hỗ trợ gán nhãn (sau nhận thấy việc gán nhãn tay thiếu hiệu thời gian gán nhãn lâu, nhiều sai sót) gán nhãn đƣợc 66 file cá nhân 66 giảng viên trƣờng Đại học Để đánh giá hiệu mơ hình, học viên chia 66 file làm 10 phần, với phần ngƣời phần ngƣời Sau dung phần ngƣời làm liệu test, phần lại làm liệu huấn luyện Bảng dƣới thể kết lần huấn luyện 80 Lần Precision Recall F1 79.38 70.36 74.82 71.37 69.41 70.38 66.92 60.37 63.48 61.36 55.36 58.21 68.76 79.41 73.70 79.50 71.05 75.04 66.92 60.37 63.48 81.21 80.66 81.04 81.13 78.33 79.70 Trung bình 72.95 69.48 71.1 Bảng 3.8 Kết đánh giá gán nhãn qua lần thử Nhận xét: Với số lƣợng liệu nhỏ (66 giảng viên), độ xác F1 thu đƣợc nằm mức từ 63.48% - 81.04% Tính giá trị trung bình qua lần thử, F1 đạt mức 71.1%, mức chấp nhận đƣợc Điều khiến cho học viên có thêm tự tin tâm cải tiến độ xác F1 lên cao thêm thời gian tới 81 3.4 Cập nhật liệu Dƣới bảng CSDL hệ thống Paper PK IdPaper P_A Author PK IdPaper PK IdAuthor Title Venue Abb Year Author PK IdAuthor PK IdName Author Name PK IdName Name Uni Address Phone Fax Email Interest Hình 3.2 Mối liên hệ bảng hệ thống 82 Chi tiết thiết kế bảng nhƣ sau: Bảng Paper – thông tin báo Trƣờng Kiểu liệu Ý nghĩa IdPaper Int, tự tăng Khóa báo – Khóa Title Varchar (200) Tiêu đề báo Venue Varchar (200) Tên hội thảo, tạp chí Abb Varchar (20) Tên viết tắt hội thảo, tạp chí Year Varchar (10) Năm viết báo Author Varchar (200) Danh sách tác giả báo Bảng 3.9 Bảng Paper Bảng Name – thông tin nhà nghiên cứu Trƣờng Kiểu liệu Ý nghĩa IdName Int, tự tăng Khóa nhà nghiên cứu – Khóa Name Varchar (80) Các tên nhà nghiên cứu Uni Varchar (250) Tên quan công tác Address Varchar (250) Địa nơi công tác/nơi Email Varchar (150) Các email nhà nghiên cứu Phone Varchar (50) Các số điện thoại Fax Varchar (20) Số fax Interest Varchar (500) Hƣớng nghiên cứu Bảng 3.10 Bảng Name 83 Bảng Author – thông tin tên viết Trƣờng Kiểu liệu Ý nghĩa IdName Int Mã nhà nghiên cứu – Khóa IdAuthor Int Mã tác giả - Khóa Author Varchar (30) Tên tác giả dùng báo Bảng 3.11 Bảng Author Bảng P_A – thông tin mã tác giả mã báo Trƣờng Kiểu liệu Ý nghĩa IdTitle Int Mã báo – Khóa IdAuthor Int Mã tác giả - Khóa Bảng 3.12 Bảng P_A Việc cập nhật liệu bao gồm hai bƣớc Từ trang cá nhân tiến hành cập nhật liệu vào CSDL Bƣớc thứ hai từ tác giả CSDL tiến hành truy vấn DBLP để cập nhật thêm công bố khoa học Do thời gian khả hạn chế, học viên thực đƣợc phần bƣớc cập nhật CSDL từ thông tin gán nhãn file cá nhân Một thiếu sót chƣa kịp bổ sung thực tô màu tên tác giả để xác định nhóm tác giả tác giả có tên viết chƣa đƣợc tiến hành Hiện CSDL bao gồm 66 giảng viên với 660 báo, 88 tên tác giả đƣợc sử dụng Trong 66 giảng viên có 22 ngƣời (tỉ lệ 1/3) khơng có báo trang cá nhân, 44 ngƣời (tỉ lệ 2/3) có báo Điều cho thấy bên cạnh việc cập nhật báo cho 44 ngƣời có thơng tin, việc xác định báo (nếu có) 22 ngƣời cơng việc đầy thách thức hấp dẫn 84 III KẾT LUẬN III.1 Kết luận chung III.1.1 Đóng góp luận văn Bài toán xây dựng Cơ sở liệu cộng đồng nghiên cứu Công nghệ thông tin tốn có tính thực tiễn ý nghĩa sâu sắc Việc xây dựng thành công Cơ sở liệu giúp nhà nghiên cứu, sinh viên, học viên… có nguồn cung cấp thơng tin tin cậy đầy đủ nhà nghiên cứu hoạt động nghiên cứu họ Để từ xây dựng mối quan hệ hợp tác hay thu nhận đƣợc tài liệu quý báu đƣờng nghiên cứu Luận văn đề đƣợc mơ hình kiến trúc tổng qt Mỗi bƣớc mơ hình đƣợc mô tả tỉ mỉ chi tiết Những trình bày dựa sở lý thuyết chắn sau học viên tìm hiểu hệ thống tiếng giới có liên quan tới đề tài Kiến trúc đƣợc xây dựng cho kết đánh giá ban đầu khả quan để tiếp tục đầu tƣ công sức thời gian việc hoàn thiện sở liệu III.1.2 Những hạn chế Luận văn không tránh khỏi hạn chế thiếu sót Trong mơ hình kiến trúc đƣợc đề cập, phần, luận văn chƣa thực đƣợc đầy đủ Ở bƣớc thu thập liệu, luận văn đƣa đƣợc phƣơng pháp thực mà chƣa cài đặt đánh giá thực tế Ở bƣớc gán nhãn liệu, tập liệu huấn luyện cịn nên kết đánh giá cịn chƣa thật thuyết phục Tại bƣớc cập nhật liệu, việc thiếu sót chƣa cập nhật đƣợc từ DBLP thời điểm nộp luận văn điều không mong muốn, sở lý thuyết, phƣơng pháp thực đƣợc luận văn đề cập cách tƣơng đối đầy đủ khả thi thực 85 III.2 Hướng phát triển Việc xây dựng sở liệu cho cộng đồng nghiên cứu Công nghệ thơng tin cơng việc cịn nhiều mẻ hấp dẫn Trong thời gian lại việc thực luận văn, học viên tiếp tục thực giải vấn đề gặp phải theo thứ tự ƣu tiên giảm dần nhƣ sau: Tiến hành cập nhật liệu từ DBLP Giải vấn đề đặt trùng lặp tên, mối liên hệ tác giả mà luận văn chƣa thực đầy đủ Tiến hành gán nhãn thêm liệu đánh giá độ xác Xây dựng hoàn chỉnh kiến trúc hệ thống Xây dựng thu thập liệu crawler để tự động thu đƣợc link trang cá nhân nhà nghiên cứu 86 TÀI LIỆU THAM KHẢO R Bunescu and R Mooney (2007), Learning to extract relations from the web using minimal supervision, in Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, pp 576–583, June 2007 Andrew McCallum, Dayne Freitag, Ferenado Pereire (2000), Maximum Entropy Markov Models for Information Extraction and Segmentation, ICML, 591-598 E Agichtein (2005), Extracting relations from large text collections, PhD thesis, Columbia University F Reiss, S Raghavan, R Krishnamurthy, H Zhu, and S Vaithyanathan (2008), An algebraic approach to rule-based information extraction, in ICDE Fuchun Peng, Andrew Mc Callum (2006), Accurate Information Extraction from Research Papers using Conditional Random Fields, Journal Information H Cunningham, D Maynard, K Bontcheva, and V Tablan (2002) Gate: A frame-work and graphical development environment for robust nlp tools and applications, in for Computational Linguistics Proceedings of the 40th Anniversary Meeting of the Association Hieu Xuan Phan, Minh Le Nguyen (2009), FlexCRFs: Flexible Conditional Random Fields Huajing Li, Issac G Councill, Levent Bolelli, Ding Zhou, Yang Song, Wang-Chien Lee, Anand Sivasubramaniam, C Lee Giles (2006), CiteSeerchi: a scalable autonomous scientific digital library, Infoscale 87 Jie Tang, Limin Yao, Dua Zhang, and Jing Zhang (2010), A Combination Approach to Web User Profiling, TKDD 10 John Lafferty, Andrew McCallum, Fernando Pereira (2001),Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data, ICML 2001, 282-289 11 Limin Yao, Jie Tang, and Juanzi Li (2007), A Unified Approach to Researcher Profiling, Web Intelligence, 359-366 12 M A Hearst (1992), Automatic acquisition of hyponyms from large text corpora in Proceedings of the 14th Conference on Computational Linguistics, pp 539–545 13 M Banko,M J Cafarella, S Soderland, M Broadhead and O Etzioni (2007), “Open information extraction from the web,” in IJCAI, pp 2670– 2676 14 Michael Ley (2009), DBLP – Some lessons learned, VLDB Volume 2, 1493-1500 15 Michael Ley (2009), “DBLP XML Requests” 16 Nguyễn Cẩm Tú (2005), Nhận biết loại thực thể văn tiếng Việt nhằm hỗ trợ web ngữ nghĩa tìm kiếm thực thể, Đồ án tốt nghiệp Đại học, Đại học Công nghệ, Đại học Quốc Gia Hà Nội 17 Nguyễn Xuân Hoài (2010), Nhập mơn học máy, Bài giảng Trí tuệ nhân tạo 18 S Soderland (1999), Learning information extraction rules for semistructured and free text, Machine Learning, vol 34 19 Sunita Sarawagi (2007), Information Extraction, Foundation and Trends in Databases, Vol.1, No 3, 261-377 88 ... Đỗ Bá Lâm XÂY DỰNG TỰ ĐỘNG CƠ SỞ DỮ LIỆU VỀ CỘNG ĐỒNG NGHIÊN CỨU CÔNG NGHỆ THÔNG TIN Chuyên ngành : CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SĨ KHOA HỌC CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN... CHƢƠNG XÂY DỰNG CƠ SỞ DỮ LIỆU VỀ CỘNG ĐỒNG NGHIÊN CỨU CNTT Chương trình bày về: Mạng lƣới nhà nghiên cứu CNTT giới – hệ thống ArnetMiner Cơ sở liệu số ngành CNTT giới – hệ thống DBLP Cơ sở liệu. .. khác để xây dựng CSDL cộng đồng nghiên cứu CNTT nƣớc với nguồn liệu tƣơng tự CSDL đƣợc xây dựng có ích cộng đồng nghiên cứu ngƣời có nguyện vọng nghiên cứu Việt Nam I.5 Phương pháp nghiên cứu CSDL