Ứng dụng web ngữ nghĩa vào trích rút thông tin về thương mại điện tử

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LÊ ANH DŨNG LÊ ANH DŨNG CÔNG NGHỆ THƠNG TIN ỨNG DỤNG WEB NGỮ NGHĨA VÀO TRÍCH RÚT THÔNG TIN VỀ THƯƠNG MẠI ĐIỆN TỬ LUẬN VĂN THẠC SĨ KHOA HỌC KHOÁ: 2009 Hà Nội – 2011 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - LÊ ANH DŨNG ỨNG DỤNG WEB NGỮ NGHĨA VÀO TRÍCH RÚT THƠNG TIN VỀ THƯƠNG MẠI ĐIỆN TỬ Chuyên ngành : Công nghệ thông tin LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC : TS LÊ THANH HƯƠNG Hà Nội – 2011 Lời cảm ơn Tôi xin gửi lời cảm ơn sâu sắc đến Tiến sỹ Lê Thanh Hương, người hướng dẫn tận tình theo dõi sát trình làm luận văn Tôi xin gửi lời cảm ơn chân thành đến Thạc sỹ Rathany Chan Sam, người góp ý, đưa lời khuyên bổ ích đồng thời người nghiên cứu thời gian qua Tôi xin gửi lời cảm ơn đến Trung tâm tính tốn hiệu cao ĐHBKHN, Trung tâm hỗ trợ nhiều mặt sở vật chất, tạo điều kiện cho nghiên cứu thảo luận hàng tuần với nhóm nghiên cứu Tơi xin gửi lời cảm ơn đến tập thể lớp cao học Công nghệ thông tin 2009, người bạn thân gia đình thường xun động viên khích lệ giúp đỡ tơi thời gian qua Mục Lục Lời cảm ơn Mục lục Danh mục hình vẽ Danh mục bảng Đặt vấn đề Tổng quan trích rút thơng tin 1.1 Khái niệm trích rút thơng tin 1.2 Các khó khăn với trích rút thơng tin 1.3 Bài tốn trích rút mối quan hệ thực thể 1.4 1.3.1 Khái niệm 1.3.2 Kiến trúc hệ thống trích rút mối quan hệ 1.3.3 Ứng dụng trích rút mối quan hệ Mục tiêu luận văn 7 12 12 14 17 19 Các nghiên cứu liên quan hướng tiếp cận trích rút mối quan hệ thực thể 21 2.1 Các nghiên cứu liên quan 21 0.0 MỤC LỤC 2.2 Các hướng tiếp cận 24 2.2.1 Tiếp cận thủ công 24 2.2.2 Mô hình Markov ẩn (HMM) 26 2.2.3 Hướng tiếp cận k láng giềng gần 29 2.2.4 Mơ hình trường điều kiện ngẫu nhiên (CRFs) 30 2.2.5 Máy học vector hỗ trợ (SVM) 31 Lý thuyết liên quan 3.1 Lý thuyết thống kê 3.1.1 Chiều Vapnik Chervonekis 3.1.2 Rủi ro tốn học phân loại có giám sát 3.1.3 Rủi ro thực nghiệm 3.1.4 Nguyên tắc tối thiểu rủi ro cấu trúc 3.1.5 Giới hạn chiều Vapnik Chervonekis 3.2 Support Vector Machines 3.3 Kernel 3.3.1 Lý thuyết Kernel 3.3.2 Shallow Linguistic Kernel Cài đặt kết 4.1 Đặc trưng tiếng Việt 4.2 Chuẩn bị tập liệu 4.3 Cài đặt 4.4 4.3.1 Chiến lược có giám sát 4.3.2 Chiến lược bán giám sát Kết 33 33 33 35 36 36 37 38 46 46 49 53 53 57 58 58 60 61 Kết luận 63 Tài Liệu Tham Khảo 66 Danh mục hình vẽ 12 14 18 19 1.1 Ví dụ trích rút thơng tin 1.2 Kiến trúc trích rút thơng tin 1.3 Kiến trúc hệ thống trích rút quan hệ thực thể 1.4 Hệ thống hỏi đáp 1.5 Hệ thống hỏi đáp 2.1 Sơ đồ khối phương pháp dựa luật 25 2.2 Đồ thị có hướng mơ tả mơ hình HMM 27 2.3 Đồ thị vô hướng mô tả CRFs 31 3.1 Tính chiều VC đơn giản 34 3.2 Trường hợp khơng thể tìm hàm f (x) phân chia điểm 34 3.3 Siêu phẳng phân chia tập mẫu huấn luyện 39 3.4 Trường hợp liệu có nhiễu 44 3.5 Trường hợp liệu phân tách tuyến tính 46 3.6 Minh họa kernel 47 3.7 Mơ hình Kernel 48 3.8 Các thành phần Global Context 50 4.1 Mô tả thành phần ngữ cảnh GC 59 4.2 Mô tả thành phần ngữ cảnh LC cải tiến 60 Danh mục bảng 1.1 Một số ví dụ nhãn phân cụm 16 4.1 So sánh kết hệ thống Giuliano hệ thống cải tiến 61 4.2 So sánh kết hệ thống giám sát bán giám sát 62 Đặt vấn đề Tim Benner Lee, cha đẻ World Wide Web đề cập Web ngữ nghĩa tương lai World Wide Web kết hợp khả hiểu người khả xử lý máy tính Thành cơng Web ngữ nghĩa phụ thuộc phần lớn vào sở tri thức trang Web giải theo sở tri thức Trong lợi ích mà Web ngữ nghĩa mang lại lớn việc xây dựng sở tri thức cách thủ cơng lại khó khăn Giải pháp cho vấn đề phải dùng kỹ thuật trích rút thơng tin nói chung nhận biết mối quan hệ loại thực thể nói riêng để tự động hóa phần q trình xây dựng sở tri thức Các sở tri thức tích hợp vào máy tìm kiếm làm tăng độ xác tìm kiếm đồng thời khắc phục số nhược điểm cho máy tìm kiếm dựa từ khóa Ý thức lợi ích mà tốn trích rút thơng tin nói chung nhận biết mối quan hệ loại thực thể nói riêng, đồng thời phát triển cho ngôn ngữ tiếng Việt, chọn hướng nghiên cứu nhằm giải tốn trích rút mối quan hệ loại thực thể cho tiếng Việt làm đề tài luận văn Chương Tổng quan trích rút thơng tin Mục tiêu luận văn đề xuất cách tiếp cận học máy giám sát bán giám sát để giải toán trích rút mối quan hệ thực thể cho văn tiếng Việt Trích rút mối quan hệ thực thể (hay gọi nhận dạng mối quan hệ) phần kiến trúc trích rút thơng tin Chương trình bày cách tổng quan trích rút thơng tin, tốn trích rút mối quan hệ thực thể, khó khăn giải ứng dụng thực tế 1.1 Khái niệm trích rút thơng tin Trong xử lý ngơn ngữ tự nhiên, trích rút thơng tin (Information extraction) dạng lấy thông tin cách tự động từ thơng tin có cấu trúc khơng có cấu trúc Để đơn giản ta hiểu trích rút thơng tin q trình xử lý mà đầu vào tập văn phi cấu trúc Sau đó, hệ thống phân tích xử lý thông tin nhằm tạo nên đầu liệu có cấu trúc thỏa mãn yêu cầu người dùng 1.1 Chương Khơng giống việc hiểu tồn bợ văn bản, hệ thống trích rút thơng tin cố gắng nhận biết số dạng thông tin đáng quan tâm Có nhiều mức đợ trích chọn thơng tin từ văn xác định thực thể (Entities Extraction), xác định quan hệ giữa thực thể (Relation Extraction), xác định và theo dõi sự kiện và kịch (Event and Scenario Extraction and Tracking), xác định đồng tham chiếu (Co-reference Resolution) Các kĩ tḥt sửdụng trích chọn thơng tin gồm có: phân đoạn, phân lớp, kết hợp phân cụm Kết hệ thống trích chọn thơng tin thường mẫu (template) chứa số lượng xác định trường điền thông tin Ở mức độ trích chọn thơng tin mức ngữ nghĩa, mẫu thể kiện thực thể tham gia đóng số vai trị xác định kiện Chẳng hạn MUC-7 [2] (Seventh Message Understanding Conference), mẫu kịch yêu cầu kiện phóng tên lửa rocket 100 báo New York Times Các hệ thống tham gia hội nghị phải điền vào mẫu thơng tin cho trả lời câu hỏi thời gian, địa điểm kiện phóng tên lửa, rocket đề cập báo Trích rút thơng tin có nhiều ứng dụng rộng rãi hữu ích Trên giới trích rút thơng tin dược ứng dụng nhiều vào việc trích chọn thơng tin Internet Các ứng dụng thực tế việc lấy thông tin tên công ty tên người điều hành công ty, theo dõi thông tin dịch bệnh, theo dõi kiện khủng bố Trích rút thơng tin cịn ứng dụng vào việc chăm sóc khách hàng, việc tìm kiếm trích chọn thơng tin khách hàng họ tên, địa chỉ, email, số điện thoại lưu vào sở liệu hay tham gia vào hệ thống quản lý thông tin cá nhân Gần trích rút thơng tin đặc biệt trọng lĩnh vực y học, có nhiều báo nghiên cứu ứng dụng trích rút thơng tin việc nhận dạng thực thể ngành y tên protein gene Hình 1.1 mơ tả sơ 3.3 Chương 3 Shallow Linguistic Kernel Cuối cùng, Shallow Linguistic Kernel định nghĩa: KSL (R1 , R2 ) = KGC (R1 , R2 ) + KLC (R1 , R2 ) 52 (3.32) Chương Cài đặt kết 4.1 Đặc trưng tiếng Việt Trọng tâm nghiên cứu luận văn tốn trích rút mối quan hệ thực thể văn tiếng Việt Như phần trước trình bày, có nhiều nghiên cứu hướng tiếp cận khác nhận dạng mối quan hệ thực thể Tuy nhiên đa phần nghiên cứu cho tiếng Anh, tiếng Trung để áp dụng cho tiếng Việt cần phải thay đổi cách trích chọn đặc trưng nào, áp dụng thuật toán lẽ tiếng Việt có cấu trúc đặc biệt so với ngơn ngữ khác hệ thống làm việc tốt với tiếng nước ngồi lại khơng tốt với tiếng Việt Tiếng Việt ngôn ngữ đơn âm tiết, thuộc nhóm ngơn ngữ Đơng Nam Á Nó có đặc điểm riêng ký hiệu, ngữ pháp ngữ nghĩa, khác với ngôn ngữ Ấn-Âu Đây không khó khăn việc học ngơn ngữ Châu Âu, mà cịn khó khăn việc ứng dụng kỹ thuật phát triển để xử lý ngôn ngữ tự nhiên Mặt khác, dù ngôn ngữ đơn âm tiết không giống ngôn ngữ đơn âm tiết khác tiếng Trung Quốc, tiếng Thái, tiếng Việt viết ký tự Latin mở rộng Vì vậy, cách thực ngôn ngữ ứng dụng cho tiếng Việt, 53 4.1 Chương số việc chưa giải xử lý ngôn ngữ tự nhiên tiếng Việt toán xác định biên giới từ (word boundaries) văn tiếng Việt • Đặc điểm từ: Với ngơn ngữ Ấn-Âu (như tiếng Anh, Pháp, ), từ nhóm ký tự có nghĩa, phân cách khoảng trống dấu câu (định nghĩa từ điển Webster) Trong đó, ngơn ngữ Châu Á Trung Quốc, Thái, Việt Nam, khoảng trống không sử dụng để xác định biên giới từ Phần nằm hai dấu phân cách tiếng, tiếng coi từ có từ – Tiếng: Mỗi tiếng tiếng Việt viết thành chữ, ngược lại chữ đọc thành tiếng, chữ nằm hai dấu phân cách câu Tiếng dùng để tạo thành từ, tiếng có nghĩa rõ ràng khơng có nghĩa rõ ràng – Từ: Là cụm tiếng (từ ghép) tiếng (từ đơn), phải có đầy đủ phương diện hình thức, ngữ nghĩa độc lập mặt ngữ pháp Một từ mang nhiều từ loại tùy theo ngữ cảnh: danh từ, động từ, tính từ • Đặc điểm tả: Mặc dù tả tiếng Việt có hệ thống quy tắc chuẩn mực, có số từ tồn nhiều cách viết khác Ngay thân người có lúc viết này, có lúc viết khác Sự sai khác nguyên nhân sau: – Những từ đồng âm: y/i (vật lý/ vật lí, tốc ký/tốc kí, bác sỹ/bác sĩ), d/gi (dơng bão/ giơng bão) – Phương ngữ: đáng/chánh đáng, tru/con trâu – Vị trí dấu âm tiết: khai hỏa/khai hoả 54 4.1 Chương – Cách viết hoa tuỳ tiện danh từ riêng: tồn nhiều cách viết khác Ví dụ: Bộ Khoa học công nghệ môi trường/Bộ Khoa học công nghệ & Môi trường, Việt Nam/Việt nam – Phiên âm tiếng nước ngoài: phiên âm hình thức biến chữ ngoại quốc thành chữ địa phương Nhưng tồn hai cách viết phiên âm không phiên âm Chẳng hạn: Singapo/Xingga-po, America/ Hoa Kỳ, Trung Quốc/Trung Hoa – Dấu gạch nối: thường xuất từ đa âm nước du nhập vào Việt Nam Để rõ chữ cụm chữ, người ta dùng dấu gạch nối Tuy nhiên tồn hai cách viết Ví dụ, Portugal dịch Bồ Đào Nha/Bồ-Đào-Nha Cách viết gây nhiều khó khăn việc kiểm tra tả nói riêng xử lý ngơn ngữ tiếng Việt nói chung Quá trình khắc phục mâu thuẫn nhu cầu giao tế ngày tăng, đa dạng, phong phú tính chất hữu hạn ph�ơng tiện ngơn ngữ thúc đẩy tiếng Việt phát triển không ngừng hai khía cạnh từ vựng ngữ pháp Xu hướng phát triển tiếng Việt theo hướng hoàn thiện chuẩn mực hố ngơn ngữ văn học So với kỷ trước, cách diễn đạt ngôn từ, cách dùng chữ nghĩa phương tiện cú pháp ngày phong phú đa dạng nhiều Có từ xuất lối nói trước khơng thấy Ngày nay, với phát triển văn hoá xã hội, khoa học kỹ thuật du nhập từ nước ngoài, vốn từ vựng tiếng Việt ngày bổ sung nhiều từ • Sự đa nghĩa đại từ: Một vấn đề phức tạp tiếng Việt Tiếng Việt có nhiều đại từ xưng hơ Cặp 55 4.1 Chương xưng hô thứ thứ hai phổ biến : tôi-bạn, tớ-cậu, tao-mày • Một số nhận dạng quan hệ thường xuất văn tiếng Việt: Cụm từ nằm hai thực thể câu dấu hiệu nhận biết quan hệ Trường hợp gọi mẫu nằm (Between pattern): E1 E2 Ví dụ: Ơng Nguyễn Tất Đắc làm việc cho công ty FPT Anh Tùng chuyển vào thành phố Hồ Chí Minh Trong hai ví dụ cụm từ ”làm việc cho”, ”chuyển vào” giúp nhận dạng quan hệ hai thực thể quan hệ work-for live-in Các từ nằm trước hai thực thể dấu hiệu nhận biết quan hệ Trường hợp gọi mẫu trước (BetweenBefore): E1 E2 Ví dụ: Chúng tơi tổ chức đám cưới cho ông Nguyễn Văn Nam Mã Vân Phi Trong ví dụ cụm từ ”đã tổ chức đám cưới cho” từ ”và” quan hệ hai thực thể người (quan hệ hôn nhân) Cụm từ nằm sau hai thực thể dấu hiệu nhận biết quan hệ Trường hợp gọi mẫu sau (Between-After): E1 E2 Ví dụ: Cơ Vân ơng Nam ly Trong ví dụ từ ”và” cụm từ ”đã ly hôn” cho thấy hai thực thể người trước có quan hệ hôn nhân Nam với Dũng viết báo Ở cụm từ ”cùng với” ”đã viết báo này” hai thực thể người có quan hệ đồng tác giả 56 4.2 Chương 4 Hai thực thể liền cho biết mối quan hệ hai thực thể này: E1 E2 Ví dụ: Thủ tướng (E1) Nguyễn Tấn Dũng (E2) Trường hợp mối quan hệ chức vụ Hai thực thể bị phân tách thực thể khác: E1 E2 E3 Ví dụ: Bộ trưởng (E1) Bộ Giáo dục Đào tạo (E2) Phạm Vũ Luận (E3) Như thấy từ hay cụm từ trước, sau hai thực thể ứng cử, đặc biệt cụm động từ quan trọng việc phát mối quan hệ hai thực thể Bên cạnh ngồi thơng tin hai thực thể ứng cử, thông tin thực thể khác câu dấu hiệu quan trọng Như trình bày mục 3.3.2, kernel tác giả Giuliano đề xuất [11] xét cấu trúc câu gần tương tự với dạng cấu trúc trình bày nên tơi định giải toán dựa phương pháp Shallow Linguistics Kernel giám sát có cải tiến Bên cạnh tơi phát triển hệ thống tác giả Giuliano theo chiến lược bán giám sát sử dụng thuật toán Boostrapping-Bagging để tận dụng lợi chiến lược học máy bán giám sát 4.2 Chuẩn bị tập liệu Nghiên cứu thử nghiệm tập liệu gồm 1200 câu tiếng Việt có 960 câu chưa gán nhãn 240 câu gán nhãn tay Tập liệu lấy từ Internet chủ đề kinh tế, xã hội, văn hóa giáo dục Mỗi câu có hai thực thể mối quan hệ Tập liệu chứa mối quan hệ Per Loc (live in), Per Pos (position) Per Org 57 4.3 Chương (work for) với số lượng câu chứa quan hệ 600, 268 332 Trong thử nghiệm mình, chọn tập huấn luyện gồm 240 câu gán nhãn tập kiểm tra 960 câu chưa gán nhãn 4.3 Cài đặt Đối với ngôn ngữ tiếng Việt, tơi tập trung vào đặc trưng sau đây: • Đặc trưng thể từ loại (Part of Speech - PoS) Để trích chọn đặc trưng tơi sử dụng engine vntagger tác giả Lê Hồng Phương [1] đưa Ví dụ: câu văn ”Anh Nguyễn Văn Nam sống Hà Nội” biến đổi thành ”Anh/N Nguyễn Văn Nam/N sống V P Hà Nội/N” • Đặc trưng từ điển Đặc trưng kiểm tra xem từ cụm từ có thuộc vào từ điển cho trước hay không Các từ điển sử dụng luận văn bao gồm từ điển địa danh, tổ chức, tên người • Đặc trưng tả Đặc trưng kiểm tra xem từ xét có đặc trưng chữ viết hoa, dấu chấm câu hay không Trên số đặc trưng từ chưa có mơ hình tác giả Giuliano [11] 4.3.1 Chiến lược có giám sát Trong hệ thống mình, tác giả Giuliano [11] có đưa hai họ kernel kernel ngữ cảnh toàn cục (Global Context Kernel - GC) kernel ngữ cảnh cục (Local Context Kernel - LC) 58 4.3 Chương • Đối với GC kernel ông chia thành ngữ cảnh hai thực thể câu Các ngữ cảnh minh họa hình 4.1 Hình 4.1: Mơ tả thành phần ngữ cảnh GC Tôi giữ lại cách phân chia ngữ cảnh tác giả Giuliano đề cập Tuy nhiên, cải tiến kernel cách thêm thông tin thể từ loại, đặc trưng từ điển đặc trưng kiểu thực thể tính độ tương đồng mẫu • Đối với LC kernel ông xét cửa sổ ngữ cảnh (hai từ trước, hai từ sau từ xét) Điều cho hiệu tốt với tiếng Anh, nhiên áp dụng với tiếng Việt không cho kết mong muốn, thay cửa sổ ngữ cảnh động, tức ngữ cảnh thực thể bên trái tính từ đầu câu trước thực thể thứ hai, ngữ cảnh thực thể bên phải tính từ sau thực thể thứ đến hết câu 59 4.3 Chương Hình 4.2: Mơ tả thành phần ngữ cảnh LC cải tiến 4.3.2 Chiến lược bán giám sát Thuật toán Boostrapping sử dụng Bagging tác giả Zhu Zhang [21] lần đầu đề cập đến vào năm 2004 Thuật tốn trình bày với giả thiết sau: • L: Tập liệu gán nhãn • U: Tập liệu chưa gán nhãn • S: Số lượng phần tử lấy lần lặp • B: Số lượng phần tử bag Đầu tiên, liệu boostrap tạo từ tập nhỏ liệu gán nhãn ta thu bag từ liệu Tiến hành huấn luyện bag dùng mơ hình để dự đốn nhãn cho liệu Sau ta tiến hành đo độ tin cậy cho liệu vừa gán nhãn, phần tử có độ tin cậy cao giữ lại đưa vào tập gán nhãn ban đầu Tồn q trình xử lý nêu đây: Repeat Tạo tập bag (B bag) ngẫu nhiên từ liệu L sử dụng bagging 60 4.4 Chương Huấn luyện B bag để tạo mơ hình Dùng mơ hình dự đoán nhãn liệu U Lấy S phần tử có độ tin cậy cao thêm vào tập L Until Hết liệu tập U không đạt độ tin cậy Độ tin cậy tính dựa entropy phần tử đó: H =− C ∑ ∥ri ∥ B i log ∥ri ∥ B (4.1) Trong đó: C tổng số phân lớp B số lượng bag ri số lượng bag dự đoán phần tử gán nhãn ri 4.4 Kết Trong bảng 4.1, cột hệ thống Giuliano kết chạy hệ thống gốc tác giả Giuliano xây dựng cột hệ thống sửa đổi hệ thống sau can thiệp phương pháp nêu Kiểu quan hệ Hệ thống Giuliano P R F Hệ thống sửa đổi P R F Position 81.8 85.7 83.7 83.7 92.6 87.8 Live in 55.0 56.2 55.29 55.1 64.8 59.5 Work for 68.0 67.6 67.79 68.9 94.8 79.8 Bảng 4.1: So sánh kết hệ thống Giuliano hệ thống cải tiến 61 4.4 Chương Trong bảng 4.2, cột Giám sát kết chạy hệ thống chiến lược có giám sát, cột Bán giám sát kết chạy hệ thống chiến lược bán giám sát với thơng số bag thuật tốn Boostrapping-Bagging 5, số lượng câu lần lặp thêm vào tập gán nhãn 100 câu ngưỡng đo độ tin cậy bag dự đốn câu gán nhãn Kiểu quan hệ Giám sát P R Bán giám sát F P R F Position 83.7 97.6 90.1 92.9 92.9 92.9 Live in 55.1 64.8 59.5 81.6 93.2 87.0 Work for 68.9 94.8 79.8 88.7 77.5 82.7 Bảng 4.2: So sánh kết hệ thống giám sát bán giám sát 62 Kết luận Sau trình thử nghiệm, ta thấy đặc trưng thực thể từ xung quanh thực thể đóng vai trị định việc trích rút mối quan hệ thực thể Bên cạnh cửa sổ ngữ cảnh quan trọng, khơng có nghĩa cửa sổ lớn độ xác cao mà điều phụ thuộc vào kiểu mối quan hệ dạng câu xét Điểm mấu chốt hệ thống thuật toán Boostrapping-bagging áp dụng chiến lược học bán giám sát, nhiên thuật toán dựa việc bagging cách ngẫu nhiên tập liệu huấn luyện nên kết tốt học có giám sát ln dao động tính ổn định chưa cao Vì hướng phát triển tiếp tăng thêm hàm lượng tin cậy qúa trình bagging để tăng độ xác cho chiến lược bán giám sát hệ thống Với chiến lược có giám sát, số lượng đặc trưng từ tương đối ít, tương lai đưa thêm đặc trưng phù hợp tiếng Việt đặc trưng phân cụm để tăng tính xác cho hệ thống 63 Tài Liệu Tham Khảo [1] http://www.loria.fr/lehong/tools/vntagger.php [2] Information about the seventh message understanding conference [3] Culotta A., McCallum A., and Betz J Integrating probabilistic extraction models and data mining to discover relations and patterns in text In Proceedings of HLTNAACL 2006, pages 296–303, 2006 [4] Culotta A and Sorensen J Dependency tree kernels for relation extraction, 2004 [5] McCallum A., Freitag D., and Pereira F Maximum entropy markov models for information extraction and segmentation, 2000 [6] Rabiner A A tutorial on hidden markov models and selected applications in speech recognition, 1989 [7] Sun A., Grishman R., and Sekine S Semi-supervised relation extraction with large-scale word clustering, 2011 [8] Razvan Bunescu and Raymond Mooney Subsequence kernels for relation extraction, 2005 [9] Zelenko D., Aone A., and Richardella A Kernel methods for relation extraction, 2003 64 4.4 TÀI LIỆU THAM KHẢO [10] Oren Etzioni, Michael Cafarela, Doug Downey, Ana Maria Popescu, Tal Shaked, Stephen Soderland, Daniel S Weld, and Alexander Yates Unsupervised named-entity extraction from the web: An experimental study Artif Intell [11] Claudio Giuliano, Alberto Lavelli, and Lorenza Romano Exploiting shallow linguistic information for relation extraction from biomedical literature Proc EACL, 2006 [12] Chen J., Ji D., Tan L.C., and Niu Z Relation extraction using label propagation based semi-supervised learning, 2006 [13] Hammersley J and Clifford P Markov fields on finite graphs and lattices, 1971 [14] Lafferty J., McCallum A., and Pereira F Conditional random fields: Probabilistic models for segmenting and labeling sequence data, 2001 [15] Banko M and Etzioni O The tradeoffs between open and traditional relation extraction In Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics, pages 28–36, 2008 [16] Andrew Moore Hidden markov models tutorial slides [17] Chinchor N.A Overview of muc-7/met-2 [18] Sam R.C., Huong T.L., Thuy T.N., and The M.T Relation extraction in vietnamese text using conditional random fields a, 2009 [19] Joachims T Text categorixation with support vector machines: Learning with many relevant features, 1998 LS-8 Report 23 [20] Joachims T Transductive inference for text classification using support vector machines, 1999 65 4.4 TÀI LIỆU THAM KHẢO [21] Zhang Z Weakly supervised relation classification for information extraction, 2004 [22] Zhao Z and Grishman R Extracting relations with integrated information using kernel methods, 2005 [23] GuoDong Zhou and JianSu Named entity recognition using an hmmbased chunk tagger In Proceedings of the 40th Annual Meeting on Association for Computational Linguistics Laboratories for Information Technology, Singapore, 2002 66 ... KHOA HÀ NỘI - LÊ ANH DŨNG ỨNG DỤNG WEB NGỮ NGHĨA VÀO TRÍCH RÚT THƠNG TIN VỀ THƯƠNG MẠI ĐIỆN TỬ Chuyên ngành : Công nghệ thông tin LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN... 1.2 Chương luộc việc trích rút thơng tin từ văn vào sở liệu Hình 1.1: Ví dụ trích rút thơng tin 1.2 Các khó khăn với trích rút thơng tin Độ phức tạp xử lý trích rút thơng tin phụ thuộc yếu tố... Văn Nam’ thực thể loc ’Hà Nội’ 1.3.3 Ứng dụng trích rút mối quan hệ • Trích rút thông tin từ văn bản: Thông thường muốn trích rút thơng tin từ văn thơng tin người bao gồm: tên, địa chỉ, quan

Định dạng
Số trang	68
Dung lượng	1,04 MB