KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin TRÍCH CHỌN THÔNG TIN SẢN PHẨM VÀ DỊCH VỤ TỪ INTERNET VỚI AQL VÀ ỨNG DỤNG TRONG TÌM KIẾM THÔNG MINH Với ý tưởng xây dựng một hệ thống tìm kiếm thông minh cho các website thương mại điện tử hay các trang mua bán trực tuyến ứng dụng công nghệ trích chọn thông tin, tôi đề xuất bài toán: Trích chọn thông tin sản phẩm và dịch vụ từ Internet để làm nền tảng cho hệ thống. Để giải quyết bài toán này khóa luận chọn cách tiếp cận dựa trên luật sử dụng Annotation Query Language (AQL) – một cách tiếp cận vừa dễ thực hiện lại vừa đảm bảo đầy đủ các yêu cầu đối với một hệ thống trích chọn thông tin nói chung: độ chính xác, hiệu năng, tính minh bạch, khả năng mở rộng và tùy biến.
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Dương Quang Vũ TRÍCH CHỌN THÔNG TIN SẢN PHẨM VÀ DỊCH VỤ TỪ INTERNET VỚI AQL VÀ ỨNG DỤNG TRONG TÌM KIẾM THÔNG MINH KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Hà nội - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Dương Quang Vũ TRÍCH CHỌN THÔNG TIN SẢN PHẨM VÀ DỊCH VỤ TỪ INTERNET VỚI AQL VÀ ỨNG DỤNG TRONG TÌM KIẾM THÔNG MINH KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Cán hướng dẫn: TS Phan Xuân Hiếu Cán hướng dẫn: TS Trần Trọng Hiếu nghệ thông tin Hà nội - 2016 Cán đồng hướng dẫn: (nếu có - chữ thường, 14pt, đậm) VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY Duong Quang Vu PRODUCT AND SERVICE INFORMATION EXTRACTION FROM THE INTERNET WITH AQL AND ITS APPLICATON IN SMART SEARCH Supervisor: Dr Co-Supervisor: Phan Xuan Hieu Dr Tran Trong Hieu Ha noi - 2016 HA NOI - 20 LỜI CẢM ƠN Trước tiên, xin bày tỏ lòng biết ơn chân thành sâu sắc tới TS Phan Xuân Hiếu TS Trần Trọng Hiếu tận tình bảo, hướng dẫn, động viên giúp đỡ suốt trình thực đề tài Tôi xin gửi lời cảm ơn sâu sắc tới quý thầy cô giáo Khoa Công nghệ thông tin nói riêng trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội nói chung, truyền đạt kiến thức quý báu cho năm học đại học Tôi xin gửi lời cảm ơn chân thành tới anh chị, bạn em phòng nghiên cứu công nghệ tri thức khoa học liệu KT-Lab, đặc biệt thành viên nhóm MDN giúp đỡ nhiều việc hỗ trợ kĩ thuật chuyên môn để hoàn thành tốt khóa luận Tôi xin gửi lời cảm ơn sâu sắc tới người thân gia đình, bạn bè, người bên lúc khó khăn nhất, họ động viên tôi, khuyến khích truyền cảm hứng cho đường học tập Cuối cùng, xin gửi lời cảm ơn đến tất bạn thành viên lớp K57-CLC ủng hộ, giúp đỡ suốt bốn năm đại học thực đề tài Tôi xin chân thành cảm ơn! Hà Nội, Ngày tháng năm 2016 Sinh viên Dương Quang Vũ i LỜI CAM ĐOAN Tôi xin cam đoan khóa luận viết kĩ thuật sử dụng phần thực nghiệm thực hướng dẫn TS Phan Xuân Hiếu TS Trần Trọng Hiếu Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo khóa luận Trong khóa luận, việc chép tài liệu, công trình nghiên cứu người khác mà không rõ tài liệu tham khảo Hà Nội, ngày tháng năm 2016 Người cam đoan Dương Quang Vũ ii TÓM TẮT Tóm tắt: Trong năm gần với bùng nổ thông tin Internet, việc trích chọn thông tin trở nên ngày quan trọng mảng lớn ứng dụng doanh nghiệp phân tích liệu mạng xã hội, phân tích hồ sơ bệnh nhân, phân tích rủi ro tài chính, kinh doanh thông minh,… Với ý tưởng xây dựng hệ thống tìm kiếm thông minh cho website thương mại điện tử hay trang mua bán trực tuyến ứng dụng công nghệ trích chọn thông tin, đề xuất toán: Trích chọn thông tin sản phẩm dịch vụ từ Internet để làm tảng cho hệ thống Để giải toán khóa luận chọn cách tiếp cận dựa luật sử dụng Annotation Query Language (AQL) – cách tiếp cận vừa dễ thực lại vừa đảm bảo đầy đủ yêu cầu hệ thống trích chọn thông tin nói chung: độ xác, hiệu năng, tính minh bạch, khả mở rộng tùy biến Từ khóa: Trích chọn thông tin, tìm kiếm thông minh, AQL iii ABSTRACT Abstract: In recent years, along with the explosion of information on the Internet, Information extraction has become increasingly important for a wide range of Enterprise Applications such as Social data analysis, patient profile analysis, financial risk analysis, smart business and so on Deriving from the idea of building a smart searching system for e-commerce sites or online shopping sites using information extraction technology, I would like to propose the problem: Product and service information extraction from the Internet which is used as the foundation for the system To solve this problem, this thesis is going to offer an rule-based approach of using Annotation Query Language (AQL), which is not only undemanding to implement but also able to ensure a full range of requirements for general information extraction systems such as: accuracy, efficiency, transparency, scalability and customization Keywords: information extraction, smart seach, AQL iv Mục lục LỜI CẢM ƠN i LỜI CAM ĐOAN ii DANH SÁCH THUẬT NGỮ vii DANH SÁCH HÌNH VẼ viii DANH SÁCH BẢNG ix Mở đầu Chương Trích chọn thông tin sản phẩm dịch vụ từ Internet ứng dụng tìm kiếm thông minh 1.1 Bùng nổ thông tin cần thiết trích chọn thông tin 1.2 Tổng quan trích chọn thông tin 1.2.1 Khái niệm trích chọn thông tin 1.2.2 Các toán trích chọn thông tin 1.3 Ý tưởng tìm kiếm thông minh sử dụng trích chọn thông tin 1.4 Trích chọn thông tin sản phẩm dịch vụ từ Internet 1.4.1 Phát biểu toán 1.4.2 Những khó khăn toán Chương Cách tiếp cận cho toán trích chọn thông tin sản phẩm dịch vụ từ Internet 2.1 Một số cách tiếp cận 2.2 Các hệ thống trích chọn thông tin dựa luật 12 2.2.1 Tóm tắt lịch sử trích chọn thông tin sử dụng luật 12 2.2.2 Cách tiếp cận ngữ pháp sử dụng Common Pattern Specification Language 12 2.2.3 Cách tiếp cận đại số sử dụng Annotation Query Language (AQL) 15 2.2.4 So sánh cách tiếp cận đại số cách tiếp cận ngữ pháp 21 Chương Trích chọn thông tin với Annotation Query Language - AQL 23 3.1 Giới thiệu AQL 23 3.2 Cú pháp AQL 23 3.3 Một số lệnh AQL 27 Chương Thực nghiệm trích chọn thông tin đánh giá kết 35 4.1 Công cụ thực nghiệm 35 4.1.1 Giới thiệu InfoSphere BigInsights TextAnalytics 35 v 4.1.2 Cách thức hoạt động Framework 35 4.1.3 Cấu trúc project sử dụng Text Analytics Framework 36 4.2 Dữ liệu đầu vào 37 4.3 Xác định thực thể cần nhận dạng 38 4.4 Xây dựng từ điển hỗ trợ việc nhận dạng thực thể 39 4.5 Xây dựng luật để nhận dạng thực thể 40 4.6 Đánh giá kết 47 Kết luận 50 Kết đạt hạn chế 50 Định hướng tương lai 50 Tài liệu tham khảo 51 vi DANH SÁCH THUẬT NGỮ Tiếng Anh/Từ viết tắt Giải thích nghĩa/Cụm từ đầy đủ AQL Viết tắt Annotation Query Language CPSL Viết tắt Common Pattern Specification Language IE Viết tắt Information Extraction Regex Viết tắt Regular Expression span Một chuỗi đánh dấu số bắt đầu kết thúc token Tương đương với chữ tiếng Việt view Một view kết truy vấn AQL vii Thư viện Framework Thư mục chứa từ điển cần thiết Thư mục chứa tài liệu sau thích Thư mục chứa văn đầu vào File đầu môđun batdongsan sau biên dịch Thư mục lưu trữ mô-đun sau biên dịch Mô-đun AQL Các tệp AQL nơi khai báo luật để trích chọn thông tin Hình 4.2 Cấu trúc project sử dụng Text Analytics framework 4.2 Dữ liệu đầu vào Nguồn liệu: Dữ liệu đầu vào 1200 đăng (700 dùng để tìm luật 500 để đánh giá kết quả) lĩnh vực bất động sản mua bán nhà đất, cho thuê nhà, … thu thập từ hai trang web raovat.net chotot.vn Công cụ sử dụng để thu thập liệu Jsoup Đặc điểm liệu: Dữ liệu đăng tự người dùng nên đa dạng không tuân theo khuôn mẫu nào, vấn đề sai lỗi tả, việc viết hoa viết thường 37 tùy ý phổ biến Ngoài bị lỗi dính chữ (do thân người đăng lỗi trình thu thập) Tiền xử lý: Dữ liệu tiền xử lý để loại bỏ số lỗi dính chữ trình thu thập từ chuyển định dạng thống Định dạng liệu sau tiền xử lý sau Mỗi đăng bao gồm phần tiêu đề (title) phần nội dung (body) ngăn cách với dãy kí tự “##############” title: Căn hộ 50-60m2, phòng ngủ Hoàng Mai body: TÔi cần bán khẩn cấp hộ CT12A, hộ rấtđẹp, phòng ngủ, ban công tây Nam Giá: 1050 triệu Chính chủ, bao tên, chuẩn bị vào nhà CT12A ############## title: Nhà Phân Lô Thái Hà 52m2 ô tô chỗ vào nhà body: Gia đình cần tiền giải việc riêng bán gấpnhà phố Thái Hà - Đống Đa HN Về Tổng thể vị trí đắc địa: Cách mặt đương Thái Hà 10m Diện tích 52m2MT : 4,8m Đường to rộng ô tô camry để nhà vị trí đắcđịa đườngnhánh bé Giá Bán hữu nghị so với thị trường hiệntại Tỷ trăm 99 triệu (Thiện chíthương lượng)(gia đình thiện chí bán thiện chí đàm phán tốiđa giá để giải quyếtcho nhanh ).Đảm bảo xem Nhà thích Chỉ tiếpkhách mua thực Bán Gấp Trong Tuần Thôi mua nhanh LH : A Phú ############## 4.3 Xác định thực thể cần nhận dạng Các thực thể cần trích chọn phần thực nghiệm mô tả bảng 4.1 Bảng 4.1 Các thực thể cần trích chọn STT Mô tả Thực thể area Diện tích nhà, đất, sàn, … nói chung direction Phương hướng nói chung (bao gồm cửa, ban công, …) 38 email Địa email location Địa điểm numBedroom Số phòng ngủ numFloor Số tầng (tầng hầm, tầng dịch vụ, …) numWC Số nhà vệ sinh phone Số điện thoại: Số di động, số máy cố định price Giá nói chung (giá nhà, giá đất, giá dịch vụ điện, …) 4.4 Xây dựng từ điển hỗ trợ việc nhận dạng thực thể Các từ điển sử dụng để hỗ trợ trích chọn thông tin mô tả bảng 4.2 số từ điển nhỏ khác xây dựng trực tiếp trình viết luật Bảng 4.2 Các từ điển hỗ trợ trích chọn thông tin STT Tên từ điển Mô tả Direction.dict Chứa 12 từ hướng Ditrict.dict Chứa 713 tên quận, huyện nước SuffixesPrice.dict Chứa 15 từ hậu tố giá (tháng, năm, m2, ) ProjectName.dict Chứa 3738 tên dự án PreLocation.dict Chứa 85 từ tiền tố địa (số nhà, ngõ, đường, ) Province.dict Chứa 77 từ đại diện cho tên 64 tỉnh thành (gồm số từ viết tắt) UnitPrice.dict Chứa 25 từ thể đơn vị giá (chục, tỉ, triệu, ) Streetname.dict Chứa 1948 tên đường phố Hà Nội TP HCM 39 4.5 Xây dựng luật để nhận dạng thực thể Các luật tạo cách quan sát tập liệu gồm 700 đăng thu thập Thực thể area Ví dụ: 100 mét vuông; 20,3m2; 1.000 m2; 200m2 Đặc điểm: Thực thể area cấu tạo nên từ hai thành phần (100; 20,3; ) (mét vuông, m2, m 2, ) Nhưng kết hợp hai phần lại với xảy trường hợp kết bị chồng chéo (Ví dụ: 200m2 có trích chọn hai thực thể 200m2 200m2) Luật: Hình 4.3 Luật trích chọn thực thể area Mô tả luật: Dùng biểu thức quy để trích chọn span kì vọng phần giá trị Regex29: /\d+\s?[,.]?\d*(\s)?(trăm|tram|chục|chuc|ngàn|ngan|nghìn|nghin)?/ Dùng biểu thứ quy để trích chọn span kì vọng phần đơn vị Regex: /(m2|m 2|mét vuông|mét 2|met vuông|mét vuong |met vuong|met 2|ha|hecta|mẫu|km2)/ Kết hợp hai phần với với điều kiện token nằm 29 Viết tắt từ Regular Expression (Biểu thức quy) 40 Lọc kết kết bị chồng chéo lên nhau, loại bỏ kết phần kết khác Thực thể direction Ví dụ: hướng Đông, chếch Nam, hướng ĐN, ban công hướng tây, Đặc điểm: Ta nhận thấy thực thể direction cấu thành từ hai phần phần (hướng, chếch, ban công, cửa ) + (Đông, ĐN, ) Luật: Hình 4.4 Luật trích chọn thực thể direction Mô tả luật: Dùng từ điển PreDirection để trích chọn span kì vọng phần tiền tố Dùng từ điển Direction để trích chọn span kì vọng phần hướng Kết hợp hai phần với với điều kiện token nằm Thực thể email Ví dụ: vuuetk57@gmail.com, vudq_57@vnu.edu.vn, Đặc điểm: Vì email thực thể có định dạng rõ ràng nên cần dùng biểu thức quy bắt cách xác Luật: /[a-zA-Z][a-zA-Z0-9\_\.]{3,29}\@[a-z]{2,}(\.[a-z]{2,3})*/ 41 Mô tả luật: Email thường bắt đầu một chữ loạt kí tự chữ cái, số, dấu chấm “.” dấu gạch “_” Tiếp theo kí tự “@” phần đuôi chứa chữ dấu chấm “.” Thực thể location Ví dụ: đường Phạm Hùng, số 13B Phú Diễn, 144 Xuân Thủy-Cầu Giấy-Hà Nội, khu đô thị Linh Đàm, Đặc điểm: Đây thực thể phức tạp khó để bắt xác đăng viết tay người dùng viết hoa viết thường cách bất thường nên sử dụng chữ viết hoa để xác định danh từ riêng; kí tự ngăn cách dùng tùy ý (như đấu cách ‘ ’, dấu phảy ‘,’, dấu gạch ngang ‘-’) Ngoài dễ bị nhầm lẫn tên đường, quận huyện với tên người Qua trình phân tích liệu đầu vào ta đề số chiến lược để trích chọn thực thể sử dụng từ điển tên quận, huyện, tỉnh để bắt xác tên địa danh hành này; sử dụng từ điển start word với hi vọng xác định vị trí bắt đầu thực thể location, Luật: Hình 4.5 Luật trích chọn thực thể location Mô tả luật: Dùng từ điển PreLocation để trích chọn span kì vọng phần tiền tố bắt đầu thực thể location 42 Dùng từ điển District, Province để trích chọn span đại diện cho quậnhuyện, tỉnh tên đường Kết hợp chúng lại theo ba khuôn mẫu với số lượng token phép hình Gộp kết ba khuôn mẫu Lọc kết kết bị chồng chéo lên nhau, loại bỏ kết phần kết khác Thực thể numBedroom Ví dụ: phòng ngủ, 02 PN, phg ngủ, Đặc điểm: Thực thể numBedroom cấu thành từ hai thành phần Luật: Hình 4.6 Luật trích chọn thực thể numBedroom Mô tả luật: Dùng biểu thức quy để trích chọn tập span kì vọng số phòng Regex: /\d{1,2}/ Dùng biểu thứ quy để trích chọn tập span đại diện cho phòng ngủ Regex: (/((Phong|Phòng|phong|phòng|ph|Ph|phòn|phon|Phon|Phòn |phg|Phg)\s*(Ngủ|Ngu|ngu|ngủ|ng|Ng))|PN|Pn|pn/) Kết hợp hai tập với với điều kiện có kí tự trống nằm 43 Thực thể numFloor Ví dụ: 04 tầng, tầng hầm, 17tầng nổi, … Đặc điểm: Cơ numFloor cấu thành nên từ hai phần Ngoài cần phân biệt rõ tầm hầm, tầng nổi, … Luật: Hình 4.7 Luật trích chọn thực thể numFloor Mô tả luật: Dùng biểu thức quy để trích chọn tập span kì vọng số tầng Regex: /\d{1,3}/ Dùng biểu thứ quy để trích chọn tập span đại diện cho tầng Regex: /(Tầng|tầng|Tâng|Tâng|Tang|tang)\s?(hầm|hâm|ham |nổi|nôi|dịch vụ|dich vu|dịch vu|dich vụ)?/ Kết hợp hai tập với với điều kiện token nằm số tầng phải khác Lựa chọn kết thỏa mãn điều kiện không chứa kí tự ‘.’, ‘,’, ‘_’ Thực thể numWC Ví dụ: nhà vệ sinh, 02 wc, nvs, Đặc điểm: Thực thể numWC hoàn toàn tương tự thực thể numBedroom 44 Luật: Hình 4.8 Luật trích chọn thực thể numWC Mô tả luật: Dùng biểu thức quy để trích chọn tập span kì vọng số phòng Regex: /\d{1,2}/ Dùng biểu thứ quy để trích chọn tập span đại diện cho phòng vệ sinh Regex: /(Phong|Phòng|phong|phòng|ph|Ph|phòn|phon|Phon |Phòn|phg|Phg|Nhà|nhà|Nha|nha|nh|Nh)\s*(Vệ|Vê|vệ|vê|Ve |ve|v)\s*(Sinh|sinh|sin)|wc|Wc|WC|VS|Vs|vs/ Kết hợp hai tập với với điều kiện có kí tự trống nằm Thực thể phone Ví dụ: (+84)1676 244 000, 0975114789, 04 3822 2666, Đặc điểm: Số điện thoại gồm số máy bàn, số di động với nhiều cách viết khác Luật: Hình 4.9 Luật trích chọn thực thể phone 45 Mô tả luật: Dùng biểu thức quy để trích chọn tập span kì vọng số điện thoại Regex: /\d[\d\.\s]{9,13}/ Lựa chọn kết có chứa đầu số điện thoại Regex: /(0|\+84|\(\+84\))\s*(4|9|12|16)\d/ Thực thể price Ví dụ: tỉ 500 triệu VNĐ; 1,8 tỷ; 8tr/m2; 2-3 tỉ/căn; 240 000 000; Đặc điểm: Đây thực thể phức tạp cần trích chọn hết định dạng phải xác định rõ đơn vị tiền tệ có (VNĐ, USD); phải xác định hậu tối kèm (như /căn, / tháng, /m2, ) nhầm lẫn số điện thoại giá Luật: Hình 4.10 Luật trích chọn thực thể price Mô tả luật: Dùng biểu thức quy để trích chọn tập span đại diện cho số, liên từ (đến, tới, ‘-’) Dùng từ điển UnitPrice SuffixesPrice để xác định đơn vị (triệu, chục triệu, nghìn, ) hậu tố kèm (“/căn”, “1 tháng”, “/m2”, ) Nhóm chúng lại theo số mẫu kết hợp với tiền tố: 46 a b c d e f Lọc bỏ kết số điện thoại Lọc kết kết bị chồng chéo lên nhau, loại bỏ kết phần kết khác 4.6 Đánh giá kết Độ xác Phương pháp đánh giá dựa độ đo: độ xác (precison), độ hồi tưởng (recall) độ đo F1 (F1-measure) Đúng Sai Trích chọn TP FP Không trích chọn FN TN Trích chọn Đúng Độ xác (Precision - P): phân số thể tỷ lệ trích chọn mà Tỷ lệ tổng số câu trả lời tìm thấy với tổng số câu trả lời tìm thấy 𝑃= 𝑇𝑃 𝑇𝑃 + 𝐹𝑃 Độ hồi tưởng (Recall - R): phân số thể tỷ lệ thực thể trích chọn Tỷ lệ số lượng câu trả lời tìm thấy với tổng số câu trả lời 𝑅= 𝑇𝑃 𝑇𝑃 + 𝐹𝑁 P R thuộc khoảng [0, 1], kết tốt P R có liên quan ảnh hưởng lẫn Vì để xem xét hai thông số lúc người ta tìm cách kết hợp hai độ đo đề xuất độ đo mới, F-Measure (F) 47 (𝛽 + 1)𝑃𝑅 𝐹= 𝛽2𝑃 + 𝑅 Thông số β xác định mức độ tương quan độ hồi tưởng R (Recall) độ xác P (Precision) Các chuyên gia trích chọn thông tin thường sử dụng β = để đánh giá độ đo F Khi P R có trọng số F1 cân với P R Cụ thể sau gán nhán tập liệu gồm 500 đăng đối chiếu với kết trích chọn luật dây dựng, kết độ đo nêu thống kê lại bảng 4.3 Bảng 4.3 Kết thực nghiệm độ xác Người gán Trích chọn Trích chọn P (%) R (%) F1 (%) area 935 867 835 96.31 89.30 92.67 direction 169 162 145 89.51 85.80 87.62 email 82 82 82 100.00 100.00 100.00 location 1638 1534 723 47.13 44.14 45.59 numBedroom 207 205 193 94.14 93.24 93.69 numFloor 373 367 327 89.10 87.67 88.38 numWC 140 140 140 100.00 100.00 100.00 phone 117 117 117 100.00 100.00 100.00 price 528 442 427 96.61 80.87 88.04 Nhìn chung tập liệu luật nhận dạng tốt đặc biệt thực thể phone email thực thể có cấu trúc rõ ràng Bên cạnh thực thể location lại cho kết không kì vọng Có nhiều lí dẫn tới việc như: location thực thể đa dạng cách thể có nhiều địa danh viết tắt, luật dùng để bắt location chưa đủ mạnh; lỗi chung tập liệu thu thập bị sai lỗi tả nhiều, bị dính chữ lỗi mã hóa không 48 chuẩn UTF-8 khiến cho từ điển biểu thức quy bắt xác Hiệu Bảng 4.4 Kết thực nghiệm hiệu năng30 Kích cỡ Thời gian thực thi Bộ nhớ sử dụng ~ KB < 0.03 s ~ 15 MB 500 đăng ~ 0.3 MB < 0.5 s ~ 30 MB 1200 đăng ~ MB < 0.9 s ~ 32 MB đăng Bảng 4.4 thống kê hiệu trích chọn thông tin từ 1, 500 1200 đăng Qua cho thấy cách tiếp cận đại số sử dụng AQL có tốc độ thực thi nhanh và sử dụng tài nguyên hệ thống Vì hoàn toàn phù hợp để ứng dụng vào việc xây dựng hệ thống tìm kiếm thông minh Tóm tắt chương 4: Trong chương này, tiến hành thực nghiệm xây dựng luật trích chọn, xem xét đánh giá kết tập liệu gồm 500 đăng bất động sản Một số thực thể kết nhận dạng chưa cao phần lỗi liệu phần luật xây dựng chưa đủ tốt Điều hoàn toàn cải thiện cách tiếp tục cải tiến dần luật có Môi trường thực nghiệm đánh giá hiệu năng: Hệ điều hành Windows 10 Pro 64 bit, CPU Intel Core i5 – 3210M 2.5 GHz, RAM GB, ổ cứng HDD 512 GB 30 49 Kết luận Kết đạt hạn chế Trong khóa luận này, đề xuất phân tích tính tối ưu, phù hợp cách tiếp cận đại số nghiên cứu phát triển IBM sử dụng để xây dựng hệ thống trích chọn thông tin sử dụng luật Đồng thời, khóa luận tiến hành thực nghiệm xây dựng luật để trích chọn thông tin từ đăng dịch vụ liên quan đến lĩnh vực bất động sản qua đánh giá hiệu khả tùy biến thực tế cách tiếp cận Do hạn chế thời gian, nên luật xây dựng chưa đủ tốt số thực thể độ xác chưa cao; tập liệu để đánh giá kết chưa đủ lớn chưa so sánh thực tế với vài phương pháp trích chọn thông tin khác Định hướng tương lai Tiếp tục cải thiện để nâng cao độ xác luật xây dựng Xây dựng thêm luật trích chọn thông tin cho loại sản phẩm dịch vụ khác tiến tới áp dụng vào thực tế xây dựng hệ thống tìm kiếm thông minh 50 Tài liệu tham khảo [1] Jim Cowie and Yorick Wilk: Information Extraction In 1996 [2] Line Eikvil: Information Extraction from World Wide Web – A Survey Norwegian Computing Center, PB, Citeseer July 1999 [3] Yunyao Li, Elmer Kim, Marc A Touchette, Ramiya Venkatachalam, Hao Wang : VINERy: A Visual IDE for Information Extraction In 2015 [4] Laura Chiticariu - Yunyao Li - Frederick R Reiss: Rule-based Information Extraction is Dead! Long Live Rule-based Information Extraction Systems! In ACL 2013 [5] Douglas E Appelt, Boyan Onyshkevych: Common Pattern Specification Language In 1998 [6] Laura Chiticariu, Rajasekar Krishnamurthy, Yunyao Li, Sriram Raghavan Frederick, R Reiss Shivakumar, Vaithyanathan: SystemT: an Algebraic Approach to Declarative Information Extraction In ACL 2010 [7] Frederick Reiss, Sriram Raghavan, Rajasekar Krishnamurthy, Huaiyu Zhu, Shivakumar Vaithyanathan: An Algebraic Approach to Rule-Based Information Extraction In ICDE 2008 51 ... niệm trích chọn thông tin 1.2.2 Các toán trích chọn thông tin 1.3 Ý tưởng tìm kiếm thông minh sử dụng trích chọn thông tin 1.4 Trích chọn thông tin sản phẩm dịch vụ từ Internet. .. Chương Trích chọn thông tin sản phẩm dịch vụ từ Internet ứng dụng tìm kiếm thông minh 1.1 Bùng nổ thông tin cần thiết trích chọn thông tin 1.2 Tổng quan trích chọn thông tin ... Vũ TRÍCH CHỌN THÔNG TIN SẢN PHẨM VÀ DỊCH VỤ TỪ INTERNET VỚI AQL VÀ ỨNG DỤNG TRONG TÌM KIẾM THÔNG MINH KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Cán hướng dẫn: TS Phan Xuân Hiếu Cán