Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 55 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
55
Dung lượng
4,48 MB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ──────── * ─────── ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGÀNH CÔNG NGHỆ THÔNG TIN XÂY DỰNG HỆ THỐNG TRÍCH RÚT THÔNG TIN NHÀ ĐẤT Sinh viên thực : Nguyễn Thành Duy Lớp: VN – IS1 – K55 Giáo viên hướng dẫn: PGS.TS Lê Thanh Hương HÀ NỘI 7-2015 PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP Thông tin sinh viên Họ tên sinh viên: Nguyễn Thành Duy Điện thoại liên lạc: 0961084066 Email: nguyenduy2392@gmail.com Lớp: Việt Nhật IS1 Hệ đào tạo: Đại Học Đồ án tốt nghiệp thực tại: Đại Học Bách Khoa Hà Nội Thời gian làm ĐATN: Từ ngày 21 / /2015 đến 24 / 07 /2015 Mục đích nội dung ĐATN Xây dựng hệ thống rút trích thông tin từ website quảng cáo nhà đất Hệ thống bao gồm việc lấy thu thập tin quảng cáo nhà đất từ website quảng cáo tách lấy thông tin cần thiết từ quảng cáo giúp người xem nhanh chóng tìm thông tin cần thiết từ quảng cáo mà không cần thiết phải đọc đoạn văn quảng cáo dài Các nhiệm vụ cụ thể ĐATN - Tổng hợp quảng cáo nhà đất từ website quảng cáo nhà đất để thu tập liệu cần thiết - Thiết lập hệ thống phân tích từ để lấy trường thông tin hữu ích - Xây dựng chương trình demo đơn giản - Xây dựng website quảng cáo nhà đất với trường thông tin thu thập Lời cam đoan sinh viên: Tôi –Nguyễn Thành Duy- cam kết ĐATN công trình nghiên cứu thân hướng dẫn PGS.TS.Lê Thanh Hương Các kết nêu ĐATN trung thực, chép toàn văn công trình khác Hà Nội, ngày tháng năm Nguyễn Thành Duy Xác nhận giáo viên hướng dẫn mức độ hoàn thành ĐATN cho phép bảo vệ: Hà Nội, ngày tháng năm Giáo viên hướng dẫn Học hàm học vị+điền tên giáo viên hướng dẫn TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP Hiện nay, hầu hết người dựa vào internet để tìm kiếm nhu cầu Vì thế, quảng cáo trực tuyến làm tăng đáng kể khả tiếp cận bất động sản đến với khách hàng Một ưu điểm tuyệt vời quảng cáo online tiện dụng nhanh chóng Tuy nhiên có nhiều thời gian để tìm kiếm, đọc văn quảng cáo nhà đất dài để cân nhắc với nhu cầu Nắm bắt xu hướng đó, đồ án em, em đề xuất phát triển hệ thống tổng hợp trích rút thông tin văn quảng cáo nhà đất trực tuyến thành trường mà người đọc cần quan tâm, giúp người đọc giảm thiểu tối đa thời gian đọc tin quảng cáo nhà đất mà hiểu toàn nội dung quảng cáo Cấu trúc đồ án em gồm có chương sau : Chương : Định hướng vấn đề giải pháp Chương : Cơ sở lí thuyết Chương : Quá trình thu thập tập liệu Chương : Quá trình xử lý liệu Chương : Kết đạt MỞ ĐẦU Sự phong phú tăng trưởng không ngừng nguồn liệu mạng Internet mang lại cho người lượng thông tin khổng lồ, đặt vấn đề tìm kiếm chọn lọc thông tin Đối với cá nhân, tổ chức, việc cập nhật thường xuyên nguồn thông tin mạng Internet quan trọng, định đến hiệu quả, thành công lĩnh vực hoạt động Tuy nhiên, việc tìm kiếm thông tin phù hợp có giá trị người truy cập mạng Internet tốn thời gian liệu nằm phân tán mạng không xếp, phân loại mong muốn Do đó, việc tìm kiếm, rút trích thông tin có ý nghĩa từ Internet toán cần giải Vấn đề rút trích tự động thông tin phù hợp có giá trị người truy cập mạng Internet nhận nhiều quan tâm nhà công nghệ thông tin giới Bài toán nhận dạng thực thể văn toán quan trọng nhóm toán rút trích thông tin Nó có nhiệm vụ tìm kiếm phân loại thực thể như: thực thể người, thực thể địa điểm v.v… Trong đồ án này, em giới thiệu hệ thống nhận dạng thực thể văn tiếng Việt phát triển nguồn mở GATE (General Architecture for Text Engineering) Vậy nên, đồ án trường em Em đưa ý tưởng xây dựng hệ thống rút trích thông tin từ website quảng cáo nhà đất dựa hệ thống nhận dạng thực thể văn tiếng Việt phát triển nguồn mở GATE Hệ thống bao gồm việc lấy thu thập tin quảng cáo nhà đất từ website quảng cáo tách lấy thông tin cần thiết từ quảng cáo giúp người xem nhanh chóng tìm thông tin cần thiết từ quảng cáo mà không cần thiết phải đọc đoạn văn quảng cáo dài LỜI CÁM ƠN Trước hết, em xin gửi lời cảm ơn chân thành tới PGS.TS Lê Thanh Hương, người tận tình dạy dỗ hướng dẫn em trình hoàn thành đồ án học tập Đồng thời, em xin bày tỏ lòng biết ơn đến thầy cô giáo Viện Công nghệ thông tin Truyền thông – trường Đại học Bách Khoa Hà Nội, người tận tâm giảng dạy, truyền đạt cho chúng em kiến thức làm tảng cho việc thực đồ án trình công tác sau Em xin gửi lời cảm ơn tới anh chị trường Đại học Bách Khoa Hà Nội, bạn, em nhóm sinh viên nghiên cứu, người bên cạnh giúp đỡ, động viên em trình hoàn thành đồ án Cuối cùng, với tất kính trọng, xin bày tỏ lòng biết ơn sâu sắc tới bố mẹ anh chị em gia đình chỗ dựa tinh thần vững tạo điều kiện cho ăn học nên người Hà Nội, ngày 24 tháng năm 2015 Nguyễn Thành Duy Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1 Mục lục Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1 DANH MỤC HÌNH Hình : Kiến trúc hệ thống ………………………………………….…… 12 Hình : ANNIE - kiến trúc hệ thống rút trích thông tin GATE……….13 Hình 3: Kiến trúc hệ thống (bộ trích rút thông tin GATE-ANNIE Hình 2) …………………………………………………… …………………… 30 Hình : Kiến trúc xử lý liệu XML…………….…………………….… 37 Hình : Cơ sở liệu……………………………… …………….……… 40 Hình 6: Sơ đồ phân cấp chức website………… ………… …………41 Hình 7: Cài đặt wp-pipes wordpress…………………………… ……42 Hình : Các bước lấy thông tin web wp-pipes………………… 43 Hình 9: Nội dung lưu sở liệu………………………………… 44 Hình 10: Nội dung viết tách ra…………………………… … 45 Hình 11 : file lưu source nguồn Html tập liệu……………… …… 46 Hình 12: Giao diện làm việc với GATE………………………… …… ….46 Hình 13 :Chọn folder chứa tập tin HTML tập liệu.……….….48 Hình 14 :Load tập tin HTML………………………….……………… 48 Hình 15 :Bắt đầu chạy luật đễác định thực thể cần thiết tập tin HTML ……………………………………………….……………… ….49 Hình 16 : Các thực thể xác định………….…………………… …49 Hình 17 : Lưu kết sang file XML………….……………………… 50 Hình 18 :Các tập tin XML lưu lại folder data…….…………….50 Hình 19 :Đọc file XML lưu lại CSDL hiển thị kết lên Web……………………………………………………………………….…51 Hình 20 :Giao diện tin ……………………………… …… ….…… 52 Hình 21 : Nội dung tin gốc…………………………… …….…………53 Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1 DANH MỤC BẢNG Bảng 1: Phương pháp tiếp cận đề tài………………………………… ………… 15 Bảng 2: file JAPE chức xử lý……………………………… ……….47 Bảng : kết thực nghiệm …………………………………………………… 54 Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1 DANH MỤC CÁC TỪ VIẾT TẮT Chữ viết tắt Viết đầy đủ GATE General Architecture for Text Engineering ANNIE A Nearly-New Information Extraction System IE Information Extraction JAPE Java Annotation Patterns Engine Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1 PHẦN 1: ĐẶT VẤN ĐỀ VÀ ĐỊNH HƯỚNG GIẢI PHÁP Chương : Định hướng vấn đề giải pháp Định hướng vấn đề Nhà đất vấn đề quan trọng hàng đầu thành phố lớn, với nhu cầu nhà cao sinh viên người làm cần đáp ứng Với phát triển mạnh mẽ CNTT ta dễ dàng tìm kiếm thông tin nhà đất internet phương tiện truyền thông chúng chưa thực đáp ứng nhu cầu người dùng Thường tin quảng cáo nhà đất viết dạng text dài, không định rõ trường thông tin quan trọng giá nhà, địa chỉ, đường, Quận, Huyện … Vì mà website khả tìm kiếm theo giá, theo Quận Huyện, theo diện tích … Hơn biết đến đăng quảng cáo tất website tìm kiếm bất động sản nhiều website Điều gây nhiều bất tiện cho khách hàng có nhu cầu tìm kiếm bất động sản Vì đồ án em, em xây dựng hệ thống tổng hợp xử lý tin quảng cáo từ website khác để trích rút trường thông tin hữu ích cho website em Website khắc phục nhược điểm thiếu từ website quảng cáo bất động sản khác Hệ thống lấy liệu từ trang mạng rao vặt rongbay.com (Hình 1), lamchame.com/forum/ (Hình 2), enbac.com , batdongsan.com.vn, … Đầu vào tin phi cấu trúc (unstructured) , tức văn thẻ HTML manh mối để nhận dạng thực thể Và tin bán cấu trúc (semistructrured data), tức chúng không hoàn toàn phi cấu trúc không hoàn toàn có cấu trúc Ví dụ, tài liệu chứa vài trường có cấu trúc chẳng hạn tiêu đề, họ tên, địa , số điện thoại…nhưng chứa lượng lớn thành phần văn phi cấu trúc chẳng hạn phần miêu tả , tóm tắt… Website http://rongbay.com : Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1 10 Chương : Cài đặt kiểm thử Cài đặt Wp-pipes Để cài đặt wp-pipes trước hết cần cài đặt wordpress tải plugin Pipes store wordpress Giao diện wordpress thu hình Với cách lấy tin từ link RSS Trước hết cần phải lấy link RSS trang tin thông qua plugin RSS icon in url bar trình duyệt Các link RSS lấy có dạng http://rongbay.com/rss/Ha-Noi/c272_Thue-va-cho-thue-nha.rss , http://forumbatdongsan.com/forums/ban-chung-cu-can-ho-thuong.36/index.rss … Điền link RSS vào mục RSS Feed URL Phần pipe goes to here cọn Post để lấy post từ link Hình 7: Cài đặt wp-pipes wordpress Một số trang web có link RSS ta tổng hợp tin theo cách hay số website khác link RSS ta tổng hợp File Pipes Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1 41 Hình : Các bước lấy thông tin web wp-pipes Add a Processor, chọn Slug (Slug Processor for WPPipes) : Mục đích việc giúp lấy tiêu đề viết mà bạn cần lấy tin Input Fields, click chọn click me tiếp chọn Title để lấy tiêu đề viết Output Fields thấy gán giá trị po[0] slug Chú ý giá trị cột Output Fields tất phần định nguồn đầu vào tới viết website Add a Processor, chọn tiếp Duplicate (WPPipes Processor check Duplicate): Phần giúp kiểm tra viết xem có trùng tên với không viết trùng tên bỏ qua Input Fields bạn click chọn click me tiếp chọn tiếp Title kiểm tra tiêu đề viết Vẫn chuyên mục Add a Processor, chọn Get Fulltext (get_fulltext Processor for WPPipes) Wp Pipes tự động lấy full biết theo cấu trúc thiết lập sẵn [di] images chọn images tạipo[3] để lấy ảnh hosting Cuối chạy plugin Nội dụng viết tổng hợp bảng wp-post sở liệu wordpress Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1 42 Hình 9: Nội dung lưu sở liệu Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1 43 Hình 10: Nội dung viết tách HTTrack Website Copier Tiếp theo sử dụng phần mềm HTTrack Website Copier 3.48-21 http://www.httrack.com/ Sử dụng HTTrack Website Copier để tải toàn source nguồn trang web để lấy tập liệu html (hình 10) Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1 44 Hình 11 : file lưu source nguồn Html tập liệu Các bước xử lý với GATE sau chạy gate.exe có giao diện hình sau : Hình 12: Giao diện làm việc với GATE Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1 45 Add file *.jape cần thiết viết vào Processing Resource bao gồm có : Processing Resource ANNIE English Tokeniser ANNIE Gazetteer Mục đích Kiểu nhà Đối tượng Diện tích Công trình phụ jape tokeniser/postprocess.jape gazetteer/lists.def intention.jape type_house.jape renter.jape areas.jape secondary_structures.jape Giá nhà Thanh toán Địa Ngày đăng Tên Điện thoại Email costs.jape pay_kind.jape address.jape create_at.jape fullname.jape phone_number.jape email.jape Ý nghĩa luật tách văn thành token tạo từ điển xác định tiêu đề cho viết xác định loại nhà viết xác định đối tượng cho thuê, mua … xác định diện tích nhà cho thuê, mua xác định công trình phụ có khép kín hay không xác định giá cho thuê, mua xác định hình thức toán xác định địa nhà xác định ngày đăng viết xác định tên người đăng viết xác định số điện thoại liên hệ xác định email liên hệ Bảng 2: file JAPE chức xử lý Chọn Language resources tạo GATE Corpus chứa tập liệu đầu vào Click chuột phải vào Gate Corpus vừa tạo chọn populate để load toàn tập tin đầu vào vào corpus vừa tạo Hình 13 :Chọn folder chứa tập tin HTML tập liệu GATE tự động load tập tin vào hệ thống để xử lý Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1 46 Hình 14 :Load tập tin HTML Trong Application tạo new Conditional Corpus Pipeline để thục thi tập luật Hình 15 :Bắt đầu chạy luật đễác định thực thể cần thiết tập tin HTML Sau thực thi chương trình, thực thể xác định gán nhãn Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1 47 Hình 16 : Các thực thể xác định Như hình, thực thể địa chỉ, diện tích, giá nhà, số điện thoại … xác định gán nhãn cụ thể Các thực thể nhận dạng gán nhãn lưu lại file XML chờ xử lý bước Hình 17 : Lưu kết sang file XML Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1 48 Hình 18 :Các tập tin XML lưu lại folder data 10.Suy diễn liệu lưu vào sở liệu hiển thị Việc bóc tách tập tin xml xử lý liệu update sở liệu thực file get_data_from_xml.php Sau ngày thu thập tin lấy tin Người quản trị cần chạy HTTrack Website Copier để lấy tập liệu Sau thực bước xử lý với GATEANNIE phần Và cuối cần chạy update giao diện quảng trị Chức update đảm nhiệm hoàn toàn công việc xử lý liệu từ đầu trình xử lý liệu GATE để đưa tới sở liệu theo bảng hình Còn giao diện trang web hiển thị Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1 49 Hình 19 :Đọc file XML lưu lại CSDL hiển thị kết lên Web Hình 20 :Giao diện tin Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1 50 Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1 51 Hình 21 : Nội dung tin gốc 11.Nhận xét đánh giá Kết thực nghiệm 100 ghi : Thực thể Tiêu đề Loại nhà Đối tượng Diện tích Ngày đăng 88% Công trình phụ 100% Tỷ lệ thành công (%) 100% 100% 100% Thực thể Giá nhà Tỷ lệ thành công (%) 92% Hình thức toán 100% Địa Tên liên hệ Điện thoại Email 86% 91% 97% 100% 100% Bảng : kết thực nghiệm Nhận xét Nhận dạng thực thể sử dụng tập Gazetteer hoàn toàn đưa kết hoàn toàn tin cậy Sỡ dĩ sử dụng phương pháp gazetteer cho kết tốt danh sách gazetteer dễ dàng cập nhật theo văn phong người Việt Ngược lại ‘Địa chỉ’ lại cho kết không cao (86%) Nguyên nhân luật ‘jape’ em viết để nhận dạng thực thể địa chưa có khả nhận biết linh hoạt mối liên hệ trường ‘số nhà’ , ‘ngõ’ , ‘phường’ … gazetteer chưa thể cập nhật đầy đủ địa danh hay tên tòa nhà tên ngõ …Một phần lỗi viết (ko viết hoa tên địa danh , tên đường lỗi dấu câu , sai tả …) cần xử lý bước thu thập thông tin để thu kết xác Hơn trường diện tích, giá nhà cho kết không cao Nguyên nhân chủ yếu tin đầu vào chưa đảm bảo tin đơn Người đăng thường đăng liên tiếp nhiều bất động sản kèm theo giá diện tích tương ứng làm sai lệch kết tìm kiếm Một phần tin tồn nhiều nhập nhằng diện tích Vì người đăng viết chi tiết diện tích phòng, diện tích công trình mà không ghi rõ diện tích tổng thể gây sai lệch nhận dạng diện tích bất động sản tin quảng cáo Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1 52 Website em đáp ứng nhu cầu tìm kiếm nhà đất tổng hợp lại từ nhiều website quảng cáo nhà đất khác, tin update theo ngày Đưa tin nhất, đáp ứng nhu cầu tìm kiếm theo tên đường, Quận , theo khoảng giá khoảng diện tích, đơn tiêu chí kết hợp nhiều tiêu chí với kết tìm kiếm hoàn toàn xác Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1 53 KẾT LUẬN Nhận biết tầm quan trọng việc sử dụng tài nguyên trực tuyến lĩnh vực bất động sản nhằm phục vụ đời sống người, đồ án em trình bày thử nghiệm nhiều phương pháp khai phá nguồn liệu quan trọng nhằm mục đích tao nên tiện lợi, đơn giản hóa viết quảng cáo nhà đất, tiết kiệm thời gian cho người đọc Đồ án trình bày phương pháp, số công cụ … xây dựng hệ thống trích rút thông tin nhà đất tiếng việt Hệ thống mô tả tổng quát thực thể liệu bất động sản, làm tiền đề cho việc xây dựng mạng ngữ nghĩa cho toán tìm kiếm ngữ nghĩa Kết thực nghiệm sử dụng tập liệu tương đối khả quan Hướng nghiên cứu tương lai, em mở rộng hệ thống cách tự động, sử dụng phương pháp trích chọn đặc trưng, biểu thức quy dựa hệ luật để nâng cao hết hệ thống nhận dạng thực thể Em tiến tới việc trích rút ngữ nghĩa để hoàn thiện hệ thống thời gian tới Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1 54 TÀI LIỆU THAM KHẢO Khóa luận tốt nghiệp, Trần Thị Ngân, Trích chọn thông tin Trích chọn thông tin y tế tiếng Việt cho toán tìm kiếm ngữ nghĩa, Đại Học Quốc Gia Hà Nội Trường ĐHCN, 2009 Khóa luận tốt nghiệp, Nguyễn Cẩm Tú, Nhận biết loại thực thể văn tiếng Việt nhằm hỗ trợ Web ngữ nghĩa tìm kiếm hướng thực thể, ĐHCN, 5/2005 Khóa luận tốt nghiệp, Nguyễn Quốc Đạt, Phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt, Đại Học Quốc Gia Hà Nội Trường ĐHCN, 2009 Báo cáo : Rút trích thực thể quan hệ từ câu truy vấn https://www.google.com.vn/url? sa=t&rct=j&q=&esrc=s&source=web&cd=2&ved=0CDQQFjAB&url=http%3A %2F%2Fieproject.googlecode.com%2Fsvn%2Fwiki%2Freference%2FLV-ThSHa-2009_UIT %2FBaoCao_V8.doc&ei=9AVGU7PNLcXXkAWjuYDIAg&usg=AFQjCNGog MIaDO4hLEAqZgIdEoIsMWEnw&sig2=_QK22nOTRmv_DKNOjom5hg&bvm= bv.64507335,d.dGI&cad=rja Dr Karin Haenelt: Information Extraction - GATE, JAPE, ANNIE (2008) http://kontext.fraunhofer.de/haenelt/kurs/Referate/Hopp_Lin_Valiath_GATEJAPE-ANNIE-presentation.pdf Information extraction for Vietnamese estate advertisements – Phạm Vi Liên – ĐH Công Nghệ http://dl.vnu.edu.vn/bitstream/11126/1762/1/00051000058.pdf Báo cáo thực tập tốt nghiệp – Võ Đinh Duy , rút trích thông tin metadata từ báo khoa học, 6/2010 GATE, công cụ nghiên cứu xử lý văn http://www.thegioichu.com/Forum/tabid/58/forumid/22/threadid/529/scope/post s/Default.aspx Brandon Beamer, Alla Rozovskaya, Roxana Girju Automatic Semantic Relation Extraction with Multiple Boundary Generation University of Illinois at UrbanaChampaign, 2008, 10 Dr Karin Haenelt: Information Extraction - GATE, JAPE, ANNIE (2008) http://kontext.fraunhofer.de/haenelt/kurs/Referate/Hopp_Lin_Valiath_GATEJAPE-ANNIE-presentation.pdf 11 Luận văn thạc sĩ kỹ thuật, Nguyễn Hồ Hiếu, Ứng dụng kỹ thuật thu thập thông tin web để xây dựng hệ thống tổng hợp thông tin kinh tế xã hội, 2011 12 http://gate.ac.uk/ 13 http://wp-pipes.com/ 14 http://vi wikipedia.org/ Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1 55 [...]... các nhà nghiên cứu thuộc nhiều lĩnh vực của xử lý ngôn ngữ, đặc biệt là rút trích thông tin Nó được sử dụng cho nhiều dự án rút trích thông tin của nhiều ngôn ngữ và miền vấn đề Một ví Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1 18 dụ điển hình của hệ thống rút trích thông tin là ANNIE (A Nearly-New Information Extraction System) 2.3.1 ANNIE – Hệ thống rút trích thông. .. tin nhà đất của mình Kiến trúc hệ thống Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1 14 Hình 1 : Kiến trúc hệ thống 2.2 Tập dữ liệu sử dụng 2.2.1 Tập dữ liệu - thu thập thông tin trên web ( crawler) a Giới thiệu tổng quan về thu thập thông tin trên web Thu thập thông tin (Information Retrieval - IR) trên web tập trung vào việc khám phá một cách tự động nguồn thông tin. .. IS1 19 Hình 2 : ANNIE - kiến trúc hệ thống rút trích thông tin của GATE Tuy nhiên, GATE chưa hỗ trợ cho tiếng Việt, và văn phạm JAPE mà GATE cung cấp để rút trích thông tin chỉ là một ngôn ngữ tổng quát để đặc tả các mẫu nhận dạng Người phát triển ứng dụng có thể sử dụng JAPE để lập trình cho miền và cơ sở tri thức cụ thể của mình GATE chứa một hệ thống chiết xuất thông tin hoàn chỉnh có thể được sử dụng... System: Hệ thống trích rút thông tin tương đối mới) Rất nhiều người sử dụng nhận thấy rằng đây là điểm xuất phát lý tưởng cho ứng dụng của họ, và do đó ta cũng sẽ tìm hiểu về hệ thống này Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1 20 2 Chương 2 : Cơ sở lí thuyết 1 Giới thiệu về ANNIE ANNIE ( A Nearly – New Information Extraction System) là hệ thống rút trích thông tin. .. địa điểm “Mỹ Đức” 4.2 Xây dựng hệ thống nhận dạng thực thể trong văn bản tiếng Việt Xây dựng hệ thống nhận dạng thực thể trong văn bản tiếng Việt như một thành phần tích hợp (Plugin) trên GATE nhằm tận dụng những ưu điểm mà GATE mang lại Tham khảo kiến trúc của bộ ANNIE (một thành phần tích hợp có sẵn trong GATE) và phân tích hệ thống Kiến trúc hệ thống (Hình 1) Mô tả chi tiết hệ thống nhận dạng thực... nhận thấy có một hệ thống được sử dụng rộng rãi trên thế giới bởi cộng đồng các nhà nghiên cứu thuộc nhiều lĩnh vực của xử lý ngôn ngữ, đặc biệt là rút trích thông tin Nó được sử dụng cho nhiều dự án rút trích thông tin của nhiều ngôn ngữ, đó là GATE GẢE hỗ trợ phát triển phần mềm theo ba khía cạnh: • Kiến trúc phần mềm (Software Architecture) • Khung làm việc (Framework) – Giúp xây dựng hoàn chỉnh... để rút trích thông tin, qua đó người dung có thể sử dụng JAPE để lập trình cho vấn đề nghiên cứu của mình Ngoài ra hệ thống con ANNIE (A Nearly – New Information Extraction) của GATE gồm các công cụ xử lý chuyên sâu về xử lý ngôn ngữ tự nhiên như Unicode Tokeniser , FS Gazetteer Loopup, Sentence Tagger, Name Matcher … Vì vậy em đã sử dụng GATE (cụ thể là GATE developer) cho hệ thống trích rút thông tin. .. hệ thống như sau: Hình 3: Kiến trúc hệ thống (bộ trích rút thông tin GATE-ANNIE Hình 2) Dựa và kiến trúc hệ thống (Hình 3) Hệ thống được phân ra làm ba phần chính : • Tổng hợp tin • Xử lý dữ liệu trong ANNIE của GATE • Xử lý dữ liệu XML lưu vào cơ sở dữ liệu và hiển thị Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1 29 1 Tổng hợp tin (crawler) 4.3 Wp-pipes Để tổng hợp... của hệ thống Các văn bản sau khi được xử lý sẽ trở thành văn bản ở định dạng của GATE tức là gồm: nội dung văn bản, tập các nhãn (annotation) và tập các đặc trưng Sinh viên thực hiện: Nguyễn Thành Duy 20101250 Khóa: K55 Lớp: Việt Nhật – IS1 28 PHẦN 2 :XÂY DỰNG ĐỒ ÁN VÀ KẾT QUẢ ĐẠT ĐƯỢC 3 Chương 3 : Phân tích thiết kế hệ thống Trên cơ sở lý thuyết chương 1 chương 2, em đã xây dựng kiến trúc hệ thống. .. Information Extraction System) 2.3.1 ANNIE – Hệ thống rút trích thông tin trong GATE Hệ thống GATE-ANNIE : là một hệ thống con của GATE Framework (General Architecture of Text Engineering) một trong các dự án lớn nhất thuộc khoa Khoa học Máy tính, Đại học Sheffield của Anh Đây là hệ thống dựa trên các từ điển, Ontology và việc xây dựng luật để đánh dấu (annotation) các thành tố trong văn bản Việc xác