1. Trang chủ
  2. » Giáo Dục - Đào Tạo

NGHIÊN cứu KHAI PHÁ dữ LIỆU WEB và ỨNG DỤNG tìm KIẾM TRÍCH CHỌN THÔNG TIN tóm tắt LUẬN văn THẠC sĩ kỹ THUẬT đà nẵng năm 2012

26 69 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 836,11 KB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN ĐÌNH BÌNH NGHIÊN CỨU KHAI PHÁ DỮ LIỆU WEB VÀ ỨNG DỤNG TÌM KIẾM TRÍCH CHỌN THƠNG TIN THEO CHỦ ĐỀ Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2012 Cơng trình đƣợc hồn thành ĐẠI HỌC ĐÀ NẴNG Ngƣời hƣớng dẫn khoa học: PGS.TS Lê Văn Sơn Phản biện 1: PGS.TS Võ Trung Hùng Phản biện 2: GS.TS Nguyễn Thanh Thủy Luận văn bảo vệ Hội đồng chấm Luận văn tốt nghiệp Thạc sĩ Kỹ thuật họp Đại học Đà Nẵng vào ngày 19 tháng 01 năm 2013 * Có thể tìm hiểu Luận văn tại: - Trung tâm Thơng tin - Học liệu, Đại học Đà Nẵng - Trung tâm Học liệu, Đại học Đà Nẵng -1- MỞ ĐẦU Lý chọn đề tài Hơn bốn thập niên kể từ Internet đời nay, mang lại nhiều tiện ích hữu dụng cho người sử dụng như: hệ thống thư điện tử (Email), trò chơi (Game), trò chuyện trực tuyến (Chat), máy truy vấn liệu (Search engine), dịch vụ thương mại, y tế giáo dục… Sự phát triển nhanh chóng mạng Internet sinh khối lượng khổng lồ liệu dạng siêu văn (dữ liệu Web) Các tài liệu siêu văn chứa đựng văn thường nhúng liên kết đến tài liệu khác phân bố Web Ngày nay, Web bao gồm hàng tỉ tài liệu hàng triệu tác giả tạo phân tán qua hàng triệu máy tính kết nối qua đường hữu tuyến (dây điện thoại, cáp quang) đường vơ tuyến (sóng radio, xạ hồng ngoại hay sóng truyền qua vệ tinh) Web ngày sử dụng phổ biến nhiều lĩnh vực báo chí, phát thanh, truyền hình, hệ thống bưu điện, trường học, tổ chức thương mại, phủ…Chính lĩnh vực Web mining hay tìm kiếm thơng tin phù hợp có giá trị Web chủ đề quan trọng Data Mining vấn đề quan trọng đơn vị, tổ chức có nhu cầu thu thập tìm kiếm thơng tin Internet Các hệ thống tìm kiếm thơng tin hay nói ngắn gọn máy tìm kiếm Web thông thường trả lại danh sách tài liệu phân hạng mà người dùng phải tốn công chọn lọc danh sách dài để có tài liệu phù hợp Ngồi thơng tin thường phong phú, đa dạng liên quan đến nhiều đối tượng khác Điều tạo nên nhập nhằng gây khó khăn cho người sử dụng việc lấy thông tin cần thiết Có nhiều hướng tiếp cận khác để giải vấn đề này, hướng thường ý giảm nhập nhằng phương -2- pháp tìm kiếm trích chọn thơng tin hay thêm tùy chọn để cắt bớt thông tin hướng biểu diễn thơng tin trả máy tìm kiếm thành cụm, lớp người dùng dễ dàng tìm thơng tin mà họ cần Đã có nhiều thuật tốn phân cụm, phân lớp để tìm kiếm thông tin Tuy nhiên việc tập hợp tài liệu máy tìm kiếm q lớn ln thay đổi để phân cụm ngoại tuyến Do đó, việc phân cụm phải ứng dụng tập tài liệu nhỏ trả từ truy vấn thay trả danh sách dài thông tin gây nhập nhằng cho người sử dụng cần có phương pháp tổ chức lại kết tìm kiếm cách hợp lý Do vấn đề cấp thiết đề cập nên em chọn đề tài: "Nghiên cứu khai phá liệu Web Ứng dụng tìm kiếm trích chọn thơng tin theo chủ đề” Mục tiêu nhiệm vụ nghiên cứu Mục đích đề tài nghiên cứu áp dụng tìm kiếm trích chọn mẫu mới, hữu ích, hiểu được, tiềm ẩn Web Những thơng tin theo chủ đề nhanh, xác đầy đủ, thông tin tiềm ẩn bên nội dung trang Web thơng tin quan trọng hay luồng thơng tin tốt trang Web tìm kiếm trả kết phù hợp với yêu cầu người dùng Mục tiêu cụ thể sau: Nghiên cứu tìm kiếm Nghiên cứu kỹ thuật tìm kiếm Web Hiệu tìm kiếm cách nhanh chóng xác Web Thơng tin tìm kiếm Web đầy đủ ngun vẹn, động Nghiên cứu về trích chọn Những thơng tin cần khai thác tìm ẩn câu, vùng văn phân vùng trang Web -3- Những vấn đề khó khăn thực hiện việc trích chọn thơng tin chủ đề ẩn trang Web Đưa luồng thông tin theo chủ đề tốt để đáp ứng yêu cầu người sử dụng Ứng dụng thực tế Sử dụng quy trình khai phá dữ liệu Web v iệc tìm kiếm trích chọn thơng tin theo chủ đề trang Web vào thực tế để đáp ứng theo yêu cầu người dùng Lấy thơng tin q giá tìm ẩn bên trang Web đó, để đáp ứng nhu cầu tìm kiếm tối ưu cho người dùng Tìm kiếm trích chọn mẫu tri thức hấp dẫn (không tầm thường, ẩn, chưa biết hữu dụng tiềm năng) từ tập hợp lớn liệu để kết đạt đáp ứng yêu cầu xã hội Đối tƣợng phạm vi nghiên cứu: Đối tượng liệu khai phá kho liệu Web Cấu trúc đối tượng CSDL quan hệ, CSDL đa phương tiện, Dữ liệu dạng Text liệu Web Phạm vi nghiên cứu luận văn này, áp dụng thuật tốn Viterbi, Crawling, Markov, Apriori … Cơng cụ hỗ trợ dữ liệu với ngôn ngữ Java hệ quản trị sở dữ liệu MySQL, máy tìm kiếm Google, Yahoo… Đề xuất khai phá liệu Web dựa lý thuyết xác suất ( điển hình mơ hình xác suất Bayes, mơ hình Markov ẩn, mơ hình trường ngẫu nhiên có điều kiện…) việc tìm kiếm, trích chọn thử nghiệm thực tế với mợt sở dữ liệu có sẵn Web Đề tài thuộc loại hình khai phá liệu Phƣơng pháp nghiên cứu Phương pháp thống kê - phân tích Phương pháp lịch sử -4- Phương pháp so sánh - đối chiếu Phương pháp cấu trúc - hệ thống Thu thập phân tích tài liệu thơng tin liên quan đến đề tài Thảo luận, lựa chọn phương hướng giải vấn đề Triển khai xây dựng khai phá liệu Kiểm tra, thử nghiệm đánh giá kết trình khai phá Bố cục luận văn Sau phần mở đầu, giới thiệu…, nội dung luận văn chia thành chương sau: Chương 1, Tổng quan khai phá liệu Web, trình bày sở lý thuyết làm tảng để xây dựng ứng dụng, bao gồm: Khai phá liệu phá tri thức, mơ hình tốn học thường dùng toán khai phá liệu Web Chương 2, Hệ thống tìm kiếm trích chọn thơng tin Web, tìm hiểu, giới thiệu phân tích hệ thống máy tìm kiếm Vietseek, kiến trúc Google mức cao hệ thống trích chọn thơng tin dự mơ hình phân cụm, gán nhãn,CRFs, LDA thuật toán Viterbi, nêu vấn đề hạn chế đề xuất giải pháp khắc phục, giải pháp ứng dụng tìm kiếm trích chọn thơng tin theo chủ đề nhằm giải toán đặt Chương 3, trình bày chi tiết mơ hình kiến trúc tổng thể hệ thống phương pháp xây dựng ứng dụng Tiến hành kịch thử nghiệm số liệu thực tế, sau đánh giá kết đạt khả triển khai ứng dụng toàn hệ thống Cuối phần đánh giá, kết luận hướng phát triển đề tài -5- CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU WEB 1.1 KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC 1.1.1 Tại lại khai phá liệu 1.1.2 Định nghĩa khai phá liệu Định nghĩa 1: (Frawley, Piatetski – Shapiro Matheus) Phát tri thức sở liệu (đơi gọi khai phá liệu) q trình khơng tầm thường nhận mẫu có giá trị, mới, hữu ích tiềm hiểu liệu Định nghĩa 2: Khai phá liệu (datamining) Khai phá liệu q trình trích thơng tin dùng được, chưa biết trước từ sở liệu lớn, dùng thông tin để định Giáo sư Tom Mitchell đưa định nghĩa KPDL sau: “KPDL việc sử dụng liệu lịch sử để khám phá qui tắc cải thiện định tương lai.” Với cách tiếp cận ứng dụng hơn, Tiến sĩ Fayyad phát biểu: “KPDL, thường xem việc khám phá tri thức sở liệu, trình trích xuất thơng tin ẩn, trước chưa biết có khả hữu ích, dạng qui luật, ràng buộc, qui tắc sở liệu.” Ngoài theo tài liệu Weldon năm 1996, khai phá liệu việc phát tri thức nhờ cơng cụ hồn thiện sử dụng thống kê truyền thống, trí tuệ nhân tạo đồ họa máy tính Nói tóm lại, KPDL q trình học tri thức từ liệu thu thập 1.1.3 Quá trình khai phá tri thức (KDD) Quá trình khai phá liệu tiến hành qua giai đoạn hình 1.1, -6- Bắt đầu trình kho liệu thơ kết thúc với tri thức chiết xuất 1.1.4 Các hƣớng tiếp cận kỹ thuật áp dụng khai phá liệu 1.1.5 Phân loại hệ thống khai phá liệu 1.1.6 Những vấn đề trọng ứng dụng khai phá liệu 1.2 CƠ SỞ DỮ LIỆU FULLTEXT VÀ HYPERTEXT 1.2.1 Cơ sở liệu Fulltext 1.2.2 Cơ sở liệu HyperText 1.2.3 So sánh đặc điểm liệu Fulltext liệu trang web 1.3 KHAI PHÁ DỮ LIỆU VĂN BẢN (TEXTMINING) VÀ KHAI PHÁ DỮ LIỆU WEB (WEBMINING) 1.3.1 Khai phá liệu văn 1.3.2 Khai phá liệu Web Khai phá Web việc trích chọn thành phần quan tâm hay đánh giá có ích thông tin tiềm từ tài nguyên hoạt động liên quan tới World Wide Web -7- Chƣơng 2: HỆ THỐNG TÌM KIẾM VÀ TRÍCH CHỌN THƠNG TIN TRÊN WEB 2.1 HỆ THỐNG TÌM KIẾM 2.1.1 Nhu cầu 2.1.2.Máy tìm kiếm 2.1.3 Module Crawler máy tìm kiếm 2.1.4 Các thuật tốn crawling 2.1.5 Phân tích đánh số Theo ơng Sergey Brin Lawrence Page trình bày cụ thể quan điểm nhà thiết kế máy tìm kiếm Google: - URLserver: gửi danh sách URL Webpage đưa cho crawler phân tán - Các crawler: Tải nội dung Webpage gửi cho StoreServer - StoreServer: nén lưu Webpage lên đĩa (vào kho chứa) - Indexer có chức năng:  Đọc tài liệu từ kho chứa  Giải nén  Gọi Parser để phân tích cú pháp đưa trang Web - Index Sorter: gán DocID cho Web page (DocID gán Parser phát URL mới) - Mỗi tài liệu  Được biến đổi thành tập xuất từ khóa (gọi hit)  Hit: từ khóa, vị trí tài liệu, font (cỡ, ), hoa/thường Indexer  Phân bố hit thành tập “barrel” lưu trữ số xếp - Indexer:  Phân tích siêu liên kết -8-  Lưu thông tin quan trọng file “anchor” cho phép xác định • Nguồn, đích siêu liên kết • Nội dung văn siêu liên kết 10 11 7b 13 Hình 2.6 Kiến trúc Google mức cao - Sinh từ điển tra cứu từ khóa: Văn siêu liên kết:  Nhiều hệ gắn vào trang nguồn  Google gắn vào trang đích lợi ích  Cho thơng tin xác hơn, chí trang web • “tóm tắt” • “qua chuyên gia xử lý”  Index cho trang web  “Khơng văn bản” (ảnh, chương trình, CSDL )  Xử trí trường hợp trang web chưa tồn  Lấy văn anchor làm “nội dung”! -10- lấy thông tin từ nguồn định dạng không đồng chuyển thành dạng đồng Dữ liệu sau trích chọn sử dụng, trình bày trực tiếp cho người dùng, lưu vào sở liệu để xử lý sau hay sử dụng cho hệ thống tìm kiếm thơng tin liệu qua bước tiền xử lý b Phân loại hệ thống trích chọn thơng tin từ web Ngày nay, có nhiều hệ thống trích chọn thơng tin từ web nhà phát triển nghiên cứu xây dựng Các tiêu chí để phân loại hệ thống trích chọn thơng tin từ web sau: Dựa vào mức độ can thiệp người trình trích chọn thơng tin: hệ thống trích chọn thơng tin chia làm loại: thủ cơng, có giám sát, bán giám sát khơng giám sát Trong đó, hệ thống hồn tồn tự động, khơng có can thiệp người nhà nghiên cứu quan tâm Dựa vào tầng liệu trích chọn: trang web có nhiều trang HTML, trang HTML có nhiều record record có nhiều thuộc tính Do đó, dựa vào kết thơng tin trích chọn tầng nào, hệ thống trích chọn chia làm loại: tầng thuộc tính (attribute), tầng record, tầng trang HTML (page) tầng trang web (site) Hiện hệ thống xử lý tầng thuộc tính record chiếm đa số Và nay, chưa thấy xuất hệ thống trích chọn thơng tin tầng site Dựa vào phương pháp trích chọn thơng tin: Các hệ thống trích chọn thơng tin chia thành dạng: • Các hệ thống dựa phương pháp thủ công: sử dụng phương pháp gán nhãn, cách lấy thông tin trực tiếp từ sở liệu từ dịch vụ web (web service) -11- • Các hệ thống dựa phương pháp heuristic: Các phương pháp thống kê, tập luật, sử dụng mẫu thông tin, dựa vào cấu trúc cây,… sử dụng để trích chọn thơng tin • Các hệ thống dựa phương pháp học: Sử dụng phương pháp mơ hình Markov, CRFs, ngữ nghĩa, học cấu trúc cây,… để giúp cho hệ thống hiểu trích chọn thơng tin xác 2.2.2 Khuynh hƣớng phát triển khai phá liệu Web theo chủ đề Bài toán mà ông Rich Caruana cộng giải mô tả sơ sau: Cho trước tập hợp (khoảng 300000) tài liệu khoa học cần phát chủ đề khoa học chủ chốt qua dự báo xu hướng nghiên cứu, phát triển chủ đề khoa học thuộc lĩnh vực khoa học máy tính Giải pháp tiến hành khơng cần khai thác dẫn cơng trình mà cần sử dụng nội dung cơng trình, hình sau mơ tả kết nghiên cứu phát 13 cụm chủ đề cung cấp ý tưởng xu hướng phát triển 13 cụm chủ đề Trong nghiên cứu tốn trên, GS John E Hopcroft chuyên gia hàng đầu nước Mỹ lĩnh vực CNTT trình bày hướng phát triển khoa học máy tính Ơng đề cập tới số yếu tố bật tương lai tác động tới chuyển biến khoa học máy tính Từ nội dung văn cơng trình nghiên cứu, nhận tên tác giả, tài liệu tham khảo, tên tạp chí, hội thảo… Ơng Rich Caruana cộng đặt mục tiêu cần hướng tới: • Tìm diễn biến q trình phát triển theo thời gian chủ đề khoa học theo số tiêu chí tỷ lệ tài liệu theo -12- chủ đề, chủ đề bật mới, thời điểm chủ đề cụ thể đạt đỉnh cao nhất, chủ đề tàn lụi …để tìm chủ đề có vai trò chủ chốt tập hợp chủ đề • Nhận biết tài liệu có uy tài liệu giới thiệu ý tưởng có số ảnh hưởng lớn • Nhận biết tác giả có uy tác giả có ảnh hưởng lớn phát triển chủ đề Nhìn vào biểu đồ hình 2.8 cho thấy: Hình 2.8 Tình hình phát triển số nhóm chủ đề khoa máy qua phân cụm tài liệu khoa học + Một số nhóm chủ đề nghiên cứu giai đoạn phát triển tốt nhóm 10 (Bayesian, mixture, posterior, likelihood, em), nhóm (Spike, spikes, firing, neuron, neurons) nhóm (Image, images, object, face, video) + Một số nhóm chủ đề nghiên cứu phát triển song có xu hướng chững lại nhóm 12 (chip, circuit, analog, voltage, vlsi), nhóm (units, node, training, nodes, tree) -13- + Các nhóm lại phát triển bình thường Đặc biệt nhóm chủ đề 12 chững lại song có số lượng lớn cơng trình nghiên cứu cơng bố 2.2.3 Thuật toán Viterbi Thuật toán Viterbi mang tên tác giả Andrew Viterbi, thuật toán quy hoạch động nhằm tìm dãy tương tự trạng thái ẩn, ứng dụng phổ biến để giải toán giải mã Khi sử dụng phương pháp máy trạng thái hữu hạn, đặc biệt toán trích chọn thơng tin Web Nội dung thuật tốn có kết hợp nội dung đồ thị xác suất Thuật tốn Viterbi coi tìm đường ngắn dọc theo đồ thị là: Input: Z=z1, z2, …, zn // dãy quan sát đầu vào Khởi tạo: K // số lặp S(c1) c1 L(c1) // Biến chứa tổng độ dài, khởi tạo Đệ quy: Repeat For chuyển t k=(ck, ck+1) L(ck, ck+1) L(ck) + L[t k=( ck, ck+1)] theo ck Tìm L(ck+1)= minL(ck, ck+1) For ck+1 Lưu L(ck+1) vết S(ck+1) tương ứng k k +1 Until k = n 2.2.4 Mơ hình trƣờng ngẫu nhiên (Conditional Random Fields – CRFs) -14- 2.2.5 Mơ hình phân cụm gán nhãn cụm với chủ đề ẩn a Độ tương đồng câu phương pháp  Độ tương đồng câu  Các phương pháp tính độ tương đồng câu  Phương pháp tính độ tương đồng câu sử dụng độ đo Cosine  Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn Mỗi câu có nhiều phân phối xác suất topic Với hai câu thứ i j, sử dụng độ đô cosine để tính độ tương đồng hai câu làm giàu với chủ đề ẩn Cuối cùng, tổ hợp hai độ đo để độ tương đồng hai câu: Sim(si , sj ) = λxSim(topic - parts) + (1 - λ )xSim(word - parts) Trong công thức trên, λ số trộn, thường nằm đoạn [0,1] Nó định việc đóng góp độ đo tương đồng Nếu λ = , độ tương đồng hai câu khơng có chủ đề ẩn Nếu λ = 1, đo độ tương đồng hai câu tính với chủ đề ẩn 2.2.6 Mơ Hình Latent Dirichlet Allocation (LDA) a Phân tích thơng tin chủ đề dựa mơ hình chủ đề LDA Phân tích chủ đề cho văn nói riêng cho liệu Web nói chung có vai trò quan trọng việc “hiểu” định hướng thông tin Web Khi ta hiểu trang Web có chứa chủ đề hay thơng tin dễ dàng cho việc xếp loại, xếp, tóm tắt nội -15- dung trang Web Trong phân lớp văn bản, văn thường xếp vào lớp cụ thể Trong phân tích chủ đề, giả sử văn đề cập đến nhiều chủ đề (K chủ đề) mức độ liên quan đến chủ đề biểu diễn phân phối xác suất của tài liệu chủ đề Hình 2.13 Tài liệu với K chủ đề ẩn Mơ hình sinh LDA Theo Blei, Ng [8], dù pLSA bước tiến việc mơ hình hóa text theo xác suất chưa hồn thiện Lí pLSA chưa phải mơ hình xác suất xác định rõ ràng mức văn (document) Hệ gặp vấn đề xác định xác suất với văn nằm tập huấn luyện (trainning set) Hơn nữa, dẫn tới việc tăng tuyến tính số tham số mơ hình so với độ lớn tập văn (corpus) LDA mô hình phân tích chủ đề xử lý vấn đề Vì tơi chọn LDA để sử dụng khóa luận Hình 2.14 giới thiệu bước tiến trình sinh LDA -16- Hình 2.14 Tiến trình sinh văn LDA Phân phối Dirichlet ẩn (Latent Dirichlet Allocation) LDA mô hình sinh văn giới thiệu Blei, Ng cộng [8] với pLSA ý tưởng dựa việc coi văn pha trộn chủ đề Nhưng LDA mơ hình Bayes ba mức: mức corpus, mức văn (document), mức từ (word) Hình 2.15 & 2.16 mơ tả tiến trình sinh văn phương pháp LDA: Hình 2.15 Kí hiệu khối lặp lại -17- Cho corpus M tài liệu biểu diễn D={d1,d2, …, dM}, đó, tài liệu m corpus bao gồm Nm từ wi rút từ tập Vocabulary term {t 1, …, tv}, V số từ LDA cung cấp mơ hình sinh đầy đủ kết tốt phương pháp trước Quá trình sinh document sau: Hình 2.16 Mơ hình biểu diễn LDA Các kí hiệu: Các khối hình vng hinh 18 biểu diễn trình lặp Tham số đầu vào: α β ( tham số mức corpus)  α : Dirichlet prior on m  β : Dirichlet prior on k M : số văn corpus: D = {d1 ,d2 , ,dM } K : số chủ đề ẩn V : số từ tập từ vựng Nm : Số lượng từ tài liệu thứ m (hay gọi độ dài văn dm) zm,n : chủ đề từ wn văn dm ( hay số chủ đề) wm,n : từ thứ n văn dm zm,n  { m}kk (KxV matrix) -18-  m:  Phân phối topic document thứ m, m biểu diễn tham số cho p(z|d=m), thành phần trộn topic cho tài liệu m Một tỷ lệ cho tài liệu  { m}mM (MxK matrix)   m : phân phối từ sinh từ chủ đề zm,n m biểu diễn tham số cho p(t|z=k), thành phần trộn topic k, tỷ lệ cho topic  LDA sinh tập từ wm,n cho văn d m cách:  • Với văn m, sinh phân phối topic m cho văn theo Dir(α) • Với  từ, zm,n lấy mẫu dựa vào phân phối topic Mult( m )  • Với topic index zm,n, dựa vào phân phối từ k , wm,n, sinh Ƣớc lƣợng giá trị tham số inference thơng qua Gibbs Sampling cho mơ hình LDA Ước lượng tham số cho mơ hình LDA phương pháp cực đại hóa hàm likelihood trực tiếp cách xác có độ phức tạp thời gian cao khơng khả thi thực tế Hình 2.18 Ƣớc lƣợng tham số tập liệu văn -19- Người ta thường sử dụng phương pháp xấp xỉ Variational Methods Gibbs Sampling Gibbs Sampling xem thuật toán nhanh, đơn giản, hiệu để huấn luyện LDA Cho trước tập văn bản, tìm xem topic model sinh tập văn Bao gồm:  - Tìm phân phối xác suất tập từ topic m  - Tìm phân phối topic tài liệu m CHƢƠNG ỨNG DỤNG VÀ THỰC NGHIỆM 3.1 ỨNG DỤNG 3.1.1 Ứng dụng tìm kiếm trích chọn theo chủ đề đƣợc lƣu kho liệu Trong kho CSDL chứa chủ đề ẩn xác suất chủ đề xác định theo mật độ ưu tiên • Bộ tách từ làm nhiệm vụ nhập vào câu truy vấn phân tích câu truy vấn thuộc chủ đề ẩn • Chủ đề ẩn câu truy vấn có nhiệm vụ phân tích câu truy vấn thuộc loại chủ đề có mật độ xác xuất cao để ưu tiên theo thứ tư tăng dần, hiển thị danh sách theo chủ đề có trích chọn 3.1.2 Ứng dụng tìm kiếm trích chọn theo chủ đề đƣợc lƣu kho CSDL Internet Pha tương tác với máy tìm kiếm Google Pha tiền xử lý liệu Pha xếp văn câu theo độ quan trọng Pha sinh văn tóm tắt Trong pha sinh văn tóm tắt, câu xếp xếp pha xếp lại Trọng số độ quan trọng -20- câu bổ sung thêm trọng số văn chưa câu đấy, việc giúp văn tóm tắt khơng có chồng chéo mặt nội dung ScoreTotal cơng thức tính lại độ quan trọng câu: ScoreTotal(sk)=( λ*Score(sk)+(1- λ)* Score(Di)) - Sk: câu cần tính độ quan trọng - Di: văn chưa sk - Score(sk), Score(Di): trọng số độ quan trọng sk Di tính pha trước - λ: số trộn nằm ngưỡng [0,1] thể đóng góp hai độ đo Score(sk) Score(Di) (Các số ước lượng trình thực nghiệm) -21- 3.2 THỰC NGHIỆM 3.2.1 Mơi trƣờng thực nghiệm 3.2.2 Một số giao diện chƣơng trình Cơng cụ tìm kiếm trích chọn thơng tin theo chủ đề “Chung tay xây dựng thành phố xanh đẹp” lấy từ tài liệu Internet lưu trữ vào kho liệu theo chủ đề ẩn Cơng cụ tìm kiếm trích chọn chủ đề “Chung tay xây dựng thành phố xanh đẹp” Internet -22- KẾT LUẬN KẾT QUẢ ĐẠT ĐƢỢC Về mặt khoa học Luận văn tiến hành phân tích, tìm hiểu quy trình khai phá liệu Web Phát vấn đề hạn chế để đề xuất đưa giải pháp nhằm có phương án khắc phục để nâng cao hiệu công việc tìm kiếm trích chọn thơng tin theo chủ đề nhanh xác Nắm phương pháp mơ hình tốn học đồ thị, xác suất Bayes mơ hình biểu diễn liệu văn bản, CRFs, LDA… Áp dụng để giải yêu cầu luận văn đặt Nghiên cứu vận dụng giải thuật crawl, k-means, Viterbi… để xây dựng mơ hình khai phá liệu Web theo chủ đề Về mặt thực tiễn Luận văn nêu giải pháp kỹ thuật để xây dựng hệ thống trợ giúp định nắm bắt luồng thông tin tốt công tác quản lí kinh danh Tìm kiếm trích chọn thông tin Web theo chủ đề giúp có nhìn tổng thể, biết bật khứ, đâu xu hướng thông tin đâu hướng nỗi lên tương lai gần Tổng hợp thông tin hướng chủ đề Web giúp xếp lại thông tin theo dõi luồng thông tin tốt Xây dựng ứng dụng có khả phân tích tốt liệu nhà trường năm qua chủ đề Tìm diễn biến trình phát triển theo thời gian chủ đề đó, theo số tiêu chí tỷ lệ tài liệu theo chủ đề, chủ đề bật mới, thời điểm chủ đề cụ thể đạt đỉnh cao nhất, chủ đề tàn lụi …để tìm chủ đề có vai trò chủ -23- chốt tập hợp chủ đề Hệ thống giúp cho tìm kiếm trích chọn thơng tin nhanh xác, giúp cho ban giám hiệu nhà trường lãnh đạo đơn vị liên kết định cách kịp thời, khoa học, tránh tình định theo cảm tính nhằm hạn chế trường hợp đưa định sai không hiệu dẫn đến thiệt hại kinh tế, lãng phí thời gian tiền bạc người học Có thể nói, cơng cụ hữu ích nhằm cung cấp cho đơn vị nắm chủ đề thời bật, có thêm giải pháp hỗ trợ cơng tác quản lí sau HẠN CHẾ Hệ thống tương tác liệu lưu trữ kho liệu Google, chưa kết nối truy xuất liệu trực tiếp đến sở liệu Yahoo, MSN, Altavista Do cần khoảng thời gian để khai phá kho liệu HƢỚNG PHÁT TRIỂN Nghiên cứu cải tiến hệ thống thông qua giải pháp thu nhận đánh giá phản hồi người dùng chất lượng tìm kiếm trích chọn thơng tin theo chủ đề để chất lượng tìm kiếm định hướng tới người dùng Cải tiến trình lưu trữ đánh mục để tăng tốc cho việc tìm kiếm trích chọn thơng tin, qua tăng tốc độ trả lời câu hỏi cho mơ hình hỏi đáp tiếng Việt, Xây dựng triển khai hệ thống hỏi đáp tiếng Việt cho người sử dụng Tự động phân lớp trang web tiếng Việt bổ sung thêm vào chủ đề Tìm kiếm trích chọn thơng tin Web theo chủ đề giúp có nhìn tổng thể, biết bật khứ, đâu xu hướng thông tin đâu hướng -24- nỗi lên tương lai gần Tổng hợp thông tin hướng chủ đề Web giúp xếp lại thông tin theo dõi luồng thông tin tốt hơn, giúp cho nhà quản lý đưa định nhà kinh tế dự báo trước rủi ro xảy Mơ hình LDA hướng phát triển lên mơ hình SAM để tăng hiệu quả, đầy đủ khái quát cho việc thực phân tích từ tập liệu văn giám sát hoàn toàn phi giám sát ... đặc điểm liệu Fulltext liệu trang web 1.3 KHAI PHÁ DỮ LIỆU VĂN BẢN (TEXTMINING) VÀ KHAI PHÁ DỮ LIỆU WEB (WEBMINING) 1.3.1 Khai phá liệu văn 1.3.2 Khai phá liệu Web Khai phá Web việc trích chọn thành... việc trích chọn thông tin chủ đề ẩn trang Web Đưa luồng thông tin theo chủ đề tốt để đáp ứng yêu cầu người sử dụng Ứng dụng thực tế Sử dụng quy trình khai phá dữ liệu Web v iệc tìm kiếm trích chọn. .. pháp tổ chức lại kết tìm kiếm cách hợp lý Do vấn đề cấp thiết đề cập nên em chọn đề tài: "Nghiên cứu khai phá liệu Web Ứng dụng tìm kiếm trích chọn thơng tin theo chủ đề” Mục tiêu nhiệm vụ nghiên

Ngày đăng: 07/11/2019, 19:00

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN