Nghiên cứu khai phá dữ liệu Web và ứng dụng tìm kiếm trích chọn thông tin theo chủ đề

Header Page of 126 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN ĐÌNH BÌNH NGHIÊN CỨU KHAI PHÁ DỮ LIỆU WEB VÀ ỨNG DỤNG TÌM KIẾM TRÍCH CHỌN THÔNG TIN THEO CHỦ ĐỀ Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2012 Footer Page of 126 Header Page of 126 Công trình đƣợc hoàn thành ĐẠI HỌC ĐÀ NẴNG Ngƣời hƣớng dẫn khoa học: PGS.TS Lê Văn Sơn Phản biện 1: PGS.TS Võ Trung Hùng Phản biện 2: GS.TS Nguyễn Thanh Thủy Luận văn bảo vệ Hội đồng chấm Luận văn tốt nghiệp Thạc sĩ Kỹ thuật họp Đại học Đà Nẵng vào ngày 19 tháng 01 năm 2013 * Có thể tìm hiểu Luận văn tại: - Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng - Trung tâm Học liệu, Đại học Đà Nẵng Footer Page of 126 Header Page of 126 -1- MỞ ĐẦU Lý chọn đề tài Hơn bốn thập niên kể từ Internet đời nay, mang lại nhiều tiện ích hữu dụng cho người sử dụng như: hệ thống thư điện tử (Email), trò chơi (Game), trò chuyện trực tuyến (Chat), máy truy vấn liệu (Search engine), dịch vụ thương mại, y tế giáo dục… Sự phát triển nhanh chóng mạng Internet sinh khối lượng khổng lồ liệu dạng siêu văn (dữ liệu Web) Các tài liệu siêu văn chứa đựng văn thường nhúng liên kết đến tài liệu khác phân bố Web Ngày nay, Web bao gồm hàng tỉ tài liệu hàng triệu tác giả tạo phân tán qua hàng triệu máy tính kết nối qua đường hữu tuyến (dây điện thoại, cáp quang) đường vô tuyến (sóng radio, xạ hồng ngoại hay sóng truyền qua vệ tinh) Web ngày sử dụng phổ biến nhiều lĩnh vực báo chí, phát thanh, truyền hình, hệ thống bưu điện, trường học, tổ chức thương mại, phủ…Chính lĩnh vực Web mining hay tìm kiếm thông tin phù hợp có giá trị Web chủ đề quan trọng Data Mining vấn đề quan trọng đơn vị, tổ chức có nhu cầu thu thập tìm kiếm thông tin Internet Các hệ thống tìm kiếm thông tin hay nói ngắn gọn máy tìm kiếm Web thông thường trả lại danh sách tài liệu phân hạng mà người dùng phải tốn công chọn lọc danh sách dài để có tài liệu phù hợp Ngoài thông tin thường phong phú, đa dạng liên quan đến nhiều đối tượng khác Điều tạo nên nhập nhằng gây khó khăn cho người sử dụng việc lấy thông tin cần thiết Có nhiều hướng tiếp cận khác để giải vấn đề này, hướng thường ý giảm nhập nhằng phương Footer Page of 126 Header Page of 126 -2- pháp tìm kiếm trích chọn thông tin hay thêm tùy chọn để cắt bớt thông tin hướng biểu diễn thông tin trả máy tìm kiếm thành cụm, lớp người dùng dễ dàng tìm thông tin mà họ cần Đã có nhiều thuật toán phân cụm, phân lớp để tìm kiếm thông tin Tuy nhiên việc tập hợp tài liệu máy tìm kiếm lớn thay đổi để phân cụm ngoại tuyến Do đó, việc phân cụm phải ứng dụng tập tài liệu nhỏ trả từ truy vấn thay trả danh sách dài thông tin gây nhập nhằng cho người sử dụng cần có phương pháp tổ chức lại kết tìm kiếm cách hợp lý Do vấn đề cấp thiết đề cập nên em chọn đề tài: "Nghiên cứu khai phá liệu Web Ứng dụng tìm kiếm trích chọn thông tin theo chủ đề” Mục tiêu nhiệm vụ nghiên cứu Mục đích đề tài nghiên cứu áp dụng tìm kiếm trích chọn mẫu mới, hữu ích, hiểu được, tiềm ẩn Web Những thông tin theo chủ đề nhanh, xác đầy đủ, thông tin tiềm ẩn bên nội dung trang Web thông tin quan trọng hay luồng thông tin tốt trang Web tìm kiếm trả kết phù hợp với yêu cầu người dùng Mục tiêu cụ thể sau: Nghiên cứu tìm kiếm Nghiên cứu kỹ thuật tìm kiếm Web Hiệu tìm kiếm cách nhanh chóng xác Web Thông tin tìm kiếm Web đầy đủ nguyên vẹn, cô động Nghiên cứu về trích chọn Những thông tin cần khai thác tìm ẩn câu, vùng văn phân vùng trang Web Footer Page of 126 Header Page of 126 -3- Những vấn đề khó khăn thực hiện việc trích chọn thông tin chủ đề ẩn trang Web Đưa luồng thông tin theo chủ đề tốt để đáp ứng yêu cầu người sử dụng Ứng dụng thực tế Sử dụng quy trình khai phá dữ liệu Web v iệc tìm kiếm trích chọn thông tin theo chủ đề trang Web vào thực tế để đáp ứng theo yêu cầu người dùng Lấy thông tin quí giá tìm ẩn bên trang Web đó, để đáp ứng nhu cầu tìm kiếm tối ưu cho người dùng Tìm kiếm trích chọn mẫu tri thức hấp dẫn (không tầm thường, ẩn, chưa biết hữu dụng tiềm năng) từ tập hợp lớn liệu để kết đạt đáp ứng yêu cầu xã hội Đối tƣợng phạm vi nghiên cứu: Đối tượng liệu khai phá kho liệu Web Cấu trúc đối tượng CSDL quan hệ, CSDL đa phương tiện, Dữ liệu dạng Text liệu Web Phạm vi nghiên cứu luận văn này, áp dụng thuật toán Viterbi, Crawling, Markov, Apriori … Công cụ hỗ trợ dữ liệu với ngôn ngữ Java hệ quản trị sở dữ liệu MySQL, máy tìm kiếm Google, Yahoo… Đề xuất khai phá liệu Web dựa lý thuyết xác suất ( điển hình mô hình xác suất Bayes, mô hình Markov ẩn, mô hình trường ngẫu nhiên có điều kiện…) việc tìm kiếm, trích chọn thử nghiệm thực tế với một sở dữ liệu có sẵn Web Đề tài thuộc loại hình khai phá liệu Phƣơng pháp nghiên cứu Phương pháp thống kê - phân tích Phương pháp lịch sử Footer Page of 126 Header Page of 126 -4- Phương pháp so sánh - đối chiếu Phương pháp cấu trúc - hệ thống Thu thập phân tích tài liệu thông tin liên quan đến đề tài Thảo luận, lựa chọn phương hướng giải vấn đề Triển khai xây dựng khai phá liệu Kiểm tra, thử nghiệm đánh giá kết trình khai phá Bố cục luận văn Sau phần mở đầu, giới thiệu…, nội dung luận văn chia thành chương sau: Chương 1, Tổng quan khai phá liệu Web, trình bày sở lý thuyết làm tảng để xây dựng ứng dụng, bao gồm: Khai phá liệu phá tri thức, mô hình toán học thường dùng toán khai phá liệu Web Chương 2, Hệ thống tìm kiếm trích chọn thông tin Web, tìm hiểu, giới thiệu phân tích hệ thống máy tìm kiếm Vietseek, kiến trúc Google mức cao hệ thống trích chọn thông tin dự mô hình phân cụm, gán nhãn,CRFs, LDA thuật toán Viterbi, nêu vấn đề hạn chế đề xuất giải pháp khắc phục, giải pháp ứng dụng tìm kiếm trích chọn thông tin theo chủ đề nhằm giải toán đặt Chương 3, trình bày chi tiết mô hình kiến trúc tổng thể hệ thống phương pháp xây dựng ứng dụng Tiến hành kịch thử nghiệm số liệu thực tế, sau đánh giá kết đạt khả triển khai ứng dụng toàn hệ thống Cuối phần đánh giá, kết luận hướng phát triển đề tài Footer Page of 126 Header Page of 126 -5- CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU WEB 1.1 KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC 1.1.1 Tại lại khai phá liệu 1.1.2 Định nghĩa khai phá liệu Định nghĩa 1: (Frawley, Piatetski – Shapiro Matheus) Phát tri thức sở liệu (đôi gọi khai phá liệu) trình không tầm thường nhận mẫu có giá trị, mới, hữu ích tiềm hiểu liệu Định nghĩa 2: Khai phá liệu (datamining) Khai phá liệu trình trích thông tin dùng được, chưa biết trước từ sở liệu lớn, dùng thông tin để định Giáo sư Tom Mitchell đưa định nghĩa KPDL sau: “KPDL việc sử dụng liệu lịch sử để khám phá qui tắc cải thiện định tương lai.” Với cách tiếp cận ứng dụng hơn, Tiến sĩ Fayyad phát biểu: “KPDL, thường xem việc khám phá tri thức sở liệu, trình trích xuất thông tin ẩn, trước chưa biết có khả hữu ích, dạng qui luật, ràng buộc, qui tắc sở liệu.” Ngoài theo tài liệu Weldon năm 1996, khai phá liệu việc phát tri thức nhờ công cụ hoàn thiện sử dụng thống kê truyền thống, trí tuệ nhân tạo đồ họa máy tính Nói tóm lại, KPDL trình học tri thức từ liệu thu thập 1.1.3 Quá trình khai phá tri thức (KDD) Quá trình khai phá liệu tiến hành qua giai đoạn hình 1.1, Footer Page of 126 Header Page of 126 -6- Bắt đầu trình kho liệu thô kết thúc với tri thức chiết xuất 1.1.4 Các hƣớng tiếp cận kỹ thuật áp dụng khai phá liệu 1.1.5 Phân loại hệ thống khai phá liệu 1.1.6 Những vấn đề trọng ứng dụng khai phá liệu 1.2 CƠ SỞ DỮ LIỆU FULLTEXT VÀ HYPERTEXT 1.2.1 Cơ sở liệu Fulltext 1.2.2 Cơ sở liệu HyperText 1.2.3 So sánh đặc điểm liệu Fulltext liệu trang web 1.3 KHAI PHÁ DỮ LIỆU VĂN BẢN (TEXTMINING) VÀ KHAI PHÁ DỮ LIỆU WEB (WEBMINING) 1.3.1 Khai phá liệu văn 1.3.2 Khai phá liệu Web Khai phá Web việc trích chọn thành phần quan tâm hay đánh giá có ích thông tin tiềm từ tài nguyên hoạt động liên quan tới World Wide Web Footer Page of 126 Header Page of 126 -7- Chƣơng 2: HỆ THỐNG TÌM KIẾM VÀ TRÍCH CHỌN THÔNG TIN TRÊN WEB 2.1 HỆ THỐNG TÌM KIẾM 2.1.1 Nhu cầu 2.1.2.Máy tìm kiếm 2.1.3 Module Crawler máy tìm kiếm 2.1.4 Các thuật toán crawling 2.1.5 Phân tích đánh số Theo ông Sergey Brin Lawrence Page trình bày cụ thể quan điểm nhà thiết kế máy tìm kiếm Google: - URLserver: gửi danh sách URL Webpage đưa cho crawler phân tán - Các crawler: Tải nội dung Webpage gửi cho StoreServer - StoreServer: nén lưu Webpage lên đĩa (vào kho chứa) - Indexer có chức năng:  Đọc tài liệu từ kho chứa  Giải nén  Gọi Parser để phân tích cú pháp đưa trang Web - Index Sorter: gán DocID cho Web page (DocID gán Parser phát URL mới) - Mỗi tài liệu  Được biến đổi thành tập xuất từ khóa (gọi hit)  Hit: từ khóa, vị trí tài liệu, font (cỡ, ), hoa/thường Indexer  Phân bố hit thành tập “barrel” lưu trữ số xếp - Indexer:  Phân tích siêu liên kết Footer Page of 126 Header Page 10 of 126 -8-  Lưu thông tin quan trọng file “anchor” cho phép xác định • Nguồn, đích siêu liên kết • Nội dung văn siêu liên kết 10 11 7b 13 Hình 2.6 Kiến trúc Google mức cao - Sinh từ điển tra cứu từ khóa: Văn siêu liên kết:  Nhiều hệ gắn vào trang nguồn  Google gắn vào trang đích lợi ích  Cho thông tin xác hơn, chí trang web • “tóm tắt” • “qua chuyên gia xử lý”  Index cho trang web  “Không văn bản” (ảnh, chương trình, CSDL )  Xử trí trường hợp trang web chưa tồn  Lấy văn anchor làm “nội dung”! Footer Page 10 of 126 Header Page 12 of 126 -10- lấy thông tin từ nguồn định dạng không đồng chuyển thành dạng đồng Dữ liệu sau trích chọn sử dụng, trình bày trực tiếp cho người dùng, lưu vào sở liệu để xử lý sau hay sử dụng cho hệ thống tìm kiếm thông tin liệu qua bước tiền xử lý b Phân loại hệ thống trích chọn thông tin từ web Ngày nay, có nhiều hệ thống trích chọn thông tin từ web nhà phát triển nghiên cứu xây dựng Các tiêu chí để phân loại hệ thống trích chọn thông tin từ web sau: Dựa vào mức độ can thiệp người trình trích chọn thông tin: hệ thống trích chọn thông tin chia làm loại: thủ công, có giám sát, bán giám sát không giám sát Trong đó, hệ thống hoàn toàn tự động, can thiệp người nhà nghiên cứu quan tâm Dựa vào tầng liệu trích chọn: trang web có nhiều trang HTML, trang HTML có nhiều record record có nhiều thuộc tính Do đó, dựa vào kết thông tin trích chọn tầng nào, hệ thống trích chọn chia làm loại: tầng thuộc tính (attribute), tầng record, tầng trang HTML (page) tầng trang web (site) Hiện hệ thống xử lý tầng thuộc tính record chiếm đa số Và nay, chưa thấy xuất hệ thống trích chọn thông tin tầng site Dựa vào phương pháp trích chọn thông tin: Các hệ thống trích chọn thông tin chia thành dạng: • Các hệ thống dựa phương pháp thủ công: sử dụng phương pháp gán nhãn, cách lấy thông tin trực tiếp từ sở liệu từ dịch vụ web (web service) Footer Page 12 of 126 Header Page 13 of 126 -11- • Các hệ thống dựa phương pháp heuristic: Các phương pháp thống kê, tập luật, sử dụng mẫu thông tin, dựa vào cấu trúc cây,… sử dụng để trích chọn thông tin • Các hệ thống dựa phương pháp học: Sử dụng phương pháp mô hình Markov, CRFs, ngữ nghĩa, học cấu trúc cây,… để giúp cho hệ thống hiểu trích chọn thông tin xác 2.2.2 Khuynh hƣớng phát triển khai phá liệu Web theo chủ đề Bài toán mà ông Rich Caruana cộng giải mô tả sơ sau: Cho trước tập hợp (khoảng 300000) tài liệu khoa học cần phát chủ đề khoa học chủ chốt qua dự báo xu hướng nghiên cứu, phát triển chủ đề khoa học thuộc lĩnh vực khoa học máy tính Giải pháp tiến hành không cần khai thác dẫn công trình mà cần sử dụng nội dung công trình, hình sau mô tả kết nghiên cứu phát 13 cụm chủ đề cung cấp ý tưởng xu hướng phát triển 13 cụm chủ đề Trong nghiên cứu toán trên, GS John E Hopcroft chuyên gia hàng đầu nước Mỹ lĩnh vực CNTT trình bày hướng phát triển khoa học máy tính Ông đề cập tới số yếu tố bật tương lai tác động tới chuyển biến khoa học máy tính Từ nội dung văn công trình nghiên cứu, nhận tên tác giả, tài liệu tham khảo, tên tạp chí, hội thảo… Ông Rich Caruana cộng đặt mục tiêu cần hướng tới: • Tìm diễn biến trình phát triển theo thời gian chủ đề khoa học theo số tiêu chí tỷ lệ tài liệu theo Footer Page 13 of 126 Header Page 14 of 126 -12- chủ đề, chủ đề bật mới, thời điểm chủ đề cụ thể đạt đỉnh cao nhất, chủ đề tàn lụi …để tìm chủ đề có vai trò chủ chốt tập hợp chủ đề • Nhận biết tài liệu có uy tài liệu giới thiệu ý tưởng có số ảnh hưởng lớn • Nhận biết tác giả có uy tác giả có ảnh hưởng lớn phát triển chủ đề Nhìn vào biểu đồ hình 2.8 cho thấy: Hình 2.8 Tình hình phát triển số nhóm chủ đề khoa máy qua phân cụm tài liệu khoa học + Một số nhóm chủ đề nghiên cứu giai đoạn phát triển tốt nhóm 10 (Bayesian, mixture, posterior, likelihood, em), nhóm (Spike, spikes, firing, neuron, neurons) nhóm (Image, images, object, face, video) + Một số nhóm chủ đề nghiên cứu phát triển song có xu hướng chững lại nhóm 12 (chip, circuit, analog, voltage, vlsi), nhóm (units, node, training, nodes, tree) Footer Page 14 of 126 Header Page 15 of 126 -13- + Các nhóm lại phát triển bình thường Đặc biệt nhóm chủ đề 12 chững lại song có số lượng lớn công trình nghiên cứu công bố 2.2.3 Thuật toán Viterbi Thuật toán Viterbi mang tên tác giả Andrew Viterbi, thuật toán quy hoạch động nhằm tìm dãy tương tự trạng thái ẩn, ứng dụng phổ biến để giải toán giải mã Khi sử dụng phương pháp máy trạng thái hữu hạn, đặc biệt toán trích chọn thông tin Web Nội dung thuật toán có kết hợp nội dung đồ thị xác suất Thuật toán Viterbi coi tìm đường ngắn dọc theo đồ thị là: Input: Z=z1, z2, …, zn // dãy quan sát đầu vào Khởi tạo: K // số lặp S(c1) c1 L(c1) // Biến chứa tổng độ dài, khởi tạo Đệ quy: Repeat For chuyển t k=(ck, ck+1) L(ck, ck+1) L(ck) + L[t k=( ck, ck+1)] theo ck Tìm L(ck+1)= minL(ck, ck+1) For ck+1 Lưu L(ck+1) vết S(ck+1) tương ứng k k +1 Until k = n 2.2.4 Mô hình trƣờng ngẫu nhiên (Conditional Random Fields – CRFs) Footer Page 15 of 126 Header Page 16 of 126 -14- 2.2.5 Mô hình phân cụm gán nhãn cụm với chủ đề ẩn a Độ tương đồng câu phương pháp  Độ tương đồng câu  Các phương pháp tính độ tương đồng câu  Phương pháp tính độ tương đồng câu sử dụng độ đo Cosine  Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn Mỗi câu có nhiều phân phối xác suất topic Với hai câu thứ i j, sử dụng độ đô cosine để tính độ tương đồng hai câu làm giàu với chủ đề ẩn Cuối cùng, tổ hợp hai độ đo để độ tương đồng hai câu: Sim(si , sj ) = λxSim(topic - parts) + (1 - λ )xSim(word - parts) Trong công thức trên, λ số trộn, thường nằm đoạn [0,1] Nó định việc đóng góp độ đo tương đồng Nếu λ = , độ tương đồng hai câu chủ đề ẩn Nếu λ = 1, đo độ tương đồng hai câu tính với chủ đề ẩn 2.2.6 Mô Hình Latent Dirichlet Allocation (LDA) a Phân tích thông tin chủ đề dựa mô hình chủ đề LDA Phân tích chủ đề cho văn nói riêng cho liệu Web nói chung có vai trò quan trọng việc “hiểu” định hướng thông tin Web Khi ta hiểu trang Web có chứa chủ đề hay thông tin dễ dàng cho việc xếp loại, xếp, tóm tắt nội Footer Page 16 of 126 Header Page 17 of 126 -15- dung trang Web Trong phân lớp văn bản, văn thường xếp vào lớp cụ thể Trong phân tích chủ đề, giả sử văn đề cập đến nhiều chủ đề (K chủ đề) mức độ liên quan đến chủ đề biểu diễn phân phối xác suất của tài liệu chủ đề Hình 2.13 Tài liệu với K chủ đề ẩn Mô hình sinh LDA Theo Blei, Ng [8], dù pLSA bước tiến việc mô hình hóa text theo xác suất chưa hoàn thiện Lí pLSA chưa phải mô hình xác suất xác định rõ ràng mức văn (document) Hệ gặp vấn đề xác định xác suất với văn nằm tập huấn luyện (trainning set) Hơn nữa, dẫn tới việc tăng tuyến tính số tham số mô hình so với độ lớn tập văn (corpus) LDA mô hình phân tích chủ đề xử lý vấn đề Vì chọn LDA để sử dụng khóa luận Hình 2.14 giới thiệu bước tiến trình sinh LDA Footer Page 17 of 126 Header Page 18 of 126 -16- Hình 2.14 Tiến trình sinh văn LDA Phân phối Dirichlet ẩn (Latent Dirichlet Allocation) LDA mô hình sinh văn giới thiệu Blei, Ng cộng [8] với pLSA ý tưởng dựa việc coi văn pha trộn chủ đề Nhưng LDA mô hình Bayes ba mức: mức corpus, mức văn (document), mức từ (word) Hình 2.15 & 2.16 mô tả tiến trình sinh văn phương pháp LDA: Hình 2.15 Kí hiệu khối lặp lại Footer Page 18 of 126 Header Page 19 of 126 -17- Cho corpus M tài liệu biểu diễn D={d1,d2, …, dM}, đó, tài liệu m corpus bao gồm Nm từ wi rút từ tập Vocabulary term {t 1, …, tv}, V số từ LDA cung cấp mô hình sinh đầy đủ kết tốt phương pháp trước Quá trình sinh document sau: Hình 2.16 Mô hình biểu diễn LDA Các kí hiệu: Các khối hình vuông hinh 18 biểu diễn trình lặp Tham số đầu vào: α β ( tham số mức corpus)  α : Dirichlet prior on m  β : Dirichlet prior on k M : số văn corpus: D = {d1 ,d2 , ,dM } K : số chủ đề ẩn V : số từ tập từ vựng Nm : Số lượng từ tài liệu thứ m (hay gọi độ dài văn dm) zm,n : chủ đề từ wn văn dm ( hay số chủ đề) wm,n : từ thứ n văn dm zm,n  { m}kk (KxV matrix) Footer Page 19 of 126 Header Page 20 of 126  m: -18-  Phân phối topic document thứ m, m biểu diễn tham số cho p(z|d=m), thành phần trộn topic cho tài liệu m Một tỷ lệ cho tài liệu  { m}mM (MxK matrix)   m : phân phối từ sinh từ chủ đề zm,n m biểu diễn tham số cho p(t|z=k), thành phần trộn topic k, tỷ lệ cho topic  LDA sinh tập từ wm,n cho văn d m cách:  • Với văn m, sinh phân phối topic m cho văn theo Dir(α) • Với  từ, zm,n lấy mẫu dựa vào phân phối topic Mult( m )  • Với topic index zm,n, dựa vào phân phối từ k , wm,n, sinh Ƣớc lƣợng giá trị tham số inference thông qua Gibbs Sampling cho mô hình LDA Ước lượng tham số cho mô hình LDA phương pháp cực đại hóa hàm likelihood trực tiếp cách xác có độ phức tạp thời gian cao không khả thi thực tế Hình 2.18 Ƣớc lƣợng tham số tập liệu văn Footer Page 20 of 126 Header Page 21 of 126 -19- Người ta thường sử dụng phương pháp xấp xỉ Variational Methods Gibbs Sampling Gibbs Sampling xem thuật toán nhanh, đơn giản, hiệu để huấn luyện LDA Cho trước tập văn bản, tìm xem topic model sinh tập văn Bao gồm:  - Tìm phân phối xác suất tập từ topic m  - Tìm phân phối topic tài liệu m CHƢƠNG ỨNG DỤNG VÀ THỰC NGHIỆM 3.1 ỨNG DỤNG 3.1.1 Ứng dụng tìm kiếm trích chọn theo chủ đề đƣợc lƣu kho liệu Trong kho CSDL chứa chủ đề ẩn xác suất chủ đề xác định theo mật độ ưu tiên • Bộ tách từ làm nhiệm vụ nhập vào câu truy vấn phân tích câu truy vấn thuộc chủ đề ẩn • Chủ đề ẩn câu truy vấn có nhiệm vụ phân tích câu truy vấn thuộc loại chủ đề có mật độ xác xuất cao để ưu tiên theo thứ tư tăng dần, hiển thị danh sách theo chủ đề có trích chọn 3.1.2 Ứng dụng tìm kiếm trích chọn theo chủ đề đƣợc lƣu kho CSDL Internet Pha tương tác với máy tìm kiếm Google Pha tiền xử lý liệu Pha xếp văn câu theo độ quan trọng Pha sinh văn tóm tắt Trong pha sinh văn tóm tắt, câu xếp xếp pha xếp lại Trọng số độ quan trọng Footer Page 21 of 126 Header Page 22 of 126 -20- câu bổ sung thêm trọng số văn chưa câu đấy, việc giúp văn tóm tắt chồng chéo mặt nội dung ScoreTotal công thức tính lại độ quan trọng câu: ScoreTotal(sk)=( λ*Score(sk)+(1- λ)* Score(Di)) - Sk: câu cần tính độ quan trọng - Di: văn chưa sk - Score(sk), Score(Di): trọng số độ quan trọng sk Di tính pha trước - λ: số trộn nằm ngưỡng [0,1] thể đóng góp hai độ đo Score(sk) Score(Di) (Các số ước lượng trình thực nghiệm) Footer Page 22 of 126 Header Page 23 of 126 -21- 3.2 THỰC NGHIỆM 3.2.1 Môi trƣờng thực nghiệm 3.2.2 Một số giao diện chƣơng trình Công cụ tìm kiếm trích chọn thông tin theo chủ đề “Chung tay xây dựng thành phố xanh đẹp” lấy từ tài liệu Internet lưu trữ vào kho liệu theo chủ đề ẩn Công cụ tìm kiếm trích chọn chủ đề “Chung tay xây dựng thành phố xanh đẹp” Internet Footer Page 23 of 126 Header Page 24 of 126 -22- KẾT LUẬN KẾT QUẢ ĐẠT ĐƢỢC Về mặt khoa học Luận văn tiến hành phân tích, tìm hiểu quy trình khai phá liệu Web Phát vấn đề hạn chế để đề xuất đưa giải pháp nhằm có phương án khắc phục để nâng cao hiệu công việc tìm kiếm trích chọn thông tin theo chủ đề nhanh xác Nắm phương pháp mô hình toán học đồ thị, xác suất Bayes mô hình biểu diễn liệu văn bản, CRFs, LDA… Áp dụng để giải yêu cầu luận văn đặt Nghiên cứu vận dụng giải thuật crawl, k-means, Viterbi… để xây dựng mô hình khai phá liệu Web theo chủ đề Về mặt thực tiễn Luận văn nêu giải pháp kỹ thuật để xây dựng hệ thống trợ giúp định nắm bắt luồng thông tin tốt công tác quản lí kinh danh Tìm kiếm trích chọn thông tin Web theo chủ đề giúp có nhìn tổng thể, biết bật khứ, đâu xu hướng thông tin đâu hướng nỗi lên tương lai gần Tổng hợp thông tin hướng chủ đề Web giúp xếp lại thông tin theo dõi luồng thông tin tốt Xây dựng ứng dụng có khả phân tích tốt liệu nhà trường năm qua chủ đề Tìm diễn biến trình phát triển theo thời gian chủ đề đó, theo số tiêu chí tỷ lệ tài liệu theo chủ đề, chủ đề bật mới, thời điểm chủ đề cụ thể đạt đỉnh cao nhất, chủ đề tàn lụi …để tìm chủ đề có vai trò chủ Footer Page 24 of 126 Header Page 25 of 126 -23- chốt tập hợp chủ đề Hệ thống giúp cho tìm kiếm trích chọn thông tin nhanh xác, giúp cho ban giám hiệu nhà trường lãnh đạo đơn vị liên kết định cách kịp thời, khoa học, tránh tình định theo cảm tính nhằm hạn chế trường hợp đưa định sai không hiệu dẫn đến thiệt hại kinh tế, lãng phí thời gian tiền bạc người học Có thể nói, công cụ hữu ích nhằm cung cấp cho đơn vị nắm chủ đề thời bật, có thêm giải pháp hỗ trợ công tác quản lí sau HẠN CHẾ Hệ thống tương tác liệu lưu trữ kho liệu Google, chưa kết nối truy xuất liệu trực tiếp đến sở liệu Yahoo, MSN, Altavista Do cần khoảng thời gian để khai phá kho liệu HƢỚNG PHÁT TRIỂN Nghiên cứu cải tiến hệ thống thông qua giải pháp thu nhận đánh giá phản hồi người dùng chất lượng tìm kiếm trích chọn thông tin theo chủ đề để chất lượng tìm kiếm định hướng tới người dùng Cải tiến trình lưu trữ đánh mục để tăng tốc cho việc tìm kiếm trích chọn thông tin, qua tăng tốc độ trả lời câu hỏi cho mô hình hỏi đáp tiếng Việt, Xây dựng triển khai hệ thống hỏi đáp tiếng Việt cho người sử dụng Tự động phân lớp trang web tiếng Việt bổ sung thêm vào chủ đề Tìm kiếm trích chọn thông tin Web theo chủ đề giúp có nhìn tổng thể, biết bật khứ, đâu xu hướng thông tin đâu hướng Footer Page 25 of 126 Header Page 26 of 126 -24- nỗi lên tương lai gần Tổng hợp thông tin hướng chủ đề Web giúp xếp lại thông tin theo dõi luồng thông tin tốt hơn, giúp cho nhà quản lý đưa định nhà kinh tế dự báo trước rủi ro xảy Mô hình LDA hướng phát triển lên mô hình SAM để tăng hiệu quả, đầy đủ khái quát cho việc thực phân tích từ tập liệu văn giám sát hoàn toàn phi giám sát Footer Page 26 of 126 ... đặc điểm liệu Fulltext liệu trang web 1.3 KHAI PHÁ DỮ LIỆU VĂN BẢN (TEXTMINING) VÀ KHAI PHÁ DỮ LIỆU WEB (WEBMINING) 1.3.1 Khai phá liệu văn 1.3.2 Khai phá liệu Web Khai phá Web việc trích chọn thành... dụng Ứng dụng thực tế Sử dụng quy trình khai phá dữ liệu Web v iệc tìm kiếm trích chọn thông tin theo chủ đề trang Web vào thực tế để đáp ứng theo yêu cầu người dùng Lấy thông tin quí giá tìm. .. trích chọn thông tin theo chủ đề Mục tiêu nhiệm vụ nghiên cứu Mục đích đề tài nghiên cứu áp dụng tìm kiếm trích chọn mẫu mới, hữu ích, hiểu được, tiềm ẩn Web Những thông tin theo chủ đề nhanh,

Định dạng
Số trang	26
Dung lượng	870,75 KB