Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
428,76 KB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN ĐÌNH ĐỊNH PHƢƠNG PHÁPPHÂNCỤMDỮLIỆUWEBVÀXÂYDỰNGỨNGDỤNGTRONGMÁYTÌMKIẾM Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2012 Công trình đƣợc hoàn thành t ạ i ĐẠI HỌC ĐÀ N Ẵ NG Ngƣời hƣớng dẫn khoa học: PGS.TS. Lê Văn Sơn Phản biện 1: TS. Nguyễn Thanh Bình Phản biện 2: TS. Lê Xuân Việt Luận văn sẽ được bảo vệ tại Hội ñồng chấm Luận v ă n tốt nghi ệ p Thạc sĩ Kỹ thuật họp tại Đại học Đà Nẵng vào ngày 19 tháng 01 năm 2013. * Có thể tìm hiểu Luận văn tại: - Trung tâm Thông tin - Học liệu, Đại học Đà N ẵ ng - Trung tâm Học liệu, Đại học Đà N ẵ ng. 1 MỞ ĐẦU 1. Tính cấp thiết của đề tài - Sự ph t trin nhanh chng ca cc ng dụng công nghệ thông tin và Internet và o nhiề u lĩnh vự c đờ i số ng xã hộ i , quản l kinh tế , khoa họ c kỹ thuậ t … đã tạ o ra nhiề u cơ sở dữ liệ u khổ ng lồ . Cc cơ sở dữ liệ u nà y không phả i khi no cng bất bin theo thi gian m cng vi s pht trin trên , cc cơ s d liệu cng không ngng thay đổ i để đá p ứ ng nhu cầ u sử dụ ng củ a con ngườ i . Qu trình tin ha ca lĩnh vc cơ s d liệu (CSDL) tạo nên việc khai ph d liệu (Data Mining) được coi l giai đoạn tin ha mi ca công nghệ CSDL, việc thu thập v lưu tr cc kho cha d liệu khổng lồ được liệt kê ngoi mục đích khai ph d liệu, nhằm pht hiện cc tri thc mi giúp ích cho hoạt động ca con ngưi trong tập hợp d liệu. Chẳng hạn, t một giải php phâncụmtrong khai ph d liệuWeb (Web Mining), c th pht trin thnh một thnh phần ca my tìm kim (Search Engine) đ khi một trang Web mi được tải về, my tìm kim sẽ t động n vo một cụm trang Web đã được xc định; việc phâncụm sẽ tạo ra thuận lợi cho việc tìm kim về sau cho ngưi dng. Chính vì l do ny m tôi nghiên cu v chọn đề ti: “Phương phápphâncụmdữliệuWebvàxâydựngứngdụngtrongmáytìm kiếm” l điều cấp thit hiện nay, dưi s hưng dẫn ca thầy PGS- TS. Lê Văn Sơn. 2. Mục tiêu nghiên cứu Mục tiêu l nắm được một số phương php phâncụm d liệuWeb t đ xây dng d liệutìm kim nhanh thông qua cc địa chỉ t kha cần tìm. Đ thc hiện mục đích tưng đề ra cần nghiên cu và tin hành trin khai các nội dung như sau: 2 - Nghiên cu cơ s lý thuyt về các khai phá d liệuWebtrong việc tìm kim. - Thu thập, phân loại các phâncụmWeb t thuật toán cổ đin đn hiện tại. - Tìm hiu các thuật toán phâncụm hiện có. - Xây dng được chất lượng ca các kt quả tìm kim sẽ tốt hơn trong việc phâncụm văn bản trên Web. - Xử lý tng mẫu thông tin ngay khi lấy được t Web có kt quả tc thi ng vi tại mỗi thi đim. - Tạo các liên kt vi các trang Webtìm kim qua URL. 3. Đối tƣợng và phạm vi nghiên cứu T nhng yêu cầu ca đề ti ta xc định được đối tượng v phạm vi nghiên cu như sau: * Đối tượng nghiên cứu: - Xây dng khai ph d liệu số, phân loại theo dạng văn bản. - Cấu trúc đối tượng l CSDL quan hệ, khai ph d liệu Text t do. * Phạm vi nghiên cứu: - Áp dụngphương php phâncụmtrong việc tìm kim nhanh cc trang Web theo ch đề t kha cần tìm. 4. Phƣơng pháp nghiên cứu - Thu thập v phân tích cc ti liệu v thông tin liên quan đn đề ti. - Xem xét, la chọn phương php đ giải quyt vấn đề. - Trin khai xây dng chương trình ng dụng. - Kim tra, thử nghiệm v đnh gi kt quả. 5. Bố cục của đề tài Luận văn được trình by bao gồm cc phần chính như sau: 3 + Phần m đầu + Chương 1: Tổng quan về khai ph d liệu Web. + Chương 2: Một số phương php phâncụm d liệu. + Chương 3: Xây dng phương php tìm kim v kt quả thc nghiệm. + Phần kt luận. 6. Tổng quan về tài liệu nghiên cứu My tìm kim (Search Engine) đã pht trin kh hon thiện vo cuối th kỷ 20 cc nưc pht trin. Ở Việt Nam, nghiên cu v ng dụng my tìm kim đang trong giai đoạn pht trin ban đầu. Trong luận văn ny ti liệu nghiên cu v tham khảo ca nhiều tc giả thưng tìm hiu sâu vo cc công nghệ quan trọng ca my tìm kim: phương php phâncụm d liệu, bộ lập chỉ mục (indexing), bộ tìm kim (searching), bộ xp hạng (ranking). Đồng thi nghiên cu kin trúc cc hệ thống URL sẵn c phục vụ mục đích xây dng một hệ tìm kim cho trang Web. Áp dụng nhng thnh tu ca khoa học my tính đ hon thiện cỗ my tìm kim l một công việc quan trọng . Bi tìm kim nhng th tốt nhất phục vụ cho công việc v cuộc sống l một nhu cầu rất cần thit ca mỗi ngưi. Mỗi ngnh cụ th lại c cc phương php v công cụ tìm kim đặc th khc nhau, nhưng kt quả cuối cng l cho ra kt quả tìm kim tốt nhất. Trong qu trình hon thnh luận văn, tôi đã tìm hiu v sử dụng cc nguồn ti liệu rất c gi trị sau đây: Các tài liệu về phương php phâncụm d liệu; Hong Văn Dng, “Khai phá dữliệuWeb bằng kỹ thuật phân cụm”, luận văn thạc sĩ, Trưng ĐHSP H Nội, 2007; Hà Quang Thụy, “Khai phá dữliệu Web”, Bi giảng, Trưng Đại học công nghệ, ĐHQGHN,2008; Ho Tu Bao, Knowledge Discovery and Data Mining, 2000. 4 Các tài liệu về phâncụmvà áp dụng bộ máytìm kim; Hà Quang Thụy, “Giáo trình khai phá dữliệu Web”, Nh xuất bản giáo dục Việt nam, 2009; Lizhen Liu, Junjie Chen, Hantao Song, The research of Web Mining, IEEE, 2002; các nguồn d liệu hiện có hiện nay bing.com .v.v. 5 CHƢƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮLIỆU 1.1. KHAI PHÁ DỮLIỆU 1.1.1. Tại sao cần phải khai phá dữliệu (datamining) 1.1.2. Các bƣớc của quá trình phát hiện tri thức 1.1.3. Các hƣớng tiếp cận và các kỹ thuật trong KPDL 1.1.4. Các loại dữliệu có thể khai phá 1.1.5. Các ứngdụng của khai phá dữliệu (KPDL) a. Các ứng của khai phá dữliệu (KPDL) b. Những vấn đề chú trọngtrong khai phá dữliệu 1.2. KỸ THUẬT PHÂNCỤMTRONG KHAI PHÁ DỮLIỆU 1.2.1. Tổng quan về kỹ thuật phâncụm 1.2.2. Phâncụm là gì 1.2.3. Một số ứngdụng của phâncụmdữliệu 1.2.4. Các yêu cầu đối với kỹ thuật phâncụm 1.2.5. Các kiểu dữliệuvà độ đo tƣơng tự a. Các kiểu dữliệu dựa trên kích thước miền b. Khái niệm độ đo tương tự, phi tương tự và khoảng cách 1.3. KHAI PHÁ WEB 1.3.1. Giới thiệu về khai phá webvà nhu cầu khai thác thông tin 1.3.2. Đặc điểm của dữliệuWeb 1.3.3. Các hƣớng tiếp cận khai phá dữliệuWeb 1.3.4. Các kiểu dữliệuWeb a. Sơ đồ dữliệuWeb b. Dữliệu văn bản 1.3.5. Một số xử lý văn bản trong khai phá dữliệuWeb a. Xử lý dữliệu văn bản b. Loại bỏ từ dừng 6 Trong ngôn ng t nhiên thông thưng cc t thưng biu diễn về cấu trúc câu ch không biu đạt nội dung ca n. Do đ cc t như gii t, t nối … thưng xuất hiện nhiều lần m không liên quan gì về ch đề hoặc nội dung văn bản nên ta phải loại bỏ đi đ giảm số chiều ca vector biu diễn văn bản, nhng t như vậy được gọi l nhng t dng. c. Chọn từ gốc (Word stemming) Trong ting anh hay trong nhiều ngôn ng khc, nhiều t c chung một nguồn gốc, hoặc l bin sang t gốc no đ. Chẳng hạn, cc t “computer”, “computers”, “computing” đều c chung một nguồn gốc l “comput”. Ý tưng chọn t gốc đ biu diễn cc t trong văn bản thông qua t gốc. d. Kết hợp các từ có chung nguồn gốc Hầu ht trong cc ngôn ng đều c rất nhiều t c chung nguồn gốc vi nhau, chúng mang nghĩa tương t nhau. Đ giảm bt số chiều trong biu diễn văn bản, ta sẽ kt hợp cc t c cng gốc thnh một t. Ví dụ: Trong ting Anh cc t user, users, used, using c cng t gốc v sẽ được quy về l use; cc t engineering, engineered, engineer c cng t gốc sẽ được quy về l engineer. Ví dụ xử l t gốc trong ting Anh: - Nu một t kt thúc bằng “ing” thì xa “ing”, ngoại tr trưng hợp sau khi xa còn lại một k t hoặc còn lại “th”. - Nu một t kt thúc bằng “ies” nhưng không phải l “eies” hoặc “aies” thì thay th “ies” bằng “y” . - Nu một t kt thúc bằng “es” thì bỏ “s”. - Nu một t kt thúc bằng "s" v đng trưc n l một phụ âm khc “s” thì xa “s”. 7 rt.ft K - Nu một t kt thúc bằng “ed”, nu trưc n l một phụ âm thì xa “ed” ngoại tr sau khi xa t chỉ còn lại một k t, nu đng trưc l nguyên âm “i” thì đổi “ied” thnh “y”. e. Đinh luật Zipf Đ mô tả định luật Zipf, ta gọi tổng số tần số xuất hiện ca t t trong ti liệu D là f t . Sau đ sắp xp tất cả cc t trong tập hợp theo chiều giảm dần ca tần số xuất hiện f v gọi th hạng ca mỗi t t là r t . Định luật Zipf được pht biu dưi dạng công thc như sau: (vi K l một hằng số). Trong ting Anh, ngưi ta thấy rằng hằng số: ( N l số t trong văn bản bản) Ta c th vit lại định luật Zipf như sau: Giả sử t t i được sắp xp vị trí thấp nhất vi tần số xuất hiện là b no đấy và t t j cng được sắp vị trí thấp k tip vi một tần số xuất hiện là b+1. Ta có th thu được th hạng xấp xỉ ca các t này là: (1.9) Ta bắc đầu tr 2 biu thc này cho nhau ta xấp xỉ đối vi các t riêng biệt có tần số xuất hiện là b. K N/10 r t K/ f t rt i K/b và rt j K/(b+1) rt i - rt j K/b-K/(b+1) = K/b(b+1) 8 Ta xấp xỉ giá trị ca t trong tập hợp có th hạng cao nhất. Một cách tổng quát, một t chỉ xuất hiện một lần trong tập hợp, ta có Xét phân bố ca các t duy nhất xuất hiện b lần trong tập hợp, chia 2 v cho nhau ta được K/b. Do đ, định luật Zipf cho ta thấy s phân bố đng chú ca các t riêng biệt trong 1 tập hợp được hình thành bi các t xuất hiện ít nhất trong tập hợp. Một câu hỏi thưng đặt ra l: Tần số c phải l yu tố quan trọngtrong văn bản hay không? Xét ví dụtrong [1][26] như sau: Hình 1.1. Lược đồ thống kê tần số của từ theo định luật Zipf 1.3.6. Các phƣơng pháp biểu diễn dữliệu văn bản a. Phươngpháp Booble Cho một tập gồm m văn bản, D={d 1 , d 2 , ., d m }. Tập t vng được biu diễn dưi dạng một vector gồm n thuật ng T={t1, t2, .,tn}. Gọi W={w ij } l ma trận trọng số, w ij l gi trị trọng số ca thuật ng t i trong ti liệu d j . rmax=K.