Sức mạnh bộ máy tìm kiếm và khả năng lưu trữ của Google, điên rồ hay thiên tài (Bài tiểu luận chuyên đề về “Data Mining):

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	26
Dung lượng	0,93 MB

Nội dung

Sức mạnh bộ máy tìm kiếm và khả năng lưu trữ của Google, điên rồ hay thiên tài. Giáo viên : Trần Đình Quế. Sinh viên: Lê Công Linh. Lớp: D07CNPM1. Hãy quan tâm tới điều không thể, hãy thử làm những gì mà hầu hết mọi người chưa nghĩ tới. Đó là phương châm của những nhà sáng lập Google. Mục Lục I. Google. 3 1.1. Sơ lược về Google. 3 1.2. Hoạt động 5 II. Data mining Web mining. 6 1. Data mining. 6 1.1. Data mining là gì? 6 1.2. Data mining là một bước trong qúa trình khai phá dữ liệu. 7 2. Web mining. 9 2.1. Khai phá cấu trúc Web 9 2.2. Khai phá nội dung Web. 10 2.3. Khai phá sử dụng Web 12 2.4. Tóm lược 13 III. Sự phát triển Search Engine của Google. 13 1.1. Giới thiệu. 13 1.2. So sánh Search Engine truyền thống và Semantic Search Engine. 16 1.2.1. Search Engine truyền thống 16 1.2.2. Semantic Search Engine 16 IV. Thuật toán Page Rank. 17 a. Tổng quan. 17 b. Các khái niệm 17 Lời mở đầu Không phải bất kì ý tưởng nào quá mới lạ đều xem là điên rồ và cũng không phải bất kì ý tưởng nào điên rồ cũng khó khả thi. Mới đây, Google đưa ra hàng loạt các phát minh “điên rồ” như Trình duyệt Google Body : “Thay vì khám phá một thế giới khác, tại sao chúng ta không dành chút thời gian cho chuyến hành trình tuyệt vời bên trong chính bản thân con người? Google Body sẽ cung cấp hình ảnh 3D cụ thể về cơ thể con người mà từ đó, bạn có thể dễ dàng quan sát theo từng lớp một. Đây sẽ là một phương tiện tuyệt vời cho sinh viên ngành Y trong việc học tập cũng như cho bất cứ ai muốn hiểu thêm bên trong thân thể mình”. Điều này thú vị đấy chứ? Rồi đến Google Goggles là công cụ cho phép bạn tìm kiếm trên Google bằng hình ảnh thay vì bằng từ hoặc chữ. Tải lên một bức ảnh bạn có về một thứ gì đó muốn tìm thêm thông tin – chẳng hạn như địa điểm của bức ảnh đó – và Google sẽ tự động thực hiện phần việc còn lại... Nhưng nó sẽ là không bị coi là điên rồ nhiều nếu so sánh với thời điểm và công nghệ hiện tại. Sẽ thực sự là bị coi là “điên rồ” nhất, khi mà quay trở lại thời điểm công ty Google ra đời từ những ý tưởng có vẻ ngớ ngẩn và điên rồ: Tải toàn bộ các trang web toàn cầu xuống máy tính của mình. Ý tưởng đó lại xuất phát từ một ý tưởng khác điên khùng hơn: nếu thế giới đang đi theo một hướng thì phải có con đường khác nhanh hơn. Không hiểu tại sao google lại có tất cả các thông tin từ các trang web được mặc dù khi đưa một tin gì lên không hề có một báo cáo nào gửi cho nó và nó làm thế nào để có thể sắp xếp lượng thông tin khổng lồ này để khi tìm có thể cho một kết quả trong tik tắc như thế? Nghe nói google có hàng nghìn (có thông tin là hàng vạn) máy chủ đặt trên khắp thế giới sức mạnh sẽ rất kinh khủng với hàng loạt chiếc laptop mà ngày trước thầy tđQuế đem ra so sánh .Vậy thì làm thế nào để nó có thể quản lý được số máy chủ này. Hơn nữa khi ta nhập một từ khoá vào với số máy chủ lớn như thế nó làm thế nào để biết được là sẽ tìm kiếm ở máy chủ nào, chả nhẽ lại tìm tất cả các máy chủ trên thế giới. Đến đây lại nảy sinh vấn đề mới, khi mình đánh một từ khoá vào thì kết quả chắc không phải chỉ ở một máy chủ. Vậy làm thế nào để các thông tin ở các máy chủ không bị chồng lắp nhau và biết thông tin đang ở máy chủ nào. Chúng ta biết rằng Google luôn trả cho chúng ta kết quả tìm kiếm tốt nhất, thông minh nhất.. Nó còn thông minh hơn nếu như chúng ta luôn tìm kiếm thông tin bằng cách đăng nhập vào hệ thống của Google, chúng ta có thể thử bằng cách tìm một từ khóa chuyên biệt khi không đăng nhập và khi đăng nhập, nói chung kết quả sẽ khác nhau, và hầu hết là kết quả khi chúng ta đăng nhập sẽ có độ chính xác với mục đích tìm kiếm của bạn cao hơn so với khi không đăng nhập. Bạn có biết tạ

Học viện công nghệ bưu chính viễn thông Bài tiểu luận chuyên đề về “Data Mining”: Sức mạnh bộ máy tìm kiếm và khả năng lưu trữ của Google, điên rồ hay thiên tài. Giáo viên : Trần Đình Quế. Sinh viên: Lê Công Linh. Lớp: D07CNPM1. Hãy quan tâm tới điều không thể, hãy thử làm những gì mà hầu hết mọi người chưa nghĩ tới. Đó là phương châm của những nhà sáng lập Google. Mục Lục Bài tiểu luận chuyên đề về “Data Mining”: 1 Sức mạnh bộ máy tìm kiếm và khả năng lưu trữ của Google, điên rồ hay thiên tài 1 Mục Lục 1 I.Google 3 1.1.Sơ lược về Google 3 1.2.Hoạt động 5 II.Data mining - Web mining 6 1.Data mining 6 1.1.Data mining là gì? 6 1.2.Data mining là một bước trong qúa trình khai phá dữ liệu 7 2.Web mining 9 2.1.Khai phá cấu trúc Web 9 2.2.Khai phá nội dung Web 10 2.3.Khai phá sử dụng Web 12 2.4.Tóm lược 13 III.Sự phát triển Search Engine của Google 13 1.1.Giới thiệu 13 1.2.So sánh Search Engine truyền thống (keyword - text Search Engine) và Semantic Search Engine 16 1.2.1.Search Engine truyền thống (keyword - text Search Engine) 16 1.2.2.Semantic Search Engine 16 IV.Thuật toán Page Rank 17 a.Tổng quan 17 Data mining – webmining – Search Engine. Lê Công Linh - CNPM1. b.Các khái niệm 17 2 | P a g e Data mining – webmining – Search Engine. Lê Công Linh - CNPM1. Lời mở đầu Không phải bất kì ý tưởng nào quá mới lạ đều xem là điên rồ và cũng không phải bất kì ý tưởng nào điên rồ cũng khó khả thi. Mới đây, Google đưa ra hàng loạt các phát minh “điên rồ” như Trình duyệt Google Body : “Thay vì khám phá một thế giới khác, tại sao chúng ta không dành chút thời gian cho chuyến hành trình tuyệt vời bên trong chính bản thân con người? Google Body sẽ cung cấp hình ảnh 3D cụ thể về cơ thể con người mà từ đó, bạn có thể dễ dàng quan sát theo từng lớp một. Đây sẽ là một phương tiện tuyệt vời cho sinh viên ngành Y trong việc học tập cũng như cho bất cứ ai muốn hiểu thêm bên trong thân thể mình”. Điều này thú vị đấy chứ? Rồi đến Google Goggles là công cụ cho phép bạn tìm kiếm trên Google bằng hình ảnh thay vì bằng từ hoặc chữ. Tải lên một bức ảnh bạn có về một thứ gì đó muốn tìm thêm thông tin – chẳng hạn như địa điểm của bức ảnh đó – và Google sẽ tự động thực hiện phần việc còn lại Nhưng nó sẽ là không bị coi là điên rồ nhiều nếu so sánh với thời điểm và công nghệ hiện tại. Sẽ thực sự là bị coi là “điên rồ” nhất, khi mà quay trở lại thời điểm công ty Google ra đời từ những ý tưởng có vẻ ngớ ngẩn và điên rồ: Tải toàn bộ các trang web toàn cầu xuống máy tính của mình. Ý tưởng đó lại xuất phát từ một ý tưởng khác điên khùng hơn: nếu thế giới đang đi theo một hướng thì phải có con đường khác nhanh hơn. Không hiểu tại sao google lại có tất cả các thông tin từ các trang web được mặc dù khi đưa một tin gì lên không hề có một báo cáo nào gửi cho nó và nó làm thế nào để có thể sắp xếp lượng thông tin khổng lồ này để khi tìm có thể cho một kết quả trong tik tắc như thế? Nghe nói google có hàng nghìn (có thông tin là hàng vạn) máy chủ đặt trên khắp thế giới [sức mạnh sẽ rất kinh khủng với hàng loạt chiếc laptop mà ngày trước thầy tđQuế đem ra so sánh  ].Vậy thì làm thế nào để nó có thể quản lý được số máy chủ này. Hơn nữa khi ta nhập một từ khoá vào với số máy chủ lớn như thế nó làm thế nào để biết được là sẽ tìm kiếm ở máy chủ nào, chả nhẽ lại tìm tất cả các máy chủ trên thế giới. Đến đây lại nảy sinh vấn đề mới, khi mình đánh một từ khoá vào thì kết quả chắc không phải chỉ ở một máy chủ. Vậy làm thế nào để các thông tin ở các máy chủ không bị chồng lắp nhau và biết thông tin đang ở máy chủ nào. Chúng ta biết rằng Google luôn trả cho chúng ta kết quả tìm kiếm tốt nhất, thông minh nhất Nó còn thông minh hơn nếu như chúng ta luôn tìm kiếm thông tin bằng cách đăng nhập vào hệ thống của Google, chúng ta có thể thử bằng cách tìm một từ khóa chuyên biệt khi không đăng nhập và khi đăng nhập, nói chung kết quả sẽ khác 1 | P a g e Data mining – webmining – Search Engine. Lê Công Linh - CNPM1. nhau, và hầu hết là kết quả khi chúng ta đăng nhập sẽ có độ chính xác với mục đích tìm kiếm của bạn cao hơn so với khi không đăng nhập. Bạn có biết tại sao không? Với sự lớn mạnh của các tài liệu web và text, Web mining và text mining đang trở nên quan trọng hơn và phổ biến hơn. Web mining, Search Engine sẽ là chủ đề chính của tiểu luận này, nhằm làm rõ sức mạnh của cỗ máy tìm kiếm của Google. Khai phá web nhằm mục đích khám phá thông tin và tri thức hữu ích từ cấu trúc hyperlink Web, nội dung trang web, và cách sử dụng dữ liệu của trang web. Với bài tiểu luận nhỏ này sẽ giúp được phần nào làm rõ các vấn đề trên. Nội dung bài tiểu luận gồm các phần : • Sơ qua về Google. Tham vọng và nguồn thu của họ. • Nhắc lại Dataming. Google và các đại gia khác có gì tốt hơn khi sử dụng datamining. • Web mining và phân loại webmining. Google đã vận dụng như thế nào cho cỗ máy tìm kiếm khổng lồ của mình. • Khác biệt giữa Search Engien truyền thống và Semantic Search Engine. Google sử dụng và từng bước phát triển cỗ máy tìm kiếm của mình như thế nào? • PageRank và giải thuật PageRank. • Ví dụ minh họa cho giải thuật PageRank. Dân ta phải biết sử ta. Nếu mà không biết thì tra Google. 2 | P a g e Data mining – webmining – Search Engine. Lê Công Linh - CNPM1. I. Google. Nội dung phần này giúp chúng ta có cái nhìn sơ qua về quá trình hình thành và phát triển của công ty Google. Ở Google là tham vọng, điên rồ hay là thiên tài?  Sơ lược.  Hoạt động. 1.1. Sơ lược về Google. Ra đời năm 1998 với số tiền đầu tư ít ỏi 100.000 USD và trên mặt bằng một gara cũ, chỉ sau 6 năm, Google đã trở thành một doanh nghiệp toàn cầu trị giá hàng tỉ USD. Trong lịch sử phát minh và tư bản dày cộp của nước Mỹ, chưa có ai thành công nhanh chóng như Google. Thomas Edison phải mất nửa thế kỷ để phát minh ra bóng đèn; Alexander Graham Bell phải tốn rất nhiều năm để phát minh và cải tiến chiếc điện thoại; Henry Ford phải sau hàng chục thập kỷ làm việc miệt mài mới tạo ra được dây chuyền lắp ráp hiện đại và biến nó thành nền công nghiệp đại sản xuất và tiêu dùng ôtô; còn Thomas Watson “con” đã phải làm việc rất vất vả nhiều năm cho tới khi IBM cho xuất xưởng chiếc máy tính hiện đại. Thế nhưng Google chỉ cần vài năm. Google là một công ty kỳ lạ, một thứ văn hóa kỳ lạ, cách kiếm tiền kỳ lạ, trở nên giàu có nhanh chóng nhờ tư duy và trí tuệ của hai chàng trai trẻ cũng thật sự kỳ lạ: Larry Page và Sergey Brin - những người sáng lập giàu tham vọng của Google. Chỉ với bàn tay và khối óc của mình, trong vỏn vẹn có 6 năm, họ đã trở thành tỉ phú. Lúc đó Page và Brin chỉ mới 31 tuổi. Larry Page gặp Sergey Brin vào mùa xuân năm 1995. Dù trẻ hơn Page vài tháng tuổi nhưng Brin đã học ở Trường đại học Stanford được hai năm. Brin tốt nghiệp đại học ở tuổi 19, xuất sắc vượt qua mười bài thi bắt buộc để theo học bậc tiến sĩ tại Trường đại học Stanford ngay lần thi đầu tiên, và dễ dàng tham gia nhóm nghiên cứu cùng các giáo sư. Tháng 1-1996, Page và Brin cùng các sinh viên và cán bộ giảng dạy khoa tin học Trường Stanford chuyển đến một nơi mới: một tòa nhà đẹp bốn tầng ốp đá màu be có khắc dòng chữ Khoa tin học William Gates. Chủ tịch Hãng Microsoft - Bill Gates - đã đóng góp 6 triệu USD để xây dựng tòa nhà, với số tiền đó Bill Gates có quyền đặt tên cho tòa nhà. Page ở phòng Gates 360 cùng với bốn sinh viên khác. Brin được phân sang một văn phòng khác, nhưng anh vẫn dành nhiều thời gian làm việc với Page ở phòng Gates 360. Phòng Gates 360 trông giống như một khu rừng nhỏ, với các cây thân leo vắt vẻo trên trần nhà. Trong một góc phòng, dưới gầm bàn của Page, họ xếp mô hình một 3 | P a g e Data mining – webmining – Search Engine. Lê Công Linh - CNPM1. chiếc máy tính từ các mảnh ghép Lego. Cả hai đều không bao giờ nghĩ rằng đến một ngày họ sẽ cạnh tranh với người khổng lồ Bill Gates. Một trong những chủ đề Page thích bàn luận lúc đó là phát minh các hệ thống khai thác dữ liệu ưu việt hơn. Họ thành lập một đội nghiên cứu mới mang tên MIDAS, viết tắt của cụm từ Mining Data at Stanford (khai thác dữ liệu Trường Stanford). Trong truyền thuyết Hi Lạp, Midas là vị vua có khả năng kỳ diệu: chạm vào cái gì, cái đó biến thành vàng. Trong khi khai thác dữ liệu, họ làm thí nghiệm sắp xếp sao cho tiện lợi thông tin trên mạng Internet đang phát triển mạnh mẽ nhưng tổ chức lộn xộn. Vào giữa những năm 1990, hàng triệu người truy cập và bắt đầu giao tiếp qua thư điện tử, nhưng các nhà nghiên cứu nghiêm túc bắt đầu bực mình giữa một “rừng” trang web. Trong khi đó, các sinh viên bậc tiến sĩ Trường Stanford, Jerry Yang và David Filo, đã tìm kiếm theo phương pháp khác. Không chỉ dựa vào mỗi công nghệ, họ thuê một đội ngũ biên tập viên ngồi lựa chọn các trang web theo thứ tự bảng chữ cái. Họ đặt tên cho công ty của mình là Yahoo!. Mặc dù phương pháp của họ đã đơn giản hóa chỉ tìm kiếm những thông tin giá trị, nhưng nó vẫn chưa toàn diện và không theo kịp được sự phát triển như vũ bão của các trang web. Brin cũng đã từng thử các công cụ và danh bạ tìm kiếm khác nhưng chẳng có trang web nào tối ưu cả. Brin ngày càng tin rằng phải có một cách khác tốt hơn để tìm kiếm thông tin trên mạng. Cùng lúc đó, Page - một người đầy tham vọng - muốn tải toàn bộ các trang web toàn cầu xuống máy tính của mình. Ngày nay, không một thương hiệu nào được toàn thế giới biết đến nhanh hơn Google. Tên của Google trở thành từ vựng thường dùng không chỉ bằng tiếng Anh mà còn xuất hiện trong cả nhiều thứ tiếng khác. Sự xuất hiện của Google cùng các công cụ tìm kiếm đã xóa bỏ được khoảng cách địa lý vốn là rào cản đối với vấn đề giao tiếp và giao thương. Từ gia đình hay văn phòng, người ta có thể giao tiếp với những người hoàn toàn xa lạ ở bên kia bán cầu và truy cập thông tin qua Google để biết về đời tư, hình dáng của họ qua công cụ tìm kiếm hình ảnh của Google, tìm kiếm số điện thoại và trang web của họ, xem ảnh của gia đình họ qua các hình ảnh vệ tinh. 4 | P a g e Data mining – webmining – Search Engine. Lê Công Linh - CNPM1. 1.2. Hoạt động Hàng triệu người sử dụng công cụ tìm kiếm vẫn chưa thể hiểu nổi Google đã kiếm tiền bằng cách nào trong khi họ đang sử dụng miễn phí những công cụ ấy. Nhiều người không thể phân biệt được sự khác nhau giữa những kết quả tìm kiếm miễn phí và các mục quảng cáo xuất hiện ngay cạnh những kết quả này. Ngay cả đối với những người hiểu được điều này - những người rất ít khi nhấp chuột vào các mục quảng cáo, họ cũng không thể hiểu Google đã có được thu nhập hàng tỉ USD bằng cách nào, nhất là với giá trị của mỗi cái nhấp chuột ấy chỉ được tính bằng tiền xu chứ không phải đồng USD. Trong phạm vi hoạt động của mình là cung cấp kết quả cho hàng trăm triệu tìm kiếm mỗi ngày, tất cả những gì Google kiếm được chỉ là từ những cái nhấp chuột vào mục quảng cáo. Mỗi lần bạn nhấp chuột, Google nhận được trung bình 50 xu từ nhà quảng cáo. Google đã kiếm được hàng trăm triệu USD mỗi năm, doanh thu tăng vọt ngoài sức tưởng tượng, không có bất cứ một khoản nợ nào. Hấp dẫn hơn, đó là những lợi nhuận thu được từ việc quảng cáo trên Internet. Vào đầu năm 2001, Google làm một điều gây kinh ngạc khác, đó là thực hiện 100 triệu phép tìm kiếm/ngày và 10.000 phép tìm kiếm/giây. Google cũng được đưa vào từ điển của Mỹ như một động từ. Ngày 1/4/2004, Google lại tung ra một tin “nổ bom tấn” làm mọi người tưởng là chuyện cá tháng tư nhưng hóa ra lại là sự thật: hệ thống thư điện tử Gmail. Dung lượng lưu trữ của Gmail lớn hơn gấp 500 lần dung lượng dự trữ miễn phí của Microsoft và gấp 250 lần dung lượng miễn phí của Yahoo. Google thông báo cho người sử dụng dịch vụ Gmail biết rằng họ sẽ không bao giờ phải xóa bỏ các thư điện tử cũ. “Bom tấn” với dịch vụ thư điện tử Gmail có dung lượng cực lớn khiến các “ông lớn” về email như Yahoo và Microsoft sau đó phải "chạy theo" cung cấp email dung lượng lớn miễn phí cho người dùng. Sau đó, Google tiếp tục đưa ra “món” Tin tức Google và Google Alerts - dịch vụ thông báo tin tức tự động cho người tìm kiếm các chủ đề quan tâm cụ thể thông qua thư điện tử. Hàng triệu người đăng ký sử dụng dịch vụ thông báo và dịch vụ này đã đem lại lợi ích cho những người quan tâm tới một công ty, tổ chức, cá nhân hay chủ đề tin tức nào đó. Ngày nay, hàng chục triệu người thường xuyên tìm kiếm thông tin trên Google bằng ngôn ngữ bản xứ của họ. Họ có thể lựa chọn trong danh sách có tới gần 100 ngôn ngữ. Họ tìm kiếm trên Google mọi thứ từ các thành phần cần thiết cơ bản cho một món ăn đến việc mua bán nhà cửa, giáo dục, giải trí và tất nhiên là cả tình dục. Trên khắp thế giới, từ những nhà kinh doanh cho tới các nhà đầu tư và các luật sư của họ đều sẽ nghĩ rằng họ thật khờ khạo nếu như làm ăn với một đối tác nào đó mà không tìm hiểu về đối tác thông qua Google. Các tác giả viết sách đều tìm thông tin 5 | P a g e Data mining – webmining – Search Engine. Lê Công Linh - CNPM1. và các nguồn tài liệu nhanh chóng bằng cách sử dụng Google. Các quan chức cấp cao trong chính phủ sử dụng Google để tự mình tìm các tài liệu mà không cần đến người phụ giúp. II. Data mining - Web mining.  Nội dung phần này chúng ta nhắc lại về khái niệm về data mining và cấu trúc của web mining để từ đó làm sáng rõ cơ chế của cỗ máy “Search Engine” Google.  Giới thiệu về data mining.  Cấu trúc webmining. 1. Data mining. 1.1. Data mining là gì? Data mining là một quá trình trích xuất thông tin có mối quan hệ hoặc có mối tương quan nhất định từ một kho dữ liệu lớn (cực lớn) nhằm mục đích dự đoán các xu thế, các hành vi trong tương lai, hoặc tìm kiếm những tập thông tin hữu ích mà bình thường không thể nhận diện được. Nhiều người xem khai phá dữ liệu như là một từ đồng nghĩa với những thuật ngữ được sử dụng phổ biến, Knowledge Discovery from Data (KDD). Những người khác lại xem khai phá dữ liệu đơn giản là một bước cốt yếu trong quá trình khám phá dữ liệu. Data mining đã thu hút rất nhiều sự quan tâm trong lĩnh vực công nghiệp thông tin và toàn xã hội nói chung trong những năm gần đây, do sự sẵn có rộng rãi của một lượng dữ liệu khổng lồ và nhu cầu trước mắt để chuyển dữ liệu đó thành thông tin hữu ích và kiến thức. Thông tin và kiến thức đạt được có thể được sử dụng trong các ứng dụng khác nhau: từ phân tích thị trường, phát hiện gian lận, việc giữ chân khách hàng đến việc điều khiển sản xuất và khám phá khoa học. Datamining có thể được xem như là kết quả của sự tiến hóa tự nhiên của lĩnh vực công nghệ thông tin. Ngành công nghiệp hệ thống cơ sở dữ liệu đã chứng kiến một con đường tiến hóa trong sự phát triển của các chức năng: thu thập dữ liệu và tạo ra cơ sở dữ liệu, quản lý dữ liệu (bao gồm cả lưu trữ dữ liệu và phục hồi, và xử lý giao tác cơ sở dữ liệu), và phân tích dữ liệu tiên tiến (liên quan đến lưu kho dữ liệu và khai thác dữ liệu). Ví dụ, sự phát triển ban đầu của việc thu thập dữ liệu và kỹ thuật tạo dữ liệu đóng vai trò như là một điều kiện tiên quyết cho phát triển sau này của các cơ chế hiệu quả để lưu trữ dữ liệu và phục hồi, truy vấn và xử lý giao tác. Hệ thống cơ sở dữ liệu cung cấp nhiều truy vấn và xử lý giao dịch là yêu cầu trong thực 6 | P a g e Data mining – webmining – Search Engine. Lê Công Linh - CNPM1. tế, phân tích dữ liệu tiên tiến đã trở thành mục tiêu tiếp theo 1 cách tự nhiên và tất yếu. Các công cụ, kỹ thuật data mining có thể trả lời các câu hỏi mà các công cụ truyền thống đòi hỏi rất nhiều thời gian cần thiết để có thể giải đáp được (thậm chí các cách truyền thống không thể giải được). Nó có thể tìm thấy được những thông tin cực kỳ hữu ích mà rất dễ bị bỏ qua hoặc không xem xét đến để có thể dự đoán những xu thế/hành động xảy ra trong tương lai. 1.2. Data mining là một bước trong qúa trình khai phá dữ liệu. Khám phá dữ liệu là một quá trình được mô tả trong Hình 1.2 (1) và bao gồm một chuỗi lặp đi lặp lại theo các bước : • Làm sạch dữ liệu (Data Cleaning): loại bỏ dữ liệu mâu thuẫn nhau. • Tích hợp dữ liệu (Data Integration): Nhiều nguồn dữ liệu có thể được kết hợp lại¹. • Chọn lọc dữ liệu (Data Selection): Những dữ liệu có liên quan đến nhiệm vụ phân tích được lấy ra từ cơ sở dữ liệu. • Biến đổi dữ liệu (Data Transformation): Dữ liệu được biến đổi hay hợp nhất thành những dạng thích hợp cho việc khai phá bằng các hành động tổng hợp hay tập hợp chúng). • Khai phá dữ liệu (Data Mining): một quy trình mà tại đó các phương thức thông minh được áp dụng để rút ra các mẫu dữ liệu. • Đánh giá dữ liệu (Data Evaluation): để xác định các mẫu dữ liệu thật sự có giá trị mô tả tri thức dựa trên các đơn vị đo(intestingness measure). • Trình bày dữ liệu (Data presentation): Sự hình dung và các kỹ thuật mô tả tri thức được sử dụng để trình bày những tri thức khai thác được cho người dùng. Với trang Amazon, tại sao Amazon lại có thể đưa ra danh sách các quyển sách bán kèm có tỷ lệ bán được cao như vậy? Để làm được điều này Amazon đã đầu tư phát triển hệ thống recommendation trong hàng chục năm, thời gian dài đó không chỉ là phát triển thuần túy công nghệ mà còn là quãng thời gian thu thập và phân tích hành vi người sử dụng trên site của Amazon, thời gian càng dài, dữ liệu thu thập càng lớn, dẫn đến tập thông tin có độ tương quan càng nhiều và càng chính xác. Nôm na bạn có thể hiểu là 100 khách hàng mua quyển sách ABC thì có tới 40 khách hàng đồng thời mua quyển sách DEF, vì thế với khách hàng 101 xem quyển ABC, hệ thống nhận diện và đưa ra gợi ý mua them quên DEF, đơn giản là vậy, tuy nhiên bên dưới còn có nhiều tham số khác để tăng độ tương quan lên nữa. Và đây cũng là một quá trình mining dữ liệu. 7 | P a g e [...]... tải về thì trang web đó sẽ được tách ra các thành phần (tokenizing) mà điển hình là tách từ sau đó được đánh chỉ mục (Indexing) theo mô hình chỉ số ngược (cái này là phổ biến nhất)  Searching: Đây là quá trình tìm kiếm theo câu hỏi người dùng nhập vào Và việc tìm kiếm sẽ là trên bảng Index của bước Indexing Các trang web được lưu chỉ phục vụ vấn đề cache Các bước trên về cơ bản là các máy tìm kiếm đều... vụ vấn đề cache Các bước trên về cơ bản là các máy tìm kiếm đều giống nhau, tuy nhiên mỗi máy tìm kiếm sẽ triển khai theo thuật toán cụ thể riêng Chỉ có khi trả kết quả về thì mới thể hiện sức mạnh của mỗi máy tìm kiếm, theo đó máy tìm kiếm tốt hơn nếu tốc độ nhanh hơn và trả lời chính xác hơn (trang web trả về có độ liện hệ với câu hỏi người dùng cao hơn) Điều này liên quan tới thuật toán PageRank... dụ: ta cần tìm thông tin về người trưởng bộ môn CNTT của MIT, ta gõ: “MIT computer sciense chair” vào google, nhưng kết quả trả về lại không được chính xác hoàn toàn Nguyên nhân của việc tìm kiếm thất bại là do keyword : MIT, computer sciene và chair Nếu Search Engine được tích hợp tri thức để hiểu được ý nghĩa của các từ, thì rất có thể nó sẽ cho ta kết quả chính xác hơn, lúc đó việc tìm kiếm sẽ dựa... trang (hay tại một phần nào đó của trang) có đề cập đến những bệnh có triệu chứng tương tự 1.2.2 Semantic Search Engine Semantic Search Engine sẽ đáp ứng hầu hết mọi mong đợi của người dùng, nó mạng lại:  Một viễn cảnh về lĩnh vực tri thức (knowledge domain) tốt hơn  Cho phép tìm kiếm thông tin dựa trên nội dung tài liệu  Thông tin tìm kiếm được trả về chính xác và phù hợp (tìm ra những tài liệu... việc tìm kiếm không phải để tìm thông tin chi tiết mà là để tìm các thông tin liên quan hay các phạm trù, lĩnh vực liên quan Đôi khi ngay cả suggestion của Google cũng đi lệch lạc với ý tưởng của người tìm kiếm Tìm kiếm thông tin của các hang động mùa du lịch 15 | P a g e Data mining – webmining – Search Engine Lê Công Linh - CNPM1 1.2 So sánh Search Engine truyền thống (keyword - text Search Engine) và. .. Engine của Google mà cả ở các Search Engine của AOL, đại gia Yahoo, MSN và vô số các Intranet Search Engine ở các trường học, công ty hay tổ chức Ngoài ra còn có các Search Engine được tích hợp trong các phần mềm Vấn đề hiện nay là đa số các Search Engine hiện có đều thuộc loại keyword Search Engine Cơ chế của chúng là định kì duyệt web để phát hiện ra những sự thay đổi, rồi lập chỉ mục những thay đổi... thống (keyword - text Search Engine) Không thể tìm ra các tài nguyên hiệu quả và thích hợp vì:  Những tài liệu người dùng muốn tìm có thể sử dụng những thuật ngữ khác (hay những từ đồng nghĩa khác nhau)  Những lỗi chính tả và các biến thể của từ ngữ được xem là những thuật ngữ khác nhau đối với môi trường máy tính Ví dụ, “psoriasis” (đúng chính tả) và “psoriaissis” (lỗi in ấn) được cho là khác nhau,... (đúng chính tả với tiếng Anh) và “anemia” (đúng chính tả với tiếng Mỹ) cũng được xem là khác nhau  Search Engine không thể xử lý các trang HTML một cách thông minh Ví dụ, việc tìm kiếm các tài nguyên về “psoriasis” (bệnh vảy nến) sẽ lấy tất cả các tài liệu có chứa từ này Tuy nhiên, đa số các tài liệu đều không thích hợp/liên quan Nghĩa là, “psoriasis” trong các tài liệu này đề cập đến “psoriasis” ở những... để thu thập các trang web về, xử lý, lưu trữ và đồng thời lập ra đồ thị web cục bộ Phương pháp duyệt là duyệt theo chiều rộng, mỗi tầng của cây duyệt được coi là 1 vòng Cứ sau một thời gian định trước, các trang web này sẽ được cập nhật lại tuỳ theo tốc độ thay đổi của trang Với ứng dụng GoMobile của TMS [dowload tại: http://m.gomobile.vn/ ] các bạn khi sử dụng sẽ thấy muôn vàn các ứng dụng khác nhau,... với khai phá văn bản bởi tính chất bán cấu trúc của web, trong khi khai phá văn bản tập trung vào các văn bản không có cấu trúc Như vậy khai phá nội dung web yêu cầu ứng dung các kỹ thuật của khai phá văn bản/ dữ liệu, xong nó cũng đòi hỏi phương pháp tiếp cận độc đáo của riêng mình Không chỉ Google mà ngay cả Yahoo!, MSN hay tất cả các máy tìm kiếm khác đều có các bước sau: 10 | P a g e Data mining . triển Search Engine của Google 13 1.1.Giới thiệu 13 1.2.So sánh Search Engine truyền thống (keyword - text Search Engine) và Semantic Search Engine 16 1.2.1 .Search Engine truyền thống (keyword -. thống (keyword - text Search Engine) 16 1.2.2.Semantic Search Engine 16 IV.Thuật toán Page Rank 17 a.Tổng quan 17 Data mining – webmining – Search Engine. Lê Công Linh - CNPM1. b.Các khái niệm. tra Google. 2 | P a g e Data mining – webmining – Search Engine. Lê Công Linh - CNPM1. I. Google. Nội dung phần này giúp chúng ta có cái nhìn sơ qua về quá trình hình thành và phát triển của công

Ngày đăng: 20/08/2014, 16:03

Xem thêm