phân loại và đánh giá mối liên kết giữa các trang web

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ - ĐHQGHN KHOA CÔNG NGHỆ THÔNG TIN CÔNG TRÌNH DỰ THI GIẢI THƯỞNG “SINH VIÊN NGHIÊN CỨU KHOA HỌC” NĂM 2014 ĐỀ TÀI: PHÂN LOẠI VÀ ĐÁNH GIÁ MỐI LIÊN KẾT GIỮA CÁC TRANG WEB Sinh viên thực hiện : Giảng viên hướng dẫn : Đỗ Văn Phong PGS.TS. Nguyễn Việt Hà Giảng viên đồng hướng dẫn: ThS. Vũ Quang Dũng Lời mở đầu Ngày nay, khi mà dữ liệu khoa học, dữ liệu y tế, dữ liệu nhân khẩu học, dữ liệu tài chính, và các dữ liệu tiếp thị ngày càng trở nên nhiều và phức tạp. Con người không có đủ thời gian để xem xét dữ liệu như vậy. Nhu cầu về việc tiết kiệm thời gian cho thu thập thông tin có ích được đặt ra,cũng dẫn đến nhu cầu về một hệ thống có khả năng phân tích trích xuất ra những thông tin hữu ích theo chủ đề đối với từng người dùng riêng biệt. Vì vậy, chúng ta phải tìm cách tự động phân tích dữ liệu, tự động phân loại nó, tự động tóm tắt nó, tự động phát hiện và mô tả các xu hướng trong nó, và tự động chỉ dẫn các dị thường. 2 Mục lục Lời mở đầu ....................................................................................................................2 1. Bài toán đặt ra................................................................................................ Error! B 2. Giải quyết bài toán ........................................................................................6 2.1. Mô hình tổng quát ................................................................................. 6 2.2. Cơ sở lý thuyết ...................................................................................... 6 Thuật toán IEPAD.............................................................................. 7 2.2.1. 2.3. Trích xuất phân tích mối liên kết giữa các trang web .................. Error! Bookmark not defined. 2.3.1. Xây dựng cây liên hệ ban đầu từ một trang web đầu vào .............. 8 2.3.2. Xây dựng ma trận liên quan và tính trọng số ................................. 9 2.4. Trích xuất luật cấu trúc trang web ....... Error! Bookmark not defined. 2.4.1. Tạo bộ sinh luật ............................ Error! Bookmark not defined. 2.4.2. defined. Sử dụng bộ sinh luật để rút gọn cây liên hệ Error! Bookmark not Kết luận .........................................................................................................Error! B 3. 3.1. Kết quả đạt được và hạn chế ............................................................... 11 3.2. Hướng phát triển.................................................................................. 12 Tài liệu tham khảo .........................................................................................................14 3 Danh sách hình vẽ Hình 1: Mô hình tổng quan hệ thống .................................................................... 6 Hình 2 : Authorities và Hubs ................................................................................ 7 Hình 3 : Sơ đồ thuật toán IEPAD .......................................................................... 8 Hình 4 : Ví dụ về liên kết trang web ..................................................................... 9 Hình 5: Ví dụ về mối quan hệ các trang.............................................................. 10 Hình 6: Ví dụ về mối quan hệ các trang.............................................................. 10 Hình 7: Đồ thị quan hệ ban đầu .......................................................................... 11 Hình 8: Đồ thị quan hệ sau khi rút gọn ............................................................... 12 4 1. Đặt vấn đề Hiện nay, các trang báo mạng trở lên phổ biến đa dạng và phong phú cả về nội dung lẫn hình thức. Người dùng sẽ có nhu cầu thu thập thông tin một cách chọn lọc vậy nên nhu cầu tiết kiệm thời gian, công sức cho việc thu thập những thông tin có ích cũng được phát sinh. Vì vậy tôi muốn xây dựng một hệ thống có thể hỗ trợ người dùng thu thập những bài báo liên quan tới chủ đề mà họ đang đọc. Tuy nhiên các thông tin trên các trang web theo những cấu trúc rất khác nhau nguồn dữ liệu được tổ chức rất phong phú và phức tạp. Vậy để đáp ứng được nhu cầu thu thập và xử lý dữ liệu chúng ta sẽ tập trung vào trích xuất dữ liệu từ những trang web có cấu trúc tương đồng và dùng nó để xây dựng đồ thị quan hệ giữa các trang web. Kết quả cuối cùng là một cây quan hệ thể hiện mối quan hệ tương đồng giữa các trang web khác nhau đối với trang web đầu vào. Các nội dung chính của bài toán như sau: - Phân tích liên kết giữa các bài viết trong các trang web dựa trên việc tìm kiếm những link liên quan tới chính bài viết đó. - Lọc và loại bỏ bớt những link ít liên quan hơn tới bài viết ban đầu. - Trích xuất ra luật cấu trúc của bài báo ban đầu và so sánh nó với các bài báo trong cây quan hệ để tìm ra điểm tương đồng và điểm đặc trưng cho mỗi trang báo. Trong đó: - Cây quan hệ : o Là mạng lưới thể hiện sự quan hệ giữa các bài báo, những bài báo có liên quan tới nhau là những bài báo cùng có liên quan tới các keyword đặc trưng của phân lớp mà bài báo đó thuộc vào. Một bài báo có thể thuộc nhiều phân lớp. o Mạng lưới quan hệ có thể được rút gọn dần dần bằng việc loại bỏ dần đi các bài báo không có mối quan hệ với nhau. - Luật cấu trúc: o Là các quy tắc của cấu trúc trang web mà từ bộ luật đó ta có thể biết được vị trí các layout chứa nội dung chính nằm ở đâu cũng như các layout khác. Từ bộ luật ta có thể dùng để so sánh các trang web vơi nhau để kiểm tra sự tương đồng về cấu trúc tạo thuận lợi để trích xuất dữ liệu. 5 2. Giải quyết vấn đề 2.1. Mô hình tổng quát Sơ đồ tổng quan của hệ thống: Hình 1: Mô hình tổng quan hệ thống 2.2. Cơ sở lý thuyết 2.2.1. Thuật toán HITS Đây là thuật toán được tôi sử dụng trong việc tìm ra mối liên hệ giữa các trang web và dùng để xây dựng nên mạng lưới quan hệ ở mức ban đầu. HITS [3] – Hypertext Include Topic Seclection, thuật toán HITS là một thuật toán phân tích liên kết mà đánh giá ở mức các trang web, được phát triển bởi Jon Kleingberg. Đây là một tiền thân của PageRank. Ý tưởng bắt nguồn từ một cái nhìn tổng quan vào các trang web trên Internet ban đầu được hình thành, đó là tập hợp các trang web nào đó, được gọi là hub, đáp ứng các chỉ mục lớn nhưng nó không có những thông tin đó mà nó được sử dụng như tài liệu sưu tập của các danh mục lớn. Để có được các thông tin người sử dụng trực tiếp truy cập vào các chỉ mục đó để dấn tới các trang web có chứa thông tin. Nói cách khác, một hub tốt đại diện cho một trang trỏ tới nhiều trang khác, và một authority tốt đại diện cho một trang mà được liên kết bởi các hub khác nhau. 6 Thuật toán HITS là một trong những thuật toán trích xuất chủ đề nổi tiếng. Đưa ra một tập các trang web về một chủ đề khoa học, thuật toán HITS tính toán số điểm authority (đó là biểu thị cho nội dung liên quan) và số điểm hub (một biểu thị cho liên kết liên quan) cho mỗi trang web. Việc tính toán được thực hiện như sau, trong đó q → p ký hiệu trang q có một liên kết trỏ đến trang p. 𝑎 (𝑝 ) = ∑ ℎ (𝑞 ) ℎ (𝑞 ) = ∑ 𝑎 (𝑝 ) 𝑞→𝑝 𝑞→𝑝 Ví dụ về cách tính a(p) và h(q) được biểu diễn trên Hình 3: Hình 2 : Authorities và Hubs 2.2.2. Thuật toán IEPAD Trọng tâm của việc giải quyết bài toán trích xuất luật chính là thuật toán IEPAD. Thuật toán này cho phép nhận một trang web đầu vào và đưa ra bộ luật của trang web đó chính là trật tự, cấu trúc sắp xếp của các layout trong trang web đó. Một hệ thống iepad bao gồm 3 thành phần: - extraction rule generator: Nhận đầu vào là một webpage và trích xuất ra các luật trong webpage đó. pattern viewer: giao diện đồ họa cho người sử dụng. extractor module: trích xuất ra những thông tin mong muốn từ những webpage tương tự khác. 7 Trọng tâm chính của công nghệ này chính là extraction rule generator Hình 3 : Sơ đồ thuật toán IEPAD Kết quả trả về của bộ extraction rule Generator này là một bộ luật được trích xuất ra từ webpage đầu vào. Khi người dùng submit một webpage html vào IEPAD bộ translator sẽ chuyển mã của webpage này thành một file nhị phân. Từ file nhị phân này PART Tree Contructor sẽ tạo lên một cây PAT.Bộ khai phá ra cấu trúc sẽ dựa vào cây PAT này để tìm ra những cấu trúc lặp lại được gọi là maximal repeats. Maximal repeats sẽ được chuyển cho bộ Validator để lọc bỏ những cấu trúc không cần thiết. Cuối cùng Rule Composer sẽ lọc lại những luật đó và tổng hợp để đưa ra kết quả cuối cùng. 2.3. Chi tiết hệ thống 2.3.1. Xây dựng cây liên hệ ban đầu từ một trang web đầu vào Để xây dựng được cây ban đầu tôi sẽ sử dụng kết quả đã được nêu ra trong [6], đây chính là phương pháp trích xuất các mối liên hệ giữa các trang web dựa vào các link có trong bài viết. Phương pháp đó sẽ tìm và lấy tất cả các liên kết từ trang web đầu vào. 8 Ví dụ về link liên quan: Hình 4 : Ví dụ về liên kết trang web Như hình trên các bạn có thể thấy phần trong khung đen chính là các liên kết đến các trang khác. Các trang có quan hệ được định nghĩa là các trang có link liên kết tới nhau. Từ mối liên hệ được tìm nhờ [6] đó ta sẽ tiến hành xây dựng nên một cây diễn tả mối liên hệ giữa các trang web khác đối với trang web đầu vào. 2.3.2. Xây dựng ma trận liên quan và tính trọng số Ở phần này tôi sẽ sử dụng thuật toán HITS để giải quyết vấn đề, ý tưởng chính của phương pháp này là sử dụng chính các mối quan hệ giữa các trang web để nói lên độ liên quan của từng trang web. Các trang web được trỏ tới càng nhiều thì có độ tin cậy càng cao. 9 Ví dụ về các trang web có độ tin cậy cao đối với từ khóa là “CAR ranking”: Hình 5: Ví dụ về mối quan hệ các trang Tương tự như vậy từ đồ thị đã được xây dựng trong bước trước tôi sẽ tiến hành đánh giá và kiểm tra các mức độ liên kết giữa các trang web trong đó. Để đơn giản tôi dưa ra một ví dụ minh họa cho việc tính độ tin cậy của trang web trong một đồ thị liên hệ hết sức đơn giản. Ví dụ về đồ thị: Hình 6: Ví dụ về mối quan hệ các trang Đối với một đồ thị đơn giản như trên ta sẽ xây dựng được một ma trận thể hiện mối quan hệ tương ứng như sau: Với ma trận trên ta sẽ đi tìm những vector trọng số theo thuật toán HITS như sau: 10 Trong ví dụ này thì vector v thể hiện trọng số của mỗi node chính là vector cho biết mức độ liên quan của node đối với trang web đầu vào (điểm càng cao độ liên quan càng lớn). Sau đó sẽ tiến hành loại bỏ đi các node có điểm thấp để thu được một cây có các node quan hệ với nhau ở mức độ chặt chẽ hơn. 2.4. Kết quả đạt được và hạn chế 2.4.1. Kết quả đạt được - Hệ thống đã bước đầu xây dựng được mô hình cây quan hệ. Từ trang web đầu vào hệ thống tiến hành bóc tách ra các link liên quan và xây dựng lên cây quan hệ. Mối quan hệ được diễn ta tới tầng thứ ba, tức là tới node con của con trang web đầu vào. Cây ban đầu xây dựng là mô phỏng lại các liên kết giữa các trang web ở mức sơ lược. Trong cây này vẫn còn nhiều các trang web có mức độ liên quan tới trang web đầu vào ở mức thấp. Mối liên quan ở đây mới chỉ thể hiện ở việc một bài viết có link tới bài viết khác hay không. Hình 7: Đồ thị quan hệ ban đầu 11 - Từ cây quan hệ đó, hệ thống đã sử dụng thuật toán HITS để xây dựng lên ma trận quan hệ, sau đó dựa vào ma trận quan hệ để tính trọng số và cuối cùng thu được một cây nhỏ hơn chính xác hơn. Cây sau khi làm mịn đã được thu nhỏ hơn mức độ tương quan với nhau đã được nâng cao nhờ thuật toán trích xuất chủ đề HITS. Hình 8: Đồ thị quan hệ sau khi rút gọn 2.4.2. Hạn chế - Các node trong cây còn chứa các trang index, chưa phân biệt được các trang index và trang thường. - Hệ thống chưa trích xuất được nội dung bài báo để phân tích mức độ liên quan trực tiếp từ nội dung bài báo. Hướng phát triển 2.5. - Hoàn thành việc cài đặt thuật toán IEPAD để trích xuất luật cấu trúc. - Từ thuật toán IEPAD tiến hành bóc tách nội dung và phân biệt trang index cũng như phân biệt các loại báo điện tử khác nhau. 12 2.6. Kết luận Mặc dù hệ thống đang trong quá trình hoàn thiện nhưng ta có thể thấy ứng dụng thiết thực của nó vào trong đời sống hàng ngày. Với cách cài đặt đơn giản thì chúng ta sẽ có thể ứng dụng vào trong các ứng dụng nhỏ trên mobile như ứng dụng đọc báo và xem tin tức. Hệ thống có thể mở rộng và phát triển để trở thành hệ thống back-end trong các ứng dụng lớn hơn có ứng dụng cụ thể vào đời sống. 13 Tài liệu tham khảo [1] Data-rich Section Extraction from HTML pages - Jiying Wang và Fred H. Lochovsky [2] B. T. Hiển, “Hệ thống phân loại và đánh chỉ mục dữ liệu web,” Khóa luận tốt nghiệp đại học hệ chính quy, 2013. [3] H. Q. Thụy, Giáo trình Khai phá dữ liệu Web, Giáo Dục Việt Nam. [4] IEPAD: Information Extraction Based on Pattern Discovery - ChiaHui Chang và ShaoChen Lui [5] http://www.w3schools.com/ [6] Trương Văn Hưng, “PHÂN TÍCH VÀ TRÍCH XUẤT WEB LAYOUT” công trình dự thi giải thưởng “sinh viên nghiên cứu khoa học” 2014. 14 [...]... tiến hành bóc tách ra các link liên quan và xây dựng lên cây quan hệ Mối quan hệ được diễn ta tới tầng thứ ba, tức là tới node con của con trang web đầu vào Cây ban đầu xây dựng là mô phỏng lại các liên kết giữa các trang web ở mức sơ lược Trong cây này vẫn còn nhiều các trang web có mức độ liên quan tới trang web đầu vào ở mức thấp Mối liên quan ở đây mới chỉ thể hiện ở việc một bài viết có link tới bài... mức độ liên quan của node đối với trang web đầu vào (điểm càng cao độ liên quan càng lớn) Sau đó sẽ tiến hành loại bỏ đi các node có điểm thấp để thu được một cây có các node quan hệ với nhau ở mức độ chặt chẽ hơn 2.4 Kết quả đạt được và hạn chế 2.4.1 Kết quả đạt được - Hệ thống đã bước đầu xây dựng được mô hình cây quan hệ Từ trang web đầu vào hệ thống tiến hành bóc tách ra các link liên quan và xây... Với cách cài đặt đơn giản thì chúng ta sẽ có thể ứng dụng vào trong các ứng dụng nhỏ trên mobile như ứng dụng đọc báo và xem tin tức Hệ thống có thể mở rộng và phát triển để trở thành hệ thống back-end trong các ứng dụng lớn hơn có ứng dụng cụ thể vào đời sống 13 Tài liệu tham khảo [1] Data-rich Section Extraction from HTML pages - Jiying Wang và Fred H Lochovsky [2] B T Hiển, “Hệ thống phân loại và. .. báo để phân tích mức độ liên quan trực tiếp từ nội dung bài báo Hướng phát triển 2.5 - Hoàn thành việc cài đặt thuật toán IEPAD để trích xuất luật cấu trúc - Từ thuật toán IEPAD tiến hành bóc tách nội dung và phân biệt trang index cũng như phân biệt các loại báo điện tử khác nhau 12 2.6 Kết luận Mặc dù hệ thống đang trong quá trình hoàn thiện nhưng ta có thể thấy ứng dụng thiết thực của nó vào trong... trận quan hệ, sau đó dựa vào ma trận quan hệ để tính trọng số và cuối cùng thu được một cây nhỏ hơn chính xác hơn Cây sau khi làm mịn đã được thu nhỏ hơn mức độ tương quan với nhau đã được nâng cao nhờ thuật toán trích xuất chủ đề HITS Hình 8: Đồ thị quan hệ sau khi rút gọn 2.4.2 Hạn chế - Các node trong cây còn chứa các trang index, chưa phân biệt được các trang index và trang thường - Hệ thống chưa... Lochovsky [2] B T Hiển, “Hệ thống phân loại và đánh chỉ mục dữ liệu web, ” Khóa luận tốt nghiệp đại học hệ chính quy, 2013 [3] H Q Thụy, Giáo trình Khai phá dữ liệu Web, Giáo Dục Việt Nam [4] IEPAD: Information Extraction Based on Pattern Discovery - ChiaHui Chang và ShaoChen Lui [5] http://www.w3schools.com/ [6] Trương Văn Hưng, “PHÂN TÍCH VÀ TRÍCH XUẤT WEB LAYOUT” công trình dự thi giải thưởng “sinh ... tất liên kết từ trang web đầu vào Ví dụ link liên quan: Hình : Ví dụ liên kết trang web Như hình bạn thấy phần khung đen liên kết đến trang khác Các trang có quan hệ định nghĩa trang có link liên. .. từ trang web có cấu trúc tương đồng dùng để xây dựng đồ thị quan hệ trang web Kết cuối quan hệ thể mối quan hệ tương đồng trang web khác trang web đầu vào Các nội dung toán sau: - Phân tích liên. .. dụng mối quan hệ trang web để nói lên độ liên quan trang web Các trang web trỏ tới nhiều có độ tin cậy cao Ví dụ trang web có độ tin cậy cao từ khóa “CAR ranking”: Hình 5: Ví dụ mối quan hệ trang

Định dạng
Số trang	14
Dung lượng	857 KB