MỤC LỤC
Để giải quyết bài toán trích xuất thực thể thì có nhiều cách tiếp cận như HMM, SVM hay CRF…ngoài ra còn một giải thuật khá nổi tiếng đó là giải thuật DIPRE - Dual Iterative Pattern Relation Expansion của BRin [8] trong việc trích xuất cặp thực thể quan hệ tên sách và tác giả đối với trang amazon.com. Bài toán trích xuất thông tin cho dữ liệu bán cấu trúc là rất hữu dụng bởi vì nó cho phép chúng ta thu được và tích hợp dữ liệu từ nhiều nguồn để cung cấp cho những dịch vụ giá trị gia tăng như : thu được những thông tin Web một cách tùy ý, hệ thống tìm kiếm giá cả, hay meta-search.
Thay vì phân tích mã HTML để sửa lỗi, có thể sử dụng sự biểu diễn hoặc các thông tin ảo (ví dụ như: địa chỉ trên màn hình mà các thẻ được biểu diễn) để suy luận mối quan hệ có cấu trúc của các thẻ và có thể xây dựng được cây DOM. Trong một trình duyệt web, mỗi phần tử HTML (chứa đựng một thẻ mở, các thuộc tính tùy chọn, nội dung HTML được nhúng tùy ý và một thẻ đóng, thẻ này có thể thiếu) được biểu diễn như một hình chữ nhật. Với một biểu thức chính qui, một otomat hữu hạn trạng thái có thể được xây dựng và được sử dụng để so khớp sự xuất hiện của nó trong chuỗi tuần tự các trang web.
Start Rule: R1: SkipTo(<b>) tức là hệ thống nên xuất phát ở điểm bắt đầu của trang và bỏ qua tất cả các token cho đến khi chúng thấy được thẻ <b> đầu tiên. Để sinh ra Start Rule cho một node của cây EC, một vài token tiền tố hay các đại diện của node được nhận dạng như các mỏ neo, chúng có thể nhận dạng đơn nhất sự bắt đầu của một node. Cho trước một tập các mẫu huấn luyện đã được gán nhãn, giải thuật học sẽ sinh ra các luật trích xuất tổng quan để trích xuất tất cả các phần tử mục tiêu (positive items) mà không trích xuất các phần tử khác (nagertive items).
Sau quá trình này thì một wrapper đã được sinh ra , nó sẽ được áp dụng cho các trang web khác chứa đựng các dữ liệu tương tự và được định dạng cùng một cách với tập mẫu huấn luyện. Đầu ra: Một mẫu trích xuất có thể trích xuất được tất các các trang trong tập mẫu, trong giải thuật này mẫu trích xuất đó là biểu thức chính qui kết hợp tự do. Mẫu trích xuất W sau đó được định nghĩa lại bởi việc kết hợp có thứ tự với mã HTML của mỗi trang pi khác trong tập mẫu, để giải quyết vấn đề sai khác giữa các mẫu trích xuất của các trang trong tập mẫu.
Đối với ba phương pháp tiếp cận đã được giới thiệu ở mục 3.1.2, việc áp dụng hai phương pháp đầu sẽ gặp phải các hạn chế do dữ liệu của hệ thống hoàn toàn phụ thuộc vào sự cung cấp của các cửa hàng trong khi giá cả là dạng dữ liệu biến động liên tục theo thời gian đòi hỏi phải có sự cập nhật liên tục thông tin vào cơ sở dữ liệu. Các bài toán này được đề xuất để xây dựng những hệ thống tìm kiếm giá cả sản phẩm, tuy nhiên chúng gặp phải một vấn đề, đó là các tên của sản phẩm phải được cung cấp trước và cỏc trang kinh doanh sản phẩm phải xỏc định rừ trờn hệ thống. Khi người dùng vào một trang kinh doanh sản phẩm và tìm kiếm một sản phẩm nào đó thì kết quả được trả về và hiển thị trên trình duyệt theo một số khuôn mẫu định sẵn, các trang trong cùng khuôn mẫu này thì có chung cấu trúc HTML.
Vì các trang trong cùng một website có cấu trúc tuân theo một vài khuôn mẫu nhất định nên ta có thể sử dụng những mẫu trích xuất (1) để trích xuất tên sản phẩm và (2) để trích xuất giá sản phẩm từ trang khác có cùng cây DOM trên. Sau khi đã xác định được tất cả các mẫu trích xuất giá và mẫu trích xuất tên sản phẩm, để xác định được giá thực của sản phẩm ta phải loai trừ những giá không phù hợp, đó là những giá nằm trông một số thẻ <strike> hay thẻ <s>. Trong khi xây dựng được tập luật để trích xuất giá cả, chúng tôi nhận thấy: ngoài giá cả của sản phẩm người sử dụng còn quan tâm đến những thuộc tính khác của sản phẩm như: ảnh của sản phẩm, thời gian bảo hành, thông tin khuyến mại… Bên cạnh đó cách tổ chức tập luật với giá có thể áp dụng cho những thuộc tính này.
Với một tập hạt giống các tên sản phẩm, chúng ta có thể tự động xác định được tập các trang liên quan đến sản phẩm, sau đó sẽ sinh ra các mẫu trích xuất thông tin về tên và giá sản phẩm một cách tự động trong tập trang liên quan này dựa vào tập luật nêu ở 3.3.2. Tuy nhiên các kết quả trả về có thể chỉ là trang giới thiệu, trang tin tức về sản phẩm, ngay trong ví dụ trên thì kết quả đầu tiên trả về của máy tìm kiếm lại là một trang tin tức sản phẩm.Vì vậy ta phải tối ưu những truy vấn gửi đến máy tìm kiếm để đạt được kết quả tốt nhất, tức là số lượng trang liên quan đến kinh doanh sản phẩm nhiều nhất. Qua ví dụ này chúng tôi thấy nếu tối ưu các truy vấn gửi đến máy tìm kiếm thì kết quả trả về những trang kinh doanh sản phẩm xuất hiện nhiều hơn, như trong ví dụ trên thì 6 trang đầu tiên này đều là trang kinh doanh sản phẩm.
Dưới các cơ sở thực tiễn và cơ sở lý thuyết nêu ở trên, khóa luận này đã đưa ra mô hình để xây dựng hệ thống hoàn toàn tự động, có thể tự động xác định được các website kinh doanh sản phẩm lượng nhỏ tên sản phẩm ban đầu và có thể tự động trích xuất thông tin về tên và giá của sản phẩm trong các website đó. Các website và mẫu trích xuất tương ứng này sẽ qua “module thu thập dữ liệu và trích xuất thông tin” để thu thập được tên sản phẩm và giá của sản phẩm, thông tin này sẽ được cập nhật vào cơ sở dữ liệu “thông tin sản phẩm” và “tập hạt giống tên sản phẩm”.
• Extracting: chức năng của gói này đó là trích là xác định các website kinh doanh và trích xuất tên, giá sản phẩm trong website đó. Mục đích của thực nghiệm này để kiểm nghiệm tính đúng đắn của “bài toán xác định giá thực của sản phẩm” bằng các luật nêu ở mục 3.3.2. Mục đích của thực nghiệm này là kiểm nghiệm sự chính xác và khả năng xác định được các trang kinh doanh sản phẩm từ tập hạt giống tên sản phẩm ban đầu của bài toán.
- Đầu ra : Website kinh doanh sản phẩm có bán những sản phẩm trong tập hạt giống đó và các mẫu trích xuất tương ứng với website. - Tải các trang liên quan đến sản phẩm và xác định được các mẫu trích xuất thông tin sản phẩm, ta sẽ thu được một bộ (Website, mẫu_trích_tên sản phẩm, mẫu_trích_giá sản phẩm). Xác định sự trùng lặp của các bộ, nếu một bộ trùng lặp nhiều lần, thì website trong bộ đó là website kinh doanh và các mẫu trích xuất trong bộ là mẫu trích xuất có thể áp dụng cho website này.
Tuy nhiên do số lượng tập hạt giống ban đầu mới chỉ có 4 tên sản phẩm nên số lượng website kinh doanh sản phẩm nhận dạng được vẫn còn ít. Mục đích của thực nghiệm này để kiểm nghiệm phương pháp trích xuất thông tin sản phẩm nêu ở “bài toán tự động trích xuất tên và giá của sản phẩm” trong muc 3.3.3. Hai website kinh doanh sẽ được thu thập dữ liệu, với số lượng 5000 tài liệu trên một website và trích xuất dữ liệu từ tập dữ liệu này dựa vào các mẫu trích xuất tương ứng với từng website đó.
Trong số những sản phẩm trích xuất được thì tất cả những sản phẩm đó đều chính xác, điều đó cho thấy phương pháp trích xuất thông tin này chính xác. Tuy nhiên trong 416 sản phẩm của website www.trananh.vn thì chỉ có các sản phẩm về điện thoại di động trong khi website này còn có những sản phẩm về máy vi tính, nguyên nhân của kết quả này là do sản phẩm trên tập hạt giống đều là tên của các loại điện thoại di động và khuôn mẫu của lĩnh vực điện thoại và máy tính ở website này là khác nhau.