Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

62 679 1
Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

LỜI CẢM ƠN ˜²™ Em xin gửi lời cảm ơn chân thành tới thầy cô khoa Công Nghệ Thơng Tin, gia đình bạn bè, giúp đỡ em suốt trình học tập thực khóa luận Đặc biệt em xin trân trọng cảm ơn thầy giáo, Tiến sĩ Nguyễn Đại Thọ trực tiếp hướng dẫn em hồn thành khóa luận Hà nội, ngày 25 tháng 05 năm 2006 Nguyễn Huy Sơn TÓM TẮT NỘI DUNG ˜²™ Trên giới có nhiều Website tập hợp thơng tin giá nhiều chủng loại mặt hàng khác chào bán mạng nhiều công ty kinh doanh khác Ở Việt Nam khoảng năm trở lại bắt đầu xuất số Website Tuy nhiên hầu hết Website Việt Nam lẫn giới sử dụng tác tử khảo duyệt trích rút thơng tin có mức độ tự động tính thơng minh khơng cao Cụ thể, Website bán hàng, người phát triển phải xây dựng luật trích rút riêng cho chương trình tác tử Trong nghiên cứu, người ta đề xuất số kỹ thuật học máy sử dụng tác tử trích rút thơng tin từ nhiều Website có cách thức tổ chức khác Báo cáo nghiên cứu ứng dụng kỹ thuật trích rút theo phương pháp học máy để xây dựng hệ thống so sánh thông tin giá trực tuyến có tính khả biến cao Tính khả biến cao mà ứng dụng hướng tới khả quy tụ thông tin từ số nguồn không hạn chế Website sản phẩm với chương trình tác tử Hệ thống cho kết ban đầu đáng khích lệ thử nghiệm số Website tiêu biểu Việt Nam MỤC LỤC TÓM TẮT NỘI DUNG LỜI NÓI ĐẦU Bối cảnh chung .5 So sánh giá .5 Mục đích đề tài .6 Bố cục khóa luận Chương KHẢO DUYỆT WEB VỚI JAVA .9 Tìm hiểu HTTP Request .9 Tìm hiểu gói Bot-Package 10 Sử dụng gói thư viện Swing cho việc phân tích cú pháp HTML 13 Chương KHẢO SÁT CÁC WEBSITE BÁN HÀNG Ở VIỆT NAM 15 Giới thiệu .15 Bố trí mục tìm kiếm .17 Hình thức tìm kiếm 17 Tìm kiếm đơn giản .17 Tìm kiếm chi tiết: .17 Tìm kiếm theo danh mục 18 Nhận biết mục tìm kiếm 19 Cách khảo sát tìm kiếm 19 Trình bày Website tìm thấy khơng tìm thấy sản phẩm 20 Tổ chức chung 20 Phân cách sản phẩm .21 Đơn vị mô tả sản phẩm 22 Kết luận 22 Chương THIẾT KẾ TÁC TỬ TRÍCH RÚT THƠNG TIN 23 Giới thiệu .23 Kiến trúc hệ thống trích rút thơng tin 24 Chương trình học 26 Xác định mẫu biểu tìm kiếm 27 Lấy đơn vị miêu tả sản phẩm 28 Xác định giá trị thuộc tính sản phẩm 37 Trình quản lý thuật ngữ 37 Giới thiệu 37 Xây dựng giao diện nhập thuật ngữ 38 Mở rộng thuật ngữ cấu trúc 38 Kết luận 40 Chương PHÁT TRIỂN HỆ THỐNG SO SÁNH .41 GIÁ CẢ TRỰC TUYẾN 41 Mơ hình tổng qt 41 Thiết kế tác tử 42 Thiết kế Website 46 Mô tả Website 46 Cấu trúc Website 46 Hoạt động Website: .47 Cơ sở liệu 48 Hướng dẫn cài đặt hệ thống thực nghiệm Website so sánh giá 52 Cài đặt trình biên dịch JDK trình chủ Web Tomcat .52 Biên dịch chạy ứng dụng .54 Kết luận 57 KẾT LUẬN 58 DANH MỤC TÀI LIỆU THAM KHẢO 60 Một số thuật ngữ chữ viết tắt sử dụng đề tài Tên thuật ngữ Ý nghĩa CSDL Cơ sở liệu Database Cơ sở liệu Link Liên kết PDU Product Description Unit- Đơn vị miêu tả sản phẩm URL Uniform Resource Locator URI Uniform Resource Identifier LỜI NÓI ĐẦU Bối cảnh chung Từ năm cuối thể kỉ 20, kinh tế giới có nhiều bước tiến lớn Nó kéo theo nhu cầu mua sắm người tăng lên đáng kể Các hình thức tổ chức kinh doanh siêu thị, cửa hàng, đại lý,… ngày đại chúng, ngày phong phú chất lượng sản phẩm, đa dạng hình thức phục vụ Nhu cầu người ngày tăng quỹ thời gian người dành cho mua sắm ngày eo hẹp Vấn đề đặt người tiêu dùng muốn tìm thấy sản phẩm có chất lượng với giá phải không tốn nhiều công sức, thời đến thăm cửa hàng lục tìm sản phẩm Đứng góc độ người tiêu dùng vậy, cịn góc độ người kinh doanh đương nhiên họ muốn quảng bá sản phẩm tới nhiều người tốt, để có thật nhiều khách bán thật nhiều hàng Cả người tiêu dùng người kinh doanh muốn hướng tới hình thức kinh doanh thỏa mãn đơi bên Trong thời đại bùng nổ cơng nghệ thơng tin, hình thức mua bán trực tuyến đời, mau chóng tìm chỗ đứng khơng ngừng phát triển Với hình thức mua bán này, người tiêu dùng không cần phải đâu xa, cần ngồi chỗ truy cập đến Website bán hàng để mua sắm theo nhu cầu Hầu hết Website mua bán trực tuyến cung cấp chức tìm kiếm, giúp tiết kiệm nhiều thời gian cho người dùng Tuy nhiên, với gia tăng chóng mặt Website bán hàng hay quảng cáo sản phẩm, người tiêu dùng nên đâu Cùng sản phẩm có có đến hàng trăm Website bày bán với giá chênh lệch Tâm lý chung người tiêu dùng muốn mua sản phẩm có chất lượng với giá thấp nhất, đến Website để so sánh nhiều thời gian So sánh giá trực tuyến Nắm bắt nhu cầu người tiêu dùng, giới có nhiều Website so sánh thông tin giá xây dựng [12] Riêng Việt Nam, theo khảo sát chúng tơi cách năm cịn chưa có Website có xuất địa [13] Các Website so sánh giá nơi tập hợp thông tin nhiều chủng loại mặt hàng khác thu thập từ nhiều nguồn trực tuyến khác Chúng cho phép người dùng chọn lựa xem mua nơi tốt Hầu hết Website so sánh giá có chức tìm kiếm theo tên thơng tin sản phẩm Q trình thu thập thơng tin giá tự động hóa mức độ khác Mức độ thấp liệu nhập hồn tồn tay thơng qua quan sát mắt số Website bán hàng định Cao mức, người ta sử dụng tác tử khảo duyệt trích rút thơng tin, Website khác có cách thức tổ chức khác nên Website phải xây dựng luật trích rút riêng cho chương trình tác tử thông qua khảo sát trước mắt Những tác tử gọi chung tác tử so sánh giá (comparison shopping agent) Cơng việc trích rút thơng tin đạt mức độ tự động cao tác tử so sánh giá tự động xây dựng luật trích rút phù hợp với Website không cần tới can thiệp người lập trình Những nghiên cứu theo hướng bao gồm cơng trình [1, 2, 4, 5, 6, 7, 8], hiệu loại tác tử có khả học máy nhóm tác giả Hàn Quốc Yang et al đề xuất tài liệu [4, 6] Tác tử trích rút thơng tin theo phương pháp học máy hoạt động độc lập với thể loại sản phẩm hoàn toàn tự động Chỉ cần biết địa trang chủ cửa hàng trực tuyến, tự động học cách trích rút thơng tin sản phẩm từ Website đó, có thơng tin quan trọng giá sản phẩm Loại tác tử có số chức trội sau: - Tự động học - Khơng địi hỏi phải hiểu ngôn ngữ tự nhiên - Dựa sở ngơn ngữ HTML Q trình tự động học tác tử giúp cho có khả phân tích mơ tả sản phẩm nhận biết thuộc tính sản phẩm giá hay chủng loại sản phẩm Nó thực điều mà không cần phải qua khâu xử lý ngôn ngữ tự nhiên phức tạp, yêu cầu kiến thức thể loại sản phẩm khác mà thơi Nó trích rút thơng tin từ cửa hàng trực tuyến thông qua kết hợp kỹ thuật tìm kiếm theo kinh nghiệm, tương hợp mẫu học suy diễn Mục đích khóa luận Khóa luận hướng tới mục tiêu sau: • Nghiên cứu thuật tốn trích rút thơng tin theo phương pháp học máy • Phát triển ngơn ngữ lập trình Java tác tử so sánh giá có khả trích rút thơng tin thơng minh theo chế học máy nghiên cứu • Xây dựng hệ thống có khả giúp người tiêu dùng việc khảo sát chọn sản phẩm cách tập trung với chức quy tụ thông tin từ vô số nguồn khác • Thử nghiệm tác tử với Website tiêu biểu Việt Nam, qua đánh giá hiệu chương trình trích rút thơng tin từ thực cải tiến cần thiết mặt giải thuật cài đặt Kết • Thiết kế hệ thống hệ thống tương đối hoàn chỉnh chức bao gồm công việc: Thiết kế tác tử, Website sở liệu • Tập trung cài đặt thử nghiệm thành công thành phần tác tử trích rút thơng tin sản phẩm, áp dụng cho Website bán hàng Việt Nam • Xây dựng hệ thống thử nghiệm đơn giản so sánh giá từ số Website bán hàng khác Kết đạt mức hạn chế thực mục đích đặt khóa luận Bố cục khóa luận Chương trình bày kiến thức sở Java để thực đề tài Nhìn chung, đề tài thực với hai nội dung Nội dung thứ xây dựng Website thể so sánh giá sản phẩm từ nhiều Website khác Nội dung thứ hai thực trích rút thơng tin sản phẩm từ Website tác tử thu thập thông tin giá Cơ chế tác tử thu thập thông tin giá đề cập đến Chương Hai nội dung nối kết với CSDL Chức CSDL lưu trữ thông tin sản phẩm tên chủng loại ,giá bán thơng tin khác Website xây dựng có phần tìm kiếm để người dùng nhập vào từ khóa tìm kiếm Với từ khóa này, hệ thống tự tìm CSDL xem có sản phẩm phù hợp với từ khóa mà người dùng nhập vào hay khơng Nếu có có trang kết trả nêu lên đặc tính sản phẩm, nơi bán đặc biệt nêu bật giá bán nơi Để tìm kiếm người dùng có kết mong đợi cần phải có thể từ hai phía Phía khách hàng phải có cách nhập từ khóa hợp lý Phía hệ thống cần phải thường xun cập nhật thơng tin, thêm sản phẩm Để xây dựng hệ thống phải khảo sát Website bán hàng Nó vừa kiểm chứng cho lý thuyết đặt có phù hợp với thực tiễn hay khơng vừa để phục vụ cho việc cập nhật Webiste sau Với mong muốn trước tiên ứng dụng đề tài cho Webiste Việt Nam nên chương báo cáo trình bày phần khảo sát Website kinh doanh Việt Nam Chương trình bày việc thiết kế tác tử trích rút thơng tin Chương báo cáo trình bày chi tiết cách triển khai thực tế Phần thứ tìm hiểu làm rõ từ vấn đề kỹ thuật sở (như sử dụng ngôn ngữ Java, sử dụng lớp Java xây dựng sẵn) để thiết kế tác tử so sánh giá (Tự động tìm form tìm kiếm, trích rút thơng tin sản phẩm) Phần thứ hai trình bày ý tưởng xây dựng Website so sánh giả sở liệu để hoàn thành lên ứng dụng hoành chỉnh Sau tích hợp kỹ thuật để cài đặt triển khai hế thống so sánh giá đơn giản Vì lĩnh vực mẻ Việt Nam tốn khó địi hỏi nghiên cứu kỹ càng, thực nghiệm học hỏi nghiêm túc Trước mắt, chương trình giới hạn tìm kiếm Webiste Việt Nam Thông tin sản phẩm tìm kiếm có hạn chế đến mức Nhưng chắn đề tài không dừng lại mà cịn tiếp tục hồn thiện hơn, nhiều tính Phần kết luận đề phương hương phát triển đề tài Tóm lại, qua chương:  Chương 1: Khảo duyệt Web với Java  Chương 2: Khảo sát Website bán hàng Việt Nam  Chương 3: Thiết kế tác tử trích rút thơng tin  Chương 4: Phát triển hệ thống so sánh thông tin giá trực tuyến  KẾT LUẬN VÀ PHƯƠNG HƯỚNG PHÁT TRIỂN Người đọc có cách tiếp cận từ tổng thể đến cụ thể công nghệ mới: Xây dựng tác tử so sánh giá ứng dụng vào Website phục vụ tìm kiếm Chương KHẢO DUYỆT WEB VỚI JAVA Đề tài sử dụng ngơn ngữ lập trình Java Java hỗ trợ mạnh lập trình ứng dụng mạng với lớp thư viện socket giúp đơn giản hóa q trình kết nối chuyển liệu mạng Với Java ta lập trình nhiều giao thức TCP/IP, UDP, FTP, Telnet HTTP Tìm hiểu HTTP Request Một thơng điệp phía Client gửi tới Server gọi HTTP Request Dòng HTTP Request gồm có phần: • Tên phương thức yêu cầu (GET, HEAD, POST, ) • Đường dẫn cục tài nguyên (URI) • Phiên giao thức sử dụng (HTTP/1.0, HTTP/1.1) Ví dụ: GET /reports/sales/index.html HTTP/1.1 GET tên phương thức sử dụng để yêu cầu tài nguyên, /reports/sales/index.html tài nguyên URI HTTP/1.1 phiên giao thức HTTP sử dụng Hai phương thức phổ biến HTTP Request là: • HTTP GET : yêu cầu tài nguyên gửi số lượng liệu giới hạn tới web server Những liệu phức tạp chuyển tiếp Thông thường phương thức sử dụng cho liệu trang HTML Một yêu cầu GET sử dụng cho tài nguyên có thực có vài hay khơng tham số truyền Nếu có tham số địi hỏi, chuỗi truy vấn gắn thêm vào địa URI Ví dụ : GET /servlet/helloWorld?name=john&age=22 HTTP/1.1 Trong đó, name=john&age=22 truy vấn Nó bao gồm tên giá trị tương ứng phân cách kí tự: & • HTTP POST: gửi liệu tới web server cho phép web server gửi liệu trở lại Phương thức chuyển liệu tới tài nguyên thực định danh URI Khối liệu gửi phần thân thông điệp Các trang HTML sử dụng POST để Submit form liệu Khác với GET, tham số đặt phần thân thơng điệp, khơng hiển thị phần yêu cầu URI header.htm Page body footer.htm Hình 4-4: Cấu trúc trang Hoạt động Website: Đầu tiên, người dùng xem giới thiệu Website cách xem mục Giới Thiệu Mục liên kết với trang web.html giới thiệu với người dùng mục đích Website giúp đỡ khách hàng so sánh giả trước mua hàng Khách hàng trợ giúp cách tìm kiếm cách sử dụng chức cho có hiệu Để liên hệ với Quản trị Website người dùng vào mục Liên Hệ để viết e-mail tới người quản trị Người quản trị đọc e-mail trả lời câu hỏi người dùng Phần Diễn đàn xây dựng người dùng trao đổi thảo luận thơng tin mua bán bàn luận loại mặt hàng quan tâm Phần Quản trị dành riêng cho người quản trị Website Tại người quản trị xem, thêm bớt thuật ngữ, thơng tin liên quan đến việc tìm kiếm số tiện ích để quản lý Website hiệu Đây phần hoàn thiện tương lai Hiện Website tập trung vào phần hoạt động phục vụ người dùng Chức chủ đạo Website mục tìm kiếm Người dùng chọn loại mặt hàng cần tìm tên sản phẩm cần tìm, mặc định Website tìm tất loại mặt hàng người dùng đánh tên sản phẩm Sau đó, Website tự động tìm kiếm hiển thị thơng tin sản phẩm mà tìm thấy từ nơi Cuối người dùng xem chi tiết sản phẩm mà họ lựa chọn từ nơi Và cho điểm 47 đánh giá, nhận xét sản phẩm Thông tin lưu lại sở để hiển thị sản phẩm hàng đầu loại mặt hàng Như hình minh họa Top sản phẩm điện thoại di động, mặc định hiển thị Người dùng xem Top loại mặt hàng khác cách lựa chọn từ thực đơn kéo xuống Để xem thông tin chi tiết giá sản phẩm từ nơi bán người dùng nhấn chuột vào chữ " Chi tiết" để biết thêm thông tin nơi bán, thời gian bảo hành thông tin thêm giới thiệu sản phẩm Website cung cấp thêm khả tìm kiếm nâng cao cho người dùng, người dùng muốn tìm kiếm sản phẩm với mức giá hay nơi bán phù hợp họ lựa chọn chức Người dùng nhập mức giá cao mức giá tối thiểu Website tìm kiếm đưa sản phẩm có mức giá nằm khoảng Hình 4-5: Trang tìm kiếm nâng cao (AdvSearch.jsp) Trong tương lai Website tích hợp thêm lọc tin để trích rút thơng tin từ nhà cung cấp sản phẩm hiển thị mục tin tức từ Website Cơ sở liệu Website thiết kế lập trình phù hợp với hệ CSDL hay dùng như: • Microsoft Access • SQL Server • MySQL • Oracle Tương ứng với loại databse khác ta có kiểu kết nối truy xuất liệu khác 48 Thông tin lưu giữ CSDL dạng bảng Hai bảng quan trọng bảng Sản phẩm bảng Nơi bán Bảng sản phẩm chứa thông tin cố định, không thay đổi sản phẩm Giá khơng phải thuộc tính sản phẩm giá cịn phụ thuộc vào nơi bán Bảng Nơi bán chứa trường sau : • Mã số nơi bán • Tên nơi bán (chẳng hạn Cơng ty máy tĩnh Vĩnh Xuân) • Địa Web (http://www.spc.com.vn) • Địa vật lý (39 Trần Quốc Toản) • Điện thoại • Các thông tin khác (chẳng hạn số điện thoại, số fax, địa e-mail, có bán háng trực tuyến không hay phải đến mua tận nơi,…) Bảng Sản phẩm : • Mã số sản phẩm • Tên mặt hàng (chẳng hạn Điện thoại di động; Ổ cứng) • Nhãn hiệu (chẳng hạn Nokia; Maxtor) • Chỉ số (chẳng hạn số model điện thoại di động Nokia – 7610; model, dung lượng, tốc độ, nhớ đệm giao diện ổ cứng Maxtor – DiamondMax Plus 120 GB 7200 RPM MB cache SATA) • Các thông tin khác (chẳng hạn mô tả chi tiết sản phẩm, thời gian bảo hành nơi sản xuất,…) Nhãn hiệu sản phẩm thương hiệu sản phẩm Thơng thường nhãn sản phẩm hãng sản xuất sản phẩm Giả sử “Sam sung” nhãn hiệu sản phẩm Nhưng nhãn hiệu chưa đủ để xác định sản phẩm cụ thể “Sam sung” nhãn hiệu ổ cứng, hình, tủ lạnh, Để xác định sản phẩm cụ thể ta dựa vào trường số 49 Tên bán nơi Mã số nơi bán Địa URL Nơi bán Điện thoại Địa vật lý Giá bán Bán Mã sản phẩm Thông tin khuyến mại, … Nhãn hiệu Sản phẩm Tên sản phẩm Chỉ số Mơ hình khái niệm E-R Chỉ số sản phẩm thuộc tính đặc trưng cho sản phẩm Một sản phẩm có nhiều số Ví dụ sản phẩm có số: Nokia 9500, Nokia 9300, Sony Ericsson P910i, Sam sung E610…Rõ ràng để nhận biết sản phẩm ta cần biết nhãn hiệu số Như ví dụ “Nokia”,”Sony Ericsson”, “Sam sung” nhãn hiệu, cịn 9500, 9300, P910i, E610 số Nói Sam sung E610 điện thoại Sam sung có số E610 khơng phải hình Sam sung hay tủ lạnh Sam sung Đây trường hợp đơn giản Trên thực tế sản phẩm bán phong phú Một số chưa thể phân biệt sản phẩm với sản phẩm khác loại Giả sử nói ổ cứng Maxtor 40GB rõ ràng chưa thể khẳng định sản phẩm cụ thể Vì cịn vài số khác tốc độ (5400rpm hay 7200rpm) dung lượng nhớ đệm (2MB hay 8MB) Quan hệ Bán chuyển thành thực thể Chào bán sau: 50 Bảng Chào bán : • Mã số nơi bán • Mã số sản phẩm • Giá VNĐ • Giá USD • Các thông tin khác (chẳng hạn thơng tin khuyến mại, có sẵn kho khơng, số lượng tồn kho, thời gian chờ có hàng,…) Mơ hình quan hệ thực thể: 1.Nơi bán # Mã số nơi bán +Tên nơi bán +Địa URL +Địa vật lý +Điện thoại Chào bán Sản phẩm # Mã số nơi bán #Mã số sản phẩm #Mã số sản phẩm +Tên sản phẩm +Giá VND +Nhãn hiệu +Giá USD +Chỉ số +Thông tin khuyến mại 51 Hướng dẫn cài đặt hệ thống thực nghiệm Website so sánh giá Cài đặt trình biên dịch JDK trình chủ Web Tomcat Download: • Downlad JDK phiên 1.4.2 tại: http://java.sun.com/j2se/1.4.2/download.html • Download trình chủ Web Tomcat phiên tại: http://jakarta.apache.org/site/downloads/ Sau download tiến hành giải nén chạy file Setup để cài đặt theo mặc định sẵn Ứng dụng thử nghiệm môi trường WindowsXP hãng Microsoft Cần khai báo cấu hình biến môi trường phù hợp cho hoạt động chương trình: Hình 4-6: Thiết lập mơi trường Trong dialog System Properties, chọn tab Advanced, sau chọn Environment Variables Trong dialog Environment Variables thêm biến môi trường cần thiết sau: CATALINA_HOME: Thư mục trình chủ Tomcat C:\Tomcat 5.0 52 JAVA_HOME: Thư mục chủ Java C:\j2sdk1.4.2 PATH: đường dẫn tới thư mục bin chứa ứng dụng Java, biên dịch - javac, chạy - java C:\Tomcat 5.0\bin;C:\j2sdk1.4.2\bin CLASSPATH: đến thư viện sử dụng chương trình C:\j2sdk1.4.2\lib\tools.jar;C:\Tomcat5.0\common\lib\servlet-api.jar;C:\Tomcat 5.0\common\lib\jsp-api.jar; Thiết lập kết nối tới CSDL: Hình 4-7: Thiết lập kết nối tới sở liêu: Trong Control Panel chọn mục Administrator Tools> Data Sources (ODBC)>User DSN> Add > Driver MicroAccess(*.mdb)>Finsish Cơ sở liệu cho hệ thống thử nghiệm gồm bảng • PDU: lưu giữ thơng tin sản phẩm • Person: lưu giữ thơng tin người quản trị • Site: lưu giữ địa website bán hàng 53 Hình 4-8: Thiết lập kết nối CSDL Tiếp theo điền tên CSDL (dbDemo) đường dẫn tới CSDL Cuối chọn OK để hoàn tất trình thiếp lập CSDL Biên dịch chạy ứng dụng Biên dịch file tác tử JAVA: Copy toàn mã nguồn file thư mục lib kèm theo đề tài vào thư mục: C:\Tomcat 5.0\webapps\ROOT\WEB-INF\classes Mở cửa sổ console đánh vào câu lệnh: C:\ javac Tomcat 5.0/webapps/ROOT/WEB-INF/classes/lib/*.java Nếu không thơng báo file biên dịch thành công Copy file search.jsp result.jsp vào thư mục: C:\Tomcat 5.0\webapps\ROOT Mở trình duyệt gõ vào : localhost:8080/search.jsp Nếu trình duyệt lên trang chủ tìm kiếm giống hình 4-2 tức Web server hoạt động tốt Đánh vào tìm kiếm Textbox sản phẩm cần tìm Chẳng hạn Pantech Nếu trang trả lên hình 4-3 tức hệ thống hoạt động tốt 54 Hình 4-9: Trang chủ tìm kiếm(search.jsp) Website xây dựng đề tài mức đơn giản với chức năng: • Cập nhật URL Website (dành cho người quản trị) • Hiển thị thơng tin sản phẩm tìm kiếm cho người dùng gồm trang chính: search.jsp, result.jsp, addSite.jsp, login.jsp, header.htm, footer.htm Trang searh.jsp để người dùng nhập từ khóa tìm kiếm, trang result.jsp hiển thị kết trả cho người dùng Người quản trị đăng nhập vào hệ thống thông qua trang login.jsp điền URL website bán hàng qua giao diện nhập trang addSite.jsp 55 Hình 4-10: Trang Result.jsp Trang login.jsp để người quản trị đăng nhập vào trang addSite.jsp để nhập địa URL Website tiến hành tìm kiếm Hình 4-11: Trang login.jsp dành cho người quản trị đăng nhập 56 Kết luận Trong chương trình bày chi tiết cách thức xây dựng hệ thống so sánh thông tin giá gồm có việc thiết kế tạo tác tử file Java, xây dựng Website để hiển thị sản phẩm mà tác tử trích rút cuối thiết lập môi trường cài đặt để chạy thành công hệ thống Hệ thống hoàn thành mức đơn giản làm rõ phần cách thức hoạt động hệ thống Website so sánh giá 57 KẾT LUẬN VÀ PHƯƠNG HƯỚNG PHÁT TRIỂN Xây dựng Webiste so sánh thông tin giá trực tuyến đề tài có tiềm khó Xây dựng Webiste có khả phục vụ so sánh giá có đặc điểm phân tích chương trước địi hỏi có đầu tư cơng phu thời gian nhân lực Trên giới, Webiste so sánh giá phải xây dựng tác tử riêng tiến hành tìm kiếm có u cầu người dùng Cịn nghiên cứu đề tài xây dựng tác tử có khả tìm kiếm cập nhật vào sở liệu trước người dùng truy vấn đến, thông tin sản phẩm lưu trữ sẵn CSDL nên khơng phải tìm sau có u cầu người dùng Cơng nghệ nghiên cứu phát triển mức đơn giản Nhưng đề tài ứng dụng tác tử mua bán vào Website so sánh giá Vì khẳng định cơng việc hồn tồn mẻ Việt Nam, có đóng góp định vào phát triển thương mại điện tử nước ta Do thời gian nghiên cứu chương trình có hạn nên hệ thống hoàn tất mức Nhưng đầu tư nghiên cứu kĩ càng, chắn sản phẩm công nghệ ứng dụng phát triển nhiều thực tế Ý tưởng hoàn thiện hệ thống người làm đề tài định hình tiếp tục xây dựng Trước hết, mục đích hệ thống so sánh giá giúp cho người tiêu dùng thuận tiện việc tìm hiểu sản phẩm mà họ quan tâm hay tìm mua Vì thơng tin sản phẩm phải đảm bảo tính chất: phong phú loại sản phẩm, đầy đủ chi tiết sản phẩm, dễ truyền tải đến người dân Nhằm đáp ứng u cầu đó, tác tử trích rút phải cải tiến cho trích rút hiệu xác loại sản phẩm, trích rút nhiều loại sản phẩm khác từ Website khác Website tiến hành so sánh nhiều mặt hàng thuộc nhiều lĩnh vực kinh doanh điện thoại di động, máy tính hay kinh doanh sách báo, phim ảnh v v không dừng lại vài mặt hàng định Chương trình mở rộng tới sản phẩm có nhiều số Ngồi ra, Webiste thu lợi nhuận lớn có thêm mục quảng cáo cho doanh nghiệp, cửa hàng Thực tế có nhiều Website làm cơng việc họ thành công Webiste so sánh giá hồn tồn có khả thu lợi nhuận từ quảng cáo Vì khả Website thu hút số lượng lớn khách hàng Do quảng cáo sản phẩm đến nhiều người dân thực Bên cạnh đó, lợi nhuận thu Webiste tiến hành làm cầu nối trung gian bên bán bên mua Các cửa hàng thuê Website để có người thơng qua Webiste truy cập vào Website họ họ phải trả phần lệ phí cho 58 Webiste Ví dụ có trang kết trả cho từ khố tìm kiếm người dùng, người dùng xem chi tiết hàng hoá Website Website so sánh giá tự động liên hệ với Website để tính lần giới thiệu khách hàng cho Web Đó số phương hướng nghiên cứu để phát triển đề tài Em mong đóng góp ý kiến các thầy giáo từ người quan tâm đến đề tài 59 DANH MỤC TÀI LIỆU THAM KHẢO [1] David Gourley, Brian Totty, Marjorie Sayer, and Anshu Aggarwal HTTP : The Definitive Guide O’Reilly, 2002 [2] Hà Thị Kim Dung, Nguyễn Huy Sơn, Hoàng Hữu Thành Xây dựng Hệ thống So sánh Thông tin Giá Trực tuyến Công trình Sinh viên Nghiên cứu Khoa học Trường Đại học Công nghệ, 2005 [3] Ian Ferguson Agents and Spiders Ab-libris, 2005 [4] Jaeyoung Yang, Joongbae Kim, Joongmin Choi, Hosang Ham, and Kyeongho Lee A More Scalable Comparison Shopping Agent In Proceedings of the 2nd International ICSC Symposium on Engineering of Intelligent Systems, pages 766772, June 27-30, 2000, Paisley, Scotland [5] Jaeyoung Yang and Joongmin Choi Agents for Intelligent Information Extraction by Using Domain Knowledge and Token-Based Morphological Pattern In Proceedings of the 6th Pacific Rim International Workshop on Multi-Agents, pages 74-85, November 7-8, 2003, Seoul, Korea (Lecture Notes in Computer Science 2891) [6] Jaeyoung Yang, Eunseok Lee, and Joongmin Choi A Shopping Agent that Automatically Constructs Wrappers for Semi-Structured Online Vendors In Proceedings of the 2nd International Conference on Intelligent Data Engineering and Automated Learning, pages 368-373, December 13-15, 2000, Shatin, Hong Kong (Lecture Notes in Computer Science 1983) [7] Jeff Heaton Programming Spiders, Bots, and Aggregators in Java Sybex, 2002 [8] Kevin Hemenway and Tara Calishain Spidering Hacks O’Reilly, 2003 [9] Robert B Doorenbos, Oren Etzioni, and Daniel S Weld A Scalable ComparisonShopping Agent for the World Wide Web In Proceedings of the First International Conference on Autonomous Agents, pages 39-48, February 05-08, 1997, Marina del Rey, California, United States [10] Ricardo Baeza-Yates and Berthier Ribeiro-Neto Modern Information Retrieval Addison Wesley, 1999 [11] Steven John Metsker Building Parsers with Java Addison-Wesley, 2001 [12] http://ebay.com, http://kelkoo.com, http://www.pricerunner.co.uk, http://www3.shopping.com/ [13] http://timmua.com.vn 60 ... trích rút theo phương pháp học máy để xây dựng hệ thống so sánh thông tin giá trực tuyến có tính khả biến cao Tính khả biến cao mà ứng dụng hướng tới khả quy tụ thông tin từ số nguồn không hạn... Trong nghiên cứu, người ta đề xuất số kỹ thuật học máy sử dụng tác tử trích rút thơng tin từ nhiều Website có cách thức tổ chức khác Báo cáo nghiên cứu ứng dụng kỹ thuật trích rút theo phương pháp. .. thơng tin theo phương pháp học máy • Phát triển ngơn ngữ lập trình Java tác tử so sánh giá có khả trích rút thơng tin thơng minh theo chế học máy nghiên cứu • Xây dựng hệ thống có khả giúp người

Ngày đăng: 27/04/2013, 17:49

Hình ảnh liên quan

Bảng 2-1: Khảo sát kinh doanh nhiều mặt hàng thuộc nhiều lĩnh vực khác nhau - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

Bảng 2.

1: Khảo sát kinh doanh nhiều mặt hàng thuộc nhiều lĩnh vực khác nhau Xem tại trang 17 của tài liệu.
Hình 2-2 Tìm kiếm chi tiết(http://www.axmobile.com.vn) - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

Hình 2.

2 Tìm kiếm chi tiết(http://www.axmobile.com.vn) Xem tại trang 19 của tài liệu.
Tức là các sản phẩm được lưu trong một bảng, bảng đó phân chia theo hàng ngang, mỗi một sản phẩm sẽ chiếm một phần - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

c.

là các sản phẩm được lưu trong một bảng, bảng đó phân chia theo hàng ngang, mỗi một sản phẩm sẽ chiếm một phần Xem tại trang 22 của tài liệu.
Hình 3-1 Tổ chức kết quả sản phẩm của Website - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

Hình 3.

1 Tổ chức kết quả sản phẩm của Website Xem tại trang 25 của tài liệu.
Hình 3-2: Kiến trúc của hệ thống trích rút thông tin sản phẩm - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

Hình 3.

2: Kiến trúc của hệ thống trích rút thông tin sản phẩm Xem tại trang 26 của tài liệu.
Hình 3-3:Minh họa giai đoạn học - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

Hình 3.

3:Minh họa giai đoạn học Xem tại trang 28 của tài liệu.
Bảng 3-1:Bảng thông tin hiển thị sản phẩm - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

Bảng 3.

1:Bảng thông tin hiển thị sản phẩm Xem tại trang 30 của tài liệu.
- Loại 1: Các sản phẩm sẽ hiển thị theo dạng bảng 3-1: - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

o.

ại 1: Các sản phẩm sẽ hiển thị theo dạng bảng 3-1: Xem tại trang 30 của tài liệu.
Bảng 3-2 Ánh xạ các thẻ HTML sang các số tương ứng - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

Bảng 3.

2 Ánh xạ các thẻ HTML sang các số tương ứng Xem tại trang 32 của tài liệu.
Ta chia ra làm 5 loại thẻ như bảng 3-2 (các con số là do ta chọn) - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

a.

chia ra làm 5 loại thẻ như bảng 3-2 (các con số là do ta chọn) Xem tại trang 32 của tài liệu.
Bảng 3-3 Kết quả thu được từ các kết quả thực nghiệm trên các Website khác nhau - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

Bảng 3.

3 Kết quả thu được từ các kết quả thực nghiệm trên các Website khác nhau Xem tại trang 34 của tài liệu.
Hình 3-7: Vị trí và chuỗi PDU nhận được sau khi ánh xạ - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

Hình 3.

7: Vị trí và chuỗi PDU nhận được sau khi ánh xạ Xem tại trang 35 của tài liệu.
Hình 3-9: Tiêu đề và Giá sản phẩm sau khi trích rút thành công - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

Hình 3.

9: Tiêu đề và Giá sản phẩm sau khi trích rút thành công Xem tại trang 36 của tài liệu.
Hình 3-10: 2 sản phẩm không tìm thấy được do bị chèn thêm ảnh 2 chữ New - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

Hình 3.

10: 2 sản phẩm không tìm thấy được do bị chèn thêm ảnh 2 chữ New Xem tại trang 37 của tài liệu.
Hình 3-11:Mô tả chức năng bổ xung các thuật ngữ - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

Hình 3.

11:Mô tả chức năng bổ xung các thuật ngữ Xem tại trang 39 của tài liệu.
Hình 3-12: Mô tả mở rộng tập thuật ngữ bằng cấu trúc cây - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

Hình 3.

12: Mô tả mở rộng tập thuật ngữ bằng cấu trúc cây Xem tại trang 40 của tài liệu.
Mô hình tổng quát - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

h.

ình tổng quát Xem tại trang 42 của tài liệu.
Hình 4-2: Sơ đồ quan hệ lớp của tác tử. - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

Hình 4.

2: Sơ đồ quan hệ lớp của tác tử Xem tại trang 43 của tài liệu.
Hình 4-3: Minh họa giao diện Website - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

Hình 4.

3: Minh họa giao diện Website Xem tại trang 47 của tài liệu.
Hình 4-4: Cấu trúc các trang - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

Hình 4.

4: Cấu trúc các trang Xem tại trang 48 của tài liệu.
Hình 4-5: Trang tìm kiếm nâng cao (AdvSearch.jsp) - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

Hình 4.

5: Trang tìm kiếm nâng cao (AdvSearch.jsp) Xem tại trang 49 của tài liệu.
Mô hình khái niệm E-R - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

h.

ình khái niệm E-R Xem tại trang 51 của tài liệu.
Bảng Chào bá n: - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

ng.

Chào bá n: Xem tại trang 52 của tài liệu.
Hình 4-6: Thiết lập môi trường - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

Hình 4.

6: Thiết lập môi trường Xem tại trang 53 của tài liệu.
Hình 4-7: Thiết lập kết nối tới cơ sở dữ liêu: - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

Hình 4.

7: Thiết lập kết nối tới cơ sở dữ liêu: Xem tại trang 54 của tài liệu.
Hình 4-8: Thiết lập kết nối CSDL - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

Hình 4.

8: Thiết lập kết nối CSDL Xem tại trang 55 của tài liệu.
Hình 4-9: Trang chủ tìm kiếm(search.jsp) - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

Hình 4.

9: Trang chủ tìm kiếm(search.jsp) Xem tại trang 56 của tài liệu.
Hình 4-11: Trang login.jsp dành cho người quản trị đăng nhập - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

Hình 4.

11: Trang login.jsp dành cho người quản trị đăng nhập Xem tại trang 57 của tài liệu.
Hình 4-10: Trang Result.jsp - Nghiên cứu ứng dụng các kỹ thuật học trích rút theo phương pháp  học máy để xây dựng hệ thống so sánh thông tin giá cả trực tuyến có tính khả biến cao

Hình 4.

10: Trang Result.jsp Xem tại trang 57 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan