.28 – Khung tìm kiếm nâng cao của CiteSeerX- 123docz.net

CHƯƠNG 3: CÁCH TIẾP CẬN CỦA ĐỀ TÀI 3.1 Mở đầu 3.1 Mở đầu

Đề tài này có mục tiêu là nghiên cứu thử nghiệm và ứng dụng một hệ thống thư viện điện tử tốt, đáp ứng nhu cầu của người dùng, đặc biệt là người dùng trong nước. Để làm được điều này, trước tiên cần khảo sát, đánh giá các cơ sở lý thuyết hiện có của hệ thống thư viện điện tử cũng như các hệ thống thư viện điện tử hiện có.Những phương pháp và cách đánh giá được khảo sát ở trên có một số ưu điểm và nhược điểm nhất định. Các hệ thống hiện có cũng có một số điểm mạnh và hạn chế riêng. Có một số hạn chế có tính đặc thù đối với người dùng Việt Nam. Chương này sẽ trình bày một số hướng cải tiến, chỉnh sửa để xây dựng được một hệ thống thư viện điện tử có thể đáp ứng tốt hơn nhu cầu của người dùng.

3.2 Thảo luận về các chỉ số xếp hạng

Các chỉ số ở trên đều dựa trên phân tích trích dẫn, điều đấy có nghĩa là số lượng các trích dẫn trong các chỉ số này rất quan trọng. Trích dẫn thường được xem như một sự bỏ phiếu tín nhiệm của tác giả cho tác phẩm được trích dẫn. Tuy nhiên khơng phải lúc nào điều này cũng đúng. Có nhiều trường hợp tác giả khơng chọn trích dẫn tác phẩm xuất sắc nhất mà trích dẫn tác phẩm phổ biến nhất, điều này đôi khi là do khả năng tiếp cận thông tin của tác giả hoặc do thói quen làm việc của tác giả. Có một số trường hợp các trích dẫn có tính chất thiên vị, chẳng hạn như trích dẫn một tác phẩm của người quen, hay tác phẩm của người trong một nhóm nội bộ. Một số tác phẩm có thể được trích dẫn một cách khơng có chủ ý vì nó khơng phải là phần trọng tâm của nghiên cứu, lúc này trích dẫn khơng liên quan đến việc tác giả tín nhiệm tác phẩm đó hay khơng. Có một số trường hợp trích dẫn đến một tác phẩm nào đó như là một phản ví dụ, hay một trường hợp sai, lúc này sự trích dẫn như là một sự bỏ phiếu bất tín nhiệm.

xác hơn khi áp dụng phân tích mạng để xếp hạng từng đối tượng về độ phổ biến của nó, như trong thuật toán PopRank. Tuy nhiên cần lưu ý rằng trong phân tích mạng như vậy, độ phổ biến của một đối tượng không đồng nghĩa với chất lượng, ví dụ như một tác phẩm nổi tiếng hơn khơng hẳn là nó hay hơn, một tác giả nổi tiếng hơn khơng hẳn là có chất lượng nghiên cứu tốt hơn.

Ta cũng lưu ý rằng mỗi chỉ số có ý nghĩa riêng của nó và nên được dùng đúng cách. Những chỉ số thuộc h-type indexes chủ yếu nhằm đánh giá mặt số lượng tác phẩm, tức là năng suất làm việc của tác giả. Những chỉ số thuộc a- type indexes chủ yếu nhằm đánh giá tầm ảnh hưởng của các tác phẩm tốt nhất của tác giả, tức là chất lượng làm việc của tác trong một số ít tác phẩm tốt nhất. Hai chỉ số này phản ánh hai khía cạnh khác nhau trong việc đánh giá một tác giả, một tổ chức, một đơn vị xuất bản, vì vậy để đánh giá tốt hơn nên áp dụng đồng thời nhiều chỉ số ở cả hai loại. Các chỉ số ở hai loại này bổ trợ nhau khá tốt cho việc đánh giá [BM+2009].

Cần phải lưu ý rằng cách tốt nhất và duy nhất để đánh giá đầy đủ, đúng đắn một tác giả hay một tác phẩm là đánh giá thực tế qua hiệu quả hoạt động, hiệu quả sử dụng trong đời sống thực. Tuy nhiên, nếu làm vậy số lượng các đặc trưng hay số chiều thông tin cần ghi nhận là quá lớn, thời gian cần thiết để ghi nhận chúng cũng quá lớn, vì vậy khối lượng cơng việc đánh giá là q lớn đến mức không chấp nhận được, các chỉ số đánh giá ra đời là để khắc phục vấn đề này. Mỗi chỉ số chỉ yêu cầu một số đặc trưng thông tin nhất định, tức là nó chiếu thơng tin tổng thể lên một số chiều nhất định, điều này sẽ giúp việc đánh giá trở nên khả thi, tuy nhiên cũng vì vậy mà những chỉ số này khơng thể hiện được hết đầy đủ các thơng tin, vì vậy chỉ nên coi chúng là những con số hỗ trợ việc đánh giá. Những chỉ số này ln có điểm mạnh và điểm yếu riêng, việc lựa chọn các chỉ số nào và phối hợp sử dụng sao cho hiệu quả là nhiệm vụ của mỗi hệ thống thư viện điện tử.

3.3 Thảo luận về các phương pháp xếp hạng

Ở trên đề tài đã khảo sát PageRank và PopRank, đây đều là các thuật toán xếp hạng độ phổ biến tốt. PageRank đã ra đời khá lâu và được ứng dụng thành

cơng thực tế trong máy tìm kiếm Google Search. Thuật tốn PageRank cũng có thể được dùng trong việc phân tích mạng và xếp hạng một loại đối tượng nào đấy, với điều kiện là các đối tượng này phải thuần nhất và các liên kết cũng thuần nhất. Từ đó ta thấy PageRank cũng có thể ứng dụng để tính độ phổ biến của các bài báo khoa học, nhưng phải giới hạn đối tượng tham gia vào tính tốn chỉ có bài báo khoa học và liên kết tham gia vào tính tốn chỉ có liên kết trích dẫn. Điều này làm hạn chế độ chính xác khi xếp hạng. PopRank và các thuật toán tương tự như PopRank đưa vào tính tốn của mình nhiều loại đối tượng và nhiều loại liên kết khác nhau. Những tác giả của PopRank khi đề xuất thuật tốn này đã so sánh trực tiếp nó với PageRank và kết quả thử nghiệm cho thấy nó tốt hơn PageRank trong việc xếp hạng độ phổ biến các bài báo khoa học. Tuy nhiên tác giả đã không so sánh PopRank với các thuật tốn có cùng ý tưởng khác, ngồi ra tập dữ liệu dùng trong việc tính tốn, đánh giá cũng khá nhỏ để có thể có kết luận mạnh (45 đối tượng dùng để tính tốn, 22 đối tượng dùng để đánh giá). Trong q trình tính tốn PopRank, có một phần quan trọng là gán giá trị của các hệ số truyền, PopRank gán các hệ số này theo một thuật toán heuristic với khá nhiều sự phỏng đốn, vì vậy việc thử nghiệm nhiều nhiều hơn rất cần thiết để bảo đảm thuật toán heuristic này hoạt động tốt.

Như đã nói ở phần trên, độ phổ biến của một đối tượng không đồng nghĩa với chất lượng của đối tượng đó, tuy nhiên xếp hạng độ phổ biến là một tham khảo tốt để xếp hạng chất lượng các đối tượng khi việc xếp hạng chính xác chất lượng là khơng thể.

3.4 Phân tích cải tiến các hệ thống thư viện điện tử

Các hệ thống thư viện điện tử nổi tiếng đã được khảo sát ở các phần trên, ở đây đề tài đưa ra một sự so sánh giữa các hệ thống đó:

Bảng 3.1 – So sánh các hệ thống thư viện điện tử.

Hệ thống Ưu điểm Nhược điểm

IEEEXplore Là thư viện số nổi tiếng trong lĩnh

Cung cấp nhiều tài liệu chất lượng do IEEE và các tổ chức hợp tác phát hành hay sở hữu nên đầy đủ nội dung và chính thức.

hạn chế trong số các tài liệu bởi lĩnh vực và bởi nguồn tài liệu. Nhiều tính năng hỗ trợ người dùng còn thiếu. ACM Là thư viện số nổi tiếng trong lĩnh

vực công nghệ thông tin.

Cung cấp nhiều tài liệu chất lượng do ACM và các tổ chức hợp tác phát hành hay sở hữu nên đầy đủ nội dung và chính thức.

Có lập chỉ mục và cho phép tìm kiếm hay duyệt các tài liệu ở các nguồn khác.

Là thư viện tính phí. Số lượng tài liệu bị hạn chế trong số các tài liệu bởi lĩnh vực. Nguồn tài liệu không đầy đủ.

Nhiều tính năng hỗ trợ người dùng cịn thiếu. SpringerLink Là thư viện số nổi tiếng trong nhiều

lĩnh vực.

Cung cấp nhiều tài liệu chất lượng do nhiều tác giả, tổ chức hợp tác phát hành hay sở hữu nên đầy đủ nội dung và chính thức.

Là thư viện tính phí. Nguồn tài liệu khơng đầy đủ.

Nhiều tính năng hỗ trợ người dùng cịn thiếu. MAS Là thư viện số lớn và miễn phí,

được hỗ trợ bởi một công ty lớn mạnh là Micorsoft.

Có số lượng chỉ mục khá lớn ở nhiều lĩnh vực khác nhau được thu thập từ nhiều nguồn, có chất lượng cao.

Dữ liệu được tổ chức tốt, tiện lợi sử dụng.

Có nhiều tính năng hay, đột phá, giao diện đẹp, dễ sử dụng.

Đang là phiên bản thử nghiệm nên một số lĩnh vực thiếu dữ liệu. Khơng phải tài liệu nào cũng có nội dung văn bản đầy đủ.

Google Scholar Là thư viện số lớn và miễn phí, được hỗ trợ bởi một công ty lớn mạnh là Google.

Số lượng chỉ mục rất lớn. Dữ liệu đa dạng về lĩnh vực và nguồn, nguồn dữ liệu rộng lớn trên internet.

Dữ liệu không được tổ chức tốt như MAS. Giao diện và các tính năng khơng tốt bằng MAS.

CiteSeerX Là thư viện số lớn và miễn phí, được phát triển bởi các chuyên gia đầu ngành trong lĩnh vực phân tích trích dẫn, trích xuất thơng tin. Dữ liệu đa dạng về lĩnh vực và nguồn, nguồn dữ liệu rộng lớn trên internet.

Được phát triển mở, cung cấp nhiều tài nguyên và sự hỗ trợ cho những nhà nghiên cứu khác trong việc xây dựng các thư viện điện tử khác.

Áp dụng nhiều công nghệ mới và tốt nhất, có nhiều tính năng hay.

Số lượng chỉ mục vẫn bị hạn chế vì cơ chế crawl dữ liệu là có chọn lọc. Giao diện và một số chức năng không tốt bằng MAS.

Các thư viện này đều có nhiều tính năng tốt với sự đầu tư, hỗ trợ của các tổ chức hay công ty lớn mạnh. Mỗi thư viện đều có ưu điểm riêng của nó, tuy nhiên có một xu thế xuất hiện gần đây là các thư viện miễn phí đang ngày càng nhiều và hồn thiện hơn, miễn phí cũng chính là cách để các thư viện mới tiếp cận người dùng và tăng tính cạnh tranh của mình.

Một thư viện với nhiều tính năng tốt và có các tính năng độc đáo so với các thư viện khác sẽ được đánh giá cao và dễ dàng thành công. Để thực hiện điều này, một thư viện cần phải được phát triển tốt và thử nghiệm nâng cấp ccac1 tính năng mới thường xun. Ngồi ra nếu một thư viện có các tính năng đặc thù dành cho một cộng đồng người dùng nào đó thì sẽ dễ thành cơng trong cộng đồng đó, trong trường hợp đề tài này thì đó chính là cộng đồng các nhà nghiên cứu ở Việt Nam.

3.5 Cách tiếp cận của đề tài

Từ những phân tích ở trên, đề tài đề xuất xây dựng một hệ thống thư viện điện tử chuyên ngành công nghệ thơng tin phục vụ mục đính nghiên cứu thử nghiệm các tính năng mới và ứng dụng trong thực tế. Để xây dựng hệ thống này, đề tài sẽ thu thập một lượng lớn dữ liệu chỉ mục sau đó sẽ tiến hành thử nghiệm nhiều phương pháp xếp hạng khác nhau, từ đó đưa ra các tính năng tốt

Các phương pháp xếp hạng và các chỉ số xếp hạng cần được đánh giá thực tế và thử nghiệm ở nhiều khía cạnh khác nhau để xác định các cách sử dụng phù hợp.

Các hệ thống thư viện điện tử lớn hiện nay đều ở phạm vi thế giới, không hỗ trợ đặc thù cho quốc gia hay cộng đồng nghiên cứu nào, vì vậy một đất nước có cộng đồng nghiên cứu phát triển chưa mạnh như Việt Nam sẽ bị thiếu sót về dữ liệu và gây khó khăn cho các nhà nghiên cứu tìm hiểu, đánh giá về hoạt động nghiên cứu khoa học trong nước. Hệ thống thư viện điện tử trong đề tài sẽ tăng tính cạnh tranh bằng cách cung cấp một tính năng đặc thù cho thị trường Việt Nam đó là hỗ trợ dữ liệu về cộng đồng nghiên cứu khoa học ở Việt Nam, trên dữ liệu này, hệ thống thư viện điện tử sẽ tiến hành thử nghiệm các chỉ số và xây dựng các tính năng mới cho cộng đồng nghiên cứu trong nước.

CHƯƠNG 4: HIỆN THỰC HỆ THỐNG 4.1 Mở đầu 4.1 Mở đầu

Sau khi đã khảo sát, đánh giá các thư viện điện tử hiện có cùng với nền tảng của chúng, việc tiếp theo là xây dựng một hệ thống ứng dụng mới đáp ứng các nhu cầu của riêng mình. Để xây dựng hệ thống, trước tiên cần có dữ liệu, dữ liệu này sẽ được thu thập nhờ web crawler từ nguồn MAS. Dữ liệu sau đó sẽ được tính tốn, tổ chức lại cho tốt. Cuối cùng hệ thống thư viện điện tử sẽ được xây dựng với các tính năng cần thiết. Hệ thống này được xây dựng lên vừa để phục vụ mục đích nghiên cứu tiếp theo của đề tài, vừa có thể triển khai ứng dụng trong thực tế. Đề tài này sẽ thử nghiệm một thư viện điện tử với sự giới hạn là các tài liệu thuộc lĩnh vực cơng nghệ thơng tin.

4.2 Chương trình thu thập dữ liệu

4.2.1 Khảo sát hiện trạng

Nguồn dữ liệu chỉ mục các bài báo khoa học hiện nay có thể được thu thập từ trên mạng internet dùng web crawler. Việc thu thập dữ liệu ban đầu có thể được thực hiện dễ dàng nhất ở các trang web của các hệ thống thư viện điện tử. Như đã trình bày ở trên, hiện tại có rất nhiều thư viện điện tử chứa các thông tin về bài báo khoa học, sau khi đánh giá các hệ thống đó, chúng tơi quyết định chọn MAS để lấy dữ liệu đầu tiên vì các ưu điểm của nó mà chủ yếu là dữ liệu được tổ chức tốt. Trong tương lai, dữ liệu sẽ được nhập chung với dữ liệu mà DBLP10 cung cấp, sau đó chúng tơi sẽ phát triển thêm chương trình lấy dữ liệu từ các trang khác.

Trong MAS, dữ liệu được tổ chức thành sáu loại đối tượng chính, đó là tác giả (Author), bài báo khoa học (Publication), Hội nghị (Conference), Tờ báo (Journal), Tổ chức (Organization), Từ khóa (Keyword). MAS hỗ trợ nhiều cách

khác nhau để lấy được dữ liệu của các đối tượng này. Một trong các cách là duyệt qua danh sách các đối tượng lần lượt theo ba tiêu chí là: theo lĩnh vực nghiên cứu (Domain), theo lĩnh vực con của lĩnh vực nghiên cứu (Subdomain) và theo năm (Year). Ngồi ra MAS cịn hỗ trợ truy cập thẳng vào trang nội dung của một đối tượng nào đó nếu biết địa chỉ url của nó trong hệ thống. Ta cũng có thể lấy danh sách các đối tượng bằng cách sử dụng chức năng tìm kiếm.

.28 – Khung tìm kiếm nâng cao của CiteSeerX

.5 – Giải thuật xác định khoảng cách k

6– Mơ phỏng định nghĩa h-index