TÌM tầm ẢNH HƯỞNG của bài báo KHOA học TRONG MẠNG TRÍCH dẫn

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM PHAN HỊNG TRUNG TÌM TẦM ẢNH HƯỞNG CỦA BÀI BÁO KHOA HỌC TRONG MẠNG TRÍCH DẪN LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã số ngành: 60480201 TP HỒ CHÍ MINH, tháng 08 năm 2017 PHAN HỊNG TRUNG TÌM TẦM ẢNH HƯỞNG CỦA BÀI BÁO KHOA HỌC TRONG MẠNG TRÍCH DẪN LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã số ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS.TS.ĐỖ PHÚC CÔNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ TP HCM Cán hướng dẫn khoa học: PGS.TS.ĐỖ PHÚC Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP.HCM ngày tháng năm 2017 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: TT Họ tên Chức danh Hội đồng Chủ tịch Phản biện Phản biện Ủy viên Ủy viên, Thư ký Chủ tịch Hội đồng đánh giá LV VIỆN ĐÀO TẠO SAU ĐẠI HỌC Độc lập - Tự - Hạnh phúc TRƯỜNG ĐH CÔNG NGHỆ TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc TP HCM, Giới ngày 18 tháng 08 năm 2017 Họ tên học viên: PHAN Nam PHANHỒNG HỒNGTRUNG tính: TRUNG Đồng Ngày, tháng, năm sinh: 01/03/1968 01/03/196 Nơi sinh: NHIỆM VỤ LUẬN VĂN THẠC SĨ Tháp TinBÀI BÁO KHOA HỌC TÌM Cơng TẦM ẢNH HƯỞNG CỦA Chun ngành: Nghệ Thơng MSHV: 154186005 TRONG MẠNG TRÍCH DẪN I- Tên đề tài: II- Nhiệm vụ nội dung: Cài đặt OrientDB, Scala, Apache Spark, IntelliJ IDEA Thu thập, tổ chức lưu trữ liệu đồ thị OrientDB Chuyển từ đồ thị OrientDB thành đồ thị GraphX để phân tích Tìm tầm ảnh hưởng báo Tìm báo có tầm ảnh hưởng nhiều Xác định độ lan tỏa báo theo thời gian Biểu diễn trực quan đồ thị Mở rộng hệ thống Apache Spark Cluster gồm nhiều máy tính III- Ngày giao nhiệm vụ: IV- Ngày hoàn thành nhiệm vụ: V- Cán hướng dẫn: 15/03/2017 18/08/2017 PGS.TS Đỗ Phúc CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) PGS.TS.Đỗ Phúc KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) -1- LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chưa công bố cơng trình khác Tơi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thơng tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn (Ký ghi rõ họ tên) Phan Hồng Trung LỜI CÁM ƠN Xin gửi lời cảm ơn chân thành đến Thầy, PGS.TS Đỗ Phúc, cho đề tài thú vị nhiệt tình hướng dẫn, cung cấp tài liệu, kiến thức, gợi ý, góp ý hữu ích q trình làm Luận văn Xin chân thành cảm ơn Thầy: - PGS.TS Võ Đình Bảy - PGS.TS Quản Thành Thơ - PGS.TS Lê Hoàng Thái - TS Nguyễn Sinh Kế - TS Nguyễn An Khương - TS Đặng Trường Sơn - TS Trần Đức Khánh cung cấp cho tơi nhiều tri thức q báu suốt khóa học, nhờ tơi hồn thành tốt đề tài Luận văn Xin chân thành cảm ơn nhà trường, phòng, khoa, đặc biệt Phòng Đào Tạo Sau Đại Học nhiệt tình giúp đỡ hỗ trợ suốt khóa học Kính chúc Thầy, Cơ nhiều sức khỏe TP Hồ Chí Minh, ngày 18 tháng 08 năm 20117 Phan Hồng Trung TÓM TẮT Big Data Graph Databases hai nội dung nghiên cứu mới, hấp dẫn đầy tiềm Tuy nhiên, qua thông tin Internet, Việt Nam việc ứng dụng khai thác Big Data Graph Databases còn mẻ chưa với tiềm tầm quan trọng Nhiều doanh nghiệp Việt Nam nắm tay nguồn Big Data chưa biết cách khai thác mức Vì chọn đề tài để nghiên cứu ứng dụng hai kỹ thuật điều cấp thiết Đó lý tơi chọn đề tài “ TÌM TẦM ẢNH HƯỞNG CỦA BÀI BÁO KHOA HỌC TRONG MẠNG TRÍCH DẢN” Với đề tài tơi có thể: - Dùng kỹ thuật Graph Databases để tổ chức, lưu trữ truy vấn mạng trích dẫn chất mạng trích dẫn đồ thị - Dùng kỹ thuật Big Data để phân tích xử lý mạng trích dẫn mạng trích dẫn thực nghiệm đề tài lớn Mục tiêu đề tài nghiên cứu, ứng dụng Big Data Graph Databases; góp phần để nước nhà bắt kịp xu hướng giới việc khai thác, ứng dụng chúng thực tiễn Cụ thể, đề tài xây dựng hệ thống Citation Network Explorer (CNE) để tìm tầm ảnh hưởng báo khoa học mạng trích dẫn Hệ thống CNE bao gồm chức sau: Tải sở liệu đồ thị vào hệ thống xử lý Big Data Biểu diễn trực quan đồ thị Tìm tầm ảnh hưởng báo Tìm báo có tầm ảnh hưởng nhiều Tìm thành phần liên thông chứa báo Xác định độ lan tỏa báo theo thời gian Trong đề tài này, triển khai kỹ thuật sau: - Sử dụng sở liệu đồ thị, cụ thể OrientDB, để tổ chức, lưu trữ mạng trích dẫn báo khoa học - Dùng tảng Apache Spark để khai thác Big Data, cụ thể sử dụng GraphX để phân tích mạng trích dẫn - Dùng ngơn ngữ lập trình Scala kết hợp với Play Framework để xây dựng ứng dụng - Dùng thư viện VisJs để biểu diễn trực quan mạng trích dẫn Ngồi ra, tơi trình bày kết thực nghiệm số chức hệ thống CNE để đo đạc thời gian xử lý chức đồ thị với qui mô khác Cuối phần đánh giá kết thực đề tài so với dự định ban đầu kinh nghiệm thu thập Ngoài phần đề nghị số định hướng phát triển, mở rộng đề tài ABSTRACT Big Data and Graph Databases are two new, exciting and potential research topics However, through information on the Internet, in Vietnam the application and exploitation of Big Data as well as Graph Databases is still quite new and not true with its potential and importance Many Vietnamese enterprises are in the hands of Big Data but not know how to exploit properly Therefore, it is imperative to choose a topic to study and apply both techniques That's why I chose the topic “FIND INFLUENCE OF SCIENTIEIC PAPERS IN A CITATION NETWORK” With this topic I can: - Using Graph Databases to organize, store, and query citation networks because the nature of citation networks is a graph - Using Big Data technology to analyze and process citation networks because of the citation network experiment in this thesis quite large The objectives of the research are to study, apply Big Data and graph database; Contribute to the country to catch up with the trend of the world in exploiting, applying them in practice Speciíically, on this topic I built the Citation Network Explorer (CNE) application to find the influence of scientific papers in the large citation network The CNE application includes the following functions: Load graph databases into the Big Data processing system Visualize graphs Find the iníluence of a paper Find the most iníluential paper Find the connected component that contains a paper Find the propagation of a paper over time In this topic, I am deploying the following new techniques: - Using the graph database, namely the OrientDB, to organize, store citation networks of scientiíic papers - Using Apache Spark to exploit Big Data, specifically using GraphX to - analyze citation networks - Using Scala programming language in combination with Play Framework to build applications - Using VisJs library to visualize the citation network In addition, I also present experimental results of some of the major functions of the CNE system to measure the processing time of functions on graphs with different scales Finally, that is the evaluation of the results of the project against the original plan as well as the experience gained In addition, in this section I also propose some orientations of expanding the topic - Phụ Lục 2: - - Phụ Lục 2: - - Phụ Lục 2: - - Phụ Lục 2: - - Phụ Lục 2: - - Phụ Lục 2: - - Phụ Lục 2: 10 - - Phụ Lục 2: 11 - - Phụ Lục 2: 12 - Hình sau minh họa việc sử dụng môi trường tương tác Scala: Cài đặt IntelliJ IDEA 3.1 Download Vào website https://www.jetbrains.com/idea/download để download file cài đặt IntelliJ IDEA File cài đặt ideaIC-2017.1.5.exe 3.2 Cài đặt Chạy file ideaIC-2017.1.5.exe để tiến hành cài đặt 3.3 Các thao tác 3.3.1 Tạo dự án Chọn menu File ^ New ^ Project 3.3.2 Chạy dự án Chọn menu Run ^ Run Giao diện IntelliJ IDEA hình sau: Cài đặt OrientDb 4.1 Download Vào website http://orientdb.com/download/ để download OrientDb OrientDB 2.2.21 GA Community Edition (June 1st, 2017) dành cho mơi trường Windows Sau download ta có file orientdb-community-2.2.21.zip 4.2 Cài đặt Để cài đặt OrientDb ta cần giải nén file orientdb-community-2.2.21.zip 4.3 Các thao tác 4.3.1 Chạy OrientDb Server Vào folder orientdb-community-2.2.21\bin, nhấp đúp lên file server.bat Giao diện OrientDb Server lên hình sau: Khi chạy OrientDB Server lần đầu tiên, server yêu cầu đặt password cho root Password lưu file orientdb-server-config.xml Để shutdown OrientDb Server: - Chuyển qua cửa sổ OrientDb Server - Bấm Ctri-C đợi OrientDb Server lên câu hỏi Terminate batch job (Y/N)? Trả lời Yes cách gõ phím Y 4.3.2 Chạy OrientDb Console OrientDb Console chương trình client cung cấp giao diện dịng lệnh để người sử dụng tương tác với OrientDb Server Để chạy OrientDb Console: Vào folder orientdb-community-2.2.21\bin, nhấp đúp lên file console.bat Giao diện OrientDb Console lên sau: Để thoát khỏi OrientDb Console ta cần thực lệnh exit 4.3.3 Chạy OrientDb Studio OrientDb Studio chương trình client cung cấp giao diện Web để người sử dụng tương tác với OrientDb Server Để chạy OrientDb Studio: Mở browser nhập địa chỉ: http://localhost:2480 Giao diện OrientDb Studio lên sau: Cài đặt Apache Spark 5.1 Download Vào website https://spark.apache.org/downloads.html để download Apache Spark Phiên file nén spark-2.1.0-bin-hadoop2.7.tgz Ngoài cần download file winutils.exe để giả mơi trường Hadoop File download website https://github.com/steveloughran/winutils/tree/master/hadoop2.6.0/bin 5.2 Cài đặt Trước cài đặt Spark phải đảm bảo cài đặt Java Scala Giả sử Java Scala cài đặt vào folder sau: C:\Program Files\Java\jdk1.8.0 C:\Program Files (x86)\scala 31 Việc cài đặt Apache Spark sau: - Giải nén file spark-2.1.0-bin-hadoop2.7.tgz Giả sử kết sau giải nén ta có folder D: - \proj \spark-2.1.0-bin-hadoop2.7 Giả lập mơi trường Hadoop: + Tạo folder D:\proj\hadoop\bin + Chép file winutils.exe vào folder D:\proj\hadoop\bin - Thiết lập biến môi trường: JAVA HOME=C:\Program Files\Java\jdk1.8.0 31 SCALA HOME=C:\Program Files (x86)\scala HADOOP_HOME=D:\proj\hadoop SPARK HOME=D:\proj\spark-2.1.0-bin-hadoop2.7 PATH=%PATH%;%JAVA_HOME%\bin;%SCALA_HOME%\bin;%HADOOP_HOME%\bin; %SPARK_HOME%\bin; - Vào chế độ Command Prompt, thực lệnh sau: winutils.exe chmod 777 C:\tmp\hive27 27 Nếu không thấy folder C:\tmp\hive chạy lệnh spark-shell 5.3 Các thao tác 5.3.1 Vào Spark-shell spark-shell Kết sau: C:\Users\trung>spark-sheII Setting deíauít loq level to irWARNr' To adjust logging Tevel Lise sc.setLoqLevel (newLevel) For SparkR, Lise setLogLevel (newLevel) 17/08/17 14:15:04 WARN NativeCodeLoader: Urĩable to ĩoad nati”ve-hádoop library for your platform using asses where applicable 17/08/17 14:15:08 WARN General: Plugin (Bundle) "org.datanucleus.api.jdo" is already registered Ensure you dont have mu Itiple JAR versions of the same plugin in the classpath The URL T,file:/D:/proj/spark-271.0-bin-hadoop2.7/jars/datanucle us-api-jdo-3.2.6.jarir is already registered, and you are trying to register an ìdêntical plugin locatêd at URL "file:/D: dố-3.2.s7jar." ” /pro]/spark-2.1.0-bin-hadoop2.7/b'in/ ./iacs/datanucleus-api-;' ' ' eus.store.rdbms" is already registered Ensure you dont hav 17/08/17 14:15:08 WARN General: Plugin (Bundle) "org.datanuc' _ /D:/proj/spark-271.0-b'in-hadoop2.7/jars/datan e multiple JAR versions of the same plugin in the cĩasspath The URL ir * ’ ’ ' located at URL "file:/ ucleus-rdbms-3.2.9 jar is already régistered, and you are trying to register an ■identical pìugi D:/proj/spark-2.1.0-bi n-hadoop2.7/b'in/ ./jars/datanucleus-rdbms-3.2.9.iấr " 17/08/17 14:15:08 WARN General: Plugin (Bundle) "org.datanucleus" is already registered Ensure you dont have multiple J AR versions of the same plugin in the classpath Thế URL "file:/D:/proj/spark-271.0-bin-hadoop2.7/jars/datanucleus-core3.2.10.jar" is already registered, and you are trying to register an identical plugin located at URL "file:/D:/proj/spar k-2.1.02bin-hadoop2.7/bi n/ /jars/datanucleus-coré-372.10.jấr." 17/08/17 14:15:18 WARN Obiectstore: Failed to get database ■* ' ’ ■ NoSuchObjectExcept ' ■■ global_temp, returning Spark context Web UI available at http://192.168.44.1:4040 Spark context available as 'sc' (mastêr - local[*], app 'id local-1502954105637) Spark session available as 'spark' Welcome to Using Scala version 2.11.8 CJava HotSpot(TM) 64-Bit Server Type in expressions to have them evalúatẽd Type :help for more information 5.3.2 Thoát khỏi Spark-shell :q :quit 5.3.3 Vào giao diện Web Spark http://localhost:4040 □X Pl spark Shell - Sparklobs X e Q localhost:4040/jobs/ 210 Spark Jobs (?) User: trung Total Uptime: 1.9 Scheduling Mode: FIFO ► Event Tlmeline Jobs Stages storage Environment Executors SQL ☆® Spark Shell applỉcatíon UI ... để tìm tầm ảnh hưởng báo khoa học mạng trích dẫn Hệ thống CNE bao gồm chức sau: Tải sở liệu đồ thị vào hệ thống xử lý Big Data Biểu diễn trực quan đồ thị Tìm tầm ảnh hưởng báo Tìm báo có tầm ảnh. .. đề tài “TÌM TẦM ẢNH HƯỞNG CỦA BÀI BÁO KHOA HỌC TRONG MẠNG TRÍCH DẪN”3 Với đề tài tơi có thể: - Dùng kỹ thuật Graph Databases để tổ chức, lưu trữ truy vấn mạng trích dẫn chất mạng trích dẫn đồ... đề tài “ TÌM TẦM ẢNH HƯỞNG CỦA BÀI BÁO KHOA HỌC TRONG MẠNG TRÍCH DẢN” Với đề tài tơi có thể: - Dùng kỹ thuật Graph Databases để tổ chức, lưu trữ truy vấn mạng trích dẫn chất mạng trích dẫn đồ thị

Định dạng
Số trang	145
Dung lượng	1,05 MB

TÌM tầm ẢNH HƯỞNG của bài báo KHOA học TRONG MẠNG TRÍCH dẫn

.1 0 Các thành phần của Hadoop

Tiền xử lý dữ liệu