文档章节

使用batch-import工具向neo4j中导入海量数据

T_SevenS
 T_SevenS
发布于 2017/04/20 17:13
字数 1223
阅读 2831
收藏 17

在开发neo4j的过程中,经常会有同学问如何向neo4j中导入大量的历史数据,而这些数据一般都会存在于关系型数据库中,现在本人就根据自己的导入经历,把导入的过程和一些挖过的坑分享给大家,以便后面的同学少走弯路,废话不多说,直接上干货。

1、batch-import原始项目地址:https://github.com/jexp/batch-import

    这个工具是neo4j的作者之一Michael Hunger所编写,是在neo4j自带批量导入工具基础之上做的进一步优化,但是它在导入.gz压缩文件时,会出现关系无法导入的情况,所以如果要使用.gz压缩包进行导入,请使用我修改过的版本:https://github.com/mo9527/batch-import

2、环境准备

    jdk:7以上

    内存:8G以上,导入数据多的话会非常消耗内存,我自己导入的是将近1.5亿节点,3亿关系,用的是32G内存

3、导入步骤

    a)从github上clone下代码,并使用maven进行打包,打完包后的jar文件,与项目本身的依赖jar一起放到lib文件夹下,batch.properties文件和执行导入的脚本放在lib同级目录下,最后的目录结构如下图:

    

    ps:file文件夹是我自己将要导入的csv文件和.gz压缩包。

    b)组装csv文件

        说起这一步,可能需要你们根据自己的实际业务需求,手动写代码导csv文件了,这里我只讲一下csv文件格式一些要点:

        1、节点csv文件

            节点csv文件的第一列是固定的,列值为此节点的label名称,第二列是index,它的列头是id:string:indexName 这种格式,解释一下,id是这一列的property名字,可以根据需要自己命名,string为字段的数据类型,indexName是neo4j数据库中将要导入的索引名称,我自己的文件格式如下:

    

    然后,后面的列就是节点的property了,没什么特别的要求

        2、关系csv文件

            先看下我的关系csv文件:

                   

关系的csv文件前两列要特别注意,第一列是关系的起始节点,第二列是关系的结束节点,第三列是关系类型,后面的列是关系的property,可以随意了。他github上的说明没有说出一些注意点,这里要特别标明:

    第一列的起始节点的列头,也就是id:string:buyerId这个东西,这个玩意一定要和节点csv文件(上图)中定义的一模一样,第二列也是如此,要和结束节点的csv文件里的一样,不然他会找不到对应的关系。

    3、修改batch.properties文件

        主要修改两个地方,1、如果是在现有的neo4j数据库中进行导入,请设置:

        batch_import.keep_db=true

            2、将节点csv文件中所有的索引名称加入到文件中,例如上面这个节点csv文件中的索引名称是buyerId,那就在文件中加入batch_import.node_index.buyerId=exact

        以下是我本人的配置文件:

    3、导入

        linux和win环境的导入都差不多,只不过执行的脚本不一样,这里以win环境为例。

        文件都准备好了,现在开始导入了。

        打开cmd,cd到导入脚本的目录,也就是import.bat所在目录,执行命令:

        import.bat test.db node.csv rel.csv

        解释一下命令的几个参数:第一个参数是数据库的目录,可以绝对路径指定到任意位置,第二个参数是节点csv文件,多个csv文件用逗号分隔,如果是压缩包,一定要注意,这里有个坑,不能把所有类型的node都放到一个压缩包中,一定要每个类型的node分开压缩,不然它只会导入第一个类型的node节点,同理,关系的压缩包也要分开压缩,然后导入时用逗号分隔.gz文件。

 

    好了,如果你的csv文件没有问题,内存足够用的话,现在就开始等待吧。

    如果想修改导入工具的Heap大小,可以修改脚本文件中的 set HEAP=4G

    

如果不能正常编译jar包,可使用我已经编译好的工具:

https://github.com/mo9527/batch-import-tool    

 

温馨提示:如果节点文件中有中文的话,win环境csv文件很有可能出现乱码,然后就导致换行出现问题,导入程序就会出现假死的状态,表现为程序一直在吃内存,可是一直导不进去数据,这时候可以用本人改动过的版本去导入,具体改动可见我github上的记录

© 著作权归作者所有

共有 人打赏支持
T_SevenS
粉丝 8
博文 9
码字总数 2994
作品 0
卢湾
程序员
私信 提问
加载中

评论(16)

取个名字真_难
取个名字真_难
首先感谢博主的分享。然后我在批量导入csv文件,按照您在博客上提供的格式,一直报错:unknown label type ...,试了好多种都是一直报这个错,请问这是什么原因?
swjz
swjz
请问下楼主在ubuntu环境下面跑过么?我在windows下面运行是没有问题的,到ubuntu环境下就不行了,而且没有报错,test.db文件生成正常。ubuntu环境可以正常启动本地默认的graph.db,如果用启动test.db,neo4j就启动不起来了,我对比过graph.db和test.db两个文件,发现test.db里面的文件跟windows里面是一样的,但是对比ubuntu环境下的graph.db,多出了一个schema文件夹,同时少了一个neostore.labelscanstore.db,文件。
wei-chan
wei-chan
已经解决!

CSV格式问题!

参考:
File format

tab separated csv files
Property names in first row.
If only one file is initially imported, the row number corresponds to the node-id (starting with 0)
Property values not listed will not be set on the nodes or relationships.
Optionally property fields can have a type (defaults to String) indicated with name:type where type is one of (int, long, float, double, boolean, byte, short, char, string). The string value is then converted to that type. Conversion failure will result in abort of the import operation.
There is a separate "label" type, which should be used for relationship types and/or node labels, (labels:label)
Property fields may also be arrays by adding "_array" to the types above and separating the data with commas.
for non-ascii characters make sure to add -Dfile.encoding=UTF-8 to the commandline arguments
Optionally automatic indexing of properties can be configured with a header like name:string:users and a configured index in batch.prop
wei-chan
wei-chan

引用来自“hao玄”的评论

你好,我安装的单机版的3.1.7 linux版本的neo4j,使用batch-import一直异常

Total import time: 1 seconds
Exception in thread "main" java.lang.IllegalArgumentException: Unknown Type STRING,LABEL,age,works_on
at org.neo4j.batchimport.importer.Type.fromString(Type.java:175)
at org.neo4j.batchimport.importer.AbstractLineData.createHeaders(AbstractLineData.java:52)
at org.neo4j.batchimport.importer.CsvLineData.<init>(CsvLineData.java:16)
at org.neo4j.batchimport.Importer.createLineData(Importer.java:173)
at org.neo4j.batchimport.Importer.importNodes(Importer.java:93)
at org.neo4j.batchimport.Importer.doImport(Importer.java:228)
at org.neo4j.batchimport.Importer.main(Importer.java:83)
这是什么原因呢?
问题一样 为什么会出现这种不识别指定字段的问题
hao玄
hao玄
你好,我安装的单机版的3.1.7 linux版本的neo4j,使用batch-import一直异常

Total import time: 1 seconds
Exception in thread "main" java.lang.IllegalArgumentException: Unknown Type STRING,LABEL,age,works_on
at org.neo4j.batchimport.importer.Type.fromString(Type.java:175)
at org.neo4j.batchimport.importer.AbstractLineData.createHeaders(AbstractLineData.java:52)
at org.neo4j.batchimport.importer.CsvLineData.<init>(CsvLineData.java:16)
at org.neo4j.batchimport.Importer.createLineData(Importer.java:173)
at org.neo4j.batchimport.Importer.importNodes(Importer.java:93)
at org.neo4j.batchimport.Importer.doImport(Importer.java:228)
at org.neo4j.batchimport.Importer.main(Importer.java:83)
这是什么原因呢?
T_SevenS
T_SevenS

引用来自“windmil”的评论

请教一下,如果我先导入节点,然后再导入关系可以吗?因为我的节点数量固定,但关系随着业务的增加会不不断增加。
我现在测试,如果节点、关系同时导入没问题,但如果只导入关系会skipp
节点和关系必须同时导入,或者只导节点,但是如果只导入关系肯定是会skip掉的,因为关系是建立在节点存在的基础上的,节点都没有,哪来的关系?
w
windmil
请教一下,如果我先导入节点,然后再导入关系可以吗?因为我的节点数量固定,但关系随着业务的增加会不不断增加。
我现在测试,如果节点、关系同时导入没问题,但如果只导入关系会skipp
T_SevenS
T_SevenS

引用来自“新兵1”的评论

你好,请问您是用的Neo4j的那个版本啊?我使用的3.2.2报错:Exception in thread "main" java.lang.UnsupportedClassVersionError: org/neo4j/unsafe/batchinsert/BatchInserterIndexProvider : Unsupported major.minor version 52.0

我的命令:import.bat "D:\Program Files\NDatabase" node.csv rels.csv

引用来自“T_SevenS”的评论

我用的neo4j版本是3.1.1,你这个错是因为jdk版本过低的问题

引用来自“新兵1”的评论

好的,谢谢啊,我弄下JDK,我电脑里了个1.6的,我再试下,多谢了啊

引用来自“T_SevenS”的评论

1.6太低,要1.8的

引用来自“新兵1”的评论

大哥,我刚用了jdk1.8.0_144,输出的结果是:
D:\Program Files\batch-import-tool>import.bat "D:\Program Files\NDatabase" node.csv rels.csv
Usage: Importer data/dir nodes.csv relationships.csv [node_index node-index-name fulltext|exact nodes_index.csv rel_index rel-index-name fulltext|exact rels_index.csv ....]
Using: Importer D:\Program Files\NDatabase node.csv rels.csv

Using Existing Configuration File
Exception in thread "main" org.neo4j.kernel.impl.storemigration.StoreUpgrader$UnexpectedUpgradingStoreVersionException: 'neostore' has a store version 'v0.A.8' that we cannot upgrade from.
at org.neo4j.kernel.impl.store.NeoStores.verifyRecordFormat(NeoStores.java:175)
at org.neo4j.kernel.impl.store.NeoStores.(NeoStores.java:136)
at org.neo4j.kernel.impl.store.StoreFactory.openNeoStores(StoreFactory.java:169)
at org.neo4j.kernel.impl.store.StoreFactory.openAllNeoStores(StoreFactory.java:133)
at org.neo4j.unsafe.batchinsert.internal.BatchInserterImpl.(Ba
neo4j版本太高了,这个工具目前只支持到3.0.1,可以去他github上看下,最早的更新是一年前了
新兵1
新兵1

引用来自“新兵1”的评论

你好,请问您是用的Neo4j的那个版本啊?我使用的3.2.2报错:Exception in thread "main" java.lang.UnsupportedClassVersionError: org/neo4j/unsafe/batchinsert/BatchInserterIndexProvider : Unsupported major.minor version 52.0

我的命令:import.bat "D:\Program Files\NDatabase" node.csv rels.csv

引用来自“T_SevenS”的评论

我用的neo4j版本是3.1.1,你这个错是因为jdk版本过低的问题

引用来自“新兵1”的评论

好的,谢谢啊,我弄下JDK,我电脑里了个1.6的,我再试下,多谢了啊

引用来自“T_SevenS”的评论

1.6太低,要1.8的
我查看了一下数据库,还是没有导入进来,我的Neo4j版本3.2.2 社区版,这个还是JDK的问题吗?我环境变量都配好了
新兵1
新兵1

引用来自“新兵1”的评论

你好,请问您是用的Neo4j的那个版本啊?我使用的3.2.2报错:Exception in thread "main" java.lang.UnsupportedClassVersionError: org/neo4j/unsafe/batchinsert/BatchInserterIndexProvider : Unsupported major.minor version 52.0

我的命令:import.bat "D:\Program Files\NDatabase" node.csv rels.csv

引用来自“T_SevenS”的评论

我用的neo4j版本是3.1.1,你这个错是因为jdk版本过低的问题

引用来自“新兵1”的评论

好的,谢谢啊,我弄下JDK,我电脑里了个1.6的,我再试下,多谢了啊

引用来自“T_SevenS”的评论

1.6太低,要1.8的
大哥,我刚用了jdk1.8.0_144,输出的结果是:
D:\Program Files\batch-import-tool>import.bat "D:\Program Files\NDatabase" node.csv rels.csv
Usage: Importer data/dir nodes.csv relationships.csv [node_index node-index-name fulltext|exact nodes_index.csv rel_index rel-index-name fulltext|exact rels_index.csv ....]
Using: Importer D:\Program Files\NDatabase node.csv rels.csv

Using Existing Configuration File
Exception in thread "main" org.neo4j.kernel.impl.storemigration.StoreUpgrader$UnexpectedUpgradingStoreVersionException: 'neostore' has a store version 'v0.A.8' that we cannot upgrade from.
at org.neo4j.kernel.impl.store.NeoStores.verifyRecordFormat(NeoStores.java:175)
at org.neo4j.kernel.impl.store.NeoStores.(NeoStores.java:136)
at org.neo4j.kernel.impl.store.StoreFactory.openNeoStores(StoreFactory.java:169)
at org.neo4j.kernel.impl.store.StoreFactory.openAllNeoStores(StoreFactory.java:133)
at org.neo4j.unsafe.batchinsert.internal.BatchInserterImpl.(Ba
使用batch-import工具向neo4j中导入海量数据 相关

@TSevenS 你好,想请教个问题:看了你 使用batch-import工具向neo4j中导入海量这篇技术分享,本地我也试做了下,批量导入多节点没问题,但是想请问下,你这个导关系是单个标签内节点的对应关...

mc_zhou
2017/11/03
12
1
[知识图谱构建] 一.Neo4j图数据库安装初识及药材供应图谱实例

版权声明:本文为博主原创文章,转载请注明CSDN博客源地址!共同学习,一起进步~ https://blog.csdn.net/Eastmount/article/details/83268410 2012年5月,谷歌公司的知识图谱(Knowledge Gra...

Eastmount
10/22
0
0
[2018-07-08] tensorflow 创建线性回归(1)

OverView: 今天突然想起以前写过一个用BP算法的iris分类器, 加上最近面试把线性规划的思想和实现又看了一遍. (1) 数据集介绍 (2) tensorflow 实现分类器 (3) tensorflow实现模型评估 (1) 数据...

斐波那契的数字
07/08
0
0
spring boot 2.0之使用spring boot

spring boot依赖 每一个spring boot的发型版本都包含了所依赖的版本,如果升级spring boot版本,其依赖也会同步更新升级。maven的用户可以通过继承spring-boot-starter-parent。其包含了一些...

mmss
2017/12/28
0
0
spring boot(2)起步依赖spring-boot-starter-*详解

--The core Spring Boot starter, including auto-configuration support, logging and YAML. --Spring Boot starter核心模块,包括自动配置支持,日志和YAML。 --Support for the “Advance......

刘胜球
2017/10/25
0
0

没有更多内容

加载失败,请刷新页面

加载更多

聊聊storm的AggregateProcessor的execute及finishBatch方法

序 本文主要研究一下storm的AggregateProcessor的execute及finishBatch方法 实例 TridentTopology topology = new TridentTopology(); topology.newStream("spout1", spout......

go4it
40分钟前
1
0
大数据教程(7.5)hadoop中内置rpc框架的使用教程

博主上一篇博客分享了hadoop客户端java API的使用,本章节带领小伙伴们一起来体验下hadoop的内置rpc框架。首先,由于hadoop的内置rpc框架的设计目的是为了内部的组件提供rpc访问的功能,并不...

em_aaron
今天
1
0
CentOS7+git+github创建Python开发环境

1.准备CentOS7 (1)下载VMware Workstation https://pan.baidu.com/s/1miFU8mk (2)下载CentOS7镜像 https://mirrors.aliyun.com/centos/ (3)安装CentOS7系统 http://blog.51cto.com/fengyuns......

枫叶云
昨天
1
0
利用ibeetl 实现selectpicker 的三级联动

1. js 直接写在html页面上面,ibeetl 就可以动态地利用后台传上来的model List ,不需要每次点击都要ajax请求后台 2. 使用selectpicker 的时候,除了对selecct option的动态处理后,还需要 $("#...

donald121
昨天
1
0
Android SELinux avc dennied权限问题解决方法

1. 概述 SELinux是Google从android 5.0开始,强制引入的一套非常严格的权限管理机制,主要用于增强系统的安全性。 然而,在开发中,我们经常会遇到由于SELinux造成的各种权限不足,即使拥有“...

TreasureWe
昨天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部