Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。
用官方文档入门的时候遇到一些问题,以下是解决办法。
1. 找不到 README.md 文件
需要将Spark目录下的README.md 文件放到Spark使用的文件系统的相应位置。如果使用的是HDFS,应该放在 /usr/YOUR_USER_NAME 目录下,或者将文件路径改为绝对路径。如:
val textFile = “/usr/mine/path/README.md”
区分hdfs:///和 file:///
"file:///home/ubuntu/data/spark-2.0.1-bin-hadoop2.6/LICENSE"
2. 安装 simpleApp 的目录结构
新建文件夹,包含simpleApp.scala, simple.sbt 两个文件
3. 无法使用 sbt
Spark 中没有自带 sbt,需要自行安装
4. connector
下载最新 否则 mvn install 报错 https://spark-packages.org/package/neo4j-contrib/neo4j-spark-connector
安装graphframe
spark-shell –packages neo4j-contrib:neo4j-spark-connector:2.0.0-M2
tips 修改bolt 地址,如果是内网ip 需要写内网ip
dataframe 看作是结构化的RDD
dataframe 遵守RDD具有的规则,r如转换和行动。另外还有额外的SQL接口 df.select(‘year’).count() 其中select 为转换, count 为行动操作。
5. graphframe 安装错误
file:/home/ubuntu/.m2/repository/org/slf4j/slf4j-api/1.7.7/slf4j-api-1.7.7.jar
把相关的依赖包安装到指定位置即可
##[error] (*:update) java.lang.IllegalArgumentException: commons-codec#commons-codec;1.4!commons-codec.jar origin location must be absolute: file:/home/ubuntu/.m2/repository/commons-codec/commons-codec/1.4/commons-codec-1.4.jar
[3]: