博文

目前显示的是 十二月, 2018的博文

kafka -> spark -> hive

介绍从kafka消费数据然后写入hive 所有部件的安装配置 步骤非常重要 另外下面每一个环节都有环境变量需要配置,但是没有在各个步骤中列出来而是统一放在了文章最后,所以别忘了增加环节变量。 kafka kafka的安装和启动比较简单,按照官网文档 quickstart 来做即可: 1、下载 2、启动zookeeper(kafka是靠zookeeper来管理的) 如果遇到权限错误,可以sudo chown -R paul:paul kafka_2.11-2.1.0 3、启动kafka server(这样才有了broker) 4、创建topic 5、生产topic的数据 spark 这个过程还是很简单的,解压配置环境变量即可,不过后面配置好hive后会需要拷贝配置文件到conf中。 hive hive的依赖超级长,这里以一种方式完整的呈现出来, 后面有需要把Derby换成MySQL也是可以的。 hive的元存储很重要,具体内容: Hive学习之Metastore及其配置管理 因为内嵌式的,也就是使用derby的方式既无法并行开启hive,也没有找到spark使用时因对版本不一致的error,所以改用本地MySQL方式存储metastore Hadoop hive需要HDFS,所以需要先装好Hadoop,Hadoop的安装可以参考官网的 GettingStart 另外Ubuntu系统需要把/etc/hosts中的hostname地址修改为127.0.0.1 (但是在spark运行network流处理时会报IP回环错误,需要在spark-env.sh中设置SPARK_LOCAL_IP=本机固定IP) 注意,官网的步骤基本一个不漏都要做好。 包括: 1 安装ssh 2 Pseudo-Distributed Operation 3 YARN on a Single Node 上面的步骤执行完毕后,最后保证sbin/start-dfs.sh 和 sbin/start-yarn.sh已经启动起来 如果遇到权限问题,可以先创建一个组 groupadd hadoop 然后 sudo chown -R paul:hadoop hadoop-