博文

目前显示的是 八月, 2018的博文

spark的一些记录

standalone模式时的清理 参考 spark work目录的清理 简单科普一下,spark work存放的是一个spark work任务运行的依赖环境和日志输出,集群其他的节点都来这个地方拉取,spark-events存放的是运行日志,history  web就是去的这里的数据。经检查发现是work,已经201G了。 使用spark standalone模式执行任务,每提交一次任务,在每个节点work目录下都会生成一个文件夹,命名规则app-20180212191730-0249。该文件夹下是任务提交时,各节点从主节点下载的程序所需要的资源文件。  这些目录每次执行都会生成,且不会自动清理 ,执行任务过多会将内存撑爆。将历史没用的work目录下面的app目录删除: 3、解决方案 需要添加定时清理策略,只针对于standalong模式: 在spark-env.sh里面添加如下配置 export SPARK_WORKER_OPTS= " -Dspark.worker.cleanup.enabled=true -Dspark.worker.cleanup.interval=1800 -Dspark.worker.cleanup.appDataTtl=3600"   注: -Dspark.worker.cleanup.enabled=true:是否开启自动清理 -Dspark.worker.cleanup.interval=1800:清理周期,每隔多长时间清理一次,单位秒 -Dspark.worker.cleanup.appDataTtl=3600:保留最近多长时间的数据 参考: https://spark.apache.org/docs/latest/spark-standalone.html