大数据采集方案 Flume+Kafka+Zookeeper搭建大数据日志采集框架
沉沙 2018-09-29 来源 : 阅读 3636 评论 0

摘要:本篇教程介绍了大数据采集方案 Flume+Kafka+Zookeeper搭建大数据日志采集框架,希望阅读本篇文章以后大家有所收获,帮助大家对大数据云计算大数据采集的理解更加深入。

本篇教程介绍了大数据采集方案 Flume+Kafka+Zookeeper搭建大数据日志采集框架,希望阅读本篇文章以后大家有所收获,帮助大家对大数据云计算大数据采集的理解更加深入。

<

1.  JDK的安装

    参考jdk的安装,此处略。
2.  安装Zookeeper

    参考我的Zookeeper安装教程中的“完全分布式”部分。
3.  安装Kafka

    参考我的Kafka安装教程中的“完全分布式搭建”部分。
4.  安装Flume

    参考我的Flume安装教程。
5.  配置Flume
5.1.  配置kafka-s.cfg

    $ cd /software/flume/conf/                   #切换到kafka的配置文件目录

    $ cp flume-conf.properties.template kafka-s.cfg   #将flume的配置文件模板复制为kafka-s.cfg

 

    kafka-s.cfg的详细内容如下:

    #配置flume agent的source、channel、sink

    a1.sources = r1

    a1.channels = c1

    a1.sinks=k1

    #配置source

    a1.sources.r1.type = exec

    a1.sources.r1.command=tail -F/tmp/logs/kafka.log

 

    # 配置channel

    a1.channels.c1.type = memory

    a1.channels.c1.capacity = 1000

    a1.channels.c1.transactionCapacity = 100

    #配置sink

    a1.sinks.k1.channel = c1

    a1.sinks.k1.type =org.apache.flume.sink.kafka.KafkaSink

    #设置Kafka的Topic

    a1.sinks.k1.kafka.topic = mytest

    #设置Kafka的broker地址和端口号

    a1.sinks.k1.kafka.bootstrap.servers = s201:9092,s202:9092,s203:9092

    #配置批量提交的数量

    a1.sinks.k1.kafka.flumeBatchSize = 20

    a1.sinks.k1.kafka.producer.acks = 1

    a1.sinks.k1.kafka.producer.linger.ms = 1

    a1.sinks.ki.kafka.producer.compression.type= snappy

 

    # 绑定source和sink 到channel

    a1.sources.r1.channels = c1

    a1.sinks.k1.channel=c1

 

    关于上面配置文件中需要注意的3点:

    a、a1.sources.r1.command=tail-F /tmp/logs/kafka.log  

    b、a1.sinks.k1.kafka.bootstrap.servers= s201:9092,s202:9092,s203:9092

    c、a1.sinks.k1.topic= mytest

 

    由配置文件我们可以了解到:

    1)、我们需要在/tmp/logs下建一个kafka.log的文件,且向文件中输出内容(下面会说到);

    2)、flume连接到kafka的地址是 s201:9092,s202:9092,s203:9092,注意不要配置错误了;

    3)、flume会将采集后的内容输出到Kafkatopic 为mytest上,所以我们启动zk,kafka后需要打开一个终端消费topic mytest的内容,这样就可以看到flume与kafka之间玩起来了。

 
5.2.  创建/tmp/logs/kafka.log文件目录及文件

在/tmp/logs下建立空文件kafka.log;如果/tmp目录下没有logs目录,则需要先创建logs目录。
5.3.  创建生成日志数据shell脚本

在hadoop用户目录下创建kafkaoutput.sh脚本,并赋予执行权限,用来向/tmp/logs/kafka.log输出内容。

kafkaoutput.sh脚本的具体内容如下:

for((i=0;i<=1000;i++));

do echo"kafka_test-"+$i>>/tmp/logs/kafka.log;

done
5.4.  启动Zookeeper

    到zk安装的服务器上启动zk服务,命令如下:

    $ zkServer.sh start
5.5.  启动Kafka

    到部署kafka每台服务器上面启动kafka集群

    $ kafka-server-start.sh/software/kafka/config/server.properties &
5.6.  创建Kafka Topic

    $ kafka-topics.sh --create --zookeeper s201:2181--replication-factor 3 --partitions 3 --topic mytest
5.7.  启动消费Topic

    $ kafka-console-consumer.sh--bootstrap-server s201:9092,s202:9092,s203:9092 --zookeepers201:2181,s202:2181,s203:2181 --topic mytest --from-beginning
5.8.  启动Flume

    $ flume-ng agent --conf/software/flume/conf/ --conf-file kafka-s.cfg --name a1-Dflume.root.logger=INFO,console
5.9.  执行kafkaoutput.sh脚本生成日志数据

    $ ./kafkaoutput.sh

    查看日志文件内容如下:



在kafka中查看的消费信息:

   

本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标大数据云计算大数据采集频道!

本文由 @沉沙 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式AI+学习就业服务平台 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved