实时数仓Druid从kafka摄取数据

2022-06-19 13:48:46

准备

  • 搭建好kafka
  • 可正常访问查询节点的8888端口: http://hadoop04:8888

按部就班

新建一个摄取规范,定义你的数据从哪摄取、怎么摄取、摄取成什么样。
在这里插入图片描述选择kafka。
在这里插入图片描述
填写kafka消费者基本属性。
在这里插入图片描述检查你的数据列是否完整。
在这里插入图片描述将logTime列设置为时序列__time,格式yyyy-MM-dd HH:mm:ss。
在这里插入图片描述

如果不需要转换Transform 或 Filter,右下角按钮连点两次跳过。
然后看到默认生成的列:
count为预聚合到一行时的总记录条数。
sum_cnt为将cnt列以longSum长整型预聚合的累计和。

其中queryGranularity设置为HOUR,意思是时序列以小时为单位预聚合上面两个值。
在这里插入图片描述
以天为单位来分配segment。如果数据跨天将会新建一个segment,日期不同;如果当前数据条数大于配置的条数,将新建一个segment,日期相同序号递增。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述没有要注意的地方,直接发布。
在这里插入图片描述切换到Ingestion页面,看到生成一个Task。
在这里插入图片描述Task启动一段时间后,Datasource出现。这个相当于关系型数据库的表。
在这里插入图片描述点击右边的小扳手,选择查询SQL。
在这里插入图片描述
现在已经消费了64条,且当前cnt之和为22.
在这里插入图片描述

  • 作者:.Mr Zhang
  • 原文链接:https://blog.csdn.net/zhangtikang134/article/details/105125199
    更新时间:2022-06-19 13:48:46