实现Windows环境下Flink消费Kafka热词统计示例过程

来自：网络

时间：2022-05-10

阅读：

前言碎语

之前的博文写了《windows环境下flink入门demo实例》实现了官方提供的最简单的单词计数功能，今天升级下，将数据源从socket流换成生产级的消息队列kafka来完成一样的单词计数功能。本文实现的重点主要有两个部分，一是kafka环境的搭建，二是如何使用官方提供的flink-connector-kafka_2.12来消费kafka消息，其他的逻辑部分和上文类似。

进入正题

本篇博文涉及到的软件工具以及下载地址：

Apache Flink ：https://flink.apache.org/downloads.html ，请下载最新版1.7.x，选择单机版本

kafka：http://kafka.apache.org/downloads ，请下载最新的2.1.0

第一步：安装kafka，并验证

从上面的下载地址选择二进制包下载后是个压缩包，解压后的目录如下：

实现Windows环境下Flink消费Kafka热词统计示例过程

进入bin\windows下，找到kafka-server-start.bat和zookeeper-server-start.bat。配置文件在config目录下，主要配置一些日志和kafka server和zookeeper，都默认就好。如果你本地已经有zk的环境，就可以忽略zk，不然安装下面的步骤执行即可。

1. 启动zk服务

执行：zookeeper-server-start.bat ..\..\config\zookeeper.properties

2.启动kafka服务

执行：kafka-server-start.bat ..\..\config\server.properties

3.创建test主题

执行：kafka-topics.bat --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test

4.查看上一步的主题是否创建成功，成功的话控制台会输出test

执行：kafka-topics.bat --list --zookeeper localhost:2181

5.订阅test主题消息

执行：kafka-console-consumer.bat --bootstrap-server localhost:9092 --topic test --from-beginning

6.发布消息

执行：kafka-console-producer.bat --broker-list localhost:9092 --topic test

以上步骤成功后，我们需要验证下是否都成功了。在第六条指令的窗口中输入abc。如果在第5个指令窗口输出了就代表kafka环境ok了。然后可以关掉第5个指令窗口，下面就让Flink来消费kafka的消息

第二步：编写消费kafka消息的Flink job

基础步骤参考《windows环境下flink入门demo实例》一文。唯一的区别就是因为要消费kafka中的数据，所以需要引入一个kafka连接器，官方已提供到maven仓库中，引入最新版本即可，如下：

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-connector-kafka_2.12</artifactId>
    <version>1.7.1</version>
</dependency>

然后新建一个KafkaToFlink类，代码逻辑和昨天的一样，都是从一段字符串中统计每个词语出现的次数，这个场景比较像我们的热搜关键字，我标题简化为热词统计了。主要的代码如下：

/**
 * Created by kl on 2019/1/30.
 * Content :消费kafka数据
 */
public class KafkaToFlink {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        /**
         * 这里主要配置KafkaConsumerConfig需要的属性，如：
         * --bootstrap.servers localhost:9092 --topic test --group.id test-consumer-group
         */
        ParameterTool parameterTool = ParameterTool.fromArgs(args);
        DataStreamdataStream = env.addSource(new FlinkKafkaConsumer(parameterTool.getRequired("topic"), new SimpleStringSchema(), parameterTool.getProperties()));
        DataStreamwindowCounts = dataStream.rebalance().flatMap(new FlatMapFunction() {
            public void flatMap(String value, Collectorout) {
                System.out.println("接收到kafka数据：" + value);
                for (String word : value.split("\\s")) {
                    out.collect(new WordWithCount(word, 1L));
                }
            }
        }).keyBy("word")
                .timeWindow(Time.seconds(2))
                .reduce(new ReduceFunction() {
                    public WordWithCount reduce(WordWithCount a, WordWithCount b) {
                        return new WordWithCount(a.word, a.count + b.count);
                    }
                });
        windowCounts.print().setParallelism(1);
        env.execute("KafkaToFlink");
    }
}

注意下这个地方：ParameterTool.fromArgs(args);我们所有的关于KafkaConsumerConfig的配置，都是通过启动参数传入的，然后Flink提供了一个从args中获取参数的工具类。这里需要配置的就三个信息，和我们在命令窗口创建订阅一样的参数即可

第三步：验证Flink job是否符合预期

将应用打成jar包后通过Flink web上传到Flink Server。然后，找到你提交的job，输入如下的启动参数，提交submit即可：

实现Windows环境下Flink消费Kafka热词统计示例过程

成功运行的job的页面如下图，如果下图框框中的指标一直在转圈圈，那么很有可能是因为你运行了其他的job，导致Available Task Slots不够用了。

实现Windows环境下Flink消费Kafka热词统计示例过程

默认的Flink的Slots配置是1，当出现任务插槽不够用时，上图圈圈转一会就会失败，然后打开job manager 点击log就可以看到job因为没有可用的任务插槽而失败了。

org.apache.flink.runtime.jobmanager.scheduler.NoResourceAvailableException: Could not allocate all requires slots within timeout of 300000 ms. Slots required: 2, slots allocated: 0
	at org.apache.flink.runtime.executiongraph.ExecutionGraph.lambda$scheduleEager$3(ExecutionGraph.java:991)
	at java.util.concurrent.CompletableFuture.uniExceptionally(CompletableFuture.java:870)
	at java.util.concurrent.CompletableFuture$UniExceptionally.tryFire(CompletableFuture.java:852)
	at java.util.concurrent.CompletableFuture.postComplete(CompletableFuture.java:474)
	at java.util.concurrent.CompletableFuture.completeExceptionally(CompletableFuture.java:1977)
	at org.apache.flink.runtime.concurrent.FutureUtils$ResultConjunctFuture.handleCompletedFuture(FutureUtils.java:535)
	at java.util.concurrent.CompletableFuture.uniWhenComplete(CompletableFuture.java:760)
	at java.util.concurrent.CompletableFuture$UniWhenComplete.tryFire(CompletableFuture.java:736)
	at java.util.concurrent.CompletableFuture.postComplete(CompletableFuture.java:474)
	at java.util.concurrent.CompletableFuture.completeExceptionally(CompletableFuture.java:1977)
	at org.apache.flink.runtime.concurrent.FutureUtils$1.onComplete(FutureUtils.java:772)
	at akka.dispatch.OnComplete.internal(Future.scala:258)
	at akka.dispatch.OnComplete.internal(Future.scala:256)
	at akka.dispatch.japi$CallbackBridge.apply(Future.scala:186)
	at akka.dispatch.japi$CallbackBridge.apply(Future.scala:183)
	at scala.concurrent.impl.CallbackRunnable.run(Promise.scala:36)
	at org.apache.flink.runtime.concurrent.Executors$DirectExecutionContext.execute(Executors.java:83)
	at scala.concurrent.impl.CallbackRunnable.executeWithValue(Promise.scala:44)
	at scala.concurrent.impl.Promise$DefaultPromise.tryComplete(Promise.scala:252)
	at akka.pattern.PromiseActorRef.$bang(AskSupport.scala:534)
	at akka.pattern.PipeToSupport$PipeableFuture$$anonfun$pipeTo$1.applyOrElse(PipeToSupport.scala:20)
	at akka.pattern.PipeToSupport$PipeableFuture$$anonfun$pipeTo$1.applyOrElse(PipeToSupport.scala:18)
	at scala.concurrent.Future$$anonfun$andThen$1.apply(Future.scala:436)
	at scala.concurrent.Future$$anonfun$andThen$1.apply(Future.scala:435)
	at scala.concurrent.impl.CallbackRunnable.run(Promise.scala:36)
	at akka.dispatch.BatchingExecutor$AbstractBatch.processBatch(BatchingExecutor.scala:55)
	at akka.dispatch.BatchingExecutor$BlockableBatch$$anonfun$run$1.apply$mcV$sp(BatchingExecutor.scala:91)
	at akka.dispatch.BatchingExecutor$BlockableBatch$$anonfun$run$1.apply(BatchingExecutor.scala:91)
	at akka.dispatch.BatchingExecutor$BlockableBatch$$anonfun$run$1.apply(BatchingExecutor.scala:91)
	at scala.concurrent.BlockContext$.withBlockContext(BlockContext.scala:72)
	at akka.dispatch.BatchingExecutor$BlockableBatch.run(BatchingExecutor.scala:90)
	at akka.dispatch.TaskInvocation.run(AbstractDispatcher.scala:39)
	at akka.dispatch.ForkJoinExecutorConfigurator$AkkaForkJoinTask.exec(AbstractDispatcher.scala:415)
	at scala.concurrent.forkjoin.ForkJoinTask.doExec(ForkJoinTask.java:260)
	at scala.concurrent.forkjoin.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1339)
	at scala.concurrent.forkjoin.ForkJoinPool.runWorker(ForkJoinPool.java:1979)
	at scala.concurrent.forkjoin.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:107)

上面的问题可以通过修改conf/flink-conf.yaml中的taskmanager.numberOfTaskSlots来设置，具体指单个TaskManager可以运行的并行操作员或用户功能实例的数量。如果此值大于1，则单个TaskManager将获取函数或运算符的多个实例。这样，TaskManager可以使用多个CPU内核，但同时，可用内存在不同的操作员或功能实例之间划分。此值通常与TaskManager的计算机具有的物理CPU核心数成比例（例如，等于核心数，或核心数的一半）。当然，如果你修改了配置文件，Flink Server是需要重启的。重启成功后，可以在大盘看到，如下图箭头：

实现Windows环境下Flink消费Kafka热词统计示例过程

一切就绪后，在kafka-console-producer窗口中输入字符串回车，就会在flink job窗口中看到相关的信息了，效果前文一样，如图：

实现Windows环境下Flink消费Kafka热词统计示例过程

文末结语

本文算昨天hello wrod入门程序的升级版，实现了消费kafka中的消息来统计热词的功能。后面生产环境也打算使用kafka来传递从mysql binlog中心解析到的消息，算是一个生产实例的敲门砖吧。

正如前文所说的，落地的过程肯定会有很多问题，像上面的taskmanager.numberOfTaskSlots的设置。

后面会继续将我们落地过程中的问题记录下来，欢迎关注一起交流。

Windows 11 中的「小组件」功能非常有意思，旨在集中汇集重要信息并快速呈现给用户。但有时会让桌面显得杂乱无章，分散注意力。就目前来看，除了查看天气信息还有点作用外，其它插

2024-11-27 21:43:26

一些Windows用户在登录屏幕上输入PIN时遇到问题。计算机不接受PIN，并显示以下错误：什么是0xd0000225错误代码错误代码0xd0000225通常出现在登录屏幕上，阻止用户使用PIN登录。它

2024-11-17 23:46:54

最近AMD新旗舰平台火热，AMDD 8月发布了最新的旗舰级ZEN5处理器：AMD 锐龙9 9950X。这颗性能怪兽拥有16核32线程，最高频率5.7GHz，外加64MB的L3缓存，以及170W TDP。我作为一名数码达

2024-11-13 23:36:29

自从苹果在10月份发布了搭载M4 Pro和M4 Max的MacBook Pro后，M4系列芯片的性能表现就引起了很多关注。但是，了解苹果产品线的朋友都知道，M4系列还有一个隐藏BOSS——M

2024-11-13 22:42:52

科技媒体 Windows Latest 昨日（11 月 11 日）发布博文，报道称谷歌 Chrome 130 浏览器中引入了“链接已复制”、“图像已复制”等提醒，可以通过调整 Flag 禁

2024-11-13 22:42:08

德国媒体ComputeBase最近做了一次有趣的测试，将锐龙7 9800X3D、锐龙7 7800X3D、锐龙7 9700X、锐龙7 7700X四款处理器同时设定在4.8GHz频率，看看架构、3D缓存带来的差异到底有

2024-11-13 22:41:08

在Win7系统中，按下特定的快捷键即可切换输入法使用，但对部分用户而言，此快捷键可能会干扰到日常使用的情况，因此想将其关闭，具体该如何操作呢？下面就一起来看看吧！1、首先，打开Win7

2024-11-09 16:42:53

STOP :0x0000009F(0x00000003, 0x89689118, 0x85D759E0, 0x89A4DA98) 重新启动后恢复正常，但过一段时间又会发生这种现象错误分析：往往与电源有关系，常常发生在与电源相关的操

2024-11-09 16:34:20

相信不少用户都有调整过自己电脑的软件优先级，确保关键应用软件能够优先获取到系统的资源，但也有部分用户不知道具体如何去设置，这篇文章就给大家带来Win7系统设置软件优先级的

2024-11-09 11:51:01

最近有不少使用Win7系统的用户，发现任务栏中的图标突然消失不见了，导致操作起来非常不方便，又不清楚具体如何解决，本文将给大家带来Win7系统解决任务栏图标消失的方法吧！原因分

2024-11-09 11:50:42

win7系统提示exeplorer文件丢失怎么解决？我们有部分用户使用的还是win7，在通过浏览器访问网页的时候，却弹出exeplorer文件丢失的提示，就会造成许多的页面都无法访问，面对这个问题

2024-11-09 11:50:29

最近有Win7系统的用户在使用麦克风说话时发现有回音的情况，不知道如何解决，本文将给大家带来Win7系统消除麦克风回音的操作方法。方法一：取消侦听此设备1、首先，打开Win7系统的

2024-11-09 11:49:57

最近有不少用户想要开启Win7系统中的麦克风权限，但不清楚如何开启，本文将给大家带来Win7系统开启麦克风权限的操作方法吧！1、首先，打开Win7系统的控制面板界面，点击“硬件和

2024-11-09 11:49:38

我们知道在使用打印机的时候许多用户为了方便会将打印机设置网络共享，要使用的时候只要添加网络打印机就可以使用，然而有win7系统的用户却发现添加网络打印机的时候，提示输入用

2024-11-09 11:48:59

我们在使用win7操作系统的时候，将窗口最大化，那么下方的任务栏挡住了最大化的窗口，这样会影响到我们的使用体验，我们只要将任务栏隐藏起来，就可以解决这个问题，今天小编想和大家分

2024-11-09 11:48:26

最近有好多win7用户发现电脑在开机的时候，需要按f1键才能够成功的启动进入系统，而且是每一次开机都需要操作，可能导致这种情况的原因非常多，不过如果不及时处理的话，不仅会使开机

2024-11-09 11:47:41

不知道大家有没有发现，win7系统桌面右下角，在切换输入法时有一个图标，我们输入中文时要先切换到CH然后才能切换到自己要用的中文输入法，比较麻烦。其实EN是属于英文美式键盘，便于

2024-11-09 00:14:21

最近有不少用户在使用Win7系统时发现硬盘读写速度慢的情况，不知道具体如何解决，本文就给大家带来Win7系统硬盘读写速度慢的解决方法吧！具体方法：1、首先，按下“Win+R”

2024-11-09 00:14:05

相信很多用户在使用win7系统时，任务栏图标在来消息时会闪烁提醒，但部分用户不知道的是，闪烁的次数是可以设置的，具体如何操作呢？本文就给大家带来Win7系统任务栏图标闪烁次数的修

2024-11-09 00:13:50

相信很多用户都知道，当远程电脑时，连接数超出后会收到错误消息，但在默认情况下是不会限制远程桌面服务会话的数量，且管理远程桌面允许两个远程桌面服务会话，那如何设置最大连接数

2024-11-09 00:13:35

不少用户反映在使用Windows系统的过程中，遇到电脑键盘的`反应速度十分慢，其实这可能是灵敏度的问题，很多用户都只知道鼠标能够调节，其实键盘也可以，那么遇到这种情况我们要如何调

2024-11-09 00:12:48

在Win7系统中，我们经常会收到各种通知，但是默认的通知图标实在是太单调了。为了让我们的桌面更加个性化，本文将教你如何自定义Win7的通知图标。通过简单的步骤和一些小技巧，你可

2024-11-09 00:12:36

win7系统显示多个网络连接图标怎么解决？有些用户任务栏中出现了多个网络连接图标，这种情况可能是我们显示了很多无效的设备，因此才会有那么多的图标，这个问题应该如何解决呢，下面

2024-11-09 00:12:21

我们win7系统中软件、图片等各种资源的默认下载路径都是在C盘，空间越小电脑的流畅性越低，因此有不少的用户想要知道怎么修改C盘默认路径，针对这个问题，今天系统之家小编就来和大

2024-11-09 00:11:45

win7如何修改复制粘贴快捷键？在Win7家庭版系统中，复制和粘贴是我们日常使用最频繁的操作之一。然而，有时候默认的复制粘贴快捷键可能不太方便，因此我们可以自定义这些快捷键来提

2024-11-09 00:11:10

Win7电脑默认状态下都是支持外接U盘，可以对U盘进行读写操作的。有时候我们的电脑中有非常重要的资料，为了防止数据外泄，我们希望电脑禁止使用U盘，即插上U盘后电脑不会识别，这样就

2024-11-09 00:09:53

最近有不少用户在使用打印机进行打印时，发现打印机状态暂停后就无法正常打印的情况，遇到这种情况具体该如何解决呢？本文就给大家带来Win7系统设置恢复已暂停的打印机状态的解决

2024-11-09 00:09:40

相信很多用户在使用Win11系统时都会看剧或听音乐的情况，但有时候音频会出现不平衡的情况，导致部分用户体验感不太好，因此想调节一下，具体该如何操作呢？本文就给大家带来Win11系统

2024-11-09 00:08:22

最近有不少使用Win7系统的用户在安装软件时，总是默认安装到C盘中，导致增加了C盘内存压力，因此想修改默认安装软件路径，具体该如何操作呢？本文就给大家带来Win7系统修改默认安装软

2024-11-09 00:08:04

Windows 11 自带了一系列精美的桌面主题和壁纸，其中标志性的「Bloom」主题无论在深色还是浅色模式下都非常亮眼，带来了令人耳目一新的感觉。如果让想让你的 Windows 11 界面更

2024-11-09 00:07:11

2020-01-01

2020-08-25

2019-10-10

2019-06-10

2020-05-19

2021-03-16

2021-03-21

2021-08-28

2020-05-09

2019-08-05

实现Windows环境下Flink消费Kafka热词统计示例过程

前言碎语

进入正题

第一步：安装kafka，并验证

1. 启动zk服务

2.启动kafka服务

3.创建test主题

4.查看上一步的主题是否创建成功，成功的话控制台会输出test

5.订阅test主题消息

6.发布消息

第二步：编写消费kafka消息的Flink job

第三步：验证Flink job是否符合预期

文末结语

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道