文档章节

kafka (搜索) 在idea api操作(官方apihttp://kafka.apache.org/documentation/#producerapi)

o
 osc_y8yehimr
发布于 2019/03/20 15:17
字数 2332
阅读 15
收藏 0

精选30+云产品,助力企业轻松上云!>>>

 https://blog.csdn.net/isea533/article/details/73822881 
 
 
 
这个不推荐,可以看一下(https://www.cnblogs.com/biehongli/p/8335538.html)

Kafka API 简单用法

本篇会用到以下依赖:(本人包和这个不同,去maven里查找)

<dependency>
<groupId>org.apache.kafka</groupId>
<artifactId>kafka-clients</artifactId>
<version>0.10.2.0</version>
</dependency>

<dependency>
<groupId>org.apache.kafka</groupId>
<artifactId>kafka-streams</artifactId>
<version>0.10.2.0</version>
</dependency>

生产者API
参考官方文档中 KafkaProducer 的介绍。

Kafka客户端用于向 Kafka 集群发布记录。生产者是线程安全的,跨线程共享一个生产者实例通常比拥有多个实例要快。这是一个简单的例子,使用生产者发送包含序列号的字符串作为键/值对的记录,代码如下。

package com.github.abel533.kafka.api;

import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.Producer;
import org.apache.kafka.clients.producer.ProducerRecord;

import java.util.Properties;

public class ProducerApi {

  public static void main(String[] args) {
    Properties props = new Properties();
    props.put("bootstrap.servers", "192.168.16.150:9092");
    props.put("acks", "all");
    props.put("retries", 0);
    props.put("batch.size", 16384);
    props.put("linger.ms", 1);
    props.put("buffer.memory", 33554432);
    props.put("key.serializer",
    "org.apache.kafka.common.serialization.StringSerializer");
    props.put("value.serializer",
    "org.apache.kafka.common.serialization.StringSerializer");

    Producer<String, String> producer = new KafkaProducer<>(props);
    for (int i = 0; i < 100; i++) {
      producer.send(new ProducerRecord<String, String>(
      "t1", Integer.toString(i), Integer.toString(i)));
    }
    producer.close();
  }
}

生产者包括一个缓冲区池,它保存尚未发送到服务器的记录,以及一个后台I/O线程,负责将这些记录转换为请求并将其传输到集群。使用后未能关闭生产者将泄漏这些资源。

send()方法是异步的。当被调用时,它将记录添加到待处理记录发送的缓冲区并立即返回。这允许生产者将各个记录收集在一起以获得效率。

acks配置其请求被视为完整性的标准。"all"意味着领导者将等待完整的同步副本来确认记录。只要至少有一个同步复制品仍然存在,这将保证记录不会丢失。这是最强大的保证。这相当于设置acks = -1。

如果请求失败,生产者可以自动重试,但是由于我们指定retries0,所以不会重试。启用重试还会产生重复的可能性(有关详细信息,请参阅有关消息传递语义的文档 )。

生产者维护每个分区的未发送出去的缓冲区。这些缓冲区的大小由batch.size指定。使此更大可以缓存更多,但需要更多的内存(因为我们通常会为每个活动分区提供缓冲区)。

默认情况下,即使缓冲区中存在额外的未使用空间,缓冲区也可立即发送。但是,如果要减少请求数可以设置linger.ms为大于0 的毫秒数。这将指示生产者在发送请求之前等待该毫秒数,这样将有更多记录到达缓冲区。这类似于Nagle在TCP中的算法。例如,在上面的代码片段中,可能所有100条记录都将在单个请求中发送,因为我们将延迟时间设置为1毫秒。但是,如果我们没有填满缓冲区,则此设置会为我们的请求增加1毫秒的延迟,以便等待更多记录到达。在重负荷下 ,即使linger.ms=0,在时间上紧接在一起的记录也将一起批量处理。将其设置为大于0的值可能会让请求更少和更高效,而不是在最大负载下以少量延迟为代价。

buffer.memory控制生产者可用于缓冲的总内存量。如果记录的发送速度比可以传输到服务器的速度快,那么这个缓冲空间就会耗尽。当缓冲区空间耗尽时,附加的发送呼叫将被阻塞。max.block.ms决定阻塞时间的阈值,超出此时间时,会引发TimeoutException。

key.serializervalue.serializer指导如何将用户提供的ProducerRecord的键和值转换成字节。您可以使用提供的ByteArraySerializer或 StringSerializer用于简单的字符串或字节类型。

该客户端可以与0.10.0版本或更高版本的broker进行通信。旧的或较新的broker可能不支持某些功能。当调用运行的broker程序版本不可用的API时,会产生UnsupportedVersionException异常。

有关生产者更多的配置属性可以参考Producer Configs。

消费者API
参考官方文档中的 KafkaConsumer 介绍。

从Kafka集群中消费记录的客户端。

这个客户端透明地处理卡夫卡经纪人的失败,并透明地适应作为在集群中迁移的主题分区。该客户端还与代理商进行交互,以允许消费群体使用消费者群体来负载平衡消费。

消费者保持TCP连接到必要的经纪人以获取数据。使用后未能关闭消费者将泄漏这些连接。消费者不是线程安全的。有关详细信息,请参阅多线程处理。

自动提交偏移
下面这个例子使用了自动提交,设定了每1000ms提交一次偏移(就是当前已读取消息的位置)。

package com.github.abel533.kafka.api;

import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;

import java.util.Arrays;
import java.util.Properties;

public class ConsumerAOC {
  public static void main(String[] args) {
    final Properties props = new Properties();
    props.put("bootstrap.servers", "192.168.16.150:9092");
    props.put("group.id", "test");
    props.put("enable.auto.commit", "true");
    props.put("auto.commit.interval.ms", "1000");
    props.put("key.deserializer",
    "org.apache.kafka.common.serialization.StringDeserializer");
    props.put("value.deserializer",
    "org.apache.kafka.common.serialization.StringDeserializer");

    KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
    consumer.subscribe(Arrays.asList("t1"));
    while (true) {
      ConsumerRecords<String, String> records = consumer.poll(1000);
      for (ConsumerRecord<String, String> record : records)
        System.out.printf("offset = %d, key = %s, value = %s%n",
          record.offset(), record.key(), record.value());
    }

  }
}


首先通过bootstrap.servers设置要连接的Broker,多个可以使用逗号隔开。通过group.id设置了当前的分组id,同一个分组id中的多个消费者可以通过负载均衡处理消息(消费者数量多于主题的分区数时,多出来的消费者不会被分配任何消息)。

通过设置enable.auto.commit为true开启自动提交,自动提交的频率由 auto.commit.interval.ms 设置。

后面两个 deserializer 用于序列化 key 和 value。

通过 consumer.subscribe 定义了主题 t1,一个消费者可以订阅多个主题。通过consumer.poll获取消息,参数1000(毫秒)的含义是,当缓冲区中没有可用消息时,以此时间进行轮训等待。当设置为0时,理解返回当前可用的消息或者返回空。

手动提交偏移
消费者不是必须自动提交偏移。用户也可以手动控制提交偏移来决定消息是否已被消费。当消息需要经过一些特殊逻辑进行处理时,手动提交就非常有必要,没有经过处理的消息不应该当成已消费。

package com.github.abel533.kafka.api;

import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;

import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;
import java.util.Properties;

public class ConsumerManual {

  public static void main(String[] args) {
    Properties props = new Properties();
    props.put("bootstrap.servers", "192.168.16.150:9092");
    props.put("group.id", "test");
    props.put("enable.auto.commit", "false");
    props.put("key.deserializer",
    "org.apache.kafka.common.serialization.StringDeserializer");
    props.put("value.deserializer",
    "org.apache.kafka.common.serialization.StringDeserializer");
    KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
    consumer.subscribe(Arrays.asList("t1", "t2"));
    final int minBatchSize = 200;
    List<ConsumerRecord<String, String>> buffer = new ArrayList<>();
    while (true) {
      ConsumerRecords<String, String> records = consumer.poll(100);
      for (ConsumerRecord<String, String> record : records) {
        buffer.add(record);
      }
      if (buffer.size() >= minBatchSize) {
        //逻辑处理,例如保存到数据库
        consumer.commitSync();
        buffer.clear();
      }
    }
  }
}

在这个例子中,我们将enable.auto.commit设置为false,这是因为这个值默认情况下是true,只有手动设置为false后才能进行手动提交。

每当buffer的大小超过设置的批量大小后就会通过consumer.commitSync()进行提交。

在某些情况下,您可能希望通过明确指定偏移量来更精确地控制已经提交的记录。在下面的例子中,我们在完成处理每个分区中的记录之后提交偏移量。

package com.github.abel533.kafka.api;

import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.kafka.clients.consumer.OffsetAndMetadata;
import org.apache.kafka.common.TopicPartition;

import java.util.*;

public class ConsumerManualPartition {

  public static void main(String[] args) {
    Properties props = new Properties();
    props.put("bootstrap.servers", "192.168.16.150:9092");
    props.put("group.id", "test2");
    props.put("enable.auto.commit", "false");
    props.put("key.deserializer",
    "org.apache.kafka.common.serialization.StringDeserializer");
    props.put("value.deserializer",
    "org.apache.kafka.common.serialization.StringDeserializer");
    KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
    consumer.subscribe(Arrays.asList("t1"));

    try {
      while(true) {
        ConsumerRecords<String, String> records = consumer.poll(Long.MAX_VALUE);
        for (TopicPartition partition : records.partitions()) {
          List<ConsumerRecord<String, String>> partitionRecords =
          records.records(partition);
          for (ConsumerRecord<String, String> record : partitionRecords) {
            System.out.println(partition.partition() + ": "
            + record.offset() + ": "
            + record.value());
          }
          long lastOffset = partitionRecords.get(
          partitionRecords.size() - 1).offset();
          consumer.commitSync(
          Collections.singletonMap(partition,
          new OffsetAndMetadata(lastOffset + 1)));
        }
      }
    } finally {
      consumer.close();
    }
  }
}

因为每个主题可能存在多个分区,每个分区都维护了一个索引,因此上面针对不同的分区进行处理。

消费者API中还存在很多有用的方法,可以通过查看官方的API文档了解更多。

流API
参考官方文档中 KafkaStreams 的介绍。

流API允许对来自一个或多个主题的消息进行连续计算,并将结果发送到零个,一个或多个主题中。

可以从Kafka获取某个主题的消息,经过处理后输出到另一个主题。相当于是对主题做了一个加工。下面是一个示例,这个示例从t1主题获取消息,然后计算数字的平方后发送消息到t2主题中。

package com.github.abel533.kafka.api;

import org.apache.kafka.common.serialization.Serdes;
import org.apache.kafka.streams.KafkaStreams;
import org.apache.kafka.streams.StreamsConfig;
import org.apache.kafka.streams.kstream.KStreamBuilder;

import java.util.HashMap;
import java.util.Map;

public class StreamApi {
  public static void main(String[] args) {
    Map<String, Object> props = new HashMap<>();
    props.put(StreamsConfig.APPLICATION_ID_CONFIG, "my-stream-processing-application");
    props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.16.150:9092");
    props.put(StreamsConfig.KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass());
    props.put(StreamsConfig.VALUE_SERDE_CLASS_CONFIG, Serdes.String().getClass());
    StreamsConfig config = new StreamsConfig(props);

    KStreamBuilder builder = new KStreamBuilder();
    builder.stream("t1").mapValues(value -> {
      Integer i = Integer.parseInt((String)value);
      return String.valueOf(i * i);
    }).to("t2");

    KafkaStreams streams = new KafkaStreams(builder, config);
    streams.start();
  }
}

在例子中StreamsConfig.APPLICATION_ID_CONFIG用于设置当前流处理的ID,具有相同流ID的应用会根据输入主题的分区来分配任务。当流处理应用的数量大于主题的分区数时,超出部分的流处理不会被分配任何消息。

o
粉丝 0
博文 500
码字总数 0
作品 0
私信 提问
加载中
请先登录后再评论。
Kafka深入浅出(二)

Kafka是一个分布式的流处理平台 Kafka提供封装好的客户端以方便开发者连接服务器,目前常用的客户端有两种: 上面的一种为官方目前推荐的(但貌似很多生产环境是用下边一种的),具体的历史原...

Coderjiang
2016/10/26
442
1
Spark-stream,kafka结合

先列参考文献: Spark Streaming + Kafka Integration Guide (Kafka broker version 0.10.0 or higher):http://spark.apache.org/docs/2.2.0/streaming-kafka-0-10-integration.html kafka(......

osc_o1mwzw8v
04/16
3
0
Kafka 源码分析1 : 基础搭建和项目结构介绍

原文出处:刘正阳 背景 从kafka也算有两年了,用它做了不少项目,但是之前对它的认识也仅仅停留在一些从其他地方听到的概念和官方文档的documentation上在遇到一些问题时往往不知道其原理只能...

刘正阳
2018/05/16
0
0
Linux Kafka源码环境搭建

本文主要讲述的是如何搭建Kafka的源码环境,主要针对的Linux操作系统下IntelliJ IDEA编译器,其余操作系统或者IDE可以类推。 1.安装和配置JDK 确认JDK版本至少为1.7,最好是1.8及以上。使用j...

osc_pb5yyzq7
2019/02/10
4
0
kafka

kafka 架构组建 安装kafka 官网:http://kafka.apache.org/downloads.html tar -zxvf 进入到config目录下修改server.properties broker.id listeners= zookeeper.connect 启动 sh kafka-ser......

osc_mgiclpzt
2019/06/05
1
0

没有更多内容

加载失败,请刷新页面

加载更多

macz技巧分享—macOS高端使用技巧

Macos 的占有量不如 Windows,两者之间当操作方式也有很大的不同,当很多人熱悉 Windows 的操作之后,再接触 macos,觉得难上手,其实是习惯问题。如果你学习一些技巧,会觉得 macos 其实也不...

mac小叮当
46分钟前
11
0
手把手教你如何用黑白显示器显示彩色!

来源:大数据文摘 本文约1000字,建议阅读6分钟。 本文为你介绍如何通过黑白显示器上也能显示出彩色。 原来在黑白显示器上也能显示出彩色啊!通过在监视器上覆盖拜耳滤色镜,并拼接彩色图像,...

osc_jklrr90y
47分钟前
18
0
key-value结构排序:给定一个字符串,统计每个字符出现频率,先按value降序,再按key升序

对于key-value结构的排序 第一种:lambda表达式 第二种:函数 第三种:类对()的重载,仿函数形式 #include <iostream>#include <vector>#include <unordered_map>#include <string>#in......

osc_gwtkg2dc
47分钟前
0
0
BlockChain:2020年7月10日世界人工智能大会WAIC《链智未来 赋能产业区块链主题论坛——2020全球区块链创新50强》

BlockChain:2020年7月10日世界人工智能大会WAIC《链智未来 赋能产业区块链主题论坛——2020全球区块链创新50强》 目录 世界人工智能大会WAIC《链智未来 赋能产业区块链主题论坛——2020全球...

osc_vew1u0h0
49分钟前
0
0
BlockChain:2020年7月10日世界人工智能大会WAIC《链智未来 赋能产业区块链主题论坛》(三)

BlockChain:2020年7月10日世界人工智能大会WAIC《链智未来 赋能产业区块链主题论坛》(三) 目录 2020年7月10日世界人工智能大会WAIC《链智未来 赋能产业区块链主题论坛》 演讲嘉宾 演讲内容 ...

osc_8o71811p
50分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部