大数据技术分享

Apache InLong 源码分析-- Mananger 实时同步任务构建流程

InLong 实时同步 manager 创建作业流程解析

Pulsar 负载均衡详解

Pulsar broker负载均衡原理和实现[toc]Pulsar 的负载均衡策略的目的是为了将负载均匀的分配在集群不同的 broker 上。1. Broker 分类从负载均衡的角度看,broker 可以分为两类leader broker:负载汇总、更新负载信息其他 broker:计算自己的负载信息

Apache Pulsar 的几种消息重推方式

在 MQ 实际的使用中,消费数据时,可能会遇到消息处理异常或者需要推迟处理的场景,这里就涉及到消息的重推逻辑。Pulsar 自己提供了一些消息重推的能力。本文主要介绍 pulsar 的消息重推机制。消息获取(拉取/推送)机制Pulsar 的消费采用了推、拉结合的消息获取机制,Consumer 获取消

GEO replication 中订阅状态的同步原理

Apache Pulsar 是一个多租户、高性能的服务间消息传输解决方案,支持多租户、低延时、读写分离、跨地域复制(GEO replication)、快速扩容、灵活容错等特性,GEO replication 可以原生支持数据和订阅状态在多个集群之间进行复制,本文主要讲述 GEO 中的订阅状态的同步。

Pulsar 事务详解

[toc]1. Pulsar 事务介绍在 pulsar 中可以通过 produce 异常重试、consume 异常不 ack 的方式保证数据的不丢失,即 atleast-once 语义;Pulsar 提供了一个幂等(idempotent)producer 的特性,可以从 broker 侧对数据进行去

Pulsar Schema 源码分析

Pulsar Schema

Pulsar chunk message简介

Chunk message简介

Pulsar Proxy 原理解析

Pulsar Proxy 可以看做是 pulsar broker的代理,producer 和 consumer 可以不直接与 Broker 直接链接,而是通过 proxy 和 broker进行连接。

Apache InLong-TubeMQ 数据存储

[toc]Topic / 分区TubeMQ的磁盘存储方案类似Kafka,在 TubeMQ 中,一个 topic 可以包含一个或者多个分区。分区分配在 Broker 节点上。TubeMQ 的存储和 Kfaka 也是存在区别的,在 Kafka 中,一个分区对应一个可写的文件,当分区较多时,会产生较多的随

Pulsar 数据一致性

Pulsar的数据一致性保证