datahub

DataHub 为数据分析提供了类似github的托管功能,并且让大家在线运行Ipython notebook,共享数据分析代码,从零开始学习数据分析的方法。DataHub 集数据收集管理,数据版本。

kafka

Kafka 由记录(records),主题(topics),使用者(consumers),生产者(producers),代理服务(brokers),日志(logs),分区(partitions)和集群(clusters)组成。

Kafka 主题是一个记录流,每个主题都有对应的日志,该日志是该主题在磁盘上的存储,每个主题日志又分为多个分区和片段。