大数据技术&并行计算
通常来说,常规软件无法完成抓取、处理的数据可称为大数据(Big Data)。例如,互联网上的网页数据,社交网站上的用户交互数据,物联网产生的活动数据、电信网络的话单数据等。物联网提供了输入、行动,大数据提供了知识模型和智能,并行计算提供了工具,它们相辅相成,成就最后的人工智能。
云存储及分布式文件系统
存储技术从磁带发展到磁盘、再从磁盘发展到阵列、从阵列发展到网络存储。随着集群技术、网格技术、分布式存储技术、虚拟化存储技术的发展,进入了云存储的时代。分布式文件系统除了具有本地文件系统的功能外,还管理整个系统中所有计算机上的文件资源,从而把整个分布式文件资源以统一的视图呈现给用户。
大数据技术——数据湖
数据湖(Data Lake)是一个存储各种数据类型数据的大型仓库,实现数据集中式管理。在“数据驱动业务”、“数字化转型”的时代大背景下,数据湖是由业务诉求催生出的平台架构。数据湖更好地利用了HDFS存储,将批处理和流计算作业整合,已成为新一代大数据技术标准,应用前景广阔。
开源时序型数据库 InfluxDB
InfluxDB是开源时序型数据库,由Go写成,被广泛应用于监控系统,如cpu利用率,io,内存等指标;穿戴设备,如心率,体温;IoT实时数据等场景。InfluxDB 提供极强的写能力以及高压缩率,类SQL的查询语句;
大数据高吞吐量的分布式消息队列系统 Kafka
现代互联网分布式系统,离不开几个中间件:远程调用(RPC)框架、消息队列、数据库访问中间件。Kafka是一种高吞吐量的分布式发布订阅的消息队列系统,用Scala语言实现,具有高性能和高吞吐率。主要用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等大数据领域。 官网地址:http://kafk
微信公众号