SQL查询——7种JOIN方法1张图
SQL 是用于访问和处理数据库的标准的计算机语言。表关联查询会经常用到,以下是 7 种关联查询区分
大数据分布式数据库HBase
HBase是高可靠列式存储的分布式数据库,是Hadoop子项目,可用HDFS(Hadoop分布式文件系统)存储数据。支持海量数据存储和高并发访问,比如日志分析、在线广告和实时分析等。HBase具有自动分片和负载均衡的特性,应用了Bigtable的稀疏面向列的高效数据组织形式,数据模型类似于关系型数据
大数据分布式处理框架Hadoop
Hadoop是开源的分布式计算框架,用于处理大规模数据和实现分布式存储。Hadoop具有可扩展性、容错性和成本效益等特点,它在处理大规模数据和分析复杂问题方面具有广泛的适用性。Hadoop 核心组件:HDFS(Hadoop Distributed File System 分布式文件系统) MapRe
主数据管理MDM
企业数据范畴通常包括交易数据、主数据、元数据。主数据是核心业务实体数据,如客户、合作伙伴、员工、产品、物料单、账户等。具有高业务价值、可跨各业务部门重复使用的数据。 **主数据管理(MDM, Master Data Management)**是一系列规则、应用和技术,用以协调和管理企业的核心业务实体
什么是元数据
元数据是描述数据的数据,关于数据的组织、数据域及其关系,本质上是关于数据的信息。元数据以数字化方式描述企业的数据、流程和应用程序,为企业数字资产的内容提供了上下文,使得数据更容易理解、查找、管理和使用
大数据技术&并行计算
通常来说,常规软件无法完成抓取、处理的数据可称为大数据(Big Data)。例如,互联网上的网页数据,社交网站上的用户交互数据,物联网产生的活动数据、电信网络的话单数据等。物联网提供了输入、行动,大数据提供了知识模型和智能,并行计算提供了工具,它们相辅相成,成就最后的人工智能。
云存储及分布式文件系统
存储技术从磁带发展到磁盘、再从磁盘发展到阵列、从阵列发展到网络存储。随着集群技术、网格技术、分布式存储技术、虚拟化存储技术的发展,进入了云存储的时代。分布式文件系统除了具有本地文件系统的功能外,还管理整个系统中所有计算机上的文件资源,从而把整个分布式文件资源以统一的视图呈现给用户。
大数据技术——数据湖
数据湖(Data Lake)是一个存储各种数据类型数据的大型仓库,实现数据集中式管理。在“数据驱动业务”、“数字化转型”的时代大背景下,数据湖是由业务诉求催生出的平台架构。数据湖更好地利用了HDFS存储,将批处理和流计算作业整合,已成为新一代大数据技术标准,应用前景广阔。
开源时序型数据库 InfluxDB
InfluxDB是开源时序型数据库,由Go写成,被广泛应用于监控系统,如cpu利用率,io,内存等指标;穿戴设备,如心率,体温;IoT实时数据等场景。InfluxDB 提供极强的写能力以及高压缩率,类SQL的查询语句;
大数据高吞吐量的分布式消息队列系统 Kafka
现代互联网分布式系统,离不开几个中间件:远程调用(RPC)框架、消息队列、数据库访问中间件。Kafka是一种高吞吐量的分布式发布订阅的消息队列系统,用Scala语言实现,具有高性能和高吞吐率。主要用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等大数据领域。 官网地址:http://kafk
微信公众号