当前位置：首页 > news >正文

食品网站制作如何在百度免费发布广告

news 2025/7/5 10:13:16

食品网站制作,如何在百度免费发布广告,濮阳县新闻今日头条,微网站开发一般费用多少钱大数据的基本处理流程与传统数据处理流程并无太大差异，主要区别在于：由于大数据要处理大量、非结构化的数据，所以在各处理环节中都可以采用并行处理。目前，Hadoop、MapReduce和Spark等分布式处理方式已经成为大数据处理各环节的通…

大数据的基本处理流程与传统数据处理流程并无太大差异，主要区别在于：由于大数据要处理大量、非结构化的数据，所以在各处理环节中都可以采用并行处理。目前，Hadoop、MapReduce和Spark等分布式处理方式已经成为大数据处理各环节的通用处理方法。

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。Hadoop是一个数据管理系统，作为数据分析的核心，汇集了结构化和非结构化的数据，这些数据分布在传统的企业数据栈的每一层。Hadoop也是一个大规模并行处理框架，拥有超级计算能力，定位于推动企业级应用的执行。Hadoop又是一个开源社区，主要为解决大数据的问题提供工具和软件。虽然Hadoop提供了很多功能，但仍然应该把它归类为多个组件组成的Hadoop生态圈，这些组件包括数据存储、数据集成、数据处理和其他进行数据分析的专门工具。图2展示了Hadoop的生态系统，主要由HDFS、MapReduce、Hbase、Zookeeper、Oozie、Pig、Hive等核心组件构成，另外还包括Sqoop、Flume等框架，用来与其他企业融合。同时，Hadoop生态系统也在不断增长，新增Mahout、Ambari、Whirr、BigTop等内容，以提供更新功能。

低成本、高可靠、高扩展、高有效、高容错等特性让Hadoop成为最流行的大数据分析系统，然而其赖以生存的HDFS和MapReduce组件却让其一度陷入困境——批处理的工作方式让其只适用于离线数据处理，在要求实时性的场景下毫无用武之地。因此，各种基于Hadoop的工具应运而生。为了减少管理成本，提升资源的利用率，有当下众多的资源统一管理调度系统，例如Twitter的ApacheMesos、Apache的YARN、Google的Borg、腾讯搜搜的Torca、FacebookCorona(开源)等。ApacheMesos是Apache孵化器中的一个开源项目，使用ZooKeeper实现容错复制，使用LinuxContainers来隔离任务，支持多种资源计划分配(内存和CPU)。提供高效、跨分布式应用程序和框架的资源隔离和共享，支持Hadoop、MPI、Hypertable、Spark等。YARN又被称为MapReduce2.0，借鉴Mesos，YARN提出了资源隔离解决方案Container，提供Java虚拟机内存的隔离。对比MapReduce1.0，开发人员使用ResourceManager、ApplicationMaster与NodeManager代替了原框架中核心的JobTracker和TaskTracker。在YARN平台上可以运行多个计算框架，如MR、Tez、Storm、Spark等。

基于业务对实时的需求，有支持在线处理的Storm、CloudarImpala、支持迭代计算的Spark及流处理框架S4。Storm是一个分布式的、容错的实时计算系统，由BackType开发，后被Twitter捕获。Storm属于流处理平台，多用于实时计算并更新数据库。Storm也可被用于“连续计算”(ContinuousComputation)，对数据流做连续查询，在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC”，以并行的方式运行昂贵的运算。ClouderaImpala是由Cloudera开发，一个开源的MassivelyParallelProcessing(MPP)查询引擎。与Hive相同的元数据、SQL语法、ODBC驱动程序和用户接口(HueBeeswax)，可以直接在HDFS或HBase上提供快速、交互式SQL查询。Impala是在Dremel的启发下开发的，不再使用缓慢的Hive+MapReduce批处理，而是通过与商用并行关系数据库中类似的分布式查询引擎(由QueryPlanner、QueryCoordinator和QueryExecEngine这3部分组成)，可以直接从HDFS或者HBase中用SELECT、JOIN和统计函数查询数据，从而大大降低了延迟。

Hadoop社区正努力扩展现有的计算模式框架和平台，以便解决现有版本在计算性能、计算模式、系统构架和处理能力上的诸多不足，这正是Hadoop2.0版本“YARN”的努力目标。各种计算模式还可以与内存计算模式混合，实现高实时性的大数据查询和计算分析。混合计算模式之集大成者当属UCBerkeleyAMPLab开发的Spark生态系统，如图3所示。Spark是开源的类HadoopMapReduce的通用的数据分析集群计算框架，用于构建大规模、低延时的数据分析应用，建立于HDFS之上。Spark提供强大的内存计算引擎，几乎涵盖了所有典型的大数据计算模式，包括迭代计算、批处理计算、内存计算、流式计算(SparkStreaming)、数据查询分析计算(Shark)以及图计算(GraphX)。Spark使用Scala作为应用框架，采用基于内存的分布式数据集，优化了迭代式的工作负载以及交互式查询。与Hadoop不同的是，Spark和Scala紧密集成，Scala像管理本地collective对象那样管理分布式数据集。Spark支持分布式数据集上的迭代式任务，实际上可以在Hadoop文件系统上与Hadoop一起运行(通过YARN、Mesos等实现)。另外，基于性能、兼容性、数据类型的研究，还有Shark、Phoenix、ApacheAccumulo、ApacheDrill、ApacheGiraph、ApacheHama、ApacheTez、ApacheAmbari等其他开源解决方案。预计未来相当长一段时间内，主流的Hadoop平台改进后将与各种新的计算模式和系统共存，并相互融合，形成新一代的大数据处理系统和平台。

人工智能、大数据、云计算和物联网的未来发展值得重视，均为前沿产业，多智时代专注于人工智能和大数据的入门和科谱，在此为你推荐几篇优质好文：
Hadoop、Spark和Storm三者技术相对比，有什么关系？
http://www.duozhishidai.com/article-15089-1.html
大数据的特点是什么，大数据与Hadoop有什么关系？
http://www.duozhishidai.com/article-13276-1.html
Hadoop是什么？学习了能够做什么？
http://www.duozhishidai.com/article-9824-1.html

多智时代-人工智能和大数据学习入门网站|人工智能、大数据、物联网、云计算的学习交流网站