发布网友 发布时间:2022-04-19 20:24
共1个回答
热心网友 时间:2023-08-06 14:31
建议先学 hadoop , 弄明白hadoop是干什么的。
说到底整个架构就是 N 台电脑组成群集,在上面安装 hadoop,hadoop 其实就是一个分布式的文件系统,数据就分布在这N台电脑中。 一旦需要进行庞大的数据查询或者运算,那么这 N 台电脑就可以同时工作, 效率可以大大提升,不再是以前那种一台服务器单打独斗了。
但是 N 台电脑要共同协作,就不能使用以前传统的算法了,需要 使用一种叫 MapRece
的编程架构。说白了就是 先给各台电脑分配任务,然后各自运算,最后把各自的结果组合起
来。
如果直接 使用 MapRece ,编程是有点复杂的。 所以后来推出了 SPARK 来简化编程,再
后来 SPARK 也添加了许多新功能,如支持SQL之类的, 但是核心都是基于MapRece的。
所以要学好 SPARK ,还是建议你先弄好 HADOOP吧。
另外,如果使用 Mongodb, 这个是不用基于HADOOP运行的,可以使用SPARK访问,你
也可以先搭建起环境体验一下。