由:zhaoshuobupt
问您一个Mapreduce的弱弱的问题,求一组多维、1000个数据的两两的欧氏距离之和,在MapReduce的分布式环境下怎么做? 在单机下,数据量不是很多的话,很容易就编出来了,可是一到分布式,就头大了 PS:我还是学生,请大牛耐心帮忙~~ 哈~Thanks!
View Article由:Dong
正是由于你是一个学生,才应该学会自己解决问题。 我给你的建议是,先了解mapreduce模型,在看几个mapreduce解决案例,然后再尝试解决自己的这个问题。
View Article由:zhaoshuobupt
您好,上次的问题我已经想到解决方法了,跟您说一下,请您看一下 批评指正。您如果有更好的方法,也请您告诉我。我们把这组多维、1000个数据取名为txt.txt文件, 把它存成sequencefile并存储到集群的HDFS上。任务开始执行,txt.txt文件作为input,map 每读入一组数据,就和sequencefile里所有的数据算一次距离。 最后,reduce 整理、输出结果。
View Article由:zhaoshuobupt
恩~ 我想到了这个缺陷,就有了个问题,如果用HBase代替sequencefile呢?如果在Mapreduce中多次读写HBase,会不会影响并行性能?
View Article
More Pages to Explore .....