MapReduceTopK统计加排序

Hadoop技术内幕中指出Top K算法有两步,一是统计词频,二是找出词频最高的前K个词。在网上找了很多MapReduce的Top K案例,这些案例都只有排序功能,所以自己写了个案例。

这个案例分两个步骤,第一个是就是wordCount案例,二就是排序功能。

IntWritable count = StringTokenizer st = String word = st.nextToken().replaceAll("\"", "").replace("'", "").replace(".", "" context.write( @SuppressWarnings("unused" count ++ context.write(key, @SuppressWarnings("deprecation" Configuration conf = Job job = job.setJarByClass(WordCount. job.setMapperClass(Map. job.setReducerClass(Reduce. job.setMapOutputKeyClass(Text. job.setMapOutputValueClass(IntWritable. job.setOutputKeyClass(Text. job.setOutputValueClass(IntWritable. FileInputFormat.addInputPath(job, FileOutputFormat.setOutputPath(job, }

IntWritable outKey = Text outValue = StringTokenizer st = String element = } Reducer<IntWritable, Text, Text, IntWritable> Context context) tm.put( String path = context.getConfiguration().get("topKout" mos = Set<Entry<MyInt, String>> set = mos.write("topKMOS", @SuppressWarnings("deprecation" Path outPath = Configuration conf = conf.set("topKout" Job job = job.setJarByClass(Sort. job.setMapperClass(Map. job.setReducerClass(Reduce. job.setMapOutputKeyClass(IntWritable. job.setMapOutputValueClass(Text. job.setOutputKeyClass(Text. job.setOutputValueClass(IntWritable. MultipleOutputs.addNamedOutput(job,"topKMOS",TextOutputFormat. FileInputFormat.addInputPath(job, job.waitForCompletion( }

}

String in = "hdfs://localhost:9000/input/MaDing.text" String wordCout = "hdfs://localhost:9000/out/wordCout" String sort = "hdfs://localhost:9000/out/sort" String topK = "hdfs://localhost:9000/out/topK" }

更多相关文章
一周排行
  • DB2 SQL查询结果集自动编号.返回条数范围控制研究摘要:DB2 SQL语句实现查询的记录自动编号.并根据编号进一步实现记录范围控制.分页查询. 环境:IBM DB2 Universal V9.1Windows X ...
  • 网上音乐页面
       HTML的基本应用--框架的使用(frame).这个页面主要是为了展示frame的应 ...
  •       在本系列文章的第一,二部分(我谈网络扫描 -- 之一,之二),我们站在安全从业者的角度,讨论了网络扫描基础,各种端口和漏洞扫描技术及使用经验.接下来,我们讨论如何应对恶意网络扫描. 五. 如何应对网络扫描 ...
  • 本篇所使用的setfacl版本: [[email protected] acltest]# setfacl --versionsetfacl 2.2.49查看文件系统是否支持acl权限控制:[[email protected] ...
  •     我们都知道,预测分析一直是“象牙塔里”统计学家和数据科学家的“特权”,他们远离日常业务决策者.大数据将改变这种状况. 随着越来越多的数据流被放到网上,并整合到现有的BI.CRM.ERP和其他关键业务系统,预测 ...
  • 突然发现 80 端口被莫名占用,咋一看还是 System 这个进程又无法结束这货,于是开始慢慢查看到底是什么东西占用了首先,打开 cmd 跑这一句,80 端口被System 占用,肯定是 HTTP 服务搞的鬼
  • 最近陆陆续续面试了几个同学,有社招的,也有实习生,整体来看,面试结果不是特别的理想,至少没有达到自己的预期.这里简单分享下社招的一些感受,至于校招的,后面有机会再分享下. 投实习生简历的,大部分是大三的同学,考虑到这 ...
  • 概述     IT运维软件随着IT系统的实施逐渐成为企业必备的信息化工具,解决好IT运维,实施高效网络管理,将显着提升企业IT系统运行效率,将转变IT服务部门的职能作用,从成本中心向价值中心转换,那如何选择一款好的运 ...
  • jQuery-1.9.1源码分析系列四缓存系统
    先前在分析Sizzle的时候分析到Sizzle有自己的缓存机制,点击这里查看.不过Sizz ...
  • SharePoint服务器端对象模型之使用CAML进行数据查询Part2
    (三)使用SPQuery进行列表查询 1.概述 列表查询主要是指在一个指定的列表(或文档库 ...
Tags