MapReduceTopK统计加排序

Hadoop技术内幕中指出Top K算法有两步,一是统计词频,二是找出词频最高的前K个词。在网上找了很多MapReduce的Top K案例,这些案例都只有排序功能,所以自己写了个案例。

这个案例分两个步骤,第一个是就是wordCount案例,二就是排序功能。

IntWritable count = StringTokenizer st = String word = st.nextToken().replaceAll("\"", "").replace("'", "").replace(".", "" context.write( @SuppressWarnings("unused" count ++ context.write(key, @SuppressWarnings("deprecation" Configuration conf = Job job = job.setJarByClass(WordCount. job.setMapperClass(Map. job.setReducerClass(Reduce. job.setMapOutputKeyClass(Text. job.setMapOutputValueClass(IntWritable. job.setOutputKeyClass(Text. job.setOutputValueClass(IntWritable. FileInputFormat.addInputPath(job, FileOutputFormat.setOutputPath(job, }

IntWritable outKey = Text outValue = StringTokenizer st = String element = } Reducer<IntWritable, Text, Text, IntWritable> Context context) tm.put( String path = context.getConfiguration().get("topKout" mos = Set<Entry<MyInt, String>> set = mos.write("topKMOS", @SuppressWarnings("deprecation" Path outPath = Configuration conf = conf.set("topKout" Job job = job.setJarByClass(Sort. job.setMapperClass(Map. job.setReducerClass(Reduce. job.setMapOutputKeyClass(IntWritable. job.setMapOutputValueClass(Text. job.setOutputKeyClass(Text. job.setOutputValueClass(IntWritable. MultipleOutputs.addNamedOutput(job,"topKMOS",TextOutputFormat. FileInputFormat.addInputPath(job, job.waitForCompletion( }

}

String in = "hdfs://localhost:9000/input/MaDing.text" String wordCout = "hdfs://localhost:9000/out/wordCout" String sort = "hdfs://localhost:9000/out/sort" String topK = "hdfs://localhost:9000/out/topK" }

更多相关文章
一周排行
  •     博客开了好久了,这一段时间太懒惰,因此也没有写什么笔记,作为第一篇文章还是写写自己的感受吧.第一次写博文,如果有什么不对的地方,还请指正.     作为一名应届毕业生,带着懵懂来到了一个完全陌生的城市——北京 ...
  • 卡卡笔记之Linux Service 服务管理 独立服务程序Xinetd服务程序负责管理系统中不频繁使用的服务,这些进程在有请求时才由xinetd服备负责启动运行,一旦完成服务请求服务程序就结束运行,这种机制的设计目 ...
  • cacti实现down机报警并短信通知
    cacti 有个更直观的插件来监控服务器,并报警一,下载一系列cacti-plugin-0 ...
  •    键盘类 键盘在使用过程中,故障的表现形式是多种多样的,原因也是多方面的.有接触不良故障,有按键本身的机械故障,还有逻辑电路故障.虚焊.假焊.脱焊和金属孔氧化等故障.维修时要根据不同的故障现象进行分析判断,找出产 ...
  • 1. 备份的类型 按照备份方式的不同,可以把备份分为两类: 1.1 逻辑备份:指通过逻辑导出对数据进行备份.将数据库中的用户对象导出到一个二进制文件中,逻辑备份使用导入导出工具:EXPDP/IMPDP或EXP/IMP ...
  • XP 专业版装完后,需要安装驱动..从联想中文官网下载完所有驱动后,无线网卡跟显卡驱动都没有装上.其中有的安装完驱动后提示需要安装.NET FRAMEWORK 3.0 安装.framework 3.0无线通过设备管理 ...
  • Exadata上oracle binary的make日志 如下: Shutdown all running database instances As root user, unlock the GI home # ...
  • 使用ContentProvider共享数据 详细: http://justsee.iteye.com/blog/936612
  • <!DOCTYPE html> <html lang="en"> <head> <meta charset="utf-8"> & ...
  • 项目分享六:图片的延迟加载
    一.关于延迟加载 图片的延迟加载,是 APP 里常用的一种技术,图片首先会生成一张预览图, ...
Tags