博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
cat 生成文件 运行脚本
阅读量:5222 次
发布时间:2019-06-14

本文共 543 字,大约阅读时间需要 1 分钟。

nohup python -u day_std_cid_list_data_done.py >eee1.log 2>&1 & 后台运行python脚本

hadoop fs -cat hdfs://ab/day_std/000000_0 | head -100 >> test_tpy11.txt  #从集群的文件000000_0中取100条,生成文件test_tpy11.txt 放在当前的路径下

cat  test_tpy11.txt | python hp_day_std.py    #用hp_day_std.py 脚本测试数据test_tpy11.txt。 

其中python hp_day_std.py 是处理流式数据的脚本内容,即如下形式:

 for line in sys.stdin:

      .....

 

在数据挖掘中我们经常会增量更新训练日志,需要删除前n行的过期数据,直接用sed命令比较慢,谷歌了一下,发现有个奇技淫巧:

tail -n +3 old_file > new_file 

mv new_file old_file 
这样就删除了前2行,速度要比sed命令快

转载于:https://www.cnblogs.com/zhangbojiangfeng/p/6419613.html

你可能感兴趣的文章
实用的VMware虚拟机使用技巧十一例
查看>>
监控工具之---Prometheus 安装详解(三)
查看>>
不错的MVC文章
查看>>
网络管理相关函数
查看>>
IOS Google语音识别更新啦!!!
查看>>
20190422 T-SQL 触发器
查看>>
[置顶] Linux终端中使用上一命令减少键盘输入
查看>>
poj1422_有向图最小路径覆盖数
查看>>
BootScrap
查看>>
[大牛翻译系列]Hadoop(16)MapReduce 性能调优:优化数据序列化
查看>>
WEB_点击一百万次
查看>>
CodeForces - 878A Short Program(位运算)
查看>>
路冉的JavaScript学习笔记-2015年1月23日
查看>>
Mysql出现(10061)错误提示的暴力解决办法
查看>>
2018-2019-2 网络对抗技术 20165202 Exp3 免杀原理与实践
查看>>
NPM慢怎么办 - nrm切换资源镜像
查看>>
CoreData 从入门到精通(四)并发操作
查看>>
Swift - UIView的常用属性和常用方法总结
查看>>
Swift - 异步加载各网站的favicon图标,并在单元格中显示
查看>>
Java编程思想总结笔记Chapter 5
查看>>