REFINEMENT

Until line 335
This commit is contained in:
Chujie Zeng 2017-02-02 14:33:19 +08:00
parent 83c8a140bc
commit e8f4e9e240

View file

@ -205,44 +205,46 @@
## 文件及数据处理
- 在当前路径下通过文件名定位一个文件,`find . -iname '*something*'`(或类似的)。在所有路径下通过文件名查找文件,使用 `locate something` (但请记住 `updatedb` 可能没有对最近新建的文件建立索引)。
- 在当前目录下通过文件名查找一个文件,使用类似于这样的命令:`find . -iname '*something*'`。在所有路径下通过文件名查找文件,使用 `locate something` (但注意到 `updatedb` 可能没有对最近新建的文件建立索引,所以你可能无法定位到这些未被索引的文件)。
- 使用 [`ag`](https://github.com/ggreer/the_silver_searcher) 在源代码或数据文件里检索(`grep -r` 更好)。
- 使用 [`ag`](https://github.com/ggreer/the_silver_searcher) 在源代码或数据文件里检索(`grep -r` 同样可以做到,但相比之下 `ag` 更加先进)。
- 将 HTML 转为文本:`lynx -dump -stdin`
- 将 HTML 转为文本:`lynx -dump -stdin`
- MarkdownHTML以及所有文档格式之间的转换试试 [`pandoc`](http://pandoc.org/)。
- 如果你不得不处理 XML`xmlstarlet` 宝刀未老
- 当你要处理棘手的 XML 时候,`xmlstarlet` 算是上古时代流传下来的神器
- 使用 [`jq`](http://stedolan.github.io/jq/) 处理 JSON。
- 使用 [`shyaml`](https://github.com/0k/shyaml) 处理 YAML。
- Excel 或 CSV 文件的处理[csvkit](https://github.com/onyxfish/csvkit) 提供了 `in2csv``csvcut``csvjoin``csvgrep` 等工具。
- 要处理 Excel 或 CSV 文件的话[csvkit](https://github.com/onyxfish/csvkit) 提供了 `in2csv``csvcut``csvjoin``csvgrep` 等方便易用的工具。
- 关于 Amazon S3[`s3cmd`](https://github.com/s3tools/s3cmd) 很方便而 [`s4cmd`](https://github.com/bloomreach/s4cmd) 更快。Amazon 官方的 [`aws`](https://github.com/aws/aws-cli) 以及 [`saws`](https://github.com/donnemartin/saws) 是其他 AWS 相关工作的基础。
- 当你要处理 Amazon S3 相关的工作的时候,[`s3cmd`](https://github.com/s3tools/s3cmd) 是一个很方便的工具而 [`s4cmd`](https://github.com/bloomreach/s4cmd) 的效率更高。Amazon 官方提供的 [`aws`](https://github.com/aws/aws-cli) 以及 [`saws`](https://github.com/donnemartin/saws) 是其他 AWS 相关工作的基础,值得学习
- 了解如何使用 `sort``uniq`,包括 uniq 的 `-u` 参数和 `-d` 参数,详见后文单行脚本节。另外可以了解一下 `comm`
- 了解如何使用 `sort``uniq`,包括 uniq 的 `-u` 参数和 `-d` 参数,具体内容在后文单行脚本节中。另外可以了解一下 `comm`
- 了解如何使用 `cut``paste` 和 `join` 来更改文件。很多人都会使用 `cut`,但几乎都不会使用 `join`
- 了解如何使用 `cut``paste` 和 `join` 来更改文件。很多人都会使用 `cut`,但遗忘了 `join`
- 了解如何运用 `wc` 去计算新行数(`-l`),字符数(`-m`),单词数(`-w`)以及字节数(`-c`)。
- 了解如何使用 `tee` 将标准输入复制到文件甚至标准输出,例如 `ls -al | tee file.txt`
- 了解语言环境对许多命令行工具的微妙影响,包括排序的顺序和性能。大多数 Linux 的安装过程会将 `LANG` 或其他有关的变量设置为符合本地的设置。意识到当你改变语言环境时,排序的结果可能会改变。明白国际化可能会使 sort 或其他命令运行效率下降*许多倍*。某些情况下(例如集合运算)你可以放心的使用 `export LC_ALL=C` 来忽略掉国际化并使用基于字节的顺序
- 要进行一些复杂的计算,比如分组、逆序和一些其他的统计分析,可以考虑使用 [`datamash`](https://www.gnu.org/software/datamash/)
- 你可以单独指定某一条命令的环境,只需在调用时把环境变量设定放在前面,例如 `TZ=Pacific/Fiji date`
- 注意到语言设置(中文或英文等)对许多命令行工具有一些微妙的影响,比如排序的顺序和性能。大多数 Linux 的安装过程会将 `LANG` 或其他有关的变量设置为符合本地的设置。要意识到当你改变语言设置时,排序的结果可能会改变。明白国际化可能会使 sort 或其他命令运行效率下降*许多倍*。某些情况下(例如集合运算)你可以放心的使用 `export LC_ALL=C` 来忽略掉国际化并按照字节来判断顺序
- 了解 `awk``sed` 关于数据的简单处理的用法。例如,将文本文件中第三列的所有数字求和:`awk '{ x += $3 } END { print x }'`. 这可能比同等作用的 Python 代码快三倍且代码量少三倍。
- 你可以单独指定某一条命令的环境,只需在调用时把环境变量设定放在命令的前面,例如 `TZ=Pacific/Fiji date` 可以获取斐济的时间。
- 了解如何使用 `awk``sed` 来进行简单的数据处理。例如,将文本文件中第三列的所有数字求和:`awk '{ x += $3 } END { print x }'`。这可能比同等功能的 Python 代码快三倍且代码量少三倍。
- 替换一个或多个文件中出现的字符串:
```sh
perl -pi.bak -e 's/old-string/new-string/g' my-files-*.txt
```
- 使用 [`repren`](https://github.com/jlevy/repren) 来批量重命名,或是在多个文件中搜索替换。(有些时候 `rename` 命令也可以批量重命名,但要注意,它在不同 Linux 发行版中的功能并不完全一样。)
- 使用 [`repren`](https://github.com/jlevy/repren) 来批量重命名文件,或是在多个文件中搜索替换内容。(有些时候 `rename` 命令也可以批量重命名,但要注意,它在不同 Linux 发行版中的功能并不完全一样。)
```sh
# 将文件、目录和内容全部重命名 foo -> bar:
repren --full --preserve-case --from foo --to bar .
@ -252,33 +254,33 @@
rename 's/\.bak$//' *.bak
```
- 根据 man 页面的描述,`rsync` 真的是一个快速且非常灵活的文件复制工具。它通常被用于机器间的同步,但在本地也同样有用。在安全限制允许下,用 `rsync` 代替 `scp` 可以实现续传,而不用重新从头开始。它同时也是删除大量文件的[最快方法](https://web.archive.org/web/20130929001850/http://linuxnote.net/jianingy/en/linux/a-fast-way-to-remove-huge-number-of-files.html)之一:
- 根据 man 页面的描述,`rsync` 是一个快速且非常灵活的文件复制工具。它闻名于设备之间的文件同步,但其实它在本地情况下也同样有用。在安全设置允许下,用 `rsync` 代替 `scp` 可以实现文件续传,而不用重新从头开始。它同时也是删除大量文件的[最快方法](https://web.archive.org/web/20130929001850/http://linuxnote.net/jianingy/en/linux/a-fast-way-to-remove-huge-number-of-files.html)之一:
```sh
mkdir empty && rsync -r --delete empty/ some-dir && rmdir some-dir
```
- 使用 `shuf` 从一个文件中随机选取多行。
- 使用 `shuf` 可以以行为单位来打乱文件的内容或从一个文件中随机选取多行。
- 了解 `sort` 的参数。处理数字方面,使用 `-n` 或者 `-h` 来处理可读性数字(例如 `du -h` 的输出)。明白键的工作原理(`-t` 和 `-k`)。例如,注意到你需要 `-k11` 来仅按第一个域来排序,而 `-k1` 意味着按整行排序。稳定排序(`sort -s`)在某些情况下很有用。例如,以第二个域为主关键字,第一个域为次关键字进行排序,你可以使用 `sort -k11 | sort -s -k22`
- 了解 `sort` 的参数。显示数字时,使用 `-n` 或者 `-h` 来显示更易读的数(例如 `du -h` 的输出)。明白排序时关键字的工作原理(`-t` 和 `-k`)。例如,注意到你需要 `-k11` 来仅按第一个域来排序,而 `-k1` 意味着按整行排序。稳定排序(`sort -s`)在某些情况下很有用。例如,以第二个域为主关键字,第一个域为次关键字进行排序,你可以使用 `sort -k11 | sort -s -k22`
- 如果你想在 Bash 命令行中写 tab 制表符,按下 **ctrl-v** **[Tab]** 或键入 `$'\t'` (后者可能更好,因为你可以复制粘贴它)。
- 标准的源代码对比及合并工具是 `diff``patch`。使用 `diffstat` 查看变更总览数据。注意到 `diff -r` 对整个文件夹有效。使用 `diff -r tree1 tree2 | diffstat` 查看变更总览数据
- 标准的源代码对比及合并工具是 `diff``patch`。使用 `diffstat` 查看变更总览数据。注意到 `diff -r` 对整个文件夹有效。使用 `diff -r tree1 tree2 | diffstat` 查看变更的统计数据。`vimdiff` 用于比对并编辑文件
- 对于二进制文件,使用 `hd` 使其以十六进制显示以及使用 `bvi` 来编辑二进制
- 对于二进制文件,使用 `hd``hexdump` 或者 `xxd` 使其以十六进制显示,使用 `bvi``hexedit` 或者 `biew` 来进行二进制编辑
- 同样对于二进制文件,`strings`(包括 `grep`等)允许你查找一些文本
- 同样对于二进制文件,`strings`(包括 `grep`工具)可以帮助在二进制文件中查找特定比特
- 二进制文件对比Delta 压缩),使用 `xdelta3`
- 制作二进制差分文件Delta 压缩),使用 `xdelta3`
- 使用 `iconv` 更改文本编码。而更高级的用法,可以使用 `uconv`,它支持一些高级的 Unicode 功能。例如,这条命令将所有元音字母转为小写并移除了:
- 使用 `iconv` 更改文本编码。需要更高级的功能,可以使用 `uconv`,它支持一些高级的 Unicode 功能。例如,这条命令移除了所有重音符号
```sh
uconv -f utf-8 -t utf-8 -x '::Any-Lower; ::Any-NFD; [:Nonspacing Mark:] >; ::Any-NFC; ' < input.txt > output.txt
```
- 拆分文件,查看 `split`(按大小拆分)和 `csplit`(按模式拆分)。
- 拆分文件可以使用 `split`(按大小拆分)和 `csplit`(按模式拆分)。
- 用 [`dateutils`](http://www.fresse.org/dateutils/) 中的 `dateadd`、`datediff`、`strptime` 等工具操作日期和时间表达式
- 操作日期和时间表达式,可以用 [`dateutils`](http://www.fresse.org/dateutils/) 中的 `dateadd`、`datediff`、`strptime` 等工具。
- 使用 `zless`、`zmore`、`zcat` 和 `zgrep` 对压缩过的文件进行操作。
@ -290,27 +292,29 @@ mkdir empty && rsync -r --delete empty/ some-dir && rmdir some-dir
setfacl --restore=permissions.txt
```
- 为了高效地创建空文件,请使用 `truncate`(创建[稀疏文件](https://zh.wikipedia.org/wiki/稀疏文件)`fallocate`(用于 ext4xfsbtrf 和 ocfs2 文件系统),`xfs_mkfile`(适用于几乎所有的文件系统,包含在 xfsprogs 包中),`mkfile`(用于类 Unix 操作系统,比如 Solaris 和 Mac OS
## 系统调试
- `curl``curl -I` 可以便捷地被应用于 web 调试中,它们的好兄弟 `wget`可以,或者是更潮的 [`httpie`](https://github.com/jkbrzt/httpie)。
- `curl``curl -I` 可以被轻松地应用于 web 调试中,它们的好兄弟 `wget`是如此,或者也可以试试更潮的 [`httpie`](https://github.com/jkbrzt/httpie)。
- 使用 `iostat`、`netstat`、`top` `htop` 更佳)和 `dstat` 去获取硬盘、cpu 和网络的状态。熟练掌握这些工具可以使你快速的对系统的当前状态有一个大概的认识
- 获取 CPU 和硬盘的使用状态,通常使用使用 `top``htop` 更佳),`iostat` 和 `iotop`。而 `iostat -mxz 15` 可以让你获悉 CPU 和每个硬盘分区的基本信息和性能表现
- 使用 `netstat``ss` 查看网络连接的细节。
- 若要对系统有一个深度的总体认识,使用 [`glances`](https://github.com/nicolargo/glances)。它在一个终端窗口中向你提供一些系统级的数据。这对于快速的检查各个子系统非常有帮助。
- `dstat` 在你想要对系统的现状有一个粗略的认识时是非常有用的。然而若要对系统有一个深度的总体认识,使用 [`glances`](https://github.com/nicolargo/glances),它会在一个终端窗口中向你提供一些系统级的数据。
- 若要了解内存状态,运行并理解 `free``vmstat` 的输出。尤其注意“cached”的值它指的是 Linux 内核用来作为文件缓存的内存大小,因此它与空闲内存无关。
- 若要了解内存状态,运行并理解 `free``vmstat` 的输出。值得留意的是“cached”的值它指的是 Linux 内核用来作为文件缓存的内存大小,而与空闲内存无关。
- Java 系统调试则是一件截然不同的事,一个可以用于 Oracle 的 JVM 或其他 JVM 上的调试的技巧是你可以运行 `kill -3 <pid>` 同时一个完整的栈轨迹和堆概述(包括 GC 的细节)会被保存到标准输出/日志文件。JDK 中的 `jps``jstat``jstack``jmap` 很有用。[SJK tools](https://github.com/aragozin/jvm-tools) 更高级.
- Java 系统调试则是一件截然不同的事,一个可以用于 Oracle 的 JVM 或其他 JVM 上的调试的技巧是你可以运行 `kill -3 <pid>` 同时一个完整的栈轨迹和堆概述(包括 GC 的细节)会被保存到标准错误或是日志文件。JDK 中的 `jps``jstat``jstack``jmap` 很有用。[SJK tools](https://github.com/aragozin/jvm-tools) 更高级
- 使用 [`mtr`](http://www.bitwizard.nl/mtr/) 去跟踪路由,用于确定网络问题。
- 用 [`ncdu`](https://dev.yorhel.nl/ncdu) 来查看磁盘使用情况,它比常的命令,如 `du -sh *`,更节省时间。
- 用 [`ncdu`](https://dev.yorhel.nl/ncdu) 来查看磁盘使用情况,它比常的命令,如 `du -sh *`,更节省时间。
- 查找正在使用带宽的套接字连接或进程,使用 [`iftop`](http://www.ex-parrot.com/~pdw/iftop/) 或 [`nethogs`](https://github.com/raboof/nethogs)。
- `ab` 工具(捆绑于 Apache可以简单粗暴地检查 web 服务器的性能。对于更复杂的负载测试,使用 `siege`
- `ab` 工具Apache 中自带)可以简单粗暴地检查 web 服务器的性能。对于更复杂的负载测试,使用 `siege`
- [`wireshark`](https://wireshark.org/)[`tshark`](https://www.wireshark.org/docs/wsug_html_chunked/AppToolstshark.html) 和 [`ngrep`](http://ngrep.sourceforge.net/) 可用于复杂的网络调试。
@ -326,9 +330,9 @@ mkdir empty && rsync -r --delete empty/ some-dir && rmdir some-dir
- 关于更深层次的系统分析以及性能分析,看看 `stap`[SystemTap](https://sourceware.org/systemtap/wiki)[`perf`](https://en.wikipedia.org/wiki/Perf_(Linux)),以及[`sysdig`](https://github.com/draios/sysdig)。
- 查看你当前使用的系统,使用 `uname` `uname -a` Unixkernel 信息) 或者 `lsb_release -a` Linux 发行版信息)。
- 查看你当前使用的系统,使用 `uname``uname -a`Unixkernel 信息)或者 `lsb_release -a`Linux 发行版信息)。
- 无论什么东西工作得很欢乐时试试 `dmesg`(可能是硬件或驱动问题)
- 无论什么东西工作得很欢乐(可能是硬件或驱动问题)可以试试 `dmesg`
- 如果你删除了一个文件,但通过 `du` 发现没有释放预期的磁盘空间,请检查文件是否被进程占用:
`lsof | grep deleted | grep "filename-of-my-big-file"`