LaTeX文档单词统计

标签 latex word-count

我知道 counting words in a LaTeX document 有很多种方法,其中一些比其他更精确。

我想要的是一种对 LaTeX 文档执行简单统计的方法。也就是说,我不想仅仅对所有单词进行分组并计算其长度,而是想分别计算每个单词的实例数。

输出看起来像这样:

1. (15% - 456) that
++++++++++++++++++++++++++++++++++++++++++++
2. (10% - 308) the
++++++++++++++++++++++++++++++
3. (8%  - 213) is
+++++++++++++++++++++
4. (4%  - 102) of
+++++++++
5. (2%  -  55) and
++++

有没有任何工具可以做类似的事情?

最佳答案

我找不到任何包/脚本来完成我需要的操作,所以我最终构建了自己的包/脚本。

这是一个小型(基本)Python 脚本,但它可以完成工作。输出如下所示:

Number of unique words: 1945
Total number of words: 16660

  0.  1210     (7.26%) - the
  1.   461     (2.77%) - in
  2.   431     (2.59%) - of
  3.   317     (1.90%) - a
  4.   313     (1.88%) - and
  5.   304     (1.82%) - for
  6.   304     (1.82%) - to
  7.   241     (1.45%) - is
  8.   176     (1.06%) - words
  9.   165     (0.99%) - by
Sum percentage: 23.5%

Word lengths distribution:
 1  ++ (317)
 2  ++++++++++++++++++++ (2602)
 3  ++++++++++++++++++++++++++++++ (3947)
 4  ++++++++++++++++++ (2342)
 5  +++++++++++++ (1752)
 6  ++++++++++ (1348)
 7  +++++++++ (1154)
 8  ++++++++ (1071)
 9  ++++++ (787)
10  ++++ (586)
11  +++ (383)
12  + (129)
13  + (123)
14  + (36)
15  + (83)

它已上传到 Github 存储库:LaTexWordStats .

关于LaTeX文档单词统计,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40329736/

相关文章:

r - 如何在 R markdown 中生成没有序言的 LaTeX 文件?

r - 在knitr/rmarkdown中添加beamer框架选项

LaTeX对齐堆叠求和

java - Hadoop WordCount 示例中的 "Cannot find symbol"错误

grep - 使用 grep 确定字数(在一行中有多个单词的情况下)

r - knitr:添加图形注释

latex - latex AMS对齐/对齐多个 “=”,空间太大

ruby - 不同单词计数器之间存在差异的原因是什么

java - 向storm集群提交拓扑时出错

hadoop - hadoop字数统计-导出的jar未运行