algorithm - 如何构建特定的语料库 - 算法说明

标签 algorithm nlp corpus

我正在做一个项目,我需要构建一个算法句子语料库。换句话说,我需要一个由句子组成的语料库,其中每个句子都是用自然语言英语表达的算法指令。示例:

  • 将 5 分配给 X
  • 将变量 X 乘以 5
  • 声明一个名为 Z 的变量

我做了一些研究,发现了这个 Google BigQuery - Stack。我仍在探索它,我不确定它是否对我有帮助。我正在考虑网络爬行 Stack Overflow,但它作为一个来源看起来非常嘈杂。在这种情况下是否没有现成的数据集或API?你知道我可以抓取的充满算法指令的网站吗?

欢迎任何想法,请帮助我!

最佳答案

似乎你可以生成尽可能多的,有一组你想使用的条件和指令。可能您应该遵循在一组“变量”、“数字”和“运算符”之间随机采样的生成方法来生成此类指令。

例如:假设您要生成指令:

  • 涉及xyz 的变量。
  • 涉及567 的数字。
  • 涉及addsubtractmultiply 的运算符。

然后您的过程将开始选择一个运算符,选择一个数字并选择一个变量,并基本上根据所涉及的运算符生成指令。或者在同一条线上的东西。关键是继续进行这种随机抽样,并根据需要生成尽可能多的指令。此外,如果您的变量和数字集足够多,您最终可以得到一个非常好的指令列表。

希望对您有所帮助。

关于algorithm - 如何构建特定的语料库 - 算法说明,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58279245/

相关文章:

用于识别文章主题的 python 库

java - 如何搜索语料库以查找字符串的频率?

c++ - OpenGL 的标准化坐标

python - 非质数只包含 2,3,5,7 优化

python - Scikit - TF-IDF 空词汇表

php - 使用 WordNet 数据库确定词类型的算法

python - 规范化 Gensim 中的词袋数据

c# - 如何有效地旋转数组?

algorithm - 我有一个集合,其中包含每个集合元素的值,并且我希望按值将元素尽可能均匀地分布在 N block 上

python - 如何去除标点符号?