我有 160 位随机数据。
只是为了好玩,我想生成伪英语短语来“存储”这些信息。我希望能够从短语中恢复这些信息。
注:这不是一个安全问题,我不在乎其他人是否能够恢复信息,甚至检测它是否存在。
更好短语的标准,从最重要到最不重要:
目前的做法,建议here :
取三份 1024 个名词、动词和形容词的 list (选择最受欢迎的)。通过以下模式生成一个短语,每个单词读取 20 位:
名词动词形容词动词,
名词动词形容词动词,
名词动词形容词动词,
名词动词形容词动词。
现在,这似乎是一个不错的方法,但是这句话有点太长,有点太乏味了。
我找到了一个词库here (语音数据库的一部分)。
经过一些特别的过滤,我计算出这个语料库大约包含
这使我最多可以使用
对于名词-动词-形容词-动词模式,这在短语中为每个“句子”提供了 57 位。这意味着,如果我使用从这个语料库中得到的所有单词,我可以生成三个句子而不是四个句子 (160/57 ≈ 2.8)。
名词动词形容词动词,
名词动词形容词动词,
名词动词形容词动词。
还是有点太冗长乏味了。
任何提示我如何改进它?
我所看到的我可以尝试:
...我不太擅长英语,无法想出更好的短语模式。有什么建议?
...我想,为此我需要比现在更好的词库。任何提示我在哪里可以获得合适的?
最佳答案
我会考虑在您的列表中添加副词。这是我想出的一个模式:
<Adverb>, the
<adverb> <adjective>, <adverb> <adjective> <noun> and the
<adverb> <adjective>, <adverb> <adjective> <noun>
<verb> <adverb> over the <adverb> <adjective> <noun>.
这可以编码 181 位数据。我使用我从 WordNet 数据中制作的列表得出了这个数字(可能有点偏离,因为我包含了复合词):
例句: “浸泡,习惯性的愚蠢,社会投机的样本和无所畏惧的灾难性的,在某处互惠的宏观世界,天使般地排除在不可避免的间歇性被子上。”
关于nlp - 撰写包含 160 位可恢复信息的合成英语短语,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4698229/