出于个人兴趣,我尝试定义一个模拟 AI,它基于他学到的信息和互联网搜索,以便提供比系统知道的更多的细节。
我举了一个 child 的例子,当他出生时他需要学习一切,他听到了很多然后提出了一些答案。他的妈妈/爸爸告诉他答案是否合适。
为了做到这一点,我想在 hadoop 系统中存储大量聊天对话并解析所有这些对话以确定哪些是最常给出的答案。为此,我想构建一个神经元数据库,其中包含具有确定答案的对话类型。
所以我的问题是我可以在互联网上的某个地方合法地找到一个或多个任何格式的聊天/对话数据库吗? (文件、数据库、csv、...)
我拥有的最多的数据就是能够正确确定答案的机会;)
感谢您的帮助和欢呼, 弗雷德里克
PS:英语不是我的母语
最佳答案
There is a collection of conversational datasets .其中大部分是从公开来源收集的。对您来说,最有趣的可能是 Santa Barbara 语料库(虽然它是语音对话的转录本)或电影对话数据集。
关于database - 聊天/对话数据库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35437278/