sql - 什么数据生成器?

标签 sql database csv

我即将发布一个 FOSS 数据生成器,它可以生成 CSV 格式的随机但有意义的数据。我想,为时已晚,我需要对此类产品的最新技术进行调查——因为如果有一个众所周知且有用的现有工具,我可以将我的工作写下来以供体验。我知道有几个特定于 SQL Server 的工具,但我的不是特定于数据库的。

那么,链接?而如果你用过这样的产品, 您发现它缺少哪些功能?

编辑:要在我的工具上添加更多信息(哦,护士长!)它旨在允许从现有数据文件生成任何类型的随机数据,并且 支持加权。它是基于 XML 的(对不起,伙计们),你可以这样说:

<pick distribute="20,80" >
  <datafile  file="femalenames.dat"/>
  <datafile  file="malenames.dat"/>
<pick/>

大约 20% 的时间选择女性名字,80% 的时间选择男性名字。

但这个问题的目的不是描述我的产品,而是获取有关其他工具的信息。

最新: 如果有人感兴趣,他们可以在 http://code.google.com/p/csvtest 获得我的数据生成器的 alpha 版。

最佳答案

这可以是 R 中的一行,我在其中使用 littler 脚本前端:

# generate the data as a one-liner from the command-line
# we set the RNG seed, and draw from a bunch of distributions
# indented just to fit the box here
edd@ron:~$ r -e'set.seed(42); write.csv(data.frame(y=runif(10), x1=rnorm(10),    
                x2=rt(10,4), x3=rpois(10, 0.4)), file="/tmp/neil.csv", 
                quote=FALSE, row.names=FALSE)'
edd@ron:~$ cat /tmp/neil.csv
y,x1,x2,x3
0.914806043496355,-0.106124516091484,0.830735621223563,0
0.937075413297862,1.51152199743894,1.6707628713402,0
0.286139534786344,-0.0946590384130976,-0.282485683052060,0
0.830447626067325,2.01842371387704,0.714442314565005,0
0.641745518893003,-0.062714099052421,-1.08008578470128,0
0.519095949130133,1.30486965422349,2.28674786332467,0
0.736588314641267,2.28664539270111,-0.73270267483628,1
0.134666597237810,-1.38886070111234,-1.45317770550920,1
0.656992290401831,-0.278788766817371,-1.01676025893376,1
0.70506478403695,-0.133321336393658,0.404860813371462,0
edd@ron:~$

您还没有对您的数据生成过程说任何,但请放心,R 可能可以满足几乎任何要求,包括多元正态、t、偏斜 t 等。 R 中的(六个不同的)随机数生成器的质量也非常高。

R 还可以写入 DB,或从中读取参数,如果它需要在 Windoze 上,则可以使用 Rscript 前端而不是 littler。

关于sql - 什么数据生成器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1316619/

相关文章:

php - 如何在一个sql查询中多次使用where条件

php - 有没有办法用 Cron Job 加载页面?

sql - 传递表格数据的二进制格式

sql-server - 将 CSV 文件导入 SQL Server 时操作停止

c# - 如何在 .Net 中使用 OleDB 以我想要的格式从 CSV 导入值?

sql - 以编程方式获取用户拥有的数据库的所有表

sql - 使用存储在文件中的 (Postgres) sql select 语句的 bash 文件创建表

php - 为什么 SQL INNER JOIN 无论条件如何都会返回所有记录

java - 最佳实践确认第二人称数据更改

python - matplotlib 将来自 csv 的 X Y Z 数据绘制为 pcolormesh