我有一个包含两个相同列的 csv 文件:
X,X
0,0
1,1
2,2
我想将其导入 Stata 13,但它不喜欢导入第二个 X
(因为名称相同):
. import delimited "filename.csv"
X already defined
Error creating variables
r(109);
有没有简单的方法来强制导入?
我不想指定要导入的行。实际数据集有 100 多个变量,并且重复的变量分布在整个数据集中。
同样,我不想手动重命名变量。
如果 Stata 想要删除或重命名第二个 X
,我没问题。
作为背景,这个 csv 文件是由一些草率的 SQL 代码生成的。重复的变量正是我用于连接的变量。我可以清理 SQL 代码或预清理(例如使用 Python),但理想情况下我希望 Stata 强制导入。
最佳答案
尝试insheet
。
使用 .csv 文件中的示例数据:
x,x,y,y
238965,586,127,192864
238965,586,127,192864
1074,198264,5186,2947
1074,198264,5186,2947
所有变量均已导入,Stata 中的结果名称为:
x
v2
y
v4
命令是:
insheet using "~/some/file.csv"
(我使用的是 Stata 12.1,根据 Stata 13 [U] 手册,insheet
被 import delimited
取代,第 21 页。)
关于Stata:导入用重复变量分隔,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22262683/