python - Python 中类似 Excel 的文本导入 : automatically parsing fixed width columns

标签 python excel parsing text fixed-width

在 Excel 中,如果您导入空格分隔的文本,其中的列没有完全对齐并且数据可能会丢失,例如

  pH             pKa/Em  n(slope) 1000*chi2      vdw0  
CYS-I0014_        >14.0                          0.00  
LYS+I0013_       11.827     0.781     0.440      0.18

您可以选择将其视为固定宽度的列,Excel 可以自动计算出列宽,通常效果很好。 Python 中是否有一个库可以以类似的自动方式分解格式不佳的固定宽度文本?

编辑: 这是固定宽度文本导入在 Excel 中的样子。在第一步中,您只需选中“固定宽度”单选按钮,然后在第二步中,Excel 已经自动添加了分栏符。唯一未能正确执行此操作的情况是每行的每个分栏符中没有至少一个空白字符重叠。

fixed width text importing in excel

最佳答案

首先,Excel(2003,在家)并不是那么聪明。如果您的列 1000*chi2 包含空格,例如1000 * chi2,excel会猜错。

琐碎的情况:如果你的数据最初是由制表符(而不是空格)分隔的,并且使用多个制表符来指示空列,那么,至少在 TCL 中,很容易按制表符内容拆分每一行,我想这很琐碎在 Python 中也是如此。

但我猜你的问题是他们只使用了空格字符。 我看到解决这个问题的最大线索是将文本粘贴到记事本中并选择固定大小的字体。一切都排列整齐,您可以使用每行中的字符数来衡量“长度”。

因此,如果您可以依赖输入的这一特性,那么您可以使用“筛选”方法来自动识别分栏符的位置。当您在第一遍中仔细检查这些行时,注意沿行被非空白占据的“位置”,如果某个位置曾经被非空白占据,则从您的列表中删除该位置。随着您的前进,您将很快到达一组从未被非空白区域占据的位置。那么,这些就是您的列分隔符。在您的示例中,您的“筛子”将以 10-16、23-24,32、42-47 的位置结束,这些位置永远不会被非空白占据(假设我可以数)。 因此,该集合的补充是您的数据必须位于的列位置集合。 因此,对于每一行,每个非空白 block 都将恰好适合上面确定的一组位置(即补充集)中的一列。 我从来没有用 Python 编码,所以附加的是一个 TCL 脚本,它将使用筛选方法识别文本中的分栏符,并发出一个新的文本文件,其中那些空格字符完全由单个制表符替换 - 即. 10-16 由一个选项卡替换,23-24 由另一个替换,等等。 生成的文件是制表符分隔的,即普通情况。我承认我只在你的小案例数据上试过,复制到一个名为 ex.txt 的文本文件中;输出到 ex_.txt。我怀疑如果标题包含空格,它也可能有问题。

希望这对您有所帮助!

set fh [open ex.txt]
set contents [read $fh];#ok for small-to-medium files.
close $fh

#first pass
set occupied {}
set lines [split $contents \n];#split contents at line breaks.
foreach line $lines {
  set chrs [split $line {}];#split each line into chars.
  set pos 0
  foreach chr $chrs {
    if {$chr ne " "} {
      lappend occupied $pos
    }
    incr pos
  }
}

#drop out with long list of occupied "positions": sort to create
#our sieve.
set datacols [lsort -unique -integer $occupied]
puts "occupied: $datacols"

#identify column boundaries.
set colset {}
set start [lindex $datacols 0];#first occupied pos might be > 0??
foreach index $datacols {
  if {$start < $index} {
    set end $index;incr end -1
    lappend colset [list $start $end]
    puts "col break starts at $start, ends at $end";#some instro!
    set start $index
  }
  incr start
}

#Now convert input file to trivial case output file, replacing
#sieved space chars with tab characters.
set tesloc [lreverse $colset];#reverse the column list!
set fh [open ex_.txt w]
foreach line $lines {
  foreach ele $tesloc {
    set line [string replace $line [lindex $ele 0] [lindex $ele 1] "\t" ]
  }
  puts "newline is $line"
  puts $fh $line
}
close $fh

关于python - Python 中类似 Excel 的文本导入 : automatically parsing fixed width columns,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6348992/

相关文章:

python - 在运行时在 python 中选择类的执行方法?

vba - Excel VBA : How to sum only values larger than a specific value?

python - 如何在不完全破坏性能的情况下修改 Numba 中的列表?

python - Django/乌鸦/Sentry : different loggers for different DSNs

python - CNN 给出随机答案,而全连接神经网络工作正常

excel - VBA Excel 中的排列

python - 使用 openpyxl 创建工作簿和工作表

java - 如何使用斯坦福解析器

json - 通过Logstash将哈希数组转换为简单哈希

json - golang中的结构到复杂的JSON解析