python - 遍历包含 8526 个项目的列表,获取索引超出范围错误

标签 python list loops iteration

这里是 Python 新手。我一直在为工作中的项目开发一个将 XML 转换为 CSV 的小脚本。已解析到内存中的 XML 数据中有 406 个元素,每个元素有 21 个索引字段是该元素的子元素,总共有 8,526 个索引字段。

在给定元素的这 21 个索引字段中,我想提取第 0、1、2、3、5、6、7 和 8 项。

我创建了一个循环(类似于下面的代码)来执行以下操作:

i = 0
files = 406
docrange = 8526
iterstep = 21
pad = '","'
for docs in range(i, docrange):
    string1 = str('"'+indexfields[iterstep])+pad)
    string2 = str(indexfields[iterstep+1])+pad)
    string3 = str(indexfields[iterstep+2])+pad)
    string5 = str(indexfields[iterstep+3])+pad)
    string6 = str(indexfields[iterstep+5])+pad)
    string7 = str(indexfields[iterstep+6])+pad)
    string8 = str(indexfields[iterstep+7])+pad)
    string9 = str(indexfields[iterstep+8])+pad)
    strung = string1+string2+string3+string5+string6+string7+string8+string9
    print strung

    iterstep = (iterstep + 21)
    i = (i + 1)

当我进入这个循环时出现错误:

Traceback (most recent call last): 
    File "Path/To/My/script.py", line 55, in <module> 
string1 = (str(indexfields[iterstep])) IndexError: list index out of range

根据我收集到的信息,我不认为我正在修改我正在迭代的列表,正如 Stack Overflow 上处理此错误的其他线程似乎表明的那样。

虽然我知道有更优雅的方式来编写上面的代码,但我希望将 XML 数据快速转换为 CSV,并且需要完成这项工作。

Edit1:这可能不是合适的地方,但这是从中提取索引信息的 Files.xml 的示例。还有另一个 XML 文件与 Files.xml 一起使用,如果需要,我也可以发布它。

<?xml version="1.0" encoding="utf-8"?>
<ArrayOfFile xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xmlns:xsd="http://www.w3.org/2001/XMLSchema">
<File>
  <ExtendedProperties />
  <ID>7514</ID>
  <SyncFlag>Edit</SyncFlag>
  <CustomSort />
  <ViewerContext>None</ViewerContext>
  <ProjectID>1</ProjectID>
  <BoxID>0</BoxID>
  <FileID>7514</FileID>
  <FilePtr>0</FilePtr>
  <Status>Active</Status>
  <KeyValue />
  <KeyVisualValue />
  <Field>
    <string>Some words that I would like to pull1</string>
    <string>Some words that I would like to pull2</string>
    <string>Some words that I would like to pull3</string>
    <string>Some words that I would like to pull4</string>
    <string>Nonsense</string>
    <string>Some words that I would like to pull5</string>
    <string>Some words that I would like to pull6</string>
    <string>Some words that I would like to pull7</string>
    <string>Some words that I would like to pull8</string>
    <string>Some words that I would like to pull9</string>
    <string>Nonsense</string>
    <string>Nonsense</string>
    <string />
    <string />
    <string />
    <string />
    <string />
    <string />
    <string />
    <string />
    <string />
  </Field>
  <Notes />
  <DateStarted>2015-07-16T11:02:00</DateStarted>
  <DateChanged>2015-12-09T14:46:58.7335221-05:00</DateChanged>
  <ChangedBy>1</ChangedBy>
  <Destruction>1990-01-01T01:00:00</Destruction>
  <LabelPrinted>1990-01-01T01:00:00</LabelPrinted>
  <SaveStyle>NewFile</SaveStyle>
  <SaveNotesOnly>false</SaveNotesOnly>
  <FileVerifyLevels>0</FileVerifyLevels>
  <RemoteID>1</RemoteID>
</File>

这是来自 Documents.xml 文件的片段:

<?xml version="1.0" encoding="utf-8"?>
<ArrayOfDocument xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:xsd="http://www.w3.org/2001/XMLSchema">
<Document>
  <ID>262601</ID>
  <SyncFlag>Edit</SyncFlag>
  <CustomSort />
  <ViewerContext>None</ViewerContext>
  <FileID>1647</FileID>
  <RelProjectID>0</RelProjectID>
  <ArchiveID>0</ArchiveID>
  <Archive />
  <DocumentID>262601</DocumentID>
  <Status>Active</Status>
  <Separator>Some words to pull</Separator>
  <Divider>Some words to pull</Divider>
</Document>

编辑2: 你们都做出了很好的回应,我发现我最初的错误是由于迭代值最初设置为 21 而不是 0。 我需要更多有关此软件的指导,打开一个新线程会更好吗?

最佳答案

编辑:您在这里的主要重点应该是学习如何阅读堆栈跟踪。这告诉您的是,在某个循环之后,您正在尝试访问尚未填充的索引。边走边打印索引,看看会发生什么。

对于这方面的 future 工作,我建议使用 XML 解析来代替它。

您应该动态地处理这种转换,而不是总是假设会有 x 个元素。

Python 内置了解析 XML 和使用 Xpath 的模块。 https://docs.python.org/2/library/xml.etree.elementtree.html

这使您能够解析单个节点、访问属性等。

关于python - 遍历包含 8526 个项目的列表,获取索引超出范围错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35070839/

相关文章:

python - 是否有任何 python 库可以在漂亮的 ascii 表中输出字典?

python - 根据列重复行

r - 按组将 data.frame 拆分为向量列表而不是 data.frames 列表

c - C语言什么时候用break,continue?

python - python 中的网络爬虫。我应该从哪里开始,我应该遵循什么? - 需要帮助

python列表索引问题

在不同时间循环列出和访问不同属性的 C# 方法

c - 显示数组总和的逻辑缺陷

Javascript:for循环获取数据但顺序被破坏

python - 无法理解 ResNet 的 Identity block 和卷积 block