Python 拆分字符串并在解析发生的任何地方添加字符

标签 python string parsing split

注意:我是化学家,编码经验很少

我想用特定的分隔符拆分列表中的每个字符串,然后将每个已解析的字符串添加到新列表中。通过在每个解析的一个字符串的末尾和下一个字符串的开头添加一个字符来跟踪拆分发生的位置对我来说非常有帮助。例如,

TestString = 'AAABA'
parsed = TestString.split('B')
print(parsed)

将输出:

['AAA','A']

我希望输出为:

['AAAx', 'xA']

我正在寻找一种同样适用于仅包含分隔符的字符串的解决方案。我的最终目标将涉及解析一个大的字符串列表(每个列表 1-1000 万个字符串,字符串长度从 1 到 1000 不等)。另一个例子:

TestList = ['A', 'B', 'AB', 'BA', 'BBB','ABA', 'AAA']
Parsed = []
for i in range(len(TestList)):
     parsed = TestList[i].split('B')
     Parsed.extend(parsed)
print(Parsed)

将输出:

['A', '', '', 'A', '', '', 'A', '', '', '', '', 'A', 'A', 'AAA']

我希望输出看起来像:

['A','x', 'x', 'Ax', 'x', 'x', 'xA', 'x', 'xx', 'xx', 'x', 'Ax', 'xA', 'AAA']

'B'被拆分为['x'和'x']; 'BB' 拆分为 ['x', 'xx', 'x']

有什么简单的方法可以做到这一点吗?我对正则表达式进行了一些研究,发现在将我的模式应用(或编译)到我的数据集中的可变字符串长度时遇到了问题。我在 stackoverflow 上四处搜索并进行了一些在线搜索,但找不到任何非常有用的东西。我知道我可以在字符串的开头和结尾添加字符,但任何解决方案都不应该向未解析的字符串添加字符。我考虑过尝试添加一堆“if”条件语句来尝试涵盖我所有的可能性,但这似乎很痛苦,如果有的话,我更喜欢更简单的解决方案。

编辑:作为对评论的回应,我真的在尝试使用我的字符串并“将‘B’单位切成两半”并添加一个字符来代表一半的‘B’单位。

在下图中,黑线代表一串“A”。箭头左侧:一个字符串,仅明确绘制了“B”单元。箭头右侧:在对“B”进行解析后,得到 3 个字符串。每个“B”单元被切成两半并被“x”取代。 Description

逐步考虑示例 'BBB',第一个解析将导致 ['x', 'xBB']。第二步生成 ['x', 'xx', 'xB']。最后一步的结果是 ['x', 'xx', 'xx', 'x']

解析后,将没有“B”单元剩余。这是一个与化学有关的问题,'xx' 和 'B' 实际上是不同的实体(即使 'x' 是“'B' 单元的一半”)。同样值得注意的是解析 'AAABAAA' ['AAAx', 'xAAA'] 很重要,因为这些字符串都不(应该)等同于字符串 'AAA',它永远不会首先包含一个 'B' 单元。

最佳答案

试试这个:

  1. 首先用'x-x'替换'B'

  2. 用分隔符“-”分割字符串。

     string = 'AAABA'
     string = string.replace('B', 'x-x')
     print( string.split('-') )
    
     OUT: ['AAAx', 'xA']`
    
string = 'AABBA'
string = string.replace('B', 'x-x')
print( string.split('-') )

out: ['AAx', 'xx', 'xA']

关于Python 拆分字符串并在解析发生的任何地方添加字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64432293/

相关文章:

algorithm - 如何反向使用 nlp 解析器生成句子

python - 在 Pandas DF 中创建按年龄类别分组的新列

c++ - 如何将函数作为参数传递给transform()函数?

Python 正则表达式捕获由空格和逗号分隔的数字和破折号

c++ - 如何将表示指数形式的十进制数的字符串转换为 Qt 中的 float ?

java - java中检查字符串是否可以是IP地址

python - 将列表参数传递给 Jinja2 扩展中的调用节点

python - 继承类属性而不声明属性或更好的 OOP

python - lxml 适用于 Python 2.5.6、osx 10.7.3

javascript - 如何从 JavaScript 中的用户输入将时间解析为 Date 对象?