Python:获取字符串索引的行号和列号？

假设我有一个正在操作的文本文件。像这样的东西(希望这不是太不可读):

data_raw = open('my_data_file.dat').read()
matches = re.findall(my_regex, data_raw, re.MULTILINE)
for match in matches:
    try:
        parse(data_raw, from_=match.start(), to=match.end())
    except Exception:
        print("Error parsing data starting on line {}".format(what_do_i_put_here))
        raise

注意异常处理程序中有一个名为 what_do_i_put_here 的变量。 .我的问题是:如何分配该名称以便我的脚本打印行号包含我正在尝试使用的“坏区域”的开头？我不介意重新阅读文件，我只是不知道我会做什么......

最佳答案

这里有一些更清晰的东西，在我看来，比你自己的答案更容易理解:

def index_to_coordinates(s, index):
    """Returns (line_number, col) of `index` in `s`."""
    if not len(s):
        return 1, 1
    sp = s[:index+1].splitlines(keepends=True)
    return len(sp), len(sp[-1])

它的工作方式与您自己的答案基本相同，但通过使用字符串切片 splitlines()实际上计算您需要的所有信息，而无需任何后期处理。
使用 keepends=True必须为行尾字符提供正确的列数。
唯一的额外问题是空字符串的边缘情况，可以很容易地由保护子句处理。
我在 Python 3.8 中对其进行了测试，但在大约 3.4 版之后它可能可以正常工作(在某些旧版本中 len() 计算代码单元而不是代码点，我认为它会因包含 BMP 之外的字符的任何字符串而中断)

关于Python:获取字符串索引的行号和列号？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24495713/

Python:获取字符串索引的行号和列号？

上一篇：python - 更改图上的背景图像

下一篇：timestamp - 使用 SPARQL 以秒/毫秒为单位获取当前时间？