ORC 目录中有一些断行,在 \t
之后和 \n
之前可能有编号,也可能没有编号。
输入:
9.1 The Euclidean Group in Two-Dimensional 152
Space E2
CHAPTER 10: THE LORENTZ AND POINCARÉ GROUPS,
AND SPACE-TIME SYMMETRIES 173
如果一个数字夹在两个字母之间(示例中为 152
),则它是上一节的页码,应删除。如果后面是另一个数字(下一节的编号),则它是正确的页码(此处为 173
),应保留。这是所需的输出:
9.1 The Euclidean Group in Two-Dimensional Space E2
CHAPTER 10: THE LORENTZ AND POINCARÉ GROUPS, AND SPACE-TIME SYMMETRIES 173
我的尝试:
([a-zA-Z])(\t[0-9]*\n\t)((?![P])[A-Z])
但 npp 一直说找不到文本,尽管它在 https://www.regextester.com 中工作正常。 。如何将其修复为正常?
最佳答案
您可以使用
(\S)\t[0-9]*\R\t+
并替换为 $1
(第 1 组值占位符)。
详细信息
(\S)
- 第 1 组:任何非空白字符\t
- 一个选项卡[0-9]*
- 0+ 位\R
- 换行序列\t+
- 1 个或多个制表符(或\h+
- 1+ 水平空格)
关于regex - 如何修复 OCR 目录中中间有数字的断线?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46984409/