我有一个字符串,其中嵌入了 Markdown 标签。我不想将 Markdown 编码为其他任何内容,我只想撕掉所有标签。
我怎样才能快速做到这一点?我需要将其作为批处理作业的一部分来执行,该作业处理大约 500 万条文本,因此速度非常重要。
我查看了 MarkdownSharp,并使用了 Transform
,但我不确定这是执行此操作的最佳方法。我只想要纯文本输出,里面没有标签。我什至正在考虑删除正则表达式,但我不确定性能最佳的选项是什么。
最佳答案
您可能可以使用 MarkdownSharp 或任何其他类似的库(我推荐 Strike ,因为它速度惊人!)将 Markdown 转换为 Html,然后使用 HtmlAgilityPack提取文本。
一个更快的选择,但对您来说需要更多的工作,是修改现有的 Markdown 解析器以生成纯文本。
关于c# - 从字符串中删除 Markdown 标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23043343/