html - 来自 10-K EDGAR 的网页抓取风险因素

是否有人尝试从“风险因素”部分(即公司的 EDGAR 10-K 文件中的 1A 项使用 BeautifulSoup 或任何其他网络抓取库以及使用正则表达式)提取个人风险因素。

如果您能提供 github 或伪代码，或者至少提供一些先机，这样我就可以继续前进，那将会非常有帮助。

编辑:
10-Ks 的一些例子

我给出了 1 个以上的例子，因为 HTML 代码在所有这些代码中都非常随机，以至于使用单一类型的 RegEx 很困难。

最佳答案

我花了很多时间尝试使用 REGEX 开发一种方法，但取得了一些有限的成功。问题在于提交给 SEC 的底层 XML 没有严格遵守标准，许多报告偏离了所使用的报告格式。有时，他们会使用大写、标题大小写或使用不同的字母和数字组合来划分部分。有时，他们会包含介绍性段落，为他们将要列出的风险提供额外的上下文。有很多随机因素会干扰为文档结构建立任何类型的模式的能力，因此目前由人工解析这些比机器更有效。但是，有成千上万的文件，这使得这是一个非常乏味、昂贵和耗时的过程。一种可能有用的方法是 Amazon 的 Mechanical Turk，但这仍然可能需要大量的前期开发时间，并且可能导致成本限制，除非该项目资金充足。

关于html - 来自 10-K EDGAR 的网页抓取风险因素，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62430243/

html - 来自 10-K EDGAR 的网页抓取风险因素

上一篇：php - 为什么我不能在 PHP OpenSSL 中为 EC 使用小于 384 位的 key 长度？

下一篇：symfony - Shopware 6 计划任务未运行