是否有人尝试从“风险因素”部分(即公司的 EDGAR 10-K 文件中的 1A 项使用 BeautifulSoup 或任何其他网络抓取库以及使用正则表达式)提取个人风险因素。
如果您能提供 github 或伪代码,或者至少提供一些先机,这样我就可以继续前进,那将会非常有帮助。
编辑:
10-Ks 的一些例子
我给出了 1 个以上的例子,因为 HTML 代码在所有这些代码中都非常随机,以至于使用单一类型的 RegEx 很困难。
最佳答案
我花了很多时间尝试使用 REGEX 开发一种方法,但取得了一些有限的成功。问题在于提交给 SEC 的底层 XML 没有严格遵守标准,许多报告偏离了所使用的报告格式。有时,他们会使用大写、标题大小写或使用不同的字母和数字组合来划分部分。有时,他们会包含介绍性段落,为他们将要列出的风险提供额外的上下文。有很多随机因素会干扰为文档结构建立任何类型的模式的能力,因此目前由人工解析这些比机器更有效。但是,有成千上万的文件,这使得这是一个非常乏味、昂贵和耗时的过程。一种可能有用的方法是 Amazon 的 Mechanical Turk,但这仍然可能需要大量的前期开发时间,并且可能导致成本限制,除非该项目资金充足。
关于html - 来自 10-K EDGAR 的网页抓取风险因素,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62430243/