html - 来自 10-K EDGAR 的网页抓取风险因素

标签 html python-3.x regex web-scraping beautifulsoup

是否有人尝试从“风险因素”部分(即公司的 EDGAR 10-K 文件中的 1A 项使用 BeautifulSoup 或任何其他网络抓取库以及使用正则表达式)提取个人风险因素。

如果您能提供 github 或伪代码,或者至少提供一些先机,这样我就可以继续前进,那将会非常有帮助。

编辑:
10-Ks 的一些例子

  • https://www.sec.gov/Archives/edgar/data/1350653/000156459018005156/atec-10k_20171231.htm
  • https://www.sec.gov/Archives/edgar/data/1591890/000149315218003887/form10-k.htm
  • https://www.sec.gov/Archives/edgar/data/750574/000119312518080325/d472492d10k.htm
  • https://www.sec.gov/Archives/edgar/data/773840/000093041318000292/c89913_10k.htm
  • https://www.sec.gov/Archives/edgar/data/12927/000001292718000007/a201712dec3110k.htm

  • 我给出了 1 个以上的例子,因为 HTML 代码在所有这些代码中都非常随机,以至于使用单一类型的 RegEx 很困难。

    最佳答案

    我花了很多时间尝试使用 REGEX 开发一种方法,但取得了一些有限的成功。问题在于提交给 SEC 的底层 XML 没有严格遵守标准,许多报告偏离了所使用的报告格式。有时,他们会使用大写、标题大小写或使用不同的字母和数字组合来划分部分。有时,他们会包含介绍性段落,为他们将要列出的风险提供额外的上下文。有很多随机因素会干扰为文档结构建立任何类型的模式的能力,因此目前由人工解析这些比机器更有效。但是,有成千上万的文件,这使得这是一个非常乏味、昂贵和耗时的过程。一种可能有用的方法是 Amazon 的 Mechanical Turk,但这仍然可能需要大量的前期开发时间,并且可能导致成本限制,除非该项目资金充足。

    关于html - 来自 10-K EDGAR 的网页抓取风险因素,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62430243/

    相关文章:

    html - 如何修改仅属于特定类的链接?

    javascript - html标签是否停止传播?

    linux - 如何在 linux 中使用 cx_freeze 创建要在 windows 中使用的包

    python-3.x - 如何在 Cythonize() 上使用 annotate=True

    c - 正则表达式获取 C 语言的完整名称

    php - 序列化数据中的正则表达式

    javascript - 向 Windows 8 应用程序添加背景图像

    python-3.x - 如何将包含部分json字符串的文本日志转换为pyspark中的结构化?

    c# - 使用正则表达式将插值字符串转换为 string.Format

    javascript - 隐藏没有指定字符串的 <div>