r - 在 RStudio 中拆分扬声器和对话

标签 r text-mining

我有这样的文件:

President Dr. Norbert Lammert: I declare the session open.

I will now give the floor to Bundesminister Alexander Dobrindt.

(Applause of CDU/CSU and delegates of the SPD)

Alexander Dobrindt, Minister for Transport and Digital Infrastructure:

Ladies and Gentleman. We will today start the biggest investment in infrastructure that ever existed, with over 270 billion Euro, over 1 000 projects and a clear financing perspective.

(Volker Kauder [CDU/CSU]: Genau!)

(Applause of the CDU/CSU and the SPD)



当我阅读那些 .txt 文档时,我想创建第二列,指示演讲者姓名。

所以我尝试的是首先创建一个所有可能名称的列表并替换它们..
library(qdap)

members <- c("Alexander Dobrindt, Minister for Transport and Digital Infrastructure:","President Dr. Norbert Lammert:")
members_r <- c("@Alexander Dobrindt, Minister for Transport and Digital Infrastructure:","@President Dr. Norbert Lammert:")

prok <- scan(".txt", what = "character", sep = "\n")
prok <- mgsub(members,members_r,prok)

prok <- as.data.frame(prok)
prok$speaker <- grepl("@[^\\@:]*:",prok$prok, ignore.case = T)

我的计划是然后通过正则表达式获取@ 和 : 之间的名称,如果 Speaker == true 并将其向下应用,直到出现不同的名称(并显然删除所有掌声/喊叫括号),但这也是我不确定如何我可以那样做。

最佳答案

这是方法:

      require (qdap)
      #text is the document text

      # remove round brackets and text b/w ()
      a <- bracketX(text, "round") 

      names <- c("President Dr. Norbert Lammert","Alexander Dobrindt" )
      searchString <- paste(names[1],names[2], sep = ".+")

      # Get string from names[1] till names[2] with the help of searchString
      string <- regmatches(a, regexpr(searchString, a))

      # remove names[2] from string
      string <- gsub(names[2],"",string)

当名字超过2个时,此代码可以循环

关于r - 在 RStudio 中拆分扬声器和对话,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41100482/

相关文章:

r - 打印在RStudio中使用R Markdown在函数中生成的图

r - 更新了 R "maps"包的世界地图?

R 需要重新启动 RStudio 以使用 dev.copy() 和 dev.off() 查看并保存在文件中

r - 如何使用 dynlm 模型修复 Stargazer 中无法识别的对象错误?

r - enc2utf8(x) : argumemt is not a character vector 中的错误

r - 在 Shiny 中上传许多文件

r - 两个因子的变量均值

r - R中两个句子之间的词级编辑距离

r - Wordcloud 基于 R 中的连续元数据显示颜色

java - lucene 对常见 NLP 任务的支持