我想定义一些函数来处理自然语言文本。这些函数中的每一个都为文本添加了一些“注释”,例如:
class Annotation(val begin: Int, val end: Int)
class Sentence(begin: Int, end: Int) extends Annotation(begin, end)
class Token(begin: Int, end: Int) extends Annotation(begin, end)
所以我可能有一个添加 Token 注释的 Tokenizer 函数,一个添加 Sentence 注释的 SentenceSegmenter 函数,等等。这些函数对它们的运行顺序有一些限制。例如,Tokenizer 可能需要 Sentence 注释,因此它必须在 SentenceSegmenter 之后运行。在这种情况下,如果我不小心以错误的顺序编写这些函数,我希望得到一个编译错误。所以 sentenceSegmenter andThen tokenizer
应该编译,但是 tokenizer andThen sentenceSegmenter
不应该。
下面是我的尝试。我为文本定义了一个特殊的容器类型,其中类型参数指定(通过复合类型)文本中添加了哪些注释,然后函数适本地指定它们的类型参数以确保它们在满足先决条件之前无法运行是复合类型的一部分。
trait AnalyzedText[T] {
def text: String
def ++[U](annotations: Iterator[U]): AnalyzedText[T with U]
}
val begin: (AnalyzedText[Any] => AnalyzedText[Any]) = identity
def sentenceSegmenter[T]: (AnalyzedText[T] => AnalyzedText[T with Sentence]) = ???
def tokenizer[T <: Sentence]: (AnalyzedText[T] => AnalyzedText[T with Token]) = ???
// compiles
val pipeline = begin andThen sentenceSegmenter andThen tokenizer
// fails to compile -- good!
//val brokenPipeline = begin andThen tokenizer andThen sentenceSegmenter
到目前为止,还不错。当我尝试实际定义其中一个函数时,问题就出现了。例如,我想将 tokenizer
定义为:
def tokenizer[T <: Sentence]: (AnalyzedText[T] => AnalyzedText[T with Token]) =
text => text ++ "\\S+".r.findAllMatchIn(text.text).map(m => new Token(m.start, m.end))
但是 Scala 编译器不知道如何为 ++
方法推断类型参数,除非我手动指定类型参数,text.++[Token] (...)
,这会产生错误:
type mismatch; found: Iterator[Token] required: Iterator[Nothing]
有没有办法让这个类型参数被推断出来?或者,我是不是对问题的思考有误?在 Scala 中是否有更好的方法来捕获这些类型的函数组合约束?
最佳答案
这看起来 an awful lot like a bug .与此同时,有一个非常简单的解决方法——只需将您的处理器定义为一个方法并省略返回类型:
def tokenizer[T <: Sentence](text: AnalyzedText[T]) =
text ++ "\\S+".r.findAllMatchIn(text.text).map(m => new Token(m.start, m.end))
现在您可以用完全相同的方式定义您的管道
,并且 eta 扩展(§6.26.5)会将方法转换为函数。
作为脚注:奇怪的是下面的内容很好,给定上面的 tokenizer
的定义:
def tokFunc[T <: Sentence]: (AnalyzedText[T] => AnalyzedText[T with Token]) =
tokenizer _
我看了一眼the issue tracker但没有找到任何明显相关的东西。可能值得深入挖掘并提出问题或发送电子邮件 one of the lists如果你有时间的话。
关于scala - scala中函数组合顺序的编译时约束,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17559687/