我正在尝试使用 Pipes 编写一个网络抓取器,并且我已经完成了跟踪抓取链接的部分。我有一个 process
函数,可以下载 url、查找链接并生成它们。
process :: Pipe Item Item (StateT CState IO) ()
....
for (each links) yield
....
现在我想知道如何递归地跟踪这些链接,并通过 StateT 进行线程化。我意识到可能会做一些更惯用的事情,然后使用单个管道来处理大部分刮刀(特别是当我开始添加更多功能时),我愿意接受建议。无论如何,当我考虑使用共享状态的多线程时,我可能不得不重新考虑设计。
最佳答案
您可以通过 m
参数将 Pipe a b m r
连接到副作用,该参数会交换管道正在运行的 Monad
。您可以使用它来重新排队链接,方法是将管道的下游端连接到另一个将链接粘贴在队列中的管道,并将管道的上游端连接到从队列中读取链接的管道。
我们的目标是写
import Pipes
loopLeft :: Monad m => Pipe (Either l a) (Either l b) m r -> Pipe a b m r
我们将采用一个管道,其下游输出Either l b
可以是发送回上游的Left l
,也可以是Right b
发送下游,并将 l
发送回上游输入 Iither l a
,它是排队的 Left l
或 >右a
来自上游。我们将把 Left l
连接在一起,创建一个管道,该管道只能看到来自上游的 a
,并且只产生流向下游的 b
。
在下游端,我们将把 Left l
中的 l
压入堆栈。我们从Right r
下游产生
r
。
import Control.Monad
import Control.Monad.Trans.State
pushLeft :: Monad m => Pipe (Either l a) a (StateT [l] m) r
pushLeft = forever $ do
o <- await
case o of
Right a -> yield a
Left l -> do
stack <- lift get
lift $ put (l : stack)
在上游端,我们将在堆栈顶部寻找一些东西来yield
。如果没有,我们将等待
来自上游的值并产生
它。
popLeft :: Monad m => Pipe a (Either l a) (StateT [l] m) r
popLeft = forever $ do
stack <- lift get
case stack of
[] -> await >>= yield . Right
(x : xs) -> do
lift $ put xs
yield (Left x)
现在我们可以编写loopLeft
。我们将上游和下游管道与管道组合 popLeft >-> hoist lift p >-> PushLeft
组合在一起。 提升机
将Pipe a b m r
变成Pipe a b (t m) r
。 distribute
将 Pipe a b (t m) r
转换为 t (Pipe a b m) r
。为了返回 Pipe a b m r
,我们从空堆栈 []
开始运行整个 StateT
计算。在Pipes.Lift
中有一个很好听的名字evalStateP
用于 evalStateT
和 distribute
的组合。
import Pipes.Lift
loopLeft :: Monad m => Pipe (Either l a) (Either l b) m r -> Pipe a b m r
loopLeft p = flip evalStateT [] . distribute $ popLeft >-> hoist lift p >-> pushLeft
关于Haskell Pipes——让管道消耗它产生的东西(本身),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38515213/