objective-c - NSSpeechSynthesizer 和轨道持续时间

标签 objective-c macos cocoa text-to-speech

这次我有一道逻辑题。希望你们中有人能帮助我。使用“NSSpeechSynthesizer”您可以设置速率,即每分钟 235 个单词、每分钟 100 个单词等等...

我发现每分钟的平均单词数通常是使用每个单词 5 个字符的标准化单词长度来计算的,同时还计算空格和符号。

我需要自动将长文本分割为具有预先选定的持续时间的轨道,假设每个轨道 15 分钟。

我们如何计算每个“分割”传递给语音引擎的正确字符数?

我的解决方案如下:

// duration is the number of minutes per track
numberOfWordsPerTrack = [rateSlider floatValue] * duration;
splits = [[NSMutableArray alloc] init];

finished = NO;
NSUInteger position = 0;
while( !finished ) {
    NSRange range;

    // the idea is: I take 5*numberOfWordsPerTrack characters
    // until the text allows me to select them  
    range = NSMakeRange( position, 5*numberOfWordsPerTrack );
    if( range.location+range.length > mainTextView.string.length ) {
        // If there are not another full character track we get
        // the tail of the remaining text 
        finished = YES;
        range = NSMakeRange( position, mainTextView.string.length-position );
    }

    // Here we get the track and add it to the split list  
    if( range.location+range.length <= mainTextView.string.length ) {
        currentSplit = [mainTextView.string substringWithRange:range];
        [splits addObject:currentSplit];
    }

    position += range.length;
}

此解决方案的问题是轨道持续时间不正确。虽然离期望值还不算太远,但还是不对。例如,每分钟 235 个单词,持续时间 50 分钟,每首轨道有 40 分钟。如果我将每首轨道设置为 120 分钟,则每首轨道的时长为 1h:39m...依此类推...

你认为逻辑错误在哪里?

JanX2 回复后编辑

好吧,在随机思考时,我得出了以下假设,你能告诉我在实现之前你对此有何看法吗,因为这对我的代码来说并不是一个轻微的变化

如果我使用 speechSynthesizer:willSpeakWord:ofString: 委托(delegate)成员,我可以经常测试 .aiff 文件大小,即在说出下一个单词(真实单词,未标准化)之前。因为我们知道这些文件是由合成器创建的赫兹、位和 channel ,并且因为我们知道它们没有被压缩,所以我们可以对轨道的当前长度进行一些猜测。

此解决方案的最大缺点可能是连续的磁盘访问,这会严重降低性能。

你觉得怎么样?

最佳答案

我只能猜测,但您使用的启发式将包括“沉默”字符。为什么不尝试补偿测量误差呢?您似乎有一个几乎是线性的误差,因此您可以将其纳入计算中:

40/50 = 80%
99/120 = 82.5%

所以误差约为 17.5-20%。只需将上面计算的时间乘以 0.8 或 0.825,您就会越来越接近。这很粗糙,但您已经在使用启发式方法了。

顺便说一句:您可能应该考虑使用 -enumerateSubstringsInRange:options:usingBlock: 来实现句子粒度而不是任意单词分割。

使用“-speechSynthesizer:willSpeakWord:ofString:”会导致更大的问题:根据我的经验,它可能与正在写入的文件中的位置不同步数百毫秒到几秒钟。当与 Nuance 声音一起使用时,说出下一个单词似乎有问题。

关于objective-c - NSSpeechSynthesizer 和轨道持续时间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25415448/

相关文章:

objective-c - 核心数据 managedObjectContext - 它来自哪里?

ios - 从非 TabBarViewController 或 ContainerViewController 添加 tabBarItem?

objective-c - 核心数据-带日期的谓词

ios - NSCondition 或 @synchronized

macos - 使用 NSDocument 检测被覆盖的文件

macos - 添加 Chromium Embedded Framework 后,代码签名失败

xcode - 应用程序部署问题

cocoa - 类似于 NSSound 的框架,可以工作,但不需要处理陡峭的学习曲线

macos - NSFilehandle Swift

objective-c - 将对象插入 NSMutableArray 时出现意外行为