这次我有一道逻辑题。希望你们中有人能帮助我。使用“NSSpeechSynthesizer”您可以设置速率,即每分钟 235 个单词、每分钟 100 个单词等等...
我发现每分钟的平均单词数通常是使用每个单词 5 个字符的标准化单词长度来计算的,同时还计算空格和符号。
我需要自动将长文本分割为具有预先选定的持续时间的轨道,假设每个轨道 15 分钟。
我们如何计算每个“分割”传递给语音引擎的正确字符数?
我的解决方案如下:
// duration is the number of minutes per track
numberOfWordsPerTrack = [rateSlider floatValue] * duration;
splits = [[NSMutableArray alloc] init];
finished = NO;
NSUInteger position = 0;
while( !finished ) {
NSRange range;
// the idea is: I take 5*numberOfWordsPerTrack characters
// until the text allows me to select them
range = NSMakeRange( position, 5*numberOfWordsPerTrack );
if( range.location+range.length > mainTextView.string.length ) {
// If there are not another full character track we get
// the tail of the remaining text
finished = YES;
range = NSMakeRange( position, mainTextView.string.length-position );
}
// Here we get the track and add it to the split list
if( range.location+range.length <= mainTextView.string.length ) {
currentSplit = [mainTextView.string substringWithRange:range];
[splits addObject:currentSplit];
}
position += range.length;
}
此解决方案的问题是轨道持续时间不正确。虽然离期望值还不算太远,但还是不对。例如,每分钟 235 个单词,持续时间 50 分钟,每首轨道有 40 分钟。如果我将每首轨道设置为 120 分钟,则每首轨道的时长为 1h:39m...依此类推...
你认为逻辑错误在哪里?
JanX2 回复后编辑
好吧,在随机思考时,我得出了以下假设,你能告诉我在实现之前你对此有何看法吗,因为这对我的代码来说并不是一个轻微的变化
如果我使用 speechSynthesizer:willSpeakWord:ofString:
委托(delegate)成员,我可以经常测试 .aiff 文件大小,即在说出下一个单词(真实单词,未标准化)之前。因为我们知道这些文件是由合成器创建的赫兹、位和 channel ,并且因为我们知道它们没有被压缩,所以我们可以对轨道的当前长度进行一些猜测。
此解决方案的最大缺点可能是连续的磁盘访问,这会严重降低性能。
你觉得怎么样?
最佳答案
我只能猜测,但您使用的启发式将包括“沉默”字符。为什么不尝试补偿测量误差呢?您似乎有一个几乎是线性的误差,因此您可以将其纳入计算中:
40/50 = 80%
99/120 = 82.5%
所以误差约为 17.5-20%。只需将上面计算的时间乘以 0.8 或 0.825,您就会越来越接近。这很粗糙,但您已经在使用启发式方法了。
顺便说一句:您可能应该考虑使用 -enumerateSubstringsInRange:options:usingBlock:
来实现句子粒度而不是任意单词分割。
使用“-speechSynthesizer:willSpeakWord:ofString:”会导致更大的问题:根据我的经验,它可能与正在写入的文件中的位置不同步数百毫秒到几秒钟。当与 Nuance 声音一起使用时,说出下一个单词似乎有问题。
关于objective-c - NSSpeechSynthesizer 和轨道持续时间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25415448/