c++ - SymSpellPlusPlus 中的分词

标签 c++ pointers spell-checking

我想使用 C++ 版本的 SymSpell ,称为 SymSpellPlusPlus .在 C# 版本中使用 WordSegmentation 看起来像这样(来自第一个链接):

//word segmentation and correction for multi-word input strings with/without spaces
inputTerm="thequickbrownfoxjumpsoverthelazydog";
maxEditDistance = 0;
suggestion = symSpell.WordSegmentation(input);

//display term and edit distance
Console.WriteLine(suggestion.correctedString + " " + suggestion.distanceSum.ToString("N0"));

在 C++ 版本中,WordSegmentation 方法返回共享指针(来自第二个链接):

     ...
     shared_ptr<WordSegmentationItem> WordSegmentation(const char* input)
        {
            return WordSegmentation(input, this->maxDictionaryEditDistance, this->maxDictionaryWordLength);
        }

     shared_ptr<WordSegmentationItem> WordSegmentation(const char* input, size_t maxEditDistance)
        {
            return WordSegmentation(input, maxEditDistance, this->maxDictionaryWordLength);
        }

     shared_ptr<WordSegmentationItem> WordSegmentation(const char* input, size_t maxEditDistance, size_t maxSegmentationWordLength)
        {
          // lines 1039 - 1179 under second link
          std::vector<shared_ptr<WordSegmentationItem>> compositions;
          ...
          return compositions[circularIndex];
        }

在我的代码中,我尝试了以下代码:

const char* inputTerm = "whereis th elove hehad dated forImuch of thepast who couqdn'tread in sixtgrade and ins pired him";
auto suggestions = symSpell.WordSegmentation(inputTerm);

但是报错:

free() invalid next size (fast)

与内存错误有关,但我不知道如何解决这个问题。
类 WordSegmentationItem 如下所示(第二个链接中的第 292-325 行):

class WordSegmentationItem
    {
    public:
        const char* segmentedString{ nullptr };
        const char* correctedString{ nullptr };
        u_int8_t distanceSum = 0;
        double probabilityLogSum = 0;

        WordSegmentationItem() { }
        WordSegmentationItem(const symspell::WordSegmentationItem & p)
        {
            this->segmentedString = p.segmentedString;
            this->correctedString = p.correctedString;
            this->distanceSum = p.distanceSum;
            this->probabilityLogSum = p.probabilityLogSum;
        }

        WordSegmentationItem& operator=(const WordSegmentationItem&) { return *this; }
        WordSegmentationItem& operator=(WordSegmentationItem&&) { return *this; }

        void set(const char* pSegmentedString, const char* pCorrectedString, u_int8_t pDistanceSum, double pProbabilityLogSum)
        {
            this->segmentedString = pSegmentedString;
            this->correctedString = pCorrectedString;
            this->distanceSum = pDistanceSum;
            this->probabilityLogSum = pProbabilityLogSum;
        }

        ~WordSegmentationItem()
        {
            delete[] segmentedString;
            delete[] correctedString;
        }
};

我应该如何从 WordSegmentationItem 中获取 correctedString?

最佳答案

库有问题,作者需要进行一些修复。

首先,编译给我们一个关于 SuggestItem::ShallowCopy 的警告,它通过引用返回局部变量。很坏!我们可以将其更改为按值返回。

但这并不能解决崩溃问题。

如果我们克隆库的 repo,然后在调试器中运行以下测试用例:

#include "symspell6.h"

int main()
{
    const char* inputTerm = "whereis th elove hehad dated forlmuch of thepast who couqdn'tread in sixtgrade and ins pired him";

    symspell::SymSpell symSpell;
    auto suggestions = symSpell.WordSegmentation(inputTerm);
}

...我们看到从 WordSegmentation 函数返回 compositions[circularIndex] 会导致 shared_ptr 构造函数中的无效访问。这表明 circularIndex 越界并给了我们一个不存在的 shared_ptr。事实上,circularIndex95compositions.size()0!

该函数缺少一些严重的错误检查。

现在,只有作者(或者至少知道库应该做什么的人;那不是我!)才能正确解决这个问题。但作为一个快速补丁,我在第 1055 行之后添加了以下内容:

if (compositions.empty())
   return nullptr;

……它现在至少可以运行了。

似乎该函数假定字典是非空的。我不知道这是否是预期的行为(除了上面详述的缺失错误检查)。

该项目非常需要一些文档,因为没有提及这些函数的先决条件或后置条件,也没有说明应该如何使用该库。同样,作者应该修复这些问题。

关于c++ - SymSpellPlusPlus 中的分词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56394962/

相关文章:

c++ - 如何在没有任何依赖库的情况下在 Visual Studio 中构建 dll?

c++ - C++ 中的指针未正确初始化

java - Java 中 Jazzy 库的 Aspell 字典

c++ - QQuickItem 不会渲染

c++ - 基类构造器

c++ - 从c++中的一行字符串中提取数字

c++ - 为什么我们在解析器文件中定义 union 时使用复杂类的指针?

c - 如何获取 C 指针的物理地址作为值?

lucene - 基于多个字段的 Solr/Lucene 拼写检查建议

algorithm - 什么算法在拼写检查器中提供建议?