Задавайте вопросы, мы ответим
Вы не зашли.
Мне требуется проверять 1000 текстов на предмет дубликатов. При уровне схожести более ~90% отмечать найденную пару как дублирующуюся, сохранив процент схожести. Т.е. точно то, что делает PHP-функция:
Неактивен
Нужна помощь, а тут - тишина. Админы смогут помочь?
Неактивен
MATCH AGAINST имеет другое назначение - поиск заданных слов в тексте. IN BOOLEAN MODE подразумевает использование специального языка запросов. Назначение определяет функциональность - скорее всего порядок слов в том, что ищется не имеет значения для результата (надо проверить). Вряд ли MATCH AGAINST будет заменой similar_text. Скорее всего медленность последней связана с неудачной реализацией в PHP - если реализовать алгоритм similar_text на C, он может быть будет работать быстрее.
Неактивен
Спасибо за ответ!
Опишу свою задачу шире, может быть найдется кто-то, кто сталкивался с подобным:
Мне требуется проверять ~1000 текстов на предмет дубликатов. При уровне схожести более ~90% отмечать найденную пару как дублирующуюся, сохранив процент схожести. Т.е. точно то, что делает функция:
Неактивен