Skip to main content

uniqCombined

Приближённо вычисляет количество различных значений аргумента.

uniqCombined(HLL_precision)(x[, ...])

Функция uniqCombined — это хороший выбор для вычисления количества различных значений.

Аргументы

Функция принимает переменное число входных параметров. Параметры могут быть числовых типов, а также Tuple, Array, Date, DateTime, String.

HLL_precision — это логарифм по основанию 2 от числа ячеек в HyperLogLog. Необязательный, можно использовать функцию как uniqCombined (x [,...]). Для HLL_precision значение по умолчанию — 17, что фактически составляет 96 КБ пространства (2^17 ячеек, 6 бит каждая).

Возвращаемое значение

Детали реализации

Функция:

  • Вычисляет хэш (64-битный для String и 32-битный для всех остальных типов) для всех параметров агрегации, а затем использует его в вычислениях.

  • Используется комбинация трёх алгоритмов: массив, хэш-таблица и HyperLogLog с таблицей коррекции погрешности.

    Для небольшого количества различных значений используется массив. Если размер набора больше, используется хэш-таблица. При дальнейшем увеличении количества значений, используется структура HyperLogLog, имеющая фиксированный размер в памяти.
  • Результат детерминирован (не зависит от порядка выполнения запроса).

Примечание

Так как используется 32-битный хэш для не-String типов, результат будет иметь очень большую ошибку для количества различных элементов существенно больше UINT_MAX (ошибка быстро растёт начиная с нескольких десятков миллиардов различных значений), таким образом в этом случае нужно использовать uniqCombined64

По сравнению с функцией uniq, uniqCombined:

  • Потребляет в несколько раз меньше памяти.
  • Вычисляет в несколько раз более высокой точностью.
  • Обычно имеет немного более низкую производительность. В некоторых сценариях uniqCombined может показывать более высокую производительность, чем uniq, например, в случае распределенных запросов, при которых по сети передаётся большое количество состояний агрегации.

Смотрите также