То, что не под силу традиционным методам Data Mining

Особенности инновационной технологии

Фундаментальная научная и практическая проблема — поиск сильных (наиболее полных при заданной точности) логических связей (if-then правил) в многомерных данных.

Считается, что решение этой проблемы можно найти только путем полного перебора комбинаций элементарных логических событий, что невозможно реализовать даже с помощью современного суперкомпьютера. Традиционные подходы либо искусственно сильно ограничивают такой перебор, либо используют «жадные» (локально-оптимальные) алгоритмы типа деревьев решений.

Нами в результате многолетних теоретических и практических исследований показано, что в различных точках пространства описания многомерных объектов имеется возможность получить эффект структурного резонанса (СР) — резкое изменение значения показателя, характеризующего гомологию группировок объектов, на некотором шаге специального алгоритма агрегации многомерной информации.

За счет эффекта СР удается выявлять в многомерных данных сильные if-then правила, отражающие сложные системные связи в данных, не доступные для обнаружения с помощью традиционных методов.


Характеристика системы Deep Data Diver, реализующей инновационную технологию в задачах классификации многомерных данных:

1. Точность
Если в данных нет сложных системных связей (характерно для некоторых бизнес приложений), Deep Data Diver показывает точность не ниже традиционных методов. «Трудно найти черную кошку в темной комнате, особенно если ее там нет» (Конфуций).
Для данных со сложными взаимосвязями (биоинформатика, медицина, хемометрика) система Deep Data Diver показывает существенно более высокую точность. Это особенно сильно проявляется в увеличении показателя AUC[CROC] — площади под концентрированной кривой ошибок.

2. Вычислительная сложность
Алгоритмы, реализующие ограниченный перебор, — экспоненциальная сложность.
Деревья решений — O(PNL)
Deep Data Diver — O(PN)
Где P — количество признаков; N — количество объектов; L — глубина дерева.

3. Интерпретируемость результата
Сильные правила значительно лучше интерпретируются. Поэтому система Deep Data Diver обладает неоспоримыми преимуществами перед конкурентами.


Характеристика системы Big Data KDK

Интерпретируемость и объективность кластеров. Кластеры, выявляемые как группировки в локальных пространствах, имеют прозрачную интерпретацию в виде логических высказываний и объективно отражают контекст анализа, заданный значениями целевых переменных.

Параллельность. Процедура кластерного анализа организуется как набор однотипных алгоритмов построения локальных метрик для выбранных объектов и естественным образом распараллеливается.

Решение проблемы «неполных описаний объектов». Проблема пропущенных значений, характерная для Big Data, получает свое разрешение за счет того, что для каждого (выбранного) объекта формируется собственное пространство описания.

• Динамическое дообучение. Новые данные, пополняющие базу данных, в динамике проверяются на принадлежность к ранее выявленным кластерам, и, при необходимости, для этих данных формируются новые локальные пространства и, соответственно, кластеры.

• Оценка валидности данных. Процедура построения контекстно-зависимых локальных метрик позволяет динамично оценивать информационную ценность по отношения к заданному целевому критерию как отдельно взятых объектов, так и всего массива информации в целом.


Характеристика системы Big Basket

Система Big Basket предназначена для решения задачи анализа рыночной корзины. Она использует новую технологию поиска ассоциативных правил, основанную на представлениях локальной геометрии и эффекте структурного резонанса в многомерных данных. Уникальные свойства системы позволяют находить в данных высокоточные ассоциации элементов исходного множества транзакций с заданным элементом. Эти множества образуют корзину с высоким уровнем обеспечения (support) и длинным набором элементов (long itemsets).