Особенности инновационной технологии
Фундаментальная научная и практическая проблема — поиск сильных (наиболее полных при заданной точности) логических связей (if-then правил) в многомерных данных.
Считается, что решение этой проблемы можно найти только путем полного перебора комбинаций элементарных логических событий, что невозможно реализовать даже с помощью современного суперкомпьютера. Традиционные подходы либо искусственно сильно ограничивают такой перебор, либо используют «жадные» (локально-оптимальные) алгоритмы типа деревьев решений.
Нами в результате многолетних теоретических и практических исследований показано, что в различных точках пространства описания многомерных объектов имеется возможность получить эффект структурного резонанса (СР) — резкое изменение значения показателя, характеризующего гомологию группировок объектов, на некотором шаге специального алгоритма агрегации многомерной информации.
За счет эффекта СР удается выявлять в многомерных данных сильные if-then правила, отражающие сложные системные связи в данных, не доступные для обнаружения с помощью традиционных методов.
Характеристика системы Deep Data Diver, реализующей инновационную технологию в задачах классификации многомерных данных:
- 1. Точность
- • Если в данных нет сложных системных связей (характерно для некоторых бизнес приложений), Deep Data Diver показывает точность не ниже традиционных методов. «Трудно найти черную кошку в темной комнате, особенно если ее там нет» (Конфуций).
- • Для данных со сложными взаимосвязями (биоинформатика, медицина, хемометрика) система Deep Data Diver показывает существенно более высокую точность. Это особенно сильно проявляется в увеличении показателя AUC[CROC] — площади под концентрированной кривой ошибок.
- 2. Вычислительная сложность
- • Алгоритмы, реализующие ограниченный перебор, — экспоненциальная сложность.
- • Деревья решений — O(PNL)
- • Deep Data Diver — O(PN)
- Где P — количество признаков; N — количество объектов; L — глубина дерева.
- 3. Интерпретируемость результата
- Сильные правила значительно лучше интерпретируются. Поэтому система Deep Data Diver обладает неоспоримыми преимуществами перед конкурентами.
Характеристика системы Big Data KDK
• Интерпретируемость и объективность кластеров. Кластеры, выявляемые как группировки в локальных пространствах, имеют прозрачную интерпретацию в виде логических высказываний и объективно отражают контекст анализа, заданный значениями целевых переменных.
• Параллельность. Процедура кластерного анализа организуется как набор однотипных алгоритмов построения локальных метрик для выбранных объектов и естественным образом распараллеливается.
• Решение проблемы «неполных описаний объектов». Проблема пропущенных значений, характерная для Big Data, получает свое разрешение за счет того, что для каждого (выбранного) объекта формируется собственное пространство описания.
• Динамическое дообучение. Новые данные, пополняющие базу данных, в динамике проверяются на принадлежность к ранее выявленным кластерам, и, при необходимости, для этих данных формируются новые локальные пространства и, соответственно, кластеры.
• Оценка валидности данных. Процедура построения контекстно-зависимых локальных метрик позволяет динамично оценивать информационную ценность по отношения к заданному целевому критерию как отдельно взятых объектов, так и всего массива информации в целом.
Характеристика системы Big Basket
Система Big Basket предназначена для решения задачи анализа рыночной корзины. Она использует новую технологию поиска ассоциативных правил, основанную на представлениях локальной геометрии и эффекте структурного резонанса в многомерных данных. Уникальные свойства системы позволяют находить в данных высокоточные ассоциации элементов исходного множества транзакций с заданным элементом. Эти множества образуют корзину с высоким уровнем обеспечения (support) и длинным набором элементов (long itemsets).