Извличане на данни срещу OLAP
И извличането на данни, и OLAP са две от често срещаните технологии за бизнес разузнаване (BI). Бизнес разузнаването се отнася до компютърно базирани методи за идентифициране и извличане на полезна информация от бизнес данни. Извличането на данни е областта на компютърните науки, която се занимава с извличане на интересни модели от големи набори от данни. Той съчетава много методи от изкуствен интелект, статистика и управление на бази данни. OLAP (онлайн аналитична обработка), както подсказва името, е компилация от начини за заявки за многомерни бази данни.
Извличането на данни е известно още като Откриване на знания в данни (KDD). Както бе споменато по-горе, това е област на компютърните науки, която се занимава с извличане на неизвестна досега и интересна информация от сурови данни. Поради експоненциалния растеж на данните, особено в области като бизнеса, извличането на данни се превърна в много важен инструмент за превръщане на това голямо богатство от данни в бизнес разузнаване, тъй като ръчното извличане на модели стана на пръв поглед невъзможно през последните няколко десетилетия. Например понастоящем се използва за различни приложения като анализ на социалните мрежи, откриване на измами и маркетинг. Извличането на данни обикновено се занимава със следните четири задачи: групиране, класификация, регресия и асоцииране. Клъстерирането е идентифициране на подобни групи от неструктурирани данни. Класификацията е правила за обучение, които могат да бъдат приложени към нови данни и обикновено включват следните стъпки: предварителна обработка на данни, проектиране на моделиране, обучение / избор на характеристики и оценка / валидиране. Регресията е намиране на функции с минимална грешка при моделиране на данни. А асоциацията търси връзки между променливите. Извличането на данни обикновено се използва за отговори на въпроси като кои са основните продукти, които биха могли да помогнат за постигането на висока печалба през следващата година в Wal-Mart. Извличането на данни обикновено се използва за отговори на въпроси като кои са основните продукти, които могат да помогнат за постигането на висока печалба през следващата година в Wal-Mart. Извличането на данни обикновено се използва за отговори на въпроси като кои са основните продукти, които биха могли да помогнат за постигането на висока печалба през следващата година в Wal-Mart.
OLAP е клас системи, които предоставят отговори на многоизмерни заявки. Обикновено OLAP се използва за маркетинг, бюджетиране, прогнозиране и подобни приложения. От само себе си се разбира, че базите данни, използвани за OLAP, са конфигурирани за сложни и ad hoc заявки с оглед на бързата производителност. Обикновено се използва матрица за показване на изхода на OLAP. Редовете и колоните се формират от размерите на заявката. Те често използват методи за агрегиране на множество таблици, за да получат обобщения. Например, може да се използва, за да разберете за продажбите за тази година в Wal-Mart в сравнение с миналата година? Каква е прогнозата за продажбите през следващото тримесечие? Какво може да се каже за тенденцията, като се разгледа процентната промяна?
Въпреки че е очевидно, че извличането на данни и OLAP са сходни, тъй като работят с данни, за да получат интелигентност, основната разлика идва от това как работят с данните. Инструментите на OLAP осигуряват многоизмерен анализ на данни и те предоставят обобщения на данните, но за разлика от това, извличането на данни се фокусира върху съотношения, модели и влияния в набора от данни. Това е сделка на OLAP с агрегиране, която се свежда до работата на данни чрез „добавяне“, но извличането на данни съответства на „разделяне“. Друга забележителна разлика е, че докато инструментите за извличане на данни моделират данни и връщат действащи правила, OLAP ще провежда техники за сравнение и контрастиране по бизнес измерение в реално време.