СУБД срещу извличане на данни
СУБД (Database Management System) е цялостна система, използвана за управление на цифрови бази данни, която позволява съхранение на съдържание на база данни, създаване / поддръжка на данни, търсене и други функционалности. От друга страна, Data Mining е област в компютърните науки, която се занимава с извличането на неизвестна досега и интересна информация от сурови данни. Обикновено данните, използвани като вход за процеса на извличане на данни, се съхраняват в бази данни. Потребителите, които са склонни към статистика, използват Data Mining. Те използват статистически модели, за да търсят скрити модели в данните. Майнерите на данни се интересуват от намирането на полезни връзки между различни елементи от данни, което в крайна сметка е изгодно за бизнеса.
СУБД
СУБД, понякога наричана просто мениджър на база данни, представлява съвкупност от компютърни програми, която е предназначена за управление (т.е. организация, съхранение и извличане) на всички бази данни, които са инсталирани в система (т.е. твърд диск или мрежа). В света съществуват различни видове системи за управление на бази данни и някои от тях са предназначени за правилното управление на бази данни, конфигурирани за специфични цели. Най-популярните търговски системи за управление на бази данни са Oracle, DB2 и Microsoft Access. Всички тези продукти осигуряват средства за разпределяне на различни нива на привилегии за различни потребители, което прави възможно СУБД да се контролира централно от един администратор или да бъде разпределена на няколко различни души. Във всяка система за управление на бази данни има четири важни елемента. Те са езикът за моделиране,структури от данни, език за заявки и механизъм за транзакции. Езикът за моделиране определя езика на всяка база данни, хоствана в СУБД. В момента няколко популярни подхода като йерархичен, мрежов, релационен и обектен са на практика. Структурите на данните помагат да се организират данните като отделни записи, файлове, полета и техните дефиниции и обекти като визуален носител. Езикът за заявки за данни поддържа сигурността на базата данни чрез наблюдение на данните за вход, права за достъп до различни потребители и протоколи за добавяне на данни към системата. SQL е популярен език за заявки, който се използва в релационните системи за управление на бази данни. И накрая, механизмът, който позволява транзакции, помага за едновременността и множествеността. Този механизъм ще гарантира, че един и същ запис няма да бъде модифициран от множество потребители едновременно,като по този начин поддържа целостта на данните в такт. Освен това СУБД осигуряват архивиране и други съоръжения.
Извличане на данни
Извличането на данни е известно още като Откриване на знания в данни (KDD). Както бе споменато по-горе, това е измама на компютърните науки, която се занимава с извличането на неизвестна досега и интересна информация от сурови данни. Поради експоненциалния растеж на данните, особено в области като бизнеса, извличането на данни се превърна в много важен инструмент за превръщане на това голямо богатство от данни в бизнес разузнаване, тъй като ръчното извличане на модели стана на пръв поглед невъзможно през последните няколко десетилетия. Например понастоящем се използва за различни приложения като анализ на социалните мрежи, откриване на измами и маркетинг. Извличането на данни обикновено се занимава със следните четири задачи: групиране, класификация, регресия и асоцииране. Клъстерирането е идентифициране на подобни групи от неструктурирани данни. Класификацията е правила за обучение, които могат да бъдат приложени към нови данни и обикновено включват следните стъпки: предварителна обработка на данни, проектиране на моделиране, обучение / избор на характеристики и оценка / валидиране. Регресията е намиране на функции с минимална грешка при моделиране на данни. А асоциацията търси връзки между променливите. Извличането на данни обикновено се използва, за да се отговори на въпроси като кои са основните продукти, които могат да помогнат за постигането на висока печалба през следващата година в Wal-Mart?Извличането на данни обикновено се използва, за да се отговори на въпроси като кои са основните продукти, които могат да помогнат за постигането на висока печалба през следващата година в Wal-Mart?Извличането на данни обикновено се използва, за да се отговори на въпроси като кои са основните продукти, които могат да помогнат за постигането на висока печалба през следващата година в Wal-Mart?
Каква е разликата между СУБД и извличането на данни?
СУБД е пълноценна система за настаняване и управление на набор от цифрови бази данни. Извличането на данни обаче е техника или концепция в компютърните науки, която се занимава с извличане на полезна и неизвестна досега информация от сурови данни. В повечето случаи тези сурови данни се съхраняват в много големи бази данни. Следователно майнерите на данни използват съществуващите функционалности на СУБД за обработка, управление и дори предварителна обработка на сурови данни преди и по време на процеса на извличане на данни. Въпреки това, само DBMS система не може да се използва за анализ на данни. Понастоящем някои СУБД имат вградени инструменти или възможности за анализ на данни.