KDD срещу извличане на данни
KDD (Откриване на знания в бази данни) е област на компютърните науки, която включва инструментите и теориите, които помагат на хората да извличат полезна и неизвестна досега информация (т.е. знания) от големи колекции от дигитализирани данни. KDD се състои от няколко стъпки и Data Mining е една от тях. Data Mining е прилагане на специфичен алгоритъм за извличане на модели от данни. Независимо от това, KDD и Data Mining се използват взаимозаменяемо.
Какво е KDD?
Както бе споменато по-горе, KDD е област на компютърните науки, която се занимава с извличане на неизвестна досега и интересна информация от сурови данни. KDD е целият процес на опит за осмисляне на данни чрез разработване на подходящи методи или техники. Този процес се занимава с картографиране на данни от ниско ниво в други форми, които са по-компактни, абстрактни и полезни. Това се постига чрез създаване на кратки доклади, моделиране на процеса на генериране на данни и разработване на прогнозни модели, които могат да предскажат бъдещи случаи. Поради експоненциалния растеж на данните, особено в области като бизнеса, KDD се превърна в много важен процес за превръщане на това голямо богатство от данни в бизнес разузнаване, тъй като ръчното извличане на модели стана на пръв поглед невъзможно през последните няколко десетилетия. Например,понастоящем се използва за различни приложения като анализ на социални мрежи, откриване на измами, наука, инвестиции, производство, телекомуникации, почистване на данни, спорт, извличане на информация и до голяма степен за маркетинг. KDD обикновено се използва, за да отговори на въпроси като кои са основните продукти, които могат да помогнат за постигането на висока печалба през следващата година в Wal-Mart ?. Този процес има няколко стъпки. Започва с разработване на разбиране за домейна на приложението и целта и след това създаване на целеви набор от данни. Това е последвано от почистване, предварителна обработка, намаляване и проектиране на данни. Следващата стъпка е използването на Data Mining (обяснено по-долу) за идентифициране на модела. И накрая, откритото знание се консолидира чрез визуализиране и / или тълкуване.спорт, извличане на информация и до голяма степен за маркетинг. KDD обикновено се използва, за да отговори на въпроси като кои са основните продукти, които могат да помогнат за постигането на висока печалба през следващата година в Wal-Mart ?. Този процес има няколко стъпки. Започва с разработване на разбиране за домейна на приложението и целта и след това създаване на целеви набор от данни. Това е последвано от почистване, предварителна обработка, намаляване и проектиране на данни. Следващата стъпка е използването на Data Mining (обяснено по-долу) за идентифициране на модела. И накрая, откритото знание се консолидира чрез визуализиране и / или тълкуване.спорт, извличане на информация и до голяма степен за маркетинг. KDD обикновено се използва, за да отговори на въпроси като кои са основните продукти, които могат да помогнат за постигането на висока печалба през следващата година в Wal-Mart ?. Този процес има няколко стъпки. Започва с разработване на разбиране за домейна на приложението и целта и след това създаване на целеви набор от данни. Това е последвано от почистване, предварителна обработка, намаляване и проектиране на данни. Следващата стъпка е използването на Data Mining (обяснено по-долу) за идентифициране на модела. И накрая, откритото знание се консолидира чрез визуализиране и / или тълкуване. Започва с разработване на разбиране за домейна на приложението и целта и след това създаване на целеви набор от данни. Това е последвано от почистване, предварителна обработка, намаляване и проектиране на данни. Следващата стъпка е използването на Data Mining (обяснено по-долу) за идентифициране на модела. И накрая, откритото знание се консолидира чрез визуализиране и / или тълкуване. Започва с разработване на разбиране за домейна на приложението и целта и след това създаване на целеви набор от данни. Това е последвано от почистване, предварителна обработка, намаляване и проектиране на данни. Следващата стъпка е използването на Data Mining (обяснено по-долу) за идентифициране на модела. И накрая, откритото знание се консолидира чрез визуализиране и / или тълкуване.
Какво е извличане на данни?
Както бе споменато по-горе, извличането на данни е само стъпка в цялостния процес на KDD. Има две основни цели за извличане на данни, както са определени от целта на приложението, а именно те са проверка или откриване. Проверката е проверка на хипотезата на потребителя за данни, докато откриването автоматично намира интересни модели. Има четири основни задачи за извличане на данни: групиране, класификация, регресия и асоцииране (обобщение). Клъстерирането е идентифициране на подобни групи от неструктурирани данни. Класификацията е правила за обучение, които могат да бъдат приложени към нови данни. Регресията е намиране на функции с минимална грешка при моделиране на данни. А асоциацията търси връзки между променливите. След това трябва да бъде избран специфичният алгоритъм за извличане на данни. В зависимост от целта, различни алгоритми като линейна регресия, логистична регресия,могат да бъдат избрани дървета за вземане на решения и наивни Bayes. След това се търсят модели на интерес в една или повече представителни форми. И накрая, моделите се оценяват, използвайки точност на предсказване или разбираемост.
Каква е разликата между KDD и Data mining?
Въпреки че двата термина KDD и Data Mining са широко използвани като взаимозаменяеми, те се отнасят до две свързани, но малко различни концепции. KDD е цялостният процес на извличане на знания от данни, докато Data Mining е стъпка в процеса на KDD, която се занимава с идентифициране на модели в данните. С други думи, Data Mining е само прилагането на специфичен алгоритъм, основан на общата цел на KDD процеса.