Що таке Data Mining? Основи та її методи.

Основна частина четвертої промислової революції багато в чому буде залежати дані і зв'язок. Служби аналізу здатні розробляти або створювати рішення для обробки даних, відіграють ключову роль у цьому відношенні. Це може допомогти у аналізі та прогнозуванні результатів поведінки споживачів щодо покупки потенційних покупців. Дані стануть новими природними ресурсами, і процес вилучення відповідної інформації з цих несортованих даних буде мати величезне значення. Як таке, правильне розуміння терміна - Видобуток даних, його процеси та застосування можуть допомогти нам у розробці цілісного підходу щодо цього слова.

Основи Data Mining та її методи

видобуток даних

Видобуток даних, також відомий як Відкриття знань у даних (KDD) - це пошук великих запасів даних, щоб розкрити моделі та тенденції, які виходять за рамки простого аналізу. Це, однак, не одностадійне рішення, а багатоетапний процес і завершене на різних етапах. До них відносяться:

1] Збір та підготовка даних

Починається збір даних та їх належна організація. Це допомагає істотно підвищити шанси знайти інформацію, яка може бути виявлена ​​за допомогою пошуку даних

2] Моделювання та оцінка

Другий крок у процесі пошуку даних - застосування різних методів моделювання. Вони використовуються для калібрування параметрів до оптимальних значень. Застосовувані методи значною мірою залежать від аналітичних можливостей, необхідних для вирішення задач організації та прийняття рішення.

Давайте коротко розглянемо деякі методи видобування даних. Виявлено, що більшість організацій поєднують в собі два або більше методів збору даних для формування відповідного процесу, який відповідає їхнім бізнес-вимогам.

зчитування: Що таке великі дані?

Методи вилучення даних

  1. Асоціація - Асоціація є однією з широко відомих методів обробки даних. Під цим шаблон розшифровується на основі взаємозв'язку між елементами однієї транзакції. Отже, це також відоме як метод зв'язку. Великі роздрібні торговці бренда розраховують на цю техніку для вивчення споживацьких звичок / переваг покупців. Наприклад, під час відстеження купівельних звичок людей, роздрібні торговці можуть визначити, що клієнт завжди купує крем, коли купує шоколадні цукерки, і тому пропонують, щоб наступного разу, коли вони купували шоколад, вони також могли б хотіти купити крем.
  2. Класифікація - Ця методика вимірювання даних відрізняється від вищенаведеного таким чином, що вона базується на машинному вивченні та використовує математичні методи, такі як лінійне програмування, дерева рішень, нейронна мережа. У класифікації компанії намагаються побудувати програмне забезпечення, яке може навчитися класифікувати об'єкти даних у групи. Наприклад, компанія може визначити в заявці класифікацію, що "з урахуванням усіх записів працівників, які запропонували піти у відставку з компанії, передбачити кількість осіб, які можуть піти у відставку". За таким сценарієм компанія може класифікувати записи співробітників у дві групи, а саме "відпустка" та "перебування". Потім він може використовувати своє програмне забезпечення для обробки даних для класифікації співробітників в окремі групи, створені раніше.
  3. Кластеризація - Різні об'єкти, що мають подібні характеристики, згруповані в єдиному кластері за допомогою автоматизації. Багато таких кластерів створюються як класи і об'єкти (з аналогічними характеристиками), відповідно. Щоб зрозуміти це краще, давайте розглянемо приклад управління книгами в бібліотеці. У бібліотеці велика колекція книг повністю каталогізована. Елементи того ж типу перераховані разом. Це полегшує нам пошук книги, яка представляє наш інтерес. Аналогічним чином, використовуючи технологію кластеризації, ми можемо зберігати книги, які мають певні види схожості в одному кластері, і призначити відповідне ім'я. Отже, якщо читач хоче захопити книгу, що відповідає його інтересам, він повинен лише перейти на цю полицю, а не шукати всю бібліотеку. Таким чином, метод кластеризації визначає клас і поміщає об'єкти в кожному класі, в той час як в класифікаційних методиках об'єкти присвоюються заздалегідь визначеним класам.
  4. Прогнозування - Прогноз - це технологія видобування даних, яка часто використовується у поєднанні з іншими методами вилучення даних. Вона включає в себе аналіз тенденцій, класифікацію, співставлення шаблонів та співвідношення. Аналізуючи минулі події або екземпляри у належній послідовності, можна спокійно прогнозувати майбутню подію. Наприклад, технологія аналізу прогнозування може бути використана для продажу для прогнозування майбутнього прибутку, якщо продаж обраний як незалежна змінна та прибуток як змінна залежно від продажу. Потім, виходячи з історичних даних про продаж та прибутку, можна навести критичну регресійну криву, яка використовується для прогнозування прибутку.
  5. Рішення дерев - У дереві рішень ми починаємо з простого питання, що має декілька відповідей. Кожна відповідь викликає додаткове запитання, щоб допомогти класифікувати або ідентифікувати дані, щоб його можна було класифікувати, або щоб прогнозувався кожна відповідь. Наприклад, ми використовуємо таке дерево рішень, щоб визначити, чи потрібно грати в Cricket ODI: Дерево рішень для обробки даних: починаючи з кореневого вузла, якщо прогноз погоди передбачає дощ тоді, нам слід уникати матчу за день. В іншому випадку, якщо прогноз погоди є зрозумілим, ми повинні зіграти матч.

Data Mining є основою аналітичних зусиль у різних галузях та дисциплінах, таких як зв'язок, страхування, освіта, виробництво, банківська справа та роздрібна торгівля тощо. Тому, перш ніж застосовувати різні методи, важливо мати правильну інформацію про це.

джерело

залишити коментар

Цей сайт використовує Akismet для зменшення спаму. Дізнайтеся, як обробляються ваші дані коментарів.