Що таке розпізнавання зображень?

419

Що таке технологія розпізнавання зображень?
Розпізнавання зображень (деякі також називають «комп’ютерним зором») це технологія, яка створена отримувати, обробляти, аналізувати і розуміти зображення реального світу, з метою надати цифрову або символьну інформацію.
Що ви сказали?
Не турбуйтеся. Ми розуміємо, що це складно. Дозвольте перефразувати: коли ви завантажуєте свою фотографію, або фотографію ваших друзів на Facebook, всі особи будуть розпізнані і користувачі будуть автоматично зазначені: це і називається розпізнаванням зображень.
Добре, це звучить набагато зрозуміліше
Чудово! Тому що зараз буде ще складніше… Комп’ютерне зір – дуже широка область комп’ютерних наук, так як сюди залучено безліч аспектів, таких як машинне навчання, інтелектуальний аналіз даних, розширення бази знань, розпізнавання шаблонів, та інші. Дослідження в даній області привели до технологій, які імітують людський зір. І для того, щоб створити програмне забезпечення, здатне бачити, вам знадобиться пара лінз.
Що ви маєте на увазі?
Я маю на увазі, що для того, щоб обробити зображення, вам для початку потрібно його зняти за допомогою камери. Потім, програмне забезпечення витягує з нього необхідну інформацію, і після цього, вчиняє дії, грунтуючись на отриманих даних. До недавніх пір, цифрові камери були непристойно дорогими, мали дуже низький дозвіл, і розпізнавання зображень було неможливо здійснювати в режимі реального часу. Але з приходом мобільних телефонів і високошвидкісних камер, можливості стали безмежні. Наприклад, чи знали ви, що кілька років тому Японська компанія створила робота, який міг грати в «камінь, ножиці, папір» і перемагати в 10 з 10 випадках.
Це неможливо…
Я так не думаю. Ось заслання на це відео. Робот використовує високошвидкісні камери для розпізнавання руху руки людини. Аналізуючи шаблони руху руки зі швидкістю 500 кадрів в секунду, робот здатний негайно реагувати у відповідь, і в результаті вигравати. Щоб домогтися цього, камера захоплює зображення обрисів руки, формує об’єкт і отруює інформацію програмного забезпечення, яке розпізнає шаблон і генерує реакцію робота у відповідь. Об’єкт руки людини формується 60 мс, і потім робот виконує все перераховане вище за 1 мс.
Добре, але я думав, що мова піде про мобільних …
Не турбуйтеся, ми дійдемо і до цього. Однією з найбільш зухвалих і перспективних областей є обробка і розпізнавання зображень для імітації людського зору: сприйняття зображення, обробки і подальшої реакції. Це саме те, що робить робот на попередньому прикладі: він сприймає зображення шляхом захоплення картинки, розуміє, що робить людина, і реагує, виконуючи відповідний хід. Звичайно, ми, розробники програмного забезпечення, більш зацікавлені в тій частині програми, де відбувається розпізнавання шаблону. Так як же сприймає частина насправді працює? Відповідь досить проста — «математика».
Найважливіше напрям в алгоритмах розпізнавання шаблонів — імовірнісна класифікація. Коли зображення порівнюється з набором інших збережених зображень, задається значення (ймовірність) для кожного іншого зображення, з яким воно збігається. Комбінуючи кілька алгоритмів імовірнісних класифікацій, які застосовуються до того ж набору зображень, званих «ансамблем», надається підсумкова оцінка для кожного зображення, яка потім використовується програмою для припущення, на які зображення це схоже.
Як ви могли уявити, що це досить складно для мобільного пристрою. Ви можете подумати, що потужність процесора є проблемою. Так і є! І найтонше місце — база даних зображень, з якими порівнюється оригінал. На прикладі робота, про який вже йшлося, Ви можете мати лише обмежену кількість зображень (камінь, ножиці, папір), з якими можна працювати, але в прикладі з розпізнаванням зображень в Facebook, неможливо зберігати обличчя кожної людини, хто зареєстрований у соціальній мережі на мобільному пристрої (це не зовсім той спосіб, за яким працює дана функція; Facebook зберігає унікальний хеш для кожної людини, використовуючи певні характеристики особи як основу, але приклад був наданий виключно для того, щоб пояснити ідею).
Щоб вирішити цю та інші проблеми, розпізнавання зображень зазвичай виконується на стороні сервера, де процесорна потужність, або місце для зберігання даних не представляє проблем. Мобільні пристрої можуть просто відправляти зображення, і нейронна мережа або обладнання оброблять запит.
Одну хвилину! Я бачив, як це працює на мобільних пристроях без з’єднання з інтернетом
Так, але тут тільки частина правди. Мобільного пристрою все ще необхідно відправляти зображення на сервер, також як і сервера необхідно зберігати їх. Як тільки зображення опиняться там, сервер обробляє зображення, згенерує набагато менший хеш, і поверне назад в додаток. І потім, наприклад, ви можете зайти в режим польоту і побачити зображення на камері телефону, порівняння буде зроблено в режимі оффлайн.
Спасибі за всі ці пояснення. Тепер поговоримо про справу
А, так ви хочете знати, як застосувати розпізнавання зображень на ділі? Звичайно, для вас не стане сюрпризом, що розпізнавання зображень є потенціал зробити революцію в усьому світі. В галузі охорони здоров’я, наприклад, IBM почали використовувати технологію розпізнавання зображень для обробки великої кількості медичних даних. Це може допомогти лікарям діагностувати хвороби швидше і з більшою точністю. Baidu розробили прототип DuLight: продукт для розпізнавання об’єктів, який допоможе сліпим «бачити» за допомогою знімків всього, що їх оточує і передаючи оброблені дані через навушник. Однак, на продукцію в області штучного інтелекту зазвичай накладаються етичні та законодавчі обмеження. Візьмемо, приміром, автомобільну індустрію і безпілотні автомобілі від Google. Технологія готова, але попереду ще довгий процес, перш ніж ці машини з’являться на ринку.
Добре, але я не планую будувати безпілотний автомобіль – що може технологія розпізнавання зображень дати моєму бізнесу?
Чесно кажучи, багато чого! Існує безліч дрібномасштабних методів застосування технології розпізнавання зображень для отримання переваг. Так як ми говоримо про мобільних пристроях, давайте розглянемо деякі приклади використання технології розпізнавання зображень мобільного зв’язку. Одним з найбільших гравців в цій області є Blippar: платформа для візуального виявлення, яка дозволяє користувачам сканувати об’єкти і отримувати їх опис, що робить фізичний світ інтерактивним ігровим полем. Для любителів рослин існує LeafSnap, для любителів вина — Delectable.
Але існують і такі маркетингові компанії, такі як Makeup Genius, TrackMyMaccas, і SnapFindShop, на які варто поглянути. Ці бренди застосовують розпізнавання зображень для вивчення соціального обміну та залучення користувачів.
Так ви кажете, що технологія розпізнавання зображень може мені допомогти залучити клієнтів?
Так як ми говоримо про мобільних технологіях, слово «залучення» так чи інакше, спливло б протягом розмови. Світ додатків обертається навколо залучення користувачів: якщо ви не досягли успіху в цьому, то є шанс, що користувач просто ніколи не повернеться до використання вашого додатка. Розпізнавання зображень дасть вашому додатку величезні можливості для розширення, оскільки технологія дозволить Вам вийти за межі мобільного пристрою у фізичний світ користувача. Ваше додаток зможе надати щось більш матеріальне, що дозволить створити сильну емоційну зв’язок. І так як емоції тісно пов’язані з пам’яттю, у вас є шанс створити незабутнє враження про Вашому бізнесі.
http://www.softacom.ru/ru_imagesrecognition