Выдержки из книги "Большие данные"

Собрал занятные цифры, факты, истории, цитаты из книги "Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим". Автор Виктор Майер-Шенбергер и Кеннет Кукьер.
В 1986 году 40% вычислительной мощности в мире приходилось на карманные калькуляторы.
Walmart и CapitalOne первыми использовали большие данные в розничной торговле и банковском деле.
Вычислительные алгоритмы улучшились примерно в 43 000 раз в период между 1988 и 2003 годами - значительно больше, чем процессоры в соответствии с законом Мура.
Простые модели с множеством данных по результатам превосходят более сложные модели.
С помощью Hadoop Visa сумела сократить время обработки тестовых записей, накопленных за два года (73 миллиарда транзакций) с одного месяца до 13 минут.
PriceStats сканируют до 5000000 цен на товары от 300 розничных торговцев в 70 странах для выявления инфляционных колебаний в режиме реального времени и продают результаты банкам и инвестиционным фондам.
В сотрудничестве с Teradata, Walmart выявила интересные корреляции - перед ураганом росли объемы продаж фонариков и печенья PopTarts, а также сладких сухих завтраков.
Страховая компания Aviva анализируя данные о хобби, посещаемые сайты и время, затрачиваемое на просмотр телевизора выявляя лица, подверженных риску развития высокого артериального давления, диабета или депрессии.
Популярной покупкой среди беременных женщин примерно на третьем месяце беременности является лосьон без запаха. Спустя несколько месяцев женщины, как правило, покупали пищевые добавки.
IBM и Microsoft сотрудничают с больницами для разработки ПО, которое получает и обрабатывает данные о состоянии пациента в режиме реального времени. Они используются для принятия диагностических решений . Система отслеживает 16 различных потоков данных, таких как частота сердечных сокращений, частота дыхания, температура, артериальное давление и уровень кислорода в крови, что вместе составляет около 1260 точек данных в секунду.
При уровне доходов ниже $10000 каждое их увеличение приводило к ощущению счастья, но рост доходов выше этого уровня мало что менял. Нужно сосредоточиться на увеличении доходов бедных слоев населения, поскольку, как показали данные, это даст большую отдачу от затраченных средств.
Вероятность неисправностей автомобилей, окрашенных в оранжевый цвет, гораздо ниже (примерно наполовину), чем среди остальных автомобилей.
С середины XV века опубликовано 129 млн различных книг. К 2010 году, пять лет спустя после запуска своего книжного проекта, компании Google удалось отсканировать более 15 млн наименований - существенную часть письменного наследия мира (более 12%). Это дало начало новой учебной дисциплине - культуромике. Она представляет собой вычислительную лексикологию, которая пытается понять поведение человека и культурные тенденции путем количественного анализа текстов.
Автомобили Street View компании Google, делающие панорамные фотографии улиц, вдобавок собирают информацию о маршрутизаторах Wi-Fi-сети.
iPhone собирает данные о местоположении и Wi-Fi-сетях, кроме того, аналогичные данные собирают Google Android и Microsoft.
AirSage обрабатывает три млрд записей геолокационных данных для создания отчетов о ситуации на дорогах в 100 городах по всей Америке в режиме реального времени. Sense Networks и Skyhook, имея данные о местоположении, сообщают, в каких районах города активнее кипит ночная жизнь или сколько протестующих собралось на демонстрации.
Два хедж-фонда - Derwent Capital в Лондоне и MarketPsych в Калифорнии - начали анализировать датифицированный текст твитов в качестве сигналов для инвестиций на фондовом рынке.
Компания Asthmapolis крепит к ингаляторам от астмы датчики, которые отслеживают местоположение с помощью GPS. Собранная информация позволяет выяснить, какие факторы окружающей среды провоцируют приступы астмы
В 2009 году Apple подала заявку на патент для сбора данных о насыщенности крови кислородом, частоте сердечных сокращений и температуре тела через наушники-вкладыши.
Луис фон Ан создатель Captcha. Пять лет спустя около 200 миллионов Captcha стали вводиться ежедневно. Луис фон Ан искал способы более продуктивного применения человеческой вычислительной мощности. В итоге был создан ReCaptcha. Теперь, вместо того чтобы вводить случайные буквы, люди набирают слова из проектов по сканированию текстов, которые не удалось распознать с помощью программы оптического распознавания символов.
Google и банк Италии BVA запустили службу бизнес-прогнозирования для анализа сектора туризма и продают в режиме реального времени экономические показатели. Банк Англии работает с поисковыми запросами, связанными с объектами недвижимости, чтобы уточнить тенденции цен на жилье.
Google сопротивляется призывам удалить полные IP-адреса старых поисковых запросов, вместо этого спустя 18 месяцев удаляются только четыре последние цифры, чтобы сделать поисковый запрос анонимным.
Никто до сих пор не может сказать, чем обернутся модели оценивания стоимости. Но точно известно, что экономика начинает формироваться вокруг данных.
Подразделение MasterCard Advisors объединяет и анализирует 65 млрд операций, осуществляемых 1,5 млрд держателей карт в 210 странах, чтобы прогнозировать потребительские и бизнес-тенденции. Эта информация продается другим компаниям. Среди прочего компания обнаружила, что, если люди заправили автомобиль около четырех часов дня, в течение часа они, скорее всего, потратят $35-50 в продуктовом магазине или ресторане.
Inrix занимается анализом дорожного движения. Она объединяет в режиме реального времени геолокационные данные о 100 млн авто в США и Европе. Данные поступают от авто BMW, Ford, Toyota из коммерческих автопарков такси и фургонов для доставки, а также с мобильных телефонов отдельных водителей (здесь следует отметить важную роль бесплатных приложений Inrix для смартфонов: пользователи получают бесплатную информацию о дорожном движении, а Inrix — их координаты). Полученную информацию Inrix объединяет с данными о моделях дорожного движения, а также информацией о погоде и других факторах (например, местных мероприятиях), чтобы спрогнозировать плотность дорожного движения. Готовый «продукт» передается на автомобильные системы спутниковой навигации и используется государственными учреждениями и коммерческими автопарками.
В 2011 году программа восстановлении экономики США начала трещать по швам, несмотря на заявления политиков об обратном. Это быстро выявил анализ дорожного движения: в часы пик на дорогах стало свободнее, что предполагало увеличение безработицы. Inrix продала свои данные в инвестиционный фонд, который с помощью моделей дорожного движения вокруг магазинов крупнейших розничных сетей выявляет объемы их продаж. Фонд использует эти данные для торговли акциями компаний до объявления их квартальных доходов. Согласно корреляции, чем больше автомобилей в районе магазина, тем выше его продажи.
Coursera, компания по дистанционному обучению, исследует все собираемые ею выбросы данных (например, какой раздел видеолекции студенты просматривали повторно), чтобы узнать возможные неясные или особенно интересные моменты, которые следует учесть в разработке курсов.
The-Numbers.com на основе баз данных сообщает голливудским продюсерам вероятный доход от фильма задолго до того, как отснят первый дубль. База данных компании обрабатывает около 30 миллионов записей о каждом коммерческом кинофильме США за последние десятилетия. Записи содержат сведения о бюджете, жанре, актерском составе, съемочной группе, наградах, доходах (включая американские и международные кассовые сборы, зарубежные права, продажу и аренду видеозаписей) и не только.
Показатели тех компаний, которые преуспели в принятии решений на основе данных на 6% выше, чем у тех, кто, принимая решения, не опирается на данные.
Пятизначные номера, нанесенные в виде татуировок на предплечья узников в нацистских концлагерях, соответствовали номерам перфокарт IBM Hollerith. Подробнее
Некоторые «умные» электросчетчики в США и Европе, могут собирать от 750 до 3000 точек данных в месяц в режиме реального времени. Каждый прибор имеет уникальную «подпись нагрузки» при получении электропитания, которая позволяет отличить холодильник от телевизора, а телевизор - от подсветки для выращивания марихуаны. Таким образом, использование электроэнергии раскрывает личную информацию, будь то ежедневные привычки, медицинские условия или противозаконное поведение.
В 2006 году компания AOL сделала общедоступными для исследования 20 млн старых поисковых запросов от 650000 пользователей за пол года. Набор был тщательно анонимизирован. В течение нескольких дней сотрудники New York Times, связав поисковые запросы, деанонимизировали часть пользователей. Уволили техдиректора и двух сотрудников AOL.
Netflix объявила конкурс Netflix Prize и выпустила 100 млн записей о прокате от 500000 пользователей и объявила приз $1 млн, который достанется сумевшим улучшить систему рекомендации фильмов. Личные идентификаторы были удалены. Снова пользователей удалось разоблачить. Оценки анонимизированных пользователей соответствовали оценкам людей с конкретными именами на сайте IMDb. Всего по шести оценкам фильмов в 84% случаев можно было верно установить личность клиентов Netflix. А зная дату, когда человек оценил фильмы, можно было с 99%-ной точностью определить его среди набора данных.
Датчики установленные в большинстве автомобилей для отслеживания активаций подушки безопасности, известны тем, что могут «свидетельствовать» против автовладельцев в суде в случае спора по поводу ДТП. В современном авто расположено около 60 датчиков.
По данным расследования Washington Post в 2010 году, АНБ ежедневно перехватывает и сохраняет 1,7 млрд писем эл.почты, телефонных звонков и других сообщений. По оценкам Уильяма Бинни, бывшего сотрудника АНБ, правительство собрало 20 трлн операций между американскими и другими гражданами: кто кому позвонил, написал по эл.почте, отправил денежный перевод и т. д.
Комиссии по условно-досрочному освобождению в тридцати штатах используют прогнозы, основанные на анализе данных, как фактор при принятии решений, стоит ли освобождать того или иного заключенного.
В США полиция в отдельных штатах с помощью анализа больших данных выбирают улицы, группы и частных лиц для дополнительной проверки, предоставляет данные о зонах потенциальной угрозы с точки зрения места (в пределах нескольких кварталов) и времени (в пределах нескольких часов конкретного дня недели). Полиция устанавливает корреляции между данными о преступлениях и дополнительными наборами данных, например датами выплаты зарплат, датами мероприятий. Например, полиция предполагала, что за оружейными шоу следует рост преступлений. Анализ доказал их правоту, но с одной оговоркой - скачок преступности происходил через две недели после события, а не сразу после него.
Коммунальные службы Нью-Йорка использую анализ больших данных
Макнамара чувствовал, что может понять то, что происходит на земле, только уставившись в таблицу — на все эти стройные ряды и столбцы, расчеты и графики, овладев которыми он, казалось бы, станет на одно стандартное отклонение ближе к Богу.