2017-07-00 Bigdata.md

Различия

Здесь показаны различия между двумя версиями данной страницы.

Ссылка на это сравнение

корзина:статьи_участников:2017-07-00_bigdata.md [04.09.2018 07:14]
127.0.0.1 внешнее изменение
корзина:статьи_участников:2017-07-00_bigdata.md [20.05.2019 15:18]
Строка 1: Строка 1:
-# Курс лекций "​Методы и системы обработки больших данных"​. Иван Пузыревский 
-Tags: читательский дневник,​ алгоритмы,​ yandex, bigdata, hdfs, hadoop, hbase, cassandra, kafka, mapreduce, spark, storm, zookeeper,​hive 
- 
-[http://​www.youtube.com/​embed/​IHVIFVZeXcA](http://​www.youtube.com/​embed/​IHVIFVZeXcA) [http://​www.lektorium.tv/​lecture/​30079](http://​www.lektorium.tv/​lecture/​30079) 
- 
-[http://​compsciclub.ru/​courses/​bigdatasystems/​2017-spring/​](http://​compsciclub.ru/​courses/​bigdatasystems/​2017-spring/​) 
- 
-Очень качественный и свежий курс про распределенные системы,​ про их работу под капотом. Речь идет про системы хранения,​ очереди и БД: HDFS, HBase, Cassandra, Kafka; про MapReduce и системы потоковой обработки:​ Hadoop MapReduce, Spark, Storm, Spark Streaming, плюс две лекции про Zookeeper и одна про Hive. 
- 
-Внешнее API систем и примеры использования приведены в основном для общего понимания,​ основная часть сосредоточена на внутренней архитектуре систем. Очень полезно для определения применимости этих систем в ваших проектах,​ поможет самостоятельно прикидывать производительность при применении той или иной технологии. 
- 
-На лекциях разбирается архитектура,​ строение и алгоритмы,​ на которых основываются системы. Начинается все с HDFS из хадуповского стека, который является базовым строительным блоком распределенной системы на базе hadoop, на его примере также разбирается работа и деплой кода в hadoop YARN. 
- 
-Довольно забавно было, когда после первой лекции про HDFS была полная уверенность в том, что оно точно не подходит для БД, а в 3й лекции рассказывают про быстрый и производительный HBase, который хранит свои данные в HDFS и делает это консистентно. 
- 
-В лекциях было очень мало информации про свежие фичи данных систем,​ про интересное API, примеры производительных интеграций. Сложилось такое ощущение,​ что какой-нибудь MapReduce с помощью твиков можно разогнать на пару порядков (Spark как раз один из известных твиков,​ хе-хе). Но тогда можно было бы ожидать по 11 лекций на каждую систему,​ вместо одной, да и цель курса немного не про это. Тема API и применимости также рассматривается в хорошей книге [Семь баз данных за семь недель](http://​dmkpress.com/​catalog/​computer/​databases/​978-5-94074-866-3/​),​ основной плюс которой в ее компактности,​ так что материал там изложен довольно сумбурно. 
- 
-В общем, если вы вечно путаете все эти модные словечки из темы MapReduce, не можете запомнить чем отличается Spark и Storm, Spark/​HBase/​Riak - после просмотра лекций у вас надолго в голове останутся "​крючки",​ за которые в будущем можно будет легко сориентироваться в этом зоопарке. 
- 
-P.S. нужно будет пересмотреть [Яндекс изнутри:​ инфраструктура хранения и обработки данных](https://​www.youtube.com/​watch?​v=9ANuWEZqCUg),​ что на самом деле в тренде. 
- 
-P.P.S. [Как устроен поиск Яндекса:​ о чём невозможно прочитать](https://​www.youtube.com/​watch?​v=BCVsgup8hUQ) - тоже прикольный видос, давно смотрел,​ уже не помню про что там. 
- 
-~~OWNERAPPROVE~~