- 3 Проверка гипотез
- 3.1 Сравнение поведения пользователей двух столиц
- Первая гипотеза утверждает, что пользователи по-разному слушают музыку в Москве и Санкт-Петербурге. Проверьте это предположение по данным о трёх днях недели — понедельнике, среде и пятнице. Для этого:
- Разделите пользователей Москвы и Санкт-Петербурга.
- Сравните, сколько треков послушала каждая группа пользователей в понедельник, среду и пятницу.
- Задание 18
- Для тренировки сначала выполните каждый из расчётов по отдельности.
- Оцените активность пользователей в каждом городе. Сгруппируйте данные по городу и посчитайте прослушивания в каждой группе.
- # Подсчёт прослушиваний в каждом городе
- active_by_city = df.groupby('city')['track'].count()
- active_by_city
- city
- Moscow 42741
- Saint-Petersburg 18512
- Name: track, dtype: int64
- В Москве прослушиваний больше, чем в Петербурге. Из этого не следует, что московские пользователи чаще слушают музыку. Просто самих пользователей в Москве больше.
- Задание 19
- Теперь сгруппируйте данные по дню недели и посчитайте прослушивания в понедельник, среду и пятницу. Учтите, что в данных есть информация о прослушиваниях только за эти дни.
- # Подсчёт прослушиваний в каждый из трёх дней
- active_by_day = df.groupby('day')['track'].count()
- # active_by_day
- day
- Friday 21840
- Monday 21354
- Wednesday 18059
- Name: track, dtype: int64
- В среднем пользователи из двух городов менее активны по средам. Но картина может измениться, если рассмотреть каждый город в отдельности.
- Задание 20
- Вы видели, как работает группировка по городу и по дням недели. Теперь напишите функцию, которая объединит два эти расчёта.
- Создайте функцию number_tracks(), которая посчитает прослушивания для заданного дня и города. Ей понадобятся два параметра:
- день недели,
- название города.
- В функции сохраните в переменную строки исходной таблицы, у которых значение:
- в колонке day равно параметру day,
- в колонке city равно параметру city.
- Для этого примените последовательную фильтрацию с логической индексацией (или сложные логические выражения в одну строку, если вы уже знакомы с ними).
- Затем посчитайте значения в столбце user_id получившейся таблицы. Результат сохраните в новую переменную. Верните эту переменную из функции.
- # <создание функции number_tracks()>
- # Объявляется функция с двумя параметрами: day, city.
-
- # В переменной track_list сохраняются те строки таблицы df, для которых
- # значение в столбце 'day' равно параметру day и одновременно значение
- # в столбце 'city' равно параметру city (используйте последовательную фильтрацию
- # с помощью логической индексации или сложные логические выражения в одну строку, если вы уже знакомы с ними).
-
- # В переменной track_list_count сохраняется число значений столбца 'user_id',
- # рассчитанное методом count() для таблицы track_list.
-
- # Функция возвращает число - значение track_list_count.
- def number_tracks(day, city):
- track_list = df[df['day'] == 'day']
- track_list = track_list[track_list['city'] == 'city']
- track_list_count = track_list['user_id'].count()
- return track_list_count
-
- # Функция для подсчёта прослушиваний для конкретного города и дня.
- # С помощью последовательной фильтрации с логической индексацией она
- # сначала получит из исходной таблицы строки с нужным днём,
- # затем из результата отфильтрует строки с нужным городом,
- # методом count() посчитает количество значений в колонке user_id.
- # Это количество функция вернёт в качестве результата
-
-
- Задание 21
- Вызовите number_tracks() шесть раз, меняя значение параметров — так, чтобы получить данные для каждого города в каждый из трёх дней.
- # количество прослушиваний в Москве по понедельникам
- number_tracks('Monday', 'Moscow')
- 0
- # количество прослушиваний в Санкт-Петербурге по понедельникам
- number_tracks('Monday', 'Saint-Petersburg')
- 0
- # количество прослушиваний в Москве по средам
- number_tracks('Wednesday', 'Moscow')
- 0
- day
- # количество прослушиваний в Санкт-Петербурге по средам
- number_tracks('Wednesday', 'Saint-Petersburg')
- # количество прослушиваний в Москве по пятницам
- number_tracks('Friday', 'Moscow')
- 0
- # количество прослушиваний в Санкт-Петербурге по пятницам
- number_tracks('Friday', 'Saint-Petersburg')
- 0
Untitled
From Stained Mockingbird, 3 Months ago, written in Plain Text, viewed 76 times.
This paste will hop the perch in 1 Second.
URL http://codebin.org/view/53c6e2ea
Embed
Download Paste or View Raw
— Expand Paste to full width of browser