Untitled

From Stained Mockingbird, 3 Months ago, written in Plain Text, viewed 76 times. This paste will hop the perch in 1 Second.
URL http://codebin.org/view/53c6e2ea Embed
Download Paste or View Raw
  1. 3  Проверка гипотез
  2. 3.1  Сравнение поведения пользователей двух столиц
  3. Первая гипотеза утверждает, что пользователи по-разному слушают музыку в Москве и Санкт-Петербурге. Проверьте это предположение по данным о трёх днях недели — понедельнике, среде и пятнице. Для этого:
  4.  
  5. Разделите пользователей Москвы и Санкт-Петербурга.
  6. Сравните, сколько треков послушала каждая группа пользователей в понедельник, среду и пятницу.
  7. Задание 18
  8.  
  9. Для тренировки сначала выполните каждый из расчётов по отдельности.
  10.  
  11. Оцените активность пользователей в каждом городе. Сгруппируйте данные по городу и посчитайте прослушивания в каждой группе.
  12.  
  13. # Подсчёт прослушиваний в каждом городе
  14. active_by_city = df.groupby('city')['track'].count()
  15. active_by_city
  16. city
  17. Moscow              42741
  18. Saint-Petersburg    18512
  19. Name: track, dtype: int64
  20. В Москве прослушиваний больше, чем в Петербурге. Из этого не следует, что московские пользователи чаще слушают музыку. Просто самих пользователей в Москве больше.
  21.  
  22. Задание 19
  23.  
  24. Теперь сгруппируйте данные по дню недели и посчитайте прослушивания в понедельник, среду и пятницу. Учтите, что в данных есть информация о прослушиваниях только за эти дни.
  25.  
  26. # Подсчёт прослушиваний в каждый из трёх дней
  27. active_by_day = df.groupby('day')['track'].count()
  28. # active_by_day
  29. day
  30. Friday       21840
  31. Monday       21354
  32. Wednesday    18059
  33. Name: track, dtype: int64
  34. В среднем пользователи из двух городов менее активны по средам. Но картина может измениться, если рассмотреть каждый город в отдельности.
  35. Задание 20
  36.  
  37. Вы видели, как работает группировка по городу и по дням недели. Теперь напишите функцию, которая объединит два эти расчёта.
  38.  
  39. Создайте функцию number_tracks(), которая посчитает прослушивания для заданного дня и города. Ей понадобятся два параметра:
  40.  
  41. день недели,
  42. название города.
  43. В функции сохраните в переменную строки исходной таблицы, у которых значение:
  44.  
  45. в колонке day равно параметру day,
  46. в колонке city равно параметру city.
  47. Для этого примените последовательную фильтрацию с логической индексацией (или сложные логические выражения в одну строку, если вы уже знакомы с ними).
  48.  
  49. Затем посчитайте значения в столбце user_id получившейся таблицы. Результат сохраните в новую переменную. Верните эту переменную из функции.
  50.  
  51. # <создание функции number_tracks()>
  52. # Объявляется функция с двумя параметрами: day, city.
  53. # В переменной track_list сохраняются те строки таблицы df, для которых
  54. # значение в столбце 'day' равно параметру day и одновременно значение
  55. # в столбце 'city' равно параметру city (используйте последовательную фильтрацию
  56. # с помощью логической индексации или сложные логические выражения в одну строку, если вы уже знакомы с ними).
  57. # В переменной track_list_count сохраняется число значений столбца 'user_id',
  58. # рассчитанное методом count() для таблицы track_list.
  59. # Функция возвращает число - значение track_list_count.
  60. def number_tracks(day, city):
  61.     track_list = df[df['day'] == 'day']
  62.     track_list = track_list[track_list['city'] == 'city']
  63.     track_list_count = track_list['user_id'].count()
  64.     return track_list_count
  65. # Функция для подсчёта прослушиваний для конкретного города и дня.
  66. # С помощью последовательной фильтрации с логической индексацией она
  67. # сначала получит из исходной таблицы строки с нужным днём,
  68. # затем из результата отфильтрует строки с нужным городом,
  69. # методом count() посчитает количество значений в колонке user_id.
  70. # Это количество функция вернёт в качестве результата
  71. Задание 21
  72.  
  73. Вызовите number_tracks() шесть раз, меняя значение параметров — так, чтобы получить данные для каждого города в каждый из трёх дней.
  74.  
  75. # количество прослушиваний в Москве по понедельникам
  76. number_tracks('Monday', 'Moscow')
  77. 0
  78. # количество прослушиваний в Санкт-Петербурге по понедельникам
  79. number_tracks('Monday', 'Saint-Petersburg')
  80. 0
  81. # количество прослушиваний в Москве по средам
  82. number_tracks('Wednesday', 'Moscow')
  83. 0
  84. day
  85. # количество прослушиваний в Санкт-Петербурге по средам
  86. number_tracks('Wednesday', 'Saint-Petersburg')
  87. # количество прослушиваний в Москве по пятницам
  88. number_tracks('Friday', 'Moscow')
  89. 0
  90. # количество прослушиваний в Санкт-Петербурге по пятницам
  91. number_tracks('Friday', 'Saint-Petersburg')
  92. 0

Reply to "Untitled"

Here you can reply to the paste above