Публикации по теме 'pandas'
Ultimate Pandas Guide: Модуль 1
Добро пожаловать в мое «Полное руководство по Pandas», здесь я помогу вам изучить основы «Pandas», потому что иногда Excel недостаточно для решения ваших проблем с данными.
Панды: -
Pandas — это популярная библиотека Python, которая широко используется для обработки и анализа данных. Он предоставляет быстрые, гибкие и простые в использовании структуры данных и функции, которые упрощают работу с данными в Python.
Что такое Панды: -
Pandas — это библиотека Python, построенная на..
Применение функций к Pandas DataFrame с использованием map(), apply(), applymap() и pipe()
Что такое Pandas map, apply, applymap и pipe?
Введение
apply , applymap , map и pipe могут сбивать с толку, особенно если вы новичок в Pandas, поскольку все они кажутся довольно похожими и могут принимать функцию в качестве входных данных. Вот краткое сравнение различных методов.
Мы подробно рассмотрим каждый из них, используя следующие примеры данных.
# python version 3.9
# pandas version 1.4.1
import pandas as pd
df = pd.DataFrame({'name':['John Doe', 'Mary Re',..
7 дней статистики для науки о данных: день 01 — Что такое статистика?
Статистика является неотъемлемой частью науки о данных. В этой статье подробно рассказывается о важности статистики в науке о данных и типах статистики, чтобы понять данные с использованием библиотеки Python и Pandas.
Математика и статистика являются основой науки о данных и машинного обучения. В настоящее время каждая компания управляется данными и имеет огромное количество данных. Данные — это не что иное, как бесформенный поток байтов, они становятся информацией после обработки и..
Вопросы по теме 'pandas'
Python: используйте функцию в лямбда-выражении pandas
У меня есть следующий код, пытающийся найти час столбца «Даты» во фрейме данных:
print(df['Dates'].head(3))
df['hour'] = df.apply(lambda x: find_hour(x['Dates']), axis=1)
def find_hour(self, input):
return input[11:13].astype(float)
где...
17950 просмотров
schedule
14.03.2024
Добавьте столбцы в кадр данных pandas, содержащий максимальное количество каждой строки и соответствующее имя столбца
Моя система
Виндовс 7, 64 бит
питон 3.5.1
Задача
У меня есть кадр данных pandas, и я хотел бы узнать максимальное значение для каждой строки и добавить эту информацию в качестве нового столбца. Я также хотел бы знать имя столбца, в...
1528 просмотров
schedule
29.03.2024
Сортировать столбец, содержащий строку в Pandas
Я новичок в Pandas и хочу отсортировать столбец, содержащий строки, и сгенерировать числовое значение для однозначной идентификации строки. Мой фрейм данных выглядит примерно так:
df = pd.DataFrame({'key': range(8), 'year_week': ['2015_10',...
3090 просмотров
schedule
22.04.2024
Избежать двойной цитаты в pandas.read_csv
Когда я читаю файл CSV, включая двойные кавычки, возникает CParserError . Как избежать этой ошибки и правильно загрузить файл CSV?
Пожалуйста, предположим, что я не могу редактировать файл CSV, потому что на самом деле нужно загрузить много...
939 просмотров
schedule
10.03.2024
Ограничения функции кросс-таблицы pyspark / pandas dataframe
У меня есть CSV-файл с 600 000 уникальных идентификаторов пользователей и 70 000 уникальных_продуктов. Я планирую внедрить рекомендательную систему на основе ALS, и для этого я планирую применить функцию кросс-таблицы к идентификаторам пользователей...
431 просмотров
schedule
02.05.2024
Разница между двумя столбцами datetime64[ns], показывающими ошибку
Как показано на рисунке, у меня есть два столбца данных типа datetime64[ns]. Мне нужно найти разницу между ними. Когда я пытаюсь это сделать, я получаю сообщение об ошибке. Если я попытаюсь найти разницу между одним элементом каждого столбца в...
1051 просмотров
schedule
22.03.2024
python pandas — слияние с использованием ключа из df2/индекса df1
У меня есть эти два кадра данных:
средний_рейтинг
movieId rating
1 3.921240
2 3.211977
3 3.151040
4 2.861393
5 3.064592
данные
movieId title...
50 просмотров
schedule
10.03.2024
Скользящее окно Pandas с настраиваемой длиной просмотра назад на основе суммы столбцов
Имея фрейм данных pandas с двумя столбцами, «atbats» и «hits», индексированными по дате, возможно ли получить самое последнее историческое среднее значение (среднее количество совпадений на atbat)? Например, историческое среднее значение может быть...
701 просмотров
schedule
14.04.2024
Pandas fillna только в строках с хотя бы 1 значением, отличным от NaN
Предположим, у меня есть DataFrame, построенный следующим образом:
import pandas as pd
import numpy as np
df = pd.DataFrame(data = {"col1":[3, np.nan, np.nan, 21],
"col2":[4, np.nan, 12, np.nan],...
918 просмотров
schedule
25.03.2024
Проблема с производительностью, превращающая строки с началом-концом в кадр данных с TimeIndex
У меня есть большой набор данных, где каждая строка представляет значение определенного типа (например, датчик) за временной интервал (между началом и концом). Это выглядит так:
start end type value
2015-01-01 2015-01-05 1 3...
145 просмотров
schedule
04.04.2024
Другой результат между concat и np_r при объединении фрагментов кадра данных
Предположим, что это кадр данных
import pandas as pd
import numpy as np
df = pd.DataFrame({'group1' : ['A', 'A', 'A', 'A',
'A', 'A', 'A', 'A'],
'group2' : ['A', 'A', 'A', 'A',...
56 просмотров
schedule
10.03.2024
Расширьте кадр данных pandas, включив в него «недостающие» недели
У меня есть фрейм данных pandas, который содержит данные временных рядов, поэтому индекс фрейма данных имеет тип datetime64 с недельными интервалами, каждая дата приходится на понедельник каждой календарной недели.
В фрейме данных есть только...
575 просмотров
schedule
05.04.2024
Удаление строк на основе значений в других строках
Я искал способ удалить строки из моего фрейма данных на основе условий, которые нужно проверить со значениями в другой строке.
Вот мой кадр данных:
product product_id account_status
prod-A 100 active
prod-A 100 cancelled...
81 просмотров
schedule
10.03.2024
Избегайте перезаписи файлов с помощью цикла for
У меня есть список фреймов данных (df_cleaned), созданных из нескольких CSV-файлов, выбранных пользователем.
Моя цель - сохранить каждый фрейм данных в списке df_cleaned как отдельный CSV-файл локально.
У меня есть следующий код, который...
463 просмотров
schedule
13.03.2024
Кадр данных Pandas с объединенным столбцом
У меня есть кадр данных Pandas, который выглядит как код ниже. Мне нужно добавить динамический столбец, который объединяет каждое значение в последовательности перед заданной строкой. Цикл звучит как логическое решение, но он был бы супер...
44 просмотров
schedule
04.05.2024
Как назначить категорию на основе содержащейся строки
У меня есть данные, как показано ниже:
У меня есть справочная таблица, показанная ниже:
Я хочу просмотреть «Описание» таблицы данных, чтобы увидеть, содержит ли строка каждое слово в столбце «Ключ» справочной таблицы, если да, я...
129 просмотров
schedule
16.04.2024
Для циклов со столбцами csv (панда)
Привет, ребята, я очень новичок в python, и я хотел бы создать цикл for, чтобы иметь доступ ко всем столбцам файла csv.
import pandas as pd
df = pd.read_csv('file.csv')
Без цикла мне пришлось бы написать строку для доступа к каждому столбцу...
33 просмотров
schedule
16.04.2024
Панды обновляют один кадр данных суммой существующих и других значений
В моем фактическом фрейме данных более миллиона строк, но образец мультииндексного фрейма данных выглядит так ( с 1,0 в IN_VALUE для простоты ):
# INDEX ID | MATCH IN_VALUE OUT_VALUE
# 0 7 | 1 1.0 -0.33
# 8 | 6...
74 просмотров
schedule
20.04.2024
pandas - символ новой строки разделяет строку на несколько строк при чтении и записи csv
Моя задача - прочитать файл CSV из одного места, выполнить некоторые манипуляции с памятью в кадре данных, а затем поместить файл в другое место.
Исходный файл '||' разделены, и целевой файл должен быть разделен.
Я делаю это для нескольких файлов...
71 просмотров
schedule
05.05.2024
Как увеличить размер значений внутри тепловой карты в Seaborn Python?
Как увеличить размер значений внутри тепловой карты? Эти цифры действительно маленькие, ниже моего кода:
sns.heatmap(confusion_matrix,
annot=True,
fmt = "d",
cmap="gnuplot2_r",...
26 просмотров
schedule
08.05.2024