Публикации по теме 'pandas'


Ultimate Pandas Guide: Модуль 1
Добро пожаловать в мое «Полное руководство по Pandas», здесь я помогу вам изучить основы «Pandas», потому что иногда Excel недостаточно для решения ваших проблем с данными. Панды: - Pandas — это популярная библиотека Python, которая широко используется для обработки и анализа данных. Он предоставляет быстрые, гибкие и простые в использовании структуры данных и функции, которые упрощают работу с данными в Python. Что такое Панды: - Pandas — это библиотека Python, построенная на..

Применение функций к Pandas DataFrame с использованием map(), apply(), applymap() и pipe()
Что такое Pandas map, apply, applymap и pipe? Введение apply , applymap , map и pipe могут сбивать с толку, особенно если вы новичок в Pandas, поскольку все они кажутся довольно похожими и могут принимать функцию в качестве входных данных. Вот краткое сравнение различных методов. Мы подробно рассмотрим каждый из них, используя следующие примеры данных. # python version 3.9 # pandas version 1.4.1 import pandas as pd df = pd.DataFrame({'name':['John Doe', 'Mary Re',..

7 дней статистики для науки о данных: день 01 — Что такое статистика?
Статистика является неотъемлемой частью науки о данных. В этой статье подробно рассказывается о важности статистики в науке о данных и типах статистики, чтобы понять данные с использованием библиотеки Python и Pandas. Математика и статистика являются основой науки о данных и машинного обучения. В настоящее время каждая компания управляется данными и имеет огромное количество данных. Данные — это не что иное, как бесформенный поток байтов, они становятся информацией после обработки и..

Вопросы по теме 'pandas'

Python: используйте функцию в лямбда-выражении pandas
У меня есть следующий код, пытающийся найти час столбца «Даты» во фрейме данных: print(df['Dates'].head(3)) df['hour'] = df.apply(lambda x: find_hour(x['Dates']), axis=1) def find_hour(self, input): return input[11:13].astype(float) где...
17950 просмотров
schedule 14.03.2024

Добавьте столбцы в кадр данных pandas, содержащий максимальное количество каждой строки и соответствующее имя столбца
Моя система Виндовс 7, 64 бит питон 3.5.1 Задача У меня есть кадр данных pandas, и я хотел бы узнать максимальное значение для каждой строки и добавить эту информацию в качестве нового столбца. Я также хотел бы знать имя столбца, в...
1528 просмотров
schedule 29.03.2024

Сортировать столбец, содержащий строку в Pandas
Я новичок в Pandas и хочу отсортировать столбец, содержащий строки, и сгенерировать числовое значение для однозначной идентификации строки. Мой фрейм данных выглядит примерно так: df = pd.DataFrame({'key': range(8), 'year_week': ['2015_10',...
3090 просмотров

Избежать двойной цитаты в pandas.read_csv
Когда я читаю файл CSV, включая двойные кавычки, возникает CParserError . Как избежать этой ошибки и правильно загрузить файл CSV? Пожалуйста, предположим, что я не могу редактировать файл CSV, потому что на самом деле нужно загрузить много...
939 просмотров
schedule 10.03.2024

Ограничения функции кросс-таблицы pyspark / pandas dataframe
У меня есть CSV-файл с 600 000 уникальных идентификаторов пользователей и 70 000 уникальных_продуктов. Я планирую внедрить рекомендательную систему на основе ALS, и для этого я планирую применить функцию кросс-таблицы к идентификаторам пользователей...
431 просмотров

Разница между двумя столбцами datetime64[ns], показывающими ошибку
Как показано на рисунке, у меня есть два столбца данных типа datetime64[ns]. Мне нужно найти разницу между ними. Когда я пытаюсь это сделать, я получаю сообщение об ошибке. Если я попытаюсь найти разницу между одним элементом каждого столбца в...
1051 просмотров
schedule 22.03.2024

python pandas — слияние с использованием ключа из df2/индекса df1
У меня есть эти два кадра данных: средний_рейтинг movieId rating 1 3.921240 2 3.211977 3 3.151040 4 2.861393 5 3.064592 данные movieId title...
50 просмотров
schedule 10.03.2024

Скользящее окно Pandas с настраиваемой длиной просмотра назад на основе суммы столбцов
Имея фрейм данных pandas с двумя столбцами, «atbats» и «hits», индексированными по дате, возможно ли получить самое последнее историческое среднее значение (среднее количество совпадений на atbat)? Например, историческое среднее значение может быть...
701 просмотров
schedule 14.04.2024

Pandas fillna только в строках с хотя бы 1 значением, отличным от NaN
Предположим, у меня есть DataFrame, построенный следующим образом: import pandas as pd import numpy as np df = pd.DataFrame(data = {"col1":[3, np.nan, np.nan, 21], "col2":[4, np.nan, 12, np.nan],...
918 просмотров
schedule 25.03.2024

Проблема с производительностью, превращающая строки с началом-концом в кадр данных с TimeIndex
У меня есть большой набор данных, где каждая строка представляет значение определенного типа (например, датчик) за временной интервал (между началом и концом). Это выглядит так: start end type value 2015-01-01 2015-01-05 1 3...
145 просмотров
schedule 04.04.2024

Другой результат между concat и np_r при объединении фрагментов кадра данных
Предположим, что это кадр данных import pandas as pd import numpy as np df = pd.DataFrame({'group1' : ['A', 'A', 'A', 'A', 'A', 'A', 'A', 'A'], 'group2' : ['A', 'A', 'A', 'A',...
56 просмотров
schedule 10.03.2024

Расширьте кадр данных pandas, включив в него «недостающие» недели
У меня есть фрейм данных pandas, который содержит данные временных рядов, поэтому индекс фрейма данных имеет тип datetime64 с недельными интервалами, каждая дата приходится на понедельник каждой календарной недели. В фрейме данных есть только...
575 просмотров
schedule 05.04.2024

Удаление строк на основе значений в других строках
Я искал способ удалить строки из моего фрейма данных на основе условий, которые нужно проверить со значениями в другой строке. Вот мой кадр данных: product product_id account_status prod-A 100 active prod-A 100 cancelled...
81 просмотров

Избегайте перезаписи файлов с помощью цикла for
У меня есть список фреймов данных (df_cleaned), созданных из нескольких CSV-файлов, выбранных пользователем. Моя цель - сохранить каждый фрейм данных в списке df_cleaned как отдельный CSV-файл локально. У меня есть следующий код, который...
463 просмотров
schedule 13.03.2024

Кадр данных Pandas с объединенным столбцом
У меня есть кадр данных Pandas, который выглядит как код ниже. Мне нужно добавить динамический столбец, который объединяет каждое значение в последовательности перед заданной строкой. Цикл звучит как логическое решение, но он был бы супер...
44 просмотров
schedule 04.05.2024

Как назначить категорию на основе содержащейся строки
У меня есть данные, как показано ниже: У меня есть справочная таблица, показанная ниже: Я хочу просмотреть «Описание» таблицы данных, чтобы увидеть, содержит ли строка каждое слово в столбце «Ключ» справочной таблицы, если да, я...
129 просмотров
schedule 16.04.2024

Для циклов со столбцами csv (панда)
Привет, ребята, я очень новичок в python, и я хотел бы создать цикл for, чтобы иметь доступ ко всем столбцам файла csv. import pandas as pd df = pd.read_csv('file.csv') Без цикла мне пришлось бы написать строку для доступа к каждому столбцу...
33 просмотров
schedule 16.04.2024

Панды обновляют один кадр данных суммой существующих и других значений
В моем фактическом фрейме данных более миллиона строк, но образец мультииндексного фрейма данных выглядит так ( с 1,0 в IN_VALUE для простоты ): # INDEX ID | MATCH IN_VALUE OUT_VALUE # 0 7 | 1 1.0 -0.33 # 8 | 6...
74 просмотров
schedule 20.04.2024

pandas - символ новой строки разделяет строку на несколько строк при чтении и записи csv
Моя задача - прочитать файл CSV из одного места, выполнить некоторые манипуляции с памятью в кадре данных, а затем поместить файл в другое место. Исходный файл '||' разделены, и целевой файл должен быть разделен. Я делаю это для нескольких файлов...
71 просмотров
schedule 05.05.2024

Как увеличить размер значений внутри тепловой карты в Seaborn Python?
Как увеличить размер значений внутри тепловой карты? Эти цифры действительно маленькие, ниже моего кода: sns.heatmap(confusion_matrix, annot=True, fmt = "d", cmap="gnuplot2_r",...
26 просмотров
schedule 08.05.2024