我有一个小的Pandas数据帧(2000行,35列),我将它与一个大的Dask数据帧(600万行,550列)合并在一起。我将小Pandas数据帧转换为Dask数据帧,并使用以下代码进行合并:

final_df=dd.merge(left=small_df,right=big_df,how='inner',on=('var1','var2','var3'))

合并操作非常快,但运行这些代码需要一段时间:

final_df.head()

或者:

final_ddf.to_csv('file.csv',header=True,chunksize=1000,single_file = True)

代码运行了一个多小时,然后我停了下来。

你知道为什么这些操作在合并后会这么慢吗?

转载请注明出处:http://www.yutianjidian.com/article/20230526/1421566.html

随机推荐

  1. Dask groupby索引列

    我使用dd.read_csv(s3://bucket/*)将大量csv文件(几千个)从s3加载到dask中。这些文件有一个隐含的索引列(升序的未命名列):??有没有办法使用ddf.groupby()操作来根据索引值对csv文件进行分组?我的...

  2. Dask是否保证分区内的行(具有非唯一索引)永远不会被重新排序?

    我的应用程序需要将数据集读入到dask中,该数据集分布在多个分区中。使用该数据帧,我需要对其执行多个操作(例如,从一列中减去另一列或求出两列的比率)。dataframe的索引是一个非唯一列。因为应用程序完全是元数据驱动的,函数调用的顺序直到...

  3. Dask数据帧崩溃

    我正在使用Dask加载一个大型拼图数据帧,但似乎无法在系统崩溃的情况下对其执行任何操作,或者收到一百万个错误而没有输出。压缩后的数据约为165M,在pandas中加载后为13G (适用于现有的45G RAM )。import pandas ...

  4. dask - CSV时间序列操作

    我有一个大约5 5GB大小的CSV,数据结构和类型如下: datetime product name serial number 0 2017-06-24 14:30:15 ...

  5. Dask无法使用连接的数据写入拼图

    我正在尝试做以下几件事:使用pandas读取.dat文件,将其转换为dask数据帧,并将其连接到我从拼图文件中读取的另一个dask数据帧,然后输出到新的拼图文件。我执行以下操作:import dask.dataframe as dd imp...

  6. Dask distributed.utils_test.client不继承父进程环境变量吗?

    我正在使用pytest来测试我的dask工作流。我有一个特定的工作流,ingest_l0_files,它使用Client将任务映射到工作人员。在测试期间,我需要手动设置一个目录路径,该路径是在一个名为CURRENT_RUN_LOG_PATH...

  7. DASK dataframe.to_csv将文件存储在worker上,而不是本地

    我是DASK的新手,我正在尝试在私有云上建立一个分布式集群。现在,我在同一台机器上运行了调度器和一个工作程序,它们都运行在同一Docker容器中。它们分别从dask-scheduler和dask-worker tcp://localhost...

  8. 合并字典时,Dask延迟的未指定长度的对象不是可迭代错误

    我正在尝试使用dask并行构建一个字典,但我遇到了一个TypeError: Delayed objects of unspecified length are not iterable。我尝试同时计算add、subtract和multipl...

  9. Dask图的执行和内存使用

    我正在dask中构建一个非常大的DAG,以提交给分布式调度器,在分布式调度器中,节点操作数据帧,而数据帧本身可能非常大。一种模式是,我有大约50-60个函数,用于加载数据和构造pandas数据帧,每个数据帧大小为几百MB (并且逻辑上表示单...

  10. Dask在单核上的缓慢计算性能

    我实现了一个映射函数,它将字符串解析为XML树,遍历该树并提取一些信息。很多if-then-else的东西,没有额外的IO代码。我们从Dask获得的加速并不是很令人满意,所以我们仔细研究了在单个分区中的单个大项目(580MB的XML字符串)...