百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

Pandas和Streamlit对时间序列数据进行可视化过滤

liuian 2025-01-12 16:24 16 浏览



介绍

我们每天处理的数据最多的类型可能是时间序列数据。基本上,使用日期,时间或两者同时索引的任何内容都可以视为时间序列数据集。在我们工作中,可能经常需要使用日期和时间本身来过滤时间序列数据。根据任何其他形式的索引过滤dataframe是一件相当麻烦的任务。尤其是当日期和时间在不同的列中时。

幸运的是,我们有Pandas和Streamlit在这方面为我们提供帮助,并且可以方便的创建和可视化交互式日期时间过滤器。我认为我们大多数人对Pandas应该有所了解,并且可能会在我们的数据生活中例行使用它,但是我觉得许多人都不熟悉Streamlit,下面我们从Pandas的简单介绍开始

在处理Python中的数据时,Pandas可以说是最敏捷,高效,灵活,健壮,有弹性工具。这个强大的工具包使您能够而只需几行代码即可操纵,转换以及尤其是可视化dataframe中的数据。在此应用程序中,我们将使用Pandas从CSV文件读取/写入数据,并根据选定的开始和结束日期/时间调整数据框的大小。流光

Streamlit是一个纯粹的Python API,它允许你创建机器学习应用程序。其实远不止这些。Streamlit是一个web框架,他将一个准端口转发代理服务器和一个前端UI库混合在一起。简单地说,你可以为了各种目的开发和部署无数的web应用程序(或本地应用程序)。对于我们的应用程序,我们将使用Streamlit为我们的时间序列数据渲染一个交互式滑动过滤器,该数据也将即时可视化。

python包

import pandas as pd
import streamlit as st
import datetime
import re
import base64

如果你需要安装上面的任何一个包,请使用"pip install",例如以下命令

pip install streamlit

数据集

我们将使用随机生成的数据集,它有一个日期、时间和值的列,如下所示。


日期格式如下:

YYYYMMDD

而时间格式为:

HHMM

可以使用任何其他格式来格式化日期时间,但是您必须确保按照后续部分中的说明在脚本中声明它。

日期时间过滤器

为了实现我们的过滤器,我们将使用以下函数作为参数— message和df,它们与滑块小部件显示的消息以及需要过滤的原始dataframe相对应。

def df_filter(message,df):

        slider_1, slider_2 = st.slider('%s' % (message),0,len(df)-1,[0,len(df)-1],1)

        while len(str(df.iloc[slider_1][1]).replace('.0','')) < 4:
            df.iloc[slider_1,1] = '0' + str(df.iloc[slider_1][1]).replace('.0','')
            
        while len(str(df.iloc[slider_2][1]).replace('.0','')) < 4:
            df.iloc[slider_2,1] = '0' + str(df.iloc[slider_1][1]).replace('.0','')

        start_date = datetime.datetime.strptime(str(df.iloc[slider_1][0]).replace('.0','') + str(df.iloc[slider_1][1]).replace('.0',''),'%Y%m%d%H%M%S')
        start_date = start_date.strftime('%d %b %Y, %I:%M%p')
        
        end_date = datetime.datetime.strptime(str(df.iloc[slider_2][0]).replace('.0','') + str(df.iloc[slider_2][1]).replace('.0',''),'%Y%m%d%H%M%S')
        end_date = end_date.strftime('%d %b %Y, %I:%M%p')

        st.info('Start: **%s** End: **%s**' % (start_date,end_date))
        
        filtered_df = df.iloc[slider_1:slider_2+1][:].reset_index(drop=True)

        return filtered_df

首先,我们将调用Streamlit slider小部件,文档如下所示。

streamlit.slider(label, min_value, max_value, value, step)

参数如下

label (str或None) -一个短标签,向用户解释这个滑块的用途。

min_value(支持的类型或无)—最小允许值。如果值是一个int型,默认为0,如果是float型,默认为0.0,如果是date/datetime, time. value - timedelta(days=14)。最小时间

max_value(支持的类型或None) -最大允许值。如果值是int类型,默认值为100,如果是float类型,默认值为1.0,如果是date/datetime, time,则value + timedelta(days=14)。max if a time

value(一个支持的类型或一个元组/支持的类型列表或None) -滑块第一次呈现时的值。如果在这里传递一个包含两个值的元组/列表,则会呈现一个带有上下边界的范围滑块。例如,如果设置为(1,10),滑块将在1到10之间有一个可选择的范围。默认为min_value。

step (int/float/timedelta或None)—步进间隔。默认值为1,如果是浮点数则为0.01,如果是date/datetime则为timedelta(days=1),如果是time(或者maxvalue - minvalue < 1 day)则为timedelta(minutes=15)

请注意,我们的滑块将返回两个值,即开始日期时间和结束日期时间值。因此,我们必须使用数组声明滑块的初始值为:

[0,len(df)-1]

我们必须将小部件等同于如下所示的两个变量,即用于过滤dataframe的开始和结束日期时间索引:

slider_1, slider_2 = st.slider('%s' % (message),0,len(df)-1,[0,len(df)-1,1)

还需要从我们的开始/结束时间列中删除任何后面的小数点位,并在时间少于一个小时的情况下添加前面的零,即12:00AM引用为0,如下所示:

while len(str(df.iloc[slider_1][1]).replace('.0','')) < 4:
    df.iloc[slider_1,1] = '0' + str(df.iloc[slider_1][1]).replace('.0','')

然后,我们需要将日期添加到时间中,并以使用datetime可以理解的格式解析我们的datetime。Python中的strptime绑定如下所示:

start_date = datetime.datetime.strptime(str(df.iloc[slider_1][0]).replace('.0','') + str(df.iloc[slider_1][1]).replace('.0',''),'%Y%m%d%H%M%S')

为了显示我们选择的日期时间,我们可以使用strftime函数来重新格式化开始/结束,如下所示:

start_date = start_date.strftime('%d %b %Y, %I:%M%p')

最后,我们将显示选定的日期时间,并将过滤后的索引应用到我们的数据集,如下所示:

st.info('Start: **%s** End: **%s**' % (start_date,end_date)) filtered_df = df.iloc[slider_1:slider_2+1][:].reset_index(drop=True)

Streamlit应用

最后,我们可以将所有内容绑定在一个Streamlit 应用程序的形式中,该应用程序将渲染datetime过滤器、dataframe和折线图,当我们移动滑块时,这些都将即时更新。

if __name__ == '__main__':

    df = pd.read_csv('file_path')

    st.title('Datetime Filter')
    filtered_df = df_filter('Move sliders to filter dataframe',df)

    column_1, column_2 = st.beta_columns(2)

    with column_1:
        st.title('Data Frame')
        st.write(filtered_df)

    with column_2:
        st.title('Chart')
        st.line_chart(filtered_df['value'])

    st.markdown(download_csv('Filtered Data Frame',filtered_df),unsafe_allow_html=True)

您可能会发现将过滤后的dataframe下载为CSV文件非常方便。如果是这样,请使用以下函数在您的Streamlit应用程序中创建一个可下载的文件。

def download_csv(name,df):
    
    csv = df.to_csv(index=False)
    base = base64.b64encode(csv.encode()).decode()
    file = (f'<a href="data:file/csv;base64,{base}" download="%s.csv">Download file</a>' % (name))
    
    return file

这个函数的参数- name和df分别对应于需要转换为CSV文件的可下载文件和dataframe的名称。

最后,运行我们的程序

streamlit run file_name.py

结果

一个交互式仪表板,允许你可视化地过滤你的时间序列数据,并在同一时间可视化它!


本文代码:github/mkhorasani/interactivedatetimefilter

作者:M Khorasani

deephub翻译组

相关推荐

2023年最新微信小程序抓包教程(微信小程序 抓包)

声明:本公众号大部分文章来自作者日常学习笔记,部分文章经作者授权及其他公众号白名单转载。未经授权严禁转载。如需转载,请联系开百。请不要利用文章中的相关技术从事非法测试。由此产生的任何不良后果与文...

测试人员必看的软件测试面试文档(软件测试面试怎么说)

前言又到了毕业季,我们将会迎来许多需要面试的小伙伴,在这里呢笔者给从事软件测试的小伙伴准备了一份顶级的面试文档。1、什么是bug?bug由哪些字段(要素)组成?1)将在电脑系统或程序中,隐藏着的...

复活,视频号一键下载,有手就会,长期更新(2023-12-21)

视频号下载的话题,也算是流量密码了。但也是比较麻烦的问题,频频失效不说,使用方法也难以入手。今天,奶酪就来讲讲视频号下载的新方案,更关键的是,它们有手就会有用,最后一个方法万能。实测2023-12-...

新款HTTP代理抓包工具Proxyman(界面美观、功能强大)

不论是普通的前后端开发人员,还是做爬虫、逆向的爬虫工程师和安全逆向工程,必不可少会使用的一种工具就是HTTP抓包工具。说到抓包工具,脱口而出的肯定是浏览器F12开发者调试界面、Charles(青花瓷)...

使用Charles工具对手机进行HTTPS抓包

本次用到的工具:Charles、雷电模拟器。比较常用的抓包工具有fiddler和Charles,今天讲Charles如何对手机端的HTTS包进行抓包。fiddler抓包工具不做讲解,网上有很多fidd...

苹果手机下载 TikTok 旧版本安装包教程

目前苹果手机能在国内免拔卡使用的TikTok版本只有21.1.0版本,而AppStore是高于21.1.0版本,本次教程就是解决如何下载TikTok旧版本安装包。前期准备准备美区...

【0基础学爬虫】爬虫基础之抓包工具的使用

大数据时代,各行各业对数据采集的需求日益增多,网络爬虫的运用也更为广泛,越来越多的人开始学习网络爬虫这项技术,K哥爬虫此前已经推出不少爬虫进阶、逆向相关文章,为实现从易到难全方位覆盖,特设【0基础学爬...

防止应用调试分析IP被扫描加固实战教程

防止应用调试分析IP被扫描加固实战教程一、概述在当今数字化时代,应用程序的安全性已成为开发者关注的焦点。特别是在应用调试过程中,保护应用的网络安全显得尤为重要。为了防止应用调试过程中IP被扫描和潜在的...

一文了解 Telerik Test Studio 测试神器

1.简介TelerikTestStudio(以下称TestStudio)是一个易于使用的自动化测试工具,可用于Web、WPF应用的界面功能测试,也可以用于API测试,以及负载和性能测试。Te...

HLS实战之Wireshark抓包分析(wireshark抓包总结)

0.引言Wireshark(前称Ethereal)是一个网络封包分析软件。网络封包分析软件的功能是撷取网络封包,并尽可能显示出最为详细的网络封包资料。Wireshark使用WinPCAP作为接口,直接...

信息安全之HTTPS协议详解(加密方式、证书原理、中间人攻击 )

HTTPS协议详解(加密方式、证书原理、中间人攻击)HTTPS协议的加密方式有哪些?HTTPS证书的原理是什么?如何防止中间人攻击?一:HTTPS基本介绍:1.HTTPS是什么:HTTPS也是一个...

Fiddler 怎么抓取手机APP:抖音、小程序、小红书数据接口

使用Fiddler抓取移动应用程序(APP)的数据接口需要进行以下步骤:首先,确保手机与计算机连接在同一网络下。在计算机上安装Fiddler工具,并打开它。将手机的代理设置为Fiddler代理。具体方...

python爬虫教程:教你通过 Fiddler 进行手机抓包

今天要说说怎么在我们的手机抓包有时候我们想对请求的数据或者响应的数据进行篡改怎么做呢?我们经常在用的手机手机里面的数据怎么对它抓包呢?那么...接下来就是学习python的正确姿势我们要用到一款强...

Fiddler入门教程全家桶,建议收藏

学习Fiddler工具之前,我们先了解一下Fiddler工具的特点,Fiddler能做什么?如何使用Fidder捕获数据包、修改请求、模拟客户端向服务端发送请求、实施越权的安全性测试等相关知识。本章节...

fiddler如何抓取https请求实现手机抓包(100%成功解决)

一、HTTP协议和HTTPS协议。(1)HTTPS协议=HTTP协议+SSL协议,默认端口:443(2)HTTP协议(HyperTextTransferProtocol):超文本传输协议。默认...