python解析mdf或mf4文件利器之asammdf用法

来自：网络

时间：2024-08-28

阅读：

安装

pip install asammdf

解析

1. 读取文件，获取信号

from asammdf import MDF

f = r"xxx.mdf"
mdf = MDF(f)
if '信号名' in mdf:
    #注意，一个mdf里可能有重名的信号，这个时候要加上group_index和channel_index，比如mdf.get('信号名',3,2)，至于后面两个索引号怎么获取，这个就需要看后面讲的的channels_db了
    signal = mdf.get('信号名')
    data = signal.samples
    timestamps = signal.timestamps

如果对mdf的格式不熟悉，可以百度下资料，本文主要介绍asammdf的使用。

2. 获取所有信号名及其索引

chn_db = mdf.channels_db

3. mdf转成dataframe

#代码接上
df = mdf.to_dataframe()

这个方法有个坑，canape采集数据允许不同信号不同频率，也就是说数据对不齐，这种情况下调这个方法会导致爆内存，所以使用时应该注意一下，如果转换时间过长，或者报错，多数是信号采集频率不同，如果事先就已经知道频率不同，只能用get方法获取单个信号，然后分析，或者用后面讲到的方法先进行数据对齐（重采样），然后在进行转换。

4. 获取channelgroup和chnannel

mdf文件一般是用channel和channel group组织的，一个文件可能包含多个chnannel group，一个channel group也可以包含多个channel，channel和signal一一对应，channel保存了一些描述信息，数据和时间戳保存在signal里，asammdf里提供了几个方法来获取信息，下面是一段从源码里摘取的一段

for group_index, (virtual_group_index, virtual_group) in enumerate(
            mdf_ins.virtual_groups.items()
        ):
            if virtual_group.cycles_nr == 0 and empty_channels == "skip":
                continue

            channels = [
                (None, gp_index, ch_index)
                for gp_index, channel_indexes in mdf_ins.included_channels(
                    virtual_group_index
                )[virtual_group_index].items()
                for ch_index in channel_indexes
                if ch_index != mdf_ins.masters_db.get(gp_index, None)
            ]

从中可以看出，我们可以通过mdf.virtual_groups获取到全部的channel group，virtual_groups是一个字典，所以可以通过items方法遍历，然后通过mdf.included_channels(virtual_group_index)方法获取到当前channel group下包含的channels，这里我们注意到，他获取的channels是一个元组列表，第一个都是None,第二个和第三个分别是channel group的index和channel的index，再看mdf.get()方法的参数其实有很多，前三个是signal name，group index，channel index，其实就是列表元组的三个，因为channel group、channel是一个二维结构，所以，其实可以不用信号名来获取信号，也可以通过group index，和channel index，然后第一个参数传None，同时，不同通道组中的通道名字可能相同，所以这时，如果仅仅传信号名，代码会报错，因为它不知道你取得哪个组里的信号，所以这时候就需要传group index和channel index，但是如果一开始就用索引就不会，因为这两个索引会唯一确定一个信号。

5. 获取一部分信号数据

基于上段的通道列表，我们就可以用mdf.select方法筛选出我们需要的信号，信号和通道是一一对应关系，我们可以把这两个东西当成一个东西理解，只不过两种数据结构存的数据不一样，所以这里大家不要混淆或者蒙圈。上面获取的其实是全部的信号，其实也可以是部分。

            old_signals = [
                signal
                for signal in mdf_ins.select(
                    channels, raw=True, copy_master=False, validate=False
                )
            ]

mdf.select返回的是信号列表，而不是包含这些信号的mdf实列，mdf.filter()返回的是mdf实列，这里需要注意下，当然select要保证传入的信号列表都在mdf里，否则会报错，另外不要用for循环+get('信号名')的方式获取多个信号数据，经过测试，这个函数性能很差，获取单个信号的数据还可以，信号一多最好用select，速度非常快。

还有那个raw参数，虽然它这里用的True，但是，一般我们要设置为False，特别是自己处理数据的时候，因为设置成True会导致读出的数据错误，它之所以有这个参数，我怀疑是为了兼容一些数据格式，而不是为了数据准确性。

6. 数据合并

MDF类里有个静态方法concatenate，用于多个文件的合并。

from asammdf import MDF
mdf1 = MDF(r"f1.mf4")
mdf2 = MDF(r"f2.mf4")

mdf = MDF.concatenate([mdf1,mdf2])

concatenate是一个静态方法，可以用类直接调用，这个方法用于两个group和channel都一样的文件进行连接，即纵向连接。不支持包含不同信号的数据进行横向拼接。

7. 数据过滤

mdf.filter(channels)，这个上文已经提到，它返回的是包含指定信号的mdf实例，而不是信号列表。

8. 数据导出

asammdf支持把mdf转成其它格式，比如csv，hdf5，mat，parquet。

mdf.export(format,filename)

9. 数据绘图

asammdf支持用信号数据绘图，下面是官方示例

# map signals
xs = np.linspace(-1, 1, 50)
ys = np.linspace(-1, 1, 50)
X, Y = np.meshgrid(xs, ys)
vals = np.linspace(0, 180.0 / np.pi, 100)
phi = np.ones((len(vals), 50, 50), dtype=np.float64)
for i, val in enumerate(vals):
    phi[i] *= val
R = 1 - np.sqrt(X**2 + Y**2)
samples = np.cos(2 * np.pi * X + phi) * R

timestamps = np.arange(0, 2, 0.02)

s_map = Signal(
    samples=samples, timestamps=timestamps, name="Variable Map Signal", unit="dB"
)
s_map.plot()

我们看到plot方法是挂在Signal上的，所以，我们用mdf.get('signame')获取到一个信号，也可以直接绘图，值得注意的是，信号是支持直接计算的，再看一个官方的例子

import numpy as np

from asammdf import Signal

# create 3 Signal objects with different time stamps

# unit8 with 100ms time raster
timestamps = np.array([0.1 * t for t in range(5)], dtype=np.float32)
s_uint8 = Signal(
    samples=np.array([t for t in range(5)], dtype=np.uint8),
    timestamps=timestamps,
    name="Uint8_Signal",
    unit="u1",
)

# int32 with 50ms time raster
timestamps = np.array([0.05 * t for t in range(10)], dtype=np.float32)
s_int32 = Signal(
    samples=np.array(list(range(-500, 500, 100)), dtype=np.int32),
    timestamps=timestamps,
    name="Int32_Signal",
    unit="i4",
)

# float64 with 300ms time raster
timestamps = np.array([0.3 * t for t in range(3)], dtype=np.float32)
s_float64 = Signal(
    samples=np.array(list(range(2000, -1000, -1000)), dtype=np.int32),
    timestamps=timestamps,
    name="Float64_Signal",
    unit="f8",
)

prod = s_float64 * s_uint8
prod.name = "Uint8_Signal * Float64_Signal"
prod.unit = "*"
prod.plot()

pow2 = s_uint8**2
pow2.name = "Uint8_Signal ^ 2"
pow2.unit = "u1^2"
pow2.plot()

allsum = s_uint8 + s_int32 + s_float64
allsum.name = "Uint8_Signal + Int32_Signal + Float64_Signal"
allsum.unit = "+"
allsum.plot()

# inplace operations
pow2 *= -1
pow2.name = "- Uint8_Signal ^ 2"
pow2.plot()

# cut signal
s_int32.plot()
cut_signal = s_int32.cut(start=0.2, stop=0.35)
cut_signal.plot()

我们可以看到，信号是可以相乘，相加，平方操作的，操作返回应该还是信号类型，因为后面我们看到它调用了plot方法，这个方法是挂在Signal上面的。

10. 数据重采样

canape支持不同信号的采集频率不同，如果不同信号数据量不同，也就是说数据不对齐，这样在转成dataframe的时候就会爆内存，再比如频率如果过高的话，数据量必然特别大，这样的话也不利于分析，这时就需要我们对数据进行重新采样。asammdf有个resample方法。

下面是个例子：

from asammdf import MDF
from utils import get_lines_from_txt
f = r"C:\Users\c-master1\Desktop\下载\AnalysisTools\YIQI_2022-08-06_14-37-50.mf4"
f1 = r"C:\Users\c-master1\Downloads\2022-11-21_16-59-29.mf4"
f2 = r"C:\Users\c-master1\Downloads\Recorder_2022-11-17_14-55-00.MDF"
clist_f = r"C:\Users\c-master1\Downloads\数据分析用信号列表(2)(2).txt"

channel_list = ['ABV_Ki_Out','ACsurge_Flag_b','csABPV_posVlv_perc']
channel_list = get_lines_from_txt(clist_f)
mdf = MDF(f2)
mdf = mdf.filter(channel_list)
signals = mdf.select(channel_list)
max = 0
name = ""
for sig in signals:
    if len(sig.samples) > max:
        max = len(sig.samples)
        name = sig.name
mdf1 = mdf.resample(raster=name)
df1 = mdf1.to_dataframe()
df1

resample方法支持按某个信号进行重采样，即所有其它信号按这个信号对齐，也支持手动写个频率，比如0.1就是0.1秒一个数据，还支持传一个数组，采集指定时间点的数据，进行重采样后数据就对齐了，这时就可以转成dataframe了，对于升采样，有个需要注意的问题，一般mf4保存的是数字，当然也可以是字符串，对于数值型数据，主要分两种，也就是整数和小数，也叫整型和浮点型，在asammdf中，对于整数和小数的默认重采样策略是不同的，整数的话默认是重复之前的值，而对于浮点型也就是小数的话，默认是线性插值，所以，有的时候你会发现重采样后数据好像被改了，其实就是线性插值导致的，如果想改变默认行为，可以用

mdf.configure(float_interpolation=0,integer_interpolation=0)

来改变，其中mdf是MDF的实例，针对浮点型，asammdf支持两种重采样策略，一种是重复之前的值，一种就是线性插值，对于整型，提供了三种策略，前面两种和浮点型一样，还有一种混合策略，就是结合重复前值和线性插值的特点，具体没有试过。

还有一个坑需要注意，就是表面上我们看到数据里存的是整数，但是它的类型是Double的，这种asammdf也会把它当浮点型处理，因为它只按数据类型处理，不管你存的具体数据到底是整数还是小数。

mdf/mf4文件创建

1. mdf支持从零创建mdf/mf4文件

下面是官方示例

# -*- coding: utf-8 -*-
"""
*asammdf* MDF usage example
"""
import numpy as np

from asammdf import MDF, Signal

# create 3 Signal objects

timestamps = np.array([0.1, 0.2, 0.3, 0.4, 0.5], dtype=np.float32)

# unit8
s_uint8 = Signal(
    samples=np.array([0, 1, 2, 3, 4], dtype=np.uint8),
    timestamps=timestamps,
    name="Uint8_Signal",
    unit="u1",
)
# int32
s_int32 = Signal(
    samples=np.array([-20, -10, 0, 10, 20], dtype=np.int32),
    timestamps=timestamps,
    name="Int32_Signal",
    unit="i4",
)

# float64
s_float64 = Signal(
    samples=np.array([-20, -10, 0, 10, 20], dtype=np.float64),
    timestamps=timestamps,
    name="Float64_Signal",
    unit="f8",
)

# create empty MDf version 4.00 file
with MDF(version="4.10") as mdf4:

    # append the 3 signals to the new file
    signals = [s_uint8, s_int32, s_float64]
    mdf4.append(signals, comment="Created by Python")

    # save new file
    mdf4.save("my_new_file.mf4", overwrite=True)

    # convert new file to mdf version 3.10
    mdf3 = mdf4.convert(version="3.10")
    print(mdf3.version)

    # get the float signal
    sig = mdf3.get("Float64_Signal")
    print(sig)

    # cut measurement from 0.3s to end of measurement
    mdf4_cut = mdf4.cut(start=0.3)
    mdf4_cut.get("Float64_Signal").plot()

    # cut measurement from start of measurement to 0.4s
    mdf4_cut = mdf4.cut(stop=0.45)
    mdf4_cut.get("Float64_Signal").plot()

    # filter some signals from the file
    mdf4 = mdf4.filter(["Int32_Signal", "Uint8_Signal"])

    # save using zipped transpose deflate blocks
    mdf4.save("out.mf4", compression=2, overwrite=True)

当然，从官方的示例中还可以获得一些其它信息，比如，文件的裁剪，mdf.cut(**args)方法.

2. 也支持从dataframe创建

import pandas as pd
import numpy as np

df = pd.DataFrame({
    'a': np.arrange(10),
    'b': np.arrange(10),
    'c': np.arrange(10),
})
mdf_f = MDF()
mdf_f.append(df)
mdf_f.save("xx.mf4",overwrite=True)

最后

asammdf其实还有一个gui工具，用pip install asammdf[gui]命令即可安装，图形界面实现了一些canape的功能，感觉还是很强大的，感兴趣的可以用下试试。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持。

一、time 模块time模块是Python标准库中最基础、最常用的模块之一。它提供了各种处理时间的方法和函数，如获取当前时间、格式化时间、计算时间差等。time模块大部分函数的底

2024-11-18 10:17:21

目录 1. 安装与卸载 Poetry 2. 查看 Poetry 版本 3. 查看 Poetry 的位置 4. 依赖安装 Poetry 的优势在现代软件开发中，Python 因其简洁和强大的功能而广受欢迎。然而，随着项目

2024-11-10 12:23:07

目录 Python 日期和时间戳的转换 Python中处理时间的模块 Python的time模块将时间戳转换为格式化字符串 Python 的datetime模块 datetime模块中定义的类（这些

2024-10-20 21:50:48

目录 1. 异步组件 1.1 使用 defineAsyncComponent 1.2 预加载 2. 路由懒加载 3. 动态组件 4. 事件触发的动态加载 5. 按需加载与状态管理结合结论 1. 异步组

2024-10-20 21:50:41

目录引言使用Python保存PPT中的所有形状为图像文件用Python保存PPT中带格式设计的图片为图像文件引言将PowerPoint演示文稿中的形状（幻灯片中的内容元素，包括文本框、图形

2024-10-20 21:50:28

目录前言用Python删除PDF文档页边距前言在处理PDF文档时，有时候我们会遇到PDF文件带有较大的页边距的情况。这样过大的页边距不仅浪费了页面空间，而且在打印或电子阅读时也

2024-10-20 21:50:20

目录 1.引言 2.准备工作 3.基础理论知识 4.步骤详解 5.常见问题解答 6.成果案例分享 7.案例代码示例1.引言火柴人（Stick Figure）是一种极简风格的图形，通常由简单的线段和圆圈

2024-10-20 21:50:09

目录环境介绍类和函数区别封装性：状态保持：可重用性：继承和多态：设计模式：代码组织：执行流程：参数传递：返回值：上下文管理：总结环境window10，pyc

2024-10-20 21:50:03

目录一、JWT的介绍二、JWT的组成 1、Header（头部） 2、Payload（负载） 3、Signature（签名）三、Python写JWT 1、安装Jwt 2、使用JWT 3、解密JWT 总结一、JWT的介绍JW

2024-10-18 23:10:58

目录视频转换成 GIF 图形的重要性 1. 增强表达效果 2. 适应性强 3. 文件大小优化 4. 易于创建和编辑 5. 吸引用户注意力 6. 简化获取信息的步骤用python实现视gif

2024-10-18 23:10:46

目录前言 1. 构建分子式 2. 判断化合价 3. 解析分子式 4. 化合物反应方程式平衡 5. 化合物的摩尔质量计算 6. 计算化合物的质量分数 7. 计算反应热 8. 计算化合物的pH值总

2024-10-18 23:10:16

目录 1 创建 pytest.ini 文件 2 常见参数及配置方法 3 高级配置 4 结论1 创建 pytest.ini 文件在项目的根目录下，创建一个名为 pytest.ini 的文件即可。pytest 会在执行测试

2024-10-18 23:10:06

目录一、XPATH概念二、常用规则与方法 1.f12例子: 2.节点获取文本 3.属性匹配 4. 属性获取 5.iframe标签处理三、同级节点元素定位四、关键字定位五、定位

2024-10-18 23:09:49

目录引言发送GET请求获取页面的二进制数据添加查询参数发送POST请求处理JSON数据设置自定义Header 发送带认证信息的请求发送带有表单数据的请求发送带有文件的请

2024-10-18 23:09:30

安装CPU版本：(以2.9.0版本为例)pip install tensorflow==2.9.0安装GPU版本：(以2.9.0版本为例)pip install tensorflow-gpu==2.9.0若下载缓慢，使用阿里国内镜像源加速下载：(以2.9

2024-10-14 19:47:12

目录概述用asyncio实现Hello world 总结概述Python中 asyncio 模块内置了对异步IO的支持，用于处理异步IO；是Python 3.4版本引入的标准库。asyncio 的编程模型就是一个消息循

2024-10-14 19:47:02

目录 1. 问题描述 2. 解决办法 2.1 办法一：进入Script 进行安装 2.2 办法二：设置环境变量总结 1. 问题描述这几天一直用python实战，今天用pip想要安装一个库，结果突然报了

2024-10-14 19:46:53

目录实践环境问题域定义协议格式(编写proto文件) 编译协议缓冲区协议缓冲区 API 枚举标准消息方法解析和序列化编写消息读取消息另一个示例参考链接

2024-10-14 19:46:35

目录使用pip时报NameError: name‘pip’is not defined错误 1. 问题描述 2. 解决办法总结使用pip时报NameError: name‘pip’is not defined错

2024-10-14 19:46:27

目录 1. 概述 2. arange() 2.1 语法 2.2 参数 2.3 实例总结 1. 概述Numpy 中 arange() 主要是用于生成数组，具体用法如下；2. arange()2.1 语法numpy.arange(start, sto

2024-10-14 19:46:12

目录 1. 概述 2. vstack() 2.1 语法 2.2 参数 2.3 实例 3. hstack() 3.1 语法 3.2 参数 3.3 实例总结 1. 概述在Numpy中，最希望处理的数据就是数组和矩阵，下面就

2024-10-14 19:46:03

目录 Python列表简介 NumPy数组简介性能比较 1. 数组操作 2. 循环操作内存使用比较 1. 内存占用 2. 大数据集结论在Python中，处理数值数据时，我们通常面临两种选

2024-10-14 19:45:55

目录引言基础语法介绍核心概念基本语法规则基础实例问题描述代码示例进阶实例问题描述高级代码实例实战案例问题描述解决方案代码实现扩展

2024-10-14 19:45:46

目录引言 Python Excel库 Python 在Excel 中的添加数据条引言在Excel中添加数据条是一种数据可视化技巧，它通过条形图的形式在单元格内直观展示数值的大小，尤其适合比较同一

2024-10-14 19:45:37

目录

一、引言

二、什么是查询集？

2.1 创建查询集

三、查询集的延迟加载

3.1 查询集的惰性行为

2024-10-14 19:44:53

字符串问题我正在使用 python 通过 jdbc（或 odbc）访问 iris 数据库。我想将数据提取到 pandas 数据框中来操作数据并从中创建图表。我在使用 jdbc 时遇到了字符串处理问题。

2024-09-30 00:07:53

您的组织是否拥有太多 github 存储库，并且您需要一种简单的方法来总结和记录每个存储库的内容以用于报告、仪表板或审计目的？下面是一个使用 github api 完成该操作的快速脚本

2024-09-30 00:07:10

Python构建代理池构建有效的代理池对于爬虫任务至关重要，因为它可以绕过网站反爬或提升爬虫效率。在Python中构建代理池的方法如下：一、收集代理免费代理网站：如FreeProxyList

2024-09-18 16:06:35

&emsp;&emsp;本文介绍基于Python语言，针对一个文件夹下大量的Excel表格文件，对其中的每一个文件加以操作——将其中指定的若干列的数据部分都向上移动一行，并将所有

2024-09-09 23:42:47

技术背景一般情况下我们会选择使用明文形式来存储数据，如json、txt、csv等等。如果是需要压缩率较高的存储格式，还可以选择使用hdf5或者npz等格式。还有一种比较紧凑的数据存

2024-09-09 23:40:42

2020-10-21

2021-03-02

2020-05-07

2020-05-26

2021-01-13

2021-04-02

2020-05-10

2020-05-09