Python下判断文件是否为二进制文件的三种方法

OpenSkill 发表了文章 0 个评论 5342 次浏览 2020-09-18 18:27 来自相关话题

常用的有两种方法判断文件是否为二进制文件，最准确的就是把这两种方法结合起来更加准确点. 方法1利用codecs模块 ...查看全部

常用的有两种方法判断文件是否为二进制文件，最准确的就是把这两种方法结合起来更加准确点.

方法1利用codecs模块

它首先检查文件是否以BOM开始，如果不在初始8192字节内查找零字节：

import codecs



file_path = "/home/ubuntu/zgd/ztest/_gs418_510txp_v6.6.2.7.stk.extracted/test"



#: BOMs to indicate that a file is a text file even if it contains zero bytes.

_TEXT_BOMS = (

    codecs.BOM_UTF16_BE,

    codecs.BOM_UTF16_LE,

    codecs.BOM_UTF32_BE,

    codecs.BOM_UTF32_LE,

    codecs.BOM_UTF8,

    )





def is_binary_file(file_path):

    with open(file_path, 'rb') as file:

        initial_bytes = file.read(8192)

        file.close()

    return not any(initial_bytes.startswith(bom) for bom in _TEXT_BOMS) and b'\0' in initial_bytes



if __name__ == "__main__":

    print is_binary_file(file_path)

上面is_binary_file()函数也可以改成下面的方式：

def is_binary_file(file_path):

    with open(file_path, 'rb') as file:

        initial_bytes = file.read(8192)

        file.close()

        for bom in _TEXT_BOMS:

            if initial_bytes.startswith(bom):

                continue

            else:

                if b'\0' in initial_bytes:

                    return True

    return False

方法2利用magic模块

安装模块: pip install python-magic

def getFileType(ff):

    mime_kw = 'x-executable|x-sharedlib|octet-stream|x-object'  ###可执行文件、链接库、动态流、对象

    try:

        magic_mime = magic.from_file(ff, mime=True)

        magic_hit = re.search(mime_kw, magic_mime, re.I)

        if magic_hit:

            return True

        else:

            return False

    except Exception, e:

        print e.message

最好的方法是对两种类型同时进行处理：

# -*- coding:utf-8 -*-

# @Author:zgd

# @time:2019/6/21

# @File:operateSystem.py



import magic

import re

import codecs



def is_binary_file_1(ff):

    '''

    根据text文件数据类型判断是否是二进制文件

    :param ff: 文件名（含路径）

    :return: True或False，返回是否是二进制文件

    '''

    TEXT_BOMS = (

        codecs.BOM_UTF16_BE,

        codecs.BOM_UTF16_LE,

        codecs.BOM_UTF32_BE,

        codecs.BOM_UTF32_LE,

        codecs.BOM_UTF8,

    )

    with open(file_path, 'rb') as file:

        CHUNKSIZE = 8192

        initial_bytes = file.read(CHUNKSIZE)

        file.close()

    #: BOMs to indicate that a file is a text file even if it contains zero bytes.

    return not any(initial_bytes.startswith(bom) for bom in TEXT_BOMS) and b'\0' in initial_bytes





def is_binwary_file_2(ff):

    '''

    根据magic文件的魔术判断是否是二进制文件

    :param ff: 文件名（含路径）

    :return: True或False，返回是否是二进制文件

    '''

    mime_kw = 'x-executable|x-sharedlib|octet-stream|x-object'  ###可执行文件、链接库、动态流、对象

    try:

        magic_mime = magic.from_file(ff, mime=True)

        magic_hit = re.search(mime_kw, magic_mime, re.I)

        if magic_hit:

            return True

        else:

            return False

    except Exception, e:

        return False





if __name__ == "__main__":

    file_path = "/home/ubuntu/zgd/ztest/_gs418_510txp_v6.6.2.7.stk.extracted/D0"

    print is_binary_file_1(file_path)

    print is_binwary_file_2(file_path)

    print any((is_binary_file_1(file_path), is_binwary_file_2(file_path)))

方法3判断是否有ELF头

根据文件中是否有ELF头进行判断文件是否为二进制文件

# 判断文件是否是elf文件

def is_ELFfile(filepath):

    if not os.path.exists(filepath):

        logger.info('file path {} doesnot exits'.format(filepath))

        return False

    # 文件可能被损坏，捕捉异常

    try:

        FileStates = os.stat(filepath)

        FileMode = FileStates[stat.ST_MODE]

        if not stat.S_ISREG(FileMode) or stat.S_ISLNK(FileMode):  # 如果文件既不是普通文件也不是链接文件

            return False

        with open(filepath, 'rb') as f:

            header = (bytearray(f.read(4))[1:4]).decode(encoding="utf-8")

            # logger.info("header is {}".format(header))

            if header in ["ELF"]:

                # print header

                return True

    except UnicodeDecodeError as e:

        # logger.info("is_ELFfile UnicodeDecodeError {}".format(filepath))

        # logger.info(str(e))

        pass



    return False

Python下如何将字符串类型的列表转换为列表对象？

贡献

OS小编回复了问题 3 人关注 1 个回复 2677 次浏览 2020-09-18 01:18 来自相关话题

使用vscode的扩展pylance写的Python代码引入自定义的包找不到

贡献

OS小编回复了问题 3 人关注 1 个回复 8411 次浏览 2020-08-29 21:41 来自相关话题

Python清空文件，读取替换回写失败

贡献

空心菜回复了问题 1 人关注 1 个回复 2787 次浏览 2020-09-18 13:05 来自相关话题

Java程序启动报如下错误

贡献

空心菜回复了问题 1 人关注 1 个回复 7055 次浏览 2020-09-20 00:50 来自相关话题

golang静态编译

Ansible 发表了文章 0 个评论 2483 次浏览 2020-04-30 09:43 来自相关话题

golang 的编译（不涉及 cgo 编译的前提下）默认使用了静态编译，不依赖任何动态链接库。这样可以任意部署到各种运行环境，不用担心依赖库的版本问题。只是体积大一点而已，存储时占用了一点磁盘，运行时，多占用了一点内存。早期动 ...查看全部

golang 的编译（不涉及 cgo 编译的前提下）默认使用了静态编译，不依赖任何动态链接库。

这样可以任意部署到各种运行环境，不用担心依赖库的版本问题。只是体积大一点而已，存储时占用了一点磁盘，运行时，多占用了一点内存。早期动态链接库的产生，是因为早期的系统的内存资源十分宝贵，由于内存紧张的问题在早期的系统中显得更加突出，因此人们首先想到的是要解决内存使用效率不高这一问题，于是便提出了动态装入的思想。也就产生了动态链接库。在现在的计算机里，操作系统的硬盘内存更大了，尤其是服务器，32G、64G 的内存都是最基本的。可以不用为了节省几百 KB 或者1M，几 M 的内存而大大费周折了。而 golang 就采用这种做法，可以避免各种 so 动态链接库依赖的问题，这点是非常值得称赞的。

显示指定静态编译方法
在Docker化的今天，我们经常需要静态编译一个Go程序，以便方便放在Docker容器中。即使你没有引用其它的第三方包，只是在程序中使用了标准库net,你也会发现你编译后的程序依赖glic,这时候你需要glibc-static库，并且静态连接。

不同的Go版本下静态编译方式还有点不同，在go 1.10下，下面的方式会尽可能做到静态编译：

CGO_ENABLED=0 go build -a -ldflags '-extldflags "-static"' .

php添加pdo_mysql模块报错

贡献

空心菜回复了问题 2 人关注 1 个回复 6326 次浏览 2017-12-18 00:15 来自相关话题

分享Python基础入门到精通视频教程5套

alber1986 发表了文章 0 个评论 3369 次浏览 2017-12-16 11:32 来自相关话题

分享Python基础入门到精通视频教程5套：第一套：Python14期VIP视频第二套 python全栈开发工程师1期第三套 2017年老男孩全栈第二期103天完整第四套 Python视频 ...查看全部

分享Python基础入门到精通视频教程5套：
第一套：Python14期VIP视频
第二套 python全栈开发工程师1期
第三套 2017年老男孩全栈第二期103天完整
第四套 Python视频课程就业班
第五套 Python自动化开发12期完整版
http://www.sucaihuo.com/video/194.html

如何确认我apache加载的php的真实路径

贡献

OS小编回复了问题 2 人关注 1 个回复 4276 次浏览 2017-12-13 17:13 来自相关话题

python3: error while loading shared libraries: libpython3.5m.so.1.0

贡献

空心菜回复了问题 2 人关注 1 个回复 6897 次浏览 2017-09-25 17:04 来自相关话题

通知设置新通知

编程

Python下判断文件是否为二进制文件的三种方法

方法1利用codecs模块

方法2利用magic模块

方法3判断是否有ELF头

Python下如何将字符串类型的列表转换为列表对象？

使用vscode的扩展pylance写的Python代码引入自定义的包找不到

Python清空文件，读取替换回写失败

Java程序启动报如下错误

golang静态编译

php添加pdo_mysql模块报错

分享Python基础入门到精通视频教程5套

如何确认我apache加载的php的真实路径

python3: error while loading shared libraries: libpython3.5m.so.1.0

热门话题

热门用户

OpenSkill 专业的开源技术学习问答平台

通知设置 新通知

编程

方法1利用codecs模块

方法2利用magic模块

方法3判断是否有ELF头

热门话题

热门用户

OpenSkill 专业的开源技术学习问答平台

通知设置新通知