判断文件类型,一般情况下可以根据文件后缀约定,使用相应的处理方式处理。
或者基于文件magic number(文件的前512个bytes)对文件类型进行判断,C/C++可以通过libmagic处理判断文件类型,下面是stackoverflow上使用libmagic的实现::
#include <boost/filesystem.hpp>
#include <boost/range.hpp>
#include <iostream>
#include <magic.h>
using namespace boost;
namespace fs = filesystem;
int main() {
auto handle = ::magic_open(MAGIC_NONE|MAGIC_COMPRESS);
::magic_load(handle, NULL);
for (fs::directory_entry const& x : make_iterator_range(fs::directory_iterator("."), {})) {
auto type = ::magic_file(handle, x.path().native().c_str());
std::cout << x.path() << "\t" << (type? type : "UNKOWN") << "\n";
}
::magic_close(handle);
}
输出结果:
sehe@desktop:~/custom/boost/status$ /tmp/test
"./Jamfile.v2" ASCII text
"./explicit-failures.xsd" XML document text
"./expected_results.xml" XML document text
"./explicit-failures-markup.xml" XML document text
除了这两种判断方式,另一种情况是根据文件内容判断文件是否是二进制文件,并且不使用libmagic。此时可以借鉴less命令的实现方式,当文件的前256bytes中包含5个字节以上的非ascii码可打印字符,则认为文件是二进制文件。
例如,如果二进制文件中仅包含大小写字母、数字、换行符,根据前n个字符中是否包含非预期字符进行文件类型判断可以这样实现:
bool BinaryFile(ifstream &is)
{
const size_t kCharSize = 256;
char data[kCharSize];
std::fill(data, data + kCharSize, -1); // Fill with -1 for compare
is.getline(data, kCharSize, ' '); // Use blank char as delemiter, e.g.
for (char c : data) {
if (c == -1) {
break; // access end of the efficient bits
} else if (!((c >= 'A' && c <= 'Z') || (c >= 'a' && c <= 'z') ||
(c >= '0' && c <= '9') || c == '\r' || c == '\n' ||
c == 0)){
std::cout << "error:" << c << std::endl;
return true;
}
}
return false;
}
判断文件内容时,也可以通过正则表达式进行判断。当然这个方式也不完全正确,如果用户提供的文件内容全是由char '\n’构成,则判断错误。
抛砖引玉,希望大家有更好的实现方案。
本文探讨了如何判断文件类型,包括依据文件后缀、文件的magic number(前512个字节)以及通过分析文件内容。提到了C/C++使用libmagic库的方法,以及less命令中对于二进制文件的判断技巧,即前256字节内含有超过5个非ASCII码可打印字符。同时指出,正则表达式也可用于文件内容判断,但可能存在误判情况。

744

被折叠的 条评论
为什么被折叠?



