找回密码
 立即注册→加入我们

QQ登录

只需一步,快速开始

搜索
热搜: 下载 VB C 实现 编写
查看: 3693|回复: 0

格式化恢复之路

[复制链接]
发表于 2014-1-26 20:21:05 | 显示全部楼层 |阅读模式

欢迎访问技术宅的结界,请注册或者登录吧。

您需要 登录 才可以下载或查看,没有账号?立即注册→加入我们

×
老板叫做一个格式化恢复工具,以前数据恢复知识没怎么用上,我开始对各大著名软件的格式化恢复功能进行了分析,以为大家都是逐扇区搜索,不过到目前为止我错了,因为他们居然可以解析出文件名,也就是他们利用的是硬盘上残留的目录信息,格式化的时候并没有删掉有些信息,对于目录恢复我暂时不做,不过打算以后有机会会研究。目前我的工作就是解析doc xls ppt pdf docx pptx xlsx这7种格式,然后做一个可以扩展的工具。我的这个工具无论未来多少人为特定格式编写dll给我的程序用,都不会有很大的性能损耗。目前的初步磁盘文件查找速度为30s/G       深度解析文件速度取决于文件格式和文件大小。下面是公共接口文件:

  1. //由于该项目由于vc6的bug,不得不在vs2010编译
  2. //此格式化恢复工具分几步:
  3. //①程序搜索ext文件夹下的dll,dll的GetSupportExtension提供该dll能识别的文件类型,主模块将所有支持的类型给用户显示。
  4. //②程序列出所有支持的(介质)磁盘类型,目前支持本地硬盘、移动硬盘、u盘、以后可能支持内存文件恢复,列出给用户显示的介质是各个非隐藏分区和所有硬盘的设备链接符号。
  5. //③用户选择需要搜索的文件类型和要恢复的介质,点击搜索开始搜索。
  6. //④主模块将用户选择的文件类型加入搜索,其中对于简单文件签名直接加入搜索树中,对于复杂文件签名则把函数地址加入一个链表。
  7. //以下为初步文件搜索:
  8. //⑤主模块打开设备,从0扇区开始搜索,先搜索简单签名树,如果没有则在复杂文件签名列表中搜索,如果都没有直接进入下一个扇区。如果找到则跳转到⑥。
  9. //⑥将搜索到的初步信息显示到列表控件,如果能快速获取文件大小则可以加速遍历,否则按簇遍历(每次向后0x1000),记录每个找到的文件相关信息用于后面深度解析。
  10. //以下为深度文件搜索:
  11. //⑦对于搜到的每一项获取信息,定位到文件,把文件数据交给dll获取详细信息,这些信息包括精确后缀名,有效性,长度,和文件的特定信息。
  12. //⑧深度文件搜索完成后,右键点击列表控件会弹出2个菜单,一个是恢复,点击就开始恢复所有选择的文件,文件名为序号,后缀为识别出来的后缀,目录为选择的目录。
  13. //另一个菜单是查看文件信息,选择后可以查看dll在深度搜索时提供的特定文件信息
  14. /*
  15. Dll导出函数要求:
  16. //告知主模块该dll对于给定buf(已验证过文件签名)是否能提供快速返回文件大小,和GetFileLenImmediately配套使用可以在初次文件格式识别中加快扇区遍历速度。
  17. BOOL CanGetFileLenImmediately;
  18. //此函数对应于CanGetFileLenImmediately,如果CanGetFileLenImmediately设为TRUE则应该提供此函数入口快速计算文件大小。用于初步文件搜索。
  19. FORMAT_SFILESIZE GetFileLenImmediately(VOID);
  20. //告知注模块文件签名是否简单(可以通过判断连续几个字符确定),此导出值需要和GetFileSig连用以获取文件签名信息
  21. BOOL IsFileSigSimple;
  22. //此函数用于获取dll中的文件签名信息,如果文件签名可以简单对比出来就直接将签名的那些字节考入FORMAT_SIMPLETYPE,设置相关信息即可,
  23. //如果该种文件签名不可以通过简单逐头字节对照比较出来,则应提供文件签名判断的入口函数,其类型为FORMAT_GETCOMPLEXFILETYPE
  24. BOOL GetFileSig(PVOID pData);//simplefile:pData=FORMAT_SIMPLETYPE* complexfile:pData=FORMAT_GETCOMPLEXFILETYPE*
  25. //用于深度文件搜索,获取文件大小及扩展信息,获取唯一文件后缀
  26. BOOL GetRawFileInfo(CONST FORMAT_DATAPOINTER pData,FORMAT_FILEINFO* pfileinfo);
  27. //提供该dll支持的文件类型,可以返回文件描述,也可以返回类型后缀,不要含有不能作为文件名的非法字符
  28. VOID GetSupportExtension(CHAR Ext[MAX_EXTLEN]);
  29. */
  30. //我想到的优化法:①双缓冲区,充分利用io操作时间分给cpu并行处理内存数据
  31. //②深度搜索查找占用时间太长可以利用列表项后一项位置为界,搜索超过此位置仍没结束(获取到大小和后缀)则强制结束
  32.                
  33. #ifndef FORMAT_COMMON
  34. #define FORMAT_COMMON
  35. //以下是我定义的,详细说明在FormatDefs.cpp和FormatDefs.h,这里只是挑出这2个文件里必备的声明和定义用于编写windows dll,
  36. //由于和windows和mfc不兼容,没有直接用上面2个文件
  37. #define FORMAT_API   WINAPI
  38. #define MAX_FILESIGLEN  0x100
  39. #define MAX_CHILDNUM  0x100
  40. #define FORMAT_FAILURE  (DWORD)-1
  41. #define FORMAT_INVALIDID (DWORD)-1
  42. #define TREE_ADDFAILURE  FALSE
  43. #define TREE_ADDSUCCESS  TRUE
  44. #define MAX_EXTLEN   0x100
  45. #define MAX_DESCIPTION  0x1000
  46. #define CLASS_BEGIN_DEFINETYPE//定义类结构
  47. #define CLASS_END_DEFINETYPE
  48. #define CLASS_BEGIN_DEFMEMBERVAR//定义类成员变量
  49. #define CLASS_END_DEFMEMBERVAR
  50. #define CLASS_BEGIN_DEFMEMFUNC//定义类成员函数
  51. #define CLASS_END_DEFMEMFUNC
  52. typedef LPCTSTR    FORMAT_EXTENSION;
  53. typedef BYTE    FORMAT_DATA;   
  54. typedef DWORD    FORMAT_SFILESIZE;
  55. typedef LONGLONG   FORMAT_FILESIZE;
  56. typedef LONGLONG   FORMAT_DISKSIZE;
  57. typedef LONGLONG   FORMAT_FILEPOSITION;
  58. typedef HMODULE    FORMAT_DLLHANDLE;
  59. typedef HANDLE    FORMAT_DISKHANDLE;
  60. typedef INT     FORMAT_DATATYPE;
  61. typedef INT     FORMAT_FILESIGLEN;
  62. typedef BOOL    FORMAT_ISSUCCESS;
  63. typedef INT     FORMAT_FILESIGID;//唯一对应Dll的序数,唯一对应一个Sig
  64. typedef INT     FORMAT_ERRORCODE;
  65. typedef class CDiskMappingPointer
  66. {//访问范围最大为m_dwBlockBytes
  67. public:
  68.         CLASS_BEGIN_DEFMEMFUNC
  69.                 CDiskMappingPointer(FORMAT_DISKHANDLE hDisk,FORMAT_FILEPOSITION Base=0);
  70.                 CDiskMappingPointer(CONST CDiskMappingPointer& ObjPtr);//自动重载=()
  71.                 virtual ~CDiskMappingPointer();
  72.                 FORMAT_FILEPOSITION GetBase(VOID) CONST;
  73.                 FORMAT_DISKSIZE GetDiskSize(VOID) CONST;
  74.                 FORMAT_FILEPOSITION GetOffset(VOID) CONST;
  75.                 int GetProgress(VOID);
  76.                 BOOL IsEndOfDisk(VOID) CONST;
  77.                 BOOL SetDiskPointer(FORMAT_FILEPOSITION pos);
  78.                 FORMAT_DATA operator[](FORMAT_SFILESIZE delta) CONST;
  79.                 VOID operator+=(FORMAT_SFILESIZE delta);
  80.                 FORMAT_DATA operator*(VOID) CONST;
  81.                 operator FORMAT_DATA*(VOID) CONST;
  82.                 operator DWORD*(VOID) CONST;
  83.                 operator int*(VOID) CONST;
  84.                 operator WORD*(VOID) CONST;
  85.                 //以下三个成员函数用于快速改变文件指针读取操作
  86.                 VOID BeforeSeek();
  87.                 VOID SeekFromOrigin(FORMAT_SFILESIZE delta);
  88.                 VOID AfterSeek();
  89.         CLASS_END_DEFMEMFUNC
  90.                        
  91.         CLASS_BEGIN_DEFMEMBERVAR
  92.                 FORMAT_SFILESIZE m_dwBlockBytes;
  93.         CLASS_END_DEFMEMBERVAR
  94.                        
  95. private:
  96.         CLASS_BEGIN_DEFMEMBERVAR
  97.                 FORMAT_DATA* m_Data;
  98.                 FORMAT_FILEPOSITION m_Base;
  99.                 FORMAT_FILEPOSITION m_CurrentPos;//m_CurrentPos < m_dwBlockBytes
  100.                 CONST FORMAT_DISKHANDLE m_DiskHandle;
  101.                 FORMAT_DISKSIZE m_DiskSize;
  102.                 //以下三个成员变量用于快速改变文件指针读取操作
  103.                 FORMAT_FILEPOSITION m_oBase;
  104.                 FORMAT_FILEPOSITION m_oCurrentPos;
  105.         CLASS_END_DEFMEMBERVAR
  106. }FORMAT_DATAPOINTER;
  107. struct FORMAT_FILEINFO
  108. {
  109.         BYTE cbSize;
  110.         BYTE bitmap;//获取了哪些其他成员变量
  111.         FORMAT_FILESIZE filesize;//0x01
  112.         CHAR fileextDeepscan[MAX_EXTLEN];//0x02
  113.         BOOL IsFileValid;//0x04
  114.         CHAR Description[MAX_DESCIPTION];//0x08
  115.         PVOID reserved;
  116. };
  117. struct FORMAT_SIMPLETYPE
  118. {
  119.         FORMAT_DATA FileSig[MAX_FILESIGLEN];
  120.         FORMAT_FILESIGLEN FileSigLen;//AddTreeTrunk调用之前检测参数
  121. };
  122. typedef BOOL (*FORMAT_GETCOMPLEXFILETYPE)(CONST FORMAT_DATA DiskInfo[MAX_FILESIGLEN]);
  123.        
  124. CDiskMappingPointer::CDiskMappingPointer(FORMAT_DISKHANDLE hDisk,FORMAT_FILEPOSITION Base):m_DiskHandle(hDisk),m_Base(((Base)>>12)<<12)
  125. {
  126.         SYSTEM_INFO SysInfo;
  127.         GetSystemInfo(&SysInfo);
  128.         DWORD dwGran=SysInfo.dwAllocationGranularity;
  129.         m_dwBlockBytes=1000*dwGran;
  130.         m_Data=new FORMAT_DATA[m_dwBlockBytes];
  131.         LARGE_INTEGER li;
  132.         li.QuadPart=m_Base;
  133.         //获取指定头部数据
  134.         SetFilePointer(m_DiskHandle,li.LowPart,&li.HighPart,FILE_BEGIN);
  135.         DWORD retlen;
  136.         ReadFile(m_DiskHandle,m_Data,m_dwBlockBytes,&retlen,NULL);
  137.                
  138.         //获取磁盘大小
  139.         m_DiskSize=0;
  140.         GET_LENGTH_INFORMATION getlen;
  141.         if(DeviceIoControl(hDisk,IOCTL_DISK_GET_LENGTH_INFO,NULL,0,(LPVOID)&getlen,sizeof(getlen),&retlen,NULL))
  142.                 m_DiskSize=getlen.Length.QuadPart;
  143.         m_CurrentPos=(Base&0xFFF);
  144. }
  145. CDiskMappingPointer::CDiskMappingPointer(CONST CDiskMappingPointer& ObjPtr):m_Base(ObjPtr.m_Base),m_DiskHandle(ObjPtr.m_DiskHandle)
  146. {//深拷贝对象
  147.         m_dwBlockBytes=ObjPtr.m_dwBlockBytes;
  148.         m_CurrentPos=ObjPtr.m_CurrentPos;
  149.         m_DiskSize=ObjPtr.m_DiskSize;
  150.         m_Data=new FORMAT_DATA[m_dwBlockBytes];
  151.         memcpy(m_Data,ObjPtr.m_Data,m_dwBlockBytes);
  152. }
  153. CDiskMappingPointer::~CDiskMappingPointer()
  154. {
  155.         delete []m_Data;
  156. }
  157. FORMAT_DATA CDiskMappingPointer::operator [](FORMAT_SFILESIZE delta) CONST//调用者需要保证参数合法
  158. {
  159.         return m_Data[m_CurrentPos+delta];
  160. }
  161. VOID CDiskMappingPointer::operator+=(FORMAT_SFILESIZE delta)//调用者需要保证参数合法
  162. {
  163.         SetDiskPointer(m_Base+m_CurrentPos+delta);
  164. }
  165. FORMAT_DATA CDiskMappingPointer::operator*() CONST
  166. {
  167.         return m_Data[m_CurrentPos];
  168. }
  169. CDiskMappingPointer::operator FORMAT_DATA*() CONST
  170. {//强制转换为FORMAT_DATA*
  171.         return (m_Data+m_CurrentPos);
  172. }
  173. CDiskMappingPointer::operator DWORD*() CONST
  174. {//强制转换为DWORD*
  175.         return (DWORD*)(m_Data+m_CurrentPos);
  176. }
  177. CDiskMappingPointer::operator int*() CONST
  178. {//强制转换为int*
  179.         return (int*)(m_Data+m_CurrentPos);
  180. }
  181. CDiskMappingPointer::operator WORD*() CONST
  182. {//强制转换为WORD*
  183.         return (WORD*)(m_Data+m_CurrentPos);
  184. }
  185. VOID CDiskMappingPointer::BeforeSeek()
  186. {
  187.         m_oBase=m_Base;
  188.         m_oCurrentPos=m_CurrentPos;
  189. }
  190. VOID CDiskMappingPointer::SeekFromOrigin(FORMAT_SFILESIZE delta)
  191. {
  192.         if(m_oCurrentPos+delta < m_dwBlockBytes/2 && m_Base == m_oBase)
  193.         {
  194.         }
  195.         else//如果指针发生过移动
  196.         {//移回原位置并读取数据
  197.                 SetDiskPointer(m_oBase+m_oCurrentPos+delta);
  198.         }
  199. }
  200. VOID CDiskMappingPointer::AfterSeek()
  201. {//恢复指针及数据
  202.         if(m_Base != m_oBase)
  203.         {
  204.                 SetDiskPointer(m_oBase+m_oCurrentPos);
  205.         }
  206.         m_Base=m_oBase;
  207.         m_CurrentPos=m_oCurrentPos;
  208. }
  209. FORMAT_FILEPOSITION CDiskMappingPointer::GetBase() CONST
  210. {
  211.         return m_Base;
  212. }
  213. FORMAT_FILEPOSITION CDiskMappingPointer::GetOffset() CONST
  214. {
  215.         return m_CurrentPos;
  216. }
  217. int CDiskMappingPointer::GetProgress()
  218. {
  219.         return int(1000*(float)(m_CurrentPos+m_Base)/m_DiskSize);
  220. }
  221. BOOL CDiskMappingPointer::IsEndOfDisk() CONST
  222. {
  223.         return (m_Base+m_CurrentPos) > m_DiskSize;
  224. }
  225. BOOL CDiskMappingPointer::SetDiskPointer(FORMAT_FILEPOSITION pos)
  226. {
  227.         if(pos>m_DiskSize)
  228.         {
  229.                 m_CurrentPos=pos-m_Base;
  230.                 return FALSE;
  231.         }
  232.         FORMAT_FILEPOSITION newpos=((pos>>12)<<12);//按簇为单位计算基址
  233.         if(m_Base <= newpos && newpos <= m_Base+m_dwBlockBytes/2-0x1000 && m_CurrentPos < m_dwBlockBytes/2)
  234.         {
  235.                 m_CurrentPos=pos-m_Base;
  236.         }
  237.         else
  238.         {
  239.                 m_Base=((pos>>12)<<12);
  240.                 m_CurrentPos=(pos&0xFFF);//计算偏移,也就是去掉了基址的那部分
  241.                 LARGE_INTEGER li;
  242.                 li.QuadPart=m_Base;
  243.                 SetFilePointer(m_DiskHandle,li.LowPart,&li.HighPart,FILE_BEGIN);
  244.                 DWORD retlen;
  245.                 ReadFile(m_DiskHandle,m_Data,m_dwBlockBytes,&retlen,NULL);
  246.         }
  247.         return TRUE;
  248. }
  249. FORMAT_DISKSIZE CDiskMappingPointer::GetDiskSize() CONST
  250. {
  251.         return m_DiskSize;
  252. }
  253.        
  254. #endif
复制代码

       
下面以最简单的pdf格式作说明如何针对特定格式编写dll:

  1. Portable_Document_Format.h
  2. #include "..\common.h"
  3. #ifndef PORTABLE_DOCUMENT_FORMAT
  4. #define PORTABLE_DOCUMENT_FORMAT
  5.                
  6. #ifdef PORTABLE_DOCUMENT_FORMAT_EXPORTS
  7. #define PORTABLE_DOCUMENT_FORMAT_API __declspec(dllexport)
  8. #else
  9. #define PORTABLE_DOCUMENT_FORMAT_API __declspec(dllimport)
  10. #endif
  11.                
  12. extern "C"
  13. {
  14.         extern PORTABLE_DOCUMENT_FORMAT_API BOOL CanGetFileLenImmediately;
  15.         extern PORTABLE_DOCUMENT_FORMAT_API BOOL IsFileSigSimple;
  16.                
  17.         PORTABLE_DOCUMENT_FORMAT_API FORMAT_SFILESIZE GetFileLenImmediately(FORMAT_DATAPOINTER& pData);
  18.         PORTABLE_DOCUMENT_FORMAT_API BOOL GetFileSig(PVOID pData);
  19.         PORTABLE_DOCUMENT_FORMAT_API BOOL GetRawFileInfo(FORMAT_DATAPOINTER& pData,FORMAT_FILEINFO* pfileinfo);
  20.         PORTABLE_DOCUMENT_FORMAT_API VOID GetSupportExtension(CHAR Ext[MAX_EXTLEN]);
  21. };
  22.        
  23. #endif
  24. Portable_Document_Format.cpp
  25. // Portable_Document_Format.cpp : Defines the entry point for the DLL application.
  26. //
  27. #include "stdafx.h"
  28. #ifndef PORTABLE_DOCUMENT_FORMAT_EXPORTS
  29. #define PORTABLE_DOCUMENT_FORMAT_EXPORTS
  30. #endif
  31. #include "Portable_Document_Format.h"
  32. //具体文件格式分析请自行用Winhex解决,看懂格式再看我的代码
  33. BOOL APIENTRY DllMain( HANDLE hModule, DWORD  ul_reason_for_call,  LPVOID lpReserved)
  34. {
  35.                                 switch (ul_reason_for_call)
  36.         {
  37.                 case DLL_PROCESS_ATTACH:
  38.                 case DLL_THREAD_ATTACH:
  39.                 case DLL_THREAD_DETACH:
  40.                 case DLL_PROCESS_DETACH:
  41.                         break;
  42.                                 }
  43.                                 return TRUE;
  44. }
  45.        
  46. PORTABLE_DOCUMENT_FORMAT_API BOOL CanGetFileLenImmediately=FALSE;//暂时没时间研究pdf格式,所以没有快速算法计算大小
  47. PORTABLE_DOCUMENT_FORMAT_API BOOL IsFileSigSimple=TRUE;
  48. PORTABLE_DOCUMENT_FORMAT_API FORMAT_SFILESIZE GetFileLenImmediately(FORMAT_DATAPOINTER& pData)
  49. {
  50.         return 0;
  51. }
  52. PORTABLE_DOCUMENT_FORMAT_API BOOL GetFileSig(PVOID pData)
  53. {
  54.                 FORMAT_DATA sig[]={0x25,0x50,0x44,0x46};
  55.                 FORMAT_SIMPLETYPE* data=(FORMAT_SIMPLETYPE*)pData;
  56.                 memcpy(data->FileSig,sig,sizeof(sig));
  57.                 data->FileSigLen=sizeof(sig);
  58.         return TRUE;
  59. }
  60. PORTABLE_DOCUMENT_FORMAT_API BOOL GetRawFileInfo(FORMAT_DATAPOINTER& pData,FORMAT_FILEINFO* pfileinfo)
  61. {
  62.         SYSTEM_INFO SysInfo;
  63.         GetSystemInfo(&SysInfo);
  64.         DWORD dwGran=SysInfo.dwAllocationGranularity;
  65.         DWORD maxaccess=0x100*dwGran;
  66.         FORMAT_FILESIZE filesize=0;
  67.         int loopnum=0;
  68.         int loopmax=0x3FFFFFFF/maxaccess;//最大支持1G文件
  69.                 pfileinfo->bitmap=0;
  70.                 pfileinfo->IsFileValid=FALSE;
  71.         FORMAT_DATA* p=(FORMAT_DATA*)pData+5,*endv;
  72.         for(endv=p;*endv != 0x0A && *endv != 0x0D && *endv != '%';endv++);
  73.         *endv='\0';
  74.         pfileinfo->bitmap |= 0x08;
  75.         strcpy_s(pfileinfo->Description,"版本号:");
  76.         strncat_s(pfileinfo->Description,(CHAR*)p,16);
  77.         while(loopnum<loopmax && !pData.IsEndOfDisk())
  78.         {
  79.                 p=(FORMAT_DATA*)pData;
  80.                 for(int i=0;i<(int)maxaccess;i++)
  81.                 {
  82.                         if(*(DWORD*)(p+i) == 'FOE%')//'%EOF'为结束标志
  83.                         {
  84.                                 if(*(p+i+4) != 0 && *(p+i+5) != 0 && *(p+i+6) != 0)//伪结束符
  85.                                         continue;
  86.                                 pfileinfo->bitmap |= 0x01;
  87.                                 pfileinfo->filesize=loopnum;
  88.                                 pfileinfo->filesize *= maxaccess;
  89.                                 pfileinfo->filesize += i+strlen((char*)p+i);
  90.                                 pfileinfo->bitmap |= 0x04;
  91.                                 pfileinfo->IsFileValid=TRUE;
  92.                                 pfileinfo->bitmap |= 0x02;
  93.                                 strcpy_s(pfileinfo->fileextDeepscan,"pdf");
  94.                                 goto END;
  95.                         }
  96.                 }
  97.                 loopnum++;
  98.                 pData+=maxaccess;
  99.         }
  100. END:
  101.         return TRUE;
  102. }
  103. PORTABLE_DOCUMENT_FORMAT_API VOID GetSupportExtension(CHAR Ext[MAX_EXTLEN])
  104. {
  105.         strcpy_s(Ext,MAX_EXTLEN,"pdf");
  106. }
复制代码
回复

使用道具 举报

本版积分规则

QQ|Archiver|小黑屋|技术宅的结界 ( 滇ICP备16008837号 )|网站地图

GMT+8, 2024-11-21 22:39 , Processed in 0.033340 second(s), 23 queries , Gzip On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表