3-6  CAD工程图样中自由表格信息快速提取技术

 

工程图样中的表格可分为约束表格和自由表格,信息提取方法概括起来也相应分为两类:一类方法处理约束表格;另一类方法处理自由表格。目前,对于自由表格信息自动提取的研究,较多集中在以某一通用算法去解决多样化表格方面,提取效率在处理某些表格(如明细表、汇总表等)上尚存在不足。文中基于对象几何特征,采用区域包容法快速定位信息对象,实现了DWG文件中数据信息的自动高效提取。

在图档模型空间,线段及字符串作为基本图元对象而存在。字符串是信息提取的对象。虽然在模型空间中线段与字符串没有约束关系,但从形式上线段与字符串的位置关系可描述为包容与被包容关系,纵横两组线段形成的矩形阵列将字符串定位各子矩形区域中。工程应用中每个DWG文件中既可能包含一张图纸,也可能包含多张图纸,因此对于信息的提取模式须具有交互性。交互模式必然涉及对象的选择过滤机制,其实现方法与表格的位置特征密切相关。通过对明细表位置特征的分析,可归纳3类情况。一是信息区域为单区域,其左边没有信息区域存在。二是信息区域为双区域,其信息区域共享一条数据分隔线。三是信息区域为3个或3个以上区域,其特点是至少具有两条数据分隔线。信息表格的基本构成元素是线段和字符串。在模型空间线段和字符串都以图元对象存在,线段具有起点、终点等几何属性,字符串具有插入点坐标、字符串内容、字体高度、可见性等属性。信息提取其实质就是按一定规律顺序获取字符串内容。

包容矩阵是选择区内信息几何放置点的表示矩阵,其构成元素是相关水平线段组和垂直线段组的有序交点集合。包容矩阵中每相邻4个元素组成一个信息包容区,因此对于一个p´q阶矩阵M,其能够容纳的信息条数(含空信息)(p-1)´(q-1)条。信息几何放置点在图样模型空间映射为字符串的插入点,每个插入点位于一个信息包容区内。判断插入点与信息包容区的包容关系是实现表格信息正确提取的前提。

文中采取基于Web应用的PDM系统,充分利用别的应用程序已有的功能,快速创建客户化应用,软件开发采用Active Automation自动化技术,结果表明这种技术在信息量庞大条件下效率显著。

返回