基于地面成像高光谱的石碑文字信息提取研究
0 引言
石碑作为古时代的文化产物,它是人类征服自然、改造自然的物质文化结晶,也是古代精神文明的外在表现。它作为时代界标矗立于世,见证了中国古代社会历史的变迁,维系了时代精神。然而现存的一些石碑已经破损,表面的文字和图案信息模糊不清,这些石碑文物不仅是艺术作品也具有重要的研究价值,因此保护石碑就是保护珍稀的历史文物,抢救石碑就是抢救不可再生的传统文化。
随着科学技术的发展,高光谱技术在文物保护中的应用越来越多。高光谱遥感是20世纪80年代兴起的新型对地观测技术,是当前遥感的前沿技术。高光谱数据具有波段数目多,波段宽度窄,波段分布连续,光谱分辨率高,图谱合一等特点,基于高光谱数据完整而丰富的特点,利用高光谱技术,对石碑上存在的信息进行提取分析,以期提取和重现石碑上的原有信息。谭克龙等以秦始皇陵区为研究区,较系统地阐述了高光谱遥感在考古中的创新应用研究,以及所取得的考古成果;侯妙乐等基于高光谱数据设计了半自动提取壁画底稿信息的“三步法”,实现基于特征波段合成影像的壁画底稿信息提取;Scholten等通过对高光谱影像分析,参考不同墨水的波谱特性,提取了部分底稿的历史文本信息;郭丹彤对沙巴卡石碑及其学术价值进行了研究,沙巴卡石碑的学术价值体现在语言、政治、宗教等方面,但它最重要的学术价值则体现在哲学上;田子馥等以7块石碑为实证,说明东北文化从上古时期就是以汉族汉字文化为主体,多民族的文化形成多元一体的文化形态,并且阐述了东北文化主体性、重叠性、相对性的本质特征。但这些研究的对象都是比较完好的石碑,对于破损和表面信息模糊缺失的石碑没有进行应用研究。
本文基于阈值的最小噪声分离变换(Minimum Noise Fraction Rotation,MNF Rotation)算法并应用到提取石碑特征信息中,分离了高光谱数据中的有效信息和噪声,降低了数据维数,并将原始数据转换到新的数据空间中,然后从中选取体现石碑特征信息效果最好的特征波段,为进一步利用挖掘对石碑上的特征信息提供技术基础。
1、 材料与分析
试验中的石碑分别由北京大学考古文博学院、山西博物院提供,石碑出土时石碑上有部分被土覆盖,对石碑表面覆盖的土层进行简单的剥离处理,可以看到石碑上有模糊的文字存在。
石碑的高光谱图像采集是运用江苏双利合谱科技有限公司自主研发的便携式高光谱成像仪系统GaiaFiled。该系统由多维运动控制器(二维运动控制平台,扫描维度和调焦维度控制平台),成像镜头、光谱相机(面阵探测器)和成像光谱仪组成,支持自动曝光、自动扫描速度匹配、自动调焦等功能。图1为GaiaField便携式高光谱成像仪的实体图,表1为高光谱相机的参数。
图1 GaiaField便携式高光谱成像仪实体图
表1 GaiaFiled高光谱分选仪系统参数
序号 |
相关参数 |
V10 |
1 |
光谱范围 |
400-1000 nm |
2 |
光谱分辨率 |
4.0±0.3 nm |
3 |
像面尺寸 |
6.45×8.8mm |
4 |
倒线色散 |
93.9nm/mm |
5 |
相对孔径 |
F/2.8 |
6 |
杂散光 |
<0.5% |
7 |
波段数 |
520 |
8 |
成像镜头 |
23 mm |
图像采集软件采用江苏双利合谱科技有限公司提供的高光谱成像系统采集软件SpecView完成。图像处理采用 ENVI5.3 软件进行处理。在进行图像处理之前,先要对采集的光谱图像进行图像校正,图像校正公式如下:
(1)
式中,Rref 是校正过的图像,DNraw 是原始图像,DNwhite为白板校正图像,DNdark是黑板校正图像。
试验得到的光谱含有由仪器和试验条件等引起的噪声,对这些噪声的处理有助于减少噪声对光谱分析的影响,突出光谱的有效信息。Savitzky-Golay (SG)平滑算法可以有效消减光谱数据中的随机噪声,消噪效果受平滑点数的影响,本文中选择SG二次多项式5点平滑对光谱数据进行处理。
由于高光谱遥感数据波段多,波段间存在很大相关性,为了克服维数灾难,利用最小噪声分离变换进行波段选择,达到优化数据,去除噪声和数据降维的目的。
最小噪声分离变换( MNF)是对主成分变换( PCA) 的一种改进方法。PCA 是一种线性变换,变换后各主成分分量彼此之间互不相关,随着主成分的增加该分量包含的信息量减小,第一主成分包含的信息量最大,第二主成分与第一主成分无关且在剩余成分中包含的信息量最大,依此类推。但PCA对噪声比较敏感,在变换后的主成分分量中,信息量大的信噪比不一定高,当某个信息量大的主成分中包含的噪声的方差大于信号的方差时,该主成分分量形成的图像质量就差。针对 PCA 变换的不足,Green 和 Berman 提出最小噪声分离变换( MNF),它不但能判定图像数据内在的维数( 波段数) ,分离数据中的噪声,而且能减少随后处理中的计算需求量。MNF 变换是基于图像质量的线性变换,变换结果的成分按照信噪比从大到小排列。经过MNF变换大部分噪声集中在特征小的分量中。而不像 PCA变换按照方差由大到小排列,从而克服了噪声对影像质量的影响。
本文分析的对象由北大考古文博学院、山西博物院提供,如图 2 所示为使用高光谱成像相机拍摄的数据合成的真彩色图像。从图2可知,石碑里的文字有些已经风化变的模糊不清,难以用肉眼识别出来。
图2 北大考古文博学院与山西博物院石碑RGB真彩色合成图(从左到右)
对原始高光谱数据进行 MNF 变换(如图3) ,分别得到以有效信息为主的波段和以噪声为主的波段,并且按照信噪比从大到小的顺序排列。原始数据的主要信息都集中在前面特征值大的波段,后面特征值小的波段主要以噪声为主。特征值接近于1的多数是噪声,最好选择特征值高的波段。根据MNF变换特征值曲线确定阈值为 8,选择变换后的维数为 8。
图 3 MNF 变换后的特征值曲线(从左到右:考古文博学院、山西博物院)
2.3 特征信息提取分析
在进行 MNF 变换后的波段中,选择特征值大,图像信息显示效果突出的波段。在原始高光谱图像中右下角可以模糊地看到有图案存在,分别加载MNF 变换后第 1- 8波段影像,发现北京大学考古文博学院提供的石碑在MNF变换的第 4波段显示的文字部分较为清晰(图4a),山西博物院提供的石碑在MNF变换的第1波段显示的文字较为清晰,如图4b所示。在MNF变换中,通过信号与噪声分离,使信息更加集中在有限的特征集中,一些微弱信息则在去噪转化中被增强。同时在MNF转化过程中,使光谱特征向类特征向量汇集,增强分类信息。在MNF变换后的特征域中不同的波段具有不同的光谱信息。比如北京大学考古文博学院提供的石碑在变换后的MNF波段1代表整个波段的亮度背景,即光谱背景,在影像上都较其他的MNF波段亮,第8波段以后出现随机噪声。
图4a 北京大学考古文博学院石碑文字信息提取结果对比图
图4b 山西博物院石碑文字信息提取结果对比图
对比原始高光谱数据,由表 2 可知,MNF 变换后的数据量也有效地降低,提高了数据的处理速度。
表 2 数据对比
数据 |
北大考古文博院 |
山西博物院 |
原始数据 |
598,560 KB |
549,144 KB |
MNF变换后数据 |
468,776 KB |
418,631 KB |
针对高光谱数据信息量丰富,但数据冗余且包含噪声的特点,本文基于最小噪声分离变换算法有效地对石碑高光谱图像进行降维和去噪处理,分离了图像中的有效信息和噪声,减小了后期处理的数据量,提高了数据处理效率。通过对石碑高光谱数据进行最小噪声分离变换,提取了原始影像中模糊不清的文字,实验结果对于后期石碑的文字修复和研究提供了参考和借鉴。
地址:无锡市梁溪区南湖大道飞宏路58-1-108
电话:13810664973
邮箱:info@dualix.com.cn
地址:北京市海淀区中关村大街19号
电话:13810664973
邮箱:info@dualix.com.cn
地址:陕西省西安市高新区科技一路40号盛方科技园B座三层东区
电话:13810664973
邮箱:info@dualix.com.cn
地址:成都市青羊区顺城大街206号四川国际大厦七楼G座
电话:13810664973
邮箱:info@dualix.com.cn