机器学习在橄榄石产地溯源中的应用

仲源, 沈锡田, 张志清, 叶敏, 韩禹

仲源, 沈锡田, 张志清, 叶敏, 韩禹. 机器学习在橄榄石产地溯源中的应用[J]. 宝石和宝石学杂志(中英文), 2023, 25(6): 65-75. DOI: 10.15964/j.cnki.027jgg.2023.06.006
引用本文: 仲源, 沈锡田, 张志清, 叶敏, 韩禹. 机器学习在橄榄石产地溯源中的应用[J]. 宝石和宝石学杂志(中英文), 2023, 25(6): 65-75. DOI: 10.15964/j.cnki.027jgg.2023.06.006
ZHONG Yuan, Andy Hsitien Shen, ZHANG Zhiqing, YE Min, HAN Yu. Application of Machine Learning Algorithms in the Geographical Origin Determination of Peridot[J]. Journal of Gems & Gemmology, 2023, 25(6): 65-75. DOI: 10.15964/j.cnki.027jgg.2023.06.006
Citation: ZHONG Yuan, Andy Hsitien Shen, ZHANG Zhiqing, YE Min, HAN Yu. Application of Machine Learning Algorithms in the Geographical Origin Determination of Peridot[J]. Journal of Gems & Gemmology, 2023, 25(6): 65-75. DOI: 10.15964/j.cnki.027jgg.2023.06.006

机器学习在橄榄石产地溯源中的应用

详细信息
    作者简介:

    仲源(1996-), 男, 硕士, 主要从事宝石产地溯源方法方面的研究。E-mail: zhoungy1024@qq.com

    通讯作者:

    沈锡田(1962-), 男, 教授, 主要从事宝石矿床和宝石物理化学性质方面的研究工作。E-mail: ahshen@foxmail.com

  • 中图分类号: P595;TP181; TS93

Application of Machine Learning Algorithms in the Geographical Origin Determination of Peridot

  • 摘要:

    宝玉石产地溯源中常采用的元素投图法存在一定局限性,如元素选择的主观性、对原始样品的依赖以及二维投图中多产地的分布重叠。机器学习算法在医疗诊断、农作物溯源等分类场景已有广泛应用,其中线性判别分析算法在宝玉石产地判别中已有不少研究,但其他算法提及得相对较少。本研究以三个产地(河北大麻坪、吉林意气松、朝鲜长渊郡)的橄榄石样品为例,基于激光剥蚀电感耦合等离子体质谱(LA-ICP-MS)检测数据,使用Python语言进行数据处理和建模,分析了元素的选择对于线性判别效果的影响。结果表明选择相关性小且产地分布差异大的元素可以提高模型准确率,选择10种元素(Mn、Zn、Na、Al、Sc、V、Cr、P、Ti、REE)建立的线性判别模型的交叉检验准确率为0.889,优于采用检出限以上的所有元素建模。在10种成分基础上,对比了不同机器学习算法(线性判别分析、支持向量机、决策树、随机森林和反向传播神经网络)的判别效果,发现非线性算法的准确率普遍较高,其中支持向量机综合效果较好。

    Abstract:

    The commonly used elemental mapping method in gemstone origin tracing exhibits inherent limitations, such as subjectivity in element selection, reliance on original samples, and overlapping distribution of multiple origins in two-dimensional mapping. Machine learning (ML) has been widely applied in classification scenarios, including medical diagnosis and crop traceability. While linear discriminant analysis (LDA) has been extensively studied for gemstone origin determination, other ML algorithms have received less attention. In this study, peridot samples from three origins (Damaping, Hebei; Yiqisong, Jilin; Changwon District, Democratic People's Republic of Korea) were analyzed using LA-ICP-MS and modeled with Python. The influence of element selection on LDA effectiveness was analyzed. Results showed that selecting elements with low correlation and significant origin distribution differences improved model accuracy. A linear discriminant model using 10 elements (Mn, Zn, Na, Al, Sc, V, Cr, P, Ti, REE) achieved 0.889 cross-validation accuracy, outperforming models with all detectable elements. Comparing different ML algorithms (LDA, SVM, Decision tree, Random forest, Back propagation neural network) based on these 10 elements, non-linear algorithms, especially SVM, showed better performance.

  • 宝玉石的产地溯源常根据其包裹体特征[1]、谱学特征[2]和元素含量特征[3-5]等来判定。其中,元素含量特征常采用投图法,即用不同的元素或元素组合(和、差、比值等)构建坐标系,将不同产地的宝玉石样品的元素信息在其中投点,体现出差异化的分布。例如,通过Cr2O3/Ga2O3和Fe2O3/TiO2来区别变质型和岩浆型刚玉[3];通过Cs2O+K2O和FeO+MgO两个指标来区分不同产地的祖母绿[4];还可通过比较轻重稀土元素变化趋势以及异常稀土元素对出土古玉材料进行产地溯源[5]。但是实际产地判别中投图法仍存在一些局限性:(1)元素的选择基于经验,且判别过程依赖检测人员的视觉观察,存在一定主观性;(2)随着需要判别的产地增多,依赖少数几种元素构建的二维图像,容易出现不同产地的交叉重叠。例如,Ga-Zn-Li三种元素坐标系,阿富汗、赞比亚和巴西蓝宝石在该坐标系下的元素分布有部分重叠[4];(3)投图法依赖原始数据,复用性较差。

    产地判别本质上是一种分类任务,机器学习能够从多维数据中自动学习规律、构建模型,从而进行分类,减少主观经验的介入,且具有较强的复用性。机器学习已经应用于很多领域如医疗影像诊断[6]、农作物产地溯源[7]等。其中,线性判别分析(LDA)已经在一些宝玉石产地研究中得到应用。Shen等[8]对四个产地的橄榄石样品进行了产地判别,利用了14种元素建立LDA模型;Giuliani等[9]根据不同原生矿床中的红、蓝宝石样品的成分建立了LDA模型,进而对次生矿床中的红、蓝宝石进行判别,推断其原生矿床来源;Zhang等[10]对吉林意气松和朝鲜的橄榄石样品进行对比研究,并采用了LDA对两个产地橄榄石样品进行了判别;Homkrajae等[11]基于LA-ICP-MS测出珍珠样品中的主微量元素含量,并利用LDA对三个产地的淡水珍珠样品进行了判别。其他机器学习算法(如决策树、随机森林、支持向量机、神经网络等)在宝玉石产地判别中的研究相对较少,且缺少对元素特征工程和模型优化的讨论研究。

    本文研究以三个产地(河北大麻坪、吉林意气松、朝鲜长渊郡,各产地地理位置如图 1所示)的橄榄石样品为研究对象,尝试在产地判别中应用多种机器学习算法,并探索优化产地判别模型的路径。我们通过LA-ICP-MS测试了河北橄榄石样品的元素含量,并结合了Zhang等[10]提供的吉林和朝鲜橄榄石样品的测试数据,使用Python语言和Scikit-learn机器学习库等进行了数据处理、分析和建模,分析了不同产地橄榄石样品的元素分布情况和各元素相关性,研究了元素的选择对于线性判别分析效果的影响,进而筛选合适的元素作为建模特征,同时采用了六种机器学习算法分别建立产地判别模型,对比了不同模型的准确性和泛化能力,从而对模型进行择优。

    图  1  河北大麻坪、吉林意气松和朝鲜长渊郡橄榄石样品的产地位置
    注:基于国家地理信息公共服务平台-天地图制作,审图号为GS(2023)336号,底图无修改
    Figure  1.  Map of the origins of the peridot samples from Damaping, Hebei Province and Yiqisong, Jilin Province, China and Changyon District, DPRK

    本文测试的62粒河北橄榄石原石样品均采集于河北张家口市万全县大麻坪村。测试前,先将河北橄榄石原石样品进行双面平行抛光处理(图 2)。吉林和朝鲜橄榄石样品数据均来自Zhang等[10]的研究,100粒吉林橄榄石样品产自吉林蛟河敦化地区的意气松南山矿床,100粒朝鲜橄榄石样品产自朝鲜黄海南道长渊郡。各产地的部分橄榄石成品如图 3所示(非测试样品,仅作为展示),各产地橄榄石样品的常规宝石学特征见表 1所示。

    图  2  河北大麻坪双面抛光后的部分橄榄石样品
    Figure  2.  Some double-sided polished peridot samples from Damaping, Hebei Province
    图  3  三个产地的橄榄石刻面成品(左三:河北大麻坪;中三:吉林意气松;右三:朝鲜长渊郡)
    Figure  3.  Faceted samples from the three origins (left three samples: Damaping, Hebei Province; middle three samples: Yiqisong, Jilin Province; right three samples: Changyon District, DPRK)
    表  1  三个产地橄榄石样品的常规宝石学特征
    Table  1.  Conventional characteristics of peridot samples from the three origins
    河北大麻坪橄榄石 吉林意气松橄榄石[10] 朝鲜橄榄石[10]
    样品数 62粒 100粒 100粒
    颜色 黄绿色 黄绿色 褐绿色
    透明度 透明 透明 透明
    多色性 弱,浅黄绿-黄绿色 弱,浅黄绿-黄绿色 弱,浅褐绿色-褐绿色
    折射率 1.650~1.690 1.654~1.695 1.654~1.694
    双折射率 0.034~0.039 0.035~0.038 0.036~0.038
    相对密度 3.26~3.38 3.33~3.36 3.33~3.38
    内含物特征 “睡莲叶状”包裹体;部分愈合裂隙;铬铁矿和透辉石包裹体;棕黑色浸染 “睡莲叶状”包裹体;部分愈合裂隙;铬铁矿、透辉石、顽火辉石和利蛇纹石(仅见于一个样品)包裹体;棕色浸染 “睡莲叶状”包裹体;部分愈合裂隙和烟雾状面纱状包裹体;铬铁矿和透辉石包裹体;棕色浸染
    下载: 导出CSV 
    | 显示表格

    河北大麻坪橄榄石样品均在武汉上谱分析科技有限责任公司的激光剥蚀电感耦合等离子体质谱(LA-ICP-MS)进行微区原位测试,仪器型号为与193 nm准分子激光剥蚀系统(GeoLasPro)联用的Agilent 7700 series ICP-MS。测试条件:激光器光束直径44 μm,频率5 Hz,能量80 J、能量密度为5.5 J/cm2、脉冲数250。选用美国地质调查局(USGS)制定的硅酸盐玻璃-2G、BCR-2G、BIR-1G作为标准样品。选用美国国家标准局(NIST) 制定的标准参照样品SRM610校准时间漂移,每6个样品插入两个SRM610标样。为确保结果的可靠性,每个样品随机选取一个测试点且避开包裹体。此处需要说明的是,晶体本身均一性较好,未发现环带结构,且测试造成的误差可以看作是围绕样品真实值的随机噪声,而机器学习的建模过程更关心所有样品的整体分布情况,每个样品的随机噪声互相抵消,应对整体分布的均值影响不大。但模型的判别过程可能会对单一样品的误差敏感,因此后续研究和应用中可考虑增加单一样品的测试点位以提高判别精度。该测试条件和Zhang等[10]一致。

    在Windows系统中,使用Python语言编程,采用JupyterLab集成开发环境,数据清洗、分析和建模主要依赖Pandas、NumPy、scikit-learn等库。

    262粒橄榄石样品通过LA-ICP-MS测得MgO、FeO、Li、Mn、Co、Ni、Zn、Na、Al、Ca、Sc、V、Cr、P、Ti、REE共记16种成分,从2种到16种组合(n种成分对应C16n种组合,共65 519种),对所有组合使用线性判别分析(LDA)建模,分别计算全数据集的预测准确率和10折交叉检验准确率。准确率即预测准确的样品数占所有样品数的比例。10折交叉检验是把所有样本分成10份,每次用其中9份数据训练模型,再用剩下的1份数据验证模型准确率,如此迭代10次,最后将10次准确率取平均数。

    对上文提及的65 519个LDA模型分别计算了准确率,其中交叉检验准确率最高的一个模型利用10种成分作为建模特征,分别为Mn、Zn、Na、Al、Sc、V、Cr、P、Ti和REE。在这10种成分的基础上,使用六种不同的机器学习算法建模,分别为LDA、基于高斯核函数的支持向量机(SVC-RBF)、基于拉普拉斯核的支持向量机(SVC-Laplc)、决策树(DTC)、随机森林(RFC)和反向传播神经网络(BPNN)。各算法及调用scikit-learn的接口参见表 2

    表  2  六种机器学习算法调用的接口和参数设置
    Table  2.  Interfaces and parameter configurations for six machine learning algorithms
    机器学习算法 调用的scikit-learn接口 实例化时的参数设置
    LDA:线性判别分析 Linear Discriminant Analysis 默认
    SVC-RBF:基于高斯核函数的支持向量机 SVC kernel=’rbf’
    SVC-Laplc:基于拉普拉斯核的支持向量机 SVC, laplacian_kernel kernel='precomputed'
    DTC:决策树 Decision Tree Classifier max_depth=3
    min_samples_leaf=1
    min_samples_split=13
    RFC:随机森林分类算法 Random Forest Classifier n_estimators=66
    max_depth=8
    max_features=4
    min_samples_split=4
    BPNN:反向传播神经网络 MLP Classifier hidden_layer_sizes=(20, 20)
    activation=’relu’
    alpha=0.5
    max_iter=1 000
    下载: 导出CSV 
    | 显示表格

    (1) SVC的主要思想是在特征空间中找到一个最优超平面,将不同类别的实例尽可能地分开,并且使得离超平面最近的训练样本(支持向量)到超平面的距离最大化,结合核函数,能够处理非线性可分的数据[12]。(2)DTC可将样本分类的过程用树形结构表示,一棵决策树由根节点、内部节点和叶子节点构成,其中根节点和每个内部节点表示对一种特征取值的判断,每个分支代表判断的结果,最后每个叶节点代表一种判别结果[13]。(3)RFC是一种结合了决策树和集成学习的机器学习算法,使用了集成学习中的Bagging算法,基本思想是从训练集中随机选择一定数量的子集,每个子集训练一棵决策树,多棵决策树投票最多的类别作为最终的输出[14]。(4)BPNN由三个部分构成:输入层、隐藏层和输出层,每层有一定数量的神经元,并按不同的权重分别与下一层各神经元进行多对多连接,就构成了网络结构。通过设计一个输出值和真实结果之间的误差函数,采用误差反向传播算法和梯度下降等的优化算法,不断调整神经元权重,迭代模型以缩小误差,从而找到一个最优化的模型[15]。(5)DTC和RFC模型采用网格搜索(Grid Search)的方式优化超参数。

    全数据集准确率是用所有样品数据训练模型并回代入模型所得的预测结果,但是理想的模型不仅要在建模所用的数据上表现良好,也应该在其他数据上表现良好,即模型具有良好的泛化能力,因为建模的目的就是在未来实际检测中,对那些未知产地的样品也能做到有效的判别。因此,在本文,我们将数据集按训练集: 测试集=7∶3的比例进行划分,并利用训练集训练模型,再分别代入训练集和测试集计算准确率。

    LA-ICP-MS测试结果(表 3表 4)显示,高于检出限的成分有MgO、FeO、Li、Mn、Co、Ni、Zn、Na、Al、Ca、Sc、V、Cr、P、Ti、REE(Ca、Ti、REE有个别低于检出限的样品,按检出限/10进行了处理)16种。三个产地橄榄石样品的镁值Fo(nMg/nMg+nFe)基本在同一个范围内,属于高镁橄榄石。

    表  3  LA-ICP-MS测得的三个产地的橄榄石样品的主量成分
    Table  3.  Main components of peridot samples from the three origins analyzed by LA-ICP-MS wB/%
    河北大麻坪 吉林意气松[10] 朝鲜[10]
    MgO 47.83~51.27 (49.64) 48.86~51.02 (49.97) 46.06~50.79 (49.33)
    FeO 7.83~10.64 (8.72) 7.97~9.92 (8.60) 8.05~12.54 (9.33)
    SiO2 39.24~42.57 (40.73) 39.59~41.46 (40.56) 39.20~41.38 (40.40)
    Fo 88.90~91.90 (91.00) 89.80~91.80 (91.20) 86.80~91.80 (90.40)
    下载: 导出CSV 
    | 显示表格
    表  4  LA-ICP-MS测得的三个产地的橄榄石样品的微量元素
    Table  4.  Trace elements of peridot samples from the three origins analyzed by LA-ICP-MS /10-6
    河北大麻坪 吉林意气松[10] 朝鲜[10]
    Li 1.08~3.41 (1.62) 0.93~2.20 (1.41) 1.03~3.87 (1.82)
    Be* bdl~0.75 (0.16) bdl~0.57 (0.05) bdl~0.27 (0.03)
    Na 12.50~99.60 (36.50) 4.64~77.80 (30.40) 16.10~125.90 (71.60)
    Al 20.50~198.01 (85.20) 35.02~129.10 (54.20) 55.20~261.03 (118.02)
    P* 67.20~221.30 (130.31) bdl~218.05(94.40) bdl~273.09(105.10)
    K* bdl~7.48 (1.33) bdl~50.30 (4.41) bdl~32.90 (5.02)
    Ca* bdl~852.10 (413.30) bdl~774.32 (340.20) bdl~1097.20 (489.11)
    Sc 2.04~4.94 (3.06) 2.25~5.84 (4.00) 2.99~6.73 (4.33)
    Ti* 1.66~41.30 (13.30) bdl~27.70 (7.28) 2.31~42.10 (15.90)
    V 1.07~5.33 (2.93) 1.43~4.15 (2.50) 1.34~5.91 (3.31)
    Cr 34.90~259.04 (111.20) 36.80~200.00 (92.40) 28.70~207.20 (126.15)
    Mn 932.30~1149.20 (1023.10) 940.30~1109.20 (1004.10) 950.10~1500.20 (1101.30)
    Co 132.20~146.10 (138.30) 127.20~144.10 (136.20) 127.10~148.10 (137.40)
    Ni 2494.30~3319.20 (3004.90) 2706.20~3313.30 (2979.10) 2254.20~3129.39 (2855.10)
    Cu* 0.38~2.86 (1.32) bdl~6.68 (1.51) bdl~23.80 (2.37)
    Zn 37.00~64.60 (48.60) 36.30~54.70 (43.80) 42.40~111.10 (54.50)
    Ga* bdl~0.18 (0.05) bdl~0.31 (0.06) bdl~0.45 (0.11)
    Rb* bdl~0.12 (0.02) bdl~0.38 (0.06) bdl~0.27 (0.05)
    Sr* bdl~0.04 (0.01) bdl~0.13 (0.02) bdl~0.59 (0.03)
    Y* bdl~0.07 (0.02) bdl~0.08 (0.02) bdl~0.11 (0.04)
    Zr* bdl~0.22 (0.04) bdl~0.16 (0.03) bdl~1.27 (0.08)
    Nb* bdl~0.05 (0.01) bdl~0.05 (0.01) bdl~0.56 (0.01)
    Ag* bdl~0.06 (0.01) bdl~0.15 (0.02) bdl~0.07 (0.02)
    Cd* bdl~0.26 (0.03) bdl~0.55 (0.09) bdl~0.34 (0.04)
    Sn* bdl~2.52 (1.56) bdl~6.28 (2.07) bdl~8.34 (2.71)
    Sb* bdl~8.05 (0.38) bdl~1.31 (0.17) bdl~0.26 (0.04)
    Cs* bdl~0.05 (0.01) bdl~0.15 (0.02) bdl~0.08 (0.02)
    REE* 0.01~0.25 (0.04) 0.01~0.85 (0.16) 0.01~0.62 (0.12)
    其他元素基本低于检出限,不列出;表 3表 4括号内的值表示所有样品均值,低于检出限的样品按软件给出的原始数据作为其值;REE表示稀土元素La~Lu的总量,低于检出限的取检出限的1/10作为其值;bdl表示低于检出限;* 表示存在样品低于该元素检出限
    下载: 导出CSV 
    | 显示表格

    图 4通过核密度估计曲线展示了三个产地橄榄石样品在16种成分上的分布情况。整体上看,吉林橄榄石和朝鲜橄榄石样品的分布存在比较明显的差异,主要体现在Li、Na、Al、Ca、Ti、V、Cr、Mn、FeO、Zn共10个成分上,呈现出吉林橄榄石的含量偏低和朝鲜橄榄石的含量偏高的趋势。综合来看,吉林橄榄石和朝鲜橄榄石样品在多数成分上的差异较明显,在少数成分上难以区别(如Sc、P、REE等)。河北橄榄石与吉林和朝鲜橄榄石样品在大多数成分上都有所重叠,仅在个别成分上有一定的区别(如Al、Sc等)。

    图  4  三个产地橄榄石样品在16种成分上的高斯核密度估计
    注:使用Seaborn库的kdeplot进行绘制,采用Scott等[16]的核密度估计方法;P和Ca含量低于检出限的少量样品按其检出限/10替换原始数据
    Figure  4.  Gaussian kernel density estimation on 16 elements of peridot samples from the three origins

    n种成分可以得到C16n组合,分别建立LDA模型,并统计准确率的分布情况(图 5)。结果发现,随着组合的成分数量增多,准确率整体上越来越高,准确率分布的范围也呈收敛趋势,中位线和均值均呈单调递增。但观察箱形图的最大值可以发现,全数据集准确率最大值在8种元素之后趋于平缓且基本不再提升,并有一定下跌趋势;10折交叉检验也呈现类似的趋势。我们更关注n种成分组合中最高准确率的模型,随着成分数量的增多,最高准确率出现下跌,这意味着某些成分的加入不但没有提升模型判别能力,反而对原来n种成分组合的模型起到了负面的影响。

    图  5  不同数量的成分组合后建立LDA模型得到的准确率
    Figure  5.  Accuracy of LDA model obtained by combining different elements

    为了比较不同的成分对LDA准确率的影响,定义一个量化的指标:对于成分x,找到n-1种成分组合中所有不含x的组合(对于总共16种成分来说,此时有C15n-1种组合),构成集合An-1;集合An-1中的每种组合ain-1分别和x进行组合,新组合有n种成分,所有新组合(也是C15n-1种组合)构成集合Axn;计算Axn中所有组合的模型准确率的均值,记为$\overline{A_x^n}$,计算An-1中所有组合的准确率均值,记为$\overline{A^{n-1}}$;求$\overline{A_x^n}-\overline{A^{n-1}}$,结果记为ΔxnΔxn衡量了成分x加入n-1个成分组合中时,对所有可能组合的准确性起到的平均贡献。如果Δxn>0,说明成分x的加入主要起到了提升准确率的作用,反之是起到降低准确率的作用。称Δxn这个指标为“成分x对集合Axn的平均改进度”。

    图 6可以看到,从3种成分组合开始,基本所有成分的平均改进度均为正值,这是因为2种成分组合的产地判别能力较差,基本上只要新成分加入,就能提供新的产地差异性特征,从而大幅提高判别准确率。随着组合中成分数量的增加,大多数成分的平均改进度呈下降趋势,甚至有个别成分(如MgO、FeO、Li、Mn、Ni等)从正值区间落到了负值区间,说明它们的加入降低了模型的准确率。

    图  6  不同数量成分组合中的平均改进度
    注:横轴n表示组合中的成分数量,纵轴Δxn表示成分x加入n-1种成分中构成n种成分组合时,对模型准确率的影响,正值表示所有组合的平均准确率提升,负值表示平均准确率下降,称Δxn为成分xn种成分组合的平均改进度
    Figure  6.  Average improvement rates for each element in different combinations of element quantities

    Sc元素的平均改进度虽然呈下降趋势,但较之其他成分始终维持在较高的水平,说明它在产地判别中起到的作用是无可替代的。从图 6可以发现,Sc元素是唯一可以明显看出河北和另外两个产地分布差异的成分,而其他成分在河北和另外两个产地都有大范围的重叠,所以Sc元素是区分河北橄榄石样品的关键。

    P和Ca元素的平均改进度变化趋势比较类似,都是在小幅度的下跌后趋于平稳,随后又小幅上升,然后又下降。Ca在5~7、15~16种成分的时候平均改进度都跌到了负值。

    REE的变化趋势最为特殊,始终呈上升趋势,从一开始的平均改进度处于一个平均的水平,到最后超过Sc元素成为平均改进度最高的元素。

    Co元素的平均改进度始终处于负值区间,这说明Co大多情况下起到了降低准确率的作用,从图 4也可以看到Co在三个产地上的分布没有明显的区分。

    为了对这些成分的平均改进度进行一个比较,将各成分从3种到16种成分组合的平均改进度分别进行加和(图 7),可以看到MgO、Co、Ni平均改进度总和均为负值,说明这3种成分在组合的成分数量变化过程中整体上对准确率起负面影响,之后的模型中将直接剔除这3种成分。FeO、Li、Ca的平均改进度总和相较其他成分很低,对准确率基本没有贡献,且从Li和Ca的产地分布上看,它们产地差异性也很小,也可以考虑剔除。剩下10种成分(Mn、Zn、Na、Al、Sc、V、Cr、P、Ti、REE)的平均改进度总和都较高,这10种成分组合的模型全数据集准确率为0.908,交叉检验准确率为0.889。

    图  7  各成分平均改进度总和
    Figure  7.  Sum of average improvement rates for individual element

    De Hoog等[17]将橄榄石中的微量元素分为三类,不同的类别具有不同分配规律和含量特征:(1)I类元素(Li、Mn、Co、Ni、Cu、Zn)中,除了Li和Cu外,其它元素的离子半径接近于Mg的半径,且价态也是二价,所以容易进入晶格,常显示出与Fo的相关性。I类元素含量变化小,在地幔橄榄岩中,这些元素主要富集于橄榄石,其含量取决于熔体的总含量,且受橄榄石平衡温度的影响小。(2)Ⅱ类元素(Cr、Al、V、Sc、Ca、Na)受离子电价和尺寸的影响,不易进入橄榄石晶格中,但更容易进入其它共生矿物(如尖晶石、辉石等)中。Ⅱ类元素的含量变化明显,主要受到平衡熔体温度及共生矿物相的控制。(3)Ⅲ类元素(Ti、Zr、Nb、Y、P、REE)中,除了P外,其它元素的含量变化很大,主要受熔体总含量影响。在地幔橄榄岩的平衡温度下,受到离子电荷和尺寸的影响,Ⅲ类元素不易进入橄榄石晶格,也不易进入其他共生矿物中,因此会和其他共生矿物显示相似的含量变化。

    改进度较高的10种成分中,Mn和Zn属于I类元素,Na、Sc、V、Cr属于Ⅱ类元素,P、Ti、REE属于Ⅲ类元素,说明该模型充分利用到了De Hoog等[17]所说的三类元素,能更全面地反应出产地的差异化特征。

    综上所述,成分数量较少的情况下,新增成分一般对于模型准确率有很大提升,具体来说就是引入了异类元素。从数学的角度上,异类元素相关性小、产地分布差异大;从地质角度上,是因为异类元素携带了不同地质环境种的物理条件和元素丰度的信息。但当元素数量过多时,新增元素很可能导致模型准确率下降,可能是某些元素在加入时给模型引入了一些不必要的噪声,如主量成分MgO、FeO在三个产地橄榄石间的差异本来就不大,加入它们不能提升模型性能,反而可能让模型过拟合。

    LDA是在高维空间中寻找超平面将不同类别的样本切分开,但当不同类别的样本在高维空间中的分类边界不是平面而是曲面时,线性判别的效果就会差很多,甚至产生大量的误判。仅以二维空间中的二分类问题为例,如图 8,随机生成3种分布形态的数据A、B、C,模拟可能出现的二分类情况。A中两类样本大致呈左右对称的分布,B中两类呈月牙形、相互嵌套构成弯曲边界,C中两类呈同心圆分布。

    图  8  二维空间中的二分类问题样本分布的理想边界和LDA边界
    A1:大致左右对称分布的数据,使用scikit-learn的datasets模块的make_classification随机生成;B1:两组相互嵌套的月牙形数据,使用make_moons随机生成;C1:两组呈同心圆分布的数据,使用make_circles随机生成;A2/B2/C2:理想的分类边界;A3/B3/C3:三种数据通过LDA划分的分类边界,准确率ACC表示被划入正确类别的样品占总样品的比值: 正确划分到真实类别的点为“○”形,错误划分的点为“×”形
    Figure  8.  Ideal boundary and LDA boundary for a binary classification problem in 2D space

    图 8-A2/B2/C2表示了理想边界,即真实环境中总体之间的边界,可能存在一些噪声(用“x”表示)。通过LDA建模得到了图 8-A3/B3/C3的分类边界。对于A中的数据,LDA表现较好,能将大部分样本正确地分类,准确率为0.95。对于B中的数据,红蓝区域两类数据边界是弯曲镶嵌,无法找到一条可以完美分割两类的直线,LDA划分出的两个区域中必然会残留对方的样本,这使得LDA准确率降低到0.85。对于C类同心圆型数据,LDA判别准确率只有0.48,这样的判别没有意义。LDA往往要建立在样本正态分布以及协方差相等的假设的基础上。可见,在不知道数据分布形态的情况下,使用LDA不一定能得到准确率较高的模型,而非线性的算法可能会更有优势。

    我们基于3.2节推荐的10种成分(Mn、Zn、Na、Al、Sc、V、Cr、P、Ti、REE),分别应用六种机器学习算法建模,并计算测试集准确率和训练集准确率(图 9)。其中,(1)LDA在训练集上的准确率比较低,在测试集上的准确率最低;(2)SVC(RBF)和SVC(Laplc)的训练集准确率和测试集准确率属于中等水平;(3)DTC在训练集上的准确率比LDA还要低一些,说明对训练集的学习非常不足,在测试集上的准确率比LDA高一些,训练集和测试集准确率差值较低; (4)RFC在训练集上得到了100%的准确率,但在测试集上准确率下降到0.848,说明模型可能对训练集过拟合的程度比较高; (6)BPNN在训练集上的准确率是除了RFC之外最高的,且在测试集上也取得了最高的准确率,这说明该模型即从训练集中充分学习到了训练集的特征,而且也学习到了更普遍的产地特征,具有较强的泛化能力,在未知样本上也有能力进行较准确产地判别。但该算法存在一定随机性,每次生成模型的准确率有所波动,准确率是取50次训练结果的平均值,其中训练集准确率1个标准差为0.01,测试集准确率1个标准差为0.015。

    图  9  六种机器学习模型在橄榄石训练集和测试集上的准确率
    注:BPNN每次训练得到的结果存在一定波动,因此迭代50次分别得到训练集准确率均值和测试集准确率均值,其中训练集准确率的1σ= 0.01,测试集准确率的1σ=0.015
    Figure  9.  Accuracy of six machine learning models on the peridot training set and testing set

    综上所述,对于河北、吉林和朝鲜三个产地橄榄石样品的判别,大部分非线性算法(除了DTC)相较LDA,准确率都有了提升,其中BPNN准确率最高,SVC训练结果稳定且准确率较高。

    本文以河北、吉林和朝鲜三个产地橄榄石样品为例,筛选10种化学成分(Mn、Zn、Na、Al、Sc、V、Cr、P、Ti、REE)作为特征,使用六种机器学习方法进行产地判别,得到如下主要结论。

    (1) 应用支持向量机等非线性的机器学习算法建模可以得到较好的判别效果,训练集准确率可以达到95%以上,测试集准确率可以达到86%以上,远超传统的基于全部元素的LDA模型。

    (2) 筛选元素的意义在于提取出了能够更好表现产地差异化性质的信息,剔除了冗余和无关的噪声,能提升模型的性能和训练效率。

  • 图  9   六种机器学习模型在橄榄石训练集和测试集上的准确率

    注:BPNN每次训练得到的结果存在一定波动,因此迭代50次分别得到训练集准确率均值和测试集准确率均值,其中训练集准确率的1σ= 0.01,测试集准确率的1σ=0.015

    Figure  9.   Accuracy of six machine learning models on the peridot training set and testing set

    图  1   河北大麻坪、吉林意气松和朝鲜长渊郡橄榄石样品的产地位置

    注:基于国家地理信息公共服务平台-天地图制作,审图号为GS(2023)336号,底图无修改

    Figure  1.   Map of the origins of the peridot samples from Damaping, Hebei Province and Yiqisong, Jilin Province, China and Changyon District, DPRK

    图  2   河北大麻坪双面抛光后的部分橄榄石样品

    Figure  2.   Some double-sided polished peridot samples from Damaping, Hebei Province

    图  3   三个产地的橄榄石刻面成品(左三:河北大麻坪;中三:吉林意气松;右三:朝鲜长渊郡)

    Figure  3.   Faceted samples from the three origins (left three samples: Damaping, Hebei Province; middle three samples: Yiqisong, Jilin Province; right three samples: Changyon District, DPRK)

    图  4   三个产地橄榄石样品在16种成分上的高斯核密度估计

    注:使用Seaborn库的kdeplot进行绘制,采用Scott等[16]的核密度估计方法;P和Ca含量低于检出限的少量样品按其检出限/10替换原始数据

    Figure  4.   Gaussian kernel density estimation on 16 elements of peridot samples from the three origins

    图  5   不同数量的成分组合后建立LDA模型得到的准确率

    Figure  5.   Accuracy of LDA model obtained by combining different elements

    图  6   不同数量成分组合中的平均改进度

    注:横轴n表示组合中的成分数量,纵轴Δxn表示成分x加入n-1种成分中构成n种成分组合时,对模型准确率的影响,正值表示所有组合的平均准确率提升,负值表示平均准确率下降,称Δxn为成分xn种成分组合的平均改进度

    Figure  6.   Average improvement rates for each element in different combinations of element quantities

    图  7   各成分平均改进度总和

    Figure  7.   Sum of average improvement rates for individual element

    图  8   二维空间中的二分类问题样本分布的理想边界和LDA边界

    A1:大致左右对称分布的数据,使用scikit-learn的datasets模块的make_classification随机生成;B1:两组相互嵌套的月牙形数据,使用make_moons随机生成;C1:两组呈同心圆分布的数据,使用make_circles随机生成;A2/B2/C2:理想的分类边界;A3/B3/C3:三种数据通过LDA划分的分类边界,准确率ACC表示被划入正确类别的样品占总样品的比值: 正确划分到真实类别的点为“○”形,错误划分的点为“×”形

    Figure  8.   Ideal boundary and LDA boundary for a binary classification problem in 2D space

    表  1   三个产地橄榄石样品的常规宝石学特征

    Table  1   Conventional characteristics of peridot samples from the three origins

    河北大麻坪橄榄石 吉林意气松橄榄石[10] 朝鲜橄榄石[10]
    样品数 62粒 100粒 100粒
    颜色 黄绿色 黄绿色 褐绿色
    透明度 透明 透明 透明
    多色性 弱,浅黄绿-黄绿色 弱,浅黄绿-黄绿色 弱,浅褐绿色-褐绿色
    折射率 1.650~1.690 1.654~1.695 1.654~1.694
    双折射率 0.034~0.039 0.035~0.038 0.036~0.038
    相对密度 3.26~3.38 3.33~3.36 3.33~3.38
    内含物特征 “睡莲叶状”包裹体;部分愈合裂隙;铬铁矿和透辉石包裹体;棕黑色浸染 “睡莲叶状”包裹体;部分愈合裂隙;铬铁矿、透辉石、顽火辉石和利蛇纹石(仅见于一个样品)包裹体;棕色浸染 “睡莲叶状”包裹体;部分愈合裂隙和烟雾状面纱状包裹体;铬铁矿和透辉石包裹体;棕色浸染
    下载: 导出CSV

    表  2   六种机器学习算法调用的接口和参数设置

    Table  2   Interfaces and parameter configurations for six machine learning algorithms

    机器学习算法 调用的scikit-learn接口 实例化时的参数设置
    LDA:线性判别分析 Linear Discriminant Analysis 默认
    SVC-RBF:基于高斯核函数的支持向量机 SVC kernel=’rbf’
    SVC-Laplc:基于拉普拉斯核的支持向量机 SVC, laplacian_kernel kernel='precomputed'
    DTC:决策树 Decision Tree Classifier max_depth=3
    min_samples_leaf=1
    min_samples_split=13
    RFC:随机森林分类算法 Random Forest Classifier n_estimators=66
    max_depth=8
    max_features=4
    min_samples_split=4
    BPNN:反向传播神经网络 MLP Classifier hidden_layer_sizes=(20, 20)
    activation=’relu’
    alpha=0.5
    max_iter=1 000
    下载: 导出CSV

    表  3   LA-ICP-MS测得的三个产地的橄榄石样品的主量成分

    Table  3   Main components of peridot samples from the three origins analyzed by LA-ICP-MS wB/%

    河北大麻坪 吉林意气松[10] 朝鲜[10]
    MgO 47.83~51.27 (49.64) 48.86~51.02 (49.97) 46.06~50.79 (49.33)
    FeO 7.83~10.64 (8.72) 7.97~9.92 (8.60) 8.05~12.54 (9.33)
    SiO2 39.24~42.57 (40.73) 39.59~41.46 (40.56) 39.20~41.38 (40.40)
    Fo 88.90~91.90 (91.00) 89.80~91.80 (91.20) 86.80~91.80 (90.40)
    下载: 导出CSV

    表  4   LA-ICP-MS测得的三个产地的橄榄石样品的微量元素

    Table  4   Trace elements of peridot samples from the three origins analyzed by LA-ICP-MS /10-6

    河北大麻坪 吉林意气松[10] 朝鲜[10]
    Li 1.08~3.41 (1.62) 0.93~2.20 (1.41) 1.03~3.87 (1.82)
    Be* bdl~0.75 (0.16) bdl~0.57 (0.05) bdl~0.27 (0.03)
    Na 12.50~99.60 (36.50) 4.64~77.80 (30.40) 16.10~125.90 (71.60)
    Al 20.50~198.01 (85.20) 35.02~129.10 (54.20) 55.20~261.03 (118.02)
    P* 67.20~221.30 (130.31) bdl~218.05(94.40) bdl~273.09(105.10)
    K* bdl~7.48 (1.33) bdl~50.30 (4.41) bdl~32.90 (5.02)
    Ca* bdl~852.10 (413.30) bdl~774.32 (340.20) bdl~1097.20 (489.11)
    Sc 2.04~4.94 (3.06) 2.25~5.84 (4.00) 2.99~6.73 (4.33)
    Ti* 1.66~41.30 (13.30) bdl~27.70 (7.28) 2.31~42.10 (15.90)
    V 1.07~5.33 (2.93) 1.43~4.15 (2.50) 1.34~5.91 (3.31)
    Cr 34.90~259.04 (111.20) 36.80~200.00 (92.40) 28.70~207.20 (126.15)
    Mn 932.30~1149.20 (1023.10) 940.30~1109.20 (1004.10) 950.10~1500.20 (1101.30)
    Co 132.20~146.10 (138.30) 127.20~144.10 (136.20) 127.10~148.10 (137.40)
    Ni 2494.30~3319.20 (3004.90) 2706.20~3313.30 (2979.10) 2254.20~3129.39 (2855.10)
    Cu* 0.38~2.86 (1.32) bdl~6.68 (1.51) bdl~23.80 (2.37)
    Zn 37.00~64.60 (48.60) 36.30~54.70 (43.80) 42.40~111.10 (54.50)
    Ga* bdl~0.18 (0.05) bdl~0.31 (0.06) bdl~0.45 (0.11)
    Rb* bdl~0.12 (0.02) bdl~0.38 (0.06) bdl~0.27 (0.05)
    Sr* bdl~0.04 (0.01) bdl~0.13 (0.02) bdl~0.59 (0.03)
    Y* bdl~0.07 (0.02) bdl~0.08 (0.02) bdl~0.11 (0.04)
    Zr* bdl~0.22 (0.04) bdl~0.16 (0.03) bdl~1.27 (0.08)
    Nb* bdl~0.05 (0.01) bdl~0.05 (0.01) bdl~0.56 (0.01)
    Ag* bdl~0.06 (0.01) bdl~0.15 (0.02) bdl~0.07 (0.02)
    Cd* bdl~0.26 (0.03) bdl~0.55 (0.09) bdl~0.34 (0.04)
    Sn* bdl~2.52 (1.56) bdl~6.28 (2.07) bdl~8.34 (2.71)
    Sb* bdl~8.05 (0.38) bdl~1.31 (0.17) bdl~0.26 (0.04)
    Cs* bdl~0.05 (0.01) bdl~0.15 (0.02) bdl~0.08 (0.02)
    REE* 0.01~0.25 (0.04) 0.01~0.85 (0.16) 0.01~0.62 (0.12)
    其他元素基本低于检出限,不列出;表 3表 4括号内的值表示所有样品均值,低于检出限的样品按软件给出的原始数据作为其值;REE表示稀土元素La~Lu的总量,低于检出限的取检出限的1/10作为其值;bdl表示低于检出限;* 表示存在样品低于该元素检出限
    下载: 导出CSV
  • [1]

    Schweiger R. Diagnostic features and heat treatment of Kashmir sapphires[J]. Gems & Gemology, 1990, 26(4): 267-280.

    [2] 张雨阳, 陈美华, 叶爽, 等. 三维荧光光谱在蓝宝石成因及产地指示作用中的研究——以斯里兰卡和老挝蓝宝石为例[J]. 光谱学与光谱分析, 2022, 42(5): 1 508-1 513.

    Zhang Y Y, Chen M H, Ye S, et al. Research of geographical origin of sapphire based on three-dimensional fluorescence spectroscopy: A case study in Sri Lanka and Laos sapphires[J]. Spectroscopy and Spectral Analysis, 2022, 42(5): 1 508-1 513. (in Chinese)

    [3]

    Abduriyim A. Geographic origin determination of colored gemstones[J]. Gems & Gemology, 2011, 47(2): 114-116.

    [4]

    Abduriyim A, Kitawaki H. Applications of laser ablation-inductively coupled plasma-mass spectrometry (LA-ICP-MS) to gemology[J]. Gems & Gemology, 2006, 42(2): 98-118.

    [5] 向芳, 王成善, 蒋镇东, 等. 成都金沙玉器的稀土元素特征及材质来源[J]. 地球科学与环境学报, 2008, 30(1): 54-56.

    Xiang F, Wang C S, Jiang Z D, et al. Rare-earth element characters of jadewares of Jinsha site in Chengdu and its significance for indicating material source[J]. Journal of Earth Sciences and Environment, 2008, 30(1): 54-56. (in Chinese)

    [6]

    Aggarwal R, Sounderajah V, Martin G, et al. Diagnostic accuracy of deep learning in medical imaging: A systematic review and meta-analysis[J]. NPJ Digital Medicine, 2021, 4(1): 1-23. doi: 10.1038/s41746-020-00373-5

    [7]

    Kabir M H, Guindo M L, Chen R, et al. Geographic origin discrimination of millet using Vis-NIR spectroscopy combined with machine learning techniques[J]. Foods, 2021, 10(11): 2 767-2 778. doi: 10.3390/foods10112767

    [8]

    Shen A H, Blodgett T E, Shigley J. Country-of-origin determination of modern gem peridots from LA-ICP-MS trace-element chemistry and linear discriminant analysis (LDA)[C]//Geological Society of America Abstracts. Denver: Geological Society of America, 2013: 525.

    [9]

    Giuliani G, Caumon G, Rakotosamizanany S, et al. Classification chimique descorindons par analyse factorielle discriminante: Application à La typologie des gisements de rubis et saphirs[J]. Revue De Gemmologie, 2014(188): 14-22.

    [10]

    Zhang Z, Ye M, Shen A H. Characterisation of peridot from China's Jilin Province and from North Korea[J]. The Journal of Gemmology, 2019, 36(5): 436-446. doi: 10.15506/JoG.2019.36.5.436

    [11]

    Kochelek K A, Mcmillan N J, Mcmanus C E, et al. Provenance determination of sapphires and rubies using laser-induced breakdown spectroscopy and multivariate analysis[J]. American Mineralogist, 2015, 100(8): 1 921-1 931.

    [12]

    Burges C J C. A tutorial on support vector machines for pattern recognition[J]. Data Mining and Knowledge Discovery, 1998, 2(2): 121-167.

    [13]

    Maimon O Z, Rokach L. Data mining with decision trees: Theory and applications[M]. Singapore: World Scientific, 2014.

    [14] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016.

    Zhou Z H. Machine learning[M]. Beijing: Tsinghua University Publishing House, 2016. (in Chinese)

    [15]

    Schmidhuber J. Deep learning in neural Networks: An overview[J]. Neural Networks, 2015, 61(1): 85-117.

    [16]

    Scott D W, Tapia R A, Thompson J R. Kernel density estimation revisited[J]. Nonlinear Analysis: Theory, Methods & Applications, 1977, 1(4): 339-372.

    [17]

    De Hoog J C M, Gall L, Cornell D H. Trace-element geochemistry of mantle olivine and application to mantle petrogenesis and geothermobarometry[J]. Chemical Geology, 2010, 270(1): 196-215.

  • 期刊类型引用(2)

    1. 李婷婷,王兴弟,孙志旭. 基于珠宝玉石鉴定中的微量元素分析的溯源技术研究. 实验室检测. 2025(03): 17-19 . 百度学术
    2. 罗恒,沈锡田,潘少逵,仲源,李峰,Pia Tonna. 吉林意气松橄榄石的形成机制及机器学习对其产地判别的应用. 宝石和宝石学杂志(中英文). 2024(S1): 91-93 . 百度学术

    其他类型引用(0)

图(9)  /  表(4)
计量
  • 文章访问数:  195
  • HTML全文浏览量:  98
  • PDF下载量:  115
  • 被引次数: 2
出版历程
  • 收稿日期:  2023-10-29
  • 刊出日期:  2023-11-29

目录

/

返回文章
返回