基于化合物分子结构的量化计算结果数据库 中华文库
基于化合物分子结构的量化计算结果数据库 作者:韩清珍 赵月红 温浩 2018年9月29日 |
|
摘要&关键词
摘要:目前,大量已知结构的化合物缺乏基本物性数据和热动力学数据。为了进一步提高化学数据库中数据的完备性和拓展使用性,本数据库利用Gaussian03软件程序基于化合物结构数据库以及化合物基本信息资源对约20万个化合物的结构进行了数据分析和量化几何结构优化、光谱和频率以及热动力学计算模拟,并对量化计算结果文件按国际标准分别提取了化合物物种及相应的红外吸收光谱、偶极矩、绝对极化率、转动温度及转动常数、零点振动能、零点校正、分子内能、焓、自由能、分子动能、等容热容、熵等热动力学参数及其计算谱图数据等。经数据分析、挖掘和查重等二次加工处理后得到18000个化合物的量化计算结果数据(其中5321个化合物含有谱图数据)。为了提高数据的可使用性,本数据库对所有结果数据都进行了规范化和使用便利化加工处理。
关键词:化合物结构;量化计算;数据分析加工;热动力学数据;谱图数据
Abstract & Keywords
Abstract: At present, a large number of compounds of known structure lack basic physical property data and thermodynamic data. In order to promote data integrity and usability in chemistry database, the study calculates the structure of about 200,000 compounds using Gaussian03 software programs based on compounds structure data and compounds profiles. Meanwhile, the study performs geometric structure optimization, thermodynamic data analysis, and spectrum analysis. Then, compound species, together with their thermodynamic parameters and spectrum data, are extracted from quantum calculation results according to international standards, including infrared absorption spectrum, dipole moment, absolute polarizability, turning temperature and constant, zero-point vibrational energy, zero-point correction, molecular internal energy, molecular kinetic energy, enthalpy, free energy, heat capacity at constant volume, and entropy. A second processing (i.e., data analysis, mining and duplicate checking) results in quantum chemical calculation data of 18000 compounds (including spectrum data of 5321 compounds). To improve data reusability, all the resulted data have been standardized and processed for easier reuse.
Keywords: compounds structure; quantum chemical calculation; data analysis and processing; thermodynamic data; spectrum data
数据库(集)基本信息简介
数据库(集)名称 | 量化计算结果数据库 |
数据作者 | 韩清珍、赵月红、温浩 |
数据通信作者 | 韩清珍(qzhan@ipe.ac.cn) |
数据时间范围 | 2015–2017年 |
数据量 | 766 KB |
数据格式 | *.xls |
数据服务系统网址 | http://www.sciencedb.cn/dataSet/metaData/630 |
基金项目 | 国家科技基础条件平台项目,国家基础科学数据共享服务平台,DKA2017-12-02-05;“十三五”院信息化专项,化学学科领域重点数据库建设与应用服务,XXH1350303-103 |
数据库(集)组成 | 数据集由13部分数据组成:一是偶极矩数据、二是绝对极化率数据、三是相对极化率数据、四是转动温度数据、五是转动常数数据、六是零点振动能数据、七是零点校正数据、八是热能数据、九是热焓数据、十是热自由能数据、十一是总分子动能数据、十二是等容热容数据和十三是熵数据。数据集包含1个数据文件:Quantumdata.zip。 |
Dataset Profile
Title | A database of quantum chemical calculation results |
Data authors | Han Qingzhen, Zhao Yuehong, Wen Hao |
Data corresponding author | Han Qingzhen (qzhan@ipe.ac.cn) |
Time range | 2015 – 2017 |
Data volume | 766 KB |
Data format | *.xls |
Data service system | < http://www.sciencedb.cn/dataSet/metaData/630> |
Sources of funding | The National R&D Infrastructure and Facility Development Program of China, Fundamental Science Data Sharing Platform (DKA2017-12-02-05); CAS informatization project during the Thirteenth Five-Year Plan – "Key Database Construction and Application Services for the Discipline of Chemistry" (XXH1350303-103). |
Database composition | The dataset consists of 13 subsets in total: Dipole moment (Debye), Exact polarizability, Approx. polarizability, Rotational temperatures (Kelvin), Rotational constants (GHZ), Zero-point vibrational energy (kJ/mol), Zero-point correction (Hartree/Particle), Thermal energy (kJ/mol), Thermal enthalpy (kJ/mol), Thermal free energy (kJ/mol), Total molecular kinetic energy (kJ/mol), CV (J/Mol-Kelvin), S (J/Mol-Kelvin). The database contains one compressed data file titled Quantumdata.xls, which stores thermodynamic chemical properties data resulted from quantum calculation. |
引 言
近年来,随着新材料需求的扩大和研发能力的提高,具有各种特定性能、面向不同需求的各种结构的材料不断出现,但这些材料及其相关衍生物的许多热动力学性质却都不够详细,形成了大量已知结构的化合物缺乏物性基本数据及其相关热动力学数据的局面。如果将目前化学主题数据库中已知结构信息的化合物进行量化计算分子模拟,将量化计算获得的热动力学数据和谱图数据提取整理成数据库,将对化工模拟和材料分子设计行业的研发人员的查询使用提供极大方便。因此开发建设量化计算结果数据库对于化工模拟行业和材料设计的相关行业发展都具有重要意义。
量化计算结果数据库的数据收集是出于化工模拟和材料设计的需求而进行的,这些数据几乎没有文献数据或者很难用实验手段获得。因此采用可靠性较好的量化计算方法模拟出结果,一方面经过不断的计算模拟检验,另一方面在化工模拟、分子设计和水污染处理、空气净化等领域推广使用,逐渐形成一个类似查询工具包的数据包免费提供给用户使用。量化计算结果数据库收集了化学主题数据库中已知分子结构的化合物量化计算结果的热动力学数据和红外谱图数据等,并逐渐建成一个信息数据比较完备的数据管理与信息服务系统,实现网络服务和信息查询,并成为集成在化学主题数据库(ChemDB)内的一个附属子库,提供网络化管理和Web化数据共享平台。
1 数据采集和处理方法
1.1 数据预处理
首先利用Open Babel2.3.1软件将化学主题数据库中的化合物结构mol文件或者sdf文件转换为高斯计算软件的输入格式文件,进一步运用批处理命令将量化计算拟采用的杂化泛函模型、基组和电荷、自旋多重度等计算命令行和分子结构相关信息写入文本,生成分子结构优化、频率分析、电荷分布分析和相关热动力学参数分析以及等光谱计算和频率分析的高斯计算输入文件。
1.2 热动力学数据计算方法
使用Gaussian03[1]和Gaussian09[2]软件包,采用密度泛函理论B3LYP/6-31G基组[3],设定体系温度T=298.15 K,压强P=101.3 kPa,对所有输入文件的化合物进行结构优化和频率计算分析,得到优化几何构型及其完整的化合物热动力学参数,运用批处理程序寻找正常收敛结束的输出结果文件,提取化合物的物种,得到优化几何构型及其完整化合物热动力学参数信息,利用C语言编辑的批处理程序提取化合物的偶极矩、绝对极化率、相对极化率、转动温度及其转动常数、零点振动能、零点校正、分子热能、焓、自由能、分子动能、等容热容、熵等热动力学参数信息(见表1),并将其进行物理量的标准单位转换和规范化处理[4],生成对应的表格,上传到量化计算结果数据库,并实现在线服务,具体流程见图1。
表1 化合物热动力学参数及其单位
物理量 | 符号及定义 | SI单位 |
偶极矩 | Dipole Moment(μ) | Debye |
绝对极化率 | Exact Polarizability | 无 |
相对极化率 | Approx Polarizability | 无 |
转动温度 | Rotational Temperatures | K |
转动常数 | Rotational Constants | GHZ |
零点振动能 | Zero-point Vibrational Energy | kJ∙mol−1 |
零点校正 | Zero-point Correction | Hartree/Particle |
分子热能 | Thermal Energies | kJ∙mol−1 |
分子反应焓 | Thermal Enthalpies | kJ∙mol−1 |
分子反应自由能 | Thermal Free Energies | kJ∙mol−1 |
分子总动能 | Total Molecular Kinetic Energy (298.15 K) | kJ∙mol−1 |
热 | q 或Q | J |
功 | w 或W | J |
内能 | J | |
焓 | J | |
热力学温度 | T | K |
熵 | J∙K−1 | |
Gibbs自由能 | J | |
等压热容 | J∙K−1 | |
等容热容 | J ∙mol−1∙K−1 | |
热容比 | 无 | |
压缩因子 | 无 | |
化学势 | J∙mol−1 | |
标准化学势 | 或 | J∙mol−1 |
反应的标准Gibbs自由能 | J∙mol−1 | |
反应亲和势 | J∙mol−1 | |
反应的标准焓 | J∙mol−1 | |
反应的标准熵 | J∙mol−1∙K−1 | |
平衡常数 | 无 |
图1 量化计算结果数据库的计算和实现流程概图
1.3 光谱数据计算方法
对所有编译后的化合物结构输入文件进行光谱计算分析,得到优化几何构型及其完整的红外谱图数据(见表2),运用批处理程序寻找正常收敛结束的结果输出文件,提取化合物物种,并利用GaussSum2.2程序提取这些化合物的振动频率及相应的红外吸收光谱数据,使用Gnuplot作图软件对其进行批处理作图,生成Spectum.zip文件,将结果文件上传到量化计算结果数据库实现在线服务和运行。
表2 光谱数据及其单位
物理量 | 符号及定义 | SI单位 |
波长 | λ | m |
折射率 | 无 | |
频率 | Hz | |
圆频率, 角频率 | ω = 2πν | s−1, rad∙s−1 |
波数 | m−1 m−1 | |
Planck常数 | h | J∙s |
吸收比, 吸收因子 | None | 无 |
吸光度 | 无 | |
跃迁波数 | None | m−1 |
跃迁频率 | Hz | |
电子项 | m−1 | |
振动项 | m−1 | |
转动项 | m−1 | |
转动常数 | m−1 Hz | |
非对称参数 | 无 | |
谐振动波数 | ; | m−1 |
分子电偶极矩 | C∙m | |
分子磁偶极矩 | J∙T−1 | |
分子跃迁偶极矩 | C∙m | |
振动力常数 | J∙s−2 可变可变 | |
化学位移, δ标 | 无 |
1.4 数据使用的便利化
量化计算结果数据库为集成在ChemDB内的一个子库,提供了多样化的检索手段,来自世界各地的用户都可以通过Internet和Web浏览器方便快捷地获取所需数据。为了与之前的化学主题数据库统一标识,量化计算结果数据库采用ID、CAS RN、InChIKey以及化合物参考库登录号(SRN)作为化合物的标识信息,其存储及获取方式见表3。
表3 各种标识的存储及获取方式
外文词 | 存储及获取方式 |
ID | 化合物ID来源于化合物自身的CAS RN,并经过校验码检查确认其正确性。对于部分无法确定CAS RN的化合物,采用B加流水号的方式存储,如“B2000166”。 |
CAS RN | 化合物ID映射化学主题数据库的ID和CAS RN收集自各种资料,并经过校验码检查确认其正确性。 |
InChIKey | 化合物ID映射数据库使用国际纯粹与应用化学联合会的共享软件InChI Software Version 1.02由化合物结构生成化合物的InChIKey标识。 |
SRN | SRN生成自化合物参考库的化合物结构登录系统,是一个十进制整数,由本体部分和个位的数字校验码1组成,用以代表化合物ID映射数据库中的一个化合物。 |
注1:SRN校验码使用ISO 7064∶1983标准的Mode 11 校验码计算方法。
2 数据样本描述
目前已计算化合物结构约200000余个,收集相关热动力学数据25000余条。使用数据库前端应用程序已录入分子结构量化计算结果化学数据约18000条,且服务器量化计算仍在不断进行中,数据量仍在持续不断增长中。
基于量化计算结果数据库的内容,确定数据库(元)数据的基本元素需求,作为数据库结构设计的主要参考。其中,著录结构是经仔细分析确认的数据库数据著录所需元素及元素的先后排序,各项说明见表4。
需求元素设置表主要是把数据库所需要的字段经系统化、结构化之后,列成表格进行数据库结构分析和设计,以及撰写程序时参考使用,见表5。需求元素设置表各项说明如下:
元素中文名称:数据库所需字段的中文名称。
元素英文名称:数据库所需字段的英文名称。
数据类型:int存放纯数字型态的数据;text存放文字型态的数据;varchar存放其他类型数据。
大小:元素所需之空间,以byte为单位。一个英文字符或一个阿拉伯数字需用一个byte表示,而一个汉字字符则需两个byte表示。
3 数据质量控制和评估
量化计算结果数据库采集的基本原则和策略是针对所收集数据的可靠性,对化合物结构的量化计算均采用已经成熟且经过实验结果验证可靠的理论方法和计算模型。数据收集中,对有明显错误或不符合物理化学基本规律的计算数据亦予以剔除。整体批量的数据输入、数据更新和处理的频度约为半年一次,手工输入则按月进行。
量化计算结果数据库对数据要求的制约基本内容包括:
1. 时间范围约定:在100小时内收敛结束的化合物结构量化计算结果。2. 学科范围约定:主要来自化学主题数据库化合物结构。3. 数据量:目前已积累大约18 000条数据,且服务器正在持续计算中,数据来源丰富。4. 数据精度约定:通常为小数点后5位有效数字。5. 语言约定:英语、中文。6. 数据类型约定:数据库数据的基本类型为文本、数字、图片、自定义的二进制格式等。
目前,数据库的输入输出的数据类型为文本、数字和图片类型以及自定义二进制格式,类型与数值都在数据库系统的正常允许范围之内。量化计算优化好的结果数据筛选提取出来后先使用EXCEL进行数据整理,为了保证数据质量,统计整理后的数据要求能够排除输入错误、类型错误,并能够进行部分数据转换功能。
表4 数据库著录结构
著录项 | 范例 | 说明 |
化合物结构 | OseChemX C.20110210.111413.257D8 8 0 0 0 0 0 0 0 0999 V20000.0000 0.0000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0-1.2124 0.7000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0-2.4249 0.0000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0-3.6373 0.7000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0-3.6373 2.1000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0-2.4249 2.8000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0-1.2124 2.1000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 01.2124 0.7000 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 01 2 1 02 3 1 03 4 2 04 5 1 05 6 2 06 7 1 02 7 2 01 8 2 0M END | 以mol文件格式为例 |
化合物英文名称 | benzaldehyde | 非必须 |
化合物中文名称 | 苯甲醛 | 必须 |
化合物分子式 | C7H6O | 非必须 |
CAS RN | 100-52-7 | 非必须 |
内部编号 | E-PN-001 | 必须 |
表5 需求元素表
元素中文名称 | 元素英文名称 | 数据类型 | 长度 |
化合物结构 | Str_compound | Image | |
化合物InChI_Key | InChI_Key | varchar | 27 |
化合物InChI码 | InChI | text | |
分子式 | Formula | varchar | 100 |
中文名称 | Name_CN | varchar | 100 |
英文名称 | Name_EN | varchar | 150 |
中文别名 | OthName_CN | text | |
英文别名 | OthName_EN | text | |
化合物CAS登录号 | CASRN | int | 10 |
内部id | ID | varchar | 25 |
分子量 | Mol_weight | float | |
吉布斯自由能 | G | float | |
偶极矩 | Dipole | float | |
绝对极化率 | Exact Polarizability | float | |
相对极化率 | Approx Polarizability | float | |
转动温度 | Rotational Temperatures | float | |
转动常数 | Rotational Constants | float | |
零点振动能 | Zero-point Vibrational Energy | float | |
零点校正 | Zero-point Correction | float | |
分子热能 | Thermal Energies | float | |
分子反应焓 | Thermal Enthalpies | float | |
分子反应自由能 | Thermal Free Energies | float | |
分子总动能 | Total Molecular Kinetic Energy (298.15 K) | float | |
热力学温度 | T | float | |
熵 | S | float | |
等容热容 | Cv | float |
4 数据使用方法和建议
量化计算结果数据库资源的数据描述共计13个子类,分别为偶极矩(Dipole Moment)、精确极化率(Exact Polarizability)、相对极化率(Approx Polarizability)、转动温度(Rotational Temperatures)、转动常数(Rotational Constants)、零点振动能(Zero Point Vibrational Energy)、零点校正(Zero Point Correction)、热能(Thermal Energies)、热焓(Thermal Enthalpies)、自由能(Thermal Free Energies)、总分子动能(Total Molecular Kinetic Energy)、等容热容(CV )和熵(Entropy),另外还提供部分结构的红外谱图(Infrared Spectrum)。用户可以利用化合物的CAS RN、结构、SRN或者InChIKey码查询其相应的上述热动力学计算结果数据(如图2所示),而不需要自己进行繁琐的分子结构模型构建、计算分析和结果提取等,这对新材料的评估分析、结构设计以及化学化工应用等都是十分便利的。
图2 氮化硼的量化计算热化学性质数据的检索结果界面
量化计算结果数据可通过化学主题数据库页面(http://www.chemdb.csdb.cn)访问。
参考文献
- ↑ FRISCH M J, et al. Gaussian 03, Revision B.03[M]. Pittsburgh, PA: Gaussian Inc, 2003.
- ↑ FRISCH M J, et al. Gaussian 09, Revision A.02[M]. Pittsburgh, PA: Gaussian Inc, 2009.
- ↑ BECKE A D. Density-functional thermochemistry. III. The role of exact exchange[J]. Journal of Chemical Physics, 1993, 98(7): 5648-5652.
- ↑ 姜璐璐. 基于ChDR本体的化学数据资源集成的研究[D]. 北京: 中国科学院大学, 2015.
数据引用格式
韩清珍, 赵月红, 温浩. 量化计算结果数据库[DB/OL]. Science Data Bank, 2018. (2018-07-20). DOI: 10.11922/sciencedb.630.