化學結(jié)構(gòu)“不一致”的REACH注冊物質(zhì)高達4.3%!
瑞士和德國的學者在ECHA的REACH注冊物質(zhì)數(shù)據(jù)庫中分析了8,590種物質(zhì),發(fā)現(xiàn)其中4.3%的物質(zhì),基于分子結(jié)構(gòu)的化學身份信息存在不一致的情況。這樣的信息可能會導(dǎo)致對化學風險得出錯誤的結(jié)論,特別是當風險評估依賴于群組或QSAR結(jié)果時,因此,正確的化學結(jié)構(gòu)至關(guān)重要。
研究人員對以下三個數(shù)據(jù)庫進行了對比分析:
1. ECHA數(shù)據(jù)庫,涵蓋了23,000多種物質(zhì);
2. 由美國國家衛(wèi)生研究院運營的開放式化學數(shù)據(jù)庫PubChem,包含1.1億個獨立的化學結(jié)構(gòu);
3. 由美國環(huán)境保護局運營的CompTox化學品指示板,包含900,000多種化學物質(zhì)。
他們重點關(guān)注了ECHA數(shù)據(jù)庫中37%的有機單組分物質(zhì),不包括中間體和卷宗中沒有來源或成分信息的物質(zhì),研究人員在其他數(shù)據(jù)庫中查詢相同的物質(zhì)進行了比較。在這三個數(shù)據(jù)庫中,共有736個不一致的條目,還有48個條目的物質(zhì)身份不明確。根據(jù)簡化分子線性輸入規(guī)范(SMILES)字符串,這些條目是不一致的,該字符串通過一行文本描述了化合物的完整分子結(jié)構(gòu)。
在ECHA數(shù)據(jù)庫中,不一致的條目數(shù)量占4.3%,在CompTox化學品指示板中占3%,在PubChem中占2.8%。如果SMILES字符串中的單個原子、分子的部分或整個物質(zhì)是不正確的,可能會導(dǎo)致QSAR建模的預(yù)測出現(xiàn)“重大錯誤”,將會導(dǎo)致風險評估結(jié)果出現(xiàn)極大的不確定性。因此,不一致的條目數(shù)量表明數(shù)據(jù)庫中的數(shù)據(jù)篩選工作進行得仍然不夠充分,還需要進行更多的工作。