評判數(shù)據(jù)標準的指標
也許是歷史傳統(tǒng)的問題,, Rint (Rsym,Rmerge)被選中了作為評判數(shù)據(jù)標準的指標,。甚至在很多不是很專業(yè)的書里,,學生們都被告知Rint 需要低于多少,I/σ高于多少才能表示數(shù)據(jù)可用,。于是乎,,這些數(shù)值變成了評判數(shù)據(jù)質(zhì)量所謂的金標準??墒钱斕釂朢int 是什么意義時,,跟什么因素相關時,大多數(shù)同學卻卡在了那里,??赡躌int在大多數(shù)同學眼里就是個發(fā)表文章的門檻數(shù)值,具體是什么意義已經(jīng)不再重要,。不然就不會有那么多同學追問著怎么把Rint修下去,,或者解決掉所謂的“錯誤"。
誠然Rint本身的意義并不復雜,。它的公式也看起來一目了然,,表示著合并等效衍射點之間的誤差。Rint值越低,,通常表示著數(shù)據(jù)的精度越高,。然而這是有一定的前提條件的。Rint實際上并不是一個很好的評判數(shù)據(jù)質(zhì)量的指標,。畢竟絕大多數(shù)數(shù)據(jù)都是通過Scale校正獲得,。過度的Fitting,以及刻意排除太多的衍射點都可以獲得人為的更低的Rint(以及更高的I/σ),。而這些刻意追求的數(shù)字對結(jié)構(gòu)精修并無意義,,反而會導致精修的結(jié)果失真,。甚至一些數(shù)據(jù)處理的軟件會去迎合同學們的這種“追求",去“美顏"數(shù)據(jù),,讓大家“喜聞樂見",然而有時掉進了坑里,,卻渾然不知。Rint同時也受到數(shù)據(jù)收集的多重度的影響。過低的多重度,,會讓衍射點沒有其它等效點可以進行比較,自然Rint就會很低,,甚至接近于0,,然而卻毫無意義(結(jié)構(gòu)甚至都無法解析)。而高多重度的數(shù)據(jù),,由公式?jīng)Q定了Rint自然會升高,,反而成了大家不喜歡看到的數(shù)值。但是不管怎么解釋,,很多同學仍然不以為然,,原因只是Checkcif不檢查多重度,但是對Rint卻有“嚴格"的門檻(而實際上大多數(shù)Rint高的問題是分辨率的問題),。同樣的I/σ也是一樣,,不同的誤差模型的算法,自然得到的數(shù)值會大有不同,。調(diào)高I/σ自然也是大家喜聞樂見的事情,,比如故意降低σ,刪除更多的衍射點也會讓I/σ看起來更高,。然而這些美顏的數(shù)據(jù),,對結(jié)構(gòu)精修卻毫無意義。
對于多重度對Rint的影響,,Rmeas解決了這個問題,,所以對于蛋白晶體學傾向于用Rmeas。此外現(xiàn)在還有CC1/2 來表征數(shù)據(jù)質(zhì)量,。不過在化學晶體學界似乎對這兩個數(shù)值并不感冒,。也許是通常衍射太強,不需要更寬松的指標,。這些指標在APEX4里都能輕松看到,。
實例分析
比如前兩天講座的時候提到的一個數(shù)據(jù),大家投票的結(jié)果在意料之中,。超過一半的同學都認為質(zhì)量更高的數(shù)據(jù)是A,。如果這是不同的數(shù)據(jù)還情有可原,然而這是同一套數(shù)據(jù),,同樣的結(jié)構(gòu)模型,。或許是顏色的誤導,讓同學們失去了基本的判斷力,。A為什么會看起來更好看,,因為Reject了很多數(shù)據(jù)。完整度表觀上只下降了2%,,而實際上卻高達30%的數(shù)據(jù)被reject,,Multiplicity極大的下降。保留下來的衍射點自然站在了一邊,,雖然看起來更精確,,卻丟失了準確。自然結(jié)構(gòu)精修的結(jié)果就會反過來打臉,。追求某些數(shù)字,,對結(jié)構(gòu)解析和精修本身毫無意義。結(jié)構(gòu)精修的質(zhì)量作為評判數(shù)據(jù)質(zhì)量的指標才更加合理,。比如R1,健長的精度,,殘余的電子峰等,。
▲圖1 Better Data Quality A or B?
除了軟件處理造成的假象,,有時候會遇到一些看起來數(shù)值質(zhì)量很高,,卻怎么也精修不好的數(shù)據(jù)。比如有嚴重的無序,,莫名的Q峰,。這時候?qū)W⒂诮Y(jié)構(gòu)精修,會百思不得其解,。從衍射圖上才會發(fā)現(xiàn)更多的端倪,。孿晶自然不需要多做解釋,而另外一些問題則更加的隱蔽,,單純從hkl上其實發(fā)覺不了任何問題,。因為單晶的數(shù)據(jù)還原并不是還原的所有的信息,而是通過晶胞截選而來,。而很多時候,,“晶胞"不能反映衍射的全部信息,自然會丟掉很多原本的衍射細節(jié),。比如很多Smear的信號,,Modulation的信號,衍射點形狀的信號,。這些信息都不會在hkl文件中體現(xiàn),。普通的結(jié)構(gòu)精修自然也無法全部的反映晶體的實際狀況。
▲圖2 丟失的衍射信息 A,,衍射點間的彌散信號 B,,衍射的背景彌散,,C,Modulation (Precession Image)
結(jié)論
所以數(shù)據(jù)質(zhì)量的評估,,從來都不是單個指標,,固定的標準。從衍射圖到數(shù)據(jù)處理,,到結(jié)構(gòu)精修,,每一步的細節(jié)都在告訴著我們的數(shù)據(jù)可能出現(xiàn)的問題。真實的數(shù)據(jù)才會有真實的結(jié)構(gòu),,刻意為了迎合某些死板的標準,,不惜去“美顏"甚至偽造數(shù)據(jù),也就背離了科學研究,。
-轉(zhuǎn)載于《布魯克X射線部門》公眾號
立即詢價
您提交后,,專屬客服將第一時間為您服務