共現分析目前需要解決的問題以及主觀上的經驗||| 共現分析越來越引起大家的興趣,很多信息專業以外的研究人員也想利用這種方法分析自己學科領域的研究現狀或者熱點。因此,不斷有人跟我探討這個方法的具體使用問題,說實話,這個方法還在不斷的完善之中,應用中有很多具體的問題還沒有解決。所以,感覺應該把這個方法的一些弱點,或者說需要進一步完善的地方列舉出來,同時也提出自己目前的解決方法,希望有更多的同道能一起探索解決的方法。按照共現聚類分析的順序,列舉存在的問題如下:
1. 分析樣本數目的問題:就是用于分析的樣本大小的確定,實際上是檢索論文數目多寡的問題。根據我的經驗,理想的境界是應該包括該領域或主題的所有論文,對于比較大的主題,我一般用軟件進行隨機抽樣,對于一些比較小的主題,論文數應該不少于500篇。道理很明顯,文獻太少了,共現的偶然性就大,得出的結論就不可信,我們不能對著不可信的結果信口開河。當然,這和你分析的對象是以篇為單位(如論文、引文)、還是一篇文章有多個共現的項目(作者、被引作者主題詞有關系。一般我愿意以3000-5000篇作為分析的樣本。
2. 高頻閾值的確定問題:一般是用出現或者被引用頻次高于某個閾值的項目作為下一步分析(共現矩陣和聚類分析)的對象,如高頻主題詞,高被引論文、高產作者、高被引作者、高被引期刊等等。閾值的選取還是一個樣本量的問題,樣本太大,最后得到的聚類結果會很龐雜,對各個類別的主題就不好分析和抽取,如果樣本太小,得到的主題結構過于泛泛,沒有新鮮的內容,比如有人曾經告訴我,分析出來肺結核病研究的熱點是肺結核的診斷,肺結核的治療。沒有更細致的信息得到的結果就沒有什么意義了。對這個問題國內外也有過研究,主要是檢驗起來比較麻煩。習慣性地有人愿意套用布拉德福定律的方法,用百分比來確定閾值,但是受到主題范圍和發展程度等因素的影響,這個方法確定的高頻詞不是那么穩定,有的時候高頻詞很多至幾百個,有的時候又很少,似乎應該有一個全面的調查。還有就是有人用HIT 曲線試圖解決這個問題,這似乎也是一個思路。再有就是拿最后的聚類分析結果的質量好壞來評價閾值選取的方法。目前,我個人比較喜歡30-40左右的高頻詞或者高被引論文來分析。
3. 聚類分析方法的問題:從大的方面來說,有凝聚的方法和拆分的方法,比如在SPSS軟件中可以用系統聚類方法,也可以用K-means快速聚類方法,我們一般使用比較簡單直觀的系統聚類方法,因為我們比較注重共現主題詞之間的語義關系分析,所以愿意知道凝聚過程的先后順序。但是,最近看到文章說,有人專門進行過研究,說是快速聚類的效果要優于系統聚類。這個有待于深入調查。另一方面,從具體的細節來說,還有相似系數的選擇問題,很多國外的研究似乎用皮爾遜相關系數,而我們多年來一直用Ochiia相似系數,因為我們最開始是同被引聚類分析,從原理上看,我們認為這個系數是最合理的,就是兩篇被引論文同被引次數做分子,兩篇論文各自被引的總次數的乘積做分母,不用考慮沒有引用這兩個論文的其他論文,這些論文數量是相當地龐大。還有的是類與類聚合時候采用的方法:最大距離法,最小距離法,平均距離法重心法等等。一般我們是根據主題范圍的大小確定這些方法的選擇,比較細小專深的題目,我們采用最大距離法,把這些主題或者論文的類別盡量拉大距離,劃分清楚;對于比較大和分散的主題,我們用最小距離法讓各個類別之間盡量聚集到一起。
4. 聚類結果的解釋問題:我們目前是通過人工閱讀發現聚類項目之間的語義關系,這有很大的主觀性,受到分析人員的專業水平和綜合抽象能力的影響。國內外有一些對類別的主題進行識別的研究,有人提出主題詞的粘滯度,有人從文章中抽取句子代替論文然后組成這個類的標簽,有人提出用HITS算法,涉及到文本分類問題,又受到分類合理性檢驗問題的困擾,結果都不是令人滿意,竊以為這又是一個比較有前景的研究方向。
總之,所依賴的主要原理一個是共現,一個是聚類分析。由于聚類分析本身就是一個無監督的方法,多數情況下要靠經驗積累才能找到比較好的聚類途經和聚類結果的解釋。上面列舉的只是實踐中遇到的主要問題,具體實踐中恐怕還有遇到很多問題
|
|
來自: whuhujiming > 《信息計量》