少妇脱了内裤让我添,久久久久亚洲精品无码网址蜜桃,性色av免费观看,久久人妻av无码中文专区

分享

共現分析目前需要解決的問題以及主觀上的經驗 - zilu85的博文 - 科學網

 whuhujiming 2011-05-05

共現分析目前需要解決的問題以及主觀上的經驗

已有 1275 次閱讀 2010-2-20 11:35 |個人分類:生物醫學文本挖掘|系統分類:科研筆記|關鍵詞:共現分析,聚類分析,問題,相似系數,閾值

共現分析越來越引起大家的興趣,很多信息專業以外的研究人員也想利用這種方法分析自己學科領域的研究現狀或者熱點。因此,不斷有人跟我探討這個方法的具體使用問題,說實話,這個方法還在不斷的完善之中,應用中有很多具體的問題還沒有解決。所以,感覺應該把這個方法的一些弱點,或者說需要進一步完善的地方列舉出來,同時也提出自己目前的解決方法,希望有更多的同道能一起探索解決的方法。按照共現聚類分析的順序,列舉存在的問題如下:
1.       分析樣本數目的問題:就是用于分析的樣本大小的確定,實際上是檢索論文數目多寡的問題。根據我的經驗,理想的境界是應該包括該領域或主題的所有論文,對于比較大的主題,我一般用軟件進行隨機抽樣,對于一些比較小的主題,論文數應該不少于500篇。道理很明顯,文獻太少了,共現的偶然性就大,得出的結論就不可信,我們不能對著不可信的結果信口開河。當然,這和你分析的對象是以篇為單位(如論文、引文)、還是一篇文章有多個共現的項目(作者、被引作者主題詞有關系。一般我愿意以3000-5000篇作為分析的樣本。
2.       高頻閾值的確定問題:一般是用出現或者被引用頻次高于某個閾值的項目作為下一步分析(共現矩陣和聚類分析)的對象,如高頻主題詞,高被引論文、高產作者、高被引作者、高被引期刊等等。閾值的選取還是一個樣本量的問題,樣本太大,最后得到的聚類結果會很龐雜,對各個類別的主題就不好分析和抽取,如果樣本太小,得到的主題結構過于泛泛,沒有新鮮的內容,比如有人曾經告訴我,分析出來肺結核病研究的熱點是肺結核的診斷,肺結核的治療。沒有更細致的信息得到的結果就沒有什么意義了。對這個問題國內外也有過研究,主要是檢驗起來比較麻煩。習慣性地有人愿意套用布拉德福定律的方法,用百分比來確定閾值,但是受到主題范圍和發展程度等因素的影響,這個方法確定的高頻詞不是那么穩定,有的時候高頻詞很多至幾百個,有的時候又很少,似乎應該有一個全面的調查。還有就是有人用HIT 曲線試圖解決這個問題,這似乎也是一個思路。再有就是拿最后的聚類分析結果的質量好壞來評價閾值選取的方法。目前,我個人比較喜歡30-40左右的高頻詞或者高被引論文來分析。
3.       聚類分析方法的問題:從大的方面來說,有凝聚的方法和拆分的方法,比如在SPSS軟件中可以用系統聚類方法,也可以用K-means快速聚類方法,我們一般使用比較簡單直觀的系統聚類方法,因為我們比較注重共現主題詞之間的語義關系分析,所以愿意知道凝聚過程的先后順序。但是,最近看到文章說,有人專門進行過研究,說是快速聚類的效果要優于系統聚類。這個有待于深入調查。另一方面,從具體的細節來說,還有相似系數的選擇問題,很多國外的研究似乎用皮爾遜相關系數,而我們多年來一直用Ochiia相似系數,因為我們最開始是同被引聚類分析,從原理上看,我們認為這個系數是最合理的,就是兩篇被引論文同被引次數做分子,兩篇論文各自被引的總次數的乘積做分母,不用考慮沒有引用這兩個論文的其他論文,這些論文數量是相當地龐大。還有的是類與類聚合時候采用的方法:最大距離法,最小距離法,平均距離法重心法等等。一般我們是根據主題范圍的大小確定這些方法的選擇,比較細小專深的題目,我們采用最大距離法,把這些主題或者論文的類別盡量拉大距離,劃分清楚;對于比較大和分散的主題,我們用最小距離法讓各個類別之間盡量聚集到一起。
4.       聚類結果的解釋問題:我們目前是通過人工閱讀發現聚類項目之間的語義關系,這有很大的主觀性,受到分析人員的專業水平和綜合抽象能力的影響。國內外有一些對類別的主題進行識別的研究,有人提出主題詞的粘滯度,有人從文章中抽取句子代替論文然后組成這個類的標簽,有人提出用HITS算法,涉及到文本分類問題,又受到分類合理性檢驗問題的困擾,結果都不是令人滿意,竊以為這又是一個比較有前景的研究方向。
總之,所依賴的主要原理一個是共現,一個是聚類分析。由于聚類分析本身就是一個無監督的方法,多數情況下要靠經驗積累才能找到比較好的聚類途經和聚類結果的解釋。上面列舉的只是實踐中遇到的主要問題,具體實踐中恐怕還有遇到很多問題

    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發現有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發表

    請遵守用戶 評論公約

    類似文章 更多

    主站蜘蛛池模板: 欧美性猛交xxxx乱大交极品| 少妇厨房愉情理伦片视频在线观看| 狂野欧美激情性xxxx按摩| 人妻无码一区二区三区免费| a在线视频v视频| 国产三级在线观看完整版| 天堂网www在线资源网| 亚洲色av影院久久无码| 精品一区二区三区在线成人| 亚洲精品一区三区三区在线观看| 精品午夜福利1000在线观看| 日本肉体裸xxxxbbbb| 18禁无遮挡羞羞污污污污免费| 免费人成网站在线观看欧美| 加勒比一本heyzo高清视频| 国产放荡对白视频在线观看| 亚洲色大成网站www看下面| 人人爽人人片人人片av| 狠狠噜狠狠狠狠丁香五月| 亚洲国产午夜精品理论片妓女| 亚洲永久无码7777kkk| 精品国产乱码久久久久久软件大全| 性一交一乱一乱一视频| 中文字幕亚洲无线码一区女同| 国产精品亚洲一区二区无码| 亚洲精品不卡无码福利在线观看| av无码动漫一区二区三区精品| 秋霞电影网午夜鲁丝片无码| 国产亚洲精品第一综合麻豆| 制服丝袜人妻有码无码中文字幕| 天堂v亚洲国产ⅴ第一次| 国产精品户外野外| 天堂网www中文在线| 蕾丝av无码专区在线观看| 亚洲精品久久久久成人2007| 色 亚洲 日韩 国产 综合| 亚洲熟妇无码乱子av电影| 欧美超大胆裸体xx视频| 国产成人aaa在线视频免费观看| 久久天堂av综合合色蜜桃网| 人妻夜夜爽天天爽一区|