離語_第348章往前(1)

作者：semaphore·7個月前

節點與網路中其他節點的互都是過其鄰居節點來進行的，因此節點的鄰居越多，意味著該節點能夠向外傳遞的資訊越多，從網路外部接資訊也越容易。有向網路中，又可以定義出度中心度、度中心度。

社群發現是據網路中的邊的連線模式，把網路頂點劃分為群組。將網路頂點劃分為群組後最常見的屬是，同一群組部的頂點之間連接，而不同群組之間只有數邊連線。社團發現的目的是就要找到網路部不同群組之間的自然分割線。簡而言之，它是一個把網路自然劃分為頂點群組的問題，從而使得群組有許多邊，而群組之間幾乎沒有邊。然而，“許多”和“幾乎沒有”到底是多，這個問題值得商榷，為此提出了多種不同的定義，從而產生了不同的社團發現演算法8基於層次聚類的演算法。

第一階段：稱為dularity Optization，主要是將每個節點劃分到與其鄰接的節點所在的社群中，以使得模組度的值不斷變大；第二階段：稱為Counity Aggregation，主要是將第一步劃分出來的社群聚合為一個點，即據上一步生的社區結構重新構造網路。重複以上的過程，直到網路中的結構不再改變為止。步驟：1.初始化，將每個點劃分在不同的社群中； 2.對每個節點，將每個點嘗試劃分到與其鄰接的點所在的社群中，計算此時的模組度，判斷劃分前後的模組度的差值ΔQ是否為正數，若為正數，則接本次的劃分，若不為正數，則放棄本次的劃分； 3.重複以上的過程，直到不能再增大模組度為止； 4.構造新圖，新圖中的每個點代表的是步驟3中劃出來的每個社群，繼續執行步驟2和步驟3，直到社群的結構不再改變為止。！在2中計算節點的順序對模組度的計算是沒有影響的，而是對計算時間有影響。

資料缺失的原因資料採集過程可能會造資料缺失；資料過網路等渠道進行傳輸時也可能出現數據丟失或出錯，從而造資料缺失；在資料整合過程中也可能引缺失值刪除法刪除法過刪除包含缺失值的資料，來得到一個完整的資料子集. 資料的刪除既可以從樣本的角度進行，也可以從特徵的角度進行。刪除特徵：當某個特徵缺失值較多，且該特徵對資料分析的目標影響不大時，可以將該特徵刪除刪除樣本：刪除存在資料缺失的樣本。該方法適合某些樣本有多個特徵存在缺失值，且存在缺失值的樣本佔整個資料集樣本數量的比例不高的形缺點：它以減資料來換取資訊的完整，丟失了大量藏在這些被刪除資料中的資訊；在一些實際場景下資料的採集本高且缺失值無法避免，刪除法可能會造大量的資源浪費均值填補計算該特徵中非缺失值的平均值（數值型特徵）或眾數（非數值型特徵），然後使用平均值或眾數來代替缺失值缺點一：均值填補法會使得資料過分集中在平均值或眾數上，導致特徵的方差被低估缺點二：由於完全忽略特徵之間的相關，均值填補法會大大弱化特徵之間的相關隨機填補隨機填補是在均值填補的基礎上加上隨機項，過增加缺失值的隨機來改善缺失值分佈過於集中的缺陷。

等距離散化（Equal-Width Discretization）：將資料劃分為等寬間隔的區間，這種方法需要先確定區間的個數n，再據最小值n和最大值x計算出每個區間的間隔長度（x-n）/n，相鄰兩個區間的寬度都是相同的。等頻率離散化（Equal-Frequency Discretization）：將資料劃分為相同的數量級別，每個區間包含的記錄數相等。這種方法首先將資料按照大小排序，然後將排序後的資料分n等份，每份個數為資料總數/n，在每個區間的邊界劃分資料。基於聚類的離散化：將資料分若干個簇，簇的資料相似度高，簇間資料相似度低。實現時可以使用聚類演算法如k-ans、DBSCAN等。自適應離散化：過迭代的方式，不斷據資料的特調整區間的邊界，以達到最優的離散化效果。下面分別以等距離散化、等頻率離散化、基於聚類的離散化和自適應離散化為例子，分別列出的例題：等距離散化假設我們有一個包含1000個學生高資料的資料集，我們想將高離散化10個等寬的區間，以下是離散化方法：計算高的最小值和最大值，假設最小值為140c最大值為200c計算每個區間的寬度，假設共10個區間，每個區間的寬度為(200-140)/10 = 6c據每個學生的高，將其分相應的區間。等頻率離散化假設我們有一個包含200家公司的財務資料的資料集，我們想將每個公司的營業收離散化5個等頻率的區間，以下是離散化方法：將所有公司的營業收升序排序。計算每個區間的資料數量，在本例中，因為共有200個公司，所以每個區間包含40個公司。找到每個區間的邊界，比如第一個區間的最小值和第二個區間的最大值，這兩個值之間的所有公司的營業收都屬於第一個區間。