資料內(nèi)容:
特征工程與特征選擇
機(jī)器學(xué)習(xí)處理流程
問題建模->數(shù)據(jù)探索->特征工程->模型訓(xùn)練->模型融合
特征工程
特征工程是對(duì)原始數(shù)據(jù)進(jìn)行一系列的處理,旨在去除原始數(shù)據(jù)中雜質(zhì)和冗余,設(shè)計(jì)更加高效的特
征以刻畫求解的問題與預(yù)測(cè)模型之間的關(guān)系。
常用數(shù)據(jù)類型:
1)結(jié)構(gòu)化數(shù)據(jù):可看作數(shù)據(jù)庫中一張表,每列有明確定義,包含數(shù)值型和類別型兩種
2)非結(jié)構(gòu)化數(shù)據(jù):包含文本,圖像,音頻等,其包含信息無法用一個(gè)簡單數(shù)值表示。
1. 數(shù)值型特征
特征歸一化(normalization)是在數(shù)值類型的特征上做的,為了消除數(shù)據(jù)特征之間的量綱影
響,需要對(duì)特征進(jìn)行歸一化處理,使得各指標(biāo)處于同一數(shù)量級(jí),讓他們之間具有可比性。在
實(shí)際應(yīng)用中,通過梯度下降法求解的模型通常需要?dú)w一化。之所以要?dú)w一化是因?yàn)樵诟聟?
數(shù)是,不同特征的范圍不同,參數(shù)更新速度也會(huì)不同,歸一化后會(huì)更加容易找到最優(yōu)解。
a. 線性函數(shù)歸一化(Max-Min Scaling)。對(duì)原始數(shù)據(jù)進(jìn)行線性變化,使結(jié)果映射到[0,1]的范
圍,實(shí)現(xiàn)對(duì)原始數(shù)據(jù)的等比縮放。