第六章：速记Day6-灵析社区

问题 1：降维的方法

缺失值比率（Missing Value Ratio）
低方差滤波（Low Variance Filter）
高相关滤波（High Correlation filter）
随机森林（Random Forest）
反向特征消除（Backward Feature Elimination）
前向特征选择（Forward Feature Selection）
因子分析（Factor Analysis）
主成分分析（PCA）

9. 独立分量分析（ICA）

10. 局部线性嵌入（LLE）

11. IOSMAP

12. t-SNE

13. UMAP

14. Autoencoder

15. Lap lacian Eigenmap

问题 2：xgb 和 gbdt 的区别

（1）xgb和gbdt效果上的区别：

xgb在精度上要比gbdt好
xgb在效率上比gbdt好，因为xgb使用了二阶导数。

（2）xgb和gbdt在处理缺失值时的区别：

gbdt是使用其它值对缺失值进行预估，而xgb是先忽略掉这些缺失值。
xgboost工具支持在特征粒度上并行，大大减小计算量，各个特征的增益计算就可以开多线程进行。xgboost还提出了一种可并行的近似直方图算法，用于高效地生成候选的分割点。因此xgb计算速度更快。

问题 3：虚函数和纯虚函数区别

虚函数和纯虚函数可以出现在同一个类中，该类称为抽象基类（含有纯虚函数的类称为抽象基类）。
使用方式不同：虚函数可以直接使用，纯虚函数必须在派生类中实现后才能使用；
定义形式不同：虚函数在定义时在普通函数的基础上加上 virtual 关键字，纯虚函数定义时除了加上 virtual 关键字还需要加上 =0;
虚函数必须实现，否则编译器会报错；
对于实现纯虚函数的派生类，该纯虚函数在派生类中被称为虚函数，虚函数和纯虚函数都可以在派生类中重写；
析构函数最好定义为虚函数，特别是对于含有继承关系的类；析构函数可以定义为纯虚函数，此时，其所在的类为抽象基类，不能创建实例化对象。

问题 4：什么叫最小二乘法

最小二乘法（又称最小平方法）是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。

利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。

问题 5：Adam 的优势

Adam 优化算法应用在非凸优化问题中所获得的优势：

直截了当地实现
高效的计算
所需内存少
梯度对角缩放的不变性（第二部分将给予证明）
适合解决含大规模数据和参数的优化问题
适用于非稳态（non-stationary）目标
适用于解决包含很高噪声或稀疏梯度的问题
超参数可以很直观地解释，并且基本上只需极少量的调参

问题 6：GMM 与 Kmeans 算法的比较

(1) kmeans 主要针对圆形或球形样本进行聚类，对于椭圆数据处理效果不佳，而 GMM 可以解决这个问题。

(2) kmeans 对于不均衡的样本类别聚类效果不佳，而 GMM 计算过程则考虑了各类别权重。

(3) kmeans 是判别模型，直接对样本空间中寻找最有面进行划分，可解释性不强。GMM 是生成模型，从样本本身分布出发，计算联合概率分布，以求得分类结果，可解释性比 kmeans 强。

(4) kmeans 是硬分类，结果属于0-1；而 GMM 是软分类，分类结果是一个概率分布。

问题 7：怎么理解神经网络

神经网络学习又称为神经元的基本处理单元互连而成的平行工作的复杂网络系统，简称神经网络。当已知训练样本的数据加到网络输入端时，网络的学习机制一遍又一遍地调整各神经元的权值，使其输出端达到预定的目标。

这就是训练（学习、记忆）过程。

神经网络原理及应用：

1. 什么是神经网络？

神经网络是一种模拟动物神经网络行为特征，进行分布式并行信息处理的算法。

这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

2. 神经网络基础知识构成：大量简单的基础元件——神经元相互连接

工作原理：模拟生物的神经处理信息的方式

功能：进行信息的并行处理和

非线性转化特点：比较轻松地实现非线性映射过程，具有大规模的计算能力

神经网络的本质：神经网络的本质就是利用计算机语言模拟人类大脑做决定的过程。

3. 生物神经元结构

4. 神经元结构模型 xj 为输入信号，θi 为阈值，wij 表示与神经元连接的权值，yi 表示输出值判断 xjwij 是否大于阈值 θi

5. 什么是阈值？

临界值。神经网络是模仿大脑的神经元，当外界刺激达到一定的阈值时，神经元才会受刺激，影响下一个神经元。

6. 几种代表性的网络模型单层前向神经网络——线性网络阶跃网络多层前向神经网络（反推学习规则即BP神经网络）Elman网络、Hopfield网络、双向联想记忆网络、自组织竞争网络等等.

7. 神经网络能干什么/应用？

运用这些网络模型可实现函数逼近、数据聚类、模式分类、优化计算等功能。因此，神经网络广泛应用于人工智能、自动控制、机器人、统计学等领域的信息处理中。

虽然神经网络的应用很广，但是在具体的使用过程中到底应当选择哪种网络结构比较合适是值得考虑的。这就需要我们对各种神经网络结构有一个较全面的认识。

问题 8：PCA 是如何实现的

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

定义一个均值函数。

#计算均值,要求输入数据为numpy的矩阵格式，行表示样本数，列表示特征    
def meanX(dataX):
    return np.mean(dataX,axis=0)#axis=0表示依照列来求均值。假设输入list,则axis=1

开始实现 pca 的函数：

def pca(XMat, k):
    """
    XMat：传入的是一个numpy的矩阵格式，行表示样本数，列表示特征    
    k：表示取前k个特征值相应的特征向量
    finalData：指的是返回的低维矩阵
    reconData：相应的是移动坐标轴后的矩阵
    """
    average = meanX(XMat) 
    m, n = np.shape(XMat)
    data_adjust = []
    avgs = np.tile(average, (m, 1))
    data_adjust = XMat - avgs
    covX = np.cov(data_adjust.T)   #计算协方差矩阵
    featValue, featVec=  np.linalg.eig(covX)  #求解协方差矩阵的特征值和特征向量
    index = np.argsort(-featValue) #依照featValue进行从大到小排序
    finalData = []
    if k > n:
        print("k must lower than feature number")
        return
    else:
        #注意特征向量时列向量。而numpy的二维矩阵(数组)a[m][n]中，a[1]表示第1行值
        selectVec = np.matrix(featVec.T[index[:k]]) #所以这里须要进行转置
        finalData = data_adjust * selectVec.T 
        reconData = (finalData * selectVec) + average  
    return finalData, reconData

问题 9：远程 copy 文件用什么命令

1.将远程的某个目录设置为共享转载见

2.通过命令行

@echo off
net use \\192.168.1.2\ipc$ password /user:Administrator
rem 复制单个文件  (可以执行其他诸如del等的命令)
copy D:\setup.bat \\192.168.1.2\temp
rem 复制文件夹 /s 复制非空的目录和子目录。如果省略 /s,xcopy 将在一个目录中工作。 /e 复制所有子目录，包括空目录。同时使用 /e、/s 和 /t 命令行选项。 
rem XCOPY D:\TEMP \\192.168.1.2\temp/E 
net use \\192.168.1.2\ipc$ /delete 
pause

问题 10：Linux 里面查看文件有哪些命令

Linux 查看日志文件内容命令有:

cat 由第一行开始显示文件内容
tac 从最后一行开始显示，可以看出 tac 是 cat 的倒着写
nl 显示的时候，顺道输出行号！
more 一页一页的显示文件内容
less 与 more 类似，但是比 more 更好的是，他可以往前翻页！
head 只看头几行
tail 只看尾巴几行

你可以使用 man [命令]来查看各个命令的使用文档，如：man cp。