📊 量化金融

因子投资、统计套利、时间序列预测与机器学习策略

1. 量化投资概述

量化金融是将数学模型、统计方法和计算机技术应用于金融市场分析与交易决策的学科。其核心理念是通过系统化、规则化的方法消除人为情绪干扰，在大量数据中发现可重复的收益模式。

2. 因子投资（Factor Investing）

因子投资是量化金融的核心方法论，通过识别驱动资产收益的系统性因素来构建投资组合。

2.1 经典因子

价值（Value）：买入低估值（高B/P、高E/P）股票，卖出高估值股票。理论基础：均值回归或风险补偿
动量（Momentum）：买入过去6-12个月涨幅最大的股票，卖出跌幅最大的。理论基础：行为偏差导致信息缓慢反映
质量（Quality）：买入高ROE、低杠杆、盈利稳定的公司。2026年高利率环境下表现突出
低波动（Low Volatility）：低Beta股票风险调整收益优于高Beta股票
规模（Size）：小市值溢价，但近年来在美股中效果减弱

2.2 因子构建流程

因子定义：选择指标（如B/P、12个月收益率、ROE等）
股票排序：按因子值从高到低排列全市场股票
组合构建：做多Top分位，做空Bottom分位（多空组合）
中性化处理：控制行业、市值等混淆因素
回测验证：样本内外测试、换手率分析、衰减检验

3. 统计套利（Statistical Arbitrage）

统计套利利用资产间的统计关系偏离均衡时进行交易，核心假设是价格偏离会回归。

3.1 配对交易（Pairs Trading）

找到历史上高度相关的两只股票（如同行业竞争对手）
计算价差（spread）的均值和标准差
当价差偏离超过2σ时，做多被低估的、做空被高估的
等待价差回归均值时平仓获利

3.2 协整模型

比简单相关性更稳健的方法。两个价格序列如果存在协整关系，则它们的线性组合是平稳的：

y_t = α + β·x_t + ε_t，其中 ε_t ~ I(0)

4. 时间序列预测

4.1 经典模型

ARIMA：自回归积分滑动平均模型，捕捉线性时间依赖
GARCH：广义自回归条件异方差模型，建模波动率聚集现象
VAR：向量自回归，多变量间的动态关系

4.2 机器学习方法

随机森林/GBDT：非线性因子组合，处理因子间交互效应
LSTM/Transformer：序列建模，捕捉长期依赖关系
强化学习：动态组合管理，自适应市场环境变化

最新研究（2026）表明，梯度提升模型在因子收益预测中R²可达0.89，显著优于线性模型（R²≈0.64），但需警惕过拟合和样本外衰减。

5. 风险管理与回测

5.1 回测陷阱

前视偏差（Look-ahead Bias）：使用了未来才能获得的信息
幸存者偏差：只包含存活至今的股票
过拟合：参数过多导致样本内表现优异但样本外失效
交易成本忽略：高换手策略的实际收益远低于回测

5.2 风险度量

VaR（Value at Risk）：给定置信水平下的最大损失
CVaR/ES（Expected Shortfall）：超过VaR后的平均损失，更好地捕捉尾部风险
最大回撤：从峰值到谷值的最大跌幅
Sharpe Ratio：超额收益/波动率，衡量风险调整收益

6. 量化策略开发流程

7. 推荐学习路径

统计学与概率论基础（假设检验、回归分析、时间序列）
金融学理论（资产定价、组合理论、市场微观结构）
编程能力（Python: pandas, numpy, scikit-learn, backtrader）
因子研究实践（复现经典因子、构建多因子模型）
实盘交易系统（执行算法、风控系统、监控报警）