1. 量化投资概述
量化金融是将数学模型、统计方法和计算机技术应用于金融市场分析与交易决策的学科。其核心理念是通过系统化、规则化的方法消除人为情绪干扰,在大量数据中发现可重复的收益模式。
2. 因子投资(Factor Investing)
因子投资是量化金融的核心方法论,通过识别驱动资产收益的系统性因素来构建投资组合。
2.1 经典因子
- 价值(Value):买入低估值(高B/P、高E/P)股票,卖出高估值股票。理论基础:均值回归或风险补偿
- 动量(Momentum):买入过去6-12个月涨幅最大的股票,卖出跌幅最大的。理论基础:行为偏差导致信息缓慢反映
- 质量(Quality):买入高ROE、低杠杆、盈利稳定的公司。2026年高利率环境下表现突出
- 低波动(Low Volatility):低Beta股票风险调整收益优于高Beta股票
- 规模(Size):小市值溢价,但近年来在美股中效果减弱
2.2 因子构建流程
- 因子定义:选择指标(如B/P、12个月收益率、ROE等)
- 股票排序:按因子值从高到低排列全市场股票
- 组合构建:做多Top分位,做空Bottom分位(多空组合)
- 中性化处理:控制行业、市值等混淆因素
- 回测验证:样本内外测试、换手率分析、衰减检验
3. 统计套利(Statistical Arbitrage)
统计套利利用资产间的统计关系偏离均衡时进行交易,核心假设是价格偏离会回归。
3.1 配对交易(Pairs Trading)
- 找到历史上高度相关的两只股票(如同行业竞争对手)
- 计算价差(spread)的均值和标准差
- 当价差偏离超过2σ时,做多被低估的、做空被高估的
- 等待价差回归均值时平仓获利
3.2 协整模型
比简单相关性更稳健的方法。两个价格序列如果存在协整关系,则它们的线性组合是平稳的:
y_t = α + β·x_t + ε_t,其中 ε_t ~ I(0)
4. 时间序列预测
4.1 经典模型
- ARIMA:自回归积分滑动平均模型,捕捉线性时间依赖
- GARCH:广义自回归条件异方差模型,建模波动率聚集现象
- VAR:向量自回归,多变量间的动态关系
4.2 机器学习方法
- 随机森林/GBDT:非线性因子组合,处理因子间交互效应
- LSTM/Transformer:序列建模,捕捉长期依赖关系
- 强化学习:动态组合管理,自适应市场环境变化
最新研究(2026)表明,梯度提升模型在因子收益预测中R²可达0.89,显著优于线性模型(R²≈0.64),但需警惕过拟合和样本外衰减。
5. 风险管理与回测
5.1 回测陷阱
- 前视偏差(Look-ahead Bias):使用了未来才能获得的信息
- 幸存者偏差:只包含存活至今的股票
- 过拟合:参数过多导致样本内表现优异但样本外失效
- 交易成本忽略:高换手策略的实际收益远低于回测
5.2 风险度量
- VaR(Value at Risk):给定置信水平下的最大损失
- CVaR/ES(Expected Shortfall):超过VaR后的平均损失,更好地捕捉尾部风险
- 最大回撤:从峰值到谷值的最大跌幅
- Sharpe Ratio:超额收益/波动率,衡量风险调整收益
6. 量化策略开发流程
7. 推荐学习路径
- 统计学与概率论基础(假设检验、回归分析、时间序列)
- 金融学理论(资产定价、组合理论、市场微观结构)
- 编程能力(Python: pandas, numpy, scikit-learn, backtrader)
- 因子研究实践(复现经典因子、构建多因子模型)
- 实盘交易系统(执行算法、风控系统、监控报警)