Auto Byte

Science AI

# 驰骋股市！手把手教你如何用Python和数据科学赚钱？

#### 定义和假设

Quantopian定义：

Apple苹果（AAPL）是一支很好的股票，因为目前为止（2018年9月）它已经是世界上价值最高的公司，不仅拥有相对稳定的股票价格，而且拥有足够多与品牌相关的体量、新闻和人气。

#### 环境搭建

```# create conda py35 since that's the newest version that works
conda create -n py35 python=3.5

conda install -c quantopian/label/ci -c quantopian zipline```

```import pandas as pd
import numpy as np
import patsy

pd.core.common.is_list_like = pd.api.types.is_list_like
from pandas_datareader import data
import quandl
quandl.ApiConfig.api_key = "##############"```

`df = quandl.get("WIKI/" + 'AAPL', start_date="2014-01-01")`

```len(df)
df['Split Ratio'].value_counts()
df[df['Split Ratio'] == 7.0]```

```aapl_split = quandl.get("WIKI/" + 'AAPL', start_date="2014-06-10")

```f500 = pd.read_csv('https://raw.githubusercontent.com/datasets/s-and-p-500-companies/master/data/constituents.csv')

tickers = f500.Symbol.tolist()```

```# run ADF to determine unit root
import statsmodels.tsa.stattools as ts

print('Augmented Dickey Fuller:')

Augmented Dickey Fuller:
Test Statistic = -0.731194982176
p-value = 0.838503045276
Critical Values = {‘1%’: -3.4372231474483499, ‘5%’: -2.8645743628401763, ‘10%’: -2.5683856650361054}```

Apple被认为是一个巨头技术品牌。假如我们能够计算与其他股票的强相关性会怎么样？

• 微软Microsoft (MSFT)

• 因特尔Intel (INTC)

• 蒂芙尼Tiffany & Co. (TIF)

```import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

MSFT = quandl.get("WIKI/" + 'MSFT', start_date="2014-06-10")
INTC = quandl.get("WIKI/" + 'INTC', start_date="2014-06-10")
TIF = quandl.get("WIKI/" + 'TIF', start_date="2014-06-10")```

`sns.jointplot(INTC.Close, aapl_split.Close, kind="reg");`

Intel vs. Apple

`np.corrcoef(INTC.Close, aapl_split.Close)`

```# seven day lead
np.corrcoef(INTC.Close[:-7], aapl_split.Close[7:])```

```# Google Trends

aapl_trends.tail()```

API链接：

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.resample.html

`aapl_split_week = aapl_split.resample('W', convention='end').last()`

```# trend and price corr
np.corrcoef(aapl_trends['Apple: (Worldwide)'], aapl_split_week.Close)```

#### 结语

• 你使用什么包和技术？

• 那些可视化工具有助于了解股票价格的变动？

• 你认为哪些因素会最大化模型预测效果？

https://towardsdatascience.com/on-making-money-with-python-and-data-science-1-setup-and-statistics-1d69f1a68661?from=singlemessage&isappinstalled=0

http://www.intel.cn/

F检验技术

F检验（F-test），最常用的别名叫做联合假设检验（英语：joint hypotheses test），此外也称方差比率检验、方差齐性检验。它是一种在零假设（null hypothesis, H0）之下，统计值服从F-分布的检验。其通常是用来分析用了超过一个参数的统计模型，以判断该模型中的全部或一部分参数是否适合用来估计母体。 F检验这名称是由美国数学家兼统计学家George W. Snedecor命名，为了纪念英国统计学家兼生物学家罗纳德·费雪（Ronald Aylmer Fisher）。Fisher在1920年代发明了这个检验和F分配，最初叫做方差比率（英语：Variance Ratio）