给Pandas找个搭子,用SQL玩转Dataframe!
对有一定SQL基础的人来说,pandas中的查询会有点繁琐。
在这篇文章,我们将给Pandas找个搭子,在用SQL方便的地方,我们用SQL;在用原生查询方便的地方,我们就用原生查询。
这个搭子会是谁呢?
对有一定SQL基础的人来说,pandas中的查询会有点繁琐。
在这篇文章,我们将给Pandas找个搭子,在用SQL方便的地方,我们用SQL;在用原生查询方便的地方,我们就用原生查询。
这个搭子会是谁呢?
笔记左数效应、整数关口与光折射中引用了南加州大学Lawrence Harris的一篇论文中,哈理斯研究了交易价格的聚类效应。聚类效应对我们确定压力位、完善下单算法都有一定的影响。
但是,2001年,美股变更交易制度,由分数制切换为十进制。这个变化就导致了他的研究结论作废。
问:常常看到有人说Alpha seeking,这究竟是什么意思?
自己回答不如推荐一本书:《Finding Alphas: A Quantitative Approach to Building Trading Strategies》,它的题目正好就是寻找Alpha。我拿到的PDF是2019年的第二版。来自WorldQuant(世坤)的Igor Tulchinshky等人,Igor Tulchinshky是世坤的创始人。
常常有人问,新的因子/策略从哪里来?今天的笔记或许能启发你的思路。
从1932年起,研究人员就注意到以9结尾的价格(比如$3.99),在消费者的认知中,要远远小于邻近的整数价格($4.00)。后来这一效应被称为 left-digit effect。在证券交易中,类似的情况一样存在,不过它的表现形式是整数关口压力。
作为量化人,我们敏锐地观察市场,不放过任何一个可能产生利润的机会。一旦发现这样的机会,我们决不会在乎其它人怎么看怎么想,书上有没有这么讲。但是,大胆假设,小心求证。
今天带来的因子,挺魔幻的,我把它叫做魔性汉字。如果你难以接受这种无底线的炒作,那么,我们换一个名字:另类因子。
即使是Quant Research, 写一手高质量的代码也是非常重要的。再好的思路,如果不能正确地实现,都是没有意义的。只有正确实现了、通过回测检验过了,才能算是真正做出来了策略。
写一手高质量的代码的意义,对Quant developer来讲就更是自不待言了。这篇notebook笔记就介绍一些python best practice。
前面几篇笔记我们讨论了存储海量行情数据的个人技术方案。它们之所以被称之为个人方案,并不是因为性能弱,而是指在这些方案中,数据都存储在本地,也只适合单机查询。
数据源很贵 -- 在这个冬天,我们已经听说,某些上了规模的机构,也在让员工共享万得账号了。所以,共享网络存储,从而只需要一个数据账号,就成为合理的需求。更不必说,集中管理才可能让 IT 来进行数据维护,而分析师只需要专注于策略就好。
看了十几家私募路演报告,总结出2023年最有效的策略!
因子挖掘还是以手工为主,最有效的因子(策略)仍然是技术类的趋势+反转,无论是CTA还是量化多头都是如此。模型构成基本上都是机器学习。其中树模型比神经网络占比更大一些,有的机构中使用率高达90%。
我们常常通过Jupyter Notebook来分享代码和演示分析结果。有时候,我们需要在代码中使用账号和密码,如果它们也被分享出去,可就大不妙了。正确的做法是把密码设置在环境变量中,在代码中读取环境变量。但是,Jupyter Notebook默认设置下,并不能读取到主机的环境变量。
在前面的笔记中,无论是回报分析,还是因子Alpha,它们都受到交易成本的影响。信息分析 (Information Analysis)则是一种不受这种影响的评估方法,主要研究方法就是信息系数(Information Coefficient)。