论文部分内容阅读
Python作为一种面向对象的动态类型语言,因其语法简单、有一组功能完备的标准库,且能轻松完成很多常见任务,而被越来越广泛地使用。但是,由于采用动态类型系统,Python虚拟机在程序运行时才会进行类型检查,在编译时不会检查对象是否拥有被调用的方法或属性,这就导致Python无法在编译时进行类型错误检查,也无法提供显式的类型信息以及当前变量拥有的属性和方法。为了解决上述问题,本文提出并实现了针对Python程序的静态类型分析方法,并将其应用于程序的编译时类型错误检查。该方法是一套完整的解决方案,包括定义完备的类型标注系统,将类型信息进行抽象和封装,并将类型组织起来;对源程序进行预处理,转换为中间形式;对预处理后的程序进行类型注释,并对内置模块、类、方法等进行模拟和注释;采用基于约束图的类型推导算法,将程序规约到标注系统中,从而得到程序中每个变量的类型信息。使用这些类型信息,可以对程序进行类型错误检查,并集成于IDE中辅助程序开发,本文通过案例说明了如何进行类型错误检查。本文选取了标准库和Github上的开源程序作为实验对象,统计了本文方法的时间开销,以及变量类型集合的分布、注释率、召回率和准确率等信息,验证了本文方法的有效性。本文主要包括以下工作:第一,通过对源程序进行预处理构建底层框架。将Python中复杂的语法元素转换为简单形式,同时将复杂的语句转换为一组等价的简单语句,将程序中变量、控制结构等程序信息保存在特定数据结构中,并为上层的分析工作提供接口。第二,构建了完备的类型标注系统,类型标注系统抽象并封装了类型信息、类型间的关系以及类型支持的操作,通过类型注释与类型推导将Python源程序规约到此类型标注系统中。第三,通过类型注释和类型推导,获取类型信息,并对内置模块、类、函数等进行模拟和注释。在类、函数等定义时进行类型注释,同时Python解释器中集成了大量使用C语言实现的内置模块、类、函数等,在Python程序中可以引用这些内置模块和函数,但无法分析其类型信息,所以本文使用Python模拟了这些内置模块的实现,并对其进行类型注释。采用基于约束图的类型推导算法,迭代扫描程序的每条语句,构造变量间的类型约束图,在变量类型集合变化时通过约束图传播,推导出变量的类型集合。第四,进行编译时的静态类型错误检查;同时提供给开发人员程序中每个变量的属性、方法,辅助开发。本文采用基于约束的类型错误检查算法,通过定义约束、使用自动化算法生成约束、应用错误检查算法,检测表达式匹配错误、函数调用错误、可用属性错误等类型错误。