auto_regex.generator.generate(regex_name, train_data_file, init_population_size=1000, max_iterations=2000, precision_divide_conquer=0.8, iteration_divide_conquer=10, noise_positive_sample_ratio=0.05, population_size_decay_rate=0.95, min_population_size=200)
生成正则表达式
Parameters
- regex_name – 生成的正则表达式的名称
- train_data_file – 用于生成正则表达式的训练数据,有两列,列名分别为”positive”和”negative”,表示正、负样本
- init_population_size – 初始正则表达式种群大小
- max_iterations – 最大迭代次数
- precision_divide_conquer – 子正则表达式的最小精确率阈值
- iteration_divide_conquer – 子正则表达式的最小迭代次数阈值
- noise_positive_sample_ratio – 噪声正样本比例,即允许生成的正则表达式无法匹配少量噪声正样本
- population_size_decay_rate – 正则表达式种群大小衰减参数
- min_population_size – 最小正则表达式种群大小,达到该大小后不再衰减
Returns
生成的正则表达式结果字典, 形式为{“regex_name”: str, “regex_pattern”: str}。
上篇快速开始