快速开始

 

快速开始

安装完成后,执行以下程序:

from auto_regex.generator import generate
regex_name = 'id_card'
train_data_file = 'tests/data/ID_CARD.csv'  # 本项目下tests目录中的数据文件

result = generate(regex_name, train_data_file, init_population_size=500, max_iterations=100)
print(result)

会输出多个正则表达式及其在示例数据上的评估指标,供选择使用:

name: id_card, pattern: \d{6,6}19\d{9,9}\w|\d{6,6}20\d{9,9}\w, precision: 1.0, recall: 1.0
name: id_card, pattern: \d\d\d\d\d\d19\d\d\d\d\d\d\d\d\d\w, precision: 1.0, recall: 0.6144
name: id_card, pattern: \d{6,6}20\d{9,9}\w, precision: 1.0, recall: 0.3856

train_data_file文件中有两列,第一列列名为’positive’,表示正样本,第二列列名为’negative’,表示负样本。对于身份证号码类型,正样本为身份证号码,负样本为非身份证号码数据,如电话号码。