Skip to content

大佬们原始网页的数据清洗是否会发布? #2

@wqcabjkcuh

Description

@wqcabjkcuh

common Crawl 中包含的网页数据里脏数据很多,需要进行细致的过滤才能获得纯净的中文文本。大佬我看您给出的技术文档里面说明了几种处理手段,但是较为笼统。不知道之后数据清洗的代码是否能开源呀。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions