자동 텍스트 요약 -Lincoln, 자동 요약 소개 – 데이터 블로그

데이터, 인공 지능 및 내 프로젝트에 대한 블로그

자동 요약은 긴 텍스트 또는 일련의 텍스트를 취하고 대부분의 정보를 포함하는 훨씬 짧은 텍스트를 자동으로 생성하는 것입니다. 단순한 ? 그다지 많지 않습니다. 첫째, 어떤 정보가 정말로 중요한지 동의해야합니다. 그런 다음, 우리는 그것들을 올바르게 추출하고, 모든 문법적 텍스트로 그리고 인간의 개입없이 재구성 할 수 있어야합니다. 그리고 그것은 가능한 요약의 많은 변형에 의존하지 않습니다 !

자동 텍스트 요약

텍스처 수집 및 저장의 폭발 로이 질량에서 관련 정보를 분석하고 추출해야 할 필요성은 점점 더 존재합니다.

또한 자동 자연 언어 처리 (TALN)를위한 딥 러닝 모델의 호황은 운영 문제에서 텍스트 데이터의 사용을 촉진했습니다. 자동 텍스트 요약은 답변 질문, 유사성 분석, 문서 분류 및 TALN에 연결된 기타 작업과 같은 방식으로 이러한 문제의 일부입니다.

이 맥락에서 실험실 혁신 De Lincoln은 자동 텍스트 요약 작업을 수행하기로 결정했습니다. 이 작품들은 언어에 사용할 수있는 자동 요약 모델의 벤치 마크를 설정할 수있게 해주었습니다 프랑스 국민, 우리 자신의 모델을 일으키고 결국 생산에 넣으려면.

�� 모델 교육

세계 자동 요약

데이터

작업을 시작하기 전에 먼저 자동 요약 모델 학습을위한 데이터베이스를 구축해야했습니다. 우리는 여러 프랑스 뉴스 사이트에서 프레스 아이템을 회수했습니다. 이 기지에는 ~ 60k 기사가 포함되어 있으며 지속적으로 업데이트됩니다.

최신 예술

자동 요약 알고리즘은 두 가지 범주로 분리 할 수 ​​있습니다. 요약 추출물 그리고 요약 추상적. 프레임에서 추출물, 요약은 텍스트에서 추출한 문장에서 구축되며 요약은 추상적 새로운 문장에서 생성됩니다.

자동 요약 모델은 영어로는 매우 일반적이지만 프랑스어로는 훨씬 적습니다.

메트릭

모델 평가를 위해 다음과 같은 메트릭을 사용했습니다

빨간색 : 의심 할 여지없이 요약 작업에서 가장 자주보고 된 측정은 요약 평가를위한 리콜 지향 학부 (Lin, 2004)는 평가 된 요약과 인간 참조 요약 사이의 유사한 N- 그램의 수를 계산합니다.

유성: 명시 적 순서로 번역 평가를위한 메트릭 (Banerjee and Lavie, 2005) 자동 번역 결과 평가를 위해 설계되었습니다. 그것은 정밀도의 고조파 평균 및 단일 램에 대한 리콜을 기반으로하며, 리콜은 정밀보다 큰 가중치를 가졌습니다. Meteor는 종종 자동 요약 간행물에 사용됩니다 (et al., 2017; Dong et al., 2019), 빨간색 외에.

진기함: 일부 추상 모델은 추출시 너무 많이 놓여 있음을 알게되었습니다 (et al., 2017; Krysci ‘Nski et al.‘, 2018). 따라서 생성 된 요약 내에서 생성 된 새로운 N- 그램의 백분율을 측정하는 것이 일반적이되었습니다.

출처 : MLSUM 용지의 번역 [2].

모델의 배포

모델 교육을 위해 모델의 교육, 모니터링 및 배포를위한 완벽한 환경을 제공하는 Cloud Azure ML 서비스를 사용했습니다.

자동 요약 모델

우리는 Python SDK를보다 정확하게 사용하여 “작업”의 출시부터 모델 배포에 이르기까지 프로그래밍 방식으로 전체 Azureml 환경을 관리 할 수 ​​있습니다.

그러나 컨테이너화 된 플라스크 애플리케이션에서 최종 모델을 캡슐화 한 다음 Kubernetes 클러스터의 CI/CD 파이프 라인을 통해 배포했습니다

결과

우선, 우리는 여러 번 시도하여 10K 기사의 모델을 이끌고 모델 시작시 (512 또는 1024)와 다른 아키텍처의 수를 변경했습니다.

첫 번째 관찰 : 빨간색 및 유성 측정 항목은 모델의 성능 평가에 적합하지 않습니다. 그러므로 우리는 참신 점수에만 비교하여 선택된 비교를 선택했습니다 건축학 더 추상적 인 요약을 선호합니다.

700K 항목에 대한 모델 교육을 추진 한 후 결과를 크게 개선하고 아래에서 찾을 수있는 첫 번째 버전을 검증했습니다.

주의점

성능을 넘어서이 실험은 우리가 일부를 강조 할 수있게 해주었습니다 경계 자동 요약 :

현재 유형 모델의 입력에서 텍스트의 크기 변환 GPU의 메모리 용량에 의해 제한됩니다. 메모리 비용은 입력으로 텍스트 크기로 2 차이기 때문에 요약 할 텍스트가 종종 충분히 길어지는 자동 요약 작업에 대한 실제 문제가됩니다.

텍스트 생성 작업을 평가하기 위해 관련 메트릭을 찾는 것은 매우 어렵습니다.

조심하세요 추출기의 무게 : 우리는 또한 데이터 자체와 관련된 몇 가지 문제가 발생했습니다. 주요 문제는 기사의 기사가 종종 기사의 첫 번째 문장의 역할 또는 복제본이라는 것입니다. 이것은 단순히 기사의 첫 문장을 반환하여 추상적 인 것보다 우리 모델이 추상적으로 더 추출하도록 격려 한 결과를 가져 왔습니다. 그러므로 이런 종류의 편견을 피하기 위해 문제를 제기하는 기사를 삭제하여 큐 레이션 작업을 수행해야했습니다.

데이터, 인공 지능 및 내 프로젝트에 대한 블로그.

자동 요약은 긴 텍스트 또는 일련의 텍스트를 취하고 대부분의 정보를 포함하는 훨씬 짧은 텍스트를 자동으로 생성하는 것입니다. 단순한 ? 그다지 많지 않습니다. 첫째, 어떤 정보가 정말로 중요한지 동의해야합니다. 그런 다음, 우리는 그것들을 올바르게 추출하고, 모든 문법적 텍스트로 그리고 인간의 개입없이 재구성 할 수 있어야합니다. 그리고 그것은 가능한 요약의 많은 변형에 의존하지 않습니다 !

박사 학위 직전 에이 흥미로운 주제에서 약 1 년 동안 일할 수 있었기 때문에이 게시물은이 주제에 몰입하고 영역에서 최신 혁신을 재고 할 수있는 기회입니다.

따라서 두 가지 유형의 시스템에 약간 자세히 설명하기 전에 존재하는 다양한 유형의 요약을 설명 하여이 주제에 대한 개요를 작성하여 AI 및 신경망의 세부 사항 및 최적의 추출에 중점을 둔 것입니다. 정보.

다른 유형의 요약

요약에 대해 이야기 할 때, 우리는 종종 책의 뒷 표지 나 영화 대본의 설명을 생각합니다. 일반적으로 그들은 끝을 망치는 것을 피합니다. 이것이 클래식 자동 요약 도구를 요구하는 것입니다. 여기에 있습니다 모노 문서 요약, 즉, 우리는 단일 문서 (영화, 책, 기사, …) 만 요약한다는 것입니다.

반대로, 우리는 원할 수 있습니다 다중 문서 요약, 언론 검토의 맥락에서 우리는 더 자주 만나는 것 : 우리는 다양한 언론 조직에서보고 한 가장 중요한 정보를 요약하고 싶습니다.

요약하고자하는 데이터 유형, 모노 또는 다중 문서를 결정하면 두 가지 접근 방식 중에서 선택할 수 있습니다추출물, 요약을 만들기 위해 정보를 다시 넣기 전에 정보의 내용과 접근 방식으로 추출하는 것으로 구성됩니다 생성, 더 유동적이고 자유로운 요약을하기 위해 문서에 원래 나타나지 않은 새 문장을 만드는 것으로 구성됩니다.

이러한 기준 외에도 다양한 스타일의 요약이 있습니다. 여기에는 접근하지 않을 것입니다. 새 문서에 나타나는 정보를 요약하고 지금까지 나열되지 않은 정보를 요약하는 것으로 구성된 요약은 정확한 각도를 채택하는 것으로 구성된 요약 지시 사항을 업데이트합니다. 사용자가주는 … ..

AI 및 신경망은 자동 요약에 혁명을 일으킨다

2010 년대 중반까지는 대부분의 요약이 추출되었습니다. 그러나 전체 문장의 선택 및 추출에서부터 정밀한 정보의 추출에 이르기까지, 템플릿이라고 불리는 구멍이있는 텍스트에서 레코딩 된 정확한 정보의 추출에 이르기 까지이 알고리즘에는 이미 큰 다양성이 존재했습니다. 신경망을 기반으로 새로운 접근 방식이 도착하면 상황이 상당히 바뀌 었습니다. 이 알고리즘은이 GPT 데모로 수행 할 수있는 것과 같이 문법 및 유체 텍스트를 생성하기 위해 이전의 알고리즘보다 훨씬 효과적입니다.

그러나 신경망은 많은 양의 데이터를 훈련해야하며 비교적 도재치가 필요합니다. 그들은 진실성이 중요하지 않은 의견을 생성하기 위해 완벽하게 노력하지만, 예를 들어 언론 기사 요약의 맥락에서 문제가되는 모순되거나 단순히 잘못된 정보를 생성 할 수 있습니다. 많은 연구 기사가 신경망의 이러한 “환각”에 관심이 있습니다.

하이브리드 도구의 예 : Potara

자동 요약은 내가 관심이있는 최초의 연구 주제였으며, 마스터 기간 동안 멀티 문서 접근법에 대한 추출/생성에 의한 하이브리드 요약 시스템을 개발할 수있는 기회를 가졌습니다. 같은 주제의.

아이디어는 고전적인 추출, 즉 가장 중요한 문장을 식별하고 요약을 생성하기 위해 조립하는 것이 었습니다. 이 접근법의 문제점은 가장 중요한 문장이 종종 더욱 향상 될 수 있다는 것입니다. 예를 들어, 대통령 변위에 대한 기사에서 “Emmanuel Macron은 미국의 상대방을 만나 경제학에 대해 논의 할 수 있었다”라는 문구가 “Emmanuel Macron은 Joe Biden을 만나 경제에 대해 논의했습니다”라는 문구가 개선 될 수있었습니다. 기자들은 신중하게 리허설을 피하기 위해 이런 종류의 현상에 자주 직면하는 것을 발견합니다.

이 결함을 극복하기 위해, 우리는 다른 문서에 존재하는 유사한 문장을 식별하고 더 나은 문장을 얻기 위해 병합하려고 노력할 수 있습니다. 다음 두 문장에서 Ansi :

  • Emmanuel Macron은 워싱턴에서 미국의 미국인을 만나 경제학에 대해 이야기했습니다.
  • 프랑스 대통령은 Joe Biden을 만나 경제학에 대해 논의했습니다.

짧고 유익한 문장을 만들 수 있습니다

  • Emmanuel Macron은 워싱턴에서 Joe Biden을 만나 경제학에 대해 논의했습니다.

이 결과를 달성하려면 몇 가지 단계가 필요합니다. 비슷한 문장 찾기, 최고의 퓨전 찾기, 퓨전이 원래 문장보다 훨씬 낫다는 점을 확인하십시오. 그들은 많은 기술에 참여합니다 : Neural Network가있는 Word2는 비슷한 문장을 찾기 위해 유사한 문장, 합병을위한 공동 cccurence 그래프, ILP 최적화를위한 최고의 합병을 선택합니다.

더보고 싶다면 Potara는 오픈 소스이지만 한동안 유지되지 않았습니다. 이 프로젝트는 공개되었을 때 쇼케이스로 사용되었으므로 문서화, 테스트, 지속적인 통합, PYPI 배포, ..

좋은 자동 요약은 무엇입니까? ?

특정 기준이 명백하고 비교적 간단 해 보이는 경우 (예 : 문장의 문법)는 훨씬 더 복잡합니다. 텍스트의 가장 중요한 정보가 이미 매우 주관적인 작업 자체가 무엇인지 결정. 사용 된 단어의 올바른 선택 인 유동성을 평가하고 출판 작업으로 돌아와 요약이 취할 수있는 정치적 지향에 대해서는 이야기하지 마십시오 !

신경망을 기반으로 한 새로운 생성 모델은 영화 비평가를 생성 할 때 추구하는 효과 인 대통령 후보의 프로그램에 대해 이야기 할 때는 추구하는 효과 인 중대한 판단 또는 예선 (또는 사용자 친선)을 소개 할 가능성이 높습니다 !

따라서 자동 요약은 연구 분야에서 매우 활발한 주제로 남아 있으며, 특히 알고리즘의 결과를 안내하는 능력, 특정 느낌, 특정 스타일, 주어진 정치적 채색에 관한 능력과 관련하여 잠시 동안 일 수 있습니다. 업계에서 그는 매우 구체적인 경영진에 들어가기 시작합니다 (예 : 회의 요약).

대통령 2022 : 귀하의 데이터에 !

2022 년 대통령 선거를 위해 수행 될 데이터 프로젝트의 3 가지 예.