반응형

dictionary

    Java 이모티콘 찾기, 제거 등등

    이번 프로젝트를 진행하면서 이모티콘을 제거하거나 개수를 세거나 이모티콘을 포함한 전체 텍스트 문자를 세거나하는 작업이 있었다. 처음에는 단순하게 EmojiParser를 사용해서 이모티콘을 판단하여 개수도 찾고 이모티콘을 문장에서 제거하려고 했다. 하지만 테스트에서 사용했던 일부 이모지에서는 큰 문제가 없었으나 새롭게 생성되는 이모지를 걸러내지 못하는 이슈가 있었다. 확인해보니 해당 라이브러리에 마지막 릴리즈 날짜는 19년도였다. 이모티콘은 매년 많게는 수천개가 생성되는것에 비해 해당 라이브러리의 마지막 릴리즈 노트 날짜는 너무 처량했다. 해당 라이브러리를 사용하지 못하게 되었고 다른 방법이 없는지 고민하다가 regex를 사용하는 방법 등 여러가지를 사용했었다. 1. 화이트리스트 regex 사용하여 이모티..

    Elasticsearch에서 Dictionary 변경 시 analyzer와 인덱싱된 Document 갱신 방법

    Elasticsearch에서 Dictionary를 사용하여 analyzer를 만들고 그를 사용해서 index에 Document를 인덱싱할 수 있다. 근데 Dictionary가 변경되면 analyzer를 변경하고 indexing된 document를 갱신하려면 어떻게 해야하는지 정리해보자. Background 지식 Analyzer는 character filter, tokenizer, token filter 순서대로 적용한다. 기본적으로 anaylyzer는 indexing time과 search time에 적용된다. index time 분석 대상은 source data(원본 데이터)이고 search time 분석 대상은 query string이다. 그러므로 사전을 변경하는 것은 indexing, serchin..

반응형