大数据篇 十二月 23, 2019

Elasticsearch Nested 类型动态数据的组合查询

文章字数 3.7k 阅读约需 3 mins.

背景

Nested 类型的数据不多说了,
先看 mapping:

    "metaArray": {
        "type": "nested",
        "...
查看全文

大数据篇 一月 24, 2019

Elasticsearch analyzer 和 search_analyzer 的使用记录

文章字数 5.8k 阅读约需 5 mins.

环境

  • elasticsearch 6.4.3

示例

下面一段文字用 ik 进行分词

http://34.0.7.184:9200/_analyze/ POST

    {
      "analyzer": "ik_smart",
      "text": "关于加快建设合肥地铁七号线的通知说明"
    }

分词结果

    {
    "tokens": [
    {
    "token": "关于",
    "...
查看全文

大数据篇 八月 13, 2018

Elasticsearch 关键字自动补全的实现

文章字数 9.6k 阅读约需 9 mins.

背景

我们经常能看到在各大电商网站搜索关键字的时候,底下下拉框会补全你要搜索的商品,或者类似的商品,有时候甚至连错别字也能纠正过来,其实ElasticSearch也能实现这样的功能

创建索引

首先,能够被自动补全的需要设置索引类型为”completion”,其次,还可以设置自动提示为中文分词

    {
      "settings": {
        "analysis": {
          "analyzer": {
            "ik": {
              "tokenizer...
查看全文

大数据篇 八月 09, 2018

Elasticsearch 查询全部数据

文章字数 909 阅读约需 1 mins.

背景

有时我们希望查询 固定条件下的全部数据
ES 默认的策略是返回10条数据
虽然可以 setSize()
但是默认上限是 10 万还是 100 万条数据,这不够优雅,一般不这么干

TransportClient 方法

    TimeValue keepAlive = TimeValue.timeValueMinutes(30);
        SearchRequestBuilder searchRequest = client.prepareSearch(ES_KNOWLEDGE_INDEX)
                .setScroll...
查看全文

大数据篇 七月 02, 2018

office 套件的一系列研究记录

文章字数 19k 阅读约需 18 mins.

  1. 安装插件 https://github.com/medcl/elasticsearch-analysis-ik

  2. 测试分词:

    ik_max_word会将文本做最细粒度的拆分;
    ik_smart 会做最粗粒度的拆分。

    http://192.168.10.74:9200/_analyze/ POST
        {
          "analyzer": "ik_max_word",
          "text": "绝地求生是最好玩的游戏"
        }

        和
        ...
查看全文
加载更多
0%