laravel5下全文搜索和中文分词:TNTSearch+jieba-php

原创
2019/11/07 18:14
阅读数 625

这套组合可以在不依赖第三方的情况下实现中文全文搜索,项目演示;

laravel new tntsearch

Bash

创建一个文章表和文章模型;

php artisan make:model Models/Article -m

Bash

新建数据库,数据表(略);

修改 .env 数据库配置项;

DB_DATABASE=homestead
DB_USERNAME=homestead
DB_PASSWORD=secret

PHP

生成测试数据;

注意:**一定要是用模型方法,否则会导致插入的内容不被会搜索,因为没有更新索引(**这很重要!!!),以此,下面的方法不行:

public function run()
{
    DB::table('articles')->insert([
        [
            'title' => 'TNTSearch',
            'content' => '一个用PHP编写的功能齐全的全文搜索引擎'
        ],
        [
            'title' => 'jieba-php',
            'content' => '"结巴"中文分词:做最好的php中文分词、中文断词组件'
        ]
    ]);
}

PHP

改用以下方法填充数据:

public function add_data()
{
    $article_m = new Article();
    $article_m ->title = 'TNTSearch';
    $article_m ->content = '一个用PHP编写的功能齐全的全文搜索网站';
    $article_m ->save();
}

PHP

同理:修改数据也需要用到模型方法:

public function update_data()
{
    $article = Article::find(1);
$article ->title = "jieba-php";
    $article ->content = ""结巴"中文分词:做最好的php中文分词、中文断词组件。";
    $article ->save();
}

PHP

同理:删除数据也需要用到索引方法:

public function delate_data()
{
    $article = Article::find(1);
    $article ->delete();
}

PHP

/routes/web.php

<?php
use App\Models\Article;

Route::get('search', function () {
    // 为查看方便都转成数组
    dump(Article::all()->toArray());
});

PHP

准备工作终于做完了; 另外因为依赖 SQLite 存储索引; 再确认下自己的 php 开启了以下扩展;

pdo_sqlite
sqlite3
mbstring

Bash

现在开始正题;

以前; 我们需要自己 require scout; scout 是 laravel 官方提供的用于全文搜索的扩展包; 它为我们提供了方便的命令行; 而且当我们增删改查文章后它会自动同步索引; 然后 require tntsearch 为 scout 提供的 laravel-scout-tntsearch-driver ; 再然后编写使用中文分词的逻辑; 现在有了 vanry 为我们造的轮子 laravel-scout-tntsearch ; 以前到现在这中间的步骤就可以省略了; 直接 require laravel-scout-tntsearch-driver ;

composer require vanry/laravel-scout-tntsearch

Bash

添加 Provider ; config/app.php

'providers' => [

    // ...

    /**
     * TNTSearch 全文搜索
     */
    Laravel\Scout\ScoutServiceProvider::class,
    Vanry\Scout\TNTSearchScoutServiceProvider::class,
],

PHP

中文分词 require jieba-php

composer require fukuball/jieba-php

Bash

发布配置项;

php artisan vendor:publish --provider="Laravel\Scout\ScoutServiceProvider"

Bash

配置项中增加 tntsearch ; /config/scout.php ;

'tntsearch' => [
    'storage' => storage_path('indexes'), //必须有可写权限
    'fuzziness' => env('TNTSEARCH_FUZZINESS', false),
    'searchBoolean' => env('TNTSEARCH_BOOLEAN', false),
    'asYouType' => false,

    'fuzzy' => [
        'prefix_length' => 2,
        'max_expansions' => 50,
        'distance' => 2,
    ],

    'tokenizer' => [
        'driver' => env('TNTSEARCH_TOKENIZER', 'default'),

        'jieba' => [
            'dict' => 'small',
            //'user_dict' => resource_path('dicts/mydict.txt'), //自定义词典路径
        ],

        'analysis' => [
            'result_type' => 2,
            'unit_word' => true,
            'differ_max' => true,
        ],

        'scws' => [
            'charset' => 'utf-8',
            'dict' => '/usr/local/scws/etc/dict.utf8.xdb',
            'rule' => '/usr/local/scws/etc/rules.utf8.ini',
            'multi' => 1,
            'ignore' => true,
            'duality' => false,
        ],
    ],

    'stopwords' => [
        '的',
        '了',
        '而是',
    ],
],

PHP

增加配置项; /.env ;

SCOUT_DRIVER=tntsearch
TNTSEARCH_TOKENIZER=jieba

Bash

模型中定义全文搜索; /app/Models/Article.php

<?php

namespace App\Models;

use Illuminate\Database\Eloquent\Model;
use Laravel\Scout\Searchable;

class Article extends Model
{
    use Searchable;

    /**
     * 索引的字段
     *
     * @return array
     */
    public function toSearchableArray()
    {
        return $this->only('id', 'title', 'content');
    }
}

PHP

php 默认的 memory_limit 是 128M; 为了防止 PHP Fatal error: Allowed memory size of n bytes exhausted; 咱给增加到 256M 以解决内存不够报错的问题; /app/Providers/AppServiceProvider.php

public function boot()
{
    /**
     * 增加内存防止中文分词报错
     */
    ini_set('memory_limit', "256M");
}

PHP

生成索引;

php artisan scout:import "App\Models\Article"

Bash

使用起来也相当简单; 只需要把要搜索的内容传给 search() 方法即可; /routes/web.php

<?php
use App\Models\Article;

Route::get('search', function () {
    // 为查看方便都转成数组
    dump(Article::all()->toArray());
    dump(Article::search('功能齐全的搜索引擎')->get()->toArray());
});

PHP

成功的查出了数据; 最后我们再测下修改数据、删除数据后的同步索引(上文有提到);

参考链接: 1.https://baijunyao.com/article/154 2.https://learnku.com/docs/laravel/5.7/scout/2309

展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部