Newlearnerの自留地
61.3K subscribers
13.9K photos
43 videos
63 files
10.6K links
🆕 不定期推送 IT 相关资讯,欢迎关注!

👥 博客群&投稿群&交流群: @NewlearnerGroup

📩 投稿请私信 @newlearner_pm_bot

🔍 频道内容关键词索引 Bot: @newlearner_search_bot

* 未经授权或标注来源,不得转载本频道内容
Download Telegram
#Search

多吉搜索:简单易用清真的搜索引擎

https://www.dogedoge.com/

开发者做了100天,现在有了几百万的累积搜索总量。最近新增了天气查询功能

试着用了一下,感觉还不错。搜索结果虽然还是严格按照中国法律规定来的,但是没有广告,没有竞价,对博客等个人平台十分友好。可以作为临时的替代品

开发者的理念、做引擎的初衷是和对未来的展望也让我产生敬意

👉 多吉搜索目前的情况和感想总结

频道:@NewlearnerChannel
Newlearnerの自留地
Photo
#Search

多吉搜索:简单易用清真的搜索引擎近期更新了 index logo,可爱的狗狗

https://www.dogedoge.com/

此外应该是去除了首页的天气,搜索页的图标还没有更换。总的来说是一个很简洁的搜索页,对个人站长也很友好

收录本站且赋予应有权重的都是好引擎(确信

频道:@NewlearnerChannel
Newlearnerの自留地
#Search 多吉搜索:简单易用清真的搜索引擎近期更新了 index logo,可爱的狗狗 https://www.dogedoge.com/ 此外应该是去除了首页的天气,搜索页的图标还没有更换。总的来说是一个很简洁的搜索页,对个人站长也很友好 收录本站且赋予应有权重的都是好引擎(确信 频道:@NewlearnerChannel
#Github情报 #Search

xinahn(信安):一个开源,高隐私,自架自用的聚合搜索引擎

后端源码 | 前端源码 | Demo

👉 Features:

- 开源前端和后端,可自己架设
- 无追踪,去广告
- 聚合多个搜索引擎:谷歌、bing、知乎、百度、百度知道、百度百科

后续还打算加入多吉、360 和搜狗。本站收录情况不太好,倒是可以找到一些我的友链和 ctrl+c/v 用户

频道:@NewlearnerChannel
#News #Google #Search

Google 今天发布了年度热搜榜以及「Hero」为主题的视频

🔍 年度热搜词:Heroes(英雄)

🎬 年度视频:Google - Year in Search 2019

以英雄为主题的年度总结视频中,谷歌为我们带来了《复仇者联盟:最终之战》中的漫威英雄,还有生活中平凡的个人:消防员、运动员、外卖小哥…大家渴望英雄,而每个人也可以做自己的英雄

当然,谷歌还制作了一个网页,以展示从「全球」到「国家和地区」在 2019 年的热搜词排名:Google Trends

频道:@NewlearnerChannel
Newlearnerの自留地
#telegram #Bot #Github情报 telegram-search:一个支持中文频道/群组搜索的 TG Bot Github | Telegram Bot 👉 Features: - 中文分词引擎 - 可按日期搜索 - Telegram Bot 前端 - 可拓展的定制化搜索引擎 👉 使用:直接输入关键词即可,搜索支持 Lucene 语法 每日速览 +每日速览 +date:2019-12-25 +每日速览 +date:[2019-12-25 TO 2019-12-30] 之前为了解决…
#telegram #Channel #Search

🔍 本频道很荣幸地从即日起被 sssoou.com TG 频道搜索引擎收录并展示于首页

👉 使用方法:传送门

点击之后会自动跳到搜索引擎网页并自动勾选本频道,接着在搜索框输入关键词即可

sssoou.com 是 TG 优质的频道搜索聚合引擎,旨在帮助大家更快搜索🔍频道内容,有助于解决原生对中文搜索不友好的问题

👏欢迎大家前往网页使用或者在 @sssoou_resource 搜索。此前制作的自留地导航我会一直维护,对分类有要求的朋友可以前往:自留地导航

频道:@NewlearnerChannel
5👍5🆒1
#telegram #Bot #Search

🔍 TG 中文搜索一直被大家所诟病,这其中有一些原因,但归根结底不好用。为了给大家带来更好的搜索体验,自留地一直在探索优化的方法。我们在每条消息添加 Tag,将英文前后空格便于搜索,但收效甚微

更进一步的,我们为时效性不强的、偏干货性质的消息做了 自留地导航,和 sssoou.com TG 频道搜索达成了合作。以上措施极大地方便了本人、主编和各位订阅者搜寻频道消息。今天,我将完成整个体系的最后一环:「自留地索引 Bot」,让大家不出 TG、无需打开网页即可完成频道消息搜索

🤖 自留地索引 Bot:@newlearner_search_bot

项目使用了此前介绍的 telegram-search,在部署过程中遇到了一些问题,一并和大家分享解决过程:

1️⃣ 运行 python main.py 前,需手动在 clone 文件夹建立名为“session”的文件夹
2️⃣ 针对小内存(512 MB、1 GB)服务器,建议开启 1G Swap,否则可能将无法启动程序
3️⃣ 运行命令 sysctl -w vm.max_map_count=262144,并在 docker-compose.yml 里面的 elasticsearch 加入 ES_JAVA_OPTS=-Xms512m -Xmx512m
4️⃣ 搜索结果长度可以自由设置,前往 main.py 修改(默认 15 字符),运行 docker-compose builddocker-compose up 即生效

👀 希望大家可以通过这个机器人找到自己想要的信息,目前发现的问题是受搜索结果长度限制,有时不能很好地反映出整条消息的大意;此外机器人会将关键词自动拆分成几个词组并分别搜寻汇总,导致结果数量庞大,使用时请将每个关键词分开并在前面添加

例如:“+iPhone +Android”表示寻找一条既包含“iPhone”又包含“Android”字段的消息(即 Lucene 查询语法)

❤️ 感谢开发者 EEYHN 的耐心指导,也欢迎大家在使用过程中向我们提出建议

频道:@NewlearnerChannel
👍72🤔1
#telegram #Search #Bot #Blog

Telegram 中文搜索方案探索(频道)

🔍 这篇文章将从 Telegram 中文搜索现状、逻辑,另辟蹊径的搜索方案和各种方案横向对比等角度出发,让自留地的读者朋友了解到,为了做好本频道的搜索我们做了哪些努力和尝试

因此不再啰嗦地细数,感兴趣的朋友可以直接阅读。私以为鉴于英语的句式组成,短期内 Telegram 并不会做出有建设性的改善。请注意上述方案只针对单个群组/频道,也欢迎大家来稿谈一谈你目前的方案

📝 自留地索引指南:

1️⃣ 使用自留地索引 Bot(新)
2️⃣ 使用自留地索引 Bot(旧)
2️⃣ 使用 sssoou.com 搜索引擎
3️⃣ 使用自留地导航页(博客)

📘 关联阅读:为什么 Telegram 不能搜寻中文讯息

频道:@NewlearnerChannel
👍72
#Search #Blog #碎碎念

🔍 如何使用搜索引擎找到技术问题的答案

在说搜索之前,想谈谈如何「提问」,或者换句话说:问题的产生。因为我发现,很多朋友遇到问题时,没有能力去发现、归纳问题所在。譬如 xxx 项目安装失败了,第一反应不是清晰描述、给出截图、附上 log,而是告诉大家:“我安装 xxx 失败了”,等着大家「循循善诱」。前述:论科学提问的重要性

因此在使用搜索引擎之前,我们首先要培养自己发现和归纳问题的一种思维,用简洁而必要的语句和关键词描述出自己的问题。如果能确定一下排查的方向就更好了,但这需要经验的累积

解决了「如何问」的问题,下面就来到了本文的关注点:「怎么查」。作者的观点很明确,提炼出来就是:用英文搜素引擎、提取关键词、掌握专业术语。我认为谷歌是一个兼容并包的平台,收录几乎来者不拒,要流量无竞价广告的运营理念让很多优质的社区和个人博客排名靠前(同时也有 Content Farm)。使用英文关键词搜索,可以帮助你找到 Stackoverflow、GitHub Issues 等高质量答案;中文某些社区确实存在抄袭、机翻等问题,但这并不代表反对用中文搜索

希望大家在阅读完之后能够形成一套产生问题、描述问题、查找问题、解决问题的方法

📘 关联阅读:互联网上常用缩略语集锦

频道:@NewlearnerChannel
👍2
#telegram #Search

🔍 为什么 Telegram 不能搜寻中文讯息

⭕️ 圈重点:

- Telegram 使用 SQLite 作为资料库
- fts 全文搜索将字串以 Tokenizer 切割成短语,分别取 Hash,寻找时与哈希表进行比对
- 标记生成器根据分离器、分隔符切割字串
- 分离器、分隔符之外的成分为「令牌」,有“大号*(字母),N *(数字)及Co(其他)”三种预设
- 中日韩文字属于 unicode CJK,绝大多数被识别为令牌

(╯﹏╰) 从而,汉字语汉字间没有任何分隔符,会被整串拿去哈希,于是导致搜寻无效。本文从代码的角度很好地说明了 Telegram 的中文消息搜索为何如此之烂

👨🏻‍💻 作者给了两个建议:

1️⃣ 手动在汉字间插入不可见的分离器
2️⃣ 写个客制化的 Tokenizer,即魔改 Telegram 客户端软件

❤️ 感谢群友分享此文,之前自留地也通过不同的思路整理了中文搜索方案,并认为目前的最优解是通过全局爬虫+数据库索引实现:Telegram 中文搜索方案探索

频道:@NewlearnerChannel
👍3
#APPLE #Search #碎碎念

🔎 迹象表明,Apple 即将推出搜索引擎…吗?

近日,Coywolf 的一份报告称:“迹象表明,苹果将推出自己的搜索引擎,和谷歌进行竞争。”文中列举了一些论据,并对此事持乐观态度。我和群友们很感兴趣,也想谈谈自己的看法

👉 迹象:

- CMA 认为苹果设置浏览器默认引擎违反公平竞争的原则
- 苹果在搜索方面投入资金和资源
- 新 Beta 系统中聚焦结果直接指向网站,不通过第三方引擎跳转
- Applebot 文档 7 月更新 SEO 相关内容;爬虫进行活跃的网页爬取工作

🚩 读完后我了解到两个被忽视的事实:一是,苹果有自己的网络爬虫,并为“Siri 建议”和“聚焦建议”提供服务,甚至直接在文档称「Apple Search」大写名词;二是,Beta 可绕过第三方搜索引擎,直接在 Siri 或聚焦中呈现结果(主编测试 iPad 通过)

💡目前苹果已经运用搜索引擎技术于自家系统,因此重点在于:苹果是否会推出独立的搜索引擎和网页服务。我的看法:短期内推出的概率极低甚至为零;长期来看即使因外部环境原因推出,也不符合苹果的一贯做法

苹果一直被视为软硬件好的方案整合商。如果做 Web 搜索引擎, 需跨领域,有大量有经验人员协助开发维护,还要考虑是否开展广告投放、隐私等问题。但苹果并不能在方方面面崭露头角,去年推出的服务没有掀起太大波澜,也没能有效地和领域内的深耕者竞争。使用谷歌引擎和生态已经成了海外大多数人的习惯,想要转变很难。同时,在遭遇反托拉斯的当下,苹果得罪谷歌也不是个明智之举,和则两利

🍎 更重要的是,一个可无障碍访问的 Web 引擎并非苹果一贯风格。其服务根植于生态,或融合于系统、或以 App 存在。收购 Workflow 后将其整合进系统,成为捷径;老牌服务 Apple Music 迟迟推出网页版都体现了这一点。苹果希望用户在其生态范围内使用服务,我也倾向于本次「迹象」只是表明了苹果希望基于系统提供一些搜索服务,而非进一步扩张

🔐 抛开顾虑推测,作为用户我希望苹果推出搜索引擎,带来多种选择。谷歌已经被「内容农场」作得面目全非,不得不靠插件清除。对中文内容的不重视和疏于监管可见一斑。但考虑苹果对于隐私的一贯追求,恐怕很难看到愿望成真

👀 以上是个人观点,大家对于本次事件也会有不同的解读,欢迎进群和我们聊聊~

频道:@NewlearnerChannel