首页 MySql php – 巨大的列表中的类似名称

php – 巨大的列表中的类似名称

dawei 2021年2月21日 6:02

我有5万家公司的数据库,不断更新(每月200个).重复内容是一个巨大的问题,因为名称并不总是严格/正确：“超级1商店”“超级一店”“超级1商店”编辑：另一个例子……可能需要不同的方法：“Amys Pizza” — “Amy and Company的有机披萨”我们需要工具来扫描

我有5万家公司的数据库,不断更新(每月200个).

重复内容是一个巨大的问题,因为名称并不总是严格/正确：
“超级1商店”
“超级一店”
“超级1商店”

编辑：另一个例子……可能需要不同的方法：
“Amy’s Pizza”< ---> “Amy and Company的有机披萨”

我们需要工具来扫描数据以寻找相似的名称.
我对Levenshtein Distance和LCS有一些经验,但如果2个字符串相似,它们可以很好地进行比较…
在这里,我必须扫描50 000个名称,每个可能是每个,并在那里计算…整体相似性评级……

我需要建议如何攻击这个问题,预期的结果是有一个列表与10-20组非常相似的名称,并可能进一步调整灵敏度以获得更多结果.

最佳答案
我有一年前左右的类似问题,如果我记得很清楚,我解决了(或多或少)使用similar_text和soundex,正如其他人在评论中所说.像这样的东西：


在我的情况下,使用66％的百分比来确定公司是相同的(在这种情况下,不要插入数据库,但发送电子邮件给我审查,并检查是否正确).
经过几个月的解决方案,我决定为公司使用某种独特的代码(在我的案例中是CIF,因为西班牙的公司是独一无二的).



	
		
			本文来自网络，不代表青岛站长网立场。转载请注明出处：							https://www.0532zz.com/html/shujuku/mysql/20210221/17585.html		
					

	
	

				
							

		

	


	
		

			标签:data-analysis MySQL php 编程问




	
		 上一篇如何在ColdFusion和MySql数据库中查找受INSERT INTO语句影响的行数？
		下一篇 mysql – 选择distinct count(id)vs select count(distinct id)
	



	
		
		作者: dawei	
		
			【声明】：青岛站长网内容转载自互联网，其相关言论仅代表作者个人观点绝非权威，不代表本站立场。如您发现内容存在版权问题，请提交相关链接至邮箱：bqsm@foxmail.com，我们将及时予以处理。		
	




		
			为您推荐
			
														
						
							
																	
												
							

									
						mysql – 选择datetime大于指定日期的记录
					

														
						
							
																	
												
							

									
						使用MySql选择记录范围
					

														
						
							
																	
												
							

									
						使用launchctl删除mysql
					

														
						
							
																	
												
							

									
						mysql – Doctrine中的简单IF测试语句
					

														
						
							
																	
												
							

									
						如何在dockerfile中设置mysql用户名
					

														
						
							
																	
												
							

									
						MySQL CASE那么空案例值






	广告

		
		最新文章
		
											
					大数据驱动零售业销售效率提升的策略研究
											2025年8月12日
									
											
					5G技术驱动站长界面革新，重塑极致用户体验
											2025年8月12日
									
											
					Windows系统下搭建Apache HTTP服务器详细教程
											2025年8月12日
									
											
					内容营销新趋势：站长视频直播策略的全面升级解析
											2025年8月12日
									
											
					全球电商新趋势：站长必备机遇与市场深度洞察
											2025年8月12日
									
					

		
广告
云标签
04
asp
asp.net
CentOS
dede教程
django
java
Linux
mvc
MySQL
nginx
oracle
php
python
server
sql
ubuntu
windows
中
云虚拟机
使用
如何
安装
将
应用
数据库
文件
织梦教程
编程
编程问答
广告


	
	

	

		
		

				

			

				【免责声明】本站内容转载自互联网，其发布内容言论不代表本站观点，如果其链接、内容的侵犯您的权益，烦请提交相关链接至邮箱xwei067@foxmail.com我们将及时予以处理。
Copygight © 2016-2023 https://www.0532zz.com All Rights Reserved.青岛站长网
站长：xwei067#foxmail.com（请把#换成@）