DBSCAN_Yelp

ML && DL

发布日期: 2021-11-15

更新日期: 2025-12-03

文章字数: 462

阅读时长: 2 分

阅读次数:

DBSCAN

利用 DBSCAN 聚类算法，对经纬度进行聚类

代码如下：

import pandas as pd
import numpy as np
from sklearn.cluster import DBSCAN
from sklearn import metrics
import os

def dbscan(input_file):
    columns=['lon','lat']
    in_df = pd.read_csv(input_file, sep=',', header=1, names=columns)
    print(in_df)
    coords = in_df.values
 
    kms_per_radian = 6371.0086
   
    epsilon = 0.4 / kms_per_radian
 
    db = DBSCAN(eps=epsilon, min_samples=10, algorithm='ball_tree', metric='haversine').fit(np.radians(coords))
    cluster_labels = db.labels_
 
    num_clusters = len(set(cluster_labels) - set([-1]))
 
    print( 'Clustered ' + str(len(in_df)) + ' points to ' + str(num_clusters) + ' clusters')
 
    for n in range(num_clusters):
        #print('Cluster ', n, ' all samples:')
        one_cluster = coords[cluster_labels == n]
        print(len(one_cluster))
        #clist = one_cluster.tolist()
        #print(clist[0])
        
def main():
    path = './data'
    f = 'placell.csv'
    datafile = os.path.join(path,f)
    print(datafile)
    dbscan(datafile)
    
if __name__ == '__main__':
    main()