我使用的nebula-spark版本：使用最新的v1.0分支代码打包的1.1.0版本我的数据示例： <a target="_b

直接通过网页客户端scan应该也行吧？这个是scan的结果 <a target="_blank" rel="noopener noreferrer nofollow

大致改了下，可以读到正确的顺序了 <div class="snippet-clipboard-content notranslate position-relati

spark-connector读出来的列似乎存在错位的情况 about nebula-java HOT 5 CLOSED

ReviveChan commented on June 11, 2024

spark-connector读出来的列似乎存在错位的情况

from nebula-java.

Comments (5)

Nicole00 commented on June 11, 2024

spark-connector得到的Dataframe是由 schema和数据分别按顺序映射组装而成，schema是通过metaClient单独读取，要先确认下metaClient读取到的tag的schema顺序和scan出的数据的顺序是否一致。

你先看下spark日志中“dataset's schema:“ 这一行日志打印出的DF的schema信息
可以通过java-client scan 该tag中的数据，看得到的数据顺序是否与schema顺序一致。

from nebula-java.

ReviveChan commented on June 11, 2024

直接通过网页客户端scan应该也行吧？这个是scan的结果

dataset schema日志：

20/12/07 21:30:06 INFO NebulaRelation: dataset's schema: StructType(StructField(_vertexId,StringType,false), StructField(vid,StringType,true), StructField(vlength,LongType,true), StructField(inDegree,LongType,true), StructField(groupID,LongType,true), StructField(isKey,LongType,true))

看来不是一致的，不知道怎么调整？

from nebula-java.

ReviveChan commented on June 11, 2024

我翻了下代码
https://github.com/vesoft-inc/nebula-java/blob/v1.0/tools/nebula-spark/src/main/scala/com/vesoft/nebula/tools/connector/reader/NebulaRelation.scala#L46
这边构造df的schema时，使用metaClient.getTagSchema返回的nebula schema类型是Map[String, Class]
看起来是可能会出现顺序丢失的情况，不知道是不是这个原因

from nebula-java.

ReviveChan commented on June 11, 2024

大致改了下，可以读到正确的顺序了

  /**
    * return the dataset's schema. Schema includes configured cols in returnCols or includes all properties in nebula.
    */
  def getSchema(nebulaOptions: NebulaOptions): StructType = {
    val returnColMap = nebulaOptions.getReturnColMap
    val fields: ListBuffer[StructField] = new ListBuffer[StructField]
    val metaClient = NebulaUtils.createMetaClient(nebulaOptions.getHostAndPorts, nebulaOptions)

    import scala.collection.JavaConverters._
    var nebulaSchema: Schema = null

    returnColMap.keySet.foreach(k => {
      if (DataTypeEnum.VERTEX.toString.equalsIgnoreCase(nebulaOptions.dataType)) {
        fields.append(DataTypes.createStructField("_vertexId", DataTypes.StringType, false))
        nebulaSchema = metaClient.getTag(nebulaOptions.spaceName, nebulaOptions.label)
      } else {
        fields.append(DataTypes.createStructField("_srcId", DataTypes.StringType, false))
        fields.append(DataTypes.createStructField("_dstId", DataTypes.StringType, false))
        nebulaSchema = metaClient.getEdge(nebulaOptions.spaceName, nebulaOptions.label)
      }
      if (nebulaOptions.allCols) {
        // if allCols is true, then fields should contain all properties.
        nebulaSchema.columns.asScala
          .foreach(columnDef => {
            LOG.info(s"prop name ${columnDef.getName}, type ${columnDef.getType} ")
            fields.append(
              DataTypes.createStructField(columnDef.getName,
                NebulaUtils.convertDataType(NebulaTypeUtil.supportedTypeToClass(columnDef.getType.getType)),
                true))
          })
      } else {
        // todo 暂未实现指定列
        throw new Error("to be continued")
      }
      labelFields ++ Map(k -> fields)
      datasetSchema = new StructType(fields.toArray)
    })
    LOG.info(s"dataset's schema: $datasetSchema")
    datasetSchema
  }

df schema顺序：

20/12/07 22:19:55 INFO NebulaRelation: dataset's schema: StructType(StructField(_vertexId,StringType,false), StructField(vid,StringType,true), StructField(vlength,LongType,true), StructField(groupID,LongType,true), StructField(isKey,LongType,true), StructField(inDegree,LongType,true))

不过指定列版本的我就没想了。。

from nebula-java.

Nicole00 commented on June 11, 2024

"这边构造df的schema时，使用metaClient.getTagSchema返回的nebula schema类型是Map[String, Class]
看起来是可能会出现顺序丢失的情况，不知道是不是这个原因"
是你说的这个原因，还是按照tag本身的shema更准确。对于指定列可以采用metaClient.getTagSchema的结果，由入参的列序列来决定顺序。欢迎来提一个pr~

from nebula-java.

spark-connector读出来的列似乎存在错位的情况 about nebula-java HOT 5 CLOSED

Comments (5)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent

Jobs