在当今全球化的市场中,跨越语言界限,精准捕捉并理解来自全球客户的评论,成为企业提升用户体验、深化市场洞察的关键挑战。BigQuery,作为强大的大数据管理与分析工具,携手多语言嵌入、矢量索引与搜索技术,以及无缝集成的翻译 API,共同打造了一套创新解决方案,让跨语言评论搜索与分析变得前所未有的简单高效。
该方案的核心,在于将海量的文本评论数据转化为数值向量,这一转变彻底颠覆了传统基于关键词的搜索模式,实现了超越语言界限的高级搜索能力。用户不再受限于评论的原始语言,只需以自己的首选语言提问,即可迅速获得经过智能筛选、精准翻译的相关评论结果。这一变革不仅极大提升了搜索结果的准确性和相关性,更为用户带来前所未有的便捷与个性化体验。
通过 BigQuery、多语言嵌入、矢量搜索和翻译 API 获得多语言评论见解
以德克萨斯州企业的Google本地评论数据为例,我们的解决方案能够轻松处理涵盖多种语言的评论集,让即便是对特定亚洲烘焙食品(如正宗蛋挞和广式包子)充满好奇的国际游客,也能在休斯顿的众多商业信息中,以中文提出问题,并快速获得详尽、相关的中文评论反馈。无论评论的原生语言是英文、日文还是其他任何语种,该方案都能确保信息的无缝聚合与精准翻译,让全球用户都能轻松获取并理解来自不同文化背景的真实声音。
通过这一创新解决方案,企业不仅能够更深入地理解全球客户的真实需求与反馈,还能有效促进跨文化交流,为全球化战略的成功实施奠定坚实基础。
翻译前:
在 BigQuery 中翻译后:在下面以 GIF 形式呈现的演示中,我们展示了三种语言的搜索功能:
中文
英文
西班牙文
用于此解决方案的 BigQuery 内置函数如下所示
Generate Embeddings for Source data:
CREATE OR REPLACE TABLE `xxxxxxx.reviews.multilingual_texas_reviews_Bakery_embedding` AS
(SELECT *
FROM ML.GENERATE_EMBEDDING(
MODEL `xxxxxxx.reviews.multilingual_embedding`,
(SELECT CONCAT(extracted_text,',',rating,',',category) AS content
FROM `xxxxxxx.reviews.multilingual_texas_reviews` )
)
);
Create Vector Index for Vector Search:
CREATE OR REPLACE VECTOR INDEX multilingual_review_index
ON `xxxxxxx.reviews.multilingual_texas_reviews_Bakery_embedding`(ml_generate_embedding_result)
OPTIONS(index_type = 'IVF',
distance_type = 'COSINE',
ivf_options = '{"num_lists":500}')
Check information schema that vector indexes are created
SELECT table_name, index_name, index_status,
coverage_percentage, last_refresh_time, disable_reason
FROM `xxxxxxx.reviews.INFORMATION_SCHEMA.VECTOR_INDEXES`
Vector Search for your question
SELECT query.query, base.content, base.rating, base.category
FROM VECTOR_SEARCH(
TABLE `xxxxxxx.reviews.multilingual_texas_reviews_Bakery_embedding`, 'ml_generate_embedding_result',
(
SELECT ml_generate_embedding_result, content AS query
FROM ML.GENERATE_EMBEDDING(
MODEL `xxxxxxx.reviews.multilingual_embedding`,
(SELECT "休士頓哪裡有正宗的葡式蛋撻和港式麵包?" AS content))
),
top_k => 10, options => '{"fraction_lists_to_search": 0.08}')
Translation API to detect source language:
SELECT
ml_translate_result.languages[0].language_code AS target_language_code
FROM
ML.TRANSLATE(MODEL `xxxxxxx.reviews.model_cloud_translate`, (
SELECT "休士頓哪裡有正宗的葡式蛋撻和港式麵包?" AS text_content),
STRUCT("detect_language" AS translate_mode))
Translation API to translate reviews:
SELECT
text_content AS `Original Text`,
"zh-CN" AS `Destination Language`,
STRING(ml_translate_result.translations[0].translated_text) AS Translation
FROM ML.TRANSLATE(
MODEL `xxxxxxx.reviews.model_cloud_translate`,
(select '{txt_}' as text_content),
STRUCT('translate_text' AS translate_mode, '{lang_}' AS target_language_code))
解决方案演示:
对评论数据集进行多语言搜索:借助 BigQuery 的强大功能,以您喜欢的语言提出问题并获取结果!
客户轻松跨越语言障碍,用喜爱语言搜索并阅读评论。Gemini 扩展方案助力,自动总结分类评论,让信息一目了然。此方案灵活适用各类产品评论、商业反馈及多语言数据集,只需添加搜索功能,用户即可按需获取解答。
展望 BigQuery 的潜力,它不仅是数据分析的利器,更是数据与 AI 工具创新的源泉。利用 BigQuery,我们可以构建各种实用工具,如市场趋势预测模型、个性化推荐系统等,挖掘数据深层价值,推动业务增长。